Tidy data БЛОГ

Проверяем гипотезы при помощи статистики

Новое лекарство работает? Какой баннер лучше?
Осторожно
Много букв и даже формулы!

Содержание

В статистике заключена волшебная магия. По мере роста числа наблюдений случайные отклонения компенсируют друг друга, и проявляется общая тенденция.

Делая серии по 100 подбрасываний «честной» монетки, решка будет выпадать 51, 48, 56 и даже 35 раз. Но чем больше серий подбрасываний вы выполните, тем ближе средний результат будет стремиться к истинным 50 на 50.
Со временем вы обнаружите, что отклонение от истинных 50/50 подчиняются некому закону. Минимальные отклонения встречаются часто, а значительные (например, 35 выпадений решки и 65 орла) крайне редко!

Подробнее об этом рассказывает центральная предельная теорема.
Если не хочется разбираться, просто посмотрите визуализацию.
Закон больших чисел позволяет оценивать вероятность явления только по выборке объектов. Чем больше выборка, тем лучше случайные факторы компенсируют друг друга и проявляется общая тенденция.

При помощи выборочных исследований мы можем проводить эксперименты: тестировать эффективность новых лекарств и управленческих методик, измерять прирост спортивных результатов после покупки новой амуниции, и даже выбирать объективно лучший дизайн среди конкурирующих вариантов.
Всех выборочных замеров касается главный вопрос: разница между выборками получена случайно или причиной изменений послужил фактор воздействия?
Ведь возможно, что лучший спортивный результат достигнут просто из-за хорошего настроения гонщика, а не из-за новых колес за 10 000$. Статистические тесты нужны, чтобы ответить на этот вопрос.
Про научный подход к проверке статистических гипотез
Научный подход исходит из предпосылки о том, что мы не можем доказать, что синих кошек не существует. Даже если мы изучили 100, 1 000 или 100 000 кошечек и среди них не оказалось синей, это не значит, что 100 001 не окажется именно такой. Подойдем к задаче с другой стороны. Рассмотрим нулевую гипотезу о том, что синие кошки все же есть. Рассчитаем вероятность такого расклада. Если эта вероятность ниже порога (0.05 для экономики, 0.003 в медицине, 0.0001 в физике), то мы отвергнем нулевую гипотезу и примем альтернативную.

Так как мы по части судим о целом, наш подход подразумевает два типа ошибок:

Ошибка 1-го рода — ложное обнаружение. Ситуации, когда мы отклонили нулевую гипотезу, хотя она была верна. Иными словами, мы обнаружили связь там, где ее нет. Например, решили, что новый препарат ускоряет выздоровление, когда это не так.

Ошибка 2-го рода — ложный пропуск. Ситуации, когда мы приняли нулевую гипотезу, хотя была верна альтернативная. Не заметили действие препарата, хотя он реально ускоряет выздоровление.

Статистические тесты

Самый распространенный класс методик для проверки гипотез базируется на t-критерии Стьюдента. Допустим пациенты, которые приняли новый препарат, выздоравливали, в среднем, за 14 дней. Вторая группа – контрольная. Это выборка людей, которые принимали плацебо. Они выздоравливали, в среднем, за 18 дней. Является ли разница в 4 дня показателем, того что препарат действительно работает или различия получены случайно?

Для ответа на этот вопрос нужно заглянуть внутрь данных и узнать важную величину – степень вариации. То есть степень разброса индивидуальных значений относительно среднего. Одно дело, если все в тестовой группе, как один, выздоравливали за 14 дней после приема нового лекарства. Совсем другое дело, когда 14 было получено усреднением чисел из диапазона от 1 до 28.
Чем сильнее разброс в данных, тем больше наблюдений требуется для проверки гипотез. Этот разброс называется дисперсией, а корень из дисперсии – стандартным отклонением.

Стандартное отклонение показывает, на сколько в среднем каждое индивидуальное значение отличается от среднеарифметического.
Правило 6 сигм
В случае с нормальным распределением, 95% наблюдений лежат в диапазоне +-2 стандартных отклонений от среднего. Этот закон легко понять на практике: слишком низкие и слишком высокие люди встречаются гораздо реже, чем люди среднего роста.
Алгоритм проверки гипотез при помощи t-критерия Стьюдента:

  1. Оценка среднего по выборке всегда немного отличается от истинного среднего по генеральной совокупности. Чем ниже дисперсия и чем больше размер выборки, тем меньше ошибка репрезентативности .
  2. Если выборка подчиняется нормальному распределению и не содержит выбросов, то ошибки этой выборки тоже будут подчиняться закону нормального распределения (или закону t-распределения Стьюдента, когда размер выборки меньше 30 наблюдений)
  3. В следствие п.2 только 5% ошибок выборки будут лежать за пределами двух стандартных ошибок от среднего. Этот диапазон называется доверительным интервалом. С вероятностью 0.95 в пределах этого интервала заключено истинное среднее по генеральной совокупности.
  4. Если средние по выборкам находятся за пределами доверительного интервала — это означает, что такая разница между ними получена не случайно.
Нам остается рассчитать доверительный интервал и сделать правильные выводы.
Формулы расчета доверительного интервала
Формулы расчета доверительного интервала для среднего
Уильям Сили Госсет позаботился о будущих поколениях статистиков и создал таблицу распределения Стьюдента (это его псевдоним). В таблице приведены критические значения t-критерия. T-критерий — это разница между выборочными средними, выраженная в стандартных ошибках выборки. Если t-критерий превышает критическое значение — это значит, что средние по выборкам находятся за пределами доверительного интервала, а отличие между ними можно считать неслучайными.

Мы можем регулировать уровень доверия к эксперименту, устанавливая p-level (визуализация тут). В областях, не связанных с жизнью и здоровьем людей, пороговый p устанавливается на уровне 0.05, в медицине p=0.003. То есть значимые различия между средними будут признаны только, если они удалены друг от друга на целых 3 стандартных ошибки!
Делаем выводы правильно

Если t-критерий НЕ превышает пороговое t, при p-lavel = 0.05 — это значит, что у нас нет оснований для отклонения нулевой гипотезы. Скорее всего, различия между средними значениями получены просто из-за ошибки выборки.

Если фактическое t превышает критическое табличное значение при p=0.05 — это означает, что мы обнаружили значимую закономерность! Можно начинать писать научную статью или отчитываться перед боссом об успехах. Остается оформить корректные выводы.

Обыватель скажет, что он обнаружил значимые (НЕ случайные) отличия между средними.

Специалист с высшим образованием сделает вывод более осмысленно: различия между подгруппами обусловлены не ошибкой выборки, а реальными различиями между показателями в генеральной совокупности (с риском ошибки не больше 0.05).

Из уст мастера статистики вывод будет звучать так: вероятность получить такое, или еще более выраженное отклонение среднеарифметического значения при расчете по выборке, если нулевая гипотеза верна, НЕ больше 0.05.

Дисперсионный анализ

Статистические тесты подходят только для сравнения двух групп. Если их больше, то применяется дисперсионный анализ. Он обнаруживает зависимости в данных путем изучения разнородности дисперсии.
Дисперсионный анализ
Визуализация дисперсионного анализа. Еще подробнее тут.
Задача дисперсионного анализа определить, чем вызван разброс данных эксперимента: общей изменчивостью признака или отличиями между подгруппами. Это делается при помощи F-теста, который показывает во сколько раз межгрупповая изменчивость больше внутригрупповой.

Если между подгруппами нет существенной разницы, то межгрупповая дисперсия будет незначительно превышать собственную дисперсию подгрупп. Для случайных величин это отношение описывает теоретическое распределение Фишера. Мы сравниваем F-критерий, рассчитанный по реальным данным с табличным, теоретическим значением. Наличие связи признается, если F фактическое > F табличного.

Значимый результат свидетельствует о наличии связи как минимум в одной паре факторов. Чтобы узнать, какая именно пара связана между собой, применяется множественные сравнения.
F-критерий формула
Формула расчета F-статистики Фишера

Если данные нечисловые.
Критерий Хи-2

На практике часто встречаются задачи, когда нужно обнаружить или опровергнуть наличие связи между категориальными переменными. Например, зависимость вероятности попадания в ДТП от знака зодиака водителя.

Такие данные нечисловые. Мы не можем рассчитать средний знак зодиака, но можем построить перекрёстную таблицу:
    Перекрестная таблица хи-квадрат
    Перекрестная таблица хи-квадрат пример
    Ожидается, что если факторы НЕ связаны между собой (знаки зодиака и попадание в ДТП), то ячейки должны быть заполнены равномерно. Минимальное отклонение от равномерного распределения допустимо из-за ошибки, которую вносит выборка.

    В нижнем сегменте таблицы проводится расчет ожидаемых частот, то есть частот, которые мы ожидаем увидеть, если факторы на связаны между собой.

    Критерий хи-квадрат сопоставляет ожидаемые и фактические частоты в каждой ячейке. Существует и теоретическое, табличное распределение хи-квадрат, которое отражает распределение ожидаемых и фактических частот, если переменные НЕ связаны между собой.
    Формула Хи-квадрат
    Формула расчета Хи-квадрат
    Нам остается рассчитать критерий хи-квадрат и сравнить полученное значение с пороговым табличным значением при p=0.05. Если хи-квадрат превышает табличные значения, значит переменные связаны между собой. В случае с ДТП и знаками зодиака хи-квадрат меньше критического значения. Значит у нас нет оснований для отклонения нулевой гипотезы о наличии связи между ними.

    Распределение Хи-квадрат с k степеней свободы описывает разницу между фактическим и ожидаемым распределением частот по ячейкам. Оно имеет асимметричную форму, потому что минимальные отклонения между фактической и ожидаемой частотой у независимых признаков встречаются гораздо чаще, чем сильные.

    Степени свободы — число подгрупп минус один.

    На графике можно найти хи-квадрат, соответствующий уровню значимости 0.05. Если рассчитанный хи-квадрат больше этого значения, значит распределение все же не случайно и между факторами существует связь.

    Технические детали

    Осторожно, жесть! Поправки, непараметрические аналоги, условия применения. Если ваши данные не отвечают условиям достаточного размера выборки, нормального распределения и отсутствия выбросов — не беда! Человечество изобрело бутстрэп анализ.
    Тесты на основе t-критерия
    Условия применения:
    • нормальное распределение, отсутствие выбросов;
    • размер выборки не меньше 30 наблюдений.

    Если данные не отвечают этим критериям, то применяется U критерий Манна-Уитни. Это непараметрический тест, в котором для расчета используются не исходные данные, а их ранговые позиции. Если групп больше двух, подойдет критерий Краскела-Уоллиса.
    Если выборок две и они зависимые применяется ранговый Т-критерий Уилкоксона.

    К зависимым выборкам относятся повторные измерения одного параметра (например, до и после воздействия) и гомоморфные пары (когда одному случаю в первой выборке соответствует только одно наблюдение из второй).
    Дисперсионный анализ
    Условия применения:
    • нормальное распределение, отсутствие выбросов;
    • гомогенность дисперсий.
    Значимые показания p-value означают, что как минимум две группы из всех изучаемых значимо отличаются. Чтобы узнать какие именно это группы, применяются множественные сравнения. При увеличении количества сравниваемых групп, растет вероятность найти отличия там, где их нет. Чтобы избежать такой ситуации, применяются поправки Бонферони, Тьюки или Шеффе.

    Разновидности дисперсионного анализа:
    • Однофакторный
    • Многофакторный
    • Для независимых переменных
    • Для зависимых переменных
    • Ковариационный анализ (для выборок с разной дисперсией)
    Хи-квадрат
    Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-после" или связанных пар. Аналог для зависимых выборок - тест Мак-Немара или Q-критерий Кохрена для сравнения трех и более групп.

    Если в ячейке меньше 10 наблюдений, применяется поправка Йетса. Если меньше 5, то вместо хи-квадрат используется точный тест Фишера.
    Понравилась статья?
    Бесполезно
    Ни рыба ни мясо
    Полезно