Проверяем гипотезы при помощи статистики

Новое лекарство работает? Какой баннер лучше?
Осторожно
Много букв и даже формулы!

Содержание

В статистике заключена волшебная магия. По мере роста числа наблюдений случайные отклонения компенсируют друг друга, и проявляется общая тенденция.

Делая серии по 100 подбрасываний «честной» монетки, решка будет выпадать 51, 48, 56 и даже 35 раз. Но чем больше серий подбрасываний вы выполните, тем ближе средний результат будет стремиться к истинным 50 на 50.
Со временем вы обнаружите, что отклонение от истинных 50/50 подчиняются некому закону. Минимальные отклонения встречаются часто, а значительные (например, 35 выпадений решки и 65 орла) крайне редко!

Подробнее об этом рассказывает центральная предельная теорема.
Если не хочется разбираться, просто посмотрите визуализацию.
Закон больших чисел позволяет оценивать вероятность явления только по выборке объектов. Чем больше выборка, тем лучше случайные факторы компенсируют друг друга и проявляется общая тенденция.

При помощи выборочных исследований мы можем проводить эксперименты: тестировать эффективность новых лекарств и управленческих методик, измерять прирост спортивных результатов после покупки новой амуниции, и даже выбирать объективно лучший дизайн среди конкурирующих вариантов.
Всех выборочных замеров касается главный вопрос: разница между выборками получена случайно или причиной изменений послужил фактор воздействия?
Ведь возможно, что лучший спортивный результат достигнут просто из-за хорошего настроения гонщика, а не из-за новых колес за 10 000$. Статистические тесты нужны, чтобы ответить на этот вопрос.

Статистические тесты

Самый распространенный класс методик для проверки гипотез базируется на t-критерии Стьюдента. Допустим пациенты, которые приняли новый препарат, выздоравливали, в среднем, за 14 дней. Вторая группа – контрольная. Это выборка людей, которые принимали плацебо. Они выздоравливали, в среднем, за 18 дней. Является ли разница в 4 дня показателем, того что препарат действительно работает или различия получены случайно?

Для ответа на этот вопрос нужно заглянуть внутрь данных и узнать важную величину – степень вариации. То есть степень разброса индивидуальных значений относительно среднего. Одно дело, если все в тестовой группе, как один, выздоравливали за 14 дней после приема нового лекарства. Совсем другое дело, когда 14 было получено усреднением чисел из диапазона от 1 до 28.
Чем сильнее разброс в данных, тем больше наблюдений требуется для проверки гипотез. Этот разброс называется дисперсией, а корень из дисперсии – стандартным отклонением.

Стандартное отклонение показывает, на сколько в среднем каждое индивидуальное значение отличается от среднеарифметического.
Правило 6 сигм
В случае с нормальным распределением, 95% наблюдений лежат в диапазоне +-2 стандартных отклонений от среднего. Этот закон легко понять на практике: слишком низкие и слишком высокие люди встречаются гораздо реже, чем люди среднего роста.
Алгоритм проверки гипотез при помощи t-критерия Стьюдента:

  1. Оценка среднего по выборке всегда немного отличается от истинного среднего по генеральной совокупности. Чем ниже дисперсия и чем больше размер выборки, тем меньше ошибка репрезентативности .
  2. Если выборка подчиняется нормальному распределению и не содержит выбросов, то ошибки этой выборки тоже будут подчиняться закону нормального распределения (или закону t-распределения Стьюдента, когда размер выборки меньше 30 наблюдений)
  3. В следствие п.2 только 5% ошибок выборки будут лежать за пределами двух стандартных ошибок от среднего. Этот диапазон называется доверительным интервалом. С вероятностью 0.95 в пределах этого интервала заключено истинное среднее по генеральной совокупности.
  4. Если средние по выборкам находятся за пределами доверительного интервала — это означает, что такая разница между ними получена не случайно.
Нам остается рассчитать доверительный интервал и сделать правильные выводы.
Формулы расчета доверительного интервала
Формулы расчета доверительного интервала для среднего
Уильям Сили Госсет позаботился о будущих поколениях статистиков и создал таблицу распределения Стьюдента (это его псевдоним). В таблице приведены критические значения t-критерия. T-критерий — это разница между выборочными средними, выраженная в стандартных ошибках выборки. Если t-критерий превышает критическое значение — это значит, что средние по выборкам находятся за пределами доверительного интервала, а отличие между ними можно считать неслучайными.

Мы можем регулировать уровень доверия к эксперименту, устанавливая p-level (визуализация тут). В областях, не связанных с жизнью и здоровьем людей, пороговый p устанавливается на уровне 0.05, в медицине p=0.003. То есть значимые различия между средними будут признаны только, если они удалены друг от друга на целых 3 стандартных ошибки!
Делаем выводы правильно

Если t-критерий НЕ превышает пороговое t, при p-lavel = 0.05 — это значит, что у нас нет оснований для отклонения нулевой гипотезы. Скорее всего, различия между средними значениями получены просто из-за ошибки выборки.

Если фактическое t превышает критическое табличное значение при p=0.05 — это означает, что мы обнаружили значимую закономерность! Можно начинать писать научную статью или отчитываться перед боссом об успехах. Остается оформить корректные выводы.

Обыватель скажет, что он обнаружил значимые (НЕ случайные) отличия между средними.

Специалист с высшим образованием сделает вывод более осмысленно: различия между подгруппами обусловлены не ошибкой выборки, а реальными различиями между показателями в генеральной совокупности (с риском ошибки не больше 0.05).

Из уст мастера статистики вывод будет звучать так: вероятность получить такое, или еще более выраженное отклонение среднеарифметического значения при расчете по выборке, если нулевая гипотеза верна, НЕ больше 0.05.

Дисперсионный анализ

Статистические тесты подходят только для сравнения двух групп. Если их больше, то применяется дисперсионный анализ. Он обнаруживает зависимости в данных путем изучения разнородности дисперсии.
Дисперсионный анализ
Визуализация дисперсионного анализа. Еще подробнее тут.
Задача дисперсионного анализа определить, чем вызван разброс данных эксперимента: общей изменчивостью признака или отличиями между подгруппами. Это делается при помощи F-теста, который показывает во сколько раз межгрупповая изменчивость больше внутригрупповой.

Если между подгруппами нет существенной разницы, то межгрупповая дисперсия будет незначительно превышать собственную дисперсию подгрупп. Для случайных величин это отношение описывает теоретическое распределение Фишера. Мы сравниваем F-критерий, рассчитанный по реальным данным с табличным, теоретическим значением. Наличие связи признается, если F фактическое > F табличного.

Значимый результат свидетельствует о наличии связи как минимум в одной паре факторов. Чтобы узнать, какая именно пара связана между собой, применяется множественные сравнения.
F-критерий формула
Формула расчета F-статистики Фишера

Если данные нечисловые.
Критерий Хи-2

На практике часто встречаются задачи, когда нужно обнаружить или опровергнуть наличие связи между категориальными переменными. Например, зависимость вероятности попадания в ДТП от знака зодиака водителя.

Такие данные нечисловые. Мы не можем рассчитать средний знак зодиака, но можем построить перекрёстную таблицу:
    Перекрестная таблица хи-квадрат
    Перекрестная таблица хи-квадрат пример
    Ожидается, что если факторы НЕ связаны между собой (знаки зодиака и попадание в ДТП), то ячейки должны быть заполнены равномерно. Минимальное отклонение от равномерного распределения допустимо из-за ошибки, которую вносит выборка.

    В нижнем сегменте таблицы проводится расчет ожидаемых частот, то есть частот, которые мы ожидаем увидеть, если факторы на связаны между собой.

    Критерий хи-квадрат сопоставляет ожидаемые и фактические частоты в каждой ячейке. Существует и теоретическое, табличное распределение хи-квадрат, которое отражает распределение ожидаемых и фактических частот, если переменные НЕ связаны между собой.
    Формула Хи-квадрат
    Формула расчета Хи-квадрат
    Нам остается рассчитать критерий хи-квадрат и сравнить полученное значение с пороговым табличным значением при p=0.05. Если хи-квадрат превышает табличные значения, значит переменные связаны между собой. В случае с ДТП и знаками зодиака хи-квадрат меньше критического значения. Значит у нас нет оснований для отклонения нулевой гипотезы о наличии связи между ними.

    Распределение Хи-квадрат с k степеней свободы описывает разницу между фактическим и ожидаемым распределением частот по ячейкам. Оно имеет асимметричную форму, потому что минимальные отклонения между фактической и ожидаемой частотой у независимых признаков встречаются гораздо чаще, чем сильные.

    Степени свободы — число подгрупп минус один.

    На графике можно найти хи-квадрат, соответствующий уровню значимости 0.05. Если рассчитанный хи-квадрат больше этого значения, значит распределение все же не случайно и между факторами существует связь.

    Технические детали

    Осторожно, жесть! Поправки, непараметрические аналоги, условия применения. Если ваши данные не отвечают условиям достаточного размера выборки, нормального распределения и отсутствия выбросов — не беда! Человечество изобрело бутстрэп анализ.
    Хотите систематизировать свои знания по аналитике?
    Встречайте «Анализ данных для хулиганов»


    Онлайн пособие о том, как создавать великолепные продукты и эффективно управлять маркетингом на основе данных⚡


    Методики / Фреймворки / Шаблоны для скачивания
    Понравилась статья?