АБ-тесты

Выбираем объективно лучшую альтернативу
Перед аналитиками часто встает вопрос: что лучше А или Б? Как новый функционал повлиял на метрики? Рекламная кампания сработала? Продажи выросли из-за наших активностей или из-за благоприятных внешних факторов, вроде погоды или курса валют?

Можно попробовать ответить на такие вопросы при помощи анализа исторических данных. Этот способ хорош тем, что ничего не нужно заранее проектировать. Вы реализуете изменения и идёте смотреть метрики. Недостаток такого подхода в том, что корреляция в исторических данных не доказывает наличие причинно-следственной связи.

Например, вы заметили, что в дни, когда в магазине работает больше сотрудников выше продажи. Какие выводы вы можете сделать из этой корреляции?
Запомните Correlation ≠ Causation!
Наличие корреляции не означает наличие причинно-следственной связи.

Число пожаров тесно коррелирует с числом пожарных машин, но из этого не следует, что пожарники — поджигатели. На самом деле есть треться переменная, которая все объясняет — размер города.

Tyler Vigen на своем сайте собирает примеры графиков нелепых корреляций.
Интерпретация​ боксплота (ящика с усами)
Корреляция между продажами японских автомобилей и числом самоубийств при помощи транспорта равна 0.935, но из этого не следует делать вывод, чтобы японские автомобили так плохи
Инструмент, который позволяет однозначно установить причинно следственную связь — это управляемый эксперимент, он же АБ-тест. В эксперименте мы подвергаем тестовую группу воздействию (например новой фичей или рекламой), а контрольная группа воздействию не подвергается. Разница в метриках между подгруппами выражает эффект от этого воздействия.

Нет смысла спорить с коллегами о том, как должно выглядеть приложение, насколько рекламная задумка «продающая» и стоит ли внедрять бесплатный триальный тариф. Просто выкатите идею на часть пользователей и оцените метрики. Крупные компании одновременно проводят десятки, сотни и даже тысячи экспериментов, чтобы непрерывно находить способы улучшить продукт, сервис и рекламу. На английском такой подход называется endless improvement и лаконично согласуется с HADI методологией.

АБ-тесты — это мощный инструмент проверки гипотез, но чтобы прийти к правильным выводам нужно быть внимательными, осторожными и уметь оценивать статзначимость экспериментов.

Математическая основа статистических тестов

    Этот раздел посвящен подкапотной математике АБ-тестов. Он достаточно трудный для восприятия. Чтобы облегчить понимание изложение разделено на 4 последовательных блока:

    Общий алгоритм проведения АБ-теста

      1. Рассчитываем достаточный объем тестовой и контрольной группы. Находим компромисс между точностью и длительностью (ценой) эксперимента.

      2. Случайным образом отбираем участников в А и Б группы. Оказываем воздействие на тестовую группу. Контрольная группа воздействию НЕ подвергается.

      3. Рассчитываем целевую метрику в тестовой и контрольной группе, считаем P-value.
      Интерпретации P-value

      Если P-Value < 0.05, то разница выборочных в средних НЕ СЛУЧАЙНА. Следовательно мы можем признать результаты эксперимента статзначимыми.

      Если P-Value > 0.05, то у нас недостаточно оснований для отказа от нулевой гипотезы. Весьма вероятно, что отличия между выборочными средними получены случайно, а не из-за нашего воздействия.
      Интерпретация​ боксплота (ящика с усами)
        АБ-тесты, эксперименты, статистические тесты — это сложная тема. Не расстраивайтесь, если не поняли её с наскока. Отдохните и возвращайтесь позднее. Дополнительно вам могут помочь следующие материалы:

        АБ-тесты для прикладных бизнес исследований

        1. Проектируем АБ-тест: Заранее прописываем, какие решения и действия предпримем в зависимости от его результатов. Какие гипотезы проверяем? На какую метрику будем смотреть, как на основную? Каких значений ожидаем? Какими метрики будут диагностическими?

        2. Рассчитываем необходимый размер выборки. На основе него и рисков запуска выбираем пропорции деления А/Б групп и длительность эксперимента, необходимую для накопления достаточных данных.

        3. Размечаем А и Б группы. В web или app экспериментах размечаем последовательность экранов и шагов событиями, чтобы в случае неудачного эксперимента понять, где именно где проваливается воронка. Не забываем разметить и сами сегменты метками тест (А) и контроль (Б).

        4. Запускаем АБ-тест. Убеждаемся в правильности и корректности работы разметки сразу после запуска. До накопления достаточной выборки НЕ смотрим на результирующую метрику, чтобы не попасть в ловушку см. repeated significance testing errors.

        5. Подсчитываем результирующие метрики и p-value при помощи калькулятора. Интерпретируем результаты. При необходимости проводим анализ в подгруппах, чтобы сказать, где именно провал и почему.

        Прочие рекомендации и заметки

        • в первые часы после запуска эксперимента убедитесь, что разметка корректно работает, а фактические пропорции А и Б групп соответствуют задуманным;
        • как убедиться, что участники в А и Б группу отобраны случайно? Посчитайте метрики по этим подгруппам до запуска эксперимента. Они должны быть одинаковые, т.е. в пределах ошибки выборки;
        • не подсматривайте на метрики (см. Ловушка #6 — Ошибка подглядывания) до накопления достаточного объема выборки. Это большой соблазн, но нужно отдавать себе отчет, что до накопления достаточных данных результаты эксперимента ничего не значат;
        • заранее установите барьерные метрики, чтобы не тратить время на принятия решения, если АБ-тест что-то сломал в флоу клиентов;
        • в рамках одного эксперимента проверяйте только одно изменение. Если вы одновременно повысите скорость работы сайта и элементы дизайна, то не сможете сделать выводы о том, что именно помогло вам повысить конверсию. А это самое важное.
        Калькуляторы для АБ-тестов:

        Для доли (например, конверсия в %)
        Sample Size Calculator — калькулятор размера выборки
        Chi-Squared Test — калькулятор P-Value

        Для средний значений (например, средний чек в руб.)
        StatTech — калькулятор размера выборки
        Two-Sample T-Test — калькулятор P-Value
        Оцените страницу:
        Бесполезно
        Частично норм
        Полезно