Tidy data БЛОГ

Объем выборки и репрезентативность

Планируем исследования и эксперименты
Если суп хорошо перемешать, то достаточно одной ложки, чтобы сделать вывод о вкусе всей кастрюли — Д.Гэллоп.
Для того, чтобы оценить любое явление, не обязательно изучать все объекты (генеральную совокупность). Для оценки здоровья человека не нужно анализировать всю кровь, достаточно небольшой пробирки. Чтобы понять настроения россиян можно не опрашивать 146 миллионов, а ограничиться несколькими тысячами. Оценка не сильно потеряет в точности.

По части судить о целом

О возможности судить о целом по части миру рассказал российский математик П.Л. Чебышев. «Закон больших чисел» простым языком можно сформулировать так: количественные закономерности массовых явлений проявляются только при достаточном числе наблюдений. Чем больше выборка, тем лучше случайные отклонения компенсируют друг друга и проявляется общая тенденция.

А.М. Ляпунов чуть позже сформулировал центральную предельную теорему. Она стала фундаментом для создания формул, которые позволяют рассчитать вероятность ошибки (при оценке среднего по выборке) и размер выборки, необходимый для достижения заданной точности.

Строгие формулировки:
Еще раз: чтобы корректно оценивать популяцию по выборке, нам нужна не обычная выборка, а репрезентативная выборка достаточного размера. Начнем с определения этого самого размера.

Как рассчитать объем выборки

Достаточный размер выборки зависит от следующих составляющих:
  • изменчивость признака (чем разнообразней показания, тем больше наблюдений нужно, чтобы это уловить);
  • размер эффекта (чем меньшие эффекты мы стремимся зафиксировать, тем больше наблюдений необходимо);
  • уровень доверия (уровень вероятности при который мы готовы отвергнуть нулевую гипотезу)
ЗАПОМНИТЕ
Объем выборки зависит от изменчивости признака и планируемой строгости эксперимента
Формулы для расчета объема выборки:
Формулы для определения достаточного объема выборки
Формулы расчета объема выборки
Ошибка выборки значительно возрастает, когда наблюдений меньше ста. Для исследований в которых используется 30-100 объектов применяется особая статистическая методология: критерии, основанные на распределении Стьюдента или бутстрэп-анализ. И наконец, статистика совсем слаба, когда наблюдений меньше 30.
Предельная ошибка выборки
График зависимости ошибки выборки от ее объема при оценке доли признака в г.с.
Чем больше неопределенность, тем больше ошибка. Максимальная неопределенность при оценке доли — 50% (например, 50% респондентов считают концепцию хорошей, а другие 50% плохой). Если 90% опрошенных концепция понравится — это, наоборот, пример согласованности. В таких случаях оценить долю признака по выборке проще.

Репрезентативность

Репрезентативность — это степень соответствия характеристик выборки характеристикам генеральной совокупности. Только данные по репрезентативным выборкам можно экстраполировать на всю популяцию.

Репрезентативность достигается за счет случайного отбора. Случайный отбор — хорошо. Детерминированный отбор — плохо. Он искажает структуру выборки и как следствие результат измерений. Нельзя судить о среднем росте россиян по росту ста баскетболистов, которые тренируются во дворе вашего дома, просто потому что вам так удобно.
Репрезентативность
Идеальная выборка — это когда каждый человек имеет равную вероятность попасть в число опрошенных. Полностью случайный отбор трудно достижим (это очень дорого), но к нему нужно стремиться. Сам метод сбора данных может деформировать выборку (онлайн опросы отсекают пенсионеров, опрос по стационарным телефонам — экономических активных мужчин). Представьте, как будут различаться рейтинги, если провести электоральный опрос в «Вконтакте» и в бумажной газете «Лечебные письма».

Типы выборок

Существует методология, которая позволяет сократить детерминированность при формировании выборки и приблизиться к случайному отбору.

Стратифицированная выборка. Выделяются объективно существующие страты и из каждой страты отбираются единицы пропорционально их доле в генеральной совокупности. Например для опроса россиян страты могут быть определены пропорцией населения в регионах. После чего респонденты внутри каждого региона отбираются случайным образом.

Механический отбор. Все объекты сортируются по порядковым номерам, после чего осуществляется отбор с шагом n. Например, можно отсортировать телефонные номера потенциальных участников исследования и звонить каждому 100-му.

Серийная выборка (гнездовая, кластерная). Объективно существующие группы отбираются случайным образом. Объекты внутри групп обследуются полностью. Например вскрывается один контейнер продукции и каждый товар проверяется на брак.

Метод снежного кома. У каждого респондента запрашиваются контакты его знакомых, которые подходят под условия отбора. Условия случайности отбора грубо нарушается, но это один из способов провести исследование среди труднодостижимых групп. Как быть иначе, если ваша цель — опросить любителей стальных гоночных велосипедов выпущенных не позже 1987 года.

Стихийная выборка (выборка по удобству). Применяется, когда низкая цена получения данных — это главный приоритет. Для повышения качества стихийной выборки на неё накладываются квоты. Заранее рассчитываются пропорции признаков в выборке так, чтобы они соответствовали структуре генеральной совокупности. В социологии такими признаками служат пол, возраст, профессия, семейный статус, регион проживания...
Хотите систематизировать свои знания по аналитике?
Встречайте «Анализ данных для хулиганов»


Онлайн пособие о том, как создавать великолепные продукты и эффективно управлять маркетингом на основе данных⚡


Методики / Фреймворки / Шаблоны для скачивания
Понравилась статья?