Основы статистики

Необходимый минимум
В этом разделе собраны базовые понятия статистики. К этому разделу можно возвращаться, чтобы подсматривать. Здесь собран минимум, необходимый для работы, но не смотря на этой раздел получился объямным. Используйте оглавление для удосбва навигации:
Статистика оперирует рядами распределения, т.е. набором объектов (наблюдений) у каждого из которого есть количественный (длина, высота, выручка, длительность) или категориальный признак (цвет, пол, категория продукции, т.е. то. что не выразить цифрами).

Категориальные признаки

Вам могут попадаться категориальные (также называются номинативные) признаки. Это цвет, пол и все то, что не выразить цифрами. С ними тоже можно проводить статистические операции — подсчет частоты и доли.
Интерпретация​ боксплота (ящика с усами)
Структура клиентов по основной потребности. Угадайте, какой продукт?
Мощнейший инструмент для работы с категориальными данными — это сводные таблицы, при помощи которых выполняется пересечение категориальных переменных:
Интерпретация​ боксплота (ящика с усами)
В таблице пересечены потребности клиентов и названия моделей, которые они приобрели.
Данные намекают, что некоторые клиенты используют модели не по назначению или бренд их некорректно позиционирует.

Количественные признаки

Показатели центра распределения

Количественные ряды можно описать всего одной цифрой. Для этого существуют характеристики центра распределения:
Мода – самое частовстречающееся значение признака.
Медиана – значение признака у объекта, который находится в центре ранжированного ряда.
Среднеарифметическое – сумма значений, деленное на их количество;
Интерпретация​ боксплота (ящика с усами)
Такой тип графиков называется гистограммой распределения.
Чем выше столбик — тем больше в выборке наблюдений с таким значением признака.
Распределение, как на графиках называется логнормальным из-за ассиметричной формы
Чаще всего, когда нам нужно описать ряд одной цифрой мы используем среднеарифметическое, но у него есть недостаток. Если распределение ассиметричное или в нем присутствуют выбросы, то среднеарифметическое будет вводить нас в заблуждение. В таких случаях лучше использовать медиану. У «нормального распределения» мода = медиане = среднеарифметическому.
Выбросы — это нетипичные наблюдения.

Нет старого определения, что считать «нетипичным». Каждый случай исследователь рассматривает отдельно. Например, если в изучаемом ряду зарплат вы наблюдаете значения: 40, 65, 92, 105, 122 и 495 тыс. рую. в мес., то значение 496 можно признать выбросом и исключить из анализа или заменить на среднее.

Существует и формальное правило определения выбросов. Согласно нему выбросами считаются все значения больше, чем 75% перцентиль плюс 1.5 умножить на межквартильный размах.

Показатели структуры распределения

Квартиль — это значения, которые делят распределение на 4 равные части одинакового размера. Различают первый квартиль (Q1), второй (это медиана) и третий (Q3). Первый квартиль — это такое значение, меньше которого будет 25% наблюдений, а 75% будут больше. Q2 является медианой и делит распределение пополам. Q3 (третий квартиль) — это значение, больше которого будет 25% наблюдений.

А еще изредка встречаются децили —значения, которые делят выборку на 10 равных частей.
Интерпретация​ боксплота (ящика с усами)
Сравнение двух распределений при помощи боксплота. Подробнее про визуализацию >

Показатели изменчивости

Два рядя могут иметь одинаковую среднюю, но разный диапазон разброса значений. Это вариацию (другими словами изменчивость) можно выразить разными способами:

Размах — разница между самым большим и самым маленьким значением.
Межквартильный размах — разница между первым и третьим квартилем.
Дисперсия — сумма квадратов отклонений индивидуальных значений от среднего, деленное на их количество. Не интерпретируется.
Стандартное отклонение — квадратный корень из дисперсии. Интерпретируемая величина. Например, если стандартное отклонение роста в выборке равно 10 см. — это значит, что в среднем рост каждого отдельного элемента на 10 см. отличается от среднего роста.
Коэффициент вариации — относительный показатель вариации. Рассчитывается, как отношение стандартного отклонения к среднему. Подходит для сравнения выборок с разными единицами измерений.
Интерпретация​ боксплота (ящика с усами)

Нормальное распределение

Понятие нормального распределения (также обозначается «распределением Гаусса») играет ключевую роль для статистических тестов. Не вдаваясь в формулы можно сказать, что нормальным распределением является распределение симметричной формы, у которого среднее = моде = медиане. А стандартным нормальным распределением называется нормальное распределение с математическим ожиданием = 0 и стандартным отклонением = 1.
Нормальным распределением является распределение любой случайной величины. Например гены людей смешиваются случайно, поэтому и рост населения подчиняется законам нормального распределения. Зачем это нам? Затем, что нормальное распределение обладает стандартными свойствами:
Интерпретация​ боксплота (ящика с усами)
При нормальном распределении 95% наблюдений будут лежать в диапазоне
среднеарифметическое плюс минус два стандартных отклонения. Из этого вытекает: вероятность встретить в выборке значение, которое отличается от среднеарифметического более чем на два стандартных отклонения менее 5%.

Немного строгой теории для самых дотошливых:

Статистические тесты

К чему все эти сигмы?
А вот к чему: в научных, маркетинговых и бизнес исследованиях мы по части (по выборке) судим о целом (о генеральной совокупности). Очень часто и бизнес или ученые подвергают выборки воздействиям и оценивают, как это воздействие повлияло на метрики. Например, как новая производственная технология повлияла на долю брака? Мы знаем, что обычно доля бракованной продукции, скажем 5% - это метрика, рассчитанная по генеральной совокупности. После внедрения новой технологии мы не можем подвергнуть испытаниям вообще всю продукцию, поэтому оцениваем брак по выборке. Метрики по выборке всегда будут немного отличаться от метрики по генеральной совокупности на размер ошибки выборки. Рассчитываем доверительный интервал для выборочного среднего и получаем диапазон от 4.2% до 5.8%. Это диапазон в котором в 95% случае будет попадать выборочное среднее.Если при оценке новой производственной технологии по выборке доля брака будет меньше, чем 4.2%, то мы можем прийти к выводу, что сокращение доли брака произошло не из-за случайности (не из-за ошибки выборки), а из-за собственно внедрения новой технологии. Обычно в таких экспериментах сразу считается p-value. Это вероятность получить такие отличия в выборочных оценках (до и после внедрения новой технологии) случайно. Если эта вероятность менее 0.05, то результаты эксперимента признаются значимыми.
Интерпретация​ боксплота (ящика с усами)
Статистические критерии невозможно объяснить за один абзац. Конкретные формулы, нюансы подходов зависят от типов данных, формы распределения и дизайна экспериментов. Цель этого блока — дать общее понимание и умение корректно интерпретировать P-Value.

Продолжить путь к пониманию статистических критерие вам поможет:
Проверяем гипотезы при помощи статистики
Новое лекарство работает? Какой баннер лучше?
АБ-тесты
Выбор объективно лучшей альтернативы
А так же:

https://gallery.shinyapps.io/CLT_mean/ — интерактивная визуализация, которая показывает, как ошибки выборки подчиняются законам нормального распределения и как зависят от дисперсии / числа наблюдений

https://rpsychologist.com/d3/nhst/ — интерактивная визуализация, которая объясняет мощность статистических экспериментов, типы ошибок, p-value и размер эффекта.

Корреляция

Корреляция — это степень совместного варьирования двух числовых переменных. Широко распространен линейный коэффициент корреляции Пирсона. Он измеряется от -1 до +1 отражает тесноту линейной зависимости и ее направление.
Интерпретация​ боксплота (ящика с усами)
Скриншоты со страницы «Interpreting Correlations»
Запомните Correlation ≠ Causation!
Наличие корреляции не означает наличие причинно-следственной связи.

Число пожаров тесно коррелирует с числом пожарных машин, но из этого не следует, что пожарники — поджигатели. На самом деле есть треться переменная, которая все объясняет — размер города.

Tyler Vigen на своем сайте собирает примеры графиков нелепых корреляций.
В прикладном смысле корреляция удобна для быстрого поиска связанных данных, если все изучаемые переменные числовые. Для ранговых данных применяется непараметрический коэффициент ранговой корреляции Спирмена.

Регрессия

Регрессия — построение уравнения, описывающего поведение признака результата.
Интерпретация​ боксплота (ящика с усами)
Пример простейшей регрессионной модели
В данном примере «ПРОДАЖИ» — это зависимая переменная, поведение которой моделируется при помощи предиктора «Рекламный бюджет». В модели может быть любое число предикторов, как количественных (числовых), так и номинативных (не числовых). Коэффициенты уравнения подбираются при помощи метода наименьших квадратов. Нулевой коэффициент указывает, каким будет уровень зависимой переменной, если предиктор будет равен нулю. В нашем примере он ответит на вопрос, каким будет уровень продаж, если вообще не тратить средства на рекламу. Коэффициент регрессии (0.00058) показывает, сколько продаж приносит каждый рубль, вложенный в рекламу. Сможете ответить на вопрос: «сколько рекламного бюджета нужно потратить на рекламу, чтобы привлечь 1 дополнительную продажу?»

Перед тем как использовать регрессионную модель для прогнозирования нужно проверить ее по критериям качества:
Любопытные материалы:
https://gallery.shinyapps.io/slr_diag/— визуализация диагностики простой регрессионной модели
https://setosa.io/ev/ordinary-least-squares-regres... — интерактивное объяснение метода наименьших квадратов.
ЗАДАНИЕ: Проанализируйте распределение цен на квартиры. От чего они зависят сильней всего?

Скачать данные >

Навигатор по заданию:

1. Постройте распределение цен на объекты недвижимости. Рассчитайте показатели центра, структуры и изменчивости распределения цен. Удалите или замените выбросы. Постройте матрицу корреляций цен с другими числовыми переменными.

2. Обработайте номинативные данные. Укрупните малочисленные группы, чтобы не попадаться в ловушку малых выборок. Найдите подгруппы, которые сильней всего определяют цену квартир. Покажите топ-5 по силе влияния. Покажите сегменты с самыми низкими и самыми дорогими ценами на квартиры.

3. Постройте регрессионную модель, которая «объяснит» поведение цен на недвижимость.
Продиагностируйте модель перед тем, как делать выводы.

4. Подготовьте аналитическую записку.
Структурировано и понятно изложите выводы на одной странице. Используйте визуализацию.

5. Отдельным блоком напишите бизнес выводы, полученные из этих данных.
Что следует предпринять компании заказчику исследования?

Оцените страницу:
Бесполезно
Частично норм
Полезно