Tidy data БЛОГ

Как понимать Boxplot?


Очень просто
Интерпретация​ боксплота (ящика с усами)
Интерпретация боксплота
Вот, что показывает боксплот:

Медиана – это значение элемента в центре ранжированного ряда.
Например, если всех осьминогов выставить в порядке возрастания их оценок, то медианой будет та оценка, которую поставил осьминог в середине. А это значит, что половина осьминогов справа оценили вероятность покупки ниже, а другая половина (слева) выше, чем медианный.

Верхний квартиль – это такая оценка, выше которой только 25% оценок.
Нижний квартиль
– это такое значение, ниже которого только 25% оценок.
Межквартильный размах (МКР) – это разница между 75% и 25% квартилем. Внутри этого диапазона лежит 50% наблюдений. Если диапазон узкий (как в случае с осьминогами), значит члены подгруппы единогласны в своих оценках. Если широкий – значит однородного мнения нет (как у цыплят).

Выбросы – это нетипичные наблюдения. Что именно считать нетипичным? Те оценки, которые выходят за пределы:
  • значения 25% перцентили минус 1.5 х МКР
  • значения 75% перцентили плюс 1.5 х МКР

Уровень значимости не имеет отношения к ящику, но часто результаты стат. тестов и боксплоты удобно показать вместе. Коротко: если p-value меньше 0.05, значит различия между подгруппами НЕ случайны (т.е. различия между подгруппам статистически значимы).

А теперь по-нормальному: p-value – это вероятность ошибки, при отказе от нулевой гипотезы. Или вероятность получить такие или еще более значимые отклонение выборочного среднего, если верна нулевая гипотеза (т.е. отличий между группами в генеральной совокупности нет). Подробнее про всю эту жуть здесь.


Как построить боксплот

Проще всего это сделать при помощи скрипта на языке R
Boxplot в R строиться в три строчки (в одну стройку, если библиотека ggplot2 уже скачана и подключена)
install.packages('ggplot2') #скачайте библиотеку для графиков
library(ggplot2) #активируйте её
ggplot(data, aes(x=F, y=N))+geom_boxplot() #постройте свой первый боксплот
В скрипте нужно изменить три значения на ваши собственные:
data это имя вашей таблицы с данными
F имя колонки в таблице "data", которая содержит метки групп сравнения
(например: "осьминог/цыпленок")
N имя колонки в таблице "data", которая содержит чиста, которые вы анализируете (например готовность купить что-то, выраженную в 5-балльной шкале)
Понравилась статья?
Бесполезно
Ни рыба ни мясо
Полезно