Tidy Data Блог

Поговорить с аналитиком

Свод основных терминов
Аппроксимация
Замена объектов на более простые, обобщающие.
Волатильность
Показатель, характеризующий историческую изменчивость стоимости ценных бумаг.
Выборка
Это часть генеральной совокупности, которая охватывается экспериментом (наблюдением, опросом). Выборки позволяют дешевле и быстрее изучать различные явления при небольшой потери точности.
Выброс
Нетипичное наблюдение, которое значительно отличается от выборки.
Например, выброс, это когда кто-то указал в анкете напротив графы возраст цифру 270.
Дедукция
Метод мышления при котором частное выводится из общего.
Дисперсия / Стандартное отклонение / Вариация
Дисперсия
Мера разброса индивидуальных наблюдений от среднего значения.
Сравниваем два магазина. В обоих средний чек равен 1 000 руб.
Но в первом магазине дисперсия высокая, т.к. в нем можно встретить покупки, как на 5 руб., так и на 20 000 руб.
Во втором магазине все сумма всех чеков находится в диапазоне от 800 до 1200 руб. Это пример маленькой дисперсии.

Стандартное отклонение
Тоже показатель "рассеивания". Стандартное отклонение - это корень из дисперсии. Результат расчета покажет на сколько в среднем индивидуальные значения отличаются от среднего.

Коэффициент вариации
Нормированный показатель "рассеивания". Рассчитывается путем деления стандартного отклонения на среднее значение. Коэфициент отражает относительную меру разброса значений признака, поэтому позволяет сравнивать разброс разных групп между собой.
Доверительный интервал
Понятие используется, когда по части (по выборке) мы судим о целом (о генеральной совокупности).
Доверительный интервал - это диапазон значений Х, который с определенной вероятностью будет включать истинное Х.

Мы не можем точно оценить средний рост россиян, пока не измерим их всех. Но мы можем замерить рост небольшой части соотечественников. Если выборка будет репрезентативной, то нам легко удастся рассчитать узкий диапазон значений в который с вероятностью 0.95 будет включать истинный средний рост всех россиян.

Доверительный интервал зависит от размера выборки и изменчивости признака. Чем больше выборка и чем менее изменчив признак, тем точнее мы можем оценить что-либо, имея данные только о части наблюдений.
Индукция
Метод рассуждения от частного к общему.
Корреляция
Коэффициент корреляции характеризует степень тесноты связи нескольких переменных.
О нем нужно знать следующее:
а) Измеряется от 0 до 1 (если речь о линейном коэф. Пирсона. Он используется чаще всего)
б) Если коэф. корреляции больше 0.5 можно начинать делать выводы о наличии связи. Кк = 1 свидетельствует о строгой линейной зависимости. Очевидную, но нелинейную зависимость (например, полином) этот коэф. не заметит.
в) Будьте аккуратны с выводами о причинно-следственных связях. Между количеством пожарных машин и количеством пожаров в городе очень высокая корреляция, но не из-за того, что машины порождают пожары, а из-за того, что существует 3-я переменная от которой зависят обе предыдущие - размер города.
Нормальное распределение
Стандартным нормальным распределением называется нормальное распределение с математическим ожиданием μ = 0 и стандартным отклонением σ = 1.

Синонимы: распределение Гаусса
Нулевая гипотеза
Порой мы не можем на 100% доказать что-либо, даже если есть 1000 подтверждений нашей позиции. Никто не может гарантировать, что 1001 наблюдение сломает нашу гипотезу. Именно для таких случаев выдвигается "нулевая гипотеза", которую и опровергает исследователь при помощи статистической проверки.
Ошибка 1-го рода
Это те недоразумение, когда мы отклонили нулевую гипотезу в случае, если она верна. Иными словами нашли связь, где ее нет, например, определили болезнь у здорового пациента

Синонимы: ложное обнаружение, false positive.
Ошибка 2-го рода
А это те случаи, когда мы не обнаружили связь между наблюдениями, хотя она существует. Например, не заметили, что рекламная кампания положительно влияет на результаты продаж.

Синонимы: ложный пропуск, false negative.
Правило трёх (или шести) сигм
Это математическое правило, согласно которому можно рассчитать в каких пределах и с какой вероятностью частные наблюдения будут отличаться от среднего.
Регуляризация
Никто не любит сложные математические модели. Они склонны к переобучению и их сложней интерпретировать. Регуляризация - это такая примочка, которая позволяет предотвратить переобучение за счет введение штрафов за сложность модели.
Робастность
Это положительное свойство статистических методов, которое свидетельствует об устойчивости методики к выбросам и помехам.
Уровень значимости
Вероятность получить такое или еще более выраженное отклонение выборочного среднего, если верна нулевая гипотеза.
Очень упрощенно говоря - это вероятность ошибки.

Синонимы: P-level / Sig.
Эвристические методы
Методы, которые работают, хотя и не доказаны научно.
Элиминирование
Фиксация среднего значения одной из переменных, чтобы избежать влияния других факторов.
Понравилась статья?
Бесполезно
Ни рыба ни мясо
Полезно