Tidy data БЛОГ

Кластерный анализ
и сегментация

Статья про сгустки кружков

Кластерный анализ – это...

Кластеризация – это объединение объектов в однородные группы. Другими словами, это поиск схожих объектов, которые отличаются от остальных наблюдений по своим характеристикам.

В бизнесе кластерный анализ применяется для сегментации клиентов, аудиторий, продуктов и рынков. А еще при помощи него выявляют психотипы, сжимают изображения, находят аномалии, группируют объекты в справочниках, на картах и много что еще..!

При качественном разбиении разброс значений внутри групп должен быть минимальным, а межгрупповой разброс максимальным. Выделяемые группы должны быть устойчивыми и воспроизводимыми.
      Пример кластерного анализа
      Приведем простой пример сегментации потребителей. Представим, что вы играете за директора по маркетингу в таксомоторной компании.

      По старинке можно запустить единую рекламную кампанию. Но гораздо большего результата добьется тот, кто пойдет иным путем: выделит сегменты на основе социально-демографического профиля, интересов и транспортных потребностей. Адаптирует рекламные послания и запустит их по разным каналам.

      Тогда родители узнают про опцию «детские кресла», читая журнал «Солнушки». Чувствительные к цене студенты будут знать о скидках и бонусах мобильного приложения из рекламы Вконтакте, а предприниматели помнить про корпоративные тарифы по баннеру на РусБэйс. Профит! Вы победили.
      Немного истории

      Академики выделяют несколько эпох в развитии маркетинга. На заре становления конвейерного производства маркетинг сводился к созданию унифицированной продукции с минимальными издержками. Лучшая иллюстрация – это позиция Г.Форда: «Цвет автомобиля может быть любым при условии, что он черный».

      Когда рынки насытились базовыми товарами компании начали развивать отдельные характеристики (атрибуты товаров), а потом специализироваться на нишах, развивать сбытовые сети и каналы коммуникаций.

      С развитием интернета и электронной коммерции у бизнеса появилась возможность дробить аудитории по бесчисленному числу критериев на основе цифрового следа или поведения. Еще немного эволюции и бренды смогут принимать уникальный облик и адаптироваться под особенности каждого человека.

      Примеры сегментации

      Объединение объектов в группы – это творческий процесс. Рассмотрим несколько идей:

      Исследования

      Источник данных: опросы, маркетинговые исследования.
      Маркетинговые исследования и социологические опросы помогают собирать мнения и оценки общественности. Но основе этих оценок и выделяются сегменты аудиторий.

      Например, легко отличить либералов от консерваторов на основе анализа их мнений по политическим вопросам. Обособленные сегменты могут быть обнаружены и среди целевой аудитории коммерческих компаний.
      Пример кластерного анализа в социологии

      RFM-сегментация

      Источник данных: CRM-система
      RFM-сегментация
      RFM-сегментация – это способ разделения клиентской базы на основе Recency — давности, Frequency — частоты, Monetary — и суммы покупок. После разделения к каждой из групп применяются индивидуальные маркетинговые активности.

      Например, можно вернуть тех, кто покупал много и часто, но теперь перестал. Подтолкнуть середнячков к верхним блокам матрицы. Вознаградить тех, кто получил максимальные оценки по каждому из RFM параметров.

      Отдельную пользу приносит анализ динамики сегментов и выяснения причин перемещения клиентов между группами.

      Удовлетворенность + Прибыль

      Источник данных: CRM-система + обратная связь от клиентов.
      Выделите группы клиентов на основе замеров NPS и подсчета прибыли. Примените индивидуальные активности к каждой группе, чтобы сохранить идеальный баланс между максимизацией прибыли и сохранением удовлетворенности. Подробности на схеме и в описании под ней:
      Пример сегментации клиентов
      Сегмент А
      Довольные клиенты, которые приносят много прибыли. Изучите их, чтобы понять причину. Сфокусируйте маркетинговые активности на поиске таких же.
      Сегмент Б
      Лояльные клиенты, которые почти не приносят прибыль. Возможно они пользуются излишними бонусами или слишком большими скидками. Изучив ситуацию, примите решение максимизировать прибыль при минимальных потерях в лояльности. Порой достаточно отказаться от неважных, но дорогих в себестоимости элементов сервиса или программы лояльности.
      Сегмент В
      Самый большой сегмент. Это основа бизнеса. Подумайте, какие действия помогут повысить прибыль без значимых потерь в лояльности. Тут без кретива никак.
      Сегмент Д
      Ценные клиенты, которые оказались неудовлетворенными. Срочно инвестируйте средства, чтобы исправить это.
      Сегмент Г
      Это «не наши» люди. Они не приносят прибыли и не разносят хорошей молвы о компании. Важно понять, что объединяет этих клиентов, чтобы не тратить средства на привлечение таких же аудиторий в будущем.

      Методы и алгоритмы

      Маленькую таблицу легко разбить на группы вручную и при помощи простейших формул в Excel. Для работы с базами данных используются специальные алгоритмы кластерного анализа. Из разделяют на иерархические и итеративные.

      Иерархические

      Когда количество групп заранее неизвестно и хочется построить красивую дендрограмму
      Иерархические алгоритмы применяются когда истинное количество групп не известно. Суть подхода заключается в измерении попарных расстояний между объектами и последовательном объединении (или наоборот, дроблении) всех объектов на группы. В результате получается древовидная визуализация, где соседние объекты похожи друг на друга.
      Дендрограмма, иерархический кластерный анализ
      Технические детали

      Метрика расстояния выбирается в зависимости от типа данных. Для числовых признаков подойдет евклидово расстояние, манхэттенское или расстояние Чебышева. Для категориальных (т.е. те, что не измерить числами, например пол: мужской, женский) используется расстояние Хэмминга, Джакарта или мера Сёренсена.

      Методы объединения зависят от распределения данных. Метод Варда, ближайшего соседа, метод невзвешенного попарного среднего, взвешенный центроидный метод… Можно использовать сразу все, а потом выбрать тот, который даст лучшее разбиение (с наименьшей межгрупповой дисперсией).

      Перед использованием иерархических методов необходимо исключить выбросы и пронормировать исходные данные, т.е. привести их к единой шкале измерений.
      Пример дендрограммы
      Иерархическая кластеризация йогуртов на основе их характеристик и характеристик аудиторий, которые эти йогурты любят и покупают

      Итеративные методы

      Задайте число групп, остальное сделает компьютер
      Итеративные методы отличаются тем, что число групп задается изначально. После чего матрица расстояний пересчитывается на каждом шаге пока алгоритм не найдет оптимальное (по его мнению) разбиение.

      К итеративным методам кластеризации относится k-means, EM-алгоритм и, например CLOPE для номинативных данных. Поиграть и насладиться визуализацией работы k-means можно здесь.
      k-means

      Самоорганизующиеся карты Кохонена

      Когда хочется сумашедших визуализаций
      Отдельного внимания заслуживают самоорганизующиеся карты Кохонена. Это вид нейронных сетей, которые помогают визуализировать внутренние закономерности в данных. В результате для каждой переменной строится тепловая карта с заданным числом ячеек. Изучения карт помогает понять структуру зависимостей и отличия аудиторий друг от друга.
      Пример самоорганизующейся карты
      Сегментируйся или умирай! ...как писал Джек Траут.
      (на самом деле он писал совсем не про это, но книжка всё равно полезная)
      Понравилась статья?
      Бесполезно
      Ни рыба ни мясо
      Полезно