Сентябрь 2019 | Автор: Наталья Яшенкова
Каждые 18 месяцев объем данных удваивается. Те времена, когда опытный пользователь мог свести и проанализировать все данные в одном листе Excel, давно прошли. Как предприятия справляются с растущими объемами данных? Чаще всего они комбинируют несколько подходов:
1. Работа только с небольшой выборкой данных.
2. Привлечение специалистов data science к анализу больших данных.
Компания «Полиматика» ставит своей целью подготовку и расширение возможностей citizen data scientist – бизнес-пользователя с навыками аналитика, который не обладает глубоким техническим бэкграундом, но знает предметную область, способен задавать правильные вопросы, интерпретировать результаты и действовать, не упуская момент.
Рассмотрим роль citizen data scientist в отделе маркетинга, когда требуется провести сложную сегментацию большой аудитории для запуска новой таргетированной рекламной кампании. Сitizen data scientist точно знает, что нужно для запуска кампании — за считанные минуты миллионы клиентов распределяются на сегменты, основываясь на их поведении в прошлом. И время от постановки вопроса до получения ответа сокращается с нескольких дней до нескольких минут.
С Polymatica возможности бизнес-пользователей с навыками аналитика в вашей организации могут быть очень легко расширены. В дополнение к неограниченному просмотру и обработке данных, они получат простой доступ к модулям машинного обучения, таким как:
Они смогут проводить анализ на полной выборке – без ограничений по объёму или задержек, вызванных масштабированием данных организации.
Мы выступаем за то, чтобы расширить возможности бизнес-пользователей и дать им возможность выполнять свой собственный анализ – и модули Polymatica разработаны специально для этого.
Расширение полномочий бизнес-пользователей начинается с предоставления прямого доступа к инструментам комплексного анализа. То, что обычно занимает недели, теперь может быть выполнено в течение дня.
Ниже перечислены примеры того, что бизнес-пользователь может сделать за один день:
1. Провести сложную сегментацию клиентов за считанные минуты.
2. Изучить поведение каждого сегмента и выявить те из них, которые можно подтолкнуть к более высоким расходам.
3. Для выбранной группы определить, какие продукты приобретаются одними и теми же клиентами, используя ассоциативные правила – и подготовить таргетированную кампанию, нацеленную на рост перекрестных продаж.
4. Просчитать прогнозируемый средний чек в каждом из сегментов.
Встроенный модуль кластеризации Polymatica позволяет выполнять автоматическое распределение объектов по группам, основанное на любом количестве параметров. Polymatica справляется с любыми сложностями – все, что вам нужно сделать, это нажать одну кнопку.
Специалист по обработке данных сталкивается с двумя важными решениями, выполняя кластеризацию: выбор алгоритма кластеризации и выбор количества самих кластеров. Сделав выбор, он проводит тестирование на небольшом подмножестве. Как только алгоритм и количество кластеров выбраны, процесс запускается на всем объёме данных. Недостаток такого подхода заключается нюансах, которые упускаются при работе с малыми подмножествами.
Возьмём в качестве примера сегментацию клиентов по чеку, количеству транзакций и заработной плате. Используя стандартные методы, специалист по обработке данных запускает ряд тестов, чтобы определить подходящий алгоритм и количество кластеров, на подмножестве из 100 000 транзакций. Он останавливается на иерархическом алгоритме с 14 кластерами. Затем он запускает алгоритм, который будет работать всю ночь и проанализирует миллиард транзакций, совершенных 5 миллионами клиентов. Однако специалист по обработке данных упускает из виду, что есть некоторое количество выпадающих показателей в полном объёме данных – люди с очень высокой заработной платой, которые расходуют сравнительно небольшие суммы.
Polymatica запускает кластеризацию нажатием одной кнопки. Бизнес-пользователь, выполняя тот же самый анализ, сразу же запускает кластеризацию на полном объёме данных, используя рекомендованные Polymatica 16 кластеров – включая кластер, в который входят обеспеченные люди со средними расходами. Грамотная маркетинговая стратегия позволит переместить эту группу в другой кластер – обеспеченных людей с высокими расходами.
Для чего ещё можно использовать кластеризацию?
Вы хотите вычислить клиентов, которые стали покупать у вас реже. Можно взять интересующий вас период времени, дату покупки и провести кластеризацию. С большой долей вероятности у вас выделиться кластер клиентов, в котором частота покупки уменьшилась, и для этих клиентов можно запустить сценарий по удержанию.
Ассоциативные правила позволяют пользователю выявлять свойства объектов, которые часто пересекаются. К примеру, в розничных продажах ассоциативные правила используются для того, чтобы определить, какие продукты приобретаются одним и тем же клиентом. Два ключевых параметра, получаемых с помощью ассоциативного анализа, — это популярность и достоверность.
Рис. 1: Популярность и достоверность на примере с яблоками и сыром
Пользователь может выбрать удобный для себя порог популярности – минимальное количество событий, происходящих вместе. Популярность и достоверность отображаются для всех комбинаций объектов.
Бизнес-пользователь способен выявить общие случаи в 10 миллионах транзакций, содержащих 10 000 типов заказов, за 2 минуты. После выбора пары продуктов исходные данные могут быть отфильтрованы для дальнейшего анализа.
Рис. 2: Пример модуля ассоциативных правил в Polymatica
Прогнозирование является еще одной задачей, которую обычно ставят перед специалистом по обработке данных. При поиске решения этой задачи в большинстве случаев требуются десятки тестов. Polymatica позволяет бизнес-пользователю запускать алгоритмы прогнозирования, основываясь на любых фактах и аспектах.
К примеру, прогнозирование расходов на следующий месяц потребует всего трех кликов. Polymatica оценит 1000 моделей, включая линейные и полиномиальные регрессии, фильтры ARIMA, ARIMA-T и Kalman. Наилучший результат будет представлен пользователю.
Запуск прогнозирования на больших объемах данных крайне важен, поскольку в противном случае могут быть упущены значимые факторы, такие как сезонность. Polymatica подбирает наиболее подходящую модель в каждом случае, учитывая индивидуальные тенденции и тренды.
Так, в то время как общий тренд указывает на то, что обычно клиенты делают покупки по выходным, некоторые из клиентов могут работать по другому графику и делать покупки только по вторникам. Polymatica определяет такие индивидуальные тренды и подбирает оптимальную модель для выявления скрытых паттернов.
Используя встроенные модули работы с данными, Polymatica предоставляет бизнес-пользователям полный набор инструментов для проведения анализа, которым обычно занимаются сотрудники, знающие как писать SQL-запросы или программировать на Python/R. C одной стороны все должны заниматься своим делом. С другой – если писать техническое задание и сделать всю работу занимает одно и то же время, какой вариант более эффективен для бизнеса?
Смотрите наше видео о том, как RFM-анализ можно провести по одной кнопке.