Telegram Group & Telegram Channel
Таска с собеса в БКС Банк(DS)

Исходные данные:

Даны скрипты диалогов консультантов с клиентами

В ходе беседы консультант может:
🫴предложить приобрести продукт
🪙рассказать о выгоде нового продукта
📞назначить встречу для дальнейшего более детального обсуждения продукта
💱предупредить клиента об истечении срока действия продукта
🚀предложить перезвонить в более удобное время

Цель:
Разбить весь пул клиентов по уровню лояльности (high, low, average)

Вопросы к анализу:

🕶Нужно удалить выбросы
Какие критерии использовать для удаления некоторых диалогов?

Удалить пустые диалоги
(например, случаи, когда разговор был прерван),
а также те, в которых отсутствуют даты или названия финансовых продуктов
Исключить разговоры с ключевыми словами, указывающими на возможность повторного набора


🕶Придумайте подход для оценки У (это proxy переменная) экзогенным образом
Какие proxy переменные, на ваш взгляд, для этого подходят?

Можно использовать такие метрики, как ценность клиента на протяжении жизни (customer lifetime value),
коэффициент повторных покупок (churn rate), чистая прибыль, коэффициент выкупа, средняя сумма покупки


🕶С другой стороны, предположим, что лояльность У- это эндогенная переменная,
которая определяется набором признаков Х, значение которых определено в ходе диалога
Сформулируйте данный набор признаков, характеризующих лояльность,
а также значения, которые они принимают
(чем разнообразнее набор признаков, тем лучше)

Стоит обратить внимание на наличие в диалоге слов, которые указывают на лояльность или нелояльность пользователя
(бинарная переменная),
а также на определение тональности текста
и близость диалога к кластеру лояльных пользователей
(расстояние до центра кластера)
Также можно задавать маркетинговые вопросы напрямую


🕶Выберите форму зависимости и объясните ваш выбор
Опишите используемые метрики качества, а также использованные вами библиотеки, функции и методы анализа

Т.к. каждый диалог относится к определенному классу и разметки нет, это задача кластеризации
Для работы с текстовой кластеризацией подойдут методы word embedding из библиотеки
sklearn (CountVectorizer, TfidfTransformer) и gensim (word2vec), которые позволят преобразовать исходные данные в векторы для последующей кластеризации на нормализованных данных


🕶Определите границы значений рассчитанной величины лояльности У (если У изначально не категориальная переменная) для каждого уровня (high, low, average)
Устойчивы ли они?
Опиши способ подбора оптимальной границы

Y будет категориальной переменной, полученной в результате кластеризации, и важно, чтобы кластеры были максимально удалены друг от друга
Устойчивость кластеров можно оценить путем многократного применения алгоритма к данным: небольшие расхождения в результатах будут свидетельствовать о высокой устойчивости


🕶Опишите способ для упорядочивания выбранного вами набора признаков Х по степени важности для объяснения уровня лояльности У

Можно поочередно удалять признаки и отслеживать изменения в качестве классификации, что поможет выявить наиболее значимые из них

@zadachi_ds
Please open Telegram to view this post
VIEW IN TELEGRAM
14🔥3🐳3👍1



group-telegram.com/zadachi_ds/120
Create:
Last Update:

Таска с собеса в БКС Банк(DS)

Исходные данные:

Даны скрипты диалогов консультантов с клиентами

В ходе беседы консультант может:
🫴предложить приобрести продукт
🪙рассказать о выгоде нового продукта
📞назначить встречу для дальнейшего более детального обсуждения продукта
💱предупредить клиента об истечении срока действия продукта
🚀предложить перезвонить в более удобное время

Цель:
Разбить весь пул клиентов по уровню лояльности (high, low, average)

Вопросы к анализу:

🕶Нужно удалить выбросы
Какие критерии использовать для удаления некоторых диалогов?

Удалить пустые диалоги
(например, случаи, когда разговор был прерван),
а также те, в которых отсутствуют даты или названия финансовых продуктов
Исключить разговоры с ключевыми словами, указывающими на возможность повторного набора


🕶Придумайте подход для оценки У (это proxy переменная) экзогенным образом
Какие proxy переменные, на ваш взгляд, для этого подходят?

Можно использовать такие метрики, как ценность клиента на протяжении жизни (customer lifetime value),
коэффициент повторных покупок (churn rate), чистая прибыль, коэффициент выкупа, средняя сумма покупки


🕶С другой стороны, предположим, что лояльность У- это эндогенная переменная,
которая определяется набором признаков Х, значение которых определено в ходе диалога
Сформулируйте данный набор признаков, характеризующих лояльность,
а также значения, которые они принимают
(чем разнообразнее набор признаков, тем лучше)

Стоит обратить внимание на наличие в диалоге слов, которые указывают на лояльность или нелояльность пользователя
(бинарная переменная),
а также на определение тональности текста
и близость диалога к кластеру лояльных пользователей
(расстояние до центра кластера)
Также можно задавать маркетинговые вопросы напрямую


🕶Выберите форму зависимости и объясните ваш выбор
Опишите используемые метрики качества, а также использованные вами библиотеки, функции и методы анализа

Т.к. каждый диалог относится к определенному классу и разметки нет, это задача кластеризации
Для работы с текстовой кластеризацией подойдут методы word embedding из библиотеки
sklearn (CountVectorizer, TfidfTransformer) и gensim (word2vec), которые позволят преобразовать исходные данные в векторы для последующей кластеризации на нормализованных данных


🕶Определите границы значений рассчитанной величины лояльности У (если У изначально не категориальная переменная) для каждого уровня (high, low, average)
Устойчивы ли они?
Опиши способ подбора оптимальной границы

Y будет категориальной переменной, полученной в результате кластеризации, и важно, чтобы кластеры были максимально удалены друг от друга
Устойчивость кластеров можно оценить путем многократного применения алгоритма к данным: небольшие расхождения в результатах будут свидетельствовать о высокой устойчивости


🕶Опишите способ для упорядочивания выбранного вами набора признаков Х по степени важности для объяснения уровня лояльности У

Можно поочередно удалять признаки и отслеживать изменения в качестве классификации, что поможет выявить наиболее значимые из них

@zadachi_ds

BY Задачи DS - Собеседования, Соревнования, ШАД




Share with your friend now:
group-telegram.com/zadachi_ds/120

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open.
from it


Telegram Задачи DS - Собеседования, Соревнования, ШАД
FROM American