Telegram Group & Telegram Channel
Таска с собеса в БКС Банк(DS)

Исходные данные:

Даны скрипты диалогов консультантов с клиентами

В ходе беседы консультант может:
🫴предложить приобрести продукт
🪙рассказать о выгоде нового продукта
📞назначить встречу для дальнейшего более детального обсуждения продукта
💱предупредить клиента об истечении срока действия продукта
🚀предложить перезвонить в более удобное время

Цель:
Разбить весь пул клиентов по уровню лояльности (high, low, average)

Вопросы к анализу:

🕶Нужно удалить выбросы
Какие критерии использовать для удаления некоторых диалогов?

Удалить пустые диалоги
(например, случаи, когда разговор был прерван),
а также те, в которых отсутствуют даты или названия финансовых продуктов
Исключить разговоры с ключевыми словами, указывающими на возможность повторного набора


🕶Придумайте подход для оценки У (это proxy переменная) экзогенным образом
Какие proxy переменные, на ваш взгляд, для этого подходят?

Можно использовать такие метрики, как ценность клиента на протяжении жизни (customer lifetime value),
коэффициент повторных покупок (churn rate), чистая прибыль, коэффициент выкупа, средняя сумма покупки


🕶С другой стороны, предположим, что лояльность У- это эндогенная переменная,
которая определяется набором признаков Х, значение которых определено в ходе диалога
Сформулируйте данный набор признаков, характеризующих лояльность,
а также значения, которые они принимают
(чем разнообразнее набор признаков, тем лучше)

Стоит обратить внимание на наличие в диалоге слов, которые указывают на лояльность или нелояльность пользователя
(бинарная переменная),
а также на определение тональности текста
и близость диалога к кластеру лояльных пользователей
(расстояние до центра кластера)
Также можно задавать маркетинговые вопросы напрямую


🕶Выберите форму зависимости и объясните ваш выбор
Опишите используемые метрики качества, а также использованные вами библиотеки, функции и методы анализа

Т.к. каждый диалог относится к определенному классу и разметки нет, это задача кластеризации
Для работы с текстовой кластеризацией подойдут методы word embedding из библиотеки
sklearn (CountVectorizer, TfidfTransformer) и gensim (word2vec), которые позволят преобразовать исходные данные в векторы для последующей кластеризации на нормализованных данных


🕶Определите границы значений рассчитанной величины лояльности У (если У изначально не категориальная переменная) для каждого уровня (high, low, average)
Устойчивы ли они?
Опиши способ подбора оптимальной границы

Y будет категориальной переменной, полученной в результате кластеризации, и важно, чтобы кластеры были максимально удалены друг от друга
Устойчивость кластеров можно оценить путем многократного применения алгоритма к данным: небольшие расхождения в результатах будут свидетельствовать о высокой устойчивости


🕶Опишите способ для упорядочивания выбранного вами набора признаков Х по степени важности для объяснения уровня лояльности У

Можно поочередно удалять признаки и отслеживать изменения в качестве классификации, что поможет выявить наиболее значимые из них

@zadachi_ds
Please open Telegram to view this post
VIEW IN TELEGRAM
14🔥3🐳3👍1



group-telegram.com/zadachi_ds/120
Create:
Last Update:

Таска с собеса в БКС Банк(DS)

Исходные данные:

Даны скрипты диалогов консультантов с клиентами

В ходе беседы консультант может:
🫴предложить приобрести продукт
🪙рассказать о выгоде нового продукта
📞назначить встречу для дальнейшего более детального обсуждения продукта
💱предупредить клиента об истечении срока действия продукта
🚀предложить перезвонить в более удобное время

Цель:
Разбить весь пул клиентов по уровню лояльности (high, low, average)

Вопросы к анализу:

🕶Нужно удалить выбросы
Какие критерии использовать для удаления некоторых диалогов?

Удалить пустые диалоги
(например, случаи, когда разговор был прерван),
а также те, в которых отсутствуют даты или названия финансовых продуктов
Исключить разговоры с ключевыми словами, указывающими на возможность повторного набора


🕶Придумайте подход для оценки У (это proxy переменная) экзогенным образом
Какие proxy переменные, на ваш взгляд, для этого подходят?

Можно использовать такие метрики, как ценность клиента на протяжении жизни (customer lifetime value),
коэффициент повторных покупок (churn rate), чистая прибыль, коэффициент выкупа, средняя сумма покупки


🕶С другой стороны, предположим, что лояльность У- это эндогенная переменная,
которая определяется набором признаков Х, значение которых определено в ходе диалога
Сформулируйте данный набор признаков, характеризующих лояльность,
а также значения, которые они принимают
(чем разнообразнее набор признаков, тем лучше)

Стоит обратить внимание на наличие в диалоге слов, которые указывают на лояльность или нелояльность пользователя
(бинарная переменная),
а также на определение тональности текста
и близость диалога к кластеру лояльных пользователей
(расстояние до центра кластера)
Также можно задавать маркетинговые вопросы напрямую


🕶Выберите форму зависимости и объясните ваш выбор
Опишите используемые метрики качества, а также использованные вами библиотеки, функции и методы анализа

Т.к. каждый диалог относится к определенному классу и разметки нет, это задача кластеризации
Для работы с текстовой кластеризацией подойдут методы word embedding из библиотеки
sklearn (CountVectorizer, TfidfTransformer) и gensim (word2vec), которые позволят преобразовать исходные данные в векторы для последующей кластеризации на нормализованных данных


🕶Определите границы значений рассчитанной величины лояльности У (если У изначально не категориальная переменная) для каждого уровня (high, low, average)
Устойчивы ли они?
Опиши способ подбора оптимальной границы

Y будет категориальной переменной, полученной в результате кластеризации, и важно, чтобы кластеры были максимально удалены друг от друга
Устойчивость кластеров можно оценить путем многократного применения алгоритма к данным: небольшие расхождения в результатах будут свидетельствовать о высокой устойчивости


🕶Опишите способ для упорядочивания выбранного вами набора признаков Х по степени важности для объяснения уровня лояльности У

Можно поочередно удалять признаки и отслеживать изменения в качестве классификации, что поможет выявить наиболее значимые из них

@zadachi_ds

BY Задачи DS - Собеседования, Соревнования, ШАД




Share with your friend now:
group-telegram.com/zadachi_ds/120

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours.
from ca


Telegram Задачи DS - Собеседования, Соревнования, ШАД
FROM American