Telegram Group & Telegram Channel
Таска с собеса в БКС Банк(DS)

Исходные данные:

Даны скрипты диалогов консультантов с клиентами

В ходе беседы консультант может:
🫴предложить приобрести продукт
🪙рассказать о выгоде нового продукта
📞назначить встречу для дальнейшего более детального обсуждения продукта
💱предупредить клиента об истечении срока действия продукта
🚀предложить перезвонить в более удобное время

Цель:
Разбить весь пул клиентов по уровню лояльности (high, low, average)

Вопросы к анализу:

🕶Нужно удалить выбросы
Какие критерии использовать для удаления некоторых диалогов?

Удалить пустые диалоги
(например, случаи, когда разговор был прерван),
а также те, в которых отсутствуют даты или названия финансовых продуктов
Исключить разговоры с ключевыми словами, указывающими на возможность повторного набора


🕶Придумайте подход для оценки У (это proxy переменная) экзогенным образом
Какие proxy переменные, на ваш взгляд, для этого подходят?

Можно использовать такие метрики, как ценность клиента на протяжении жизни (customer lifetime value),
коэффициент повторных покупок (churn rate), чистая прибыль, коэффициент выкупа, средняя сумма покупки


🕶С другой стороны, предположим, что лояльность У- это эндогенная переменная,
которая определяется набором признаков Х, значение которых определено в ходе диалога
Сформулируйте данный набор признаков, характеризующих лояльность,
а также значения, которые они принимают
(чем разнообразнее набор признаков, тем лучше)

Стоит обратить внимание на наличие в диалоге слов, которые указывают на лояльность или нелояльность пользователя
(бинарная переменная),
а также на определение тональности текста
и близость диалога к кластеру лояльных пользователей
(расстояние до центра кластера)
Также можно задавать маркетинговые вопросы напрямую


🕶Выберите форму зависимости и объясните ваш выбор
Опишите используемые метрики качества, а также использованные вами библиотеки, функции и методы анализа

Т.к. каждый диалог относится к определенному классу и разметки нет, это задача кластеризации
Для работы с текстовой кластеризацией подойдут методы word embedding из библиотеки
sklearn (CountVectorizer, TfidfTransformer) и gensim (word2vec), которые позволят преобразовать исходные данные в векторы для последующей кластеризации на нормализованных данных


🕶Определите границы значений рассчитанной величины лояльности У (если У изначально не категориальная переменная) для каждого уровня (high, low, average)
Устойчивы ли они?
Опиши способ подбора оптимальной границы

Y будет категориальной переменной, полученной в результате кластеризации, и важно, чтобы кластеры были максимально удалены друг от друга
Устойчивость кластеров можно оценить путем многократного применения алгоритма к данным: небольшие расхождения в результатах будут свидетельствовать о высокой устойчивости


🕶Опишите способ для упорядочивания выбранного вами набора признаков Х по степени важности для объяснения уровня лояльности У

Можно поочередно удалять признаки и отслеживать изменения в качестве классификации, что поможет выявить наиболее значимые из них

@zadachi_ds
Please open Telegram to view this post
VIEW IN TELEGRAM
14🔥3🐳3👍1



group-telegram.com/zadachi_ds/120
Create:
Last Update:

Таска с собеса в БКС Банк(DS)

Исходные данные:

Даны скрипты диалогов консультантов с клиентами

В ходе беседы консультант может:
🫴предложить приобрести продукт
🪙рассказать о выгоде нового продукта
📞назначить встречу для дальнейшего более детального обсуждения продукта
💱предупредить клиента об истечении срока действия продукта
🚀предложить перезвонить в более удобное время

Цель:
Разбить весь пул клиентов по уровню лояльности (high, low, average)

Вопросы к анализу:

🕶Нужно удалить выбросы
Какие критерии использовать для удаления некоторых диалогов?

Удалить пустые диалоги
(например, случаи, когда разговор был прерван),
а также те, в которых отсутствуют даты или названия финансовых продуктов
Исключить разговоры с ключевыми словами, указывающими на возможность повторного набора


🕶Придумайте подход для оценки У (это proxy переменная) экзогенным образом
Какие proxy переменные, на ваш взгляд, для этого подходят?

Можно использовать такие метрики, как ценность клиента на протяжении жизни (customer lifetime value),
коэффициент повторных покупок (churn rate), чистая прибыль, коэффициент выкупа, средняя сумма покупки


🕶С другой стороны, предположим, что лояльность У- это эндогенная переменная,
которая определяется набором признаков Х, значение которых определено в ходе диалога
Сформулируйте данный набор признаков, характеризующих лояльность,
а также значения, которые они принимают
(чем разнообразнее набор признаков, тем лучше)

Стоит обратить внимание на наличие в диалоге слов, которые указывают на лояльность или нелояльность пользователя
(бинарная переменная),
а также на определение тональности текста
и близость диалога к кластеру лояльных пользователей
(расстояние до центра кластера)
Также можно задавать маркетинговые вопросы напрямую


🕶Выберите форму зависимости и объясните ваш выбор
Опишите используемые метрики качества, а также использованные вами библиотеки, функции и методы анализа

Т.к. каждый диалог относится к определенному классу и разметки нет, это задача кластеризации
Для работы с текстовой кластеризацией подойдут методы word embedding из библиотеки
sklearn (CountVectorizer, TfidfTransformer) и gensim (word2vec), которые позволят преобразовать исходные данные в векторы для последующей кластеризации на нормализованных данных


🕶Определите границы значений рассчитанной величины лояльности У (если У изначально не категориальная переменная) для каждого уровня (high, low, average)
Устойчивы ли они?
Опиши способ подбора оптимальной границы

Y будет категориальной переменной, полученной в результате кластеризации, и важно, чтобы кластеры были максимально удалены друг от друга
Устойчивость кластеров можно оценить путем многократного применения алгоритма к данным: небольшие расхождения в результатах будут свидетельствовать о высокой устойчивости


🕶Опишите способ для упорядочивания выбранного вами набора признаков Х по степени важности для объяснения уровня лояльности У

Можно поочередно удалять признаки и отслеживать изменения в качестве классификации, что поможет выявить наиболее значимые из них

@zadachi_ds

BY Задачи DS - Собеседования, Соревнования, ШАД




Share with your friend now:
group-telegram.com/zadachi_ds/120

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children.
from br


Telegram Задачи DS - Собеседования, Соревнования, ШАД
FROM American