Telegram Group Search
Всем привет. Я тут написал монолог для конкурса (и это даже не шутка). И часть оценки зависит от голосования. Если вам не сложно, проголосуйте за мой монолог под номером 6 "Колыбельная".

Почитать монологи можно по ссылке.
Forwarded from Denis Sexy IT 🤖
Forwarded from Рисерчошная
YouTube выкинул item ID и поднял качество рекомендаций. Почему это сработало?

Недавно наткнулся на статью с RecSys 2024 — Better Generalization with Semantic IDs. Ребята из Google Research разобрали, как улучшить рекомендательные системы, чтобы они не тупили на новых или редких объектах.

📥 Проблема старая, как мир
Обычно в РС каждому видео или товару дают случайный ID — просто номерок, за которым стоит эмбеддинг. Модель запоминает, что популярно, и круто ранжирует хиты. Но стоит появиться новому видео или нишевому контенту — всё, привет, она теряется. Почему? Потому что ID ничего не говорит о смысле: два похожих ролика для модели — как чужие. Плюс таблицы эмбеддингов раздуваются до миллиардов строк, а хеширование ID в кучу только добавляет шума.

😊 Что придумали?
Авторы предложили Semantic IDs — коды, которые не просто числа, а отражают содержание. Берут контент видео (аудио, картинку), прогоняют через нейронку (VideoBERT), получают вектор, а потом сжимают его в 8 коротких кодов с помощью RQ-VAE. Главное — похожие видео получают похожие коды. Например, два ролика про котиков будут частично совпадать, и модель это поймет.

Сначала коды генерят и замораживают, а потом пихают в ранжирующую модель YouTube. Есть два варианта: разбить коды на кусочки (N-граммы) или сделать умное разбиение через SentencePiece (SPM). SPM оказался круче — он сам решает, где склеить частые комбинации, а где оставить детали для редких видео.

Тестили на миллиардах видео YouTube. Обычные контентные эмбеддинги без ID провалились — модель забыла популярное. А вот Semantic IDs дали прирост: новые видео (cold-start) стали ранжироваться лучше, редкие тоже, а хиты не пострадали. SPM вообще показал себя звездой — гибко балансирует между запоминанием и обобщением.

Что это значит?
С такими ID модель не просто зубрит, а понимает связи между контентом. Новое видео про котиков сразу подхватывает опыт старых — и в топ! Плюс экономия памяти: вместо миллиардов эмбеддингов — тысячи осмысленных кодов. Масштабируется на ура.

🌸 Куда дальше?
Можно прикрутить это к профилям юзеров, улучшить кодировщик или даже замиксовать с генеративными рекомендациями. Короче, будущее РС — за умными ID, которые не просто цифры, а смысл.

➡️ Статья тут

Что думаете, зайдет такой подход в реальной жизни?

#RESEARCH #RECSYS
Please open Telegram to view this post
VIEW IN TELEGRAM
#random

Fun fact: сегодня 5 лет, как я работаю в X5 (считай, половина карьеры).

Успел поделать многое, но надеюсь, что сделаю еще больше интересных проектов, выступлений и всякого разного.

P.S. Часы получились всратенькие, но мне лень генерировать новые.
P.P.S. Четко видно, на чем училась моделька. Обычно часы рекламируют со стрелками на 10:10 (можете сами посмотреть рекламу часов - в большинстве случаев на часах будет 10:10 или около того).
#conference #analytics

В конце мая буду на Aha!25 с докладом про прокси-метрики и их более умное применение в работе. Для его подготовки мне пришлось перелопатить немало научных работ (теперь стол завален распечатками, а сохраненки телеги ссылками на статьи), так что должно быть весьма интересно.

Если хотите послушать меня (или других спикеров, а их подобралось немало, хватило на целых два дня), то забегайте на конференцию.

Место: МГУ, кластер «Ломоносов» (Раменский бульвар, 1).
Даты: 29-30 мая
Ключевые темы:
- Интеграция LLM, ML и AI в цифровые сервисы
- Современные подходы к A/B-тестированию
- Оцифровка пользовательского опыта
- Применение машинного обучения в управлении продуктом
- Математическое мышление и поведенческая экономика

P.S. Заодно можно будет поболтать про разные темы на конфе (а болтать я люблю, хехе). Кто захочет меня там поймать для общения - пишите.
#video #conference

А вот подъехала запись моего выступления на митапе Т-Банка. Я там рассказывал про то, как мы делали систему автоматизации протоколирования встреч. Постарался начать от простого и пройти к вещам посложнее. Но доклад больше бизнесово-просветительский с налетом техники (впрочем, людям совсем не из IT может быть сложновато, это правда).

Ссылки: ютаб, VK (вот это поворот, но раз уж коллеги выложили туда, то пусть и туда будет ссылка).

Все по классике: смотрите, просвещайтесь, ставьте лайки!
​​#cinema #random

В общем, у меня тут недавно произошел absolute cinema moment. Наткнулся на сериал "Частые побочные явления". И это великолепный сериал.

Очень интригующий сюжет, много параллельных линий и подсюжетов, все постоянно в движении, но в движении интересном и правильно составленном. Хорошее музыкальное сопровождение (а я очень люблю, когда музыка дополняет и усиливает эффект от кино). Прекрасная режиссура, очень много интересных планов, метафор, визуальное повествование определенно на высоте. Есть авторское высказывание и заметный стиль. В общем, все, что нужно великолепному произведению.

Единственное - дизайн персонажей на любителя. Может показаться странным, но я привык (может и вы привыкните).

Если вдруг не смотрели - обязательно уделите ему внимание. Серии там не такие уж длинные (22-23 минуты), сезон на 10 серий, то есть, вполне можно посмотреть за вечер.

P.S. Теперь с нетерпением буду ждать второй сезон (которым, я на надеюсь, нас порадуют).
В Яндекс GO решили сделать лутбоксы (буквально собираешь ключи, чтобы открыть бокс и получить случайный приз), чтобы подрастить пользование продуктами Яндекса.

Как относитесь к таким механикам? Казалось бы, метрики вырастут, но паттерн какой-то серенький (как минимум)
Побаловался с генерацией бинго LLM. Местами получилось даже забавно
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Чувак из твиттора напилил ИИ симтему, которая позволяет собакам управлять компом.

Система трекает морду, уши, лапы и суставы, определяет, куда собака смотрит, и понимает простейшие жесты. Собакен даже пытается играть в простейшие игры. А пес его друга  научился листать DogTok (раздел тик-тока про собак) жестами.

Такими темпами, через пару-тройку лет можно будет свою собаку на фриланс пристроить.

Тут подробнее
Please open Telegram to view this post
VIEW IN TELEGRAM
Я там тоже буду (не то, чтобы это был неожиданный поворот). Забегайте поболтать и послушать интересные доклады
Forwarded from ODS Events
Привет! Как ваши майские?

📢 Мы вовсю готовимся к встрече с вами и с радостью анонсируем регистрацию на еще один мощный офлайн — Data Fest 2025 в гостях у X5 Tech!

🧠 В программе:
— Доклады от экспертов хоста площадки с секцией Data и ML в Retail (X5 Tech) - поговорим о том, как данные меняют ритейл и не только
— Нейтральные секции: Advanced LLM, ML in Music — обсудим, как большие языковые модели находят применение в разных сферах и что происходит на стыке машинного обучения и творчества

🌟 Почему стоит прийти?
— Реальные кейсы, живые люди, честные обсуждения
— Зона для холивара на острые и актуальные темы с экспертами Х5 Tech
— Комьюнити, в котором можно говорить свободно
— И, конечно, пиво, пинг-понг и отдых после секций 🍻

📍 Где, когда? 1 июня, Москва
Регистрация по ссылке. Мест немного — успей зарегистрироваться по ссылке!
Притча

Старый опытный CPO решил уйти из компании, чтобы посвятить свою жизнь ведению продуктовых курсов и Телеграм каналу. Собирает он своих трёх своих лучших продактов: «Ребята, пришла пора выбрать из вас моего преемника».

Приказал он Senior Product Manager с 1 годом опыта сделать касдев да сторипоинты посчитать. Неделю не было продакта видно, приходит с наполовину сделанной задачей и презентацией по выполненным OKR.

Приказал CPO своему Head of Product продолжить работу и сделать кликабельный прототип да таски на разработку поставить. Продакт поставил три таски в джиру: на бекенд, на фронтенд и на QA. В каждой поставил приоритет ургент, написал что все описал в слаке, а по всем вопросам к первому продакту.

Дошёл черёд до Group Head of Product. Ему выпало релиз принимать да what’s new для билда писать. Уточнил он статус проекта, написал bugfixes & stability improvements да свалил в отпуск потому что выгорел.

«Нихуя мы с вами опять говна наделали», сказал CPO.
​​#random

Внезапный пост о божественных круглых камнях.

Увидел в одном аниме (на а откуда же еще черпать знания об окружающем мире?) про локальную традицию префектуры Яманаси в Японии. Там есть так называемые Маруиси-гами (丸石神, если мне верно выдал персплексити японский вариант) - круглые камни, которым местные поклоняются с давних времен. Собственно, название так и переводится - "сферические каменные боги".

Абсолютно согласен с древними японцами. Зачем поклоняться (или бояться) ИИ, если есть такие клевые круглые камни (да и откуда им в древности знать про эти ваши ИИ)? Вот пройдут века, ИИ уйдет, а клевые круглые камни останутся.

P.S. Один из самых рандомных #random в канале. Но факт клевый (как и камни). А я по старой ЧГКшной привычке люблю прикольные факты (а прикольные камни я собирал еще с детства).
Forwarded from Борис опять
# 4 часа

Меня часто спрашивают: "Борис, как ты все успеваешь?" А я не отвечаю (занят изучением лора бомбардилло-крокодилло).

Есть вот такая мысль про продуктивность. Верхний предел активностей или проектов которые ты можешь тянуть равен количеству непрерывных 4 часовых блоков в твоем распоряжении за неделю.

Такая эвристика: если ты не можешь раз в неделю выделить на что-то 4 часа подряд, то вряд ли серьезно продвинешься.

4 часа это один раз нормально покодить (включая перерывы и отвлечения), один раз нормально поучиться, один созвон (10 мин созвон, 3 часа 50 минут реабилитация), один подход нормально пописать, один присест подумать над чем-то сложным. Коэффициент полезного действия у нас не 100%, так что в 4 часа включено время на погружение в контекст и другие неизбежные издержки. Поэтому одно стендап выступление это тоже 4 часа, ведь надо учесть дорогу, подготовку и неспособность что-то делать некоторое время после.

Получается, что один фултайм сотрудник может в пределе тянуть 4-8 рабочих задач одновременно. Обычно у всех календари хаотично забиты, едва найдется одно окошко на 4 часа, и мы получаем более согласованную с реальностью цифру: 1-3 задачи.

В общем освободить 4 часа подряд многократно полезнее, чем освободить 4 часа размазанные по всей неделе.
2025/05/23 03:55:16
Back to Top
HTML Embed Code: