blog_toxa Telegram Group

Быстро, однако, прошли 9 месяцев… Было круто!

🔥26🏆9🤩3👎11

2.67K views06:20

Yandex Cup 2025

Как обычно, рассказываю в последние часы! До 29 числа у нас открыта регистраци на Yandex Cup. Два года я участвовал в качестве придумщика задач, а в этот год отошёл от дел. Тем не менее часть ML задач делали ребята из нашей команды, а потому зову вас поучаствовать!

В этот раз задачи:
— Генерация картинок видеосенсора для автономного автомобиля;
— Ответы на вопросы к чертежам для задач по физике и математике;
— Устойчивость к галлюцинациям в больших языковых моделях.

Крч, го участвовать (ну я не смогу, потому что знаю, где лежат данные для скоринга, хе-хе-хе)!

Ссылка на участие.

🔥11👍2🫡2👎1

2.83K views13:29

Дратути Антон

Алиса AI

У нас сегодня мега крупный запуск 🤔. Мы представили нашего обновлённого ассистента и семейство моделей, сидящих под капотом!

Мы шли к этому многие месяцы, кучу компьюта было потрачено на бесчисленные эксперименты. Безумно рад за свою команду: труды абсолютно каждого человек поучаствовали в нём, чтобы сделать ассистента полезнее для наших пользователей!

Все новшества и улучшения сложно описать в посте, да и не нужно.

Всё есть на лендосе здесь — https://alice.yandex.ru/about!

Ну и давайте накидаем тут 🔥, мы все очень сильно старались!

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥49❤11❤‍🔥7🥴3👎2🐳1

3.23K viewsedited 10:09

Дратути Антон

Forwarded from Products’ memes (Аня Подображных)

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Пусть всё получится!

21👎1🤩1🤣1🏆1

2.79K views13:55

Дратути Антон

LaTeX и ентот ваш produnction

Я наконец-то расквитался со всем запусками и релизами за последнее время и готов чего-то написать. Кстати, кто не знал, последний релиз был в прошлую пятницу в Маркете 🤔.

Давеча я просматривал ML Party в Белграде, и наткнулся на упоминания себя примерно здесь: https://www.youtube.com/watch?v=b4p38qdguis&t=2141s (таймкод важен). И могло показаться, что я разломал прод 👨‍🦳! И да, и нет — давайте разбираться. Спойлер — меня ещё не уволили 😀

Важная ремарка: хоть и в ролике говорится про "меня", но на самом деле идёт речь про нашу команду. Я, конечно, ещё достаточно много чего делаю своими руками, но куда больше и значительнее делают ребята!

В действительности, в определённый момент мы готовы были выкатить модельку в прод. Как и полагается, покатили на тестовый стенд и получили безумие! И это подтверждает некоторые байки о кровавом produnction (олды помнят).

Дело обстояло так: мы всё отлаживали в одной поверхности (и тестировали, и людьми смотрели) — всё было хорошо. Какого было наше удивление, когда всё разломалось в другой поверхности. И сначала, конечно же, гнали на то, что с моделью как-то не так, и она вообще какая-то не такая. Но на самом деле, всё немного на так 😊.

Представим себе, что у вас есть множество фронтендов: пару приложений (а на самом деле больше), несколько веб-поверхностей, ещё что-нибудь в придачу. Вы, конечно, можете с помощью системного промпта придумать, как удовлетворять формату каждого фронтенда, но в реальности — это безумие! Я просто даже не хочу писать про то, какой ад с тестированием начнётся, сколько всего вам нужно будет перепроверять, каждый раз переобучая модель 🔥.

Другой разговор, когда у вас всё же модель отдаёт единый формат. И каждый фронтенд разбирает по-своему то, что ему прислал бекенд (в нашем случае модель), исходя из своих правил. У вас есть большой плюс с точки зрения обучения модели: нужно тестировать только один формат, а не большое множество. В нашем случае так и оказалось — нужно было сделать некоторые правки в парсинге и всё встало на свои места 🤨.

"Кровавость" produnction'а в большей части состоит из таких моментов. Ты приходишь со своим ноу-хау в большую систему и нужно учесть иногда то, что ты даже не знаешь 🏥. И вот сколько вещей получится узнать — большую роль имеет опыт, насмотренность на системы, когда на уровне интуиции имеешь представление, что может пойти не так.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥85🤯2👎1

2.39K views08:47

Дратути Антон

Forwarded from КПД

На этой неделе ребята из команды YandexGPT совместно c ШАДом (Школа анализа данных) провели интенсив по работе с LLM 🤖, где были затронуты вопросы обучения, инференса и коммуникаций.

Материал довольно подробный и интересный, но требует определенной базы для вхождения.

В общем, рекомендую к просмотру всем интересующимся и желающим освежить знания.

Лекция 1: https://youtube.com/live/JMUWSdSD1Uk
Лекция 2: https://youtube.com/live/IAeAKcdMtsw
Лекция 3: https://youtube.com/live/BYiFv5PoMBw
Лекция 3.1: https://youtube.com/live/-52RgKQENl0
Лекция 4: https://youtube.com/live/VXI41kyQTPs
Лекция 5: https://youtube.com/live/AHMJICS2JQ0
Лекция 5.1: https://www.youtube.com/live/3v43mnx31OQ

YouTube

LLM Scaling Week 2025 | Лекция 1. Арифметика глубокого обучения

Спикер: Михаил Хрущев, руководитель группы претрейна YandexGPT.

На лекции поговорим про эффективное обучение больших DL-моделей. Мы ответим на вопросы:
- Что мешает загрузить GPU в кластере на 100%?
- Как устроена логистика данных внутри GPU, хоста и кластера?…

🔥15👎3🥴21

1.44K views18:14

Дратути Антон

Think in Math. Write in Code.

Совершенно случайно наткнулся на классную статью про стиль мышления: https://www.jmeiners.com/think-in-math/

О чём там речь?

Автор рассуждает про то, что мы часто, как программисты 🤓, мыслим "абстракциями кода", что ограничивает нас. Дело в том, что абстракции в разработке — это какого-то рода сокрытие внутрянки, предоставление каких-то интерфейсов, а-ля black box. И это правда нам нужно, иначе мы не сможем проектировать сложные системы.

Тем не менее, если думать программными интерфейсами, можно стать заложником перебора этих black box'ов, вместо решения задачи. Например, вместо того, чтобы расписать, как должна решаться задача: куда какие данные должны отправляться, как трансформироваться или взаимодействовать — мы часто пытаемся подстроить решение под существующие интерфейсы 🧠. Это может быть неэффективно, т.к. более классное решение может потребовать другую комбинацию этих же самых интерфейсов. А нам же нужно сначала решить задачу, а потом выбрать под неё лучшую реализацию.

Лучше же думать в терминах "математических абстракций", т.к. там эта сущность не про сокрытие, а про "взгляд на". Как пример, функцию мы можем записать в виде уравнения, отобразить графиком, представить в виде списка/таблицы точек. Мы выбираем взгляд на одно и тоже под разными углами, чтобы найти решение самой задачи 🌿.

Сам автор приводит в пример проект по ценообразованию криптовалюты, где сначала были формализованы расчёты (определения покупки, продажи, баланса, дохода) прежде чем писать код.

Мой личный пример: при перемножении комплексных чисел лучше использовать показательную форму, т.к. там проще решается сама задача. Но если говорить в терминах разработки, то нам нужен такой класс комплексных чисел, в которых будет показательная форма, а также определены математические операции с ней, потому что вероятнее в конкретной задаче эту будет вычислительно эффективнее (а мб нет).

А как у меня?

Конечно, в начале карьеры я тоже думал программными интерфейсами 🤔. Выбрать правильный тип данных было превыше того, как они должны были взаимодействовать, а использовать более крутой и сложный алгоритм было важнее решения самой задачи (нам точно надо использовать этот алгоритм, строим решение вокруг него).

Сейчас я часто стараюсь думать именно абстракциями в математическом смысле. Например, если взять картинки для VLM, я часто думаю про:
— то, что должно быть на таких картинках (домены, подзадачи);
— распределения по таргетам, источникам, размерам;
— какие есть инварианты и т.д.

Довольно нередко выходит так, что дальше уже рассматривая какую-то архитектуру обработки этих картинок, можем наткнуться на несовершенства этой самой модели 😊.

А что вы думаете про это? Какое мышление у вас?

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤3👍1👎1

3.75K views06:35

Дратути Антон

Не издевайся над животными!

23😁7❤‍🔥2👎1

2.72K views17:14

Дратути Антон

2:45

This media is not supported in your browser

VIEW IN TELEGRAM

Гениальная короткометражка попалась мне!

И по сей день актуально!

👍29❤10👎1🏆1

2.55K views06:34

Дратути Антон

Qwen3-VL Technical Report

Ребята из поднебесной дропнули тех-репорт про свою VLM. Набросали 100500 бенчей (вау), показали как делать надо. Приятно наблюдать, как авторы всё больше тюнят подходы к данным и расширяют домены. Не так много нового, скорее хорошо проработанное старое.

Интересно, как некоторые подходы совпадают с нашими — значит не только у нас работает! Но общее направление мыслей как будто бы не поменялось с начала года и в этом плане в VLMках проиходит не так много "ноухау" обновлений.

Сетка хорошая, с приятной лицензией, обязательно пользуйтесь, если нужно решать задачи с картинками и есть деньги на компьют!

❤5🔥3👎1🏆1

1.88K viewsedited 10:03

Дратути Антон

Сегодня тусим на Data Dojo в Москве!

Но если чего есть онлайн трансляция!

🔥9❤‍🔥3❤2👎1

1.87K views13:53

Дратути Антон

Побубню за OCR

Тут у нас в CVTime вышел обзор DeepSeek-OCR в двух частях (раз, два), где задали интересный вопрос, на который я хочу попробовать развёрнуто подискутировать:

Нужно полный а4 лист текста прочитать за 1 секунду. Справится ? И чтобы не арендовать для этого суперкомпьютер, а например видюху уровня TESLAV100. Сомневаюсь. Даже обычные OCR работают очень долго - десятки или сотни миллисекунд. А LLM ки в продакшене для высоконагруженных систем, такое себе, если конечно вы не амазон или не гугл с бесконечными ресурсами

За последнее время понимание OCR сильно изменилось 😊: если раньше мы воспринимали этот процесс как извлечение текста и метаинформации о нём, то сейчас в основном это Image -> Markdown или KIE (Key Information Extraction). И конечно от тех, кто не погружен в область, достаточно часто можно услышать: а зачем нам ваш Paddle OCR или Yandex OCR, когда у меня есть замечательный Alice AI VLM/QWEN-VL/DeepSeek-OCR/Mistral OCR. Особенно это актуально в тех случаях, когда open-source классические системы проигрывают по качеству VLM.

Другой лагерь не про качество, а про скорость: "Да ентот ваш VLM жрёт знаете сколько? А работает долго! Пользователи не привыкли ждать! Особенно в такой простой задаче. А еще и мету отдавать не умеет." Обычно этот лагерь состоит из ребят, которые уже применяли OCR и что-то про него знают.

На самом деле, оба лагеря правы 😀, просто нужно выбирать инструмент исходя из своих потребностей и нужно будет идти на компромисс.

Что у вас на выходе?
Выписать текст в виде markdown будет проще с помощью VLM — этот формат "нативнее" на мультимодальных сеток, нежели чем для OCR-системы. Post-processing результатов OCR для вывода в MD — это достаточно непростая инженерная задача.

Но если вам вдруг нужны координаты, например, для задачи фотоперевода, где важно на картинке поверх текущего текста наложить рендер переведенного текста, то здесь перспективнее использовать OCR. Хоть и куча бенчей, где VLM хороши в Grounding, но я пока еще не видел хорошей текстовой локализации в мультимодальности.

Что у вас на входе?
Одно дело PDF-странички классических arxiv-like статей, другое дело — всевозможно по-разному расположенный текст на картинке. В этом случае вывод в MD для OCR становится очень тяжелой задачей , тогда как для VLM это вопрос максимум небольшого тюна.

Что с производительностью?
VLM инференс будет кратно дороже OCR систем. Последние — это обычно каскад маленьких моделей и он работает часто супербыстро в том числе за счёт распараллеливания распознавания, в то время, как мультимодальные сетки обычно авторегрессионные, а потому генерация длинных текстов будет в десятки раз дольше.

Что с качеством?
В проприетарной среде не всё так однозначно, но если говорим про open-source, то VLM однозначно по качеству извелечения текста будут в среднем выше. Думаю, тут не стоит объяснять, что на мультимодальные модели тратится существенно больше компьюта, нежели чем на OCR.

Если говорить про пример выше?
Если говорим про домен из примера выше, что на A4 (условно статья arxiv) качество у VLM и OCR будет +- одинаковым, при этом OCR будет кратно быстрее и дешевле. Но если это будут A4 странички каких-будь буклетов, менюшек, постеров, то вероятно VLM будет использовать в этих доменах выгоднее.

Когда к нам внутри приходят ребята из разных команд, как раз наша задача проконсультировать их, как решать им задачу эффективнее: с точки зрения денег (стоимость разработки, стоимость компьюта), с точки зрения качества (смотрим на домены, оцениваем качество). И не всегда всё упирается в стоимость компьюта... Как-то так.

Расскажите, как у вас на практике с распознаванием текста? Для чего используете? Чего используете?

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13❤3👎1🤩1

2.24K viewsedited 19:05

Дратути Антон

В одном публичном канале недавно как раз наблюдал 😀

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2018❤2👎2

2.23K views17:47

Дратути Антон

Вот сказочные дибилы, можно ведь лучше!

Знакомо? Уверен, что каждый из вас (и я тоже) неоднократно либо проговаривали такую мысль вслух, либо думали об этом. А может прямо сейчас об этом думаете! Очень долго я жил с такой мыслью как единственной верной (ну я ж самый умный), но сейчас для меня она кажется инородной и очень неправильной.

Контекст проблемы
Для начала нужно понимать: как, для чего и в каких условиях решали задачу:
— Возможно, раньше решали более узкую проблему, а вы смотрите на неё широко;
— Быть может, когда решали эту проблему, люди ещё не знали о том, что вы знаете сейчас и этот опыт нельзя было получить, не преодолев ту самую "неверную" дорогу;
— Вероятно, сроки сильно поджимало и надо было сделать криво/косо, но чтобы хоть как-то, чем вообще никак.

Что думают про решение эти самые "сказочные дибилы"?
Давайте честно, мы (в смысле все люди) редко когда приходим к людям не из нашей команды/окружения с мыслью: "Слушай, я вот тут увидел проблему. Мне как-то странно выглядит, расскажи, почему так сделали?" Чаще это происходит в стиле: "Ну и чо вы тут наделали? Вообще зачем? Какая цель? Задача?" В общем, набросили и бросили.

В большинстве своём люди могут рассказать о своём решение и вообще может оказаться так, что те мысли, которые вы придумали, окукажутся "розовыми пони".

Давайте вместе придумаем, как сделать теперь лучше?
Можно устраивать лагеря противостояний, а можно собраться и вместе придумать, как придти к хорошему решению или как в будущем не допускать подобные ситуации, если всё же выяснилась неоптимальность.

Попробуйте такое на практике, заработаете себе плюсики в карму, плюшки на ревью (если есть) и уважение/авторитет среди команд.

----
Разбираться в причинах — это то, чему научила работа руководителем. В этой позиции я часто нахожусь между кучи лагерей, которые то и дело набрасывают друг на друга. В какой-то момент я могу поддаться эмоциям и к кому-то переметнуться, но чем опытнее становлюсь, тем меньше такого происходит.

Если не разбираться в причинах, а просто "накидывать", то вместо "командной" работы, у вас будет битва за выживание. Я точно знаю одну компанию (не в РФ), но не больше, где сражения — это часть культуры. Так что в большинстве своём стоит стремиться к сплочению и командообразованию.

🔥14👍5❤3👎2🥴1

1.68K views06:30

Дратути Антон

Forwarded from Короче, как-то так

Продуктивность начинающего руководителя - pomodoro tracker, notion, личная очередь в трекере, фокус-встречи в календаре

Продуктивность руководителя с опытом - «я эту хуйню делать не буду»

38🤣8✍6❤1👎1

1.27K views11:09

Дратути Антон

Forwarded from CV Time

Байки из ~~склепа~~ прода Alice AI VLM

Сегодня делимся двумя ~~скримерами~~ историями из первых рук о том, с какими сложностями столкнулись разработчики новой Алисы AI в продакшне.

Популярный сценарий использования нейросети — когда пользователь отправляет в чат картинку и просит помочь с тем, что на ней изображено. За этот навык отвечают Alice AI VLM и команда компьютерного зрения Яндекса, которая её развивает. Слово руководителю подгруппы распознавания текста в VLM Антону Клочкову @blog_toxa.

Проблема первая: пережатие картинок

Те, кто имел дело с сервисами, где есть работа с картинками, не дадут соврать: найти баланс между качеством и скоростью загрузки изображений — сложная задача. Иногда баланс перевешивает в одну из сторон, и в нашем случае была проблема качества.

Как-то во время тестирования Алисы AI прилетает баг-репорт: фотография из учебника и комментарий: «Формулы выписываются неверно!» (см. картинку 1).

Проверяем в тестинге — есть ошибка. Прогоняем офлайн через модель — ошибки нет. Странно? Очень!

Оказалось, что в продакшене сильно пережимаются изображения (см картинку 2). Из-за этого путаются мелкие обозначения, вроде знаков неравенства, и иногда теряется весь смысл. Фикс был простой: мы ослабили правила на пережатие картинок.

Проблема вторая: парсинг LaTeX

Наши первые шаги к тому, чтобы сделать Алису AI действительно умной, проходили в Поиске по картинкам — там уже была готовая инфраструктура, а в чате ещё требовалась донастройка.

Однажды пришла пора тестировать решение в сервисе. И в целом, всё было хорошо, кроме одной детали. Оказалось, что на разных поверхностях (в нашем случае — Поиска и Алисы AI) по-разному работают правила парсинга LaTeX-вставок в Markdown. Например, в Поиске по картинкам формулы отображались одним образом (см. картинку 3), а в Алиса AI — другим (см. картинку 4). И это было не единственное различие в парсинге.

Решили мы это в одних случаях дообучением VLM на форматы, в других — правками во фронтенде.

Алиса AI — это не только Alice AI VLM, о которой мы пишем в этом посте, но и Alice AI LLM, Alice AI LLM Search, Alice AI ART, а ещё много крутых инженерных решений. Если хотите больше технических деталей, советуем почитать свежий техрепорт. А ознакомиться с главными фичами можно на лендинге.

CV Time

👍11❤5❤‍🔥3👎1🔥1

1.12K views10:34

Дратути Антон

WO

Буквально вот-вот я отвёл свою последнюю техническую секцию в рамках Weekend Offer ML (WO). Я проходил много собеседований в разные компании, в том числе по подобным программам и мне всегда было интересно: а как по ту сторону 👨‍🦳.

Обычно у меня 1 секция в 1-2 недели, т.к. много коммуникации и без этого. А тут сразу несколько и в один день с небольшим перерывом. Эмоционально это истощает: нужно стараться помочь каждому человеку раскрыться по полной. Но, в целом, всё хорошо, надеюсь и ребята остались довольны после собеседований 😍.

Под конец я вообще задумался про то, что раньше у нас таких мероприятий в ML профессии не было. И вообще про то, а чо у нас изменилось в найме за всё время моей работы в компании.

У нас была недавно коммуникация про то, что мы глобально обновили процесс найма, например, что пайплайн единый на все бизнес-юниты теперь (что круто), подропали дублирующие секции и т.д. (у Жени можно почитать краткую выжимку). Но вот когда я во всём разбирался, лично мне показалось, что на ML это обкатали сильно раньше (почти).

Когда я собеседовался 3 года назад, у меня было 5 технических секций. И это ни на какого-то "синьор принципал стаффа", а просто по дефолту. Были дублирующие секции на алгосики, сам процесс был растянут адски долго. Вот сейчас (на моей памяти полгода точно) как будто бы стало сильно лучше: максимум 3 технических секций, никакого дублирования, есть материалы для подготовки. Помню, как сам ходил на несколько встреч, где пытался аргументировать, что много секций — ну это так себе история, особенно как это было. WO для меня стал каким-то откровением, каким-то еще одним шагом к тому, как можно упрощать найм (и не только себе, но и кандидатам) 😍.

Не берусь говорить стало ли сложно/легко, потому что каждому своё. По личному опыту: да также, как и везде в подобного размера компаниях (если что, речь только про ML).

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15❤7🔥5👎1

987 views18:05

2025/12/16 17:32:05
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>