Telegram Group Search
Следущий семинар будет скорее обзорно-познавательным, о том, как работает RLHF и вообще RL для LLM fine-tuning, что нового в это привнёс DeepSeek и немного о том, как это работает на практике.

Но думаю, что будет интересно как минимум из-за личности докладчика. Кирилл Тыщук когда-то был моим студентом в СПбГУ, потом уехал сначала в Москву — в Сколтех и Яндекс — а потом и дальше, в Perplexity AI. И сейчас как раз находится между двумя работами: переходит из Perplexity AI в Google DeepMind. Кажется, этот взгляд на RL для LLM может быть интересным.)

Пост-обучение LLM с подкреплением: последние новости в алгоритмах и их наградах


Кирилл Тыщук
ex-Yandex, ex-Perplexity AI
Incoming Research Engineer, DeepMind

Ссылка на трансляцию (среда 1 октября, 14:00)

Мы проведём обзорную экскурсию по современным алгоритмам обучения с подкреплением для больших языковых моделей. Кратко напомним стандартный пайплайн обучения LLM, разберём, почему на финальном этапе нужна именно RL-оптимизация и как конструируются награды.

А затем подробнее остановимся на технических деталях самых популярных алгоритмов:
— базовый PPO, которым обучали первый ChatGPT;
— простой DPO, который делает "RL без RL";
— новый GRPO + verifiable rewards, которым обучали DeepSeek R1.
48🔥12👍10
С блогом Synthesis AI вышел неприятный случай — когда умер мой корпоративный Google-аккаунт, из большинства постов вдруг пропали все картинки. Оказалось, что они почему-то не подгружались на wordpress, а оставались в виде ссылок на те места, где они на моём Google Drive и лежали.

Аккаунт удалось временно восстановить, но это мне напомнило, что не только аккаунт, но и домен synthesis.ai не вечен, и блог надо спасать. Так что ожидайте очередную порцию ностальгических постов, на этот раз уже из серии о Generative AI и далее.

Generative AI Models in Image Generation: Overview

С этого поста когда-то всё началось; я хотел просто написать пост о том, как модели рисуют картинки, но оказалось, что это только начало. Его можно считать очень высокоуровневым кратким содержанием того, что будет в серии дальше, так что отдельного смысла он практически не имеет.

Variational Autoencoders (VAEs): Generative AI I

Ну а сама серия началась с поста про вариационные автокодировщики, на которых до сих пор основаны диффузионные модели для порождения (они работают в латентном пространстве разных VAE). Мне кажется, в этом посте я нарисовал довольно удачные картинки, и до сих пор их показываю в лекциях про VAE. Ну и вообще изложение получилось довольно стройным, от идеи к реализации, вроде бы всё должно быть понятно.
14🤓6
Как и предупреждал, продолжаю ударную дозу ностальгии; наверное, не нужно возвращать мой 2023-й, но вот что я тогда писал.

Discrete Latent Spaces: Generative AI II

Вариационные автокодировщики, общая конструкция которых была описана в предыдущем посте, долгое время оставались чем-то вроде сильного концептуально интересного бейзлайна, но проигрывали всем кому ни попадя, особенно, конечно, GAN'ам (то есть обычно AAE, adversarial autoencoders).

Это изменилось, когда латентное пространство VAE сделали дискретным: ввели некий "словарь" латентных кодов, который тоже обучается вместе с кодировщиком и декодировщиком. В этом посте как раз про идею дискретных пространств и VQ-VAE (vector quantized VAE) я и рассказываю. Кстати, если кто-то знает, почему так, то есть почему вдруг именно дискретные пространства стали ключом к успеху (а может, не они, просто так совпало с чем-то другим?), напишите — для меня это всё ещё загадка.

How DALL-E Creates AI-Generated Art: Generative AI III

А в следующем посте мы совмещаем вариационный автокодировщик с дискретным пространством и делаем логичный следующий шаг: приспособить трансформер писать код в этом пространстве, чтобы можно было из текста (или чего угодно другого) порождать картинку.

Так получилась модель DALL-E, с которой, можно сказать, началась история по-настоящему хорошо работающих text-to-image моделей. Она прогремела в 2021-м, но уже через год её оставили позади диффузионные модели. Но это уже совсем другая история...
🔥62
Сегодня семинар настолько удался, что даже пошли делать групповое фото в главном коридоре главного здания. Провожаем Кирилла в DeepMind!
57🔥25👍2
Сегодня выступаю на конференции Polynomial Computer Algebra 2025; спасибо Николаю Николаевичу Васильеву за приглашение! Кстати, вдруг выяснилось, что доклад будет транслироваться онлайн, так что если интересно, подключайтесь в 15 часов по этому адресу в Zoom (полный анонс в конце поста; видео тоже потом выложу, конечно).

Доклад в основном будет похож на то, что я рассказывал весной на заседании Матобщества, но, конечно, для сегодняшнего доклада подытожил и несколько недавних новостей. А ещё сделал такой вот любопытный таймлайн (см. картинку).

Мне кажется, многие люди, говоря о текущем положении дел с AI-моделями, каким-то волшебным образом мгновенно забывают о векторе прогресса, причём и о его направлении, и о длине. Смотрят на текущую модель от OpenAI и говорят, что "это ещё не то"; такие люди есть и среди математиков, пару любопытных примеров я приведу.

Но мы же не живём исключительно в настоящем времени. Любой учёный планирует свою работу минимум на ближайший год, а если нужно заявку на грант написать, то и на 2-3 года. И в этом смысле очень показательно посмотреть на то, какой путь прошли обычные, общедоступные LLM за последние три года, от первых проблесков chain of thought до GPT-5 Pro.

На картинке — задачи, с которыми могли с грехом пополам (то есть могли, но не очень устойчиво) справиться ведущие LLM в разное время. Речь идёт именно о базовых "пользовательских" LLM, не о специализированных системах вроде AlphaProof или AlphaEvolve; понятно, что возможности последних куда шире.

Мне кажется, мы часто забываем, что буквально три с половиной года назад, в начале 2022 года, LLM плохо справлялись с задачами вида "у Васи было три теннисных мячика, и он купил ещё две упаковки по пять, сколько всего стало?"; именно на таких задачах дали существенные улучшения первые попытки сделать chain of thought.

А прямо сейчас LLM успешно доказывают новые теоремы с одного промпта. Да, пока только очень простенькие новые теоремы, во многом аналогичные уже известным. И да, пока бывает, что с ошибками, в которые LLM иногда нужно ткнуть носом.

Но с чем они справятся ещё через год?.. Как вы планируете свою жизнь и деятельность?..

=====

AI и математика: последние результаты и прогнозы на будущее


Ссылка на Zoom: https://us06web.zoom.us/j/85851828893?pwd=Mbzz8vyy7sW6bFpEVwG7rSIuAs98om.1
Conference ID: 858 5182 8893
Access code: 740575

Аннотация:
Математика как область применения AI и компьютерных наук в целом всегда оставалась для меня загадкой: самая формализованная часть человеческой деятельности, тем не менее, неизменно оказывалась очень сложной для автоматизации. Громких теорем, доказанных полностью автоматически, всё ещё нет, но кажется, что успех понемногу приходит с неожиданной стороны: не от автоматических пруверов, а от больших языковых моделей (LLM). В докладе мы обсудим текущее положение дел с математическими рассуждениями у LLM и увидим, какой скачок произошёл с появлением рассуждающих моделей. Кроме того, мы обсудим самые последние результаты, которые похожи уже не на звоночек, а на колокол — по кому он звонит?..
16👍3🔥3😭2
О первой игре великого Бенуа Сокаля (и её недавно вышедшем римейке) я изрядно подрасписался, да и картинок хотелось вставить много разных, так что здесь существенно сокращённая версия, а полную можно как всегда прочитать на сайте:

Amerzone: The Explorer's Legacy

История игры Amerzone начинается даже не в девяностые, а в 1980-е годы, когда Бенуа Сокаль ещё никак не был связан с игровой индустрией, а рисовал комиксы (которые, кстати, уже раскрашивал на компьютере). В частности, в 1986 году он нарисовал комикс L'Amerzone, один из многих в серии приключений инспектора Канардо, утки-детектива (hold that thought! к этой идее мы ещё вернёмся в следующих постах).

В середине девяностых Сокаль решил попробовать выпустить единый CD-ROM со своими комиксами и некими "3D-материалами" по его вселенной. Издатель одобрил, а в качестве нового медиа решено было сделать игру. Сначала хотели сделать маленькую и простенькую, но вошли во вкус, и вот к 1999 году получился Amerzone. Сам Сокаль признавался, что главными источниками вдохновения стали, во-первых, Myst, а во-вторых, атмосфера знаменитого фильма Вернера Херцога Fitzcarraldo.

И вот совсем недавно, в апреле этого года, вышел римейк классической игры с тем же названием; в него я, разумеется, и играл, чего и вам рекомендую. Интервью с разработчиками из Microids не нашёл, но ни секунды не сомневаюсь, что это было сделано в память самого Бенуа Сокаля, который ушёл из жизни в 2021-м.

Графику в римейке, конечно, прокачали очень хорошо; выглядит всё почти совсем современно. Детализация и графика в целом, конечно, скорее выглядят на уровне 2015 года, чем 2025-го, но разве кто-то здесь будет спорить, что в 2015-м игры были уже очень хороши на вид?.. В Amerzone и пейзажи красивые, и анимации достаточно детализированы, и стиль (унаследованный от оригинала) на высоте.

А самое интересное в том, что этот очень достойный внешний вид сочетается с, по всей видимости, не особенно изменившимся геймплеем из девяностых! Это квест, ходишь ты в нём прямо как в Myst и Riven, перемещаясь между фиксированными контрольными точками, и загадки выглядят как "применить одно на другое".

Как по мне, отличный геймплей! Я любил квесты в детстве, но у классических квестов в наше время есть две проблемы: во-первых, играть в них сейчас уже немного больно глазам, даже если исходная графика не претендовала на реалистичность, а во-вторых, они частенько были сверхсложными и совершенно нелогичными. Как говорится, ставьте 🐐 те, кто помнит козла из Broken Sword (а это очень простой квест по сравнению с ранними девяностыми).

И вот Amerzone исправил обе: графику переделали, а загадки изначально были относительно простыми (относительно других квестов!) и строились так, чтобы игра проходилась как кино, а не заставляла часами пробовать "всё на всё". Здесь всегда подсвечиваются все активные точки, и на каждой конкретной локации их не так много — всё помещается в голове, подсказки работают, "применить всё на всё" было бы не так сложно, но так и не пригодилось, все загадки решились по пути. Кажется, Сокаль так и задумывал.

Здесь неплохая история. Это, конечно, самый классический и самый прямолинейный Бенуа Сокаль: мы за живую природу и против угнетающих её латиноамериканских диктаторов, но зато мы с роботами, точнее, со стильной лодкой, трансформирующейся в самолёт и вообще во всё что угодно... через загрузку нужных дискет. Но следить за происходящим всё равно интересно, а богатый лор позволяет погрузиться в игру.

В общем, это тот самый квест. Та самая Syberia, только ещё раньше — это первая игра Бенуа Сокаля. Те самые загадки "применить палку на копалку", только совсем не душные. И то самое погружение, только в современной графике. Рекомендую!
10👍7🆒1
На то, чтобы серьёзно заниматься пианинкой, совсем нет сил и времени сейчас, но занятия в школе таки идут, и вот прошлый джем записали прямо с моего ракурса.

В каком-то смысле это (только желательно в несколько раз лучше) как раз то, чему я изначально хотел научиться — спокойно и расслабленно импровизировать вместе с другими людьми. Но да, крайне желательно в несколько раз лучше.)
🔥122
Forwarded from Jam's Cool info
Media is too big
VIEW IN TELEGRAM
Учебный ансамбль Nord Star исполняет легендарную композицию Sleepwalk в версии группы The Shadows.
Эта инструментальная баллада, впервые написанная дуэтом Santo & Johnny в 1959 году, обрела новую жизнь благодаря The Shadows, которые добавили в неё свой фирменный гитарный звук и атмосферу начала 60-х.

Наши ученики сумели передать мягкое, мелодичное настроение трека и показать, как классика может звучать свежо и вдохновляюще в современном исполнении.
35🔥11👍10🥰2🤗1
Четверги — главный источник контента. Например, продолжается курс "Основы байесовского вывода":

СПбГУ — 2025.10.02 — Введение в классификацию
(слайды и доска, как всегда, на странице курса)

Начали с постановки задачи классификации. Здесь важно поговорить о геометрии происходящего; например, как правильно определить линейную разделяющую поверхность для трёх классов? Это не такой очевидный вопрос. Дальше я, как обычно в своих курсах, рассказал про линейный дискриминант Фишера: он, конечно, сам по себе как метод классификации вряд ли кому-то нужен, но он тоже даёт ключевую геометрическую интуицию: классификация — это о том, как найти правильное одномерное направление для проекции данных.

А затем перешли к порождающим моделям: если они есть, то автоматически есть и оптимальный байесовский классификатор. Гауссовский пример здесь называется квадратичным дискриминантным анализом (QDA), или линейным (LDA), если предположить одинаковые матрицы ковариаций. А закончил я на идее логистической регрессии, о которой будем подробно говорить в следующий раз.
18👍10
2025/10/22 20:54:44
Back to Top
HTML Embed Code: