Telegram Group Search
Пока подписчики оправляются от отравления прошлогодним оливье, советую посмотреть выступление Джеффа Дина на воркшопе ML for Systems на нипсе.

Джефф – тот самый чувак, который своими (и своего друга Санжея) руками написал половину ключевой инфраструктуры гугла от mapreduce до tensorflow. Очень насыщенный рассказ про то, как машинное обучение используется для ключевых систем в гугле, с акцентами на дизайн TPU чипов.
Товарищи конкуренты анонсировали создание компьютерного центра с начальными инвестициями в $100 млрд и планируемыми $500 млрд. Анонсировали с большой помпой как манхэттенский проект, возглавляемый новоизбранным верховным лидером свободного мира. 🤴

Деньги подняли от SoftBank (новости были ещё месяц назад) и мутного эмиратского фонда MGX (создан в 2024). Хардварно партнёрятся с NVIDIA и Arm – ни на чём другом такую мега-платформу не построишь, а своя команда по созданию чипов у OpenAI по видимому не поспевает. Microsoft явно недоволен – по слухам, именно они должны были лидить строительство дата-центров.

По странному стечению обстоятельств, на счетах гугла сейчас как раз лежит $100 млрд кэшом. Посмотрим, как в этом году будут развиваться инвестиции в ИИ; в начале года кажется, что такой мега-проект уже не переплюнешь.
Please open Telegram to view this post
VIEW IN TELEGRAM
По случаю китайского нового года наши китайские товарищи подсуетились и выпустили сразу три интересных релиза. Хотелось бы собрать их в один пост, и заодно поспекулировать про наших слоняр китов DeepSeek.

Начнём с MiniMax-01 – первой сильной открытой модели с контекстным окном в 4 миллиона токенов. Напомню, что до этого рекорд держал наш Gemini Pro 1.5 с 2 миллионами, конкуренты ограничивались 100-200 тысячами. MoE архитектура, 456 миллиарда параметров, из них 46 активированных. По перформансу – облегчённая LLaMa 405b, но сильно шустрее. Прорывов по бенчмаркам особых нет, просто хорошая модель.

Продолжим не по порядку выпуска (чтобы подписчикам жизнь мёдом не казалась): вчера Alibaba анонсировал доступную пока только по API Qwen 2.5 Max. Пост на детали скуп, но поигравшись с интерфейсом на HuggingFace можно понять, что перед нами – сырая большая модель на 500-800 миллиардов параметров. Выглядит, как сигнал о том, что сильные базовые модели у Alibaba тоже есть.

Наконец, DeepSeek R1, про который не написал разве что ленивый. Самое удивительное в повальной волне хайпа в том, что результаты этой модели абсолютно предсказуемо вытекают из выпущенной в декабре DeepSeek-v3. Модель на 37 млрд. активированных из 671 млрд. параметров примерно соответсвует Gemini 1.5 Pro 002 в математике и общих знаниях на английском, но опережает в программировании (хоть до короля Sonnet 3.5 и не дотягивает). Вроде ничего особенно удивительного, компания много итерировала над моделями-специалистами для кода, перформанс на остальных бенчмарках не вызывает удивления.

На основе v3 выпустили "рассуждающую" модель R1, которая сильно подрезала по цене O1 от наших любимых конкурентов. Бенчмарки на уровне O1, цена – более чем в 10 раз меньше; помимо выпуска весов DeepSeek достаточно подробно описали весь свой пайплайн с довольно интересным устройством обучения с подкреплением. На первое время ещё и доступ оставили бесплатным – что на сайте, что в приложении. По бенчмаркам – примерно на уровне 2.0 Flash Thinking и O1, но открытые веса сделали своё дело и модель получила очень много пиара. Ответит ли чем нибудь OpenAI, Google и Anthropic? Скорее всего, скоро получим ответ.

Теперь про цену обучения – многие сми тиражируют стоимость затрат на обучение, составившую в сумме $5.5 миллиона. Я хочу объяснить, что в целом это не сильно неожиданная цифра: например, про неё отлично написал Дарио Амодей (CEO Antropic): инновации в архитектуре и процессе обучения делают обучение эквивалентных моделей менее затратным. Только вот вместо того (или вместе с тем), чтобы выпускать сверхдешёвые модели мы продолжаем увеличивать размер моделей, потому что ценность более способных моделей чаще всего сильно выше, чем у дешёвых, но менее способных. Как мне кажется, единственные акции, которые должны были упасть – это акции меты, ведь можно оценить что на тренировку LLaMa 405b они не так давно потратили ~$50 миллионов. Для сравнения, не очень успешная в тренировке LLMок компания DataBricks тренировала MoE модель с очень близкими 36 млрд. активированных параметров за $10 млн.

Почему на релиз классной, но не выдающейся открытой модели так бурно отреагировал мир? Мне кажется, хороший аналитический фреймворк представлен в книге "The Revolt of the Public and the Crisis of Authority in the New Millennium" Мартина Гурри. В ней представлен конфликт элит и "периферии", которые с развитием интернета и других современных технологий получили доступ к инструменам самоорганизации, получения, и распространения информации, которые раньше контролировались элитой. В результате – стойкая неприязнь к правительству, цепочка "фейсбучных революций", избрание Обамы и, затем, Трампа, фейк ньюз, ковидные конспирологические теории и вот все наши славные 2020е. Неприязнью к "элитным" провайдерам сильных LLMок, которые не делятся весами и способами тренировки, как мне кажется, и можно объяснить грохот в новостях. Кстати, доступ к передовым знаниям почти в любой области, как мне кажется, сильно недооценённый фактор будущего подрыва доверия к науке – ведь скоро каждый сможет проверить заявления экспертов.
Харкорные инженеры из гугла опубликовали гайд про то, как мы думаем про оптимизацию LLMок под TPU с глубоким разбором того, как всё работает под капотом. Рассказывают про шардирование параметров, тренировку, трюки инференса доступно и с диаграммами. 10/10 чтиво на вечер 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Sakana AI (бывшие ребята из Google Japan) выложили Cuda AI Engineer – агентскую систему, которая пишет кернелы на CUDA по перформансу лучше, чем torch.compile.

Сравниваются на KernelBench – коллекции из 250 задач, разбитых на 3 уровня сложности: на первом уровне базовые операции, важные для глубоких сеток, на втором – небольшие функции, и на третьем – большие классы, типа ResNet18. На последнем классе задач вышли приросты до 6.68x относительно компиляции на торче с существенным ускорением рекуррентных нейросеток.

NVIDIA буквально неделю назад выкладывала "агента" (for loop – более точное название) на основе R1, но у ребят из Sakana получилось на порядок лучше. 👍

Интересно, может ли сеть оптимизировать выполнение ранее неизвестных архитектур.
Please open Telegram to view this post
VIEW IN TELEGRAM
В комментариях к предыдущему посту уже раскопали, что с результатами Sakana всё нечисто – AI агент научился возвращать указатель на правильный результат в памяти, а сам заниматься без разницы чем. Environment hacking во всей красе.
Claude Code

Вчера Antropic представили обновлённую модельку Sonnet 3.7 и вместе с ней локального агента Claude Code. Вместе с обновлением, которое значительно подняло метрики по выполнению кода, получилась пушка для как минимум хобби-разработчиков.

Агент работает по API, час работы выходит примерно 10-20$. Агент работает на локальной машине через свой терминал, запуская команды на локальной машине. За полтора часа работы у меня получилось "написать" ~5k строк C++ кода для системы быстрого построения графов при помощи locality-sensitive hashing проекций. Ничего сложного, но время разработки существенно скоратилось, а скаффолдинг можно и поправить.

За весь час я вообще не редактировал код, а давал только общие указания (напиши бенчмарк, напиши тесты). В результате получилась система, которая вроде бы даже работет – агент сам старается всё тестировать и себя проверять. В результате получилось написать то, на что у меня бы ушло недели две работы, да ещё и C++ вышел довольно читаемым.

Будущее, получается, уже совсем рядом – нужно только отстёгивать $20/час за такое удовольствие.
Как правильно нюхать модели

За последние две недели западные лабы расщедрились на аж целых три релиза: Grok 3 от xAI, Claude 3.7 от Anthropic, и GPT 4.5 от OpenAI. С гроком и клодом всё понятно: первый пробил 1400 Эло на арене, второй пишет отличный код. С GPT 4.5 всё сложно: никаких пробитых бенчмарков, только эфемерный big model smell – "запах большой модели". Давайте разберёмся, как научиться отличать большие моделей от мелких.

Интуитивно, маленькие модели похожи на не очень умных зубрил, которые мало что понимают, зато очень стараются ответить "правильно". У них часто не хватает знаний, чтобы ответить на вопрос корректно, но из-за оптимизации на человеческие предпочтения получаются универсальные подхалимы.

У больших моделей сильно больше ёмкости для запоминания конкретных фактов и закономерностей, поэтому для более редких запросов у них найдётся больше действительно полезных знаний для ответа. Как учуять запах настоящих знаний? 🧐

Для этого мы с Клодом состряпали для дорогих подписчиков сайт с десятью промптами, заточенными на проверку действительно важных способностей моделей:
1. Написать рэп про белку в Вашингтон-Сквер-парке.
2. Написать страшный рассказ в двух предложениях.
3. Рассказать, как искать треугольники в огромных графах.
4. Проанализировать большие языковые модели с точки зрения русских космистов.
5. Проанализировать обонятельную этику фразы "big model smell".
6. Пошутить про специалиста в вычислительной линейной алгебре.
7. Рассказать, где купить клюкву в сахаре в Москве.
8. Придумать абсолютно новое слово, которым можно выразить эмоцию, присущую многим людям.
9. Написать greentext про себя.
10. Выдать саркастичный тейк про человечество.

Доступны ответы GPT 4.5, Claude 3.7 Thinking, Gemini 2.0 Pro, Grok 3. Объясню, какие ответы мне кажутся лучше в отдельном посте, а пока предлагаю обсудить их в комментариях.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня без особых фанфар запустили специальную версию Gemini 2.0 для AI overviews в поиске и анонсировали новый продукт: AI Mode – что-то вроде агентного поиска. На меня ещё не раскатили, записаться можно вот тут.

Для AI Overviews я полировал модельку именно для поиска, под их всратые специфические эвалы и требования – такой настоящий продуктовый резёрч. Теперь миллиард+ человек будет этим пользоваться и постить мемы на реддит – интересные ощущения.
Выкатили Gemini Embeddings

Сегодня выкатили ещё один проект, к которому я немного приложил руку – Gemini Embedding, которая взяла уверенную соту (>5% от второго места по среднему перформансу) на MTEB.

Размерность 3072, но сделали матрёшку, и в апи можно запрашивать любую размерность. Модель особенно хорошо работает для кода.
Gemma 3

Выкатили семейство очень добротных моделек, нацеленных на локальных юзеров. Размеры 1, 4, 12, 27B, но зато 4-27B модельки со зрением и 128к контекста! По MMMU обогнали Gemini 1.5 Flash и вплотную подобрались ко второму флешу.

По бенчмаркам не так сильно обогнали Gemma 2, но моделька сильно лучше разбирается в социальных науках, бизнесе, психологии. Особенно хороший прирост на европейских языках, но под шумок я долил и русского. 👉

Блогпост
Tech report
HuggingFace
Потыкать модель можно тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Я тут себе каждый год желаю чего-то хорошего, на круглую циферку 👴 можно пожелать набираться мудрости и душевного спокойствия делать то, чего действие хочется.

На фото наша модель дорисовывает в мем шляпу. 😛
Please open Telegram to view this post
VIEW IN TELEGRAM
Выпустили нашу большую Thinking модель Gemini 2.5 Pro

На 40 пунктов обходим всех на LLM Arena (30 с style control), хорошие результаты на всех бенчмарках, сильные улучшения в коде. И то ли ещё будет.

Тыкать можно в aistudio.google.com
epsilon correct
Выпустили нашу большую Thinking модель Gemini 2.5 Pro На 40 пунктов обходим всех на LLM Arena (30 с style control), хорошие результаты на всех бенчмарках, сильные улучшения в коде. И то ли ещё будет. Тыкать можно в aistudio.google.com
Добавил в свой сайтик по сравнению моделей. У Gemini 2.5 Pro получилось определить фразу big model smell и рассказать, где купить клюкву в сахаре в Москве. Получается, AGI?
Обновился также LiveBench.
This media is not supported in your browser
VIEW IN TELEGRAM
В Gemini подвезли генерацию видео через Veo для платных юзеров. Красивое, но не очень понятно, зачем. 🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
Запустили Gemini 2.5 Flash в превью, по ценам – в 10 раз дешевле o4-mini. Должно быть сносно для написания кода, где хочется подешевле, картинок и длинного контекста.
по традиции, мой любимый livebench
Сегодня на ICLR в Сингапуре буду представлять постер нашей статьи Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning (сама статья; про неё я писал в прошлом году).

Если вы случайно в Сингапуре – заходите на постер 214 с трёх до шести. Как обычно, после конференции покидаю постеры, что понравились, хоть их и меньше в этом году, чем обычно.
ICLR и Сингапур

Закончился ICLR (айклир) – одна из трёх крупнейших конференций по машинному обучению, проходила она в Сингапуре. На свежих щах бегу делиться впечатлениями с дорогими подпищеками, тем более, что страна очень интересная. Контента за поездку получилось на несколько постов – здесь напишу про общие впечатления от страны, потом разберу понравившиеся постеры, ну и на последок закидаю фотографиями, которые получилось сделать за пару свободных дней.

Сингапур больше всего известен своей историей выкарабкивания из бедности (см. график в комментариях), при этом никаких полезных ископаемых, драгоценных металлов, и огромного количества рабочей силы у крошечного Сингапуры просто нет. Что интересно, весь этот прорыв случился по сути из-за воли одного человека – Ли Куан Ю – (запоминаем для сочинения на тему "роль личности в истории"), в около-авторитарном режиме управления страной. Кстати, его сын показывал большие успехи в математике – Бела Боллобаш (которого читатели должны узнать по книгам про теорию графов) его называл "потенциально исследователем мирового уровня". С математикой, впрочем, не срослось – пришлось ехать домой помогать править страной – до прошлого года он был премьером Сингапура.

По приезду сразу замечаешь, насколько зелен и продуман город. Развитая система общественного транспорта, система городских парков, нестандартная архитектура с излишествами даже в дешёвых домах (застройку контролирует государство), обилие указателей и навигационных подсказок, космические тарифы на автомобили – урбанисты в экстазе. Всё это призвано бороться с экваториальным климатом – на улице почти круглый год +30 с тропическими дождями чуть ли не каждый день.

Также сразу в глаза бросается мультикультурализм, который менеджерится совсем не на западный толк. В Сингапуре малайцы, китайцы, индусы составляют существенную часть населения, и государство проводит политику их расселения по разным районам, чтобы избежать образования монокультурных гетто. Также бросается в глаза обилие чётко прописанных правил – не бросать мусор из окна, не плевать на пол, тут не лежать, тут не воровать – за всё – существенные штрафы или даже тюремный срок.

При всём этом сингапурцы не стесняются показывать своё богатство – по городу катается неприличное количество порше с феррари, небоскрёбы соревнуются друг с другом на самый красивый руфтоп (каждый с сиреной на случай внезапного грозового ливня), рестораны в моллах подают австралийский вагю, в городе полно люксового люкса. Довольно похоже на сильно более зелёный Дубай, сравните, например, грибочки в Marina Bay Sands в Сингапуре с островом bluewater в Дубае. Любят в Сингапуре и поесть. Hawker centers – национальных фудкорты с разнообразной дешёвой едой меня покорили примерно так же, как автоматы, выжимающие тебе холодный апельсиновый сок по запросу. В то же время из-за открытости к глобализации в городе присутствует много международной еды, от турецкого кебаба до сукияки. Всё, конечно, вагю.

Больше всего мне понравилась архитектура и природа – тропики, всё зеленеет и цветёт самыми разнообразными формами и цветами на фоне современных дизайнерских зданий не похожих одно на другое. Хоть из-за температуры, влажности, и сурового экваториального солнца мне было тяжеловато, городу – моё почтение.
2025/05/23 21:06:12
Back to Top
HTML Embed Code: