Warning: file_put_contents(aCache/aDaily/post/epsiloncorrect/--): Failed to open stream: No space left on device in /var/www/group-telegram/post.php on line 50
epsilon correct | Telegram Webview: epsiloncorrect/239 -
Telegram Group & Telegram Channel
По случаю китайского нового года наши китайские товарищи подсуетились и выпустили сразу три интересных релиза. Хотелось бы собрать их в один пост, и заодно поспекулировать про наших слоняр китов DeepSeek.

Начнём с MiniMax-01 – первой сильной открытой модели с контекстным окном в 4 миллиона токенов. Напомню, что до этого рекорд держал наш Gemini Pro 1.5 с 2 миллионами, конкуренты ограничивались 100-200 тысячами. MoE архитектура, 456 миллиарда параметров, из них 46 активированных. По перформансу – облегчённая LLaMa 405b, но сильно шустрее. Прорывов по бенчмаркам особых нет, просто хорошая модель.

Продолжим не по порядку выпуска (чтобы подписчикам жизнь мёдом не казалась): вчера Alibaba анонсировал доступную пока только по API Qwen 2.5 Max. Пост на детали скуп, но поигравшись с интерфейсом на HuggingFace можно понять, что перед нами – сырая большая модель на 500-800 миллиардов параметров. Выглядит, как сигнал о том, что сильные базовые модели у Alibaba тоже есть.

Наконец, DeepSeek R1, про который не написал разве что ленивый. Самое удивительное в повальной волне хайпа в том, что результаты этой модели абсолютно предсказуемо вытекают из выпущенной в декабре DeepSeek-v3. Модель на 37 млрд. активированных из 671 млрд. параметров примерно соответсвует Gemini 1.5 Pro 002 в математике и общих знаниях на английском, но опережает в программировании (хоть до короля Sonnet 3.5 и не дотягивает). Вроде ничего особенно удивительного, компания много итерировала над моделями-специалистами для кода, перформанс на остальных бенчмарках не вызывает удивления.

На основе v3 выпустили "рассуждающую" модель R1, которая сильно подрезала по цене O1 от наших любимых конкурентов. Бенчмарки на уровне O1, цена – более чем в 10 раз меньше; помимо выпуска весов DeepSeek достаточно подробно описали весь свой пайплайн с довольно интересным устройством обучения с подкреплением. На первое время ещё и доступ оставили бесплатным – что на сайте, что в приложении. По бенчмаркам – примерно на уровне 2.0 Flash Thinking и O1, но открытые веса сделали своё дело и модель получила очень много пиара. Ответит ли чем нибудь OpenAI, Google и Anthropic? Скорее всего, скоро получим ответ.

Теперь про цену обучения – многие сми тиражируют стоимость затрат на обучение, составившую в сумме $5.5 миллиона. Я хочу объяснить, что в целом это не сильно неожиданная цифра: например, про неё отлично написал Дарио Амодей (CEO Antropic): инновации в архитектуре и процессе обучения делают обучение эквивалентных моделей менее затратным. Только вот вместо того (или вместе с тем), чтобы выпускать сверхдешёвые модели мы продолжаем увеличивать размер моделей, потому что ценность более способных моделей чаще всего сильно выше, чем у дешёвых, но менее способных. Как мне кажется, единственные акции, которые должны были упасть – это акции меты, ведь можно оценить что на тренировку LLaMa 405b они не так давно потратили ~$50 миллионов. Для сравнения, не очень успешная в тренировке LLMок компания DataBricks тренировала MoE модель с очень близкими 36 млрд. активированных параметров за $10 млн.

Почему на релиз классной, но не выдающейся открытой модели так бурно отреагировал мир? Мне кажется, хороший аналитический фреймворк представлен в книге "The Revolt of the Public and the Crisis of Authority in the New Millennium" Мартина Гурри. В ней представлен конфликт элит и "периферии", которые с развитием интернета и других современных технологий получили доступ к инструменам самоорганизации, получения, и распространения информации, которые раньше контролировались элитой. В результате – стойкая неприязнь к правительству, цепочка "фейсбучных революций", избрание Обамы и, затем, Трампа, фейк ньюз, ковидные конспирологические теории и вот все наши славные 2020е. Неприязнью к "элитным" провайдерам сильных LLMок, которые не делятся весами и способами тренировки, как мне кажется, и можно объяснить грохот в новостях. Кстати, доступ к передовым знаниям почти в любой области, как мне кажется, сильно недооценённый фактор будущего подрыва доверия к науке – ведь скоро каждый сможет проверить заявления экспертов.



group-telegram.com/epsiloncorrect/239
Create:
Last Update:

По случаю китайского нового года наши китайские товарищи подсуетились и выпустили сразу три интересных релиза. Хотелось бы собрать их в один пост, и заодно поспекулировать про наших слоняр китов DeepSeek.

Начнём с MiniMax-01 – первой сильной открытой модели с контекстным окном в 4 миллиона токенов. Напомню, что до этого рекорд держал наш Gemini Pro 1.5 с 2 миллионами, конкуренты ограничивались 100-200 тысячами. MoE архитектура, 456 миллиарда параметров, из них 46 активированных. По перформансу – облегчённая LLaMa 405b, но сильно шустрее. Прорывов по бенчмаркам особых нет, просто хорошая модель.

Продолжим не по порядку выпуска (чтобы подписчикам жизнь мёдом не казалась): вчера Alibaba анонсировал доступную пока только по API Qwen 2.5 Max. Пост на детали скуп, но поигравшись с интерфейсом на HuggingFace можно понять, что перед нами – сырая большая модель на 500-800 миллиардов параметров. Выглядит, как сигнал о том, что сильные базовые модели у Alibaba тоже есть.

Наконец, DeepSeek R1, про который не написал разве что ленивый. Самое удивительное в повальной волне хайпа в том, что результаты этой модели абсолютно предсказуемо вытекают из выпущенной в декабре DeepSeek-v3. Модель на 37 млрд. активированных из 671 млрд. параметров примерно соответсвует Gemini 1.5 Pro 002 в математике и общих знаниях на английском, но опережает в программировании (хоть до короля Sonnet 3.5 и не дотягивает). Вроде ничего особенно удивительного, компания много итерировала над моделями-специалистами для кода, перформанс на остальных бенчмарках не вызывает удивления.

На основе v3 выпустили "рассуждающую" модель R1, которая сильно подрезала по цене O1 от наших любимых конкурентов. Бенчмарки на уровне O1, цена – более чем в 10 раз меньше; помимо выпуска весов DeepSeek достаточно подробно описали весь свой пайплайн с довольно интересным устройством обучения с подкреплением. На первое время ещё и доступ оставили бесплатным – что на сайте, что в приложении. По бенчмаркам – примерно на уровне 2.0 Flash Thinking и O1, но открытые веса сделали своё дело и модель получила очень много пиара. Ответит ли чем нибудь OpenAI, Google и Anthropic? Скорее всего, скоро получим ответ.

Теперь про цену обучения – многие сми тиражируют стоимость затрат на обучение, составившую в сумме $5.5 миллиона. Я хочу объяснить, что в целом это не сильно неожиданная цифра: например, про неё отлично написал Дарио Амодей (CEO Antropic): инновации в архитектуре и процессе обучения делают обучение эквивалентных моделей менее затратным. Только вот вместо того (или вместе с тем), чтобы выпускать сверхдешёвые модели мы продолжаем увеличивать размер моделей, потому что ценность более способных моделей чаще всего сильно выше, чем у дешёвых, но менее способных. Как мне кажется, единственные акции, которые должны были упасть – это акции меты, ведь можно оценить что на тренировку LLaMa 405b они не так давно потратили ~$50 миллионов. Для сравнения, не очень успешная в тренировке LLMок компания DataBricks тренировала MoE модель с очень близкими 36 млрд. активированных параметров за $10 млн.

Почему на релиз классной, но не выдающейся открытой модели так бурно отреагировал мир? Мне кажется, хороший аналитический фреймворк представлен в книге "The Revolt of the Public and the Crisis of Authority in the New Millennium" Мартина Гурри. В ней представлен конфликт элит и "периферии", которые с развитием интернета и других современных технологий получили доступ к инструменам самоорганизации, получения, и распространения информации, которые раньше контролировались элитой. В результате – стойкая неприязнь к правительству, цепочка "фейсбучных революций", избрание Обамы и, затем, Трампа, фейк ньюз, ковидные конспирологические теории и вот все наши славные 2020е. Неприязнью к "элитным" провайдерам сильных LLMок, которые не делятся весами и способами тренировки, как мне кажется, и можно объяснить грохот в новостях. Кстати, доступ к передовым знаниям почти в любой области, как мне кажется, сильно недооценённый фактор будущего подрыва доверия к науке – ведь скоро каждый сможет проверить заявления экспертов.

BY epsilon correct


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/epsiloncorrect/239

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information.
from fr


Telegram epsilon correct
FROM American