Telegram Group & Telegram Channel
Издание Массачусетского технологического MIT Technology Review опубликовало статью под громким заголовком «Как DeepSeek разнес в пух и прах принципы ИИ — и почему все последуют его примеру».

Сразу о главном разоблачении (точнее, "секрете Полишинеля") от MIT – DeepSeek стоила точно не 5,6 млн., ибо одни использовавшиеся чипы NVIDIA оцениваются в 1 млрд. долл.

А вот, что впечатлило MIT: техника, известная как обучение с подкреплением и обратной связью с человеком (RLHF), делает чат-ботов вроде ChatGPT такими ловкими. Теперь RLHF используется во всей отрасли. Но DeepSeek показал, что можно получить те же результаты, вообще не используя людей — по крайней мере, большую часть времени. DeepSeek заменяет контролируемую тонкую настройку и RLHF на шаг обучения с подкреплением, который полностью автоматизирован. Вместо использования обратной связи от человека для управления своими моделями фирма использует оценки обратной связи, выдаваемые компьютером. Чтобы построить R1, DeepSeek взял V3 и снова и снова запускал его цикл обучения с подкреплением. В 2016 году Google DeepMind показал, что этот тип автоматизированного подхода проб и ошибок, без человеческого участия, может взять модель настольной игры, которая делает случайные ходы, и обучить ее побеждать гроссмейстеров. DeepSeek делает нечто подобное с большими языковыми моделями: потенциальные ответы рассматриваются как возможные ходы в игре.

Недостатком этого подхода является то, что компьютеры хорошо оценивают ответы на вопросы по математике и коду, но не очень хороши в оценке ответов на открытые или более субъективные вопросы. Вот почему R1 показывает особенно хорошие результаты на тестах по математике и коду. Чтобы обучить свои модели отвечать на более широкий спектр нематематических вопросов или выполнять творческие задачи, DeepSeek по-прежнему приходится просить людей предоставлять обратную связь. Но даже это дешевле в Китае. По сравнению с западными рынками, стоимость создания высококачественных данных в Китае ниже, и там больше кадров с университетской квалификацией в области математики, программирования или инженерии.

Но у DeepSeek есть еще один трюк в рукаве. Он обучил свою базовую модель V3 делать то, что называется многотокенным прогнозированием, когда модель учится предсказывать строку слов сразу, а не по одному за раз. Такое обучение обходится дешевле и, как оказалось, также повышает точность. «Если вы думаете о том, как вы говорите, когда вы находитесь на полпути предложения, вы знаете, какой будет остальная часть предложения», — говорит Цайлер.

@netlenkanet
👍93🤔1🥱1🗿1



group-telegram.com/netlenkanet/25130
Create:
Last Update:

Издание Массачусетского технологического MIT Technology Review опубликовало статью под громким заголовком «Как DeepSeek разнес в пух и прах принципы ИИ — и почему все последуют его примеру».

Сразу о главном разоблачении (точнее, "секрете Полишинеля") от MIT – DeepSeek стоила точно не 5,6 млн., ибо одни использовавшиеся чипы NVIDIA оцениваются в 1 млрд. долл.

А вот, что впечатлило MIT: техника, известная как обучение с подкреплением и обратной связью с человеком (RLHF), делает чат-ботов вроде ChatGPT такими ловкими. Теперь RLHF используется во всей отрасли. Но DeepSeek показал, что можно получить те же результаты, вообще не используя людей — по крайней мере, большую часть времени. DeepSeek заменяет контролируемую тонкую настройку и RLHF на шаг обучения с подкреплением, который полностью автоматизирован. Вместо использования обратной связи от человека для управления своими моделями фирма использует оценки обратной связи, выдаваемые компьютером. Чтобы построить R1, DeepSeek взял V3 и снова и снова запускал его цикл обучения с подкреплением. В 2016 году Google DeepMind показал, что этот тип автоматизированного подхода проб и ошибок, без человеческого участия, может взять модель настольной игры, которая делает случайные ходы, и обучить ее побеждать гроссмейстеров. DeepSeek делает нечто подобное с большими языковыми моделями: потенциальные ответы рассматриваются как возможные ходы в игре.

Недостатком этого подхода является то, что компьютеры хорошо оценивают ответы на вопросы по математике и коду, но не очень хороши в оценке ответов на открытые или более субъективные вопросы. Вот почему R1 показывает особенно хорошие результаты на тестах по математике и коду. Чтобы обучить свои модели отвечать на более широкий спектр нематематических вопросов или выполнять творческие задачи, DeepSeek по-прежнему приходится просить людей предоставлять обратную связь. Но даже это дешевле в Китае. По сравнению с западными рынками, стоимость создания высококачественных данных в Китае ниже, и там больше кадров с университетской квалификацией в области математики, программирования или инженерии.

Но у DeepSeek есть еще один трюк в рукаве. Он обучил свою базовую модель V3 делать то, что называется многотокенным прогнозированием, когда модель учится предсказывать строку слов сразу, а не по одному за раз. Такое обучение обходится дешевле и, как оказалось, также повышает точность. «Если вы думаете о том, как вы говорите, когда вы находитесь на полпути предложения, вы знаете, какой будет остальная часть предложения», — говорит Цайлер.

@netlenkanet

BY Нетленка




Share with your friend now:
group-telegram.com/netlenkanet/25130

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted.
from us


Telegram Нетленка
FROM American