Telegram Group & Telegram Channel
Издание Массачусетского технологического MIT Technology Review опубликовало статью под громким заголовком «Как DeepSeek разнес в пух и прах принципы ИИ — и почему все последуют его примеру».

Сразу о главном разоблачении (точнее, "секрете Полишинеля") от MIT – DeepSeek стоила точно не 5,6 млн., ибо одни использовавшиеся чипы NVIDIA оцениваются в 1 млрд. долл.

А вот, что впечатлило MIT: техника, известная как обучение с подкреплением и обратной связью с человеком (RLHF), делает чат-ботов вроде ChatGPT такими ловкими. Теперь RLHF используется во всей отрасли. Но DeepSeek показал, что можно получить те же результаты, вообще не используя людей — по крайней мере, большую часть времени. DeepSeek заменяет контролируемую тонкую настройку и RLHF на шаг обучения с подкреплением, который полностью автоматизирован. Вместо использования обратной связи от человека для управления своими моделями фирма использует оценки обратной связи, выдаваемые компьютером. Чтобы построить R1, DeepSeek взял V3 и снова и снова запускал его цикл обучения с подкреплением. В 2016 году Google DeepMind показал, что этот тип автоматизированного подхода проб и ошибок, без человеческого участия, может взять модель настольной игры, которая делает случайные ходы, и обучить ее побеждать гроссмейстеров. DeepSeek делает нечто подобное с большими языковыми моделями: потенциальные ответы рассматриваются как возможные ходы в игре.

Недостатком этого подхода является то, что компьютеры хорошо оценивают ответы на вопросы по математике и коду, но не очень хороши в оценке ответов на открытые или более субъективные вопросы. Вот почему R1 показывает особенно хорошие результаты на тестах по математике и коду. Чтобы обучить свои модели отвечать на более широкий спектр нематематических вопросов или выполнять творческие задачи, DeepSeek по-прежнему приходится просить людей предоставлять обратную связь. Но даже это дешевле в Китае. По сравнению с западными рынками, стоимость создания высококачественных данных в Китае ниже, и там больше кадров с университетской квалификацией в области математики, программирования или инженерии.

Но у DeepSeek есть еще один трюк в рукаве. Он обучил свою базовую модель V3 делать то, что называется многотокенным прогнозированием, когда модель учится предсказывать строку слов сразу, а не по одному за раз. Такое обучение обходится дешевле и, как оказалось, также повышает точность. «Если вы думаете о том, как вы говорите, когда вы находитесь на полпути предложения, вы знаете, какой будет остальная часть предложения», — говорит Цайлер.

@netlenkanet
👍93🤔1🥱1🗿1



group-telegram.com/netlenkanet/25130
Create:
Last Update:

Издание Массачусетского технологического MIT Technology Review опубликовало статью под громким заголовком «Как DeepSeek разнес в пух и прах принципы ИИ — и почему все последуют его примеру».

Сразу о главном разоблачении (точнее, "секрете Полишинеля") от MIT – DeepSeek стоила точно не 5,6 млн., ибо одни использовавшиеся чипы NVIDIA оцениваются в 1 млрд. долл.

А вот, что впечатлило MIT: техника, известная как обучение с подкреплением и обратной связью с человеком (RLHF), делает чат-ботов вроде ChatGPT такими ловкими. Теперь RLHF используется во всей отрасли. Но DeepSeek показал, что можно получить те же результаты, вообще не используя людей — по крайней мере, большую часть времени. DeepSeek заменяет контролируемую тонкую настройку и RLHF на шаг обучения с подкреплением, который полностью автоматизирован. Вместо использования обратной связи от человека для управления своими моделями фирма использует оценки обратной связи, выдаваемые компьютером. Чтобы построить R1, DeepSeek взял V3 и снова и снова запускал его цикл обучения с подкреплением. В 2016 году Google DeepMind показал, что этот тип автоматизированного подхода проб и ошибок, без человеческого участия, может взять модель настольной игры, которая делает случайные ходы, и обучить ее побеждать гроссмейстеров. DeepSeek делает нечто подобное с большими языковыми моделями: потенциальные ответы рассматриваются как возможные ходы в игре.

Недостатком этого подхода является то, что компьютеры хорошо оценивают ответы на вопросы по математике и коду, но не очень хороши в оценке ответов на открытые или более субъективные вопросы. Вот почему R1 показывает особенно хорошие результаты на тестах по математике и коду. Чтобы обучить свои модели отвечать на более широкий спектр нематематических вопросов или выполнять творческие задачи, DeepSeek по-прежнему приходится просить людей предоставлять обратную связь. Но даже это дешевле в Китае. По сравнению с западными рынками, стоимость создания высококачественных данных в Китае ниже, и там больше кадров с университетской квалификацией в области математики, программирования или инженерии.

Но у DeepSeek есть еще один трюк в рукаве. Он обучил свою базовую модель V3 делать то, что называется многотокенным прогнозированием, когда модель учится предсказывать строку слов сразу, а не по одному за раз. Такое обучение обходится дешевле и, как оказалось, также повышает точность. «Если вы думаете о том, как вы говорите, когда вы находитесь на полпути предложения, вы знаете, какой будет остальная часть предложения», — говорит Цайлер.

@netlenkanet

BY Нетленка




Share with your friend now:
group-telegram.com/netlenkanet/25130

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion.
from us


Telegram Нетленка
FROM American