group-telegram.com/netlenkanet/25130
Last Update:
Издание Массачусетского технологического MIT Technology Review опубликовало статью под громким заголовком «Как DeepSeek разнес в пух и прах принципы ИИ — и почему все последуют его примеру».
Сразу о главном разоблачении (точнее, "секрете Полишинеля") от MIT – DeepSeek стоила точно не 5,6 млн., ибо одни использовавшиеся чипы NVIDIA оцениваются в 1 млрд. долл.
А вот, что впечатлило MIT: техника, известная как обучение с подкреплением и обратной связью с человеком (RLHF), делает чат-ботов вроде ChatGPT такими ловкими. Теперь RLHF используется во всей отрасли. Но DeepSeek показал, что можно получить те же результаты, вообще не используя людей — по крайней мере, большую часть времени. DeepSeek заменяет контролируемую тонкую настройку и RLHF на шаг обучения с подкреплением, который полностью автоматизирован. Вместо использования обратной связи от человека для управления своими моделями фирма использует оценки обратной связи, выдаваемые компьютером. Чтобы построить R1, DeepSeek взял V3 и снова и снова запускал его цикл обучения с подкреплением. В 2016 году Google DeepMind показал, что этот тип автоматизированного подхода проб и ошибок, без человеческого участия, может взять модель настольной игры, которая делает случайные ходы, и обучить ее побеждать гроссмейстеров. DeepSeek делает нечто подобное с большими языковыми моделями: потенциальные ответы рассматриваются как возможные ходы в игре.
Недостатком этого подхода является то, что компьютеры хорошо оценивают ответы на вопросы по математике и коду, но не очень хороши в оценке ответов на открытые или более субъективные вопросы. Вот почему R1 показывает особенно хорошие результаты на тестах по математике и коду. Чтобы обучить свои модели отвечать на более широкий спектр нематематических вопросов или выполнять творческие задачи, DeepSeek по-прежнему приходится просить людей предоставлять обратную связь. Но даже это дешевле в Китае. По сравнению с западными рынками, стоимость создания высококачественных данных в Китае ниже, и там больше кадров с университетской квалификацией в области математики, программирования или инженерии.
Но у DeepSeek есть еще один трюк в рукаве. Он обучил свою базовую модель V3 делать то, что называется многотокенным прогнозированием, когда модель учится предсказывать строку слов сразу, а не по одному за раз. Такое обучение обходится дешевле и, как оказалось, также повышает точность. «Если вы думаете о том, как вы говорите, когда вы находитесь на полпути предложения, вы знаете, какой будет остальная часть предложения», — говорит Цайлер.
@netlenkanet
BY Нетленка

Share with your friend now:
group-telegram.com/netlenkanet/25130