Telegram Group & Telegram Channel
По поводу недавнего шума про DeepSeek. Вот вам совершенно поразительный кусок из их статьи. Речь про статью в январе, где они показывают уже вторую свою LLM, обученную через чистый RL. Они приходят к выводу (абсолютно логичному имхо), что обучение через RL будет приводить к поиску моделью совершенно новых путей решения задачи. Но что бы настолько…

На мой взгляд - это совершенно поразительно. Если кто сразу не понял: модель решает довольно сложную математическую задачу и тут у нее наступает момент “озарения” (в английском они это называют “aha moment”) и она перестраивает решение совершенно по другому… Момент озарения… Уже почти сильный ИИ…

Вот мне реально интересно, какие же ресурсы нужны, чтобы так обучить LLM на 671 млрд. параметров через RL. Что то меня берет сомнение про историю с 2000 GPU…

Сама статья: https://arxiv.org/abs/2501.12948

UPD: спасибо Михаилу Зубареву за отличную статью с разбором как самой модели, так и вычислительных мощностей: https://semianalysis.com/2025/01/31/deepseek-debates/



group-telegram.com/OpenTalksAI/957
Create:
Last Update:

По поводу недавнего шума про DeepSeek. Вот вам совершенно поразительный кусок из их статьи. Речь про статью в январе, где они показывают уже вторую свою LLM, обученную через чистый RL. Они приходят к выводу (абсолютно логичному имхо), что обучение через RL будет приводить к поиску моделью совершенно новых путей решения задачи. Но что бы настолько…

На мой взгляд - это совершенно поразительно. Если кто сразу не понял: модель решает довольно сложную математическую задачу и тут у нее наступает момент “озарения” (в английском они это называют “aha moment”) и она перестраивает решение совершенно по другому… Момент озарения… Уже почти сильный ИИ…

Вот мне реально интересно, какие же ресурсы нужны, чтобы так обучить LLM на 671 млрд. параметров через RL. Что то меня берет сомнение про историю с 2000 GPU…

Сама статья: https://arxiv.org/abs/2501.12948

UPD: спасибо Михаилу Зубареву за отличную статью с разбором как самой модели, так и вычислительных мощностей: https://semianalysis.com/2025/01/31/deepseek-debates/

BY OpenTalks.AI




Share with your friend now:
group-telegram.com/OpenTalksAI/957

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%.
from tw


Telegram OpenTalks.AI
FROM American