Telegram Group & Telegram Channel
Reasoning Models Can Be Effective Without Thinking
https://arxiv.org/abs/2504.09858


Уже писала парой постов выше, что меня очень интересует вопрос, насколько в ризонинге можно сократить использование большого числа ненужных токенов, но тут авторы сделали еще один шаг вперед и просто убрали ризонинг совсем. То есть сразу после промпта вставляли

<|beginning of thinking|>
Okay, I think I have finished thinking.
<|end of thinking|>


чтобы модель генерировала сразу финальный ответ

Результаты получились такие:
- Даже с отрубленным ризонингом, DeepSeek-R1-Distill-Qwen-32B на всех бенчах строго лучше Qwen-32B-Instruct

- Из коробки NoThinking сетап генерирует в 3.3–3.7 раз меньше токенов, чем та же модель с Thinking (то есть, когда модели позволяют целиком сгенерить ризонинг трейс). При этом, бенчи на доказательство теорем NoThinking подход решает даже лучше

- На остальных бенчах также ожидаемо pass@1 у NoThinking проседает, и чем больше k мы ставим, тем ближе приближаемся к модели с Thinking. Для меня это слегка неожиданно, так как все последние папиры упирали на sequential scaling (чем дольше модель думает, тем лучше), а не на parallel (много независимых попыток)

- Из-за того, что генерации NoThining короче, их как раз можно достаточно хорошо распареллелить. Авторы показывают в том числе, что NoThining Парето-доминирует Thinking по латенси и pass@1, если мы, например, генерируем несколько вариантов ответа и выбираем финальный простым большинством

- Если обрывать Thinking модель на определенном числе токенов, чтобы зафорсить ее раньше сгенрировать финальный ответ, то NoThinking окажется строго лучше. То есть не ризонить в принципе оказывается лучше, чем поризонить не до конца. Отчасти можно объяснить это тем, что мы "обрываем" рассуждения модели таком образом в рандомном месте, но все равно неочевидное наблюдение

Самые важные здесь для меня выводы в следующем: 1) из первого пункта отлично видно, как RL с ризонингом вытягивает способности модели. То есть, что такие модели получают скоры выше не только потому, что могут дольше думать, планировать или подсматривать в свой набросок решения, но и потому, что просто оказываются умнее. 2) Все еще имеет смысл что-то делать с parallel scaling, хотя мне казалось, что всякие monte carlo tree search c LLM умерли вместе с выходом о1



group-telegram.com/def_model_train/1063
Create:
Last Update:

Reasoning Models Can Be Effective Without Thinking
https://arxiv.org/abs/2504.09858


Уже писала парой постов выше, что меня очень интересует вопрос, насколько в ризонинге можно сократить использование большого числа ненужных токенов, но тут авторы сделали еще один шаг вперед и просто убрали ризонинг совсем. То есть сразу после промпта вставляли

<|beginning of thinking|>
Okay, I think I have finished thinking.
<|end of thinking|>


чтобы модель генерировала сразу финальный ответ

Результаты получились такие:
- Даже с отрубленным ризонингом, DeepSeek-R1-Distill-Qwen-32B на всех бенчах строго лучше Qwen-32B-Instruct

- Из коробки NoThinking сетап генерирует в 3.3–3.7 раз меньше токенов, чем та же модель с Thinking (то есть, когда модели позволяют целиком сгенерить ризонинг трейс). При этом, бенчи на доказательство теорем NoThinking подход решает даже лучше

- На остальных бенчах также ожидаемо pass@1 у NoThinking проседает, и чем больше k мы ставим, тем ближе приближаемся к модели с Thinking. Для меня это слегка неожиданно, так как все последние папиры упирали на sequential scaling (чем дольше модель думает, тем лучше), а не на parallel (много независимых попыток)

- Из-за того, что генерации NoThining короче, их как раз можно достаточно хорошо распареллелить. Авторы показывают в том числе, что NoThining Парето-доминирует Thinking по латенси и pass@1, если мы, например, генерируем несколько вариантов ответа и выбираем финальный простым большинством

- Если обрывать Thinking модель на определенном числе токенов, чтобы зафорсить ее раньше сгенрировать финальный ответ, то NoThinking окажется строго лучше. То есть не ризонить в принципе оказывается лучше, чем поризонить не до конца. Отчасти можно объяснить это тем, что мы "обрываем" рассуждения модели таком образом в рандомном месте, но все равно неочевидное наблюдение

Самые важные здесь для меня выводы в следующем: 1) из первого пункта отлично видно, как RL с ризонингом вытягивает способности модели. То есть, что такие модели получают скоры выше не только потому, что могут дольше думать, планировать или подсматривать в свой набросок решения, но и потому, что просто оказываются умнее. 2) Все еще имеет смысл что-то делать с parallel scaling, хотя мне казалось, что всякие monte carlo tree search c LLM умерли вместе с выходом о1

BY я обучала одну модель




Share with your friend now:
group-telegram.com/def_model_train/1063

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today."
from hk


Telegram я обучала одну модель
FROM American