Telegram Group & Telegram Channel
⚡️⚡️⚡️Вчера выложили нашу новую работу Confidence Is All You Need о способности языковых моделей выполнять роль функции наград (применяются в обучении с подкреплением — DeepSeek R1 яркий тому пример) для самостоятельного улучшения качества генерации текста на основе внутренней уверенности в своих ответах. Другими словами, языковая модель сама оценивает лучшие свои ответы, и эта оценка используется для её улучшения/дообучения. Мы назвали этот процесс Reinforcement Learning via Self-Confidence.

Такой подход позволяет избавиться от разработки отдельных функций наград, специальной разметки данных для обучения и дополнительных preference моделей.

В качестве базы для исследований взяли две модели Qwen2.5-Math: 1.5B и 7B, которые уже (как следует из названия) дообучались для решения математических задач. В итоге мы получили существенное улучшение на ряде математических бенчмарков за счёт такой простой процедуры: от +0.8% до +26.8%.

Поддержите апвоутами в голосовании за лучшую статью дня👇👇👇

https://huggingface.co/papers/2506.06395



group-telegram.com/complete_ai/690
Create:
Last Update:

⚡️⚡️⚡️Вчера выложили нашу новую работу Confidence Is All You Need о способности языковых моделей выполнять роль функции наград (применяются в обучении с подкреплением — DeepSeek R1 яркий тому пример) для самостоятельного улучшения качества генерации текста на основе внутренней уверенности в своих ответах. Другими словами, языковая модель сама оценивает лучшие свои ответы, и эта оценка используется для её улучшения/дообучения. Мы назвали этот процесс Reinforcement Learning via Self-Confidence.

Такой подход позволяет избавиться от разработки отдельных функций наград, специальной разметки данных для обучения и дополнительных preference моделей.

В качестве базы для исследований взяли две модели Qwen2.5-Math: 1.5B и 7B, которые уже (как следует из названия) дообучались для решения математических задач. В итоге мы получили существенное улучшение на ряде математических бенчмарков за счёт такой простой процедуры: от +0.8% до +26.8%.

Поддержите апвоутами в голосовании за лучшую статью дня👇👇👇

https://huggingface.co/papers/2506.06395

BY Complete AI







Share with your friend now:
group-telegram.com/complete_ai/690

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market.
from sg


Telegram Complete AI
FROM American