Telegram Group & Telegram Channel
⚡️⚡️⚡️Вчера выложили нашу новую работу Confidence Is All You Need о способности языковых моделей выполнять роль функции наград (применяются в обучении с подкреплением — DeepSeek R1 яркий тому пример) для самостоятельного улучшения качества генерации текста на основе внутренней уверенности в своих ответах. Другими словами, языковая модель сама оценивает лучшие свои ответы, и эта оценка используется для её улучшения/дообучения. Мы назвали этот процесс Reinforcement Learning via Self-Confidence.

Такой подход позволяет избавиться от разработки отдельных функций наград, специальной разметки данных для обучения и дополнительных preference моделей.

В качестве базы для исследований взяли две модели Qwen2.5-Math: 1.5B и 7B, которые уже (как следует из названия) дообучались для решения математических задач. В итоге мы получили существенное улучшение на ряде математических бенчмарков за счёт такой простой процедуры: от +0.8% до +26.8%.

Поддержите апвоутами в голосовании за лучшую статью дня👇👇👇

https://huggingface.co/papers/2506.06395



group-telegram.com/complete_ai/692
Create:
Last Update:

⚡️⚡️⚡️Вчера выложили нашу новую работу Confidence Is All You Need о способности языковых моделей выполнять роль функции наград (применяются в обучении с подкреплением — DeepSeek R1 яркий тому пример) для самостоятельного улучшения качества генерации текста на основе внутренней уверенности в своих ответах. Другими словами, языковая модель сама оценивает лучшие свои ответы, и эта оценка используется для её улучшения/дообучения. Мы назвали этот процесс Reinforcement Learning via Self-Confidence.

Такой подход позволяет избавиться от разработки отдельных функций наград, специальной разметки данных для обучения и дополнительных preference моделей.

В качестве базы для исследований взяли две модели Qwen2.5-Math: 1.5B и 7B, которые уже (как следует из названия) дообучались для решения математических задач. В итоге мы получили существенное улучшение на ряде математических бенчмарков за счёт такой простой процедуры: от +0.8% до +26.8%.

Поддержите апвоутами в голосовании за лучшую статью дня👇👇👇

https://huggingface.co/papers/2506.06395

BY Complete AI







Share with your friend now:
group-telegram.com/complete_ai/692

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." He adds: "Telegram has become my primary news source." On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change.
from sg


Telegram Complete AI
FROM American