🌟 DeepMath-103K — датасет для прокачки LLM в продвинутой математике
DeepMath-103K — это новый мощный набор задач для обучения больших языковых моделей (LLMs) математическому рассуждению на высоком уровне сложности с помощью reinforcement learning (RL).
📦 Что в наборе? 103 000+ задач уровня сложности 5–9 (от среднего до продвинутого уровня).
Каждая задача включает:
📌 Верифицируемый ответ — важно для обучения с подкреплением.
🧪 3 решения, сгенерированных моделью R1 — для обучения с учителем или дистилляции.
Полная очистка от утечек данных (decontaminated) — можно безопасно использовать на бенчмарках.
📊 Почему это важно? Модели, обученные на DeepMath-103K, показывают существенный прирост точности на сложных математических задачах и бенчмарках (MATH, GSM8K, MiniF2F и др.).
🛠 Применение: Fine-tuning моделей (например, GPT, LLaMA) для математического reasoning.
RLHF (reinforcement learning with human feedback) и self-improvement.
🌟 DeepMath-103K — датасет для прокачки LLM в продвинутой математике
DeepMath-103K — это новый мощный набор задач для обучения больших языковых моделей (LLMs) математическому рассуждению на высоком уровне сложности с помощью reinforcement learning (RL).
📦 Что в наборе? 103 000+ задач уровня сложности 5–9 (от среднего до продвинутого уровня).
Каждая задача включает:
📌 Верифицируемый ответ — важно для обучения с подкреплением.
🧪 3 решения, сгенерированных моделью R1 — для обучения с учителем или дистилляции.
Полная очистка от утечек данных (decontaminated) — можно безопасно использовать на бенчмарках.
📊 Почему это важно? Модели, обученные на DeepMath-103K, показывают существенный прирост точности на сложных математических задачах и бенчмарках (MATH, GSM8K, MiniF2F и др.).
🛠 Применение: Fine-tuning моделей (например, GPT, LLaMA) для математического reasoning.
RLHF (reinforcement learning with human feedback) и self-improvement.
For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." NEWS The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips.
from jp