Telegram Group & Telegram Channel
🌟 DeepMath-103K — датасет для прокачки LLM в продвинутой математике

DeepMath-103K — это новый мощный набор задач для обучения больших языковых моделей (LLMs) математическому рассуждению на высоком уровне сложности с помощью reinforcement learning (RL).

📦 Что в наборе?
103 000+ задач уровня сложности 5–9 (от среднего до продвинутого уровня).

Каждая задача включает:

📌 Верифицируемый ответ — важно для обучения с подкреплением.

🧪 3 решения, сгенерированных моделью R1 — для обучения с учителем или дистилляции.

Полная очистка от утечек данных (decontaminated) — можно безопасно использовать на бенчмарках.

📊 Почему это важно?
Модели, обученные на DeepMath-103K, показывают существенный прирост точности на сложных математических задачах и бенчмарках (MATH, GSM8K, MiniF2F и др.).

🛠 Применение:
Fine-tuning моделей (например, GPT, LLaMA) для математического reasoning.

RLHF (reinforcement learning with human feedback) и self-improvement.

Дистилляция сильных моделей в более компактные.

🔜PAPER: https://arxiv.org/abs/2504.11456
🔜CODE: https://github.com/zwhe99/DeepMath
🔜 SET: https://huggingface.co/datasets/zwhe99/DeepMath-103K

@data_math
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_math/753
Create:
Last Update:

🌟 DeepMath-103K — датасет для прокачки LLM в продвинутой математике

DeepMath-103K — это новый мощный набор задач для обучения больших языковых моделей (LLMs) математическому рассуждению на высоком уровне сложности с помощью reinforcement learning (RL).

📦 Что в наборе?
103 000+ задач уровня сложности 5–9 (от среднего до продвинутого уровня).

Каждая задача включает:

📌 Верифицируемый ответ — важно для обучения с подкреплением.

🧪 3 решения, сгенерированных моделью R1 — для обучения с учителем или дистилляции.

Полная очистка от утечек данных (decontaminated) — можно безопасно использовать на бенчмарках.

📊 Почему это важно?
Модели, обученные на DeepMath-103K, показывают существенный прирост точности на сложных математических задачах и бенчмарках (MATH, GSM8K, MiniF2F и др.).

🛠 Применение:
Fine-tuning моделей (например, GPT, LLaMA) для математического reasoning.

RLHF (reinforcement learning with human feedback) и self-improvement.

Дистилляция сильных моделей в более компактные.

🔜PAPER: https://arxiv.org/abs/2504.11456
🔜CODE: https://github.com/zwhe99/DeepMath
🔜 SET: https://huggingface.co/datasets/zwhe99/DeepMath-103K

@data_math

BY Математика Дата саентиста




Share with your friend now:
group-telegram.com/data_math/753

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. Telegram Messenger Blocks Navalny Bot During Russian Election "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said.
from us


Telegram Математика Дата саентиста
FROM American