Telegram Group & Telegram Channel
Forwarded from Machinelearning
🌟 SEAL: Еще одна попытка создать пайплайн самообучающихся LLM.

SEAL - это методика от MiT, позволяющая LLM самостоятельно генерировать обучающие данные и настраивать параметры обучения, чтобы адаптироваться к новым задачам. Вместо традиционного файнтюна на внешних данных модель учится рефлексировать: анализировать контекст, создавать из него синтетические данные и применять их для корректировки собственных весов через механизм усиленного обучения.

SEAL, по сути, это два разделенных цикла:

🟢Внешний цикл использует RL, чтобы научить модель генерировать «самоизменения» (инструкции на естественном языке, описывающие, какие данные использовать и как настраивать параметры).

🟢Внутренний цикл реализует эти изменения: модель дообучается на сгенерированных данных, а затем тестирует результат на конкретной задаче. За коррекцию отвечает RL-алгоритм ReSTEM, который оценивает эффективность изменений и обновляет стратегию генерации инструкций. Для экономии ресурсов используются легковесные адаптеры LoRA, которые модифицируют только часть параметров модели.

Этот процесс повторяется, постепенно формируя у модели навык преобразования исходных данных в полезные обучающие сигналы.

SEAL протестили на 2 задачах: интеграции новых знаний и few-shot обучении. В первом случае модель генерирует логические следствия из текста, дообучается на них и улучшает точность ответов на вопросы без доступа к исходному тексту.

Во втором случае SEAL выбирает оптимальные аугментации данных и гиперпараметры для обучения на примерах задач ARC-AGI.

В обоих сценариях SEAL превзошел подходы с фиксированными шаблонами (ICL, TTT+Self Edit без RL и) и даже синтетическими данными от GPT-4.1.

Метод скорее академический и по большей части экспериментальный, у него есть ограничения:

🟠При последовательном применении изменений модель склонна к «катастрофическому забыванию» — потере знаний, усвоенных ранее;

🟠Сопутствующие вычислительные затраты, так как каждая итерация требует дообучения и тестирования модели.


▶️В репозитории проекта разработчики выложили код, данные и инструкции для двух направлений:

🟢Включение новых фактических знаний;

🟢Адаптация к новым задачам на основе примеров.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #SEAL #RL #MiT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/machinelearning_interview/1855
Create:
Last Update:

🌟 SEAL: Еще одна попытка создать пайплайн самообучающихся LLM.

SEAL - это методика от MiT, позволяющая LLM самостоятельно генерировать обучающие данные и настраивать параметры обучения, чтобы адаптироваться к новым задачам. Вместо традиционного файнтюна на внешних данных модель учится рефлексировать: анализировать контекст, создавать из него синтетические данные и применять их для корректировки собственных весов через механизм усиленного обучения.

SEAL, по сути, это два разделенных цикла:

🟢Внешний цикл использует RL, чтобы научить модель генерировать «самоизменения» (инструкции на естественном языке, описывающие, какие данные использовать и как настраивать параметры).

🟢Внутренний цикл реализует эти изменения: модель дообучается на сгенерированных данных, а затем тестирует результат на конкретной задаче. За коррекцию отвечает RL-алгоритм ReSTEM, который оценивает эффективность изменений и обновляет стратегию генерации инструкций. Для экономии ресурсов используются легковесные адаптеры LoRA, которые модифицируют только часть параметров модели.

Этот процесс повторяется, постепенно формируя у модели навык преобразования исходных данных в полезные обучающие сигналы.

SEAL протестили на 2 задачах: интеграции новых знаний и few-shot обучении. В первом случае модель генерирует логические следствия из текста, дообучается на них и улучшает точность ответов на вопросы без доступа к исходному тексту.

Во втором случае SEAL выбирает оптимальные аугментации данных и гиперпараметры для обучения на примерах задач ARC-AGI.

В обоих сценариях SEAL превзошел подходы с фиксированными шаблонами (ICL, TTT+Self Edit без RL и) и даже синтетическими данными от GPT-4.1.

Метод скорее академический и по большей части экспериментальный, у него есть ограничения:

🟠При последовательном применении изменений модель склонна к «катастрофическому забыванию» — потере знаний, усвоенных ранее;

🟠Сопутствующие вычислительные затраты, так как каждая итерация требует дообучения и тестирования модели.


▶️В репозитории проекта разработчики выложили код, данные и инструкции для двух направлений:

🟢Включение новых фактических знаний;

🟢Адаптация к новым задачам на основе примеров.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #SEAL #RL #MiT

BY Machine learning Interview







Share with your friend now:
group-telegram.com/machinelearning_interview/1855

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media.
from kr


Telegram Machine learning Interview
FROM American