Telegram Group & Telegram Channel
🌟 SEAL: Еще одна попытка создать пайплайн самообучающихся LLM.

SEAL - это методика от MiT, позволяющая LLM самостоятельно генерировать обучающие данные и настраивать параметры обучения, чтобы адаптироваться к новым задачам. Вместо традиционного файнтюна на внешних данных модель учится рефлексировать: анализировать контекст, создавать из него синтетические данные и применять их для корректировки собственных весов через механизм усиленного обучения.

SEAL, по сути, это два разделенных цикла:

🟢Внешний цикл использует RL, чтобы научить модель генерировать «самоизменения» (инструкции на естественном языке, описывающие, какие данные использовать и как настраивать параметры).

🟢Внутренний цикл реализует эти изменения: модель дообучается на сгенерированных данных, а затем тестирует результат на конкретной задаче. За коррекцию отвечает RL-алгоритм ReSTEM, который оценивает эффективность изменений и обновляет стратегию генерации инструкций. Для экономии ресурсов используются легковесные адаптеры LoRA, которые модифицируют только часть параметров модели.

Этот процесс повторяется, постепенно формируя у модели навык преобразования исходных данных в полезные обучающие сигналы.

SEAL протестили на 2 задачах: интеграции новых знаний и few-shot обучении. В первом случае модель генерирует логические следствия из текста, дообучается на них и улучшает точность ответов на вопросы без доступа к исходному тексту.

Во втором случае SEAL выбирает оптимальные аугментации данных и гиперпараметры для обучения на примерах задач ARC-AGI.

В обоих сценариях SEAL превзошел подходы с фиксированными шаблонами (ICL, TTT+Self Edit без RL и) и даже синтетическими данными от GPT-4.1.

Метод скорее академический и по большей части экспериментальный, у него есть ограничения:

🟠При последовательном применении изменений модель склонна к «катастрофическому забыванию» — потере знаний, усвоенных ранее;

🟠Сопутствующие вычислительные затраты, так как каждая итерация требует дообучения и тестирования модели.


▶️В репозитории проекта разработчики выложили код, данные и инструкции для двух направлений:

🟢Включение новых фактических знаний;

🟢Адаптация к новым задачам на основе примеров.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #SEAL #RL #MiT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_machinelearning_big_data/7789
Create:
Last Update:

🌟 SEAL: Еще одна попытка создать пайплайн самообучающихся LLM.

SEAL - это методика от MiT, позволяющая LLM самостоятельно генерировать обучающие данные и настраивать параметры обучения, чтобы адаптироваться к новым задачам. Вместо традиционного файнтюна на внешних данных модель учится рефлексировать: анализировать контекст, создавать из него синтетические данные и применять их для корректировки собственных весов через механизм усиленного обучения.

SEAL, по сути, это два разделенных цикла:

🟢Внешний цикл использует RL, чтобы научить модель генерировать «самоизменения» (инструкции на естественном языке, описывающие, какие данные использовать и как настраивать параметры).

🟢Внутренний цикл реализует эти изменения: модель дообучается на сгенерированных данных, а затем тестирует результат на конкретной задаче. За коррекцию отвечает RL-алгоритм ReSTEM, который оценивает эффективность изменений и обновляет стратегию генерации инструкций. Для экономии ресурсов используются легковесные адаптеры LoRA, которые модифицируют только часть параметров модели.

Этот процесс повторяется, постепенно формируя у модели навык преобразования исходных данных в полезные обучающие сигналы.

SEAL протестили на 2 задачах: интеграции новых знаний и few-shot обучении. В первом случае модель генерирует логические следствия из текста, дообучается на них и улучшает точность ответов на вопросы без доступа к исходному тексту.

Во втором случае SEAL выбирает оптимальные аугментации данных и гиперпараметры для обучения на примерах задач ARC-AGI.

В обоих сценариях SEAL превзошел подходы с фиксированными шаблонами (ICL, TTT+Self Edit без RL и) и даже синтетическими данными от GPT-4.1.

Метод скорее академический и по большей части экспериментальный, у него есть ограничения:

🟠При последовательном применении изменений модель склонна к «катастрофическому забыванию» — потере знаний, усвоенных ранее;

🟠Сопутствующие вычислительные затраты, так как каждая итерация требует дообучения и тестирования модели.


▶️В репозитории проекта разработчики выложили код, данные и инструкции для двух направлений:

🟢Включение новых фактических знаний;

🟢Адаптация к новым задачам на основе примеров.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #SEAL #RL #MiT

BY Machinelearning







Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/7789

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones.
from ye


Telegram Machinelearning
FROM American