Telegram Group & Telegram Channel
Forwarded from Machinelearning
🌟 SEAL: Еще одна попытка создать пайплайн самообучающихся LLM.

SEAL - это методика от MiT, позволяющая LLM самостоятельно генерировать обучающие данные и настраивать параметры обучения, чтобы адаптироваться к новым задачам. Вместо традиционного файнтюна на внешних данных модель учится рефлексировать: анализировать контекст, создавать из него синтетические данные и применять их для корректировки собственных весов через механизм усиленного обучения.

SEAL, по сути, это два разделенных цикла:

🟢Внешний цикл использует RL, чтобы научить модель генерировать «самоизменения» (инструкции на естественном языке, описывающие, какие данные использовать и как настраивать параметры).

🟢Внутренний цикл реализует эти изменения: модель дообучается на сгенерированных данных, а затем тестирует результат на конкретной задаче. За коррекцию отвечает RL-алгоритм ReSTEM, который оценивает эффективность изменений и обновляет стратегию генерации инструкций. Для экономии ресурсов используются легковесные адаптеры LoRA, которые модифицируют только часть параметров модели.

Этот процесс повторяется, постепенно формируя у модели навык преобразования исходных данных в полезные обучающие сигналы.

SEAL протестили на 2 задачах: интеграции новых знаний и few-shot обучении. В первом случае модель генерирует логические следствия из текста, дообучается на них и улучшает точность ответов на вопросы без доступа к исходному тексту.

Во втором случае SEAL выбирает оптимальные аугментации данных и гиперпараметры для обучения на примерах задач ARC-AGI.

В обоих сценариях SEAL превзошел подходы с фиксированными шаблонами (ICL, TTT+Self Edit без RL и) и даже синтетическими данными от GPT-4.1.

Метод скорее академический и по большей части экспериментальный, у него есть ограничения:

🟠При последовательном применении изменений модель склонна к «катастрофическому забыванию» — потере знаний, усвоенных ранее;

🟠Сопутствующие вычислительные затраты, так как каждая итерация требует дообучения и тестирования модели.


▶️В репозитории проекта разработчики выложили код, данные и инструкции для двух направлений:

🟢Включение новых фактических знаний;

🟢Адаптация к новым задачам на основе примеров.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #SEAL #RL #MiT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/machinelearning_interview/1855
Create:
Last Update:

🌟 SEAL: Еще одна попытка создать пайплайн самообучающихся LLM.

SEAL - это методика от MiT, позволяющая LLM самостоятельно генерировать обучающие данные и настраивать параметры обучения, чтобы адаптироваться к новым задачам. Вместо традиционного файнтюна на внешних данных модель учится рефлексировать: анализировать контекст, создавать из него синтетические данные и применять их для корректировки собственных весов через механизм усиленного обучения.

SEAL, по сути, это два разделенных цикла:

🟢Внешний цикл использует RL, чтобы научить модель генерировать «самоизменения» (инструкции на естественном языке, описывающие, какие данные использовать и как настраивать параметры).

🟢Внутренний цикл реализует эти изменения: модель дообучается на сгенерированных данных, а затем тестирует результат на конкретной задаче. За коррекцию отвечает RL-алгоритм ReSTEM, который оценивает эффективность изменений и обновляет стратегию генерации инструкций. Для экономии ресурсов используются легковесные адаптеры LoRA, которые модифицируют только часть параметров модели.

Этот процесс повторяется, постепенно формируя у модели навык преобразования исходных данных в полезные обучающие сигналы.

SEAL протестили на 2 задачах: интеграции новых знаний и few-shot обучении. В первом случае модель генерирует логические следствия из текста, дообучается на них и улучшает точность ответов на вопросы без доступа к исходному тексту.

Во втором случае SEAL выбирает оптимальные аугментации данных и гиперпараметры для обучения на примерах задач ARC-AGI.

В обоих сценариях SEAL превзошел подходы с фиксированными шаблонами (ICL, TTT+Self Edit без RL и) и даже синтетическими данными от GPT-4.1.

Метод скорее академический и по большей части экспериментальный, у него есть ограничения:

🟠При последовательном применении изменений модель склонна к «катастрофическому забыванию» — потере знаний, усвоенных ранее;

🟠Сопутствующие вычислительные затраты, так как каждая итерация требует дообучения и тестирования модели.


▶️В репозитории проекта разработчики выложили код, данные и инструкции для двух направлений:

🟢Включение новых фактических знаний;

🟢Адаптация к новым задачам на основе примеров.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #SEAL #RL #MiT

BY Machine learning Interview







Share with your friend now:
group-telegram.com/machinelearning_interview/1855

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war.
from ms


Telegram Machine learning Interview
FROM American