Telegram Group & Telegram Channel
🌟 SEAL: Еще одна попытка создать пайплайн самообучающихся LLM.

SEAL - это методика от MiT, позволяющая LLM самостоятельно генерировать обучающие данные и настраивать параметры обучения, чтобы адаптироваться к новым задачам. Вместо традиционного файнтюна на внешних данных модель учится рефлексировать: анализировать контекст, создавать из него синтетические данные и применять их для корректировки собственных весов через механизм усиленного обучения.

SEAL, по сути, это два разделенных цикла:

🟢Внешний цикл использует RL, чтобы научить модель генерировать «самоизменения» (инструкции на естественном языке, описывающие, какие данные использовать и как настраивать параметры).

🟢Внутренний цикл реализует эти изменения: модель дообучается на сгенерированных данных, а затем тестирует результат на конкретной задаче. За коррекцию отвечает RL-алгоритм ReSTEM, который оценивает эффективность изменений и обновляет стратегию генерации инструкций. Для экономии ресурсов используются легковесные адаптеры LoRA, которые модифицируют только часть параметров модели.

Этот процесс повторяется, постепенно формируя у модели навык преобразования исходных данных в полезные обучающие сигналы.

SEAL протестили на 2 задачах: интеграции новых знаний и few-shot обучении. В первом случае модель генерирует логические следствия из текста, дообучается на них и улучшает точность ответов на вопросы без доступа к исходному тексту.

Во втором случае SEAL выбирает оптимальные аугментации данных и гиперпараметры для обучения на примерах задач ARC-AGI.

В обоих сценариях SEAL превзошел подходы с фиксированными шаблонами (ICL, TTT+Self Edit без RL и) и даже синтетическими данными от GPT-4.1.

Метод скорее академический и по большей части экспериментальный, у него есть ограничения:

🟠При последовательном применении изменений модель склонна к «катастрофическому забыванию» — потере знаний, усвоенных ранее;

🟠Сопутствующие вычислительные затраты, так как каждая итерация требует дообучения и тестирования модели.


▶️В репозитории проекта разработчики выложили код, данные и инструкции для двух направлений:

🟢Включение новых фактических знаний;

🟢Адаптация к новым задачам на основе примеров.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #SEAL #RL #MiT
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_machinelearning_big_data/7788
Create:
Last Update:

🌟 SEAL: Еще одна попытка создать пайплайн самообучающихся LLM.

SEAL - это методика от MiT, позволяющая LLM самостоятельно генерировать обучающие данные и настраивать параметры обучения, чтобы адаптироваться к новым задачам. Вместо традиционного файнтюна на внешних данных модель учится рефлексировать: анализировать контекст, создавать из него синтетические данные и применять их для корректировки собственных весов через механизм усиленного обучения.

SEAL, по сути, это два разделенных цикла:

🟢Внешний цикл использует RL, чтобы научить модель генерировать «самоизменения» (инструкции на естественном языке, описывающие, какие данные использовать и как настраивать параметры).

🟢Внутренний цикл реализует эти изменения: модель дообучается на сгенерированных данных, а затем тестирует результат на конкретной задаче. За коррекцию отвечает RL-алгоритм ReSTEM, который оценивает эффективность изменений и обновляет стратегию генерации инструкций. Для экономии ресурсов используются легковесные адаптеры LoRA, которые модифицируют только часть параметров модели.

Этот процесс повторяется, постепенно формируя у модели навык преобразования исходных данных в полезные обучающие сигналы.

SEAL протестили на 2 задачах: интеграции новых знаний и few-shot обучении. В первом случае модель генерирует логические следствия из текста, дообучается на них и улучшает точность ответов на вопросы без доступа к исходному тексту.

Во втором случае SEAL выбирает оптимальные аугментации данных и гиперпараметры для обучения на примерах задач ARC-AGI.

В обоих сценариях SEAL превзошел подходы с фиксированными шаблонами (ICL, TTT+Self Edit без RL и) и даже синтетическими данными от GPT-4.1.

Метод скорее академический и по большей части экспериментальный, у него есть ограничения:

🟠При последовательном применении изменений модель склонна к «катастрофическому забыванию» — потере знаний, усвоенных ранее;

🟠Сопутствующие вычислительные затраты, так как каждая итерация требует дообучения и тестирования модели.


▶️В репозитории проекта разработчики выложили код, данные и инструкции для двух направлений:

🟢Включение новых фактических знаний;

🟢Адаптация к новым задачам на основе примеров.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #SEAL #RL #MiT

BY Machinelearning







Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/7788

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more.
from us


Telegram Machinelearning
FROM American