group-telegram.com/blockchainRF/12473
Last Update:
Google выпустил статью об агенте, способному к самообучению и в этой статье указан Демис Хассабис
Google DeepMind опубликовали статью о SIMA 2 — воплощенном ИИ-агенте для виртуальных миров. Это новая архитектура, решающая критическую проблему адаптации больших языковых моделей для embodied AI.
В основе SIMA 2 лежит Gemini Flash-Lite, обученная на смешанных данных: геймплей + Gemini reasoning. Ключевая инновация — агент сохраняет базовые способности foundation model при специализации на воплощенные задачи.
Методология обучения - 2-х уровневая система данных:
1. Human data: траектории из 10+ игровых сред, собранные через "Setter-Solver" методологию — один участник управляет аватаром, второй дает инструкции. Это создает каузальную связь язык→действие.
2. Bridge data: Gemini Pro генерирует внутренний reasoning и диалог для синхронизации с визуальным вводом. Агент учится не просто действовать, но и объяснять свои действия.
Ключевая инновация - Self-Improvement. DeepMind реализовали замкнутый цикл самообучения. Компоненты:
Gemini-based Task Setter — генерирует задачи из текущего состояния среды
Gemini-based Reward Model — оценивает траектории по 100-балльной рубрике
RL training на self-generated experience
ASKA эксперимент:
- С каждой итерацией performance улучшается
- В некоторых задачах превосходит human reference trajectories.
Агент автономно осваивает навыки типа "extinguish campfire"
Genie 3 эксперимент:
Train: urban environments, Test: natural environments
Self-improvement на urban tasks → +25 points на большинстве задач.
Агент учится в любом типе среды, используя neural network как universal world model.
Эта система может автономно генерировать опыт, оценивать его и улучшаться в бесконечно разнообразных окружениях.
DeepMind позиционирует это как шаг к general-purpose interactive agents.
BY Все о блокчейн/мозге/space/WEB 3.0 в России и мире

Share with your friend now:
group-telegram.com/blockchainRF/12473
