Еще интересный подход по созданию агентов (на базе Vision language модели) с RLем которые могут пользоваться Android телефоном через GUI

Еще интересный подход по созданию агентов (на базе Vision language модели) с RLем которые могут пользоваться Android телефоном через GUI

Вначале трейнят offline RL на данных, потом offline-to-online где агент уже сам доучивается в среде. Создали распараллеленный симулятор который одновременно может запускать 64 эмулятора андроида.

Тестировались на датасете Android-in-the-Wild (AitW). VLMка на 1.3B параметров.

* success rate подняли до 67.2%

у другого RL агента который учился через Behavior cloning был - 57.8%

GPT-4V - 8.3%
Gemini 1.5 Pro - 17.7%
17B CogAgent - 38.5%

DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning
https://arxiv.org/abs/2406.11896

https://digirl-agent.github.io/
https://github.com/DigiRL-agent/digirl

🔥7👍2

www.group-telegram.com/br/AGI_and_RL.com/800

1.04K viewsJun 21, 2024 at 10:44

group-telegram.com/AGI_and_RL/800

Create: 2024-06-21
Last Update: 2025-08-29 22:13:51

BY Агенты ИИ | AGI_and_RL

Share with your friend now:
group-telegram.com/AGI_and_RL/800

Telegram | DID YOU KNOW?

Еще интересный подход по созданию агентов (на базе Vision language модели) с RLем которые могут пользоваться Android телефоном через GUI