Telegram Group & Telegram Channel
🧠 GAIA — новый ориентир для General AI Assistants

GAIA — это benchmark, который проверяет, насколько AI-ассистенты могут мыслить, действовать и работать с инструментами в реальных.

📊 Что тестируется

- 466 заданий, требующих:
- логического мышления и планирования
- работы с вебом и мультимодальностью (текст, изображения)
- использования инструментов — браузера, кода, анализа файлов и пр.
- Задания просты для человека, но AI решает их с трудом (люди получают ~92 %, GPT‑4 + плагины — ~15 %)

🔍 Почему это важно

- В отличие от других benchmark-ов, GAIA фокусируется на настоящих задачах, а не узкоспециализированных тестах
- Задания ясны и дают однозначный ответ, что облегчает автоматическую оценку
- Benchmark защищён от «запоминания» — задачи редко встречаются в открытых данных и требуют последовательных действий

🛠️ Как работает

1. Задачи задаются "в ноль" — без примеров
2. AI получает вопрос (текст и/или файл) и должен самостоятельно:
- искать в интернете
- обрабатывать мультимодальные данные
- выполнять код или анализ
3. Ответы оцениваются автоматически — только один правильный вариант

Перспективы и вызовы

- Пока лишь немногие модели приближаются к человеческому уровню — GPT‑4 с плагинами на ~15 %
- Benchmark рассчитан на долгосрочное развитие AGI — от точности решения до открытости и надёжности оценивания
- GAIA подчёркивает необходимость создания систем, способных последовательно действовать, а не просто «угадывать» ответы.

🔗 Github: https://github.com/Intelligent-Internet/ii-agent
🔗 GAIA Examples:
https://ii-agent-gaia.ii.inc



group-telegram.com/data_analysis_ml/3591
Create:
Last Update:

🧠 GAIA — новый ориентир для General AI Assistants

GAIA — это benchmark, который проверяет, насколько AI-ассистенты могут мыслить, действовать и работать с инструментами в реальных.

📊 Что тестируется

- 466 заданий, требующих:
- логического мышления и планирования
- работы с вебом и мультимодальностью (текст, изображения)
- использования инструментов — браузера, кода, анализа файлов и пр.
- Задания просты для человека, но AI решает их с трудом (люди получают ~92 %, GPT‑4 + плагины — ~15 %)

🔍 Почему это важно

- В отличие от других benchmark-ов, GAIA фокусируется на настоящих задачах, а не узкоспециализированных тестах
- Задания ясны и дают однозначный ответ, что облегчает автоматическую оценку
- Benchmark защищён от «запоминания» — задачи редко встречаются в открытых данных и требуют последовательных действий

🛠️ Как работает

1. Задачи задаются "в ноль" — без примеров
2. AI получает вопрос (текст и/или файл) и должен самостоятельно:
- искать в интернете
- обрабатывать мультимодальные данные
- выполнять код или анализ
3. Ответы оцениваются автоматически — только один правильный вариант

Перспективы и вызовы

- Пока лишь немногие модели приближаются к человеческому уровню — GPT‑4 с плагинами на ~15 %
- Benchmark рассчитан на долгосрочное развитие AGI — от точности решения до открытости и надёжности оценивания
- GAIA подчёркивает необходимость создания систем, способных последовательно действовать, а не просто «угадывать» ответы.

🔗 Github: https://github.com/Intelligent-Internet/ii-agent
🔗 GAIA Examples:
https://ii-agent-gaia.ii.inc

BY Анализ данных (Data analysis)




Share with your friend now:
group-telegram.com/data_analysis_ml/3591

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes.
from cn


Telegram Анализ данных (Data analysis)
FROM American