Telegram Group & Telegram Channel
ARC-AGI-2 [2025]

В конце прошлого года OpenAI анонсировали модель O3, которая при достаточно длительном размышлении решает первую часть ARC на высокий результат, близкий к человеческому, правда, на публичном эвале. Недавно авторы решили выпустить его вторую версию.

Как известно, Claude Boys и O1-pro Boys всей душой ненавидят ARC и при каждой возможности пытаются принизить его значимость. У этого есть вполне обоснованные причины:

1) Задачи этого бенчмарка не представлены в виде естественного языка. LLM Boys считают, что бенчмарк должен быть разработан так, чтобы было удобно решать тем моделям, которые им нравятся. Ну и, в отличие от опросников в формате ЕГЭ, ARC-вопросы не имеют практического смысла.
2) Если бенчмарк представляет принципиально новый челлендж, то в современных кругах это считается препятствием к техническому прогрессу. Чтобы развивать технологии, необходимо хвалить то, что уже есть, и не качать лодку.
3) Личность автора этого бенчмарка очень сильно беспокоит фанатов LLM. Он осмелился писать плохое про языковые модели в X (то, что это не AGI) и вообще мерзкий тип - и это автоматически делает его бенчмарк менее рукопожатным.
4) Самый страшный грех для авторов AI-бенчмарка в 2025 году - они понимают, как работает современная наука, и поэтому не выкладывают тестовые данные в открытый доступ, тем самым связывая руки почти всем современных учёным.

Так, а что, собственно, нового во второй части? Авторы почесали репу, разглядывая, как текущие подходы решают первую часть,

Первое, что они поняли - если задачу можно решить DSL-перебором, значит, она слишком простая и не требует интеллекта в принципе. Это почти половина задач из оригинальной версии бенчмарка.

Кроме этого, авторы попытались понять, с чем возникают сложности у современных моделей. На первый план выведено 3 аспекта:

1) Symbolic Interpretation - способность "глубоко" интерпретировать значение объектов на поле, за рамками простого visual pattern.
2) Compositional Reasoning - способность применять одновременно несколько правил, взаимодействующих друг с другом
3) Contextual Rule Application - способность применять правила по-разному в зависимости от контекста

На основе этих знаний и была составлена вторая версия бенчмарка - ARC-AGI-2. Утверждается, что сложность для людей осталась примерно такой же - 60% (было 64%) прохождения в среднем, и ни одна задача не осталась совсем не решённой тестировщиками.

Вы можете поиграться с паблик эвалом здесь (выбирайте Public Evaluation Set v2 (Hard)). Но не пугайтесь первой задачи - она аномально сложная по сравнению с другими. В среднем, подтверждаю, что сложность лишь слегка выше первой версии. Задачи стали больше по размеру и содержат больше элементов, но в большинстве случаев решение почти сразу становится понятным. При этом, оно часто не поддаётся простому объяснению, что и делает DSL-перебор крайне сложным.

По новой версии уже стартовало новое Kaggle-соревнование, как когда-то по старой. Но времена сильно изменились - в 2020 AGI считался стыдной темой и был лишь уделом мечтаний узкого круга лиц, тогда как сейчас это способ поднять бабок на инвестициях от лохов. Так что, взять золото в нём так просто, как у меня в тот раз, уже не выйдет.

@knowledge_accumulator



group-telegram.com/knowledge_accumulator/276
Create:
Last Update:

ARC-AGI-2 [2025]

В конце прошлого года OpenAI анонсировали модель O3, которая при достаточно длительном размышлении решает первую часть ARC на высокий результат, близкий к человеческому, правда, на публичном эвале. Недавно авторы решили выпустить его вторую версию.

Как известно, Claude Boys и O1-pro Boys всей душой ненавидят ARC и при каждой возможности пытаются принизить его значимость. У этого есть вполне обоснованные причины:

1) Задачи этого бенчмарка не представлены в виде естественного языка. LLM Boys считают, что бенчмарк должен быть разработан так, чтобы было удобно решать тем моделям, которые им нравятся. Ну и, в отличие от опросников в формате ЕГЭ, ARC-вопросы не имеют практического смысла.
2) Если бенчмарк представляет принципиально новый челлендж, то в современных кругах это считается препятствием к техническому прогрессу. Чтобы развивать технологии, необходимо хвалить то, что уже есть, и не качать лодку.
3) Личность автора этого бенчмарка очень сильно беспокоит фанатов LLM. Он осмелился писать плохое про языковые модели в X (то, что это не AGI) и вообще мерзкий тип - и это автоматически делает его бенчмарк менее рукопожатным.
4) Самый страшный грех для авторов AI-бенчмарка в 2025 году - они понимают, как работает современная наука, и поэтому не выкладывают тестовые данные в открытый доступ, тем самым связывая руки почти всем современных учёным.

Так, а что, собственно, нового во второй части? Авторы почесали репу, разглядывая, как текущие подходы решают первую часть,

Первое, что они поняли - если задачу можно решить DSL-перебором, значит, она слишком простая и не требует интеллекта в принципе. Это почти половина задач из оригинальной версии бенчмарка.

Кроме этого, авторы попытались понять, с чем возникают сложности у современных моделей. На первый план выведено 3 аспекта:

1) Symbolic Interpretation - способность "глубоко" интерпретировать значение объектов на поле, за рамками простого visual pattern.
2) Compositional Reasoning - способность применять одновременно несколько правил, взаимодействующих друг с другом
3) Contextual Rule Application - способность применять правила по-разному в зависимости от контекста

На основе этих знаний и была составлена вторая версия бенчмарка - ARC-AGI-2. Утверждается, что сложность для людей осталась примерно такой же - 60% (было 64%) прохождения в среднем, и ни одна задача не осталась совсем не решённой тестировщиками.

Вы можете поиграться с паблик эвалом здесь (выбирайте Public Evaluation Set v2 (Hard)). Но не пугайтесь первой задачи - она аномально сложная по сравнению с другими. В среднем, подтверждаю, что сложность лишь слегка выше первой версии. Задачи стали больше по размеру и содержат больше элементов, но в большинстве случаев решение почти сразу становится понятным. При этом, оно часто не поддаётся простому объяснению, что и делает DSL-перебор крайне сложным.

По новой версии уже стартовало новое Kaggle-соревнование, как когда-то по старой. Но времена сильно изменились - в 2020 AGI считался стыдной темой и был лишь уделом мечтаний узкого круга лиц, тогда как сейчас это способ поднять бабок на инвестициях от лохов. Так что, взять золото в нём так просто, как у меня в тот раз, уже не выйдет.

@knowledge_accumulator

BY Knowledge Accumulator


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/knowledge_accumulator/276

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

False news often spreads via public groups, or chats, with potentially fatal effects. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war.
from sg


Telegram Knowledge Accumulator
FROM American