Telegram Group & Telegram Channel
Почему интересен ARC prize?

Для тех, кто пропустил - неделю назад был запущен конкурс на миллион, в котором нужно решить ARC - простейший "тест на IQ" для человека/алгоритма. В нём нужно по паре-тройке примеров увидеть закономерность и применить её на тестовом образце (см. пример задачи на картинке). Это проверяет алгоритм на обучаемость, а не на запоминание данных из интернета.

Как я уже недавно писал, если в лоб дать такие задачи GPT-4, то она работает достаточно стрёмно. В то же время, лидируют подходы на основе перебора всевозможных последовательностей элементарных операций. Нужно задать набор таких операций, например, из 50 штук, создать 50^4 "программ" и прогнать их на тренировочных образцах, применив успешные к тесту.

Больше года назад, как только я начал вести этот канал, я писал о том, что совместная работа перебора и нейросетей - это очень мощный инструмент. Это жжёт в Go, в математике, в приложениях. Поиску нужен качественный гайд, чтобы тащить, и таким гайдом вполне может быть LLM, как мы увидели на примере FunSearch.

Такой подход применим при решении "NP-задач", для которых мы можем быстро проверить кандидата на решение. Наличие только пары примеров в ARC сильно усложняет проблему, так как "оптимизация" программы будет работать плохо и нам легче на них "переобучиться" программой. Тем не менее, нет сомнений, что скачка в качестве достичь удастся, и такие попытки уже делаются. Осталось только дождаться сабмитов таких подходов в настоящий тест.

Тем не менее, есть проблема применимости такого подхода. Далеко не всегда в реальности мы можем генерировать тысячи/миллионы вариантов с помощью большой модели, применяя поверх какую-то проверялку, потому что быстрой проверялки просто нет. Для применимости этой большой модели в лоб к произвольной задаче нам нужно получить такую, которая как минимум решит ARC без помощи дополнительного перебора.

А зачем именно нужна такая модель? 2 простых юзкейса:

1) Хочется иногда с чашечкой латте провести время за глубокой дискуссией с моделькой, знающей и хорошо понимающей информацию из интернета. Если вы пробовали долго общаться с моделькой типа GPT-4 на сложную тему, вы замечали, что она вообще не вдупляет.
2) Запустить цикл технологической сингулярности

Про второе поговорим позже на этой неделе.

@knowledge_accumulator



group-telegram.com/knowledge_accumulator/190
Create:
Last Update:

Почему интересен ARC prize?

Для тех, кто пропустил - неделю назад был запущен конкурс на миллион, в котором нужно решить ARC - простейший "тест на IQ" для человека/алгоритма. В нём нужно по паре-тройке примеров увидеть закономерность и применить её на тестовом образце (см. пример задачи на картинке). Это проверяет алгоритм на обучаемость, а не на запоминание данных из интернета.

Как я уже недавно писал, если в лоб дать такие задачи GPT-4, то она работает достаточно стрёмно. В то же время, лидируют подходы на основе перебора всевозможных последовательностей элементарных операций. Нужно задать набор таких операций, например, из 50 штук, создать 50^4 "программ" и прогнать их на тренировочных образцах, применив успешные к тесту.

Больше года назад, как только я начал вести этот канал, я писал о том, что совместная работа перебора и нейросетей - это очень мощный инструмент. Это жжёт в Go, в математике, в приложениях. Поиску нужен качественный гайд, чтобы тащить, и таким гайдом вполне может быть LLM, как мы увидели на примере FunSearch.

Такой подход применим при решении "NP-задач", для которых мы можем быстро проверить кандидата на решение. Наличие только пары примеров в ARC сильно усложняет проблему, так как "оптимизация" программы будет работать плохо и нам легче на них "переобучиться" программой. Тем не менее, нет сомнений, что скачка в качестве достичь удастся, и такие попытки уже делаются. Осталось только дождаться сабмитов таких подходов в настоящий тест.

Тем не менее, есть проблема применимости такого подхода. Далеко не всегда в реальности мы можем генерировать тысячи/миллионы вариантов с помощью большой модели, применяя поверх какую-то проверялку, потому что быстрой проверялки просто нет. Для применимости этой большой модели в лоб к произвольной задаче нам нужно получить такую, которая как минимум решит ARC без помощи дополнительного перебора.

А зачем именно нужна такая модель? 2 простых юзкейса:

1) Хочется иногда с чашечкой латте провести время за глубокой дискуссией с моделькой, знающей и хорошо понимающей информацию из интернета. Если вы пробовали долго общаться с моделькой типа GPT-4 на сложную тему, вы замечали, что она вообще не вдупляет.
2) Запустить цикл технологической сингулярности

Про второе поговорим позже на этой неделе.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
group-telegram.com/knowledge_accumulator/190

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities.
from hk


Telegram Knowledge Accumulator
FROM American