Telegram Group & Telegram Channel
А как же должен выглядеть правильный "AGI-роудмап"?

Напомню неформальное определение интеллекта, которого сейчас придерживаюсь:
Интеллект - это мера эффективности использования данных для приобретения новых навыков.

Это характеристика алгоритма обучения. Я уверен, что мы используем очень плохие алгоритмы - как минимум потому, что они сконструированы людьми вручную. Также, как и когда-то создание признаков вручную, создание алгоритмов должно пасть под ударом мета-лёрнинга. 

Для долгосрочного ресёрча необходим план, но не такой, какие я упоминал раньше. Это должен быть задаче-ориентированный план.

Каждый пункт в этом плане должен состоять из зафиксированных данных и тестовой задачи. Нам нужно начать с простейший постановки, в которой мы умеем обучать модель, превосходящую человека, и постепенно усложнять её следующими способами:

1) Уменьшение тренировочных данных для тестовой задачи
2) Увеличение разнообразия, количества, бесструктурности прочих данных
3) Усложнение тестовой задачи

Вариантов реализации может быть достаточно много, приведу набросок одной из возможных:

Уровень №0: Элементарный RL с нуля
Дано: 10к шагов взаимодействия со CartPole, далее тестируем

Уровень №1: RL с нуля
Дано: 100к шагов взаимодействия со Atari, далее тестируем

======= Текущие алгоритмы находятся здесь =========

Уровень №2: RL с помощью демонстраций
Дано: 100к траекторий игры среднего человека в Atari; 10к шагов взаимодействия с Atari, далее тестируем

Уровень №3: Сложный RL с помощью демонстраций
Дано: N траекторий игр людей в Starcraft; K часов игры против бота, далее тестируем

Уровень №4: Сложный RL с использованием кучи разных данных
Дано: википедия, форумы по starcraft, видео по starcraft; 1 час игры против бота, далее тестируем

Уровень №5: Сложный RL с самостоятельным поиском необходимых данных
Дано: википедия, доступ к чтению интернета на X часов; 1 час игры против бота, далее тестируем

Уровень №6: ASI
Дано: википедия, доступ к чтению интернета на X часов; Текстовый запрос с описанием того, какую задачу нужно решить; N часов на генерацию ответа, далее его проверяет система (данных для такой постановки пока нет).

Далее поступаем по вкусу. 

К сожалению, в пост не влезут все примечания и оговорки по поводу этих уровней, если вам интересно, в чём мотивация того или иного пункта, готов обсудить в комментариях. Кроме того, это лишь набросок, и по мере продвижения по шагам детали могут меняться.

Я верю в то, что существует малоразмерная параметризация обучающего алгоритма, который, если обучать с помощью meta-learning, можно продвинуть по всем этим уровням, каждый раз добиваясь superhuman-level. И если весь мир будет занят прикручиванием human-level моделек, обученных подражать людям, к прикладным задачам, за создание сверхразума придётся взяться кому-то ещё.

@knowledge_accumulator



group-telegram.com/knowledge_accumulator/245
Create:
Last Update:

А как же должен выглядеть правильный "AGI-роудмап"?

Напомню неформальное определение интеллекта, которого сейчас придерживаюсь:
Интеллект - это мера эффективности использования данных для приобретения новых навыков.

Это характеристика алгоритма обучения. Я уверен, что мы используем очень плохие алгоритмы - как минимум потому, что они сконструированы людьми вручную. Также, как и когда-то создание признаков вручную, создание алгоритмов должно пасть под ударом мета-лёрнинга. 

Для долгосрочного ресёрча необходим план, но не такой, какие я упоминал раньше. Это должен быть задаче-ориентированный план.

Каждый пункт в этом плане должен состоять из зафиксированных данных и тестовой задачи. Нам нужно начать с простейший постановки, в которой мы умеем обучать модель, превосходящую человека, и постепенно усложнять её следующими способами:

1) Уменьшение тренировочных данных для тестовой задачи
2) Увеличение разнообразия, количества, бесструктурности прочих данных
3) Усложнение тестовой задачи

Вариантов реализации может быть достаточно много, приведу набросок одной из возможных:

Уровень №0: Элементарный RL с нуля
Дано: 10к шагов взаимодействия со CartPole, далее тестируем

Уровень №1: RL с нуля
Дано: 100к шагов взаимодействия со Atari, далее тестируем

======= Текущие алгоритмы находятся здесь =========

Уровень №2: RL с помощью демонстраций
Дано: 100к траекторий игры среднего человека в Atari; 10к шагов взаимодействия с Atari, далее тестируем

Уровень №3: Сложный RL с помощью демонстраций
Дано: N траекторий игр людей в Starcraft; K часов игры против бота, далее тестируем

Уровень №4: Сложный RL с использованием кучи разных данных
Дано: википедия, форумы по starcraft, видео по starcraft; 1 час игры против бота, далее тестируем

Уровень №5: Сложный RL с самостоятельным поиском необходимых данных
Дано: википедия, доступ к чтению интернета на X часов; 1 час игры против бота, далее тестируем

Уровень №6: ASI
Дано: википедия, доступ к чтению интернета на X часов; Текстовый запрос с описанием того, какую задачу нужно решить; N часов на генерацию ответа, далее его проверяет система (данных для такой постановки пока нет).

Далее поступаем по вкусу. 

К сожалению, в пост не влезут все примечания и оговорки по поводу этих уровней, если вам интересно, в чём мотивация того или иного пункта, готов обсудить в комментариях. Кроме того, это лишь набросок, и по мере продвижения по шагам детали могут меняться.

Я верю в то, что существует малоразмерная параметризация обучающего алгоритма, который, если обучать с помощью meta-learning, можно продвинуть по всем этим уровням, каждый раз добиваясь superhuman-level. И если весь мир будет занят прикручиванием human-level моделек, обученных подражать людям, к прикладным задачам, за создание сверхразума придётся взяться кому-то ещё.

@knowledge_accumulator

BY Knowledge Accumulator


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/knowledge_accumulator/245

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. READ MORE
from tw


Telegram Knowledge Accumulator
FROM American