Telegram Group & Telegram Channel
Про современные сетки, косты на их обучение и альтернативу стандарным методам обучения

Не буду даже писать про то почему обучение больших сеток это важно. В инфополе каждого думаю 4-5 постов, подводящих к этой мысли.
Но обучение современных сеток сопряжено с нюансом.
Чтобы обучить GPT-3 на 175 миллиардов параметров нужно было потратить 5 млн долларов (3,640 petaflop/s-days ).
Чтобы обучить GPT-4 на более 1.76 триллионов параметров и больше 100 миллионов долларов
По слухам в GPT-5 будет 10-20 триллионов параментров. Мы не знаем, сколько на это потратит денег OpenAI, но я думаю больше 2-х миллиардов.

Собственно к проблемам
Кроме OpenAI свои большие модели сделали-делают Google, Microsoft, Amazon, Meta, NVIDIA (Megatron, 500 млрд параметров). Конечно же еще индусы, китайцы ну и россияне. В мире сейчас 20 триллионов денежной массы циркулирует. Если все будет идти в том же темпе (гиганты будут обучать сетки сопоставимые с OpenAI и число параметров прогрессировать с той же скоростью) вероятно уже в этом году компании уже могут потратить суммарно больше 100 млрд долларов. Что на минутку уже около 0.5 процента всей циркулирующей денежной масссы в мире (!!). И это только начало и это мы еще молчим про инференс этих моделей.

Почему это мне надо знать
Я думаю индустрия может еще сильно поменяться с возникновением и распространением новых классов моделей. Именно поэтому полезно (а не только весело) учить математику вширь, чтобы видеть немного глубже стандартной картинки из обучения мл.

Пример с Intel.
В 2019 году выручка intel была 72 bln, а nvidia 12 bln. В 2023 году выручка intel была 54 bln, а nvidia 27 bln. Динамика сильная даже если не брать оценки, а взять просто выручку, факт. Почему так происходит? Потому что мир быстро меняется и сейчас большой спрос на GPU и TPU, и nvidia смогла приспобится быстрее. И еще начать делать свои ИИ решения сверху. В целом вероятно что с ростом NVIDIA произойдет то же самое и найдется компания, которая ее обгонит, но nvidia быстро итерируется и делает альтернативные технологии. Забавно что Intel тоже в свое время в 90-е на поворотах обогнал много конкурентов, среди которых была даже моторола. History repeats itself.

Как обучается backprop  и как стоимость обучения зависит от числа параметров
Все chatpt сейчас построены на способе обучения backprop. Проблема в том что коректировка весов происходит с перемножением матриц и число вычислений растет квадратично с увеличением параметров. Это в модельном кейсе. Конечно сейчас много ресурса тратится на оптимизации - архитектуры и обучения (часть весов превращаются в нолики единички, часть морозиться и тд), оптимизации железа и его потребления энергии (TPU больше подходит к матричным вычислениям и ест при этом меньше энергии), но тренд остается трендом - сети следующего поколения в основном умнеют с помощью увеличения параметров в 10 раз, что ведет за собой увеличение денег на обучение в 20.

Какие есть альтернативы
Хинтон, который написал нашумевшую статью (а вы видели еще статью с 16к цитирований) собственно про backprop в 1986 году активно критикует свой же собственный метод в 2024. Предлагает капсульные сети, которые я даже как-то раньше тут разбирала. Правда он пока не работает, но очень интересный.
Глобально инновации могут быть на трех уровнях - алгоритмическом (делаем инновации в способе обучения как капсулы), железа - проектируем новые способы вычислений (например BrainChip — с нейроморфным процессором Akida, который имитирует мозг человека и может считать сети на девайсе), сервисном (компании которые помогают менеджерить модели, например Bright Computing который NVIDIA купила в 2022 году), и даже физическом (я недавно познакомилась с профессором теорфизики из Кэмбриджа, который делает очень интересный способ на уровне именно физических процессов перестроить обучение)
Есть еще много разной альтернативы, но уже не влезает пост. Полайкайте, если хотите пост про альтернативы, тема очень будоражащая.



group-telegram.com/tldr_tany/192
Create:
Last Update:

Про современные сетки, косты на их обучение и альтернативу стандарным методам обучения

Не буду даже писать про то почему обучение больших сеток это важно. В инфополе каждого думаю 4-5 постов, подводящих к этой мысли.
Но обучение современных сеток сопряжено с нюансом.
Чтобы обучить GPT-3 на 175 миллиардов параметров нужно было потратить 5 млн долларов (3,640 petaflop/s-days ).
Чтобы обучить GPT-4 на более 1.76 триллионов параметров и больше 100 миллионов долларов
По слухам в GPT-5 будет 10-20 триллионов параментров. Мы не знаем, сколько на это потратит денег OpenAI, но я думаю больше 2-х миллиардов.

Собственно к проблемам
Кроме OpenAI свои большие модели сделали-делают Google, Microsoft, Amazon, Meta, NVIDIA (Megatron, 500 млрд параметров). Конечно же еще индусы, китайцы ну и россияне. В мире сейчас 20 триллионов денежной массы циркулирует. Если все будет идти в том же темпе (гиганты будут обучать сетки сопоставимые с OpenAI и число параметров прогрессировать с той же скоростью) вероятно уже в этом году компании уже могут потратить суммарно больше 100 млрд долларов. Что на минутку уже около 0.5 процента всей циркулирующей денежной масссы в мире (!!). И это только начало и это мы еще молчим про инференс этих моделей.

Почему это мне надо знать
Я думаю индустрия может еще сильно поменяться с возникновением и распространением новых классов моделей. Именно поэтому полезно (а не только весело) учить математику вширь, чтобы видеть немного глубже стандартной картинки из обучения мл.

Пример с Intel.
В 2019 году выручка intel была 72 bln, а nvidia 12 bln. В 2023 году выручка intel была 54 bln, а nvidia 27 bln. Динамика сильная даже если не брать оценки, а взять просто выручку, факт. Почему так происходит? Потому что мир быстро меняется и сейчас большой спрос на GPU и TPU, и nvidia смогла приспобится быстрее. И еще начать делать свои ИИ решения сверху. В целом вероятно что с ростом NVIDIA произойдет то же самое и найдется компания, которая ее обгонит, но nvidia быстро итерируется и делает альтернативные технологии. Забавно что Intel тоже в свое время в 90-е на поворотах обогнал много конкурентов, среди которых была даже моторола. History repeats itself.

Как обучается backprop  и как стоимость обучения зависит от числа параметров
Все chatpt сейчас построены на способе обучения backprop. Проблема в том что коректировка весов происходит с перемножением матриц и число вычислений растет квадратично с увеличением параметров. Это в модельном кейсе. Конечно сейчас много ресурса тратится на оптимизации - архитектуры и обучения (часть весов превращаются в нолики единички, часть морозиться и тд), оптимизации железа и его потребления энергии (TPU больше подходит к матричным вычислениям и ест при этом меньше энергии), но тренд остается трендом - сети следующего поколения в основном умнеют с помощью увеличения параметров в 10 раз, что ведет за собой увеличение денег на обучение в 20.

Какие есть альтернативы
Хинтон, который написал нашумевшую статью (а вы видели еще статью с 16к цитирований) собственно про backprop в 1986 году активно критикует свой же собственный метод в 2024. Предлагает капсульные сети, которые я даже как-то раньше тут разбирала. Правда он пока не работает, но очень интересный.
Глобально инновации могут быть на трех уровнях - алгоритмическом (делаем инновации в способе обучения как капсулы), железа - проектируем новые способы вычислений (например BrainChip — с нейроморфным процессором Akida, который имитирует мозг человека и может считать сети на девайсе), сервисном (компании которые помогают менеджерить модели, например Bright Computing который NVIDIA купила в 2022 году), и даже физическом (я недавно познакомилась с профессором теорфизики из Кэмбриджа, который делает очень интересный способ на уровне именно физических процессов перестроить обучение)
Есть еще много разной альтернативы, но уже не влезает пост. Полайкайте, если хотите пост про альтернативы, тема очень будоражащая.

BY tldr_tany (Таня Савельева)


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/tldr_tany/192

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels.
from hk


Telegram tldr_tany (Таня Савельева)
FROM American