Notice: file_put_contents(): Write of 5193 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 16384 of 21577 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
epsilon correct | Telegram Webview: epsiloncorrect/171 -
Telegram Group & Telegram Channel
Классы алгоритмической сложности для трансформеров

Сначала расскажу про более объёмную статью, которую мы выпустили на этой неделе. Мы пытаемся дать теоретические оценки того, как эффективно трансформеры решают те или иные алгоритмические задачи. Алгоритмы – это такой ключик к пониманию способностей моделей рассуждать.

Про трансформерные модели мы знаем довольно много: они Тюринг-полные – правда, при polylog-числе слоёв, а при константной глубине они ограничены классом TC0. Это всё, конечно, очень интересно 😐, но хочется изучать трансформеры в более реалистичных сценариях.

Вот тут на сцену выходим мы🤴! В статье мы анализируем девять графовых алгоритмов 👥, которые трансформеры решают в трёх разных режимах параметров. Под параметрами в статье понимаем ширину слоя m, глубину сети L, и аналог chain-of-though токенов, которые позволяют модели покряхтеть над задачкой подольше. 🤔

Внимательный подпищеки заметили 🧐, что алгоритмы мы рассматриваем только графовые. Не серчайте – это всё ради науки! Сложность графовых задач легко варьировать, к тому же, существует сильно больше классов задач, чем для операций с символьными манипуляцями.

Совсем простые задачи 😛, например, как подсчет узлов или рёбер, могут быть решены трансформерами глубины один с шириной log 𝐍. Трансформеры также могут выполнять параллельные алгоритмы - мы нашли три задачи, которые могут быть эффективно решены с помощью трансформеров глубины log 𝐍.

А ещё на графах мы можем сравнить трансформеры с графовыми нейросетями. Теоретически мы показываем случаи, где трансформерам нужно меньше вычислений для решения разных задач, и на практике показываем, как с некоторыми алгоритмическими задачами трансформеры справляются лучше GNNок. Да, практическая часть в статье тоже весёлая – мы попробовали посравнивать трансформеры, натренированные для конкретной задачи с файнтьюненными LLMками! А получилось – читать продолжение в источнике…

Статья получилась жирная 🥁 на теоремы и эмпирику, но, надеюсь, кому-нибудь да понравится.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥39👍139



group-telegram.com/epsiloncorrect/171
Create:
Last Update:

Классы алгоритмической сложности для трансформеров

Сначала расскажу про более объёмную статью, которую мы выпустили на этой неделе. Мы пытаемся дать теоретические оценки того, как эффективно трансформеры решают те или иные алгоритмические задачи. Алгоритмы – это такой ключик к пониманию способностей моделей рассуждать.

Про трансформерные модели мы знаем довольно много: они Тюринг-полные – правда, при polylog-числе слоёв, а при константной глубине они ограничены классом TC0. Это всё, конечно, очень интересно 😐, но хочется изучать трансформеры в более реалистичных сценариях.

Вот тут на сцену выходим мы🤴! В статье мы анализируем девять графовых алгоритмов 👥, которые трансформеры решают в трёх разных режимах параметров. Под параметрами в статье понимаем ширину слоя m, глубину сети L, и аналог chain-of-though токенов, которые позволяют модели покряхтеть над задачкой подольше. 🤔

Внимательный подпищеки заметили 🧐, что алгоритмы мы рассматриваем только графовые. Не серчайте – это всё ради науки! Сложность графовых задач легко варьировать, к тому же, существует сильно больше классов задач, чем для операций с символьными манипуляцями.

Совсем простые задачи 😛, например, как подсчет узлов или рёбер, могут быть решены трансформерами глубины один с шириной log 𝐍. Трансформеры также могут выполнять параллельные алгоритмы - мы нашли три задачи, которые могут быть эффективно решены с помощью трансформеров глубины log 𝐍.

А ещё на графах мы можем сравнить трансформеры с графовыми нейросетями. Теоретически мы показываем случаи, где трансформерам нужно меньше вычислений для решения разных задач, и на практике показываем, как с некоторыми алгоритмическими задачами трансформеры справляются лучше GNNок. Да, практическая часть в статье тоже весёлая – мы попробовали посравнивать трансформеры, натренированные для конкретной задачи с файнтьюненными LLMками! А получилось – читать продолжение в источнике…

Статья получилась жирная 🥁 на теоремы и эмпирику, но, надеюсь, кому-нибудь да понравится.

BY epsilon correct




Share with your friend now:
group-telegram.com/epsiloncorrect/171

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels."
from no


Telegram epsilon correct
FROM American