Telegram Group & Telegram Channel
Продолжаю наваливать контенту.

Если проблема актуальна, то понятно, что ею занимаются большое количество независимых групп. Увидел, что по ускорению инференса LLM в очень короткий срок появилось 3-4 работы с почти одинаковыми идеями, при этом работы независимы. Например: раз, два.

В чем, собственно, проблема, и как её решать?
Преимущество трансформеров на обучении заключается в том, что мы "видим" все предыдущие токены (а в будущие для декодеров не смотрим, потому что так устроено маскирование аттеншена). Однако во время предсказания (инференса) подобное распараллеливание невозможно, поскольку, к примеру, при генерации 5го токена мы не знаем 4й, если его не сгенерируем. Поэтому делаем сначала 1й, потом 2й, и так итеративно до конца, по одному за раз. Но что, если бы вы смогли угадать предыдущие токены, и сразу скакать на 2-3-4 вперёд?

В приведенных выше статьях предлагаются различные способы "угадывания" предыдущих токенов, такие как использование модели меньшего размера (не LLM, а просто LM, хы). Важно то, что мы можем использовать LLM, чтобы параллельно проверить, какие из угаданных токенов верны, и принять те, с которыми соглашается LLM (см. картинку с примером).

Мне почему-то это напомнило механизм предсказания переходов в процессорах, когда второй поток в ядре начинает что-то считать, при том не зная, потребуется ли это (но пытается угадать). Про процессоры можно почитать вот тут, ООООЧЕНЬ интересное чтиво.
👍18🤯8🔥5



group-telegram.com/seeallochnaya/116
Create:
Last Update:

Продолжаю наваливать контенту.

Если проблема актуальна, то понятно, что ею занимаются большое количество независимых групп. Увидел, что по ускорению инференса LLM в очень короткий срок появилось 3-4 работы с почти одинаковыми идеями, при этом работы независимы. Например: раз, два.

В чем, собственно, проблема, и как её решать?
Преимущество трансформеров на обучении заключается в том, что мы "видим" все предыдущие токены (а в будущие для декодеров не смотрим, потому что так устроено маскирование аттеншена). Однако во время предсказания (инференса) подобное распараллеливание невозможно, поскольку, к примеру, при генерации 5го токена мы не знаем 4й, если его не сгенерируем. Поэтому делаем сначала 1й, потом 2й, и так итеративно до конца, по одному за раз. Но что, если бы вы смогли угадать предыдущие токены, и сразу скакать на 2-3-4 вперёд?

В приведенных выше статьях предлагаются различные способы "угадывания" предыдущих токенов, такие как использование модели меньшего размера (не LLM, а просто LM, хы). Важно то, что мы можем использовать LLM, чтобы параллельно проверить, какие из угаданных токенов верны, и принять те, с которыми соглашается LLM (см. картинку с примером).

Мне почему-то это напомнило механизм предсказания переходов в процессорах, когда второй поток в ядре начинает что-то считать, при том не зная, потребуется ли это (но пытается угадать). Про процессоры можно почитать вот тут, ООООЧЕНЬ интересное чтиво.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/116

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. I want a secure messaging app, should I use Telegram? What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields.
from us


Telegram Сиолошная
FROM American