Telegram Group & Telegram Channel
Заблуждение о токенизации и обработке текста

Одним из наиболее распространенных и важных для понимания заблуждений является представление о том, что LLM обрабатывают текст на уровне отдельных букв или символов. Карпати объясняет, что современные языковые модели работают с токенами - фрагментами текста, которые могут представлять части слов, целые слова или даже фразы. Этот процесс токенизации создает словарь из десятков тысяч токенов. Токен при этом состоит не из букв в человеческом понимании. Токен - это набор цифр в таком виде [302, 1618, 19772] (так LLM видит слово strawberry).

Токенизация является корнем многих ограничений LLM, которые пользователи ошибочно приписывают архитектуре или алгоритмам обучения. Классический пример, который приводит Карпати - неспособность модели правильно подсчитать количество букв "r" в слове "strawberry". Поскольку слово может быть токенизировано как "st" + raw" +"berry", модель не имеет прямого доступа к отдельным символам, потому что видит его так [302, 1618, 19772]. Это объясняет, почему мощные языковые модели могут решать сложные математические задачи, но испытывают трудности с простым подсчетом символов.

В экспериментаторской есть раздел с объяснением понятия токен и калькулятор для подсчета количество токенов в тексте:
экспериментаторская.рф/tiktoken
Можете поиграться с этим на досуге.

Это серия постов с заблуждениями об ЛЛМ. Предыдущий здесь.

LawCoder



group-telegram.com/law_coder/195
Create:
Last Update:

Заблуждение о токенизации и обработке текста

Одним из наиболее распространенных и важных для понимания заблуждений является представление о том, что LLM обрабатывают текст на уровне отдельных букв или символов. Карпати объясняет, что современные языковые модели работают с токенами - фрагментами текста, которые могут представлять части слов, целые слова или даже фразы. Этот процесс токенизации создает словарь из десятков тысяч токенов. Токен при этом состоит не из букв в человеческом понимании. Токен - это набор цифр в таком виде [302, 1618, 19772] (так LLM видит слово strawberry).

Токенизация является корнем многих ограничений LLM, которые пользователи ошибочно приписывают архитектуре или алгоритмам обучения. Классический пример, который приводит Карпати - неспособность модели правильно подсчитать количество букв "r" в слове "strawberry". Поскольку слово может быть токенизировано как "st" + raw" +"berry", модель не имеет прямого доступа к отдельным символам, потому что видит его так [302, 1618, 19772]. Это объясняет, почему мощные языковые модели могут решать сложные математические задачи, но испытывают трудности с простым подсчетом символов.

В экспериментаторской есть раздел с объяснением понятия токен и калькулятор для подсчета количество токенов в тексте:
экспериментаторская.рф/tiktoken
Можете поиграться с этим на досуге.

Это серия постов с заблуждениями об ЛЛМ. Предыдущий здесь.

LawCoder

BY LawCoder


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/law_coder/195

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies.
from ar


Telegram LawCoder
FROM American