Telegram Group & Telegram Channel
Заблуждение о токенизации и обработке текста

Одним из наиболее распространенных и важных для понимания заблуждений является представление о том, что LLM обрабатывают текст на уровне отдельных букв или символов. Карпати объясняет, что современные языковые модели работают с токенами - фрагментами текста, которые могут представлять части слов, целые слова или даже фразы. Этот процесс токенизации создает словарь из десятков тысяч токенов. Токен при этом состоит не из букв в человеческом понимании. Токен - это набор цифр в таком виде [302, 1618, 19772] (так LLM видит слово strawberry).

Токенизация является корнем многих ограничений LLM, которые пользователи ошибочно приписывают архитектуре или алгоритмам обучения. Классический пример, который приводит Карпати - неспособность модели правильно подсчитать количество букв "r" в слове "strawberry". Поскольку слово может быть токенизировано как "st" + raw" +"berry", модель не имеет прямого доступа к отдельным символам, потому что видит его так [302, 1618, 19772]. Это объясняет, почему мощные языковые модели могут решать сложные математические задачи, но испытывают трудности с простым подсчетом символов.

В экспериментаторской есть раздел с объяснением понятия токен и калькулятор для подсчета количество токенов в тексте:
экспериментаторская.рф/tiktoken
Можете поиграться с этим на досуге.

Это серия постов с заблуждениями об ЛЛМ. Предыдущий здесь.

LawCoder



group-telegram.com/law_coder/195
Create:
Last Update:

Заблуждение о токенизации и обработке текста

Одним из наиболее распространенных и важных для понимания заблуждений является представление о том, что LLM обрабатывают текст на уровне отдельных букв или символов. Карпати объясняет, что современные языковые модели работают с токенами - фрагментами текста, которые могут представлять части слов, целые слова или даже фразы. Этот процесс токенизации создает словарь из десятков тысяч токенов. Токен при этом состоит не из букв в человеческом понимании. Токен - это набор цифр в таком виде [302, 1618, 19772] (так LLM видит слово strawberry).

Токенизация является корнем многих ограничений LLM, которые пользователи ошибочно приписывают архитектуре или алгоритмам обучения. Классический пример, который приводит Карпати - неспособность модели правильно подсчитать количество букв "r" в слове "strawberry". Поскольку слово может быть токенизировано как "st" + raw" +"berry", модель не имеет прямого доступа к отдельным символам, потому что видит его так [302, 1618, 19772]. Это объясняет, почему мощные языковые модели могут решать сложные математические задачи, но испытывают трудности с простым подсчетом символов.

В экспериментаторской есть раздел с объяснением понятия токен и калькулятор для подсчета количество токенов в тексте:
экспериментаторская.рф/tiktoken
Можете поиграться с этим на досуге.

Это серия постов с заблуждениями об ЛЛМ. Предыдущий здесь.

LawCoder

BY LawCoder


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/law_coder/195

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look.
from jp


Telegram LawCoder
FROM American