Telegram Group & Telegram Channel
📌Tokasaurus: проект для ускорения работы с языковыми моделями.

Tokasaurus — это движок инференса для языковых моделей в режиме высоконагруженных задач. Он максимизирует пропускную способность при работе с LLM, предлагает поддержку API OpenAI, эффективно управляет памятью и оптимизирует вычисления в сценариях, где важно одновременно обрабатывать множество запросов без задержек.

Архитектура Tokasaurus разделена на 3 компонента: веб-сервер, менеджер и модельные воркеры.

🟢Веб-сервер отвечает за взаимодействие с клиентами, принимая запросы и отправляя ответы.

🟢Менеджер, запущенный в отдельном процессе, управляет планированием задач, KV-кешем и группировкой последовательностей с общими префиксами.

🟢Модельные воркеры выполняют прямые запросы к подключенным LLM. Компоненты обмениваются данными асинхронно через очереди, и это позволяет держать GPU загруженным без простоев.

Проект учитывает растущую потребность в масштабировании и предлагает 3 типа параллелизма: дата-параллелизм (dp_size), пайплайн (pp_size) и тензорный (tp_size) с поддержкой AsyncTP.

Async Tensor Parallelism в PyTorch — это техника ускорения распределенных вычислений для LLM, где операции связи (all-gather/reduce-scatter) разбиваются на асинхронные части и перекрываются с матричными умножениями (matmul) с помощью чередующихся CUDA-потоков: пока один поток вычисляет фрагмент matmul, другой параллельно передаtт данные для следующего фрагмента через P2P-копирование (NVLink + copy engines), минимизируя простои GPU.


При использовании нескольких GPU, например, dp_size=2 и pp_size=4, система задействует 8 GPU, создавая 2 дублирующиеся группы по 4 GPU каждая. При этом параметры управления памятью (kv_cache_size_num_tokens, max_seqs_per_forward) применяются к каждой дата-параллельной группе отдельно. Это позволяет тонко управлять ресурсами, исходя из контекста конкретных нагрузок.

Tokasaurus поддерживает модели семейств Llama3 и Qwen2, использует технологию Hydragen для ускорения внимания над общими префиксами последовательностей.

⚠️ Проект пока молодой, поэтому некоторые функции могут быть нестабильными. Разработчики активно работают над улучшениями.


📌 Лицензирование: Apache 2.0 License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM # #Tokasaurus #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5122🔥12🥰6😨1



group-telegram.com/ai_machinelearning_big_data/7745
Create:
Last Update:

📌Tokasaurus: проект для ускорения работы с языковыми моделями.

Tokasaurus — это движок инференса для языковых моделей в режиме высоконагруженных задач. Он максимизирует пропускную способность при работе с LLM, предлагает поддержку API OpenAI, эффективно управляет памятью и оптимизирует вычисления в сценариях, где важно одновременно обрабатывать множество запросов без задержек.

Архитектура Tokasaurus разделена на 3 компонента: веб-сервер, менеджер и модельные воркеры.

🟢Веб-сервер отвечает за взаимодействие с клиентами, принимая запросы и отправляя ответы.

🟢Менеджер, запущенный в отдельном процессе, управляет планированием задач, KV-кешем и группировкой последовательностей с общими префиксами.

🟢Модельные воркеры выполняют прямые запросы к подключенным LLM. Компоненты обмениваются данными асинхронно через очереди, и это позволяет держать GPU загруженным без простоев.

Проект учитывает растущую потребность в масштабировании и предлагает 3 типа параллелизма: дата-параллелизм (dp_size), пайплайн (pp_size) и тензорный (tp_size) с поддержкой AsyncTP.

Async Tensor Parallelism в PyTorch — это техника ускорения распределенных вычислений для LLM, где операции связи (all-gather/reduce-scatter) разбиваются на асинхронные части и перекрываются с матричными умножениями (matmul) с помощью чередующихся CUDA-потоков: пока один поток вычисляет фрагмент matmul, другой параллельно передаtт данные для следующего фрагмента через P2P-копирование (NVLink + copy engines), минимизируя простои GPU.


При использовании нескольких GPU, например, dp_size=2 и pp_size=4, система задействует 8 GPU, создавая 2 дублирующиеся группы по 4 GPU каждая. При этом параметры управления памятью (kv_cache_size_num_tokens, max_seqs_per_forward) применяются к каждой дата-параллельной группе отдельно. Это позволяет тонко управлять ресурсами, исходя из контекста конкретных нагрузок.

Tokasaurus поддерживает модели семейств Llama3 и Qwen2, использует технологию Hydragen для ускорения внимания над общими префиксами последовательностей.

⚠️ Проект пока молодой, поэтому некоторые функции могут быть нестабильными. Разработчики активно работают над улучшениями.


📌 Лицензирование: Apache 2.0 License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM # #Tokasaurus #Github

BY Machinelearning




Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/7745

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea.
from hk


Telegram Machinelearning
FROM American