Telegram Group & Telegram Channel
Forwarded from Machinelearning
📌Tokasaurus: проект для ускорения работы с языковыми моделями.

Tokasaurus — это движок инференса для языковых моделей в режиме высоконагруженных задач. Он максимизирует пропускную способность при работе с LLM, предлагает поддержку API OpenAI, эффективно управляет памятью и оптимизирует вычисления в сценариях, где важно одновременно обрабатывать множество запросов без задержек.

Архитектура Tokasaurus разделена на 3 компонента: веб-сервер, менеджер и модельные воркеры.

🟢Веб-сервер отвечает за взаимодействие с клиентами, принимая запросы и отправляя ответы.

🟢Менеджер, запущенный в отдельном процессе, управляет планированием задач, KV-кешем и группировкой последовательностей с общими префиксами.

🟢Модельные воркеры выполняют прямые запросы к подключенным LLM. Компоненты обмениваются данными асинхронно через очереди, и это позволяет держать GPU загруженным без простоев.

Проект учитывает растущую потребность в масштабировании и предлагает 3 типа параллелизма: дата-параллелизм (dp_size), пайплайн (pp_size) и тензорный (tp_size) с поддержкой AsyncTP.

Async Tensor Parallelism в PyTorch — это техника ускорения распределенных вычислений для LLM, где операции связи (all-gather/reduce-scatter) разбиваются на асинхронные части и перекрываются с матричными умножениями (matmul) с помощью чередующихся CUDA-потоков: пока один поток вычисляет фрагмент matmul, другой параллельно передаtт данные для следующего фрагмента через P2P-копирование (NVLink + copy engines), минимизируя простои GPU.


При использовании нескольких GPU, например, dp_size=2 и pp_size=4, система задействует 8 GPU, создавая 2 дублирующиеся группы по 4 GPU каждая. При этом параметры управления памятью (kv_cache_size_num_tokens, max_seqs_per_forward) применяются к каждой дата-параллельной группе отдельно. Это позволяет тонко управлять ресурсами, исходя из контекста конкретных нагрузок.

Tokasaurus поддерживает модели семейств Llama3 и Qwen2, использует технологию Hydragen для ускорения внимания над общими префиксами последовательностей.

⚠️ Проект пока молодой, поэтому некоторые функции могут быть нестабильными. Разработчики активно работают над улучшениями.


📌 Лицензирование: Apache 2.0 License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM # #Tokasaurus #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1🔥1



group-telegram.com/machinelearning_interview/1842
Create:
Last Update:

📌Tokasaurus: проект для ускорения работы с языковыми моделями.

Tokasaurus — это движок инференса для языковых моделей в режиме высоконагруженных задач. Он максимизирует пропускную способность при работе с LLM, предлагает поддержку API OpenAI, эффективно управляет памятью и оптимизирует вычисления в сценариях, где важно одновременно обрабатывать множество запросов без задержек.

Архитектура Tokasaurus разделена на 3 компонента: веб-сервер, менеджер и модельные воркеры.

🟢Веб-сервер отвечает за взаимодействие с клиентами, принимая запросы и отправляя ответы.

🟢Менеджер, запущенный в отдельном процессе, управляет планированием задач, KV-кешем и группировкой последовательностей с общими префиксами.

🟢Модельные воркеры выполняют прямые запросы к подключенным LLM. Компоненты обмениваются данными асинхронно через очереди, и это позволяет держать GPU загруженным без простоев.

Проект учитывает растущую потребность в масштабировании и предлагает 3 типа параллелизма: дата-параллелизм (dp_size), пайплайн (pp_size) и тензорный (tp_size) с поддержкой AsyncTP.

Async Tensor Parallelism в PyTorch — это техника ускорения распределенных вычислений для LLM, где операции связи (all-gather/reduce-scatter) разбиваются на асинхронные части и перекрываются с матричными умножениями (matmul) с помощью чередующихся CUDA-потоков: пока один поток вычисляет фрагмент matmul, другой параллельно передаtт данные для следующего фрагмента через P2P-копирование (NVLink + copy engines), минимизируя простои GPU.


При использовании нескольких GPU, например, dp_size=2 и pp_size=4, система задействует 8 GPU, создавая 2 дублирующиеся группы по 4 GPU каждая. При этом параметры управления памятью (kv_cache_size_num_tokens, max_seqs_per_forward) применяются к каждой дата-параллельной группе отдельно. Это позволяет тонко управлять ресурсами, исходя из контекста конкретных нагрузок.

Tokasaurus поддерживает модели семейств Llama3 и Qwen2, использует технологию Hydragen для ускорения внимания над общими префиксами последовательностей.

⚠️ Проект пока молодой, поэтому некоторые функции могут быть нестабильными. Разработчики активно работают над улучшениями.


📌 Лицензирование: Apache 2.0 License.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM # #Tokasaurus #Github

BY Machine learning Interview




Share with your friend now:
group-telegram.com/machinelearning_interview/1842

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform.
from cn


Telegram Machine learning Interview
FROM American