group-telegram.com/technologies_trends/160
Last Update:
Похоже, что китайцы умеют в бизнес-составляющую AI лучше американцев. Новый обзор инференса DeepSeek V3/R1 показывает невероятную экономическую эффективность модели, тогда как OpenAI работает в убыток, а Grok-3 пока не оправдывает ожиданий.
Согласно отчету, DeepSeek R1 может приносить более $560 000 выручки в день при затратах на аренду GPU всего $87 000. Рентабельность = 545%, как тебе такое, Илон Маск? (Реальный доход, конечно, меньше за счет скидок и бесплатных сервисов)
При этом мы помним, что и затраты на обучение китайской LLM составили менее $6 млн — для индустрии это почти даром.
💡 Причина столь впечатляющей рентабельности — оптимизация инференса. В чем ее суть?
✅ Метод Cross-node Expert Parallelism, при котором нагрузка делится между несколькими GPU-узлами. Каждая видеокарта обрабатывает лишь небольшую часть модели, что позволяет избегать простоев или перегрузки узлов, тем самым ускоряя вычисления и снижая издержки.
✅ Двухфазная стратегия инференса (префиллинг + декодинг). На каждой фазе вычисления тоже распараллеливаются, в результате размер батча (т.е. пакета запросов, которые может обработать один узел) возрастает, повышая эффективность вычислений с матрицами на GPU и увеличивая пропускную способность. Производительность на выдаче резко повышается без потери качества ответа.
28.02.2025 были проведены замеры на серверах, обслуживающих публичный чат DeepSeek. Совокупная пиковая загруженность узлов для сервисов V3 и R1 достигла 278, при этом средняя загруженность составила 226,75 узлов (каждый узел содержит 8 графических процессоров H800). Средняя пропускная способность в секунду — 73,7 тыс. токенов на узел (включая обращения к кэшу) на предварительной фазе и 14,8 тыс. токенов при декодировании. Суточная производительность — 608 млрд токенов на входе (с 56.3% cache hit rate) и 168 млрд на выходе при скорости 20–22 токена/сек. Это значительно выше, чем обычная эффективность vLLM.
💰При такой пропускной способности стоимость токена буквально стремится к нулю, что позволяет DeepSeek устанавливать очень «вкусные» цены. Цена 1 млн токена модели R1: $0,14 на входе (попадание в кэш), $0,55 на входе (пропуск в кэш), $2,19 на выходе.
⚖️ Для сравнения — цена 1 млн токенов на o3-mini от OpenAI: $1,10 input; $0,55 cached input; $4,40 output. И это не демпинг китайцев, а чистая эффективность.
Далее, команда DeepSeek гибко маневрирует ресурсами в течение суток. Ночью, когда нагрузка ниже, часть узлов выделяется под обучение моделей и исследования. Таким образом, издержки на аренду процессоров отрабатываются более эффективно. Но китайцы не жадничают: для ночных пользователей действует система скидок.
И это еще не всё. Инженеры DeepSeek активно контактируют с сообществом, предлагая новые решения по масштабированию модели для разных систем. Буквально на прошлой неделе выпустили библиотеку для работы с процессорами H200 Hopper.
О чем это нам говорит?
👉 Оптимизация алгоритмов повышает производительность LLM без необходимости наращивать мощности «железа».
👉 Тренд на удешевления инференса продолжается. Конкурентоспособность моделей становится выше, возможности по их масштабированию — шире.
👉 Опенсорс рулит. Китайцы понимают преимущества открытых моделей перед проприетарными архитектурами и активно вкладываются в сообщество и инфраструктуру (чего не скажешь про отечественные компании... а вот в Европе и даже в США это осознают).
👉 В обозримом будущем ставка на потребление мощных и дорогих GPU (а мы знаем ее главного бенефициара) может не оправдаться. Зато может сработать ставка на разработку новых методов оптимизации, а это откроет новые перспективы для развертывания LLM на относительно скромных пользовательских конфигурациях.
🚀 ©ТехноТренды
BY 📈 ТехноТренды: Технологии, Тренды, IT

Share with your friend now:
group-telegram.com/technologies_trends/160
