Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/technologies_trends/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
📈 ТехноТренды: Технологии, Тренды, IT | Telegram Webview: technologies_trends/160 -
Telegram Group & Telegram Channel
Похоже, что китайцы умеют в бизнес-составляющую AI лучше американцев. Новый обзор инференса DeepSeek V3/R1 показывает невероятную экономическую эффективность модели, тогда как OpenAI работает в убыток, а Grok-3 пока не оправдывает ожиданий.

Согласно отчету, DeepSeek R1 может приносить более $560 000 выручки в день при затратах на аренду GPU всего $87 000. Рентабельность = 545%, как тебе такое, Илон Маск? (Реальный доход, конечно, меньше за счет скидок и бесплатных сервисов)

При этом мы помним, что и затраты на обучение китайской LLM составили менее $6 млн — для индустрии это почти даром.

💡 Причина столь впечатляющей рентабельности — оптимизация инференса. В чем ее суть?

Метод Cross-node Expert Parallelism, при котором нагрузка делится между несколькими GPU-узлами. Каждая видеокарта обрабатывает лишь небольшую часть модели, что позволяет избегать простоев или перегрузки узлов, тем самым ускоряя вычисления и снижая издержки.
Двухфазная стратегия инференса (префиллинг + декодинг). На каждой фазе вычисления тоже распараллеливаются, в результате размер батча (т.е. пакета запросов, которые может обработать один узел) возрастает, повышая эффективность вычислений с матрицами на GPU и увеличивая пропускную способность. Производительность на выдаче резко повышается без потери качества ответа.

28.02.2025 были проведены замеры на серверах, обслуживающих публичный чат DeepSeek. Совокупная пиковая загруженность узлов для сервисов V3 и R1 достигла 278, при этом средняя загруженность составила 226,75 узлов (каждый узел содержит 8 графических процессоров H800). Средняя пропускная способность в секунду — 73,7 тыс. токенов на узел (включая обращения к кэшу) на предварительной фазе и 14,8 тыс. токенов при декодировании. Суточная производительность — 608 млрд токенов на входе (с 56.3% cache hit rate) и 168 млрд на выходе при скорости 20–22 токена/сек. Это значительно выше, чем обычная эффективность vLLM.

💰При такой пропускной способности стоимость токена буквально стремится к нулю, что позволяет DeepSeek устанавливать очень «вкусные» цены. Цена 1 млн токена модели R1: $0,14 на входе (попадание в кэш), $0,55 на входе (пропуск в кэш), $2,19 на выходе.

⚖️ Для сравнения — цена 1 млн токенов на o3-mini от OpenAI: $1,10 input; $0,55 cached input; $4,40 output. И это не демпинг китайцев, а чистая эффективность.

Далее, команда DeepSeek гибко маневрирует ресурсами в течение суток. Ночью, когда нагрузка ниже, часть узлов выделяется под обучение моделей и исследования. Таким образом, издержки на аренду процессоров отрабатываются более эффективно. Но китайцы не жадничают: для ночных пользователей действует система скидок.

И это еще не всё. Инженеры DeepSeek активно контактируют с сообществом, предлагая новые решения по масштабированию модели для разных систем. Буквально на прошлой неделе выпустили библиотеку для работы с процессорами H200 Hopper.

О чем это нам говорит?

👉 Оптимизация алгоритмов повышает производительность LLM без необходимости наращивать мощности «железа».
👉 Тренд на удешевления инференса продолжается. Конкурентоспособность моделей становится выше, возможности по их масштабированию — шире.
👉 Опенсорс рулит. Китайцы понимают преимущества открытых моделей перед проприетарными архитектурами и активно вкладываются в сообщество и инфраструктуру (чего не скажешь про отечественные компании... а вот в Европе и даже в США это осознают).
👉 В обозримом будущем ставка на потребление мощных и дорогих GPU (а мы знаем ее главного бенефициара) может не оправдаться. Зато может сработать ставка на разработку новых методов оптимизации, а это откроет новые перспективы для развертывания LLM на относительно скромных пользовательских конфигурациях.

🚀 ©ТехноТренды
👍1



group-telegram.com/technologies_trends/160
Create:
Last Update:

Похоже, что китайцы умеют в бизнес-составляющую AI лучше американцев. Новый обзор инференса DeepSeek V3/R1 показывает невероятную экономическую эффективность модели, тогда как OpenAI работает в убыток, а Grok-3 пока не оправдывает ожиданий.

Согласно отчету, DeepSeek R1 может приносить более $560 000 выручки в день при затратах на аренду GPU всего $87 000. Рентабельность = 545%, как тебе такое, Илон Маск? (Реальный доход, конечно, меньше за счет скидок и бесплатных сервисов)

При этом мы помним, что и затраты на обучение китайской LLM составили менее $6 млн — для индустрии это почти даром.

💡 Причина столь впечатляющей рентабельности — оптимизация инференса. В чем ее суть?

Метод Cross-node Expert Parallelism, при котором нагрузка делится между несколькими GPU-узлами. Каждая видеокарта обрабатывает лишь небольшую часть модели, что позволяет избегать простоев или перегрузки узлов, тем самым ускоряя вычисления и снижая издержки.
Двухфазная стратегия инференса (префиллинг + декодинг). На каждой фазе вычисления тоже распараллеливаются, в результате размер батча (т.е. пакета запросов, которые может обработать один узел) возрастает, повышая эффективность вычислений с матрицами на GPU и увеличивая пропускную способность. Производительность на выдаче резко повышается без потери качества ответа.

28.02.2025 были проведены замеры на серверах, обслуживающих публичный чат DeepSeek. Совокупная пиковая загруженность узлов для сервисов V3 и R1 достигла 278, при этом средняя загруженность составила 226,75 узлов (каждый узел содержит 8 графических процессоров H800). Средняя пропускная способность в секунду — 73,7 тыс. токенов на узел (включая обращения к кэшу) на предварительной фазе и 14,8 тыс. токенов при декодировании. Суточная производительность — 608 млрд токенов на входе (с 56.3% cache hit rate) и 168 млрд на выходе при скорости 20–22 токена/сек. Это значительно выше, чем обычная эффективность vLLM.

💰При такой пропускной способности стоимость токена буквально стремится к нулю, что позволяет DeepSeek устанавливать очень «вкусные» цены. Цена 1 млн токена модели R1: $0,14 на входе (попадание в кэш), $0,55 на входе (пропуск в кэш), $2,19 на выходе.

⚖️ Для сравнения — цена 1 млн токенов на o3-mini от OpenAI: $1,10 input; $0,55 cached input; $4,40 output. И это не демпинг китайцев, а чистая эффективность.

Далее, команда DeepSeek гибко маневрирует ресурсами в течение суток. Ночью, когда нагрузка ниже, часть узлов выделяется под обучение моделей и исследования. Таким образом, издержки на аренду процессоров отрабатываются более эффективно. Но китайцы не жадничают: для ночных пользователей действует система скидок.

И это еще не всё. Инженеры DeepSeek активно контактируют с сообществом, предлагая новые решения по масштабированию модели для разных систем. Буквально на прошлой неделе выпустили библиотеку для работы с процессорами H200 Hopper.

О чем это нам говорит?

👉 Оптимизация алгоритмов повышает производительность LLM без необходимости наращивать мощности «железа».
👉 Тренд на удешевления инференса продолжается. Конкурентоспособность моделей становится выше, возможности по их масштабированию — шире.
👉 Опенсорс рулит. Китайцы понимают преимущества открытых моделей перед проприетарными архитектурами и активно вкладываются в сообщество и инфраструктуру (чего не скажешь про отечественные компании... а вот в Европе и даже в США это осознают).
👉 В обозримом будущем ставка на потребление мощных и дорогих GPU (а мы знаем ее главного бенефициара) может не оправдаться. Зато может сработать ставка на разработку новых методов оптимизации, а это откроет новые перспективы для развертывания LLM на относительно скромных пользовательских конфигурациях.

🚀 ©ТехноТренды

BY 📈 ТехноТренды: Технологии, Тренды, IT




Share with your friend now:
group-telegram.com/technologies_trends/160

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis."
from vn


Telegram 📈 ТехноТренды: Технологии, Тренды, IT
FROM American