group-telegram.com/moneyandpolarfox/10855
Last Update:
Deep Seek – не все так просто, как говорят в телевизоре
Мы продолжаем рассказывать о различных аспектах истории с Deep Seek , благодаря комментарию уважаемого читателя, который много лет работает в соответствующей отрасли.
Вот его комментарий:
Во-первых, флагманский Ascend 910С по заявлениям разработчиков достигает только 60% от H100. ⬆️ При этом нужно помнить, что H100 - это уже давно не флагман.
Новый флагман от NVIDIA это чипы B100 и B200, которые в 2-3 раза превосходят H100 по производительности в различных AI задачах. Флагман от Huawei, таким образом, внезапно достигает сногсшибательной произвозительности в 25-30% от топовых систем NVIDIA. Да, стоит он меньше, но это CapEx инвестиции, которые мало влияют на стоимость разработки AI/ML моделей, которые больше зависят от стоимости эксплуатации (системы хранения и передачи данных, электроэнергия и т.д.).
По поводу CUDA vs CANN. Ни один ИИ-исследователь не пишет ничего для CUDA или CANN непосредственно. Де-факто стандарты это Torch и TensorFlow, оба поддерживаются и CUDA-стеком и CANN-стеком, что называется "из коробки". Пруф - документация Huawei.
Да, для продукционализации моделей иногда применяются ручные оптимизации, но это скорее в тех областях, где приходится соревноваться за миллисекунды задержки (HFT-торговля например), LLM-системы это не про ручную оптимизацию и быстродействие самой модели, а про ее архитектуру и тренировку, поэтому см. предыдущий абзац.
Все инженерные инвестиции лидеров IT рынка по миграции на Huawei сведутся к паре недель работы инженеров по замене библиотек Tensorflow в продакшн. В деньгах - это смешная цифра в несколько миллионов долларов, причем это время уже имеющихся инженеров, т.е. фактические затраты близки к нулю.
Ну и под занавес - про дистилляцию DeepSeek V3 на открытой R1.
И Google Gemma 2 и […] Llama 3 по качеству не уступают, а в чем-то и превосходят R1. Обе являются открытыми. Поэтому аргумент уважаемого Дмитрия о том, что если бы R1 не было, то дистиллировать пришлось бы на ChatGPT не выдерживает критики. Есть доступные открытые модели, которые легко можно было бы использовать для дистилляции DeepSeek V3. Сотни моделей, основанных на LLama и Gemma уже доступны на HuggingFace для любых задач и применений.
Первоначальная паника инвесторов после релиза DeepSeek вызвана только цифрой 5 миллионов долларов, которые якобы пошли на ее тренировку. Но вот в чём фокус - эти 5 миллионов - это стоимость одного успешного раунда тренировки. Да, финальный раунд тренировки стоил 5 миллионов, но в реальности этих раундов (успешных, неуспешных, на другом наборе гиперпараметров или другой архитектуре модели) было много-много больше. При этом 5 миллионов - это только стоимость вычислительных ресурсов, без учета расходов на создание R1 (которую использовали для дистилляции).
Проводя аналогию с образованием - заявленная стоимость разработки DeepSeek V3 - это стоимость сдачи выпускного экзамена в университете. Условно, я могу заявить, что я получил PhD за условные 1000 рублей (стоимость распечатки собственно диссертации). При этом игнорируются расходы на обучение в начальной школе, средней школе, поступлении и обучении в университете, поступления в аспирантуру, исследований, черновиков диссертации. Все эти "скрытые" расходы суммарно, кратно (в десятки и сотри раз) увеличат реальные затраты на получение мной PhD.
Расшифровка аббревиатур – в следующем посте
BY Деньги и песец

Share with your friend now:
group-telegram.com/moneyandpolarfox/10855