Warning: file_put_contents(aCache/aDaily/post/moneyandpolarfox/-10826" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">истории с Deep Seek</a> , благодаря комментарию уважаемого читателя, который много лет работает в соответствующей отрасли. <br/><br/>Вот его комментарий: <br/><br/>Во-первых, флагманский Ascend 910С по заявлениям разработчиков достигает только 60% от H100. <i class="emoji" style="background-image:url('//telegram.org/img/emoji/40/E2AC86.png')"><b>⬆️</b></i> При этом нужно помнить, что H100 - это уже давно не флагман.<br/><br/> Новый флагман от NVIDIA это чипы B100 и B200, которые в 2-3 раза превосходят H100 по производительности в различных AI задачах. Флагман от Huawei, таким образом, внезапно достигает сногсшибательной произвозительности в 25-30% от топовых систем NVIDIA. Да, стоит он меньше, но это CapEx инвестиции, которые мало влияют на стоимость разработки AI/ML моделей, которые больше зависят от стоимости эксплуатации (системы хранения и передачи данных, электроэнергия и т.д.).<br/><br/>По поводу CUDA vs CANN. Ни один ИИ-исследователь не пишет ничего для CUDA или CANN непосредственно. Де-факто стандарты это Torch и TensorFlow, оба поддерживаются и CUDA-стеком и CANN-стеком, что называется &quot;из коробки&quot;. Пруф - <a href="https://www.hiascend.com/en/document" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">документация Huawei.</a> <br/>Да, для продукционализации моделей иногда применяются ручные оптимизации, но это скорее в тех областях, где приходится соревноваться за миллисекунды задержки (HFT-торговля например), LLM-системы это не про ручную оптимизацию и быстродействие самой модели, а про ее архитектуру и тренировку, поэтому см. предыдущий абзац. <br/>Все инженерные инвестиции лидеров IT рынка по миграции на Huawei сведутся к паре недель работы инженеров по замене библиотек Tensorflow в продакшн. В деньгах - это смешная цифра в несколько миллионов долларов, причем это время уже имеющихся инженеров, т.е. фактические затраты близки к нулю.<br/><br/>Ну и под занавес - про дистилляцию DeepSeek V3 на открытой R1.<br/>И Google Gemma 2 и […] Llama 3 по качеству не уступают, а в чем-то и превосходят R1. Обе являются открытыми. Поэтому <a href="https://t.me/DmitryMKulish/650-): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Деньги и песец | Telegram Webview: moneyandpolarfox/10855 -
Telegram Group & Telegram Channel
Deep Seek – не все так просто, как говорят в телевизоре

Мы продолжаем рассказывать о различных аспектах истории с Deep Seek , благодаря комментарию уважаемого читателя, который много лет работает в соответствующей отрасли.

Вот его комментарий:

Во-первых, флагманский Ascend 910С по заявлениям разработчиков достигает только 60% от H100. ⬆️ При этом нужно помнить, что H100 - это уже давно не флагман.

Новый флагман от NVIDIA это чипы B100 и B200, которые в 2-3 раза превосходят H100 по производительности в различных AI задачах. Флагман от Huawei, таким образом, внезапно достигает сногсшибательной произвозительности в 25-30% от топовых систем NVIDIA. Да, стоит он меньше, но это CapEx инвестиции, которые мало влияют на стоимость разработки AI/ML моделей, которые больше зависят от стоимости эксплуатации (системы хранения и передачи данных, электроэнергия и т.д.).

По поводу CUDA vs CANN. Ни один ИИ-исследователь не пишет ничего для CUDA или CANN непосредственно. Де-факто стандарты это Torch и TensorFlow, оба поддерживаются и CUDA-стеком и CANN-стеком, что называется "из коробки". Пруф - документация Huawei.
Да, для продукционализации моделей иногда применяются ручные оптимизации, но это скорее в тех областях, где приходится соревноваться за миллисекунды задержки (HFT-торговля например), LLM-системы это не про ручную оптимизацию и быстродействие самой модели, а про ее архитектуру и тренировку, поэтому см. предыдущий абзац.
Все инженерные инвестиции лидеров IT рынка по миграции на Huawei сведутся к паре недель работы инженеров по замене библиотек Tensorflow в продакшн. В деньгах - это смешная цифра в несколько миллионов долларов, причем это время уже имеющихся инженеров, т.е. фактические затраты близки к нулю.

Ну и под занавес - про дистилляцию DeepSeek V3 на открытой R1.
И Google Gemma 2 и […] Llama 3 по качеству не уступают, а в чем-то и превосходят R1. Обе являются открытыми. Поэтому аргумент уважаемого Дмитрия о том, что если бы R1 не было, то дистиллировать пришлось бы на ChatGPT не выдерживает критики. Есть доступные открытые модели, которые легко можно было бы использовать для дистилляции DeepSeek V3. Сотни моделей, основанных на LLama и Gemma уже доступны на HuggingFace для любых задач и применений.

Первоначальная паника инвесторов после релиза DeepSeek вызвана только цифрой 5 миллионов долларов, которые якобы пошли на ее тренировку. Но вот в чём фокус - эти 5 миллионов - это стоимость одного успешного раунда тренировки. Да, финальный раунд тренировки стоил 5 миллионов, но в реальности этих раундов (успешных, неуспешных, на другом наборе гиперпараметров или другой архитектуре модели) было много-много больше. При этом 5 миллионов - это только стоимость вычислительных ресурсов, без учета расходов на создание R1 (которую использовали для дистилляции).

Проводя аналогию с образованием - заявленная стоимость разработки DeepSeek V3 - это стоимость сдачи выпускного экзамена в университете. Условно, я могу заявить, что я получил PhD за условные 1000 рублей (стоимость распечатки собственно диссертации). При этом игнорируются расходы на обучение в начальной школе, средней школе, поступлении и обучении в университете, поступления в аспирантуру, исследований, черновиков диссертации. Все эти "скрытые" расходы суммарно, кратно (в десятки и сотри раз) увеличат реальные затраты на получение мной PhD.

Расшифровка аббревиатур – в следующем посте



group-telegram.com/moneyandpolarfox/10855
Create:
Last Update:

Deep Seek – не все так просто, как говорят в телевизоре

Мы продолжаем рассказывать о различных аспектах истории с Deep Seek , благодаря комментарию уважаемого читателя, который много лет работает в соответствующей отрасли.

Вот его комментарий:

Во-первых, флагманский Ascend 910С по заявлениям разработчиков достигает только 60% от H100. ⬆️ При этом нужно помнить, что H100 - это уже давно не флагман.

Новый флагман от NVIDIA это чипы B100 и B200, которые в 2-3 раза превосходят H100 по производительности в различных AI задачах. Флагман от Huawei, таким образом, внезапно достигает сногсшибательной произвозительности в 25-30% от топовых систем NVIDIA. Да, стоит он меньше, но это CapEx инвестиции, которые мало влияют на стоимость разработки AI/ML моделей, которые больше зависят от стоимости эксплуатации (системы хранения и передачи данных, электроэнергия и т.д.).

По поводу CUDA vs CANN. Ни один ИИ-исследователь не пишет ничего для CUDA или CANN непосредственно. Де-факто стандарты это Torch и TensorFlow, оба поддерживаются и CUDA-стеком и CANN-стеком, что называется "из коробки". Пруф - документация Huawei.
Да, для продукционализации моделей иногда применяются ручные оптимизации, но это скорее в тех областях, где приходится соревноваться за миллисекунды задержки (HFT-торговля например), LLM-системы это не про ручную оптимизацию и быстродействие самой модели, а про ее архитектуру и тренировку, поэтому см. предыдущий абзац.
Все инженерные инвестиции лидеров IT рынка по миграции на Huawei сведутся к паре недель работы инженеров по замене библиотек Tensorflow в продакшн. В деньгах - это смешная цифра в несколько миллионов долларов, причем это время уже имеющихся инженеров, т.е. фактические затраты близки к нулю.

Ну и под занавес - про дистилляцию DeepSeek V3 на открытой R1.
И Google Gemma 2 и […] Llama 3 по качеству не уступают, а в чем-то и превосходят R1. Обе являются открытыми. Поэтому аргумент уважаемого Дмитрия о том, что если бы R1 не было, то дистиллировать пришлось бы на ChatGPT не выдерживает критики. Есть доступные открытые модели, которые легко можно было бы использовать для дистилляции DeepSeek V3. Сотни моделей, основанных на LLama и Gemma уже доступны на HuggingFace для любых задач и применений.

Первоначальная паника инвесторов после релиза DeepSeek вызвана только цифрой 5 миллионов долларов, которые якобы пошли на ее тренировку. Но вот в чём фокус - эти 5 миллионов - это стоимость одного успешного раунда тренировки. Да, финальный раунд тренировки стоил 5 миллионов, но в реальности этих раундов (успешных, неуспешных, на другом наборе гиперпараметров или другой архитектуре модели) было много-много больше. При этом 5 миллионов - это только стоимость вычислительных ресурсов, без учета расходов на создание R1 (которую использовали для дистилляции).

Проводя аналогию с образованием - заявленная стоимость разработки DeepSeek V3 - это стоимость сдачи выпускного экзамена в университете. Условно, я могу заявить, что я получил PhD за условные 1000 рублей (стоимость распечатки собственно диссертации). При этом игнорируются расходы на обучение в начальной школе, средней школе, поступлении и обучении в университете, поступления в аспирантуру, исследований, черновиков диссертации. Все эти "скрытые" расходы суммарно, кратно (в десятки и сотри раз) увеличат реальные затраты на получение мной PhD.

Расшифровка аббревиатур – в следующем посте

BY Деньги и песец




Share with your friend now:
group-telegram.com/moneyandpolarfox/10855

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. NEWS As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. He adds: "Telegram has become my primary news source." DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries.
from us


Telegram Деньги и песец
FROM American