Telegram Group & Telegram Channel
Вообще, конечно, история с реакцией рынков на новости о DeepSeek V3 и R1 это пример глупости помноженной на дилетантизм и истеричную природу массового сознания в эпоху кликбейт-экономики

Коротко по тезисам:

1. Нет, DeepSeek не «умнее на голову» всех в моделей. В разных бенчмарках результаты разные, но в среднем GPT-4o и Gemini-2 лучше. Можете посмотреть на ChatBot Arena, например (https://www.reddit.com/r/LocalLLaMA/comments/1i8u9jk/deepseekr1_appears_on_lmsys_arena_leaderboard/). Даже в результатах, опубликованных в статье авторов DeepSeek (https://github.com/deepseek-ai/DeepSeek-V3/blob/main/figures/benchmark.png) можно заметить, что в ряде тестов модель уступает, например, GPT-4o от мая 2024 года, то есть модели, которая в ChatBot Arena сейчас на 16-м месте.

2. Нет, на обучение DeepSeek не ушло 6 млн долларов «в 100 раз меньше, чем на GPT-4». В 6 млн долларов обошёлся финальный запуск обучения опубликованной модели. Тут не учитывались никакие предыдущие эксперименты, ни предыдущие версии модели, ни время людей. Чистый вычислительный бюджет на финальный запуск обучения. Эта сумма +/- такая же, как у моделей того же класса

3. Непонятно, за что пострадала Nvidia :)) Ну так-то, конечно, так им и надо, пускай снижают цены на железо, но учился-то DeepSeek на железках того самого Nvidia. И нет, теперь их не нужно меньше. И вычислительный бюджет на обучение там +/- обычный и на инференс такой большой модели (а это, напомню MoE с 671 млрд параметров, где при генерации токена используется 37 млрд параметров, то есть цена инференса там примерно как у 70B dense-модели) нужно много железа. И, естественно, успех DeepSeek отмасштабируют, вкинув ещё больше железа и сделав модель больше

4. Значит ли это, что модель плохая? Нет, модель очень хорошая. Мы с самого начала следим за коллегами из DeepSeek и с удовольствием использовали некоторые из их идей. Вообще, я бы сказал, что у нас в команде DeepSeek всегда рассматривалась как фаворит среди китайских моделей. DeepSeek лучше подавляющего большинства open-source-моделей, и это очень круто. Искренне рады за китайских коллег и за прогресс в области LLM-строения и машинного обучения в целом

5. В некоторых источниках пишут, что DeepSeek якобы полностью решил проблему «галлюцинаций». Nyet

Я думаю, что паника и шумиха случилась из-за того, что на западе обычно плохо знают про состояние дел в китайском ML, среди многих американских и европейских специалистов наблюдалось немного пренебрежительное и снисходительное отношение к Китаю в области ИИ. Дескать: ну что они там могут сделать, клепают свои низкокачественные плохо воспроизводимые работы, куда им с белым человеком тягаться? Всё это умножилось на антикитайскую риторику властей США, а при Трампе фокус на Китае как на главном противнике усилился. Помните истерическую статью Ашенбреннера? Теперь вот Гари Маркус вопит, требует наказать Цукерберга за Llama, дескать из-за опен-сорса китайцы украли все секреты. Это, конечно, типичный пример того, как валят с больной головы на здоровую. Виноваты в недостаточном прогрессе открытых моделей в США скорее люди типа Маркуса, со своей истерикой про опасности ИИ, запретительными и просто глупыми регуляторными инициативами и пр. «Знает кошка, чьё мясо съела»

Ну а в целом акции отрастут, ресурсы выделят, идеи получат широкое распространение, модели будут становиться лучше, прогресс не остановить (надеюсь)

Пусть расцветают сто цветов, пусть соперничают сто школ © Мао Цзэдун
👍112😁13🤡98🤔5👏3🔥1🥱1



group-telegram.com/daokedao/37377
Create:
Last Update:

Вообще, конечно, история с реакцией рынков на новости о DeepSeek V3 и R1 это пример глупости помноженной на дилетантизм и истеричную природу массового сознания в эпоху кликбейт-экономики

Коротко по тезисам:

1. Нет, DeepSeek не «умнее на голову» всех в моделей. В разных бенчмарках результаты разные, но в среднем GPT-4o и Gemini-2 лучше. Можете посмотреть на ChatBot Arena, например (https://www.reddit.com/r/LocalLLaMA/comments/1i8u9jk/deepseekr1_appears_on_lmsys_arena_leaderboard/). Даже в результатах, опубликованных в статье авторов DeepSeek (https://github.com/deepseek-ai/DeepSeek-V3/blob/main/figures/benchmark.png) можно заметить, что в ряде тестов модель уступает, например, GPT-4o от мая 2024 года, то есть модели, которая в ChatBot Arena сейчас на 16-м месте.

2. Нет, на обучение DeepSeek не ушло 6 млн долларов «в 100 раз меньше, чем на GPT-4». В 6 млн долларов обошёлся финальный запуск обучения опубликованной модели. Тут не учитывались никакие предыдущие эксперименты, ни предыдущие версии модели, ни время людей. Чистый вычислительный бюджет на финальный запуск обучения. Эта сумма +/- такая же, как у моделей того же класса

3. Непонятно, за что пострадала Nvidia :)) Ну так-то, конечно, так им и надо, пускай снижают цены на железо, но учился-то DeepSeek на железках того самого Nvidia. И нет, теперь их не нужно меньше. И вычислительный бюджет на обучение там +/- обычный и на инференс такой большой модели (а это, напомню MoE с 671 млрд параметров, где при генерации токена используется 37 млрд параметров, то есть цена инференса там примерно как у 70B dense-модели) нужно много железа. И, естественно, успех DeepSeek отмасштабируют, вкинув ещё больше железа и сделав модель больше

4. Значит ли это, что модель плохая? Нет, модель очень хорошая. Мы с самого начала следим за коллегами из DeepSeek и с удовольствием использовали некоторые из их идей. Вообще, я бы сказал, что у нас в команде DeepSeek всегда рассматривалась как фаворит среди китайских моделей. DeepSeek лучше подавляющего большинства open-source-моделей, и это очень круто. Искренне рады за китайских коллег и за прогресс в области LLM-строения и машинного обучения в целом

5. В некоторых источниках пишут, что DeepSeek якобы полностью решил проблему «галлюцинаций». Nyet

Я думаю, что паника и шумиха случилась из-за того, что на западе обычно плохо знают про состояние дел в китайском ML, среди многих американских и европейских специалистов наблюдалось немного пренебрежительное и снисходительное отношение к Китаю в области ИИ. Дескать: ну что они там могут сделать, клепают свои низкокачественные плохо воспроизводимые работы, куда им с белым человеком тягаться? Всё это умножилось на антикитайскую риторику властей США, а при Трампе фокус на Китае как на главном противнике усилился. Помните истерическую статью Ашенбреннера? Теперь вот Гари Маркус вопит, требует наказать Цукерберга за Llama, дескать из-за опен-сорса китайцы украли все секреты. Это, конечно, типичный пример того, как валят с больной головы на здоровую. Виноваты в недостаточном прогрессе открытых моделей в США скорее люди типа Маркуса, со своей истерикой про опасности ИИ, запретительными и просто глупыми регуляторными инициативами и пр. «Знает кошка, чьё мясо съела»

Ну а в целом акции отрастут, ресурсы выделят, идеи получат широкое распространение, модели будут становиться лучше, прогресс не остановить (надеюсь)

Пусть расцветают сто цветов, пусть соперничают сто школ © Мао Цзэдун

BY Китайская угроза




Share with your friend now:
group-telegram.com/daokedao/37377

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford.
from us


Telegram Китайская угроза
FROM American