линрег, нейронка, ямль, стек, трансформер, гит, эпоха
ассемблер, кафка, бустинг, хэш, дэдлок, сегфолт... линковка
тензорфлоу, деструктор, бэкпроп, адам, конструктор
катбуст, линалище, матанище, процессор, функтор
куда, коммит, берт, оверфит
мьютекс, пресижн, моментум, конфиг
докер, сходимость, дропаут, эмбеддинг
нумпай, компилятор, пи-вэлью, инит...
ассемблер, кафка, бустинг, хэш, дэдлок, сегфолт... линковка
тензорфлоу, деструктор, бэкпроп, адам, конструктор
катбуст, линалище, матанище, процессор, функтор
куда, коммит, берт, оверфит
мьютекс, пресижн, моментум, конфиг
докер, сходимость, дропаут, эмбеддинг
нумпай, компилятор, пи-вэлью, инит...
😁236🥴40🔥19 6💩5 4✍3❤🔥2👍1👏1👾1
Вот полный перевод документа “盘古之殇” (буквально «Гибель Паньгу») — исповедь сотрудника Huawei, работавшего над большим языковым моделем Pangu в лаборатории Noah’s Ark.
⸻
ПАНЬГУ之殇: Горечь и тьма в истории разработки большого языка модели Huawei Noah’s Ark
Здравствуйте.
Я — сотрудник команды Pangu в лаборатории Noah’s Ark компании Huawei.
Чтобы подтвердить свою личность, приведу несколько подробностей:
• Текущий директор лаборатории — Ван Юньхэ (ранее возглавлял отдел прикладных алгоритмов, позже переименованный в лабораторию малых моделей). Прежний директор — Яо Цзюнь (все звали его Яо Лаоши).
• Другие руководители лабораторий: Тан Жуймин (Мин Гэ, ушёл), Шан Лифэн, Чжан Вэй (Вэй Гэ), Хао Цзяньё, Лю Улун и др. Многие ключевые сотрудники уже уволились.
• Мы входили в организацию «Сы Е» (четвёртый фронт), где большая языковая модель — это «четвёртая вертикаль». Малые модели — «шестнадцатая вертикаль».
• Мы проходили «сборы» в Сучжоу: командировки, жизнь в гостиницах, разлука с семьёй. Работали по субботам. В обстановке — европейские офисы, фуршеты, мелкие бытовые радости среди изнурительной работы.
• Noah позиционировалась как исследовательская лаборатория, но в итоге мы стали командой по реализации, заваленной встречами, отчетами, согласованиями.
• Ранняя версия модели Pangu называлась «盘古智子» (Pangu Zhizi). Сначала доступ только через внутренний веб-интерфейс, потом интеграция в WeLink.
⸻
ПЕРЕЖИВАНИЯ И ВНУТРЕННИЙ КРИЗИС
Последние дни обострились слухи о том, что Pangu скопировала модель Qianwen. Я не могу больше спать. Моё будущее, карьера, усилия — под угрозой. А в то же время я испытываю радость от того, что кто-то всё же решился говорить правду.
Мы годами молчали, наблюдая, как фальсификации приносят награды отдельным лицам. Эта атмосфера лжи и бессилия уничтожила мою привязанность к Huawei, оставив только смятение и усталость.
Я признаю свою слабость. Я — наёмный работник, с семьёй, с детьми, не решавшийся пойти против Ван Юньхэ и всей машины Huawei. Но когда я увидел, что продолжаются попытки оправдания и обмана общественности, я не выдержал. Пусть это навредит мне — я хочу навредить и лжи. Вот моя история.
⸻
ИСТИНА О PAN GU
1. Обучение на Ascend
• Мы начинали на Huawei Ascend 910A с поддержкой только fp16. Moe-модель 38B начали обучать в 2023, затем — dense-модель 71B, расширенная до 135B.
• Tokenizer был ужасным: каждый символ, цифра, даже пробел занимал токен. Это сильно ухудшало качество и эффективность.
2. Смена tokenizer’а
• Использовали частично tokenizer из лаборатории малых моделей. 71B провалилась при замене, 135B с трудом перенесли. Результат всё равно был плохим.
• В это время конкуренты (Ali, Zhipu) уже добились стабильных результатов на GPU.
3. Попытки выжить
• Из-за провала 230B модели и давления руководство решили “переосмыслить” 38B moe → сделали из неё 13B dense с RoPE и RMSNorm. Это стало новой 38B dense.
4. Скандал с 135B V2
• Заявили, что она — продолжение старой 135B. На деле это была модель Qwen 1.5 110B, обёрнутая в “пангу”. Даже названия классов не изменили.
• Это было подано руководству как “великое достижение”. Многие знали правду, но молчали. Мы шутливо называли это «千古» (Тысяча Лжи).
5. 135B V3 — гордость настоящих инженеров
• Это была первая модель, действительно натренированная с нуля, с расширенным llama tokenizer. Мы ночами трудились, восстанавливали обучение при каждом сбое. Без единого loss spike.
• Это была наша победа. Но…
6. Нас лишали заслуг
• Малые лаборатории приходили и забирали данные, код, заставляли нас всё адаптировать. Мы называли их «лабораторией кликов мышкой».
• Люди увольнялись. Уходили лучшие: в ByteDance Seed, Deepseek, Moonshot AI, Tencent, Kuaishou. Один сказал: «Это пятно на моей карьере».
7. Скандал с moe 72B
• Вновь “обёртка”: взяли Qwen 2.5 14B и начали обучение с водяными знаками, “грязными данными”, чтобы замести следы. Понадобилась колоссальная мощность — больше, чем для тренировки с нуля.
8. Финальный удар — Deepseek
• После выхода Deepseek v3 и r1 началась паника. Мы начали обучение 718B moe.
⸻
ПАНЬГУ之殇: Горечь и тьма в истории разработки большого языка модели Huawei Noah’s Ark
Здравствуйте.
Я — сотрудник команды Pangu в лаборатории Noah’s Ark компании Huawei.
Чтобы подтвердить свою личность, приведу несколько подробностей:
• Текущий директор лаборатории — Ван Юньхэ (ранее возглавлял отдел прикладных алгоритмов, позже переименованный в лабораторию малых моделей). Прежний директор — Яо Цзюнь (все звали его Яо Лаоши).
• Другие руководители лабораторий: Тан Жуймин (Мин Гэ, ушёл), Шан Лифэн, Чжан Вэй (Вэй Гэ), Хао Цзяньё, Лю Улун и др. Многие ключевые сотрудники уже уволились.
• Мы входили в организацию «Сы Е» (четвёртый фронт), где большая языковая модель — это «четвёртая вертикаль». Малые модели — «шестнадцатая вертикаль».
• Мы проходили «сборы» в Сучжоу: командировки, жизнь в гостиницах, разлука с семьёй. Работали по субботам. В обстановке — европейские офисы, фуршеты, мелкие бытовые радости среди изнурительной работы.
• Noah позиционировалась как исследовательская лаборатория, но в итоге мы стали командой по реализации, заваленной встречами, отчетами, согласованиями.
• Ранняя версия модели Pangu называлась «盘古智子» (Pangu Zhizi). Сначала доступ только через внутренний веб-интерфейс, потом интеграция в WeLink.
⸻
ПЕРЕЖИВАНИЯ И ВНУТРЕННИЙ КРИЗИС
Последние дни обострились слухи о том, что Pangu скопировала модель Qianwen. Я не могу больше спать. Моё будущее, карьера, усилия — под угрозой. А в то же время я испытываю радость от того, что кто-то всё же решился говорить правду.
Мы годами молчали, наблюдая, как фальсификации приносят награды отдельным лицам. Эта атмосфера лжи и бессилия уничтожила мою привязанность к Huawei, оставив только смятение и усталость.
Я признаю свою слабость. Я — наёмный работник, с семьёй, с детьми, не решавшийся пойти против Ван Юньхэ и всей машины Huawei. Но когда я увидел, что продолжаются попытки оправдания и обмана общественности, я не выдержал. Пусть это навредит мне — я хочу навредить и лжи. Вот моя история.
⸻
ИСТИНА О PAN GU
1. Обучение на Ascend
• Мы начинали на Huawei Ascend 910A с поддержкой только fp16. Moe-модель 38B начали обучать в 2023, затем — dense-модель 71B, расширенная до 135B.
• Tokenizer был ужасным: каждый символ, цифра, даже пробел занимал токен. Это сильно ухудшало качество и эффективность.
2. Смена tokenizer’а
• Использовали частично tokenizer из лаборатории малых моделей. 71B провалилась при замене, 135B с трудом перенесли. Результат всё равно был плохим.
• В это время конкуренты (Ali, Zhipu) уже добились стабильных результатов на GPU.
3. Попытки выжить
• Из-за провала 230B модели и давления руководство решили “переосмыслить” 38B moe → сделали из неё 13B dense с RoPE и RMSNorm. Это стало новой 38B dense.
4. Скандал с 135B V2
• Заявили, что она — продолжение старой 135B. На деле это была модель Qwen 1.5 110B, обёрнутая в “пангу”. Даже названия классов не изменили.
• Это было подано руководству как “великое достижение”. Многие знали правду, но молчали. Мы шутливо называли это «千古» (Тысяча Лжи).
5. 135B V3 — гордость настоящих инженеров
• Это была первая модель, действительно натренированная с нуля, с расширенным llama tokenizer. Мы ночами трудились, восстанавливали обучение при каждом сбое. Без единого loss spike.
• Это была наша победа. Но…
6. Нас лишали заслуг
• Малые лаборатории приходили и забирали данные, код, заставляли нас всё адаптировать. Мы называли их «лабораторией кликов мышкой».
• Люди увольнялись. Уходили лучшие: в ByteDance Seed, Deepseek, Moonshot AI, Tencent, Kuaishou. Один сказал: «Это пятно на моей карьере».
7. Скандал с moe 72B
• Вновь “обёртка”: взяли Qwen 2.5 14B и начали обучение с водяными знаками, “грязными данными”, чтобы замести следы. Понадобилась колоссальная мощность — больше, чем для тренировки с нуля.
8. Финальный удар — Deepseek
• После выхода Deepseek v3 и r1 началась паника. Мы начали обучение 718B moe.
😢102🔥19🤔4💔4 4✍1👏1😁1 1
вероятно лучший генератор картинок сделали ребята из higgsfield.ai, внутри затюненные промпты и lorы на flux, к черту претрены друзья!
😁39 16💩13👍6🍌3🤔1
работа аи инженера в 2025:
- nccl ошибки фиксит
- кубер запускат
- кернелы писат
- мое обучать
- сидеть фиксить промпт на два абзаца тк они докдывают оставшиеся 99% качества, но без первых пунктов юзлесс
- nccl ошибки фиксит
- кубер запускат
- кернелы писат
- мое обучать
- сидеть фиксить промпт на два абзаца тк они докдывают оставшиеся 99% качества, но без первых пунктов юзлесс
👍104😁37 25💯16🔥4💊2 2🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
https://huggingface.co/blog/reachy-mini
Вау, первый робот от huggingface, открытый и с возможностью запускать в нем hf spaces!!!
Внутри Raspberry Pi 5 4 микро, камера, а еще всякие анимации тела и головы
Стартовая цена 300 (без rpi вроде но я не оч понял) и 450 за богатую версию
Вау, первый робот от huggingface, открытый и с возможностью запускать в нем hf spaces!!!
Внутри Raspberry Pi 5 4 микро, камера, а еще всякие анимации тела и головы
Стартовая цена 300 (без rpi вроде но я не оч понял) и 450 за богатую версию
😨39🔥26👍2