Telegram Group & Telegram Channel
🦉Модели Qwen 3 были опубликованы на ModelScope и затем были быстро удалены.



Теперь мы знаем параметры (0.6B / 1.7B / 4B / 8B / 30B-A3B / 238B ) и архитектуру.

> Tripled language coverage, новые архитектурные фишки и контекст до 32k — всё в одной серии моделей.

- 🔧 Новые техники: global-batch load balancing (MoE), qk layernorm, тонкая настройка гиперпараметров через scaling laws
- 🚀 Dens + Mixture-of-Experts линейка: разные размеры и режимы для любых задач
- 📈 Улучшена стабильность и качество выводов по сравнению с Qwen 2.5

🤖 Модель Qwen3-8B в цифрах
- Тип: causal language model
- Параметры всего: 8,2 B (6,95 B без эмбеддингов)
- Слои: 36
- Attention heads (GQA): 32 для Q и 8 для KV
- Контекстное окно: 32 768 токенов
- разработчикам — компактная, но мощная 8B-модель с длинным контекстом
- продвинутая MoE-архитектура
- это мультиязычная plug-and-play LLM и

https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@data_analysis_ml



group-telegram.com/data_analysis_ml/3517
Create:
Last Update:

🦉Модели Qwen 3 были опубликованы на ModelScope и затем были быстро удалены.



Теперь мы знаем параметры (0.6B / 1.7B / 4B / 8B / 30B-A3B / 238B ) и архитектуру.

> Tripled language coverage, новые архитектурные фишки и контекст до 32k — всё в одной серии моделей.

- 🔧 Новые техники: global-batch load balancing (MoE), qk layernorm, тонкая настройка гиперпараметров через scaling laws
- 🚀 Dens + Mixture-of-Experts линейка: разные размеры и режимы для любых задач
- 📈 Улучшена стабильность и качество выводов по сравнению с Qwen 2.5

🤖 Модель Qwen3-8B в цифрах
- Тип: causal language model
- Параметры всего: 8,2 B (6,95 B без эмбеддингов)
- Слои: 36
- Attention heads (GQA): 32 для Q и 8 для KV
- Контекстное окно: 32 768 токенов
- разработчикам — компактная, но мощная 8B-модель с длинным контекстом
- продвинутая MoE-архитектура
- это мультиязычная plug-and-play LLM и

https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@data_analysis_ml

BY Анализ данных (Data analysis)




Share with your friend now:
group-telegram.com/data_analysis_ml/3517

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

'Wild West' Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read."
from tw


Telegram Анализ данных (Data analysis)
FROM American