Warning: file_put_contents(aCache/aDaily/post/technologies_trends/--): Failed to open stream: No space left on device in /var/www/group-telegram/post.php on line 50
📈 ТехноТренды: Технологии, Тренды, IT | Telegram Webview: technologies_trends/162 -
Telegram Group & Telegram Channel
Мы же говорили, что опенсорс рулит ☺️. И вот опять. Qwen Team выпустили новую рассуждающую LLM QwQ-32B с открытой лицензией Apache 2.0. Модель по большинству тестов превосходит OpenAI o1-mini и практически на равных тягается с DeepSeek R1-671B, будучи при этом в 20 раз (!) «легче» последней.

Характеристики модели:
🔸 Основана на вышедшей в феврале нейросети Qwen 2.5
🔸 Архитектура: трансформеры с RoPE, SwiGLU, RMSNorm и смещением внимания QKV
🔸 Количество параметров: 32,5 млрд
🔸 Количество параметров (без встраивания): 31,0 млрд
🔸 Количество слоев: 64
🔸 Количество точек внимания (GQA): 40 для Q и 8 для KV
🔸 Длина контекста: 32 тыс. токенов, с возможностью расширения до 131 072.

Модель специально обучена для решения сложных аналитических задач и, по уверениям разработчиков, особенно эффективна для математических вычислений, разработки и оптимизации ПО, научных и образовательных целей. К тому же она нетребовательна к ресурсам и (в отличие от той же базовой DeepSeek R1) может быть установлена даже на среднем домашнем ПК. И кстати, неплохо владеет русским языком.

Наш комментарий по этому поводу:
👉 Китайские технологические гиганты (а команда Qwen принадлежит концерну Alibaba Group) продолжают атаковать западных конкурентов с их проприетарными моделями, делая ставку на Open Source. Как мы видим на примере DeepSeek, это и экономически вполне оправданно.
👉 Потенциал оптимизации алгоритмов LLM далеко не исчерпан, что ведет к появлению новых мощных и компактных, а главное, дешевых в разработке и обучении моделей, не требующих топового оборудования для запуска.
👉 Открытые лицензии позволяют строить на основе базовых LLM сколько угодно производных, адаптированных под особые задачи и сценарии использования. (Кстати, Qwen сейчас лидирует по количеству таких форков). Нас ждет расцвет SLM (Small Language Models) и облачных AI-решений в разных сферах науки и бизнеса.

🚀 ©ТехноТренды



group-telegram.com/technologies_trends/162
Create:
Last Update:

Мы же говорили, что опенсорс рулит ☺️. И вот опять. Qwen Team выпустили новую рассуждающую LLM QwQ-32B с открытой лицензией Apache 2.0. Модель по большинству тестов превосходит OpenAI o1-mini и практически на равных тягается с DeepSeek R1-671B, будучи при этом в 20 раз (!) «легче» последней.

Характеристики модели:
🔸 Основана на вышедшей в феврале нейросети Qwen 2.5
🔸 Архитектура: трансформеры с RoPE, SwiGLU, RMSNorm и смещением внимания QKV
🔸 Количество параметров: 32,5 млрд
🔸 Количество параметров (без встраивания): 31,0 млрд
🔸 Количество слоев: 64
🔸 Количество точек внимания (GQA): 40 для Q и 8 для KV
🔸 Длина контекста: 32 тыс. токенов, с возможностью расширения до 131 072.

Модель специально обучена для решения сложных аналитических задач и, по уверениям разработчиков, особенно эффективна для математических вычислений, разработки и оптимизации ПО, научных и образовательных целей. К тому же она нетребовательна к ресурсам и (в отличие от той же базовой DeepSeek R1) может быть установлена даже на среднем домашнем ПК. И кстати, неплохо владеет русским языком.

Наш комментарий по этому поводу:
👉 Китайские технологические гиганты (а команда Qwen принадлежит концерну Alibaba Group) продолжают атаковать западных конкурентов с их проприетарными моделями, делая ставку на Open Source. Как мы видим на примере DeepSeek, это и экономически вполне оправданно.
👉 Потенциал оптимизации алгоритмов LLM далеко не исчерпан, что ведет к появлению новых мощных и компактных, а главное, дешевых в разработке и обучении моделей, не требующих топового оборудования для запуска.
👉 Открытые лицензии позволяют строить на основе базовых LLM сколько угодно производных, адаптированных под особые задачи и сценарии использования. (Кстати, Qwen сейчас лидирует по количеству таких форков). Нас ждет расцвет SLM (Small Language Models) и облачных AI-решений в разных сферах науки и бизнеса.

🚀 ©ТехноТренды

BY 📈 ТехноТренды: Технологии, Тренды, IT


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/technologies_trends/162

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. False news often spreads via public groups, or chats, with potentially fatal effects. Founder Pavel Durov says tech is meant to set you free
from ua


Telegram 📈 ТехноТренды: Технологии, Тренды, IT
FROM American