Telegram Group & Telegram Channel
Мы же говорили, что опенсорс рулит ☺️. И вот опять. Qwen Team выпустили новую рассуждающую LLM QwQ-32B с открытой лицензией Apache 2.0. Модель по большинству тестов превосходит OpenAI o1-mini и практически на равных тягается с DeepSeek R1-671B, будучи при этом в 20 раз (!) «легче» последней.

Характеристики модели:
🔸 Основана на вышедшей в феврале нейросети Qwen 2.5
🔸 Архитектура: трансформеры с RoPE, SwiGLU, RMSNorm и смещением внимания QKV
🔸 Количество параметров: 32,5 млрд
🔸 Количество параметров (без встраивания): 31,0 млрд
🔸 Количество слоев: 64
🔸 Количество точек внимания (GQA): 40 для Q и 8 для KV
🔸 Длина контекста: 32 тыс. токенов, с возможностью расширения до 131 072.

Модель специально обучена для решения сложных аналитических задач и, по уверениям разработчиков, особенно эффективна для математических вычислений, разработки и оптимизации ПО, научных и образовательных целей. К тому же она нетребовательна к ресурсам и (в отличие от той же базовой DeepSeek R1) может быть установлена даже на среднем домашнем ПК. И кстати, неплохо владеет русским языком.

Наш комментарий по этому поводу:
👉 Китайские технологические гиганты (а команда Qwen принадлежит концерну Alibaba Group) продолжают атаковать западных конкурентов с их проприетарными моделями, делая ставку на Open Source. Как мы видим на примере DeepSeek, это и экономически вполне оправданно.
👉 Потенциал оптимизации алгоритмов LLM далеко не исчерпан, что ведет к появлению новых мощных и компактных, а главное, дешевых в разработке и обучении моделей, не требующих топового оборудования для запуска.
👉 Открытые лицензии позволяют строить на основе базовых LLM сколько угодно производных, адаптированных под особые задачи и сценарии использования. (Кстати, Qwen сейчас лидирует по количеству таких форков). Нас ждет расцвет SLM (Small Language Models) и облачных AI-решений в разных сферах науки и бизнеса.

🚀 ©ТехноТренды



group-telegram.com/technologies_trends/162
Create:
Last Update:

Мы же говорили, что опенсорс рулит ☺️. И вот опять. Qwen Team выпустили новую рассуждающую LLM QwQ-32B с открытой лицензией Apache 2.0. Модель по большинству тестов превосходит OpenAI o1-mini и практически на равных тягается с DeepSeek R1-671B, будучи при этом в 20 раз (!) «легче» последней.

Характеристики модели:
🔸 Основана на вышедшей в феврале нейросети Qwen 2.5
🔸 Архитектура: трансформеры с RoPE, SwiGLU, RMSNorm и смещением внимания QKV
🔸 Количество параметров: 32,5 млрд
🔸 Количество параметров (без встраивания): 31,0 млрд
🔸 Количество слоев: 64
🔸 Количество точек внимания (GQA): 40 для Q и 8 для KV
🔸 Длина контекста: 32 тыс. токенов, с возможностью расширения до 131 072.

Модель специально обучена для решения сложных аналитических задач и, по уверениям разработчиков, особенно эффективна для математических вычислений, разработки и оптимизации ПО, научных и образовательных целей. К тому же она нетребовательна к ресурсам и (в отличие от той же базовой DeepSeek R1) может быть установлена даже на среднем домашнем ПК. И кстати, неплохо владеет русским языком.

Наш комментарий по этому поводу:
👉 Китайские технологические гиганты (а команда Qwen принадлежит концерну Alibaba Group) продолжают атаковать западных конкурентов с их проприетарными моделями, делая ставку на Open Source. Как мы видим на примере DeepSeek, это и экономически вполне оправданно.
👉 Потенциал оптимизации алгоритмов LLM далеко не исчерпан, что ведет к появлению новых мощных и компактных, а главное, дешевых в разработке и обучении моделей, не требующих топового оборудования для запуска.
👉 Открытые лицензии позволяют строить на основе базовых LLM сколько угодно производных, адаптированных под особые задачи и сценарии использования. (Кстати, Qwen сейчас лидирует по количеству таких форков). Нас ждет расцвет SLM (Small Language Models) и облачных AI-решений в разных сферах науки и бизнеса.

🚀 ©ТехноТренды

BY 📈 ТехноТренды: Технологии, Тренды, IT


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/technologies_trends/162

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts.
from jp


Telegram 📈 ТехноТренды: Технологии, Тренды, IT
FROM American