Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/technologies_trends/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
📈 ТехноТренды: Технологии, Тренды, IT | Telegram Webview: technologies_trends/162 -
Telegram Group & Telegram Channel
Мы же говорили, что опенсорс рулит ☺️. И вот опять. Qwen Team выпустили новую рассуждающую LLM QwQ-32B с открытой лицензией Apache 2.0. Модель по большинству тестов превосходит OpenAI o1-mini и практически на равных тягается с DeepSeek R1-671B, будучи при этом в 20 раз (!) «легче» последней.

Характеристики модели:
🔸 Основана на вышедшей в феврале нейросети Qwen 2.5
🔸 Архитектура: трансформеры с RoPE, SwiGLU, RMSNorm и смещением внимания QKV
🔸 Количество параметров: 32,5 млрд
🔸 Количество параметров (без встраивания): 31,0 млрд
🔸 Количество слоев: 64
🔸 Количество точек внимания (GQA): 40 для Q и 8 для KV
🔸 Длина контекста: 32 тыс. токенов, с возможностью расширения до 131 072.

Модель специально обучена для решения сложных аналитических задач и, по уверениям разработчиков, особенно эффективна для математических вычислений, разработки и оптимизации ПО, научных и образовательных целей. К тому же она нетребовательна к ресурсам и (в отличие от той же базовой DeepSeek R1) может быть установлена даже на среднем домашнем ПК. И кстати, неплохо владеет русским языком.

Наш комментарий по этому поводу:
👉 Китайские технологические гиганты (а команда Qwen принадлежит концерну Alibaba Group) продолжают атаковать западных конкурентов с их проприетарными моделями, делая ставку на Open Source. Как мы видим на примере DeepSeek, это и экономически вполне оправданно.
👉 Потенциал оптимизации алгоритмов LLM далеко не исчерпан, что ведет к появлению новых мощных и компактных, а главное, дешевых в разработке и обучении моделей, не требующих топового оборудования для запуска.
👉 Открытые лицензии позволяют строить на основе базовых LLM сколько угодно производных, адаптированных под особые задачи и сценарии использования. (Кстати, Qwen сейчас лидирует по количеству таких форков). Нас ждет расцвет SLM (Small Language Models) и облачных AI-решений в разных сферах науки и бизнеса.

🚀 ©ТехноТренды



group-telegram.com/technologies_trends/162
Create:
Last Update:

Мы же говорили, что опенсорс рулит ☺️. И вот опять. Qwen Team выпустили новую рассуждающую LLM QwQ-32B с открытой лицензией Apache 2.0. Модель по большинству тестов превосходит OpenAI o1-mini и практически на равных тягается с DeepSeek R1-671B, будучи при этом в 20 раз (!) «легче» последней.

Характеристики модели:
🔸 Основана на вышедшей в феврале нейросети Qwen 2.5
🔸 Архитектура: трансформеры с RoPE, SwiGLU, RMSNorm и смещением внимания QKV
🔸 Количество параметров: 32,5 млрд
🔸 Количество параметров (без встраивания): 31,0 млрд
🔸 Количество слоев: 64
🔸 Количество точек внимания (GQA): 40 для Q и 8 для KV
🔸 Длина контекста: 32 тыс. токенов, с возможностью расширения до 131 072.

Модель специально обучена для решения сложных аналитических задач и, по уверениям разработчиков, особенно эффективна для математических вычислений, разработки и оптимизации ПО, научных и образовательных целей. К тому же она нетребовательна к ресурсам и (в отличие от той же базовой DeepSeek R1) может быть установлена даже на среднем домашнем ПК. И кстати, неплохо владеет русским языком.

Наш комментарий по этому поводу:
👉 Китайские технологические гиганты (а команда Qwen принадлежит концерну Alibaba Group) продолжают атаковать западных конкурентов с их проприетарными моделями, делая ставку на Open Source. Как мы видим на примере DeepSeek, это и экономически вполне оправданно.
👉 Потенциал оптимизации алгоритмов LLM далеко не исчерпан, что ведет к появлению новых мощных и компактных, а главное, дешевых в разработке и обучении моделей, не требующих топового оборудования для запуска.
👉 Открытые лицензии позволяют строить на основе базовых LLM сколько угодно производных, адаптированных под особые задачи и сценарии использования. (Кстати, Qwen сейчас лидирует по количеству таких форков). Нас ждет расцвет SLM (Small Language Models) и облачных AI-решений в разных сферах науки и бизнеса.

🚀 ©ТехноТренды

BY 📈 ТехноТренды: Технологии, Тренды, IT


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/technologies_trends/162

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children.
from vn


Telegram 📈 ТехноТренды: Технологии, Тренды, IT
FROM American