Telegram Group & Telegram Channel
IBM представила Granite 4.0 — гибридные LLM с бесконечным контекстом и минимальными требованиями к GPU.

Представленная линейка моделей
Granite-4.0-H-Small — гибрид MoE, 32B параметров (9B активных)
Granite-4.0-H-Tiny — гибрид MoE, 7B (1B активен)
Granite-4.0-H-Micro — плотная гибридная, 3B
Granite-4.0-Micro — традиционный Transformer, 3B (для совместимости с платформами без гибридов)

Удивляет производительность:
Granite 4.0 H Tiny при работе с 1 сессией на 32k контексте требует всего 7 GB VRAM — меньше, чем Qwen3 4B или Granite 3.3.
При 8 параллельных сессиях на 128k контексте Granite укладывается в 15 GB VRAM. Для сравнения: Qwen3 4B тянет на 78 GB, Granite 3.3 — на 90 GB.
👉 Это означает: мощные LLM становятся доступными даже на RTX 3090 (1,5k$, а не H100 за 25k$).

Помните семинар AIRI в мае? Там рассказывали про SSM- арзитектуру. Вот:

«Одним из наиболее интересных аспектов языковых моделей на основе SSM, таких как Mamba, является их способность обрабатывать бесконечно длинные последовательности… Производительность подтверждена на задачах до 128k токенов, но теоретически длина контекста может быть и больше.»


То есть Granite 4.0 открывает дорогу к моделям с неограниченным контекстом на основе SSM.

Важные выводы
Гибридная архитектура (Transformer + Mamba-2) ломает старую парадигму «чем больше GPU, тем лучше».
Granite 4.0 показал отличные результаты в MTRAG-тестах для сложных RAG-сценариев → Retrieval Augmented Generation становится куда менее дорогим и более надёжным.
Модели обучены только на проверенных и этичных данных, что критично для enterprise-сегмента.
IBM активно работает с экосистемой (vLLM, llama.cpp, MLX и др.), чтобы гибридные модели стали полноценным стандартом. На ollama уже есть.

По сути, Granite 4.0 — это не просто «ещё одна LLM», а смена парадигмы: доступные, энергоэффективные модели с бесконечным контекстом и enterprise-гарантиями.

🚀 ©ТехноТренды
1



group-telegram.com/technologies_trends/364
Create:
Last Update:

IBM представила Granite 4.0 — гибридные LLM с бесконечным контекстом и минимальными требованиями к GPU.

Представленная линейка моделей
Granite-4.0-H-Small — гибрид MoE, 32B параметров (9B активных)
Granite-4.0-H-Tiny — гибрид MoE, 7B (1B активен)
Granite-4.0-H-Micro — плотная гибридная, 3B
Granite-4.0-Micro — традиционный Transformer, 3B (для совместимости с платформами без гибридов)

Удивляет производительность:
Granite 4.0 H Tiny при работе с 1 сессией на 32k контексте требует всего 7 GB VRAM — меньше, чем Qwen3 4B или Granite 3.3.
При 8 параллельных сессиях на 128k контексте Granite укладывается в 15 GB VRAM. Для сравнения: Qwen3 4B тянет на 78 GB, Granite 3.3 — на 90 GB.
👉 Это означает: мощные LLM становятся доступными даже на RTX 3090 (1,5k$, а не H100 за 25k$).

Помните семинар AIRI в мае? Там рассказывали про SSM- арзитектуру. Вот:

«Одним из наиболее интересных аспектов языковых моделей на основе SSM, таких как Mamba, является их способность обрабатывать бесконечно длинные последовательности… Производительность подтверждена на задачах до 128k токенов, но теоретически длина контекста может быть и больше.»


То есть Granite 4.0 открывает дорогу к моделям с неограниченным контекстом на основе SSM.

Важные выводы
Гибридная архитектура (Transformer + Mamba-2) ломает старую парадигму «чем больше GPU, тем лучше».
Granite 4.0 показал отличные результаты в MTRAG-тестах для сложных RAG-сценариев → Retrieval Augmented Generation становится куда менее дорогим и более надёжным.
Модели обучены только на проверенных и этичных данных, что критично для enterprise-сегмента.
IBM активно работает с экосистемой (vLLM, llama.cpp, MLX и др.), чтобы гибридные модели стали полноценным стандартом. На ollama уже есть.

По сути, Granite 4.0 — это не просто «ещё одна LLM», а смена парадигмы: доступные, энергоэффективные модели с бесконечным контекстом и enterprise-гарантиями.

🚀 ©ТехноТренды

BY 📈 ТехноТренды: Технологии, Тренды, IT


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/technologies_trends/364

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so. Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis."
from us


Telegram 📈 ТехноТренды: Технологии, Тренды, IT
FROM American