📈 ТехноТренды: Технологии, Тренды, IT

IBM представила Granite 4.0 — гибридные LLM с бесконечным контекстом и минимальными требованиями к GPU.

Представленная линейка моделей
Granite-4.0-H-Small — гибрид MoE, 32B параметров (9B активных)
Granite-4.0-H-Tiny — гибрид MoE, 7B (1B активен)
Granite-4.0-H-Micro — плотная гибридная, 3B
Granite-4.0-Micro — традиционный Transformer, 3B (для совместимости с платформами без гибридов)

Удивляет производительность:
Granite 4.0 H Tiny при работе с 1 сессией на 32k контексте требует всего 7 GB VRAM — меньше, чем Qwen3 4B или Granite 3.3.
При 8 параллельных сессиях на 128k контексте Granite укладывается в 15 GB VRAM. Для сравнения: Qwen3 4B тянет на 78 GB, Granite 3.3 — на 90 GB.
👉 Это означает: мощные LLM становятся доступными даже на RTX 3090 (1,5k$, а не H100 за 25k$).

Помните семинар AIRI в мае? Там рассказывали про SSM- арзитектуру. Вот:

«Одним из наиболее интересных аспектов языковых моделей на основе SSM, таких как Mamba, является их способность обрабатывать бесконечно длинные последовательности… Производительность подтверждена на задачах до 128k токенов, но теоретически длина контекста может быть и больше.»

То есть Granite 4.0 открывает дорогу к моделям с неограниченным контекстом на основе SSM .

Важные выводы
Гибридная архитектура (Transformer + Mamba-2) ломает старую парадигму «чем больше GPU, тем лучше».
Granite 4.0 показал отличные результаты в MTRAG-тестах для сложных RAG-сценариев → Retrieval Augmented Generation становится куда менее дорогим и более надёжным.
Модели обучены только на проверенных и этичных данных, что критично для enterprise-сегмента.
IBM активно работает с экосистемой (vLLM, llama.cpp, MLX и др.), чтобы гибридные модели стали полноценным стандартом. На ollama уже есть.

По сути, Granite 4.0 — это не просто «ещё одна LLM», а смена парадигмы: доступные, энергоэффективные модели с бесконечным контекстом и enterprise-гарантиями.

🚀 ©ТехноТренды

❤1

www.group-telegram.com/kr/technologies_trends.com/364

271 viewsOct 3 at 12:01

group-telegram.com/technologies_trends/364

Create: 2025-10-03
Last Update: 2025-11-24 20:41:10

«Одним из наиболее интересных аспектов языковых моделей на основе SSM, таких как Mamba, является их способность обрабатывать бесконечно длинные последовательности… Производительность подтверждена на задачах до 128k токенов, но теоретически длина контекста может быть и больше.»

BY 📈 ТехноТренды: Технологии, Тренды, IT

Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/technologies_trends/364

Telegram | DID YOU KNOW?

IBM представила Granite 4.0 — гибридные LLM с бесконечным контекстом и минимальными требованиями к GPU.