group-telegram.com/sysblok/1154
Last Update:
Новая Llama 4, новый лидер Gemini 2.5 Pro, новые картинки от GPT
Рассказываем, что произошло в мире ИИ за последнее время.
Llama 4
Компания Meta выпустила четвертую версию своей open-source языковой модели LLama. Модель представлена в трех размерах: 2 трлн, 400 млрд и 109 млрд параметров. Все вариации используют архитектуру Mixture of Expert, благодаря которой во время генерации ответа модель задействует только малую долю всех параметров, необходимых для данного запроса. Используемые во время ответа параметры называются активными.
Модели Llama 4 Maverick (400 млрд параметров, 17 млрд активных) и Llama 4 Scout (109 млрд, 17 млрд активных) доступны уже сейчас. Флагманская версия Behemot с 2 трлн параметров (288 млрд активных) находится в процессе обучения. Ее промежуточная версия была использована при создании Maverick и Scout. Все модели поддерживают работу с изображениями.
По основным тестам на понимание языка, программирование и на умение решать логические и математические задачи Scout сопоставима с Gemma 3, Gemini 2.0 Flash-Lite и Mistral Small 3.1. Также Scout поддерживает работу с контентом длиной 10 млн токенов — это особенно полезно при работе с большими кодовыми базами, объемной документацией или видео.
Maverick по метрикам опережает Gemini 2.0 Flash и GPT-4o и сравнима с обновленной DeepSeek-V3 в задачах на логику и программирование. Behemot в задачах, связанных с естественными науками, показывает себя лучше Claude Sonnet 3.7, GPT-4.5 и Gemini 2.0 Pro.
Gemini 2.5 Pro — новый лидер среди LLM
Google представила экспериментальную версию своей новой языковой модели Gemini 2.5 Pro. По большинству ключевых метрик она значительно опережает другие ведущие модели, такие как o3-mini-high, DeepSeek-R1, Grok 3 и Claude Sonnet 3.7.
На платформе LMArena, где пользователи сравнивают различные LLM, Gemini 2.5 Pro занимает первое место (второе — у Llama 4 Maverick). Особенно высоко оцениваются ее возможности в написании программного кода.
Модель доступна через API. Предусмотрены два тарифа: бесплатный — с использованием пользовательских данных для обучения моделей Google и платный — без сохранения и использования данных.
Обновление GPT-4o
С последним обновлением GPT-4o сильно улучшилось качество генерации изображений. Модель стала рисовать реалистичнее, лучше справляется с отрисовкой текста, а также гораздо эффективнее редактирует изображения — например, может добавлять или удалять объекты, а также применять различные стилизации (например, перерисовывать в стиле студии Ghibli).
Эти улучшения стали возможны благодаря нативной поддержке работы с изображениями. Ранее GPT, как и большинство других моделей, использовала отдельную нейросеть для работы с визуальными запросами. Например, для генерации изображения вызывалась специализированная модель DALL-E 3. Теперь же GPT-4o воспринимает текст и изображения как единый тип данных. Иными словами, она может как принимать изображения на вход, так и генерировать их в ответ, не используя другие модели. Подобный подход к работе с изображениями был также продемонстрирован в моделях Gemini 2.0.
Нативная поддержка изображений и аудио была анонсирована вместе с самой моделью GPT-4o — название «о» происходит от слова Omni, что означает «всё в одном» — универсальность и мультиформатность. Однако полноценный доступ к этим возможностям стал возможен только сейчас.