group-telegram.com/adel_and_ml/432
Last Update:
Google выпустила Gemini 2.0: что нового?
А много чего! Тут: улучшенные мультимодальные возможности, включая повышенную скорость, качество, агентные способности, а также экспериментальное распознавание и локализация объектов через bounding box (!). Модель умеет “видеть”, “слышать” и “говорить”, но пока ограничена в функциях с использованием аудио. Среди новых возможностей — генерация изображений и управляемая синтезация речи.
- Bounding Box Detection: Gemini 2.0 получила экспериментальную функцию bounding box для распознавания и локализации объектов на изображениях и в видео. Это включает настройки для кастомных инструкций и нормализованные координаты для интеграции в приложения.
- Мультимодальный Live API: модель поддерживает взаимодействие в реальном времени через текст, аудио и видео с низкой задержкой. Добавлены память сессий, определение голосовой активности, выполнение функций, код и интеграция с Google Search.
- Скорость и качество: Gemini 2.0 существенно ускоряет время вывода первого токена (TTFT) по сравнению с Gemini 1.5 Flash и показывает улучшенные результаты в большинстве тестов.
- Агентные способности: расширенное понимание мультимодальных данных, точное следование инструкциям, улучшенное программирование и эффективный вызов функций для динамических задач.
- Новые возможности: Генерация изображений и управляемая синтезация речи открывают новые способы взаимодействия, но без создания людей или редактирования их изображений.
- Использование нескольких инструментов: модель может одновременно активировать разные инструменты, самостоятельно выбирая, что использовать для выполнения задач — от выполнения кода до поиска и пользовательских функций.
Примечательно, что я не нашел никакого упоминания test-time computer, reasoning, thinking и вот этого всего.
https://ai.google.dev/gemini-api/docs/models/gemini-v2
BY Адель и МЛь

Share with your friend now:
group-telegram.com/adel_and_ml/432