Telegram Group & Telegram Channel
Google выпустила Gemini 2.0: что нового?

А много чего! Тут: улучшенные мультимодальные возможности, включая повышенную скорость, качество, агентные способности, а также экспериментальное распознавание и локализация объектов через bounding box (!). Модель умеет “видеть”, “слышать” и “говорить”, но пока ограничена в функциях с использованием аудио. Среди новых возможностей — генерация изображений и управляемая синтезация речи.

- Bounding Box Detection: Gemini 2.0 получила экспериментальную функцию bounding box для распознавания и локализации объектов на изображениях и в видео. Это включает настройки для кастомных инструкций и нормализованные координаты для интеграции в приложения.

- Мультимодальный Live API: модель поддерживает взаимодействие в реальном времени через текст, аудио и видео с низкой задержкой. Добавлены память сессий, определение голосовой активности, выполнение функций, код и интеграция с Google Search.

- Скорость и качество: Gemini 2.0 существенно ускоряет время вывода первого токена (TTFT) по сравнению с Gemini 1.5 Flash и показывает улучшенные результаты в большинстве тестов.

- Агентные способности: расширенное понимание мультимодальных данных, точное следование инструкциям, улучшенное программирование и эффективный вызов функций для динамических задач.

- Новые возможности: Генерация изображений и управляемая синтезация речи открывают новые способы взаимодействия, но без создания людей или редактирования их изображений.

- Использование нескольких инструментов: модель может одновременно активировать разные инструменты, самостоятельно выбирая, что использовать для выполнения задач — от выполнения кода до поиска и пользовательских функций.

Примечательно, что я не нашел никакого упоминания test-time computer, reasoning, thinking и вот этого всего.

https://ai.google.dev/gemini-api/docs/models/gemini-v2
👍5🔥2🤯1



group-telegram.com/adel_and_ml/432
Create:
Last Update:

Google выпустила Gemini 2.0: что нового?

А много чего! Тут: улучшенные мультимодальные возможности, включая повышенную скорость, качество, агентные способности, а также экспериментальное распознавание и локализация объектов через bounding box (!). Модель умеет “видеть”, “слышать” и “говорить”, но пока ограничена в функциях с использованием аудио. Среди новых возможностей — генерация изображений и управляемая синтезация речи.

- Bounding Box Detection: Gemini 2.0 получила экспериментальную функцию bounding box для распознавания и локализации объектов на изображениях и в видео. Это включает настройки для кастомных инструкций и нормализованные координаты для интеграции в приложения.

- Мультимодальный Live API: модель поддерживает взаимодействие в реальном времени через текст, аудио и видео с низкой задержкой. Добавлены память сессий, определение голосовой активности, выполнение функций, код и интеграция с Google Search.

- Скорость и качество: Gemini 2.0 существенно ускоряет время вывода первого токена (TTFT) по сравнению с Gemini 1.5 Flash и показывает улучшенные результаты в большинстве тестов.

- Агентные способности: расширенное понимание мультимодальных данных, точное следование инструкциям, улучшенное программирование и эффективный вызов функций для динамических задач.

- Новые возможности: Генерация изображений и управляемая синтезация речи открывают новые способы взаимодействия, но без создания людей или редактирования их изображений.

- Использование нескольких инструментов: модель может одновременно активировать разные инструменты, самостоятельно выбирая, что использовать для выполнения задач — от выполнения кода до поиска и пользовательских функций.

Примечательно, что я не нашел никакого упоминания test-time computer, reasoning, thinking и вот этого всего.

https://ai.google.dev/gemini-api/docs/models/gemini-v2

BY Адель и МЛь




Share with your friend now:
group-telegram.com/adel_and_ml/432

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.”
from us


Telegram Адель и МЛь
FROM American