This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
VEO 3
Новая модель видеогенератора от Google Deepmind
Нативно создает звук вместе с видео, в том числе диалоги.
Лучше понимает сложные промпты, в том числе с меняющимися сценами
Доступен сегодня в правильной стране
#text2video #news #text2movie #sota
Новая модель видеогенератора от Google Deepmind
Нативно создает звук вместе с видео, в том числе диалоги.
Лучше понимает сложные промпты, в том числе с меняющимися сценами
Доступен сегодня в правильной стране
#text2video #news #text2movie #sota
В Flow дают месяц бесплатного доступа к Pro подписке (для VEO 3 нужна Ultra). Но опять же, в правильной стране
#videoediting #imageediting
#videoediting #imageediting
Forwarded from Denis Sexy IT 🤖
А еще запустили flow.google – это аналог Sora, но намного мощнее – там можно делать фильмы целиком, сразу со звуком
Тулинг для инструмента помогали делать именитые режиссеры вроде Аронофски (второе видео)
Тулинг для инструмента помогали делать именитые режиссеры вроде Аронофски (второе видео)
Forwarded from эйай ньюз
Что показали на Google I/O?
Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.
Сначала самое жаркое:
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".
Для технарей:
- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.
Mic drop...🎤
@ai_newz
Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.
Сначала самое жаркое:
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".
Для технарей:
- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.
Mic drop...
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Новая версия картинкогенератора Imagen 4 уже в Krea AI на платной подписке.
VEO 3 - скоро
#text2image #news
VEO 3 - скоро
#text2image #news
Hunyuan-TurboS
Hunyuanвыкатил показал свою #LLM, вдохновленную, на минуточку, человеческими когнитивными процессами
По-русски шпрехает, вот доказательства
Демо
#assistant
Hunyuan
По-русски шпрехает, вот доказательства
Демо
#assistant
This media is not supported in your browser
VIEW IN TELEGRAM
Stable Video 4D 2.0
Stability вновь высунулись из мрака с SV4D 2.0
SOTA в 4D генерации (движущиеся во времени 3D сцены), побил DreamGaussian4D, L4GM и SV4D
Напомню, прежняя модель могла менять ракурс видео, новая версия справляется с этим более лучше
Код
Веса
#videoto4d #4d #video2video #novelview #sota
Stability вновь высунулись из мрака с SV4D 2.0
SOTA в 4D генерации (движущиеся во времени 3D сцены), побил DreamGaussian4D, L4GM и SV4D
Напомню, прежняя модель могла менять ракурс видео, новая версия справляется с этим более лучше
Код
Веса
#videoto4d #4d #video2video #novelview #sota
#оффтоп #набрюзжал
Ручной режим допуска к нашему чату связан с неудобствами для новых юзеров. Но придется терпеть. Вот эти все клоуны - боты, и только одна заявка похожа на настоящего человека. Каждый день отказываю им, на следующий день они снова тут. А некоторые - сразу, в следующее же мгновение. А @durov пофиг на это
Ручной режим допуска к нашему чату связан с неудобствами для новых юзеров. Но придется терпеть. Вот эти все клоуны - боты, и только одна заявка похожа на настоящего человека. Каждый день отказываю им, на следующий день они снова тут. А некоторые - сразу, в следующее же мгновение. А @durov пофиг на это