BLIP3o-NEXT: Advanced Multimodal Foundation Model
Мультимодальная модель, развитие BLIP3o
Гибрид авторегресси и диффузии
Генератор / пониматор картинок от Salesforce
Улучшенное соответствие подсказкам и точность рендеринга текста за счет обучения с подкреплением по методу GRPO
Хорошо справляется с задачами, требующими пространственной структуры (например, рендеринг текста или генерация нескольких объектов
Гитхаб
HF - там целый зоопарк от 3B до 8B
#text2image #image2text #multimodal #ar #captioning
Мультимодальная модель, развитие BLIP3o
Гибрид авторегресси и диффузии
Генератор / пониматор картинок от Salesforce
Улучшенное соответствие подсказкам и точность рендеринга текста за счет обучения с подкреплением по методу GRPO
Хорошо справляется с задачами, требующими пространственной структуры (например, рендеринг текста или генерация нескольких объектов
Гитхаб
HF - там целый зоопарк от 3B до 8B
#text2image #image2text #multimodal #ar #captioning
👍5❤1
когда твоя девушка работала через AWS
контекст:
на днях полег облачный сервис AWS прихватив с собой полмира, включая не только крупнейшие сайты, но и умные матрасы . И это на фоне сообщения о том что Amazon якобы заменил 40% DevOps-инженеров AWS искусственным интеллектом за несколько дней до сбоя
#humor
на днях полег облачный сервис AWS прихватив с собой полмира, включая
#humor
😁24🤷♂2👍1
LTX-2
Новая версия видеогенератора от Lightricks
Создает видео со звуком в 4K, 50 фпс, рилтайм (нет)
На вход можно подать что угодно: текст, изображения, видео, аудио, карты глубины и отснятый материал для управляемой генерации
Поддерживает лоры и генерацию по нескольким ключевым кадрам
Попробовать (кроме россиян), можно на офсайте
Уже есть на Fal.ai, также можно чекнуть Replicate, ComfyUI
Тест человекорыбом частично провалился. Где рыба, Лебовски?
И тоже не умеет делать лунную походку.
Может оно и 4К по количеству пикселей но не по качеству. Ну зато быстрый. Ждем опенсорс
Гитхаб - новую модель опубликуют в конце ноября
Спасибо @m_franz
#any2video #text2video #image2video
Новая версия видеогенератора от Lightricks
Создает видео со звуком в 4K, 50 фпс, рилтайм (нет)
На вход можно подать что угодно: текст, изображения, видео, аудио, карты глубины и отснятый материал для управляемой генерации
Поддерживает лоры и генерацию по нескольким ключевым кадрам
Попробовать (кроме россиян), можно на офсайте
Уже есть на Fal.ai, также можно чекнуть Replicate, ComfyUI
Тест человекорыбом частично провалился. Где рыба, Лебовски?
И тоже не умеет делать лунную походку.
Может оно и 4К по количеству пикселей но не по качеству. Ну зато быстрый. Ждем опенсорс
Гитхаб - новую модель опубликуют в конце ноября
Спасибо @m_franz
#any2video #text2video #image2video
🔥7😱2⚡1👍1
Sa2VA-Qwen3-VL-4B
ByteDance выпустил Sa2VA на Qwen3-VL-4B
Модель объединяет SAM2 и LLaVA для глубокого понимания изображений и видео
Гитхаб
#segmentation #vlm #assistant #video2text #vide2mask #captiopning
ByteDance выпустил Sa2VA на Qwen3-VL-4B
Модель объединяет SAM2 и LLaVA для глубокого понимания изображений и видео
Гитхаб
#segmentation #vlm #assistant #video2text #vide2mask #captiopning
huggingface.co
ByteDance/Sa2VA-Qwen3-VL-4B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥8👍2🤔1
🤖 Как увеличить продажи на маркетплейсах с помощью нейросетей
Если вы продаёте на Ozon, Wildberries или Яндекс.Маркете — нейросети могут стать вашим конкурентным преимуществом.
Канал @pvconsult — для тех, кто хочет продавать умнее, а не больше работать.
🔥 Внутри:
▪️Кейсы, где AI реально увеличил прибыль
▪️Готовые инструменты и промпты для автоматизации продаж
▪️Мини-гайды по продвижению товаров и аналитике
▪️Фишки и лайфхаки, которые приносят результат от автора канала с опытом 5+ лет в e-commerce.
💡 Всё коротко, по делу и с реальными результатами.
Подписывайтесь на @pvconsult — начните зарабатывать больше, пока конкуренты только тестируют ChatGPT.
#промо
Если вы продаёте на Ozon, Wildberries или Яндекс.Маркете — нейросети могут стать вашим конкурентным преимуществом.
Канал @pvconsult — для тех, кто хочет продавать умнее, а не больше работать.
🔥 Внутри:
▪️Кейсы, где AI реально увеличил прибыль
▪️Готовые инструменты и промпты для автоматизации продаж
▪️Мини-гайды по продвижению товаров и аналитике
▪️Фишки и лайфхаки, которые приносят результат от автора канала с опытом 5+ лет в e-commerce.
💡 Всё коротко, по делу и с реальными результатами.
Подписывайтесь на @pvconsult — начните зарабатывать больше, пока конкуренты только тестируют ChatGPT.
#промо
👎5👍1🍌1
Media is too big
VIEW IN TELEGRAM
HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives
Еще один Enlarge yourvideo
Генератор многоплановых монтажных видеонарративов на базе Wan 2.2.
Как и MoGa способен генерировать связные истории, а не только отдельные клипы.
Может воссоздавать знаковые сцены из классических фильмов, демонстрируя понимание кинематографического наследия и стиля
Код
HF - полные веса 2*57 ГБ, sparse - 1*57 ГБ. Обещают версии 14B-full-l (длинее 1 минуты) и 5B для VRAM-бедняков
#text2movie #text2film #movie #text2video #image2video
Еще один Enlarge your
Генератор многоплановых монтажных видеонарративов на базе Wan 2.2.
Как и MoGa способен генерировать связные истории, а не только отдельные клипы.
Может воссоздавать знаковые сцены из классических фильмов, демонстрируя понимание кинематографического наследия и стиля
Код
HF - полные веса 2*57 ГБ, sparse - 1*57 ГБ. Обещают версии 14B-full-l (длинее 1 минуты) и 5B для VRAM-бедняков
#text2movie #text2film #movie #text2video #image2video
❤7👍2
This media is not supported in your browser
VIEW IN TELEGRAM
SpatialGen: Layout-guided 3D Indoor Scene Generation
Cоздает фотореалистичные 3D-сцены интерьеров на основе 3D семантического макета и подсказки в виде текста или изображения
Под капотом FLUX.1-Wireframe-dev-lora и SpatialGen-1.0, который является производным от SD2.1
Код
HF
#segmentation2scene #segmentationto3d #layoutto3d #layout2scene
Cоздает фотореалистичные 3D-сцены интерьеров на основе 3D семантического макета и подсказки в виде текста или изображения
Под капотом FLUX.1-Wireframe-dev-lora и SpatialGen-1.0, который является производным от SD2.1
Код
HF
#segmentation2scene #segmentationto3d #layoutto3d #layout2scene
❤3👍2
Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence
Пониматор видео на базе Qwen2.5-VL
Интегрирует в процесс рассуждений ключевые временные метки и ограничивающие рамки, что позволяет делать выводы более обоснованными и надёжными.
Гитхаб
HF
#vlm #video2text #reasoning #captioning
Пониматор видео на базе Qwen2.5-VL
Интегрирует в процесс рассуждений ключевые временные метки и ограничивающие рамки, что позволяет делать выводы более обоснованными и надёжными.
Гитхаб
HF
#vlm #video2text #reasoning #captioning
❤4👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Stability AI объявили о сотрудничестве с EA чтобы совместно разрабатывать генеративные ИИ-модели, инструменты и рабочие процессы. Их цели:
- ускорить итерации и рабочие процессы в разработке игр
- расширить творческие возможности дизайнеров, разработчиков и художников EA
- внедрить генеративный ИИ в творческие рабочие процессы, чтобы ускорить прототипирование и визуальное повествование
- ускорить создание PBR материалов
- разработать ИИ-системы, которые смогут предварительно визуализировать целые 3D-среды
#news
- ускорить итерации и рабочие процессы в разработке игр
- расширить творческие возможности дизайнеров, разработчиков и художников EA
- внедрить генеративный ИИ в творческие рабочие процессы, чтобы ускорить прототипирование и визуальное повествование
- ускорить создание PBR материалов
- разработать ИИ-системы, которые смогут предварительно визуализировать целые 3D-среды
#news
👀3⚡2👍1
Нейронавт | Нейросети в творчестве
Тем временем ComfyUI вошел в ТОП-100 репозиториев на Гитхабе #news
ТОП 25 причин пользоваться ComfyUI
😁10👍3
