GreenNeuralRobots Telegram Group

ERNIE-4.5-VL-28B-A3B-Thinking: A Breakthrough in Multimodal AI

Очередной визуал-мыслитель Эрни от Baidu

28B параметров, из них 3B активных.

Думает с помощью изображений, может увеличивать и уменьшать их, чтобы рассмотреть детали

Использует внешние инструменты, например, поиск по изображениям, для получения дополнительной информации

Понимает видео, определяет изменения содержания в разных временных сегментах и извлекает субтитры с таймкодами

Понимает и отвечает на русском. Но думает ан английском.

Как видим, успешно галлюцинирует.

Гитхаб с кукбукой
HF
Демо

#multimodal #assistant #vlm #reasoning #image2text

😁10👍5

1.01K views12:16

0:15

0:25

0:20

0:30

Infinity: Uniﬁed SpaceTime AutoRegressive Modeling for Visual Generation

Дискретный авторегрессионный видеогенератор
Видимо от авторов Waver, потому что пригласительная Discord ссылка ведет на их канал

Создает контент в разных форматах: генерирует изображения по тексту, превращает изображения в видео, создаёт динамические видео и длинные интерактивные (???) ролики

Работает быстрее аналогов: примерно в 10 раз быстрее диффузионных методов, например, HunyuanVideo

Ну и вроде как нативное 720p. Модель поменьше делает 480p

Гитхаб
HF
Попробовать в дискорде

Спасибо @m_franz

#text2video #image2video

👍7🔥2❤1😱1

1.17K views13:16

Работай быстрее и в 3 раза эффективнее!

Пока ты тратишь время на создание контент - планов и креативов, другие делегируют 80% рутины нейросетям и получают результат быстрее.

Делай так же👇

⚙️ Сделай своего ИИ - ассистента.

🕓 Быстро создавай визуалы.

📔 Разбор текстовых нейросетей

Эффективно используй свой самый ценный ресурс - ВРЕМЯ

Подпишись на канал - А я как сказал?

#промо

🔥5👍3👎3🤔2👨‍💻1

889 views14:06

0:08

Ну подумаешь - российский робот упал на презентации. Ахаха. хаха 😐. Так же несмешно как и человеческие падения. Вообще непонятно зачем это постят, никак не тянет на новость. У всех роботы падали, и у Маска тоже, и ничего стыдного в этом нет.

Вот если бы он упал и взорвался с криком "ИИ-Акбар!"
Или на худой конец упал и обос*ался — вот это я понимаю новость была бы.
А так и не хочется даже постить. И не буду

#robot #оффтоп

Please open Telegram to view this post

VIEW IN TELEGRAM

1😁21💯11🍌5😐1

865 viewsedited 15:12

0:04

FlowFeat: Pixel-Dense Embedding of Motion Profiles

Конкурент DINO и V-JEPA, создаёт детализированные представления видеоданных на уровне пикселей, используя информацию о движении.

В принципе должно работать для сегментации

Интересно где сравнение с DINO v3

Гитхаб

#segmentation #video2mask

❤5👍2

1K views16:19

XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation Генератор картинок по тексту от ByteDance Позволяет точно управлять несколькими объектами в одном изображении. Детальная настройка семантических атрибутов, таких…

XVerse Demo

Демоспейс июньского генератора картинок от ByteDAnce

#text2image #subjectcontrol #multisubject

👍4🔥1

936 views17:22

1:14

Media is too big