Ponimator: Unfolding Interactive Pose for Versatile Human-Human Interaction Animation
Ну и чем мне теперь заменить слово "пониматор"? Они не ПОНИмают что натворили.
Анимация взаимодействия между людьми. Использует интерактивные позы как основу для генерации движений
Фреймворк состоит из двух условных диффузионных моделей: одна генерирует динамические последовательности движений на основе временного контекста, другая создаёт интерактивные позы из одиночной позы, текста или их комбинации;
Поддерживает различные задачи: анимацию взаимодействия по изображениям, анимацию реакций, синтез взаимодействия по тексту
Код
#humananimation #animation #image2video #text2video #text2pose #pose2video
Ну и чем мне теперь заменить слово "пониматор"? Они не ПОНИмают что натворили.
Анимация взаимодействия между людьми. Использует интерактивные позы как основу для генерации движений
Фреймворк состоит из двух условных диффузионных моделей: одна генерирует динамические последовательности движений на основе временного контекста, другая создаёт интерактивные позы из одиночной позы, текста или их комбинации;
Поддерживает различные задачи: анимацию взаимодействия по изображениям, анимацию реакций, синтез взаимодействия по тексту
Код
#humananimation #animation #image2video #text2video #text2pose #pose2video
👍7😁1
InternSVG: Towards Unified SVG Tasks with Multimodal Large Language Models
Фреймворк для работы с SVG-графикой, основанный на мультимодальных больших языковых моделях. Объединяет задачи понимания, редактирования и генерации SVG
В качестве визуального энкодера — InternViT-300M, языковой модели — Qwen2.5-7B
Код
Веса ждем
#SVG #vectorediting #vector #text2svg #text2vector #vector2vectro #svg2svg
Фреймворк для работы с SVG-графикой, основанный на мультимодальных больших языковых моделях. Объединяет задачи понимания, редактирования и генерации SVG
В качестве визуального энкодера — InternViT-300M, языковой модели — Qwen2.5-7B
Код
Веса ждем
#SVG #vectorediting #vector #text2svg #text2vector #vector2vectro #svg2svg
🔥11👍2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ запилил себе тело чтобы охотиться на человеков
Deemos показали Люси, робота, созданного ИИ
1. сгенерили картинку
2. 3D-модель сгенерили в Rodin
3. Обучение на основе RL в симуляторе
4. 3D-печать
5. Люси в реальном мире
Проект вдохновлен Text2Robot
#яниначтоненамекаю #text2robot #robot
Deemos показали Люси, робота, созданного ИИ
1. сгенерили картинку
2. 3D-модель сгенерили в Rodin
3. Обучение на основе RL в симуляторе
4. 3D-печать
5. Люси в реальном мире
Проект вдохновлен Text2Robot
#яниначтоненамекаю #text2robot #robot
🔥8😭4🥴1
AnyUp: Universal Feature Upsampling
Апскейлер визуальных признаков (features) из любых слоёв кодировщиков изображений, не зависит от типа энкодера.
Обобщает на другие модели и размеры моделей, например, хорошо работает с SigLIP 2 и DINOv3 после обучения на DINOv2 (ViT-S)
Признаки о которых идет речь — не RGB информация, это данные, которые описывают определённые характеристики визуального контента. Тем не менее, метод может быть полезен для апскейла изображений и технических пассов
Код
#upscale
Апскейлер визуальных признаков (features) из любых слоёв кодировщиков изображений, не зависит от типа энкодера.
Обобщает на другие модели и размеры моделей, например, хорошо работает с SigLIP 2 и DINOv3 после обучения на DINOv2 (ViT-S)
Признаки о которых идет речь — не RGB информация, это данные, которые описывают определённые характеристики визуального контента. Тем не менее, метод может быть полезен для апскейла изображений и технических пассов
Код
#upscale
👍3🔥1
flymyai-lora-trainer Flux LoRa training
В инструмент для длобучения моделей flymyai-lora-trainer добавили поддержку обучения лор FLUX.1-dev
Пример - лора Энн Хэтуэй
Обучать лоры онлайн тут
Гитхаб
#TEXT2IMAGE #LORA #FINETUNING
В инструмент для длобучения моделей flymyai-lora-trainer добавили поддержку обучения лор FLUX.1-dev
Пример - лора Энн Хэтуэй
Обучать лоры онлайн тут
Гитхаб
#TEXT2IMAGE #LORA #FINETUNING
🔥9👍3
Очередная демка генератора миров. Попробовал. Возможности передвижения очень ограниченные, вверх-вниз нельзя, по горизонтали очень быстро упираешься в стену. Ну такое
#world #image2world
#world #image2world
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Media is too big
VIEW IN TELEGRAM
RTFM: A Real-Time Frame Model
Про генерацию миров от WorldLab я уже писал и не раз.
Но тут они выкатили новое интерактивное демо, которое нельзя не попробовать.
Главные фишки: бесконечный контекст(память) и нефотореалистичные "скины".
Для начала, идете сюда и пробуете:
https://rtfm.worldlabs.ai/
Там пока нельзя вгрузить свое изображение, но можно попробовать картинки из библиотеки.
На входе ОДНО изображение и промпт - на выходе - целый мир.
Потом читаете тут:
https://www.worldlabs.ai/blog/rtfm
По мере развития этой технологии становится ясно одно: генеративные модели мира будут требовать очень больших вычислительных ресурсов, гораздо больше, чем современные LLM. Если мы наивно применим современные видеоархитектуры к этой задаче, то для генерации интерактивного 4K-видеопотока со скоростью 60 кадров в секунду потребуется производить более 100 тысяч токенов в секунду (примерно столько же, сколько составляет длина романа «Франкенштейн» или первой книги о Гарри Поттере); чтобы эти генерации сохранялись в течение часового (или дольше) взаимодействия, необходимо обрабатывать контексты, превышающие 100 миллионов токенов. Это невозможно и экономически нецелесообразно с учетом современной вычислительной инфраструктуры.
Но WorldLab сделал так, что RTFM может крутиться на ОДНОЙ H100, обеспечивая интерактивный опыт.
С бесконечным контекстом они придумали интересный трюк: они не запоминают все сгенерированные кадры (экономя память), а лишь углы камеры и метадату плюс "некоторое" количество кадров вокруг текущего ракурса (кеш генераций), при достаточно большой смене ракурса перегенерируют заново.
Модель обрабатывает широкий спектр типов сцен, визуальных стилей и эффектов, включая отражения, полированные поверхности, тени и блики.
На видео в начале каждого плана можно заметить небольшие артефакты, но на общем фоне и с учетом красоты работы это мелочи.
@cgevent
Про генерацию миров от WorldLab я уже писал и не раз.
Но тут они выкатили новое интерактивное демо, которое нельзя не попробовать.
Главные фишки: бесконечный контекст(память) и нефотореалистичные "скины".
Для начала, идете сюда и пробуете:
https://rtfm.worldlabs.ai/
Там пока нельзя вгрузить свое изображение, но можно попробовать картинки из библиотеки.
На входе ОДНО изображение и промпт - на выходе - целый мир.
Потом читаете тут:
https://www.worldlabs.ai/blog/rtfm
По мере развития этой технологии становится ясно одно: генеративные модели мира будут требовать очень больших вычислительных ресурсов, гораздо больше, чем современные LLM. Если мы наивно применим современные видеоархитектуры к этой задаче, то для генерации интерактивного 4K-видеопотока со скоростью 60 кадров в секунду потребуется производить более 100 тысяч токенов в секунду (примерно столько же, сколько составляет длина романа «Франкенштейн» или первой книги о Гарри Поттере); чтобы эти генерации сохранялись в течение часового (или дольше) взаимодействия, необходимо обрабатывать контексты, превышающие 100 миллионов токенов. Это невозможно и экономически нецелесообразно с учетом современной вычислительной инфраструктуры.
Но WorldLab сделал так, что RTFM может крутиться на ОДНОЙ H100, обеспечивая интерактивный опыт.
С бесконечным контекстом они придумали интересный трюк: они не запоминают все сгенерированные кадры (экономя память), а лишь углы камеры и метадату плюс "некоторое" количество кадров вокруг текущего ракурса (кеш генераций), при достаточно большой смене ракурса перегенерируют заново.
Модель обрабатывает широкий спектр типов сцен, визуальных стилей и эффектов, включая отражения, полированные поверхности, тени и блики.
На видео в начале каждого плана можно заметить небольшие артефакты, но на общем фоне и с учетом красоты работы это мелочи.
@cgevent
👍3👎1
Media is too big
VIEW IN TELEGRAM
UrbanVerse: Scaling Urban Simulation by Watching City-Tour Videos
3D миры здоровогочеловека робота
UrbanVerse преобразует реальные городские сцены из видеопрогулок по городам в интерактивные симуляционные среды с учётом физики. Это позволяет масштабировать обучение роботов в городских пространствах и улучшать их адаптацию к реальным условиям
Из некалиброваных видео извлекает семантические макеты.
На основе одного видео и макета генерирует несколько разнообразных цифровых сцен.
Ну и у них есть свой датасет UrbanVerse-100K для создания симуляций, основанных на реальных макетах
Код ждем
#videotoscene #videoto3d #video2world #world
3D миры здорового
UrbanVerse преобразует реальные городские сцены из видеопрогулок по городам в интерактивные симуляционные среды с учётом физики. Это позволяет масштабировать обучение роботов в городских пространствах и улучшать их адаптацию к реальным условиям
Из некалиброваных видео извлекает семантические макеты.
На основе одного видео и макета генерирует несколько разнообразных цифровых сцен.
Ну и у них есть свой датасет UrbanVerse-100K для создания симуляций, основанных на реальных макетах
Код ждем
#videotoscene #videoto3d #video2world #world
👍4
Как привлекать клиентов и подписчиков из Телеграма?😳
Впервые мы раскроем все этапы на бесплатном курсе.
Контент-завод + нейросеть + Телеграм = мнооого клиентов :)
👉 Забирай место на бесплатный курс: https://www.group-telegram.com/+jjjfRA09b302MTli
Что узнаешь на курсе:
⏩ Как заработать от 200 тыс до 1 млн
⏩ Как привлекать клиентов из Телеграма (10 способов)
⏩ Как построить контент—завод с помощью нейросетей!
⏩ Как привлекать подписчиков бесплатно (без рассылок и спама)
Подарок:
🎁 50 мест на бесплатный курс!
👉 https://www.group-telegram.com/+jjjfRA09b302MTli
Программа курса:
✈️ Как выйти от 200.000 до 1 млн с нуля
✈️ Как привлекать подписчиков в Телеграм-канал бесплатно
✈️ Как построить автоворонку с помощью нейроситей
✈️ Пошаговая схема создания контентного завода, который генерит поток клиентов без вложения в рекламу
Ценность курса —55.000, для тебя — БЕСПЛАТНО🔥
Забронировать место здесь 👉🏻 https://www.group-telegram.com/+jjjfRA09b302MTli
#промо
Впервые мы раскроем все этапы на бесплатном курсе.
Контент-завод + нейросеть + Телеграм = мнооого клиентов :)
👉 Забирай место на бесплатный курс: https://www.group-telegram.com/+jjjfRA09b302MTli
Что узнаешь на курсе:
Подарок:
🎁 50 мест на бесплатный курс!
👉 https://www.group-telegram.com/+jjjfRA09b302MTli
Программа курса:
Ценность курса —
Забронировать место здесь 👉🏻 https://www.group-telegram.com/+jjjfRA09b302MTli
#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
👎5🥴3🍌2😁1
ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
Видеогtнератор на базе WAN 2.1 от Alibaba
Лучше справляется с творческими и сложными задачами, где нужно сочетать редко встречающиеся вместе понятия
Якобы превосходит другие модели и на VBench, демонстрируя высокое качество генерации.
Но из визуальных материалов только картинки и таблицы для демонстрации превосходства
Код ждем
#text2video #research
Видеогtнератор на базе WAN 2.1 от Alibaba
Лучше справляется с творческими и сложными задачами, где нужно сочетать редко встречающиеся вместе понятия
Якобы превосходит другие модели и на VBench, демонстрируя высокое качество генерации.
Но из визуальных материалов только картинки и таблицы для демонстрации превосходства
Код ждем
#text2video #research
👍4👀1
Ditto: Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
Редактирование видео текстовыми инструкциями.
В качестве примера дообученный WAN 2.1 (VACE):
— преодолевает ограничения существующих методов по качеству и разнообразию редактирования;
— использует усовершенствованный подход к генерации видео, сочетая редактор изображений и генератор видео;
— снижает вычислительные затраты до 20 % от исходных при сохранении стабильности во времени и отсутствии визуальных артефактов;
— применяет агента Vision-Language Model (VLM) для автоматического создания инструкций и фильтрации некачественных результатов
А вообще у них основной продукт - датасет для обучения редактирующих моделей
Код
Веса
Ditto-1M - датасет
#videoediting
Редактирование видео текстовыми инструкциями.
В качестве примера дообученный WAN 2.1 (VACE):
— преодолевает ограничения существующих методов по качеству и разнообразию редактирования;
— использует усовершенствованный подход к генерации видео, сочетая редактор изображений и генератор видео;
— снижает вычислительные затраты до 20 % от исходных при сохранении стабильности во времени и отсутствии визуальных артефактов;
— применяет агента Vision-Language Model (VLM) для автоматического создания инструкций и фильтрации некачественных результатов
А вообще у них основной продукт - датасет для обучения редактирующих моделей
Код
Веса
Ditto-1M - датасет
#videoediting
👍5🔥4❤1