MoGA: Mixture-of-Groups Attention for End-to-End Long Video Generation
Это еще один способ генерации длинных видео от ByteDance
Создает многоплановое монтажное видео в формате 480p, 24 фпс, хронометраж до минуты, с контекстом 580К токенов
Интегрируется с современными механизмами внимания, например, FlashAttention, и поддерживает распараллеливание
Умеет в генерацию видео с несколькими сюжетными отрезками и может управлять сценами с помощью текстовых описаний на уровне каждого отрезка
Согласованность персонажей и фона, бла-бла-бла
В качестве базовой модели используются Wan2.1 (1.3B и 14B) и MMDiT.
Код / веса ждем
#text2video #image2video
Это еще один способ генерации длинных видео от ByteDance
Создает многоплановое монтажное видео в формате 480p, 24 фпс, хронометраж до минуты, с контекстом 580К токенов
Интегрируется с современными механизмами внимания, например, FlashAttention, и поддерживает распараллеливание
Умеет в генерацию видео с несколькими сюжетными отрезками и может управлять сценами с помощью текстовых описаний на уровне каждого отрезка
Согласованность персонажей и фона, бла-бла-бла
В качестве базовой модели используются Wan2.1 (1.3B и 14B) и MMDiT.
Код / веса ждем
#text2video #image2video
👍11❤2
Qwen3-VL-2B и Qwen3-VL-32B
Qwen забрасывает нас обновками.
Qwen3-VL-32B превосходит GPT-5 mini и Claude 4 Sonnet по производительности в STEM, VQA, распознавании текста, понимании видео, задачах агентов и многом другом.
Всего в 32B параметров, на уровне моделей с 235B (даже превосходя их в OSWorld!)
Доступны версии FP8
Доступны варианты Instruct и Thinking
Чат
HF
API
#vlm
Qwen забрасывает нас обновками.
Qwen3-VL-32B превосходит GPT-5 mini и Claude 4 Sonnet по производительности в STEM, VQA, распознавании текста, понимании видео, задачах агентов и многом другом.
Всего в 32B параметров, на уровне моделей с 235B (даже превосходя их в OSWorld!)
Доступны версии FP8
Доступны варианты Instruct и Thinking
Чат
HF
API
#vlm
🔥13👍1
ComfyUI 0.3.66
В версии ComfyUI 0.3.66 два основных обновления:
1. Панель параметров подграфа (Subgraph Parameter Panel). Теперь можно редактировать виджеты, не заходя внутрь подграфов.
2. Переработанная библиотека шаблонов (Template Library). Обновлённый интерфейс позволяет быстрее находить нужные шаблоны благодаря множеству фильтров. Теперь доступны следующие способы фильтрации и сортировки:
- по модели
- по варианту использования
- по лицензии (бесплатная или платная)
- сортировка по новизне, умолчанию, размеру модели, по алфавиту
Сортировка по VRAM пока поддерживается не полностью, но в ближайшее время эта функция будет обновлена.
#ComfyUI
В версии ComfyUI 0.3.66 два основных обновления:
1. Панель параметров подграфа (Subgraph Parameter Panel). Теперь можно редактировать виджеты, не заходя внутрь подграфов.
2. Переработанная библиотека шаблонов (Template Library). Обновлённый интерфейс позволяет быстрее находить нужные шаблоны благодаря множеству фильтров. Теперь доступны следующие способы фильтрации и сортировки:
- по модели
- по варианту использования
- по лицензии (бесплатная или платная)
- сортировка по новизне, умолчанию, размеру модели, по алфавиту
Сортировка по VRAM пока поддерживается не полностью, но в ближайшее время эта функция будет обновлена.
#ComfyUI
❤10🍾2
Media is too big
VIEW IN TELEGRAM
UltraGen: High-Resolution Video Generation with Hierarchical Attention
Видеогенератор 4K, масштабирует предварительно обученные модели с низким разрешением/
В исследовании масштабировали Wan-T2V-1.3B
Кода нет, так чисто посмотреть
#text2video #research
Видеогенератор 4K, масштабирует предварительно обученные модели с низким разрешением/
В исследовании масштабировали Wan-T2V-1.3B
Кода нет, так чисто посмотреть
#text2video #research
👍4👀3
This media is not supported in your browser
VIEW IN TELEGRAM
Suno.ai V4.5
Выдали всем бесплатно, по несколько генераций в день
Бонусом еще два минутных трека на v5
#news #text2music
Выдали всем бесплатно, по несколько генераций в день
Бонусом еще два минутных трека на v5
#news #text2music
👍11❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Video-As-Prompt: Unified Semantic Control for Video Generation
Видеогенератор использует видео как пропмт, создавая видео, семантически согласованные с референсами
— создаёт видео с одинаковой семантикой при разных референсных видео и одинаковых изображениях
— переносит семантику (концепцию, стиль, движение, ракурс камеры) с референсного видео на разные изображения
— сохраняет семантику и идентичность при корректировке мелких атрибутов с помощью промпта
— генерирует видео с определёнными концепциями
— создаёт видео в заданном стиле
— воспроизводит заданные движения и стили танца
— имитирует различные движения камеры, включая сложные, вроде дolly zoom (эффекта Хичкока)
Код
HF - прикрутили к WAN2.114B и CogVideox-5B
#referencing #text2video #video2video
Видеогенератор использует видео как пропмт, создавая видео, семантически согласованные с референсами
— создаёт видео с одинаковой семантикой при разных референсных видео и одинаковых изображениях
— переносит семантику (концепцию, стиль, движение, ракурс камеры) с референсного видео на разные изображения
— сохраняет семантику и идентичность при корректировке мелких атрибутов с помощью промпта
— генерирует видео с определёнными концепциями
— создаёт видео в заданном стиле
— воспроизводит заданные движения и стили танца
— имитирует различные движения камеры, включая сложные, вроде дolly zoom (эффекта Хичкока)
Код
HF - прикрутили к WAN2.114B и CogVideox-5B
#referencing #text2video #video2video
👍5❤3🔥1
Media is too big
VIEW IN TELEGRAM
Stable Video Infinity: Infinite-Length Video Generation with Error Recycling
И еще один костыль для увеличения сами знаете чего -хронометража генерируемого видео
SVI создает видео любой длины с высокой временной согласованностью, правдоподобными переходами между сценами и управляемыми сюжетными линиями
Базовая модель — Wan 2.1 14B
Ждем версию Wan 2.2-5B-SVI
Код
HF
спасибо @m_franz
#longvideo #text2video #image2video
И еще один костыль для увеличения сами знаете чего -
SVI создает видео любой длины с высокой временной согласованностью, правдоподобными переходами между сценами и управляемыми сюжетными линиями
Базовая модель — Wan 2.1 14B
Ждем версию Wan 2.2-5B-SVI
Код
HF
спасибо @m_franz
#longvideo #text2video #image2video
👍9
BoldVoice Accent Oracle
Онлайн определятор акцента в английском языке.
Давно не говорил на ангельском, у меня явный русский акцент
Сможете обмануть его?
#misc #online #speech
Онлайн определятор акцента в английском языке.
Давно не говорил на ангельском, у меня явный русский акцент
Сможете обмануть его?
#misc #online #speech
😁6👍2
Закинул видео своего медведя на реконструкцию в HunyuanWorld-Mirror по 24 отобранным кадрам
Гауссова сцена далека от идеала, на меш интереснее смотреть. Надо увеличивать количество ракурсов.
Закину гауссианы и меш в комменты для интересующихся
#videoto3d #video2scene #gaussian #imageto3d #image2scene #video2gaussian #video2normal #video2depth #image2normal #image2depth
Гауссова сцена далека от идеала, на меш интереснее смотреть. Надо увеличивать количество ракурсов.
Закину гауссианы и меш в комменты для интересующихся
#videoto3d #video2scene #gaussian #imageto3d #image2scene #video2gaussian #video2normal #video2depth #image2normal #image2depth
❤4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Claude Desktop
Десктопный ИИ-ассистент от Anthropic раздали всем, а то ишь, Атлас отбивает аудиторию
#MacOS / #Windows
#desktop #assistant
Десктопный ИИ-ассистент от Anthropic раздали всем, а то ишь, Атлас отбивает аудиторию
#MacOS / #Windows
#desktop #assistant
🥴9👍4👎1
Маркетолог с АЭС, который учит алгоритмы вместо ядерной физики
Сегодня расскажу про канал Коли Романцова.
Парень работал на атомной электростанции, а потом резко свалил в SEO. От расщепления атома к расщеплению алгоритмов Яндекса — неплохо придумал.
Говорит, что на АЭС жил будто не своей жизнью. Пока не понял, что его призвание — поисковая оптимизация.
Что у парня в активе:
– 84 видео на YouTube
– 23 000+ просмотров статей на vc
– Тысячи подписчиков в узком SEO-канале @marketing_nikolay
– Собственное расширение для Chrome для аудита конкурентов
Самое крутое — он подходит к SEO как инженер. Никаких «магических методов». Разбирает алгоритмы как код и запустил свою инфраструктуру для работы с поведенческими факторами на собственном железе
Пока другие продают «накрутку ссылок за 30 тысяч», Коля строит нормальные технические решения. Редкость на нашем рынке, если честно
Такие дела. Если нужен органический трафик или хотите понять, как работают алгоритмы — читайте @marketing_nikolay
#промо
Сегодня расскажу про канал Коли Романцова.
Парень работал на атомной электростанции, а потом резко свалил в SEO. От расщепления атома к расщеплению алгоритмов Яндекса — неплохо придумал.
Говорит, что на АЭС жил будто не своей жизнью. Пока не понял, что его призвание — поисковая оптимизация.
Что у парня в активе:
– 84 видео на YouTube
– 23 000+ просмотров статей на vc
– Тысячи подписчиков в узком SEO-канале @marketing_nikolay
– Собственное расширение для Chrome для аудита конкурентов
Самое крутое — он подходит к SEO как инженер. Никаких «магических методов». Разбирает алгоритмы как код и запустил свою инфраструктуру для работы с поведенческими факторами на собственном железе
Пока другие продают «накрутку ссылок за 30 тысяч», Коля строит нормальные технические решения. Редкость на нашем рынке, если честно
Такие дела. Если нужен органический трафик или хотите понять, как работают алгоритмы — читайте @marketing_nikolay
#промо
🥴7👍3👎3🔥2❤1
BLIP3o-NEXT: Advanced Multimodal Foundation Model
Мультимодальная модель, развитие BLIP3o
Гибрид авторегресси и диффузии
Генератор / пониматор картинок от Salesforce
Улучшенное соответствие подсказкам и точность рендеринга текста за счет обучения с подкреплением по методу GRPO
Хорошо справляется с задачами, требующими пространственной структуры (например, рендеринг текста или генерация нескольких объектов
Гитхаб
HF - там целый зоопарк от 3B до 8B
#text2image #image2text #multimodal #ar #captioning
Мультимодальная модель, развитие BLIP3o
Гибрид авторегресси и диффузии
Генератор / пониматор картинок от Salesforce
Улучшенное соответствие подсказкам и точность рендеринга текста за счет обучения с подкреплением по методу GRPO
Хорошо справляется с задачами, требующими пространственной структуры (например, рендеринг текста или генерация нескольких объектов
Гитхаб
HF - там целый зоопарк от 3B до 8B
#text2image #image2text #multimodal #ar #captioning
👍5❤1
когда твоя девушка работала через AWS
контекст:
на днях полег облачный сервис AWS прихватив с собой полмира, включая не только крупнейшие сайты, но и умные матрасы . И это на фоне сообщения о том что Amazon якобы заменил 40% DevOps-инженеров AWS искусственным интеллектом за несколько дней до сбоя
#humor
на днях полег облачный сервис AWS прихватив с собой полмира, включая
#humor
😁18🤷♂2
