savostyanov_dmitry 583 Telegram Group

Дмитрий Савостьянов Вещает

Анализ видео на GPT-4o Давненько я вам ничего не писал. Исправим это недоразумение. Ездил пару недель назад в Лос-Анджелес к своим америкосам, с которыми делаем проект text-to-motion — генерация анимаций для игровых персонажей по текстовому описанию. Там…

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

Portland и Style Transfer

На прошлой неделе снова катался в Штаты. В этот раз заехал не только в ЛА, но и побывал в Портленде, штат Орегон. Очень зеленый на контрасте с ЛА, много деревьев и кустов. Архитектура приятнее, сам город меньше, можно даже пешком ходить. В этом смысле город более европейский. Но есть нюанс, что из-за небольшого размера плотность бомжей на квадратный метр выше и это слегка режет глаз.

Так вот сидели мы в Портленде в баре, обсуждали text-to-motion, он все еще недостаточно хорошо слушается промтпа. Сошлись на том, что до конца года мужики будут активно потеть в mocap-костюмах, чтобы увеличить разнообразие и качество датасета, а ML-челы пока займутся задачей style transfer.

Идея в том, что в Unreal Engine 5 завезли motion matching для генерации анимаций в Runtime. Чтобы MM неплохо работал нужно порядка 500 анимаций в стиле игры. Что если записать 500 движений в neutral style в mocap, а от игр брать небольшой набор по 20-50 стилизованных анимаций и генерировать весь MM-pack? Мысль показалась здравой, решили копнуть.

610 views06:35

Дмитрий Савостьянов Вещает

Читаю статьи про Style Transfer

Зашел из далека и начал с AutoVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss, Kaizhi Qian et al., 2019 — статья про замену голоса, когда вы говорите своим обычным голосом, а на выходе получаете ту же фразу, но голосом условного Бреда Питта.

Почему speech conversion, когда я занимаюсь human motion? Потому что движение человека определяется вращением его суставов во времени. Многие движения состоят из периодичных компонент, например, когда человек идет вперед, он с некоторым периодом перебирает ногами и размахивает руками. Walk forward angry отличается от walk forward neutral частотой вращения в плечах, изгибом локтей и позвоночника, амплитудой движения. Все это наводит на мысли про синусы, косинусы, преобразование Фурье, которыми хорошо умеют пользоваться звукари. В задаче преобразования голоса гораздо легче чем в human motion собирать данные, а где данные там речерчеры и идеи.

Почему 2019 год? Захотелось изучить ход мысли в индустрии, какие проблемы решались и какими методами. Плюс 5 лет назад датасеты были сильно меньше, поэтому архитектуры могут оказаться применимыми в human motion, где данных мало и по сей день.

Теперь кратко про саму статью AutoVC. Они используют автоэнкодер (CVAE). Речь разбивается на две компоненты: content — условно последовательность фонем, передающая смысл, и style — характеристики голоса.

Для выделения style взяли предобученную модель верификации голоса. Там идея в том, чтобы фразе поставить в соответствие эмбединг. Затем для фраз одного спикера минимизировать расстояния между эмбедингами, а для разных спикеров — максимизировать. Называют это GE2E-loss.

CVAE устроен таким образом, что есть контент-энкодер (берет на вход вашу фразу) и стиль-энкодер (берет фразу условного Бреда Питта). На инференсе они создают эмбединг с замененным стилем, который дальше расшифровывает декодер. Учится модель на обычном reconstruction loss, но контент и стили разных спикеров не миксуют. Идея в том, что модель выделения стиля уже обучена, нужно только контент выучить.

Под капотом mel-спектрограммы, свертки и винтажный LSTM. В статье даже доказывают теоремы и показывают как правильно выбрать размерность latent space в CVAE для их задачи.

Достаточно простая архитектура, понятные идеи под капотом, выглядит привлекательно. Но с точки зрения character animation есть наитие, что вероятностная природа VAE будет выдавать нереалистичные человеческие движения по аналогии с блюром при реконструкции изображений. Интуитивно хочется сделать апгрейд до VQ-VAE или накинуть какой-нибудь дискриминатор.

https://arxiv.org/pdf/1905.05879

575 viewsedited 09:44

Дмитрий Савостьянов Вещает

Про VQ-VAE и стероиды

В задаче text-to-motion мы используем связку VQ-VAE + LLM, где VQ-VAE снижает временную размерность анимации, превращая условные 64 keyframes с 100+ фичей для разных суставов в небольшую последовательность текстовых токенов <m21><m345>…<m9>. LLM в свою очередь трактует эти токены как новый язык и учится переводить промпт с английского на “анимационный” и обратно.

Так вот чтобы эта связка работала, нужен VQ-VAE очень хорошего качества, который сможет эффективно кодировать движения в короткие последовательности и при этом не вносить артефакты, когда ноги скользят по земле или ходят по воздуху, а позвоночник колеблется из стороны в сторону как колбаса.

Вчера прочитал статью про WavTokenizer — квантизация аудио. Сложилось ощущение, что чуваки обкололи VQ-VAE стероидами:

- LSTM в энкодере
- Attention и Фурье вместо dilated Conv1D в декодере
- Куча дискриминаторов в loss, которые по сути превращают архитектуру в VQ-GAN
- k-means инициализации codebook и техники по предотвращению мертвых токенов

Красота. Надо будет потестить.

Статью подсмотрел здесь: https://www.group-telegram.com/abstractDL/298

AbstractDL

WavTokenizer: SOTA токенизатор аудио

Кажется, это прорыв. Ему хватает всего 75 токенов в секунду, чтобы поставить рекорд в качестве реконструкции речи. При этом всё работает довольно сносно и для 45 ток/с. Предыдущие решения даже близко не стояли!

Как авторам…

660 views15:25

Дмитрий Савостьянов Вещает

Читать статьи — лучшая часть работы в ML. Лежишь целый день на диване и зарабатываешь $300k в секунду.

694 views18:15

Дмитрий Савостьянов Вещает

528 views05:30

Дмитрий Савостьянов Вещает

Переехал в Лос-Анджелес

Неделю назад приехал с семьей в ЛА. Наконец-то тепло, заебал холод. Шел к этому много лет — держите кулстори.

В октябре 2018 года мы с женой переехали из Москвы в Вильнюс, Литва, вместе с компанией GOSU Data Lab (gosu .ai), где я работал ML Engineer’ом. Тогда это было очень хорошим вариантом, потому что за час можно долететь до Шереметьево с одной стороны и за 30 евро — до Парижа с другой.

Я всегда воспринимал Вильнюс как перевалочный пункт и не планировал там долго оставаться. Но в начале 2020 года (полтора года после переезда) случился Covid-19. Локдауны, летать по Европе стало сложно, сидим дома, рубимся в Counter-Strike. Дошли до того, что я иду к 10 lvl Faceit, а жена бегала с двумя калашами — там и до глобала недалеко.

Слово за слово, х*ем по столу, мы заделали дочку. Она родилась в октябре 2021 года. К тому моменту компанию GOSU купил Сбер за много миллионов долларов и затеял SberGames. Я обзавелся статусом директора по AI, команда выросла до 20+ человек, на подходе виднелись ChatGPT и Stable Diffusion. Жизнь била ключом: сняли красивую квартиру с двориком, где в любую свободную минуту я загорал с пивасиком.

В феврале 2022 случилась так называемая СВО, на что я сказал: «Всем спасибо, до свидания». Это был трудный момент, так как я решил обнулить карьеру и начать работать на английском языке. Вернулся к работе руками, снова устроился Data Scientist / ML Engineer’ом.

В мае 2022 года решил попробовать переехать в Штаты и подписал договор с юристами. Год торговал лицом: делал стартап, ходил по конференциям, писал статьи, сидел в жюри, наводил суету. Летом 2023 стало понятно, что на стартап у меня недостаточно ресурсов, а вот на О-1 визу накопилось достаточно доказательств.

В июле 2023 сел готовиться к собеседованиям и через 40 дней вышел на работу в американскую компанию — повезло. Обычно на этот процесс стоит закладывать 3-6 месяцев при наличии хорошего бэкграунда. К ноябрю был готов мой О-1 кейс, в январе его одобрило USCIS, а в феврале я пошел в посольство в Литве и получил админпроверку, которая длится по сей день, уже более полугода.

К счастью, до подачи на О-1 я оформил туристическую визу на несколько лет на всю семью. В течение 2023–2024 годов каждые 3 месяца я ездил в США на онсайты по работе: 24 часа летишь в экономе с пересадками, работаешь 4 дня нон-стоп, в конце — 24 часа летишь обратно. Было тяжело, но я летал один, поэтому каждый раз воспринимал это как приключение.

Летом 2024 начал обновлять ВНЖ в Литве. Мне и дочке дали за пару недель. Жене в середине октября пришло письмо, что она на доп. проверке — за 2 недели до дня рождения и за 3 до окончания ее ВНЖ. А поскольку Литва больше не дает визу ожидания, нам нужно было выезжать из страны. Жизнь в очередной раз подталкивала, и мы решили двинуть в Штаты. Раздали почти все вещи, взяли 3 чемодана и полетели.

Приехали по туристической визе, подготовили тонну документов, купили билет из США в Мексику, чтобы нас не заподозрили, что планируем остаться, и нас пустили через границу. Живем в Лос-Анджелесе в доме у CEO стартапа, где я работаю — повезло? За первую неделю открыли счет в банке, купили машину и сняли квартиру в Ирвайне с бассейном.

На следующей неделе будем переезжать, а через месяц подаваться на смену статуса с туристического на О-1. Надеюсь, мы успеем легализоваться до того, как Трамп начнет вставлять палки в колеса, или закончатся деньги.

Такая вот кулстори. В процессе было непросто, приходилось много работать. Сейчас опять, видимо, придется много работать. Зато солнышко и миллиардные оценки стартапов. Есть шанс, что дальше будет лучше)

757 viewsedited 05:31

Дмитрий Савостьянов Вещает

Снял квартиру

Теперь у меня дома Калифорнийский вайб. Тут в моде Radical Simplicity. Я начал понимать откуда ноги растут

685 views19:00

Дмитрий Савостьянов Вещает

Forwarded from эйай ньюз

1:24

This media is not supported in your browser

VIEW IN TELEGRAM

Hunyuan Video - новый опенсорс 13B видео генератор от Tencent

Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.

Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.

По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.

Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.

В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.

Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.

Статья занятная, стоит прочитать в деталях.

Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.

Демка (нужен китайский номер)
Веса
Пейпер

@ai_newz

380 views01:42

Дмитрий Савостьянов Вещает

Forwarded from GPT/ChatGPT/AI Central Александра Горного