Дмитрий Савостьянов Вещает
Анализ видео на GPT-4o Давненько я вам ничего не писал. Исправим это недоразумение. Ездил пару недель назад в Лос-Анджелес к своим америкосам, с которыми делаем проект text-to-motion — генерация анимаций для игровых персонажей по текстовому описанию. Там…
Portland и Style Transfer
На прошлой неделе снова катался в Штаты. В этот раз заехал не только в ЛА, но и побывал в Портленде, штат Орегон. Очень зеленый на контрасте с ЛА, много деревьев и кустов. Архитектура приятнее, сам город меньше, можно даже пешком ходить. В этом смысле город более европейский. Но есть нюанс, что из-за небольшого размера плотность бомжей на квадратный метр выше и это слегка режет глаз.
Так вот сидели мы в Портленде в баре, обсуждали text-to-motion, он все еще недостаточно хорошо слушается промтпа. Сошлись на том, что до конца года мужики будут активно потеть в mocap-костюмах, чтобы увеличить разнообразие и качество датасета, а ML-челы пока займутся задачей style transfer.
Идея в том, что в Unreal Engine 5 завезли motion matching для генерации анимаций в Runtime. Чтобы MM неплохо работал нужно порядка 500 анимаций в стиле игры. Что если записать 500 движений в neutral style в mocap, а от игр брать небольшой набор по 20-50 стилизованных анимаций и генерировать весь MM-pack? Мысль показалась здравой, решили копнуть.
На прошлой неделе снова катался в Штаты. В этот раз заехал не только в ЛА, но и побывал в Портленде, штат Орегон. Очень зеленый на контрасте с ЛА, много деревьев и кустов. Архитектура приятнее, сам город меньше, можно даже пешком ходить. В этом смысле город более европейский. Но есть нюанс, что из-за небольшого размера плотность бомжей на квадратный метр выше и это слегка режет глаз.
Так вот сидели мы в Портленде в баре, обсуждали text-to-motion, он все еще недостаточно хорошо слушается промтпа. Сошлись на том, что до конца года мужики будут активно потеть в mocap-костюмах, чтобы увеличить разнообразие и качество датасета, а ML-челы пока займутся задачей style transfer.
Идея в том, что в Unreal Engine 5 завезли motion matching для генерации анимаций в Runtime. Чтобы MM неплохо работал нужно порядка 500 анимаций в стиле игры. Что если записать 500 движений в neutral style в mocap, а от игр брать небольшой набор по 20-50 стилизованных анимаций и генерировать весь MM-pack? Мысль показалась здравой, решили копнуть.
Читаю статьи про Style Transfer
Зашел из далека и начал с AutoVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss, Kaizhi Qian et al., 2019 — статья про замену голоса, когда вы говорите своим обычным голосом, а на выходе получаете ту же фразу, но голосом условного Бреда Питта.
Почему speech conversion, когда я занимаюсь human motion? Потому что движение человека определяется вращением его суставов во времени. Многие движения состоят из периодичных компонент, например, когда человек идет вперед, он с некоторым периодом перебирает ногами и размахивает руками. Walk forward angry отличается от walk forward neutral частотой вращения в плечах, изгибом локтей и позвоночника, амплитудой движения. Все это наводит на мысли про синусы, косинусы, преобразование Фурье, которыми хорошо умеют пользоваться звукари. В задаче преобразования голоса гораздо легче чем в human motion собирать данные, а где данные там речерчеры и идеи.
Почему 2019 год? Захотелось изучить ход мысли в индустрии, какие проблемы решались и какими методами. Плюс 5 лет назад датасеты были сильно меньше, поэтому архитектуры могут оказаться применимыми в human motion, где данных мало и по сей день.
Теперь кратко про саму статью AutoVC. Они используют автоэнкодер (CVAE). Речь разбивается на две компоненты: content — условно последовательность фонем, передающая смысл, и style — характеристики голоса.
Для выделения style взяли предобученную модель верификации голоса. Там идея в том, чтобы фразе поставить в соответствие эмбединг. Затем для фраз одного спикера минимизировать расстояния между эмбедингами, а для разных спикеров — максимизировать. Называют это GE2E-loss.
CVAE устроен таким образом, что есть контент-энкодер (берет на вход вашу фразу) и стиль-энкодер (берет фразу условного Бреда Питта). На инференсе они создают эмбединг с замененным стилем, который дальше расшифровывает декодер. Учится модель на обычном reconstruction loss, но контент и стили разных спикеров не миксуют. Идея в том, что модель выделения стиля уже обучена, нужно только контент выучить.
Под капотом mel-спектрограммы, свертки и винтажный LSTM. В статье даже доказывают теоремы и показывают как правильно выбрать размерность latent space в CVAE для их задачи.
Достаточно простая архитектура, понятные идеи под капотом, выглядит привлекательно. Но с точки зрения character animation есть наитие, что вероятностная природа VAE будет выдавать нереалистичные человеческие движения по аналогии с блюром при реконструкции изображений. Интуитивно хочется сделать апгрейд до VQ-VAE или накинуть какой-нибудь дискриминатор.
https://arxiv.org/pdf/1905.05879
Зашел из далека и начал с AutoVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss, Kaizhi Qian et al., 2019 — статья про замену голоса, когда вы говорите своим обычным голосом, а на выходе получаете ту же фразу, но голосом условного Бреда Питта.
Почему speech conversion, когда я занимаюсь human motion? Потому что движение человека определяется вращением его суставов во времени. Многие движения состоят из периодичных компонент, например, когда человек идет вперед, он с некоторым периодом перебирает ногами и размахивает руками. Walk forward angry отличается от walk forward neutral частотой вращения в плечах, изгибом локтей и позвоночника, амплитудой движения. Все это наводит на мысли про синусы, косинусы, преобразование Фурье, которыми хорошо умеют пользоваться звукари. В задаче преобразования голоса гораздо легче чем в human motion собирать данные, а где данные там речерчеры и идеи.
Почему 2019 год? Захотелось изучить ход мысли в индустрии, какие проблемы решались и какими методами. Плюс 5 лет назад датасеты были сильно меньше, поэтому архитектуры могут оказаться применимыми в human motion, где данных мало и по сей день.
Теперь кратко про саму статью AutoVC. Они используют автоэнкодер (CVAE). Речь разбивается на две компоненты: content — условно последовательность фонем, передающая смысл, и style — характеристики голоса.
Для выделения style взяли предобученную модель верификации голоса. Там идея в том, чтобы фразе поставить в соответствие эмбединг. Затем для фраз одного спикера минимизировать расстояния между эмбедингами, а для разных спикеров — максимизировать. Называют это GE2E-loss.
CVAE устроен таким образом, что есть контент-энкодер (берет на вход вашу фразу) и стиль-энкодер (берет фразу условного Бреда Питта). На инференсе они создают эмбединг с замененным стилем, который дальше расшифровывает декодер. Учится модель на обычном reconstruction loss, но контент и стили разных спикеров не миксуют. Идея в том, что модель выделения стиля уже обучена, нужно только контент выучить.
Под капотом mel-спектрограммы, свертки и винтажный LSTM. В статье даже доказывают теоремы и показывают как правильно выбрать размерность latent space в CVAE для их задачи.
Достаточно простая архитектура, понятные идеи под капотом, выглядит привлекательно. Но с точки зрения character animation есть наитие, что вероятностная природа VAE будет выдавать нереалистичные человеческие движения по аналогии с блюром при реконструкции изображений. Интуитивно хочется сделать апгрейд до VQ-VAE или накинуть какой-нибудь дискриминатор.
https://arxiv.org/pdf/1905.05879
Про VQ-VAE и стероиды
В задаче text-to-motion мы используем связку VQ-VAE + LLM, где VQ-VAE снижает временную размерность анимации, превращая условные 64 keyframes с 100+ фичей для разных суставов в небольшую последовательность текстовых токенов <m21><m345>…<m9>. LLM в свою очередь трактует эти токены как новый язык и учится переводить промпт с английского на “анимационный” и обратно.
Так вот чтобы эта связка работала, нужен VQ-VAE очень хорошего качества, который сможет эффективно кодировать движения в короткие последовательности и при этом не вносить артефакты, когда ноги скользят по земле или ходят по воздуху, а позвоночник колеблется из стороны в сторону как колбаса.
Вчера прочитал статью про WavTokenizer — квантизация аудио. Сложилось ощущение, что чуваки обкололи VQ-VAE стероидами:
- LSTM в энкодере
- Attention и Фурье вместо dilated Conv1D в декодере
- Куча дискриминаторов в loss, которые по сути превращают архитектуру в VQ-GAN
- k-means инициализации codebook и техники по предотвращению мертвых токенов
Красота. Надо будет потестить.
Статью подсмотрел здесь: https://www.group-telegram.com/abstractDL/298
В задаче text-to-motion мы используем связку VQ-VAE + LLM, где VQ-VAE снижает временную размерность анимации, превращая условные 64 keyframes с 100+ фичей для разных суставов в небольшую последовательность текстовых токенов <m21><m345>…<m9>. LLM в свою очередь трактует эти токены как новый язык и учится переводить промпт с английского на “анимационный” и обратно.
Так вот чтобы эта связка работала, нужен VQ-VAE очень хорошего качества, который сможет эффективно кодировать движения в короткие последовательности и при этом не вносить артефакты, когда ноги скользят по земле или ходят по воздуху, а позвоночник колеблется из стороны в сторону как колбаса.
Вчера прочитал статью про WavTokenizer — квантизация аудио. Сложилось ощущение, что чуваки обкололи VQ-VAE стероидами:
- LSTM в энкодере
- Attention и Фурье вместо dilated Conv1D в декодере
- Куча дискриминаторов в loss, которые по сути превращают архитектуру в VQ-GAN
- k-means инициализации codebook и техники по предотвращению мертвых токенов
Красота. Надо будет потестить.
Статью подсмотрел здесь: https://www.group-telegram.com/abstractDL/298
Telegram
AbstractDL
WavTokenizer: SOTA токенизатор аудио
Кажется, это прорыв. Ему хватает всего 75 токенов в секунду, чтобы поставить рекорд в качестве реконструкции речи. При этом всё работает довольно сносно и для 45 ток/с. Предыдущие решения даже близко не стояли!
Как авторам…
Кажется, это прорыв. Ему хватает всего 75 токенов в секунду, чтобы поставить рекорд в качестве реконструкции речи. При этом всё работает довольно сносно и для 45 ток/с. Предыдущие решения даже близко не стояли!
Как авторам…
Читать статьи — лучшая часть работы в ML. Лежишь целый день на диване и зарабатываешь $300k в секунду.
Переехал в Лос-Анджелес
Неделю назад приехал с семьей в ЛА. Наконец-то тепло, заебал холод. Шел к этому много лет — держите кулстори.
В октябре 2018 года мы с женой переехали из Москвы в Вильнюс, Литва, вместе с компанией GOSU Data Lab (gosu .ai), где я работал ML Engineer’ом. Тогда это было очень хорошим вариантом, потому что за час можно долететь до Шереметьево с одной стороны и за 30 евро — до Парижа с другой.
Я всегда воспринимал Вильнюс как перевалочный пункт и не планировал там долго оставаться. Но в начале 2020 года (полтора года после переезда) случился Covid-19. Локдауны, летать по Европе стало сложно, сидим дома, рубимся в Counter-Strike. Дошли до того, что я иду к 10 lvl Faceit, а жена бегала с двумя калашами — там и до глобала недалеко.
Слово за слово, х*ем по столу, мы заделали дочку. Она родилась в октябре 2021 года. К тому моменту компанию GOSU купил Сбер за много миллионов долларов и затеял SberGames. Я обзавелся статусом директора по AI, команда выросла до 20+ человек, на подходе виднелись ChatGPT и Stable Diffusion. Жизнь била ключом: сняли красивую квартиру с двориком, где в любую свободную минуту я загорал с пивасиком.
В феврале 2022 случилась так называемая СВО, на что я сказал: «Всем спасибо, до свидания». Это был трудный момент, так как я решил обнулить карьеру и начать работать на английском языке. Вернулся к работе руками, снова устроился Data Scientist / ML Engineer’ом.
В мае 2022 года решил попробовать переехать в Штаты и подписал договор с юристами. Год торговал лицом: делал стартап, ходил по конференциям, писал статьи, сидел в жюри, наводил суету. Летом 2023 стало понятно, что на стартап у меня недостаточно ресурсов, а вот на О-1 визу накопилось достаточно доказательств.
В июле 2023 сел готовиться к собеседованиям и через 40 дней вышел на работу в американскую компанию — повезло. Обычно на этот процесс стоит закладывать 3-6 месяцев при наличии хорошего бэкграунда. К ноябрю был готов мой О-1 кейс, в январе его одобрило USCIS, а в феврале я пошел в посольство в Литве и получил админпроверку, которая длится по сей день, уже более полугода.
К счастью, до подачи на О-1 я оформил туристическую визу на несколько лет на всю семью. В течение 2023–2024 годов каждые 3 месяца я ездил в США на онсайты по работе: 24 часа летишь в экономе с пересадками, работаешь 4 дня нон-стоп, в конце — 24 часа летишь обратно. Было тяжело, но я летал один, поэтому каждый раз воспринимал это как приключение.
Летом 2024 начал обновлять ВНЖ в Литве. Мне и дочке дали за пару недель. Жене в середине октября пришло письмо, что она на доп. проверке — за 2 недели до дня рождения и за 3 до окончания ее ВНЖ. А поскольку Литва больше не дает визу ожидания, нам нужно было выезжать из страны. Жизнь в очередной раз подталкивала, и мы решили двинуть в Штаты. Раздали почти все вещи, взяли 3 чемодана и полетели.
Приехали по туристической визе, подготовили тонну документов, купили билет из США в Мексику, чтобы нас не заподозрили, что планируем остаться, и нас пустили через границу. Живем в Лос-Анджелесе в доме у CEO стартапа, где я работаю — повезло? За первую неделю открыли счет в банке, купили машину и сняли квартиру в Ирвайне с бассейном.
На следующей неделе будем переезжать, а через месяц подаваться на смену статуса с туристического на О-1. Надеюсь, мы успеем легализоваться до того, как Трамп начнет вставлять палки в колеса, или закончатся деньги.
Такая вот кулстори. В процессе было непросто, приходилось много работать. Сейчас опять, видимо, придется много работать. Зато солнышко и миллиардные оценки стартапов. Есть шанс, что дальше будет лучше)
Неделю назад приехал с семьей в ЛА. Наконец-то тепло, заебал холод. Шел к этому много лет — держите кулстори.
В октябре 2018 года мы с женой переехали из Москвы в Вильнюс, Литва, вместе с компанией GOSU Data Lab (gosu .ai), где я работал ML Engineer’ом. Тогда это было очень хорошим вариантом, потому что за час можно долететь до Шереметьево с одной стороны и за 30 евро — до Парижа с другой.
Я всегда воспринимал Вильнюс как перевалочный пункт и не планировал там долго оставаться. Но в начале 2020 года (полтора года после переезда) случился Covid-19. Локдауны, летать по Европе стало сложно, сидим дома, рубимся в Counter-Strike. Дошли до того, что я иду к 10 lvl Faceit, а жена бегала с двумя калашами — там и до глобала недалеко.
Слово за слово, х*ем по столу, мы заделали дочку. Она родилась в октябре 2021 года. К тому моменту компанию GOSU купил Сбер за много миллионов долларов и затеял SberGames. Я обзавелся статусом директора по AI, команда выросла до 20+ человек, на подходе виднелись ChatGPT и Stable Diffusion. Жизнь била ключом: сняли красивую квартиру с двориком, где в любую свободную минуту я загорал с пивасиком.
В феврале 2022 случилась так называемая СВО, на что я сказал: «Всем спасибо, до свидания». Это был трудный момент, так как я решил обнулить карьеру и начать работать на английском языке. Вернулся к работе руками, снова устроился Data Scientist / ML Engineer’ом.
В мае 2022 года решил попробовать переехать в Штаты и подписал договор с юристами. Год торговал лицом: делал стартап, ходил по конференциям, писал статьи, сидел в жюри, наводил суету. Летом 2023 стало понятно, что на стартап у меня недостаточно ресурсов, а вот на О-1 визу накопилось достаточно доказательств.
В июле 2023 сел готовиться к собеседованиям и через 40 дней вышел на работу в американскую компанию — повезло. Обычно на этот процесс стоит закладывать 3-6 месяцев при наличии хорошего бэкграунда. К ноябрю был готов мой О-1 кейс, в январе его одобрило USCIS, а в феврале я пошел в посольство в Литве и получил админпроверку, которая длится по сей день, уже более полугода.
К счастью, до подачи на О-1 я оформил туристическую визу на несколько лет на всю семью. В течение 2023–2024 годов каждые 3 месяца я ездил в США на онсайты по работе: 24 часа летишь в экономе с пересадками, работаешь 4 дня нон-стоп, в конце — 24 часа летишь обратно. Было тяжело, но я летал один, поэтому каждый раз воспринимал это как приключение.
Летом 2024 начал обновлять ВНЖ в Литве. Мне и дочке дали за пару недель. Жене в середине октября пришло письмо, что она на доп. проверке — за 2 недели до дня рождения и за 3 до окончания ее ВНЖ. А поскольку Литва больше не дает визу ожидания, нам нужно было выезжать из страны. Жизнь в очередной раз подталкивала, и мы решили двинуть в Штаты. Раздали почти все вещи, взяли 3 чемодана и полетели.
Приехали по туристической визе, подготовили тонну документов, купили билет из США в Мексику, чтобы нас не заподозрили, что планируем остаться, и нас пустили через границу. Живем в Лос-Анджелесе в доме у CEO стартапа, где я работаю — повезло? За первую неделю открыли счет в банке, купили машину и сняли квартиру в Ирвайне с бассейном.
На следующей неделе будем переезжать, а через месяц подаваться на смену статуса с туристического на О-1. Надеюсь, мы успеем легализоваться до того, как Трамп начнет вставлять палки в колеса, или закончатся деньги.
Такая вот кулстори. В процессе было непросто, приходилось много работать. Сейчас опять, видимо, придется много работать. Зато солнышко и миллиардные оценки стартапов. Есть шанс, что дальше будет лучше)
Снял квартиру
Теперь у меня дома Калифорнийский вайб. Тут в моде Radical Simplicity. Я начал понимать откуда ноги растут
Теперь у меня дома Калифорнийский вайб. Тут в моде Radical Simplicity. Я начал понимать откуда ноги растут
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan Video - новый опенсорс 13B видео генератор от Tencent
Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.
Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.
По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.
Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.
В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.
Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.
Статья занятная, стоит прочитать в деталях.
Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.
Демка (нужен китайский номер)
Веса
Пейпер
@ai_newz
Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.
Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.
По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.
Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.
В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.
Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.
Статья занятная, стоит прочитать в деталях.
Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.
Демка (нужен китайский номер)
Веса
Пейпер
@ai_newz
Forwarded from GPT/ChatGPT/AI Central Александра Горного
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Google DeepMind показал модель Genie 2 для генерации трехмерных миров на основе текста
Пользователь может описать в тестовом промпте желаемый мир, задать визуальный стиль, и Genie 2 сгенерирует его на лету.
В отличие от многих аналогов, нейросеть Google DeepMind запоминает элементы окружения, которые не находятся в поле зрения пользователя. Благодаря этому, если отвернуться от объекта, а потом снова на него посмотреть, он будет выглядеть примерно также.
Также в DeepMind показали, как сгенерированные миры исследует автономный AI-агент SIMA. Разработчики считают, что такие нейросети как Genie 2 помогут безопасно обучать агентов и готовить их к действиям в реальном мире.
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
Пользователь может описать в тестовом промпте желаемый мир, задать визуальный стиль, и Genie 2 сгенерирует его на лету.
В отличие от многих аналогов, нейросеть Google DeepMind запоминает элементы окружения, которые не находятся в поле зрения пользователя. Благодаря этому, если отвернуться от объекта, а потом снова на него посмотреть, он будет выглядеть примерно также.
Также в DeepMind показали, как сгенерированные миры исследует автономный AI-агент SIMA. Разработчики считают, что такие нейросети как Genie 2 помогут безопасно обучать агентов и готовить их к действиям в реальном мире.
https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/