Telegram Group & Telegram Channel
Анализ видео на GPT-4o

Давненько я вам ничего не писал. Исправим это недоразумение.

Ездил пару недель назад в Лос-Анджелес к своим америкосам, с которыми делаем проект text-to-motion — генерация анимаций для игровых персонажей по текстовому описанию. Там мы придумали занятный метод, про который сейчас расскажу.

В промпт GPT-4o можно прикладывать картинки. Видео — последовательность картинок с ~30-120 кадрами в секунду. Так вот оказывается, если у вас есть короткие ролики по 1-3 секунды, которые нужно проанализировать, то можно сэмплировать их на пару десятков кадров, которые влезут в context window модели.

Так уж вышло, что для обучения хорошей text-to-motion модели вам нужно несколько вещей: видеокарты, ML-специалисты и данные. Если по первым двум пунктам все неплохо, то вот с данными мы буксовали. Мы записывали анимации с помощью motion capture, покупали ассет-паки в сторах, собирали из открытых источников, но везде сталкивались с тем, что помимо анимации нужна аннотация — описание того, что на этой анимации происходит.

Руками людей размечать выходило долго и дорого. Поэтому решили попробовать генерировать описания с помощью GPT, а силами людей оценивать качество и исправлять ошибки. В итоге ускорили процесс х100 и удешевили х10. Такая вот история.

Держите инструкцию по заведению шарманки: https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding



group-telegram.com/savostyanov_dmitry/553
Create:
Last Update:

Анализ видео на GPT-4o

Давненько я вам ничего не писал. Исправим это недоразумение.

Ездил пару недель назад в Лос-Анджелес к своим америкосам, с которыми делаем проект text-to-motion — генерация анимаций для игровых персонажей по текстовому описанию. Там мы придумали занятный метод, про который сейчас расскажу.

В промпт GPT-4o можно прикладывать картинки. Видео — последовательность картинок с ~30-120 кадрами в секунду. Так вот оказывается, если у вас есть короткие ролики по 1-3 секунды, которые нужно проанализировать, то можно сэмплировать их на пару десятков кадров, которые влезут в context window модели.

Так уж вышло, что для обучения хорошей text-to-motion модели вам нужно несколько вещей: видеокарты, ML-специалисты и данные. Если по первым двум пунктам все неплохо, то вот с данными мы буксовали. Мы записывали анимации с помощью motion capture, покупали ассет-паки в сторах, собирали из открытых источников, но везде сталкивались с тем, что помимо анимации нужна аннотация — описание того, что на этой анимации происходит.

Руками людей размечать выходило долго и дорого. Поэтому решили попробовать генерировать описания с помощью GPT, а силами людей оценивать качество и исправлять ошибки. В итоге ускорили процесс х100 и удешевили х10. Такая вот история.

Держите инструкцию по заведению шарманки: https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding

BY Дмитрий Савостьянов Вещает






Share with your friend now:
group-telegram.com/savostyanov_dmitry/553

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback.
from cn


Telegram Дмитрий Савостьянов Вещает
FROM American