Telegram Group & Telegram Channel
Анализ видео на GPT-4o

Давненько я вам ничего не писал. Исправим это недоразумение.

Ездил пару недель назад в Лос-Анджелес к своим америкосам, с которыми делаем проект text-to-motion — генерация анимаций для игровых персонажей по текстовому описанию. Там мы придумали занятный метод, про который сейчас расскажу.

В промпт GPT-4o можно прикладывать картинки. Видео — последовательность картинок с ~30-120 кадрами в секунду. Так вот оказывается, если у вас есть короткие ролики по 1-3 секунды, которые нужно проанализировать, то можно сэмплировать их на пару десятков кадров, которые влезут в context window модели.

Так уж вышло, что для обучения хорошей text-to-motion модели вам нужно несколько вещей: видеокарты, ML-специалисты и данные. Если по первым двум пунктам все неплохо, то вот с данными мы буксовали. Мы записывали анимации с помощью motion capture, покупали ассет-паки в сторах, собирали из открытых источников, но везде сталкивались с тем, что помимо анимации нужна аннотация — описание того, что на этой анимации происходит.

Руками людей размечать выходило долго и дорого. Поэтому решили попробовать генерировать описания с помощью GPT, а силами людей оценивать качество и исправлять ошибки. В итоге ускорили процесс х100 и удешевили х10. Такая вот история.

Держите инструкцию по заведению шарманки: https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding



group-telegram.com/savostyanov_dmitry/553
Create:
Last Update:

Анализ видео на GPT-4o

Давненько я вам ничего не писал. Исправим это недоразумение.

Ездил пару недель назад в Лос-Анджелес к своим америкосам, с которыми делаем проект text-to-motion — генерация анимаций для игровых персонажей по текстовому описанию. Там мы придумали занятный метод, про который сейчас расскажу.

В промпт GPT-4o можно прикладывать картинки. Видео — последовательность картинок с ~30-120 кадрами в секунду. Так вот оказывается, если у вас есть короткие ролики по 1-3 секунды, которые нужно проанализировать, то можно сэмплировать их на пару десятков кадров, которые влезут в context window модели.

Так уж вышло, что для обучения хорошей text-to-motion модели вам нужно несколько вещей: видеокарты, ML-специалисты и данные. Если по первым двум пунктам все неплохо, то вот с данными мы буксовали. Мы записывали анимации с помощью motion capture, покупали ассет-паки в сторах, собирали из открытых источников, но везде сталкивались с тем, что помимо анимации нужна аннотация — описание того, что на этой анимации происходит.

Руками людей размечать выходило долго и дорого. Поэтому решили попробовать генерировать описания с помощью GPT, а силами людей оценивать качество и исправлять ошибки. В итоге ускорили процесс х100 и удешевили х10. Такая вот история.

Держите инструкцию по заведению шарманки: https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding

BY Дмитрий Савостьянов Вещает






Share with your friend now:
group-telegram.com/savostyanov_dmitry/553

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. He adds: "Telegram has become my primary news source."
from ye


Telegram Дмитрий Савостьянов Вещает
FROM American