Telegram Group & Telegram Channel
Анализ видео на GPT-4o

Давненько я вам ничего не писал. Исправим это недоразумение.

Ездил пару недель назад в Лос-Анджелес к своим америкосам, с которыми делаем проект text-to-motion — генерация анимаций для игровых персонажей по текстовому описанию. Там мы придумали занятный метод, про который сейчас расскажу.

В промпт GPT-4o можно прикладывать картинки. Видео — последовательность картинок с ~30-120 кадрами в секунду. Так вот оказывается, если у вас есть короткие ролики по 1-3 секунды, которые нужно проанализировать, то можно сэмплировать их на пару десятков кадров, которые влезут в context window модели.

Так уж вышло, что для обучения хорошей text-to-motion модели вам нужно несколько вещей: видеокарты, ML-специалисты и данные. Если по первым двум пунктам все неплохо, то вот с данными мы буксовали. Мы записывали анимации с помощью motion capture, покупали ассет-паки в сторах, собирали из открытых источников, но везде сталкивались с тем, что помимо анимации нужна аннотация — описание того, что на этой анимации происходит.

Руками людей размечать выходило долго и дорого. Поэтому решили попробовать генерировать описания с помощью GPT, а силами людей оценивать качество и исправлять ошибки. В итоге ускорили процесс х100 и удешевили х10. Такая вот история.

Держите инструкцию по заведению шарманки: https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding



group-telegram.com/savostyanov_dmitry/553
Create:
Last Update:

Анализ видео на GPT-4o

Давненько я вам ничего не писал. Исправим это недоразумение.

Ездил пару недель назад в Лос-Анджелес к своим америкосам, с которыми делаем проект text-to-motion — генерация анимаций для игровых персонажей по текстовому описанию. Там мы придумали занятный метод, про который сейчас расскажу.

В промпт GPT-4o можно прикладывать картинки. Видео — последовательность картинок с ~30-120 кадрами в секунду. Так вот оказывается, если у вас есть короткие ролики по 1-3 секунды, которые нужно проанализировать, то можно сэмплировать их на пару десятков кадров, которые влезут в context window модели.

Так уж вышло, что для обучения хорошей text-to-motion модели вам нужно несколько вещей: видеокарты, ML-специалисты и данные. Если по первым двум пунктам все неплохо, то вот с данными мы буксовали. Мы записывали анимации с помощью motion capture, покупали ассет-паки в сторах, собирали из открытых источников, но везде сталкивались с тем, что помимо анимации нужна аннотация — описание того, что на этой анимации происходит.

Руками людей размечать выходило долго и дорого. Поэтому решили попробовать генерировать описания с помощью GPT, а силами людей оценивать качество и исправлять ошибки. В итоге ускорили процесс х100 и удешевили х10. Такая вот история.

Держите инструкцию по заведению шарманки: https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding

BY Дмитрий Савостьянов Вещает






Share with your friend now:
group-telegram.com/savostyanov_dmitry/553

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform.
from hk


Telegram Дмитрий Савостьянов Вещает
FROM American