group-telegram.com/datastorieslanguages/263
Last Update:
Wolf: Captioning Everything with a World Summarization Framework
Статья от NVIDIA с красочным названием WOrLd summarization Framework. Авторы задались вопросом "что может быть лучше, чем суммаризировать видео с помощью VLM?" и дали простой ответ - суммаризировать видео с помощью нескольких VLM!
Выглядит это так: вначале разбивают видео на кадры и просят одну модель суммаризировать кадры (подают текущий кадр и предыдущий caption). Потом просят GPT-4 суммаризировать все captions в один. Затем берут видео целиком и просят модель описать его. И, наконец, суммаризируют все вместе.
Получается, конечно, лучше, чем просто использовать одну модель. Дополнительно авторы выложили несколько датасетов и создали новый leaderboard, где их подход на первом месте.
Paper link
Leaderboard
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
BY Data, Stories and Languages

Share with your friend now:
group-telegram.com/datastorieslanguages/263