​​Wolf: Captioning Everything with a World Summarization Framework

Data, Stories and Languages

Wolf: Captioning Everything with a World Summarization Framework

Статья от NVIDIA с красочным названием WOrLd summarization Framework. Авторы задались вопросом "что может быть лучше, чем суммаризировать видео с помощью VLM?" и дали простой ответ - суммаризировать видео с помощью нескольких VLM!

Выглядит это так: вначале разбивают видео на кадры и просят одну модель суммаризировать кадры (подают текущий кадр и предыдущий caption). Потом просят GPT-4 суммаризировать все captions в один. Затем берут видео целиком и просят модель описать его. И, наконец, суммаризируют все вместе.

Получается, конечно, лучше, чем просто использовать одну модель. Дополнительно авторы выложили несколько датасетов и создали новый leaderboard, где их подход на первом месте.

Paper link

Leaderboard

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

👍3🔥1😁1

www.group-telegram.com/in/datastorieslanguages.com/263

1.9K viewsAug 12, 2024 at 04:44

group-telegram.com/datastorieslanguages/263

Create: 2024-08-12
Last Update: 2025-07-09 09:52:50

BY Data, Stories and Languages

Share with your friend now:
group-telegram.com/datastorieslanguages/263

Telegram | DID YOU KNOW?

​​Wolf: Captioning Everything with a World Summarization Framework

Wolf: Captioning Everything with a World Summarization Framework