Telegram Group & Telegram Channel
Долго забывала написать в паблике про препринт статьи "Improving Interpretability and Robustness for the Detection of AI-Generated Images", над которым мы работали совместно с Таней ( @dl_stories ), а также с Германом ( @junkyardmathml ) и другими коллегами, но сегодня, наконец, исправляюсь. 🧐
В данной работе было сделано несколько наблюдений про детекцию искусственно сгенерированных изображений с помощью эмбеддингов модели CLIP:

1️⃣ Допустим, у нас есть: A - набор картинок, на которых обучалась заданная генеративная модель (т.е. какой-нибудь GAN или Diffusion Model) и B - набор картинок, которые эта модель сгенерировала. Далее эти картинки можно подать на вход CLIP и извлечь из его последнего слоя эмбеддинги, соответствующие картинкам: A' и B'. Так вот, для каждого отдельного генератора, который мы рассмотрели, эти эмбеддинги оказывались линейно разделимыми с достаточно большой точностью, но при этом у разных генераторов разделяющая плоскость проводилась по-разному, что являлось причиной проблем с робастностью классификатора на этих эмбеддингах. Рассмотрев отрезок, соединяющий центроиды кластеров A' и B' для какого-то генератора ("Residual" на рис. 1), можно понять причины того, почему так происходит.
Как мы помним, пространство эмбеддингов CLIP является общим для картинок и текстов, так что для каждого вектора в этом пространстве можно найти текст, который ближе всего к нему по смыслу. И если рассмотреть тексты, которые ближе всего по смыслу к Residual-ам, то можно понять, в чем конкретно заключается отличительная особенность картинок, сделанных каждым генератором. У некоторых генераторов ближайший текст так и будет выглядеть как "generated photo", у других ближайший текст - это что-то на тему детальности или цветовой гаммы картинок (например, что-нибудь про "vibrant" и "detailed") и т.д. Таким образом, мы показали простой способ интерпретировать работу классификатора сгенерированных картинок на эмбеддингах.

2️⃣ Мы также обнаружили, что некоторые компоненты финального эмбеддинга CLIP хранят в себе информацию, которая важна для детекции конкретного генератора (или конкретного типа генераторов, например, GANов), но уменьшает качество переноса детектора на другой генератор. Если найти и удалить эти компоненты, то можно существенно улучшить робастность классификатора при изменении генерирующей модели. Особенно интересно, что получилось улучшить переносимость классификатора с детекции генераторов-диффузий на детекцию генераторов-GANов (и обратно).

3️⃣ Кроме того, оказалось, что некоторые головы внимания CLIP выделяют более полезные для робастной классификации фичи, чем другие. С помощью этого наблюдения тоже можно выудить из CLIP-а информацию, которая позволяет классифицировать картинки более робастно, чем это делал стандартный классификатор на эмбеддингах CLIP. И здесь тоже можно улучшить переносимость классификатора с детекции генераторов-диффузий на детекцию генераторов-GANов и наоборот.

В общем, такой вот вклад в улучшение интерпретируемости и робастности детекции сгенерированных изображений. Ну а я пошла дальше траву трогать. 🏃🏕🌳

#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥45👍1143❤‍🔥1🌚11



group-telegram.com/tech_priestess/1648
Create:
Last Update:

Долго забывала написать в паблике про препринт статьи "Improving Interpretability and Robustness for the Detection of AI-Generated Images", над которым мы работали совместно с Таней ( @dl_stories ), а также с Германом ( @junkyardmathml ) и другими коллегами, но сегодня, наконец, исправляюсь. 🧐
В данной работе было сделано несколько наблюдений про детекцию искусственно сгенерированных изображений с помощью эмбеддингов модели CLIP:

1️⃣ Допустим, у нас есть: A - набор картинок, на которых обучалась заданная генеративная модель (т.е. какой-нибудь GAN или Diffusion Model) и B - набор картинок, которые эта модель сгенерировала. Далее эти картинки можно подать на вход CLIP и извлечь из его последнего слоя эмбеддинги, соответствующие картинкам: A' и B'. Так вот, для каждого отдельного генератора, который мы рассмотрели, эти эмбеддинги оказывались линейно разделимыми с достаточно большой точностью, но при этом у разных генераторов разделяющая плоскость проводилась по-разному, что являлось причиной проблем с робастностью классификатора на этих эмбеддингах. Рассмотрев отрезок, соединяющий центроиды кластеров A' и B' для какого-то генератора ("Residual" на рис. 1), можно понять причины того, почему так происходит.
Как мы помним, пространство эмбеддингов CLIP является общим для картинок и текстов, так что для каждого вектора в этом пространстве можно найти текст, который ближе всего к нему по смыслу. И если рассмотреть тексты, которые ближе всего по смыслу к Residual-ам, то можно понять, в чем конкретно заключается отличительная особенность картинок, сделанных каждым генератором. У некоторых генераторов ближайший текст так и будет выглядеть как "generated photo", у других ближайший текст - это что-то на тему детальности или цветовой гаммы картинок (например, что-нибудь про "vibrant" и "detailed") и т.д. Таким образом, мы показали простой способ интерпретировать работу классификатора сгенерированных картинок на эмбеддингах.

2️⃣ Мы также обнаружили, что некоторые компоненты финального эмбеддинга CLIP хранят в себе информацию, которая важна для детекции конкретного генератора (или конкретного типа генераторов, например, GANов), но уменьшает качество переноса детектора на другой генератор. Если найти и удалить эти компоненты, то можно существенно улучшить робастность классификатора при изменении генерирующей модели. Особенно интересно, что получилось улучшить переносимость классификатора с детекции генераторов-диффузий на детекцию генераторов-GANов (и обратно).

3️⃣ Кроме того, оказалось, что некоторые головы внимания CLIP выделяют более полезные для робастной классификации фичи, чем другие. С помощью этого наблюдения тоже можно выудить из CLIP-а информацию, которая позволяет классифицировать картинки более робастно, чем это делал стандартный классификатор на эмбеддингах CLIP. И здесь тоже можно улучшить переносимость классификатора с детекции генераторов-диффузий на детекцию генераторов-GANов и наоборот.

В общем, такой вот вклад в улучшение интерпретируемости и робастности детекции сгенерированных изображений. Ну а я пошла дальше траву трогать. 🏃🏕🌳

#объяснения_статей

BY Техножрица 👩‍💻👩‍🏫👩‍🔧




Share with your friend now:
group-telegram.com/tech_priestess/1648

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications.
from us


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American