Telegram Group & Telegram Channel
Мы с коллегами выложили на архив новый препринт:

https://arxiv.org/abs/2311.08349

Он снова посвящен детекции искусственных текстов, но в экстремально сложной постановке.
В качестве примеров здесь рассматриваются тексты из десяти предложений, где первые несколько предложений написаны человеком, а оставшиеся - сгенерированы ML моделью (OPT, CTRL, GPT-2, GPT-3.5, chatGPT etc). Метка же, которую должен угадать алгоритм детекции - это номер предложения, с которого начинается генерация. В некоторых примерах генерации нет вообще (они полностью написаны человеком), и такие примеры также надо распознать правильно.
В общем, задача крайне сложная - из-за короткой длины примеров, необходимости угадывать место начала генерации и разнообразия генераторов и тематик текста (нам ведь нужно, чтобы классификатор ещё и переносился между разными генераторами и темами, то есть был кросс-доменным).

Я её решение начала с того, что установила бейзлайны (дообученная RoBERTa и предсказание самого распространенного класса), а потом стала пытаться применить к ней наш метод из статьи "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" ( https://arxiv.org/abs/2306.04723 ), но прямолинейно "из коробки" он не сработал. В старой-то статье мы работали с бинарной классификацией и длинными текстами, а здесь совсем другая задача.
Я долго старалась, чтобы придумать какой-то новый способ применить концепцию внутренней размерности PH Dimension из старой статьи, и в итоге остановилась на конструкции, названной "PHD + time series". В ней по эмбеддингам текста в RoBERTa проходит скользящее окно, и размерность PHD считается внутри этого окна. Затем к ряду получившихся размерностей применяется SVM с Global Alignment Kernel ( https://dl.acm.org/doi/10.5555/3104482.3104599 ), который, в свою очередь, и предсказывает номер предложения, где начинается генерация. Этот метод действительно дал качество классификации лучше, чем примитивные предсказатели, но все ещё был намного хуже, чем RoBERTa classifier.

Тем временем, соавторы предложили другие способы работать с этой задачей, самые интересные из которых также вошли в статью.
Лучше всего сработал метод, основанный на перплексии, предложенный Таней Гайнцевой ( https://www.group-telegram.com/dl_stories ). In domain он оказался также слабее Роберты, но в cross domain на некоторых парах доменов оказался существенно лучше. Это интересно, потому что в бинарной постановке задачи (детекция полностью сгенерированных текстов) методы, основанные на прямолинейном применении перплексии обычно хуже, чем RoBERTa classifier. И это ещё раз демонстрирует то, как в разных постановках преимущество могут получать разные методы.

В процессе исследования, мы тщательно проанализировали используемый в статье датасет (он называется RoFT - Real or Fake text) и изучили причины того, почему разные детекторы работают на нем хорошо или плохо в кросс-доменной постановке.
Я уделила особое внимание тому, что предложения, сгенерированные разными моделями и написанные на разные тематики, имеют сильно отличающееся распределение длин. Я добавила в таблицу результатов dummy классификатор, который принимает на вход только длины предложений, не зная об их содержании, и показала, что даже такой классификатор может давать какой-то результат на in domain, при этом будучи совершенно бесполезным на cross-domain. Это наводит на мысль, что и другие классификаторы могут переобучаться на длины предложений и давать какой-то результат на in domain, не понимая, чем на самом деле сгенерированный текст отличается от настоящего.
Соавторы же, в свою очередь, добавили в статью анализ confusion matrices и другие интересные наблюдения.

Препринт является промежуточным результатом, который нужно будет ещё доработать и дополнить путем применения наших методов к другим датасетам (например, https://github.com/mbzuai-nlp/SemEval2024-task8 ).
Тем не менее, я очень рада тому, что удалось довести исследование до текущего этапа, и выражаю благодарность всем соавторам, которые согласились поучаствовать в исследовании. 😻

#объяснения_статей #детекция_искусственных_текстов
Please open Telegram to view this post
VIEW IN TELEGRAM
47👍24🔥13



group-telegram.com/tech_priestess/1079
Create:
Last Update:

Мы с коллегами выложили на архив новый препринт:

https://arxiv.org/abs/2311.08349

Он снова посвящен детекции искусственных текстов, но в экстремально сложной постановке.
В качестве примеров здесь рассматриваются тексты из десяти предложений, где первые несколько предложений написаны человеком, а оставшиеся - сгенерированы ML моделью (OPT, CTRL, GPT-2, GPT-3.5, chatGPT etc). Метка же, которую должен угадать алгоритм детекции - это номер предложения, с которого начинается генерация. В некоторых примерах генерации нет вообще (они полностью написаны человеком), и такие примеры также надо распознать правильно.
В общем, задача крайне сложная - из-за короткой длины примеров, необходимости угадывать место начала генерации и разнообразия генераторов и тематик текста (нам ведь нужно, чтобы классификатор ещё и переносился между разными генераторами и темами, то есть был кросс-доменным).

Я её решение начала с того, что установила бейзлайны (дообученная RoBERTa и предсказание самого распространенного класса), а потом стала пытаться применить к ней наш метод из статьи "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" ( https://arxiv.org/abs/2306.04723 ), но прямолинейно "из коробки" он не сработал. В старой-то статье мы работали с бинарной классификацией и длинными текстами, а здесь совсем другая задача.
Я долго старалась, чтобы придумать какой-то новый способ применить концепцию внутренней размерности PH Dimension из старой статьи, и в итоге остановилась на конструкции, названной "PHD + time series". В ней по эмбеддингам текста в RoBERTa проходит скользящее окно, и размерность PHD считается внутри этого окна. Затем к ряду получившихся размерностей применяется SVM с Global Alignment Kernel ( https://dl.acm.org/doi/10.5555/3104482.3104599 ), который, в свою очередь, и предсказывает номер предложения, где начинается генерация. Этот метод действительно дал качество классификации лучше, чем примитивные предсказатели, но все ещё был намного хуже, чем RoBERTa classifier.

Тем временем, соавторы предложили другие способы работать с этой задачей, самые интересные из которых также вошли в статью.
Лучше всего сработал метод, основанный на перплексии, предложенный Таней Гайнцевой ( https://www.group-telegram.com/dl_stories ). In domain он оказался также слабее Роберты, но в cross domain на некоторых парах доменов оказался существенно лучше. Это интересно, потому что в бинарной постановке задачи (детекция полностью сгенерированных текстов) методы, основанные на прямолинейном применении перплексии обычно хуже, чем RoBERTa classifier. И это ещё раз демонстрирует то, как в разных постановках преимущество могут получать разные методы.

В процессе исследования, мы тщательно проанализировали используемый в статье датасет (он называется RoFT - Real or Fake text) и изучили причины того, почему разные детекторы работают на нем хорошо или плохо в кросс-доменной постановке.
Я уделила особое внимание тому, что предложения, сгенерированные разными моделями и написанные на разные тематики, имеют сильно отличающееся распределение длин. Я добавила в таблицу результатов dummy классификатор, который принимает на вход только длины предложений, не зная об их содержании, и показала, что даже такой классификатор может давать какой-то результат на in domain, при этом будучи совершенно бесполезным на cross-domain. Это наводит на мысль, что и другие классификаторы могут переобучаться на длины предложений и давать какой-то результат на in domain, не понимая, чем на самом деле сгенерированный текст отличается от настоящего.
Соавторы же, в свою очередь, добавили в статью анализ confusion matrices и другие интересные наблюдения.

Препринт является промежуточным результатом, который нужно будет ещё доработать и дополнить путем применения наших методов к другим датасетам (например, https://github.com/mbzuai-nlp/SemEval2024-task8 ).
Тем не менее, я очень рада тому, что удалось довести исследование до текущего этапа, и выражаю благодарность всем соавторам, которые согласились поучаствовать в исследовании. 😻

#объяснения_статей #детекция_искусственных_текстов

BY Техножрица 👩‍💻👩‍🏫👩‍🔧


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/tech_priestess/1079

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In 2018, Russia banned Telegram although it reversed the prohibition two years later. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report.
from us


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American