Notice: file_put_contents(): Write of 7024 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 16384 of 23408 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Техножрица 👩‍💻👩‍🏫👩‍🔧 | Telegram Webview: tech_priestess/1079 -
Telegram Group & Telegram Channel
Мы с коллегами выложили на архив новый препринт:

https://arxiv.org/abs/2311.08349

Он снова посвящен детекции искусственных текстов, но в экстремально сложной постановке.
В качестве примеров здесь рассматриваются тексты из десяти предложений, где первые несколько предложений написаны человеком, а оставшиеся - сгенерированы ML моделью (OPT, CTRL, GPT-2, GPT-3.5, chatGPT etc). Метка же, которую должен угадать алгоритм детекции - это номер предложения, с которого начинается генерация. В некоторых примерах генерации нет вообще (они полностью написаны человеком), и такие примеры также надо распознать правильно.
В общем, задача крайне сложная - из-за короткой длины примеров, необходимости угадывать место начала генерации и разнообразия генераторов и тематик текста (нам ведь нужно, чтобы классификатор ещё и переносился между разными генераторами и темами, то есть был кросс-доменным).

Я её решение начала с того, что установила бейзлайны (дообученная RoBERTa и предсказание самого распространенного класса), а потом стала пытаться применить к ней наш метод из статьи "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" ( https://arxiv.org/abs/2306.04723 ), но прямолинейно "из коробки" он не сработал. В старой-то статье мы работали с бинарной классификацией и длинными текстами, а здесь совсем другая задача.
Я долго старалась, чтобы придумать какой-то новый способ применить концепцию внутренней размерности PH Dimension из старой статьи, и в итоге остановилась на конструкции, названной "PHD + time series". В ней по эмбеддингам текста в RoBERTa проходит скользящее окно, и размерность PHD считается внутри этого окна. Затем к ряду получившихся размерностей применяется SVM с Global Alignment Kernel ( https://dl.acm.org/doi/10.5555/3104482.3104599 ), который, в свою очередь, и предсказывает номер предложения, где начинается генерация. Этот метод действительно дал качество классификации лучше, чем примитивные предсказатели, но все ещё был намного хуже, чем RoBERTa classifier.

Тем временем, соавторы предложили другие способы работать с этой задачей, самые интересные из которых также вошли в статью.
Лучше всего сработал метод, основанный на перплексии, предложенный Таней Гайнцевой ( https://www.group-telegram.com/dl_stories ). In domain он оказался также слабее Роберты, но в cross domain на некоторых парах доменов оказался существенно лучше. Это интересно, потому что в бинарной постановке задачи (детекция полностью сгенерированных текстов) методы, основанные на прямолинейном применении перплексии обычно хуже, чем RoBERTa classifier. И это ещё раз демонстрирует то, как в разных постановках преимущество могут получать разные методы.

В процессе исследования, мы тщательно проанализировали используемый в статье датасет (он называется RoFT - Real or Fake text) и изучили причины того, почему разные детекторы работают на нем хорошо или плохо в кросс-доменной постановке.
Я уделила особое внимание тому, что предложения, сгенерированные разными моделями и написанные на разные тематики, имеют сильно отличающееся распределение длин. Я добавила в таблицу результатов dummy классификатор, который принимает на вход только длины предложений, не зная об их содержании, и показала, что даже такой классификатор может давать какой-то результат на in domain, при этом будучи совершенно бесполезным на cross-domain. Это наводит на мысль, что и другие классификаторы могут переобучаться на длины предложений и давать какой-то результат на in domain, не понимая, чем на самом деле сгенерированный текст отличается от настоящего.
Соавторы же, в свою очередь, добавили в статью анализ confusion matrices и другие интересные наблюдения.

Препринт является промежуточным результатом, который нужно будет ещё доработать и дополнить путем применения наших методов к другим датасетам (например, https://github.com/mbzuai-nlp/SemEval2024-task8 ).
Тем не менее, я очень рада тому, что удалось довести исследование до текущего этапа, и выражаю благодарность всем соавторам, которые согласились поучаствовать в исследовании. 😻

#объяснения_статей #детекция_искусственных_текстов
Please open Telegram to view this post
VIEW IN TELEGRAM
47👍24🔥13



group-telegram.com/tech_priestess/1079
Create:
Last Update:

Мы с коллегами выложили на архив новый препринт:

https://arxiv.org/abs/2311.08349

Он снова посвящен детекции искусственных текстов, но в экстремально сложной постановке.
В качестве примеров здесь рассматриваются тексты из десяти предложений, где первые несколько предложений написаны человеком, а оставшиеся - сгенерированы ML моделью (OPT, CTRL, GPT-2, GPT-3.5, chatGPT etc). Метка же, которую должен угадать алгоритм детекции - это номер предложения, с которого начинается генерация. В некоторых примерах генерации нет вообще (они полностью написаны человеком), и такие примеры также надо распознать правильно.
В общем, задача крайне сложная - из-за короткой длины примеров, необходимости угадывать место начала генерации и разнообразия генераторов и тематик текста (нам ведь нужно, чтобы классификатор ещё и переносился между разными генераторами и темами, то есть был кросс-доменным).

Я её решение начала с того, что установила бейзлайны (дообученная RoBERTa и предсказание самого распространенного класса), а потом стала пытаться применить к ней наш метод из статьи "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" ( https://arxiv.org/abs/2306.04723 ), но прямолинейно "из коробки" он не сработал. В старой-то статье мы работали с бинарной классификацией и длинными текстами, а здесь совсем другая задача.
Я долго старалась, чтобы придумать какой-то новый способ применить концепцию внутренней размерности PH Dimension из старой статьи, и в итоге остановилась на конструкции, названной "PHD + time series". В ней по эмбеддингам текста в RoBERTa проходит скользящее окно, и размерность PHD считается внутри этого окна. Затем к ряду получившихся размерностей применяется SVM с Global Alignment Kernel ( https://dl.acm.org/doi/10.5555/3104482.3104599 ), который, в свою очередь, и предсказывает номер предложения, где начинается генерация. Этот метод действительно дал качество классификации лучше, чем примитивные предсказатели, но все ещё был намного хуже, чем RoBERTa classifier.

Тем временем, соавторы предложили другие способы работать с этой задачей, самые интересные из которых также вошли в статью.
Лучше всего сработал метод, основанный на перплексии, предложенный Таней Гайнцевой ( https://www.group-telegram.com/dl_stories ). In domain он оказался также слабее Роберты, но в cross domain на некоторых парах доменов оказался существенно лучше. Это интересно, потому что в бинарной постановке задачи (детекция полностью сгенерированных текстов) методы, основанные на прямолинейном применении перплексии обычно хуже, чем RoBERTa classifier. И это ещё раз демонстрирует то, как в разных постановках преимущество могут получать разные методы.

В процессе исследования, мы тщательно проанализировали используемый в статье датасет (он называется RoFT - Real or Fake text) и изучили причины того, почему разные детекторы работают на нем хорошо или плохо в кросс-доменной постановке.
Я уделила особое внимание тому, что предложения, сгенерированные разными моделями и написанные на разные тематики, имеют сильно отличающееся распределение длин. Я добавила в таблицу результатов dummy классификатор, который принимает на вход только длины предложений, не зная об их содержании, и показала, что даже такой классификатор может давать какой-то результат на in domain, при этом будучи совершенно бесполезным на cross-domain. Это наводит на мысль, что и другие классификаторы могут переобучаться на длины предложений и давать какой-то результат на in domain, не понимая, чем на самом деле сгенерированный текст отличается от настоящего.
Соавторы же, в свою очередь, добавили в статью анализ confusion matrices и другие интересные наблюдения.

Препринт является промежуточным результатом, который нужно будет ещё доработать и дополнить путем применения наших методов к другим датасетам (например, https://github.com/mbzuai-nlp/SemEval2024-task8 ).
Тем не менее, я очень рада тому, что удалось довести исследование до текущего этапа, и выражаю благодарность всем соавторам, которые согласились поучаствовать в исследовании. 😻

#объяснения_статей #детекция_искусственных_текстов

BY Техножрица 👩‍💻👩‍🏫👩‍🔧


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/tech_priestess/1079

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows.
from us


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American