Telegram Group & Telegram Channel
Are_Detectors_Good_Enough?.pdf
1.3 MB
Сегодня выступаю на воркшопе Preventing and Detecting LLM Misinformation AAAI с нашей статьей по анализу датасетов с искуственными текстами. Прикладываю слайды и кратко рассказываю про мотивацию статьи:

Если сравнить результаты с соревнований по детекции искуственных текстов и с тем, какой результат выдают реальные детекторы, то мы увидим довольно сильное расхождение. На соревнованиях участники выбивают точность под 100%, да и в статьях про новые детекторы
авторы часто репортят схожие метрики.

Понятно, что реальные тексты чаще сложнее и длиннее тех, что встречаются в выборках, однако тем не менее, все текущие детекторы работают гораздо хуже, если вообще не на уровне рандома.

Еще одна проблема - то, что Интернет активно наполняется искуственными текстами. А знаете, где они потом используются? При обучении новых моделей ИИ. В нескольких работах было показано, что когда модели переходят на обучение на сгенерированных текстах, их качество заметно ухудшается. Поэтому, вопрос проверки качества сгенерированных данных касается еще и тех, кто учит новые модели.

В самой статье мы запускаем некоторые методы детекции на 17 выборках с соревнований и из статей, а также предлагаем новые методы анализа качества выборок с искуственными текстами.


Что мы выявили: почти для каждого датасета получилось так, что на каких-то методах он проявил себя плохо, а на каких-то хорошо - т.е в теории можно использовать ансамбль детекторов различной природы, чтобы находить аспект, по которому можно достаточно хорошо разделить искуственный текст от человеческого.

Надеемся нашей статьей развить какую-то дискуссию о качествах датасетов для детекции и об адаптации "теоретических" детекторов к реальным текстам


Статья на OpenReview
🔥117🎉3



group-telegram.com/nlp_with_heart/24
Create:
Last Update:

Сегодня выступаю на воркшопе Preventing and Detecting LLM Misinformation AAAI с нашей статьей по анализу датасетов с искуственными текстами. Прикладываю слайды и кратко рассказываю про мотивацию статьи:

Если сравнить результаты с соревнований по детекции искуственных текстов и с тем, какой результат выдают реальные детекторы, то мы увидим довольно сильное расхождение. На соревнованиях участники выбивают точность под 100%, да и в статьях про новые детекторы
авторы часто репортят схожие метрики.

Понятно, что реальные тексты чаще сложнее и длиннее тех, что встречаются в выборках, однако тем не менее, все текущие детекторы работают гораздо хуже, если вообще не на уровне рандома.

Еще одна проблема - то, что Интернет активно наполняется искуственными текстами. А знаете, где они потом используются? При обучении новых моделей ИИ. В нескольких работах было показано, что когда модели переходят на обучение на сгенерированных текстах, их качество заметно ухудшается. Поэтому, вопрос проверки качества сгенерированных данных касается еще и тех, кто учит новые модели.

В самой статье мы запускаем некоторые методы детекции на 17 выборках с соревнований и из статей, а также предлагаем новые методы анализа качества выборок с искуственными текстами.


Что мы выявили: почти для каждого датасета получилось так, что на каких-то методах он проявил себя плохо, а на каких-то хорошо - т.е в теории можно использовать ансамбль детекторов различной природы, чтобы находить аспект, по которому можно достаточно хорошо разделить искуственный текст от человеческого.

Надеемся нашей статьей развить какую-то дискуссию о качествах датасетов для детекции и об адаптации "теоретических" детекторов к реальным текстам


Статья на OpenReview

BY abstracts with a human heart


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/nlp_with_heart/24

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. I want a secure messaging app, should I use Telegram? Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open.
from ms


Telegram abstracts with a human heart
FROM American