group-telegram.com/nlp_with_heart/24
Last Update:
Сегодня выступаю на воркшопе Preventing and Detecting LLM Misinformation AAAI с нашей статьей по анализу датасетов с искуственными текстами. Прикладываю слайды и кратко рассказываю про мотивацию статьи:
Если сравнить результаты с соревнований по детекции искуственных текстов и с тем, какой результат выдают реальные детекторы, то мы увидим довольно сильное расхождение. На соревнованиях участники выбивают точность под 100%, да и в статьях про новые детекторы
авторы часто репортят схожие метрики.
Понятно, что реальные тексты чаще сложнее и длиннее тех, что встречаются в выборках, однако тем не менее, все текущие детекторы работают гораздо хуже, если вообще не на уровне рандома.
Еще одна проблема - то, что Интернет активно наполняется искуственными текстами. А знаете, где они потом используются? При обучении новых моделей ИИ. В нескольких работах было показано, что когда модели переходят на обучение на сгенерированных текстах, их качество заметно ухудшается. Поэтому, вопрос проверки качества сгенерированных данных касается еще и тех, кто учит новые модели.
В самой статье мы запускаем некоторые методы детекции на 17 выборках с соревнований и из статей, а также предлагаем новые методы анализа качества выборок с искуственными текстами.
Что мы выявили: почти для каждого датасета получилось так, что на каких-то методах он проявил себя плохо, а на каких-то хорошо - т.е в теории можно использовать ансамбль детекторов различной природы, чтобы находить аспект, по которому можно достаточно хорошо разделить искуственный текст от человеческого.
Надеемся нашей статьей развить какую-то дискуссию о качествах датасетов для детекции и об адаптации "теоретических" детекторов к реальным текстам
Статья на OpenReview
BY abstracts with a human heart
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/nlp_with_heart/24