Telegram Group & Telegram Channel
Trapping misbehaving bots in an AI Labyrinth
Tatoris, Saxena and Miglietti, Cloudflare, 2025
Блог

В списке наиболее ненавистных всем интернет-явлений середины двадцатых годов 21 века совершенно точно находится сгенерированный ИИ мусорный контент, он же AI slop, и боты, которые краулят ваш контент для обучения моделей, перегружая инфру, или используют ваш контент для grounded-ответов с помощью LLM, но не делятся с сайтом трафиком. Инженеры из Cloudflare решили, что это идеальная пара, и выкатили систему защиты от краулинга под названием AI Labyrinth.

Цель простая: защитить сайты клиентов от несанкционированного доступа ботов. Хотя у Cloudflare уже есть инструмент для блокировки не уважающих robots.txt ботов, они решили пойти еще дальше. На сайтах пользователей, которые включат AI Labyrinth, появятся скрытые ссылки на страницы со сгенерированным с помощью LLM синтетическим контентом на научные темы и дальнейшими ссылками. Чтобы не ломать честные поисковики, страницы содержат соответствующие meta-теги типа noindex. Нечестные же сборщики данных обнаружат на этих страницах дальнейшие ссылки на синтетические страницы. При этом авторы утверждают, что нормальный человек не пойдет на глубину в четыре клика, из которых один – по невидимой ссылке, читать AI slop, так что эти страницы действуют еще и как ханипот, позволяя собирать ботовую телеметрию и улучшать другие системы защиты.

При этом Cloudflare предоставляет доступ к этой системе бесплатно, то есть в целом солидная часть интернета сможет вскоре обзавестись подобной защитой. Так что если вы занимаетесь агентным поиском, стоит начать и правда уважать robots.txt и прочие просьбы владельцев сайтов, если дорожите привязанной к OpenAI-аккаунту кредиткой. Те, чей бизнес состоит в том, чтобы краулить сайты, скорее всего, найдут способ обнаруживать, что провалились в лабиринт, и если Cloudflare серьезны в своих намерениях, начнется гонка вооружений. Печальнее будет, если создатели сайтов будут добавлять такие механизмы не в дополнение, а вместо robots.txt как протест против ботов, как сейчас добавляют промтп-инъекции – это может привести к рискам типа unbounded consumption для легитимных приложений и сильно усложнит работу добросовестных ботов.

P.S. Книга Obfuscation за авторством Хелен Ниссенбаум рассказывает, что если вы стремитесь к конфиденциальности в мире надзорного капитализма, вам нужно не уменьшать поток данных, который от вас исходит, а наоборот, создавать их очень много. При этом большинство данных должно быть фейковыми, чтобы реальный сигнал о вашей личности, деятельности и интересах в них терялся. Ниссенбаум была соавтором двух браузерных protestware-плагинов – TrackMeNot, который отправлял от вашего имени в гугл кучу случайных запросов, загрязняя историю поисковых запросов, и AdNauseam, который в фоне кликает на все рекламные баннеры на странице, маскируя ваши реальные клики и тратя впустую деньги рекламодателей. Последний оказался настолько удачным, что Google выпилил его из стора и запретил установку в хроме. Интересно видеть, как этот подход находит все новые неожиданные применения.



group-telegram.com/llmsecurity/517
Create:
Last Update:

Trapping misbehaving bots in an AI Labyrinth
Tatoris, Saxena and Miglietti, Cloudflare, 2025
Блог

В списке наиболее ненавистных всем интернет-явлений середины двадцатых годов 21 века совершенно точно находится сгенерированный ИИ мусорный контент, он же AI slop, и боты, которые краулят ваш контент для обучения моделей, перегружая инфру, или используют ваш контент для grounded-ответов с помощью LLM, но не делятся с сайтом трафиком. Инженеры из Cloudflare решили, что это идеальная пара, и выкатили систему защиты от краулинга под названием AI Labyrinth.

Цель простая: защитить сайты клиентов от несанкционированного доступа ботов. Хотя у Cloudflare уже есть инструмент для блокировки не уважающих robots.txt ботов, они решили пойти еще дальше. На сайтах пользователей, которые включат AI Labyrinth, появятся скрытые ссылки на страницы со сгенерированным с помощью LLM синтетическим контентом на научные темы и дальнейшими ссылками. Чтобы не ломать честные поисковики, страницы содержат соответствующие meta-теги типа noindex. Нечестные же сборщики данных обнаружат на этих страницах дальнейшие ссылки на синтетические страницы. При этом авторы утверждают, что нормальный человек не пойдет на глубину в четыре клика, из которых один – по невидимой ссылке, читать AI slop, так что эти страницы действуют еще и как ханипот, позволяя собирать ботовую телеметрию и улучшать другие системы защиты.

При этом Cloudflare предоставляет доступ к этой системе бесплатно, то есть в целом солидная часть интернета сможет вскоре обзавестись подобной защитой. Так что если вы занимаетесь агентным поиском, стоит начать и правда уважать robots.txt и прочие просьбы владельцев сайтов, если дорожите привязанной к OpenAI-аккаунту кредиткой. Те, чей бизнес состоит в том, чтобы краулить сайты, скорее всего, найдут способ обнаруживать, что провалились в лабиринт, и если Cloudflare серьезны в своих намерениях, начнется гонка вооружений. Печальнее будет, если создатели сайтов будут добавлять такие механизмы не в дополнение, а вместо robots.txt как протест против ботов, как сейчас добавляют промтп-инъекции – это может привести к рискам типа unbounded consumption для легитимных приложений и сильно усложнит работу добросовестных ботов.

P.S. Книга Obfuscation за авторством Хелен Ниссенбаум рассказывает, что если вы стремитесь к конфиденциальности в мире надзорного капитализма, вам нужно не уменьшать поток данных, который от вас исходит, а наоборот, создавать их очень много. При этом большинство данных должно быть фейковыми, чтобы реальный сигнал о вашей личности, деятельности и интересах в них терялся. Ниссенбаум была соавтором двух браузерных protestware-плагинов – TrackMeNot, который отправлял от вашего имени в гугл кучу случайных запросов, загрязняя историю поисковых запросов, и AdNauseam, который в фоне кликает на все рекламные баннеры на странице, маскируя ваши реальные клики и тратя впустую деньги рекламодателей. Последний оказался настолько удачным, что Google выпилил его из стора и запретил установку в хроме. Интересно видеть, как этот подход находит все новые неожиданные применения.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/517

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country.
from cn


Telegram llm security и каланы
FROM American