Telegram Group & Telegram Channel
Trapping misbehaving bots in an AI Labyrinth
Tatoris, Saxena and Miglietti, Cloudflare, 2025
Блог

В списке наиболее ненавистных всем интернет-явлений середины двадцатых годов 21 века совершенно точно находится сгенерированный ИИ мусорный контент, он же AI slop, и боты, которые краулят ваш контент для обучения моделей, перегружая инфру, или используют ваш контент для grounded-ответов с помощью LLM, но не делятся с сайтом трафиком. Инженеры из Cloudflare решили, что это идеальная пара, и выкатили систему защиты от краулинга под названием AI Labyrinth.

Цель простая: защитить сайты клиентов от несанкционированного доступа ботов. Хотя у Cloudflare уже есть инструмент для блокировки не уважающих robots.txt ботов, они решили пойти еще дальше. На сайтах пользователей, которые включат AI Labyrinth, появятся скрытые ссылки на страницы со сгенерированным с помощью LLM синтетическим контентом на научные темы и дальнейшими ссылками. Чтобы не ломать честные поисковики, страницы содержат соответствующие meta-теги типа noindex. Нечестные же сборщики данных обнаружат на этих страницах дальнейшие ссылки на синтетические страницы. При этом авторы утверждают, что нормальный человек не пойдет на глубину в четыре клика, из которых один – по невидимой ссылке, читать AI slop, так что эти страницы действуют еще и как ханипот, позволяя собирать ботовую телеметрию и улучшать другие системы защиты.

При этом Cloudflare предоставляет доступ к этой системе бесплатно, то есть в целом солидная часть интернета сможет вскоре обзавестись подобной защитой. Так что если вы занимаетесь агентным поиском, стоит начать и правда уважать robots.txt и прочие просьбы владельцев сайтов, если дорожите привязанной к OpenAI-аккаунту кредиткой. Те, чей бизнес состоит в том, чтобы краулить сайты, скорее всего, найдут способ обнаруживать, что провалились в лабиринт, и если Cloudflare серьезны в своих намерениях, начнется гонка вооружений. Печальнее будет, если создатели сайтов будут добавлять такие механизмы не в дополнение, а вместо robots.txt как протест против ботов, как сейчас добавляют промтп-инъекции – это может привести к рискам типа unbounded consumption для легитимных приложений и сильно усложнит работу добросовестных ботов.

P.S. Книга Obfuscation за авторством Хелен Ниссенбаум рассказывает, что если вы стремитесь к конфиденциальности в мире надзорного капитализма, вам нужно не уменьшать поток данных, который от вас исходит, а наоборот, создавать их очень много. При этом большинство данных должно быть фейковыми, чтобы реальный сигнал о вашей личности, деятельности и интересах в них терялся. Ниссенбаум была соавтором двух браузерных protestware-плагинов – TrackMeNot, который отправлял от вашего имени в гугл кучу случайных запросов, загрязняя историю поисковых запросов, и AdNauseam, который в фоне кликает на все рекламные баннеры на странице, маскируя ваши реальные клики и тратя впустую деньги рекламодателей. Последний оказался настолько удачным, что Google выпилил его из стора и запретил установку в хроме. Интересно видеть, как этот подход находит все новые неожиданные применения.



group-telegram.com/llmsecurity/517
Create:
Last Update:

Trapping misbehaving bots in an AI Labyrinth
Tatoris, Saxena and Miglietti, Cloudflare, 2025
Блог

В списке наиболее ненавистных всем интернет-явлений середины двадцатых годов 21 века совершенно точно находится сгенерированный ИИ мусорный контент, он же AI slop, и боты, которые краулят ваш контент для обучения моделей, перегружая инфру, или используют ваш контент для grounded-ответов с помощью LLM, но не делятся с сайтом трафиком. Инженеры из Cloudflare решили, что это идеальная пара, и выкатили систему защиты от краулинга под названием AI Labyrinth.

Цель простая: защитить сайты клиентов от несанкционированного доступа ботов. Хотя у Cloudflare уже есть инструмент для блокировки не уважающих robots.txt ботов, они решили пойти еще дальше. На сайтах пользователей, которые включат AI Labyrinth, появятся скрытые ссылки на страницы со сгенерированным с помощью LLM синтетическим контентом на научные темы и дальнейшими ссылками. Чтобы не ломать честные поисковики, страницы содержат соответствующие meta-теги типа noindex. Нечестные же сборщики данных обнаружат на этих страницах дальнейшие ссылки на синтетические страницы. При этом авторы утверждают, что нормальный человек не пойдет на глубину в четыре клика, из которых один – по невидимой ссылке, читать AI slop, так что эти страницы действуют еще и как ханипот, позволяя собирать ботовую телеметрию и улучшать другие системы защиты.

При этом Cloudflare предоставляет доступ к этой системе бесплатно, то есть в целом солидная часть интернета сможет вскоре обзавестись подобной защитой. Так что если вы занимаетесь агентным поиском, стоит начать и правда уважать robots.txt и прочие просьбы владельцев сайтов, если дорожите привязанной к OpenAI-аккаунту кредиткой. Те, чей бизнес состоит в том, чтобы краулить сайты, скорее всего, найдут способ обнаруживать, что провалились в лабиринт, и если Cloudflare серьезны в своих намерениях, начнется гонка вооружений. Печальнее будет, если создатели сайтов будут добавлять такие механизмы не в дополнение, а вместо robots.txt как протест против ботов, как сейчас добавляют промтп-инъекции – это может привести к рискам типа unbounded consumption для легитимных приложений и сильно усложнит работу добросовестных ботов.

P.S. Книга Obfuscation за авторством Хелен Ниссенбаум рассказывает, что если вы стремитесь к конфиденциальности в мире надзорного капитализма, вам нужно не уменьшать поток данных, который от вас исходит, а наоборот, создавать их очень много. При этом большинство данных должно быть фейковыми, чтобы реальный сигнал о вашей личности, деятельности и интересах в них терялся. Ниссенбаум была соавтором двух браузерных protestware-плагинов – TrackMeNot, который отправлял от вашего имени в гугл кучу случайных запросов, загрязняя историю поисковых запросов, и AdNauseam, который в фоне кликает на все рекламные баннеры на странице, маскируя ваши реальные клики и тратя впустую деньги рекламодателей. Последний оказался настолько удачным, что Google выпилил его из стора и запретил установку в хроме. Интересно видеть, как этот подход находит все новые неожиданные применения.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/517

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK.
from us


Telegram llm security и каланы
FROM American