Telegram Group & Telegram Channel
Trapping misbehaving bots in an AI Labyrinth
Tatoris, Saxena and Miglietti, Cloudflare, 2025
Блог

В списке наиболее ненавистных всем интернет-явлений середины двадцатых годов 21 века совершенно точно находится сгенерированный ИИ мусорный контент, он же AI slop, и боты, которые краулят ваш контент для обучения моделей, перегружая инфру, или используют ваш контент для grounded-ответов с помощью LLM, но не делятся с сайтом трафиком. Инженеры из Cloudflare решили, что это идеальная пара, и выкатили систему защиты от краулинга под названием AI Labyrinth.

Цель простая: защитить сайты клиентов от несанкционированного доступа ботов. Хотя у Cloudflare уже есть инструмент для блокировки не уважающих robots.txt ботов, они решили пойти еще дальше. На сайтах пользователей, которые включат AI Labyrinth, появятся скрытые ссылки на страницы со сгенерированным с помощью LLM синтетическим контентом на научные темы и дальнейшими ссылками. Чтобы не ломать честные поисковики, страницы содержат соответствующие meta-теги типа noindex. Нечестные же сборщики данных обнаружат на этих страницах дальнейшие ссылки на синтетические страницы. При этом авторы утверждают, что нормальный человек не пойдет на глубину в четыре клика, из которых один – по невидимой ссылке, читать AI slop, так что эти страницы действуют еще и как ханипот, позволяя собирать ботовую телеметрию и улучшать другие системы защиты.

При этом Cloudflare предоставляет доступ к этой системе бесплатно, то есть в целом солидная часть интернета сможет вскоре обзавестись подобной защитой. Так что если вы занимаетесь агентным поиском, стоит начать и правда уважать robots.txt и прочие просьбы владельцев сайтов, если дорожите привязанной к OpenAI-аккаунту кредиткой. Те, чей бизнес состоит в том, чтобы краулить сайты, скорее всего, найдут способ обнаруживать, что провалились в лабиринт, и если Cloudflare серьезны в своих намерениях, начнется гонка вооружений. Печальнее будет, если создатели сайтов будут добавлять такие механизмы не в дополнение, а вместо robots.txt как протест против ботов, как сейчас добавляют промтп-инъекции – это может привести к рискам типа unbounded consumption для легитимных приложений и сильно усложнит работу добросовестных ботов.

P.S. Книга Obfuscation за авторством Хелен Ниссенбаум рассказывает, что если вы стремитесь к конфиденциальности в мире надзорного капитализма, вам нужно не уменьшать поток данных, который от вас исходит, а наоборот, создавать их очень много. При этом большинство данных должно быть фейковыми, чтобы реальный сигнал о вашей личности, деятельности и интересах в них терялся. Ниссенбаум была соавтором двух браузерных protestware-плагинов – TrackMeNot, который отправлял от вашего имени в гугл кучу случайных запросов, загрязняя историю поисковых запросов, и AdNauseam, который в фоне кликает на все рекламные баннеры на странице, маскируя ваши реальные клики и тратя впустую деньги рекламодателей. Последний оказался настолько удачным, что Google выпилил его из стора и запретил установку в хроме. Интересно видеть, как этот подход находит все новые неожиданные применения.



group-telegram.com/llmsecurity/517
Create:
Last Update:

Trapping misbehaving bots in an AI Labyrinth
Tatoris, Saxena and Miglietti, Cloudflare, 2025
Блог

В списке наиболее ненавистных всем интернет-явлений середины двадцатых годов 21 века совершенно точно находится сгенерированный ИИ мусорный контент, он же AI slop, и боты, которые краулят ваш контент для обучения моделей, перегружая инфру, или используют ваш контент для grounded-ответов с помощью LLM, но не делятся с сайтом трафиком. Инженеры из Cloudflare решили, что это идеальная пара, и выкатили систему защиты от краулинга под названием AI Labyrinth.

Цель простая: защитить сайты клиентов от несанкционированного доступа ботов. Хотя у Cloudflare уже есть инструмент для блокировки не уважающих robots.txt ботов, они решили пойти еще дальше. На сайтах пользователей, которые включат AI Labyrinth, появятся скрытые ссылки на страницы со сгенерированным с помощью LLM синтетическим контентом на научные темы и дальнейшими ссылками. Чтобы не ломать честные поисковики, страницы содержат соответствующие meta-теги типа noindex. Нечестные же сборщики данных обнаружат на этих страницах дальнейшие ссылки на синтетические страницы. При этом авторы утверждают, что нормальный человек не пойдет на глубину в четыре клика, из которых один – по невидимой ссылке, читать AI slop, так что эти страницы действуют еще и как ханипот, позволяя собирать ботовую телеметрию и улучшать другие системы защиты.

При этом Cloudflare предоставляет доступ к этой системе бесплатно, то есть в целом солидная часть интернета сможет вскоре обзавестись подобной защитой. Так что если вы занимаетесь агентным поиском, стоит начать и правда уважать robots.txt и прочие просьбы владельцев сайтов, если дорожите привязанной к OpenAI-аккаунту кредиткой. Те, чей бизнес состоит в том, чтобы краулить сайты, скорее всего, найдут способ обнаруживать, что провалились в лабиринт, и если Cloudflare серьезны в своих намерениях, начнется гонка вооружений. Печальнее будет, если создатели сайтов будут добавлять такие механизмы не в дополнение, а вместо robots.txt как протест против ботов, как сейчас добавляют промтп-инъекции – это может привести к рискам типа unbounded consumption для легитимных приложений и сильно усложнит работу добросовестных ботов.

P.S. Книга Obfuscation за авторством Хелен Ниссенбаум рассказывает, что если вы стремитесь к конфиденциальности в мире надзорного капитализма, вам нужно не уменьшать поток данных, который от вас исходит, а наоборот, создавать их очень много. При этом большинство данных должно быть фейковыми, чтобы реальный сигнал о вашей личности, деятельности и интересах в них терялся. Ниссенбаум была соавтором двух браузерных protestware-плагинов – TrackMeNot, который отправлял от вашего имени в гугл кучу случайных запросов, загрязняя историю поисковых запросов, и AdNauseam, который в фоне кликает на все рекламные баннеры на странице, маскируя ваши реальные клики и тратя впустую деньги рекламодателей. Последний оказался настолько удачным, что Google выпилил его из стора и запретил установку в хроме. Интересно видеть, как этот подход находит все новые неожиданные применения.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/517

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

I want a secure messaging app, should I use Telegram? Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching.
from tw


Telegram llm security и каланы
FROM American