Telegram Group & Telegram Channel
😈 Ловушка Джокера для GPT-5: 😈

https://zadzmo.org/code/nepenthes/

Описание с сайта:

This is a tarpit intended to catch web crawlers. Specifically, it's targetting crawlers that scrape data for LLM's - but really, like the plants it is named after, it'll eat just about anything that finds it's way inside.

It works by generating an endless sequences of pages, each of which with dozens of links, that simply go back into a the tarpit. Pages are randomly generated, but in a deterministic way, causing them to appear to be flat files that never change. Intentional delay is added to prevent crawlers from bogging down your server, in addition to wasting their time. Lastly, optional Markov-babble can be added to the pages, to give the crawlers something to scrape up and train their LLMs on, hopefully accelerating model collapse.


Демонстрация работы: https://zadzmo.org/nepenthes-demo/

Tl;Dr: чел придумал софт, с помощью которого можно генерировать бесконечное количество статических страниц с мусорным текстом и ссылками на такие же мусорные тексты. Цель - загнать crawler-а (поискового робота), который пытается полностью выкачать ваш сайт, в бесконечный лабиринт, из которого нет выхода и заставить возвращать своим хозяевам тонны мусора. Предполагается, что таким образом можно испортить новые соскрапленные с интернета датасеты для будущих LLM-ок и устроить им коллапс. 😠

Конкретно эта попытка, конечно, наивна, т.к. мусор здесь генерируется марковской цепью, а такое легко задетектировать на этапе очистки датасета перед тренировкой модели. Кроме того, такой сайт будет иметь очевидно аномальную структуру и, как следствие, быстро улетит в черный список при обходе, так что и времени на него тоже много не потратится. Но в целом идея такого адверсариального замусоривания чужих датасетов выглядит занимательно. Я легко могу себе представить более совершенную версию такого генератора, который будет создавать плохо детектируемый искусственный контент и более реалистичную структуру ссылок. Я не знаю, зачем этим занимается автор данного конкретного софта, но, возможно, какая-нибудь AI компания, создающая собственные LLM-ки, и правда в будущем начнет использовать подобное для ухудшения обучения LLM-ок конкурентов.

What a time to be alive? 🥴🥴🥴 #технокек
Please open Telegram to view this post
VIEW IN TELEGRAM
😁68231413👍115🔥44



group-telegram.com/tech_priestess/1975
Create:
Last Update:

😈 Ловушка Джокера для GPT-5: 😈

https://zadzmo.org/code/nepenthes/

Описание с сайта:

This is a tarpit intended to catch web crawlers. Specifically, it's targetting crawlers that scrape data for LLM's - but really, like the plants it is named after, it'll eat just about anything that finds it's way inside.

It works by generating an endless sequences of pages, each of which with dozens of links, that simply go back into a the tarpit. Pages are randomly generated, but in a deterministic way, causing them to appear to be flat files that never change. Intentional delay is added to prevent crawlers from bogging down your server, in addition to wasting their time. Lastly, optional Markov-babble can be added to the pages, to give the crawlers something to scrape up and train their LLMs on, hopefully accelerating model collapse.


Демонстрация работы: https://zadzmo.org/nepenthes-demo/

Tl;Dr: чел придумал софт, с помощью которого можно генерировать бесконечное количество статических страниц с мусорным текстом и ссылками на такие же мусорные тексты. Цель - загнать crawler-а (поискового робота), который пытается полностью выкачать ваш сайт, в бесконечный лабиринт, из которого нет выхода и заставить возвращать своим хозяевам тонны мусора. Предполагается, что таким образом можно испортить новые соскрапленные с интернета датасеты для будущих LLM-ок и устроить им коллапс. 😠

Конкретно эта попытка, конечно, наивна, т.к. мусор здесь генерируется марковской цепью, а такое легко задетектировать на этапе очистки датасета перед тренировкой модели. Кроме того, такой сайт будет иметь очевидно аномальную структуру и, как следствие, быстро улетит в черный список при обходе, так что и времени на него тоже много не потратится. Но в целом идея такого адверсариального замусоривания чужих датасетов выглядит занимательно. Я легко могу себе представить более совершенную версию такого генератора, который будет создавать плохо детектируемый искусственный контент и более реалистичную структуру ссылок. Я не знаю, зачем этим занимается автор данного конкретного софта, но, возможно, какая-нибудь AI компания, создающая собственные LLM-ки, и правда в будущем начнет использовать подобное для ухудшения обучения LLM-ок конкурентов.

What a time to be alive? 🥴🥴🥴 #технокек

BY Техножрица 👩‍💻👩‍🏫👩‍🔧


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/tech_priestess/1975

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments.
from us


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American