Notice: file_put_contents(): Write of 4260 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
Warning: file_put_contents(): Only 16384 of 20644 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50 Техножрица 👩💻👩🏫👩🔧 | Telegram Webview: tech_priestess/1975 -
This is a tarpit intended to catch web crawlers. Specifically, it's targetting crawlers that scrape data for LLM's - but really, like the plants it is named after, it'll eat just about anything that finds it's way inside.
It works by generating an endless sequences of pages, each of which with dozens of links, that simply go back into a the tarpit. Pages are randomly generated, but in a deterministic way, causing them to appear to be flat files that never change. Intentional delay is added to prevent crawlers from bogging down your server, in addition to wasting their time. Lastly, optional Markov-babble can be added to the pages, to give the crawlers something to scrape up and train their LLMs on, hopefully accelerating model collapse.
Tl;Dr: чел придумал софт, с помощью которого можно генерировать бесконечное количество статических страниц с мусорным текстом и ссылками на такие же мусорные тексты. Цель - загнать crawler-а (поискового робота), который пытается полностью выкачать ваш сайт, в бесконечный лабиринт, из которого нет выхода и заставить возвращать своим хозяевам тонны мусора. Предполагается, что таким образом можно испортить новые соскрапленные с интернета датасеты для будущих LLM-ок и устроить им коллапс. 😠
Конкретно эта попытка, конечно, наивна, т.к. мусор здесь генерируется марковской цепью, а такое легко задетектировать на этапе очистки датасета перед тренировкой модели. Кроме того, такой сайт будет иметь очевидно аномальную структуру и, как следствие, быстро улетит в черный список при обходе, так что и времени на него тоже много не потратится. Но в целом идея такого адверсариального замусоривания чужих датасетов выглядит занимательно. Я легко могу себе представить более совершенную версию такого генератора, который будет создавать плохо детектируемый искусственный контент и более реалистичную структуру ссылок. Я не знаю, зачем этим занимается автор данного конкретного софта, но, возможно, какая-нибудь AI компания, создающая собственные LLM-ки, и правда в будущем начнет использовать подобное для ухудшения обучения LLM-ок конкурентов.
This is a tarpit intended to catch web crawlers. Specifically, it's targetting crawlers that scrape data for LLM's - but really, like the plants it is named after, it'll eat just about anything that finds it's way inside.
It works by generating an endless sequences of pages, each of which with dozens of links, that simply go back into a the tarpit. Pages are randomly generated, but in a deterministic way, causing them to appear to be flat files that never change. Intentional delay is added to prevent crawlers from bogging down your server, in addition to wasting their time. Lastly, optional Markov-babble can be added to the pages, to give the crawlers something to scrape up and train their LLMs on, hopefully accelerating model collapse.
Tl;Dr: чел придумал софт, с помощью которого можно генерировать бесконечное количество статических страниц с мусорным текстом и ссылками на такие же мусорные тексты. Цель - загнать crawler-а (поискового робота), который пытается полностью выкачать ваш сайт, в бесконечный лабиринт, из которого нет выхода и заставить возвращать своим хозяевам тонны мусора. Предполагается, что таким образом можно испортить новые соскрапленные с интернета датасеты для будущих LLM-ок и устроить им коллапс. 😠
Конкретно эта попытка, конечно, наивна, т.к. мусор здесь генерируется марковской цепью, а такое легко задетектировать на этапе очистки датасета перед тренировкой модели. Кроме того, такой сайт будет иметь очевидно аномальную структуру и, как следствие, быстро улетит в черный список при обходе, так что и времени на него тоже много не потратится. Но в целом идея такого адверсариального замусоривания чужих датасетов выглядит занимательно. Я легко могу себе представить более совершенную версию такого генератора, который будет создавать плохо детектируемый искусственный контент и более реалистичную структуру ссылок. Я не знаю, зачем этим занимается автор данного конкретного софта, но, возможно, какая-нибудь AI компания, создающая собственные LLM-ки, и правда в будущем начнет использовать подобное для ухудшения обучения LLM-ок конкурентов.
What a time to be alive? 🥴🥴🥴 #технокек
BY Техножрица 👩💻👩🏫👩🔧
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine.
from us