Telegram Group & Telegram Channel
Today I learned, что такое residential proxy.

Как известно всем ML практикам, датасет - это наше все. А для ряда задач данные вполне себе доступны в публичном интернете, правда, не всегда в формате "скачай и пользуйся". Короче, иногда без скрапинга никуда. И когда нужно скрапить очень много (миллионы и десятки миллионов объектов), возникают технические сложности.

Обычно сайты-доноры не хотят подвергаться скрапингу и сопротивляются: капчи, временные баны и так далее. На другой стороне этой борьбы щита и меча попытки мимикрировать под обычных пользователей - эмуляция браузера и, конечно, подмена IP при помощи проксей и VPN-ов. Впрочем, зачем я это пишу, вы это и так все знаете.

Так вот, очевидно, что не все прокси равны: сложно прикидываться обычным пользователем, когда IP явно указывает, что это AWS сервер. Логично, что нужны айпишники простых пользователей. Так вот, всякие сервисы, продающие прокси пачками, предлагают как "обычные" прокси, так и residentual - т.е. те, которые используются людьми, а не датацентрами. Разница в цене между ними у разных вендоров составляет примерно один порядок: $1 за гигабайт трафика через residentual прокси против $0.1 за обычный.

Вендоры утверждают, что у них десятки миллионов таких проксей. Возникает вопрос: а откуда они берутся?

Я нашел два сценария:
- можно самому осознанно сдавать свой канал в аренду за малую мзду. Например, Packetstream платит $0.1 (т.е. 10% от цены для покупателя) за гигабайт прокачанного трафика. Можно поставить приложение или запустить докер контейнер и сказочно обогатиться, я для эксперимента даже прокачал через виртуалку целых 7 мегабайт.
- паблишеры приложений могут выжимать со своих юзеров дополнительные пять центов в месяц, неявно внедряя такой SDK с прокси в свой продукт. Так что не удивляйтесь, когда очередная free-to-play игра вдруг сожрет у вас пару гигабайт мобильного трафика.

Ну и наверняка есть еще какое-то количество residential proxy, которые по сути своей ботнеты. Но, конечно, вендоры об этом не пишут - у них всегда ethical proxies, конечно.

P.S. Если кто-то знает секреты, как эффективно парсить Google на масштабе 3-5k RPS, напишите в комментариях или мне в личку (@arsenyinfo).



group-telegram.com/partially_unsupervised/158
Create:
Last Update:

Today I learned, что такое residential proxy.

Как известно всем ML практикам, датасет - это наше все. А для ряда задач данные вполне себе доступны в публичном интернете, правда, не всегда в формате "скачай и пользуйся". Короче, иногда без скрапинга никуда. И когда нужно скрапить очень много (миллионы и десятки миллионов объектов), возникают технические сложности.

Обычно сайты-доноры не хотят подвергаться скрапингу и сопротивляются: капчи, временные баны и так далее. На другой стороне этой борьбы щита и меча попытки мимикрировать под обычных пользователей - эмуляция браузера и, конечно, подмена IP при помощи проксей и VPN-ов. Впрочем, зачем я это пишу, вы это и так все знаете.

Так вот, очевидно, что не все прокси равны: сложно прикидываться обычным пользователем, когда IP явно указывает, что это AWS сервер. Логично, что нужны айпишники простых пользователей. Так вот, всякие сервисы, продающие прокси пачками, предлагают как "обычные" прокси, так и residentual - т.е. те, которые используются людьми, а не датацентрами. Разница в цене между ними у разных вендоров составляет примерно один порядок: $1 за гигабайт трафика через residentual прокси против $0.1 за обычный.

Вендоры утверждают, что у них десятки миллионов таких проксей. Возникает вопрос: а откуда они берутся?

Я нашел два сценария:
- можно самому осознанно сдавать свой канал в аренду за малую мзду. Например, Packetstream платит $0.1 (т.е. 10% от цены для покупателя) за гигабайт прокачанного трафика. Можно поставить приложение или запустить докер контейнер и сказочно обогатиться, я для эксперимента даже прокачал через виртуалку целых 7 мегабайт.
- паблишеры приложений могут выжимать со своих юзеров дополнительные пять центов в месяц, неявно внедряя такой SDK с прокси в свой продукт. Так что не удивляйтесь, когда очередная free-to-play игра вдруг сожрет у вас пару гигабайт мобильного трафика.

Ну и наверняка есть еще какое-то количество residential proxy, которые по сути своей ботнеты. Но, конечно, вендоры об этом не пишут - у них всегда ethical proxies, конечно.

P.S. Если кто-то знает секреты, как эффективно парсить Google на масштабе 3-5k RPS, напишите в комментариях или мне в личку (@arsenyinfo).

BY partially unsupervised


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/partially_unsupervised/158

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea.
from us


Telegram partially unsupervised
FROM American