Telegram Group & Telegram Channel
Today I learned, что такое residential proxy.

Как известно всем ML практикам, датасет - это наше все. А для ряда задач данные вполне себе доступны в публичном интернете, правда, не всегда в формате "скачай и пользуйся". Короче, иногда без скрапинга никуда. И когда нужно скрапить очень много (миллионы и десятки миллионов объектов), возникают технические сложности.

Обычно сайты-доноры не хотят подвергаться скрапингу и сопротивляются: капчи, временные баны и так далее. На другой стороне этой борьбы щита и меча попытки мимикрировать под обычных пользователей - эмуляция браузера и, конечно, подмена IP при помощи проксей и VPN-ов. Впрочем, зачем я это пишу, вы это и так все знаете.

Так вот, очевидно, что не все прокси равны: сложно прикидываться обычным пользователем, когда IP явно указывает, что это AWS сервер. Логично, что нужны айпишники простых пользователей. Так вот, всякие сервисы, продающие прокси пачками, предлагают как "обычные" прокси, так и residentual - т.е. те, которые используются людьми, а не датацентрами. Разница в цене между ними у разных вендоров составляет примерно один порядок: $1 за гигабайт трафика через residentual прокси против $0.1 за обычный.

Вендоры утверждают, что у них десятки миллионов таких проксей. Возникает вопрос: а откуда они берутся?

Я нашел два сценария:
- можно самому осознанно сдавать свой канал в аренду за малую мзду. Например, Packetstream платит $0.1 (т.е. 10% от цены для покупателя) за гигабайт прокачанного трафика. Можно поставить приложение или запустить докер контейнер и сказочно обогатиться, я для эксперимента даже прокачал через виртуалку целых 7 мегабайт.
- паблишеры приложений могут выжимать со своих юзеров дополнительные пять центов в месяц, неявно внедряя такой SDK с прокси в свой продукт. Так что не удивляйтесь, когда очередная free-to-play игра вдруг сожрет у вас пару гигабайт мобильного трафика.

Ну и наверняка есть еще какое-то количество residential proxy, которые по сути своей ботнеты. Но, конечно, вендоры об этом не пишут - у них всегда ethical proxies, конечно.

P.S. Если кто-то знает секреты, как эффективно парсить Google на масштабе 3-5k RPS, напишите в комментариях или мне в личку (@arsenyinfo).



group-telegram.com/partially_unsupervised/158
Create:
Last Update:

Today I learned, что такое residential proxy.

Как известно всем ML практикам, датасет - это наше все. А для ряда задач данные вполне себе доступны в публичном интернете, правда, не всегда в формате "скачай и пользуйся". Короче, иногда без скрапинга никуда. И когда нужно скрапить очень много (миллионы и десятки миллионов объектов), возникают технические сложности.

Обычно сайты-доноры не хотят подвергаться скрапингу и сопротивляются: капчи, временные баны и так далее. На другой стороне этой борьбы щита и меча попытки мимикрировать под обычных пользователей - эмуляция браузера и, конечно, подмена IP при помощи проксей и VPN-ов. Впрочем, зачем я это пишу, вы это и так все знаете.

Так вот, очевидно, что не все прокси равны: сложно прикидываться обычным пользователем, когда IP явно указывает, что это AWS сервер. Логично, что нужны айпишники простых пользователей. Так вот, всякие сервисы, продающие прокси пачками, предлагают как "обычные" прокси, так и residentual - т.е. те, которые используются людьми, а не датацентрами. Разница в цене между ними у разных вендоров составляет примерно один порядок: $1 за гигабайт трафика через residentual прокси против $0.1 за обычный.

Вендоры утверждают, что у них десятки миллионов таких проксей. Возникает вопрос: а откуда они берутся?

Я нашел два сценария:
- можно самому осознанно сдавать свой канал в аренду за малую мзду. Например, Packetstream платит $0.1 (т.е. 10% от цены для покупателя) за гигабайт прокачанного трафика. Можно поставить приложение или запустить докер контейнер и сказочно обогатиться, я для эксперимента даже прокачал через виртуалку целых 7 мегабайт.
- паблишеры приложений могут выжимать со своих юзеров дополнительные пять центов в месяц, неявно внедряя такой SDK с прокси в свой продукт. Так что не удивляйтесь, когда очередная free-to-play игра вдруг сожрет у вас пару гигабайт мобильного трафика.

Ну и наверняка есть еще какое-то количество residential proxy, которые по сути своей ботнеты. Но, конечно, вендоры об этом не пишут - у них всегда ethical proxies, конечно.

P.S. Если кто-то знает секреты, как эффективно парсить Google на масштабе 3-5k RPS, напишите в комментариях или мне в личку (@arsenyinfo).

BY partially unsupervised


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/partially_unsupervised/158

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. Founder Pavel Durov says tech is meant to set you free You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp.
from kr


Telegram partially unsupervised
FROM American