Notice: file_put_contents(): Write of 7475 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 16384 of 23859 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Start Career in DS | Telegram Webview: start_ds/404 -
Telegram Group & Telegram Channel
✍️ Подробный пост про парсинг

В написании этого поста нам помог Семёнов Богдан, который имеет богатый опыт в парсинге 🙂. Давайте отблагодарим его сердечками под этим постом! ❤️

Вообще, процесс парсинга вебсайта можно разделить на два этапа:
1. Получение html-документа
2. Выбор нужной информации из этого документа

Для получения html-ины используют:
1. Обычный requests, если на сайте вообще нет защиты от парсинга
2. Инструменты для автоматизации веб-браузера, чтобы сайт пропустил вас:
- Selenium - читайте актуальную документацию, потому что, например, ChatGPT-3.5 выдает функции, которых уже нет
- Puppeteer

Для того, чтобы распарсить html-ину, можно использовать:
1. BeautifulSoup
2. Scrapy

📜 5 советов для парсинга:
1. Если на сайте стоит капча, то можно использовать патч Selenium, который не запускает антиботовые сервисы. Вот видос, как с его помощью можно распарсить LinkedIn (внимание, некоторые методы Selenium-а оттуда устарели)
2. Для того, чтобы не быть забаненным по IP, нужно использовать прокси. Вообще, есть разные виды прокси. В идеале использовать ротирующиеся прокси, чтобы они постоянно менялись, и их не банили.
А можно делать так:
– Закупаете несколько (штук 5) прокси (например, тут)
– Пишете код, чтобы менять их с некоторой частотой (норм руководство)
3. Если капча кастомная, то вам, скорее всего придётся вводить её вручную. Для того, чтобы пришёл сигнал, что с парсером что-то пошло не так, можно сделать простенького бота в телеграме, который будет уведомлять вас (если хотите пост про создание тг ботов - давайте наберем 50 огоньков🔥)
4. Seleniumом парсить долго. Ускорить парсинг можно, забирая cookies и headers из Selenium-а, и кидая их в requests. Но это может работать не на всех сайтах(
5. Иногда Selenium залагивает, чтобы бороться с этим, можно ставить ему таймауты –, например, если страница не прогрузилась за 60 секунд, стопать процесс селениума и пересоздавать с этого же урла новый.

Ещё несколько классных советов есть в этой статье, обязательно прочитайте её 🙂
И ставьте сердечки ❤️ под этим постом, если было полезно (если наберем 250, расскажем про парсинг с мобильных приложений)
76🔥47👍12



group-telegram.com/start_ds/404
Create:
Last Update:

✍️ Подробный пост про парсинг

В написании этого поста нам помог Семёнов Богдан, который имеет богатый опыт в парсинге 🙂. Давайте отблагодарим его сердечками под этим постом! ❤️

Вообще, процесс парсинга вебсайта можно разделить на два этапа:
1. Получение html-документа
2. Выбор нужной информации из этого документа

Для получения html-ины используют:
1. Обычный requests, если на сайте вообще нет защиты от парсинга
2. Инструменты для автоматизации веб-браузера, чтобы сайт пропустил вас:
- Selenium - читайте актуальную документацию, потому что, например, ChatGPT-3.5 выдает функции, которых уже нет
- Puppeteer

Для того, чтобы распарсить html-ину, можно использовать:
1. BeautifulSoup
2. Scrapy

📜 5 советов для парсинга:
1. Если на сайте стоит капча, то можно использовать патч Selenium, который не запускает антиботовые сервисы. Вот видос, как с его помощью можно распарсить LinkedIn (внимание, некоторые методы Selenium-а оттуда устарели)
2. Для того, чтобы не быть забаненным по IP, нужно использовать прокси. Вообще, есть разные виды прокси. В идеале использовать ротирующиеся прокси, чтобы они постоянно менялись, и их не банили.
А можно делать так:
– Закупаете несколько (штук 5) прокси (например, тут)
– Пишете код, чтобы менять их с некоторой частотой (норм руководство)
3. Если капча кастомная, то вам, скорее всего придётся вводить её вручную. Для того, чтобы пришёл сигнал, что с парсером что-то пошло не так, можно сделать простенького бота в телеграме, который будет уведомлять вас (если хотите пост про создание тг ботов - давайте наберем 50 огоньков🔥)
4. Seleniumом парсить долго. Ускорить парсинг можно, забирая cookies и headers из Selenium-а, и кидая их в requests. Но это может работать не на всех сайтах(
5. Иногда Selenium залагивает, чтобы бороться с этим, можно ставить ему таймауты –, например, если страница не прогрузилась за 60 секунд, стопать процесс селениума и пересоздавать с этого же урла новый.

Ещё несколько классных советов есть в этой статье, обязательно прочитайте её 🙂
И ставьте сердечки ❤️ под этим постом, если было полезно (если наберем 250, расскажем про парсинг с мобильных приложений)

BY Start Career in DS




Share with your friend now:
group-telegram.com/start_ds/404

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment.
from vn


Telegram Start Career in DS
FROM American