Главная страница » Статьи » Парсинг сайтов на Python: полное руководство для начинающих

Парсинг сайтов на Python: полное руководство для начинающих

Введение

Представьте ситуацию: вам нужно собрать цены с 10 сайтов конкурентов, или вы хотите создать свою базу контактов для email-маркетинга. Делать это вручную — долго и муторно. А вот парсинг сайтов на Python справится за считанные минуты.

Python — один из самых популярных языков для парсинга. Почему? Потому что он прост в освоении, а его экосистема предлагает множество готовых решений: requests, BeautifulSoup, Selenium и другие.

В этой статье мы разберём:

Что такое парсинг и зачем он нужен
Какие библиотеки использовать
Как спарсить динамический сайт
Как не попасть под бан
Где хранить результаты

Также покажем рабочие примеры парсинга на Python , расскажем о защите от парсинга сайта и как с ней работать. Если ты новичок — не бойся: начнём с самого начала.

Если тебе нужно быстро получить данные с сайтов — парсинг на Python станет твоим лучшим помощником. Он позволяет автоматически собирать информацию: заголовки, тексты, цены, телефоны, ссылки — всё, что есть на странице.

Что такое парсинг сайтов и зачем он нужен?

Простыми словами, парсинг сайта — это автоматическое «выдергивание» нужной информации со страниц. Ты пишешь скрипт, он сам переходит по ссылкам, собирает данные и сохраняет их в удобный формат — например, CSV или JSON.

Основные задачи, где пригодится парсинг:

Сбор цен, характеристик товаров или контактных данных
Анализ рынка и мониторинг конкурентов
Подготовка данных для машинного обучения
Автоматизация рутинных операций

Когда имеет смысл парсить сайты?

Когда сайт не даёт API
Когда нужно часто обновлять данные
Когда нужно сравнить много информации

⚠️ Только помни: не все сайты разрешают парсинг. Читай правила использования и уважай закон.

Какие библиотеки использовать для парсинга на Python?

В Python есть масса инструментов для парсинга. Вот самые популярные:

Для статических сайтов

Библиотека	Что делает
`BeautifulSoup`	Извлекает данные из HTML и XML
`lxml`	Быстрый парсер, работает с BeautifulSoup
`requests`	Отправляет запросы к серверу и получает ответ

Для динамических сайтов

Библиотека	Особенности
`Selenium`	Эмулирует реальный браузер, работает с JS
`Playwright`	Более современная альтернатива Selenium
`Scrapy-Splash`	Интеграция с движком рендеринга JavaScript

Полезные дополнения

fake-useragent — чтобы менять User-Agent и маскироваться под человека
proxies — меняй IP, чтобы не попасть под бан
pandas — удобно хранить и анализировать собранные данные

Пример простого парсинга сайта на Python

Давайте сделаем простой парсер, который соберёт заголовки статей с сайта.

Шаг 1. Установи нужные библиотеки

pip install requests beautifulsoup4

Шаг 2. Напиши код

import requests
from bs4 import BeautifulSoup

url = 'https://example.com '
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

for title in soup.find_all('h2'):
    print(title.text)

Этот код:

Запрашивает страницу
Преобразует её в объект BeautifulSoup
Находит все <h2> и выводит их текст

Шаг 3. Сохрани данные в CSV

import csv

with open('results.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(['Title'])
    for title in titles:
        writer.writerow([title])

Как спарсить динамический сайт?

Не все сайты отдают данные сразу. Многие используют JavaScript — тогда обычный requests ничего не найдёт.

Почему так происходит?

Сайты с JS загружают контент после загрузки страницы. То есть, когда вы делаете запрос через requests, вы получаете пустую обёртку без данных.

Как обойти?

Используйте библиотеки, которые умеют выполнять JavaScript:

Selenium
Playwright
Scrapy-Splash

Пример с Playwright:

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch()
    page = browser.new_page()
    page.goto('https://some-js-site.com ')
    content = page.content()
    browser.close()

Как обойти защиту от парсинга?

Многие сайты не любят ботов. Они могут:

Заблокировать IP
Попросить пройти CAPTCHA
Запретить доступ по User-Agent

Как себя вести «по-человечески»?

Добавь паузы между запросами (time.sleep(2))
Используй прокси
Меняй User-Agent
Не грузи сайт слишком часто

Пример с заголовками:

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
}
response = requests.get(url, headers=headers)

FAQ: Ответы на частые вопросы

Можно ли парсить любой сайт?

Нет. Некоторые сайты запрещают парсинг в условиях использования. Всегда проверяй политику сайта.

Какая библиотека лучше для парсинга?

Для простых задач — BeautifulSoup. Для сложных сайтов с JS — Selenium или Playwright.

Как не попасть под бан?

Добавь задержки, используй прокси и меняй заголовки.

Как спарсить сайт с капчей?

Автоматически сложно. Можно использовать сервисы распознавания CAPTCHA или искать API сайта.

Где сохранять результаты?

Часто используют CSV, JSON или Excel. Для больших объёмов — SQLite или PostgreSQL.

Заключение

Парсинг сайтов на Python — это мощный, но простой в освоении инструмент. Он поможет собирать данные быстро и эффективно. Главное — следовать правилам, выбирать подходящие библиотеки и не забывать про безопасность.

Ссылки

Автор: Алексей Юрьев — фрилансер Python-разработчик с 10 летним стажем.