파이썬 크롤링에 필요한 라이브러리 설치

carnival6103 2025. 2. 11. 20:05

파이썬으로 웹 크롤링을 하기 위해 필요한 주요 라이브러리와 설치 방법을 상세히 설명드릴게요. 이 라이브러리들은 웹 페이지에서 데이터를 추출하고 처리하는 데 매우 유용합니다.

1. BeautifulSoup

BeautifulSoup은 HTML과 XML 파일을 파싱하는 데 사용됩니다. 설치 방법은 다음과 같습니다:

pip install beautifulsoup4

또한, HTML 파싱을 위해 lxml 또는 html.parser를 사용할 수 있습니다:

pip install lxml

2. requests

requests는 HTTP 요청을 보내고 응답을 받는 데 사용됩니다. 설치 방법은 다음과 같습니다:

pip install requests

3. Selenium

Selenium은 웹 브라우저를 자동화하는 도구로, 동적 웹 페이지를 크롤링할 때 유용합니다. 설치 방법은 다음과 같습니다:

pip install selenium

Selenium을 사용하려면 웹 드라이버도 필요합니다. 예를 들어, Chrome 브라우저를 사용하려면 ChromeDriver를 다운로드하여 설치해야 합니다.

4. Scrapy

Scrapy는 고성능 웹 크롤링 및 스크래핑 프레임워크입니다. 설치 방법은 다음과 같습니다:

pip install scrapy

5. pandas

pandas는 데이터 분석 라이브러리로, 크롤링한 데이터를 처리하고 분석하는 데 유용합니다. 설치 방법은 다음과 같습니다:

pip install pandas

예제 코드

다음은 requests와 BeautifulSoup을 사용하여 간단한 웹 크롤러를 만드는 예제입니다:

import requests
from bs4 import BeautifulSoup

url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

print(soup.title.text)

이 예제는 주어진 URL의 제목을 출력합니다. 더 복잡한 작업을 위해 Selenium을 사용하여 브라우저를 자동화할 수도 있습니다. 예를 들어, 로그인 페이지를 자동으로 처리하거나 자바스크립트로 생성된 콘텐츠를 크롤링할 수 있습니다.