동적 웹사이트에서 웹 스크래핑을 위해

Daniel Marino

2024년 12월 31일 화요일 오전 8:44:00

전자상거래 사이트의 웹 스크래핑 문제 극복
웹 스크래핑은 흥미롭기도 하고 어려울 수도 있습니다. 특히 해당 프로세스를 처음 접하는 경우에는 더욱 그렇습니다. 나는 동적 웹사이트를 스크래핑하려는 첫 번째 시도를 아직도 기억합니다. 마치 젖빛 유리를 통해 책을 읽으려는 느낌이었습니다. Beautiful Soup과 같은 플랫폼을 사용하면 가능성은 무궁무진하지만 복잡한 HTML 구조 탐색과 같은 과제는 인내심을 테스트할 수 있습니다. 🧑‍💻
이 시나리오에서는 전자 상거래 웹 사이트에서 데이터를 추출하는 작업을 하고 있지만 HTML 요소는 파악하기 어려운 것 같습니다. 귀하가 다루고 있는 웹사이트와 같은 많은 웹사이트는 특정 요소를 찾기 어렵게 만드는 중첩된 구조나 동적 콘텐츠를 사용합니다. 특히 Python 및 Beautiful Soup과 같은 도구를 막 시작하는 경우에는 좌절감을 느낄 수 있습니다.
하지만 걱정하지 마세요. 성공적인 모든 웹 스크레이퍼는 한때 이와 동일한 장애물로 어려움을 겪었습니다. HTML 구조를 분석하고, 패턴을 식별하고, 선택기를 개선하는 방법을 배우는 것은 스크래핑 세계의 통과 의례입니다. 끈기와 몇 가지 검증된 기술을 사용하면 가장 복잡한 HTML도 탐색하는 기술을 곧 마스터하게 될 것입니다.
이 기사에서는 HTML을 효율적으로 탐색하고 필요한 정확한 요소를 추출하기 위한 실용적인 전략을 살펴보겠습니다. 태그 이해부터 개발자 도구 사용에 이르기까지 이러한 통찰력이 성공을 위한 밑거름이 될 것입니다. 뛰어 들어보세요! 🌟

명령 사용예

find_all HTML 문서에서 특정 HTML 태그 또는 클래스의 모든 인스턴스를 검색하는 데 사용됩니다. 예를 들어 Soup.find_all("div", class_="productContainer")는 페이지의 모든 제품 컨테이너를 검색합니다.

requests.get 주어진 URL의 원시 HTML 콘텐츠를 가져오기 위해 HTTP GET 요청을 만듭니다. 예: response = request.get(url)은 구문 분석을 위해 페이지 HTML을 검색합니다.

BeautifulSoup HTML 파서를 초기화합니다. 예: Soup = BeautifulSoup(response.content, "html.parser")는 추가 처리를 위해 HTML 콘텐츠를 준비합니다.

find_element 페이지에서 단일 요소를 찾기 위해 Selenium과 함께 사용됩니다. 예: product.find_element(By.CLASS_NAME, "name")은 제품 이름을 검색합니다.

find_elements find_element와 유사하지만 일치하는 모든 요소를 검색합니다. 예: drivers.find_elements(By.CLASS_NAME, "productContainer")는 반복을 위해 모든 제품 컨테이너를 가져옵니다.

By.CLASS_NAME 클래스 이름으로 요소를 식별하는 Selenium 로케이터 전략입니다. 예: By.CLASS_NAME, "price"는 지정된 클래스를 가진 요소를 찾습니다.

assertGreater 값이 다른 값보다 큰지 확인하기 위해 단위 테스트에 사용됩니다. 예: self.assertGreater(len(product_boxes), 0)은 스크래핑 중에 제품이 발견되도록 합니다.

ChromeDriverManager Selenium용 Chrome WebDriver의 다운로드 및 설정을 자동으로 관리합니다. 예: 드라이버 = webdriver.Chrome(service=Service(ChromeDriverManager().install())).

text HTML 요소의 텍스트 콘텐츠를 검색합니다. 예: title = product.find("div", class_="name").text는 제품 이름에 대해 표시되는 텍스트를 추출합니다.

unittest.TestCase 테스트 사례를 정의하는 데 사용되는 Python 단위 테스트 모듈의 클래스입니다. 예: TestWebScraper(unittest.TestCase) 클래스는 스크레이퍼에 대한 테스트 모음을 생성합니다.

명령	사용예
find_all	HTML 문서에서 특정 HTML 태그 또는 클래스의 모든 인스턴스를 검색하는 데 사용됩니다. 예를 들어 Soup.find_all("div", class_="productContainer")는 페이지의 모든 제품 컨테이너를 검색합니다.
requests.get	주어진 URL의 원시 HTML 콘텐츠를 가져오기 위해 HTTP GET 요청을 만듭니다. 예: response = request.get(url)은 구문 분석을 위해 페이지 HTML을 검색합니다.
BeautifulSoup	HTML 파서를 초기화합니다. 예: Soup = BeautifulSoup(response.content, "html.parser")는 추가 처리를 위해 HTML 콘텐츠를 준비합니다.
find_element	페이지에서 단일 요소를 찾기 위해 Selenium과 함께 사용됩니다. 예: product.find_element(By.CLASS_NAME, "name")은 제품 이름을 검색합니다.
find_elements	find_element와 유사하지만 일치하는 모든 요소를 검색합니다. 예: drivers.find_elements(By.CLASS_NAME, "productContainer")는 반복을 위해 모든 제품 컨테이너를 가져옵니다.
By.CLASS_NAME	클래스 이름으로 요소를 식별하는 Selenium 로케이터 전략입니다. 예: By.CLASS_NAME, "price"는 지정된 클래스를 가진 요소를 찾습니다.
assertGreater	값이 다른 값보다 큰지 확인하기 위해 단위 테스트에 사용됩니다. 예: self.assertGreater(len(product_boxes), 0)은 스크래핑 중에 제품이 발견되도록 합니다.
ChromeDriverManager	Selenium용 Chrome WebDriver의 다운로드 및 설정을 자동으로 관리합니다. 예: 드라이버 = webdriver.Chrome(service=Service(ChromeDriverManager().install())).
text	HTML 요소의 텍스트 콘텐츠를 검색합니다. 예: title = product.find("div", class_="name").text는 제품 이름에 대해 표시되는 텍스트를 추출합니다.
unittest.TestCase	테스트 사례를 정의하는 데 사용되는 Python 단위 테스트 모듈의 클래스입니다. 예: TestWebScraper(unittest.TestCase) 클래스는 스크레이퍼에 대한 테스트 모음을 생성합니다.

웹 스크래핑 솔루션 분석

첫 번째 스크립트는 다음을 활용합니다. , HTML 구문 분석을 위한 인기 있는 Python 라이브러리)를 사용하여 제공된 전자 상거래 사이트에서 데이터를 추출합니다. 이는 다음을 사용하여 원시 HTML을 가져오는 방식으로 작동합니다. 라이브러리를 찾은 다음 Beautiful Soup's로 구문 분석합니다. . HTML이 구문 분석되면 스크립트는 태그와 클래스 이름을 사용하여 특정 요소를 식별합니다. 제품컨테이너, 제품 세부정보를 래핑하는 것으로 가정됩니다. 이 접근 방식은 정적 HTML에는 효율적이지만 웹 사이트가 JavaScript로 렌더링된 동적 콘텐츠를 사용하는 경우 어려움을 겪을 수 있습니다. 동적 레시피 웹사이트에서 비슷한 문제로 어려움을 겪었던 기억이 납니다. 모든 것이 올바른 것처럼 보였지만 데이터가 나타나지 않았습니다! 🧑‍💻

두 번째 스크립트에서는 작용합니다. 이 도구는 JavaScript를 통해 로드된 콘텐츠가 있는 사이트에 특히 유용합니다. 실제 브라우저 세션을 시작함으로써 Selenium은 사이트와 상호 작용하는 사용자를 시뮬레이션합니다. 이를 통해 모든 요소가 로드될 때까지 기다린 다음 필요한 데이터를 추출할 수 있습니다. 예를 들어 다음과 같은 클래스 기반 로케이터를 사용하여 제품 세부정보를 찾습니다. . Selenium은 강력한 기능을 제공하지만 브라우저 세션 종료를 기억하는 것과 같은 신중한 리소스 관리가 필요합니다. 그렇지 않으면 과도한 메모리를 소비할 수 있습니다. 심야 디버깅 세션에서 랩탑이 정지되었을 때 알게 된 사실입니다! 🖥️

이 스크립트의 또 다른 주요 기능은 모듈식 설계로, 다양한 사용 사례에 쉽게 적응할 수 있습니다. Python을 사용한 단위 테스트 스크립트 프레임워크는 스크래핑 로직의 각 기능이 올바르게 수행되도록 보장합니다. 제품 컨테이너가 발견되었는지, 제목과 가격이 추출되었는지 확인합니다. 웹 사이트는 종종 구조를 업데이트하므로 변경 사항을 스크랩할 때 안정성을 유지하는 데 특히 중요합니다. 한번은 블로그 사이트를 스크랩하면서 그러한 테스트의 중요성을 깨달았습니다. 한 주 동안 효과가 있었던 것이 다음 주에는 실패했고 테스트를 통해 문제 해결 시간을 절약할 수 있었습니다.

이러한 스크립트는 최적화와 재사용성을 염두에 두고 구축되었습니다. HTML 가져오기 및 요소 구문 분석과 같은 재사용 가능한 기능을 분리함으로써 약간의 조정만으로 동일한 사이트의 다른 페이지나 카테고리를 처리할 수 있습니다. 이 모듈성은 스크래핑 프로젝트 확장을 관리 가능한 상태로 유지하도록 보장합니다. 전반적으로 Beautiful Soup과 Selenium을 결합하면 정적 및 동적 콘텐츠 스크래핑을 효과적으로 처리할 수 있습니다. 인내심과 연습을 통해 웹 스크래핑은 실망스러운 작업에서 데이터 수집을 위한 보람 있는 도구로 변모합니다. 🌟

Beautiful Soup을 사용하여 전자상거래 사이트에서 데이터 추출

HTML 구문 분석 및 웹 스크래핑을 위해 Python 및 Beautiful Soup 라이브러리 사용

from bs4 import BeautifulSoup
import requests

# URL of the target page
url = "https://www.noon.com/uae-en/sports-and-outdoors/exercise-and-fitness/yoga-16328/"

# Make a GET request to fetch the raw HTML content
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

# Find all product boxes
product_boxes = soup.find_all("div", class_="productContainer")

for product in product_boxes:
    # Extract the title
    title = product.find("div", class_="name").text if product.find("div", class_="name") else "No title"
    # Extract the price
    price = product.find("div", class_="price").text if product.find("div", class_="price") else "No price"
    print(f"Product: {title}, Price: {price}")

Selenium을 사용한 동적 콘텐츠 스크래핑

JavaScript로 렌더링된 콘텐츠 처리를 위해 Python과 Selenium 사용

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# Set up Selenium WebDriver
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
url = "https://www.noon.com/uae-en/sports-and-outdoors/exercise-and-fitness/yoga-16328/"
driver.get(url)

# Wait for the products to load
products = driver.find_elements(By.CLASS_NAME, "productContainer")

for product in products:
    try:
        title = product.find_element(By.CLASS_NAME, "name").text
        price = product.find_element(By.CLASS_NAME, "price").text
        print(f"Product: {title}, Price: {price}")
    except:
        print("Error extracting product details")

driver.quit()

아름다운 수프 스크레이퍼에 대한 단위 테스트

Python의 단위 테스트 모듈을 사용하여 스크래핑 논리 검증

import unittest
from bs4 import BeautifulSoup
import requests

class TestWebScraper(unittest.TestCase):
    def setUp(self):
        url = "https://www.noon.com/uae-en/sports-and-outdoors/exercise-and-fitness/yoga-16328/"
        response = requests.get(url)
        self.soup = BeautifulSoup(response.content, "html.parser")

    def test_product_extraction(self):
        product_boxes = self.soup.find_all("div", class_="productContainer")
        self.assertGreater(len(product_boxes), 0, "No products found")

    def test_title_extraction(self):
        first_product = self.soup.find("div", class_="productContainer")
        title = first_product.find("div", class_="name").text if first_product.find("div", class_="name") else None
        self.assertIsNotNone(title, "Title not extracted")

if __name__ == "__main__":
    unittest.main()

웹 스크래핑의 고급 기술 탐색

웹 스크래핑을 위해 복잡한 웹사이트를 다룰 때 고려해야 할 중요한 측면 중 하나는 동적 콘텐츠를 처리하는 것입니다. 많은 최신 웹사이트는 초기 HTML이 전달된 후 요소를 로드하기 위해 JavaScript를 사용합니다. 이는 다음과 같은 도구를 의미합니다. 정적 HTML만 구문 분석하는 는 필요한 모든 데이터를 캡처하지 못할 수 있습니다. 이러한 경우 다음과 같은 브라우저 자동화 도구를 통합하면 됩니다. 필수가 됩니다. Selenium은 실제 사용자처럼 웹사이트와 상호 작용할 수 있으며, 요소가 로드될 때까지 기다리고 그에 따라 데이터를 추출할 수 있습니다. 이는 핵심 요소를 비동기적으로 렌더링하는 사이트를 스크랩할 때 특히 유용합니다. 🌐

또 다른 중요한 고려 사항은 웹 사이트의 구조와 기본 API입니다. 일부 웹사이트는 콘텐츠를 동적으로 로드하는 데 사용되는 구조화된 API 엔드포인트를 노출합니다. 개발자 도구를 통해 네트워크 활동을 검사하면 HTML보다 추출하기 쉬운 JSON 데이터를 발견할 수 있습니다. 예를 들어 제품 세부 정보에 대해 여러 개의 중첩 태그를 구문 분석하는 대신 깔끔하고 구조화된 데이터가 포함된 JSON 개체를 직접 가져올 수 있습니다. 이 방법은 더 빠르고 안정적이며 불필요한 서버 요청을 줄입니다. 다음과 같은 라이브러리를 사용하여 또는 API 상호 작용을 위한 것은 성능을 최적화하는 탁월한 접근 방식입니다.

마지막으로, 윤리적인 스크래핑 관행과 웹사이트 서비스 약관 준수도 간과할 수 없습니다. robots.txt를 존중하고, 조절을 통해 과도한 서버 로드를 방지하고, 헤더를 사용하여 실제 사용자를 모방하는 것이 기본적인 모범 사례입니다. 요청 사이에 지연을 추가하거나 다음과 같은 라이브러리를 사용합니다. 또는 , 원활한 작동을 보장합니다. 처음 웹 스크래핑을 시작했을 때 이 지침을 무시하여 IP가 차단되었습니다. 이 교훈은 잊지 못할 것입니다! 효율적이고 책임감 있는 데이터 수집을 보장하려면 항상 이러한 요소를 고려하십시오. 🌟

Python에서 HTML을 구문 분석하는 데 가장 적합한 라이브러리는 무엇입니까?
HTML 구문 분석을 위한 가장 인기 있는 라이브러리 중 하나이며 정적 웹 페이지에서 요소를 찾는 데 사용하기 쉬운 방법을 제공합니다.
JavaScript로 렌더링된 콘텐츠를 어떻게 긁을 수 있나요?
다음과 같은 도구를 사용할 수 있습니다. , 사용자 상호 작용을 시뮬레이션하고 요소가 브라우저에 동적으로 로드될 때까지 기다릴 수 있습니다.
스크래핑에 적합한 HTML 요소를 어떻게 식별합니까?
브라우저의 개발자 도구를 사용하여 다음을 검사할 수 있습니다. 필요한 요소에 해당하는 태그, ID 또는 클래스 이름을 식별합니다.
HTML을 구문 분석하지 않고 데이터를 긁어내는 것이 가능합니까?
예, 웹사이트에 API가 있으면 다음과 같은 라이브러리를 사용하여 구조화된 데이터를 직접 요청할 수 있습니다. 또는 .
스크래핑하는 동안 차단되는 것을 어떻게 방지할 수 있나요?
다음과 같은 헤더를 사용하세요. 실제 사용자를 모방하고, 요청 사이에 지연을 추가하고, 사이트의 robots.txt 파일을 존중합니다.

웹 스크래핑은 데이터를 효율적으로 수집하는 데 필수적인 기술이지만 웹 사이트 구조에 맞게 접근 방식을 조정해야 합니다. 결합하여 동적 페이지용 Selenium과 같은 HTML 구문 분석 및 도구의 경우 데이터 추출 시 흔히 발생하는 많은 장애물을 극복할 수 있습니다.

JavaScript 렌더링이나 API 엔드포인트 등 대상 사이트의 미묘한 차이를 이해하는 것이 성공을 위해 매우 중요합니다. 차단되지 않도록 요청 제한과 같은 윤리적 관행을 항상 따르십시오. 지속성과 올바른 도구를 사용하면 복잡한 스크래핑 프로젝트도 관리하기 쉽고 보람을 느낄 수 있습니다. 🚀

에 대한 공식 문서 아름다운 수프 , HTML 및 XML 문서를 구문 분석하는 데 사용되는 Python 라이브러리입니다.
가이드라인 및 모범 사례 셀레늄 문서 , 동적 콘텐츠에 대한 브라우저 작업 자동화에 대한 통찰력을 제공합니다.
Noon’s의 인사이트 전자상거래 플랫폼 , 이 웹 스크래핑 작업을 대상으로 하는 특정 웹사이트입니다.
커뮤니티 사이트에서 Python 요청 및 API 처리를 사용하는 기술 실제 파이썬 .
추가 전략 및 윤리적 스크랩 관행은 다음에서 제공됩니다. 데이터 과학을 향하여 .

동적 웹사이트에서 웹 스크래핑을 위해 Python과 Beautiful Soup을 사용하는 방법 배우기

웹 스크래핑 솔루션 분석

Beautiful Soup을 사용하여 전자상거래 사이트에서 데이터 추출

Selenium을 사용한 동적 콘텐츠 스크래핑

아름다운 수프 스크레이퍼에 대한 단위 테스트

웹 스크래핑의 고급 기술 탐색