Pythonìì HTMLì êµ¬ë¬¸ ë¶ìíë ë° ê°ì¥ ì í©í ë¼ì´ë¸ë¬ë¦¬ë ë¬´ììëê¹?

JavaScriptë¡ ë ëë§ë ì½íì¸ ë¥¼ ì´ë»ê² ê¸ì ì ìëì?

ë¤ìê³¼ ê°ì ëêµ¬ë¥¼ ì¬ì©í ì ììµëë¤. Selenium, ì¬ì©ì ìí¸ ìì©ì ìë®¬ë ì´ìíê³ ììê° ë¸ë¼ì°ì ì ëì ì¼ë¡ ë¡ëë ëê¹ì§ ê¸°ë¤ë¦´ ì ììµëë¤.

ì¤í¬ëíì ì í©í HTML ììë¥¼ ì´ë»ê² ìë³í©ëê¹?

ë¸ë¼ì°ì ì ê°ë°ì ëêµ¬ë¥¼ ì¬ì©íì¬ ë¤ìì ê²ì¬í ì ììµëë¤. DOM structure íìí ììì í´ë¹íë íê·¸, ID ëë í´ëì¤ ì´ë¦ì ìë³í©ëë¤.

ì¤í¬ëííë ëì ì°¨ë¨ëë ê²ì ì´ë»ê² ë°©ì§í ì ìëì?

ë¤ìê³¼ ê°ì í¤ëë¥¼ ì¬ì©íì¸ì. User-Agent ì¤ì ì¬ì©ìë¥¼ ëª¨ë°©íê³ , ìì² ì¬ì´ì ì§ì°ì ì¶ê°íê³ , ì¬ì´í¸ì robots.txt íì¼ì ì¡´ì¤í©ëë¤.

ì ëí ê³µì ë¬¸ì ìë¦ë¤ì´ ìí, HTML ë° XML ë¬¸ìë¥¼ êµ¬ë¬¸ ë¶ìíë ë° ì¬ì©ëë Python ë¼ì´ë¸ë¬ë¦¬ìëë¤.

ê°ì´ëë¼ì¸ ë° ëª¨ë² ì¬ë¡ ìë ë ë¬¸ì, ëì ì½íì¸ ì ëí ë¸ë¼ì°ì ìì ìëíì ëí íµì°°ë ¥ì ì ê³µí©ëë¤.

Noonâsì ì¸ì¬ì´í¸ ì ììê±°ë íë«í¼, ì´ ì¹ ì¤í¬ëí ììì ëìì¼ë¡ íë í¹ì ì¹ì¬ì´í¸ìëë¤.

동적 웹사이트에서 웹 스크래핑을 위해

Daniel Marino

2024년 12월 31일 화요일 오전 8:44:00

전자상거래 사이트의 웹 스크래핑 문제 극복

웹 스크래핑은 흥미롭기도 하고 어려울 수도 있습니다. 특히 해당 프로세스를 처음 접하는 경우에는 더욱 그렇습니다. 나는 동적 웹사이트를 스크래핑하려는 첫 번째 시도를 아직도 기억합니다. 마치 젖빛 유리를 통해 책을 읽으려는 느낌이었습니다. Beautiful Soup과 같은 플랫폼을 사용하면 가능성은 무궁무진하지만 복잡한 HTML 구조 탐색과 같은 과제는 인내심을 테스트할 수 있습니다. 🧑‍💻

이 시나리오에서는 전자 상거래 웹 사이트에서 데이터를 추출하는 작업을 하고 있지만 HTML 요소는 파악하기 어려운 것 같습니다. 귀하가 다루고 있는 웹사이트와 같은 많은 웹사이트는 특정 요소를 찾기 어렵게 만드는 중첩된 구조나 동적 콘텐츠를 사용합니다. 특히 Python 및 Beautiful Soup과 같은 도구를 막 시작하는 경우에는 좌절감을 느낄 수 있습니다.

하지만 걱정하지 마세요. 성공적인 모든 웹 스크레이퍼는 한때 이와 동일한 장애물로 어려움을 겪었습니다. HTML 구조를 분석하고, 패턴을 식별하고, 선택기를 개선하는 방법을 배우는 것은 스크래핑 세계의 통과 의례입니다. 끈기와 몇 가지 검증된 기술을 사용하면 가장 복잡한 HTML도 탐색하는 기술을 곧 마스터하게 될 것입니다.

이 기사에서는 HTML을 효율적으로 탐색하고 필요한 정확한 요소를 추출하기 위한 실용적인 전략을 살펴보겠습니다. 태그 이해부터 개발자 도구 사용에 이르기까지 이러한 통찰력이 성공을 위한 밑거름이 될 것입니다. 뛰어 들어보세요! 🌟

명령	사용예
find_all	HTML 문서에서 특정 HTML 태그 또는 클래스의 모든 인스턴스를 검색하는 데 사용됩니다. 예를 들어 Soup.find_all("div", class_="productContainer")는 페이지의 모든 제품 컨테이너를 검색합니다.
requests.get	주어진 URL의 원시 HTML 콘텐츠를 가져오기 위해 HTTP GET 요청을 만듭니다. 예: response = request.get(url)은 구문 분석을 위해 페이지 HTML을 검색합니다.
BeautifulSoup	HTML 파서를 초기화합니다. 예: Soup = BeautifulSoup(response.content, "html.parser")는 추가 처리를 위해 HTML 콘텐츠를 준비합니다.
find_element	페이지에서 단일 요소를 찾기 위해 Selenium과 함께 사용됩니다. 예: product.find_element(By.CLASS_NAME, "name")은 제품 이름을 검색합니다.
find_elements	find_element와 유사하지만 일치하는 모든 요소를 검색합니다. 예: drivers.find_elements(By.CLASS_NAME, "productContainer")는 반복을 위해 모든 제품 컨테이너를 가져옵니다.
By.CLASS_NAME	클래스 이름으로 요소를 식별하는 Selenium 로케이터 전략입니다. 예: By.CLASS_NAME, "price"는 지정된 클래스를 가진 요소를 찾습니다.
assertGreater	값이 다른 값보다 큰지 확인하기 위해 단위 테스트에 사용됩니다. 예: self.assertGreater(len(product_boxes), 0)은 스크래핑 중에 제품이 발견되도록 합니다.
ChromeDriverManager	Selenium용 Chrome WebDriver의 다운로드 및 설정을 자동으로 관리합니다. 예: 드라이버 = webdriver.Chrome(service=Service(ChromeDriverManager().install())).
text	HTML 요소의 텍스트 콘텐츠를 검색합니다. 예: title = product.find("div", class_="name").text는 제품 이름에 대해 표시되는 텍스트를 추출합니다.
unittest.TestCase	테스트 사례를 정의하는 데 사용되는 Python 단위 테스트 모듈의 클래스입니다. 예: TestWebScraper(unittest.TestCase) 클래스는 스크레이퍼에 대한 테스트 모음을 생성합니다.

웹 스크래핑 솔루션 분석

첫 번째 스크립트는 다음을 활용합니다. 아름다운 수프, HTML 구문 분석을 위한 인기 있는 Python 라이브러리)를 사용하여 제공된 전자 상거래 사이트에서 데이터를 추출합니다. 이는 다음을 사용하여 원시 HTML을 가져오는 방식으로 작동합니다. 요청 라이브러리를 찾은 다음 Beautiful Soup's로 구문 분석합니다. html.파서. HTML이 구문 분석되면 스크립트는 태그와 클래스 이름을 사용하여 특정 요소를 식별합니다. 제품컨테이너, 제품 세부정보를 래핑하는 것으로 가정됩니다. 이 접근 방식은 정적 HTML에는 효율적이지만 웹 사이트가 JavaScript로 렌더링된 동적 콘텐츠를 사용하는 경우 어려움을 겪을 수 있습니다. 동적 레시피 웹사이트에서 비슷한 문제로 어려움을 겪었던 기억이 납니다. 모든 것이 올바른 것처럼 보였지만 데이터가 나타나지 않았습니다! 🧑‍💻

두 번째 스크립트에서는 셀렌 작용합니다. 이 도구는 JavaScript를 통해 로드된 콘텐츠가 있는 사이트에 특히 유용합니다. 실제 브라우저 세션을 시작함으로써 Selenium은 사이트와 상호 작용하는 사용자를 시뮬레이션합니다. 이를 통해 모든 요소가 로드될 때까지 기다린 다음 필요한 데이터를 추출할 수 있습니다. 예를 들어 다음과 같은 클래스 기반 로케이터를 사용하여 제품 세부정보를 찾습니다. 작성자.CLASS_NAME. Selenium은 강력한 기능을 제공하지만 브라우저 세션 종료를 기억하는 것과 같은 신중한 리소스 관리가 필요합니다. 그렇지 않으면 과도한 메모리를 소비할 수 있습니다. 심야 디버깅 세션에서 랩탑이 정지되었을 때 알게 된 사실입니다! 🖥️

이 스크립트의 또 다른 주요 기능은 모듈식 설계로, 다양한 사용 사례에 쉽게 적응할 수 있습니다. Python을 사용한 단위 테스트 스크립트 단위 테스트 프레임워크는 스크래핑 로직의 각 기능이 올바르게 수행되도록 보장합니다. 제품 컨테이너가 발견되었는지, 제목과 가격이 추출되었는지 확인합니다. 웹 사이트는 종종 구조를 업데이트하므로 변경 사항을 스크랩할 때 안정성을 유지하는 데 특히 중요합니다. 한번은 블로그 사이트를 스크랩하면서 그러한 테스트의 중요성을 깨달았습니다. 한 주 동안 효과가 있었던 것이 다음 주에는 실패했고 테스트를 통해 문제 해결 시간을 절약할 수 있었습니다.

이러한 스크립트는 최적화와 재사용성을 염두에 두고 구축되었습니다. HTML 가져오기 및 요소 구문 분석과 같은 재사용 가능한 기능을 분리함으로써 약간의 조정만으로 동일한 사이트의 다른 페이지나 카테고리를 처리할 수 있습니다. 이 모듈성은 스크래핑 프로젝트 확장을 관리 가능한 상태로 유지하도록 보장합니다. 전반적으로 Beautiful Soup과 Selenium을 결합하면 정적 및 동적 콘텐츠 스크래핑을 효과적으로 처리할 수 있습니다. 인내심과 연습을 통해 웹 스크래핑은 실망스러운 작업에서 데이터 수집을 위한 보람 있는 도구로 변모합니다. 🌟

Beautiful Soup을 사용하여 전자상거래 사이트에서 데이터 추출

HTML 구문 분석 및 웹 스크래핑을 위해 Python 및 Beautiful Soup 라이브러리 사용

from bs4 import BeautifulSoup
import requests

# URL of the target page
url = "https://www.noon.com/uae-en/sports-and-outdoors/exercise-and-fitness/yoga-16328/"

# Make a GET request to fetch the raw HTML content
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

# Find all product boxes
product_boxes = soup.find_all("div", class_="productContainer")

for product in product_boxes:
    # Extract the title
    title = product.find("div", class_="name").text if product.find("div", class_="name") else "No title"
    # Extract the price
    price = product.find("div", class_="price").text if product.find("div", class_="price") else "No price"
    print(f"Product: {title}, Price: {price}")

Selenium을 사용한 동적 콘텐츠 스크래핑

JavaScript로 렌더링된 콘텐츠 처리를 위해 Python과 Selenium 사용

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# Set up Selenium WebDriver
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
url = "https://www.noon.com/uae-en/sports-and-outdoors/exercise-and-fitness/yoga-16328/"
driver.get(url)

# Wait for the products to load
products = driver.find_elements(By.CLASS_NAME, "productContainer")

for product in products:
    try:
        title = product.find_element(By.CLASS_NAME, "name").text
        price = product.find_element(By.CLASS_NAME, "price").text
        print(f"Product: {title}, Price: {price}")
    except:
        print("Error extracting product details")

driver.quit()

아름다운 수프 스크레이퍼에 대한 단위 테스트

Python의 단위 테스트 모듈을 사용하여 스크래핑 논리 검증

import unittest
from bs4 import BeautifulSoup
import requests

class TestWebScraper(unittest.TestCase):
    def setUp(self):
        url = "https://www.noon.com/uae-en/sports-and-outdoors/exercise-and-fitness/yoga-16328/"
        response = requests.get(url)
        self.soup = BeautifulSoup(response.content, "html.parser")

    def test_product_extraction(self):
        product_boxes = self.soup.find_all("div", class_="productContainer")
        self.assertGreater(len(product_boxes), 0, "No products found")

    def test_title_extraction(self):
        first_product = self.soup.find("div", class_="productContainer")
        title = first_product.find("div", class_="name").text if first_product.find("div", class_="name") else None
        self.assertIsNotNone(title, "Title not extracted")

if __name__ == "__main__":
    unittest.main()

웹 스크래핑의 고급 기술 탐색

웹 스크래핑을 위해 복잡한 웹사이트를 다룰 때 고려해야 할 중요한 측면 중 하나는 동적 콘텐츠를 처리하는 것입니다. 많은 최신 웹사이트는 초기 HTML이 전달된 후 요소를 로드하기 위해 JavaScript를 사용합니다. 이는 다음과 같은 도구를 의미합니다. 아름다운 수프정적 HTML만 구문 분석하는 는 필요한 모든 데이터를 캡처하지 못할 수 있습니다. 이러한 경우 다음과 같은 브라우저 자동화 도구를 통합하면 됩니다. 셀렌 필수가 됩니다. Selenium은 실제 사용자처럼 웹사이트와 상호 작용할 수 있으며, 요소가 로드될 때까지 기다리고 그에 따라 데이터를 추출할 수 있습니다. 이는 핵심 요소를 비동기적으로 렌더링하는 사이트를 스크랩할 때 특히 유용합니다. 🌐

또 다른 중요한 고려 사항은 웹 사이트의 구조와 기본 API입니다. 일부 웹사이트는 콘텐츠를 동적으로 로드하는 데 사용되는 구조화된 API 엔드포인트를 노출합니다. 개발자 도구를 통해 네트워크 활동을 검사하면 HTML보다 추출하기 쉬운 JSON 데이터를 발견할 수 있습니다. 예를 들어 제품 세부 정보에 대해 여러 개의 중첩 태그를 구문 분석하는 대신 깔끔하고 구조화된 데이터가 포함된 JSON 개체를 직접 가져올 수 있습니다. 이 방법은 더 빠르고 안정적이며 불필요한 서버 요청을 줄입니다. 다음과 같은 라이브러리를 사용하여 요청 또는 httpx API 상호 작용을 위한 것은 성능을 최적화하는 탁월한 접근 방식입니다.

마지막으로, 윤리적인 스크래핑 관행과 웹사이트 서비스 약관 준수도 간과할 수 없습니다. robots.txt를 존중하고, 조절을 통해 과도한 서버 로드를 방지하고, 헤더를 사용하여 실제 사용자를 모방하는 것이 기본적인 모범 사례입니다. 요청 사이에 지연을 추가하거나 다음과 같은 라이브러리를 사용합니다. 시간 또는 비동기, 원활한 작동을 보장합니다. 처음 웹 스크래핑을 시작했을 때 이 지침을 무시하여 IP가 차단되었습니다. 이 교훈은 잊지 못할 것입니다! 효율적이고 책임감 있는 데이터 수집을 보장하려면 항상 이러한 요소를 고려하십시오. 🌟

Python을 사용한 웹 스크래핑에 대해 자주 묻는 질문

Python에서 HTML을 구문 분석하는 데 가장 적합한 라이브러리는 무엇입니까?
아름다운 수프 HTML 구문 분석을 위한 가장 인기 있는 라이브러리 중 하나이며 정적 웹 페이지에서 요소를 찾는 데 사용하기 쉬운 방법을 제공합니다.
JavaScript로 렌더링된 콘텐츠를 어떻게 긁을 수 있나요?
다음과 같은 도구를 사용할 수 있습니다. Selenium, 사용자 상호 작용을 시뮬레이션하고 요소가 브라우저에 동적으로 로드될 때까지 기다릴 수 있습니다.
스크래핑에 적합한 HTML 요소를 어떻게 식별합니까?
브라우저의 개발자 도구를 사용하여 다음을 검사할 수 있습니다. DOM structure 필요한 요소에 해당하는 태그, ID 또는 클래스 이름을 식별합니다.
HTML을 구문 분석하지 않고 데이터를 긁어내는 것이 가능합니까?
예, 웹사이트에 API가 있으면 다음과 같은 라이브러리를 사용하여 구조화된 데이터를 직접 요청할 수 있습니다. requests 또는 httpx.
스크래핑하는 동안 차단되는 것을 어떻게 방지할 수 있나요?
다음과 같은 헤더를 사용하세요. "User-Agent" 실제 사용자를 모방하고, 요청 사이에 지연을 추가하고, 사이트의 robots.txt 파일을 존중합니다.

효과적인 웹 스크래핑을 위한 핵심 사항

웹 스크래핑은 데이터를 효율적으로 수집하는 데 필수적인 기술이지만 웹 사이트 구조에 맞게 접근 방식을 조정해야 합니다. 결합하여 아름다운 수프 동적 페이지용 Selenium과 같은 HTML 구문 분석 및 도구의 경우 데이터 추출 시 흔히 발생하는 많은 장애물을 극복할 수 있습니다.

JavaScript 렌더링이나 API 엔드포인트 등 대상 사이트의 미묘한 차이를 이해하는 것이 성공을 위해 매우 중요합니다. 차단되지 않도록 요청 제한과 같은 윤리적 관행을 항상 따르십시오. 지속성과 올바른 도구를 사용하면 복잡한 스크래핑 프로젝트도 관리하기 쉽고 보람을 느낄 수 있습니다. 🚀

출처 및 참고자료

에 대한 공식 문서 아름다운 수프 , HTML 및 XML 문서를 구문 분석하는 데 사용되는 Python 라이브러리입니다.
가이드라인 및 모범 사례 셀레늄 문서 , 동적 콘텐츠에 대한 브라우저 작업 자동화에 대한 통찰력을 제공합니다.
Noon’s의 인사이트 전자상거래 플랫폼 , 이 웹 스크래핑 작업을 대상으로 하는 특정 웹사이트입니다.
커뮤니티 사이트에서 Python 요청 및 API 처리를 사용하는 기술 실제 파이썬 .
추가 전략 및 윤리적 스크랩 관행은 다음에서 제공됩니다. 데이터 과학을 향하여 .

동적 웹사이트에서 웹 스크래핑을 위해 Python과 Beautiful Soup을 사용하는 방법 배우기