Nauka używania języka Python i pięknej zupy do skrobania

Daniel Marino

Wtorek, 31 grudnia 2024 09:08:28

Pokonywanie wyzwań związanych z przeglądaniem stron internetowych w witrynach handlu elektronicznego
Przeglądanie stron internetowych może być zarówno ekscytujące, jak i zniechęcające, szczególnie jeśli jesteś nowy w tym procesie. Wciąż pamiętam moją pierwszą próbę stworzenia dynamicznej strony internetowej – czułem się, jakbym próbował czytać książkę przez matowe szkło. Dzięki platformom takim jak Beautiful Soup możliwości są nieograniczone, ale wyzwania takie jak poruszanie się po skomplikowanych strukturach HTML mogą wystawić na próbę Twoją cierpliwość. 🧑‍💻
W tym scenariuszu pracujesz nad wyodrębnieniem danych z witryny handlu elektronicznego, ale elementy HTML wydają się nieuchwytne. Wiele witryn internetowych, takich jak ta, z którą masz do czynienia, wykorzystuje zagnieżdżone struktury lub dynamiczną zawartość, co utrudnia zlokalizowanie określonych elementów. Może to być frustrujące, zwłaszcza gdy dopiero zaczynasz korzystać z narzędzi takich jak Python i Beautiful Soup.
Ale nie martw się; każdy odnoszący sukcesy skrobak sieciowy zmagał się kiedyś z tą samą przeszkodą. Nauka analizowania struktury HTML, identyfikowania wzorców i udoskonalania selektorów to rytuał przejścia w świecie skrobania. Dzięki wytrwałości i kilku sprawdzonym technikom wkrótce opanujesz sztukę poruszania się nawet po najbardziej zawiłym kodzie HTML.
W tym artykule omówimy praktyczne strategie efektywnego poruszania się po HTML i wyodrębniania dokładnie tych elementów, których potrzebujesz. Od zrozumienia tagów po pracę z narzędziami dla programistów – te spostrzeżenia pozwolą Ci odnieść sukces. Zanurzmy się! 🌟

Rozkaz Przykład użycia

find_all Służy do pobierania wszystkich wystąpień określonego znacznika lub klasy HTML w dokumencie HTML. Na przykład zupa.find_all("div", class_="productContainer") pobiera wszystkie kontenery produktów na stronie.

requests.get Wysyła żądanie HTTP GET w celu pobrania nieprzetworzonej zawartości HTML z danego adresu URL. Przykład: odpowiedź = request.get(url) pobiera kod HTML strony do analizy.

BeautifulSoup Inicjuje parser HTML. Przykład: zupa = BeautifulSoup(response.content, "html.parser") przygotowuje treść HTML do dalszego przetwarzania.

find_element Używany z Selenium do lokalizowania pojedynczego elementu na stronie. Przykład: produkt.find_element(By.CLASS_NAME, "nazwa") pobiera nazwę produktu.

find_elements Podobny do find_element, ale pobiera wszystkie pasujące elementy. Przykład: Driver.find_elements(By.CLASS_NAME, "productContainer") pobiera wszystkie kontenery produktów do iteracji.

By.CLASS_NAME Strategia lokalizatora Selenium służąca do identyfikowania elementów według nazwy klasy. Przykład: By.CLASS_NAME, „cena” lokalizuje elementy o określonej klasie.

assertGreater Używane w testach jednostkowych w celu sprawdzenia, czy wartość jest większa od innej. Przykład: self.assertGreater(len(product_boxes), 0) zapewnia znalezienie produktów podczas skrobania.

ChromeDriverManager Automatycznie zarządza pobieraniem i konfiguracją Chrome WebDriver dla Selenium. Przykład: sterownik = webdriver.Chrome(service=Service(ChromeDriverManager().install())).

text Pobiera zawartość tekstową elementu HTML. Przykład: title = produkt.find("div", class_="name").text wyodrębnia widoczny tekst nazwy produktu.

unittest.TestCase Klasa z modułu unittest języka Python używana do definiowania przypadków testowych. Przykład: klasa TestWebScraper(unittest.TestCase) tworzy zestaw testów dla skrobaka.

Rozkaz	Przykład użycia
find_all	Służy do pobierania wszystkich wystąpień określonego znacznika lub klasy HTML w dokumencie HTML. Na przykład zupa.find_all("div", class_="productContainer") pobiera wszystkie kontenery produktów na stronie.
requests.get	Wysyła żądanie HTTP GET w celu pobrania nieprzetworzonej zawartości HTML z danego adresu URL. Przykład: odpowiedź = request.get(url) pobiera kod HTML strony do analizy.
BeautifulSoup	Inicjuje parser HTML. Przykład: zupa = BeautifulSoup(response.content, "html.parser") przygotowuje treść HTML do dalszego przetwarzania.
find_element	Używany z Selenium do lokalizowania pojedynczego elementu na stronie. Przykład: produkt.find_element(By.CLASS_NAME, "nazwa") pobiera nazwę produktu.
find_elements	Podobny do find_element, ale pobiera wszystkie pasujące elementy. Przykład: Driver.find_elements(By.CLASS_NAME, "productContainer") pobiera wszystkie kontenery produktów do iteracji.
By.CLASS_NAME	Strategia lokalizatora Selenium służąca do identyfikowania elementów według nazwy klasy. Przykład: By.CLASS_NAME, „cena” lokalizuje elementy o określonej klasie.
assertGreater	Używane w testach jednostkowych w celu sprawdzenia, czy wartość jest większa od innej. Przykład: self.assertGreater(len(product_boxes), 0) zapewnia znalezienie produktów podczas skrobania.
ChromeDriverManager	Automatycznie zarządza pobieraniem i konfiguracją Chrome WebDriver dla Selenium. Przykład: sterownik = webdriver.Chrome(service=Service(ChromeDriverManager().install())).
text	Pobiera zawartość tekstową elementu HTML. Przykład: title = produkt.find("div", class_="name").text wyodrębnia widoczny tekst nazwy produktu.
unittest.TestCase	Klasa z modułu unittest języka Python używana do definiowania przypadków testowych. Przykład: klasa TestWebScraper(unittest.TestCase) tworzy zestaw testów dla skrobaka.

Dzielenie się rozwiązaniami do skrobania sieci

Pierwszy skrypt wykorzystuje , popularna biblioteka Pythona do analizowania HTML, służąca do wyodrębniania danych z udostępnionej witryny e-commerce. Działa poprzez pobranie surowego kodu HTML za pomocą metody bibliotekę, a następnie analizuję ją za pomocą Beautiful Soup's . Po przeanalizowaniu kodu HTML skrypt identyfikuje określone elementy za pomocą znaczników i nazw klas, takich jak produktPojemnik, który zakłada zawijanie szczegółów produktu. To podejście jest skuteczne w przypadku statycznego kodu HTML, ale może powodować problemy, jeśli witryna korzysta z zawartości dynamicznej renderowanej przez JavaScript. Pamiętam, że zmagałem się z podobnymi problemami na dynamicznej stronie z przepisami — wszystko wydawało się prawidłowe, ale nie pojawiły się żadne dane! 🧑‍💻

W drugim skrypcie wchodzi w grę. Narzędzie to jest szczególnie przydatne w przypadku witryn, których treść ładowana jest poprzez JavaScript. Uruchamiając prawdziwą sesję przeglądarki, Selenium symuluje interakcję użytkownika z witryną. Dzięki temu może poczekać na załadowanie wszystkich elementów, a następnie wyodrębnić wymagane dane. Na przykład lokalizuje szczegóły produktu za pomocą lokalizatorów opartych na klasach, takich jak . Chociaż Selenium zapewnia potężne możliwości, wymaga ostrożnego zarządzania zasobami – na przykład pamiętania o wyjściu z sesji przeglądarki – w przeciwnym razie może zużywać nadmierną pamięć, jak dowiedziałem się podczas nocnej sesji debugowania, kiedy mój laptop się zawiesił! 🖥️

Inną kluczową cechą tych skryptów jest ich modułowa konstrukcja, dzięki czemu można je łatwo dostosować do różnych przypadków użycia. Skrypt testu jednostkowego wykorzystujący język Python framework zapewnia, że każda funkcja w logice skrobania działa poprawnie. Sprawdza, czy znaleziono pojemniki z produktami oraz czy wyodrębniono tytuły i ceny. Jest to szczególnie ważne dla zachowania niezawodności podczas pobierania zmian, ponieważ strony internetowe często aktualizują swoją strukturę. Pewnego razu, przeglądając witrynę blogową, zdałem sobie sprawę, jak ważne są takie testy — to, co działało w jednym tygodniu, psuło się w następnym, a testy pozwoliły mi zaoszczędzić wiele godzin na rozwiązywaniu problemów.

Skrypty te są również tworzone z myślą o optymalizacji i możliwości ponownego użycia. Izolując funkcje wielokrotnego użytku, takie jak pobieranie HTML i analizowanie elementów, mogą one obsługiwać inne strony lub kategorie w tej samej witrynie po niewielkich zmianach. Ta modułowość zapewnia możliwość rozbudowy projektu zgarniania. Ogólnie rzecz biorąc, połączenie Beautiful Soup i Selenium pozwala skutecznie stawić czoła zarówno statycznemu, jak i dynamicznemu skrobaniu treści. Dzięki cierpliwości i praktyce skrobanie stron internetowych zmieni się z frustrującego zadania w satysfakcjonujące narzędzie do gromadzenia danych. 🌟

Wyodrębnianie danych z witryn handlu elektronicznego przy użyciu pięknej zupy

Używanie Pythona i biblioteki Beautiful Soup do analizowania HTML i skrobania stron internetowych

from bs4 import BeautifulSoup
import requests

# URL of the target page
url = "https://www.noon.com/uae-en/sports-and-outdoors/exercise-and-fitness/yoga-16328/"

# Make a GET request to fetch the raw HTML content
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

# Find all product boxes
product_boxes = soup.find_all("div", class_="productContainer")

for product in product_boxes:
    # Extract the title
    title = product.find("div", class_="name").text if product.find("div", class_="name") else "No title"
    # Extract the price
    price = product.find("div", class_="price").text if product.find("div", class_="price") else "No price"
    print(f"Product: {title}, Price: {price}")

Dynamiczne skrobanie treści za pomocą Selenium

Używanie Pythona z Selenium do obsługi treści renderowanych w JavaScript

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# Set up Selenium WebDriver
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
url = "https://www.noon.com/uae-en/sports-and-outdoors/exercise-and-fitness/yoga-16328/"
driver.get(url)

# Wait for the products to load
products = driver.find_elements(By.CLASS_NAME, "productContainer")

for product in products:
    try:
        title = product.find_element(By.CLASS_NAME, "name").text
        price = product.find_element(By.CLASS_NAME, "price").text
        print(f"Product: {title}, Price: {price}")
    except:
        print("Error extracting product details")

driver.quit()

Testy jednostkowe pięknego skrobaka do zup

Używanie modułu unittest Pythona do sprawdzania logiki skrobania

import unittest
from bs4 import BeautifulSoup
import requests

class TestWebScraper(unittest.TestCase):
    def setUp(self):
        url = "https://www.noon.com/uae-en/sports-and-outdoors/exercise-and-fitness/yoga-16328/"
        response = requests.get(url)
        self.soup = BeautifulSoup(response.content, "html.parser")

    def test_product_extraction(self):
        product_boxes = self.soup.find_all("div", class_="productContainer")
        self.assertGreater(len(product_boxes), 0, "No products found")

    def test_title_extraction(self):
        first_product = self.soup.find("div", class_="productContainer")
        title = first_product.find("div", class_="name").text if first_product.find("div", class_="name") else None
        self.assertIsNotNone(title, "Title not extracted")

if __name__ == "__main__":
    unittest.main()

Odkrywanie zaawansowanych technik skrobania sieci

Kiedy mamy do czynienia ze złożonymi witrynami internetowymi do skrobania, jednym z istotnych aspektów, które należy wziąć pod uwagę, jest obsługa treści dynamicznych. Wiele nowoczesnych witryn internetowych wykorzystuje JavaScript do ładowania elementów po dostarczeniu początkowego kodu HTML. Oznacza to narzędzia takie jak , które analizują tylko statyczny kod HTML, mogą nie przechwycić wszystkich niezbędnych danych. W takich przypadkach zintegrowanie narzędzia do automatyzacji przeglądarki, takiego jak staje się niezbędne. Selenium może wchodzić w interakcję ze stroną internetową jak prawdziwy użytkownik, czekając na załadowanie elementów i odpowiednio wyodrębniając dane. Jest to szczególnie przydatne podczas skrobania witryn, które asynchronicznie renderują kluczowe elementy. 🌐

Kolejną istotną kwestią jest struktura witryny internetowej i jej podstawowy interfejs API. Niektóre strony internetowe udostępniają ustrukturyzowany punkt końcowy API używany do dynamicznego ładowania treści. Sprawdzając aktywność sieciową za pomocą narzędzi programistycznych, możesz odkryć, że dane JSON są łatwiejsze do wyodrębnienia niż HTML. Na przykład zamiast analizować wiele zagnieżdżonych tagów w celu uzyskania szczegółów produktu, możesz bezpośrednio pobrać obiekty JSON zawierające czyste, uporządkowane dane. Ta metoda jest szybsza, bardziej niezawodna i ogranicza niepotrzebne żądania serwera. Korzystanie z bibliotek takich jak Lub dla interakcji API to doskonałe podejście do optymalizacji wydajności.

Wreszcie nie można pominąć praktyk związanych z etycznym skrobaniem i przestrzeganiem warunków korzystania z serwisu. Podstawowe najlepsze praktyki to przestrzeganie pliku robots.txt, unikanie nadmiernego obciążenia serwera poprzez ograniczanie przepustowości i używanie nagłówków w celu naśladowania prawdziwego użytkownika. Dodawanie opóźnień między żądaniami lub korzystanie z bibliotek takich jak Lub , zapewnia płynną pracę. Kiedy po raz pierwszy zacząłem przeglądać strony internetowe, zignorowałem te wytyczne, co spowodowało zablokowanie mojego adresu IP – lekcja, której nie zapomnę! Zawsze bierz pod uwagę te czynniki, aby zapewnić wydajne i odpowiedzialne gromadzenie danych. 🌟

Jaka jest najlepsza biblioteka do analizowania HTML w Pythonie?
to jedna z najpopularniejszych bibliotek do analizowania HTML, oferująca łatwe w użyciu metody lokalizowania elementów na statycznej stronie internetowej.
Jak mogę zeskrobać treść renderowaną przez JavaScript?
Możesz użyć narzędzi takich jak , który może symulować interakcje użytkownika i czekać na dynamiczne załadowanie elementów w przeglądarce.
Jak zidentyfikować odpowiednie elementy HTML do skrobania?
Korzystając z narzędzi programistycznych przeglądarki, możesz sprawdzić i zidentyfikuj znaczniki, identyfikatory lub nazwy klas odpowiadające potrzebnym elementom.
Czy można zeskrobywać dane bez analizowania kodu HTML?
Tak, jeśli witryna posiada interfejs API, możesz bezpośrednio zażądać danych strukturalnych, korzystając z bibliotek takich jak Lub .
Jak uniknąć zablokowania podczas skrobania?
Użyj nagłówków typu naśladować prawdziwych użytkowników, dodawać opóźnienia między żądaniami i szanować plik robots.txt witryny.

Web scraping to umiejętność niezbędna do skutecznego gromadzenia danych, ale wymaga dostosowania podejścia do struktury witryny. Łącząc w przypadku analizowania HTML i narzędzi takich jak Selenium do stron dynamicznych można pokonać wiele typowych przeszkód w ekstrakcji danych.

Zrozumienie niuansów witryny docelowej, takich jak renderowanie JavaScript lub punkty końcowe API, ma kluczowe znaczenie dla sukcesu. Zawsze postępuj zgodnie z praktykami etycznymi, takimi jak ograniczanie żądań, aby uniknąć zablokowania. Dzięki wytrwałości i odpowiednim narzędziom nawet złożone projekty skrobania mogą stać się wykonalne i satysfakcjonujące. 🚀

Oficjalna dokumentacja dot Piękna zupa , biblioteka Pythona używana do analizowania dokumentów HTML i XML.
Wytyczne i najlepsze praktyki z Dokumentacja Selenu , który zapewnia wgląd w automatyzację działań przeglądarki w przypadku treści dynamicznych.
Spostrzeżenia z południa platforma e-commerce , konkretna witryna internetowa przeznaczona dla tego zadania skrobania sieci.
Techniki korzystania z żądań Pythona i obsługi API z witryny społeczności Prawdziwy Python .
Dodatkowe strategie i praktyki dotyczące skrobania etycznego pochodzą z: W stronę nauki o danych .

Nauka używania języka Python i pięknej zupy do skrobania sieci w dynamicznych witrynach internetowych

Dzielenie się rozwiązaniami do skrobania sieci

Wyodrębnianie danych z witryn handlu elektronicznego przy użyciu pięknej zupy

Dynamiczne skrobanie treści za pomocą Selenium

Testy jednostkowe pięknego skrobaka do zup

Odkrywanie zaawansowanych technik skrobania sieci