Kako koristiti Python 3.x za preuzimanje URL-a s web

Mia Chevalier

četvrtak, 3. listopada 2024. u 05:14:01

Prevladavanje izazova pri preuzimanju sadržaja sa stranica koje ovise o JavaScriptu
Kada koristite Python za automatiziranje preuzimanja s web stranica, možete se susresti sa situacijama u kojima web stranica zahtijeva da JavaScript bude omogućen za pravilan rad. To može biti frustrirajuće, kao što to knjižnice vole nisu dizajnirani za rukovanje izvršavanjem JavaScripta. Jedan takav primjer je JFrog Artifactory, koji zahtijeva JavaScript za prikaz sadržaja ili dopuštanje preuzimanja.
U tradicionalnom struganju weba možete koristiti ili za dohvaćanje sadržaja web stranice. Međutim, za stranice koje se uvelike oslanjaju na JavaScript, te biblioteke nisu uspješne jer ne mogu podnijeti dinamičko prikazivanje sadržaja. Stoga će vam trebati napredniji alati za prevladavanje ovog ograničenja.
Srećom, Python nudi alternative za rukovanje stranicama s omogućenim JavaScriptom. Alati poput ili omogućiti potpunu emulaciju preglednika, omogućujući vam interakciju i preuzimanje sadržaja s takvih stranica. Ove biblioteke mogu simulirati stvarno okruženje preglednika u kojem je JavaScript u potpunosti podržan.
Ovaj članak će istražiti kako se prebaciti s korištenja u sposobnije knjižnice za pristup i preuzimanje sadržaja s web-stranica s omogućenim JavaScriptom, osiguravajući glatko izvođenje zadataka automatizacije.

Naredba Primjer upotrebe

webdriver.Chrome() Inicijalizira instancu preglednika Chrome u Seleniumu. Ova je naredba ključna za simulaciju okruženja preglednika za učitavanje stranica s velikim brojem JavaScripta.

options.add_argument('--headless') Konfigurira preglednik Selenium za rad u bezglavom načinu rada, što znači da preglednik radi bez GUI-ja. Ovo je korisno za pokretanje automatiziranih skripti bez prikazivanja prozora preglednika.

time.sleep() Pauzira izvršavanje skripte na određeno vrijeme. U tom kontekstu, daje vremena da se JavaScript na web-stranici potpuno učita prije nastavka sa sljedećim radnjama.

page.content() U Pyppeteeru ova naredba dohvaća cijeli sadržaj web stranice, uključujući dinamički prikazani JavaScript sadržaj, koji je neophodan za spremanje konačnog HTML izlaza.

await page.waitForSelector() Čeka da se određeni HTML element učita prije nastavka. Ovo je presudno kada se radi o stranicama s puno JavaScripta kako bi se osiguralo da su potrebni elementi prikazani prije izdvajanja sadržaja.

session.get() Ova naredba iz Requests-HTML šalje GET zahtjev na navedeni URL. Ovdje se koristi za dohvaćanje web stranice prije prikazivanja bilo koje komponente JavaScripta.

response.html.render() Izvršava JavaScript na web stranici unutar biblioteke Requests-HTML. Ova je naredba ključna za rukovanje stranicama s omogućenim JavaScriptom bez potrebe za potpunim preglednikom.

launch(headless=True) Pokreće preglednik bez glave u Pyppeteeru, sličan Seleniumu. To omogućuje skripti pristup i interakciju s web-stranicama s puno JavaScripta bez otvaranja grafičkog prozora preglednika.

with open() Otvara datoteku za pisanje u Pythonu. U ovom slučaju, koristi se za spremanje HTML sadržaja dohvaćenog s web stranice u datoteku za daljnju obradu ili analizu.

Naredba	Primjer upotrebe
webdriver.Chrome()	Inicijalizira instancu preglednika Chrome u Seleniumu. Ova je naredba ključna za simulaciju okruženja preglednika za učitavanje stranica s velikim brojem JavaScripta.
options.add_argument('--headless')	Konfigurira preglednik Selenium za rad u bezglavom načinu rada, što znači da preglednik radi bez GUI-ja. Ovo je korisno za pokretanje automatiziranih skripti bez prikazivanja prozora preglednika.
time.sleep()	Pauzira izvršavanje skripte na određeno vrijeme. U tom kontekstu, daje vremena da se JavaScript na web-stranici potpuno učita prije nastavka sa sljedećim radnjama.
page.content()	U Pyppeteeru ova naredba dohvaća cijeli sadržaj web stranice, uključujući dinamički prikazani JavaScript sadržaj, koji je neophodan za spremanje konačnog HTML izlaza.
await page.waitForSelector()	Čeka da se određeni HTML element učita prije nastavka. Ovo je presudno kada se radi o stranicama s puno JavaScripta kako bi se osiguralo da su potrebni elementi prikazani prije izdvajanja sadržaja.
session.get()	Ova naredba iz Requests-HTML šalje GET zahtjev na navedeni URL. Ovdje se koristi za dohvaćanje web stranice prije prikazivanja bilo koje komponente JavaScripta.
response.html.render()	Izvršava JavaScript na web stranici unutar biblioteke Requests-HTML. Ova je naredba ključna za rukovanje stranicama s omogućenim JavaScriptom bez potrebe za potpunim preglednikom.
launch(headless=True)	Pokreće preglednik bez glave u Pyppeteeru, sličan Seleniumu. To omogućuje skripti pristup i interakciju s web-stranicama s puno JavaScripta bez otvaranja grafičkog prozora preglednika.
with open()	Otvara datoteku za pisanje u Pythonu. U ovom slučaju, koristi se za spremanje HTML sadržaja dohvaćenog s web stranice u datoteku za daljnju obradu ili analizu.

Korištenje Pythona za preuzimanje sa stranica s omogućenim JavaScriptom

U tradicionalnom Python struganju weba, knjižnice poput često se koriste za preuzimanje sadržaja izravno s web stranica. Međutim, kada se radi o stranicama s velikim brojem JavaScripta, kao što je JFrog Artifactory, ove biblioteke podbacuju. Primarni razlog je taj što web stranica zahtijeva JavaScript za dinamičko učitavanje sadržaja, što zahtjevi ne mogu podnijeti. Da bismo to prevladali, uveli smo rješenja poput , , i Zahtjevi-HTML, koji omogućuju izvršavanje JavaScripta. Ovi alati simuliraju okruženje preglednika, omogućujući Python skriptama pristup i preuzimanje sadržaja s web stranica koje se oslanjaju na JavaScript.

Prvi pristup koji koristi Selenium uključuje pokretanje instance preglednika koji može renderirati JavaScript. Omogućuje nam da pričekamo da se stranica potpuno učita prije izdvajanja izvornog koda stranice. Ovo je osobito korisno kada se sadržaj stranice dinamički generira. Na primjer, pomoću naredba inicijalizira preglednik i zatim pristupa ciljnom URL-u. Korištenjem , osiguravamo dovoljno vremena da se JavaScript učita. Na kraju, ekstrahirani sadržaj stranice sprema se u datoteku, pružajući nam traženu web stranicu u statičkom obliku.

U drugom pristupu koristili smo Pyppeteer, Python omotač za Puppeteer. Pyppeteer je još jedan moćan alat dizajniran za rukovanje izvršavanjem JavaScripta. Kao i Selenium, Pyppeteer pokreće bezglavi preglednik koji navigira do web stranice, čeka da se JavaScript izvrši, a zatim dohvaća sadržaj. Ključna prednost korištenja Pyppeteera je ta što pruža veću kontrolu nad sesijom pregledavanja, kao što je čekanje da se određeni elementi učitaju pomoću naredbi poput . To osigurava da je traženi sadržaj stranice u potpunosti prikazan prije nego što ga skripta pokuša preuzeti.

Treće rješenje koristi biblioteku Requests-HTML, koja pojednostavljuje proces renderiranja JavaScripta bez potrebe za potpunim preglednikom kao što je Selenium ili Pyppeteer. Pomoću Requests-HTML možemo pokrenuti HTTP sesiju pomoću za dohvaćanje web stranice, zatim izvršite JavaScript s metoda. Ovo rješenje je lakše u usporedbi s pristupima simulacije potpunog preglednika i često je prikladnije kada vam ne trebaju dodatni troškovi punog preglednika. Posebno je koristan za jednostavnije JavaScript operacije, što ga čini optimalnim izborom za specifične slučajeve upotrebe.

Preuzimanje URL-ova sa stranicama s omogućenim JavaScriptom u Pythonu

Ovo rješenje koristi Selenium, Python biblioteku, za rukovanje stranicama s velikim brojem JavaScripta. Selenium vam omogućuje kontrolu web preglednika, omogućujući vam simulaciju izvršavanja JavaScripta i dohvaćanje dinamičkog sadržaja.

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
import time
def download_using_selenium(url, username, apikey):
    # Setup Selenium WebDriver
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
    driver.get(url)
    time.sleep(3)  # Wait for JavaScript to load
    
    # Assuming basic authentication via URL for this example
    auth_url = f'{url}?username={username}&password={apikey}'
    driver.get(auth_url)
    
    # Extract content
    page_content = driver.page_source
    
    # Save to file
    with open("download_selenium.html", "w") as file:
        file.write(page_content)
    
    driver.quit()
    print("Download complete using Selenium.")

Korištenje Pyppeteera za preuzimanje stranica s omogućenim JavaScriptom

Ovo rješenje koristi Pyppeteer, Python priključak za Puppeteer (bezglavi preglednik), koji može izvršiti JavaScript i dinamički dohvatiti sadržaj stranice.

import asyncio
from pyppeteer import launch
async def download_using_pyppeteer(url, username, apikey):
    # Launch headless browser
    browser = await launch(headless=True)
    page = await browser.newPage()
    
    # Basic auth and URL loading
    auth_url = f'{url}?username={username}&password={apikey}'
    await page.goto(auth_url)
    
    # Wait for the JavaScript to load
    await page.waitForSelector('body')
    
    # Extract page content
    content = await page.content()
    
    # Save to file
    with open("download_pyppeteer.html", "w") as file:
        file.write(content)
    
    await browser.close()
    print("Download complete using Pyppeteer.")
# Run the async function
asyncio.get_event_loop().run_until_complete(download_using_pyppeteer("https://example.com", "user", "key"))

Korištenje Requests-HTML za rukovanje JavaScript renderiranjem

Ovaj pristup koristi Requests-HTML biblioteku, koja omogućuje jednostavno JavaScript renderiranje bez potrebe za cijelim preglednikom.

from requests_html import HTMLSession
def download_using_requests_html(url, username, apikey):
    session = HTMLSession()
    
    # Make the request
    auth_url = f'{url}?username={username}&password={apikey}'
    response = session.get(auth_url)
    
    # Render the JavaScript
    response.html.render()
    
    # Save the page content
    with open("download_requests_html.html", "w") as file:
        file.write(response.html.html)
    
    print("Download complete using Requests-HTML.")
download_using_requests_html("https://example.com", "user", "key")

Poboljšanje Python web skrapinga za stranice s omogućenim JavaScriptom

Prilikom struganja web-stranica s velikim brojem JavaScripta, uobičajeni izazov je zaobilaženje ograničenja provjere autentičnosti ili API ključa, posebno u aplikacijama kao što je JFrog Artifactory. Dok smo prethodno istraživali automatizaciju preglednika s alatima kao što su Selenium i Pyppeteer, postoje druga rješenja koja su više usmjerena na rukovanje HTTP odgovorima. Na primjer, integracija API-ja i iskorištavanje zaglavlja može pomoći u zaobilaženju upita za provjeru autentičnosti ili dohvaćanju specifičnijeg sadržaja, bez dodatnih troškova potpune simulacije preglednika.

Još jedan ključni aspekt je kako ove biblioteke rukuju složenim obrascima, poput onih potrebnih za prijavu ili unos API tokena. Tipično rješenje uključuje oponašanje podnošenja obrasca korištenjem Python biblioteka kao što su . To omogućuje besprijekornu interakciju s autentifikacijom na strani poslužitelja bez potrebe za izvršavanjem JavaScripta, štedeći resurse. Dodatno, za sigurnije stranice, dodavanje značajki kao što su upravljanje sesijom i autentifikacija temeljena na tokenu u vašoj skripti može značajno poboljšati performanse.

Također je važno razgovarati o potencijalnim problemima kao što su CAPTCHA izazovi, koji mogu biti prepreka prilikom struganja ili automatizacije zadataka. Kako bi se nosili s CAPTCHA-om, neki se programeri odlučuju za usluge trećih strana koje automatski rješavaju CAPTCHA. Drugi integriraju algoritme strojnog učenja, iako to može biti složenije. Razumijevanje ovih dodatnih sigurnosnih mjera pomaže vam pripremiti vaše skripte za rješavanje šireg spektra izazova, osiguravajući da vaša Python skripta radi učinkovito u interakciji s platformama temeljenim na JavaScriptu.

Kako mogu pomoću Pythona skrapirati sadržaj prikazan JavaScriptom?
Koristite alate poput , , ili za upravljanje izvršavanjem JavaScripta prilikom dohvaćanja sadržaja s web stranica.
Koji je najbolji alat za rukovanje web stranicama s puno JavaScripta?
često je najbolji izbor za složene web stranice s puno JavaScripta jer oponaša stvarne interakcije preglednika. također je vrlo učinkovit.
Kako upravljati provjerom autentičnosti u web skrapingu?
Možete koristiti biblioteka za rukovanje osnovnom autentifikacijom i autentifikacijom na temelju tokena slanjem API ključeva i tokena u HTTP zaglavljima.
Mogu li zaobići CAPTCHA prilikom struganja?
Da, upotrebom usluga rješavanja CAPTCHA ili integriranjem algoritama strojnog učenja. Međutim, to povećava složenost i možda neće biti praktično za sve slučajeve upotrebe.
Je li moguće izbjeći automatizaciju preglednika za jednostavne zadatke struganja?
Da, za jednostavnije zadatke, knjižnica ili može rukovati dohvaćanjem podataka bez potrebe za potpunom automatizacijom preglednika.

Pristup sadržaju s web-stranica s velikim brojem JavaScript-a zahtijeva više od osnovnih HTTP zahtjeva. Korištenjem alata kao što su Selenium i Pyppeteer, možemo simulirati okruženja preglednika koja izvršavaju JavaScript i dohvaćaju puni sadržaj web stranice. Ovi alati nude fleksibilnost za zadatke automatizacije.

Iako automatizacija preglednika zahtijeva više resursa, pouzdano je rješenje za rukovanje složenim stranicama. Za jednostavnije slučajeve, Requests-HTML može biti lagana alternativa. Odabir pravog alata ovisi o složenosti web mjesta i specifičnim potrebama vašeg projekta.

Informacije o korištenju Seleniuma za web skrapiranje sa stranicama s puno JavaScripta navedene su u službenoj dokumentaciji za Selenium. Pristupite mu ovdje: Selenium dokumentacija .
Implementacija Pyppeteera za rukovanje dinamičkim JavaScript sadržajem temeljila se na detaljima s Pyppeteerove GitHub stranice. Više možete pronaći ovdje: Pyppeteer GitHub .
Za zahtjeve i Requests-HTML biblioteke, uvidi su izvučeni iz Requests-HTML dokumentacije, koja pruža dublje razumijevanje rukovanja JavaScript renderiranjem u Pythonu: Zahtjevi-HTML dokumentacija .
Najbolji primjeri iz prakse za upravljanje autentifikacijom i upotrebom API-ja inspirirani su člancima o Python tehnikama struganja weba koji se nalaze na Real Pythonu: Pravi Python .

Kako koristiti Python 3.x za preuzimanje URL-a s web stranica s omogućenim JavaScriptom

Korištenje Pythona za preuzimanje sa stranica s omogućenim JavaScriptom

Preuzimanje URL-ova sa stranicama s omogućenim JavaScriptom u Pythonu

Korištenje Pyppeteera za preuzimanje stranica s omogućenim JavaScriptom

Korištenje Requests-HTML za rukovanje JavaScript renderiranjem

Poboljšanje Python web skrapinga za stranice s omogućenim JavaScriptom