ÙØØ§ÙÙ Ø§ÙÙØ§ØªØ¨ Ø§ÙÙØ³Ø±ØÙ ÙØªØµÙØÙØ§ ØÙÙÙÙÙØ§Ø ÙÙØ§ ÙØ³ÙØ ÙÙ Ø¨ØªØÙÙÙ JavaScript ÙØªÙÙÙØ°Ù ÙØ¨Ù Ø¥Ø¹Ø§Ø¯Ø© Ø§ÙØµÙØØ© Ø¥ÙÙÙ Scrapy ÙÙÙØ´Ø·.

ÙÙØ§Ø°Ø§ Ø£ØªÙÙÙ Ø±Ø³Ø§ÙØ© Ø§ÙØ±Ø¬Ø§Ø¡ ØªÙÙÙÙ JSØ

ÙØØ¯Ø« ÙØ°Ø§ Ø§ÙØ®Ø·Ø£ ÙØ£Ù ScrapyØ Ø¨ÙÙØ±Ø¯ÙØ ÙØ§ ÙÙÙÙÙ Ø¹Ø±Ø¶ JavaScript. Ø§ÙØÙ ÙÙ Ø§ÙØªÙØ§ÙÙ Playwright ÙÙØªØ¹Ø§ÙÙ ÙØ¹ Ø§ÙÙØØªÙÙ Ø§ÙÙØ³ØªÙØ¯ Ø¥ÙÙ JavaScript.

ÙÙ ÙÙÙÙÙÙ Ø§Ø³ØªØ®Ø¯Ø§Ù Playwright ÙØ¹ Ø§ÙÙØªØµÙØØ§Øª Ø§ÙØ£Ø®Ø±ÙØ

ÙØ¹ÙØ ÙØ¯Ø¹Ù Playwright ÙØªØµÙØØ§Øª ÙØªØ¹Ø¯Ø¯Ø© ÙØ«Ù chromium, firefoxØ Ù webkitÙØ§ÙØªÙ ÙÙÙÙ ØªØØ¯ÙØ¯ÙØ§ ÙÙ Ø§ÙØ¥Ø¹Ø¯Ø§Ø¯Ø§Øª.

ÙÙÙ ÙÙÙÙÙÙ ØªØ¬ÙØ¨ Ø§ÙÙÙÙØ§Øª ÙÙ PlaywrightØ

ÙÙÙÙÙ Ø¶Ø¨Ø· Ø§ÙÙÙÙØ© Ø¨Ø§Ø³ØªØ®Ø¯Ø§Ù PageMethod('wait_for_timeout', 5000) ÙØ¥ØªØ§ØØ© ÙØ²ÙØ¯ ÙÙ Ø§ÙÙÙØª ÙØªØÙÙÙ ÙØØªÙÙ JavaScript Ø¨Ø§ÙÙØ§ÙÙ.

استخدام الكاتب المسرحي للتعامل

Alice Dupont

الاثنين، ٧ أكتوبر ٢٠٢٤ ٥:٢٨:١٠ ص

استكشاف أخطاء جافا سكريبت وأخطاء المهلة وإصلاحها باستخدام Scrapy وPlaywright

عند الاستخدام سكرابي جنبا إلى جنب مع الكاتب المسرحي سكرابي، قد تواجه مشكلات عند محاولة نسخ الصفحات التي تتطلب JavaScript. إحدى المشكلات الشائعة هي تلقي رسالة تطلب "الرجاء تمكين JS وتعطيل أي أداة حظر إعلانات"، بالإضافة إلى خطأ انتهاء المهلة.

تنشأ هذه المشكلة عادةً لأن Scrapy وحده لا يعرض JavaScript. على الرغم من أن Playwright مدمج للتعامل مع هذا الأمر، إلا أن هناك حاجة إلى خطوات إضافية لتهيئته بشكل صحيح لمواقع الويب مثل وول ستريت جورنالوالتي تعتمد بشكل كبير على جافا سكريبت.

يهدف تكامل Playwright مع Scrapy إلى التغلب على هذه القيود، ولكن الإعدادات غير الصحيحة أو التغاضي عن سلوكيات المتصفح يمكن أن تؤدي إلى أخطاء محبطة. ومع ذلك، باستخدام التكوينات الصحيحة واستراتيجيات تصحيح الأخطاء، يمكنك تجاوز هذه العوائق.

في هذا الدليل، سنناقش مثالًا حقيقيًا للاستخلاص باستخدام Scrapy وPlaywright، بما في ذلك إعدادات التعليمات البرمجية ونصائح تصحيح الأخطاء لتجنب الأخطاء الشائعة مثل مشكلات تحميل JavaScript وأخطاء المهلة.

يأمر	مثال للاستخدام
طريقة الصفحة	هذا هو الكاتب المسرحي سكرابي الأمر الذي يسمح لك بتنفيذ أساليب على كائن صفحة Playwright، مثل محاكاة إجراءات المتصفح مثل النقر أو الانتظار. على سبيل المثال، يطلب PageMethod('wait_for_timeout', 5000) من Playwright الانتظار لمدة 5 ثوانٍ قبل المتابعة.
سكرابي_playwright.handler.Scrapy الكاتب المسرحي DownloadHandler	هذا معالج تنزيل مخصص مقدم من الكاتب المسرحي سكرابي لإدارة طلبات HTTP التي تتطلب عرض JavaScript. إنه يدمج Playwright مع Scrapy، مما يمكّن العنكبوت من التعامل مع محتوى JS الثقيل.
محدد	أ سكرابي أداة لاستخراج البيانات من مستندات HTML أو XML باستخدام محددات XPath أو CSS. في هذا السياق، يتم استخدامه لتحليل محتوى HTML بعد أن يعرض Playwright الصفحة.
ميتا	ال ميتا تسمح لك السمة في طلبات Scrapy بتمرير خيارات أو إعدادات إضافية للطلب. في هذه الحالة، meta={'playwright': True} يمكّن Playwright من التعامل مع الطلب بدلاً من أداة التنزيل الافتراضية لـ Scrapy.
PLAYWRIGHT_BROWSER_TYPE	يحدد هذا الإعداد نوع المتصفح الذي يجب أن يستخدمه الكاتب المسرحي. تشمل الخيارات الكروم, فايرفوكس، و webkit. هنا، استخدمنا "الكروم" للتوافق مع غالبية مواقع الويب.
PLAYWRIGHT_LAUNCH_OPTIONS	خيارات التكوين لمثيل متصفح Playwright، مثل تمكين أو تعطيل وضع مقطوعة الرأس وتعيين تفضيلات تشغيل المتصفح. على سبيل المثال، يقوم Headless: False بتشغيل المتصفح باستخدام واجهة مستخدم لتسهيل تصحيح الأخطاء.
TWISTED_REACTOR	يستخدم Scrapy ملتوية مكتبة الشبكة للتعامل مع عمليات الإدخال/الإخراج غير المتزامنة. TWISTED_REACTOR = 'twisted.internet.asyncioreactor.AsyncioSelectorReactor' يمكّن Scrapy من العمل مع Playwright، الذي يعتمد على غير متزامن.
PLAYWRIGHT_DEFAULT_NAVIGATION_TIMEOUT	يضبط هذا الإعداد مهلة التنقل الافتراضية لـ Playwright. من خلال زيادة قيمة المهلة، على سبيل المثال، 60000 مللي ثانية، فإنه يضمن أن لدى Playwright الوقت الكافي لتحميل وعرض صفحات الويب المعقدة قبل انتهاء المهلة.
wait_for_timeout	طريقة خاصة بالكاتب المسرحي تستخدم لإيقاف التنفيذ مؤقتًا لفترة محددة. في البرنامج النصي، يتم استخدام wait_for_timeout لتأخير العملية لمدة 5 ثوانٍ، مما يتيح وقتًا كافيًا لتحميل JavaScript الخاص بالصفحة وتنفيذه.

شرح مفصل لتكامل Scrapy والكاتب المسرحي

في البرامج النصية المقدمة، التكامل سكرابي مع الكاتب المسرحي يعد أمرًا بالغ الأهمية للتعامل مع مواقع الويب التي تعتمد على جافا سكريبت مثل WSJ. عادةً، لا يتعامل Scrapy أصلاً مع تنفيذ JavaScript. يؤدي هذا إلى حدوث مشكلات عند نسخ محتوى ديناميكي لأن الصفحة قد لا يتم تحميلها بالكامل، مما يؤدي إلى ظهور الخطأ "الرجاء تمكين JS وتعطيل أي أداة حظر إعلانات". يؤدي استخدام Playwright كمعالج للتنزيل إلى تمكين Scrapy من تحميل الصفحات كما يفعل المتصفح الكامل، مما يؤدي إلى عرض JavaScript والمحتوى الديناميكي الآخر.

تعتبر الإعدادات المخصصة المحددة في العنكبوت ضرورية لهذا التكامل. نحدد أن Scrapy يجب أن يستخدم معالج Playwright لطلبات HTTP وHTTPS. بالإضافة إلى ذلك، إعداد PLAYWRIGHT_BROWSER_TYPE إلى "Chromium" يساعد على ضمان التوافق مع معظم مواقع الويب. تم تكوين العنكبوت أيضًا لتشغيل المتصفح في وضع غير مقطوع الرأس، مما يعني أن المتصفح سيكون له واجهة مستخدم مرئية، والتي يمكن أن تكون مفيدة لتصحيح الأخطاء عند استخراج المواقع المعقدة. تسمح هذه التكوينات لـ Playwright بتقليد التفاعلات البشرية مع موقع الويب، وتجاوز عمليات الحظر الأساسية مثل الخطأ "يرجى تمكين JS".

في طريقة start_requests، يتم تكوين كل طلب لاستخدام Playwright عن طريق المرور التعريف = {'الكاتب المسرحي': صحيح}. وهذا يضمن أن Playwright، وليس برنامج التنزيل الافتراضي لـ Scrapy، هو الذي سيتعامل مع الطلب. استخدام طريقة الصفحة أمر بالغ الأهمية لمحاكاة ظروف التصفح الحقيقية. الخط PageMethod('wait_for_timeout', 5000) يأمر الكاتب المسرحي بالانتظار لمدة 5 ثوانٍ، مما يمنح الصفحة وقتًا كافيًا لتحميل كل محتوى JavaScript الديناميكي. يعد هذا مفيدًا بشكل خاص عند استخراج مواقع الويب التي تستغرق وقتًا ليتم تحميلها بالكامل، مما يمنع انتهاء المهلات والأخطاء.

طريقة التحليل هي المكان الذي يحدث فيه التجريف الفعلي. بعد أن يعرض Playwright الصفحة، يتولى Scrapy مهمة تحليل محتوى HTML باستخدام ملف محدد هدف. وهذا يسمح باستخراج البيانات المطلوبة بدقة باستخدام محددات XPath أو CSS. يضمن تكامل Playwright أن HTML الذي يتم تحليله يحتوي على كل المحتوى المعروض بواسطة JavaScript، مما يجعله أكثر دقة وموثوقية لصفحات الويب الديناميكية. يُخرج البرنامج النصي رسالة تأكيد ("إنه يعمل") للإشارة إلى عملية الاستخلاص الناجحة، ولكن في سيناريو العالم الحقيقي، يمكنك استخراج البيانات وتخزينها هنا.

الكشط باستخدام Scrapy والكاتب المسرحي: حل قوي لمواقع الويب التي تعتمد على جافا سكريبت

يوضح هذا الحل كيفية استخدام Python's Scrapy مع Playwright لتحميل صفحات JavaScript ثقيلة مثل WSJ، ومعالجة الأخطاء الشائعة مثل "الرجاء تمكين JS" والمهلات.

import scrapy
from scrapy_playwright.page import PageMethod
from scrapy.selector import Selector

class WsjNewsJSSpider(scrapy.Spider):
    name = 'wsj_newsJS'
    start_urls = ['https://www.wsj.com']

    custom_settings = {
        "DOWNLOAD_HANDLERS": {
            'http': 'scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler',
            'https': 'scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler',
        },
        "TWISTED_REACTOR": 'twisted.internet.asyncioreactor.AsyncioSelectorReactor',
        "PLAYWRIGHT_BROWSER_TYPE": "chromium",
        "PLAYWRIGHT_LAUNCH_OPTIONS": {"headless": False},
    }

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(
                url,
                meta={
                    'playwright': True,
                    'playwright_page_methods': [
                        PageMethod('wait_for_timeout', 5000),
                    ],
                },
                callback=self.parse
            )

    def parse(self, response):
        html_content = response.text
        sel = Selector(text=html_content)
        print("JavaScript page rendered successfully!")

الحل البديل: استخدام متصفح بلا رأس وضبط إعدادات المهلة

يتضمن هذا الحل ضبط إعدادات المتصفح والمهلات لكشط الصفحات المعقدة أثناء استخدام وضع مقطوعة الرأس لتحقيق الكفاءة في استخدام الموارد.

import scrapy
from scrapy_playwright.page import PageMethod

class HeadlessSpider(scrapy.Spider):
    name = 'headless_spider'
    start_urls = ['https://www.wsj.com']

    custom_settings = {
        "PLAYWRIGHT_BROWSER_TYPE": "chromium",
        "PLAYWRIGHT_LAUNCH_OPTIONS": {"headless": True, "timeout": 30000},
        "PLAYWRIGHT_DEFAULT_NAVIGATION_TIMEOUT": 60000,  # Increase timeout
    }

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(
                url,
                meta={
                    'playwright': True,
                    'playwright_page_methods': [
                        PageMethod('wait_for_timeout', 3000),  # Wait for 3 seconds
                    ],
                },
                callback=self.parse
            )

    def parse(self, response):
        print("Page scraped successfully!")
        html = response.text
        # Further parsing of the page goes here

تعزيز تجريف الويب مع الكاتب المسرحي: التعامل مع مواقع الويب ذات جافا سكريبت الثقيلة

عند الاستخدام سكرابي بالنسبة إلى عملية الاستخراج، غالبًا ما يظهر التحدي المتمثل في مواقع الويب التي تعتمد على جافا سكريبت. مواقع الويب التي تتطلب JavaScript لعرض محتوى ديناميكي، مثل المقالات الإخبارية أو أسعار الأسهم، يصعب التخلص منها باستخدام Scrapy وحده. هذا هو المكان الذي يتم فيه دمج الكاتب المسرحي سكرابي يصبح حاسما. يعمل الكاتب المسرحي كمحرك متصفح، حيث يعرض الصفحات تمامًا مثل المستخدم البشري، مما يجعل من الممكن استخراج المحتوى الذي يعتمد على تنفيذ JavaScript من جانب العميل.

يساعد Playwright في تجاوز العقبات الشائعة مثل المهلات والأخطاء التي تطلب تمكين JavaScript أو تعطيل أدوات حظر الإعلانات. في المثال النصي، تم تكوين Playwright للانتظار قبل جلب المحتوى للتأكد من تحميل عناصر JavaScript بالكامل. تعمل هذه التقنية على تحسين عملية استخراج البيانات بشكل كبير من مواقع الويب التي قد تمنع الوصول أو تقيده باستخدام اكتشاف الروبوتات أو المحتوى الديناميكي.

أحد الجوانب الإضافية التي تستحق الاهتمام هو إمكانية التعامل مع مواقع الويب متعددة الصفحات. لا يقوم Playwright بتحميل عناصر JavaScript فحسب، بل يدعم أيضًا التفاعلات التي تشبه المستخدم مثل النقر على الأزرار أو التنقل عبر صفحات متعددة. يعد هذا مفيدًا بشكل خاص لمواقع الويب حيث يتم تقسيم المحتوى عبر عدة أقسام أو يتم إخفاؤه خلف آليات النقر للتحميل، مما يمنحك مرونة أكبر في استخراج البيانات المنظمة والقيمة.

أسئلة شائعة حول استخراج مواقع الويب التي تستخدم جافا سكريبت باستخدام Scrapy وPlaywright

كيف يساعد Playwright في مواقع الويب التي تعتمد على جافا سكريبت؟
يحاكي الكاتب المسرحي متصفحًا حقيقيًا، مما يسمح له بتحميل JavaScript وتنفيذه قبل إعادة الصفحة إليه Scrapy للكشط.
لماذا أتلقى رسالة "الرجاء تمكين JS"؟
يحدث هذا الخطأ لأن Scrapy، بمفرده، لا يمكنه عرض JavaScript. الحل هو التكامل Playwright للتعامل مع المحتوى المستند إلى JavaScript.
هل يمكنني استخدام Playwright مع المتصفحات الأخرى؟
نعم، يدعم Playwright متصفحات متعددة مثل chromium, firefox، و webkitوالتي يمكن تحديدها في الإعدادات.
كيف يمكنني تجنب المهلات في Playwright؟
يمكنك ضبط المهلة باستخدام PageMethod('wait_for_timeout', 5000) لإتاحة مزيد من الوقت لتحميل محتوى JavaScript بالكامل.
هل يمكنني استخلاص صفحات متعددة باستخدام Playwright؟
نعم، يتيح Playwright تفاعلات شبيهة بالمستخدم، مثل النقر فوق صفحات أو أزرار متعددة لاستخراج محتوى مرقّم أو مخفي.

الختام: التغلب على مشكلات جافا سكريبت في تجريف الويب

يؤدي الجمع بين Scrapy وPlaywright إلى حل العديد من التحديات التي تواجهها عند استخراج المحتوى الديناميكي من مواقع الويب. من خلال محاكاة سلوك المتصفح، يضمن Playwright عرض محتوى JavaScript بالكامل قبل الاستخراج.

يعد تنفيذ طرق مثل ضبط إعدادات المهلة وتحديد أنواع المتصفح أمرًا ضروريًا لتحسين الأداء. من خلال ضبط هذه الخيارات، يمكن لمستخدمي Scrapy استخراج مواقع الويب الأكثر تعقيدًا دون الوقوع في أخطاء شائعة مثل انتهاء مهلات JavaScript.

المصادر والمراجع لحلول JavaScript Web Scraping

هذه المقالة مستوحاة من أمثلة عملية لدمج Scrapy مع Playwright لاستخراج المحتوى الديناميكي من مواقع الويب التي تستخدم JavaScript بكثرة. يمكن العثور على وثائق مفصلة حول استخدام الكاتب المسرحي هنا: وثائق الكاتب المسرحي بايثون .
لمزيد من الأفكار حول التعامل مع تقنيات عرض جافا سكريبت واستخراج البيانات باستخدام Scrapy، يرجى زيارة: سكرابي الوثائق الرسمية .
لفهم تعقيدات البرمجة غير المتزامنة بشكل أفضل باستخدام Twisted Reactor المستخدم جنبًا إلى جنب مع Playwright في Scrapy، راجع: توثيق المفاعل الملتوي .

استخدام الكاتب المسرحي للتعامل مع أخطاء JavaScript والمهلة في Scrapy: الأساليب الشائعة لحل المشكلات