إنشاء خلاصات RSS لمواقع الويب الديناميكية التي تدعم جافا سكريبت
تعد خلاصات RSS أداة حيوية للمستهلكين الذين يرغبون في مواكبة المعلومات الجديدة من مواقع الويب المفضلة لديهم. على الرغم من أن العديد من مواقع الويب الثابتة قد تتضمن خلاصات RSS بسهولة، إلا أن تطوير واحد للمواقع التي تدعم JavaScript يجلب عقبات واضحة. تعتمد مواقع الويب هذه في كثير من الأحيان على المحتوى الديناميكي الذي يتم تحميله بعد إنشاء الصفحة، مما يجعل تقنيات RSS النموذجية غير فعالة.
تعمل الأدوات الشائعة، مثل PolitePol أو RSS.app، بشكل جيد مع المواقع الثابتة ولكنها تعاني مع مواقع الويب التي تستخدم لغة JavaScript بكثرة. وهذا يجعل من الصعب على المطورين توفير موجز RSS للصفحات التي لا تعرض كل محتواها فور تحميلها.
لمعالجة هذه المشكلة، يحتاج المطورون في كثير من الأحيان إلى البحث عن حلول أكثر تعقيدًا. يتضمن ذلك إنشاء نصوص برمجية مخصصة أو استخدام تقنيات استخراج الويب التي تأخذ في الاعتبار كيفية إنتاج JavaScript للمحتوى على الصفحة ديناميكيًا. يعد فهم هذه الأساليب أمرًا بالغ الأهمية لتمكين خلاصات RSS على مواقع الويب مثل تلك الموضحة في المثال.
يعد جزء البيان الصحفي الموجود على موقع الويب الخاص بشركة Grameenphone، والذي يقوم بتحميل البيانات بشكل ديناميكي، مثالاً ممتازًا لهذه الاستراتيجيات. في هذه المقالة، سننظر في كيفية إنشاء موجز RSS لمثل هذه المواقع باستخدام JavaScript وتقنيات استخراج الويب المعاصرة.
يأمر | مثال للاستخدام |
---|---|
cheerio.load() | هذا الأمر خاص بمكتبة Cheerio ويسمح لك بتحميل HTML وتحليله بطريقة مشابهة لـ jQuery. يتم استخدامه لتغيير وكشط نص HTML من موقع ويب. |
$('.press-release-item').each() | يستخدم Cheerio محددًا يشبه jQuery للتكرار فوق كل عنصر باستخدام فئة .press-release-item، مما يسمح لك باستخراج خصائص محددة مثل العناوين وعناوين URL من العناصر المحملة ديناميكيًا. |
feed.item() | يأتي هذا الأمر من حزمة RSS ويستخدم لإضافة عنصر جديد إلى موجز RSS. يحتوي كل عنصر عادةً على سمات مثل العنوان وعنوان url، وهي السمات المطلوبة لإنشاء إدخالات الخلاصة. |
await axios.get() | يُستخدم هذا الأمر لإرسال طلبات HTTP لاسترداد محتوى موقع الويب. توفر مكتبة Axios آلية قائمة على الوعد تسمح لك بانتظار تحميل المحتوى قبل المتابعة. |
puppeteer.launch() | يقوم هذا الأمر من مكتبة Puppeteer بتشغيل متصفح بدون رأس. لقد تم تصميمه لاستخراج مواقع الويب ذات المحتوى الثقيل بجافا سكريبت ذات المحتوى الديناميكي الذي لا يتم تحميله عند عرض الصفحة الأولى. |
page.evaluate() | يتيح لك أمر Puppeteer هذا تشغيل JavaScript في سياق الصفحة المسروقة. يعد ذلك ضروريًا للحصول على المحتوى الذي يتم عرضه ديناميكيًا من موقع ويب، مثل النشرات الإخبارية التي يتم إنشاؤها بواسطة JavaScript. |
await page.goto() | يتم استخدام هذا الأمر بواسطة محرك الدمى للتصفح إلى عنوان URL معين. وينتظر حتى يتم تحميل موقع الويب بالكامل، بما في ذلك أي محتوى جافا سكريبت ديناميكي مطلوب لاستخراج البيانات. |
Array.from() | تعمل طريقة JavaScript هذه على تحويل NodeLists (مثل تلك التي تنتجها querySelectorAll()) إلى صفائف، مما يسمح بمعالجة أسهل عند استخراج العديد من العناصر من المستند. |
feed.xml() | أمر آخر في حزمة RSS، Feed.xml()، يقوم بإنشاء سلسلة RSS XML بأكملها. هذا هو الناتج النهائي الذي سيشترك فيه المستخدمون أو البرامج للحصول على التحديثات المستقبلية. |
فهم كيفية عمل البرامج النصية لخلاصات RSS لجافا سكريبت
يستخدم البرنامج النصي الأول وحدات Node.js وCheerio وRSS لاستخراج المحتوى من موقع ويب مثقل بجافا سكريبت. المشكلة الرئيسية هنا هي أن العديد من مواقع الويب الحديثة تقوم بتحميل المواد ديناميكيًا باستخدام جافا سكريبت، مما يجعل من الصعب على طرق الاستخراج القياسية الحصول على كل شيء. لاسترداد HTML الخام لموقع الويب المستهدف، يرسل البرنامج النصي أولاً طلب HTTP عبر Axios. بعد جلب HTML، يتم استخدام Cheerio لتحليله ومعالجته بطريقة مشابهة لـ jQuery. يتيح لنا ذلك الوصول إلى أقسام محددة من الصفحة واسترجاعها، مثل البيانات الصحفية، المطلوبة لإنشاء موجز ويب لـ RSS.
بمجرد نسخ المحتوى، يتم تحويله إلى تنسيق متوافق مع موجز RSS. وظيفة تشيريو $('.النشرة الصحفية').each() مفيد بشكل خاص لأنه يتم عرضه على كل بيان صحفي ويستخرج التفاصيل المهمة مثل العنوان وعنوان URL. تتم بعد ذلك إضافة البيانات المسروقة إلى موجز RSS باستخدام الملف عنصر التغذية () الطريقة من مكتبة RSS. الخطوة الأخيرة في هذا البرنامج النصي هي إنشاء RSS XML الكامل عن طريق التنفيذ تغذية.xml(). XML هذا هو ما يمكن للمشتركين استخدامه للتعرف على النشرات الصحفية الجديدة. تعمل هذه الإستراتيجية بشكل جيد مع مواقع الويب عندما يتم تحميل المحتوى ديناميكيًا ولكن البنية مستقرة ويمكن التنبؤ بها.
يستخدم الأسلوب الثاني Puppeteer، وهو متصفح بدون رأس متخصص في التفاعل مع صفحات الويب التي تستخدم لغة JavaScript بكثرة. يمكّن Puppeteer البرنامج النصي من محاكاة جلسة متصفح حقيقية، مما يعني أنه ينتظر تحميل JavaScript بالكامل قبل استخراج المحتوى. يعد هذا أمرًا بالغ الأهمية بشكل خاص بالنسبة لصفحات مثل منطقة النشرات الصحفية لـ Grameenphone، حيث يتم إنشاء المادة ديناميكيًا بعد تحميل صفحة HTML الأولى. يفتح البرنامج النصي في البداية مثيل متصفح Puppeteer وينتقل إلى عنوان URL المستهدف باستخدام ملف page.goto() طريقة. بعد تحميل الصفحة بالكامل، يقوم البرنامج النصي بتقييمها وسحب المواد ذات الصلة باستخدام طرق معالجة DOM الشائعة مثل querySelectorAll.
يتفوق محرك الدمى على أدوات الكشط الأساسية مثل Cheerio في التعامل مع صفحات الويب الأكثر تعقيدًا وديناميكية. بعد استخراج البيانات ذات الصلة، يمر عبر عملية مشابهة للبرنامج النصي الأول، حيث يقوم بتنسيق الإخراج في موجز RSS. تعتبر هذه الطريقة مناسبة تمامًا لمواقع الويب التي تقوم بتحميل المواد بشكل غير متزامن أو تستخدم أطر عمل JavaScript أكثر تقدمًا، مما يمنحها بديلاً متعدد الاستخدامات لإنشاء خلاصات RSS من مواقع الويب الحديثة. كلا الخيارين، سواء باستخدام Cheerio أو Puppeteer، يضمنان تحويل المحتوى المحمل ديناميكيًا إلى تنسيق RSS مناسب لاستهلاك المستخدم.
إنشاء موجز RSS لموقع ويب مثقل بجافا سكريبت باستخدام Node.js وCheerio
تستخدم هذه الطريقة Node.js ووحدة Cheerio لاستخراج المواد الديناميكية من موقع ويب يعمل بـ JavaScript وإنشاء موجز RSS.
const axios = require('axios');
const cheerio = require('cheerio');
const RSS = require('rss');
async function fetchPressReleases() {
try {
const { data } = await axios.get('https://www.grameenphone.com/about/media-center/press-release');
const $ = cheerio.load(data);
let releases = [];
$('.press-release-item').each((i, el) => {
const title = $(el).find('h3').text();
const url = $(el).find('a').attr('href');
releases.push({ title, url });
});
return releases;
} catch (error) {
console.error('Error fetching press releases:', error);
}
}
async function generateRSS() {
const feed = new RSS({ title: 'Press Releases', site_url: 'https://www.grameenphone.com' });
const releases = await fetchPressReleases();
releases.forEach(release => {
feed.item({ title: release.title, url: release.url });
});
console.log(feed.xml());
}
generateRSS();
إنشاء موجز ويب لـ RSS باستخدام متصفح بدون رأس مع محرك الدمى
تستخدم هذه الطريقة Puppeteer، وهو متصفح بدون رأس، لإدارة مواقع الويب التي تستخدم JavaScript بشكل كبير واستخراج المحتوى الديناميكي لخلاصات RSS.
const puppeteer = require('puppeteer');
const RSS = require('rss');
async function fetchDynamicContent() {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('https://www.grameenphone.com/about/media-center/press-release');
const releases = await page.evaluate(() => {
return Array.from(document.querySelectorAll('.press-release-item')).map(el => ({
title: el.querySelector('h3').innerText,
url: el.querySelector('a').href
}));
});
await browser.close();
return releases;
}
async function generateRSS() {
const feed = new RSS({ title: 'Dynamic Press Releases', site_url: 'https://www.grameenphone.com' });
const releases = await fetchDynamicContent();
releases.forEach(release => {
feed.item({ title: release.title, url: release.url });
});
console.log(feed.xml());
}
generateRSS();
إنشاء خلاصات RSS ديناميكية لمواقع الويب التي تعتمد على جافا سكريبت
يعد التقاط المحتوى المعروض ديناميكيًا لخلاصة RSS بمثابة صعوبة يتم إهمالها أحيانًا عند العمل مع مواقع الويب التي تدعم JavaScript. على عكس الصفحات الثابتة، تقوم مواقع الويب التي تدعم جافا سكريبت بتحميل أجزاء من المادة بعد طلب الصفحة الأولي، مما يجعل أساليب الكشط النموذجية عديمة القيمة. نظرًا لأن مواقع الويب أصبحت أكثر تفاعلية مع أطر العمل الأحدث مثل React وAngular وVue.js، يريد المطورون حلولًا جديدة للتعامل مع إنتاج المحتوى الديناميكي.
لإنتاج موجز RSS لهذه المواقع، يمكن للمطورين تجربة حلول مثل التصفح بدون رأس باستخدام محرك الدمى، الذي يحاكي تجربة المستخدم الحقيقية. هناك طريقة أخرى وهي استخدام واجهات برمجة التطبيقات التي يوفرها موقع الويب نفسه، إذا كانت متوفرة. تعرض العديد من مواقع الويب الحالية واجهات برمجة تطبيقات JSON أو RESTful التي تعرض البيانات المعروضة على الواجهة الأمامية. باستخدام واجهات برمجة التطبيقات هذه، يمكنك الوصول على الفور إلى البيانات المنظمة دون القلق بشأن كيفية ظهور الصفحة. تتمتع واجهات برمجة التطبيقات (API) أيضًا بميزة كونها أكثر استقرارًا من تجريف الويب، والتي قد تنكسر عندما يغير موقع الويب هيكله.
علاوة على ذلك، يمكن أن يكون الجمع بين استخدام واجهة برمجة التطبيقات (API) والعرض من جانب الخادم (SSR) طريقة فعالة لإنشاء RSS. يمكن لأطر عمل SSR، مثل Next.js، عرض الصفحات مسبقًا على الخادم، مما يسمح لك بالتقاط HTML مكتمل بالكامل، بما في ذلك العناصر المحملة ديناميكيًا. يمكن بعد ذلك تحويل HTML هذا إلى موجز RSS. توفر هذه الحلول للمطورين المرونة وقابلية التوسع عند العمل مع أطر عمل JavaScript المتغيرة باستمرار وخوارزميات تحميل المحتوى الديناميكي.
الأسئلة المتداولة حول إنشاء خلاصات RSS لمواقع JavaScript
- ما هي أفضل طريقة لاستخراج المحتوى من مواقع الويب التي تعتمد على جافا سكريبت؟
- الأسلوب المثالي هو استخدام متصفح بدون رأس مثل puppeteer.launch()، والتي يمكنها عرض JavaScript قبل استخراج المحتوى.
- هل يمكنني استخدام Cheerio لاستخراج مواقع الويب الديناميكية؟
- Cheerio ليس مثاليًا للمحتوى الديناميكي؛ ومع ذلك، يمكن دمجه مع أدوات مثل axios.get() لتنزيل HTML ثابت أولاً.
- ما فوائد استخدام واجهة برمجة التطبيقات (API) لإنشاء RSS؟
- تقوم واجهات برمجة التطبيقات بإرجاع البيانات المنظمة مباشرة من المصدر، مما يلغي الحاجة إلى استخراج البيانات. للوصول إلى واجهات برمجة التطبيقات، استخدم أيًا منهما fetch() أو axios.get().
- كيف يساعد Puppeteer في المحتوى الذي يتم عرضه بواسطة JavaScript؟
- يمكن لمحرك الدمى تحميل صفحة ويب، بما في ذلك الأجزاء المعروضة بواسطة JavaScript، واستخراج البيانات باستخدامها page.evaluate().
- ما هو العرض من جانب الخادم (SSR) وكيف يؤثر على خلاصات RSS؟
- يقوم SSR، كما يتم تنفيذه بواسطة أطر عمل مثل Next.js، بعرض المحتوى الديناميكي مسبقًا على الخادم، مما يسهل استخراج خلاصات RSS أو التقاطها.
اختتام عملية خلاصات RSS المستندة إلى JavaScript
يتطلب إنشاء موجز RSS لمواقع الويب التي تقوم بتحميل المواد ديناميكيًا باستخدام JavaScript دراسة متأنية. يمكن للمطورين إنشاء خلاصات RSS مفيدة بشكل فعال من المواقع المعقدة باستخدام أدوات مثل Puppeteer لعرض الصفحة الكاملة وCheerio لتحليل HTML.
تضمن هذه الاستراتيجيات استخراج المحتوى بفعالية مع الحفاظ على الأداء والدقة. يعد فهم بنية موقع الويب المستهدف واختيار التكنولوجيا المناسبة أمرًا بالغ الأهمية. سواء كانت هذه الاستراتيجيات تتخلص من واجهات برمجة التطبيقات أو تستخدمها، فهي فعالة وتتكيف مع تطوير الويب الحديث.
المصادر والمراجع لإنشاء خلاصات RSS من مواقع JavaScript
- تم الحصول على معلومات حول كيفية التخلص من مواقع الويب التي تستخدم جافا سكريبت بشكل كبير من توثيق الدمى ، أداة أساسية للتعامل مع محتوى الويب الديناميكي.
- تم الحصول على تفاصيل حول استخدام Cheerio لتحليل HTML الثابت من الموقع الرسمي لـ Cheerio.js ، والذي يوفر بناء جملة يشبه jQuery لمعالجة DOM من جانب الخادم.
- جاءت المبادئ التوجيهية للعمل مع Node.js لبناء البرامج النصية الخلفية وثائق Node.js ، والذي يقدم معلومات شاملة عن البرمجة من جانب الخادم.
- تم الحصول على رؤى حول إنشاء خلاصات RSS واستخدام حزمة RSS حزمة RSS NPM ، مما يساعد في إنشاء وإدارة موجزات RSS برمجياً.
- مثال استخراج البيانات الصحفية من موقع يعمل بنظام JavaScript مستوحى من المحتوى المتاح على المركز الإعلامي لجرامينفون .