Как перемещаться по пейджерам на основе JavaScript и собирать ссылки

Как перемещаться по пейджерам на основе JavaScript и собирать ссылки
Pagination

Понимание разбиения на страницы на основе JavaScript и проблем API

Веб-сайты с нумерацией страниц на основе JavaScript могут затруднить посетителям навигацию по материалам, особенно если элементы управления нумерацией страниц не раскрывают никаких параметров URL-адреса. Это делает невозможным изменение или автоматизацию навигации по страницам с использованием традиционных подходов, таких как изменение URL-запросов. Взаимодействовать с такими пейджерами можно разными способами.

Одна из таких проблем возникает при попытке получить ссылки или данные с веб-сайтов такого типа. Если вы не можете вручную перемещаться по сотням страниц, лучший подход — смоделировать события кликов на пейджере JavaScript. Эта технология автоматизирует процедуру навигации, значительно упрощая обязанности по сбору данных.

В некоторых случаях на вкладке «Сеть» в инструментах разработчика браузера могут отображаться конечные точки API, предоставляющие полезную информацию. Однако прямое взаимодействие с этими конечными точками иногда может вызывать проблемы, поскольку они могут не разрешать определенные методы HTTP, такие как запросы GET, которые обычно используются для получения данных.

В этой статье объясняется, как моделировать события кликов на пейджере JavaScript веб-сайта и как бороться с ограничениями API, которые ограничивают прямой доступ к необходимым вам данным. Мы также рассмотрим способы обойти ограничения на определенные методы API, чтобы обеспечить эффективный сбор всей важной информации.

Команда Пример использования
document.querySelector() Этот метод используется для выбора первого элемента, соответствующего данному селектору CSS. Скрипт использует его для выбора контейнера нумерации страниц (const pagerContainer = document.querySelector('.pagination')) и управления кнопками пейджера.
Array.from() Преобразует объект, подобный массиву, или повторяемый объект в правильный массив. Скрипт преобразует NodeList рекламных ссылок в массив для упрощения манипуляций и сопоставления (Array.from(document.querySelectorAll('.ad-link-selector')).
puppeteer.launch() При использовании с Puppeteer эта команда запускает новый экземпляр безголового браузера. Он поддерживает автоматические действия браузера, такие как навигация по страницам и моделирование взаимодействия с пользователем (const Browser = await puppeteer.launch()).
page.evaluate() In Puppeteer, this method allows you to run JavaScript code in the context of the web page you are controlling. It is used here to extract ad links from the DOM (await page.evaluate(() =>В Puppeteer этот метод позволяет запускать код JavaScript в контексте контролируемой вами веб-страницы. Здесь он используется для извлечения рекламных ссылок из DOM (await page.evaluate(() => {...})).
page.waitForSelector() Прежде чем продолжить, ожидает появления на странице указанного селектора, гарантируя загрузку всех динамических элементов. Это особенно важно при просмотре контента с разбивкой на страницы, поскольку при каждом изменении страницы появляются новые объявления (await page.waitForSelector('.ad-link-selector').
axios.post() Отправляет запрос HTTP POST на указанный URL-адрес. В примере делается попытка избежать проблемы 405, получая данные через POST, а не GET (const response = await axios.post()).
console.error() Используется для записи сообщений об ошибках на консоль. Это помогает при отладке, отображая информацию об ошибках в случае сбоя определенных элементов или запросов API (console.error('Кнопка страницы не найдена!').
$() Сокращение для выбора элементов в Puppeteer, сравнимое с document.querySelector(). Этот скрипт использует кнопку «Следующая страница» для создания события щелчка по страницам (const nextButton = await page.$('.pagination-next').
click() Этот подход повторяет щелчок по элементу HTML. В сценариях он используется для программного перемещения по пейджеру путем нажатия на соответствующую кнопку страницы.

Освоение пагинации на основе JavaScript и навигации по API

Первый представленный скрипт использует чистый JavaScript для динамического исследования страницы с нумерацией страниц на основе JavaScript. Основная идея этого метода состоит в том, чтобы имитировать нажатие пользователем кнопок пейджера, выбирая и активируя события щелчка на соответствующих элементах HTML. Определив контейнер нумерации страниц с помощью команда, мы можем получить доступ к различным кнопкам страницы и автоматизировать навигацию. Этот подход идеален для случаев, когда изменение URL-адреса вручную невозможно, и вам требуется быстрый внешний интерфейс для взаимодействия с механизмом нумерации страниц.

Во втором сценарии мы использовали Puppeteer, пакет Node.js для управления безгласным браузером. Этот скрипт не только имитирует нажатия кнопок пейджера, но и автоматизирует весь процесс перемещения по многочисленным страницам, собирая все рекламные ссылки на каждой итерации. Puppeteer позволяет вам очищать динамически загружаемый контент, напрямую взаимодействуя с элементами DOM, как это сделал бы настоящий пользователь. Одним из важнейших компонентов здесь является , что позволяет выполнять код JavaScript в контексте страницы. Это идеально подходит для сбора данных, таких как рекламные ссылки на страницах с разбивкой на страницы.

Оба сценария требуют обработки ошибок, чтобы гарантировать правильную работу автоматизированного процесса, даже если определенные части отсутствуют или API ведет себя неожиданно. Например, регистрирует любые ошибки, возникшие во время выполнения, например, когда целевая кнопка не найдена на странице. Кроме того, Кукольник Команда гарантирует, что динамические компоненты, такие как рекламные ссылки, будут полностью загружены до того, как скрипт попытается взаимодействовать. Это делает его чрезвычайно удобным при работе с веб-сайтами, которые в значительной степени полагаются на JavaScript для отображения контента, поскольку позволяет избежать проблем, вызванных отсутствующими или неполными загрузками страниц.

Готовый скрипт использует Axios, HTTP-клиент Node.js, основанный на обещаниях, на бэкэнде. Здесь мы пытаемся получить данные непосредственно из конечной точки API, которая, согласно ошибке HTTP 405, не принимает запросы. Чтобы избежать этого, скрипт отправляет запрос, который может быть одобрен сервером. Этот метод больше подходит для пользователей, которые хотят извлекать данные без необходимости навигации по интерфейсу, но он предполагает понимание структуры и поведения API сервера. Обработка ошибок гарантирует, что о любых сбоях запросов API будет сообщено, что упрощает устранение проблем с получением данных на стороне сервера.

Решение 1. Эмуляция кликов на пейджере JavaScript с помощью Vanilla JavaScript

В этом подходе используется стандартный JavaScript для программного запуска события щелчка на кнопках пейджера путем выбора соответствующих элементов DOM. Это можно применить к любому сценарию динамического внешнего интерфейса, в котором элементы отображаются с помощью JavaScript.

// Select the pagination container
const pagerContainer = document.querySelector('.pagination');

// Function to trigger a click event on a pager button
function clickPageButton(pageNumber) {
  const buttons = pagerContainer.querySelectorAll('button');
  const targetButton = [...buttons].find(btn => btn.textContent === String(pageNumber));
  if (targetButton) {
    targetButton.click();
  } else {
    console.error('Page button not found!');
  }
}

// Example usage: clicking the 2nd page button
clickPageButton(2);

Решение 2. Использование Puppeteer для автоматизации навигации по пейджеру и очистки рекламы.

Puppeteer, инструмент Node.js, предоставляющий высокоуровневый API для работы с автономным браузером, используется таким образом для навигации по пейджеру JavaScript и сбора ссылок из всей рекламы. Это серверное решение, которое часто используется для автоматизированных заданий очистки.

const puppeteer = require('puppeteer');

// Function to scrape all ad links from a paginated website
async function scrapeAds() {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://www.supralift.com/uk/itemsearch/results');

  let ads = [];
  let hasNextPage = true;

  while (hasNextPage) {
    // Scrape the ad links from the current page
    const links = await page.evaluate(() => {
      return Array.from(document.querySelectorAll('.ad-link-selector')).map(a => a.href);
    });
    ads.push(...links);

    // Try to click the next page button
    const nextButton = await page.$('.pagination-next');
    if (nextButton) {
      await nextButton.click();
      await page.waitForSelector('.ad-link-selector');
    } else {
      hasNextPage = false;
    }
  }

  await browser.close();
  return ads;
}

// Call the scraping function and log results
scrapeAds().then(ads => console.log(ads));

Решение 3. Получение данных из API с использованием Axios в Node.js

Этот метод ориентирован на использование Axios в Node.js для получения данных прямо из API. Ошибка 405 указывает на то, что метод GET не разрешен, поэтому эта стратегия использует POST или другие заголовки, чтобы обойти ограничение. Это подходит для серверного сценария, в котором требуется взаимодействие API.

const axios = require('axios');

// Function to fetch data from the API using POST instead of GET
async function fetchData() {
  try {
    const response = await axios.post('https://www.supralift.com/api/search/item/summary', {
      headers: {
        'Content-Type': 'application/json'
      },
      data: { /* Add necessary POST body if applicable */ }
    });

    console.log(response.data);
  } catch (error) {
    console.error('Error fetching data:', error.response ? error.response.data : error.message);
  }
}

// Invoke the fetchData function
fetchData();

Оптимизация разбиения на страницы JavaScript для веб-скрапинга и сбора данных

При изучении веб-сайтов с системой нумерации страниц на основе JavaScript крайне важно изучить несколько методов быстрого извлечения данных. Одним из вариантов, который иногда игнорируется, является перехват сетевых запросов, выдаваемых механизмом нумерации страниц. Внимательно просматривая запросы, выполняемые в инструментах разработчика браузера, особенно на вкладке «Сеть», вы можете определить конечные точки, используемые для получения данных для каждой страницы. Системы на основе JavaScript могут использовать или запросы на динамическую загрузку данных без изменения URL-адреса, в отличие от традиционной пагинации, требующей изменения параметров URL-адреса.

Чтобы извлечь ссылки или данные с таких веб-сайтов, перехватывайте запросы и получайте возвращаемые ими данные. Puppeteer и другие инструменты позволяют отслеживать сетевой трафик и собирать полезные данные. Когда эта стратегия неосуществима из-за ограничений на стороне сервера, понимание поведения API становится критически важным. Некоторые API, такие как , может запрещать определенные методы, такие как и разрешать только запросы. Адаптация ваших запросов в соответствии с предполагаемым методом API является эффективным решением этих ограничений.

Наконец, при очистке данных с разбивкой на страницы очень важно предусмотреть подходящие паузы между запросами. Многие веб-сайты используют алгоритмы ограничения скорости для предотвращения злоупотреблений, а отправка слишком большого количества запросов подряд может привести к тому, что ваш IP-адрес будет временно занесен в черный список. Чтобы избежать обнаружения и обеспечить успешное извлечение данных, включите случайную задержку между запросами или ограничьте количество одновременных запросов. Используя такие инструменты, как в Node.js и правильная обработка ставок — замечательный подход для достижения этой цели.

  1. Что такое нумерация страниц на основе JavaScript?
  2. Пагинация на основе JavaScript – это способ, при котором кнопки нумерации страниц используют JavaScript для динамической загрузки свежего материала, часто без изменения URL-адреса.
  3. Как я могу очистить данные с веб-сайта с разбивкой на страницы JavaScript?
  4. Вы можете использовать такие инструменты, как или для автоматизации нажатия кнопок разбивки на страницы или захвата сетевых запросов во время разбивки на страницы.
  5. Почему API возвращает ошибку 405 Method Not Allowed?
  6. Это происходит потому, что API поддерживает только определенные методы HTTP. Например, он может блокировать запросы, позволяя запросы.
  7. Могу ли я изменить URL-адрес для навигации по страницам?
  8. В пагинациях на основе JavaScript часто невозможно изменить URL-адрес напрямую. Для навигации вам потребуется запускать события JavaScript или использовать конечные точки API.
  9. Какие инструменты я могу использовать для очистки данных с разбивкой на страницы?
  10. Популярные программы очистки включают в себя для автоматизации браузера и для HTTP-запросов. Оба эффективно обрабатывают разбивку на страницы.

Работа с нумерацией страниц на основе JavaScript требует сочетания интерфейсных и серверных решений. Независимо от того, используете ли вы Puppeteer для автоматизации действий браузера или Axios для прямого взаимодействия с конечными точками API, эффективный парсинг требует тщательного проектирования и выполнения.

Понимание того, как веб-сайт загружает и обрабатывает данные, позволяет писать эффективные сценарии для извлечения необходимой информации. Чтобы избежать частых опасностей, таких как ошибка 405, внимательно отслеживайте сетевой трафик, управляйте ограничениями скорости и используйте правильные методы HTTP.

  1. Подробная информация об использовании Puppeteer для парсинга веб-страниц содержится в официальной документации Puppeteer. Документация Кукловода
  2. Объяснение методов HTTP и обработки запросов API, в частности, ошибки 405 «Метод не разрешен», было получено из Веб-документы MDN .
  3. Информация об Axios для выполнения HTTP-запросов в Node.js была получена из официального Документация Аксиоса .
  4. Для манипуляций с DOM в JavaScript и таких событий, как click(), на контент ссылались из Веб-документы MDN .