ä¸ºä»ä¹ Puppeteer å¨æçæå¡å¨ä¸æ¾ä¸å° Chromeï¼

è¿éå¸¸åçæ¯å ä¸ºé»è®¤ cache path âwww-dataâç¨æ·æ æ³è®¿é® Chromeãå°è¯å° Puppeteer éç½®ä¸ºä½¿ç¨å±äº«ç®å½ï¼ä¾å¦ /var/www/.cache/puppeteerã

å¦ä½ä¸º Puppeteer è®¾ç½®èªå®ä¹ç¼åè·¯å¾ï¼

âæ æ²ç®±âæ¯ä»ä¹ææï¼ä¸ºä»ä¹æå¿è¦ï¼

å¦ä½æ£æ¥ Puppeteer æ¯å¦å·²æ£ç¡®å®è£ Chromeï¼

æ¨å¯ä»¥éè¿è¿è¡æ¥éªè¯å®è£ npx puppeteer browsers install å¨æ§è¡ Puppeteer èæ¬çåä¸ç¨æ·ä¸ï¼ä¾å¦ Apache è®¾ç½®ä¸çâwww-dataâã

æå¯ä»¥èªå¨ä¸ºæ¯ä¸ªé¨ç½²è®¾ç½®ç¼åè·¯å¾åï¼

æ¯çï¼éè¿å°å®è£èæ¬æ·»å å°ä½¿ç¨ä»¥ä¸å½ä»¤çé¨ç½²ç®¡éä¸ fs.mkdirSync ç¨äºç¼ååå»ºå npx puppeteer browsers install ç¨äº Chrome å®è£ã

å¨çäº§æå¡å¨ä¸ç¦ç¨ Chrome æ²ç®±æ¯å¦å®å¨ï¼

Puppeteer éè¦ä»ä¹æéæè½è¿è¡ Chromeï¼

è®¾ç½®åå¦ä½éªè¯ Puppeteer æ¯å¦éç½®æ£ç¡®ï¼

ä¸ºä»ä¹æ¬å°å¼åä¸ä¼åºç°è¿ä¸ªéè¯¯ï¼

éç½® Puppeteer éè¦åªäºç¯å¢åéï¼

å³é®ç¯å¢åéåæ¬ PUPPETEER_CACHE ç¨äºè®¾ç½®ç¼åè·¯å¾ï¼å¹¶ä¸å¯éå°ï¼ PUPPETEER_EXECUTABLE_PATH æå®èªå®ä¹ Chrome äºè¿å¶ä½ç½®ã

使用 Node.js Puppeteer

Arthur Petit

2024年11月7日星期四上午12:03:50

克服 Node.js 和 Laravel 服务器环境中的 Puppeteer 挑战

从本地开发设置迁移到实时服务器时，经常会出现意外的配置问题。其中一个可能特别令人沮丧的问题是，当 Node.js 脚本使用 傀儡师 抛出错误：“找不到 Chrome。”当在 Apache 服务器帐户（例如“www-data”）下运行 Laravel 驱动的脚本时，通常会发生这种情况。 🖥️

在本地计算机上，Laravel 脚本在当前用户的帐户下执行，这意味着所有相关的 Node 进程都遵循该用户的配置。但在服务器上，权限和路径会发生变化，导致查找 Puppeteer 所依赖的 Chrome 二进制文件变得复杂。这是开发人员面临的共同挑战，因为每个环境都有其怪癖和要求。

此错误背后的核心问题之一通常是配置错误或无法访问 缓存路径 用于 Chrome 安装。虽然手动安装 Chrome for Puppeteer 会有所帮助，但这并不总是足以解决问题。许多开发人员发现，正确配置系统级权限是在服务器上顺利运行 Puppeteer 的关键。

在本文中，我们将详细介绍如何解决此错误，探讨为什么缓存路径配置至关重要，并分享实用的解决方案。 🛠️ 通过一些简单的调整，您将能够在服务器环境中可靠地运行 Puppeteer 脚本。

命令	说明和使用示例
fs.mkdirSync(path, { recursive: true })	如果指定路径尚不存在，则创建一个目录。 recursive: true 选项确保在丢失时创建所有必需的父目录，从而允许嵌套目录路径，例如 /var/www/.cache/puppeteer。
process.env.PUPPETEER_CACHE = CACHE_PATH	设置环境变量 PUPPETEER_CACHE 来定义 Puppeteer 的缓存目录。此配置允许 Puppeteer 找到 Chrome 可执行文件，这在以不同用户身份运行脚本时尤其重要。
puppeteer.launch({ executablePath: '/usr/bin/google-chrome-stable' })	启动 Puppeteer 时为 Chrome 指定自定义可执行路径。当 Puppeteer 无法自动找到 Chrome 时，这是必要的，特别是在 Chrome 可能不在默认路径中的服务器环境中。
args: ['--no-sandbox']	向 Puppeteer 启动配置添加参数，例如 --no-sandbox。这对于沙箱可能导致无头浏览器出现权限问题的服务器环境至关重要。
require('dotenv').config()	将环境变量从 .env 文件加载到 process.env。这允许在不进行硬编码的情况下设置缓存路径或可执行路径，从而使脚本能够适应不同的环境。
fs.rmdirSync(path, { recursive: true })	递归删除目录及其内容。用于测试场景，以确保在运行重新创建目录的安装脚本之前有一个干净的环境。
exec('node setupScript.js', callback)	从另一个脚本中运行外部 Node.js 脚本。此命令对于在启动主 Puppeteer 进程之前运行安装脚本来初始化目录或安装依赖项非常有用。
userDataDir: path	为 Puppeteer 设置自定义用户数据目录，这有助于将缓存和用户特定数据保存在指定位置。这对于管理服务器上非根用户的浏览器状态和缓存数据至关重要。
describe('Puppeteer Configuration Tests', callback)	Jest 或 Mocha 等测试框架的描述块，用于对相关测试进行分组。此结构有助于组织和执行验证 Puppeteer 配置设置的测试，尤其是缓存和启动配置。
expect(browser).toBeDefined()	检查测试中浏览器实例是否已成功创建。此验证步骤确认 Puppeteer 可以启动 Chrome，对于捕获各种环境中的启动错误至关重要。

了解并解决服务器上 Node.js 中的 Puppeteer 缓存路径问题

上一节中提供的脚本的关键目的是帮助 Puppeteer 定位服务器上已安装的 Chrome 浏览器，特别是当 Node.js 脚本由不同的用户帐户（例如 Apache 下的“www-data”）运行时。出现此错误的一个关键原因是 Puppeteer 在通常特定于用户的默认缓存路径中查找 Chrome。当 Apache 用户执行 Node 脚本时，它无权访问当前用户主文件夹中的缓存目录。此设置可以设置替代路径，例如 /var/www/.cache/puppeteer，这是必不可少的，这样无论运行的用户是谁，都可以访问 Chrome。通过使用适当的权限创建此目录并将 Puppeteer 的缓存链接到该目录，我们允许在 Apache 下运行的 Puppeteer 进程可靠地找到 Chrome 浏览器。

脚本执行的第一步是使用以下命令确保缓存目录存在 fs.mkdirSync 使用递归选项。这保证了一次性创建任何需要的父目录。创建目录后，脚本将设置 PUPPETEER_CACHE 将环境变量添加到 Chrome 的安装路径。该环境变量至关重要，因为它会覆盖 Puppeteer 的默认缓存路径，确保它始终在指定的服务器友好路径中查找，而不是在用户特定的路径中查找。例如，如果您正在临时服务器上工作并希望确保 Puppeteer 在多个帐户中一致运行，则将环境变量设置为共享位置将防止与丢失可执行文件相关的错误。

在这些脚本中启动 Puppeteer 时，我们指定 可执行路径 参数提供 Chrome 二进制文件的直接路径。这绕过了 Puppeteer 在多个目录中搜索的需要，这在某些权限下可能会失败。脚本中包含的另一个有用的命令是 args: ['--无沙箱']，服务器环境中经常需要的参数。默认情况下启用的沙箱模式有时会干扰非 root 用户或限制某些服务器配置中的权限。通过添加此参数，我们允许 Puppeteer 在没有沙箱的情况下启动 Chrome，这解决了 Linux 服务器环境中的许多与权限相关的错误。 🖥️

最后，为了确保解决方案可靠地工作，我们提供了单元测试。这些测试使用类似的命令 fs.rmdirSync 重置缓存目录，确保在运行测试之前保持干净状态，从而验证脚本的功能。此外，该测试还通过验证 Puppeteer 是否可以在指定路径中找到 Chrome 来检查浏览器是否成功启动。这对于具有自动化部署的服务器至关重要，因为它确认浏览器配置无需手动调整即可在生产中运行。例如，在持续集成设置中，每次部署代码时都可以运行这些测试，让开发人员确信 Puppeteer 的配置完好无损，从而防止在实时环境中出现意外情况。 🛠️

解决方案 1：安装 Chrome 并为 Apache 用户提供正确的权限

方法：Node.js 后端脚本为 www-data 用户安装和配置 Puppeteer。

const puppeteer = require('puppeteer');
const fs = require('fs');
const path = '/var/www/.cache/puppeteer';

// Ensure the cache directory exists with appropriate permissions
function ensureCacheDirectory() {
    if (!fs.existsSync(path)) {
        fs.mkdirSync(path, { recursive: true });
        console.log('Cache directory created.');
    }
}

// Launch Puppeteer with a custom cache path
async function launchBrowser() {
    ensureCacheDirectory();
    const browser = await puppeteer.launch({
        headless: true,
        executablePath: '/usr/bin/google-chrome-stable',
        userDataDir: path,
    });
    return browser;
}

// Main function to handle the process
(async () => {
    try {
        const browser = await launchBrowser();
        const page = await browser.newPage();
        await page.goto('https://example.com');
        console.log('Page loaded successfully');
        await browser.close();
    } catch (error) {
        console.error('Error launching browser:', error);
    }
})();

解决方案 2：使用环境变量和路径设置配置 Puppeteer

方法：使用 Puppeteer 缓存路径的环境变量进行后端配置的 Node.js 脚本

const puppeteer = require('puppeteer');
require('dotenv').config();

// Load cache path from environment variables
const CACHE_PATH = process.env.PUPPETEER_CACHE_PATH || '/var/www/.cache/puppeteer';
process.env.PUPPETEER_CACHE = CACHE_PATH;

// Ensure directory exists
const fs = require('fs');
if (!fs.existsSync(CACHE_PATH)) {
    fs.mkdirSync(CACHE_PATH, { recursive: true });
}

// Launch Puppeteer with environment-based cache path
async function launchBrowser() {
    const browser = await puppeteer.launch({
        headless: true,
        args: ['--no-sandbox'],
        executablePath: '/usr/bin/google-chrome-stable',
    });
    return browser;
}

(async () => {
    try {
        const browser = await launchBrowser();
        console.log('Browser launched successfully');
        await browser.close();
    } catch (error) {
        console.error('Launch error:', error);
    }
})();

解决方案 3：对 Puppeteer 缓存和启动功能进行单元测试

方法：Node.js 单元测试来验证 Puppeteer 缓存目录设置和浏览器启动功能

const { exec } = require('child_process');
const puppeteer = require('puppeteer');
const fs = require('fs');
const path = '/var/www/.cache/puppeteer';

describe('Puppeteer Configuration Tests', () => {
    it('should create cache directory if missing', (done) => {
        if (fs.existsSync(path)) fs.rmdirSync(path, { recursive: true });
        exec('node setupScript.js', (error) => {
            if (error) return done(error);
            expect(fs.existsSync(path)).toBe(true);
            done();
        });
    });

    it('should launch Puppeteer successfully', async () => {
        const browser = await puppeteer.launch({
            headless: true,
            executablePath: '/usr/bin/google-chrome-stable',
            userDataDir: path,
        });
        expect(browser).toBeDefined();
        await browser.close();
    });
});

解决多用户环境中的 Puppeteer 和 Chrome 路径错误

使用时的挑战之一 傀儡师 在服务器环境中确保正确 缓存路径 对于 Chrome，尤其是当脚本在不同的用户帐户下运行时，例如 Apache 的“www-data”。此设置通常会使配置变得复杂，因为“www-data”帐户可能无法访问默认的 Puppeteer 缓存路径。当 Puppeteer 无法找到 Chrome 二进制文件时，通常会导致错误“无法找到 Chrome”，即使之前安装了 Chrome。手动配置缓存路径或设置环境变量可以通过确保 Puppeteer 查找跨用户共享的目录来解决此问题，例如 /var/www/.cache/puppeteer。

另一个需要考虑的方面是在服务器环境中为 Puppeteer 设置特定的启动参数。例如，禁用 Chrome 沙箱 args: ['--no-sandbox'] 有助于避免 Linux 服务器上的权限问题，Linux 服务器并不总是能很好地处理非 root 用户的沙箱。此选项与指定自定义可执行路径一起提高了 Puppeteer 与服务器环境的兼容性。在本地设置中，您可能不会遇到这些问题，因为 Puppeteer 使用当前用户的权限运行，但在生产中，限制性更强的“www-data”用户无法访问某些资源，除非明确配置这些资源。

最后，在共享或生产环境中部署脚本时，自动化这些配置是一个很好的做法。使用如下命令自动执行设置缓存路径和安装 Chrome 等步骤 npx puppeteer browsers install 确保每个部署都准备好运行 Puppeteer，无需手动干预。此外，添加测试来验证 Chrome 是否正确启动可以防止因配置错误而导致的停机。这些调整对于构建稳定的环境至关重要，无论运行脚本的用户帐户如何，Puppeteer 都能按预期运行。 🛠️

有关 Puppeteer 和 Chrome 配置的常见问题

为什么 Puppeteer 在我的服务器上找不到 Chrome？
这通常发生是因为默认 cache path “www-data”用户无法访问 Chrome。尝试将 Puppeteer 配置为使用共享目录，例如 /var/www/.cache/puppeteer。
如何为 Puppeteer 设置自定义缓存路径？
您可以通过定义来设置自定义缓存路径 process.env.PUPPETEER_CACHE 环境变量并将其指向运行该脚本的所有用户都可以访问的目录。
“无沙箱”是什么意思，为什么有必要？
使用 args: ['--no-sandbox'] 选项禁用 Chrome 的沙盒模式，这可以防止服务器环境中的权限问题，特别是对于非 root 用户。
如何检查 Puppeteer 是否已正确安装 Chrome？
您可以通过运行来验证安装 npx puppeteer browsers install 在执行 Puppeteer 脚本的同一用户下，例如 Apache 设置中的“www-data”。
我可以自动为每个部署设置缓存路径吗？
是的，通过将安装脚本添加到使用以下命令的部署管道中 fs.mkdirSync 用于缓存创建和 npx puppeteer browsers install 用于 Chrome 安装。
在生产服务器上禁用 Chrome 沙箱是否安全？
虽然禁用沙箱可以解决权限问题，但通常仅在必要时才建议这样做，因为它会稍微降低安全性。对于安全的环境，如果可能的话，探索替代方案。
Puppeteer 需要什么权限才能运行 Chrome？
Puppeteer 需要对配置中指定的缓存和用户数据目录进行读写访问，特别是当它们设置为非默认位置时。
我可以在 Puppeteer 中使用其他浏览器而不是 Chrome 吗？
是的，Puppeteer 支持其他基于 Chromium 的浏览器，例如 Brave，并且部分支持 Firefox。但是，请确保与脚本的要求兼容。
设置后如何验证 Puppeteer 是否配置正确？
运行单元测试来检查缓存目录是否存在并使用 Puppeteer 验证 Chrome 启动，有助于确保所有内容都配置正确。
为什么本地开发不会出现这个错误？
在本地设置中，当前用户可能可以直接访问默认缓存路径，而在服务器上，Apache 用户“www-data”可能无法在没有特定配置的情况下访问某些资源。
配置 Puppeteer 需要哪些环境变量？
关键环境变量包括 PUPPETEER_CACHE 用于设置缓存路径，并且可选地， PUPPETEER_EXECUTABLE_PATH 指定自定义 Chrome 二进制位置。

总结解决 Puppeteer Chrome 错误的关键步骤

对于使用 Puppeteer 遇到“无法找到 Chrome”错误的开发者来说，调整 Chrome 的缓存路径和可执行权限至关重要。使用环境变量等命令来设置 PUPPETEER_CACHE 并配置 args: ['--无沙箱'] 确保不同用户帐户的可靠访问。 🖥️

无论是在登台、生产还是其他共享服务器中进行设置，通过单元测试验证配置都可以增加强大的保证层。这些步骤使 Puppeteer 能够顺利定位 Chrome 并可靠地执行脚本，从而能够不间断地自动执行浏览器任务。 🛠️

有关 Puppeteer 和 Chrome 配置的参考资料和进一步阅读

本详细指南全面介绍了如何配置 Puppeteer 的缓存路径和可执行文件设置，这对于解决不同环境中的“无法找到 Chrome”错误至关重要。 Puppeteer 配置指南
Puppeteer 官方文档中有关浏览器安装方法的见解有助于阐明自动化浏览器任务所需的关键设置步骤。 Puppeteer GitHub 文档
为了对服务器环境中的权限和路径进行更深入的故障排除，此资源涵盖了使用 Puppeteer 部署 Node.js 应用程序的常见错误和最佳实践。 Google 开发者 Puppeteer 概述
有关文件系统权限的 Node.js 文档为设置共享目录和管理访问提供了有用的上下文，特别是在“www-data”等不同用户帐户下。 Node.js 文件系统 (fs) 文档

使用 Node.js Puppeteer 修复服务器上的“无法找到 Chrome”和缓存路径问题