学习使用 Python 和 Beautiful Soup 在动态网站上进行网页抓取
Daniel Marino
31 十二月 2024
学习使用 Python 和 Beautiful Soup 在动态网站上进行网页抓取

网页抓取可能很困难,尤其是对于使用 JavaScript 的动态网站。通过使用静态 HTML 的 Beautiful Soup 和动态页面的 Selenium 等工具可以获得各种解决方案。查找 API 端点还可以使数据提取变得更加容易。当绩效和道德抓取方法达到平衡时,运营就会顺利进行。 🌟

探索 Instagram 卷轴和故事的法律数据源
Lina Fontaine
10 十二月 2024
探索 Instagram 卷轴和故事的法律数据源

对于任何寻找用于机器学习的类似 Instagram 视频的大量数据集的人来说,找到可靠且有效的来源至关重要。尽管可以使用 BeautifulSoup 等抓取程序提取公共数据,但它们存在道德问题。通过调查 YFCC100M 等可用数据集或来自 TikTok 等平台的 API,可以找到可扩展且合规的替代方案。

使用 JSoup 呈现动态 JavaScript 增强型 HTML
Lucas Simon
16 十月 2024
使用 JSoup 呈现动态 JavaScript 增强型 HTML

本文介绍了使用 JSoup 从严重依赖 JavaScript 的网页中提取 HTML 的困难。由于 JSoup 无法运行 JavaScript,因此研究了 Selenium 和 Puppeteer 等替代技术来捕获最终呈现的 HTML。即使在具有 JavaScript 驱动组件的复杂网站上,这些技术也能保证开发人员能够快速访问和使用动态内容。