AI摘要

本文介绍了四个GitHub上的开源爬虫工具。Crawl4AI是一个专为AI设计的网页爬虫和解析工具,性能快速,支持AI友好的数据格式。自媒体平台爬虫神器支持多个平台内容的一键爬取,包括小红书、抖音等,并能生成词云图。EasySpider是一个可视化爬虫软件,无需编程知识即可抓取网页数据。Automa是一款浏览器插件,通过可视化拖拉拽配置浏览器自动化操作,无需编写代码。这些工具为数据采集和自动化操作提供了便利。

1、专为 AI 准备的爬虫神器

这个应该是 GitHub 上 Star 最多的爬虫开源项目了,斩获 47K Star。
Crawl4AI 是专为 AI 设计的开源网页爬虫与解析工具,稳居 GitHub 爬虫神器首位。

image.png
它以比传统方案快 6 倍,性能极速。能够输出对 AI 友好的数据格式(Markdown),爬取后可以直接怼到 AI 进行训练,
同时支持灵活的浏览器控制能力,完全开源,支持 Docker 一键部署,相当炫酷。
开源地址:https://github.com/unclecode/crawl4ai

2、自媒体平台爬虫神器

这个自媒体平台爬虫神器,太火了,现在已经在 GitHub 上斩获 23.8K 的 Star。
它功能非常强大,支持这些平台内容的一键爬取:
小红书爬虫,抖音爬虫, 快手爬虫, B站爬虫, 微博爬虫,百度贴吧爬虫,知乎爬虫。

image.png

除了爬帖子,还支持创作者主页和评论信息,而且还能把评论一键生成词云图,炫酷极了。
而且开发者提供了详细的部署使用方法,快去瞧瞧吧。

开源地址:https://github.com/NanmiCoder/MediaCrawler
教程:https://nanmicoder.github.io/MediaCrawler/

image.png

3、可视化爬虫

不用写一行代码,这个开源的可视化爬虫软件,已经在 GitHub 上获得 39K 的Star。

image.png

开源地址:https://github.com/NaiboWang/EasySpider
打开你想要采集的网页,直接用鼠标右键点击你感兴趣的内容,软件会弹出菜单,告诉你可以对这个内容做什么操作,比如采集数据。

点击后软件就会像一个小机器人一样,自动帮你把网页上所有选定的信息抓取下来,并且整理成清晰的结构化数据。

相当方便啊。

image.png

EasySpider 就是一个让你无需编程知识,通过鼠标点点选选就能轻松抓取网页数据的可视化工具。

真正实现了「所见即所得」的数据采集,如果你有从网页上收集信息的需求,它绝对值得你一试!

4、自动化浏览器插件

GitHub 斩获 18.9K 的 Star!

Automa 是一款开源的浏览器插件,它可以通过可视化拖拉拽的方式配置浏览器自动化操作,根本不需要写代码。

Automa screenshot

拖拖拽拽,就能搞出来一个自动化流程,帮你网页数据抓取、表单自动填充、重复执行任务、屏幕截图及定时任务调度等。

image.png

开源地址:https://github.com/AutomaApp/automa
而且有很多现成的工作流模板,套上就能用很方便。

image.png

image.png

最后修改:2025 年 06 月 29 日
点赞的人是最酷的