AI摘要
嘿,大家好!这里是一个专注于前沿AI和智能体的频道~
大模型发展迅速,Agent发展也很迅速。但是似乎,目前还很少有对开源工具栈进行整理的。一些综述提到的可能比较旧(不更新了),或者不实用,或者内容太多了。
端午整理了一下,把压箱底的AI Agent开源工具栈全部整理出来~
下面,我们按照构建Agent的逻辑顺序,逐一盘点。9大类型、50个实用工具合集! 照旧,也做了一个网页展示(这次测试了一些比较酷的动效,需要网页源码的可以后台私信发送 Agent工具栈
一、计算机与浏览器操作
现在比较流行Compute Use,Agent必须能像人一样与电脑和网络交互——点击按钮、填写表单、抓取数据。这些工具就是连接“思考”与“行动”的桥梁。
Open Interpreter[1]:将自然语言翻译成本地可执行代码。想移动文件或运行脚本?直接跟它说就行。
Self-Operating Computer[2]:赋予Agent完全控制你桌面环境的能力,让它像真人一样操作系统。
LaVague[3]:让Web Agent能够实时浏览网站、填写表单并做出决策,是浏览器任务自动化的理想选择。
Playwright[4]:微软官方自动化工具,用于跨浏览器操作,非常适合测试或模拟用户流程。
Puppeteer[5]:控制Chrome或Firefox的可靠工具,非常适合抓取数据和自动化前端行为。
[1] Open Interpreter: https://github.com/OpenInterpreter/open-interpreter
[2] Self-Operating Computer: https://github.com/OthersideAI/self-operating-computer
[3] LaVague: https://github.com/lavague-ai/LaVague
[4] Playwright: https://github.com/microsoft/playwright
[5] Puppeteer: https://pptr.dev/
二、框架
框架可以帮忙组织Agent的逻辑、连接大模型、管理工具,是整个系统的核心。
CrewAI[6]:专为多智能体协作而生。当你的任务需要不同角色的Agent协同工作时,它就是最佳选择。
Phidata[7]:专注于记忆、工具使用和长期交互。非常适合构建需要记住上下文、能够持续进化的个人助理。
Camel[8]:为多智能体协作、模拟和任务专业化而设计。
AutoGPT[9]:通过规划和执行的循环来自动化复杂工作流。最适合需要独立运行的自主Agent。
AutoGen[10]:微软出品,让多个Agent能够相互沟通以解决复杂问题。
SuperAGI[11]:简化了构建和交付自主Agent的流程,主打一个快。
Superagent[12]:一个灵活的开源工具包,用于创建定制化的AI助理。
LangChain[13] & LlamaIndex](https://github.com/run-llama/llama_index):这两个不用多说,已经是管理记忆、检索和工具链的事实标准。
[6] CrewAI: https://github.com/crewAIInc/crewAI
[7] Phidata: https://github.com/agno-agi/agno
[8] Camel: https://github.com/camel-ai/camel
[9] AutoGPT: https://github.com/Significant-Gravitas/AutoGPT
[10] AutoGen: https://github.com/microsoft/autogen
[11] SuperAGI: https://github.com/TransformerOptimus/SuperAGI
[12] Superagent: https://github.com/superagent-ai/superagent
[13] LangChain: https://github.com/langchain-ai/langchain
三、 语音
语音是人机交互最自然的方式。这些工具负责处理语音识别、语音合成和实时交互,让你的Agent更具人性化。
语音转语音 (Speech2Speech)
Ultravox[14]:顶级的语音到语音模型,能流畅处理实时语音对话,响应速度极快。
Pipecat[15]:一个用于构建语音Agent的全栈框架,包含从语音到文本、文本到语音甚至视频交互的支持。
语音转文本 (Speech2Text)
Whisper[16]:OpenAI的明星产品,多语言转录和语音识别的利器。
stable-ts[17]:一个对开发者更友好的Whisper封装,增加了时间戳和实时支持,非常适合对话型Agent。
Speaker Diarization 3.1[18]:Pyannote的模型,用于识别是谁在说话,是处理多人会议音频的关键。
文本转语音 (Text2Speech)
ChatTTS[19]:目前我发现的最好的模型。速度快、稳定,对大多数用例来说都是生产就绪的。
ElevenLabs[20] (商业版):当音质比开源更重要时,这是首选。声音高度自然。
Cartesia[21] (商业版):另一个强大的商业选择,提供富有表现力的高保真语音合成。
[14] Ultravox: https://github.com/fixie-ai/ultravox
[15] Pipecat: https://github.com/pipecat-ai/pipecat
[16] Whisper: https://github.com/openai/whisper
[17] stable-ts: https://github.com/jianfch/stable-ts
[18] Speaker Diarization 3.1: https://huggingface.co/pyannote/speaker-diarization-3.1
[19] ChatTTS: https://github.com/2noise/ChatTTS
[20] ElevenLabs: https://elevenlabs.io/
[21] Cartesia: https://cartesia.ai/
四、 文档理解
绝大多数有价值的数据都埋藏在PDF、扫描件这些非结构化文档里。这些工具能帮你的Agent直接阅读和理解这些“硬骨头”,无需复杂的OCR流程。
Qwen2.5-VL[22]:来自阿里的强大视觉语言模型。在处理图文混合的复杂文档时,性能优于GPT-4和Claude 3.5 Sonnet。
DocOwl2[23]:一个轻量级的多模态模型,专为无OCR的文档理解而构建。速度快、效率高,能精准地从杂乱输入中提取结构和意义。
[22] Qwen2.5-VL: https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
[23] DocOwl2: https://huggingface.co/mPLUG/DocOwl2
五、 记忆
没有记忆的Agent,只能做一次性任务。想让它变得更聪明、更个性化,记忆是关键。
Mem0[24]:一个自我优化的记忆层,让你的Agent能根据过去的互动进行调整,构建更持久和个性化的AI体验。
Letta (原MemGPT)[25]:为LLM Agent增加长期记忆和工具使用能力。可以看作是那些需要记忆、推理和进化的Agent的脚手架。
LangChain[26]:包含即插即用的记忆组件,用于跟踪对话历史和用户上下文,非常实用。
[24] Mem0: https://github.com/mem0ai/mem0
[25] Letta (原MemGPT): https://github.com/letta-ai/letta
[26] LangChain: https://github.com/langchain-ai/langchain
六、 测试与评估
Agent越复杂,就越容易在边缘情况下出bug。这些工具可以帮助你在不同场景下测试Agent的行为,尽早发现问题。
AgentOps[27]:一套用于跟踪和基准测试AI Agent的工具,帮助你在问题影响用户之前发现并优化性能。
AgentBench[28]:一个评估LLM Agent在网页浏览、游戏等多种任务和环境中表现的基准测试工具。
eeVoice Lab[29]:一个用于测试语音Agent的综合框架,确保Agent的语音识别和响应准确自然。
[27] AgentOps: https://github.com/AgentOps-AI/agentops
[28] AgentBench: https://github.com/THUDM/AgentBench
[29] eeVoice Lab: https://github.com/saharmor/voice-lab
七 监控与可观测性
Agent上线后,性能、成本、稳定性如何?你需要“眼睛”来实时监控。
openllmetry[30]:使用OpenTelemetry为LLM应用提供端到端的可观测性,让你清晰地了解Agent性能,并快速进行故障排除和优化。
AgentOps[31]:一个全面的监控工具,可以跟踪Agent的性能、成本和基准测试,帮助你确保Agent高效且在预算内运行。
[30] openllmetry: https://github.com/traceloop/openllmetry
[31] AgentOps: https://github.com/AgentOps-AI/agentops
八、 仿真环境
在把Agent扔到真实世界前,最好先在沙盒里练练手。仿真环境让你可以在一个受控的世界里进行实验、完善决策逻辑,而没有真实世界风险。
AgentVerse[32]:支持在不同应用和模拟中部署多个基于LLM的Agent。
AI Town[33]:一个虚拟小镇,AI角色在其中进行社交互动,用于测试决策能力和模拟真实世界场景。
Generative Agents[34]:斯坦福大学的项目,专注于创建模拟复杂人类行为的Agent,非常适合在社交环境中测试记忆和决策。
[32] AgentVerse: https://github.com/OpenBMB/AgentVerse
[33] AI Town: https://github.com/a16z-infra/ai-town
[34] Generative Agents: https://github.com/joonspk-research/generative_agents
九、 垂直领域Agent
不是所有轮子都要自己造。这些垂直领域的Agent开箱即用,或者可以作为你定制化开发的基础。
编程:
OpenHands[35]:一个由AI驱动的软件开发Agent平台,旨在自动化编码任务。
aider[36]:一个与终端直接集成的AI结对编程工具,你的命令行里的AI副驾。
GPT Engineer[37]:用自然语言构建应用;只需描述你想要什么,AI就会澄清需求并生成代码。
screenshot-to-code[38]:将截图转换为功能齐全的HTML/Tailwind/React/Vue网站,快速将设计稿变现。
[35] OpenHands: https://github.com/All-Hands-AI/OpenHands
[36] aider: https://github.com/Aider-AI/aider
[37] GPT Engineer: https://github.com/AntonOsika/gpt-engineer
[38] screenshot-to-code: https://github.com/abi/screenshot-to-code
研究:
GPT Researcher[39]:一个自主研究Agent,能进行全面的资料搜集、数据分析并撰写报告。
[39] GPT Researcher: https://github.com/assafelovic/gpt-researcher
SQL:
Vanna[40]:用自然语言与你的SQL数据库交互;告别复杂的SQL命令,直接提问,Vanna就会帮你检索数据。
[40] Vanna: https://github.com/vanna-ai/vanna
最后
一个成功的Agent开发,关键不在于追逐每个热门新工具,而是务实地选择、组合、迭代。希望能给看到这里的小伙伴,提供一个高效率的起点,更快地构建出真正有价值的AI Agent。
好了,这就是我今天想分享的内容。如果你对构建AI智能体感兴趣,别忘了点赞、关注噢~
文章来源:公众号【探索AGI】https://mp.weixin.qq.com/s/1A7QZEVUQjEgWXb8QFxl-w