AI摘要

北京大学的《DeepSeek 内部研讨系列 - AI Agent 与 Agentic AI 原理与应用洞察与未来展望》报告深入探讨了AI Agent和Agentic AI的兴起、核心技术、平台框架、技术现状与挑战以及未来展望。报告指出,AI Agent和Agentic AI的发展正在推动人工智能从被动工具向主动智能体转变,它们在多个领域的应用展现了巨大潜力。同时,报告也分析了AI Agent面临的挑战,如规划能力、行动能力、记忆能力、幻觉问题、多Agent协同等,并预测了未来趋势,包括模型即产品/服务、智能体操作系统等。报告强调,AI Agent与Agentic AI将继续引领智能体技术发展,塑造人与AI和谐共生的未来。
北京大学的《DeepS

北京大学:AI Agent 不再是被动的工具,而是主动感知、决策与行动的智能先锋。Agentic AI 以自主性为翼,目标驱动为舵,在学习与适应的海洋中乘风破浪。

在人工智能快速发展的今天,AI Agent 和 Agentic AI 的出现无疑是领域内的重要里程碑。AI Agent,作为一种具备环境感知、智能决策和自主行动能力的智能实体,正跨越理论与实践的边界,重塑行业版图,改变我们与技术交互的方式。而 Agentic AI 则更进一步,强调 AI 系统的自主性、目标驱动和学习能力,预示着 AI 从被动工具向主动智能体的重大转变。北京大学《DeepSeek 内部研讨系列 - AI Agent 与 Agentic AI 原理与应用洞察与未来展望》(文末有PPT免费获取方式)将从多个维度深入剖析这一前沿技术,探讨其现状、挑战与未来发展方向。

一、AI Agent 与 Agentic AI 的兴起:技术浪潮下的必然产物

AI Agent 的崛起并非偶然,而是技术进步与需求演变的必然结果。大型语言模型(LLM)的不断突破,为 AI Agent 注入了强大的语言理解和生成能力。这使得 AI Agent 不仅能够理解复杂指令,还能在多轮对话中保持连贯性,为用户提供完整的解决方案。从早期的简单任务执行到如今的复杂问题处理,AI Agent 正在成为各个行业的得力助手。

以智能客服为例,AI Agent 不再局限于回答常见问题,而是能够根据用户的具体需求,自主查询知识库、调用相关工具,甚至协助完成订单处理等复杂操作。在医疗领域,AI Agent 能够分析病历、辅助诊断,为医生提供有价值的参考建议。这些实际应用不仅提高了效率,还降低了人力成本,展现了 AI Agent 在现实世界中的巨大潜力。

随着技术的不断成熟,Agentic AI 逐渐成为研究热点。它追求的不仅是 AI 的功能实现,更是 AI 的自主性和适应性。Agentic AI 系统能够在动态环境中主动感知变化,调整自身策略以达成目标,并通过持续学习不断提升性能。这种从被动到主动的转变,标志着 AI 正在迈向更高的智能层次,为解决复杂、不确定的问题提供了全新思路。

二、AI Agent 的核心技术栈:智能体的“大脑”与“神经”

要理解 AI Agent 的运作机制,就必须深入探究其核心技术栈。这就好比是智能体的“大脑”和“神经”,支撑着其感知、思考和行动的全过程。感知模块作为智能体与外界交互的窗口,负责处理来自文本、图像、语音等多种渠道的信息。通过自然语言处理技术,AI Agent 能够精准理解用户意图;借助计算机视觉算法,它可以从图片中识别物体、场景;自动语音识别则让语音指令变得更加便捷。这些技术的融合,使 AI Agent 能够在复杂多变的环境中获取全面、准确的信息。

在认知与决策层面,大型语言模型扮演了核心引擎的角色。它赋予了 AI Agent 强大的语言理解和推理能力,使其能够在复杂语境中把握关键信息,生成恰当的回应。任务分解技术则帮助 AI Agent 将宏大而模糊的目标拆解为一系列具体可执行的子任务,为后续行动指明方向。记忆能力的构建同样至关重要,短期记忆确保了对话的连贯性,而长期记忆则依赖于向量数据库等技术,让 AI Agent 能够积累经验、沉淀知识,为长期服务提供支持。学习与适应能力则使 AI Agent 能够从每一次交互中汲取教训,优化自身行为模式,以更好地应对未来挑战。

行动模块是 AI Agent 将决策转化为实际影响的关键环节。工具使用机制让 AI Agent 能够调用外部 API、运行代码片段,实现对环境的改变。例如,它可以通过调用支付 API 完成在线购物,或利用数据分析工具生成可视化报表。代码执行能力进一步拓展了 AI Agent 的行动边界,使其能够直接操作数据、实现复杂业务逻辑。物理世界交互方面,具身智能 Agent 正在崛起,它们通过传感器感知环境,经由执行器实现物理动作,为机器人技术等领域注入了新的活力。人机交互界面则关注如何让 AI Agent 的输出更加自然、易懂,无论是生成简洁明了的文本回复,还是通过语音合成传递信息,都旨在提升用户体验。

Agent 架构模式的选择对智能体的性能和效率有着深远影响。单 Agent 架构以其简洁性适用于任务明确、范围有限的场景,便于快速开发和部署。多 Agent 系统则凭借其模块化和分布式特性,在面对复杂、分布式问题时展现出强大的优势。多个 Agent 可以协同工作,各自专注于特定子任务,通过高效的通信和协作机制,共同攻克难题。例如,在智能交通管理系统中,不同 Agent 负责监测路况、调控信号灯、优化车辆调度,它们相互配合,确保整个交通网络的顺畅运行。

三、主流 Agent 平台和框架与项目技术拆解:从工具到生态的构建

当前,市场上涌现出了众多 Agent 构建平台和开发框架,为不同背景的用户提供了丰富的选择。低代码 / 无代码构建平台如 Coze、Dify、FastGPT 等,大幅降低了 AI 应用开发的门槛,使非技术人员也能快速上手。这些平台通常提供可视化界面,通过简单的拖拽、配置操作,用户即可搭建出具备基本功能的智能 Agent。它们还内置了丰富的模板和插件,满足不同行业的常见需求,如客户服务、内容创作、数据分析等。然而,这类平台在灵活性和定制化程度上相对有限,更适合快速原型开发和简单应用场景。

面向专业开发者的 Agent 开发框架则更加注重代码级的定制和扩展能力。AutoGen、LangGraph、CrewAI 等框架提供了强大的功能组件和灵活的架构设计,支持开发者深度参与到 Agent 的构建过程中。开发者可以根据项目需求,选择合适的大型语言模型,定制个性化的提示词和指令集,以引导 Agent 的行为。同时,这些框架还提供了丰富的工具集成接口,方便开发者将外部服务和数据源无缝接入 Agent 系统。例如,在构建一个智能金融分析 Agent 时,开发者可以利用 LangGraph 的图结构数据处理能力,结合专业的金融数据 API,实现复杂的数据分析和投资策略推荐功能。

在众多 Agentic 应用和产品中,Genspark、秘塔 AI、Perplexity AI 等凭借其创新性和实用性脱颖而出。

Genspark 以其超级智能体为核心,能够在旅游规划、视频生成等多领域大显身手。它通过整合多个 AI 工具和数据集,实现了任务的自动化执行和复杂工作流的协同调度。

秘塔 AI 则专注于智能搜索和知识管理,其简洁、深入、研究三种搜索模式满足了不同用户群体的需求。通过构建知识库、提供结构化的信息展示和个性化的学习功能,秘塔 AI 为教育、科研等领域带来了高效的知识获取和分享体验。

Perplexity AI 则致力于打造融合搜索引擎与对话式 AI 的新型 Agent 浏览器,凭借实时网络爬取和大语言模型处理技术,为用户提供帮助。

通用智能 Agent 的发展同样值得瞩目。Manus、OpenManus 等项目旨在构建能够跨领域执行任务的通用型智能体。Manus 以其自主规划、多模态交互和强大的任务执行能力,成为了通用智能 Agent 的代表之一。它能够在软件开发、创意设计、信息处理等多个领域提供全面支持,展现出较高的智能水平和适应性。OpenManus 则秉持开源开放的理念,为开发者提供了一个可自由定制和扩展的通用 Agent 框架,推动了技术社区的协作和创新。

专用领域 Agent / 系统则针对特定行业和场景的痛点,提供了深度优化的解决方案。Lovart 专注于创意设计领域,通过自然语言到视觉、视频内容的转化,为设计师、营销团队等提供了高效的设计工具。其集成的多模态能力和智能化工作流程,使得设计任务的执行更加流畅和专业。Gemini DeepResearch 在深度研究领域独树一帜,依托 Gemini 2.5 Pro 模型和 Google 强大的搜索能力,实现了对复杂研究任务的深入探索和知识整合。无论是学术研究还是商业情报分析,它都能为用户节省大量时间和精力,提供高质量的研究成果。Open DeepResearch 作为开源研究助手,以其自动化研究流程和可定制性,为学术界和开源社区带来了新的研究工具和方法,促进了知识的共享和传播。

四、AI Agent 的技术现状、核心挑战与未来展望:站在十字路口的思考

当前,AI Agent 技术正处于快速发展与变革的关键时期。在感知能力方面,多模态感知技术取得了显著突破,使得 AI Agent 能够更加全面、准确地理解周围世界。从早期仅能处理文本信息,到现在直接解析图像、视频和音频内容,AI Agent 对环境的感知变得更加丰富和立体。例如,GPT-4 Vision 的发布让模型首次具备了对图片内涵的直接理解能力,而后续的 GPT-4o 等模型则进一步通过联合训练多种数据类型,能够捕捉声音的情感色彩和图像的细微差异,为复杂任务提供了更坚实的数据基础。

规划能力的演进同样值得关注。早期大模型在面对复杂推理问题时,往往缺乏有效的思考与规划过程,容易出现错误。随着思维树(ToT)方法的提出和多智能体协作模式的探索,模型的推理能力得到了一定提升。然而,这些方法仍存在局限性,如流程需要人工预先设定,缺乏灵活性。直到近期,以 OpenAI 的 O 系列模型和国产 DeepSeek R1 为代表的推理型大模型的出现,才真正实现了大模型的自主规划能力。这些模型能够在回答问题前自主进行多步推理,根据任务需求动态调整规划路径,摆脱了对固定工作流的依赖,标志着 AI Agent 从“执行者”向“决策者”的重要转变。

记忆能力的优化也是 AI Agent 发展的重要方向。一方面,短期记忆能力随着大模型上下文长度的增加而得到增强,使得模型在长对话场景中能够更好地保持信息连贯性。另一方面,长期记忆方面,RAG(检索增强生成)方案被广泛应用,通过将知识存储在外部向量数据库中,模型在需要时可以快速检索相关信息,有效提升了记忆的持久性和准确性。但 RAG 技术仍面临 embedding 质量和召回准确率等挑战,需要持续改进和优化。

在行动能力方面,AI Agent 的发展经历了从简单的 API 调用到视觉交互创新的历程。起初,模型主要通过生成特定的 API 调用指令文本,借助外部系统执行功能。但这种方式受限于 API 的可用性和覆盖范围,难以应对复杂现实场景。为此,Anthropic 推出了“Computer Use”项目,尝试训练大模型通过视觉理解电脑屏幕并直接操作电脑,尽管目前仍处于早期实验阶段,却为模型与无 API 环境的交互开辟了新路径。同时,开源社区的“Browser Use”项目则利用传统网页自动化工具,实现了模型对浏览器的间接控制,为 AI Agent 的行动能力拓展了新的空间。

尽管 AI Agent 技术取得了诸多进展,但仍面临一系列核心挑战。规划能力方面,AI Agent 在复杂任务中容易出现推理链断裂,缺乏抽象思维和自我纠错能力,难以胜任科学研究等高度抽象的领域。同时,因果推理能力的不足也限制了其对复杂问题的深入分析。此外,现阶段 AI Agent 的决策大多依赖预设工具链和规则,缺乏真正的自主思考和规划路径的能力。

行动能力方面,随着工具种类的增加,工具协作问题日益突出。解决复杂问题往往需要多工具的协同工作,这就要求建立工具依赖管理系统、工具组合效果预测模型以及工具冲突解决机制。此外,提示词膨胀问题也影响了大模型工具调用的准确性,当工具库规模庞大时,提示词长度受限于大模型的上下文窗口,降低了工具调用的成功率。目前,RAG-MCP 框架等解决方案正在探索通过动态检索工具描述来缓解这一问题。

记忆能力方面,AI Agent 与人类复杂精妙的记忆系统相比仍有较大差距。短期记忆受限于上下文长度,容易出现理解断层和信息连贯性断裂;长期记忆则在处理复杂逻辑推理和长期动态记忆场景时表现出不足。虽然 DeepSeek 开发的 NSP(Native Sparse Attention)稀疏注意力机制等新技术有望改善这一状况,但要达到人类记忆的水平仍需持续努力。

幻觉问题依然是困扰 AI Agent 信任度的主要障碍。大模型在处理复杂问题或不完整数据时,容易生成看似合理却完全错误的信息。这种幻觉现象在对信息准确性要求极高的领域(如金融、医疗等)可能引发严重后果。知识边界模糊、语言生成流畅性掩盖事实错误以及上下文污染等因素共同导致了幻觉问题的产生,需要从模型训练、提示词设计和结果验证等多方面进行改进。

多 Agent 协同方面,尽管多智能体系统(如 LangGraph、AutoGen)能够在一定程度上模拟真实组织协作,但在状态同步、上下文一致性和角色边界控制等方面仍缺乏成熟机制。Agent 之间可能出现重复劳动、任务冲突、死循环交互等问题,亟需开发类似“工作流协调器”的通用调度组件来提升协同效率。

推理稳定性与边界控制机制也是当前面临的挑战之一。LLM 推理的“生成随机性”使得相同 Prompt 下可能产生不同结果,这对于需要高一致性和确定性的业务任务(如财务分析、法律咨询等)来说是不可接受的。此外,缺乏统一的边界控制机制(如输入校验、工具调用约束、异常处理等)进一步增加了系统运行的风险。

在探索 AI Agent 的未来趋势时,主流观点认为将趋向于“模型即产品、模型即服务”。这意味着随着 AI 大模型能力的不断提升,模型本身将逐渐具备直接完成复杂任务的能力,从而减少对传统意义上独立 Agent 开发的依赖。模型的内在智能将成为发展重点,而非依赖预先设定的工作流编排。例如,Manus 等依赖固定流程的智能体在处理需要长期规划和多步骤动态推理的复杂任务时,其“提示驱动”和“固定路径”的模式显得力不从心,而具备自主规划和执行能力的模型将更具优势。

展望未来,智能体操作系统的概念逐渐浮出水面。传统的图形用户界面(GUI)要求用户主动学习和适应操作流程,而智能体操作系统将通过自然语言、语音、图像等多模态交互方式,主动理解用户意图,提供个性化服务。用户无需复杂的学习过程,即可轻松完成信息查询、任务管理和设备控制等操作,实现“所想即所得”的便捷体验。同时,通用智能体和专业智能体将在不同领域发挥各自的优势。通用智能体以其广泛的适应性和灵活性适用于个人助理、教育、娱乐等多个领域,而专业智能体则在医疗、金融、法律等行业中凭借其深厚的专业知识和高精度表现大放异彩。此外,AI 员工的普及也将改变企业的组织结构和运作模式,形成人机协同的混合团队,推动企业向更扁平灵活的方向发展。

五、总结:AI Agent 与 Agentic AI 的未来之路 —— 智能进化与价值重塑

AI Agent 与 Agentic AI 的发展正在推动人工智能从“能力展示”向“价值兑现”加速迈进。这一转变的核心在于智能体自主完成复杂任务的能力以及从交互中持续进化和自我优化的潜力。随着技术的不断突破和应用场景的持续拓展,AI Agent 正在深刻改变我们生活的方方面面。

从智能客服到医疗诊断,从创意设计到科学研究,AI Agent 的身影无处不在。它不仅提高了效率、降低了成本,更为我们带来了全新的交互体验和解决方案。而 Agentic AI 的崛起则预示着 AI 将具备更高的自主性和适应性,能够在复杂多变的环境中主动感知、决策和学习,为解决人类面临的重大挑战提供有力支持。

然而,技术的快速发展也带来了诸多挑战和思考。如何在提升 AI Agent 自主性的同时确保其行为的安全性、可靠性和可解释性?如何平衡技术进步与社会伦理、法律规范之间的关系?这些问题需要我们共同努力,在技术创新与社会治理之间找到平衡点。

展望未来,AI Agent 与 Agentic AI 将继续引领智能体技术的发展潮流。它们将成为我们日常工作和生活中的得力助手,甚至是不可或缺的合作伙伴。在这个充满机遇与挑战的时代,我们需要以开放的心态拥抱新技术,以审慎的态度引导其发展,共同塑造一个人与 AI 和谐共生的美好未来。

DeepSeek内部研讨系列-11、AI+Agent与Agentic+AI的原理和应用洞察与未来展望.pdf」
链接:https://pan.quark.cn/s/42c69c718eb9
【及时手机转存,以免链接失效】

640.webp
640.webp
640.webp
640.webp

本文来源:https://mp.weixin.qq.com/s/OyO25OrpGZpldz8nIWg1MQ

最后修改:2025 年 06 月 15 日
点赞的人是最酷的