AI Agent的检验标准

AI摘要-升级中

ApacheGPT

生成中...

大量混淆定义

关于”Agent”的定义，我始终在思考的问题是：ChatGPT代码解释器是否符合该定义下的Agent标准？
这个案例完美展示了工具调用型大语言模型的闭环运作模式——它在循环中尝试达成目标
但这样的行为是否足以被定义为”Agent”？
A：我认为，如果它能自主修正代码、执行并反馈结果，那么它至少属于特定领域的狭义Agent
B：当讨论Agent”工具”时，我指的是能够影响（或至少查询）外部系统的功能
而代码解释器既缺乏后台处理能力，也不具备Agent间的通信机制
C：这取决于评估维度
在其独立工作区内，或许可以视为Agent
但就现实世界影响力而言，显然还不够格
1：Agent = 大语言模型 + 记忆模块 + 规划能力 + 工具调用 + 循环机制
2：我们内部使用的定义是：”能够在现实世界（包括物理和数字领域）中执行并完成长期开放性任务的人工智能系统”
3：应用的Agent性越强，大语言模型对程序控制流的决策权就越大
4：AI Agent 是能够自主规划并使用工具达成目标（而非遵循预设步骤）的系统
5：某技术白皮书定义：”AI Agent是利用现代生成式AI模型进行规划、数据存取、工具调用、决策制定
并与现实世界互动以完成特定功能的自主软件系统”
6：基于大语言模型的自主系统
能够理解自然语言输入、做出决策并执行动作以实现用户定义的目标
它会将指令转化为操作命令，与工具交互，适应反馈，并有效管理复杂任务
7：我将”Agent”定义为”未来状态的控制系统”
8：Agent是软件程序，其价值在于能实现意向性抽象
9：”Agent是在每个实例中精确执行用户具体需求指令的程序”
10：能够自主运行的计算机
11：”AI Agent是能解析指令并在完整AI工作流中承担更多职责（如函数执行、数据查询等）的组件
而不仅仅是生成LLM响应”
12：Agent = 利用LLM推理能力进行决策的自主系统
13：任何能完成自身OODA循环（观察-调整-决策-行动循环）的系统
14：AI Agent是能自主或半自主执行任务并做出决策的软件
它通过自然语言交互，依托LLM等AI模型处理指令并触发行动
既可独立运作，也可作为工作链的一环
15：Agent需被信任，代表委托方利益行事
例如：政府代理人有权代表政府言行的前提是获得信任背书
缺乏信任即不存在代理关系
16：能够自主学习、适应环境并主动追求既定目标的应用
17：”Agent”指利用LLM进行任务规划和决策
通过工具调用（辅助程序与第三方API）持续执行计划-决策-行动循环直至目标达成的软件程序
18：能够在极少人为干预下执行复杂多步骤任务的系统
19：Agent是长期与现实世界交互以实现目标的进程
例如：周期性监测机票价格并在条件合适时自动预订的Agent
或跟踪通信记录并提醒重要信息过期的Agent
20：Agent是基于LLM的控制流架构
21：能长期处理行政事务与系统维护的推理机器
尤其擅长应对突发状况，不依赖内部知识库而能基于新信息自主行动
22：循环运作的LLM系统
23：典型特征：
1-内部集成LLM的软件
2-以非预设步骤序列向目标推进
3-步骤涉及工具调用：改变LLM完成态之外的状态或与其他系统交互
24：Agent具有感知”输入”和行动空间
通过行动影响环境，观察反馈并持续循环直至目标达成
现代LLM Agent可使用任意Python函数作为工具
25：关于规划能力的反思：
实际应用中90%的企业场景（包括我们生产环境运行的多个Agent）
工作流是固定的或采用简单条件判断结构
在需要稳定性的企业场景中，将规划权交给LLM期待其遵循已验证方案可能更可靠
26：”具有无限潜力却缺乏实际应用的理论建构，非常适合用于打动风险投资人”
27：经过编程能在自主循环中运作的LLM系统
需满足：1-规避能力范围外的操作；2-具备循环终止判断机制

开始思考

关于什么是”AI Agent”，目前存在大量混淆定义
但也有一些共识：Agent必须是AI驱动的系统
它们需要具备一定程度的自主性，除了理解和推理能力外，还应能使用工具
那为什么像ChatGPT这样的系统没有被视为Agent？
根据大多数现有定义，它确实符合条件
然而包括OpenAI自身在内，大多数人都不这样描述它
我们对AI Agent似乎存在一种”看到即知道”的直觉判断
为了给认知思路提供指导，我需要更精确的定义
因此制定了自己的客观标准-Agent的试金石测试，其核心在于身份认定

从法律中学习

代理关系是历史悠久的法律概念
即委托人授予代理人代为行事的权限
例如：企业委托房产经纪人寻找办公场所，或个人聘请旅行社规划假期
当此类代理违反法律时，责任应该由谁承担？
虽然委托人可能需要担责（例如指示代理人从事非法行为）
但代理人本身也拥有自主决策权
因此当代理人以自身身份行事时，可能需要独立承担法律责任

审计日志中的身份标识

在企业软件系统中，我们对身份有明确的定义：
即审计日志中对任何操作行为进行记录的责任主体
我的AI代理试金石测试标准：人工智能系统是否以独立身份执行操作？
若系统以独立身份执行操作，即为代理
此时审计日志将记录该代理本身
反之（如大多数智能副驾驶或产品内置助手）则不属于代理
通过这个测试还能揭示代理的其他特性
具有身份标识意味着自主性，因为AI必须独立使用工具和执行操作
具有身份标识需要具备能力和推理水平，因为AI必须具备良好的决策能力才能承担相应的责任
否则企业不会信任其独立性
同时，身份标识并不排斥代理偶尔需要人类输入或监督
因为现实中的代理也会有这种情况
企业员工与同事/上级之间也存在这种协作关系

应用试金石测试

AI Agent是指能够以独立身份采取自主行动的系统
而非作为人类用户的延伸
审计日志中记录的责任主体是系统自身还是人类用户
决定了该系统的本质是真正的Agent，还是仅作为辅助工具而存在
根据这一标准，许多优秀的AI软件并不属于Agent范畴
这并无不妥：帮助人类更高效完成工作的辅助型软件将长期发挥重要的作用

额外补充：工作流与 Agent

工作流是通过预定义代码路径编排大语言模型与工具的系统 (此定义存在争议，详情看下文)
Agent则是大语言模型能动态自主控制流程与工具使用的系统，在任务执行过程中保持自主决策权
虽然这些都是营销术语，但区分标准的作用在于：
Agent的执行图谱中存在循环结构，能自主决定是否继续迭代
而工作流只是链式大语言模型调用，模型本身没有”选择权”
示例：
目标：循环运行特定Python分析函数，通过二分搜索寻找最优结果
最终将结果汇编成Markdown报告并导出为PDF
这些步骤绝大多数都不需要AI参与，更遑论Agent技术
本质上只是包含单一AI步骤（生成Markdown报告文本）的固定工作流
“AI Agent是运用大语言模型（LLM）决策应用程序控制流的系统”
这句话的未尽之意在于：
当前最先进的LLM是否真正具备可靠的推理与规划能力？
我认为，除代码调试任务与简单研究任务（如利用浏览器进行迭代式搜索并将结果整理成报告）外
现有模型尚不具备这种能力
推理能力、规划能力和可靠性
这三者似乎并非当前LLM的核心优势
工作流系统的本质争议：
关于”工作流是通过预定义代码路径编排大语言模型与工具的系统”这个定义
其准确性存疑：
现代工作流系统本质上具有高度动态性，能够自主决定流程与工具使用
开发者甚至能编写支持代码实时评估的工作流(尽管对于大多数场景而言，将这种灵活性赋予给LLM可能过于激进)
许多工作流系统会通过LLM决定后续操作
因此更准确的工作流定义应是：持久化编排事务的系统，而非特指预设执行序列或代码路径
因此，根据更被广泛接受的现代定义
“Agent”本质上属于动态性更高的工作流变种
Agent系统与工作流之争
实质上是计算机科学中声明式与命令式编程范式的古老辩论的延续
将二者统称为”Agent系统”反而混淆了概念差异
它们更像是特殊用例，而非本质不同的技术形态
不过值得注意的是，LLM确实存在通过输出无效内容进行”软抵抗”的行为

关于”AI Agent”定义的争论是否有必要

终端用户可能对此毫不关心
他们会觉得：真正值得关注的是软件的实际功能
无论其冠以AI、机器学习还是玄学之名，都无所谓
关键在于能否可靠完成任务，从而免除人工操作或雇佣成本
虽然作为终端用户无需纠结这些术语
但对系统设计者而言，明确概念框架至关重要
精准的定义往往能构建出清晰的思维模型
进而指导出优秀的系统设计
但需要警惕：不要陷入无意义的术语争论—这往往会演变成学术虚荣心的较量
定义模糊的危害：
概念边界不清晰会导致后续出现大量的无效争论
例如AGI（通用人工智能）的定义之争
乃至”智能”本身的界定，都陷入了不断移动标靶的循环辩论中
四十年前几乎无人关注AGI（通用人工智能）的明确定义，如今却引发各界广泛论战
分级分类的价值：
建立基础分类体系能有效规避争议
例如：
类型1-Agent：脚本驱动，利用LLM执行智能操作
类型2-Agent：大语言模型驱动，辅以脚本与工具，可能仍需人工介入
类型3-Agent：建造时光机执行终结任务（开个玩笑，此处指具备完全自主意识与行动能力的终极形态）

大量混淆定义

开始思考

从法律中学习

审计日志中的身份标识

应用试金石测试

额外补充：工作流与 Agent

关于”AI Agent”定义的争论是否有必要

CATALOG

FEATURED TAGS

FRIENDS

大量混淆定义

开始思考

从法律中学习

审计日志中的身份标识

应用试金石测试

额外补充：工作流 与 Agent

关于”AI Agent”定义的争论是否有必要

CATALOG

FEATURED TAGS

FRIENDS

额外补充：工作流与 Agent