AI Agent的检验标准

Posted by 汤键|兔子队列 on March 16, 2025 禁止转载
本文总共 3665 字 · 阅读全文大约需要 11 分钟

大量混淆定义

  • 关于”Agent”的定义,我始终在思考的问题是:ChatGPT代码解释器是否符合该定义下的Agent标准?
  • 这个案例完美展示了工具调用型大语言模型的闭环运作模式——它在循环中尝试达成目标
  • 但这样的行为是否足以被定义为”Agent”?

  • A:我认为,如果它能自主修正代码、执行并反馈结果,那么它至少属于特定领域的狭义Agent

  • B:当讨论Agent”工具”时,我指的是能够影响(或至少查询)外部系统的功能
  • 而代码解释器既缺乏后台处理能力,也不具备Agent间的通信机制

  • C:这取决于评估维度
  • 在其独立工作区内,或许可以视为Agent
  • 但就现实世界影响力而言,显然还不够格

  • 1:Agent = 大语言模型 + 记忆模块 + 规划能力 + 工具调用 + 循环机制

  • 2:我们内部使用的定义是:”能够在现实世界(包括物理和数字领域)中执行并完成长期开放性任务的人工智能系统”

  • 3:应用的Agent性越强,大语言模型对程序控制流的决策权就越大

  • 4:AI Agent 是能够自主规划并使用工具达成目标(而非遵循预设步骤)的系统

  • 5:某技术白皮书定义:”AI Agent是利用现代生成式AI模型进行规划、数据存取、工具调用、决策制定
  • 并与现实世界互动以完成特定功能的自主软件系统”

  • 6:基于大语言模型的自主系统
  • 能够理解自然语言输入、做出决策并执行动作以实现用户定义的目标
  • 它会将指令转化为操作命令,与工具交互,适应反馈,并有效管理复杂任务

  • 7:我将”Agent”定义为”未来状态的控制系统”

  • 8:Agent是软件程序,其价值在于能实现意向性抽象

  • 9:”Agent是在每个实例中精确执行用户具体需求指令的程序”

  • 10:能够自主运行的计算机

  • 11:”AI Agent是能解析指令并在完整AI工作流中承担更多职责(如函数执行、数据查询等)的组件
  • 而不仅仅是生成LLM响应”

  • 12:Agent = 利用LLM推理能力进行决策的自主系统

  • 13:任何能完成自身OODA循环(观察-调整-决策-行动循环)的系统

  • 14:AI Agent是能自主或半自主执行任务并做出决策的软件
  • 它通过自然语言交互,依托LLM等AI模型处理指令并触发行动
  • 既可独立运作,也可作为工作链的一环

  • 15:Agent需被信任,代表委托方利益行事
  • 例如:政府代理人有权代表政府言行的前提是获得信任背书
  • 缺乏信任即不存在代理关系

  • 16:能够自主学习、适应环境并主动追求既定目标的应用

  • 17:”Agent”指利用LLM进行任务规划和决策
  • 通过工具调用(辅助程序与第三方API)持续执行计划-决策-行动循环直至目标达成的软件程序

  • 18:能够在极少人为干预下执行复杂多步骤任务的系统

  • 19:Agent是长期与现实世界交互以实现目标的进程
  • 例如:周期性监测机票价格并在条件合适时自动预订的Agent
  • 或跟踪通信记录并提醒重要信息过期的Agent

  • 20:Agent是基于LLM的控制流架构

  • 21:能长期处理行政事务与系统维护的推理机器
  • 尤其擅长应对突发状况,不依赖内部知识库而能基于新信息自主行动

  • 22:循环运作的LLM系统

  • 23:典型特征:
  • 1-内部集成LLM的软件
  • 2-以非预设步骤序列向目标推进
  • 3-步骤涉及工具调用:改变LLM完成态之外的状态或与其他系统交互

  • 24:Agent具有感知”输入”和行动空间
  • 通过行动影响环境,观察反馈并持续循环直至目标达成
  • 现代LLM Agent可使用任意Python函数作为工具

  • 25:关于规划能力的反思:
  • 实际应用中90%的企业场景(包括我们生产环境运行的多个Agent)
  • 工作流是固定的或采用简单条件判断结构
  • 在需要稳定性的企业场景中,将规划权交给LLM期待其遵循已验证方案可能更可靠

  • 26:”具有无限潜力却缺乏实际应用的理论建构,非常适合用于打动风险投资人”

  • 27:经过编程能在自主循环中运作的LLM系统
  • 需满足:1-规避能力范围外的操作;2-具备循环终止判断机制

开始思考

  • 关于什么是”AI Agent”,目前存在大量混淆定义

  • 但也有一些共识:Agent必须是AI驱动的系统
  • 它们需要具备一定程度的自主性,除了理解和推理能力外,还应能使用工具

  • 那为什么像ChatGPT这样的系统没有被视为Agent?

  • 根据大多数现有定义,它确实符合条件
  • 然而包括OpenAI自身在内,大多数人都不这样描述它
  • 我们对AI Agent似乎存在一种”看到即知道”的直觉判断

  • 为了给认知思路提供指导,我需要更精确的定义
  • 因此制定了自己的客观标准-Agent的试金石测试,其核心在于身份认定

从法律中学习

  • 代理关系是历史悠久的法律概念
  • 即委托人授予代理人代为行事的权限
  • 例如:企业委托房产经纪人寻找办公场所,或个人聘请旅行社规划假期

  • 当此类代理违反法律时,责任应该由谁承担?

  • 虽然委托人可能需要担责(例如指示代理人从事非法行为)
  • 但代理人本身也拥有自主决策权
  • 因此当代理人以自身身份行事时,可能需要独立承担法律责任

审计日志中的身份标识

  • 在企业软件系统中,我们对身份有明确的定义:
  • 即审计日志中对任何操作行为进行记录的责任主体

  • 我的AI代理试金石测试标准:人工智能系统是否以独立身份执行操作?

  • 若系统以独立身份执行操作,即为代理
  • 此时审计日志将记录该代理本身
  • 反之(如大多数智能副驾驶或产品内置助手)则不属于代理

  • 通过这个测试还能揭示代理的其他特性
  • 具有身份标识意味着自主性,因为AI必须独立使用工具和执行操作
  • 具有身份标识需要具备能力和推理水平,因为AI必须具备良好的决策能力才能承担相应的责任
  • 否则企业不会信任其独立性
  • 同时,身份标识并不排斥代理偶尔需要人类输入或监督
  • 因为现实中的代理也会有这种情况
  • 企业员工与同事/上级之间也存在这种协作关系

应用试金石测试

  • AI Agent是指能够以独立身份采取自主行动的系统
  • 而非作为人类用户的延伸

  • 审计日志中记录的责任主体是系统自身还是人类用户
  • 决定了该系统的本质是真正的Agent,还是仅作为辅助工具而存在

  • 根据这一标准,许多优秀的AI软件并不属于Agent范畴
  • 这并无不妥:帮助人类更高效完成工作的辅助型软件将长期发挥重要的作用

额外补充:工作流 与 Agent

  • 工作流是通过预定义代码路径编排大语言模型与工具的系统 (此定义存在争议,详情看下文)
  • Agent则是大语言模型能动态自主控制流程与工具使用的系统,在任务执行过程中保持自主决策权

  • 虽然这些都是营销术语,但区分标准的作用在于:
  • Agent的执行图谱中存在循环结构,能自主决定是否继续迭代
  • 而工作流只是链式大语言模型调用,模型本身没有”选择权”

  • 示例
  • 目标:循环运行特定Python分析函数,通过二分搜索寻找最优结果
  • 最终将结果汇编成Markdown报告并导出为PDF

  • 这些步骤绝大多数都不需要AI参与,更遑论Agent技术
  • 本质上只是包含单一AI步骤(生成Markdown报告文本)的固定工作流

  • “AI Agent是运用大语言模型(LLM)决策应用程序控制流的系统”
  • 这句话的未尽之意在于:
  • 当前最先进的LLM是否真正具备可靠的推理与规划能力?
  • 我认为,除代码调试任务与简单研究任务(如利用浏览器进行迭代式搜索并将结果整理成报告)外
  • 现有模型尚不具备这种能力
  • 推理能力、规划能力和可靠性
  • 这三者似乎并非当前LLM的核心优势

  • 工作流系统的本质争议
  • 关于”工作流是通过预定义代码路径编排大语言模型与工具的系统”这个定义
  • 其准确性存疑:
  • 现代工作流系统本质上具有高度动态性,能够自主决定流程与工具使用
  • 开发者甚至能编写支持代码实时评估的工作流(尽管对于大多数场景而言,将这种灵活性赋予给LLM可能过于激进)
  • 许多工作流系统会通过LLM决定后续操作
  • 因此更准确的工作流定义应是:持久化编排事务的系统,而非特指预设执行序列或代码路径
  • 因此,根据更被广泛接受的现代定义
  • “Agent”本质上属于动态性更高的工作流变种

  • Agent系统与工作流之争
  • 实质上是计算机科学中声明式与命令式编程范式的古老辩论的延续
  • 将二者统称为”Agent系统”反而混淆了概念差异
  • 它们更像是特殊用例,而非本质不同的技术形态
  • 不过值得注意的是,LLM确实存在通过输出无效内容进行”软抵抗”的行为

关于”AI Agent”定义的争论是否有必要

  • 终端用户可能对此毫不关心
  • 他们会觉得:真正值得关注的是软件的实际功能
  • 无论其冠以AI、机器学习还是玄学之名,都无所谓
  • 关键在于能否可靠完成任务,从而免除人工操作或雇佣成本

  • 虽然作为终端用户无需纠结这些术语
  • 但对系统设计者而言,明确概念框架至关重要

  • 精准的定义往往能构建出清晰的思维模型
  • 进而指导出优秀的系统设计
  • 但需要警惕:不要陷入无意义的术语争论—这往往会演变成学术虚荣心的较量

  • 定义模糊的危害
  • 概念边界不清晰会导致后续出现大量的无效争论
  • 例如AGI(通用人工智能)的定义之争
  • 乃至”智能”本身的界定,都陷入了不断移动标靶的循环辩论中
  • 四十年前几乎无人关注AGI(通用人工智能)的明确定义,如今却引发各界广泛论战

  • 分级分类的价值
  • 建立基础分类体系能有效规避争议
  • 例如:
  • 类型1-Agent:脚本驱动,利用LLM执行智能操作
  • 类型2-Agent:大语言模型驱动,辅以脚本与工具,可能仍需人工介入
  • 类型3-Agent:建造时光机执行终结任务(开个玩笑,此处指具备完全自主意识与行动能力的终极形态)