大量混淆定义
- 关于”Agent”的定义,我始终在思考的问题是:ChatGPT代码解释器是否符合该定义下的Agent标准?
- 这个案例完美展示了工具调用型大语言模型的闭环运作模式——它在循环中尝试达成目标
- 但这样的行为是否足以被定义为”Agent”?
- A:我认为,如果它能自主修正代码、执行并反馈结果,那么它至少属于特定领域的狭义Agent
- B:当讨论Agent”工具”时,我指的是能够影响(或至少查询)外部系统的功能
- 而代码解释器既缺乏后台处理能力,也不具备Agent间的通信机制
- C:这取决于评估维度
- 在其独立工作区内,或许可以视为Agent
- 但就现实世界影响力而言,显然还不够格
- 1:Agent = 大语言模型 + 记忆模块 + 规划能力 + 工具调用 + 循环机制
- 2:我们内部使用的定义是:”能够在现实世界(包括物理和数字领域)中执行并完成长期开放性任务的人工智能系统”
- 3:应用的Agent性越强,大语言模型对程序控制流的决策权就越大
- 4:AI Agent 是能够自主规划并使用工具达成目标(而非遵循预设步骤)的系统
- 5:某技术白皮书定义:”AI Agent是利用现代生成式AI模型进行规划、数据存取、工具调用、决策制定
- 并与现实世界互动以完成特定功能的自主软件系统”
- 6:基于大语言模型的自主系统
- 能够理解自然语言输入、做出决策并执行动作以实现用户定义的目标
- 它会将指令转化为操作命令,与工具交互,适应反馈,并有效管理复杂任务
- 7:我将”Agent”定义为”未来状态的控制系统”
- 8:Agent是软件程序,其价值在于能实现意向性抽象
- 9:”Agent是在每个实例中精确执行用户具体需求指令的程序”
- 10:能够自主运行的计算机
- 11:”AI Agent是能解析指令并在完整AI工作流中承担更多职责(如函数执行、数据查询等)的组件
- 而不仅仅是生成LLM响应”
- 12:Agent = 利用LLM推理能力进行决策的自主系统
- 13:任何能完成自身OODA循环(观察-调整-决策-行动循环)的系统
- 14:AI Agent是能自主或半自主执行任务并做出决策的软件
- 它通过自然语言交互,依托LLM等AI模型处理指令并触发行动
- 既可独立运作,也可作为工作链的一环
- 15:Agent需被信任,代表委托方利益行事
- 例如:政府代理人有权代表政府言行的前提是获得信任背书
- 缺乏信任即不存在代理关系
- 16:能够自主学习、适应环境并主动追求既定目标的应用
- 17:”Agent”指利用LLM进行任务规划和决策
- 通过工具调用(辅助程序与第三方API)持续执行计划-决策-行动循环直至目标达成的软件程序
- 18:能够在极少人为干预下执行复杂多步骤任务的系统
- 19:Agent是长期与现实世界交互以实现目标的进程
- 例如:周期性监测机票价格并在条件合适时自动预订的Agent
- 或跟踪通信记录并提醒重要信息过期的Agent
- 20:Agent是基于LLM的控制流架构
- 21:能长期处理行政事务与系统维护的推理机器
- 尤其擅长应对突发状况,不依赖内部知识库而能基于新信息自主行动
- 22:循环运作的LLM系统
- 23:典型特征:
- 1-内部集成LLM的软件
- 2-以非预设步骤序列向目标推进
- 3-步骤涉及工具调用:改变LLM完成态之外的状态或与其他系统交互
- 24:Agent具有感知”输入”和行动空间
- 通过行动影响环境,观察反馈并持续循环直至目标达成
- 现代LLM Agent可使用任意Python函数作为工具
- 25:关于规划能力的反思:
- 实际应用中90%的企业场景(包括我们生产环境运行的多个Agent)
- 工作流是固定的或采用简单条件判断结构
- 在需要稳定性的企业场景中,将规划权交给LLM期待其遵循已验证方案可能更可靠
- 26:”具有无限潜力却缺乏实际应用的理论建构,非常适合用于打动风险投资人”
- 27:经过编程能在自主循环中运作的LLM系统
- 需满足:1-规避能力范围外的操作;2-具备循环终止判断机制
开始思考
- 关于什么是”AI Agent”,目前存在大量混淆定义
- 但也有一些共识:Agent必须是AI驱动的系统
- 它们需要具备一定程度的自主性,除了理解和推理能力外,还应能使用工具
- 那为什么像ChatGPT这样的系统没有被视为Agent?
- 根据大多数现有定义,它确实符合条件
- 然而包括OpenAI自身在内,大多数人都不这样描述它
- 我们对AI Agent似乎存在一种”看到即知道”的直觉判断
- 为了给认知思路提供指导,我需要更精确的定义
- 因此制定了自己的客观标准-Agent的试金石测试,其核心在于身份认定
从法律中学习
- 代理关系是历史悠久的法律概念
- 即委托人授予代理人代为行事的权限
- 例如:企业委托房产经纪人寻找办公场所,或个人聘请旅行社规划假期
- 当此类代理违反法律时,责任应该由谁承担?
- 虽然委托人可能需要担责(例如指示代理人从事非法行为)
- 但代理人本身也拥有自主决策权
- 因此当代理人以自身身份行事时,可能需要独立承担法律责任
审计日志中的身份标识
- 在企业软件系统中,我们对身份有明确的定义:
- 即审计日志中对任何操作行为进行记录的责任主体
- 我的AI代理试金石测试标准:人工智能系统是否以独立身份执行操作?
- 若系统以独立身份执行操作,即为代理
- 此时审计日志将记录该代理本身
- 反之(如大多数智能副驾驶或产品内置助手)则不属于代理
- 通过这个测试还能揭示代理的其他特性
- 具有身份标识意味着自主性,因为AI必须独立使用工具和执行操作
- 具有身份标识需要具备能力和推理水平,因为AI必须具备良好的决策能力才能承担相应的责任
- 否则企业不会信任其独立性
- 同时,身份标识并不排斥代理偶尔需要人类输入或监督
- 因为现实中的代理也会有这种情况
- 企业员工与同事/上级之间也存在这种协作关系
应用试金石测试
- AI Agent是指能够以独立身份采取自主行动的系统
- 而非作为人类用户的延伸
- 审计日志中记录的责任主体是系统自身还是人类用户
- 决定了该系统的本质是真正的Agent,还是仅作为辅助工具而存在
- 根据这一标准,许多优秀的AI软件并不属于Agent范畴
- 这并无不妥:帮助人类更高效完成工作的辅助型软件将长期发挥重要的作用
额外补充:工作流 与 Agent
- 工作流是通过预定义代码路径编排大语言模型与工具的系统 (此定义存在争议,详情看下文)
- Agent则是大语言模型能动态自主控制流程与工具使用的系统,在任务执行过程中保持自主决策权
- 虽然这些都是营销术语,但区分标准的作用在于:
- Agent的执行图谱中存在循环结构,能自主决定是否继续迭代
- 而工作流只是链式大语言模型调用,模型本身没有”选择权”
- 示例:
- 目标:循环运行特定Python分析函数,通过二分搜索寻找最优结果
- 最终将结果汇编成Markdown报告并导出为PDF
- 这些步骤绝大多数都不需要AI参与,更遑论Agent技术
- 本质上只是包含单一AI步骤(生成Markdown报告文本)的固定工作流
- “AI Agent是运用大语言模型(LLM)决策应用程序控制流的系统”
- 这句话的未尽之意在于:
- 当前最先进的LLM是否真正具备可靠的推理与规划能力?
- 我认为,除代码调试任务与简单研究任务(如利用浏览器进行迭代式搜索并将结果整理成报告)外
- 现有模型尚不具备这种能力
- 推理能力、规划能力和可靠性
- 这三者似乎并非当前LLM的核心优势
- 工作流系统的本质争议:
- 关于”工作流是通过预定义代码路径编排大语言模型与工具的系统”这个定义
- 其准确性存疑:
- 现代工作流系统本质上具有高度动态性,能够自主决定流程与工具使用
- 开发者甚至能编写支持代码实时评估的工作流(尽管对于大多数场景而言,将这种灵活性赋予给LLM可能过于激进)
- 许多工作流系统会通过LLM决定后续操作
- 因此更准确的工作流定义应是:持久化编排事务的系统,而非特指预设执行序列或代码路径
- 因此,根据更被广泛接受的现代定义
- “Agent”本质上属于动态性更高的工作流变种
- Agent系统与工作流之争
- 实质上是计算机科学中声明式与命令式编程范式的古老辩论的延续
- 将二者统称为”Agent系统”反而混淆了概念差异
- 它们更像是特殊用例,而非本质不同的技术形态
- 不过值得注意的是,LLM确实存在通过输出无效内容进行”软抵抗”的行为
关于”AI Agent”定义的争论是否有必要
- 终端用户可能对此毫不关心
- 他们会觉得:真正值得关注的是软件的实际功能
- 无论其冠以AI、机器学习还是玄学之名,都无所谓
- 关键在于能否可靠完成任务,从而免除人工操作或雇佣成本
- 虽然作为终端用户无需纠结这些术语
- 但对系统设计者而言,明确概念框架至关重要
- 精准的定义往往能构建出清晰的思维模型
- 进而指导出优秀的系统设计
- 但需要警惕:不要陷入无意义的术语争论—这往往会演变成学术虚荣心的较量
- 定义模糊的危害:
- 概念边界不清晰会导致后续出现大量的无效争论
- 例如AGI(通用人工智能)的定义之争
- 乃至”智能”本身的界定,都陷入了不断移动标靶的循环辩论中
- 四十年前几乎无人关注AGI(通用人工智能)的明确定义,如今却引发各界广泛论战
- 分级分类的价值:
- 建立基础分类体系能有效规避争议
- 例如:
- 类型1-Agent:脚本驱动,利用LLM执行智能操作
- 类型2-Agent:大语言模型驱动,辅以脚本与工具,可能仍需人工介入
- 类型3-Agent:建造时光机执行终结任务(开个玩笑,此处指具备完全自主意识与行动能力的终极形态)