2026-06-25：Agent 工作流里的身份、权限与模型路由

快速概览

相关帖子：Notion 相关转发、Cursor、ClaudeDevs 讲 agent identity、ClaudeDevs 讲审计和撤权
原始信息：Cursor 现在可以从 Notion 里接任务，用 Cursor SDK 跑 cloud agent，并开 PR 给团队 review。ClaudeDevs 补了一层更关键的设计：Claude 在多人 channel 里工作时使用自己的 credentials，动作会以 Claude 的账号进入各系统日志，也可以统一撤权。
值得看：Agent 如果要碰任务板、代码仓库、Google Workspace 或发布系统，就需要一个可审计、可撤权、能隔离私有文件的身份。这个问题会直接影响团队是否敢把真实任务交给 Agent。对个人开发者也一样：如果你在做自动发布、自动归档、自动改代码，最好提前把执行身份和权限边界拆开。比如发布文章用单独 token，代码提交用单独 bot，日志里能看出是哪条自动化流程执行的。这样出错时更容易追踪，也能把删除、发布、写入这类高风险动作单独收紧。

相关帖子：Peter Yang 的 Hermes 课程、Peter Yang 的安装教程提醒、NousResearch 的 creative-ideation skill、NousResearch 的 skills config
原始信息：Peter Yang 把 Hermes 包装成开源的 AI chief of staff，教程重点是安装、安全设置、Telegram、voice、Google Workspace、morning briefing、business review、health check。NousResearch 同时在推 optional skills 和 hermes skills config。
值得看：这里的重点在持续使用。很多 Agent demo 第一眼很好玩，最后卡在环境、权限、配置、失败恢复和日常入口。Hermes 把教程、routine、skills config 和外部服务连接放在一起，说明它想把 Agent 变成可以反复运行的个人流程。读者可以借这个方向反查自己的需求：哪些事情真的值得自动化？哪些流程每天或每周重复出现？哪些权限可以安全交给 Agent？如果一个流程只偶尔发生，手动处理可能更省事；如果它稳定重复、有明确输入输出，才值得做成 routine。

相关帖子：OpenAI 发布 Jalapeño、Greg Brockman 补充 perf per watt、OpenAI 更新 GPT-5.5 Instant、Simon Willison 追问 API 名称
原始信息：OpenAI 发布自研 AI 芯片 Jalapeño，强调服务 ChatGPT、Codex、API 和 future agentic products。GPT-5.5 Instant 同日更新，重点是理解问题意图、处理复杂约束，以及购物和本地推荐体验。
值得看：Agent 会产生长任务、多步骤、反复校验和工具调用，所以底层成本和交互质量都会被放大。推理成本下不来，很多工作流只能停在演示阶段；默认模型对意图和约束理解不稳定，普通用户也很难放心交任务。对工具使用者来说，这意味着以后评估 Agent 产品时，不能只看一次回答效果，还要看长任务成本、延迟、失败率和工具调用稳定性。对开发者来说，可以更早把任务拆成低成本步骤和关键判断步骤，不要让每一步都依赖最贵模型。

相关帖子：Omar 的 Agent Model 论文推荐、DAIR.AI 的 Agent memory 论文推荐、François Chollet 提到 ARC-AGI-2 表现、Niels Rogge 提到 ParseBench
原始信息：Omar 推荐一篇试图定义 agent 和 agency 的论文，并指出 agent 这个词已经覆盖了从 tool-call loop 到 speculative superintelligence 的巨大范围。DAIR.AI 提到 Agent memory 已经从简单 retrieval 发展成包含存储、检索、更新、整合和生命周期治理的数据管理层。ARC-AGI-2 和 ParseBench 则分别提供能力评估和任务刻度。
值得看：Agent 这个词越热，越容易失去区分度。真正有用的问题会变成：它有没有状态？有没有长期 memory？memory 怎么更新和清理？工具权限边界在哪里？失败能不能被评测出来？这些问题对读者的影响很直接。买工具、选模型、做自动化时，宣传里的 agent 字样参考价值有限，更应该看它处理长期上下文、外部工具、错误恢复和任务评测的方式。如果一个系统只有 prompt 和 tool call，没有 memory 生命周期和评测闭环，适合先从低风险任务试起。

相关帖子：MiniMax 讲 Kimchi Coding 默认模型、Omar 讲 computer use 和 long-running tasks
原始信息：MiniMax 提到 M3 成为 Kimchi Coding 的 default builder model，并强调不同 coding task 不该走同一个模型，应该按 complexity、cost 和 deployment needs 路由。Omar 提到自己已经依赖 computer use 做 agentic loops 和 long-running tasks，同时需要更强模型和更低成本。
值得看：真实 Agent 工作流不会只问“哪个模型最强”，还会看每一步的失败成本、上下文长度、部署限制和运行费用。一个可用的系统可能会让便宜模型做整理和初筛，让强模型做关键判断，让工具层执行，再用日志和评测兜底。读者如果在搭自己的自动化，可以先把流程拆成几类：低风险、可重试、需要人工确认、高风险不可逆。低风险环节适合便宜模型，高风险动作要加确认或回滚机制。这样比把整条链路都交给同一个模型更稳。

这份内容基于 LBan2050 关注列表中的每日信息流，由 AI 先做过滤和初步总结，再由半庄整理、取舍和补充判断。