AGI 摸鱼周报 #4：Agent 开始学会给自己踩刹车

本周趋势

Agent 自主性正在从“放权”走向“治理”。 Cursor Auto-review 不再把权限做成简单开关，而是用 classifier agent 在执行前判断风险；Claude Code 也把权限规则细化到工具参数级别。社区正在意识到，真正可用的 Agent 不是一路绿灯跑到底，而是能在低风险动作上保持速度、在关键边界前主动减速。

上下文、环境和成本成为 Agent 工程的新基础设施。 这周的案例从本地离线 coding agent、上下文退化的“smart zone / dumb zone”，到一个云端 Agent 扫描网络刷出 6531 美元账单，都指向同一件事：模型能力提升之后，系统能否长期稳定运行，取决于环境复现、上下文预算、权限边界和费用护栏这些看起来不那么“智能”的部分。

前沿模型供应链开始暴露非技术风险。 Anthropic 因美国政府指令暂停 Fable 5 / Mythos 5 访问，引发开发者对单一模型依赖的重新评估；GLM-5.2 借势强调开放权重；Rio-3.5-Open 又被指只是别人的模型与 Qwen 做线性 merge。模型选型不再只是性能、价格和上下文长度，可信来源、可迁移性和供应链韧性也进入同一张表。

产品与模型动态

Claude Code

v2.1.174 至 v2.1.181：权限治理、嵌套配置和远程使用体验继续补强。

新增 /config key=value，可以在交互、-p 和 Remote Control 中直接改设置；macOS sandbox 增加 sandbox.allowAppleEvents 选项，让受限命令在明确授权后发送 Apple Events。
权限规则支持 Tool(param:value) 语法，可按工具输入参数匹配，例如阻止特定模型的 subagent；嵌套 .claude/skills、agent、workflow 和 output-style 会优先使用离当前工作目录最近的定义。
管理端 availableModels 约束更严格，默认模型不能再绕过 allowlist；Bedrock 凭证缓存改为遵循真实过期时间，减少固定 1 小时缓存带来的身份问题。
修复中途断连时丢失部分响应、WSL2 鼠标滚轮、Linux sandbox 大目录 glob 让 Bash 工具描述膨胀等问题；长段落流式输出也改为按行出现，读感更稳定。

Codex

0.140.0 与 0.141.0：远程执行链路、插件 MCP 和跨平台路径继续收紧。

0.141.0 让远程 executor 使用经过认证的端到端加密 Noise relay channel，远程执行从“能跑”继续向“可被信任地跑”推进。
跨平台远程执行会保留 executor 原生工作目录和 shell，文件系统权限路径在 app-server 与 exec-server 边界之间传递更准确，减少 Windows、macOS、Linux 混用时的路径错配。
被选中的 executor 插件可以按线程激活自己的 stdio MCP server；插件发现也增加 “created by me” marketplace 和按认证需求划分的 curated catalogs。
0.140.0 延续了多 Agent、插件加载、远程安装鉴权和工作区插件识别方面的修复，并移除了实验性的 /realtime 语音控制和相关音频依赖，让 CLI 更聚焦代码执行链路。

其他工具与模型

Anthropic 暂停 Fable 5 / Mythos 5 访问。

Anthropic 在官方声明中表示，美国政府以国家安全为由要求暂停 Fable 5 和 Mythos 5 的访问，其他模型不受影响。公司反对仅凭一个狭窄 jailbreak 就召回商业模型，并强调行业内不存在绝对不可破解的模型。无论事件后续如何，这都让开发者第一次非常直观地看到：前沿模型可用性可能被政策、合规和安全争议突然切断。

GLM-5.2 正式发布

Z.ai 发布 GLM-5.2，强调 744B-A40B MoE、1M 上下文和 MIT 协议开放权重。它的发布语境比参数本身更重要：在闭源前沿模型访问受限的同一周，开放权重被重新包装成一种工程韧性。对企业来说，这类模型未必马上替代最强闭源模型，但它确实提供了一个对冲选项：当 API、地区或合规策略变化时，至少还有可迁移、可自托管的备选路径。

各项评测指标看 GLM 5.2 排行也很高，基本相当于 Claude Opus 4.8 的能力，这也推动 GLM 股价强势上涨。想要体验的人非常多，但很多都卡在 GLM 会员抢购这一步，想用用不上。

Anthropic 展示 Claude 在化学 NMR 任务上的能力。

Anthropic 与化学家合作测试 Claude 处理 NMR 光谱的能力。在小样本对比中，Opus 4.7 的氢谱预测误差低于传统容差窗口的一半，并能在部分任务中从光谱和分子式反推结构。它不是一个可以直接概括到所有化学场景的结论，但说明前沿模型正在进入更专业、更结构化的科学工作流：不是替代实验，而是把“提出可检验假设”的速度拉高。

本周精选

Cursor Auto-review：用 classifier agent 治理 Agent 自主性

Agent 权限不该只有“允许”和“阻止”，更像一个会随上下文变化的风险旋钮。

Cursor 的 Auto-review 用一个轻量级 classifier agent 在工具调用前判断风险。它不是只看命令字符串，而是可以读取文件、搜索工作区，再判断这次操作是否符合用户意图。比如 python script.py 是否安全，取决于脚本内容、目录上下文和当前任务，而不是命令本身。

最值得借鉴的是反馈设计：被拦截时，它不直接打断用户要求确认，而是把原因返回给主 Agent，让主 Agent 自己换一条更安全的路径。Cursor 披露的实测数据是约 4% 的被审查动作会被拦截，约 7% 的会话最终出现至少一次中断。这说明权限治理可以既降低风险，又尽量不把用户重新拖回“审批员”角色。

The Anatomy of an Agent Harness

如果模型是 CPU，Agent Harness 就是把它变成可用计算机的操作系统。

Akshay 把 agent harness 拆成 orchestration loop、tools、memory、context management、state persistence、error handling、guardrails 等 12 个组件。文章最好的地方，是把“Agent 为什么从 demo 到生产会崩”讲清楚：问题往往不在模型，而在模型周围的基础设施。工具调用失败、上下文塞满垃圾、状态无法恢复、错误不能被验证，都会让一个看似聪明的 LLM 变成不可靠的系统。

它也把 prompt engineering、context engineering 和 harness engineering 的层级关系讲得很直白。prompt 是指令，context 是模型当下能看到的工作集，而 harness 是完整运行时。对开发者来说，这个框架很适合当成自查表：你到底是在写一个聊天机器人，还是在搭一个能持续执行、能恢复、能被审计的工程系统。

/architect：Claude 当架构师，Codex 当施工队

跨厂商 multi-agent 协作开始出现可复用工程模板。

这个项目把 Claude Fable 5 放在架构师位置，负责拆任务、冻结验收标准、审查结果；把 Codex 放在执行者位置，在独立 worktree 中并行完成实现。它的关键不是“两个模型一起干活”这个噱头，而是把状态收敛到仓库：docs/HANDOFF.md、docs/gates/ 和 git 历史成为跨会话记忆。

这种做法把 Agent 协作从聊天上下文里拉回工程制品。架构师先写清楚验收标准，执行者必须和 spec 辩证，审查最好在新上下文里完成。对真实团队来说，这比“开很多 subagent 让它们自己商量”更接近可维护的工作流。

Building a Good Vertical Agent

好 Agent 不是更聪明的 while-loop，而是对任务分布的忠实压缩。

Peter Wang 从 Shortcut spreadsheet agent 的实践出发，提出一个很实用的判断：agent 的准确率取决于上下文质量，而上下文质量不是“塞得越多越好”，而是要像 CPU cache 一样分层。L1 放最常用、最热的知识，L2 放可按需加载的中层材料，L3 放更慢但更完整的参考。每个领域都有长尾任务，工程目标是最小化平均每个任务消耗的上下文，而不是把整个领域塞进 prompt。

文章里另一个反直觉点是工具数量：Shortcut 倾向于只给一个 execute_code 工具，而不是几十个细碎工具。原因是工具越多，schema 越占上下文，模型越容易选错；把能力放进代码 API，让模型用编程语言组合能力，反而更稳定。它把 vertical agent 的竞争力从“模型选择”拉回到领域建模、上下文分层和工具界面设计。

Socket：恶意 PyPI / npm 包开始瞄准 MCP 与 AI 开发者

AI 开发工具链已经成为供应链攻击的新入口。

Socket 披露了一组针对 bioinformatics 和 MCP 开发者的恶意包，涉及 npm 与 PyPI 多个制品。攻击链包括 .pth 启动钩子、原生扩展导入时触发、加载器和 payload 分离等方式，目标覆盖 GitHub、npm、PyPI、SSH、Docker、云凭证和 CI/CD 环境变量。

尤其值得注意的是，恶意代码里还出现了伪装成系统指令的注释，试图干扰 LLM 辅助分析。这不是“AI 会不会写恶意软件”的抽象讨论，而是攻击者已经把 LLM 的分析方式纳入对抗面。对 MCP、LangChain、OpenAI-compatible 工具链用户来说，依赖审计和凭证隔离正在变成基本动作。

How to Setup a Local Coding Agent on macOS

本地 coding agent 不只是隐私方案，也是一种供应链和成本对冲。

作者用 llama.cpp、Gemma 4 26B-A4B、MTP 投机解码和多模态 projector，在 M1 Max 64GB 上跑通离线编程 Agent。最有价值的是实测细节：MTP draft 模型把生成速度从 58.2 tok/s 提升到 72.2 tok/s，--spec-draft-n-max 的最优点是 3；MLX 在这个场景反而慢于 llama.cpp。

这篇文章不是在宣称本地模型已经全面追平云端前沿模型，而是给了一个可复现的工作流：当网络、隐私、预算或模型供应链出现限制时，本地 Agent 至少能承担一部分可控任务。它和本周的模型访问争议放在一起看，意义更明显。