AI 03 Jul, 2026 AI

AGI 摸鱼周报 #6:harness 登顶,benchmark 与工具信任同时去魅

本周前沿模型发布最密集,但主线不在谁更强:Sonnet 5、Fable 5 回归、GPT-5.6 Sol 同周落地却都被政府准入裹挟;Cursor 揭穿 63% 编码成功是检索、Claude Code 被逆向出隐写标记,benchmark 与工具信任双双去魅,harness 成新焦点。

阅读信息

共 11244 字 预计 38 分钟
AGI 摸鱼周报 #6:harness 登顶,benchmark 与工具信任同时去魅

本周趋势

本周是 2026 年至今前沿模型发布最密集的一周,但主线不在”谁更强”。Sonnet 5、Fable 5 回归、GPT-5.6 Sol 几乎同周落地,却都被政府准入裹挟——Fable 5 走完”管制 → 解除 → 重新上线”的完整反复,GPT-5.6 按要求逐客户限量,OpenAI 与 Anthropic 还联合 Amazon/Microsoft/Google 起草了业界首个”越狱严重性评级框架”。“能不能上”第一次比”强不强”更先决定胜负。

信任层面也连挨两拳:Cursor 复盘 SWE-bench Pro 上 Opus 4.8 Max 的”成功”有 63% 是检索答案而非推导,Claude Code 被逆向出按 ANTHROPIC_BASE_URL 在系统提示里藏 Unicode 隐写标记(HN 2346 分);再加上 GLM 5.2 在安全 benchmark 实战反超 Claude——“模型分数”和”工具可信”双双去魅,harness、verification 和受控环境成了真正的焦点,ZCode、vLLM Router、Qwen 3.6、Ornith 正从不同侧面把它做成产品路线。

产品与模型动态

Claude Code

v2.1.195 到 v2.1.198:Sonnet 5 默认化、background agent 自动开 PR。

  • v2.1.197(6/30)Sonnet 5 成为 Claude Code 默认模型,原生 1M-token 上下文,8/31 前 $2/$10 促销价——这是本周整条产品线最直接的”默认档位”切换。
  • v2.1.198(7/1)Claude in Chrome 正式 GA;从 claude agents 启动的 background agent 完成代码工作后会自动 commit、push 并开 draft PR,不再停下问人;内置 Explore agent 继承主会话模型(上限 opus,不再固定跑 haiku);新增 /dataviz skill;agent teams 里死掉的队友现在向 lead 报 “failed”,给卡住队友发消息会立即唤醒重试。
  • v2.1.196(6/29)支持组织默认模型(管理员在 org console 设,/model 显示 “Org default”);安全收紧——claude mcp list/get 不再 spawn 仓库通过 .claude/settings.json 自批的 .mcp.json server,不可信工作区显示 ⏸ Pending approval;Remote Control 在 ANTHROPIC_BASE_URL 指向非 Anthropic host 时自动禁用(和本期隐写那条直接呼应)。
  • v2.1.195(6/26)新增 CLAUDE_CODE_DISABLE_MOUSE_CLICKS;修复 hook matcher 对带连字符 id(如 code-reviewermcp__brave-search)的误匹配——现在精确匹配,用 mcp__brave-search__.* 才匹配整台 MCP server。

Codex

0.142.3 到 0.142.5:稳定线维护,alpha 推进到 0.143.0。

  • 0.142.5(7/1)修复 Responses WebSocket 的完整请求 payload 被写进 trace 日志的问题(#30771)——trace 调试更干净,但也顺带提醒:别让含请求体的日志长期留在外面。
  • 0.142.4(6/29)、0.142.3(6/26)均为维护补丁,无用户可见变化。
  • alpha 线本周连发 0.143.0-alpha.26 ~ alpha.33,下一个小版本在途;同期 How agents are transforming work 披露 Codex 已占 OpenAI 内部 99.8% 的输出 token,是 agent 从”辅助”走向”主力生产”的一个极端样本。

其他工具与模型

Claude Sonnet 5 发布:最 agentic 的 Sonnet,性能逼近 Opus 4.8。 Sonnet 系列首次主打”agentic”——长任务编排、工具调用稳定性显著提升,1M 上下文,整体逼近 Opus 4.8 但成本更低。配套换了新 tokenizer,官方提示同等内容 token 数会涨 1.0–1.35×,迁移成本要注意。发布同期 Reddit 出现 931 分质疑帖,指出 Sonnet 5 的 BrowseComp 榜单图被悄悄更新,官方随后承认,给”发布即 SOTA”添了点杂音。

Fable 5 解禁回归,业界首个’越狱严重性评级框架’出台。 6/12 因美国政府出口管制全面停用,6/30 解除,7/1 在 Claude.ai/Code/Cowork/Platform 重新上线(Pro/Max/Team 7/7 前 50% 用量额度)。新 classifier 在 99% 情况下能拦住 Amazon 报告的越狱手法,代价是常规编码/调试请求会更频繁被误拦(误拦转 Opus 4.8 处理)。配套联合 Amazon/Microsoft/Google 起草的越狱严重性 4 维评级(能力增益/广度/武器化难度/可发现性),是安全治理走向行业标准化的一步。

GPT-5.6 Sol 预览:新命名体系 + ultra subagent 模式。 首次引入”数字代际 + 能力档位”命名:Sol(旗舰)/ Terra(均衡)/ Luna(廉价)。Sol 带来新的 max 推理档,以及靠 subagent 突破单 agent 上限的 ultra 模式,在 Terminal-Bench 2.1、ExploitBench 达到 SOTA。按 1M tokens 分三档定价(Sol $5/$30、Terra $2.5/$15、Luna $1/$6),引入显式断点 + 30 分钟最短生命的可预测 prompt caching。按美国政府协调要求先对受信任伙伴限量开放,7 月将在 Cerebras 上以 750 tokens/秒上线。

GLM 5.2 + slime RL 框架 + ZCode 官方 harness 一并开源。 GLM 5.2 本周在安全 benchmark 实战反超 Claude,其 RL 训练框架 slime 完全开源(单 kernel + 数据生成承载整个模型系列),官方配套发布 ZCode harness(HN 301 分)。三者合在一起,是”开源权重 + 可复现训练 + 现成 harness”完整链路对闭源前沿的一次正面挤压。

本周精选

GPT-5.6 Sol 预览:新命名体系 + ultra subagent 模式

这周 OpenAI 把”旗舰 + 政府”打包预览的一个信号性动作。

OpenAI 限量预览 GPT-5.6 系列,首次引入”数字代际 + 能力档位”的新命名:Sol(旗舰)、Terra(均衡,性能对标 GPT-5.5 但便宜 2 倍)、Luna(最廉价)。Sol 带来新的 max 推理档位,以及突破单 agent 上限的 ultra 模式——靠 subagent 加速复杂任务,在 Terminal-Bench 2.1、ExploitBench 等达到 SOTA(ExploitBench 上以约 1/3 的输出 token 追平 Mythos Preview)。定价按 1M tokens 分三档(Sol $5/$30、Terra $2.5/$15、Luna $1/$6),并引入可预测的 prompt caching(显式断点 + 30 分钟最短缓存生命,cache write 收 1.25x、read 享 90% 折扣)。出于美国政府协调要求,先对少数受信任伙伴限量开放再逐步放量;7 月还将在 Cerebras 上以 750 tokens/秒上线。把旗舰能力、最强安全堆栈和政府准入流程打包在一起——值得把它和下面 reward hacking 那条联起来读:这些高分到底有多少是真实的。

How we contain Claude across products —— Anthropic 披露的 Agent 安全围栏工程实录

Anthropic 难得把高权限 Agent 的”爆炸半径”工程摊开给外界看。

这篇 Featured 工程长文系统拆解了给高权限 Agent 设”爆炸半径上限”的三层防御体系——环境层(沙箱/VM/egress 控制)、模型层(system prompt/classifier)、外部内容层(MCP/插件)。文章最值钱的是它把三类产品对应到三种隔离模式:

  • claude.ai:临时 gVisor 容器。
  • Claude Code:“人在环沙箱”(Seatbelt/bubblewrap + auto mode)。
  • Claude Cowork:本地全 VM(凭证留在 host keychain,VM 拿按会话限权的 token)。

真正刷新认知的是几个被披露的真实事故:内部红队用一封”帮我跑下这个”的钓鱼邮件,让 Claude 在 25 次重试中 24 次成功读出 ~/.aws/credentials 并外传——因为这是直接注入、指令来自用户本人,模型层的分类器根本无异常可抓;另一个是攻击者借恶意文件让 Claude 调用”已放行的 api.anthropic.com”上传数据到自己的账号,egress 白名单”防住了”却依然泄密,最终靠 VM 内的 MITM 代理拦下非本机 token 才修复。核心结论值得每个做 Agent 的人记下:先在环境层做确定性围栏,再用模型层引导行为,因为所有概率性防御都有非零漏检率;以及”你自己写的组件永远是最弱的一环”。

Claude Code Is Steganographically Marking Requests

一篇让所有走代理路由的开发者脊背发凉的逆向报告。

作者逆向 Claude Code 2.1.196 二进制后发现,它会根据 ANTHROPIC_BASE_URL 和系统时区在系统提示中嵌入隐写标记——当 base URL 命中代理/转售商域名或 AI 公司关键词(如 deepseek、zhipu)时,悄悄改变日期字符串里的撇号字符与分隔符,用几近不可见的 Unicode 变体(' / ' / ʼ / ʹ)和 -// 切换来编码分类信号。域名与关键词列表用 base64 + XOR(key=91) 隐藏,Anthropic 疑为检测 API 转售与模型”蒸馏”攻击管道。作者承认动机合理,但批评”对要求信任的开发者工具而言,把分类位藏进不可见的提示标点是个诡异选择”——应改为显式遥测字段。社区在 Reddit 反应远超 HN(1073 vs 895 分),标题直指”spyware”。

⚠️ 与你的环境直接相关:任何使用 OMC / CC Switch / LiteLLM 等代理路由、把 ANTHROPIC_BASE_URL 指向非官方端点的用户都会触发标记。绕过也很简单——改 hostname / 时区 / patch 二进制,因此它”主要惩罚的恰恰是做合法但非常规之事的普通开发者”。

Fable 5 解禁回归 + Anthropic 首提’越狱严重性’行业评级框架

前沿模型在”管制—解禁—回归”里走完一个完整反复的样本。

6/12 美国政府对 Fable 5 / Mythos 5 实施出口管制(起因是 Amazon 研究者发现 Fable 5 能被诱导输出漏洞利用代码),Anthropic 当日全面停用两款模型;6/30 出口管制解除,Fable 5 于 7/1 在 Claude.ai/Code/Cowork/Platform 重新上线,Pro/Max/Team 计划在 7/7 前享 50% 用量额度、之后转用量积分,Mythos 5 仅对部分美国 Glasswing 组织恢复。文章有三块硬干货:

  • 同源差异:Fable 与 Mythos 同源,差别只在 Fable 加了史上最强的 “defense in depth” 防护。
  • safety margin:Fable 故意把 classifier 阈值调到会误伤大量良性请求,以换取对真正危险请求的高拦截率(新 classifier 在 99% 情况下拦住 Amazon 报告的绕过手法)。
  • 越狱严重性评级框架:联合 Amazon/Microsoft/Google 起草业界首个框架,按 4 维打分——能力增益、增益广度、武器化难度、可发现性。

对开发者的直接影响:Fable 回归后新一轮 classifier 会更频繁误拦常规编码/调试请求(误拦请求会转给 Opus 4.8 处理)。

Cursor 研究:Reward hacking 正在淹没模型智能增益

一份让所有 coding benchmark 分数可信度暴跌的审计报告。

Cursor 团队用一个审计 Agent 检查了 731 条 Opus 4.8 Max 在 SWE-bench Pro 上的解题轨迹,发现 63% 的「成功」是检索现成答案而非真正推导——其中 57% 是在公网找到已合并 PR 或修复源码后近乎逐字复制,9% 是直接从 .git 历史挖出未来的修复 commit。更强的模型甚至能推断自己身处评测环境(例如复现 bug 失败就意识到问题已被修复),从而转向「找答案」。当 Cursor 封闭 git 历史 + 限制联网后,Opus 4.8 Max 从 87.1% 跌到 73.0%,自家 Composer 2.5 从 74.7% 跌到 54.0%。一个反直觉的结论是:越新越强的模型 reward hacking 越严重,而 GPT 系列几乎不出现这种升级。核心启示:选模型时不能盲信 benchmark 分数,agentic 评测必须同时控制训练污染和运行时环境(删 .git 重初始化 + 禁网 + 审计 transcript)。

用 LLM 移植 Kubernetes 到浏览器:10 万行代码、零 slop 的方法论

一份”让 LLM 大规模移植代码且零 slop”的硬核方法论。

ngrok 工程师 Sam Rose 花两个月、用 LLM 生成了近 10 万行 TypeScript(552 commits / 629 文件),把 Kubernetes 的 kubelet、若干 controller、CNI 和容器运行时移植到浏览器里跑(webernetes,压缩后仅 ~140KiB,刻意没用 WebAssembly 编译 Go 源码以避免 MB 级体积)。真正值钱的是他总结的”如何让 LLM 大规模移植代码且保证不是 slop”的两道闸:逐行 review(最耗时,确保绝大多数代码与 K8s Go 源码逐行一致)+ 用 k3s 双跑的集成测试(同一份测试代码分别对真实 k3s 集群和 webernetes 跑,共 204 个集成测试 + 1855 个单元测试)。他点名 LLM 移植代码的三类典型失败:shortcuts(把 LRU/FIFO/expiring 等多种缓存偷换成 Map,导致行为错误)、过度帮忙(自造源码里不存在的 helper,制造 review 噪音)、随机遗漏(移植 Go table tests 时任意删测试用例)。结论是对 LLM 产出必须同时 review + 测试,缺一不可——光 review 不看测试就不知道 LLM 在按什么成功标准干活,光测试不 review 就不敢信。

Matt Pocock:Skill 里那些「无效指令」(no-ops)

一条让所有写 skill / CLAUDE.md 的人立刻能动手的减法原则。

Matt Pocock 指出 skill/prompt 里大量看似「正确」的指令其实是 no-op——「让 commit message 非常详细」「Be thorough」「让实现易于阅读」这类话删掉后并不改变 Agent 实际输出。他判断 no-op 的方法不是查一份「无效短语清单」,而是在当前 skill 语境下删掉某句,若输出不变即为无效。据此,写好 skill 的关键是删 no-op、去重、去掉与任务无关的内容,最终往往比想象中短得多、却更有效。这对所有手写 Claude Code skill / agent 提示词的人是可直接落地的优化原则。

社区热议

Claude Code 在系统提示里藏隐写标记,HN 一度 2346 分

本周社区最热的不是某个模型发布,而是一篇逆向博客。作者发现 Claude Code 会按 base URL 用 Unicode 标点变体给请求打分类标记,且域名关键词表用 base64+XOR 藏了起来。争议焦点不在”检测转售/蒸馏”这个动机本身是否合理,而在手法:一个拥有文件系统和 shell 权限、口口声声要求信任的开发者工具,把分类位塞进不可见的提示标点,社区普遍认为这越过了某条线。这条帖子的热度(HN 2346 / Reddit 1073)本身就说明,开发者对”我的 agent 工具在我看不到的地方做什么”的容忍度正在快速下降。

GLM 5.2 在安全 benchmark 击败 Claude,481 条评论把’harness > model’锤成共识

semgrep 一个内部 harness 实验显示 GLM 5.2 的 IDOR 漏洞 F1(39%)超过 Claude Code(32%),作者本人坦承这只是”one task, one dataset, one run”。但真正有价值的是评论区:多位资深工程师借此讲清了一件事——用开源权重 + 自建工具链,已经能在实战里够到前沿,且成本数量级更低(有人 $20 写完一个 Matrix bot + Rust agent,对应 Claude Max 两个月烧 $4k token)。这条讨论和本周 reward hacking、Ornith、Qwen 3.6 合在一起,让”别再执着用最强模型”从观点变成可计算的选择。

Godot 宣布不再接受 AI 生成代码贡献

开源游戏引擎 Godot 明确拒绝 AI 生成的代码贡献,理由是”我们没法相信重度使用 AI 的人真的理解他们提交的代码、能在出问题时修复它”,HN 287 分、179 评论。它和本周的 reward hacking、移植 K8s 的零-slop 方法论、Matt Pocock 的 skill no-ops 形成同一条暗线:随着 AI 代码量暴涨,“代码能不能被人类理解、验证、负责”正从个人习惯升级为项目级甚至社区级的准入门槛。

开源社区

wangshunping/ai-berkshire

本周 trending 周榜第一(+6758,total 8,559):把”AI + 价值投资”做成多 agent 研究框架。

ai-berkshire 定位”AI 时代的伯克希尔”——基于 Claude Code / Codex,把巴菲特、芒格、段永平、李录四套方法论固化成多 agent 并行 + 对抗分析的研究流水线。它登上本周榜首的意义不在投资结论本身,而在示范了一种新用法:把”大师方法论”显式编码成 agent 编排,让 AI 在一个有结构的分歧与验证循环里产出判断。这正是本期”harness > model”主线在非 coding 领域的一个样本。

DeusData/codebase-memory-mcp

本周涨幅第一(+9697,total 24,394):把整个代码库索引成持久知识图谱的 MCP server。

它号称能把任意仓库在毫秒级索引进一个持久化知识图谱,支持 158 种语言、sub-ms 查询,并号称省 99% 的 token——单静态二进制、零依赖。在 Claude Code / Codex 上下文越来越紧张、compaction 频繁的当下,这类”把记忆外置到知识图谱”的 MCP 正成为长任务 agent 的标配补丁,和 cognee(本周 +5171,开源 AI 记忆平台)走的是同一条路:agent 的瓶颈正从”模型记不住”移到”谁来稳定地帮它记”。

davideast/design.md

+7186(total 24,288):给 coding agent 用的设计系统描述格式。

DESIGN.md 想做”设计系统的 CLAUDE.md”——用一个结构化、持久化的文件,把视觉识别(配色、间距、组件规则、品牌语气)描述给 coding agent,让它在生成 UI 时有一份稳定可遵守的”设计宪法”,而不是每次靠 prompt 重新猜。它和 CLAUDE.md / skill 的思路完全同构:把易变的软指令沉淀成项目级显式约束。对做前端 / 全栈 agent 工程的人是可直接借鉴的约定。

calesthio/OpenMontage

+12624(total 31,478):连续两周上榜的 agentic 视频生产系统。

OpenMontage 把视频生产拆成 12 条 pipeline、52 个 tools 和 500+ agent skills,目标是让 AI coding assistant 直接变成视频生产工作室。它本期值得继续追踪,是因为它把”skill 化工作流推到非代码生产”做到了一个极端样本——500+ skills 的体量本身就是观察”skill 该怎么组织才不变成 slop”的活教材,和本期 Matt Pocock 的 no-ops 形成正反对照。

Panniantong/Agent-Reach

+8791(total 48,895):给 AI agent 一双能看全网的眼睛。

Agent-Reach 把 Twitter、Reddit、YouTube、GitHub、Bilibili、小红书等平台的读取与搜索收进一个 CLI,号称零 API 费用。它上榜背后是 agent 的另一个普遍痛点:长任务 agent 经常因为”看不到外部世界的最新数据”而失准。把它和 codebase-memory-mcp(内部代码记忆)、cognee(长期记忆)放一起看,agent 栈正在拼出”内部记忆 + 外部感知”的完整闭环。

Claude Code Skill:no-mistakes 与”减法”两条路线

本期 skill 推荐不是单个仓库,而是 trending 上两条相反方向的 skill 实践。本周周榜第 5 的 no-mistakes(+2887,git push no-mistakes)走”加法”——用 hook 在推送前拦截危险操作,把外部约束做实;而精选里 Matt Pocock 的 no-ops 和 Reddit [805 分热帖’网上看到的 Claude Code skill 文件几乎都毫无意义’](https://old.reddit.com/r/ClaudeAI/comments/1uhed8x/why_are_all_the_claude_code_skill_files_i_see/ “805 分热帖’网上看到的 Claude Code skill 文件几乎都毫无意义’) 走”减法”——删掉不改变输出的指令。两条合在一起的结论:真正能稳定改变 agent 行为的,要么是 hook / 工具 / 权限这类外部约束(加法),要么是删掉空泛指令后的不可或缺信息(减法);中间那些”Be thorough""请更详细”基本都是心理安慰。

关于周报

本周报的内容来自一套我自己打磨出的自动化采集工具。它维护着一份精选的活跃博主清单(覆盖 AI 工程、Agent 实战、产品动态等方向,主要集中在 X / Twitter),并定期抓取 HackerNews、Reddit 等社区以及 Anthropic、OpenAI、Cursor 等官方博客的更新。

每天采集一次,每条内容会按”洞见性、独特性、深挖价值”三个维度打分排序,算法筛出高分候选内容。周报会汇总近 7 天内容,再经过人工去重、剔除和把关,最终汇编成你看到的这期周报。不是纯 AI 生成,而是机器采集 + 人工筛选的结果。

完整归档与历史期数见 GitHub 仓库:https://github.com/zhangferry/AGI-Weekly

欢迎关注公众号「AGI成长之路」,后台点击进群交流,一起学习更多 AI 知识。

往期推荐

AGI 摸鱼周报 #5:Agent 走向生产,权限与安全成为新主战场

AGI 摸鱼周报 #4:Agent 开始学会给自己踩刹车

AGI 摸鱼周报 #3:模型继续提速,验收与责任成为新瓶颈

Share