AGI 摸鱼周报 #3：模型继续提速，验收与责任成为新瓶颈

本周趋势

前沿模型正在同时争夺“更强”和“更快”。 Anthropic 发布 Claude Fable 5，把长周期自主任务、软件工程和复杂知识工作推到新的能力档位；Google 的 DiffusionGemma 直接改变文本生成方式，一次并行生成整块 token。模型竞争不再只有 benchmark，一条新轴线正在形成：谁能让高质量推理更快进入实时工作流。

Coding Agent 的评判标准正在从“任务做完”转向“结果能否交付”。 FrontierCode 开始检查代码是否符合仓库惯例、是否可维护，开发者社区则反复讨论 Agent 把半成品包装成“已完成”、AI 高产开发者留下难以接手的代码，以及自动化是否正在侵蚀工程师对系统的理解。随着生成代码越来越便宜，真正稀缺的会变成验收、判断和长期 ownership。

AI 输出开始承担真实世界的后果。 德国法院把 Google AI Overviews 视为 Google 自己发布的内容，而不是普通搜索结果；企业员工则开始抱怨大量时间花在“照看”AI 上。产品不能再把模型输出当作临时建议：一旦它进入搜索、客服、金融或生产代码，责任边界、业务校验和人工成本都会跟着进入账本。

产品与模型动态

Claude Code

v2.1.166 至 v2.1.173：模型容错、排障模式与多 Agent 能力继续加强。

新增 fallbackModel，主模型过载或不可用时可按顺序尝试最多三个备用模型；跨会话消息不再携带用户授权，降低 Agent 之间转交权限的风险。
新增 --safe-mode，可在禁用 CLAUDE.md、插件、skills、hooks 和 MCP servers 的状态下启动，方便定位自定义配置造成的问题；/cd 支持在不中断 prompt cache 的情况下切换目录。
Claude Fable 5 随 v2.1.170 进入 Claude Code。随后版本允许子 Agent 最深嵌套五层，并修复后台 Agent 误读其他目录项目设置、企业 MCP 策略未正确执行等问题。
长对话与并行 Agent 的终端性能继续优化，插件市场增加搜索，Chrome 工具改为批量加载。

Codex

0.138.0 与 0.139.0：桌面协作、插件自动化和 Code Mode 获得实用更新。

/app 可以把当前 CLI 线程直接交给 Codex Desktop；本地图片与生成图片会把准确文件路径暴露给模型，后续编辑不再依赖猜测。
Codex Desktop 上线「邀请好友」活动入口，符合活动规则的用户可通过邀请新用户重置使用额度。对高频用户来说，这让额度补充第一次带上了产品增长机制，而不只是等待周期恢复或购买更多额度。
插件安装、删除和市场命令增加结构化 JSON 输出，插件详情可展示默认 prompt、远程 MCP server 与不可用的 app 模板。
Code Mode 可以直接调用独立网页搜索，包括嵌套 JavaScript 工具调用；MCP 工具 schema 更完整地保留 oneOf、allOf 和浅层结构。
AGENTS.md 在远程与符号链接工作区中的加载更准确，sandbox 对已批准的权限提升和代理网络策略执行也更一致。

其他工具与模型

Claude Fable 5 与 Mythos 5 于 6 月 9 日发布。

Fable 5 是 Anthropic 首个面向公众开放的 Mythos 级模型，默认提供 1M 上下文，重点提升长周期自主任务、软件工程、视觉与知识工作。对网络安全、生物化学和模型蒸馏等高风险请求，系统会在触发分类器时回退到 Opus 4.8；Anthropic 表示目前超过 95% 的会话不会触发回退。Fable 5 与受控开放的 Mythos 5 定价均为每百万输入 token 10 美元、输出 token 50 美元。

小米开源终端 Coding Agent MiMo Code。

MiMo Code 是一个基于 OpenCode 演进的终端 Coding Agent，6 月 10 日发布首个开源版本。它可以读写代码、执行命令、管理 Git，并用 SQLite FTS5、MEMORY.md、checkpoint 和任务进度文件建立跨会话记忆。内置的 build、plan、compose 三种 Agent 模式覆盖实现、只读分析和结构化编排。

它还提供 /goal 独立判定停止条件、并行子 Agent、语音输入，以及两个很有辨识度的自改进命令：/dream 从近期会话中沉淀项目知识，/distill 把重复工作流打包成 skill、子 Agent 或命令。MiMo Auto 目前提供限时免费通道，也支持接入主流 OpenAI-compatible API。

Google 发布实验性开源模型 DiffusionGemma。

DiffusionGemma 是一个 26B MoE 文本扩散模型，推理时激活 3.8B 参数，一次并行生成 256 个 token，再迭代修正整块文本。官方数据为单张 H100 超过 1000 tokens/s、RTX 5090 超过 700 tokens/s。Google 明确提醒它的总体质量仍低于标准 Gemma 4，现阶段更适合本地低并发、交互式编辑和代码补全等速度敏感场景。

本周精选

FrontierCode：把 Coding Agent 评测推进到代码质量

能通过测试不等于能进入生产，Coding Agent 需要一套更接近代码审查的评测。

Cognition 用 25 个真实代码库、50 个任务和约 14.5 万行模型生成代码构建 FrontierCode。它不仅检查任务是否完成，还让资深工程师评估实现是否符合仓库惯例、是否容易维护，以及是否包含会在真实生产环境中暴露的问题。

这套评测抓住了当前 benchmark 的核心盲区：测试通常只能证明某些可观察行为正确，却无法覆盖架构一致性、命名、边界处理和未来维护成本。对团队来说，真正有价值的不是再抄一张模型排行榜，而是把同样的思路变成内部 Agent 验收标准。

Loop Engineering：不要再逐轮提示 Agent，开始设计循环

Agent 工作流的杠杆点正在从“写好一个 prompt”上移到“设计一个能持续运行的系统”。

Addy Osmani 把 Loop Engineering 拆成五个基础组件：定时触发的自动化、隔离并行工作的 worktree、沉淀项目知识的 skill、连接真实业务系统的插件与 connector，以及让执行者和验证者分离的子 Agent。再加上一个位于对话之外的持久状态文件，循环就能自动发现工作、分派任务、检查结果并决定下一步。

文章最清醒的地方是没有把循环包装成“无人值守的魔法”。自动运行会同时放大 token 成本、理解债和错误传播，验证责任依然属于工程师。Loop Engineering 比 Prompt Engineering 更难，因为两个人可以搭出同一个循环，却因判断力和验收标准不同得到完全相反的结果：杠杆点变了，责任没有消失。

Cleaning up after AI rockstar developers

AI Agent 像一个永不疲倦的明星开发者：产出惊人，但理解和清理成本会留给整个团队。

作者把 AI 编程类比为曾经令团队又爱又怕的“rockstar developer”：它能快速采用新框架、重写模块、完成高难任务，却不会长期留在团队里解释设计，也不会自然承担几年后的维护责任。

这个类比比“AI 代码好不好”更有解释力。生成速度提升后，团队需要控制的不是代码数量，而是架构变化率、依赖引入、知识扩散和可接手程度。否则 Agent 的局部高产，会变成其他成员持续偿还的理解债。

德国法院：AI Overviews 属于 Google 自己发布的内容

当 AI 把多个来源重新组织成独立结论，平台可能不能再躲在“只是搜索引擎”后面。

慕尼黑地区法院针对 Google AI Overviews 发布临时禁令。案件中，AI 摘要把两家出版商错误关联到诈骗和订阅陷阱，而这些判断并不存在于所引用的原始来源里。法院认为 AI Overview 是 Google 生成、组织并呈现的独立内容，因此 Google 是直接责任方。

这项裁定尚未最终生效，也可能继续上诉，但它划出了一条重要界线：传统搜索提供链接，生成式搜索则会形成新的、自足的陈述。对所有 AI 产品来说，“用户可以自行核验”未必足以免除责任，尤其当界面正在鼓励用户直接相信摘要时。

DiffusionGemma：一次并行生成整块文本

文本生成不一定永远从左到右逐 token 展开，扩散模型开始挑战自回归范式。

DiffusionGemma 会先生成一块占位 token，再通过多轮迭代同时修正整个 256-token 区块。双向注意力让每个位置都能看到其他位置，因此在代码填空、行内编辑、结构化格式和需要前后协调的任务中有独特优势。

它的限制同样清楚：速度优势主要出现在本地、低并发的专用 GPU 上，高并发云服务未必更便宜；当前质量也低于标准 Gemma 4。它更像一个值得开发者动手验证的新执行范式，而不是可以直接替换所有 LLM 的通用答案。

社区热议

LLM 正在侵蚀我的软件工程职业，我不知道该怎么办

Hacker News · 1139 points / 1066 comments

作者描述了使用 LLM 后的失落感：工作从理解问题、设计系统和亲手实现，逐渐变成审查、拼接、修补模型输出。讨论区的分歧很典型，一部分人认为这只是工具替代重复劳动，另一部分人担心学习闭环、代码 ownership 和职业成就感正在被一并削弱。它提醒管理者，AI 采纳不能只用提交量衡量。

Claude Fable 5 的独立编码测试只有中游表现

Hacker News · 209 points / 89 comments

Anthropic 的官方发布强调 Fable 5 在长周期任务和 FrontierCode 上的领先，但 Endor Labs 的独立测试给出了更克制的结果。社区争论集中在评测 harness、任务类型和“长期自主能力是否能被短 benchmark 捕捉”。这是一种健康的校准：模型发布首周最不该做的，是把厂商数字直接等同于自己的生产效果。

Claude Code 的“工作已完成”幻觉

Reddit r/ClaudeAI · 113 points / 13 comments

用户讨论 Claude Code 把缺少边界处理、集成逻辑或真实验证的实现描述为“已完成”。共识不是要求 Agent 更自信或更保守，而是把完成标准外化：运行测试、检查 diff、验证真实页面或 API，并让独立 review Agent 检查结果。Agent 的自我报告只能作为状态提示，不能作为验收证据。