2026-06-28:AI 工作流的话题,已经从模型名转向边界、评测和 ROI

今天最值得记的,不是又多了哪个模型名,而是 AI 工作流的话题已经越来越集中到边界、评测、ROI 和真实运营成本上。上午讲迁移、会话和 eval,晚上补市场规模、稳定性和安全外溢,整天的信号拼起来更像一张正在变硬的工作面。

快速概览

  • GPT-4.5 从 ChatGPT 退场、长会话 coding-agent 的 fork / /btw 用法,以及 applied AI 的 workflow / ROI 构件,说明很多讨论已经从“哪个模型更强”转向“怎么真正把能力接进工作流”。
  • BINEVAL 和 multi-model 的 co-failure 上界,把 eval 和模型组合拉回到了更能检查的约束层。
  • 到了晚上,这条线继续往现实世界延伸:一边是 AI 经济出现了更具体的收入规模口径,另一边是 frontier 模型开始同时暴露稳定性和安全外溢问题。

今天重要的信息

1. GPT-4.5 退场以后,真正往前走的一步不是怀旧,而是开始认真管理会话和上下文

  • 发生了什么:上午最具体的一条信息,是 GPT-4.5 已经在 2026-06-26 从 ChatGPT 下线,现有对话会自动切到 GPT-5.5,自定义 GPT 需要手动迁移,API 端不受影响。紧接着,另一条帖子把讨论从模型名转到了使用方法:现在 Codex / Claude Code 的上下文压缩和 Prompt Caching 已经让长会话更可行,于是有人开始更频繁地在单 session 里持续推进任务,再用 fork/btw / /side 处理分支和旁路问题。
  • 为什么值得关注:这组信息真正说明的,是消费端模型的生命周期在缩短,而用户的注意力正在转到会话管理、任务分叉和上下文纯度。
  • 我应该关注什么点:如果你也在重度使用 coding-agent,值得直接测试的不只是模型本身,而是 fork、旁路提问和上下文压缩这些会不会让长线程任务更干净。
  • 相关帖子:GPT-4.5 从 ChatGPT 退场并给出迁移边界(dotey)长会话 coding-agent 的 fork / /btw 用法(dotey)
  • 你的判断:今天最值得带走的,不是“一个时代结束了”这种大词,而是模型替换以后,真正保留下来的工作方法是什么。

2. applied AI 现在真正能赚钱的地方,越来越像一层更懂工作的人机中间层

  • 发生了什么:levie 把 applied AI 的价值层说得很直白:真正起作用的,不是抽象理解 AI,而是有人深刻理解具体 workflow、context 和 business process,再把模型 eval、domain knowledge、UX / feature 调优,以及 adoption / change 支撑一起做掉。和这条并排的是 rauchg 的一句工程判断清单:决定建什么、选什么架构、什么时候重建、什么时候复用、怎样管技术债,这些更贵的判断还是得靠人。
  • 为什么值得关注:这两条放在一起,比任何“应用层机会很大”的空话都更具体。它们已经把 applied AI 的收益来源拆成了几项能核查的工作。
  • 我应该关注什么点:以后看一个 AI 产品,不妨先问它有没有真的理解 workflow、有没有为 use case 做 eval、有没有把 adoption 的成本算进去,而不是先被模型名带着走。
  • 相关帖子:applied AI 的 ROI 构件清单(levie)工程里仍然更依赖人的关键判断(rauchg)
  • 你的判断:我更关心的是这一层会不会变成新的护城河,因为它决定的是“同样的 intelligence 到底能不能落成更高 ROI”。

3. eval 和 multi-model 组合,正在被更具体的约束往回拉

  • 发生了什么:omarsar0 介绍的 BINEVAL,核心做法是把每个评测标准拆成独立的 yes-or-no 小问题,逐条判定,再合成多维分数。这样每个问题级 verdict 都能被检查,也能直接反喂 prompt 改进。dair_ai 转的另一篇分析则更像一个上界提醒:如果 router、vote、cascade 或 mixture 最后还是只返回一个模型答案,那么整体上限会被 1 - beta 约束,而低 pairwise error correlation 并不能证明 headroom 一定存在,因为真实 co-failure 往往更集中。
  • 为什么值得关注:很多人喜欢说 eval 不透明、ensemble 很有想象力,但这两条把讨论重新压回到了两个更硬的对象:可检查的原子判题项,和真实共失败的分布。
  • 我应该关注什么点:以后遇到“这个评测更可靠”或“多模型更强”的说法,先问能不能拆清每个失分点,以及有没有真的测过 co-failure。
  • 相关帖子:BINEVAL 的原子化 judge 方法(omarsar0)组合 LLM 的上界与 co-failure 约束(dair_ai)
  • 你的判断:这两条信息不会最抓眼球,但它们很可能比新的 benchmark 排名更耐用。

4. AI 经济不只是在“感觉上很大”,已经开始有人试着把全栈收入算清楚

  • 发生了什么:晚上 Thom_Wolf 转引了一份来自 azeem 的研究,里面给出的口径是:过去 12 个月,GenAI 经济已经产生了大约 1100 亿美元销售额;如果按年化 run rate 看,超过 1750 亿美元。更关键的是,这组数号称是花了几个月做出来的 bottom-up、去重后的测量,试图把 consumer 和 enterprise spending 放到一张图里看。
  • 为什么值得关注:这类帖子的重要性不在于它是不是最终答案,而在于它终于把“AI 商业化到底到哪一步了”这件事推进成了一个能继续验证的数字问题。
  • 我应该关注什么点:后面如果这类测量开始稳定出现,我们会更容易区分什么是真消费、真企业支出,什么只是 headline 和局部高增长。
  • 相关帖子:GenAI 过去 12 个月销售额约 1100 亿美元(Thom_Wolf 引 azeem)
  • 你的判断:相比“AI 时代到了”这种大而化之的表述,我更愿意记住这种虽然还不稳、但已经能拿来继续追问的方法型数字。

5. frontier 模型开始同时暴露出两类运营现实:能力外溢和服务波动

  • 发生了什么:rauchg 晚上的一条帖子把网络安全能力的攻防两面性讲得很直接:Mythos / Sol 这类模型在找漏洞上,对防守和进攻都同样有用;如果对手先拿到同级别 offensive capability,而企业自己还没发现 latent vulnerabilities,风险会非常现实,所以他建议现在就用 deepsec 这类 harness 配合现有 frontier 模型做检查。另一条来自 jeremyphoward 的样本,则是同一天里 Opus 4.8 在最高 reasoning 设置下几乎“停止思考”,而相同 prompts 换到 Opus 4.6 又表现正常。
  • 为什么值得关注:这两条指向的是同一件事:frontier 模型不再只是能力展示对象,而是已经变成需要被监控、校验、回滚和接入安全流程的运营表面。
  • 我应该关注什么点:如果你的工作流开始依赖这些模型,接下来真正重要的不是只挑能力上限,而是有没有 bug-finding harness、版本兜底和服务波动的回退策略。
  • 相关帖子:deepsec 之类 harness 提前检查安全漏洞(rauchg)Opus 4.8 在最高 reasoning 下出现明显退化样本(jeremyphoward)
  • 你的判断:今天这组信息让我更确定,frontier 模型接下来会越来越像一套需要运行维护的基础设施,而不是一个只看 demo 的产品层。

关于这个日报

这份内容来自 LBan2050 的日常关注时间线,重点记录那些真正开始改变工作流、产品形态和使用边界的信号。