2026-06-28：AI 工作流的话题，已经从模型名转向边界、评测和 ROI

今天最值得记的，不是又多了哪个模型名，而是 AI 工作流的话题已经越来越集中到边界、评测、ROI 和真实运营成本上。上午讲迁移、会话和 eval，晚上补市场规模、稳定性和安全外溢，整天的信号拼起来更像一张正在变硬的工作面。

快速概览

GPT-4.5 从 ChatGPT 退场、长会话 coding-agent 的 fork / /btw 用法，以及 applied AI 的 workflow / ROI 构件，说明很多讨论已经从“哪个模型更强”转向“怎么真正把能力接进工作流”。
BINEVAL 和 multi-model 的 co-failure 上界，把 eval 和模型组合拉回到了更能检查的约束层。
到了晚上，这条线继续往现实世界延伸：一边是 AI 经济出现了更具体的收入规模口径，另一边是 frontier 模型开始同时暴露稳定性和安全外溢问题。

今天重要的信息

1. `GPT-4.5` 退场以后，真正往前走的一步不是怀旧，而是开始认真管理会话和上下文

发生了什么：上午最具体的一条信息，是 GPT-4.5 已经在 2026-06-26 从 ChatGPT 下线，现有对话会自动切到 GPT-5.5，自定义 GPT 需要手动迁移，API 端不受影响。紧接着，另一条帖子把讨论从模型名转到了使用方法：现在 Codex / Claude Code 的上下文压缩和 Prompt Caching 已经让长会话更可行，于是有人开始更频繁地在单 session 里持续推进任务，再用 fork 和 /btw / /side 处理分支和旁路问题。
为什么值得关注：这组信息真正说明的，是消费端模型的生命周期在缩短，而用户的注意力正在转到会话管理、任务分叉和上下文纯度。
我应该关注什么点：如果你也在重度使用 coding-agent，值得直接测试的不只是模型本身，而是 fork、旁路提问和上下文压缩这些会不会让长线程任务更干净。
相关帖子：GPT-4.5 从 ChatGPT 退场并给出迁移边界（dotey）、长会话 coding-agent 的 fork / /btw 用法（dotey）
你的判断：今天最值得带走的，不是“一个时代结束了”这种大词，而是模型替换以后，真正保留下来的工作方法是什么。

2. applied AI 现在真正能赚钱的地方，越来越像一层更懂工作的人机中间层

发生了什么：levie 把 applied AI 的价值层说得很直白：真正起作用的，不是抽象理解 AI，而是有人深刻理解具体 workflow、context 和 business process，再把模型 eval、domain knowledge、UX / feature 调优，以及 adoption / change 支撑一起做掉。和这条并排的是 rauchg 的一句工程判断清单：决定建什么、选什么架构、什么时候重建、什么时候复用、怎样管技术债，这些更贵的判断还是得靠人。
为什么值得关注：这两条放在一起，比任何“应用层机会很大”的空话都更具体。它们已经把 applied AI 的收益来源拆成了几项能核查的工作。
我应该关注什么点：以后看一个 AI 产品，不妨先问它有没有真的理解 workflow、有没有为 use case 做 eval、有没有把 adoption 的成本算进去，而不是先被模型名带着走。
相关帖子：applied AI 的 ROI 构件清单（levie）、工程里仍然更依赖人的关键判断（rauchg）
你的判断：我更关心的是这一层会不会变成新的护城河，因为它决定的是“同样的 intelligence 到底能不能落成更高 ROI”。

3. eval 和 multi-model 组合，正在被更具体的约束往回拉

发生了什么：omarsar0 介绍的 BINEVAL，核心做法是把每个评测标准拆成独立的 yes-or-no 小问题，逐条判定，再合成多维分数。这样每个问题级 verdict 都能被检查，也能直接反喂 prompt 改进。dair_ai 转的另一篇分析则更像一个上界提醒：如果 router、vote、cascade 或 mixture 最后还是只返回一个模型答案，那么整体上限会被 1 - beta 约束，而低 pairwise error correlation 并不能证明 headroom 一定存在，因为真实 co-failure 往往更集中。
为什么值得关注：很多人喜欢说 eval 不透明、ensemble 很有想象力，但这两条把讨论重新压回到了两个更硬的对象：可检查的原子判题项，和真实共失败的分布。
我应该关注什么点：以后遇到“这个评测更可靠”或“多模型更强”的说法，先问能不能拆清每个失分点，以及有没有真的测过 co-failure。
相关帖子：BINEVAL 的原子化 judge 方法（omarsar0）、组合 LLM 的上界与 co-failure 约束（dair_ai）
你的判断：这两条信息不会最抓眼球，但它们很可能比新的 benchmark 排名更耐用。

4. AI 经济不只是在“感觉上很大”，已经开始有人试着把全栈收入算清楚

发生了什么：晚上 Thom_Wolf 转引了一份来自 azeem 的研究，里面给出的口径是：过去 12 个月，GenAI 经济已经产生了大约 1100 亿美元销售额；如果按年化 run rate 看，超过 1750 亿美元。更关键的是，这组数号称是花了几个月做出来的 bottom-up、去重后的测量，试图把 consumer 和 enterprise spending 放到一张图里看。
为什么值得关注：这类帖子的重要性不在于它是不是最终答案，而在于它终于把“AI 商业化到底到哪一步了”这件事推进成了一个能继续验证的数字问题。
我应该关注什么点：后面如果这类测量开始稳定出现，我们会更容易区分什么是真消费、真企业支出，什么只是 headline 和局部高增长。
相关帖子：GenAI 过去 12 个月销售额约 1100 亿美元（Thom_Wolf 引 azeem）
你的判断：相比“AI 时代到了”这种大而化之的表述，我更愿意记住这种虽然还不稳、但已经能拿来继续追问的方法型数字。

5. frontier 模型开始同时暴露出两类运营现实：能力外溢和服务波动

发生了什么：rauchg 晚上的一条帖子把网络安全能力的攻防两面性讲得很直接：Mythos / Sol 这类模型在找漏洞上，对防守和进攻都同样有用；如果对手先拿到同级别 offensive capability，而企业自己还没发现 latent vulnerabilities，风险会非常现实，所以他建议现在就用 deepsec 这类 harness 配合现有 frontier 模型做检查。另一条来自 jeremyphoward 的样本，则是同一天里 Opus 4.8 在最高 reasoning 设置下几乎“停止思考”，而相同 prompts 换到 Opus 4.6 又表现正常。
为什么值得关注：这两条指向的是同一件事：frontier 模型不再只是能力展示对象，而是已经变成需要被监控、校验、回滚和接入安全流程的运营表面。
我应该关注什么点：如果你的工作流开始依赖这些模型，接下来真正重要的不是只挑能力上限，而是有没有 bug-finding harness、版本兜底和服务波动的回退策略。
相关帖子：用 deepsec 之类 harness 提前检查安全漏洞（rauchg）、Opus 4.8 在最高 reasoning 下出现明显退化样本（jeremyphoward）
你的判断：今天这组信息让我更确定，frontier 模型接下来会越来越像一套需要运行维护的基础设施，而不是一个只看 demo 的产品层。

关于这个日报

这份内容来自 LBan2050 的日常关注时间线，重点记录那些真正开始改变工作流、产品形态和使用边界的信号。

2026-06-28：AI 工作流的话题，已经从模型名转向边界、评测和 ROI

快速概览

今天重要的信息

1. GPT-4.5 退场以后，真正往前走的一步不是怀旧，而是开始认真管理会话和上下文

2. applied AI 现在真正能赚钱的地方，越来越像一层更懂工作的人机中间层

3. eval 和 multi-model 组合，正在被更具体的约束往回拉

4. AI 经济不只是在“感觉上很大”，已经开始有人试着把全栈收入算清楚

5. frontier 模型开始同时暴露出两类运营现实：能力外溢和服务波动

关于这个日报

1. `GPT-4.5` 退场以后，真正往前走的一步不是怀旧，而是开始认真管理会话和上下文