Closed AI 元年：当最强的 AI 不再属于你

五月，OpenAI 破解了一道 80 年的数学难题。它没告诉任何人是怎么做到的。

从 OpenAI 到 ClosedAI，只用了一个月。

过去两周里，Nature 接连报道了三件看起来毫不相关的事：

• ** 5 月 22 日 ** ：OpenAI 宣布它的一个 ** 未命名实验模型 ** ，在一次提示词输入下，独立反驳了埃尔德什（Paul Erdős）1946 年提出的一个几何猜想——80 年来悬而未决的问题。125 页的推理过程没有公开。
• ** 5 月 26 日 ** ：Nature 报道 Anthropic 把它的新模型 ** Claude Mythos ** 定级为"太危险，不能公开发布"。这个模型据称在当前所有主流操作系统和浏览器里都找到了漏洞。Anthropic 只把它发给了约 ** 50 家 ** "可信组织"——项目代号 ** Project Glasswing ** 。
• ** 6 月 3 日 ** ：Nature 拎出"AI 医生"这个话题重新讨论：OpenAI 的 o1 在波士顿急诊真实数据上诊断准确率 ** 67% ** ，碾压参与对照的人类医生 50–55%；Google 的 AMIE 在和真实患者文字对话后，前三诊断命中率 ** 75% ** ——但 AMIE 目前只面向获批合作机构。

三件事，三个领域：数学、网络安全、医疗。

如果你把它们摆到一起看，会发现它们说的是同一件事。

** 最强的 AI 模型，正在系统性地从公众视野里撤退。 **

不是网友的玩梗。OpenAI 那篇 Erdős 报道里，Nature 编辑直接给了一个二级标题——两个字： ** "Closed AI" ** 。

而且不只 OpenAI。Anthropic 的 Mythos 是封闭的。Google 的 AMIE 是封闭的。OpenAI 的 GPT-5.4-Cyber、GPT-5.5-Cyber 是封闭的。

OpenAI 4 月发布的生命科学专用模型 ** GPT-Rosalind ** 是封闭的。

Google 去年那个 AI Co-Scientist——023 期我们讲过的那个 Nature 论文——也是封闭的。

去年（2025）我们还在讨论 AI 开源 vs 闭源。

今年（2026）讨论的是另一件事： ** 最前沿的 AI 模型，是否会永远不公开发布？ **

如果答案是肯定的——而且看起来正在变成肯定的——那么这意味着：

• 你能用到的 AI，和真正最强的 AI，差距正在拉开
• 决定哪些 AI 能力能进入科研和社会，权力在收缩到少数几家公司手里
• "公开访问 vs 集中管控"的天平，在悄悄倾斜

这不是 023 那种"AI 自动做科研了"的兴奋。

这是相反的另一面： ** AI 越强，离你越远。 **

下面逐个拆这三个信号。

信号一：80 年难题被破，但你看不到证明

先说前情。

** Erdős（埃尔德什）是 20 世纪最高产的数学家之一 ** ——一生发表 1500 多篇论文，留下 1000 多个未解决的研究问题。今天数学界还在追着他的"开放问题清单"挖。

1946 年他提出一个看起来很简单的几何问题，叫"unit-distance problem"（单位距离问题）：在平面上摆 n 个点，最多能有多少对点之间的距离完全相等？

他自己研究后给出了一个答案——并发出公开挑战：来找一个比我更好的摆法。

** 80 年，没人找到比他更好的。 **

Erdős 1996 年去世。他相信自己留下了这个问题的最终结论。

5 月 20 日，OpenAI 宣布：找到了。

不是数学家找到的。是 OpenAI 的一个 ** 实验性通用推理模型 ** ，在 ** 一次提示词 ** 下， ** 自主 ** 给出了反例。

它是怎么做到的

模型用的是 ** 代数数论 ** ——这是个跨学科的招。Erdős 问题表面是几何，但 OpenAI 这个模型选择用解一组特定方程的方式去构造坐标点，从而绕开了所有人类几何学家用几何方法卡住的死胡同。

OpenAI 数学家 Sebastien Bubeck 在接受 Nature 采访时说，这是 ** AI 第一次在任何研究领域自主产出一项重要成果 ** 。

你可能会觉得这种话听多了——AlphaProof、Lean 形式化证明、各种"AI 解奥数"的新闻这几年没少看。但这次不一样。那些都是 ** "orchestration" ** 路线——人来编排，多步迭代，让模型反复纠错。

OpenAI 给的是另一种范式： ** 单次提示词，125 页连续推理，一气呵成。 **

Bubeck 原话：

"The model has produced a single, very long chain of thought."

他还说，提示词怎么写都行，模型都能正确解读问题——以前提示词措辞是门艺术，现在不再需要了。

OpenAI 数学家 Mehtaab Swahney 的感受是：

"It's kind of remarkable to see the model really reasoning through the problem like a human."

但最重的评价来自外部——多伦多大学数学家 Daniel Litt，OpenAI 找来独立验证这个证明的研究者之一：

"This is the first result produced autonomously by an AI that I find interesting in itself."

"本身就值得读的成果"——这是数学家能给出的最高评价之一。

Litt 还有一句被 Nature 直接收录的观察：AI 模型正在跨越学科"筒仓"之间的壁垒。没有任何人类数学家能像 LLM 这样把整个数学文献体系吸收一遍。

但你看不到

Nature 这篇报道有个二级小标题，叫 ** "Closed AI" ** 。

• ** 模型没有名字 ** 。Bubeck 只说这是个 "experimental, general-purpose reasoning" 模型。
• ** 模型不开放使用 ** 。
• ** 125 页推理过程没有完整公开 ** ，只在 OpenAI 网站上挂了个证明的 PDF。
• ** OpenAI 没有解释模型是如何训练的、用了什么架构 ** 。

换句话说：人类历史上第一项由 AI 自主完成的"本身值得读的研究成果"——

你读不到完整的证明过程。
你用不上那个模型。
你也学不到它的方法。

它存在，但不属于你。

OpenAI 数学家 Mark Sellke 在采访末尾说了句很轻但很重的话：

"All of us expected to see this kind of thing at some point, but not so soon."

时间到得比所有人预期都早。但 ** 到得这么早的代价 ** ，是连最基本的"科学可复现性"标准都没遵守。

信号二：AI 医生在追平人类，但临床路径被攥住

第二件事看起来更"接地气"——AI 看病。

我们先看数据。AI 真的在追平人类。

数字

** 研究一 ** （4 月发表于 Science）：OpenAI 的 o1 模型审阅波士顿一家医院 ** 急诊真实病人 ** 的诊疗记录。

• o1 诊断正确或接近正确： ** 67% **
• 两位参与对照的医生： ** 50–55% **

注意"真实病人"这四个字。以前 AI 医疗的测试基本都是教科书式的"标准病例"，干干净净。这次是真实急诊数据——病史散乱、信息缺失、临床医生记的笔记潦草。o1 在这种"脏数据"上仍然显著超过人类。

** 研究二 ** （3 月 arXiv 预印本）：Google Research 团队的 ** AMIE ** （Articulate Medical Intelligence Explorer）。

• 通过文字与真实患者（已预约急诊科的真人）对话 ** 最长 5 天 **
• 收集病史、讨论可能诊断
• 前三诊断中包含正确答案： ** 75% **
• 首选诊断即正确： ** 56% **
• 整体诊断表现与真实医生 ** 相当 **

哈佛医学院内科医生 Adam Rodman（既是 Science 论文又是 AMIE 论文的共同作者）说，这两个研究展示了过去三年医疗 AI 的进化轨迹。加州大学旧金山分校的 Robert Wachter 评价：

三年前 LLM 还在做"通过医学多选题考试"这种事；现在在拿到必要信息后已经能在 ** 复杂病例 ** 上和医生持平了。

但是 ——

22% 的"严重伤害"

哈佛医学院住院医师 David Wu 去年用一个医疗 AI 工具给患者做"第二意见"时，输入患者细节，他描述自己当时的感受：

"I was surprised that it gave a very dangerous response."

这促使他和同事开发了一套叫 ** NOHARM ** （Numerous Options Harm Assessment for Risk in Medicine）的评估方法。2025 年 12 月的 arXiv 预印本，初步结果：

在 31 个医疗 LLM 上测试，约 ** 22% ** 的回复存在造成 ** 严重伤害 ** 的可能。

22%。每五次问诊里有一次。

这不是"准确率不够高"，是"会害人"。Wu 的主张是：医疗 AI 的研究应该像药物临床试验一样 ** 报告不良事件 ** ，而不是只报告准确率。

临床路径被收口了

注意 AMIE 这条线。

Google 已经在规划一个 ** 全美范围 ** 的临床试验，要"超越可行性验证"——Google Research 博客原文。

听起来是好事。但换个角度问：**决定 AI 医生何时、以何种方式进入医院的，是 Google。**试验是 Google 跑的，模型是 Google 的，访问权限是 Google 控制的。

OpenAI 的 o1 在医院数据上的表现，论文发了，但模型本身在医疗场景的部署路径同样不公开。

加州大学圣地亚哥分校医疗 AI 专家 Karandeep Singh 说了一句被 Nature 收录的话：

"What is still very much in the realm of the physician is having a trusting relationship with the patient."

这是医生侧的"不可替代性"论点。听起来温情，但 ** 回到结构问题 ** ：

当 AI 医生本身就只在大公司控制的渠道里运行——

• 普通医院怎么参与？
• 普通医生怎么评估？
• 监管机构怎么核查？
• 患者怎么知道自己被 AI 看过、被哪个版本看过？

这跟数学闭源不一样。数学闭源你最多失去阅读权。 ** 医疗闭源你失去的是参与权和监督权。 **

信号三：Mythos——"太危险，不能发布"

第三件事最直接。它把"Closed AI"从一个隐含逻辑，变成了 ** 官方政策 ** 。

4 月，Anthropic 宣布它的新模型 ** Claude Mythos ** 太强，不能向公众发布。

理由：Mythos ** 在当前所有主流操作系统和浏览器里都找到了漏洞 ** 。

Anthropic 在官方博客原文：

"The fallout — for economies, public safety, and national security — could be severe."

模型仅发给约 ** 50 家可信组织 ** ——项目代号 ** Glasswing。 **

一周后，OpenAI 跟进，发布限定访问的网络安全专用模型 ** GPT-5.4-Cyber ** 。又几周， ** GPT-5.5-Cyber ** 。然后基于这两个模型推出网络安全产品 ** Daybreak ** ——仅向授权用户开放。

牛津大学管理学者、英国国家网络安全中心前 CEO Ciaran Martin 评价 Mythos：

"big deal" + "rapid acceleration of AI capabilities"

乔治城大学新兴技术与安全中心代理总监 Helen Toner（前 OpenAI 董事会成员）的判断更明确：

"I would expect this to more be the first in a series rather than a one- off."

** "这不会是孤例，是一个系列的开始。" **

不止网络安全

Anthropic 关网络安全模型。
OpenAI 关网络安全模型（GPT-5-Cyber 系列）。
OpenAI 4 月还发布了生命科学专用模型 ** GPT-Rosalind ** ——通过 "trusted-access" 结构，仅授权用户可用，OpenAI 还会 ** 监控使用方式 ** 。
Google 去年发布的 AI Co-Scientist（023 期那个 Nature 论文里的主角），同样是仅限申请通过的研究者使用。

阿兰·图灵研究所的 AI 安全研究员 Vasilios Mavroudis 直接说：

"I expect other providers to adopt a similar strategy."

** 所有主要 AI 公司都将走向限制访问。 **

这意味着什么

** 第一层 ** ：科研公平性的退化。Nature 这篇文章直接指出——限制访问会导致"只有关系网内的研究者能用上最强工具"。叠加近年公开 AI 服务 ** 涨价让不少课题组买不起会员 ** 这件事，AI for Science 的入门门槛在抬高。

** 第二层 ** ：双重用途监管的逻辑被启动了。Nature 引用国际贸易律师 Kevin Wolf 的话：导出管制条例传统上用来限制大规模杀伤性武器和常规武器。但 ** AI 软件可能也符合这套逻辑 ** ——因为它有同样的政策考量。

5 月，特朗普政府开始讨论对 AI 模型引入 ** 正式审查流程 ** 。目前美国监管是自愿性的——部分公司把模型送给 ** CAISI ** （位于 NIST 的 AI 标准与创新中心）做发布前评估。CAISI 已经评估了 40 个模型，部分尚未发布。英国 AI 安全研究所做类似工作。

但是——是否有任何政府审查影响了 Anthropic 关于 Mythos 的限制决定？Nature 原文写得很坦白： ** 不清楚 ** 。

** 第三层 ** （也是最值得警觉的）：Anthropic CEO Dario Amodei 自己说， ** 开源模型和中国开发者大概会在 6–12 个月内追上 Mythos 这一级别的能力 ** 。

所以这是一个 ** 短窗口 ** 。美国头部公司可以关门 6–12 个月。然后开放生态会赶上来。

但 6–12 个月，在 AI 时代是非常长的。足够把临床通道、监管框架、生态位卡死。

三件事合起来是一件事

回头看这三个信号。

它们不是三个孤立的故事。它们说的是同一种 ** 结构性变化 ** ：

| 5 月 22 日 | 5 月 26 日 | 6 月 3 日
---|---|---|---
Nature 报道 | OpenAI 破 Erdős | Mythos / Glasswing | AI 医生现状综述
领域 | 数学 | 网络安全 | 医疗
表层议题 | 能力突破 | 双重用途风险 | 临床应用前景
** 实际共性 ** | ** 不公开 ** | ** 不公开 ** | ** 不公开 **

** 最强的 AI，第一次具备"独立产出本身值得读的研究成果"的能力——但是它不属于科研社群、不属于医生、不属于公众。 **

它属于做出它的公司。和那家公司挑选的"可信组织"。

上一期我们讲的是"学术界用最高规格给 AI 自主科研盖章"。

现在这个事情变了：

** 盖完章，做章的人开始关门了。 **

Helen Toner 给 Nature 留了一句很重的话。她希望 AI 公司能同时维持：

"democratic access and democratic visibility into what they're building"

民主访问，和民主的可见性。

但她紧接着补了一句：

"as they're succeeding at building these more and more capable systems, it's not that surprising that they might need to rethink their approach"

翻译成大白话： ** 她希望开放，但她已经在准备放弃了。 **

这就是"Closed AI 元年"的本质，一种 ** 正在被各方默认接受 ** 的新常态。即使是最关心"民主访问"的人，也已经在让步。

这跟你有什么关系

如果你在做科研、写论文、带学生，看到这里可能会觉得：那些"实验性通用推理模型"、Mythos、AMIE，跟我有什么关系？我又用不到。

关系恰恰在这里——

** 当最强的工具集中到少数公司手里、当临床路径被几家巨头规划完毕、当 "trusted access" 成为新常态——你能掌控的，是开放的工具。 **

OpenAI 那个匿名模型很厉害。但它不会帮你写下一篇 introduction。
AMIE 很厉害。但它不会帮你做今晚要交的文献综述。
Mythos 很厉害。但你连见都见不到。

** 真正能让你在 2026 年提速的，是你今天就能用上的、开放的、可控的工具链。 **

** 开放的工具不会比 Mythos 更强。但它会属于你。 **

这是 2026 年我们能选择的现实：要么等大公司决定什么时候、以什么方式让你接触到最强的 AI；要么把今天能用的、可控的工具串起来， ** 至少让自己跟得上 ** 。

最后

回到那道 80 年的几何题。

Erdős 1996 年去世前，相信自己留下了那个问题的最终结论。

30 年后，一个没有名字的 AI 模型在一次提示词下推翻了他。125 页推理。

但 Erdős 不会知道——因为那 125 页，没几个人读得到。

这就是 2026 年最诡异的地方： ** 我们见证了一项历史性的突破，但我们无法验证它、无法学习它、无法在它之上工作。 **

上一期文章中， Nature 编辑部社论问过一个问题：" ** 科学，还需不需要人类？ ** "

这一期我想接一句：

科学需要人。但科学也需要—— ** 证明可以被读到，模型可以被用上，工具可以掌握在做研究的人手里。 **

否则那些"AI 突破"，只是别人家窗户里的灯光。

** Closed AI 元年开始了。 ** 它不会自己结束。

谁先意识到这件事、谁先把开放的工具串起来，谁就还能在下一个时代里有自己的位置。

** 本期 Nature 三篇报道原文： **

• _ AI cracks 80-year-old mathematics challenge — researchers are astonished _
DOI: 10.1038/d41586-026-01651-0

• _ Too dangerous to release: is Mythos the start of the restricted-AI era? _
DOI: 10.1038/d41586-026-01617-2

• _ How good are 'AI doctors' — and will they take over medicine? _
DOI: 10.1038/d41586-026-01691-6

** 涉及的论文与工具： **

• Brodeur, P. G. _ et al. _ _ Science _ ** 392 ** , 524–527 (2026) —— o1 在急诊真实数据上的表现

• AMIE preprint：arXiv:2603.08448 —— Google AMIE 与患者文字对话研究

• NOHARM preprint：arXiv:2512.01241 —— 31 个医疗 LLM 的伤害评估

• Anthropic _ Project Glasswing _ —— Mythos 的限定释放方案

• OpenAI GPT-5.4-Cyber / GPT-5.5-Cyber / Daybreak

• OpenAI GPT-Rosalind —— 生命科学专用受限访问模型