五月,OpenAI 破解了一道 80 年的数学难题。它没告诉任何人是怎么做到的。
从 OpenAI 到 ClosedAI,只用了一个月。
过去两周里,Nature 接连报道了三件看起来毫不相关的事:
- • ** 5 月 22 日 ** :OpenAI 宣布它的一个 ** 未命名实验模型 ** ,在一次提示词输入下,独立反驳了埃尔德什(Paul Erdős)1946 年提出的一个几何猜想——80 年来悬而未决的问题。125 页的推理过程没有公开。
- • ** 5 月 26 日 ** :Nature 报道 Anthropic 把它的新模型 ** Claude Mythos ** 定级为"太危险,不能公开发布"。这个模型据称在当前所有主流操作系统和浏览器里都找到了漏洞。Anthropic 只把它发给了约 ** 50 家 ** "可信组织"——项目代号 ** Project Glasswing ** 。
- • ** 6 月 3 日 ** :Nature 拎出"AI 医生"这个话题重新讨论:OpenAI 的 o1 在波士顿急诊真实数据上诊断准确率 ** 67% ** ,碾压参与对照的人类医生 50–55%;Google 的 AMIE 在和真实患者文字对话后,前三诊断命中率 ** 75% ** ——但 AMIE 目前只面向获批合作机构。
三件事,三个领域:数学、网络安全、医疗。
如果你把它们摆到一起看,会发现它们说的是同一件事。
** 最强的 AI 模型,正在系统性地从公众视野里撤退。 **
不是网友的玩梗。OpenAI 那篇 Erdős 报道里,Nature 编辑直接给了一个二级标题——两个字: ** "Closed AI" ** 。
而且不只 OpenAI。Anthropic 的 Mythos 是封闭的。Google 的 AMIE 是封闭的。OpenAI 的 GPT-5.4-Cyber、GPT-5.5-Cyber 是封闭的。
OpenAI 4 月发布的生命科学专用模型 ** GPT-Rosalind ** 是封闭的。
Google 去年那个 AI Co-Scientist——023 期我们讲过的那个 Nature 论文——也是封闭的。
去年(2025)我们还在讨论 AI 开源 vs 闭源。
今年(2026)讨论的是另一件事: ** 最前沿的 AI 模型,是否会永远不公开发布? **
如果答案是肯定的——而且看起来正在变成肯定的——那么这意味着:
- • 你能用到的 AI,和真正最强的 AI,差距正在拉开
- • 决定哪些 AI 能力能进入科研和社会,权力在收缩到少数几家公司手里
- • "公开访问 vs 集中管控"的天平,在悄悄倾斜
这不是 023 那种"AI 自动做科研了"的兴奋。
这是相反的另一面: ** AI 越强,离你越远。 **
下面逐个拆这三个信号。
信号一:80 年难题被破,但你看不到证明
先说前情。
** Erdős(埃尔德什)是 20 世纪最高产的数学家之一 ** ——一生发表 1500 多篇论文,留下 1000 多个未解决的研究问题。今天数学界还在追着他的"开放问题清单"挖。
1946 年他提出一个看起来很简单的几何问题,叫"unit-distance problem"(单位距离问题):在平面上摆 n 个点,最多能有多少对点之间的距离完全相等?
他自己研究后给出了一个答案——并发出公开挑战:来找一个比我更好的摆法。
** 80 年,没人找到比他更好的。 **
Erdős 1996 年去世。他相信自己留下了这个问题的最终结论。
5 月 20 日,OpenAI 宣布:找到了。
不是数学家找到的。是 OpenAI 的一个 ** 实验性通用推理模型 ** ,在 ** 一次提示词 ** 下, ** 自主 ** 给出了反例。
它是怎么做到的
模型用的是 ** 代数数论 ** ——这是个跨学科的招。Erdős 问题表面是几何,但 OpenAI 这个模型选择用解一组特定方程的方式去构造坐标点,从而绕开了所有人类几何学家用几何方法卡住的死胡同。
OpenAI 数学家 Sebastien Bubeck 在接受 Nature 采访时说,这是 ** AI 第一次在任何研究领域自主产出一项重要成果 ** 。
你可能会觉得这种话听多了——AlphaProof、Lean 形式化证明、各种"AI 解奥数"的新闻这几年没少看。但这次不一样。那些都是 ** "orchestration" ** 路线——人来编排,多步迭代,让模型反复纠错。
OpenAI 给的是另一种范式: ** 单次提示词,125 页连续推理,一气呵成。 **
Bubeck 原话:
"The model has produced a single, very long chain of thought."
他还说,提示词怎么写都行,模型都能正确解读问题——以前提示词措辞是门艺术,现在不再需要了。
OpenAI 数学家 Mehtaab Swahney 的感受是:
"It's kind of remarkable to see the model really reasoning through the problem like a human."
但最重的评价来自外部——多伦多大学数学家 Daniel Litt,OpenAI 找来独立验证这个证明的研究者之一:
"This is the first result produced autonomously by an AI that I find interesting in itself."
"本身就值得读的成果"——这是数学家能给出的最高评价之一。
Litt 还有一句被 Nature 直接收录的观察:AI 模型正在跨越 学科"筒仓"之间 的壁垒。没有任何人类数学家能像 LLM 这样把整个数学文献体系吸收一遍。
但你看不到
Nature 这篇报道有个二级小标题,叫 ** "Closed AI" ** 。
- • ** 模型没有名字 ** 。Bubeck 只说这是个 "experimental, general-purpose reasoning" 模型。
- • ** 模型不开放使用 ** 。
- • ** 125 页推理过程没有完整公开 ** ,只在 OpenAI 网站上挂了个证明的 PDF。
- • ** OpenAI 没有解释模型是如何训练的、用了什么架构 ** 。
换句话说:人类历史上第一项由 AI 自主完成的"本身值得读的研究成果"——
你读不到完整的证明过程。
你用不上那个模型。
你也学不到它的方法。
它存在,但不属于你。
OpenAI 数学家 Mark Sellke 在采访末尾说了句很轻但很重的话:
"All of us expected to see this kind of thing at some point, but not so soon."
时间到得比所有人预期都早。但 ** 到得这么早的代价 ** ,是连最基本的"科学可复现性"标准都没遵守。
信号二:AI 医生在追平人类,但临床路径被攥住
第二件事看起来更"接地气"——AI 看病。
我们先看数据。AI 真的在追平人类。
数字
** 研究一 ** (4 月发表于 Science):OpenAI 的 o1 模型审阅波士顿一家医院 ** 急诊真实病人 ** 的诊疗记录。
- • o1 诊断正确或接近正确: ** 67% **
- • 两位参与对照的医生: ** 50–55% **
注意"真实病人"这四个字。以前 AI 医疗的测试基本都是教科书式的"标准病例",干干净净。这次是真实急诊数据——病史散乱、信息缺失、临床医生记的笔记潦草。o1 在这种"脏数据"上仍然显著超过人类。
** 研究二 ** (3 月 arXiv 预印本):Google Research 团队的 ** AMIE ** (Articulate Medical Intelligence Explorer)。
- • 通过文字与真实患者(已预约急诊科的真人)对话 ** 最长 5 天 **
- • 收集病史、讨论可能诊断
- • 前三诊断中包含正确答案: ** 75% **
- • 首选诊断即正确: ** 56% **
- • 整体诊断表现与真实医生 ** 相当 **
哈佛医学院内科医生 Adam Rodman(既是 Science 论文又是 AMIE 论文的共同作者)说,这两个研究展示了过去三年医疗 AI 的进化轨迹。加州大学旧金山分校的 Robert Wachter 评价:
三年前 LLM 还在做"通过医学多选题考试"这种事;现在在拿到必要信息后已经能在 ** 复杂病例 ** 上和医生持平了。
但是 ——
22% 的"严重伤害"
哈佛医学院住院医师 David Wu 去年用一个医疗 AI 工具给患者做"第二意见"时,输入患者细节,他描述自己当时的感受:
"I was surprised that it gave a very dangerous response."
这促使他和同事开发了一套叫 ** NOHARM ** (Numerous Options Harm Assessment for Risk in Medicine)的评估方法。2025 年 12 月的 arXiv 预印本,初步结果:
在 31 个医疗 LLM 上测试,约 ** 22% ** 的回复存在造成 ** 严重伤害 ** 的可能。
22%。每五次问诊里有一次。
这不是"准确率不够高",是"会害人"。Wu 的主张是:医疗 AI 的研究应该像药物临床试验一样 ** 报告不良事件 ** ,而不是只报告准确率。
临床路径被收口了
注意 AMIE 这条线。
Google 已经在规划一个 ** 全美范围 ** 的临床试验,要"超越可行性验证"——Google Research 博客原文。
听起来是好事。但换个角度问:**决定 AI 医生何时、以何种方式进入医院的,是 Google。**试验是 Google 跑的,模型是 Google 的,访问权限是 Google 控制的。
OpenAI 的 o1 在医院数据上的表现,论文发了,但模型本身在医疗场景的部署路径同样不公开。
加州大学圣地亚哥分校医疗 AI 专家 Karandeep Singh 说了一句被 Nature 收录的话:
"What is still very much in the realm of the physician is having a trusting relationship with the patient."
这是医生侧的"不可替代性"论点。听起来温情,但 ** 回到结构问题 ** :
当 AI 医生本身就只在大公司控制的渠道里运行——
- • 普通医院怎么参与?
- • 普通医生怎么评估?
- • 监管机构怎么核查?
- • 患者怎么知道自己被 AI 看过、被哪个版本看过?
这跟数学闭源不一样。数学闭源你最多失去阅读权。 ** 医疗闭源你失去的是参与权和监督权。 **
信号三:Mythos——"太危险,不能发布"
第三件事最直接。它把"Closed AI"从一个隐含逻辑,变成了 ** 官方政策 ** 。
4 月,Anthropic 宣布它的新模型 ** Claude Mythos ** 太强,不能向公众发布。
理由:Mythos ** 在当前所有主流操作系统和浏览器里都找到了漏洞 ** 。
Anthropic 在官方博客原文:
"The fallout — for economies, public safety, and national security — could be severe."
模型仅发给约 ** 50 家可信组织 ** ——项目代号 ** Glasswing。 **
一周后,OpenAI 跟进,发布限定访问的网络安全专用模型 ** GPT-5.4-Cyber ** 。又几周, ** GPT-5.5-Cyber ** 。然后基于这两个模型推出网络安全产品 ** Daybreak ** ——仅向授权用户开放。
牛津大学管理学者、英国国家网络安全中心前 CEO Ciaran Martin 评价 Mythos:
"big deal" + "rapid acceleration of AI capabilities"
乔治城大学新兴技术与安全中心代理总监 Helen Toner(前 OpenAI 董事会成员)的判断更明确:
"I would expect this to more be the first in a series rather than a one- off."
** "这不会是孤例,是一个系列的开始。" **
不止网络安全
Anthropic 关网络安全模型。
OpenAI 关网络安全模型(GPT-5-Cyber 系列)。
OpenAI 4 月还发布了生命科学专用模型 ** GPT-Rosalind ** ——通过 "trusted-access"
结构,仅授权用户可用,OpenAI 还会 ** 监控使用方式 ** 。
Google 去年发布的 AI Co-Scientist(023 期那个 Nature 论文里的主角),同样是仅限申请通过的研究者使用。
阿兰·图灵研究所的 AI 安全研究员 Vasilios Mavroudis 直接说:
"I expect other providers to adopt a similar strategy."
** 所有主要 AI 公司都将走向限制访问。 **
这意味着什么
** 第一层 ** :科研公平性的退化。Nature 这篇文章直接指出——限制访问会导致"只有关系网内的研究者能用上最强工具"。叠加近年公开 AI 服务 ** 涨价让不少课题组买不起会员 ** 这件事,AI for Science 的入门门槛在抬高。
** 第二层 ** :双重用途监管的逻辑被启动了。Nature 引用国际贸易律师 Kevin Wolf 的话:导出管制条例传统上用来限制大规模杀伤性武器和常规武器。但 ** AI 软件可能也符合这套逻辑 ** ——因为它有同样的政策考量。
5 月,特朗普政府开始讨论对 AI 模型引入 ** 正式审查流程 ** 。目前美国监管是自愿性的——部分公司把模型送给 ** CAISI ** (位于 NIST 的 AI 标准与创新中心)做发布前评估。CAISI 已经评估了 40 个模型,部分尚未发布。英国 AI 安全研究所做类似工作。
但是——是否有任何政府审查影响了 Anthropic 关于 Mythos 的限制决定?Nature 原文写得很坦白: ** 不清楚 ** 。
** 第三层 ** (也是最值得警觉的):Anthropic CEO Dario Amodei 自己说, ** 开源模型和中国开发者大概会在 6–12 个月内追上 Mythos 这一级别的能力 ** 。
所以这是一个 ** 短窗口 ** 。美国头部公司可以关门 6–12 个月。然后开放生态会赶上来。
但 6–12 个月,在 AI 时代是非常长的。足够把临床通道、监管框架、生态位卡死。
三件事合起来是一件事
回头看这三个信号。
它们不是三个孤立的故事。它们说的是同一种 ** 结构性变化 ** :
| 5 月 22 日 | 5 月 26 日 | 6 月 3 日
---|---|---|---
Nature 报道 | OpenAI 破 Erdős | Mythos / Glasswing | AI 医生现状综述
领域 | 数学 | 网络安全 | 医疗
表层议题 | 能力突破 | 双重用途风险 | 临床应用前景
** 实际共性 ** | ** 不公开 ** | ** 不公开 ** | ** 不公开 **
** 最强的 AI,第一次具备"独立产出本身值得读的研究成果"的能力——但是它不属于科研社群、不属于医生、不属于公众。 **
它属于做出它的公司。和那家公司挑选的"可信组织"。
上一期我们讲的是"学术界用最高规格给 AI 自主科研盖章"。
现在这个事情变了:
** 盖完章,做章的人开始关门了。 **
Helen Toner 给 Nature 留了一句很重的话。她希望 AI 公司能同时维持:
"democratic access and democratic visibility into what they're building"
民主访问,和民主的可见性。
但她紧接着补了一句:
"as they're succeeding at building these more and more capable systems, it's not that surprising that they might need to rethink their approach"
翻译成大白话: ** 她希望开放,但她已经在准备放弃了。 **
这就是"Closed AI 元年"的本质,一种 ** 正在被各方默认接受 ** 的新常态。即使是最关心"民主访问"的人,也已经在让步。
这跟你有什么关系
如果你在做科研、写论文、带学生,看到这里可能会觉得:那些"实验性通用推理模型"、Mythos、AMIE,跟我有什么关系?我又用不到。
关系恰恰在这里——
** 当最强的工具集中到少数公司手里、当临床路径被几家巨头规划完毕、当 "trusted access" 成为新常态——你能掌控的,是开放的工具。 **
OpenAI 那个匿名模型很厉害。但它不会帮你写下一篇 introduction。
AMIE 很厉害。但它不会帮你做今晚要交的文献综述。
Mythos 很厉害。但你连见都见不到。
** 真正能让你在 2026 年提速的,是你今天就能用上的、开放的、可控的工具链。 **
** 开放的工具不会比 Mythos 更强。但它会属于你。 **
这是 2026 年我们能选择的现实:要么等大公司决定什么时候、以什么方式让你接触到最强的 AI;要么把今天能用的、可控的工具串起来, ** 至少让自己跟得上 ** 。
最后
回到那道 80 年的几何题。
Erdős 1996 年去世前,相信自己留下了那个问题的最终结论。
30 年后,一个没有名字的 AI 模型在一次提示词下推翻了他。125 页推理。
但 Erdős 不会知道——因为那 125 页,没几个人读得到。
这就是 2026 年最诡异的地方: ** 我们见证了一项历史性的突破,但我们无法验证它、无法学习它、无法在它之上工作。 **
上一期文章中, Nature 编辑部社论问过一个问题:" ** 科学,还需不需要人类? ** "
这一期我想接一句:
科学需要人。但科学也需要—— ** 证明可以被读到,模型可以被用上,工具可以掌握在做研究的人手里。 **
否则那些"AI 突破",只是别人家窗户里的灯光。
** Closed AI 元年开始了。 ** 它不会自己结束。
谁先意识到这件事、谁先把开放的工具串起来,谁就还能在下一个时代里有自己的位置。
** 本期 Nature 三篇报道原文: **
- • _ AI cracks 80-year-old mathematics challenge — researchers are astonished _
DOI: 10.1038/d41586-026-01651-0- • _ Too dangerous to release: is Mythos the start of the restricted-AI era? _
DOI: 10.1038/d41586-026-01617-2- • _ How good are 'AI doctors' — and will they take over medicine? _
DOI: 10.1038/d41586-026-01691-6
** 涉及的论文与工具: **
- • Brodeur, P. G. _ et al. _ _ Science _ ** 392 ** , 524–527 (2026) —— o1 在急诊真实数据上的表现
- • AMIE preprint:arXiv:2603.08448 —— Google AMIE 与患者文字对话研究
- • NOHARM preprint:arXiv:2512.01241 —— 31 个医疗 LLM 的伤害评估
- • Anthropic _ Project Glasswing _ —— Mythos 的限定释放方案
- • OpenAI GPT-5.4-Cyber / GPT-5.5-Cyber / Daybreak
- • OpenAI GPT-Rosalind —— 生命科学专用受限访问模型