卡帕西昨天加入 Anthropic。同一天，Nature 恰好发了三篇AI科学家论文。

先说 Karpathy：为什么这次跳槽不只是八卦

Karpathy 这个人在 AI 圈的地位很特殊，人称“卡神”。

他不是那种"只会写论文"的研究者，也不是那种"只会管团队"的高管。他两者都做过，而且都做到了顶级：

• 斯坦福 PhD，师从李飞飞，ImageNet 时代的核心参与者
• OpenAI 联合创始人，参与了 GPT 系列最早期的工作
• 特斯拉 AI 负责人，从零搭建 Autopilot/FSD 的视觉系统
• 离开特斯拉后回 OpenAI 待了一阵，又走了
• 2024 年创办 Eureka Labs 做 AI 教育
• 2025 年发明"Vibe Coding"这个词，被柯林斯词典选为年度词汇

他的每一步职业选择都被当作 AI 行业的风向标。

这次去 Anthropic，市场解读是"Anthropic 在人才争夺战中的重大胜利"。但我觉得更值得关注的是 ** 他去做什么 ** 。

他加入的是 Anthropic 的预训练团队（由前 OpenAI 的 Nick Joseph 带领），要组建一个新团队，专门做一件事： ** 让 Claude 自己加速 Claude 的研究 ** 。

这不是一个普通的研发岗位。这是把"AI 自我改进循环"作为正式的工程目标来推进。

他 3 月就预演过了：autoresearch

今年 3 月，Karpathy 开源了一个项目叫 ** autoresearch ** ——630 行 Python 代码，让 AI agent 自动跑机器学习实验。

工作方式很简单粗暴：

• 给 agent 一个小型 LLM 训练设置，每次实验限时 5 分钟
• agent 读自己的代码，提出改进假设，改代码，跑实验，看结果
• 好了就留，差了就回滚，然后继续循环

就这么简单。没有花哨的多智能体架构，没有复杂的规划系统。就是一个循环： ** 假设 → 实验 → 反馈 → 下一个假设 ** 。

Karpathy 让它跑了两天。结果：

• ** 700 次自主实验 **
• 发现约 ** 20 个有效优化 **
• 包括一些人类没试过的架构 trick（比如 reorder QK Norm 和 RoPE）
• 把"Time to GPT-2"指标提升了 ** 11% **

项目发布一周，GitHub 21000 stars，推文 860 万次浏览。

Karpathy 把这叫做 ** "loopy era" ** ——AI 进入自我改进的循环时代。

他的原话大意是：以前 AI 研究是"人想 idea → 人写代码 → 人跑实验 → 人看结果"，现在变成了"人定义目标 → AI 自己跑循环"。

人从执行者变成了目标设定者。

然后，Karpathy昨天就加入了 Anthropic，正式职责就是把 autoresearch 的思路工程化、规模化，用在 Claude 的预训练研究上。

这是产业侧的信号。下面看学术侧。

Nature：学术界用最高规格盖了章

同一天，Nature 用同期三篇论文 + 一篇社论的超高规格，宣布： ** AI 自动做科研，不再是 demo，是 Nature 级别的成果了。 **

这个规格有多罕见？Nature 同期集中发表同一主题的多篇论文，通常意味着编辑部认为这是一个"分水岭时刻"。

三个系统，三个团队，三条不同的路：

• ** Co-Scientist ** （Google）—— Gemini 多智能体，自动提假设、辩论、迭代优化
• ** Robin ** （FutureHouse）—— 三智能体串成实验闭环，自己做数据分析
• ** ERA ** （Google DeepMind）—— LLM + 树搜索，写出超越人类的科研代码

Nature 编辑部还在社论里引了 1989 年诺奖得主 Max Perutz 的文章 _ Is Science Necessary? _ ，然后说：

如果他活到今天，他可能会反过来问—— ** 科学，还需不需要人类？ **

下面逐篇拆。

第一篇：Co-Scientist——6 个 AI 争论不休

Google 的系统不是一个模型在独白，而是 ** 6 个角色不同的 AI 智能体 ** 围绕一个共享的"上下文记忆"协同工作：

• ** Generation ** 产出初版假设
• ** Reflection ** 带着搜索工具做新颖性核查——防止你以为自己发现了新大陆，其实别人十年前就发过了
• ** Ranking ** 让假设两两对决、打 Elo 分——像国际象棋锦标赛一样，每个假设都要"赢"过别的假设才能活下来
• ** Evolution ** 把存活的假设改写、组合、深化——类似遗传算法里的"交叉变异"
• ** Proximity ** 计算假设之间的相似度，防止所有输出塌缩到同一方向
• ** Meta-review ** 总结 pattern，给下一轮迭代提供反馈

听起来很复杂，细看确实也复杂。

核心逻辑其实就一句话： ** 让它们反复争论，争论越久，假设越好。 **

这个"越久越好"是有数据支撑的。

作者给出了 203 个研究目标的统计数据，假设的 Elo 分随着系统迭代单调上升， ** 并且没有出现饱和 ** ——意味着继续堆推理算力，质量还能继续涨。

这跟 OpenAI 的 scaling law 是同一个直觉：更多计算 = 更好结果，只是从"训练"阶段推广到了"推理"阶段。

三个真实验证（从易到难）

** 1️⃣ 急性髓系白血病（AML）药物再利用 **

从 2300 个 FDA 已批准药物 × 34 种癌症的组合空间里搜索。这个搜索空间有多大？78,200 种可能的药物-癌症配对。

人类专家凭经验和文献阅读能覆盖多少？大概几十种。

专家从 Co-Scientist 给出的 30 个 AML 候选里挑 5 个进入湿实验， ** Binimetinib、Pacritinib、Cerivastatin 三个命中 ** 。

Binimetinib 在大多数 AML 细胞系上 IC50 ≈ 2 nM，而在非 AML 对照细胞上明显更高——治疗窗口存在。

更狠的是"完全自主版"：不接受任何人类反馈、不接入 DepMap 等外部信号，系统完全自己提名。

它选出的 ** KIRA6 ** 在干细胞样态的 KG-1a 细胞上 IC50 = 10 nM，对照 TK6 是 180 nM—— ** 18 倍选择窗口 ** 。

要知道，很多上市药的选择性也不过就是个位数倍率。

系统还自主提议了 7 组联合用药方案，在 MOLM-13 细胞上多数组合呈协同效应——这是人类专家几乎不可能穷举的组合空间。

两药组合还能想想，三药组合的搜索空间就是天文数字了。

** 2️⃣ 肝纤维化新靶点 **

系统从"表观遗传修饰因子"切入，专家从排序中挑了 3 个进类器官实验，两个有显著抗纤维化活性。 ** 其中 Vorinostat 本来是 FDA 批准的抗癌药 ** 。

这个案例最有意思的地方不在于结果本身，而在于 ** 跨疾病连接 ** ：一个做肝纤维化的团队，大概率不会去看肿瘤领域的文献；而 AI 没有"学科壁垒"这个概念，它的搜索空间天然是跨学科的。

** 3️⃣ 抗菌素耐药机制"盲测" **

帝国理工 Fleming Initiative 的 Penadés 团队多年研究一个问题：为什么 cf- PICIs（一类流动遗传元件）能在大肠杆菌、肺炎克雷伯氏菌等非常不同的细菌之间穿梭，把抗生素耐药基因带到处都是？

他们做完了实验，有了答案，但还没发表。于是决定做一个"盲测"——把这个问题丢给 Co-Scientist，只告诉它最少的背景，看它能不能自己摸出来。

** 系统两天内给出排名第一的假设 ** ：cf-PICIs 与不同噬菌体尾部蛋白结合以扩大宿主范围。与实验结论完全一致。

这个案例的震撼之处在于：如果实验室没有做那个实验、没有答案在抽屉里，这个假设就只是"AI 说的"——我们无从验证。而现在恰好有答案对照，证明 AI 确实能独立推导出正确结论。

对比实验

7 位生物医学专家设计了 15 个高难研究命题，每位专家给出自己的"最佳猜测"。然后把 Co-Scientist、Gemini 2.0 Pro、Gemini 2.0 Flash Thinking、OpenAI o1、o3-mini-high、DeepSeek R1 全丢进锦标赛。

结论： ** Co-Scientist 显著高于所有单模型基线 ** ，继续迭代后甚至超过了专家自己的"最佳猜测"。

这说明什么？单个 LLM 再强，不如多个 LLM 分角色协作 + 持续迭代。架构胜过模型本身。

第二篇：Robin——30 分钟读 551 篇论文，$10 一次

如果说 Co-Scientist 是"假设生成器"，Robin 就是"完整科学工作流引擎"。

FutureHouse 团队的开场很有说服力——他们列了一组"信息滞后"案例：

• ** Dabrafenib ** ：抑制 BRAF 的分子机制 2010 年就清楚了，但它能"保护听力"这件事，是 10 年后才被高通量筛选偶然发现的。而这个保护作用恰恰是已知 BRAF 抑制的直接结果——换句话说，答案一直在文献里，只是没人连起来
• ** 氯胺酮 ** 抗抑郁：22 年滞后
• ** 亚叶酸 ** ：5 年
• ** KarXT ** ：13 年

作者的论点很尖锐： ** 这些不是"新发现"，是"迟到的连接"。 ** 知识碎片分散在不同子领域的论文里，人类专家受限于阅读带宽和学科壁垒，就是没办法及时把它们拼在一起。

这种"跨领域知识合成"——LLM 天生擅长。因为它读过所有领域的论文。

三个智能体的分工

• ** Crow ** —— 轻量级文献综述员，基于 PaperQA2，快速回答关于疾病机制的一般性问题
• ** Falcon ** —— 深度评估报告生成员，基于 PaperQA2，为每个药物候选写全面的评估报告
• ** Finch ** —— 真的会去开 Jupyter notebook、写代码、跑统计分析的 data analysis agent

为了对抗 LLM 的随机性（同样的提示词跑两次，gating 策略可能不同、p 值阈值可能不同），Robin ** 并行启动 8 条 Finch 分析轨迹，每条独立分析，最后做 meta-analysis 取共识 ** 。

这个工程细节很聪明——本质上是把"可重复性"问题变成了"ensemble + voting"问题。

干性 AMD 案例：从机制到候选药的完整闭环

干性年龄相关黄斑变性（dAMD）是发达国家首要的不可逆致盲原因，美国 150 万人受影响，到 2050 年预计翻三倍。目前几乎没有有效疗法。

Robin 拿到"dry age-related macular degeneration"这个输入， ** 全自动五步走完 ** ：

1. 阅读 151 篇论文，提出 10 种候选疾病机制，排名后选定"增强 RPE 细胞吞噬"作为治疗策略
2. 阅读 400 篇论文，提出 30 个候选药物，排名后选 5 个给人做实验。第一轮 ** Y-27632（ROCK 抑制剂）命中 **
3. Robin 建议做 RNA-seq 跟进实验。Finch 自主分析差异表达，发现 ** ABCA1 上调 3 倍 ** （adjusted p = 2.13×10⁻⁸³）——而 ABCA1 的脂质受体 Apo-E 是已知的 AMD 遗传易感基因。AI 自主拼出了一条新的生物学通路
4. 第二轮 10 药测试， ** Ripasudil（日本已批准治青光眼的 ROCK 抑制剂）吞噬增强 1.89 倍 ** ，超过 Y-27632，且作为已上市药安全性数据现成——这就是一个现成的再利用机会
5. 在 60+ 岁患者来源的 RPE 干细胞上验证，Ripasudil 仍是最强命中，且高剂量时 LDH 释放反而下降（不毒）

整条流水线里， ** 假设生成 + 实验设计 + 数据分析全是 AI 的产出 ** ，湿实验由人执行。

效率数字

• Crow + Falcon ** 30 分钟读 551 篇论文 ** ，人类按学者阅读速度估算需要 540 小时
• 整条工作流把 872–937 人时压缩到 < 2 小时， ** 约 200 倍加速 **
• 一次完整运行 API 成本 ** $10.76 **

十块钱。你没看错。

最有说服力的对照实验

作者把同样的候选生成提示词给了 OpenAI Deep Research（也是一个做多步研究的 agent），让它生成 19 个药物候选。

结果： ** 17 个独特候选药（重复了 2 个），没有一个在实验中命中，且没有任何人提到 ROCK 抑制剂 ** 。

这说明不是"任何通用 agent + 好的提示词"就能做到的。

Robin 的结构化 lab-in-the-loop 流水线、PaperQA2 的高质量文献检索、Finch 的多轨迹共识机制——这些架构层面的设计带来了质的差异。

第三篇：ERA——永不睡觉的 Kaggle 大师

如果说前两篇还在"假设"和"实验"层面，ERA 直接进了"代码"层。

它的命题很尖锐： ** "实证软件"在科学史上分量极重——密度泛函理论（1998 诺贝尔化学奖）、分子动力学模拟（2013 诺贝尔化学奖）、蛋白质结构预测即 AlphaFold（2024 诺贝尔化学奖）——三个诺奖背后都是这类软件。 **

但写好实证软件极其困难。领域特定的实证软件往往耗时数年，设计选择凭直觉或权宜之计，几乎不会有人系统搜索所有替代方案。因为太慢了——一个选择试一个月，10 个选择就是大半年。

ERA 的命题：如果一个任务有可量化的打分函数——能不能让 AI 比人类更系统、更穷举地搜出最优代码？

核心机制：LLM × 树搜索

ERA 维护一棵"候选解"树，每个节点是一份完整的可执行代码。扩展方式是让 LLM 对某个节点的代码做 ** 语义级改写 ** （不是随机变异，是"理解代码在做什么"然后有目的地修改），产生子节点，执行并打分。

打分高的优先扩展， ** 也支持回溯 ** ——一条路走不通就跳回去从别的节点分支。

它还有一个关键能力： ** 能读论文 PDF ** 。你给它一篇方法论文，ERA 会先忠实地按论文实现一版代码，然后在那个基础上自动尝试改进。这就像一个永不疲倦的研究助理：先复现你的论文，再试图超过你。

五个领域一起刷榜

** 1️⃣ 单细胞 RNA-seq 批次整合（OpenProblems 基准） **

这是生物信息学领域一个核心难题——如何在合并多个实验室的单细胞数据时去除批次效应，同时保留真实的生物学差异。已有近 300 种工具试图解决这个问题。

ERA 的做法：给它 9 篇已发表方法论文的 PDF，让它"按论文实现再改进"。结果： ** 8/9 超过原作者的实现 ** 。最强的一个是 BBKNN(TS)——ERA 自动发现把 BBKNN 和 ComBat 两种方法重组效果最好，比当前排行榜最佳整体提升 ** 14% ** 。

更夸张的是规模：ERA 通过各种重组和搜索， ** 总共产出了 40 个方法击败 OpenProblems 榜首的所有已发表方法 ** 。40 个。一个系统产出的"超过 SOTA"的方法数量，比整个领域十几年积累的还多。

** 2️⃣ COVID-19 住院预测（CDC CovidHub） **

CovidHub 是美国 CDC 协调的大型流行病预测项目，每周接收几十个专家团队的预测。

ERA 做了严格的回顾性验证，模型 ** WIS = 26 ** ，优于官方 CDC Ensemble 的 29（越低越好）。

综合下来 ** 14 个不同策略超过 CDC 集成 ** ——其中 10 个来自两两重组，2 个来自 Deep Research 生成的想法，1 个来自 AI co-scientist。

** 3️⃣ 通用时间序列预测（GIFT-Eval，28 数据集 7 领域） **

** 直接超过 2025 年 5 月的整张公开排行榜 ** ，包括基础模型、深度学习方法和传统统计方法。

** 4️⃣–5️⃣ ** 地理空间语义分割、斑马鱼整脑神经活动预测、数值积分难题——均达专家水准。

ERA 最重要的发现

ERA 最强的方案，几乎都不是凭空发明的全新算法，而是 ** 已有 idea 的语义级重组 ** 。

具体来说：把 11 个基线方法两两重组做了 55 次实验，结果 ** 24 个（44%）杂交方法同时超过两个母方法 ** ，另有 22 个超过其中一个。

这个发现极其重要。它说明 AI 当前最强的能力模式不是"从零发明"，而是"在巨大的组合空间里找到人类没试过的有效组合"。

把两件事放在一起看

Karpathy 的 autoresearch：630 行代码，让 AI 自动跑 ML 实验，一晚 700 次。思路：假设 → 代码 → 实验 → 反馈 → 循环。

Nature 这三篇：同样的"循环"逻辑，但规模、深度和领域完全不同——

• Co-Scientist 在生物医学假设层面做循环
• ERA 在代码层做循环
• Robin 把假设层和代码层串成闭环，加上真实的湿实验

Karpathy 加入 Anthropic 做的事（"用 Claude 改进 Claude"），本质上就是 ERA 在做的事（用 LLM + 树搜索系统性优化代码），只是应用对象从"科研问题"变成了"模型本身的预训练"。

ERA 论文里甚至已经直接调用了 Co-Scientist 来生成研究思路（在 scRNA-seq 和 COVID 两个基准里都用了）。

Robin 论文则把 Co-Scientist 列为 baseline 对比对象。 ** 多智能体系统之间的相互嵌套和串联，已经在发生了。 **

** 产业界的人才流动和学术界的顶刊发表，指向同一个结论：AI 自我改进循环，正在从一个人的开源玩具（autoresearch）变成科研界的基础设施（Nature 三篇），再变成产业界的核心研发策略（Anthropic 的新团队）。 **

一个反直觉的共性：最强的不是创造，是重组

把三篇放在一起看，有一个共同的、反直觉的发现：

• Co-Scientist 在跨疾病连接里给肝纤维化推荐了抗癌药 Vorinostat——不是发明了新分子，是把已有的药和新的适应症连起来了
• Robin 论文明确说自己的强项是"combinatorial synthesis"——非显然的跨领域连接
• ERA 最显著的提升来自"把两篇论文拼成一个杂交方法"，44% 的杂交超过母方法

三篇说的其实是同一件事：

** 当代 LLM 真正的稀缺能力不是创造，是组合。 **

它能同时"记住"十几个子领域的知识状态——表观遗传学的最新进展、ROCK 抑制剂的药理学、流行病学预测的各种模型、单细胞数据分析的所有方法——然后在这个巨大的知识图谱里找到人类没试过的连接路径。

而单个人类专家——就算是诺奖得主——能同时保持深度浸入的领域大概也就一两个。不是不够聪明，是带宽有限。AI 在这件事上的优势不是智力上的碾压，是 ** 不困、不忘、不受学科壁垒限制 ** 。

这其实也是为什么 Nature 同一期愿意发三篇——它们没有相互竞争，反而联合证明了一件事： ** 这一波 AI for science 的落地方式不是"一个超级 AI 做所有事"，而是"不同架构的 AI 系统各做一层，然后串起来" ** 。

Nature 编辑部的态度：比你想的微妙

Nature 编辑部同期发的社论，标题取得很聪明：大意是"AI 需要人类"。

他们没有站在任何一极。既没有说"AI 要替代科学家"的危言耸听，也没有说"AI 不过是工具"的轻描淡写。

他们的立场，精炼成三句话（真心建议读读原文，细品很精彩）：

** 第一句 ** ：三篇论文都用了"Human-in-the-loop"——Co-Scientist 由专家挑选最终湿实验候选，Robin 的实验由人执行，ERA 的目标函数由人定义。 **
**

** 这不是技术不成熟的妥协，是 feature。 ** 社论认为，这不是"暂时的"，而是"应该永远保持的"。

** 第二句 ** ：即使有一天技术完全成熟了，人也不该被踢出科学过程。原因不是 AI 不够好，是有些东西 AI 不该替代——

• 几十年积累的团队知识——那些不在论文里
• 训练下一代研究者的责任——科学不只是产出论文，也是培养人
• 从失败和"绕远路"里长出来的直觉——最有价值的洞见
• 把伦理框架带进实验设计——AI 不会自己问"这个实验该不该做"

** 第三句 ** （社论里最锋利的一句）：

科学家不应该因为对 AI 的反感而拒绝探索它的可能；但同样地，他们也必须在 AI 炒作的喧嚣之上为自己的不可替代性发声——并提醒外界， ** 不是每一份研究经费申请都需要塞进一个 AI 项目。 **

这句话在当下语境里简直是冷水浇头。多少实验室现在不管做什么课题，都要在 proposal 里硬塞一段"我们将使用 AI 来……"？

Nature 编辑部直接说了：别这样。

他们的态度更像是： ** "AI 能做的越多，我们越要想清楚什么是只有人能做的、应该由人来做的。" **

这跟你有什么关系

看到这里你可能觉得：Google、DeepMind、FutureHouse、Anthropic，跟我有什么关系？我又不在这些公司。

关系在这里——

Karpathy 的 autoresearch、Nature 的三篇论文，共同证明的 ** 底层能力 ** 是什么？

** 大规模、高速度、不疲倦地搜索和整合已有的科学知识。 **

不是什么玄乎的"类人智能"。不是"通用人工智能"。就是三件事： ** 搜文献、做连接、验结论 ** ——只是速度快到离谱。

Robin 的 Crow 和 Falcon 做的核心操作是什么？搜论文、读论文、写综述。

Co-Scientist 的 Reflection agent 做的核心操作是什么？拿着一个假设去搜文献看有没有人发过。

ERA 读论文 PDF 做的是什么？按已发表方法复现代码。

你不需要自己搭一个 Co-Scientist 或 Robin。但你需要的底层原子操作——搜索、阅读、验证、引用——这些今天就可以用。

我们做的 ** ai4scholar ** 提供的就是同一组底层工具——联网搜索 2 亿+ 论文、追踪引用网络、交叉验证参考文献真实性、自动标注引用。

Co-Scientist 把 6 个 agent 编排成自动循环，而 ai4scholar 把这些工具交给你，让你在 Cursor、Claude Code、Codex 里按自己的节奏调用。

今天你可以做到的：

• ** 论文搜索 ** —— "搜最近 ROCK inhibitor + AMD 的论文"，秒回结果
• ** 引用追踪 ** —— 一篇论文被谁引了、引了谁，引用网络展开
• ** 参考文献核查 ** —— 对照 Crossref/PubMed/OpenAlex 验证每条引用是否真实存在（Robin 的 Crow/Falcon 做的核心操作就是这个）
• ** 自动标注 ** —— 给正文段落自动匹配并插入合适的参考文献
• ** 科研绘图 ** —— 机制图、通路图、架构图

Co-Scientist 论文里明确写了一句： ** 系统的知识受限于开放获取文献，付费墙后的关键先前工作可能被遗漏。 **

这是所有 AI 科研系统共同的盲区。

你多搜一步、多验一步，就是在补 AI 系统自身的局限。

最后

回到开头的两件事。

Karpathy 加入 Anthropic，是一个人做了一个职业选择。Nature 发了三篇论文，是学术界完成了一次集体确认。

但这两件事叠在一起传递的信号，比任何单独一件都强：

** AI 自动做科研的循环，已经转起来了。 **

这三篇论文最让人不安的不是"AI 两天干了人类多年的研究"。最让人不安的是—— ** 如果实验室没有答案写在抽屉里，AI 给出的假设，我们怎么知道是对的？ **

这不是技术问题。这是认识论问题。

AI 提速了"提出假设"和"分析数据"，但 ** 它没有提速"验证假设" ** ——验证依然需要人花真实的时间、做真实的实验、承担真实的失败风险。假设生成的速度可以是 700 次/天，但一个湿实验可能需要三个月。

所以，科学还需要人吗？

Nature 编辑部的答案： ** 比以往任何时候都需要。 ** 因为验证的瓶颈在人。

Karpathy 的答案：需要，但人做的事变了——从亲手跑实验，到设计让 AI 自己跑实验的循环。从执行者变成架构师。

这两个答案不矛盾。它们画出了同一幅图景： ** 未来的科学家，不是被 AI 替代的人，是驾驭 AI 循环的人。 **

谁先学会把这些工具串起来，谁就先进入下一个时代。

原文 DOI：

• Co-Scientist: 10.1038/s41586-026-10644-y

• Robin: 10.1038/s41586-026-10652-y

• ERA: 10.1038/s41586-026-10658-6

• 编辑部社论: 10.1038/d41586-026-01551-3

• Karpathy autoresearch: github.com/karpathy/autoresearch