先说 Karpathy:为什么这次跳槽不只是八卦
Karpathy 这个人在 AI 圈的地位很特殊,人称“卡神”。
他不是那种"只会写论文"的研究者,也不是那种"只会管团队"的高管。他两者都做过,而且都做到了顶级:
- • 斯坦福 PhD,师从李飞飞,ImageNet 时代的核心参与者
- • OpenAI 联合创始人,参与了 GPT 系列最早期的工作
- • 特斯拉 AI 负责人,从零搭建 Autopilot/FSD 的视觉系统
- • 离开特斯拉后回 OpenAI 待了一阵,又走了
- • 2024 年创办 Eureka Labs 做 AI 教育
- • 2025 年发明"Vibe Coding"这个词,被柯林斯词典选为年度词汇
他的每一步职业选择都被当作 AI 行业的风向标。
这次去 Anthropic,市场解读是"Anthropic 在人才争夺战中的重大胜利"。但我觉得更值得关注的是 ** 他去做什么 ** 。
他加入的是 Anthropic 的预训练团队(由前 OpenAI 的 Nick Joseph 带领),要组建一个新团队,专门做一件事: ** 让 Claude 自己加速 Claude 的研究 ** 。
这不是一个普通的研发岗位。这是把"AI 自我改进循环"作为正式的工程目标来推进。
他 3 月就预演过了:autoresearch
今年 3 月,Karpathy 开源了一个项目叫 ** autoresearch ** ——630 行 Python 代码,让 AI agent 自动跑机器学习实验。
工作方式很简单粗暴:
- • 给 agent 一个小型 LLM 训练设置,每次实验限时 5 分钟
- • agent 读自己的代码,提出改进假设,改代码,跑实验,看结果
- • 好了就留,差了就回滚,然后继续循环
就这么简单。没有花哨的多智能体架构,没有复杂的规划系统。就是一个循环: ** 假设 → 实验 → 反馈 → 下一个假设 ** 。
Karpathy 让它跑了两天。结果:
- • ** 700 次自主实验 **
- • 发现约 ** 20 个有效优化 **
- • 包括一些人类没试过的架构 trick(比如 reorder QK Norm 和 RoPE)
- • 把"Time to GPT-2"指标提升了 ** 11% **
项目发布一周,GitHub 21000 stars,推文 860 万次浏览。
Karpathy 把这叫做 ** "loopy era" ** ——AI 进入自我改进的循环时代。
他的原话大意是:以前 AI 研究是"人想 idea → 人写代码 → 人跑实验 → 人看结果",现在变成了"人定义目标 → AI 自己跑循环"。
人从执行者变成了目标设定者。
然后,Karpathy昨天就加入了 Anthropic,正式职责就是把 autoresearch 的思路工程化、规模化,用在 Claude 的预训练研究上。
这是产业侧的信号。下面看学术侧。
Nature:学术界用最高规格盖了章
同一天,Nature 用同期三篇论文 + 一篇社论的超高规格,宣布: ** AI 自动做科研,不再是 demo,是 Nature 级别的成果了。 **
这个规格有多罕见?Nature 同期集中发表同一主题的多篇论文,通常意味着编辑部认为这是一个"分水岭时刻"。
三个系统,三个团队,三条不同的路:
- • ** Co-Scientist ** (Google)—— Gemini 多智能体,自动提假设、辩论、迭代优化
- • ** Robin ** (FutureHouse)—— 三智能体串成实验闭环,自己做数据分析
- • ** ERA ** (Google DeepMind)—— LLM + 树搜索,写出超越人类的科研代码
Nature 编辑部还在社论里引了 1989 年诺奖得主 Max Perutz 的文章 _ Is Science Necessary? _ ,然后说:
如果他活到今天,他可能会反过来问—— ** 科学,还需不需要人类? **
下面逐篇拆。
第一篇:Co-Scientist——6 个 AI 争论不休
Google 的系统不是一个模型在独白,而是 ** 6 个角色不同的 AI 智能体 ** 围绕一个共享的"上下文记忆"协同工作:
- • ** Generation ** 产出初版假设
- • ** Reflection ** 带着搜索工具做新颖性核查——防止你以为自己发现了新大陆,其实别人十年前就发过了
- • ** Ranking ** 让假设两两对决、打 Elo 分——像国际象棋锦标赛一样,每个假设都要"赢"过别的假设才能活下来
- • ** Evolution ** 把存活的假设改写、组合、深化——类似遗传算法里的"交叉变异"
- • ** Proximity ** 计算假设之间的相似度,防止所有输出塌缩到同一方向
- • ** Meta-review ** 总结 pattern,给下一轮迭代提供反馈
听起来很复杂,细看确实也复杂。
核心逻辑其实就一句话: ** 让它们反复争论,争论越久,假设越好。 **
这个"越久越好"是有数据支撑的。
作者给出了 203 个研究目标的统计数据,假设的 Elo 分随着系统迭代单调上升, ** 并且没有出现饱和 ** ——意味着继续堆推理算力,质量还能继续涨。
这跟 OpenAI 的 scaling law 是同一个直觉:更多计算 = 更好结果,只是从"训练"阶段推广到了"推理"阶段。
三个真实验证(从易到难)
** 1️⃣ 急性髓系白血病(AML)药物再利用 **
从 2300 个 FDA 已批准药物 × 34 种癌症的组合空间里搜索。这个搜索空间有多大?78,200 种可能的药物-癌症配对。
人类专家凭经验和文献阅读能覆盖多少?大概几十种。
专家从 Co-Scientist 给出的 30 个 AML 候选里挑 5 个进入湿实验, ** Binimetinib、Pacritinib、Cerivastatin 三个命中 ** 。
Binimetinib 在大多数 AML 细胞系上 IC50 ≈ 2 nM,而在非 AML 对照细胞上明显更高——治疗窗口存在。
更狠的是"完全自主版":不接受任何人类反馈、不接入 DepMap 等外部信号,系统完全自己提名。
它选出的 ** KIRA6 ** 在干细胞样态的 KG-1a 细胞上 IC50 = 10 nM,对照 TK6 是 180 nM—— ** 18 倍选择窗口 ** 。
要知道,很多上市药的选择性也不过就是个位数倍率。
系统还自主提议了 7 组联合用药方案,在 MOLM-13 细胞上多数组合呈协同效应——这是人类专家几乎不可能穷举的组合空间。
两药组合还能想想,三药组合的搜索空间就是天文数字了。
** 2️⃣ 肝纤维化新靶点 **
系统从"表观遗传修饰因子"切入,专家从排序中挑了 3 个进类器官实验,两个有显著抗纤维化活性。 ** 其中 Vorinostat 本来是 FDA 批准的抗癌药 ** 。
这个案例最有意思的地方不在于结果本身,而在于 ** 跨疾病连接 ** :一个做肝纤维化的团队,大概率不会去看肿瘤领域的文献;而 AI 没有"学科壁垒"这个概念,它的搜索空间天然是跨学科的。
** 3️⃣ 抗菌素耐药机制"盲测" **
帝国理工 Fleming Initiative 的 Penadés 团队多年研究一个问题:为什么 cf- PICIs(一类流动遗传元件)能在大肠杆菌、肺炎克雷伯氏菌等非常不同的细菌之间穿梭,把抗生素耐药基因带到处都是?
他们做完了实验,有了答案,但还没发表。于是决定做一个"盲测"——把这个问题丢给 Co-Scientist,只告诉它最少的背景,看它能不能自己摸出来。
** 系统两天内给出排名第一的假设 ** :cf-PICIs 与不同噬菌体尾部蛋白结合以扩大宿主范围。与实验结论完全一致。
这个案例的震撼之处在于:如果实验室没有做那个实验、没有答案在抽屉里,这个假设就只是"AI 说的"——我们无从验证。而现在恰好有答案对照,证明 AI 确实能独立推导出正确结论。
对比实验
7 位生物医学专家设计了 15 个高难研究命题,每位专家给出自己的"最佳猜测"。然后把 Co-Scientist、Gemini 2.0 Pro、Gemini 2.0 Flash Thinking、OpenAI o1、o3-mini-high、DeepSeek R1 全丢进锦标赛。
结论: ** Co-Scientist 显著高于所有单模型基线 ** ,继续迭代后甚至超过了专家自己的"最佳猜测"。
这说明什么?单个 LLM 再强,不如多个 LLM 分角色协作 + 持续迭代。架构胜过模型本身。
第二篇:Robin——30 分钟读 551 篇论文,$10 一次
如果说 Co-Scientist 是"假设生成器",Robin 就是"完整科学工作流引擎"。
FutureHouse 团队的开场很有说服力——他们列了一组"信息滞后"案例:
- • ** Dabrafenib ** :抑制 BRAF 的分子机制 2010 年就清楚了,但它能"保护听力"这件事,是 10 年后才被高通量筛选偶然发现的。而这个保护作用恰恰是已知 BRAF 抑制的直接结果——换句话说,答案一直在文献里,只是没人连起来
- • ** 氯胺酮 ** 抗抑郁:22 年滞后
- • ** 亚叶酸 ** :5 年
- • ** KarXT ** :13 年
作者的论点很尖锐: ** 这些不是"新发现",是"迟到的连接"。 ** 知识碎片分散在不同子领域的论文里,人类专家受限于阅读带宽和学科壁垒,就是没办法及时把它们拼在一起。
这种"跨领域知识合成"——LLM 天生擅长。因为它读过所有领域的论文。
三个智能体的分工
- • ** Crow ** —— 轻量级文献综述员,基于 PaperQA2,快速回答关于疾病机制的一般性问题
- • ** Falcon ** —— 深度评估报告生成员,基于 PaperQA2,为每个药物候选写全面的评估报告
- • ** Finch ** —— 真的会去开 Jupyter notebook、写代码、跑统计分析的 data analysis agent
为了对抗 LLM 的随机性(同样的提示词跑两次,gating 策略可能不同、p 值阈值可能不同),Robin ** 并行启动 8 条 Finch 分析轨迹,每条独立分析,最后做 meta-analysis 取共识 ** 。
这个工程细节很聪明——本质上是把"可重复性"问题变成了"ensemble + voting"问题。
干性 AMD 案例:从机制到候选药的完整闭环
干性年龄相关黄斑变性(dAMD)是发达国家首要的不可逆致盲原因,美国 150 万人受影响,到 2050 年预计翻三倍。目前几乎没有有效疗法。
Robin 拿到"dry age-related macular degeneration"这个输入, ** 全自动五步走完 ** :
- 1. 阅读 151 篇论文,提出 10 种候选疾病机制,排名后选定"增强 RPE 细胞吞噬"作为治疗策略
- 2. 阅读 400 篇论文,提出 30 个候选药物,排名后选 5 个给人做实验。第一轮 ** Y-27632(ROCK 抑制剂)命中 **
- 3. Robin 建议做 RNA-seq 跟进实验。Finch 自主分析差异表达,发现 ** ABCA1 上调 3 倍 ** (adjusted p = 2.13×10⁻⁸³)——而 ABCA1 的脂质受体 Apo-E 是已知的 AMD 遗传易感基因。AI 自主拼出了一条新的生物学通路
- 4. 第二轮 10 药测试, ** Ripasudil(日本已批准治青光眼的 ROCK 抑制剂)吞噬增强 1.89 倍 ** ,超过 Y-27632,且作为已上市药安全性数据现成——这就是一个现成的再利用机会
- 5. 在 60+ 岁患者来源的 RPE 干细胞上验证,Ripasudil 仍是最强命中,且高剂量时 LDH 释放反而下降(不毒)
整条流水线里, ** 假设生成 + 实验设计 + 数据分析全是 AI 的产出 ** ,湿实验由人执行。
效率数字
- • Crow + Falcon ** 30 分钟读 551 篇论文 ** ,人类按学者阅读速度估算需要 540 小时
- • 整条工作流把 872–937 人时压缩到 < 2 小时, ** 约 200 倍加速 **
- • 一次完整运行 API 成本 ** $10.76 **
十块钱。你没看错。
最有说服力的对照实验
作者把同样的候选生成提示词给了 OpenAI Deep Research(也是一个做多步研究的 agent),让它生成 19 个药物候选。
结果: ** 17 个独特候选药(重复了 2 个),没有一个在实验中命中,且没有任何人提到 ROCK 抑制剂 ** 。
这说明不是"任何通用 agent + 好的提示词"就能做到的。
Robin 的结构化 lab-in-the-loop 流水线、PaperQA2 的高质量文献检索、Finch 的多轨迹共识机制——这些架构层面的设计带来了质的差异。
第三篇:ERA——永不睡觉的 Kaggle 大师
如果说前两篇还在"假设"和"实验"层面,ERA 直接进了"代码"层。
它的命题很尖锐: ** "实证软件"在科学史上分量极重——密度泛函理论(1998 诺贝尔化学奖)、分子动力学模拟(2013 诺贝尔化学奖)、蛋白质结构预测即 AlphaFold(2024 诺贝尔化学奖)——三个诺奖背后都是这类软件。 **
但写好实证软件极其困难。领域特定的实证软件往往耗时数年,设计选择凭直觉或权宜之计,几乎不会有人系统搜索所有替代方案。因为太慢了——一个选择试一个月,10 个选择就是大半年。
ERA 的命题:如果一个任务有可量化的打分函数——能不能让 AI 比人类更系统、更穷举地搜出最优代码?
核心机制:LLM × 树搜索
ERA 维护一棵"候选解"树,每个节点是一份完整的可执行代码。扩展方式是让 LLM 对某个节点的代码做 ** 语义级改写 ** (不是随机变异,是"理解代码在做什么"然后有目的地修改),产生子节点,执行并打分。
打分高的优先扩展, ** 也支持回溯 ** ——一条路走不通就跳回去从别的节点分支。
它还有一个关键能力: ** 能读论文 PDF ** 。你给它一篇方法论文,ERA 会先忠实地按论文实现一版代码,然后在那个基础上自动尝试改进。这就像一个永不疲倦的研究助理:先复现你的论文,再试图超过你。
五个领域一起刷榜
** 1️⃣ 单细胞 RNA-seq 批次整合(OpenProblems 基准) **
这是生物信息学领域一个核心难题——如何在合并多个实验室的单细胞数据时去除批次效应,同时保留真实的生物学差异。已有近 300 种工具试图解决这个问题。
ERA 的做法:给它 9 篇已发表方法论文的 PDF,让它"按论文实现再改进"。结果: ** 8/9 超过原作者的实现 ** 。最强的一个是 BBKNN(TS)——ERA 自动发现把 BBKNN 和 ComBat 两种方法重组效果最好,比当前排行榜最佳整体提升 ** 14% ** 。
更夸张的是规模:ERA 通过各种重组和搜索, ** 总共产出了 40 个方法击败 OpenProblems 榜首的所有已发表方法 ** 。40 个。一个系统产出的"超过 SOTA"的方法数量,比整个领域十几年积累的还多。
** 2️⃣ COVID-19 住院预测(CDC CovidHub) **
CovidHub 是美国 CDC 协调的大型流行病预测项目,每周接收几十个专家团队的预测。
ERA 做了严格的回顾性验证,模型 ** WIS = 26 ** ,优于官方 CDC Ensemble 的 29(越低越好)。
综合下来 ** 14 个不同策略超过 CDC 集成 ** ——其中 10 个来自两两重组,2 个来自 Deep Research 生成的想法,1 个来自 AI co-scientist。
** 3️⃣ 通用时间序列预测(GIFT-Eval,28 数据集 7 领域) **
** 直接超过 2025 年 5 月的整张公开排行榜 ** ,包括基础模型、深度学习方法和传统统计方法。
** 4️⃣–5️⃣ ** 地理空间语义分割、斑马鱼整脑神经活动预测、数值积分难题——均达专家水准。
ERA 最重要的发现
ERA 最强的方案,几乎都不是凭空发明的全新算法,而是 ** 已有 idea 的语义级重组 ** 。
具体来说:把 11 个基线方法两两重组做了 55 次实验,结果 ** 24 个(44%)杂交方法同时超过两个母方法 ** ,另有 22 个超过其中一个。
这个发现极其重要。它说明 AI 当前最强的能力模式不是"从零发明",而是"在巨大的组合空间里找到人类没试过的有效组合"。
把两件事放在一起看
Karpathy 的 autoresearch:630 行代码,让 AI 自动跑 ML 实验,一晚 700 次。思路:假设 → 代码 → 实验 → 反馈 → 循环。
Nature 这三篇:同样的"循环"逻辑,但规模、深度和领域完全不同——
- • Co-Scientist 在生物医学假设层面做循环
- • ERA 在代码层做循环
- • Robin 把假设层和代码层串成闭环,加上真实的湿实验
Karpathy 加入 Anthropic 做的事("用 Claude 改进 Claude"),本质上就是 ERA 在做的事(用 LLM + 树搜索系统性优化代码),只是应用对象从"科研问题"变成了"模型本身的预训练"。
ERA 论文里甚至已经直接调用了 Co-Scientist 来生成研究思路(在 scRNA-seq 和 COVID 两个基准里都用了)。
Robin 论文则把 Co-Scientist 列为 baseline 对比对象。 ** 多智能体系统之间的相互嵌套和串联,已经在发生了。 **
** 产业界的人才流动和学术界的顶刊发表,指向同一个结论:AI 自我改进循环,正在从一个人的开源玩具(autoresearch)变成科研界的基础设施(Nature 三篇),再变成产业界的核心研发策略(Anthropic 的新团队)。 **
一个反直觉的共性:最强的不是创造,是重组
把三篇放在一起看,有一个共同的、反直觉的发现:
- • Co-Scientist 在跨疾病连接里给肝纤维化推荐了抗癌药 Vorinostat——不是发明了新分子,是把已有的药和新的适应症连起来了
- • Robin 论文明确说自己的强项是"combinatorial synthesis"——非显然的跨领域连接
- • ERA 最显著的提升来自"把两篇论文拼成一个杂交方法",44% 的杂交超过母方法
三篇说的其实是同一件事:
** 当代 LLM 真正的稀缺能力不是创造,是组合。 **
它能同时"记住"十几个子领域的知识状态——表观遗传学的最新进展、ROCK 抑制剂的药理学、流行病学预测的各种模型、单细胞数据分析的所有方法——然后在这个巨大的知识图谱里找到人类没试过的连接路径。
而单个人类专家——就算是诺奖得主——能同时保持深度浸入的领域大概也就一两个。不是不够聪明,是带宽有限。AI 在这件事上的优势不是智力上的碾压,是 ** 不困、不忘、不受学科壁垒限制 ** 。
这其实也是为什么 Nature 同一期愿意发三篇——它们没有相互竞争,反而联合证明了一件事: ** 这一波 AI for science 的落地方式不是"一个超级 AI 做所有事",而是"不同架构的 AI 系统各做一层,然后串起来" ** 。
Nature 编辑部的态度:比你想的微妙
Nature 编辑部同期发的社论,标题取得很聪明:大意是"AI 需要人类"。
他们没有站在任何一极。既没有说"AI 要替代科学家"的危言耸听,也没有说"AI 不过是工具"的轻描淡写。
他们的立场,精炼成三句话(真心建议读读原文,细品很精彩):
** 第一句 ** :三篇论文都用了"Human-in-the-loop"——Co-Scientist 由专家挑选最终湿实验候选,Robin
的实验由人执行,ERA 的目标函数由人定义。 **
**
** 这不是技术不成熟的妥协,是 feature。 ** 社论认为,这不是"暂时的",而是"应该永远保持的"。
** 第二句 ** :即使有一天技术完全成熟了,人也不该被踢出科学过程。原因不是 AI 不够好,是有些东西 AI 不该替代——
- • 几十年积累的团队知识——那些不在论文里
- • 训练下一代研究者的责任——科学不只是产出论文,也是培养人
- • 从失败和"绕远路"里长出来的直觉——最有价值的洞见
- • 把伦理框架带进实验设计——AI 不会自己问"这个实验该不该做"
** 第三句 ** (社论里最锋利的一句):
科学家不应该因为对 AI 的反感而拒绝探索它的可能;但同样地,他们也必须在 AI 炒作的喧嚣之上为自己的不可替代性发声——并提醒外界, ** 不是每一份研究经费申请都需要塞进一个 AI 项目。 **
这句话在当下语境里简直是冷水浇头。多少实验室现在不管做什么课题,都要在 proposal 里硬塞一段"我们将使用 AI 来……"?
Nature 编辑部直接说了:别这样。
他们的态度更像是: ** "AI 能做的越多,我们越要想清楚什么是只有人能做的、应该由人来做的。" **
这跟你有什么关系
看到这里你可能觉得:Google、DeepMind、FutureHouse、Anthropic,跟我有什么关系?我又不在这些公司。
关系在这里——
Karpathy 的 autoresearch、Nature 的三篇论文,共同证明的 ** 底层能力 ** 是什么?
** 大规模、高速度、不疲倦地搜索和整合已有的科学知识。 **
不是什么玄乎的"类人智能"。不是"通用人工智能"。就是三件事: ** 搜文献、做连接、验结论 ** ——只是速度快到离谱。
Robin 的 Crow 和 Falcon 做的核心操作是什么?搜论文、读论文、写综述。
Co-Scientist 的 Reflection agent 做的核心操作是什么?拿着一个假设去搜文献看有没有人发过。
ERA 读论文 PDF 做的是什么?按已发表方法复现代码。
你不需要自己搭一个 Co-Scientist 或 Robin。但你需要的底层原子操作——搜索、阅读、验证、引用——这些今天就可以用。
我们做的 ** ai4scholar ** 提供的就是同一组底层工具——联网搜索 2 亿+ 论文、追踪引用网络、交叉验证参考文献真实性、自动标注引用。
Co-Scientist 把 6 个 agent 编排成自动循环,而 ai4scholar 把这些工具交给你,让你在 Cursor、Claude Code、Codex 里按自己的节奏调用。
今天你可以做到的:
- • ** 论文搜索 ** —— "搜最近 ROCK inhibitor + AMD 的论文",秒回结果
- • ** 引用追踪 ** —— 一篇论文被谁引了、引了谁,引用网络展开
- • ** 参考文献核查 ** —— 对照 Crossref/PubMed/OpenAlex 验证每条引用是否真实存在(Robin 的 Crow/Falcon 做的核心操作就是这个)
- • ** 自动标注 ** —— 给正文段落自动匹配并插入合适的参考文献
- • ** 科研绘图 ** —— 机制图、通路图、架构图
Co-Scientist 论文里明确写了一句: ** 系统的知识受限于开放获取文献,付费墙后的关键先前工作可能被遗漏。 **
这是所有 AI 科研系统共同的盲区。
你多搜一步、多验一步,就是在补 AI 系统自身的局限。
最后
回到开头的两件事。
Karpathy 加入 Anthropic,是一个人做了一个职业选择。Nature 发了三篇论文,是学术界完成了一次集体确认。
但这两件事叠在一起传递的信号,比任何单独一件都强:
** AI 自动做科研的循环,已经转起来了。 **
这三篇论文最让人不安的不是"AI 两天干了人类多年的研究"。最让人不安的是—— ** 如果实验室没有答案写在抽屉里,AI 给出的假设,我们怎么知道是对的? **
这不是技术问题。这是认识论问题。
AI 提速了"提出假设"和"分析数据",但 ** 它没有提速"验证假设" ** ——验证依然需要人花真实的时间、做真实的实验、承担真实的失败风险。假设生成的速度可以是 700 次/天,但一个湿实验可能需要三个月。
所以,科学还需要人吗?
Nature 编辑部的答案: ** 比以往任何时候都需要。 ** 因为验证的瓶颈在人。
Karpathy 的答案:需要,但人做的事变了——从亲手跑实验,到设计让 AI 自己跑实验的循环。从执行者变成架构师。
这两个答案不矛盾。它们画出了同一幅图景: ** 未来的科学家,不是被 AI 替代的人,是驾驭 AI 循环的人。 **
谁先学会把这些工具串起来,谁就先进入下一个时代。
原文 DOI:
- • Co-Scientist: 10.1038/s41586-026-10644-y
- • Robin: 10.1038/s41586-026-10652-y
- • ERA: 10.1038/s41586-026-10658-6
- • 编辑部社论: 10.1038/d41586-026-01551-3
- • Karpathy autoresearch: github.com/karpathy/autoresearch