我测试了 Kimi Work 的学术 PPT 功能！附效果图！

Kimi Work 发布了。

我第一反应不是“又一个 AI 办公工具来了”。

而是：

** 中国版 Codex，终于从写代码走向写 PPT 了。 **

6 月 3 日，月之暗面发布 Kimi Work，官方定位是“面向知识工作者的通用型本地 Agent”。

它不是传统聊天机器人。

它更像一个能在你电脑上干活的桌面 Agent：

• 能读本地文件
• 能用浏览器
• 能调用技能
• 能做定时任务
• 能生成文档、表格、PPT
• 还能通过 Agent 集群并行处理复杂任务

官方文章里有一句话很关键：

** 从 Coding 到 Working，从 TUI 到 GUI。 **

Kimi Code 服务的是写代码的开发者。

Kimi Work 服务的是每天被繁琐工作困住的知识工作者。

这句话很准。

因为过去一年，AI Agent 的主战场一直在程序员那里：Cursor、Claude Code、Codex、Kimi Code、Devin、OpenHands。

开发者已经习惯了让 AI 读代码、改文件、跑命令、修 bug。

但绝大多数知识工作者还停留在另一种状态：

把材料丢给 AI，让它总结；

让它写一段话；

再自己复制到 Word、Excel、PPT 里。

中间所有真正耗时的“搬运、整理、排版、校对、导出”，还是人自己干。

所以 Kimi Work 的方向是对的。

** AI 不能永远只会聊天。它必须开始交付工作产物。 **

但我试了一下它的论文转 PPT 功能之后，感受也很明显：

** 通用 Agent 能做出“像 PPT 的东西”，但离真正能用于科研汇报的 PPT，还差最后 30%。 **

这最后 30%，恰恰是最难的。

我做了一个测试

我上传了一篇学术论文 PDF，让 Kimi Work 帮我做一份 PPT。

这次用的是一篇 Nature 论文： ** Mining triggers extensive additional deforestation in sub-Saharan Africa ** 。

主题很典型：矿业扩张、撒哈拉以南非洲、森林砍伐、差分中的差分、直接影响和外溢影响。

这类论文特别适合测试 AI PPT：

• 有清晰研究问题
• 有复杂方法框架
• 有地图、统计图和因果推断结果
• 有一组必须讲清楚的核心数字
• 还要把生态、矿业和能源转型放在同一个叙事里

而且这个任务几乎每天都会出现在科研工作里。

科研工作者经常会遇到：

• 组会要讲一篇论文
• 导师让你把论文方法做成 slides
• 投稿前要把自己的 manuscript 改成答辩 PPT
• 会议汇报需要把 20 页论文压成 12 页
• 读书会需要讲清楚论文贡献、方法、实验和局限

这不是“能不能生成 PPT”的问题。

这是“能不能把一篇论文转化成一个可以被人讲清楚的故事”的问题。

我让 Kimi Work 读 PDF，生成 PPT。

结果怎么说？

** 能用，但还不够好。 **

它确实读懂了论文的大致内容。

它能提取标题、摘要、方法、实验、结论。

它也能给出一份结构完整的演示文稿。

如果你的目标只是“快速有个初稿”，它已经能帮你省不少时间。

但如果你要拿去组会讲、答辩讲、给老板讲，它的问题也很明显：

• 重点提炼不够狠
• 方法图重构不够准确
• 实验结果没有被重新组织成“可讲”的逻辑
• 版式是“像 PPT”，但不是“适合学术汇报的 PPT”
• 很多页面看起来完整，但讲的时候会发现没有叙事推进

这也是我这两年做 AI PPT 工具时反复踩到的坑：

** 论文转 PPT，不是摘要生成。 **

通用 Agent 的优势：它真的开始“干活”了

先说 Kimi Work 做得好的地方。

我觉得它最重要的价值，不是某一个具体功能，而是它把国内 Agent 产品往前推了一步：

** 从“对话框里的 AI”，变成“桌面里的执行者”。 **

官方提到的几个能力，都很有意思。

1. WebBridge：让 AI 像人一样用浏览器

Kimi Work 的 WebBridge 能保留登录态操控浏览器。

这意味着它不是只能“搜索网页”，而是可以像你一样打开网页、登录系统、点击按钮、读取页面。

对知识工作者来说，这个能力非常关键。

因为很多工作不是发生在一个干净的 API 里，而是发生在浏览器里：

• 查数据库
• 下载材料
• 读网页报告
• 整理后台数据
• 在多个系统之间搬运信息

过去 AI 只能告诉你“应该怎么做”。

现在它开始能真的帮你点。

2. Agent 集群：复杂任务不再靠一个模型硬扛

Kimi Work 提到最多可以创建 300 个子 Agent 并行协作。

这个思路是对的。

复杂任务本来就不应该由一个模型从头做到尾。

做一份研究报告，至少可以拆成：

• 检索 Agent
• 阅读 Agent
• 表格 Agent
• 图表 Agent
• 写作 Agent
• 审查 Agent
• 排版 Agent

每个 Agent 只负责一个清晰子任务，最后再合并。

这比“一个大模型一口气生成整份报告”靠谱得多。

3. 从 Kimi Code 到 Kimi Work：目标用户变了

这点最重要。

Kimi Code 解决的是开发者问题：

** 把开发者从重复实现中释放出来。 **

Kimi Work 解决的是知识工作者问题：

** 把知识工作者从信息搬运、文件整理、数据分析和报告生产中释放出来。 **

这不是一个小功能升级。

这是 AI Agent 从程序员工具，走向普通知识工作的信号。

所以我觉得 Kimi Work 值得写。

它说明一个趋势已经很清楚了：

** 2026 年，Agent 的战场会从代码编辑器扩展到办公室、实验室、课题组和论文写作流程。 **

但科研 PPT 不是普通办公 PPT

问题也在这里。

Kimi Work 的方向对，但“论文 PDF → 学术 PPT”这件事，不是普通办公任务。

它有四个特殊难点。

第一，论文不是资料堆，是论证链

一篇论文不是一堆段落。

它有自己的论证结构：

• 问题是什么
• 前人为什么没解决
• 本文提出了什么方法
• 方法为什么成立
• 实验怎么验证
• 结果说明了什么
• 局限在哪里
• 这篇论文对领域意味着什么

做学术 PPT 的核心，不是把每一节内容压缩成 bullet point。

而是把这条论证链重新讲出来。

很多 AI 工具做论文 PPT 的问题，是把它做成了“论文摘要的分页版”。

第一页背景。

第二页方法。

第三页实验。

第四页结论。

看起来都有。

但你站上去讲，会发现没有“为什么要听下去”的推进。

好的学术 PPT 应该像这样：

这个领域有一个问题。
传统方法卡在这里。
这篇论文换了一个视角。
它的关键机制是这个。
实验 A 证明有效，实验 B 证明不是偶然，实验 C 证明边界在哪里。
所以它真正的贡献不是“指标涨了 2 个点”，而是提供了一种新的问题分解方式。

这叫“讲论文”。

不是“复述论文”。

第二，方法图不能截图，要重构

学术 PPT 最难的一页，往往是方法页。

很多工具会直接把论文里的图截出来。

这当然省事。

但问题是：论文图是给读者慢慢看的，PPT 图是给听众现场理解的。

它们不是同一种图。

论文里的方法图可能很密：

• 字很小
• 箭头很多
• 模块命名复杂
• 一个图里塞了三层逻辑

放到 PPT 里，台下的人看不清。

真正好的做法是 ** 重构 ** ：

• 把原图拆成 2-3 个步骤
• 重新画关键模块
• 用统一配色突出主路径
• 把不重要的细节灰掉
• 给每个阶段加一句解释

也就是说，方法图不是“复制”，而是“再设计”。

这对通用 Agent 很难。

因为它需要同时理解论文内容、视觉表达和演讲场景。

第三，实验结果要变成故事，不是表格搬运

论文里的实验结果通常是表格。

PPT 里的实验结果应该是判断。

比如论文里有一个大表：

• 数据集 A 上提升 1.2
• 数据集 B 上提升 0.8
• 数据集 C 上提升 2.1
• ablation 去掉模块 X 掉 3.5

如果 AI 只是把表格搬到 PPT 里，那听众还是要自己看。

真正适合汇报的做法是：

先给一句结论：

** 核心模块 X 是性能提升的主要来源。 **

然后配一个简化后的柱状图或对比图。

最后补一句：

** 提升最明显的场景是长文本/低资源/跨域数据。 **

这才是“把实验讲出来”。

科研 PPT 不是把数据放上去。

是把数据背后的判断讲清楚。

第四，PPT 必须可编辑

这是我最在意的一点。

AI 生成 PPT 最常见的问题，不是不好看，而是 ** 改不了 ** 。

很多工具交付的是：

• 图片
• 网页截图
• 一堆没有层级的文本框
• 看起来像 PPT，但实际不能正常二次编辑的半成品

但真实工作里，PPT 一定要改。

导师说：这一页方法太复杂，拆成两页。

老板说：这个图颜色太跳，换成实验室模板。

答辩前一天：删掉三页，补一页 limitation。

会议主办方说：比例从 16:9 改 4:3。

如果 AI 生成的 PPT 改不了，那它只是一次性海报，不是工作文档。

这就是我为什么一直强调：

** 真正有用的 AI PPT，必须是原生可编辑的 .pptx。 **

所以我怎么看 Kimi Work

我的判断很简单：

** Kimi Work 证明了通用 Agent 的方向是对的，但科研场景需要专用工作流。 **

通用 Agent 负责把“我想做什么”变成“它能开始做”。

专用工作流负责把“能做”变成“做得专业”。

这两者不是互相替代的关系。

更像是分工：

• 通用 Agent 解决入口问题
• 专业 Skill 解决质量问题
• 本地工作流解决可控问题
• 可编辑格式解决交付问题

Kimi Work 可以帮你打开文件、读 PDF、组织任务、调用工具、生成初稿。

但如果你要的是一份真正能用于学术汇报的 PPT，它还需要更专业的科研 PPT 流水线。

这就是我们做 ** ai4scholar PPT ** 的原因。

我们做的不是“再生成一份 PPT”

ai4scholar PPT 的目标不是让 AI 画一张好看的页面。

目标是：

** 把论文转成一份可以讲、可以改、可以继续迭代的学术 PPT。 **

我们的内部流程大概是这样的：

Step 1：先解析论文，而不是直接生成

PDF 上传后，先把论文拆成结构化内容：

• 标题
• 摘要
• 引言
• 方法
• 实验
• 图表
• 公式
• 参考文献

不是把 PDF 当成一大段文本塞给模型。

而是先变成一份可处理的论文结构。

Step 2：先写汇报大纲，而不是直接排版

我们会先生成一份 presentation plan：

• 这篇论文适合讲多少页
• 目标听众是谁
• 哪些内容必须讲
• 哪些内容应该删
• 方法应该拆成几步
• 实验结果应该怎么组织
• 哪几页需要图
• 哪几页需要表
• 哪几页适合做 take-away

这一步很像一个懂科研的助教先帮你写汇报提纲。

没有这一步，后面的 PPT 很容易变成“论文摘要分页版”。

Step 3：方法图和实验图重新画

学术 PPT 不能只搬原图。

该重画的要重画。

该简化的要简化。

该分步讲的要拆开。

所以我们会让模型根据论文内容生成结构化视觉描述，再转成矢量元素。

这样生成出来的图不是截图，而是可以编辑的形状、线条、文本框。

Step 4：输出真 .pptx

最后导出的是 PowerPoint 原生元素。

不是图片。

不是网页截图。

不是一张假装成 PPT 的海报。

你可以：

• 双击改文字
• 拖动模块
• 改配色
• 调字体
• 删页面
• 单页重生成
• 换模板继续迭代

这才是知识工作者真正需要的东西。

因为任何 PPT 的完成，都不是“生成完”的那一刻。

而是“改到能讲”的那一刻。

Kimi Work 之后，AI PPT 会进入下一阶段

我觉得 Kimi Work 的意义，不是它现在已经把所有任务做完美了。

它的意义是：

** 它把“AI 帮我完成工作”这件事，推到了更多普通用户面前。 **

以前大家觉得 AI 生成 PPT 是一个工具功能。

以后大家会意识到，PPT 只是 Agent 工作流里的一个产物。

真正的流程应该是：

读论文 → 理解问题 → 提炼贡献 → 重构方法图 → 整理实验 → 生成讲稿 → 输出 PPT → 根据反馈修改

这不是一个按钮能解决的。

它是一条工作流。

Kimi Work 这类通用 Agent 会负责把工作流串起来。

而像 ai4scholar 这样的科研 Skill，会负责把每个专业环节做好。

未来最好的形态，可能不是“谁替代谁”。

而是：

** Kimi Work 作为桌面 Agent 调度任务，ai4scholar 作为科研 Skill 负责专业产出。 **

你在 Kimi Work 里说：

帮我把这篇论文做成 15 页组会 PPT，学术风，突出方法和实验，最后给我一版可编辑 pptx。

它负责读文件、分配任务、管理产物。

ai4scholar PPT 负责论文理解、页面规划、矢量图重构和原生 pptx 导出。

这才是我理想中的科研 Agent。

不是一个模型包打天下。

而是一组专业 Skill 被一个通用 Agent 调起来，各自做自己最擅长的事。

同一篇论文，两份 PPT

为了让这个判断更直观，我把这次测试的两份结果都放在下面。

注意，我不是想做“谁吊打谁”的竞品评测。Kimi Work 是一个刚发布的通用 Agent，能从论文 PDF 生成一份结构完整的 PPT，已经说明方向是对的。

但同一篇论文放在一起看，差异也很明显：

** Kimi Work 更像是把论文内容整理成演示稿。 **

它能快速给出初稿，适合先看结构、先搭框架、先把材料从 PDF 里搬出来。

Kimi Work 生成结果：结构完整，能快速形成一份论文汇报初稿。

Kimi Work 页面示例：内容提取基本到位，但方法与实验结果更接近“摘要分页”，还需要人工重构成适合讲述的逻辑。

** ai4scholar PPT 更像是围绕“怎么讲这篇论文”重新组织。 **

它的重点不是把内容铺满，而是先确定汇报逻辑，再把方法、结果和核心结论转成更适合现场讲解的页面。

ai4scholar 生成结果：更偏学术汇报，强调问题、方法、结果和 take-away 的叙事推进。

ai4scholar 页面示例：方法图和结果页更适合二次编辑与现场讲解。

所以这次测试给我的结论不是“Kimi 不行”。

恰恰相反。

** Kimi Work 证明通用 Agent 已经能把任务跑起来。 **

但如果目标是组会、答辩或正式学术汇报，真正决定可用性的不是“有没有 PPT”，而是：

• 方法图能不能重构
• 实验结果能不能讲清楚
• 每一页能不能继续编辑
• 整份 slides 有没有一个能站上去讲的故事线

这就是我说的最后 30%。

** 通用 Agent 负责把任务跑起来，专业科研 Skill 负责把成果做到能交付。 **

最后

所以，这次 Kimi Work 发布，我其实挺兴奋。

不是因为它已经完美。

而是因为它说明：

** AI Agent 终于开始离开代码编辑器，进入真实的知识工作现场。 **

但我也更确定另一件事：

通用 Agent 只能解决“开始做”。

专业场景还需要专业工具解决“做得好”。

学术 PPT 尤其如此。

因为科研汇报不是把论文压缩成 slides。

它是把一篇论文重新讲给人听。

你要讲清楚问题，讲清楚方法，讲清楚实验，讲清楚贡献，还要留出修改空间。

这件事，通用 Agent 能帮你起步。

但最后那 30%，还得靠真正懂科研工作流的系统补上。

Kimi Work 的发布，说明“Vibe Working”时代到了。

而我们要做的，是让科研工作者不只是 vibe 一下。

而是真的拿到一份能讲、能改、能交付的成果。

关注我，带你了解更多Ai for Scholar知识和咨询！