Kimi Work 发布了。
我第一反应不是“又一个 AI 办公工具来了”。
而是:
** 中国版 Codex,终于从写代码走向写 PPT 了。 **
6 月 3 日,月之暗面发布 Kimi Work,官方定位是“面向知识工作者的通用型本地 Agent”。
它不是传统聊天机器人。
它更像一个能在你电脑上干活的桌面 Agent:
- • 能读本地文件
- • 能用浏览器
- • 能调用技能
- • 能做定时任务
- • 能生成文档、表格、PPT
- • 还能通过 Agent 集群并行处理复杂任务
官方文章里有一句话很关键:
** 从 Coding 到 Working,从 TUI 到 GUI。 **
Kimi Code 服务的是写代码的开发者。
Kimi Work 服务的是每天被繁琐工作困住的知识工作者。
这句话很准。
因为过去一年,AI Agent 的主战场一直在程序员那里:Cursor、Claude Code、Codex、Kimi Code、Devin、OpenHands。
开发者已经习惯了让 AI 读代码、改文件、跑命令、修 bug。
但绝大多数知识工作者还停留在另一种状态:
把材料丢给 AI,让它总结;
让它写一段话;
再自己复制到 Word、Excel、PPT 里。
中间所有真正耗时的“搬运、整理、排版、校对、导出”,还是人自己干。
所以 Kimi Work 的方向是对的。
** AI 不能永远只会聊天。它必须开始交付工作产物。 **
但我试了一下它的论文转 PPT 功能之后,感受也很明显:
** 通用 Agent 能做出“像 PPT 的东西”,但离真正能用于科研汇报的 PPT,还差最后 30%。 **
这最后 30%,恰恰是最难的。
我做了一个测试
我上传了一篇学术论文 PDF,让 Kimi Work 帮我做一份 PPT。
这次用的是一篇 Nature 论文: ** Mining triggers extensive additional deforestation in sub-Saharan Africa ** 。
主题很典型:矿业扩张、撒哈拉以南非洲、森林砍伐、差分中的差分、直接影响和外溢影响。
这类论文特别适合测试 AI PPT:
- • 有清晰研究问题
- • 有复杂方法框架
- • 有地图、统计图和因果推断结果
- • 有一组必须讲清楚的核心数字
- • 还要把生态、矿业和能源转型放在同一个叙事里
而且这个任务几乎每天都会出现在科研工作里。
科研工作者经常会遇到:
- • 组会要讲一篇论文
- • 导师让你把论文方法做成 slides
- • 投稿前要把自己的 manuscript 改成答辩 PPT
- • 会议汇报需要把 20 页论文压成 12 页
- • 读书会需要讲清楚论文贡献、方法、实验和局限
这不是“能不能生成 PPT”的问题。
这是“能不能把一篇论文转化成一个可以被人讲清楚的故事”的问题。
我让 Kimi Work 读 PDF,生成 PPT。
结果怎么说?
** 能用,但还不够好。 **
它确实读懂了论文的大致内容。
它能提取标题、摘要、方法、实验、结论。
它也能给出一份结构完整的演示文稿。
如果你的目标只是“快速有个初稿”,它已经能帮你省不少时间。
但如果你要拿去组会讲、答辩讲、给老板讲,它的问题也很明显:
- • 重点提炼不够狠
- • 方法图重构不够准确
- • 实验结果没有被重新组织成“可讲”的逻辑
- • 版式是“像 PPT”,但不是“适合学术汇报的 PPT”
- • 很多页面看起来完整,但讲的时候会发现没有叙事推进
这也是我这两年做 AI PPT 工具时反复踩到的坑:
** 论文转 PPT,不是摘要生成。 **
通用 Agent 的优势:它真的开始“干活”了
先说 Kimi Work 做得好的地方。
我觉得它最重要的价值,不是某一个具体功能,而是它把国内 Agent 产品往前推了一步:
** 从“对话框里的 AI”,变成“桌面里的执行者”。 **
官方提到的几个能力,都很有意思。
1. WebBridge:让 AI 像人一样用浏览器
Kimi Work 的 WebBridge 能保留登录态操控浏览器。
这意味着它不是只能“搜索网页”,而是可以像你一样打开网页、登录系统、点击按钮、读取页面。
对知识工作者来说,这个能力非常关键。
因为很多工作不是发生在一个干净的 API 里,而是发生在浏览器里:
- • 查数据库
- • 下载材料
- • 读网页报告
- • 整理后台数据
- • 在多个系统之间搬运信息
过去 AI 只能告诉你“应该怎么做”。
现在它开始能真的帮你点。
2. Agent 集群:复杂任务不再靠一个模型硬扛
Kimi Work 提到最多可以创建 300 个子 Agent 并行协作。
这个思路是对的。
复杂任务本来就不应该由一个模型从头做到尾。
做一份研究报告,至少可以拆成:
- • 检索 Agent
- • 阅读 Agent
- • 表格 Agent
- • 图表 Agent
- • 写作 Agent
- • 审查 Agent
- • 排版 Agent
每个 Agent 只负责一个清晰子任务,最后再合并。
这比“一个大模型一口气生成整份报告”靠谱得多。
3. 从 Kimi Code 到 Kimi Work:目标用户变了
这点最重要。
Kimi Code 解决的是开发者问题:
** 把开发者从重复实现中释放出来。 **
Kimi Work 解决的是知识工作者问题:
** 把知识工作者从信息搬运、文件整理、数据分析和报告生产中释放出来。 **
这不是一个小功能升级。
这是 AI Agent 从程序员工具,走向普通知识工作的信号。
所以我觉得 Kimi Work 值得写。
它说明一个趋势已经很清楚了:
** 2026 年,Agent 的战场会从代码编辑器扩展到办公室、实验室、课题组和论文写作流程。 **
但科研 PPT 不是普通办公 PPT
问题也在这里。
Kimi Work 的方向对,但“论文 PDF → 学术 PPT”这件事,不是普通办公任务。
它有四个特殊难点。
第一,论文不是资料堆,是论证链
一篇论文不是一堆段落。
它有自己的论证结构:
- • 问题是什么
- • 前人为什么没解决
- • 本文提出了什么方法
- • 方法为什么成立
- • 实验怎么验证
- • 结果说明了什么
- • 局限在哪里
- • 这篇论文对领域意味着什么
做学术 PPT 的核心,不是把每一节内容压缩成 bullet point。
而是把这条论证链重新讲出来。
很多 AI 工具做论文 PPT 的问题,是把它做成了“论文摘要的分页版”。
第一页背景。
第二页方法。
第三页实验。
第四页结论。
看起来都有。
但你站上去讲,会发现没有“为什么要听下去”的推进。
好的学术 PPT 应该像这样:
这个领域有一个问题。
传统方法卡在这里。
这篇论文换了一个视角。
它的关键机制是这个。
实验 A 证明有效,实验 B 证明不是偶然,实验 C 证明边界在哪里。
所以它真正的贡献不是“指标涨了 2 个点”,而是提供了一种新的问题分解方式。
这叫“讲论文”。
不是“复述论文”。
第二,方法图不能截图,要重构
学术 PPT 最难的一页,往往是方法页。
很多工具会直接把论文里的图截出来。
这当然省事。
但问题是:论文图是给读者慢慢看的,PPT 图是给听众现场理解的。
它们不是同一种图。
论文里的方法图可能很密:
- • 字很小
- • 箭头很多
- • 模块命名复杂
- • 一个图里塞了三层逻辑
放到 PPT 里,台下的人看不清。
真正好的做法是 ** 重构 ** :
- • 把原图拆成 2-3 个步骤
- • 重新画关键模块
- • 用统一配色突出主路径
- • 把不重要的细节灰掉
- • 给每个阶段加一句解释
也就是说,方法图不是“复制”,而是“再设计”。
这对通用 Agent 很难。
因为它需要同时理解论文内容、视觉表达和演讲场景。
第三,实验结果要变成故事,不是表格搬运
论文里的实验结果通常是表格。
PPT 里的实验结果应该是判断。
比如论文里有一个大表:
- • 数据集 A 上提升 1.2
- • 数据集 B 上提升 0.8
- • 数据集 C 上提升 2.1
- • ablation 去掉模块 X 掉 3.5
如果 AI 只是把表格搬到 PPT 里,那听众还是要自己看。
真正适合汇报的做法是:
先给一句结论:
** 核心模块 X 是性能提升的主要来源。 **
然后配一个简化后的柱状图或对比图。
最后补一句:
** 提升最明显的场景是长文本/低资源/跨域数据。 **
这才是“把实验讲出来”。
科研 PPT 不是把数据放上去。
是把数据背后的判断讲清楚。
第四,PPT 必须可编辑
这是我最在意的一点。
AI 生成 PPT 最常见的问题,不是不好看,而是 ** 改不了 ** 。
很多工具交付的是:
- • 图片
- • 网页截图
- • 一堆没有层级的文本框
- • 看起来像 PPT,但实际不能正常二次编辑的半成品
但真实工作里,PPT 一定要改。
导师说:这一页方法太复杂,拆成两页。
老板说:这个图颜色太跳,换成实验室模板。
答辩前一天:删掉三页,补一页 limitation。
会议主办方说:比例从 16:9 改 4:3。
如果 AI 生成的 PPT 改不了,那它只是一次性海报,不是工作文档。
这就是我为什么一直强调:
** 真正有用的 AI PPT,必须是原生可编辑的 .pptx。 **
所以我怎么看 Kimi Work
我的判断很简单:
** Kimi Work 证明了通用 Agent 的方向是对的,但科研场景需要专用工作流。 **
通用 Agent 负责把“我想做什么”变成“它能开始做”。
专用工作流负责把“能做”变成“做得专业”。
这两者不是互相替代的关系。
更像是分工:
- • 通用 Agent 解决入口问题
- • 专业 Skill 解决质量问题
- • 本地工作流解决可控问题
- • 可编辑格式解决交付问题
Kimi Work 可以帮你打开文件、读 PDF、组织任务、调用工具、生成初稿。
但如果你要的是一份真正能用于学术汇报的 PPT,它还需要更专业的科研 PPT 流水线。
这就是我们做 ** ai4scholar PPT ** 的原因。
我们做的不是“再生成一份 PPT”
ai4scholar PPT 的目标不是让 AI 画一张好看的页面。
目标是:
** 把论文转成一份可以讲、可以改、可以继续迭代的学术 PPT。 **
我们的内部流程大概是这样的:
Step 1:先解析论文,而不是直接生成
PDF 上传后,先把论文拆成结构化内容:
- • 标题
- • 摘要
- • 引言
- • 方法
- • 实验
- • 图表
- • 公式
- • 参考文献
不是把 PDF 当成一大段文本塞给模型。
而是先变成一份可处理的论文结构。
Step 2:先写汇报大纲,而不是直接排版
我们会先生成一份 presentation plan:
- • 这篇论文适合讲多少页
- • 目标听众是谁
- • 哪些内容必须讲
- • 哪些内容应该删
- • 方法应该拆成几步
- • 实验结果应该怎么组织
- • 哪几页需要图
- • 哪几页需要表
- • 哪几页适合做 take-away
这一步很像一个懂科研的助教先帮你写汇报提纲。
没有这一步,后面的 PPT 很容易变成“论文摘要分页版”。
Step 3:方法图和实验图重新画
学术 PPT 不能只搬原图。
该重画的要重画。
该简化的要简化。
该分步讲的要拆开。
所以我们会让模型根据论文内容生成结构化视觉描述,再转成矢量元素。
这样生成出来的图不是截图,而是可以编辑的形状、线条、文本框。
Step 4:输出真 .pptx
最后导出的是 PowerPoint 原生元素。
不是图片。
不是网页截图。
不是一张假装成 PPT 的海报。
你可以:
- • 双击改文字
- • 拖动模块
- • 改配色
- • 调字体
- • 删页面
- • 单页重生成
- • 换模板继续迭代
这才是知识工作者真正需要的东西。
因为任何 PPT 的完成,都不是“生成完”的那一刻。
而是“改到能讲”的那一刻。
Kimi Work 之后,AI PPT 会进入下一阶段
我觉得 Kimi Work 的意义,不是它现在已经把所有任务做完美了。
它的意义是:
** 它把“AI 帮我完成工作”这件事,推到了更多普通用户面前。 **
以前大家觉得 AI 生成 PPT 是一个工具功能。
以后大家会意识到,PPT 只是 Agent 工作流里的一个产物。
真正的流程应该是:
读论文 → 理解问题 → 提炼贡献 → 重构方法图 → 整理实验 → 生成讲稿 → 输出 PPT → 根据反馈修改
这不是一个按钮能解决的。
它是一条工作流。
Kimi Work 这类通用 Agent 会负责把工作流串起来。
而像 ai4scholar 这样的科研 Skill,会负责把每个专业环节做好。
未来最好的形态,可能不是“谁替代谁”。
而是:
** Kimi Work 作为桌面 Agent 调度任务,ai4scholar 作为科研 Skill 负责专业产出。 **
你在 Kimi Work 里说:
帮我把这篇论文做成 15 页组会 PPT,学术风,突出方法和实验,最后给我一版可编辑 pptx。
它负责读文件、分配任务、管理产物。
ai4scholar PPT 负责论文理解、页面规划、矢量图重构和原生 pptx 导出。
这才是我理想中的科研 Agent。
不是一个模型包打天下。
而是一组专业 Skill 被一个通用 Agent 调起来,各自做自己最擅长的事。
同一篇论文,两份 PPT
为了让这个判断更直观,我把这次测试的两份结果都放在下面。
注意,我不是想做“谁吊打谁”的竞品评测。Kimi Work 是一个刚发布的通用 Agent,能从论文 PDF 生成一份结构完整的 PPT,已经说明方向是对的。
但同一篇论文放在一起看,差异也很明显:
** Kimi Work 更像是把论文内容整理成演示稿。 **
它能快速给出初稿,适合先看结构、先搭框架、先把材料从 PDF 里搬出来。
Kimi Work 生成结果:结构完整,能快速形成一份论文汇报初稿。
Kimi Work 页面示例:内容提取基本到位,但方法与实验结果更接近“摘要分页”,还需要人工重构成适合讲述的逻辑。
** ai4scholar PPT 更像是围绕“怎么讲这篇论文”重新组织。 **
它的重点不是把内容铺满,而是先确定汇报逻辑,再把方法、结果和核心结论转成更适合现场讲解的页面。
ai4scholar 生成结果:更偏学术汇报,强调问题、方法、结果和 take-away 的叙事推进。
ai4scholar 页面示例:方法图和结果页更适合二次编辑与现场讲解。
所以这次测试给我的结论不是“Kimi 不行”。
恰恰相反。
** Kimi Work 证明通用 Agent 已经能把任务跑起来。 **
但如果目标是组会、答辩或正式学术汇报,真正决定可用性的不是“有没有 PPT”,而是:
- • 方法图能不能重构
- • 实验结果能不能讲清楚
- • 每一页能不能继续编辑
- • 整份 slides 有没有一个能站上去讲的故事线
这就是我说的最后 30%。
** 通用 Agent 负责把任务跑起来,专业科研 Skill 负责把成果做到能交付。 **
最后
所以,这次 Kimi Work 发布,我其实挺兴奋。
不是因为它已经完美。
而是因为它说明:
** AI Agent 终于开始离开代码编辑器,进入真实的知识工作现场。 **
但我也更确定另一件事:
通用 Agent 只能解决“开始做”。
专业场景还需要专业工具解决“做得好”。
学术 PPT 尤其如此。
因为科研汇报不是把论文压缩成 slides。
它是把一篇论文重新讲给人听。
你要讲清楚问题,讲清楚方法,讲清楚实验,讲清楚贡献,还要留出修改空间。
这件事,通用 Agent 能帮你起步。
但最后那 30%,还得靠真正懂科研工作流的系统补上。
Kimi Work 的发布,说明“Vibe Working”时代到了。
而我们要做的,是让科研工作者不只是 vibe 一下。
而是真的拿到一份能讲、能改、能交付的成果。
关注我,带你了解更多Ai for Scholar知识和咨询!