组会讲PPT有救了！我做了一个工具，用来上传论文pdf，自动生成带图可编辑的学术PPT！还支持上传自己的模板！

先讲一件让我憋了很久的事。

我每天要做 PPT。组会、汇报、投稿前的预演、给老板讲方案。这两年我试遍了市面上几乎所有的 AI PPT 工具——国内的、国外的、收费的、免费的。

它们做出来的 PPT 都长得不错。

但 ** 能改的不多，专门用于学术科研场景的更少！ **

你拿到它们交付的"PPT"，打开 PowerPoint，想把一个错别字改一下，会发现整个版面是一张 ** 图片 ** 。

或者是一张 ** 导出的网页截图 ** 。

或者是一堆 ** 毫无层级的文本框 + 默认形状 ** ——你想动一个图标位置，整个布局会瞬间塌掉。

我说的不是夸张。这是过去两年我反复经历的事： ** AI 生成的东西，你只能要么接受，要么删了重做。 **

而我做 PPT 这件事的本质，恰恰是"做完之后还要改十次"——审稿意见来了改、老板说换配色了改、明天换会场了改、英文版要重排了改。

所以最后我都放弃 AI 工具，回到手动用 PowerPoint 一点一点拖。

这个痛点我想解决一下

所以我们做了 ** ai4scholar PPT ** 。

一个网页工具。一句话概括： ** 输入 PDF / DOCX / Markdown / URL，输出一份"在 PowerPoint 里点哪改哪"的真pptx ** 。

不是图片。
不是网页截图。
是真正的 DrawingML——每一个形状、每一段文本、每一张图表，都是 PowerPoint 原生认识的元素。

你可以双击改文字。
你可以拖动图标。
你可以调配色。
你可以右键插入新形状。

跟你手画的没有任何区别。

怎么做到的——不让 AI 画图，让 AI 写结构

市面上大部分 AI PPT 工具的做法是：让 AI 直接"画"出一张图。所以你拿到的最终结果是图片或者网页截图——好看，但不可编辑。

ai4scholar PPT 走的是相反的路： ** 我们让 AI 写一份结构化的 SVG 描述 ** ——每一页要什么形状、什么字体、什么颜色、什么位置——然后用一套转换管道把 SVG ** 逐元素 ** 翻译成 DrawingML，再装进 .pptx 容器。

整套链路里没有任何一步是"导出图片"。

所以你拿到的是真正的 PowerPoint 元素。

三步使用

浏览器打开 → 上传你的 PDF / DOCX / Markdown / URL
选风格（学术 / 顶级咨询 / 普通咨询 / 通用）
等 5–10 分钟 → 下载真·可编辑 .pptx

不需要装 Python。
不需要装 IDE。
不需要配任何环境变量。
不需要懂任何 prompt。

你的文件、生成的中间产物、最后的 .pptx 都留在本地处理——除了和大模型 API 的对话内容，没有任何东西需要离开你的机器。

一个真实的 demo

上周我用它给我们组准备一次组会汇报。

我把《Attention Is All You Need》的 PDF 丢进去（就是那篇 Transformer 论文），选了"学术风"，按下生成。

7 分钟后，我下载到了一份 ** 8 页的 PPT（全部页效果在文末） ** 。

打开 PowerPoint，逐页看：

• ** 封面 ** ：标题居中，三位主要作者署名分列，底部机构信息双栏
• ** 第二页摘要 ** ：左侧关键贡献列表，右侧一张机制图—— ** 那张机制图是 SVG 矢量画出来的，每一条箭头、每一个 Q/K/V 方块都可以单独点选 **
• ** 第六页 Encoder-Decoder 架构图 ** ：原论文那张经典架构图，被重画成了一张 12 个色块 + 9 条箭头的矢量图。我点击其中一个"Multi-Head Attention"方块，PowerPoint 弹出"形状属性"——可以改填充色、改边框、改文字。
• ** 后续每一页 ** ：方法 / 实验设置 / 结果表格 / 讨论 / 结论 / 致谢——每一张都是文本框 + 形状 + 表格，不是图片。

我把字体从 default sans 换成了我们组爱用的思源宋。
我把强调色从论文的灰蓝改成了我们 Lab 的橙色。
我在第三页加了一句"导师姓名"。

** 总共改动时间：4 分钟。 **

要是用别的 AI PPT 工具，这 4 分钟会变成"重新生成整份 + 截屏 + 重新打字 + 自己手动重排 = 1.5 小时"。

内部怎么跑的——双 Agent 流水线

虽然用户只看到三步操作，背后是一条挺复杂的流水线。简单拆一下：

Step 1 · 抽取

PDF 进来之后，先经过一个开源解析工具把它抠成结构化 Markdown——文字、表格、公式分开，原文里的插图单独存起来。

DOCX、Markdown、URL 各自有对应的解析路径，最终都收敛成同一种内部格式。

Step 2 · Strategist Agent — 设计决策

这是整套系统里我自己最满意的一个设计。

很多人会想：扔给 AI 一份文档，让它直接画 PPT 不就行了吗？

不行。AI 直接画，会给你一份"什么都想塞进去"的 PPT——50 页、配色乱、字号上上下下、风格自己打架。

我们把这个问题拆成两个 Agent。第一个叫 ** Strategist ** ，它的工作不是画 PPT， ** 是写一份设计规范 ** 。

Strategist 读完整篇文档，输出一份 design_spec.md ：

• 推荐多少页（一般 10–25 页）
• 用什么风格（4 种 executor 选一）
• 主色 / 辅色 / 背景色
• 标题字号、正文字号、行间距
• 每一页的大纲：标题 + 要点 + 用什么可视化（柱图 / 流程图 / 表格 / 图片占位）
• 目标受众是谁（决定语气和深度）

它就像一个真正的 PPT 设计师—— ** 先想清楚，再动手 ** 。

Strategist 还能吃 ** 模板上传 ** ：你可以把公司 / 实验室自己的 PPT 模板传上去，Strategist 会从中提取一份"design_spec"（色板、字体、版式），后面所有生成的页都会沿用这套规范。

Step 3 · Executor Agent — 一页一页画

Executor 拿着 Strategist 给的 spec， ** 一页一页 ** 生成 SVG。

为什么是 SVG？因为 SVG 是矢量描述，转 DrawingML 几乎是一一对应——一个 <rect> 是一个矩形，一个 <text> 是一个文本框，一个 <path> 是一条线。这就是为什么最终输出能"真·可编辑"。

Executor 不是一个 prompt。我们准备了 ** 4 套 ** ：

风格	适合场景	视觉特征
学术（academic）	论文宣讲、组会、答辩	严谨结构、数据表格、引用规范
顶级咨询（top-consulting）	战略汇报、投融资	高级配色、信息密度、麦肯锡 / 罗兰贝格风
普通咨询（consulting）	客户方案、项目周报	清晰图表、模块化版式
通用（general）	任何场景，灵活适配	平衡设计与可读性

风格不是模板，是 ** prompt ** ——Executor 系统提示里直接给的是排版规则、构图约束、配色范式、信息密度要求。所以它不会出现"两个模板拼在一起"的违和感。

整个生成过程开了 ** 流式 + 思考 ** ——让模型在画每一页前先想一会儿。

Step 4 · 质检 + 后处理 + 导出

每一张 SVG 生成完，会过一遍质检：

• SVG 语法对不对
• 文本有没有溢出画布
• 元素有没有重叠
• 关键字段（标题 / 页码）有没有缺

质检报告留在项目目录里，方便你之后追溯。

然后：

• 生成 ** 演讲备注 ** ——每页一段，可以直接 copy 进 PowerPoint 的"备注"区
• 修字符编码（UTF-8 → DrawingML 兼容）
• finalize SVG（调整精度、合并组）
• 转换 SVG → DrawingML XML → 装进 .pptx

最后 .pptx 落到 exports/ 目录，带时间戳——你每跑一次都留一份历史。

一个我自己最爱的功能：单张重生成

** 生成一份 PPT 是耗时的 ** ——20 页 × 平均 30 秒/页 = 10 分钟。如果其中第 7 页你不满意，传统 AI 工具的做法是：要么忍受，要么把整份重跑一遍。

ai4scholar PPT 让你：

鼠标移到第 7 页缩略图 → 点"重新生成这一页" → 30 秒后只有这一页变了，其他 19 页原样不动。

而且 Strategist 给的 design_spec.md 还在，所以重生成的页 ** 风格依然一致 ** ——不会突然变成另一种字体或配色。

这是我用过的所有 AI 工具里，对"真实迭代工作流"最友好的一个设计。

跟主流 AI PPT 工具的核心差异

维度	主流 AI PPT 工具	ai4scholar PPT
输出元素	图片 / 网页截图 / 半成品	原生 DrawingML
PowerPoint 里能改	改不了或部分能改	任意点击编辑
数据流向	上传到对方服务器	文件留本地 + 只有 prompt 走 API
风格机制	模板池	Prompt 化的风格生成
改某一页	整份重跑	单张重生成
价格	按月会员	按 token 实付，透明

谁应该用

我自己写了一个清单，凭直觉的：

• ** 科研工作者 ** ：投稿前的研究汇报、组会 slide、答辩
• ** 咨询师 / 投资人 ** ：客户方案、内部周报、项目复盘
• ** 产品经理 / 创业者 ** ：融资 deck、产品介绍、内部对齐
• ** 教师 / 学生 ** ：备课、读书报告、毕业答辩
• ** 任何"一份 PPT 要改十次"的人 **

如果你做 PPT 的流程是"做完发出去就完事"——那其实你用谁的工具都行，差别不大。

如果你做 PPT 是为了"做完之后还要改、要讨论、要协作"——那"能不能改"就是一切。

路线图

接下来我们想做的几件事：

1. ** 更多风格 ** —— 现在 4 套不够用。计划加杂志风、暗色艺术风、发布会风（小米 / 苹果范）、像素风、自然纪录风。
2. ** 模板市场 ** —— 把社区上传的模板做成可选库，新用户上来就能选一套现成的设计语言。
3. ** 私有部署 ** —— 给企业 / 实验室提供一键私有部署方案，所有数据全留本地，API 也可以走自家代理。
4. ** 团队协作 ** —— 多人编辑同一份 spec、批注、版本管理。
5. ** 与 ai4scholar 其他工具串联 ** —— 已经做了文献搜索、引言写作、参考文献审计，下一步把它们和 PPT 生成串起来——比如"我搜的 50 篇文献，自动做成综述 PPT"。

怎么用

目前我们在做封闭测试。如果你想第一时间用上，给我留言告诉我。

测试期间完全免费。

最后

我做这个东西的动机其实非常自私。

** 我每天都要做 PPT。 **

我也用了几乎所有市面上的 AI PPT 工具。它们让我浪费的时间，比我自己手动做还多——因为它们的输出我没法在生产环境用。

我需要的不是"看着 AI 生成挺酷"，我需要的是"做完一份能改十次的 PPT"。

所以这个工具， ** 首先是给我自己用 ** 。然后是给身边的科研朋友用。然后才是给所有"做 PPT 要改十次"的人用。

如果你也是这样的人，那它就是为你做的。

** ai4scholar PPT · 开放测试中 **

想申请测试 / 留言反馈，公众号后台直接告诉我。

如果你做 PPT 也被改不动的问题折磨过，欢迎留言告诉我你遇到的最荒谬的一次。

上传的论文是这篇：

完成的8页版PPT效果如下：