先讲一件让我憋了很久的事。
我每天要做 PPT。组会、汇报、投稿前的预演、给老板讲方案。这两年我试遍了市面上几乎所有的 AI PPT 工具——国内的、国外的、收费的、免费的。
它们做出来的 PPT 都长得不错。
但 ** 能改的不多,专门用于学术科研场景的更少! **
你拿到它们交付的"PPT",打开 PowerPoint,想把一个错别字改一下,会发现整个版面是一张 ** 图片 ** 。
或者是一张 ** 导出的网页截图 ** 。
或者是一堆 ** 毫无层级的文本框 + 默认形状 ** ——你想动一个图标位置,整个布局会瞬间塌掉。
我说的不是夸张。这是过去两年我反复经历的事: ** AI 生成的东西,你只能要么接受,要么删了重做。 **
而我做 PPT 这件事的本质,恰恰是"做完之后还要改十次"——审稿意见来了改、老板说换配色了改、明天换会场了改、英文版要重排了改。
所以最后我都放弃 AI 工具,回到手动用 PowerPoint 一点一点拖。
这个痛点我想解决一下
所以我们做了 ** ai4scholar PPT ** 。
一个网页工具。一句话概括: ** 输入 PDF / DOCX / Markdown / URL,输出一份"在 PowerPoint 里点哪改哪"的真pptx ** 。
不是图片。
不是网页截图。
是真正的 DrawingML——每一个形状、每一段文本、每一张图表,都是 PowerPoint 原生认识的元素。
你可以双击改文字。
你可以拖动图标。
你可以调配色。
你可以右键插入新形状。
跟你手画的没有任何区别。
怎么做到的——不让 AI 画图,让 AI 写结构
市面上大部分 AI PPT 工具的做法是:让 AI 直接"画"出一张图。所以你拿到的最终结果是图片或者网页截图——好看,但不可编辑。
ai4scholar PPT 走的是相反的路: ** 我们让 AI 写一份结构化的 SVG 描述 ** ——每一页要什么形状、什么字体、什么颜色、什么位置——然后用一套转换管道把 SVG ** 逐元素 ** 翻译成 DrawingML,再装进 .pptx 容器。
整套链路里没有任何一步是"导出图片"。
所以你拿到的是真正的 PowerPoint 元素。
三步使用
- 浏览器打开 → 上传你的 PDF / DOCX / Markdown / URL
- 选风格(学术 / 顶级咨询 / 普通咨询 / 通用)
- 等 5–10 分钟 → 下载真·可编辑 .pptx
不需要装 Python。
不需要装 IDE。
不需要配任何环境变量。
不需要懂任何 prompt。
你的文件、生成的中间产物、最后的 .pptx 都留在本地处理——除了和大模型 API 的对话内容,没有任何东西需要离开你的机器。
一个真实的 demo
上周我用它给我们组准备一次组会汇报。
我把《Attention Is All You Need》的 PDF 丢进去(就是那篇 Transformer 论文),选了"学术风",按下生成。
7 分钟后,我下载到了一份 ** 8 页的 PPT(全部页效果在文末) ** 。
打开 PowerPoint,逐页看:
- • ** 封面 ** :标题居中,三位主要作者署名分列,底部机构信息双栏
- • ** 第二页 摘要 ** :左侧关键贡献列表,右侧一张机制图—— ** 那张机制图是 SVG 矢量画出来的,每一条箭头、每一个 Q/K/V 方块都可以单独点选 **
- • ** 第六页 Encoder-Decoder 架构图 ** :原论文那张经典架构图,被重画成了一张 12 个色块 + 9 条箭头的矢量图。我点击其中一个"Multi-Head Attention"方块,PowerPoint 弹出"形状属性"——可以改填充色、改边框、改文字。
- • ** 后续每一页 ** :方法 / 实验设置 / 结果表格 / 讨论 / 结论 / 致谢——每一张都是文本框 + 形状 + 表格,不是图片。
我把字体从 default sans 换成了我们组爱用的思源宋。
我把强调色从论文的灰蓝改成了我们 Lab 的橙色。
我在第三页加了一句"导师姓名"。
** 总共改动时间:4 分钟。 **
要是用别的 AI PPT 工具,这 4 分钟会变成"重新生成整份 + 截屏 + 重新打字 + 自己手动重排 = 1.5 小时"。
内部怎么跑的——双 Agent 流水线
虽然用户只看到三步操作,背后是一条挺复杂的流水线。简单拆一下:
Step 1 · 抽取
PDF 进来之后,先经过一个开源解析工具把它抠成结构化 Markdown——文字、表格、公式分开,原文里的插图单独存起来。
DOCX、Markdown、URL 各自有对应的解析路径,最终都收敛成同一种内部格式。
Step 2 · Strategist Agent — 设计决策
这是整套系统里我自己最满意的一个设计。
很多人会想:扔给 AI 一份文档,让它直接画 PPT 不就行了吗?
不行。AI 直接画,会给你一份"什么都想塞进去"的 PPT——50 页、配色乱、字号上上下下、风格自己打架。
我们把这个问题拆成两个 Agent。第一个叫 ** Strategist ** ,它的工作不是画 PPT, ** 是写一份设计规范 ** 。
Strategist 读完整篇文档,输出一份 design_spec.md :
- • 推荐多少页(一般 10–25 页)
- • 用什么风格(4 种 executor 选一)
- • 主色 / 辅色 / 背景色
- • 标题字号、正文字号、行间距
- • 每一页的大纲:标题 + 要点 + 用什么可视化(柱图 / 流程图 / 表格 / 图片占位)
- • 目标受众是谁(决定语气和深度)
它就像一个真正的 PPT 设计师—— ** 先想清楚,再动手 ** 。
Strategist 还能吃 ** 模板上传 ** :你可以把公司 / 实验室自己的 PPT 模板传上去,Strategist 会从中提取一份"design_spec"(色板、字体、版式),后面所有生成的页都会沿用这套规范。
Step 3 · Executor Agent — 一页一页画
Executor 拿着 Strategist 给的 spec, ** 一页一页 ** 生成 SVG。
为什么是 SVG?因为 SVG 是矢量描述,转 DrawingML 几乎是一一对应——一个 <rect> 是一个矩形,一个 <text>
是一个文本框,一个 <path> 是一条线。这就是为什么最终输出能"真·可编辑"。
Executor 不是一个 prompt。我们准备了 ** 4 套 ** :
| 风格 | 适合场景 | 视觉特征 |
|---|---|---|
| ** 学术(academic) ** | 论文宣讲、组会、答辩 | 严谨结构、数据表格、引用规范 |
| ** 顶级咨询(top-consulting) ** | 战略汇报、投融资 | 高级配色、信息密度、麦肯锡 / 罗兰贝格风 |
| ** 普通咨询(consulting) ** | 客户方案、项目周报 | 清晰图表、模块化版式 |
| ** 通用(general) ** | 任何场景,灵活适配 | 平衡设计与可读性 |
风格不是模板,是 ** prompt ** ——Executor 系统提示里直接给的是排版规则、构图约束、配色范式、信息密度要求。所以它不会出现"两个模板拼在一起"的违和感。
整个生成过程开了 ** 流式 + 思考 ** ——让模型在画每一页前先想一会儿。
Step 4 · 质检 + 后处理 + 导出
每一张 SVG 生成完,会过一遍质检:
- • SVG 语法对不对
- • 文本有没有溢出画布
- • 元素有没有重叠
- • 关键字段(标题 / 页码)有没有缺
质检报告留在项目目录里,方便你之后追溯。
然后:
- • 生成 ** 演讲备注 ** ——每页一段,可以直接 copy 进 PowerPoint 的"备注"区
- • 修字符编码(UTF-8 → DrawingML 兼容)
- • finalize SVG(调整精度、合并组)
- • 转换 SVG → DrawingML XML → 装进 .pptx
最后 .pptx 落到 exports/ 目录,带时间戳——你每跑一次都留一份历史。
一个我自己最爱的功能:单张重生成
** 生成一份 PPT 是耗时的 ** ——20 页 × 平均 30 秒/页 = 10 分钟。如果其中第 7 页你不满意,传统 AI 工具的做法是:要么忍受,要么把整份重跑一遍。
ai4scholar PPT 让你:
鼠标移到第 7 页缩略图 → 点"重新生成这一页" → 30 秒后只有这一页变了,其他 19 页原样不动。
而且 Strategist 给的 design_spec.md 还在,所以重生成的页 ** 风格依然一致 **
——不会突然变成另一种字体或配色。
这是我用过的所有 AI 工具里,对"真实迭代工作流"最友好的一个设计。
跟主流 AI PPT 工具的核心差异
| 维度 | 主流 AI PPT 工具 | ai4scholar PPT |
|---|---|---|
| 输出元素 | 图片 / 网页截图 / 半成品 | ** 原生 DrawingML ** |
| PowerPoint 里能改 | 改不了或部分能改 | ** 任意点击编辑 ** |
| 数据流向 | 上传到对方服务器 | 文件留本地 + 只有 prompt 走 API |
| 风格机制 | 模板池 | ** Prompt 化的风格生成 ** |
| 改某一页 | 整份重跑 | ** 单张重生成 ** |
| 价格 | 按月会员 | ** 按 token 实付,透明 ** |
谁应该用
我自己写了一个清单,凭直觉的:
- • ** 科研工作者 ** :投稿前的研究汇报、组会 slide、答辩
- • ** 咨询师 / 投资人 ** :客户方案、内部周报、项目复盘
- • ** 产品经理 / 创业者 ** :融资 deck、产品介绍、内部对齐
- • ** 教师 / 学生 ** :备课、读书报告、毕业答辩
- • ** 任何"一份 PPT 要改十次"的人 **
如果你做 PPT 的流程是"做完发出去就完事"——那其实你用谁的工具都行,差别不大。
如果你做 PPT 是为了"做完之后还要改、要讨论、要协作"——那"能不能改"就是一切。
路线图
接下来我们想做的几件事:
- 1. ** 更多风格 ** —— 现在 4 套不够用。计划加杂志风、暗色艺术风、发布会风(小米 / 苹果范)、像素风、自然纪录风。
- 2. ** 模板市场 ** —— 把社区上传的模板做成可选库,新用户上来就能选一套现成的设计语言。
- 3. ** 私有部署 ** —— 给企业 / 实验室提供一键私有部署方案,所有数据全留本地,API 也可以走自家代理。
- 4. ** 团队协作 ** —— 多人编辑同一份 spec、批注、版本管理。
- 5. ** 与 ai4scholar 其他工具串联 ** —— 已经做了文献搜索、引言写作、参考文献审计,下一步把它们和 PPT 生成串起来——比如"我搜的 50 篇文献,自动做成综述 PPT"。
怎么用
目前我们在做封闭测试。如果你想第一时间用上,给我留言告诉我。
测试期间完全免费。
最后
我做这个东西的动机其实非常自私。
** 我每天都要做 PPT。 **
我也用了几乎所有市面上的 AI PPT 工具。它们让我浪费的时间,比我自己手动做还多——因为它们的输出我没法在生产环境用。
我需要的不是"看着 AI 生成挺酷",我需要的是"做完一份能改十次的 PPT"。
所以这个工具, ** 首先是给我自己用 ** 。然后是给身边的科研朋友用。然后才是给所有"做 PPT 要改十次"的人用。
如果你也是这样的人,那它就是为你做的。
** ai4scholar PPT · 开放测试中 **
想申请测试 / 留言反馈,公众号后台直接告诉我。
如果你做 PPT 也被改不动的问题折磨过,欢迎留言告诉我你遇到的最荒谬的一次。
上传的论文是这篇:
完成的8页版PPT效果如下: