对比规则
- • ** 同一提示词 ** ,分别用 Image 2.0 和 Gemini 生成
- • Image 2.0 使用 ai4scholar 科研绘图(文生图模式)
- • Gemini 使用 ai4scholar 科研绘图(文生图模式,Gemini 模型)
- • 不做任何后期修改,直接展示原图
- • 提示词均为英文,完整附在每组对比下方
1. JAK-STAT 信号通路
A detailed scientific illustration of the JAK-STAT signaling pathway
in a mammalian cell. Show the cell membrane with embedded receptor
dimers, JAK kinases phosphorylating STAT proteins, STAT dimerization,
nuclear translocation through nuclear pores, and DNA binding to
activate target gene transcription. Use a clean BioRender-style with
soft pastel colors, clear directional arrows, and labeled components.
White background, suitable for a journal publication figure.
** Image 2.0: **
Image 2.0 - JAK-STAT
** Gemini: **
Gemini - JAK-STAT
** 点评: ** 这组对比非常直观。Image 2.0 画出了完整的 7 步流程,从 Cytokine binding 到 STAT dimers bind DNA,每一步都有清晰的编号和标注。配色协调,BioRender 风格还原度很高,底部还有图例。Gemini 的版本结构上也说得通,但布局更拥挤,文字标注有些重叠("Unphosphorythonrlated"还拼错了),视觉清晰度差一些。
** 结论:Image 2.0 明显领先。 ** 作为期刊级 Figure,Image 2.0 的版本几乎可以直接用。
2. CRISPR-Cas9 基因编辑
A step-by-step scientific diagram showing the CRISPR-Cas9 gene editing
mechanism. Include: (1) the Cas9 protein loaded with guide RNA scanning
along a double-stranded DNA helix, (2) PAM sequence recognition and
R-loop formation, (3) double-strand break by RuvC and HNH nuclease
domains, and (4) two repair pathways — NHEJ causing insertions/deletions
and HDR with a donor template for precise editing. Use a horizontal
left-to-right flow layout with numbered steps, color-coded molecules
(blue Cas9, orange gRNA, green DNA), and concise labels.
** Image 2.0: **
Image 2.0 - CRISPR
** Gemini: **
Gemini - CRISPR
** 点评: ** 两个模型都准确画出了 CRISPR 的四步流程。Image 2.0 的 Cas9 蛋白质渲染更精致,gRNA 和 DNA 的颜色编码严格遵循了提示词要求(蓝色 Cas9、橙色 gRNA、绿色 DNA),右侧 NHEJ/HDR 两条修复路径的分叉也画得很清楚,还加了底部图例。Gemini 的版本结构正确,但蛋白质渲染相对简单,标注文字偏大导致画面拥挤。
** 结论:Image 2.0 小幅领先。 ** 两者都能用,但 Image 2.0 更"出版级"。
3. 全球碳循环
An infographic-style scientific illustration of the global carbon cycle
showing major carbon reservoirs and fluxes. Include the atmosphere (CO₂),
terrestrial biosphere (photosynthesis, respiration, decomposition), ocean
(surface exchange, biological pump, deep ocean storage), fossil fuel
combustion, and geological processes (volcanism, weathering, sedimentation).
Use quantitative flux arrows with approximate GtC/yr values. Color scheme:
green for biosphere, blue for ocean, brown for lithosphere, gray for
atmosphere. Modern flat design with clean icons and clear typography.
** Image 2.0: **
Image 2.0 - Carbon Cycle
** Gemini: **
Gemini - Carbon Cycle
** 点评: ** 这一组是差距最大的。Image 2.0 的碳循环图堪称教科书级别——场景渲染逼真(树木、海洋、火山、工厂一应俱全),所有储库和通量箭头都标注了具体数值(GtC 和 GtC/yr),配色方案也完美遵循了提示词要求。右上角有完整的图例。 ** 这张图可以直接放进 Nature Climate Change。 ** Gemini 的版本同样信息量大,数值也基本准确,但画面扁平感更强、视觉冲击力弱一些。
** 结论:Image 2.0 大幅领先。 ** 碳循环这种需要"场景 + 数据 + 美感"三合一的图,Image 2.0 展现出了明显优势。
4. Transformer 架构
A technical architecture diagram of a Transformer model for natural
language processing. Show the complete encoder-decoder structure: input
embedding with positional encoding, multi-head self-attention mechanism
(with Q/K/V projections, scaled dot-product attention, and concatenation),
add & norm layers, feed-forward network blocks, and the final linear +
softmax output layer. Use a vertical bottom-to-top data flow with the
encoder stack on the left and decoder stack on the right, connected by
cross-attention. Color-code each component type: blue for attention,
green for feed-forward, orange for normalization, gray for embeddings.
Include tensor dimension annotations (e.g., d_model=512, h=8). Clean
schematic style on white background.
** Image 2.0: **
Image 2.0 - Transformer
** Gemini: **
Gemini - Transformer
** 点评: ** 两个模型都画出了完整的 Encoder-Decoder 架构。Image 2.0 的信息密度更高——不仅画了主体架构,右侧还展开画了 Multi-Head Cross-Attention、Masked Multi-Head Self-Attention 和 Feed-Forward Network 的内部结构,左下角还有完整的符号标注和维度说明。颜色编码(蓝色 Attention、绿色 FFN、橙色 Add&Norm、灰色 Embedding)严格遵循提示词。Gemini 的版本更简洁,结构正确但细节少很多,比如没有展开 Attention 内部的 Q/K/V 投影细节。
** 结论:Image 2.0 明显领先。 ** 对于技术论文的架构图,Image 2.0 的信息完整度和专业感明显更强。
5. ResNet-50 架构
A detailed neural network architecture diagram of ResNet-50 for image
classification. Show the input image (224×224×3) flowing through: initial
7×7 conv + batch norm + ReLU + max pool, then four residual stages
(conv2_x through conv5_x) with skip connections clearly drawn as curved
arrows bypassing conv-BN-ReLU blocks, global average pooling, and a
fully connected layer with 1000-class softmax output. Label each stage
with its spatial resolution and channel depth (e.g., 56×56×256).
Highlight the skip connection mechanism with a different color. Use a
horizontal left-to-right layout with feature map size visualized as
shrinking rectangles. Engineering blueprint style with clean lines and
precise annotations.
** Image 2.0: **
GPT Image 2.0
** Gemini: **
Gemini Nano 2
** 点评: ** Image 2.0 不仅画出了完整的 ResNet-50 架构(从 Input 224×224×3 到 1000-class Softmax),还在底部额外生成了一张完整的配置参数表——每个 stage 的 Input Size、Configuration、Block 数量、Output Size 全部列出,右下角甚至有 ResNet-50 Highlights 摘要。这种"架构图 + 配置表"的组合,直接可以放进论文的 Methods 部分。Gemini 的版本结构正确,skip connection 用青色箭头标出,但信息密度明显不如 Image 2.0。。。(这,逗我玩儿呢?)
** 结论:Image 2.0 明显领先。 ** 自动生成配置表这个能力非常实用。
6. GAN 训练流程
A scientific diagram illustrating the Generative Adversarial Network (GAN)
training pipeline. Show two competing networks: the Generator (G) taking
random noise z from a latent space and producing fake images, and the
Discriminator (D) receiving both real images from the training dataset and
fake images from G, outputting real/fake probability scores. Include the
adversarial loss feedback loop with gradients flowing back to both networks.
Add a training cycle visualization showing how D and G losses evolve over
epochs. Use a clean flow diagram style with red for discriminator path,
blue for generator path, and green for the data pipeline. Include
mathematical notation for the minimax objective.
** Image 2.0: **
GPT Image 2.0
** Gemini: **
Gemini Nano 2
** 点评: ** Image 2.0 再次展现出了更强的信息密度。除了标准的 G/D 对抗流程图之外,还画出了完整的 Minimax Objective 公式、Training Dynamics 曲线图(D Loss 和 G Loss 随 Epoch 的变化),以及详细的右侧图例。配色严格遵循提示词:红色判别器路径、蓝色生成器路径、绿色数据管线。Gemini 的版本结构正确,但公式有明显错误(多出的 log(1σ) 项),训练曲线也更粗糙。
** 结论:Image 2.0 明显领先。 ** 特别是数学公式和训练曲线的准确度,差距显著。
总结:Image 2.0 科研绘图能力评估
| Image 2.0 | Gemini
---|---|---
** 结构准确性 ** | ★★★★★ | ★★★★☆
** 标注清晰度 ** | ★★★★★ | ★★★☆☆
** 视觉美感 ** | ★★★★★ | ★★★★☆
** 信息密度 ** | ★★★★★ | ★★★☆☆
** 颜色编码遵循 ** | ★★★★★ | ★★★★☆
** 出版可用度 ** | ★★★★☆ | ★★★☆☆
6 组对比下来,Image 2.0 全胜。 ** 信号通路、机制图、信息图、架构图,每一类都画得比 Gemini 更精细、更专业。 **
但要注意—— ** AI 画的图不能直接当论文 Figure 提交 ** 。它们仍然是 PNG 位图,文字经不起放大,细节可能有学术错误。AI 是画图的"初稿生成器",最终还是需要人工校对和微调。
矢量转换:让 Image 2.0 的图也能编辑
说到微调——这正好接上我们昨天刚发的功能。
Image 2.0 画得再好,给你的依然是一张 PNG。导师说"把标签改一下",你还是改不了。
所以在 ai4scholar 里,你可以直接对 Image 2.0 生成的图做「矢量转换」:
- 1. 用科研绘图的文生图功能,选 Image 2.0 模型,生成满意的图
- 2. 切到「编辑」→「矢量转换」,选标准模式
- 3. 等 1-3 分钟,下载 PDF 或 PPTX
** 转换之后,图里的文字变成可编辑的文本,形状变成独立的矢量对象。 ** 你可以在 Illustrator 或 PowerPoint 里直接改文字、移动箭头、换配色。
Image 2.0 生成 + 矢量转换,这两步连起来,就是一个完整的"AI 画图 → 人工精修"的工作流。
可以用Adobe Illustrator或者PPT打开编辑!
怎么用
打开 ai4scholar.net,进入科研绘图。
** 用 Image 2.0 生成: ** 选择「文生图」,模型切换到 GPT Image 2.0,输入英文提示词,点生成。
** 矢量转换: ** 生成满意之后,点左侧「编辑」→「矢量转换」,选模式和格式,点开始转换。
我们已经第一时间接入了 Image 2.0。如果你之前用的是 Gemini,切换一下模型就行,提示词不用改。
最后
Image 2.0 的发布,让 AI 科研绘图又往前迈了一步。画信号通路、画机制图、画架构图,它的表现已经非常接近"可以直接用"的水平。
但"接近"和"真正能用"之间,差的就是那一步编辑——改个标签、调个颜色、换个字号。矢量转换补上了这最后一环。
** AI 负责生成,你负责微调。现在整个链条通了。 **
上面 6 组提示词都在文章里了,直接复制到 ai4scholar 试试。
** ai4scholar ** (ai4scholar.net)—— 一站式学术科研 AI 工具集,已接入 GPT Image 2.0 模型。覆盖科研绘图(含矢量转换)、文献搜索、全文搜索、自动引用标注、文献补全、PDF 解析、项目管理和在线写作。
_ Image 2.0 画科研图效果炸了,提示词和 Gemini 对比都在这篇了。转发给组里画图的同学。 _