多数据源交叉验证

什么时候用哪个数据源、怎么组合搜索、如何避免遗漏关键文献

适用场景

学术搜索没有"一搜全收"的银弹——每个数据源有自己的覆盖偏好。

生物医学论文 PubMed 最全，Semantic Scholar 也可，Google Scholar 反而会遗漏一些
计算机科学论文 Semantic Scholar 和 Google Scholar 覆盖更好
专利和非英文文献只能去 Google Scholar / Google Patents

这一篇讲怎么按场景选源、怎么组合验证。

源的速查表

你的需求	首选	次选	不推荐
计算机 / 数学 / 物理	Semantic Scholar	Google Scholar	PubMed
生物医学 / 临床	PubMed	Semantic Scholar	Google Patents
跨学科主题	Semantic Scholar	Google Scholar	—
找综述 / 高引论文	Semantic Scholar（引用数完整）	Google Scholar	—
找最新 preprint	Google Scholar（含 arXiv）	Semantic Scholar	PubMed
找专利	Google Patents	—	—
找非英文文献	Google Scholar	—	Semantic Scholar / PubMed
全文内容匹配（不只是标题/摘要）	全文搜索	—	—

各数据源详细介绍见数据源。

三种典型组合策略

1. 主源 + 验证源（推荐）

主源做主要工作流，验证源用来"查漏"。

计算机科学例子：

主源 Semantic Scholar 搜索 "graph neural network" → 收集 30 篇高引
验证源 Google Scholar 搜同样关键词 → 看前 20 条里有没有 SS 没出现的论文
通常会有 2～5 篇是 SS 漏掉的（特别是非英文期刊或最新的）

生物医学例子：

主源 PubMed → 用 MeSH 词精准检索
验证源 Semantic Scholar → 看引用网络补全 PubMed 没收录的预印本

2. 元数据搜索 + 全文搜索

标题/摘要搜不到、但论文正文里讨论过的内容，全文搜索才能找到。

例：你想找"哪些论文在结果讨论时提到了 batch normalization 的失败案例"
用 Semantic Scholar 搜 "batch normalization" 主题，得不到这种细节信息
用全文搜索 "batch normalization failure"，会命中正文里有这段讨论的论文片段

3. 三源齐发用于综述

写综述时为了覆盖率最大化：

PubMed 跑 MeSH 关键词
Semantic Scholar 跑同主题 + 引用网络扩展
Google Scholar 补非英文 / 预印本
三个源结果合并、按 paperId / DOI 去重
全部"加入项目"，再一起进 Auto-Cite 候选池

跨源结果去重

每个数据源用自己的 ID：

Semantic Scholar 用 paperId
PubMed 用 PMID
Google Scholar 用 cluster ID

最稳定的跨源去重锚是 DOI——如果两条结果 DOI 一样，就是同一篇论文。没 DOI 的论文（如部分预印本、会议短文）只能按标题模糊匹配。

项目的"我的文献"会自动按 (paper_id, source) 去重；但不同 source 的同一篇论文不会自动合并。

各源的"陷阱"

源	陷阱
Semantic Scholar	引用数有时滞，最新论文的 citationCount 偏低
PubMed	计算机 / 工程学科覆盖弱
Google Scholar	没有官方 API，依赖第三方代理；数据可能短期不可用
Google Patents	主要看专利的人才用，文献用不上
全文搜索	只覆盖已被全文索引的论文，未必有 SS 全面

一个实战 checklist

开题做调研，按这个跑一遍：

在 SS 用 3～5 个核心关键词跑搜索
选 1～2 篇最高引论文，看它们的参考文献和被引（"种子扩展"）
PubMed（生物医学）或 Google Scholar（计算机）补充 5 个相同关键词搜索
加入项目去重后，得到 30～80 篇候选清单
全文搜索做一次"反向验证"——用领域关键短语搜，看有没有大遗漏

通常这套流程下来 80% 的相关文献已经被覆盖。