一个真实的场景
假设我要写一篇关于"CRISPR 在癌症治疗中的应用"的综述。
我会怎么做?
最直觉的做法是打开 PubMed,输入关键词,然后……面对几千条结果发呆。
我开始一篇一篇点开看摘要。有些是基础研究,有些是临床试验,有些是综述,有些是评论。我想找最近几年的重要进展,但不知道哪些论文真正有影响力。我想了解这个领域的发展脉络,但引用关系错综复杂。
两小时过去了,浏览器开了 30 个标签页,笔记本上记了一堆零散的信息,但脑子里还是一团浆糊。
这种感觉,我太熟悉了。
后来我学会了一些技巧。比如先找几篇高引用的综述,从它们的参考文献入手;比如用引用追踪,看看某篇开创性论文后来被谁引用了;比如关注预印本平台,提前了解还没正式发表的新进展。
这些技巧确实有用,但都需要大量的手工操作。于是我想,能不能把这些重复性的工作自动化?
从预印本说起
做研究的人都知道,等论文正式发表往往要等很久。审稿、修改、再审稿、排版,一篇论文从投稿到见刊,半年算快的,一两年也不稀奇。
但科研是争分夺秒的。别人已经在用某个新方法做实验了,我还在等那篇论文正式发表,这怎么行?
所以预印本平台变得越来越重要。arXiv 在计算机科学、物理学、数学领域几乎是标配;bioRxiv 在生物学领域也越来越火。很多重要的工作,在预印本平台上比正式发表早半年甚至一年。
我自己做机器学习相关的研究,arXiv 是每天必刷的。但说实话,arXiv 的搜索功能不太好用。我想看看 cs.AI 分类最近一周有什么新论文,想搜索某个作者的所有预印本,想找某个具体主题的文章,每次都要折腾半天。
后来我们做了一个 arXiv 搜索工具,把这些常用操作简化了。直接说"帮我搜索 arXiv 上关于 transformer 的论文"或者"查看 cs.AI 分类的最新论文",就能拿到结果。
我还记得第一次用这个工具的时候,输入"获取 arXiv:1706.03762 的详情"——这是 Attention Is All You Need 那篇论文的 ID——几秒钟就拿到了完整信息。以前我要打开 arXiv 网站,输入 ID,等页面加载,然后手动复制信息。现在一句话搞定。
对做生物学研究的朋友,我们也做了一个 bioRxiv 的搜索工具。功能类似,但多了一个"趋势分析"的功能——可以看看某个关键词在过去几年的研究热度变化。这个功能是有一次我想了解"单细胞测序"这个领域的发展速度,自己手动统计了一下每年的论文数量,觉得太麻烦了,于是就加上了。
** 一点提醒 ** :预印本没有经过同行评审,质量参差不齐。我自己的习惯是,预印本可以看、可以学习,但正式引用的时候,最好等论文发表了再引。如果必须引用预印本,一定要在参考文献里注明"preprint"。
PubMed:绑不开的数据库
如果说 arXiv 是计算机科学的大本营,那 PubMed 就是生物医学研究的大本营。
PubMed 收录了 3600 多万篇论文,涵盖了几乎所有生物医学相关的研究。对做生物、医学、药学研究的人来说,PubMed 是每天都要打交道的工具。
PubMed 本身的搜索功能其实不错,支持很多高级语法。但我在使用过程中还是遇到了一些痛点。
第一个痛点是语言。PubMed 里的论文绝大多数是英文的,摘要也是英文。我英文还算可以,但每次读大量英文摘要还是很累。有时候只是想快速筛选一下哪些论文值得细读,但看英文标题实在太慢了。
我们的工具加了一个自动翻译的功能。搜索结果出来之后,英文标题旁边会显示中文翻译。这样我可以快速扫一眼,大致判断这篇论文是不是我要找的,然后再决定是否点进去看英文摘要。
第二个痛点是引用追踪。PubMed 本身没有很方便的引用追踪功能。我想知道某篇论文被谁引用了,得去Web of Science 查。
我们的工具通过 Semantic Scholar 的数据,实现了一键查看引用的功能。点一下就能看到谁引用了这篇论文,而且会按影响力排序——不是简单地按时间排,而是把真正重要的引用排在前面。
第三个痛点是整理。我调研完一个主题之后,笔记散落在各处——有些在浏览器书签里,有些在 Notion 里,有些在微信收藏里,有些在 PDF 的批注里。过两个月自己都找不到了。
现在搜索完之后,可以直接生成一个 HTML 报告。论文列表、基本信息、我自己加的笔记,都在一个文件里。存在电脑上,随时可以回顾。这个功能听起来简单,但对我帮助很大。
当 PubMed 不够用的时候
PubMed 很好,但它只覆盖生物医学领域。
我自己的研究是交叉学科,既涉及生物学,也涉及计算机科学。有时候我想找的论文,PubMed 里没有。
这时候就需要一个覆盖面更广的数据库。
Semantic Scholar 是艾伦人工智能研究所(Allen Institute for AI)做的一个学术搜索引擎,收录了 2 亿多篇论文,覆盖几乎所有学科。它的一个特色是用 AI 来分析论文之间的关系,比如会标注某篇引用是"背景引用"还是"方法引用"还是"结果引用"。
我们基于 Semantic Scholar 做了一个文献搜索工具。功能和 PubMed 工具类似:搜索、详情、引用追踪、生成报告。但因为数据源不同,适用场景也不同:
- • 做生物医学研究,PubMed 的数据更权威、更全面
- • 做计算机、物理、社会科学等领域,或者跨学科研究,Semantic Scholar 覆盖更广
这个工具还有一个"生成调研报告"的功能,是我自己最常用的。
它是这样工作的:我告诉它一个研究主题,比如"深度学习在药物发现中的应用"。它会先搜索相关论文,然后分析这些论文,最后生成一份报告。报告包括几个部分:
- • ** 研究概览 ** :这个领域在研究什么,有哪些主要方向
- • ** 发展趋势 ** :最近几年有什么新进展,热点是什么
- • ** 关键论文 ** :哪些论文最重要,它们贡献了什么
- • ** 未来方向 ** :还有哪些问题没解决,可能的研究方向是什么
当然,AI 生成的内容不能直接拿来用。它可能会遗漏重要的论文,也可能会误解某些研究的意义。但作为调研的起点,它能帮我快速建立一个框架,然后我再根据这个框架去深入阅读。
这比从零开始高效多了。
一个很具体的问题:我想找论文里的某句话
有一次我遇到一个很具体的问题。
我在复现一篇论文的实验,但论文里没写清楚某个超参数的设置。我记得好像在某篇论文里看到过类似的讨论,但想不起来是哪篇了。
我试着用关键词搜索,但没用。因为这个信息不在标题和摘要里,而在论文正文里。
这种需求其实很常见:
- • 我想找用了某个具体设置(比如 dropout rate 0.1)的论文
- • 我想找讨论了某个具体问题(比如 batch size 对训练稳定性的影响)的论文
- • 我想找在某个数据集上做过实验的论文
这些信息通常都在正文里,光搜标题和摘要是找不到的。
于是我们做了一个"全文搜索"的工具。它不是搜标题和摘要,而是搜论文正文。搜索结果返回的也不是论文列表,而是匹配的原文段落。
比如我搜"learning rate warmup",它会返回所有提到这个概念的段落,我可以直接看到上下文,判断这篇论文是不是我要找的。
这个工具解决的是一个很小众的需求,但对我来说非常有用。
投稿选刊的小助手
最后说一个很实用的小工具:查期刊影响因子。
写完论文要投稿,投哪个期刊?这是个学问。
影响因子不是唯一的考量因素,但确实是一个重要的参考。我经常需要查某个期刊的影响因子、JCR 分区、在学科内的排名。
以前我要打开 Web of Science,登录学校账号,然后一个一个查。现在直接问"Nature 的影响因子是多少"或者"推荐一些神经科学领域 Q1 区的期刊",就能拿到结果。
这个工具功能很简单,但用起来很方便。
什么时候用什么
说实话,工具多了反而容易混乱。我自己的使用习惯是这样的:
** 想追最新进展的时候 **
如果是计算机、物理、数学相关的,我会先去 arXiv 看看有没有新的预印本。这些领域发展太快,等正式发表就晚了。
如果是生物学相关的,会去 bioRxiv。
** 想做系统性调研的时候 **
如果是生物医学主题,PubMed 是首选。数据最全,最权威。
如果是跨学科主题,或者计算机、社会科学等领域,用 Semantic Scholar 那个工具。
如果想省事,可以直接用"生成调研报告"功能,让 AI 先帮我梳理一遍。
** 想找具体内容的时候 **
如果我要找的信息不在标题和摘要里,而在正文里(比如某个实验设置、某个方法细节),用全文搜索。
** 想投稿选刊的时候 **
查影响因子、JCR 分区。
当然,还有学术图表和统计分析
一些使用心得
用了这些工具一段时间,我有一些心得想分享。
** 第一,工具是辅助,不是替代。 **
AI 可以帮我快速筛选、整理、总结,但最终的判断还是要靠我自己。哪些论文重要,哪些论文可以跳过,这个判断需要专业知识,AI 做不到。
我把这些工具定位为"高效的助手"——帮我省去那些重复性的、机械性的工作,让我有更多精力去做真正需要思考的事情。
** 第二,结果需要核实。 **
AI 生成的摘要、翻译、分析,都可能有错。我的习惯是,AI 给的信息我会当作线索,但重要的内容一定要回原文核实。
** 第三,养成整理的习惯。 **
以前我调研完就结束了,笔记散落一地。现在我会把每次调研的结果整理成报告存下来。几个月后再看同一个主题的时候,可以在之前的基础上继续,而不是从头来过。
这个习惯其实不需要工具,但有了工具确实更容易坚持。
最后
这些工具都放在 Coze 平台上,想用的话可以去找找。
做这些工具的初衷很简单:文献调研是科研中最基础也最耗时的环节,如果能让这个过程轻松一点,研究者就能把更多精力放在真正重要的事情上——思考问题、设计实验、分析数据、撰写论文。
工具肯定还有很多不完善的地方。有些功能我觉得好用,别人可能觉得鸡肋;有些场景我没想到,别人可能正好需要。如果你在使用中遇到问题,或者有什么建议,欢迎告诉我们。
科研不易,希望这些小工具能帮到你一点。
技能链接
以下是文中提到的所有技能,点击可直接跳转到 Coze 技能商店:
| 技能名称 | 简介 | 链接 |
|---|---|---|
| ** arXiv论文搜索 ** | CS/物理/数学预印本检索 | 点击使用 [1] |
| ** bioRxiv预印本 ** | 生物学预印本检索与趋势分析 | 点击使用 [2] |
| ** PubMed文献检索 ** | 生物医学文献搜索与引用分析 | 点击使用 [3] |
| ** Ai4S文献搜索 ** | 2亿+论文检索与调研报告生成 | 点击使用 [4] |
| ** Ai4S全文搜索 ** | 论文正文内容检索 | 点击使用 [5] |
| ** JCR影响因子查询 ** | 期刊影响因子与分区查询 | 点击使用 [6] |
| 学术图表绘制 |
出版级别的科研图表
| 点击使用 [7]
科研统计分析 | 科研统计分析助手 | 点击使用 [8]
_ Ai4Scholar 团队 _
_ 官网:ai4scholar.net [9] _
引用链接
[1] arXiv论文搜索: _
https://www.coze.cn/?skill_share_pid=7596405850596556851 _
[2] bioRxiv预印本: _
https://www.coze.cn/?skill_share_pid=7596710116599250954 _
[3] PubMed文献搜索: _
https://www.coze.cn/?skill_share_pid=7596586374221021235 _
[4] 文献搜索: _ https://www.coze.cn/?skill_share_pid=7597182762579443752 _
[5] Ai4S全文搜索: _ https://www.coze.cn/?skill_share_pid=7597725017186582534
_
[6] 影响因子查询: _ https://www.coze.cn/?skill_share_pid=7596653306035011584
_
[7] 学术图表绘制: https://www.coze.cn/?skill_share_pid=7599252129391378483
[8] 科研统计分析: https://www.coze.cn/?skill_share_pid=7599266339953475610
[9] ai4scholar.net: _ https://ai4scholar.net _