博文

如何用人工智能帮你高效寻找研究选题？精选

已有 8212 次阅读 2022-7-29 18:46 |系统分类:科研笔记

保持探索精神，学用合适的工具，高效解决问题吧。

痛苦

对你来说，读文献，特别是读自己感兴趣的文献，可能是件非常令人愉悦而激动的事儿。

例如海华，他读博的时候我到 UNT 访学，跟他在一个实验室。他时常一边读最新的顶会论文，一边击节赞叹。读到开心之处，他会高声喊出来，还兴奋地把我拉过去一起看。我觉得他是把信息检索读出了《冰与火之歌》的意境。

但是论及阅读海量文献，试图从中找寻自己的研究选题，可能就没有那么轻松愉悦了。原因大家都清楚 —— 论文太多了，而且产生速度极快。即便是水平顶尖的学者，也不敢夸下海口，说自己读过领域内全部重要文献。因为就在你说话这几分钟里，可能又有（不止一篇）新的论文发表了，里面兴许就包括重要的新观点和新发现。

这于是就构成了个显著的矛盾：

余生也有涯，而论文无涯。以有涯逐无涯，game over .

可是，不充分全面了解领域的发展，你又怎么寻找和验证自己的选题呢？你兴冲冲地给别人展示自己的新发明，一种有效降低界面摩擦提升运输效率的装置。然后别人一脸狐疑：

这玩意儿，不是叫做轮子吗？

对于科研新手来说，通过研读论文来找寻选题，还担负着必要科研训练的目的。新手在选择「读哪些论文」这个问题上，没有经验，整体过程可能要经历更多挫折和弯路。

有的学生不愿意自己耗费无用功，会干脆把这个问题推给导师。

老师老师，您给我布置一个论文阅读列表吧。

如果导师对你的研究方向熟悉，这事儿还好说。可如果不巧你的研究方向是导师尝试进入的新领域，那么这件事儿上他能提供的帮助很有限。这么多的新论文，他也没有都读过来，又怎么去分辨其中哪些论文更有价值呢？

最终，还是得你自己去一片迷雾中不断探索。这中间，你可能会遗漏很多重要成果，甚至干脆走错了方向。

好在，你可以充分利用工具。

古人航海可以用指南针，今天你开车有导航。同样，在科研的世界里漫游，你也可以借助一些更为有效的工具，减少大量的无用功耗费。

工具

我给你推荐的这款人工智能科研辅助工具，叫做 Elicit 。链接在这里。

2021 年 10 月 20 日，我刚发现了它时，就给你做了一则视频。

我在视频里，归纳了当时 Elicit 提供了几类主要功能，包括：

文献推荐。给定选题后，推荐文献的同时，还给出论断（claim）；
头脑风暴。你给出一个话题，人工智能头脑风暴后，给你一个可能的选题列表；
专家推荐。给出一两个领域内作者的名字，人工智能反馈给你领域内权威专家列表。

这些功能的演示，你可以参考视频内容。此处不赘述。

令人兴奋的地方，在于 Elicit 的愿景，是为科研人员提供直接准确的查询结果。Elicit 对 Semantic Scholar 等开放文献库进行分析，通过文献计量、信息抽取、自然语言理解、自动摘要等方法技术，掌握文献深度特征和关联，便于你进行细致查询。

由于 Elicit 利用大语言模型 GPT-3 作为驱动引擎，你不需要了解高级检索式，就能通过自然语言的对话形式，让 Elicit 理解你要找什么。这无疑给图情领域之外的研究人员大大减轻了培训负担。

（图片来源：t.ly/pxfS）

你可能会担心 Semantic Scholar 这样的文献数据库不够全面。不过前些日子，在我院举办的「数据分析与信息服务发展国际会议」上，我请教过 Kevin Boyack 教授。按照他的说法，Semantic Scholar 可以算作是 "a global model" ，规模是足堪重任的。

我去年那个视频发布以后，Elicit 又不断进化。今年的 2 月底，我还专门做了一次直播，以 "How can a video be popular" 这个问题作为样例，演示了 Elicit 的一些新功能。

你可以点击这个链接，查看当时的直播回放。

今年 5 月份，我又在星球里分享了如何用 Elicit 做科技咨询。

很多读者看过后，反馈热烈。

我发现自己介绍和演示的速度，着实赶不上 Elicit 进化。作为一款（至少目前）免费的工具，Elicit 背后的开发团队真的是很拼。

不过我也了解到，很多研究新手因为不了解这款工具的基础功能，浅尝辄止，这非常可惜。

因此我为你写下这篇文章。咱们尝试用简短的篇幅，聚焦在一个问题上 —— 如何用 Elicit 帮助你找寻研究选题。

例子

我们打开 Elicit ，先来输入一个问题：

any recent interesting applications with GPT3?（近期 GPT3 有没有什么有趣应用？）

输入之后，点击查询按钮，Elicit 很快就给出了结构化的结果。

你粗粗浏览，就会发现这里结果中有些 "GPT" ，并非我们想要的。因为人工智能领域的 GPT (Generative Pre-trained Transformer) 的出现，是近年的事儿。而这里有些结果论文，发表在 1997 年，研究的是另一个 GPT (General Particle Tracer)。

检索结果里其他主题乱入，怎么办呢？

对于其他更为棘手的情况，我们可能需要使用全称检索等方法来区分。但是在咱们的例子中，简单粗暴的方法，就是用年代筛选。

通过查询可知，GPT-3 出现的时间，在 2020 年 7 月。

所以，你可以使用右侧的 Filter ，把发表时间设定为 2020 之后。

再看看左侧显示结果的内容，已经发生了显著的变化。这次过滤出来的内容，基本上都和我们的问题相关了。

可是我们并不清楚，这些文章的重要性。衡量文章重要性有很多指标，你可以参考我在这篇文章里面的介绍。

不过，为了简化问题，此处咱们让 Elicit 仅依据引用数量进行一个简单的排序。

排序之后，就变成了这个样子：

你可以通过文章的标题和摘要，了解这些论文的研究目标和简单概述。其中有些文章直接可以打开 PDF 文件（蓝色链接），查看具体的研究内容。

有些检索结果条目没有 PDF 直接提供，也不要紧。万不得已，你还可以通过 Semantic Scholar 平台直接找作者申请全文等方式来获取。「只要思想不滑坡，方法总比困难多」嘛。

阅读 PDF 的时候，不妨采用我之前跟你提到的方法，主动从阅读文献里寻找反馈，从而改进自己对于某一领域方法和范式的了解。

你还可以在 Elicit 给出的列表中，加入一系列的元素（列）。例如说作者、来源期刊、资助和 DOI 等信息。

不过若只是展现这些元数据内容，对 Elicit 来说就是大材小用了。你可以让 Elicit 展现智能分析的结果，例如文章的类别、研究方法等。对于实验类的文章，甚至还可以把样本数量、样本具体细节、年龄、区域等信息，都一一抽取出来。

这些资料展示，体现了 Elicit 「细粒度」和「理解自然语言」的特点。它不再满足于提供「书皮功夫」，而是帮助你一追到底，利用 GPT-3 的强大功能，完成信息抽取和梳理。

你可以根据自己的需要，一一尝试这些功能。如果你对有些功能的使用场景和利用方法不了解，可以参考 Ought （Elicit 出品公司）提供的一系列简短教学视频。视频都不长，我之前详细看过几段，觉得很有收获。

下面说说我最喜欢的功能吧——让 Elicit 利用 GPT-3 提供的语言理解功能，尝试直接回答你提出的研究问题。

问答

还记得咱们的问题是啥吗？

any recent interesting applications with GPT3?

这个问题，其实不需要你通过一一浏览文献来达成。因为你可以让 Elicit 加上这一项：

很快你就能看到，对咱们的问题，Elicit 给出了这样的总结。

怎么样？厉害吧？通过自然语言的理解与总结，你提出问题，Elicit 直接给了答案。

不过我需要提醒你，不要对 Elicit 直接给出的回答有过高的预期。有人戏谑现在的人工智能水平，也就是「人工智障」。这话说得难听，但其实有一定道理，毕竟人工智能研究距离「强人工智能」的目标，还有很长的距离。这些自动生成的答案，很可能不够精确，甚至包含了错误。但无论如何，它为你继续深入研究，给出了一个不错基础和起点。

有的同学这时候一定不耐烦了：

老师你说这么多有啥用？我就想找个好题目开题啊！找出那么多相关研究，知道了某项技术有哪些应用，对我有什么好处？！我又不能把别人做过的东西再做一遍。

首先，别人的研究，对你有参考价值，特别有助于帮你判定很多研究方向的必要性。

其次，咱们不要这么急功近利。别人花几个月时间老老实实做文献综述，你希望靠着 Elicit 几秒钟搞定，这现实吗？

嗯，不好说。

我在《如何选研究题目？》一文给你讲过，他人的「研究局限」，可能是你继续研究的一个起点。当然，你需要注意别掉进别人挖的坑。

Elicit 的厉害之处，在于可以「博览群文」之后，快速把这些局限给你列出来。比起你一篇篇翻找核对，效率要高出许多。

我们这就加入「研究局限」这一列。

注意此次出来的这一列结果，可能并不周全。

有的行，干脆没有内容。这怎么回事儿？

哪篇论文后面没有局限性描述？这东西你都抽不出来，还好意思自称智能？看来 Elicit 真的「人工智障」啊。

你先别急着下结论。你仔细看看「局限」的内容都是什么。可以看到，这些并不完全等同于论文结尾的局限描述，而是实实在在探讨 GPT-3 技术的局限性。这和你提出的问题「高度相关」。那些给出的答案，因为这种高度相关性，可能蕴藏着深入挖掘的价值。

针对别人提出的局限，你若能发挥自己的优势，结合独特视角，给出有价值的新解答，那么胜利就在向你招手。但是且慢，还记得我之前给你提到过研究局限的坑吗？例如这些局限，倘若只是作者给自己后续系列文章做的铺垫，怎么办？

其实答案依然在 Elicit 。我们可以把 Elicit 发现的局限，转换成为新的问题，让 Elicit 在海量的研究文库里面，帮咱们寻找别人的研究成果，以便确定它们是不是有价值的真问题，或者是不是已经被人捷足先登。这样，你可以少走很多弯路。

举一反三，试试看吧。

小结

回顾一下本例中咱们使用 Elicit 的流程。

我们首先提出一个不够具体，或者不够有信心的问题。通过 Elicit 给出的结果做出筛选，增加元素，从而不断迭代自己的问题，调整研究的角度，最终找到一个既能满足自己求知欲，又对别人足够有价值的「研究生态位」。

注意刚开始的时候，不要设定一蹴而就找到合适选题的过高期待。因为那样你更容易体验挫折感。如果你很快定位出来了高价值研究问题，恭喜你，运气真棒！如果中间经历波折，也不要紧。这些不断尝试的过程，也在给你积累本领域研究主题和研究成果的认知，Elicit 其实已经在帮助你快速获得清晰完整的研究地图。

篇幅所限，Elicit 的其他好用的功能，本文未一一涉及。鉴于 Elicit 更新频繁，等你读到这篇文章的时候，可能新的好用功能又出来了。保持探索精神，学用合适的工具，高效解决问题吧。

研读科研文献时，你有什么更好用的方法和技巧吗？有没有更推荐的好工具？欢迎留言，分享你的心得，我们一起交流讨论。

如果你觉得本文有用，请点赞。

如果本文可能对你的朋友有帮助，请转发给他们。

欢迎关注我的专栏，以便及时收到后续的更新内容。

王树义

扫一扫，分享此博文

wshuyi的个人博客分享 http://blog.sciencenet.cn/u/wshuyi

博文

如何用人工智能帮你高效寻找研究选题？精选

痛苦

工具

例子

问答

小结

延伸阅读

当前推荐数：9 推荐人：李剑超 郑永军 王恪铭 姚伟 彭真明 周向军 梁洪泽 郑强 王凌峰

该博文允许注册用户评论请点击登录评论 (2 个评论)

王树义

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

wshuyi的个人博客分享 http://blog.sciencenet.cn/u/wshuyi

博文

如何用人工智能帮你高效寻找研究选题？ 精选

痛苦

工具

例子

问答

小结

延伸阅读

当前推荐数：9 推荐人： 李剑超 郑永军 王恪铭 姚伟 彭真明 周向军 梁洪泽 郑强 王凌峰

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

王树义

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

如何用人工智能帮你高效寻找研究选题？精选

当前推荐数：9 推荐人：李剑超郑永军王恪铭姚伟彭真明周向军梁洪泽郑强王凌峰

该博文允许注册用户评论请点击登录评论 (2 个评论)