wshuyi的个人博客分享 http://blog.sciencenet.cn/u/wshuyi

博文

如何用人工智能帮你高效寻找研究选题? 精选

已有 4184 次阅读 2022-7-29 18:46 |系统分类:科研笔记

保持探索精神,学用合适的工具,高效解决问题吧。

痛苦

对你来说,读文献,特别是读自己感兴趣的文献,可能是件非常令人愉悦而激动的事儿。

例如海华,他读博的时候我到 UNT 访学,跟他在一个实验室。他时常一边读最新的顶会论文,一边击节赞叹。读到开心之处,他会高声喊出来,还兴奋地把我拉过去一起看。我觉得他是把信息检索读出了《冰与火之歌》的意境。

但是论及阅读海量文献,试图从中找寻自己的研究选题,可能就没有那么轻松愉悦了。原因大家都清楚 —— 论文太多了,而且产生速度极快。即便是水平顶尖的学者,也不敢夸下海口,说自己读过领域内全部重要文献。因为就在你说话这几分钟里,可能又有(不止一篇)新的论文发表了,里面兴许就包括重要的新观点和新发现。

这于是就构成了个显著的矛盾:

余生也有涯,而论文无涯。以有涯逐无涯,game over .

可是,不充分全面了解领域的发展,你又怎么寻找和验证自己的选题呢?你兴冲冲地给别人展示自己的新发明,一种有效降低界面摩擦提升运输效率的装置。然后别人一脸狐疑:

这玩意儿,不是叫做轮子吗?

对于科研新手来说,通过研读论文来找寻选题,还担负着必要科研训练的目的。新手在选择「读哪些论文」这个问题上,没有经验,整体过程可能要经历更多挫折和弯路。

有的学生不愿意自己耗费无用功,会干脆把这个问题推给导师。

老师老师,您给我布置一个论文阅读列表吧。

如果导师对你的研究方向熟悉,这事儿还好说。可如果不巧你的研究方向是导师尝试进入的新领域,那么这件事儿上他能提供的帮助很有限。这么多的新论文,他也没有都读过来,又怎么去分辨其中哪些论文更有价值呢?

最终,还是得你自己去一片迷雾中不断探索。这中间,你可能会遗漏很多重要成果,甚至干脆走错了方向。

好在,你可以充分利用工具。

古人航海可以用指南针,今天你开车有导航。同样,在科研的世界里漫游,你也可以借助一些更为有效的工具,减少大量的无用功耗费。

工具

我给你推荐的这款人工智能科研辅助工具,叫做 Elicit 。链接在这里

2021 年 10 月 20 日,我刚发现了它时,就给你做了一则视频

我在视频里,归纳了当时 Elicit 提供了几类主要功能,包括:

  • 文献推荐。给定选题后,推荐文献的同时,还给出论断(claim);

  • 头脑风暴。你给出一个话题,人工智能头脑风暴后,给你一个可能的选题列表;

  • 专家推荐。给出一两个领域内作者的名字,人工智能反馈给你领域内权威专家列表。

这些功能的演示,你可以参考视频内容。此处不赘述。

令人兴奋的地方,在于 Elicit 的愿景,是为科研人员提供直接准确的查询结果。Elicit 对 Semantic Scholar 等开放文献库进行分析,通过文献计量、信息抽取、自然语言理解、自动摘要等方法技术,掌握文献深度特征和关联,便于你进行细致查询。

由于 Elicit 利用大语言模型 GPT-3 作为驱动引擎,你不需要了解高级检索式,就能通过自然语言的对话形式,让 Elicit 理解你要找什么。这无疑给图情领域之外的研究人员大大减轻了培训负担。

(图片来源:t.ly/pxfS

你可能会担心 Semantic Scholar 这样的文献数据库不够全面。不过前些日子,在我院举办的「数据分析与信息服务发展国际会议」上,我请教过 Kevin Boyack 教授。按照他的说法,Semantic Scholar 可以算作是 "a global model" ,规模是足堪重任的。

我去年那个视频发布以后,Elicit 又不断进化。今年的 2 月底,我还专门做了一次直播,以 "How can a video be popular" 这个问题作为样例,演示了 Elicit 的一些新功能。

你可以 点击这个链接,查看当时的直播回放。

今年 5 月份,我又在星球里分享了 如何用 Elicit 做科技咨询

很多读者看过后,反馈热烈。

我发现自己介绍和演示的速度,着实赶不上 Elicit 进化。作为一款(至少目前)免费的工具,Elicit 背后的开发团队真的是很拼。

不过我也了解到,很多研究新手因为不了解这款工具的基础功能,浅尝辄止,这非常可惜。

因此我为你写下这篇文章。咱们尝试用简短的篇幅,聚焦在一个问题上 —— 如何用 Elicit 帮助你找寻研究选题。

例子

我们打开 Elicit ,先来输入一个问题:

any recent interesting applications with GPT3?(近期 GPT3 有没有什么有趣应用?)

输入之后,点击查询按钮,Elicit 很快就给出了结构化的结果。

你粗粗浏览,就会发现这里结果中有些 "GPT" ,并非我们想要的。因为人工智能领域的 GPT (Generative Pre-trained Transformer) 的出现,是近年的事儿。而这里有些结果论文,发表在 1997 年,研究的是另一个 GPT (General Particle Tracer)。

检索结果里其他主题乱入,怎么办呢?

对于其他更为棘手的情况,我们可能需要使用全称检索等方法来区分。但是在咱们的例子中,简单粗暴的方法,就是用年代筛选。

通过查询可知,GPT-3 出现的时间,在 2020 年 7 月。

所以,你可以使用右侧的 Filter ,把发表时间设定为 2020 之后。

再看看左侧显示结果的内容,已经发生了显著的变化。这次过滤出来的内容,基本上都和我们的问题相关了。

可是我们并不清楚,这些文章的重要性。衡量文章重要性有很多指标,你可以参考 我在这篇文章里面的介绍

不过,为了简化问题,此处咱们让 Elicit 仅依据引用数量进行一个简单的排序。

排序之后,就变成了这个样子:

你可以通过文章的标题和摘要,了解这些论文的研究目标和简单概述。其中有些文章直接可以打开 PDF 文件(蓝色链接),查看具体的研究内容。

有些检索结果条目没有 PDF 直接提供,也不要紧。万不得已,你还可以通过 Semantic Scholar 平台直接找作者申请全文等方式来获取。「只要思想不滑坡,方法总比困难多」嘛。

阅读 PDF 的时候,不妨采用 我之前跟你提到的方法,主动从阅读文献里寻找反馈,从而改进自己对于某一领域方法和范式的了解。

你还可以在 Elicit 给出的列表中,加入一系列的元素(列)。例如说作者、来源期刊、资助和 DOI 等信息。

不过若只是展现这些元数据内容,对 Elicit 来说就是大材小用了。你可以让 Elicit 展现智能分析的结果,例如文章的类别、研究方法等。对于实验类的文章,甚至还可以把样本数量、样本具体细节、年龄、区域等信息,都一一抽取出来。

这些资料展示,体现了 Elicit 「细粒度」和「理解自然语言」的特点。它不再满足于提供「书皮功夫」,而是帮助你一追到底,利用 GPT-3 的强大功能,完成信息抽取和梳理。

你可以根据自己的需要,一一尝试这些功能。如果你对有些功能的使用场景和利用方法不了解,可以参考 Ought (Elicit 出品公司)提供的一系列简短教学视频。视频都不长,我之前详细看过几段,觉得很有收获。

下面说说我最喜欢的功能吧——让 Elicit 利用 GPT-3 提供的语言理解功能,尝试直接回答你提出的研究问题

问答

还记得咱们的问题是啥吗?

any recent interesting applications with GPT3?

这个问题,其实不需要你通过一一浏览文献来达成。因为你可以让 Elicit 加上这一项:

很快你就能看到,对咱们的问题,Elicit 给出了这样的总结。

怎么样?厉害吧?通过自然语言的理解与总结,你提出问题,Elicit 直接给了答案。

不过我需要提醒你,不要对 Elicit 直接给出的回答有过高的预期。有人戏谑现在的人工智能水平,也就是「人工智障」。这话说得难听,但其实有一定道理,毕竟人工智能研究距离「强人工智能」的目标,还有很长的距离。这些自动生成的答案,很可能不够精确,甚至包含了错误。但无论如何,它为你继续深入研究,给出了一个不错基础和起点。

有的同学这时候一定不耐烦了:

老师你说这么多有啥用?我就想找个好题目开题啊!找出那么多相关研究,知道了某项技术有哪些应用,对我有什么好处?!我又不能把别人做过的东西再做一遍。

 

首先,别人的研究,对你有参考价值,特别有助于帮你判定很多研究方向的必要性。

其次,咱们不要这么急功近利。别人花几个月时间老老实实做文献综述,你希望靠着 Elicit 几秒钟搞定,这现实吗?

嗯,不好说。

我在《如何选研究题目?》一文给你讲过,他人的「研究局限」,可能是你继续研究的一个起点。当然,你需要注意别掉进别人挖的坑。

Elicit 的厉害之处,在于可以「博览群文」之后,快速把这些局限给你列出来。比起你一篇篇翻找核对,效率要高出许多。

我们这就加入「研究局限」这一列。

注意此次出来的这一列结果,可能并不周全。

有的行,干脆没有内容。这怎么回事儿?

哪篇论文后面没有局限性描述?这东西你都抽不出来,还好意思自称智能?看来 Elicit 真的「人工智障」啊。

你先别急着下结论。你仔细看看「局限」的内容都是什么。可以看到,这些并不完全等同于论文结尾的局限描述,而是实实在在探讨 GPT-3 技术的局限性。这和你提出的问题「高度相关」。那些给出的答案,因为这种高度相关性,可能蕴藏着深入挖掘的价值

针对别人提出的局限,你若能发挥自己的优势,结合独特视角,给出有价值的新解答,那么胜利就在向你招手。但是且慢,还记得我之前给你提到过研究局限的坑吗?例如这些局限,倘若只是作者给自己后续系列文章做的铺垫,怎么办?

其实答案依然在 Elicit 。我们可以把 Elicit 发现的局限,转换成为新的问题,让 Elicit 在海量的研究文库里面,帮咱们寻找别人的研究成果,以便确定它们是不是有价值的真问题,或者是不是已经被人捷足先登。这样,你可以少走很多弯路。

举一反三,试试看吧。

小结

回顾一下本例中咱们使用 Elicit 的流程。

我们首先提出一个不够具体,或者不够有信心的问题。通过 Elicit 给出的结果做出筛选,增加元素,从而不断迭代自己的问题,调整研究的角度,最终找到一个既能满足自己求知欲,又对别人足够有价值的「研究生态位」。

注意刚开始的时候,不要设定一蹴而就找到合适选题的过高期待。因为那样你更容易体验挫折感。如果你很快定位出来了高价值研究问题,恭喜你,运气真棒!如果中间经历波折,也不要紧。这些不断尝试的过程,也在给你积累本领域研究主题和研究成果的认知,Elicit 其实已经在帮助你快速获得清晰完整的研究地图。

篇幅所限,Elicit 的其他好用的功能,本文未一一涉及。鉴于 Elicit 更新频繁,等你读到这篇文章的时候,可能新的好用功能又出来了。保持探索精神,学用合适的工具,高效解决问题吧。

研读科研文献时,你有什么更好用的方法和技巧吗?有没有更推荐的好工具?欢迎留言,分享你的心得,我们一起交流讨论。

如果你觉得本文有用,请点赞

如果本文可能对你的朋友有帮助,请转发给他们。

欢迎关注我的专栏,以便及时收到后续的更新内容。

延伸阅读

题图:OpenAI DALLE 2 绘制。 prompts: a scientist facing towards the gate of a giant maze




https://blog.sciencenet.cn/blog-377709-1349295.html

上一篇:OpenAI 人工智能绘图工具 DALLE 好用吗?
下一篇:如何用卡片法高效做视频?
收藏 IP: 218.68.105.*| 热度|

9 李剑超 郑永军 王恪铭 姚伟 彭真明 周向军 梁洪泽 郑强 王凌峰

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-9-30 00:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部