wshuyi的个人博客分享 http://blog.sciencenet.cn/u/wshuyi

博文

如何选研究题目? 精选

已有 13600 次阅读 2017-7-22 09:31 |系统分类:科研笔记|关键词:论文,选题| 论文, 选题

说明

这篇文章,是写给我去年入学的研究生的。暑期之后,他们中的几位就要开题了。

本着一贯的开放原则,我把这篇文章同时发布到网络上。欢迎有需要的高年级本科生或低年级研究生同学一起阅读。

前些日子,我参加了哈工大的“大数据与商务分析”暑期学校。这段日子的记忆是炎热、匆忙和充实的。我收获了许多东西,尤其是在科研思路方面。从前有许多迷惑的地方,都从诸多高人那里获得了答案。即便有些问题不是一两句话能说清的,热心的学者们也给了我充分的指引。

回津后这些日子,我一直在认真整理笔记,并且按图索骥来读书、看文章,希望把思路理清,并且记录下来。

收获太多,我可能要写若干篇文章,才能把在科研领域认知升级的过程记载清楚和完整。

通过本文,我把这些收获和感悟分享给你。希望你和我一样,充分利用好这个假期,在科研之路上精进前行。

遗憾

这次暑期学校,你真的应该来参加。

至少,也该来看看你们的导师是怎么当“麦霸”的。

别误会,我说的并不是K歌。事实上,因为五音不全,我在别人K歌的时候,向来只愿意做一枚安静的听众。

我说的“麦霸”,是指每次演讲中的提问环节,坐在第一排的我都是第一个举手。每次哈工大的工作人员都是摇头叹气把麦克风递给我,我一张口说话,背后就是窃窃私语声一片。

我不在乎。

我来的目的,不只是当听众的。

所谓“学问”,除了要学,还得要问。我远道而来,是要跟国际一流顶尖学者交流的。不问问题,怎么交流?

需要交流的动力,是我脑子里面有一大堆亟需验证的假设,需要找应用数据科学做研究的权威专家做验证。这种低成本快速验证的想法,来自于D9X的阎总。他的创新思维工作坊让我受益良多。

暑期学校邀请的讲座学者都是做数据科学+信息管理研究的。我简直如同刘姥姥进了大观园一般。眼花缭乱,看什么都觉得新奇有趣。

我提的许多疑惑问题,如果自己尝试,花费的精力和机会成本都是巨大的。

这些宝贵的知识和经验,不能不善加保管。我认真整理了笔记,打算通过系列文章的形式分享给你。

今天这一篇文章,急用先学,就讲讲科研选题吧。我大致归纳了以下6种常见的选题导向,一一帮你剖析。希望能够帮助到你的开题和今后的科研。

方法导向

我一直跟你反复强调的那句话,还记得吗?

To the one with a hammer, everything looks like a nail.

翻译过来,就是“当你手里拿着一把锤子的时候,看啥都像钉子”。

如果你仅仅把论文当成是方法论课程的实践作业,那你很可能也会这么想,并且这么做。

可是方法运用得再高妙,如果与你的研究问题不匹配,也是枉然。

更何况许多人对方法只是一知半解。他们真正学会的只是鼓捣出一堆来源可疑的数据,然后扔到统计软件的绞肉机里面,等着漂亮的结果从另一端奔涌出来。

天上真的能掉馅饼吗?不,你只会看到这样的结果。

没错,垃圾进,垃圾出。

因为你的逻辑可能是这样的一个三段论:

大前提:狗都有4条腿

小前提:我家的猫有4条腿

结论:我家的猫是一条狗

你们可能觉得自己学过的东西更高级一些,不会犯这些毛病。

例如学了爬虫,你就可以随心所欲找自己需要的研究数据了。根本无需去伪造数据,或者担心别人填写你的问卷的时候胡乱应付。

学了R,你就可以做出非常漂亮的回归分析结果和图表,甚至能处理时间序列。

学了机器学习,你就可以让机器替你干脏活儿累活儿,帮你快速分析出决策树、做出词云,甚至是做文本情感分析与主题发现……

但是,即便这样,也请你记住——不管多么时髦和高级的工具,也不应该成为你论文选题的起点。把高中数学老师教给你的那一套“分析法思考,综合法证明”的小聪明暂时收起来。否则一叶障目,你就会丧失自己的起点。迷茫的结果就是做出了一大堆劳动成果,却没有解决任何值得解决的问题。

选用了某种方法时,一定要问自己几个问题:

  1. 为什么要使用到这种方法?是因为自己熟悉吗?是因为别人不熟悉吗?
  2. 这个问题是否适合这种方法?有没有其他方法可以更好处理该问题,即便这个方法你并不熟悉?
  3. 你能获取到这种方法需要的数据吗?这些数据通过该方法的处理,能否产生你需要的形式?

选题、做题都是有机会成本的。把时间花费在值得的事物上。切记。

研究要有目的。最重要目的是要解决一个具体或抽象的问题,而且这个问题还应该有价值和意义。

我这样说,不是让你停止学习研究方法。

恰恰相反,方法不仅要学,还一定要多学。但是学过之后,要放弃“一定要应用某一方法”来做研究和写论文的执念。

Anindya Ghose说,只有你掌握的方法足够多了,工具箱里面有各种各样不同工具的时候,你才不会偏执于某一种方法,而是根据问题去筛选合适的解决途径。

方法导向看来对论文选题不合适。怎么办呢?很多人会抢答说“问题导向”啊。

说的没错,但是仅仅说“问题导向”其实并缺乏可操作性。问题从哪里来,该怎样寻找?

通过和一流学者的交流,以及文献的阅读,我梳理出问题来源的以下常见类别:

  1. 文献;
  2. 数据;
  3. 实践;
  4. 协同;
  5. 系统。

下面我来当个导游,带你在不同的问题来源中游览一番。希望聪明的你可以掌握它们,并且找到适合自己的问题寻找途径。

文献导向

做研究、写论文需要读文献,这是常识。

许多研究者会建议你从文献发现问题。这也是一种公认的传统智慧。

被戏称为“洋八股”的研究文献,实际上是学者们跨越时空的对话。这种特殊的对话体例,不仅要求作者去梳理相关的历史文献脉络,还得在论文末尾标出来文章的限制和未来需要做的研究,即所谓“展望”。

很多老师会让学生从这里着手,去发现别人研究局限,然后通过突破这些局限,替别人把展望变成现实,从而做出属于自己的原创性研究。

这个方式好不好?理论上是好的。论文结尾放这么一个部分,本意就是给后来人提供合适的路标和前进方向。

然而,现实往往是复杂的。许多经验丰富的研究者对此心知肚明,却因为各种原因不愿意或者没有合适的办法告诉你。这就是科研的潜规则吧。

现实世界中,那些“限制”、“展望”其实不是实在的路标,而是研究者们望洋兴叹的产物。他们就如同“笑傲江湖”里面的魔教长老一样,手持利斧开山数百丈。所不同的是他们并没有累死,而是停下来,告诉你“嗯,往这个方向走是没错的”。

除非你幸运如令狐冲,否则别指望剩下的山体可以一捅就破。大部分情况下,你恐怕还得另外开山数百丈……

能解决的问题,原先的研究者肯定早已解决完了。谁会把容易解决的问题留着?积攒这些问题和存款不同,不会给你带来任何复利。

更何况,审稿人哪里会对容易解决的遗留问题“高抬贵手”?肯定会穷追猛打,让作者反复磨合,真正解决了它们才肯善罢甘休。

被审稿人和编辑放过的“未解决”问题,要么是非常难以攻克的问题,实在不便强人所难;要么是工作量很大的问题,完全可以自成一体,再写一篇文章。放心,当你有幸在期刊上读到正式发表论文的时候,后一篇文章原作者早已写完了。

这就如同是王戎说李子是苦的一般。如果你运用理性思维琢磨一下,就会发现其中的关窍。

正因这种潜规则,Google首席经济学家,UC Berkeley的教授Hal Varian提出,千万不要在构建完成一个新的模型之前,去寻找和阅读相关文献。

这里有2个考虑:

  1. 好的文献绝不会给你留下容易解决的好线索;
  2. 你的思路会跟着这些走在“主流”上的大牛走,于是彻底钻到一个死胡同里面去。对于本来可以轻易发现的新线索,你会自动忽略它们。

因此,他建议人们先去把模型做出来,然后修正模型到可以接受的简化程度。

有了这样一个模型,再去读文献。这时候可能你会发现数十年前这个问题就有人做过了。

不过不要沮丧,这不是大问题。

这恰恰证明你的独立科研能力已经达到了(至少在当时)可以发表优秀期刊的水平。对于研究的初学者来说,这是一种非常积极的反馈。下面用你的经验去追寻新的问题和模型。如果你的模型和原作者有细微的区别,那就更好了。从这些差别中,可能会做出极其有价值的发现。

另外一位学者,佐治亚理工的吴东军教授(D.J. Wu)提的办法就更有意思了。他的办法属于典型的看热闹不嫌事儿大——让经典文献PK!

文献都不是生物,怎么PK?其实许多文献确实在打架。例如一篇文献A提出某观点。可能一段时间以后另一篇文献B用坚实的证据把该观点驳斥得体无完肤。

人们就倾向于新的文献B观点,奉为圭臬。但是文献A当初是怎么从审稿人的手底下滑过去的?它想必是有合理和可取之处的。

吴老师于是就从这样的文献间冲突出发,用更为全面的模型考虑在哪一种情况下,A的论点依然会成立。从而对经典文献给予(有条件的)支持。

由于文献A和B冲突的公案,他所作的研究意义和价值已经不言自明。因此这是一种非常聪明而有效的文献利用方法。

发现、理解,而且还恰好能重新诠释经典文献冲突,听起来很美妙。然而,并非所有人都有这样的运气和毅力的。所以,为了发现问题,你还需要有其他的手段。例如本次暑期学校的主题——“数据”。

数据导向

如果你手里有好的独特数据,可以尝试从中获得选题。

这次的暑期学校,有半天的时间是编辑-作者交流。由于MISQ的主编Arun Rai和ISR的主编Alok Gupta都在,所以分成了2组,每一组分别有3-4位作者上去展示自己的论文,寻求主编大人的意见。

有位作者展示的是利用Foursquare数据对用户行为做预测的研究。我对该文章感兴趣,是因为我做隐私保护研究,很好奇用户的隐私是不是丝毫剩不下了。

然而其他听众的兴趣点就在于独特的大规模数据获取了。他们从教室一直追问到了路上,问论文作者是如何收集这些数据的。

这位论文作者一下子有些紧张,讳莫如深。似乎害怕这份宝贵的数据很快就要被别人轻易夺走了一般。

这种担心不无道理。大数据时代,数据是不缺的。但是真正有价值的数据,如同沙里淘金一般。

专属的数据不是所有人都能搞到的。有位来自业界的老师,讲解如何和国家税务总局合作,利用发票数据来监控产能过剩问题。方法其实非常简单,只需要筛选出合适的特征就可以——他最后选择的是钢铁和煤炭。他们通过这种方式,不仅给全国企业画像,而且还通过某些指标特征,发现了其他有趣的结果。因为过于有趣,所以在修正的模型里面剔除掉了。

你可能觉得很不服气——这样的问题你也有能力处理啊!问题是,你从哪里搞到如此大规模的专属数据呢?

这个问题咱们后面会谈及。

如果专属数据难以获取,你可以退而求其次,找开放数据。

开放数据中,也有非常适合研究的类别,而且规模庞大。例如Google的Correlate和Trends数据,以及Twitter的Firehose开放数据等。

但是请注意,如果你利用开放数据做研究,速度是非常重要的。这是个竞争激烈的领域,慢了就什么都落不下了。

哈工大管理学院的叶院长,提到了自己研究里面曾经用过的百度数据。当时和Google的相应搜索数据进行比对研究,效果非常好。后来他们团队兴冲冲拿给百度的人看过。对方没说什么,回去就把数据下载的接口给关闭了。

好在高价值开放数据,也不都是“不小心”流出来的结果。

例如Kaggle上面总是有非常规整的数据集,可供你使用。如果你用得好,还能获得价值不菲的奖金。

发布数据的企业疯了吗?白给别人数据,还送钱?

当然不是。企业面临实际问题。他们需要利用数据驱动的方式来解决问题。解决问题,自然也可以聘用咨询师。但是注意咨询师是按照时长而非效果来收费的。与其如此,还不如公开发布数据,让大家来竞赛。用奖金作为杠杆,撬动世界上最优秀的大脑一起竞争解决问题。

从Kaggle的例子里面,你应该明白了一个道理——数据可以给你独特的视角和观察资料,但是其中蕴含的更为重要和有价值的问题,其实源自实践。

实践导向

前面提到过,Hal Varian教授认为不应该从文献里面找问题,而应该把时间花在看似不相干的报纸和杂志阅读上。

他推荐的报刊杂志包括:

  • 纽约时报
  • 华尔街日报
  • 经济学人

他认为,对经济学研究者来说,读这些东西远远比看论文重要。因为它们会提到经济学家感兴趣的实际问题,可是分析过程有时漏洞百出。别人可能一笑置之,但是Hal Varian教授显然不会轻易放过这么好的选题机会。

其实,这就像是在讨论区里面和别人争论。如果你翻来覆去只会说一些大家都知道的内容,没有人会觉得感兴趣。而如果你你能够不断从外界获得新的灵感、信息和见识,那讲出来的内容就可以更轻易地抓住别人的注意力。

除了这些报刊杂志之外,学者们还提到了两个很好的实践问题来源。

第一个就是业界咨询工作。许多好的学者,例如Anindya Ghose和Paul Pavlou等,都是两条腿走路。一条腿在学术界攀登,另一条在企业界做咨询。

咨询,是一定要解决问题的。所以,不用你找,问题自己就找上门来。

在大数据时代,做咨询必然要接触到许多企业数据。例如Ghose拿到了好几家知名的企业做数字广告的效果数据。这些数据不仅数量庞大,而且结构化完整、真实性高,是让你的研究获得竞争优势的重要源泉。

与企业合作,是一种双赢之道。在这个社会上,一定要学会互惠合作。不要尝试做伸手党。

许多老师和研究生都觉得,拿数据是一件非常困难的事情——那些大公司根本就不愿意分享数据给你。

没错,但是你没有看到硬币的另一面。他们其实特别乐意分享数据,只要你的分析能力比他们还高,能给他们更有价值的洞见。

包括中国移动在内的许多中国大型国有企业都对Ghose这样的顶级学者敞开大门、张开双臂,热烈欢迎。

同样的数据,在不擅于分析的人手中,一文不值;到了会分析的人那里,就可以挖掘出不菲的价值。这是个“数(据)中自有黄金屋”的年代。企业解决了实际问题,获得了经济回报;你完成了研究,发表了高水平论文。这便是双赢之道。

可是你作为一个初级研究者,还远远没有那样的积累。大企业还是会把你拒之门外,怎么办呢?

从小处做起,深入进去,帮中小企业解决具体的问题。

我在MSU访学的时候,讲授管理信息系统课的Kizzier教授,就把学生撒出去到main street上挨个儿敲门,帮助企业发现目前系统存在哪些不足,并且想方设法加以改进。学生上课的时候分享这些案例,可以充分体现出“实践出真知”的意义。

获取实践问题的另一种方式是读案例。

前面提到的佐治亚理工吴教授,就让自己的学生去读哈佛案例库,从里面寻找问题。

一个企业案例,能进入哈佛的案例库是非常不容易的。经过层层筛选的经典案例往往代表了业界实践中非常典型的问题。

清华大学宁向东教授讲,他在哈佛读经理培训班的时候,根本就没有教材。每天接触的全都是案例。在哈佛商学院教授派珀看来,“商业世界只有问题,没有理论”。通过读案例,可以让学生找到“想问题的感觉”。

所以你看,一个这么经典而庞大的问题库,与实践结合紧密,理论却缺位。这难道不刚好是研究者们的好机会吗?

然而,据吴教授说,他的博士生里面,愿意听他话的,寥寥无几。有个叫黄涛的听了他的话,真的跑去读案例,于是成了他最为得意的学生。发展得非常好。

看来,听老师的话,有时候也是对的。是吧?

协同导向

暑期学校的最后一天。主办方把Paul Pavlou请了过来。他当时从上一站南非出发,飞了41个小时,到达了哈尔滨。

哈工大的张晓飞博士和华中农大的何德华老师都在课前跟我讲过,Paul是个很牛的学者。只是他们认为学术圈里的掌故,应属于默会的知识,因而并没有具体告诉我他究竟有多牛。

但我这个外行,恰巧就对本应默会的知识一无所知。所以当我看到Paul的演讲,嘴巴张大到合不拢了。

别人做学术报告,顶多是用自己的几篇文献来讲解具体的研究。或者把心得和其他学者的观点熔于一炉,娓娓道来。

Paul不是。

他介绍了移动互联网领域的几大重点研究方向。每一个研究方向,都对目前的一些顶级期刊文献进行点评。

他很谦卑地说,因为批评别人的作品是一件比较困难的事儿。因此——就批评自己的作品吧。

然后,在每一个类别下面,他都批评了几篇自己的作品。这样的幻灯页面有十好几页。他确实没有办法细讲,因为他发表过的顶级期刊(MISQ, ISR和MS等)研究成果过多。每篇讲多了的话,肯定得超时。

作为图情专业的研究生,你们平时主要关注国内文献(虽然我不止一次告诉你,要看英文文献。尤其是中文文献找不到,不意味着文献找不到),可能对这些国外期刊不是很熟悉。为了让你们能有个切身感受,咱们打个比方。好比一位国内图情学者,介绍自己近几年的研究,列出了三四十篇文献,全都发表于《中国图书馆学报》、《情报学报》、《中国社会科学》和《管理世界》上……明白有多厉害了吧?

惊呆之后,我决定问个问题。中场休息的时候,坐在第一排的我一个箭步蹿上台,问了这个颇为幼稚的问题:

“别的学者总说质量和数量是一对矛盾,要做权衡取舍。我看你在保证质量的同时有这么高的数量。你一定有秘诀吧?”(还不快快告诉我?!)

Paul笑了。说其实没有什么秘诀,也就是3条:1. 得努力工作,不能过于努力而耽误了生活,但是也得足够努力;2. 研究的问题要通俗易懂和有趣,这样才能做得下去;3. 要找靠谱的合作者。其实最近这几年他并不想出这么多文章,但是合作者(包括同事、博士生和刚刚毕业的博士)不干。他们要拿终身教职,所以一个个干劲儿十足,拽着他往前冲。

我一下子明白了合作者的重要性。他们所能提供的,不仅仅是独特的知识、方法和观察视角,也有一种动力。

然而,为什么Paul这种质量与数量齐飞的情况并不多见呢?

从他的讲述中,我悟出了关键点——扎实的基本功。他的博士做了很长的时间,在这么长的博士基本功训练里,他什么研究方法都要认真掌握,然后反复磨练。他能处理一个大领域中不同的科研问题,所以合作的界面非常好,沟通带宽足够高。

对于自己的这种能力,他用了“幸运”一词,但是我相信用他的“努力”一词会更好些。

当他足够优秀,功成名就之时,马太效应会吸引更多优秀的人愿意跟他合作。于是他的声望就达成了一种正反馈循环。这一部分你们要想得到,还需要足够长的时间积累。但是在学期间扎实学些东西,还是很必要的。

从Paul这里我领悟到了许多。然而,因为时间关系,他虽然把一条清晰的脉络展现在了听众的面前,却没有着重去讲他选题的另外一个重要成功心法。幸好,来自佐治亚理工的吴老师给我们补上了这一课。

系统导向

吴教授的问答时间里,我说了一句实话——“您讲之前我都困了,您讲完我都不困了!”

本来嘛,大热天的,一上午听课后,中午刚吃过午饭,1点钟就上课,一直到下午4点,中间只休息一次。下午能不困吗?

但是吴老师却有办法把大家弄得特别精神。因为他非常幽默。

吴老师的讲座里面有两条主线:

  1. 批评自己的研究生。说因为他跟自己的研究生们讲话没人听,所以跑到世界各地给别人讲,别人听了获得了成功,就可以拿过来当榜样教育自己的学生;
  2. 夸自己的儿子。吴老师的儿子非常优秀,被藤校提前录取。介绍完儿子的成长经历后,课后问答时间许多老师跑上去问育儿经。搞得吴老师只好推说孩子平时都是太太管教。

但是,他讲自己儿子的故事,却他自己和观众都带来了启发。

将近10年前,他儿子还很小的时候。爷俩喜欢下国际象棋。

吴老师下棋时似乎没有什么风度。最大的乐趣就是一个个吃儿子手里的车马小卒,看着儿子干着急,他乐不可支。

但是,那一次。儿子的举动让他惊呆了。

他依然欢乐地吃儿子手里的棋子。儿子却突然抬头,自信地告诉他“爸爸你输了”。

他吓了一跳,旋即觉得是小孩子的臆想。自己这边兵力充足,子数占优啊。

但是这盘棋的结果,却真的是儿子赢了。

吴老师不解,问儿子凭什么做出的判断?

他儿子说,因为自己的布局已经完成了。虽然损失了一些棋子,但是这个局已经锁定了最终的胜负。

吴老师当时立即悟出了后面几年的科研路径——要布局。

吴老师追求的布局结果,早几年想明白道理的Paul已经做到了。

在一个领域的每一个方向上,都占领关键点。这要求你对于该领域有全面深刻的了解,并且能够预测之后一段时间可能的发展。当你占领了这些战略要冲之后,别的学者的任何研究突破,都必须以你这些关键点作为基石。那么被引率想不高都难啊。

清华大学的宁向东教授就一直在强调“格局”二字。在他看来,“格”是个动词,“局”是名词,作为宾语。

一个领导者所做的,应该是具备“格局”的能力和智慧,才能充分地调动各种资源为自己所用。

而Paul也强调了这个问题,说一个学者,应该具有”entrepreneurship”。也就是说,好的学者也该是好的领导型管理人才。

对于关键点的占领,有趣的例子是科斯的论文。当年科斯提出著名的“科斯定律”那篇论文,因为过于突破传统认知,导致经济学界骂声不绝。但只要打算骂他,就得引用他那篇文章,几十年间他的文章被引用的次数过于惊人。然后科斯就拿到了诺贝尔经济学奖。

看到这里,你是否已经做好写篇文章,被别人痛批40年的准备了?

小结

本文我们总共列举了六种科研选题的导向。其中方法导向你应该避免使用,而其他的五种导向都可以借鉴。

复习一下,它们分别来自于:

  1. 文献;
  2. 数据;
  3. 实践;
  4. 协同;
  5. 系统。

要注意它们独特的应用场景,以及和你的现状相结合。

希望这些介绍,对于你的论文选题有所帮助。

但是,即便你用这些套路找到了合适的选题,却也不是完事大吉。

你如何知道你选的题目适合你去做呢?你如何确定你的题目有意义、有价值呢?你的假设如何用最低成本,最高效率来验证呢?

一篇文章,不可能涵盖所有的问题。从专家那里获得的答案和自己的一些思索,我会在后续文章中渐次展开,跟你讨论。

祝夏安!

讨论

除了本文中列出的六种导向,你还知道哪些做科研选题的方略?这些方法你实际使用过吗?有什么值得借鉴的经验,或者应当吸取的教训呢?欢迎留言分享给大家,我们一起交流讨论。



http://blog.sciencenet.cn/blog-377709-1067569.html

上一篇:如何用Python做舆情时间序列可视化?
下一篇:MOOC教学,什么最重要?

32 苏德辰 王从彦 李满枝 张启峰 左小超 强涛 郑凯平 赵克勤 李永冲 赵帅飞 黄永义 沈律 罗汉江 余钧 彭真明 张红光 胡涛 唐小卿 姚伟 万润兰 梁洪泽 于志强 彭贯军 李娜 何培龙 李兵 taoshl xlsd wqhwqh333 zhjq2016 zhaomeidev yangb919

该博文允许注册用户评论 请点击登录 评论 (19 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-3-20 17:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部