遇到的问题: 从近期的论文来看,web信息可信度研究,主要针对于twitter、wikipedia、yahoo!society、Blog。这些研究主题依赖于数据集,离开了数据集,实验部分就是空谈。Twitter的数据集在国内不太容易获得,而对wikipedia、yahoo!society、Blog的研究,用到了大量自然语言处理的方法,与我们实验室方向有一定的偏差。如何在有限的数据集的条件下,结合实验室研究方向做研究,是需要考虑的问题。
还有针对于搜索结果的可信度研究。这方面基本上是日本的几个大学在做,是基于系统的应用,不是纯理论的研究。他们拥有比较强大的硬件支持,并且系统已经具有原型,并在不断改进中,没改进一次,就发表一篇论文。这方面我们有些望尘莫及。
解决思路:
1、小马师兄提出一个思路:唐杰的团队正在做一个“异构网络”的研究,它的数据集是论文。这样的数据集很容易获取,而且格式非常规范。
2、从国内的社交网站出发,先在新浪微博上做实验,成熟之后再转向Twitter。
3、学习日本的研究方式,以应用带动研究。
https://blog.sciencenet.cn/blog-795423-622405.html
下一篇:
Reading list 1(不断更新)