||
2019年上班伊始,我给自己定了一个年度计划
1. 算法
手头上有四个算法正在弄
a.BiGRU-Attention-General CRF用于语义关系抽取;
b.专利无效算法;
c.科技查新相关文献探测算法;
d.层次多标签自动标注算法。
2019年的任务,就是要把这四个算法弄完。
2.专著
拿效果好的算法,再结合之前做的工作,梳理出一本专著出来。
3.文章
自从拿到自科基金和评上副高后,我开始反思写文章的意义,反思的结果是之前写的文章都没有意义,为评职称而写,码字灌水,没有解决实际问题,白白浪费自己时间和读者时间,然后就准备潜心搞些有用的东西,话说这一潜心2年没任何文章成果。
不过这两年确实做了不少功课和积淀,是到弄点东西发发声的时候了。
期刊文章肯定是要来一篇。
会议文章来2-3篇,今年可以投稿和参加的会议很多,比如CCKS,SMP,尝试投下顶会如CIKM/IJCAI/EMNLP/ASIS&T。
如今已经是2019年5月4日,回顾下自己的计划。
1. 算法
a.BiGRU-Attention-General CRF用于语义关系抽取
进展情况:
方案一: BiGRU-2Attention-General CRF已经实现了,具体是先训练BiGRU-Attention模型,然后跑出的结果作为输入放入General CRF中接着训练,但效果并不好,两个阶段两次训练,过拟合比较严重,遂修改形成实验方案二;
方案二: 将General CRF替换成CRFAsRNN,来解决BiGRU-Attention和General CRF之间导数无法传递的问题(为什么导数无法传递?因为对General CRF求参过程中使用变分推断方法做了近似),从而将这两个模型的训练合二为一,但效果依然不好,遂修改形成实验方案三;
方案三: 方案三效果还可以,总体关系分类F1值提升了约1.5%个百分点,如果只说相似度网络连接起来的样本集合,F1值提升了将近4个百分点,自科项目结题已经足够了,至于模型情况,由于文章还没发表就先不说了。
b.专利无效算法
进展情况:
带学生正在搞,专利无效算法共分两个步骤,第一是筛选目标专利的相关文献,第二是拿到相关文献,判断能否将目标专利无效掉,目前第一个步骤大致已经做完,F1值在70%左右,一个有趣的结论是在筛选目标专利的相关文献时,专利说明书比专利摘要起着更重要的作用;第二个步骤正在进行中。
c.科技查新相关文献探测算法
进展情况:
这块算法的F1值已经快到80%了,出乎意料,原来我觉得能做到70%已经非常满意了。
d.层次多标签自动标注算法
进展情况:
层次多标签自动标注最开始打算使用主题模型来做,具体方案就是将我之前提出的Patent Classification LDA模型拓展一下,应用到层次多标签预测上面,但自从搞了两年深度学习后,我对主题模型的效果实在没什么信心,与其在一个可以预见的效果不行的模型上花功夫,不如简单粗暴,将层次多标签预测任务简化为多标签预测任务直接上深度学习,具体使用BiGRU,目前F1值在64%左右。
2.专著
多标签分类一章可以先写一下,不过目前内容都是拿现成模型在专利数据上跑了一下,后续肯定得创新,至于怎么创新由于方案还只是个构思,就先不说了。
语义关系抽取一章可以写一下,趁热打铁,赶紧把这段时间的工作记录一下。
3.文章
check了一下CIKM/IJCAI/EMNLP/ASIS&T的投稿deadline和地址,也就CIKM合适,地点北京,时间9月3日到7日,摘要Deadline5月15日,全文deadline5月22日,满打满算18天的论文准备时间,可以搞。
国内CCKS在杭州召开,时间是8月24日到27日,不过目前投稿deadline还没有出来,这个不着急,退一步来讲文章即便不投也没关系。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 12:33
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社