||
转眼2020年第二季度就到了,翻一下旧帐本对对帐,看看2019的年度计划完成情况。
1. 算法
手头上有四个算法正在弄
a.BiGRU-Attention-General CRF用于语义关系抽取;
b.专利无效算法;
c.科技查新相关文献探测算法;
d.层次多标签自动标注算法。
2019年的任务,就是要把这四个算法弄完。
对账:
a.方案失败,后来换了若干方案,最后用BiGRU-Attention和GCN联合才把问题搞定,效果提升将近5个百分点,不得不承认,现在大火的图卷积神经网络香啊!
b.专利无效算法分为两个步骤,第一是检索对比文献,第二拿着对比文献去无效目标专利,第一个步骤效果还可以,第二个步骤失败,结果不收敛性,收获就是对专利无效判别的理解有所深入,这是个超出目前技术边界的复杂问题。
c.完成,我们学生的相关硕士论文还拿到了不错的分数,开心!
d.把问题简单化了,转化成常规的multi-label分类问题,用BiGRU做了下,在ipc小类级别的F1大概64%,至于当初做这个算法的初心,用训练好的patent classification lda来反推ipc分类标签,完全丢一边了,因为相比深度神经网络,我对主题模型的效果实在没信心。
2.专著
拿效果好的算法,再结合之前做的工作,梳理出一本专著出来。
对账:
专著按照9章准备,大概内容安排如下
1)起头(完成20%)
2)主题模型与专利关键词抽取(完成50%)
3)专利文本中的信息抽取(完成)
4)如何提升专利文本中的关系分类效果(完成)
5)语义信息加持的主路径分析法(完成)
6)专利人名消歧(完成)
7)专利术语与关联规则挖掘(完成)
8)专利无效判别(完成40%)
9)结尾(没动)
专著真正开始写是2020年春节放假的日子,这段时间进度很快,不过搞太猛了,两三个星期下来肠胃的毛病又犯了,这才把节奏往下降降。不过不管怎么说,专著主体框架已经有了。
3.文章
期刊文章1篇。
会议文章来2-3篇,今年可以投稿和参加的会议很多,比如CCKS,SMP,尝试投下顶会如CIKM/IJCAI/EMNLP/ASIS&T。
对账:
期刊文章:写了一篇英文期刊论文投scientometrics,目前处于复审状态;
会议文章:一篇没写,因为真正临投会议时候,才发现SCI期刊仍然是第一优先级,会议文章(至少在本学科如此,计算机学科另当别论)主要起一个交际作用,向别人证明我还活着,仍然坚持搞研究而不是改行搞行政或者搞工程拉项目去了,会议文章的内容肯定不是你这段时间的主打内容,那个是要留着发期刊文章的,会议内容应该是主打内容中的前奏,边角碎料或者延伸,是用来给主打内容做广告的。而我的主打内容还没完成发表,会议文章就更不着急了。
总结:
总体来说,去年的工作计划完成得不算彻底,但还可以,虽然有相当一部分工作拖延到了2020年还在做,希望今年能看到这些工作的产出。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 18:47
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社