duskwaitor的个人博客分享 http://blog.sciencenet.cn/u/duskwaitor

博文

2019年工作计划的对账单

已有 1472 次阅读 2020-4-21 10:24 |个人分类:小体会|系统分类:科研笔记

转眼2020年第二季度就到了,翻一下旧帐本对对帐,看看2019的年度计划完成情况。

1. 算法

手头上有四个算法正在弄

a.BiGRU-Attention-General CRF用于语义关系抽取;

b.专利无效算法;

c.科技查新相关文献探测算法;

d.层次多标签自动标注算法。

2019年的任务,就是要把这四个算法弄完。

对账:

a.方案失败,后来换了若干方案,最后用BiGRU-Attention和GCN联合才把问题搞定,效果提升将近5个百分点,不得不承认,现在大火的图卷积神经网络香啊!

b.专利无效算法分为两个步骤,第一是检索对比文献,第二拿着对比文献去无效目标专利,第一个步骤效果还可以,第二个步骤失败,结果不收敛性,收获就是对专利无效判别的理解有所深入,这是个超出目前技术边界的复杂问题。

c.完成,我们学生的相关硕士论文还拿到了不错的分数,开心!

d.把问题简单化了,转化成常规的multi-label分类问题,用BiGRU做了下,在ipc小类级别的F1大概64%,至于当初做这个算法的初心,用训练好的patent classification lda来反推ipc分类标签,完全丢一边了,因为相比深度神经网络,我对主题模型的效果实在没信心。

2.专著

拿效果好的算法,再结合之前做的工作,梳理出一本专著出来。

对账:

专著按照9章准备,大概内容安排如下

1)起头(完成20%)

2)主题模型与专利关键词抽取(完成50%)

3)专利文本中的信息抽取(完成)

4)如何提升专利文本中的关系分类效果(完成)

5)语义信息加持的主路径分析法(完成)

6)专利人名消歧(完成)

7)专利术语与关联规则挖掘(完成)

8)专利无效判别(完成40%

9)结尾(没动)

专著真正开始写是2020年春节放假的日子,这段时间进度很快,不过搞太猛了,两三个星期下来肠胃的毛病又犯了,这才把节奏往下降降。不过不管怎么说,专著主体框架已经有了。

3.文章

期刊文章1篇。

会议文章来2-3篇,今年可以投稿和参加的会议很多,比如CCKS,SMP,尝试投下顶会如CIKM/IJCAI/EMNLP/ASIS&T。

对账:

期刊文章:写了一篇英文期刊论文投scientometrics,目前处于复审状态;

会议文章:一篇没写,因为真正临投会议时候,才发现SCI期刊仍然是第一优先级,会议文章(至少在本学科如此,计算机学科另当别论)主要起一个交际作用,向别人证明我还活着,仍然坚持搞研究而不是改行搞行政或者搞工程拉项目去了,会议文章的内容肯定不是你这段时间的主打内容,那个是要留着发期刊文章的,会议内容应该是主打内容中的前奏,边角碎料或者延伸,是用来给主打内容做广告的。而我的主打内容还没完成发表,会议文章就更不着急了。


总结:

总体来说,去年的工作计划完成得不算彻底,但还可以,虽然有相当一部分工作拖延到了2020年还在做,希望今年能看到这些工作的产出。



https://blog.sciencenet.cn/blog-724521-1229391.html

上一篇:捋一捋2019年剩余时间的工作计划
下一篇:共享一个用于信息抽取的专利标注数据集
收藏 IP: 123.116.89.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 22:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部