|||
读《专利知识挖掘关键技术研究》有感
最近在亚马逊上发现一本新书,是北京工业大学翟东升老师的《专利知识挖掘关键技术》,这本书我从购得到读完近花费了一天的时间,但期间可以说是废寝忘食的。写的非常不错,原因有如下几点:
1. 该研究非常有理论和现实价值。该书完整的概括了“专利信息构建——专利信息整合——专利信息分析——专利信息应用”的全过程。而且并不是一个理论上的构建过程,而是从实践层面,一步步告诉我们如何实现这些步骤。
2. 从专利信息构建上说,该书介绍了如何利用网页信息抓取技术对专利数据进行获取及其过程。尤其是其中的2.3.3.4“文档解析抽取与专利基本数据映射”的内容,很值得仔细研究。
3. 从专利信息整合过程研究上说,利用SQL SERVER的SSIS服务实现了专利数据的整合与清洗过程,无论是逻辑框架的设计还是异质数据结构之间的关联都体现了极高的专业性。
4. 专利信息分析部分,是非常棒的一部分,尤其是对不同数据的处理、清洗流程尤其值得学习、借鉴,同时,该书利用SSAS实现了专利统计分析功能的做法,以及利用CLEMENTINE实现文本挖掘的做法,都有很多经验值得学习和借鉴。
5. 专利信息应用。该书类似于一本面向专利知识挖掘关键技术的实用指南,书中没有很多高深的理论,但有着将理论转为为实践的具体操作步骤,而这些实用指南恰恰是目前国内进行专利分析研究最欠缺的。
在读这本书的过程中也发现存在一些可以发展的地方:
1. 该书中主要是以专利信息抓取的方式来构建专利信息仓库的,但实际上,目前,USPTO早已经将自己的专利数据完全公开了,为何作者不考虑直接以原始的USPTO数据作为专利信息源?
2. 另外一个问题是在专利信息整合上,文中对于USPTO以及DII数据进行一定的整合,但在专利分析实践过程中,信息整合往往要面临更为复杂的状况。USPTO只代表了全球少数的专利(假设约10%吧),DII虽有40多个国家的专利,但DII数据的信息只包含为数不多的几个著录项,如果真正做技术竞争情报的挖掘是不够的,需要在更大的范围上整合国别专利信息资源。因此,是不是至少应该将JPO,EPO的数据考虑进来。但整合不同国别数据库的过程是非常复杂的,是很需要进一步研究的。
3. 在专利信息分析部分,该书通过SQL SERVER的分析和报表模块实现了大多数的专利统计分析功能,然而对于网络分析方面的一些指标则尚未考虑进来。例如合作、共引、耦合等。
其实,本人只所以要写这么一段文字,是因为十分认同作者的工作,对该书作者的一种致敬。完成这么一本著作是一个非常不易的过程,其中的辛苦也许只有作者本人知晓,但书中的宝贵经验也会激励我们这些在专利信息分析上的后来人。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-8 12:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社