|||
最近,大数据一词炒的很热,我不知道专利数据是否能算做大数据,但我认为是很接近的。
原因有几条:
1. 专利数据很复杂,远超过论文数据库的信息复杂度。
2. 上百年来积累的数据量也不小。根据PATSTAT的统计(不含全文),题录数据约包含170G(截止2013年6月)。
3. 其中,包括技术分类、法律状态、引文数据、专利权人、发明人等好多数据。
4. 就引文数据而言:
USPTO 自1947年,共有665万专利具有参考引文,引用了7898万专利和1521万非专利引文;
EPO 自1978年,共有178万专利具有参考引文,引用了776万专利和229万非专利引文;
JPO 自1965年,共有370万专利具有参考引文,引用了1047万专利和2万非专利引文;
这个数据很有趣,值得仔细分析,近年来,相关文章也不少。推荐一篇OECD的工作报告:
最近EPO有一个对全球专利引文的统计,可以作为参考。以前这方面数据公布的不多,也没有这么细致。
这里面包含了一个引文来源的统计。将引文来源分为7类:
SEA:通过检索获取的引文;
APP:由申请人提供的引文;
EXA:由审查员提供的引文;
OPP:异议过程提供的引文;
115:根据ART 115 EPC 提供的引文;
ISR:来源于国际检索报告的引文;
SUP:来源于补充检索报告的引文;
CH2:来源于PCT第2阶段(国际阶段)的引文;
PRS: 预检索引文(在官方出版之前可获得的引文)
(图可以下载后观察)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-7 06:26
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社