科学网

 找回密码
  注册
共享一个用于信息抽取的专利标注数据集
陈亮 2020-9-6 07:10
最近把我们用于信息抽取的专利标注数据集放到github上共享了,地址: https://github.com/awesome-patent-mining/TFH_Annotated_Dataset 。 另外搭建了两个brat平台,其一用以浏览TFH_Annotated_Dataset标注数据, http://121.36.92.58:8001/ , 其二用于浏览TFH_Annotated_Dataset所训练模型在新专利文本上的预 ...
个人分类: 文本挖掘|2419 次阅读|没有评论
Mean Field Variational Inference终于在我的大马尔科夫网上work了
陈亮 2019-1-7 19:08
我在 Brown University CS242 homework 5上 花了大概20天(当然是业余时间)左右,虽然结果仍然遗留了一个小尾巴,但对Mean field variational inferece在MRF/CRF上如何应用,算有一个清晰深入的认识,同时也学到一些小trick,比如如何解决计算exp(x)和log(x)时内存溢出的问题,同时发现原来CRF/MRF在多标签分类问题上 ...
个人分类: 文本挖掘|2839 次阅读|没有评论
文本挖掘实践小体会(二)
陈亮 2014-7-7 14:24
说到文本挖掘,python是不得不提的部分,python有一个自然语言工具包叫gensim,里面实现了很多功能如去停用词、词干提取、词性标注,同时可以很方便地将文档转化为向量,同时它也实现了LDA、LSA、TF_IDF等模型,确实是文本挖掘的利器,不过遗憾的是,我对python不熟,虽然我不认为学习一门计算机语言需要多 ...
个人分类: 文本挖掘|5611 次阅读|没有评论
文本挖掘实践小体会(一)
热度 1 陈亮 2014-7-7 00:01
虽然我早先了解一些文本挖掘的知识,但实际开始着手操作也就一年多的时间,这期间有些收获,但更多的是吐槽,遇到问题很多,使用过的工具、方法也不少,但至今并没有形成一套完整的工具,还是小作坊式的在处理一些文本挖掘的事情,不能不说遗憾,今天写这些,是对我以往工作中一些心得的总结,更为自己以后 ...
个人分类: 文本挖掘|5224 次阅读|3 个评论 热度 1

本页有 2 篇博文因作者的隐私设置或未通过审核而隐藏

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 03:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部