图谋博客分享 http://blog.sciencenet.cn/u/libseeker 图谋,为图书馆学情报学谋,为图书情报事业谋。

博文

新书推介:黄水清《大规模现代汉语分词语料库构建与应用》

已有 230 次阅读 2024-6-30 12:56 |个人分类:圕人堂|系统分类:博客资讯

图谋推介语:

       语料库是人工智能算法的训练集,直接决定了机器学习的运算效果。黄水清、王东波《大规模现代汉语分词语料库构建及应用》是用语料库和统计方法研究现代汉语的著作,它的出版证明了使用语料库和统计方法来研究语言,是完全可行的。我们应当提倡这样的方法。

图书信息:黄水清,王东波.大规模现代汉语分词语料库构建与应用[M].南京大学出版社,2024. ISBN:9787305271489

黄水清《大规模现代汉语分词语料库构建与应用》.png

内容简介:语料库是人工智能算法的训练集,直接决定了机器学习的运算效果。本书在系统综述语料库构建情况的基础上,选取2015年1-6月、2016年1月、2017年1月、2018年1月、2022年1月共10个月的《人民日报》发表的全部文章为对象,制定分词规范,经过对原始数据的多次清洗、标注和校对,构建了新时代《人民日报》语料库。基于所构建的人民日报分词语料库,对新时代《人民日报》的字、词分布进行了多个维度的统计与分析,深入研究分词不一致问题。同时,开展了以下应用研究:结合深度学习模型,构建了具有实用价值的深度学习分词模型;结合系列机器学习模型,完成了对新时代《人民日报》语料的关键词抽取及分析;围绕所构建的新时代《人民日报》语料,利用深度学习模型,探讨摘要的自动生成问题;针对《人民日报》版面已有的类别知识,充分利用所构建的《人民日报》分词语料,构建了《人民日报》类别自动判定模型。

作者简介:

黄水清,南京农业大学信息管理学院二级教授、博导,江苏省“333高层次人才培养工程”第二层次培养对象。主持国家社科基金重大和重点项目。获教育部、江苏省科技进步二等奖、江苏省哲社优秀成果一等奖。研究方向为文本信息计量等。

王东波,南京农业大学教授,博导。主持国家自然科学基金、国家社科基金重大项目。江苏省“333高层次人才培养工程”第三层次培养对象。研究方向为知识管理与知识发现。

网上书店(仅供参考):

大规模现代汉语分词语料库构建及应用.https://item.jd.com/14637378.html



https://blog.sciencenet.cn/blog-213646-1440370.html

上一篇:俞立平:人文社会科学的基本特征
收藏 IP: 180.105.35.*| 热度|

4 郑永军 宁利中 刘进平 杨正瓴

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-30 21:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部