大工至善|大学至真分享 http://blog.sciencenet.cn/u/lcj2212916

博文

[转载]【机器学习开放项目】电子邮件标注数据集

已有 1390 次阅读 2019-2-11 09:12 |系统分类:科研笔记|文章来源:转载


本数据集提供了一组电子邮件的集合。

The datasets provided below are sets of emails. 


目的是确定电子邮件中的哪些部分会涉及到人名

The goal is to identify which parts of the email refer to a person name. 


此任务是信息提取在一般问题领域的一个示例。

This task is an example of the general problem area of Information Extraction.


项目思路:

将任务建模为一个序列标记问题,其中每个电子邮件都是一系列标记,每个标记都可以有一个“人名”或“非人名”标签。

Model the task as a Sequential Labeling problem, where each email is a sequence of tokens, and each token can have either a label of "person-name" or "not-a-person-name".


电子邮件数据集网址:

http://www.cs.cmu.edu/~einat/datasets.html


小论文:从电子邮件中提取个人姓名:将姓名识别应用于非正式文本

Extracting Personal Names from Email: Applying Named Entity Recognition to Informal Text


下载论文地址:

http://page2.dfpan.com/fs/blcaj2921529716f8d4/ 


更多精彩文章请关注微信号:qrcode_for_gh_60b944f6c215_258.jpg




https://blog.sciencenet.cn/blog-69686-1161604.html

上一篇:[转载]【读书2】【2014】基于MATLAB的雷达信号处理基础(第二版)——雷达散射截面的统计描述(9)
下一篇:[转载]【源码】三维几何工具箱geom3d
收藏 IP: 223.104.147.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 20:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部