《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

言多必露,文本挖掘可以揭示背景信息

已有 5792 次阅读 2011-7-11 01:03 |个人分类:立委科普|系统分类:科普集锦| 文本挖掘, 信息抽, ”尘

言多必露,挖掘有商用价值的背景信息

文本挖掘(text mining)中,Demographic Profile Extraction 的任务是要给网虫自动分类,揭示其背景信息(年龄,性别,身份,族裔,人生阶段,家庭背景等)。

一些简单的规则,查准率高(high precision),查全率并不高(moderate recall),譬如:

I am X --> X (student, teacher, engineer, etc)
as X --> X (student, teacher, engineer, etc)

简单的 my+Y 型规则也很有意思:

my pet/dog/cat/... --> pet owner
my university/college --> college student (or employee)
my daughter/son/kid/... --> parent

如此简单的信息抽取也可能很有效,原因是如今有的是数据:每个ID发言的全部档案都可以让系统过一遍,东方不亮西方亮。只要你是一个饶舌的网络活跃分子,除非你刻意隐瞒自己的身份,散布虚假信息(多数社会网络的网友不属于此类),你的背景信息迟早会暴露出来。所谓言多必露。

与恶意人肉搜索不同,企业感兴趣的背景信息并不是针对任何ID本人,而是针对群体分类,着眼于商用价值。譬如,对于 pet owner 类的网民,可以有针对性地投放广告,达到广告效应的最优化。同理,如果抽取出ID的身份或与其相关的重要生活事件(life events: e.g. graduation, marriage, child-birth, job-change, relocation, retirement),商业价值不言而喻。

价值很大,可行性没大问题,这就是技术的力量。

Related post:



https://blog.sciencenet.cn/blog-362400-463628.html

上一篇:“废医”的理由明白么?
下一篇:中医号脉判断怀孕
收藏 IP: 192.168.0.*| 热度|

5 吴吉良 唐常杰 武夷山 DXY1234 zzjtcm

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 16:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部