博文

言多必露，文本挖掘可以揭示背景信息

已有 5501 次阅读 2011-7-11 01:03 |个人分类:立委科普|系统分类:科普集锦| 文本挖掘, 信息抽, ”尘

言多必露，挖掘有商用价值的背景信息

文本挖掘（text mining）中，Demographic Profile Extraction 的任务是要给网虫自动分类，揭示其背景信息（年龄，性别，身份，族裔，人生阶段，家庭背景等）。

一些简单的规则，查准率高（high precision），查全率并不高(moderate recall)，譬如：

I am　X --> X (student, teacher, engineer, etc)
as X --> X (student, teacher, engineer, etc)

简单的　my+Y 型规则也很有意思：

my pet/dog/cat/... --> pet owner
my university/college --> college student (or employee)
my daughter/son/kid/... --> parent

如此简单的信息抽取也可能很有效，原因是如今有的是数据：每个ID发言的全部档案都可以让系统过一遍，东方不亮西方亮。只要你是一个饶舌的网络活跃分子，除非你刻意隐瞒自己的身份，散布虚假信息（多数社会网络的网友不属于此类），你的背景信息迟早会暴露出来。所谓言多必露。

与恶意人肉搜索不同，企业感兴趣的背景信息并不是针对任何ID本人，而是针对群体分类，着眼于商用价值。譬如，对于　pet　owner　类的网民，可以有针对性地投放广告，达到广告效应的最优化。同理，如果抽取出ID的身份或与其相关的重要生活事件（life events: e.g. graduation, marriage, child-birth, job-change, relocation, retirement），商业价值不言而喻。

价值很大，可行性没大问题，这就是技术的力量。

《立委科普：机器八卦》

【置顶：立委科学网博客NLP博文一览（定期更新版）】

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-463628.html

上一篇：“废医”的理由明白么？
下一篇：中医号脉判断怀孕