|||
一些简单的规则,查准率高(high precision),查全率并不高(moderate recall),譬如:
I am X --> X (student, teacher, engineer, etc)
as X --> X (student, teacher, engineer, etc)
简单的 my+Y 型规则也很有意思:
my pet/dog/cat/... --> pet owner
my university/college --> college student (or employee)
my daughter/son/kid/... --> parent
如此简单的信息抽取也可能很有效,原因是如今有的是数据:每个ID发言的全部档案都可以让系统过一遍,东方不亮西方亮。只要你是一个饶舌的网络活跃分子,除非你刻意隐瞒自己的身份,散布虚假信息(多数社会网络的网友不属于此类),你的背景信息迟早会暴露出来。所谓言多必露。
与恶意人肉搜索不同,企业感兴趣的背景信息并不是针对任何ID本人,而是针对群体分类,着眼于商用价值。譬如,对于 pet owner 类的网民,可以有针对性地投放广告,达到广告效应的最优化。同理,如果抽取出ID的身份或与其相关的重要生活事件(life events: e.g. graduation, marriage, child-birth, job-change, relocation, retirement),商业价值不言而喻。
价值很大,可行性没大问题,这就是技术的力量。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 21:46
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社