|||
上午收到一个标题为“计量语言学”的邮件,觉得这个词到新鲜,第一感觉是不是有人推荐了这个方面的新文章过来,点开邮件一看,内容如下(为避再次广告,略作涂改,:)):
注:(为避免再次广告,略作涂改,:)。
看到这个,让我对垃圾邮件有了新看法,发现垃圾邮件服务也不容易,为了对抗邮件服务商的邮件过滤、欺骗用户去点击,他们也搞起了“个性化服务”,邮件标题加上用户可能感兴趣的关键词,并且正文用图片形式表达,让用户上当,让邮件服务商无法从正文上进行邮件过滤,正所谓“道高一尺,魔高一丈”。
我想垃圾邮件能进行这样的“个性化垃圾邮件服务”,可能是在收集了大量的用户邮件地址后,根据这个邮件地址到互联网搜索,将返回结果进行信息提取,得到与每个邮件相关联的“关键词”,然后套上关键词进行垃圾邮件群发,类似于SEO做的事情。 从本质上来说,这种方法只是从邮件标题上欺骗用户,并未真正实现个性化“服务”。
正是这样,也促使了邮件过滤研究领域产生了新的研究话题(可能已经有人在研究了),如何结合OCR进行有效的邮件过滤,若一看到正文是个图片就认为是垃圾邮件,这显然不靠谱,因为很多时候有些人还是刻意用图片发一下内容,防止对方的操作系统不支持一些字符编码的正常显示。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 11:07
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社