complexityworld分享 http://blog.sciencenet.cn/u/pb00011127

博文

爬虫技术的法律边界

已有 1819 次阅读 2019-11-8 12:25 |系统分类:观点评述

最近,很多大数据的企业都因为非法使用“爬虫技术”受到法律制裁或导致负面结果的调查,包括同盾科技、51信用卡、摩羯科技、新颜科技、公信宝、聚信立、公信宝、存信、信用管家等等(完整的名单长得可以盘在腰间)!爬虫技术似乎一下子披上了魔鬼的外衣,甚至感觉这个技术本身就已经和违法不可分了。最近,我读了一些相关的分析,特别拜读了李慧敏和冉德勇写的《论爬虫抓取数据行为的法律边界》一文。下面我结合这些学习材料和我自己工作的经验,谈一下自己的观点。

 

第一,爬虫技术是一项价值巨大的好技术!我认为爬虫技术是在信息过载的时代我们能够高效获取有价值的关键技术(价值超过PageRank及其变体),如果没有爬虫技术,就不会有搜索引擎,很多重要的互联网应用也不可能。作为一个研究人员,我非常感谢爬虫技术,举个例子,如果没有这个技术,我觉得NLP这些研究都将变得非常昂贵和困难!每一个用互联网的人都要感谢这个技术,这个技术即便能被坏人用来做坏事,但是其产生的破坏远远不如贡献,就好像我很难想象中国“禁刀”或“禁机动车”,尽管这无疑会降低一些恶性案件和交通事故。所以,普罗大众不要一边享受爬虫技术带来的福利,一边给这个技术泼污水。

 

第二,很多网络上提到的因“爬虫”获罪的企业和个人实际上使用了其他不正当的黑客技术。目前报导的很多案例,所获取的非法信息(包括大量个人隐私,例如电话号码、支付记录、家庭住址等)都不是来源于正常的爬虫技术的。因为正常的爬虫其实只能获取网页上大家可以看到的公开信息,所以除非你自己把电话号码、支付记录和家庭住址在微博中公开发出来,爬虫是无法获取的。很多违法行为实际上是通过暴力破解密码、植入木马、利用黑客技术直接从经营者服务器端获取数据等非法行为完成的。所以,用户和媒体不应该把这些违法行为归罪于爬虫技术本身,而技术人员要非常小心,如果你所在的企业要求你做一些明显超出合理合法范围的数据获取工作,一定要坚定拒绝甚至向公安部门举报,因为最后如果出事儿了,就算你本人不知道这些数据是干什么用的,也没有从中获得任何超额收益(钱都被老板赚走了),你依然会接受法律的制裁,情节严重的甚至要负刑事责任。

 

第三,爬虫技术不能用来进行不正当竞争、损害版权或事实上的Dos攻击在2017年11月新修订的《反不正当竞争法》中增加了运用网络从事生产经营活动的规制。在超越双方协议规定(或没有协议但是超出一般爬虫获取数据范围)情况下结合爬虫和其他技术,劫持用户流量,通过获取涉及商业机密的数据而导致对方产生损失或己方得利(不一定是直接竞争得利,也包括在其他地方得利),篡改相关数据(例如用爬虫模拟投票或者广告点击,导致损失)等等,都属于不正当竞争。另外,科研工作者特别要注意,我们可能会批量下载一些论文和数据(这些都涉及版权问题),并且可能会在自己的学术网站上进行公开,那么最安全的方式是给出链接,直接链到原始网站上,而不是在自己的服务器上直接提供下载服务——后者是典型的侵害版权行为。如果为了方便,在某些特定方向上整理了一些论文和数据,希望按照主题公开并且让读者方便在本地下载(很多国外网站在中国被屏蔽了,有时候给出链接没毛用),那么请一定注意几件事:(1)同时给出原出处的链接;(2)给出对原出处的描述和必要参考文献的引用说明;(3)告知原出处相关的网站所有人、作者或版权拥有方,虽好得到他们的同意;(4)不要放太多(譬如共享付费文章明显是个违反版权的行为,但是如果你只是给出几个pdf,那么版权方也拿你没办法,因为量太小了,但你一下子搞几百上千篇,就有问题了。为了省钱,我有时会盗版打印复印国外教材/专著给实验室学生和同事,但每次也就是三五本,如果印几百上千本,就属于违法了)。我是直白说,有些喜欢举道德大棒的喷子如果要讲道德,我就不一一回复了。最后就是爬取网站不能请求太密集,否则就构成了事实上的Dos攻击,经营者可以按此起诉。

 

第四,用正常手段爬取公开数据是正当权利,不当使用反爬技术可能违反“反垄断法”。中国目前的法律过度包括运营者,而没有保护爬取者的利益,实际上运营者如果没有合法理由,是不能进行过度反爬取或进行歧视性反爬取。最近国外一个典型的案子判定LinkedIn不得采取反爬或其他黑名单手段(以及其他法律和技术手段)组织Hi Q公司(潜在竞争对手)爬取、复制LinkedIn公司网站的公开信息。中国也有百度和360的官司,很类似。另外,如果用户已经公开的数据(譬如微博公开可看到的数据),运营方应该尊重用户意图,不得自己将用户已经公开的数据定义为隐私——当然,更不能把用户没有公开的后台隐私数据自行设立为可以公开。也就是说,如果用户自己把电话号码公开了,你把这个号码爬下来是没有问题的。如果一个运营方把可以公开看到的数据定义为隐私数据或者商业机密,是没有法律支持的。

 

很希望用户、媒体、技术界和法学界能够理性、全面地评价爬虫技术,充分、深入展现爬虫技术的边界和利弊。也希望看到一些正常合理的爬虫技术应用方在受到不合理对待后,也能够举起法律的武器,避免垄断方成为数据独裁者!以上这些观点完全出自我这个没有任何法律专业知识的人,仅供大家参考。




http://blog.sciencenet.cn/blog-3075-1205347.html

上一篇:CompleX Lab网络信息挖掘专题组会
下一篇:未被戳破的谎言常比真相更美好(《诚实的信号》序)

4 李哲 韩枫 杨正瓴 陆泽橼

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-12-12 00:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部