爬虫有风险,抓数需谨慎

各互金公司CTO们请看好你们家的爬虫,要不然一不小心就会把老板(法人代表)送进监狱,不是闹着玩的,按2017年6月1日,《网络安全法》以及最新刑事司法解释:

– 未经授权爬取用户手机通讯录超过50条记录,老板进去最高可达3年

– 未经授权抓取用户淘宝交易记录超过500条的,老板进去最高可达3年

– 未经授权读取用户运营商网站通话记录超过500条以上的,老板进去最高可达7年

– 未经授权读取用户公积金社保记录的超过50000条的,老板进去最高可达7年

更多的违规情况就不一一举例了。 就以上几种数据,作为有效的信用基础数据,有几家互金公司不在用的?各位的爬虫完全合法地取得用户授权了么?有多少爬虫完全忽略robots.txt内容肆意横行的?有多少爬虫甚至暴力破解人家网站密码的……

如果是以销售数据为主营业务的大数据公司,更加要注意,因为一不小心你卖了点数据给犯罪分子,造成了恶劣的社会影响,要从重从严的判决。到目前为止,实务中由于审判人员对个人信息犯罪的危害性并不确定,大部分法院是作出法定刑三年以下的判决,但是最新的法条对重刑情节予以明确,量刑本身起点低,如依违法所得标准,违法所得在5万以上的,即可构成重刑。因此有学者预测,《解释》正式实施后,侵害个人信息犯罪适用重刑可能会出现激增现象。

大数据行业近日风声鹤唳,据一本财经报道,“数据堂”多人被警方调查,导致部分数据业务线停摆。至于被调查原因,知情人称,数据堂曾给一家理财营销公司提供了大量涉及用户隐私的数据。数据堂的主要商业模式是通过网络爬虫、公共领域共享等方式获取数据,而后对数据进行处理,而后向客户提供服务获取收益。 在没有得到任何授权的情况下,数据堂为理财营销公司提供用户数据有数据倒卖的嫌疑。除此之外,另有15家公司进入了调查名单,都是一些明目张胆,做得颇为过分的公司,其中几家大数据公司,估值已几十亿。

一些技术能力溢出的互金公司,已经在做类似数据公司的业务,对外以各种形式输出自身积累的数据,高管层的法律风险也逐渐显现。

司法解释里面提到以下集中类型的数据,无论是“非法提供”和“非法获取”都可以入刑:

第一类:高度敏感信息,包括四种信息:行踪轨迹信息、通信内容、征信信息、财产信息。涉及高度敏感信息的违法活动,由于定罪门槛最低,因此严格限制在此四类,不做任何扩展; 第二类:敏感信息,即住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息。与第一类相比较,《解释》对第二类信息的界定仍留有空间,意味着在司法实践中,仍有可能会出现目前所列举之外的第二类信息类型; 第三类:其他个人信息。即上述第二、三类以外的个人信息。个人信息的类型是定罪量刑的重要依据。越敏感信息,达到定罪门槛的信息数量越少。

只要违反国家规定获取个人信息,信息获取者无法主张其获取信息的正当理由的,无论是以“窃取”等本身非法的手段来获取,还是以“购买、收受、交换”等其他手段,都可被认为“非法获取”。

就互联网数据而言,目前主要的取得方式是利用爬虫自动搜索并抓取数据,爬虫协议要求所有网站在其站点的根目录下放置一个“robots.txt”文件,该文件告诉搜索者本站点哪些数据可以被“抓取”。这就意味着如果有人突破“robots.txt”范围抓取网站数据就要承担“侵犯数据”的法律责任。

在用户手机App端,如果未经用户明确授权,提取用户姓名、通信通讯联系方式、账号密码、行踪轨迹等信息,也必须承担法律责任。至于用户授权的形式,法律虽未明确,但如果存在恶意诱导和欺骗的行为要求用户授权,则很有可能招致刑罚。法律的导向是,任何个人身份信息,以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,未来都将受到严格的隐私权保护。

社会对个人隐私的保护越来越到位,是一件好事,互金数据乱象已久,大家可能都离风险比较近,无论是内部采集还是外购,总之一句话,爬虫有风险,抓数需谨慎,干活之前先跟自家法务勾兑清楚。