您的位置首页  网络科技  技术

新基建主题系列——大数据从何而来涉足大数据业务需留意的网络爬虫技术合规风险

  2020年4月20日,国家发改委首次明确了“新基建”的范围:以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系。“新基建”是指,以5G、物联网、工业互联网、大数据中心、人工智能等为代表的新型基础设施,是信息数字化发展的结果。实际上,“新基建”这一概念早在2018年12月19日的中央经济工作会议中既已提出。

  在“新基建”的风口下,大数据分析和应用不可缺席:无论对于物联网、人工智能,还是智能交通,亦或是商业领域的分析点击流量、客户质量、智能定价等等,莫不如此。随着《网络安全法》及其配套法规、标准及规范性文件的陆续发布,大数据业务更加成为学界、法律工作者、媒体及大众关注的重点,尤其在2019年,不断传出某些大数据业务经营者,因“过度收集、非法窃取和贩卖个人数据信息”、“未经个人同意搜集个人数据信息”等被警方调查或下架的消息。同时,大数据公司也在担忧:大数据分析的业务该如何开展?如何合法合规地收集数据?哪些技术可以使用?

  本文将以搜集大数据的技术之一,网络爬虫技术为例,讨论网络爬虫技术在使用和应用中的重点法律合规问题,供从事大数据业务的企业参考。

  网络爬虫/爬虫程序(Web Crawler),也称网络机器人(Web robots)、网络游客、蜘蛛爬虫,根据《互联网搜索引擎服务自律公约》,这是一种按照指定规则,可自动、批量从互联网爬行抓取数据信息的程序。网络爬虫技术作为采集大数据的主要方式之一,和重要的大数据信息来源,已经被广泛并成熟地应用于各种互联网商业模式和使用场景,例如:新零售、社交、新闻、地图、互联网金融等。

  通过网络爬虫技术爬取到的数据信息有以下几种分类方式:(1)按照数据可得性,可以分为公开网络数据信息和非公开网络数据信息(如需付费观看的信息,或是内部数据库信息);(2)按照数据归属主体,可以分为个人信息数据、企业商业数据和社会公开数据。

  目前,我国还没有已经生效的针对应用网络爬虫技术的规范性文件,从事大数据业务的企业在评估和分析其网络爬虫技术手段是否合规,可以从以下几个方向考虑:

  网络爬虫技术采取的是“广撒网”模式,爬虫脚本自动运行后,在确定的爬取网站范围内对各网站上载的信息进行遍历。但基于商业利益等因素的考量,部分网站的部分/全部数据信息是不允许其他主体爬取的,因而会选择通过制定和公布机器人协议(robots协议)或通过设置技术性障碍或通过平台服务协议等方式来限制或禁止外部爬虫访问特定的数据信息。该等措施通常被称为“反爬虫安排”[1]。尽管存在反爬虫安排,但有些企业还是会绕过或无视这些反爬虫的规制,进而给其自身带来合规风险,主要包括被认定为未经授权(包括网站授权和个人授权)收集数据、导致网站无法正常运营,构成犯罪的,还可能需要承担刑事责任(如非法侵入计算机信息系统罪、破坏计算机信息系统罪、非法获取计算机信息系统数据罪等)。

  未经网站授权收集数据:若被爬取数据的网站并未开放或授权数据采集,以爬虫方式收集数据信息的行为可能会违反机器人协议或侵犯网站其他相关权益

  司法实践中,法院认为,机器人协议应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德,是数据权利人针对爬虫方的一种维权途径,以明示禁止爬取行为;如果爬虫方不遵守机器人协议,未经网站授权,其收集数据行为明显不当,可能构成侵权或不正当竞争[2]。在无前述机器人协议的情况下,网站作为权利人,可以主张爬虫方侵犯著作权[3]或构成不正当竞争[4]。

  严重的未经网站授权爬取数据行为可能会构成犯罪,比如侵犯著作权罪[5]、非法获取计算机信息系统数据罪[6]、非法侵入计算机信息系统罪。

  爬虫方未经个人授权收集个人信息的,或超范围过度收集个人信息的,可能违反《网络安全法》第四十一条,企业和直接负责的主管人员和其他直接责任人员分别被处以责令改正、警告、没收违法所得、罚款,甚至责令暂停相关业务、停业整顿、关闭网站、吊销相关业务许可证或者吊销营业执照。

  若爬虫方取得的信息为非公开渠道的信息,涉及窃取或者以其他非法方式获取个人信息,将可能面临被没收违法所得,并处罚款。

  导致网站无法正常运营[9]:因爬虫导致网站负荷过大,大量正常用户请求堵塞,访问出现速度慢或部分页面无法显示等现象。

  如果使用爬虫技术导致网站无法被正常访问,可能构成侵权并承担对网站经营者所遭受损失的侵权赔偿责任。

  如果使用爬虫技术获取信息被认定为对计算机信息系统功能进行干扰,造成其不能正常运行,则可能触犯破坏计算机信息系统罪。

  爬虫方除应当评估其数据爬取行为是否合规外,还应当评估和分析其爬取所得的数据本身是否可能侵犯他人的权利,例如:涉及个人信息保护、侵犯著作权或商业秘密。

  若爬虫方获取的数据信息符合我国《反不正当竞争法》项下对商业秘密的定义,即不为公众知悉、具有商业价值并经权利人采取相应保密措施的商业信息,且这类爬虫行为可能被认定为是电子侵入或以其他不正当手段获取,则可能会被认定为侵犯他人的商业秘密[10]

  在爬虫方已合规取得数据信息的情况下,企业还应当留意其后续使用、存储该等数据信息是否合规,例如:是否存在超范围使用、侵犯著作权、不正当竞争、信息泄露等问题。

  有些网站可能会在网页中添加法律声明、权利归属或版权保护条款,对数据的权利归属和使用限制进行声明,爬虫方应当在后续使用所爬取的数据时,在前述类似声明的允许框架内合理使用数据

  若爬取的数据中包含个人信息,爬虫方对该等个人信息的使用应当取得明确授权同意使用的范围和使用目的

  对爬取的数据的使用应当恰当,避免出现以下情况:因某些大数据信用调查公司利用爬虫技术搜集个人信息并用于暴力催收,而导致该等企业被警方调查或应金融主管部门的要求进行自查整改 [11]

  企业在使用通过爬虫技术取得的同类网站相关信息且直接不加修改地使用数据时,可能被认定为搭便车、构成混淆等不正当竞争行为。在司法实践中,法院认为,通过爬虫技术手段获取其他同类网站付出人力、物力、财力和时间等经营成本搜集整理的信息数据后,直接在自己的网站上展示并以此获取商业利益的行为,因未付出劳动、未支出成本、未做出贡献,属于反不正当竞争法理论中典型的“不劳而获”和“搭便车”的行为;同时,由于使用内容完全一致,使用爬虫数据的一方可能会对同类网站构成实质性替代,这种经营模式违反公平原则和诚实信用原则,违反公认的商业道德,构成不正当竞争[12]

  爬虫方在使用所收集的涉及他人著作权的数据内容时,应注意不得实施抹去权利人的信息、对作品进行不当剪裁等行为[13],否则可能侵犯权利人的复制权、署名权、修改权、信息网络传播权等著作权

  企业在保存获取的数据信息时,爬虫方应当严格遵循《网络安全法》对网络安全等级保护制度的要求、防止网络数据泄露或被窃取、篡改,也应当符合存储大数据的互联网数据中心的建设标准,采取技术措施和其他必要措施,保证其收集及保管的数据信息的安全

  (3) 使用过程中需要甄别爬虫收集的信息的权属,确保对信息权利人著作权、个人信息等的保护,并确保不超范围使用;

  (5) 当抓取的信息侵犯其他方权益时,应及时通知相关方删除、断开或自行删除、断开使用该等侵权数据的链接;

  (2) 编制合理的机器人协议,将其内容合同化,同时注意不得利用机器人协议进行不正当竞争行为;

  (1) 在IT支持团队中设置专门的反爬虫团队并开发阻止爬虫脚本自动运行的“墙”,比如设置需要滑动进行验证或需要按次序点击的验证码等;在内容格式加密上做文章,比如采取将关键数据转为图片,或采用Java混淆技术等。

  (2) 爬虫的“潜规则”,例如,爬虫使用方主动约束爬虫的爬取吞吐量,避免因爬虫造成的访问量过载导致网站瘫痪 。

  (3) 在网站中挂出机器人协议文件(robots.txt),该协议是网站的所有者通过明示的方式,对不同主体派出的爬虫进行授权,写明可访问和不可访问的文件信息而制定的爬虫行为准则。机器人协议并非也不能直接用技术手段阻止爬虫进行数据搜集,缺乏强制性,但业内普遍认为,制定机器人协议应当是行业内的通行规则,没有遵守协议的行为明显不当,应当在发生争议时承担相应的不利后果。

  [2]见“浙江泛亚电子商务有限公司诉百度在线网络技术(北京)有限公司等侵犯著作权纠纷案”一审民事判决书,案号:(2006)一中民初字第6273号;“百度与奇虎公司不正当竞争纠纷案”一审民事判决书,案号:(2013)一中民初字第2668号。

  [3]见“亚长城影视文化(北京) 有限公司与精伦电子股份有限公司侵犯影视作品信息网络传播权案”,案号:(2014)鄂民三终字第00107号。

  [4]见“深圳市谷米科技有限公司与被告武汉元光科技有限公司、邵凌霜、陈昴、刘江红、刘坤朋、张翔不正当竞争”民事判决书,案号:(2017)粤03民初822号。

  [6]见“邵凌霜、陈昴、刘江红、刘坤朋、张翔犯非法获取计算机信息系统数据罪案”,案号:(2017)粤0305刑初153号。

  [9]我国目前正研究出台《数据安全管理办法》,在已公布的征求意见稿中提出,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。

  [10]见“北京微梦创科网络技术有限公司与北京淘友天下技术有限公司等不正当竞争案”一审民事判决书,案号:(2015)海民(知)初字第12602号。

  [12]见“上海汉涛信息咨询有限公司与爱帮聚信(北京)科技有限公司、爱帮聚信(北京)信息技术有限公司不正当竞争纠纷一案”民事判决书,案号:(2010)海民初字第24463号。

  [13]在实践中,有一种情形较为多见:视频网站爬取其他网站的视频信息,在自己的网站上提供播放服务,或小说网站“盗取”正版小说网站的收费作品,在自己的网站上免费供网友阅读,这些情形均可能涉及侵犯著作权人的信息网络传播权。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186