爬虫法律风险及案例解析之头条案

十点数据 1年前 ⋅ 2782 阅读

2017年,北京市海淀区人民检察院指控被告人张洪禹、XX、侯明强作为被告单位上海晟品网络科技有限公司主管人员,2016年至2017年间,在上海市共谋采用技术手段抓取被害单位北京字节跳动网络技术有限公司(办公地点位于本市海淀区北三环西路43号中航广场)服务器中存储的视频数据,并由侯明强指使被告人郭辉破解北京字节跳动网络技术有限公司的防抓取措施、实施视频数据抓取行为,造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币2万元。

  据北京市海淀区人民法院(2017)京0108刑初2384号刑事判决书中显示,被告人采用技术手段破解被害单位的防抓取措施,使用“tt_spider”文件(该文件中包含通过头条号视频列表分类视频列表相关视频评论3个接口对其服务器进行数据抓取,并将结果存入到数据库中的逻辑)实施视频数据抓取行为,在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制,其行为造成被害单位损失技术服务费2万元,从而构成非法获取计算机信息系统数据罪

  根据《中华人民共和国刑法》第二百八十五条规定,非法获取计算机信息系统数据、非法控制计算机信息系统罪,是指违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的行为。刑法第285条第2款明确规定,犯本罪的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

  本案当中,数名被告都选择了以认罪认罚换取从轻量刑。但作为互联网技术领域和爬虫技术领域的长期从业者,对本案是否涉罪,有一些不同的观点,在此做一些纯法律与技术的讨论。

  非法获取计算机信息系统数据罪的犯罪客体是存储在计算机信息系统中的数据(国家事务、国防建设、尖端科学技术领域以外),本案的客观要件,是利用技术手段“非法”获取,但是从判决书中得出的信息来看,该技术手段是否非法,值得商榷。

  判决书中提到“在数据抓取的过程中使用伪造device_id绕过服务器的身份校验”,可事实是,在不需要注册情况下,服务器实际上是不可能通过UA和IP进行身份校验,所谓的“身份”,只是服务器对访问者所作的临时性的标记,这个标记短期内随时会失效。众所周知,绝大部分家庭的宽带网络和移动网络,均使用的动态IP,随时有可能更新。而且IP由国家统一分配,个人和企业根本无法伪造,本案的判决书中,认为伪造IP,可能存在事实认识错误。在爬虫技术当中,往往需要使用代理IP,本案的合议庭或许可能认为,使用代理IP是伪造了自身的IP从而实现欺骗系统的目的,但是无论是使用自身网络IP还是代理IP,本质上都是一种效率工具的使用,且无任何法律禁止使用。无论从哪个角度,判决书中“伪造并欺骗”的事实认定,没有现实基础,似乎与事实不符。

  此外,所谓的UA,即USER AGENT,本意即“代理”的意思。我们通常使用的电脑、手机浏览器就是一个UA。UA的存在,是为了让用户有更好的使用体验,而并不是用户的身份标志,任何浏览器或者第三方工具,都可以成为一个UA,本身UA就是无穷无尽的。UA的选择和使用,完全由使用者自行决定,对不懂技术的普通用户,可以任意选择浏览器或者软件工具,对专业的软件工程师,可以任意使用代码生成UA,效果与普通用户使用浏览器是一样的。

  至于判决书中提到的技术服务费2万元,从判决文书中无法获知该数据从何得出以及是否客观,不作评价。

  综上,无论使用代理IP,还是使用不同的UA,是一种纯技术的选择,跟我们通常所认知的伪造身份证或者冒充他人身份信息,完全不是一回事。身份就应该如同身份证、企业统一信用代码等一样,可以唯一主体对应起来,可实际上本案服务器的身份校验,根本就无法识别身份,世界上没有一家科技企业,用IP和UA的组合来对用户身份进行确认,身份校验亦不存在事实基础。所谓的“身份校验”的说法,应该来源于报案人单方面的说辞,并不具备技术上的真实性。

  除了上述“伪造身份校验”的事实认定,判决书中提到“被告人采用技术手段破解被害单位的防抓取措施”,本案的犯罪要件,的确需要涉及“侵害计算机系统”。这里不懂技术的朋友,可能认为,这里是否如同"非法侵入计算机信息系统罪"一样,入侵了被访问者的系统,获取了信息。实际上,存在很大的不同。客观上来讲,本案的被告,的确破解了被害单位的反爬虫措施,但这从技术上来讲,这些反爬虫措施,本质上属于公开的前端代码,即无任何保密,而且全部运行在访问者自身的电脑上。目前,一般科技公司的反爬虫技术,大多数采取的前端反爬技术,都是将公开的Javascript的代码进行混淆,根本上来说,只是增加了JS代码的阅读难度而已。举个简单的例子,普通未加密混淆的Javascript代码,可能会这样表示“小明今年27岁”,但是反爬的Javascript代码可能会这样表示:“小明明年年龄【10220/365】岁”。无论怎么表示,最终都会被浏览器(即本案所说的UA),或其他软件进行透明解释。

  因此无论从哪个角度来讲,破解该部分JS代码,都无法获取被害单位的系统权限,以及侵入被害单位的服务器,均无法构成犯罪的客观要件。

  结合以上观点,本案当中的法律关系适用可能存在错误。利用爬虫,获取他人的商业数据,可以从民事侵权的角度,或者知识产权领域以及不正当竞争的角度去争取权益,对具有版权且情节严重的,应适用侵犯著作权罪。但是本案却使用了非法获取计算机信息系统罪这个案由,我认为似有不妥。结合以上分析,本律师认为针对利用“爬虫技术”涉及“非法获取计算机信息系统数据罪”的罪与非罪,需要严格分析是否具有以下要件,并且缺一不可:

  1) 被爬取的数据是否是非公开数据;

  2)必须要侵害到计算机系统,即通常所指的后端技术领域;

  在计算机或互联网领域的案件审理当中,对公诉方、辩护方和审判人员的技术素养存在较高的要求,尤其是代理律师的技术理解能力,尤为关键。如果代理律师缺乏对网络技术的知识储备,是很难对涉案行为是否合法有正确充分的认知。此外,作为公诉方和法院,对利用爬虫技术爬取信息的行为,应该从技术和事实的角度审慎分析,通常意义上的爬虫技术,是对网络上静态数据,或者通过API调取的动态数据的爬取,是无法侵入被爬虫企业的服务器以及获取任何系统管理权限的。被爬取的数据,基本上是属于公开或者半公开(通过注册程序可获取)的数据。在民事法律关系当中能够处理的,应慎用刑事手段。当然,本案当中有一个难以忽视的因素,就是有两被告都是受害单位的前员工,该二位被告所起的作用在判决书中并没有详细的述明,相信该特殊身份也与最后的案件结论存在一定的关联性。

附(2017)京0108刑初2384号判决书)

  北京市海淀区人民法院

  刑 事 判 决 书

  (2017)京0108刑初2384号

  公诉机关北京市海淀区人民检察院。

  被告单位上海晟品网络科技有限公司,统一社会信用代码×××,住所地上海市徐汇区宜山路810号17幢101A室,法定代表人张洪禹。

  诉讼代表人潘娟,上海晟品网络科技有限公司行政主管。

  辩护人李智慧,北京市冠衡律师事务所律师。

  被告人张洪禹,男,1982年3月5日出生于黑龙江省五常县,公民身份号码×××,汉族,大学肄业,上海晟品网络科技有限公司法定代表人,户籍所在地黑龙江省五常市。因涉嫌犯非法获取计算机信息系统数据罪,于2017年3月4日被羁押,2017年4月7日被取保候审。

  辩护人王珺,北京市兰台律师事务所律师。

  辩护人陈怡,上海宏翰律师事务所律师。

  被告人XX,男,1984年9月20日出生于山东省莘县,公民身份号码×××,汉族,硕士研究生,曾任北京字节跳动网络技术有限公司视频项目经理、上海晟品网络科技有限公司联席CEO,案发前筹备创立上海右划网络有限公司,户籍所在地山东省聊城市莘县。因涉嫌犯非法获取计算机信息系统数据罪,于2017年2月27日被羁押,2017年4月6日被逮捕。现羁押在北京市海淀区看守所。

  辩护人张佳春,北京天达共和律师事务所律师。

  辩护人陈燕,北京天达共和律师事务所律师。

  被告人侯明强,男,1980年2月14日出生于河南省新乡市,公民身份号码×××,汉族,硕士研究生,曾任北京字节跳动网络技术有限公司视频项目技术负责人、上海晟品网络科技有限公司CTO,案发前筹备创立上海右划网络有限公司,户籍所在地河北省承德市。因涉嫌犯非法获取计算机信息系统数据罪,于2017年2月27日被羁押,2017年4月6日被逮捕。现羁押在北京市海淀区看守所。

  辩护人贾浩天,北京市隆安律师事务所律师。

  被告人郭辉,男,1991年5月19日出生于安徽省霍邱县,公民身份号码×××,汉族,高中文化程度,上海晟品网络科技有限公司职员,户籍所在地安徽省六安市。因涉嫌犯非法获取计算机信息系统数据罪,于2017年3月4日被羁押,2017年4月7日被逮捕。现羁押在北京市海淀区看守所。

  辩护人唐烈文,北京市兰台律师事务所律师。

  辩护人冯珏,上海宏翰律师事务所律师。

  北京市海淀区人民检察院以京海检科技刑诉〔2017〕82号起诉书指控被告单位上海晟品网络科技有限公司,被告人张洪禹、XX、侯明强、郭辉犯非法获取计算机信息系统数据罪,本院于2017年9月15日立案,并依法组成合议庭,适用普通程序,按照认罪认罚从宽制度,公开开庭审理了本案。北京市海淀区人民检察院指派检察员白磊出庭支持公诉,被告单位上海晟品网络科技有限公司及其诉讼代表人潘娟、诉讼代理人李智慧,被告人张洪禹及其辩护人王珺、陈怡,被告人XX及其辩护人张佳春、陈燕,被告人侯明强及其辩护人贾浩天,被告人郭辉及其辩护人唐烈文(第二次开庭前解除委托)、冯珏到庭参加诉讼。现已审理终结。

  北京市海淀区人民检察院指控,2016年至2017年间,被告人张洪禹、XX、侯明强作为被告单位上海晟品网络科技有限公司主管人员,在上海市共谋采用技术手段抓取被害单位北京字节跳动网络技术有限公司(办公地点位于本市海淀区北三环西路43号中航广场)服务器中存储的视频数据,并由侯明强指使被告人郭辉破解北京字节跳动网络技术有限公司的防抓取措施、实施视频数据抓取行为,造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币2万元。2017年2月27日,被告人XX、侯明强被公安机关抓获;3月4日,被告人张洪禹、郭辉被公安机关抓获。

  针对上述指控,公诉机关向本院提供了相应的证据材料,认为被告单位上海晟品网络科技有限公司,被告人张洪禹、XX、侯明强、郭辉的行为已构成非法获取计算机信息系统数据罪,且能如实供述犯罪事实,提请本院依照《中华人民共和国刑法》第二百八十五条第二款、第四款、第三十条、第三十一条、第六十七条第三款之规定,对被告单位上海晟品网络科技有限公司,被告人张洪禹、XX、侯明强、郭辉定罪处罚。公诉机关提出对被告人张洪禹判处一年二个月以下有期徒刑,并处罚金,适用缓刑的量刑建议;对被告人XX、侯明强提出判处一年二个月以下有期徒刑,并处罚金的量刑建议;对被告人郭辉提出判处一年以下有期徒刑,并处罚金的量刑建议。被告人张洪禹、XX、侯明强、郭辉自愿如实供述自己的罪行,对指控的犯罪事实没有异议,同意量刑建议,签署具结书。

  被告单位上海晟品网络科技有限公司,被告人张洪禹、XX、侯明强、郭辉及其各辩护人对公诉机关指控的事实及罪名没有提出异议。被告单位上海晟品网络科技有限公司的辩护人认为被告单位对于违法性认识不足,取得了被害人谅解,认罪悔罪态度较好,建议从轻处罚;被告人张洪禹的辩护人认为本案系单位犯罪,社会危害性不大,取得了被害人谅解,认罪悔罪态度较好,建议从轻处罚并适用缓刑;被告人XX的辩护人认为本案系单位犯罪,XX作用相对较小,违法性认识不足,取得被害单位的谅解,认罪悔罪态度较好,建议从轻处罚;被告人侯明强的辩护人认为本案系单位犯罪,侯明强违法性认识不足,犯罪危害性不大,作用相对较小,建议从轻处罚;被告人郭辉的辩护人认为郭辉认罪态度较好,犯罪情节较轻,社会危害性不大,取得被害单位的谅解,建议从轻处罚。

  经审理查明,被告单位上海晟品网络科技有限公司系有限责任公司,经营计算机网络科技领域内的技术开发、技术服务、电子商务、电子产品等业务。被告人张洪禹系上海晟品网络科技有限公司法定代表人兼CEO,负责公司整体运行;被告人XX于2016年8月至2017年2月任职上海晟品网络科技有限公司,担任联席CEO,系产品负责人;被告人侯明强于2016年8月至2017年2月任上海晟品网络科技有限公司CTO,系技术负责人;被告人郭辉系上海晟品网络科技有限公司职员。被告人张洪禹、XX、侯明强经共谋,于2016年至2017年间采用技术手段抓取被害单位北京字节跳动网络技术有限公司(办公地点位于本市海淀区北三环西路43号中航广场)服务器中存储的视频数据,并由侯明强指使被告人郭辉破解北京字节跳动网络技术有限公司的防抓取措施,使用“tt_spider”文件实施视频数据抓取行为,造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币2万元。经鉴定,“tt_spider”文件中包含通过头条号视频列表、分类视频列表、相关视频及评论3个接口对今日头条服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制。2017年2月27日,被告人XX、侯明强被公安机关抓获;3月4日,被告人张洪禹、郭辉被公安机关抓获。后四人均如实供述了上述事实。本案审理期间,鉴于被告人张洪禹、XX、侯明强、郭辉真诚悔罪、认罪,坦白相关犯罪事实,被害单位北京字节跳动网络技术有限公司出具刑事谅解书,对被告人张洪禹、XX、侯明强、郭辉的行为表示谅解。

  法庭审理过程中,公诉人当庭宣读并出示了被告人张洪禹、XX、侯明强、郭辉的供述,证人常某、汪某的证言,现场勘验检查工作笔录,扣押决定书、清单,北京信诺司法鉴定所司法鉴定意见书,到案经过,北京字节跳动网络技术有限公司关于购买技术服务费发票及损失说明,XX、侯明强的劳动合同、保密合同,北京字节跳动网络技术有限公司办公场所租赁合同,身份信息等证据材料。经庭审质证,被告单位上海晟品网络科技有限公司,被告人张洪禹、XX、侯明强、郭辉及其各辩护人对上述证据均未提出异议。上述证据的来源及形式合法,内容客观真实,对其证明效力,本院予以确认。

  本院认为,被告单位上海晟品网络科技有限公司违反国家规定,采用技术手段获取计算机信息系统中存储的数据,情节严重,其行为已构成非法获取计算机信息系统数据罪,应予惩处;被告人张洪禹、XX、侯明强作为直接负责的主管人员,被告人郭辉作为其他直接责任人员,亦应惩处。北京市海淀区人民检察院指控被告单位上海晟品网络科技有限公司及被告人张洪禹、XX、侯明强、郭辉犯有非法获取计算机信息系统数据罪的事实清楚,证据确实充分,指控罪名成立,量刑建议适当。被告人XX、侯明强作用相当,但相对被告人张洪禹较小,被告人郭辉较之XX、侯明强作用次之,在量刑时酌情考虑。鉴于被告单位上海晟品网络科技有限公司及被告人张洪禹、XX、侯明强、郭辉能够如实供述自己的犯罪事实,违法性认识不足,认罪态度较好;被告人张洪禹、XX、侯明强、郭辉获得被害单位谅解,加之本案适用认罪认罚从宽制度,故本院依法对其均从轻处罚,并对张洪禹适用缓刑。被告人张洪禹、XX、侯明强、郭辉的辩护人的辩护意见,本院酌予采纳。对被告人张洪禹依照《中华人民共和国刑法》第二百八十五条第二款、第四款,第三十条,第三十一条,第六十七条第三款,第七十二条,第七十三条第二款、第三款,第五十三条之规定;对被告单位上海晟品网络科技有限公司及XX、侯明强、郭辉依照《中华人民共和国刑法》第二百八十五条第二款、第四款,第三十条,第三十一条,第六十七条第三款,第五十三条,判决如下:

  一、被告单位上海晟品网络科技有限公司犯非法获取计算机信息系统数据罪,判处罚金人民币二十万元。

  (罚金限自本判决生效后第二日起十日内缴纳。)

  二、被告人张洪禹犯非法获取计算机信息系统数据罪,判处有期徒刑一年,缓刑一年,罚金人民币五万元。

  (缓刑考验期从判决确定之日起计算;罚金限自本判决生效后第二日起十日内缴纳。)

  三、被告人XX犯非法获取计算机信息系统数据罪,判处有期徒刑十个月,罚金人民币四万元。

  (刑期从本判决执行之日起计算,判决执行以前先行羁押的,羁押一日折抵刑期一日,即自2017年2月27日起至2017年12月26日止;)

  四、被告人侯明强犯非法获取计算机信息系统数据罪,判处有期徒刑十个月,罚金人民币四万元。

  五、被告人郭辉犯非法获取计算机信息系统数据罪,判处有期徒刑九个月,罚金人民币三万元。

  (刑期从本判决执行之日起计算,判决执行以前先行羁押的,羁押一日折抵刑期一日,即自2017年3月4日起至2017年12月3日止;)

  如不服本判决,可在接到判决书的第二日起十日内,通过本院或者直接向北京市第一中级人民法院提出上诉。书面上诉的,应当提交上诉状正本一份,副本五份。

  审判长游涛

  人民陪审员梁铭全

  人民陪审员陆友才

  二〇一七年十一月二十四日

  书记员王珏

全部评论: 0

    我有话说: