数据|陈根:从爬虫技术到爬虫行为,网络爬虫的罪与非罪


_本文原题:陈根:从爬虫技术到爬虫行为 , 网络爬虫的罪与非罪
文/陈根
数字经济时代 , 数据作为一种新的生产要素 , 在预判市场走向、调控交易行为、影响各主体权利义务等方面发挥着重要作用 。 市场参与者特别是互联网企业 , 通过收集、存储、挖掘、加密、交易等一系列行为 , 充分发挥数据作为生产性资源的经济价值 , 更有企业直接将数据视为一种资产 。
与传统财产性资产不同 , 线上数据不具备明显的有体性 , 而以无形、可共享及可传输为主要特点 , 这也就导致了商业竞争向新的方向发展 , 并以争夺数据占有状态为主要形式 。 其中 , 除直接通过用户采集数据之外 , 另一大数据来源就是使用网络爬虫采集公开信息 。
但也正因为互联网和大数据产业的迅速发展 , 使得定向抓取网页资源的网络爬虫产业发展迅猛 。 在吸引大量商业公司和个人从事其中的同时 , 大数据也带来诸多安全风险 。 因此 , 如何有效引导网络爬虫已经成为现实性问题 。

数据|陈根:从爬虫技术到爬虫行为,网络爬虫的罪与非罪
本文插图
从爬虫技术到爬虫行为
网络爬虫也被称为网页蜘蛛或者网络机器人等 , 是指能够根据自身规则抓取信息的程序 。 作为搜索引擎的基础构件之一 , 网络爬虫直接面向互联网 , 是搜索引擎的数据来源 , 决定着整个系统的内容是否丰富、信息能否得到及时更新 。 网络爬虫的性能表现直接影响整个搜索引擎的效果 。
网络爬虫平时会在网络上自动爬取有用的数据 , 通过一定的选取机制、过滤机制、录用机制等 , 来丰富它们的数据库 。 事实上 , 每个搜索引擎的爬虫机器人都不一样 , 它们有着自己的一套“爬取机制” 。 谁把这个机制优化得最好 , 那么谁就能更快给到用户真正想要的信息 。 比如 , 百度的爬虫机器人叫做百度蜘蛛( Baiduspider ) , 360的爬虫叫做360 Spider, 搜狗的叫做 SogouSpider ...基于不同的程序爬取算法 , 它们也拥有不一样的搜索结果 。
网络爬虫系统运行时 , 会自动选择一个较大网站的统一资源定位符即网页地址作为集合 , 在系统中把种子集合作为初始资源的地址 。 抓取数据时 , 在已经存在的网页资源地址的基础上得到新的网页资源地址 , 相当于把种子网页地址对应的网页作为森林中一棵树的根节点 。
系统运行过程中 , 把种子URL加入到下载队列 , 并从队首取出一个网页地址下载对应的网页 , 之后储存内容数据 , 利用解析器处理信息并得到新的网页地址 , 把新的网页地址加入到下载列队 , 反复执行上述操作 , 直到满足所需条件 , 循环工作结束 。
网络爬虫可以简单分为通用网络爬虫、聚焦网络爬虫和增量式网络爬虫 。
通用网络爬虫可从种子网页地址不断扩展到整个万维网 。 通用网络爬虫的作用是为用户站点搜索引擎时采集数据 。 爬行范围和数量非常大 , 不需按照特定的爬行页面顺序 , 但新的页面刷新时间较长 。
聚焦网络爬虫是选择性爬行 , 优先爬行预先设定的相关的网页 , 且只爬行与主题相关的页面 , 能够有效节省硬件和网络资源 , 满足特定人群对特定信息的需求 。 聚焦网络爬虫相关爬行策略有以下几方面 。 第一 , 基于内容评价的爬行策略 。 把用户搜索查询时的查询词作为主题 , 爬行页面与这一主题相关 。 第二 , 基于连接结构评价的策略 。 其主要涉及两种算法 , 一种是PageRank算法 , 可对计算值比较大的页面进行连接访问;另一种是HITS方法 , 通过计算每个已经访问的页面决定访问顺序 。 第三 , 增强学习的爬行策略 。 根据网页文本和链接文本分类超链接 , 通过链接的重要性决定访问顺序 。
增量式网络爬虫则在对应下载网页的基础上进行更新 , 即在新产生和发生变化的网页中 , 保证的其爬行页面为最新页面 。 增量式网络爬虫可以在很大程度上减少数据下载量 , 及时更新网页 , 避免空间和时间上的浪费 。分页标题
网络爬虫按授权情况又可分为合法爬虫和恶意网络爬虫 。
合法爬虫指在遵守网站的机器人协议(robots.txt)前提下 , 对网页或网络公开接口进行爬取 , 其爬取行为不会影响网站的正常运行 , 对网站数据的爬取也不会侵犯网站用户的个人信息和网站的重要数据资源 。 恶意爬虫则会突破网站机器人协议的禁止爬取要求(规定在robots.txt文件的Disallow部分) , 爬取网站的核心数据资源 , 并可能极大地损耗被爬取网站服务器的性能 。

数据|陈根:从爬虫技术到爬虫行为,网络爬虫的罪与非罪
本文插图
爬虫获罪具体路径
事实上 , 作为一项互联网技术 , 爬虫行为本身并不违法 , 甚至很多信息类网站的基础技术就是爬虫程序 。 然而 , 当技术中立受到商业偏好的影响时 , 非正当爬虫行为则对云空间中的各类数据形成安全性冲击 , 进一步更深地影响到包括个人权、知识产权在内的合法权益 。
第一 , 从网络爬虫对个人信息权的侵犯来看 , 大数据时代 , 多数公民的个人信息都是以电子数据的形式存储于计算机信息系统或者网络之中 , 易被网络爬虫抓取 。 个人信息区别于普通数据的最大特征在于其与信息主体存在某种关联性、专属性 , 能识别特定个人 , 具有侵犯信息自决权的隐忧 。 根据我国刑法第二百五十三条之一第三款规定 , 窃取或者以其他方法非法获取公民个人信息的 , 构成侵犯公民个人信息罪 。
此外 , 大数据时代下对个人数据的财产化旨在保障数据主体能从对自身数据的收集、利用中获益 , 并强化数据本身的经济驱动功能 , 以打破传统隐私权、信息权过度保护而阻碍数据流通的僵局 。 但财产权保护只能说明个人数据法律保护的必要性 , 却不能作为采取绝对权保护模式的依据 , 且当前我国司法实务中亦无判决认可个人数据的财产权属性 , 可见个人数据的财产权保护进路与现实生活经验、需求并不吻合 。 这导致以个人数据财产侵权来追究网络爬虫民事责任难以实现 。
第二 , 对于企业来说 , 如果是被爬取方 , 则其依托相关数据而享有的知识产权等可能会因此受到侵害 。 在知识产权领域 , 企业数据的权利类型主要涉及著作权、专利权、商业秘密等 。 其中 , 著作权保护仅针对企业数据中具有“独创性”的作品部分 , 而不包括缺乏独创性的企业数据编排;专利权保护仅针对具有鲜明技术属性并能解决一定技术问题的大数据运算程序 , 但不包括缺乏新颖性、非显而易见性和实用性的企业数据编排;商业秘密保护仅针对具有价值性、新颖性和保密性的企业数据 , 而不包括缺乏新颖性、秘密性的企业原初数据 。
上述技术特征导致实务中通过知识产权保护对网络爬虫提起诉讼存在较大障碍 。 对于企业数据的财产权保护 , 主要考虑数据经营者通过对数据的收集、加工、利用、交易等而形成了动态的使用、利益关系 , 获得了数据资产的经营权和资产权 。 这种财产权旨在安排一种鼓励企业数据经济化的私有结构 , 以体现企业数据的可支配性和排他占有性私益 , 却又面临相关财产权的控制、分享、救济难题 。
对数据“权利化”的私法保护进路是通过对个人数据、企业数据的迭加式赋权来回应数据主体的利益诉求 , 却在权益层级方面(民事权利或利益)和权益属性方面(人格权、财产权)历经旷日持久的争论 , 这就导致网络爬虫的民法规制在权利确定、行为边界和权利救济上都相当困难 。 其根本原因在于 , 私法赋权忽略了数据本身的无形性、可分享性、公共性特点以及数据必须通过分享来实现自身价值的客观事实 。 因而 , 基于数据的流动性、共享性对数据的开放程度及其公共秩序建构成为规制网络爬虫的另一个重要手段 。
第三 , 大数据背景下 , 网络爬虫的不正当使用或侵害的公平、自由的数据竞争秩序 。 从竞争法的角度而言 , 规制数据竞争的核心目标是维护数据要素市场的竞争秩序和竞争机制 , 这既需要兼顾数据控制方与数据使用方的利益诉求 , 也需要均衡数据资源的产出激励效率和配置使用效率 。分页标题
当前数据竞争的实质是上下游数据竞争者之间的利益博弈 , 上游数据企业基于对数据资源的巨大投资和收益期待 , 产生了数据保护诉求;下游数据企业基于互联网“互联互通”精神倡导数据流通和开放共享 , 产生了数据共享诉求 。
因而 , 对数据竞争秩序的维护包括对公平数据竞争秩序的维护和对自由数据竞争秩序的维护:前者需要关注数据使用者的不正当竞争行为 , 如利用网络爬虫恶意窃取竞争对手的数据资源 , 攫取他人竞争优势的“搭便车”行为;后者需要考察数据控制者限制竞争的不当垄断、圈占数据行为 , 如利用服务条款、技术措施等有针对性地拒绝他人获取数据以打压潜在竞争对手 。
例如 , 大众点评诉百度不正当竞争案件、新浪微博诉脉脉不正当竞争案件等 , 这些案件最终都认定为被告构成不正当竞争 。 原因正是被告未经原告许可 , 使用爬虫技术抓取并且利用从原告网站中获取的数据牟利 。
第四 , 网络爬虫的技术风险还包括造成被爬取数据的网站拥堵甚至系统崩溃、对被爬取的数据进行破坏等 。 随着数字化技术的发展 , 数据利用渗透至生活的每一个角落 , 针对数据的窃取、篡改、破坏、扩散等行为日益增多 , 并转化成整体的资讯风险 , 对数据主体的使用、处分权能造成极大威胁 , 因而产生了针对数据自身安全的独立保护需求 。
这催生了新的数据法益——数据安全法益 , 包括数据的保密性、完整性和可用性 , 旨在保护数据利用的三个面向:数据的“保密性”是指确保数据免受未授权人探知、获悉、使用;数据“完整性”是指确保数据不被修改或损害;数据“可用性”是指确保权利人能及时、有效地获取、使用数据 。
当前 , 各国主要通过“身份认证、访问控制、安全管理审计、平台基线配置等大数据平台安全技术 , 以及数据防泄漏、业务数据风险管理、结构化和非结构化数据保护等安全制度 , 确保数据的保密性、完整性、可用性” 。 数据安全法益弥补了民法对非结构化数据的权利的忽视 , 并采取预备行为实行化的策略将网络爬虫非法获取数据的行为纳入刑法保护范畴 , 如我国《刑法》第285条第2款规定的非法获取计算机信息系统数据罪 。
如果网络爬虫侵入计算机信息系统后 , 对计算机信息系统进行破坏、对数据进行破坏 , 或者对计算机信息系统安全措施进行暴力破解 , 甚至将爬虫技术滥用为网络攻击方式等 , 都可能构成破坏计算机信息系统罪 。

数据|陈根:从爬虫技术到爬虫行为,网络爬虫的罪与非罪
本文插图
爬虫规制的法律边界
当然 , 网络爬虫作为数据资源获取和利用的重要手段 , 其技术中立更多的是一种理念 , 现实生活中的技术通常都是行为的工具 , 通过技术实施的竞争行为与技术本身的中立性不能简单画等号 。 技术中立有利于技术创新 , 但技术创新仍有其法律边界 。
无论是私法领域数据确权还是刑法领域数据法益保护 , 网络爬虫抓取数据的正当性、有效性都源于数据主体的授权 , 这种授权与数据的访问权限和开放程度密切相关 , 由此衍生出的技术排他性规则和数据排他性规则构成了网络爬虫入罪判断的两个维度 。
数据的访问权限是界定网络爬虫法律责任的关键要素 , 要求对抓取是否被“授权”进行规范性解释 。 为了维护数据安全 , 防止非法抓取 , 通常要求数据网站主观上对数据具有保护的意思 , 客观上采取一定的安全防控措施 。
这些保护措施包括:合约授权 , 即通过意思表示允许或禁止他人访问、获取数据 。 如Facebook、LinkedIn、eBay、Craigslist等都在其网站中设置爬虫协议、用户协议、权责声明、使用条款、服务条件等对网络爬虫进行限制 。 技术措施 , 即通过设置各种技术性手段来监控、防止数据抓取 , 如监控网站流量、设置身份验证措施等 。分页标题
违反合约授权或突破技术措施意味着对数据权利的侵犯 , 但合约授权和技术措施所体现的数据保护意愿、自治能力及法律实效均不同 , 所承担的法律责任也不相同 。 这构成规制网络爬虫的第一个维度 , 并决定了其民事不法与刑事不法的界限 。
从数据开放程度来说 , 数据网站有权决定数据的公开或共享的范围和程度 , 除非涉及公共利益或其他强制性要求 。 显然 , 数据的性质决定了网络爬虫的正当性和有效性 。 数据的独占性与价值越弱 , 法益保护需求就越低 , 网络爬虫被认为犯罪的可能性就越小 。 因此 , 数据的开放程度成为规制网络爬虫的第二个维度 , 并决定了其抓取数据行为的侵权内容和法益侵害实质 。
当网络爬虫逐渐成为互联网生态系统中的一个重要组成部分 , 数据网站必然向法院寻求抓取、使用数据的法律边界 。 这凸显了数字经济时代数据经营者对数据资源的重视与争夺 , 以及建立在数据流动规律基础上的数据权利化与数据分享性的理念冲突和法律关切 。
【数据|陈根:从爬虫技术到爬虫行为,网络爬虫的罪与非罪】但这一问题不可能通过一般性的犯罪评估予以解决 , 而必须“清晰划分相关领域的边界 , 平衡相应的被保护利益 , 创立新的均衡机制” 。 最后 , 基于数据的流动性、共享性对数据的开放程度及其公共秩序的构建 , 已经成为当前我国规制网络爬虫的基点 。