陈根|从技术中立到法律边界,陈根:爬虫获罪几重路径

文/陈根
数字经济时代 , 数据作为一种新的生产要素 , 在预判市场走向、调控交易行为、影响各主体权利义务等方面发挥着重要作用 。 市场参与者特别是互联网企业 , 通过收集、存储、挖掘、加密、交易等一系列行为 , 充分发挥数据作为生产性资源的经济价值 , 更有企业直接将数据视为一种资产 。
与传统财产性资产不同 , 线上数据不具备明显的有体性 , 而以无形、可共享及可传输为主要特点 , 这也就导致了商业竞争向新的方向发展 , 并以争夺数据占有状态为主要形式 。 其中 , 除直接通过用户采集数据之外 , 另一大数据来源就是使用网络爬虫采集公开信息 。
但也正因为互联网和大数据产业的迅速发展 , 使得定向抓取网页资源的网络爬虫产业发展迅猛 。 在吸引大量商业公司和个人从事其中的同时 , 大数据也带来诸多安全风险 。 因此 , 如何有效引导网络爬虫已经成为现实性问题 。
陈根|从技术中立到法律边界,陈根:爬虫获罪几重路径
文章图片
从爬虫技术到爬虫行为
网络爬虫也被称为网页蜘蛛或者网络机器人等 , 是指能够根据自身规则抓取信息的程序 。 作为搜索引擎的基础构件之一 , 网络爬虫直接面向互联网 , 是搜索引擎的数据来源 , 决定着整个系统的内容是否丰富、信息能否得到及时更新 。 网络爬虫的性能表现直接影响整个搜索引擎的效果 。
网络爬虫平时会在网络上自动爬取有用的数据 , 通过一定的选取机制、过滤机制、录用机制等 , 来丰富它们的数据库 。 事实上 , 每个搜索引擎的爬虫机器人都不一样 , 它们有着自己的一套“爬取机制” 。 谁把这个机制优化得最好 , 那么谁就能更快给到用户真正想要的信息 。 比如 , 百度的爬虫机器人叫做百度蜘蛛(Baiduspider) , 360的爬虫叫做360Spider , 搜狗的叫做SogouSpider...基于不同的程序爬取算法 , 它们也拥有不一样的搜索结果 。
网络爬虫系统运行时 , 会自动选择一个较大网站的统一资源定位符即网页地址作为集合 , 在系统中把种子集合作为初始资源的地址 。 抓取数据时 , 在已经存在的网页资源地址的基础上得到新的网页资源地址 , 相当于把种子网页地址对应的网页作为森林中一棵树的根节点 。
系统运行过程中 , 把种子URL加入到下载队列 , 并从队首取出一个网页地址下载对应的网页 , 之后储存内容数据 , 利用解析器处理信息并得到新的网页地址 , 把新的网页地址加入到下载列队 , 反复执行上述操作 , 直到满足所需条件 , 循环工作结束 。
网络爬虫可以简单分为通用网络爬虫、聚焦网络爬虫和增量式网络爬虫 。
通用网络爬虫可从种子网页地址不断扩展到整个万维网 。 通用网络爬虫的作用是为用户站点搜索引擎时采集数据 。 爬行范围和数量非常大 , 不需按照特定的爬行页面顺序 , 但新的页面刷新时间较长 。
聚焦网络爬虫是选择性爬行 , 优先爬行预先设定的相关的网页 , 且只爬行与主题相关的页面 , 能够有效节省硬件和网络资源 , 满足特定人群对特定信息的需求 。 聚焦网络爬虫相关爬行策略有以下几方面 。 第一 , 基于内容评价的爬行策略 。 把用户搜索查询时的查询词作为主题 , 爬行页面与这一主题相关 。 第二 , 基于连接结构评价的策略 。 其主要涉及两种算法 , 一种是PageRank算法 , 可对计算值比较大的页面进行连接访问;另一种是HITS方法 , 通过计算每个已经访问的页面决定访问顺序 。 第三 , 增强学习的爬行策略 。 根据网页文本和链接文本分类超链接 , 通过链接的重要性决定访问顺序 。
增量式网络爬虫则在对应下载网页的基础上进行更新 , 即在新产生和发生变化的网页中 , 保证的其爬行页面为最新页面 。 增量式网络爬虫可以在很大程度上减少数据下载量 , 及时更新网页 , 避免空间和时间上的浪费 。