陈根|从技术中立到法律边界,陈根:爬虫获罪几重路径
文/陈根
数字经济时代 , 数据作为一种新的生产要素 , 在预判市场走向、调控交易行为、影响各主体权利义务等方面发挥着重要作用 。 市场参与者特别是互联网企业 , 通过收集、存储、挖掘、加密、交易等一系列行为 , 充分发挥数据作为生产性资源的经济价值 , 更有企业直接将数据视为一种资产 。
与传统财产性资产不同 , 线上数据不具备明显的有体性 , 而以无形、可共享及可传输为主要特点 , 这也就导致了商业竞争向新的方向发展 , 并以争夺数据占有状态为主要形式 。 其中 , 除直接通过用户采集数据之外 , 另一大数据来源就是使用网络爬虫采集公开信息 。
但也正因为互联网和大数据产业的迅速发展 , 使得定向抓取网页资源的网络爬虫产业发展迅猛 。 在吸引大量商业公司和个人从事其中的同时 , 大数据也带来诸多安全风险 。 因此 , 如何有效引导网络爬虫已经成为现实性问题 。
文章图片
从爬虫技术到爬虫行为
网络爬虫也被称为网页蜘蛛或者网络机器人等 , 是指能够根据自身规则抓取信息的程序 。 作为搜索引擎的基础构件之一 , 网络爬虫直接面向互联网 , 是搜索引擎的数据来源 , 决定着整个系统的内容是否丰富、信息能否得到及时更新 。 网络爬虫的性能表现直接影响整个搜索引擎的效果 。
网络爬虫平时会在网络上自动爬取有用的数据 , 通过一定的选取机制、过滤机制、录用机制等 , 来丰富它们的数据库 。 事实上 , 每个搜索引擎的爬虫机器人都不一样 , 它们有着自己的一套“爬取机制” 。 谁把这个机制优化得最好 , 那么谁就能更快给到用户真正想要的信息 。 比如 , 百度的爬虫机器人叫做百度蜘蛛(Baiduspider) , 360的爬虫叫做360Spider , 搜狗的叫做SogouSpider...基于不同的程序爬取算法 , 它们也拥有不一样的搜索结果 。
网络爬虫系统运行时 , 会自动选择一个较大网站的统一资源定位符即网页地址作为集合 , 在系统中把种子集合作为初始资源的地址 。 抓取数据时 , 在已经存在的网页资源地址的基础上得到新的网页资源地址 , 相当于把种子网页地址对应的网页作为森林中一棵树的根节点 。
系统运行过程中 , 把种子URL加入到下载队列 , 并从队首取出一个网页地址下载对应的网页 , 之后储存内容数据 , 利用解析器处理信息并得到新的网页地址 , 把新的网页地址加入到下载列队 , 反复执行上述操作 , 直到满足所需条件 , 循环工作结束 。
网络爬虫可以简单分为通用网络爬虫、聚焦网络爬虫和增量式网络爬虫 。
通用网络爬虫可从种子网页地址不断扩展到整个万维网 。 通用网络爬虫的作用是为用户站点搜索引擎时采集数据 。 爬行范围和数量非常大 , 不需按照特定的爬行页面顺序 , 但新的页面刷新时间较长 。
聚焦网络爬虫是选择性爬行 , 优先爬行预先设定的相关的网页 , 且只爬行与主题相关的页面 , 能够有效节省硬件和网络资源 , 满足特定人群对特定信息的需求 。 聚焦网络爬虫相关爬行策略有以下几方面 。 第一 , 基于内容评价的爬行策略 。 把用户搜索查询时的查询词作为主题 , 爬行页面与这一主题相关 。 第二 , 基于连接结构评价的策略 。 其主要涉及两种算法 , 一种是PageRank算法 , 可对计算值比较大的页面进行连接访问;另一种是HITS方法 , 通过计算每个已经访问的页面决定访问顺序 。 第三 , 增强学习的爬行策略 。 根据网页文本和链接文本分类超链接 , 通过链接的重要性决定访问顺序 。
增量式网络爬虫则在对应下载网页的基础上进行更新 , 即在新产生和发生变化的网页中 , 保证的其爬行页面为最新页面 。 增量式网络爬虫可以在很大程度上减少数据下载量 , 及时更新网页 , 避免空间和时间上的浪费 。
- 芯片|我国开始技术封锁!除量子密码以外,还有一项让美国憋屈十几年
- Java|计算机专业的本科生,该选择学习Java技术体系还是.NET技术体系
- 南方PLUS|高新区面向全市征集30项以上技术需求,@佛山企业
- 核聚变|中国若能掌握这十项技术,美国只能甘心叫中国爸爸
- 青年报|还有集成电路、8K摄影等硬核技术服务,都来了,上海的现代运输服务
- 央广网|数字技术复现大运河前世今生,腾讯与中国大百科出版社推出大运河小程序
- 芯片|打响芯片突围战!中科院出手,全面去除西方技术!
- 央视财经|技术创新赋予服务贸易新动能!百度首席技术官:人工智能是重要一环→
- 火星|马斯克的“保温杯”再度跳跃,移民火星更进一步,技术远超中俄!
- 陈根|让人工智能拥有痛觉,陈根:三项专利