爬虫“学前班”,记住这些不踩坑
摘要:爬虫就是模拟人的访问操作来获取网页/App数据的一种程序 。
爬虫是什么?简单的说爬虫就是模拟人的访问操作来获取网页/App数据的一种程序 。 我们可以把互联网比作一张大网 , 而爬虫(即网络爬虫)便是再网上爬行的蜘蛛 。 把网的节点比作一个个网页 , 爬虫爬到这就相当于访问了该页面 , 获取了其信息 。 可以把节点间的连线比作网页与网页之间的链接关系 , 这样蜘蛛通过一个节点后 , 可以顺着节点连线继续爬行到达下一个节点 , 即通过一个网页继续获取后续的网页 , 这样整个网的节点便可以被蜘蛛全部爬行到 , 网站的数据就可以被抓取下来了 。
而我们平时所看到的搜索引擎、统计数据、出行类软件、聚合类平台都离不开网络爬虫 。
文章插图
爬虫的应用领域有哪些?我们常见的应用场景简单举例如下 ,
1.搜索引擎抓取网页信息
文章插图
2.出行类软件通过爬虫抢票
3.论坛或者微博的舆情监控 。 用数据采集技术来监测搜索引擎、新闻门户、论坛、博客、微博、微信、报刊、视频的舆情 。 说白了就是用这个来实现实时的发现某一行业或地区的热点事件 , 譬如清博舆情 , 百度舆情等等 。
文章插图
4.比价网站的应用 。 如今各大电商平台为了活跃用户进行各种秒杀活动 , 还有优惠券等 , 同样的一个商品可能在不同网购平台价格不一样 , 这就催生了返利网 , 折多多 , 折xx等 。 那么这些网站是如何在几分钟之内甚至秒级的时间内知道一件商品在某站有优惠的呢?这就需要一个数据采集系统(爬虫)来实时监控各站的价格浮动 , 先采商品的价格、型号、配置等 , 在做处理、分析、反馈 。
为什么学习爬虫?互联网的快速发展 , 带来了前所未有的便利 , 同样也带来很多之前没有遇到的新问题 。 获取信息的成本越来越低 , 信息的种类和数量越来越多 , 但是我们处理信息的能力并没有提升 , 很难从信息中提取自己感兴趣的内容 。
而学会爬虫就可以自动高效地获取互联网中我们感兴趣的内容 , 帮助我们快速搭建属于自己的信息知识库 。
如何完成一个轻量级爬虫这里简要概述为三个步骤:获取数据 - 解析数据 - 存储数据 。 以下是完成这些步骤所涉及的工具 , 供大家参考 。
获取数据:urllib2、Requests、Selenium、aiohttp
获取数据的工具:Chrome、Fiddler、MitmProxy、Appium
解析数据:Css 选择器、PyQuery、BeautifulSoup、Xpath、Re
存储数据:MySQL、MongoDB、Redis
文章插图
文章插图
工程化爬虫
文章插图
工程化爬虫的项目推荐:Scrapy、PySpider
反爬虫的措施与应对1.网页反爬虫—字体反爬
开发者可以使用 @font-face 为网页指定字体 , 就可以调用自定义的字体文件来渲染网页中的文字 , 网页中的文字变成相应的编码 , 这时通过简单的网页采集就无法获取编码后的网页内容 。
【爬虫“学前班”,记住这些不踩坑】应对措施:字体反爬相对与其他的反爬 , 他的难度属于较为初级的阶段 , 主要是在处理的时候比较麻烦 , 比较注重防御的网站 , 往往一个网站有多套不同的字体加密防御体系 , 比如 135 用 A 方案 , 246 用 B 方案 , 这个需要一定的耐心去分析字体的规律并使用 Python 解析字体文件 , 找出映射规律才可以解决 。
推荐工具:fontTools、百度字体编辑器()
2.网页反爬虫—验证码
验证码是一种区分用户是计算机还是人的公共全自动程序 , 常见的验证码有:多位英数混合验证码、滑动验证码、点选验证码、旋转验证码等等 。
应对措施:项目预算充足的情况下可以对接专业的打码平台 , 减少 90 % 的工作量;预算不足的情况可以使用华为云 ModelArts , 不用写一行代码 , 就能完成模型的搭建
推荐工具:华为云 ModelArts、CC框架
3.网页反爬虫—JS 加密/混淆
前端的代码都是公开的 , 那么加密有意义吗?有的 , 通过去除代码中尽可能多地有意义的信息 , 比如注释、换行、空格、代码负号、变量重命名、属性重命名(允许的情况下)、无用代码的移除尽可能增加爬虫工程师阅读代码的成本 。
- 空调|让格力、海尔都担忧,中国取暖“新潮物”强势来袭,空调将成闲置品?
- 同比|亚马逊公布“剁手节”创纪录战绩:第三方卖家全球销售额超48亿美元 同比大增60%
- 闲鱼|电诉宝:“闲鱼”网络欺诈成用户投诉热点 Q3获“不建议下单”评级
- 人民币|天猫国际新增“服务大类”,知舟集团提醒入驻这些类目的要注意
- 产业|前瞻生鲜电商产业全球周报第67期:发力社区团购!京东内部筹划“京东优选”
- 技术|做“视频”绿厂是专业的,这项技术获人民日报评论点赞
- 互联网|苏宁跳出“零售商”重组互联网平台业务 融资60亿只是第一步
- 面临|“熟悉的陌生人”不该被边缘化
- 研发|闽企制伞有“功夫”项目入选国家重点研发计划
- 逛逛|淘宝内容化再升级:“买家秀”变身“逛逛”试图冲破算法局限