Python爬虫入门基础及正则表达式抓取博客案例分享
文章目录
- 一.什么是网络爬虫
- 二.正则表达式
- 1.re模块2.complie方法3.match方法4.search方法5.group和groups方法
- 三.Python网络数据爬取的常用模块
- 1.urllib模块2.urlparse模块
- 四.正则表达式抓取网络数据的常见方法
- 1.抓取标签间的内容2.爬取标签中的参数3.字符串处理及替换
- 五.个人博客爬取实例
- 1.分析过程2.代码实现
- 六.总结
一.什么是网络爬虫随着互联网的迅速发展 , 万维网成为大量信息的载体 , 越来越多的网民可以通过互联网获取所需的信息 , 同时如何有效地提取并利用这些信息也成为了一个巨大的挑战 。 搜索引擎(Search Engine)作为辅助人们检索信息的工具 , 它成为了用户访问万维网的入口和工具 , 常见的搜索引擎比如Google、Yahoo、百度、搜狗等 。 但是 , 这些通用性搜索引擎也存在着一定的局限性 , 比如搜索引擎返回的结果包含大量用户不关心的网页;再如它们是基于关键字检索 , 缺乏语义理解 , 导致反馈的信息不准确;通用的搜索引擎无法处理非结构性数据 , 图片、音频、视频等复杂类型的数据 。
为了解决上述问题 , 定向抓取相关网页资源的网络爬虫应运而生 , 下图是Google搜索引擎的架构图 , 它从万维网中爬取相关数据 , 通过文本和连接分析 , 再进行打分排序 , 最后返回相关的搜索结果至浏览器 。 同时 , 现在比较热门的知识图谱也是为了解决类似的问题而提出的 。
文章插图
通过上面的代码 , 读者会发现使用正则表达式爬取网站还是比较繁琐 , 尤其是定位网页节点时 , 后面将讲述Python提供的常用第三方扩展包 , 利用这些包的函数进行定向爬取 。
六.总结正则表达式是通过组合的“规则字符串”来对表达式进行过滤 , 从复杂内容中匹配想要的信息 。 它的主要对象是文本 , 适合于匹配文本字符串等内容 , 不适合匹配文本意义 , 比如匹配URL、Email这种纯文本的字符就非常适合 。 各种编程语言都能使用正则表达式 , 比如C#、Java、Python等 。
【Python爬虫入门基础及正则表达式抓取博客案例分享】正则表达式爬虫常用于获取字符串中的某些内容 , 比如提取博客阅读量和评论数的数字 , 截取URL域名或URL中某个参数 , 过滤掉特定的字符或检查所获取的数据是否符合某个逻辑 , 验证URL或日期类型等 。 由于其比较灵活、逻辑性和功能性较强的特点 , 使它能迅速地以极简单的方式从复杂字符串中达到匹配目的 。
但它对于刚接触的人来说 , 正则表达式比较晦涩难懂;同时 , 通过它获取HTML中某些特定文本也比较困难 , 尤其是当网页HTML源代码中结束标签缺失或不明显的情况 。 接下来作者将讲述更为强大、智能的第三方爬虫扩展包 , 主要是BeautifulSoup和Selenium技术 。
- 入门|做抖音影视赚钱比工资多,教大家新手也可快速入门
- 开发人员|ER(实体关系)建模入门指引
- 告诉|阿里大佬告诉你如何一分钟利用Python在家告别会员看电影
- Python源码阅读-基础1
- Python调用时使用*和**
- 如何基于Python实现自动化控制鼠标和键盘操作
- 解决多版本的python冲突问题
- 学习python第二弹
- Python中文速查表-Pandas 基础
- 零基础小白Python入门必看:通俗易懂,搞定深浅拷贝