Python入门教程!手把手教会你爬取网页数据( 三 )

  • time.sleep(1) 即为暂停1秒钟
  • get_poster_url 函数
    这个就是解析 HTML 的函数 , 使用的是 BeautifulSoup
    • 通过 find_all 方法查找所有 class 为 “cover” 的 div 元素 , 返回的是一个列表
    • 使用 for 循环 , 循环上一步拿到的列表 , 取出 src 的内容 , append 到列表中
    • append 是列表的一个方法 , 可以在列表后面追加元素
    download_picture 函数
    简易图片下载器
    • 首先判断当前目录下是否存在 picture 文件夹 , os.path.exists
    • os 库是非常常用用来操作系统相关的命令库 , os.mkdir 就是创建文件夹
    • split 用于切割字符串 , 取出角标为7的元素 , 作为存储图片的名称
    • with 方法用来快速打开文件 , 打开的进程可以自行关闭文件句柄 , 而不再需要手动执行 f.close() 关闭文件
    总结本节讲解了爬虫的基本流程以及需要用到的 Python 库和方法 , 并通过一个实际的例子完成了从分析网页 , 到数据存储的全过程 。 其实爬虫 , 无外乎模拟请求 , 解析数据 , 保存数据 。
    当然有的时候 , 网站还会设置各种反爬机制 , 比如 cookie 校验 , 请求频度检查 , 非浏览器访问限制 , JS 混淆等等 , 这个时候就需要用到反反爬技术了 , 比如抓取 cookie 放到 headers 中 , 使用代理 IP 访问 , 使用 Selenium 模拟浏览器等待方式 。
    由于本课程不是专门的爬虫课 , 这些技能就留待你自己去探索挖掘啦 。
    Python入门教程!手把手教会你爬取网页数据文章插图
    fire 函数
    这是一个主执行函数 , 使用 range 函数来处理分页 。
    • range 函数可以快速的创建整数列表 , 在 for 循环时及其好用 。 函数中的0代表从0开始计数 , 450代表一直迭代到450 , 不包含450 , 30代表步长 , 即每次递增的数字间隔 。 range(0, 450, 30) , 依次会输出:0 , 30 , 60 , 90 …
    • format 函数 , 是一种字符串格式化方式
    • time.sleep(1) 即为暂停1秒钟
    get_poster_url 函数
    这个就是解析 HTML 的函数 , 使用的是 BeautifulSoup
    • 通过 find_all 方法查找所有 class 为 “cover” 的 div 元素 , 返回的是一个列表
    • 使用 for 循环 , 循环上一步拿到的列表 , 取出 src 的内容 , append 到列表中
    • append 是列表的一个方法 , 可以在列表后面追加元素
    download_picture 函数
    简易图片下载器
    • 首先判断当前目录下是否存在 picture 文件夹 , os.path.exists
    • os 库是非常常用用来操作系统相关的命令库 , os.mkdir 就是创建文件夹
    • split 用于切割字符串 , 取出角标为7的元素 , 作为存储图片的名称
    • with 方法用来快速打开文件 , 打开的进程可以自行关闭文件句柄 , 而不再需要手动执行 f.close() 关闭文件
    总结本节讲解了爬虫的基本流程以及需要用到的 Python 库和方法 , 并通过一个实际的例子完成了从分析网页 , 到数据存储的全过程 。 其实爬虫 , 无外乎模拟请求 , 解析数据 , 保存数据 。
    当然有的时候 , 网站还会设置各种反爬机制 , 比如 cookie 校验 , 请求频度检查 , 非浏览器访问限制 , JS 混淆等等 , 这个时候就需要用到反反爬技术了 , 比如抓取 cookie 放到 headers 中 , 使用代理 IP 访问 , 使用 Selenium 模拟浏览器等待方式 。
    由于本课程不是专门的爬虫课 , 这些技能就留待你自己去探索挖掘啦 。
    Python入门教程!手把手教会你爬取网页数据文章插图
    此文转载文 , 著作权归作者所有 , 如有侵权联系小编删除!
    原文地址:
    PS:如遇到解决不了问题的小伙伴可以加点击下方链接自行获取
    【Python入门教程!手把手教会你爬取网页数据】python免费学习资料以及群交流解答后台私信小编01即可!