python为什么叫爬虫

Python为什么叫爬虫?爬虫一般是指网络资源的抓取 , 因为python的脚本特性 , python易于配置 , 对字符的处理也非常灵活 , 加上python有丰富的网络抓取模块 , 所以两者经常联系在一起 。简单的用python自己的urllib库也可以用python写一个搜索引擎 , 而搜索引擎就是一个复杂的爬虫 。从这里你就了解了什么是Python爬虫 , 是基于Python编程而创造出来的一种网络资源的抓取方式 , Python并不是爬虫 。
Python为什么适合些爬虫?
1)抓取网页本身的接口
【python为什么叫爬虫】相比与其他静态编程语言 , 如java , c# , C++ , python抓取网页文档的接口更简洁相比其他动态脚本语言 , 如perl , shell , python的urllib2包提供了较为完整的访问网页文档的API 。(当然ruby也是很好的选择)
此外 , 抓取网页有时候需要模拟浏览器的行为 , 很多网站对于生硬的爬虫抓取都是封杀的 。这是我们需要模拟user agent的行为构造合适的请求 , 譬如模拟用户登陆、模拟session/coo