爬虫实战 | 揭秘古风系列商品,避免踩坑( 六 )

1、字节长度设置少了(解决方式:varchar(250))

2、中文字段写入问题(解决方式: character set = utf8)

3、特殊符号的词处理(解决方式:replace将特殊符号替换为空白)

二、撰写爬虫:

流程:(仅选取部分代码)

1、用户代理池,ip代理池的建立(池越多越好,越深越赞,本次仅采用了3个ip切换)

2、设定要抓取的目标,对抓取的网站进行分析,

3、构建一级页面的抓取并获得详情页面的Link以及详情页面的对应信息

4、进行抓包分析(可以利用fiddle工具实施)

5、循环抓取,对程序错误进行试调,有错误的地方用try-except进行处理

爬虫实战 | 揭秘古风系列商品,避免踩坑