初识爬虫的那天,我选择了Java( 三 )
本书时候国内少见的Java爬虫宝典 。 与Python语言相比 , 使用Java语言进行网络数据采集 , 具有采集效率更高、框架性能更好、敏捷易用等优点 , 而且针对大型搜索引擎系统的数据采集工作更多使用Java语言 , 故本书值得大家学习 。
文章插图
(扫码了解本书详情)
文章插图
█ 关 于 作 者
钱洋
合肥工业大学管理科学与工程系博士、CSDN博客专家 。 作为技术人员参与过多个横向、纵向学术课题 , 负责数据采集系统的设计与开发工作 。 在CSDN(博客名称:HFUT_qianyang)上撰写了多篇关于数据采集、自然语言处理、编程语言等领域的原创博客 。
姜元春
合肥工业大学教授、博士生导师 。 长期从事电子商务、商务智能、数据采集与挖掘等方面的理论研究与教学工作 。 先后主持过国家自然科学基金优秀青年科学基金项目、国家自然科学基金重大研究计划培育项目、国家自然科学基金青年科学基金项目、教育部人文社科青年基金项目、阿里巴巴青年学者支持计划、CCF-腾讯犀牛鸟基金项目等课题的研究工作 。
█ 大 咖 推 荐
- 陈国青 / 清华大学教授、博士生导师
- 程学旗 / 中国科学院计算技术研究所研究员、博士生导师
- 卓训方/ 上海数据交易中心项目总监
- 刘业政 / 合肥工业大学教授博士生导师
第 1 ~3 章
这3 章重点介绍与网络爬虫开发相关的基础知识 , 其中包括网络爬虫的原理、Java 基础知识和HTTP 协议等内容 。
第 4~6 章
这3 章分别从网页内容获取、网页内容解析和网络爬虫数据存储3 个方面介绍网络爬虫开发过程中所涉及的一系列技术 。 在这3 章中 , 涉及很多开源工具的使用 , 如Jsoup、HttpClient、HtmlCleaner、Fastjson、POI3 等 。
第 7 章
本章利用具体的实战案例 , 讲解网络爬虫开发的流程 。 通过对本章的学习 , 读者可以轻松开发Java 网络爬虫 。
第 8 章
针对一些复杂的页面 , 如动态加载的页面(执行JavaScript 脚本) , 本章介绍了一款实用的工具——Selenium WebDriver 。
第 9 章
本章重点介绍了3 种比较流行的Java 网络爬虫开源框架 , 即Crawler4j、WebCollector 和WebMagic 。 读者可根据数据采集需求 , 自行开发支持多线程采集、断点采集、代理切换等功能的网络爬虫项目 。
文章插图
? 博文菌●互动时间 ?
Java、Python、Js、C、PHP、Shell、Ruby等等语言都可以实现爬虫 , 你尝试过哪种语言呢?欢迎在留言区与大家分享!
- 智能手机市场|华为再拿第一!27%的份额领跑全行业,苹果8%排在第四名!
- 会员|美容院使用会员管理软件给顾客更好的消费体验!
- 行业|现在行业内客服托管费用是怎么算的
- 人民币|天猫国际新增“服务大类”,知舟集团提醒入驻这些类目的要注意
- 国外|坐拥77件专利,打破国外的垄断,造出中国最先进的家电芯片
- 技术|做“视频”绿厂是专业的,这项技术获人民日报评论点赞
- 面临|“熟悉的陌生人”不该被边缘化
- 中国|浅谈5G移动通信技术的前世和今生
- 页面|如何简单、快速制作流程图?上班族的画图技巧get
- 桌面|日常使用的软件及网站分享 篇一:几个动态壁纸软件和静态壁纸网站:助你美化你的桌面