初识爬虫的那天，我选择了Java( 三 ) 本科时

本书时候国内少见的Java爬虫宝典。与Python语言相比，使用Java语言进行网络数据采集，具有采集效率更高、框架性能更好、敏捷易用等优点，而且针对大型搜索引擎系统的数据采集工作更多使用Java语言，故本书值得大家学习。
文章插图
（扫码了解本书详情）
文章插图
█ 关于作者
钱洋
合肥工业大学管理科学与工程系博士、CSDN博客专家。作为技术人员参与过多个横向、纵向学术课题，负责数据采集系统的设计与开发工作。在CSDN（博客名称：HFUT_qianyang）上撰写了多篇关于数据采集、自然语言处理、编程语言等领域的原创博客。
姜元春
合肥工业大学教授、博士生导师。长期从事电子商务、商务智能、数据采集与挖掘等方面的理论研究与教学工作。先后主持过国家自然科学基金优秀青年科学基金项目、国家自然科学基金重大研究计划培育项目、国家自然科学基金青年科学基金项目、教育部人文社科青年基金项目、阿里巴巴青年学者支持计划、CCF-腾讯犀牛鸟基金项目等课题的研究工作。
█ 大咖推荐

陈国青 / 清华大学教授、博士生导师
程学旗 / 中国科学院计算技术研究所研究员、博士生导师
卓训方/ 上海数据交易中心项目总监
刘业政 / 合肥工业大学教授博士生导师

█ 本书内容结构
第 1 ~3 章
这3 章重点介绍与网络爬虫开发相关的基础知识，其中包括网络爬虫的原理、Java 基础知识和HTTP 协议等内容。
第 4~6 章
这3 章分别从网页内容获取、网页内容解析和网络爬虫数据存储3 个方面介绍网络爬虫开发过程中所涉及的一系列技术。在这3 章中，涉及很多开源工具的使用，如Jsoup、HttpClient、HtmlCleaner、Fastjson、POI3 等。
第 7 章
本章利用具体的实战案例，讲解网络爬虫开发的流程。通过对本章的学习，读者可以轻松开发Java 网络爬虫。
第 8 章
针对一些复杂的页面，如动态加载的页面（执行JavaScript 脚本），本章介绍了一款实用的工具——Selenium WebDriver 。
第 9 章
本章重点介绍了3 种比较流行的Java 网络爬虫开源框架，即Crawler4j、WebCollector 和WebMagic 。读者可根据数据采集需求，自行开发支持多线程采集、断点采集、代理切换等功能的网络爬虫项目。

文章插图
? 博文菌●互动时间 ?
Java、Python、Js、C、PHP、Shell、Ruby等等语言都可以实现爬虫，你尝试过哪种语言呢？欢迎在留言区与大家分享！