初识爬虫的那天,我选择了Java( 三 )


本书时候国内少见的Java爬虫宝典 。 与Python语言相比 , 使用Java语言进行网络数据采集 , 具有采集效率更高、框架性能更好、敏捷易用等优点 , 而且针对大型搜索引擎系统的数据采集工作更多使用Java语言 , 故本书值得大家学习 。
初识爬虫的那天,我选择了Java文章插图
(扫码了解本书详情)
初识爬虫的那天,我选择了Java文章插图
█ 关 于 作 者
钱洋
合肥工业大学管理科学与工程系博士、CSDN博客专家 。 作为技术人员参与过多个横向、纵向学术课题 , 负责数据采集系统的设计与开发工作 。 在CSDN(博客名称:HFUT_qianyang)上撰写了多篇关于数据采集、自然语言处理、编程语言等领域的原创博客 。
姜元春
合肥工业大学教授、博士生导师 。 长期从事电子商务、商务智能、数据采集与挖掘等方面的理论研究与教学工作 。 先后主持过国家自然科学基金优秀青年科学基金项目、国家自然科学基金重大研究计划培育项目、国家自然科学基金青年科学基金项目、教育部人文社科青年基金项目、阿里巴巴青年学者支持计划、CCF-腾讯犀牛鸟基金项目等课题的研究工作 。
█ 大 咖 推 荐

  • 陈国青 / 清华大学教授、博士生导师
  • 程学旗 / 中国科学院计算技术研究所研究员、博士生导师
  • 卓训方/ 上海数据交易中心项目总监
  • 刘业政 / 合肥工业大学教授博士生导师
█ 本书内容结构
第 1 ~3 章
这3 章重点介绍与网络爬虫开发相关的基础知识 , 其中包括网络爬虫的原理、Java 基础知识和HTTP 协议等内容 。
第 4~6 章
这3 章分别从网页内容获取、网页内容解析和网络爬虫数据存储3 个方面介绍网络爬虫开发过程中所涉及的一系列技术 。 在这3 章中 , 涉及很多开源工具的使用 , 如Jsoup、HttpClient、HtmlCleaner、Fastjson、POI3 等 。
第 7 章
本章利用具体的实战案例 , 讲解网络爬虫开发的流程 。 通过对本章的学习 , 读者可以轻松开发Java 网络爬虫 。
第 8 章
针对一些复杂的页面 , 如动态加载的页面(执行JavaScript 脚本) , 本章介绍了一款实用的工具——Selenium WebDriver 。
第 9 章
本章重点介绍了3 种比较流行的Java 网络爬虫开源框架 , 即Crawler4j、WebCollector 和WebMagic 。 读者可根据数据采集需求 , 自行开发支持多线程采集、断点采集、代理切换等功能的网络爬虫项目 。
初识爬虫的那天,我选择了Java文章插图
? 博文菌●互动时间 ?
Java、Python、Js、C、PHP、Shell、Ruby等等语言都可以实现爬虫 , 你尝试过哪种语言呢?欢迎在留言区与大家分享!