如何在eclipse下配置Heritrix

如何在eclipse下配置Heritrix

如何在eclipse下配置Heritrix

文章插图
Eclipse 配置 Heritrix 1.14.4的配置过程如下: 1. 首先从http://sourceforge.net/projects/archive-crawler/ 中下载heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip(Windows)2. 在Eclipse 中创建一个java project的工程(可以命名为Heritrix)3. 将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹复制到工程src下 。4. 将heritrix-1.14.4-src.zip解压中src中conf文件夹复制到项目根目录 。
6. 将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下 。7. 将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录 。如果文件夹名称不是webapps 需要在Heritrix.java中进行相应的更改 。Java代码 :public static File getWarsdir()throws IOException {return getSubDir("webapps");}public static File getWarsdir() throws IOException { return getSubDir("webapps"); }8. 配置文件进行修改,找到conf下heritrix.properties文件Java代码 ://设置版本heritrix.version = 1.14.4 //设置用户密码 heritrix.cmdline.admin = admin:admin//设置端口 heritrix.cmdline.port = 80809. 对工程进行jar包引入,将lib下面所有的jar包引入工程 。
10.Eclipse中导入Heritrix,报错找不到类 sun.net.www.protocol.file.FileURLConnection,sun包是受保护的包,默认只有sun公司的软件才能使用 。Eclipse会报错,把对保护使用warning就可以了 。Windows -> Preferences -> Java -> Compiler -> Errors/Warnings-> Deprecated and trstricted API -> Forbidden reference (access rules): -> change to warning11. 添加配置文件夹 。
如果你运行Heritrix时,在配置页面中没有可选项,这一步可以解决问题 。在工程中找到org.archive.crawler.Heritrix.java右键选运行方式配置,选择Classpath ,选择User Entries -- Advanced ,选择Add Folders,将conf文件夹添加进去 。
eclipse怎么配置heritrix
如何在eclipse下配置Heritrix

文章插图
在eclipse下创建java project,命名为比如heritrix,进入其工程的目录,我的是F:win1安装包workspaceHeritrix 。
Heritrix1.10.1的安装配置
如何在eclipse下配置Heritrix

文章插图
1.下载heritrix-1.10.1.zip和heritrix-1.10.1.src 并解压,解压heritrix-1.10.1.jar.2.在eclipse下创建java project,命名为比如heritrix,进入其工程的目录,我的是F:workspacemyeclipseheritrix,删除src文件夹 。3.copy解压后的heritrix-1.10.1.zip文件夹下的lib,webapps,heritrix-1.10.1到F:workspacemyeclipseheritrix目录下,并删除F:workspacemyeclipseheritrixheritrix-1.10.1目录下的org和st两个文件夹 。
6.刷新工程,把lib下的jar包全部添加到工程中,即点击heritrix工程,右键属性---java build path---libraries--- add jars选择heritrix工程下lib所有jar 。
heritrix爬虫是广度优先爬虫,广度优先爬虫,是一层一层的爬去信息,有没有办法限制爬去的层数??【如何在eclipse下配置Heritrix】用heritrix比nutch要好一些 。
nutch适合做搜索引擎,只是附加有crawl的功能 。
用lucene搞索引和查询很方便简单啊,数据库里面取出数据,封装成lucene doc,用ikanalyzer分词,建立索引啥的都给lucene了 。
Heritrix-1.14.1怎么配置?1.下载heritrix-1.14.1.zip和heritrix-1.14.1.src 并解压,解压heritrix-1.14.1.jar. 2.在eclipse下创建java project,命名为比如heritrix,进入其工程的目录,我的是F:workspacemyeclipseheritrix,删除src文件夹 。3.copy解压后的heritrix-1.14.1.zip文件夹下的lib,webapps,heritrix-1.14.1到F:workspacemyeclipseheritrix目录下,并删除F:workspacemyeclipseheritrixheritrix-1.14.1目录下的org和st两个文件夹 。
6.刷新工程,把lib下的jar包全部添加到工程中,即点击heritrix工程,右键属性---java build path---libraries--- add jars选择heritrix工程下lib所有jar 。
配置heritrix运行后出现一下问题问题是地址被占用,一是通过cmd查看端口使用(命令:netstat -ao),关闭占用的应用程序后再运行,二是更改自己使用的地址至空闲地址 。
jsoup与heritrix之间的关系登录的,建议你用jsoup带着coo