网站没有做301定向,宁波网站建设的价格表,wordpress登录页面,机械产品网络推广怎么做Nutch安装 一、需求部份 a) Nutch是Java开发的所以需要下载Java JDK 下载地址http://java.sun.com/javase/downloads/index.jsp b) Nutch的演示搜索页面是Jsp的需要Tomcat做服务器 下载地址#xff1a;http://jakarta.apache.org/tomcat/ c) Nutch的脚本都是用Linux的Shell写的…Nutch安装 一、需求部份 a) Nutch是Java开发的所以需要下载Java JDK 下载地址http://java.sun.com/javase/downloads/index.jsp b) Nutch的演示搜索页面是Jsp的需要Tomcat做服务器 下载地址http://jakarta.apache.org/tomcat/ c) Nutch的脚本都是用Linux的Shell写的所以在Windows平台需要一个Shell解释程序。Cygwin是一个在Windows下的模拟Linux系统程序。(注Linux下不需要下载此程序) 下载地址http://www.cygwin.com/ d) Nutch下载地址http://lucene.apache.org/nutch/ e 建议安装UltraEdit文字编辑器。
二、安装步骤 a)Java JDK安装 安装目录不要出现中文安装完成后设置环境变量win7下设置环境变量和XP不同在系统变量或者用户变量都行。 变量名JAVA_HOME 变量值 D:\Java\jdk(此处根据安装目录决定) 变量名 PATH 变量值 %JAVA_HOME%\bin%Path%“%变量名%”表示前面已有的变量 变量名 CLASSPATH 变量值 .;%JAVA_HOME%\lib;%CATALINA_HOME%\lib前面的“.”不能省后面这是tomcat的需要 变量安装完成后在运行里输入“cmd”打开命令行分别输入“java”,”javac”,”java –version”若显示具体信息而没有报错则安装成功如下图
b)tomcat安装 Tomcat解压缩在没有中文的目录下设置环境变量 变量名 CATALINA_HOME 变量值 D:\bishe\apache-tomcat-7.0.6(具体的安装路径) 变量CLASSPATH的编辑前面已经完成就不再需要。 运行CMD 进入此目录下运行catalina.bat run Tomcat的运行和停止的文件分别是startup.bat和shutdown.bat。
cCygwin安装 运行安装程序后出现如下图 之后一直选择下一步就好了root directory为安装路径local package directory为安装文件所在路径(也是setup.exe所在路径)。完成后在桌面会出现此为cygwin目录下的cygwin.bat的快捷方式。
dnatch安装 下载完成后解压在没有中文的路径下。设置环境变量 变量名 NUTCH_JAVA_HOME 变量值 %JAVA_HOME% 运行cygwin输入命令cd /cygdrive/d/bishe/nutch-1.2再输入bin/nutch如图则nutch安装成功。
三、配置步骤 a)在nutch目录下建立urls目录在目录中建立txt文件文件名任意用来设置搜索站点的起始位置如http://www.ustc.edu.cn/。 b)修改网址过滤规则conf/crawl-urlfilter.txt文件把里面的MY.DOMAIN.NAME修改为你的抓取的URL。eg ^http://([a-z0-9]*.)*ustc.edu.cn/这里设置为只抓取以edu.cn结尾的URL。
c) 修改conf/nutch-site.xml代理信息在和之间添加如下文件 http.agent.name ubuntuer此处ubuntu是一个自定义的值有说是可以为空 有说是要设置一个单词我是设置了一个词 http.agent.description ubuntuer http.agent.url http.agent.email iptablergmail.com d)执行nutch抓取url数据 在Cygwin命令行窗口中输入cd /cygdrive/d/nutch-1.2 再输入bin/nutch crawl urls –dir crawl –depth 3 –threads 4 –topN 30 crawl.log 注意在命令行窗口中输入命令的空格命令说明 crawl 是nutch检索数据命令后面跟上要检索的URL文件。urls就是a)部份创建的文件 -dir是检索后的结果存放目录参数后面跟上结果存放地址。如果我们存放到nutch目录下的crawl目录注意此目录当前是不存在的。检索完后nutch会创建出来。-threads 抓取时的线程数参数 -depth 抓取时的深度参数 -topN 抓取时每页的最大抓取链接 最后把执行信息写入crawl.log日志文件中方便查找错误。 e)配置tomcat 把nutch-1.2.war复制到Tomcat下的webapps里启动Tomcat会自动deploy。再关闭Tomcat到webapps\nutch-1.2目录下的WEB-INF\classes里的nutch-site.xml里增加搜索的目录 searcher.dir D:\bishe\nutch-1.2\crawl(此处为检索存放的地址 为了支持中文在tomcat\conf的server.xml里的 里面增加URIEncoding“UTF-8” useBodyEncodingForURItrue配置最后如 每一项都用空格隔开。重启Tomcat可以通过http://localhost:8080/nutch-1.2访问到Nutch了。 四、搜索结果
至此Nutch的安装基本完成。