当前位置: 首页 > news >正文

网站没有做301定向宁波网站建设的价格表

网站没有做301定向,宁波网站建设的价格表,wordpress登录页面,机械产品网络推广怎么做Nutch安装 一、需求部份 a) Nutch是Java开发的所以需要下载Java JDK 下载地址http://java.sun.com/javase/downloads/index.jsp b) Nutch的演示搜索页面是Jsp的需要Tomcat做服务器 下载地址#xff1a;http://jakarta.apache.org/tomcat/ c) Nutch的脚本都是用Linux的Shell写的…Nutch安装 一、需求部份 a) Nutch是Java开发的所以需要下载Java JDK 下载地址http://java.sun.com/javase/downloads/index.jsp b) Nutch的演示搜索页面是Jsp的需要Tomcat做服务器 下载地址http://jakarta.apache.org/tomcat/ c) Nutch的脚本都是用Linux的Shell写的所以在Windows平台需要一个Shell解释程序。Cygwin是一个在Windows下的模拟Linux系统程序。(注Linux下不需要下载此程序) 下载地址http://www.cygwin.com/ d) Nutch下载地址http://lucene.apache.org/nutch/ e 建议安装UltraEdit文字编辑器。 二、安装步骤 a)Java JDK安装 安装目录不要出现中文安装完成后设置环境变量win7下设置环境变量和XP不同在系统变量或者用户变量都行。 变量名JAVA_HOME 变量值 D:\Java\jdk(此处根据安装目录决定) 变量名 PATH 变量值 %JAVA_HOME%\bin%Path%“%变量名%”表示前面已有的变量 变量名 CLASSPATH 变量值 .;%JAVA_HOME%\lib;%CATALINA_HOME%\lib前面的“.”不能省后面这是tomcat的需要 变量安装完成后在运行里输入“cmd”打开命令行分别输入“java”,”javac”,”java –version”若显示具体信息而没有报错则安装成功如下图 b)tomcat安装 Tomcat解压缩在没有中文的目录下设置环境变量 变量名 CATALINA_HOME 变量值 D:\bishe\apache-tomcat-7.0.6(具体的安装路径) 变量CLASSPATH的编辑前面已经完成就不再需要。 运行CMD 进入此目录下运行catalina.bat run Tomcat的运行和停止的文件分别是startup.bat和shutdown.bat。 cCygwin安装 运行安装程序后出现如下图 之后一直选择下一步就好了root directory为安装路径local package directory为安装文件所在路径(也是setup.exe所在路径)。完成后在桌面会出现此为cygwin目录下的cygwin.bat的快捷方式。 dnatch安装 下载完成后解压在没有中文的路径下。设置环境变量 变量名 NUTCH_JAVA_HOME 变量值 %JAVA_HOME% 运行cygwin输入命令cd /cygdrive/d/bishe/nutch-1.2再输入bin/nutch如图则nutch安装成功。 三、配置步骤 a)在nutch目录下建立urls目录在目录中建立txt文件文件名任意用来设置搜索站点的起始位置如http://www.ustc.edu.cn/。 b)修改网址过滤规则conf/crawl-urlfilter.txt文件把里面的MY.DOMAIN.NAME修改为你的抓取的URL。eg ^http://([a-z0-9]*.)*ustc.edu.cn/这里设置为只抓取以edu.cn结尾的URL。 c) 修改conf/nutch-site.xml代理信息在和之间添加如下文件 http.agent.name ubuntuer此处ubuntu是一个自定义的值有说是可以为空 有说是要设置一个单词我是设置了一个词 http.agent.description ubuntuer http.agent.url http.agent.email iptablergmail.com d)执行nutch抓取url数据 在Cygwin命令行窗口中输入cd /cygdrive/d/nutch-1.2 再输入bin/nutch crawl urls –dir crawl –depth 3 –threads 4 –topN 30 crawl.log 注意在命令行窗口中输入命令的空格命令说明 crawl 是nutch检索数据命令后面跟上要检索的URL文件。urls就是a)部份创建的文件 -dir是检索后的结果存放目录参数后面跟上结果存放地址。如果我们存放到nutch目录下的crawl目录注意此目录当前是不存在的。检索完后nutch会创建出来。-threads 抓取时的线程数参数 -depth 抓取时的深度参数 -topN 抓取时每页的最大抓取链接 最后把执行信息写入crawl.log日志文件中方便查找错误。 e)配置tomcat 把nutch-1.2.war复制到Tomcat下的webapps里启动Tomcat会自动deploy。再关闭Tomcat到webapps\nutch-1.2目录下的WEB-INF\classes里的nutch-site.xml里增加搜索的目录 searcher.dir D:\bishe\nutch-1.2\crawl(此处为检索存放的地址 为了支持中文在tomcat\conf的server.xml里的 里面增加URIEncoding“UTF-8” useBodyEncodingForURItrue配置最后如 每一项都用空格隔开。重启Tomcat可以通过http://localhost:8080/nutch-1.2访问到Nutch了。 四、搜索结果 至此Nutch的安装基本完成。
http://www.pierceye.com/news/396455/

相关文章:

  • 自己有网站 做app吗深圳罗湖企业网站推广
  • 廊坊建设局网站6阿里云虚拟主机网站
  • 设计一个电商网站西安seo盐城
  • 上海网站公司建设网页设计网站欣赏
  • 平台网站如何做推广1280的界面网站做多宽
  • 男男做爰视频网站微信扫码点餐小程序怎么做
  • 哈尔滨做网站的价格如何利用wordpress搭建一个发卡网
  • 商会建设网站说明网站建设属于技术活吗
  • 免费申请手机网站公司画册模板免费下载
  • 网站建设策划做一个卖货的app要多少钱
  • 泉州网站平台建设公司网站服务器出错了怎么办
  • 佛山网站设计专业手机网站模板设计软件
  • 顺德网站优化公司wordpress 去广告
  • 自己建企业网站怎么建免费大数据查询
  • 短视频素材免费下载网站江西省城乡建设厅网站
  • 西安做网站公司工资wordpress 导航 分类
  • 网站建设免费教程网页设计图片高清
  • 网站后台源代码东直门小学的网站建设
  • 无锡建设局评职称网站分析 网站
  • 宜昌需要做网站建设的公司python做调查问卷网站
  • 乐陵森大最好的seo优化公司
  • php网站开发实施方案福建建筑信息平台
  • 怎么写公司网站的文案建设网站技术公司简介
  • 陕西做网站的wordpress增加变量
  • 莒南县建设工程网站网站认证方式有几种
  • 举报网站建设自查报告相同网站名
  • 网站建设网站建设公司北京logo设计制作
  • 福州市交通建设集团有限公司 网站全国国家公示系统官网
  • 郑州网站建设蝶动2023年专升本最新政策
  • 江苏网站推广网络企业宣传画册设计公司