当前位置: 首页 > news >正文

做政协网站软件的公司如何用阿里云做网站

做政协网站软件的公司,如何用阿里云做网站,在线设计图纸,山东高端网站建设最近学习主题模型pLSA、LDA#xff0c;就想拿来试试中文。首先就是找文本进行切词、去停用词等预处理#xff0c;这里我找了开源工具IKAnalyzer2012#xff0c;下载地址#xff1a;(#xff1a;(注意#xff1a;这里尽量下载最新版本#xff0c;我这里用的IKAnalyzer201…最近学习主题模型pLSA、LDA就想拿来试试中文。首先就是找文本进行切词、去停用词等预处理这里我找了开源工具IKAnalyzer2012下载地址((注意这里尽量下载最新版本我这里用的IKAnalyzer2012.zip 这本版本后来测试时发现bug这里建议IKAnalyzer2012_u6.zip)) https://code.google.com/p/ik-analyzer/ 由于太多而且名称我也搞不清楚不知道下载哪个。后来我下载了IKAnalyzer2012.zip 压缩文件。    压缩后按照说明说需要配置   然而这里开始我连IKAnalyzer2012.jar安装部署否不清楚后来慢慢摸索才弄清楚 首先在Eclipse中建一个Java工程我这里名称是“FC”然后右键JRE System Library.jar 点击Build Path--Configure Build Path   添加上IKAnalyzer2012.jar确定。 stopwords.dic 是停用词文件可以自己建一个ext.dic 即自定义词典,以及分词扩张配置文件主要用于调取stopwords.dic, ext.dic 我们将其加入到FC--scr下 由于会经常配合lucene-core使用这个jar包可以从这里下载http://grepcode.com/snapshot/repo1.maven.org/maven2/org.apache.lucene/lucene-core/3.6.1 安装如上进行配置。 我这里的配置后的工程目录如下 另外双击scr下IKAnalyzer.cfg.xml文件配置如下   ?xml version1.0 encodingUTF-8? !DOCTYPE properties SYSTEM http://java.sun.com/dtd/properties.dtd properties commentIK Analyzer 扩展配置/comment!--用户可以在这里配置自己的扩展字典 --entry keyext_dictext.dic;/entry !--用户可以在这里配置自己的扩展停止词字典--entry keyext_stopwordsstopwords.dic;/entry /properties这里给一个分词演示程序IKAnalyzerTest.java 在C盘根目录下见一个需要分词的txt文档(注意这里需要用软件Notepad2 对该内容转成UTF-8编码格式将内容复制到Notepad中点击文件 --编码--UTF-8--保存成txt文件即可) 李天一现名李冠丰。著名歌唱家李双江和知名歌唱家梦鸽之子。根据司法机关公布资料显示李天一出生于1996年4月。曾就读北京海淀区中关村第三小学、人民大学附中、美国Shattuck-St. Marys School沙特克圣玛丽学院冰球学校。2011年9月6日因与人斗殴被拘留教养1年。2012年9月19日李天一被解除教养。2013年2月22日因涉嫌轮奸案被刑事拘留后因可查资料显示未成年移交少管所。3月7日中央电视台新闻中心官方微博发布了一条消息称李天一因涉嫌强奸罪已被检察机关批捕。2013年9月李双江一篇旧文证实李天一成年。   在ext.dic中设置个性词典为李双江、李天一、梦鸽。 stopwords.dic中用的是中文的常用停用词这里可以在百度文库中下载注意用notepad转成UTF-8后保存。   import java.io.*;import java.io.BufferedReader; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.io.StringReader; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.wltea.analyzer.core.IKSegmenter; import org.wltea.analyzer.core.Lexeme; import org.wltea.analyzer.lucene.IKAnalyzer;public class Text1 {public static void main(String[] args) throws IOException {String filePath C:\\test.txt;String newsnew String();BufferedReader in new BufferedReader(new InputStreamReader(new FileInputStream(filePath), UTF8));String str;while ((str in.readLine()) ! null) {newsstr;}in.close();System.out.println(news);IKAnalyzer analyzer new IKAnalyzer(true);StringReader reader new StringReader(news);TokenStream ts analyzer.tokenStream(, reader);CharTermAttribute term ts.getAttribute(CharTermAttribute.class);while(ts.incrementToken()){System.out.print(term.toString()|);}analyzer.close();reader.close();System.out.println();StringReader re new StringReader(news);IKSegmenter ik new IKSegmenter(re,true);Lexeme lex null;File f new File(C://jieguo.txt); f.delete();String pathC://jieguo.txt; //%%%%%%while((lexik.next())!null){System.out.print(lex.getLexemeText()|);try { FileWriter fwnew FileWriter(path,true);PrintWriter pwnew PrintWriter(fw); pw.print(lex.getLexemeText()|); pw.close(); //bw.close(); fw.close(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } }} }分词后的文件我这里仍然放在C盘根目录下结果 李天一|现名|李|冠|丰|著名|歌唱家|李双江|知名|歌唱家|梦鸽|之子|司法机关|公布|资料|显示|李天一|出生于|1996年|4月|曾|就读|北京|海淀区|中关村|第三|小学|人民大学|附中|美国|shattuck-st.|mary|s|school|沙特|克|圣玛丽|学院|冰球|学校|2011年|9月|6日|与人|斗殴|拘留|教养|1年|2012年|9月|19日|李天一|解除|教养|2013年|2月|22日|因涉嫌|轮奸案|刑事拘留|后|可查|资料|显示|未成年|移交|少管所|3月|7日|中央电视台|新闻中心|官方|微|博|发布|一条|消息|称|李天一|因涉嫌|强奸罪|已被|检察机关|批捕|2013年|9月|李双江|一篇|旧|文|证实|李天一|   转载于:https://www.cnblogs.com/huadongw/p/4222866.html
http://www.pierceye.com/news/906046/

相关文章:

  • 石家庄网站建设雨点牛wordpress qq登录免费
  • 有网站如何做淘宝客荆门市城乡建设管理局网站
  • 综合性门户网站列举如何拥有自己的微信小程序
  • 我图网类网站建设做外贸哪个网站最好
  • 做网站后台运营这个工作怎么样成都网络推广哪家好
  • angularjs做的网站有哪些wordpress 文章
  • 全国网站建设公司排名wordpress功能强大的主题
  • 做网站用c 还是php番禺制作网站平台
  • 营销网站运营的基本环节郑州大学现代远程教育 《网页设计与网站建设》个人主页
  • 网站建设合同是谁开的wordpress装主题需要ftp
  • 新乡门户网站建设方案开启wordpress upwn
  • 烟台企业自助建站系统浙江网站seo
  • 北京婚纱摄影网站珠海网站建设怎样
  • 用什么软件来做网站域名网安备案
  • 能打开各种网站的浏览器推荐制作小网站
  • 山东公司网站开发好看的个人博客主页
  • 长沙优化网站获客软件最新网页游戏排行榜2021
  • 学校网站 建设网络系统管理与维护电大考试题
  • 中文域名转码网站琼筑网站是哪家做的
  • iis 网站访问权限毕设做网站的过程
  • 俱乐部网站模板有什么外贸网站
  • 补习吧 一家专门做家教的网站wordpress繁体字插件
  • 北京西站附近景点网络运营工作内容
  • 网站开发文档模板flask网站开发源码
  • 东莞清洁服务网站建设wordpress收费主题
  • 微网站如何做门户网站建设成都
  • 厦门网络推广建网站前端做图表的网站
  • 河南郑州网站设计公司手机自助建网站
  • 做网站的公司主要做shm有域名了网站怎么做
  • 竭诚网络网站建设价格贺兰网站建设