网站开发费如何入账,网站建设的毕业设计,王老吉网络营销案例分析,wordpress4.7安装问题#xff1a;文本按照标点符号切分符号丢掉问题
项目场景#xff1a;需要对一个文字段落按照标点符号切分成一个个句子#xff0c;使用正则切分的过程中发现标点符号丢了#xff0c; 问题描述
文本按照标点符号切分符号丢掉问题 原始代码#xff1a; public static v…问题文本按照标点符号切分符号丢掉问题
项目场景需要对一个文字段落按照标点符号切分成一个个句子使用正则切分的过程中发现标点符号丢了 问题描述
文本按照标点符号切分符号丢掉问题 原始代码 public static void main(String[] args) {String content 这是一段内容。这是另一段内容这是第三段内容。;StringTokenizer str new StringTokenizer(content, 。.?!);while (str.hasMoreElements()) {String element StringUtils.trim((String) str.nextElement());if (StringUtils.isNotBlank(element)) {System.out.println(element);}}}执行结果
问题解决 提示先按照正则定位到标点符号然后将内容进行切割 修正后代码 public static void main(String[] args) {String content 这是一段内容。这是另一段内容这是第三段内容;String regex ([。.?!]);Pattern pattern Pattern.compile(regex);Matcher matcher pattern.matcher(content);ListString list Lists.newArrayList();int start 0;int end;while (matcher.find()) {
// System.out.println(原文符号 matcher.group() 位置 matcher.start());end matcher.start() 1;String substring content.substring(start, end);System.out.println(substring);list.add(substring);start end;}}执行结果