设计素材网站会员,淄博网站建设优化运营,电商图片制作软件,深圳企业展厅设计公司通过Java实现OCR 一、TesseractOCR二、引入pom训练集下载地址三、引入训练集三、使用 一、TesseractOCR
本文使用的是TesseractOCR进行识别
二、引入pom dependencygroupIdnet.sourceforge.tess4j/groupIdartifactIdtess4j/artifactIddependencygroupIdnet.sourceforge.tess4j/groupIdartifactIdtess4j/artifactIdversion5.8.0/version
/dependency训练集下载地址
三、引入训练集
训练集下载地址
下载训练集 放入到 resources下的tessdata文件夹下
三、使用
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import java.io.File;/*** author Mr.NaCl* since 2024/2/5*/
public class OCRServer {public static void main(String[] args) throws TesseractException {long start System.currentTimeMillis();System.out.println(开始OCR文字识图请稍后...);//加载要识别的图片File image new File(14-OCR/src/main/resources/test.jpg);//设置配置文件夹位置、识别语言、识别模式Tesseract tesseract new Tesseract();tesseract.setDatapath(14-OCR/src/main/resources/tessdata);//设置识别语言为中文简体如果要设置为英文可改为engtesseract.setLanguage(chi_sim);//使用 OSD 进行自动页面分割以进行图像处理tesseract.setPageSegMode(1);//设置引擎模式是神经网络LSTM引擎tesseract.setOcrEngineMode(1);//开始识别整张图片中的文字String result tesseract.doOCR(image);//如果只想识别图片中特定部分的文字可以像下面这样选定长宽范围识别//String result tesseract.doOCR(image, new Rectangle(300, 200));long time System.currentTimeMillis() - start;System.out.println(识别结束,耗时 time 毫秒识别结果如下);System.out.println(result);}
}