使识别出的结果可信度特别的高。
识别结果编改:即后处理。是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。
以上就是一个中文OCR系统的工作流程。
1.2.3倾斜角度检测和校正在OCR系统中的作用
通过上一小节,我们知道:对输入图像进行倾斜角度检测,并予以校正属于预处理中的一个环节。它在整个OCR系统中有着很重要的地位,并对识别结果产生直接的影响。
如果跳过这一步,那么,倾斜的文档图像将会对版面的分析理解和文字行的切分产生影响。另外,由倾斜产生的字符变形,也会对字符的特征提取产生影响,并最终影响系统的识别率。有实验表明:当倾斜角度大于3°时,字符将产生明显形变,绝大多数OCR系统都无法适应[4]。
因此,对输入图像进行倾斜角度检测,并予以校正是OCR系统中必不可少的环节。
1.3本文的研究工作
由前两节,我们可以看到,对输入图像进行倾斜角度的检测和校正是必不可少的。本文的工作,主要是基于“文档图像检索系统”,对复杂结构文档图像进行研究,提出一种由文档图像的整体结构出发,通过对选择出的最佳边界段进行拟合得到倾斜角度的检测算法。该算法具有准确度高,鲁棒性强,运行速度快的特点。同时,该算法对大多数OCR系统也是适用的。
那么,什么样的文档图像算是复杂结构的呢?本文所处理的文档图像,其结构的复杂性主要体现在以下几个方面:
(1)文档中不仅有纯文本,还包括各种图和表。
(2)文档中纯文本部分的主方向可能为横向,也可能为纵向。
(3)文档中包含了多种文字:有中文,英文,日文。同时,文字的字体也多种多样。
------------------------------------------------------------------------------