手机版

指导教师推荐意见(13)

发布时间:2021-06-07   来源:未知    
字号:

使识别出的结果可信度特别的高。

识别结果编改:即后处理。是利用词义、词频、语法规则或语料库等语言先验知识对识别结果进行校正的过程。

以上就是一个中文OCR系统的工作流程。

1.2.3倾斜角度检测和校正在OCR系统中的作用

通过上一小节,我们知道:对输入图像进行倾斜角度检测,并予以校正属于预处理中的一个环节。它在整个OCR系统中有着很重要的地位,并对识别结果产生直接的影响。

如果跳过这一步,那么,倾斜的文档图像将会对版面的分析理解和文字行的切分产生影响。另外,由倾斜产生的字符变形,也会对字符的特征提取产生影响,并最终影响系统的识别率。有实验表明:当倾斜角度大于3°时,字符将产生明显形变,绝大多数OCR系统都无法适应[4]。

因此,对输入图像进行倾斜角度检测,并予以校正是OCR系统中必不可少的环节。

1.3本文的研究工作

由前两节,我们可以看到,对输入图像进行倾斜角度的检测和校正是必不可少的。本文的工作,主要是基于“文档图像检索系统”,对复杂结构文档图像进行研究,提出一种由文档图像的整体结构出发,通过对选择出的最佳边界段进行拟合得到倾斜角度的检测算法。该算法具有准确度高,鲁棒性强,运行速度快的特点。同时,该算法对大多数OCR系统也是适用的。

那么,什么样的文档图像算是复杂结构的呢?本文所处理的文档图像,其结构的复杂性主要体现在以下几个方面:

(1)文档中不仅有纯文本,还包括各种图和表。

(2)文档中纯文本部分的主方向可能为横向,也可能为纵向。

(3)文档中包含了多种文字:有中文,英文,日文。同时,文字的字体也多种多样。

------------------------------------------------------------------------------

指导教师推荐意见(13).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
×
二维码
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)