手机版

指导教师推荐意见(11)

发布时间:2021-06-07   来源:未知    
字号:

阶段:

(1) 第一阶段从70年代末期到80年代末期,主要是算法和方案探索。

(2) 第二阶段是90年代初期,中文OCR由实验室走向市场,初步实用。

(3) 第三阶段也就是目前,主要是印刷汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强。

同国外相比,我国的中文OCR研究起步较晚。但由于我国政府对汉字自动识别输入的研究从80年代开始给予了充分的重视和支持,经过科研人员十多年的辛勤努力,中文OCR技术,尤其是印刷体汉字识别技术的发展和应用,有了长足进步:从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英混排印刷材料的双语识别。系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。

1.2.2 OCR系统

下面以中文OCR为例,介绍一下OCR系统。

如图1-4,为一个中文OCR系统的简单流程图。

扫描输入图像:原始图像是透过光学仪器,如影像扫描仪、传真机或任何摄影器材,将影像转入计算机而得到的。科技的进步,扫描仪等的输入装置已制作的愈来愈精致,轻薄短小、品质也高,对OCR有相当大的帮助,扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。

图像的预处理:这部分包括对原始图像的去噪、倾斜校正和各种滤波处理。 版面的分析理解:版面分析完成对于文本图像的总体分析,区分出文本段落及排版顺序、图像、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。

文字行切分:行字切分是将大幅的图像先切割为行,再从图象行中分离出单个字符的过程。

------------------------------------------------------------------------------

指导教师推荐意见(11).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
×
二维码
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)