阶段:
(1) 第一阶段从70年代末期到80年代末期,主要是算法和方案探索。
(2) 第二阶段是90年代初期,中文OCR由实验室走向市场,初步实用。
(3) 第三阶段也就是目前,主要是印刷汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强。
同国外相比,我国的中文OCR研究起步较晚。但由于我国政府对汉字自动识别输入的研究从80年代开始给予了充分的重视和支持,经过科研人员十多年的辛勤努力,中文OCR技术,尤其是印刷体汉字识别技术的发展和应用,有了长足进步:从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英混排印刷材料的双语识别。系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了98%以上。
1.2.2 OCR系统
下面以中文OCR为例,介绍一下OCR系统。
如图1-4,为一个中文OCR系统的简单流程图。
扫描输入图像:原始图像是透过光学仪器,如影像扫描仪、传真机或任何摄影器材,将影像转入计算机而得到的。科技的进步,扫描仪等的输入装置已制作的愈来愈精致,轻薄短小、品质也高,对OCR有相当大的帮助,扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。
图像的预处理:这部分包括对原始图像的去噪、倾斜校正和各种滤波处理。 版面的分析理解:版面分析完成对于文本图像的总体分析,区分出文本段落及排版顺序、图像、表格的区域;对于文本区域将进行识别处理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。
文字行切分:行字切分是将大幅的图像先切割为行,再从图象行中分离出单个字符的过程。
------------------------------------------------------------------------------