相关性计算,得到检索结果。
1.1.3 倾斜角度检测和校正在文档图像检索系统中的作用
由上面的介绍可以知道:文档图像的倾斜角度的检测和校正在整个系统中是版面分析前的关键环节,对版面分析的效果有直接的影响。而版面分析效果的好坏,有直接决定了检索的结果。因此,文档图像倾斜角的检测和校正在该系统中是十分重要的。
1.2 OCR系统
OCR(Optical Character Recognition)意即光学字符识别,是将通过光电转化得到的图像中的字符通过计算机予以识别的一项技术。它是模式识别研究中最具挑战性的研究方向之一,同时它也具有很广的应用范围。因此,近些年一直是模式识别研究方面的热点之一[1][2][3]。
1.2.1 OCR的发展历史
欧美国家为了将浩如烟海、与日俱增的大量报刊杂志、文件资料和单据报表等文字材料输入计算机进行信息处理,从50年代就开始了西文OCR技术的研究,以便代替人工键盘输入。经过40多年的不断改进和完善,并伴随着计算机技术的飞速发展,现已将OCR技术广泛应用于各个领域,使大量的文档资料能快速,方便,省时省力和及时地自动输入计算机,实现信息处理的电子化。
中文OCR技术最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy发表了第一篇关于中文OCR技术的论文,在这篇论文中他们利用简单的模板匹配法识别了1,000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。
我国对中文OCR技术的研究始于70年代末、80年代初,大致可以分为三大------------------------------------------------------------------------------