图1-3 OCR系统的流程图
Fig.1-3 Algorithm flow chart of OCR system
文字特征提取:特征提取是整个环节中最重要的一环,它是从单个字符图像上提取统计特征或结构特征的过程,包括为此而做的细化(Thinning)、归一化(Normalization)等步骤。提取的特征的稳定性及有效性,直接决定了识别的性能。目前,特征提取的方法可以大致分为两类:一类为统计的特征,如:文字区域内的黑/白点数比。当文字区分成好几个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就足以应付了。另一类为结构特征,如:文字影像细线化后,取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法,进行比对。
文字识别处理:文字识别即将待识别字符相与通过学习得到的特征库进行比对,找到相似度最高的字符类作为结果的过程。根据特征选取的方法不同,比对的方法主要有:欧式空间的比对方法、松弛比对法(Relaxation)、动态规划比对法(Dynamic Programming,DP),以及类神经网络的数据库建立及比对、HMM(Hidden Markov Model等著名方法。为了使识别的结果更稳定,也有专家系统(Experts System)被提出,利用各种特征比对方法的相异互补性,------------------------------------------------------------------------------