术及声学技术等的发展, 使得能满足各种需要的语音识别系统实现成 为可能。近二三十年来,语音识别在工业、军事、交通、医学、民用诸方面,特别是在计算 机、信息处理、通信与电子系统、自动控制等领域中有着越来越广泛的应用。 1.1.2 数字语音识别研究的意义 语音识别的目标是让机器能听懂人类口述的语言, 语音识别中的汉语数字语音识别, 具 有更为重要的意义,在众多场合的实用化都会给人们带来极大的便利。 语音电话拨号的应用是现阶段语音识别技术中最重要的一个应用方向,在很多场合下, 如司机开车、黑夜或盲人拨打电话时,用手指拨电话号码是很不方便或不安全的,此时最自 然的方式就是采用语音拨号。 今天计算机和电子通信设备日益微型化,未来的计算机将会微缩成腕上的手表般大小, 而如果仍采用键盘输入是不可能的,有了数字语音识别技术,就可以在桌面上用声音命令、 控制或操纵计算机。 利用语音进行工业控制可以避免复杂的控制面板, 只要一声令下, 所有的机器就都在你 的指挥之下了,它们真的可以做到听到你的话了。 语音控制也是以后家电遥控的一个必然发展方向, 而家电遥控中不可避免地会用到数字 的识别,如电视机的频道、空调设定的温度、洗衣机的定时等。 总之, 数字语音识别的研究对于推动社会发展具有重要的作用。 我们将在生活工作中渐 渐体会到数字语音识别带来的种种便利,它将有可能涉足人类生活的每一领域。 1.2 语音识别的发展和现状 语音识别的研究工作大约开始于 50 年代, 当时 AT& T Bell 实验室实现了第一个可识别 十个英文数字的语音识别系统——Audry 系统,可以识别 10 个英文数字发音[1]。 60 年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划 (DP)和线性预测分析技术(LP)[2],其中后者较好地解决了语音信号产生模型的问题。 70 年代,语音识别领域取得了突破。在理论上,LP 技术得到进一步发展,动态时间归 正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理 论。在实践上,实现了基于线性预测倒谱和 DTW 技术的特定人孤立语音识别系统。 80 年代,语音识别研究进一步走向深入,其显著特征是 HMM 模型和人工神经元网络 (ANN)在语音识别中的成功应用。HMM 模型的广泛应用应归功于 AT&T Bell 实验室 Rabiner 等科学家的努力,他们把原本艰涩的 HMM 纯数学模型工程化,从而为更多研究者 了解和认识。ANN 和 HMM 模型建立的语音识别系统,性能相当。 进入 90 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。美 国、日本、韩国以及 IBM、Apple、AT&T、NTT 等著名公司都为语音识别系统的实用化开 发研究投以巨资。 我国语音识别研究工作一直紧跟国际水平,国家把大词汇量语音识别的研究列入“863” 计划,除了要加强理论研究外,更要加快从实验室演示系统到商品的转化。 2.语音识别的基本原理 语音识别 SR(Speech Recognition)是指让机器听懂人说的话,即在各种情况下,准确 地识别出语音的内容,从而根据其信息,执行人的各种意图[3]。现代语音识别技术以神经网 络为主要发展趋势, 进入 20 世纪 90 年代以来, 神经网络已经成为语音识别的一条重要途径。 由于神经网络反映 r 人脑功能的基本特征, 故具有自组织性、 白适应性和连续学习能力等特 点, 特别适合于解决像语音识别这类模拟人的认知过程和智能处理能力, 难以用算法来描述 [4] 而义有大量样本可供学习的问题 。 人工神经网络(ANN)是采用大量的简单处理单元广泛连接起来构成的一种复杂信息处理 网络。网络的训练学习是应用一系列输入矢量,通过已确定的算法逐步调整网络的权值,最 终达到期望的目标。BP 神经网络是神经网络中前向神经网络的核心部分,BP 算法的学习过 程由信号的正向传播和误差的反向传播组成。 随着误差逆传播修正的不断进行, 网络对输入 模式响应的正确率不断上升。 然而 BP 算法是一种梯度 F 降算法, 梯度下降存在多极值问题, 且 BP 网络学习训练速度慢,容易陷入局部最小或振荡。因此,参数的选择非常重要。为克 服标准 BP 算法存在的各种缺点, 本文研究用 BP 算法结合人 T 智能领域较为有效的方法—— 遗传(GA)算法来训练网络进行语音识别,仿真实验表明,GABP 算法使 BP 网络在收敛速度上 有了很大提高,尤其是克