CN1089045A

CN1089045A - 汉字文本的计算机语音监听及校对***

Info

Publication number: CN1089045A
Application number: CN 92111824
Authority: CN
Inventors: 吴强刚
Original assignee: Shida Measuring & Controlling Tech Co Haidian District Beijing
Current assignee: Shida Measuring & Controlling Tech Co Haidian District Beijing
Priority date: 1992-12-30
Filing date: 1992-12-30
Publication date: 1994-07-06

Abstract

本发明涉及一种汉字文本的计算机语音监听及校对***，该***采用汉字文本的计算机语音合成方法，通过语音输出和汉字同步显示方式，完成汉字文本的计算机快速、准确、实时校对功能。该***中充分考虑了汉字发音规则和语音产生机理，合成基本单元采用声母和带调韵母，再加上优化的矢量量化数据压缩和快速排序相结合的技术，可使建立的语音库数据量很小，并能保证***具有良好的语音输出质量。

Description

本发明涉及一种汉字文本的计算机语音监听及校对***，和基于该***使用的一种汉字文本的计算机语音合成方法。本发明的***采用汉字文本的计算机语音合成方法，通过语音输出和汉字同步显示方式，完成汉字文本的计算机快速、准确、实时校对功能。

汉字文本的计算机语音监听及校对***主要涉及了汉字文本的计算机语音合成技术。众所周知，现代汉语的语音都是单音节的（一个汉字的发音即是一个音节），每个音节都是由元音、辅音（或声母、韵母）加上声调所组成，这样构成了全部汉语约一千三百多个单音节。对于组成汉语的一千三百多个单音节，若采用一般的波形编码技术直接对其发音语波进行数字量化，虽能保证优良的语音质量，但数据量庞大，现有计算机内存无法满足要求。传统的汉字文本计算机语音监听与校对***都是采用一般的线性预测编码（LPC）进行数据压缩。如北京天龙电脑公司研制的这类产品即采用了这种方法。采用这种方法的最大不足之处就在于：这种单方面的为节省内存所采用的数据压缩技术，是以损失合成语音的清晰度、自然度、以及信噪比降低为代价，因为这种数据压缩技术都是基于语音的数学模型，通过提取语音参数作为合成语音的信息来源，由于这种数学模型的建立具有很大的人为因素和近似性，使得提取的语音参数不可能完全代表原始语音的特性，而且由于这种压缩技术是针对单个汉字的发音进行的，产生的语音库数据量仍相当大，不可能同时兼顾语音质量和数据压缩之间的矛盾解决。

能否做到既能得到良好的合成语音质量，又能保证语音库数据量尽可能小，正是本发明所要解决的问题。

本发明的一个目的是提供一种汉字文本的计算机语音监听及校对***，它采用汉字文本的计算机语音合成技术，能快速、准确、实时地完成汉字文本的监听与校对功能。

本发明的另一个目的是提供一种基于上述语音监听及校对***的汉字文本的计算机语音合成方法。该方法充分考虑了汉语发音规律和语音产生机理，采用声母和带调韵母作为语音合成的基本单元。该方法中不同于现有技术的语音信号数据压缩方法，不仅能使语音数据内存占用量少，而且能保证合成的语音质量具有良好的可懂度、清晰度、和自然度。

本发明的上述目的及其特点将在下面参照附图的描述中变得更清楚。

图1示出了本发明所述的汉字文本的计算机语音监听及校对***的总体框图;

图2示出了图1中所示的语音数据采集与分析电路和语音输出电路的组成框图;

图3和图4分别示出了语音数据采集与分析电路和语音输出电路中采用的高频预加重电路和高频去加重电路的电路图;

图5示出了高频预加重和去加重的特性曲线;

图6示出了本发明中矢量量化步骤中的码书生成流程图;

图7示出了本发明中矢量量化步骤中的编码流程图;

图8示出了语音合成输出的工作流程图;

图9示出了语音参数截取和拼接的示意图。

参考图1。图1示出了按照本发明所说的汉字文本的计算机语音监听及校对***的总体框图。该***中语音采集电路1和语音输出电路2经一接口逻辑电路3分别与中心处理单元4连接，语音库5连接到中心处理单元4，它可以是计算机***的硬盘（或是只读存储器ROM），用于存放合成语音所需的语音数据样本，与中心处理单元4连接的还有存有汉字编码信息的存储装置，即汉字编码库6和用于存储所需校对的中文文本的存储装置7;经话筒录入的模拟语音信号经语音数据采集电路1处理，转换成数字语音信号，该数字语音信号经接口逻辑电路3送入中心处理单元4，中心处理单元4在语音分析处理软件控制下对其进行处理，提取合成语音所需的语音数据作为参考样本，经对该语音样本数据进行数据压缩后，存入存储器建立所需的语音库5;当需要合成语音输出，完成校对与监听功能时，中心处理单元4按照语音输出程序，根据所需校对的中文文本7和汉字编码库6中相应汉字的位置序号，从语音库5中截取所需的语音数据，并实时地拼接，最后经语音输出电路2转换成声音信号输出（有关语音库的建立，语音合成的技术内容将在后面详细叙述）。

参见图2，其中语音数据采集电路1包括有前置放大器101，信号预加重电路102，宽带通滤波电路103，取样保持电路104和模拟转换电路105。语音信号通过传声器的声电转换后，进入前置放大器101进行语音信号的预处理。考虑到语音产生时，高频成份衰减6dB/oct，为对此加以补偿，以提高语音信号数字化后的信噪比，经放大的语音信号被输入到高频预加重电路102，进行语波预加重（在数模转换电路恢复语波时，进行相应的去加重），经高频预加重的语音信号经带通滤波电路103滤波后，送到取样保持电路104和模数转换电路105，完成语音信号的数字化过程。

图2中所示出的语音输出电路2由数模转换电路201，低通滤波及平滑电路202，高频信号去加重电路203和功率放大器204组成。由中心处理单元4合成的语音数据信号经数模转换电路201转换成模拟语音信号后，进入低通滤波及平滑电路202进行平滑和滤噪处理，随后进入高频去加重电路203，经高频去加重处理后的模拟语音信号由功率放大器204放大后，送至扬声器转换成需要的声音信号。

图3和图4分别示出了上面所述的高频预加重电路和高频去加重电路的电路图。它们分别由运算放大器和电阻、电容组成。运算放大器选用性能优良的LF353即可完成，合理选用元器件值，即可得到如图5所示的预加重和去加重特性曲线。考虑到语音信号的衰减程度，***中的800Hz信号作为预加重和去加重起始信号频率。

下面讨论实现本发明所述***的关键技术内容：即汉字语音库的建立，和依据汉字语音库和汉字编码库如何产生所需的语音输出。

前面提到，汉语是一种单音节语言，一个汉字即是一个音节，每个音节都是由元音、辅音（或声母、韵母），加上声调（四声）所组成，这样构成了全部汉语的一千三百多个单音节。因此，所建立的语音库应包含这些音节的全部发音单元。

在现代汉语的语音结构中，元音占优势，一个元音即可构成一个音节，一个音节最多包含两个辅音，且没有两个辅音连在一起的拼法。汉语的音节里，可以没有辅音，但不能没有元音。现代汉语的音节是有限的，然而它们构成的词汇是无限的，根据词的使用频率和词法、句法等特点，即能很好地解决常用词中一音多字，一字多音等问题。基于上述基本原理，本发明***中的语音库是以汉字单音节的元音、辅音（或声母、韵母）、声调为基本组成单元构成的。在汉语中，对元音，考虑到双元音、三元音、元音加韵尾等形式共有35个（即韵母），辅音（或声母）共22个，加上声调，可组成大约200个基本发音单元。显然，这与1300多个音节相比，数量上要少得多。

语音库的建立包括语音录入，语音数据暂存，语音音素切分和数据压缩编码等过程。

首先录入由发音标准的播音员朗读的包括全部汉字发音的汉字语音，对这些录音进行采集，数字化，将其转换处理成为语音信号数据，并暂时存储在***的存储器中。从暂存的语音信号数据中提取语音音素是通过将所述的语音信号数据送入***的中心处理单元，由***提供的语音分析处理软件，以人工干预的方式，对其进行准确的汉语单音节音素的切分来完成的，所述的音素包括全部声母和带调韵母的发音数据。由于声母和韵母的短时能量和过零率差别很大，由***软件所提供的语音回放和语音波形及能量显示功能很容易从音节中切分出声、韵母，并作为语音参数样本暂时存放起来。全部声母、带调韵母的发音切分完毕，即分别对声母类，带调韵母类进行矢量量化，以实现对语音数据的压缩处理。

通过上述语音分析处理软件程序得到的语音数据样本都是原始的语音波形编码，数据量庞大，必须进行数据压缩，数据压缩是通过将提取的语音数据样本送入中心处理单元4中，由***提供的语音数据压缩软件来完成的。考虑到汉语是一种单音节语言，在由200多个音素组合而成的基本发音单元中，相互间存在着很大的冗余度。如gào（告）和kào（靠）它们带有相同的韵母（ào）的发音，hào（浩）和hòu（候）又带有相同的声母（h）的发音，如何将gào和kào用相同的ào作为一个合成音素，hào和hòu用同一个h来作为一个合成音素，对于这种冗余度消除的解决，正是本发明采用何种数据压缩方法所考虑的。为此，本发明采用矢量量化的方法对上述这类语音数据进行压缩。

矢量量化方法是针对标量量化方法而言的，对于汉语来说，它又能最大限度地减小字与字，词与词，甚至单个字的发音音素之间的相关性，从而使压缩后的数据尽可能小，同时又保留了大量原始语音的特性。本发明的***中采用的矢量量化方法是直接针对语音波形而言的，它避开了基于语音产生的数学模型的线性预测方法（LPC）进行数据压缩所带来的数据严重失真，合成语音音质差等特点。

按照本发明的矢量量化方法，包括码书生成，汉字全部发音的语音编码和语音解码三个过程。在码书的生成过程中采用简化的LBG算法，以欧氏距离作为矢量间的失真测度准则，从而建立代表全部汉字发音的语音，即语音库。汉字发音的语音编码以此语音库为基础进行最近邻准则的矢量量化，从而得到各汉字发音对应于语音库中的发音参数。

下面对矢量量化的过程分别进行描述：

码书生成

失真测度采用欧氏距离（均方误差）进行计算：

d（，

）＝‖

-

‖＝（x_i-y_i）²

式中d（

，

）表示编码矢量和参考码书矢量

的失真值，k为矢量维数。

在码书生成过程中，重要的一点是，将得到的新的码书矢量（以下简称码矢）在以前的码书中，按最近邻原则确定其排序位置，这样可使为进行编码的搜索算法最为简化。

码书生成的方法步骤如下：

第一步：取语音数据段第一个矢量作为码书的初始码矢

（j＝0）;

第二步：取语音数据段下一个矢量

计算失真距离;

d_j（

，

）;

第三步：判断Ⅰ若d_j≤d₆（失真阀值），转第四步;

Ⅱ若d_j＞d₆，则

作为码矢，并在码书中进行新的排序;

第四步：判断全部码矢生成完毕否，未生成完，则转第二步;

第五步：结束。

图6示出了上述码书生成的算法流程图。

语音编码：

由于码书是按最近邻原则得到的，对于编码过程就可采用随机搜索法实现，从而避免了全搜索或一般的对分、树状搜索算法的长时间问题。对于固定的码书可按下面编码步骤进行解码：

第一步：取编码矢量

;

第二步：计算失真距离

d（），d（

），

计算平均失真距离

d_j＝[d（

）+d（）]/2;

（其中N为码书大小）

第三步：由d_j确定位置i;

第四步：在位置i的上、下位置再各取2个码矢;

（共5个码矢）

第五步：计算失真距离 d_jj＝d（

），

（k＝i-2，i-1，i，i+1，i+2）;

第六步：判断 d_jj（jj＝1，2，3，4，5），取其最小的值所对应的码矢序号作为编码;

第七步：判断编码完毕否，未完转第一步;

第八步：结束。

对已编码矢量进行解码，只要依据码矢序号取对应的码矢即可。图7示出了上述编码步骤的流程图。显然，本发明采用的矢量量化算法与传统的矢量量化算法比较，由于采用了快速排序和最近邻编码相结合原则，加快了搜索速度。

经上述数据压缩方法压缩后的语音样本数据存入***相应的存储装置（或固化成芯片），作为本发明所述***的语音样本数据库。

以上讨论了建立本发明所述语音库的全过程。本发明所述的汉字文本计算机语音监听与校对***就是根据语音库中的语音数据样本，重新合成语音实现校对与监听功能的。下面将讨论本发明所述***是如何根据语音库样本数据产生汉字文本的语音信号并转换成声音输出的。

参见图8，首先，中心处理单元4的语音输出程序根据用户提供的汉字文本（需校对的），查找汉字机内码（CODE）;根据查到的汉字机内码按下式计算汉字对应于汉字库6（例如GB2312库）中的位置序号（指针）：

POS[i]＝（CODE[i，0]-160）＊94+CODE[i，l];

求得汉字的位置序号（指针）后，语音输出程序根据该位置（指针）查找汉字库6中的对应的汉字数据，并根据查到的汉字数据按下式计算语音库中相应的语音参数[语音长度和起始位置（指针）]：

LEN[i]＝POS[i]＊192

STAPOS[i]＝POS[i]＊192+64

按上述方法得到对应汉字的语音参数后，语音输出程序按该语音参数从语音库中截取对应的语音数据。如图9所示，由计算获得的语音参数LEN（语音长度）和POS（语音起始位置）可直接确定语音库中对应的语音量化矢量（如Vec（m）和Vec（n）），并将其提取出来作为语音合成数据中的一个数据单元，这样将多个数据逐一提出，并拼接，即可得到对应汉字的发音数据。将这些发音数据提供给语音输出电路，即可转换成所需的声音输出。

以上就本发明的***所采用的语音合成技术，即语音样本提取，语音库的建立，语音样本数据的压缩，以及语音合成输出等进行了较详细的讨论，这些技术特征的实现是在本发明***提供的语音合成控制软件支持下完成的。该语音合成软件包括语音样本采集模块，数据压缩模块，语音库管理模块，语音合成功能模块，计算机监控块等。不难想象，调用上述不同软件模块，***的中心处理单元将完成各自模块不同的功能。

为了本发明所述***的完整性，所述***在构成上，包括有用于建立语音库所必需的语音数据采集与分析电路1和完成语音编辑，数据压缩等必备的软件工具。但就本***完成的语音校对和监听功能而言，上述建立语音库所必备的电路和软件并不是必不可少的，当语音库建立后，语音库中的语音数据可以固化在存储器中，从而用户在使用本***时，无需考虑建立语音库的问题。本发明所述***是为文稿的校对工作而服务的，它充分利用了人耳、眼的听觉和视觉功能，改变了传统的只依靠人的眼睛进行汉字编辑、校对工作方式，大大提高了校对工作效率。该***除能对通篇文稿进行校对外，还能将其工作于计算机***级，监听或校对汉字输入或计算机键盘操作，以提高计算机输入的准确性和工作效率。

本发明所述的***和方法虽然是针对汉字文本提出的，但是可以理解，对于本领域的技术人员来说，同样可以将它们的技术特征应用于西文文本的处理，实现西文文本的计算机语音监听和校对功能。

Claims

1、一种汉字文本的计算机语音监听及校对***，它包括：

用于对录入的模拟语音信号进行预处理，并将其转换成数字语音信号的语音数据采集及分析电路；

用于将合成的数字语音信号转换成模拟语音信号，产生所需的声音输出的语音合成输出电路；

用于分别与上述的语音数据采集及分析电路和语音合成输出电路进行接口连接的接口逻辑电路。

其特征在于所述的***还包括：

作为汉字库的存有汉字编码信息的存储装置；

用于存储所需校对的汉字文本的存储装置；

用于从语音数据采集电路提供的数字语音信号中提取包括全部声母和带调韵母的汉字发音数据样本的语音提取装置；

用于对汉字发音数据样本进行语音数据压缩的装置；

用于存储已压缩的汉字发音数据样本作为语音库的存储装置；

用于根据所需校对的汉字文本和对应汉字库中的汉字编码信息，从上述作为语音库的存储装置中提取相应的语音发声数据作为合成单元，并对其实时地拼接后提供给语音合成输出电路的语音合成装置。

2、根据权利要求1所述的语音监听及校对***，其特征在于所述的语音提取装置包括对汉字单音节音素进行切分的装置。

3、根据权利要求1所述的语音监听及校对***，其特征在于所述的语音数据压缩装置包括对汉字发音数据样本进行最近邻矢量量化的装置。

4、根据权利要求1所述的语音监听及校对***，其特征在于所述的语音数据采集电路，包括有一个高频信号预加重电路，其预加重的起始信号频率为800Hz。

5、根据权利要求1所述的语音监听及校对***，其特征在于所述的语音合成输出电路，包括有一个高频信号去加重电路，其去加重的起始信号频率为800Hz。

6、一种汉字文本的计算机语音合成方法，其特征在于包括下列步骤：

录入包含全部汉字发音的语音数据;

从录入的语音数据中提取包括全部声母和带调韵母的汉字语音音素作为语音数据样本;

对语音数据样本进行最近邻矢量量化数据压缩，通过快速排序，然后将其存入存储装置，作为语音库;

根据存入存储装置的汉字文本，确定汉字机内码;

由上述汉字机内码计算汉字对应于汉字编码信息存储装置中的位置序号;

根据上述位置序号计算对应上述语音库中的语音参数（语音长度和语音位置）;

根据语音参数，从语音库中截取对应的语音发声数据，并进行实时地拼接;

将拼接后的发音数据提供给语音发声装置，产生所需的声音输出。

7、根据权利要求6所述的语音合成方法，其特征在于所述的最近邻矢量量化数据压缩步骤，包括下列码书矢量生成步骤：

（1）.取语音数据中第一个矢量作为码书的初始码矢

（j＝O）;

（2）.取语音数据中下一个矢量

，计算失真距离

d_j（，

）;

（3）.判断：若d_j≤d_θ（失真阀值），则执行步骤（4），

若d_j＞d_θ，则

作为码矢，并在码书中进行新的排序;

（4）.判断码书矢量是否全部生成，生成完毕则结束;

（5）.未完，重复（2）～（4）的步骤。

8、根据权利要求7所述的语音合成方法，其特征在于所述的最近邻矢量量化数据压缩步骤，包括下列对码书矢量进行编码的步骤：

（1）.取编码矢量

;

（2）.计算失真距离 d（），d（

），（N为码书大小）;

（3）.计算平均失真距离

d_j＝[d（）+d（

）]/2;

（4）.根据平均失真距离d_j确定位置i;

（5）.在位置i的上、下位置各取2个码矢;

（6）.计算失真距离 d_jj＝d（

），

（k＝i-2，i-1，i，i+1，i+2）;

（7）.判断d_jj（jj＝1，2，3，4，5），取最小值所对应的码矢序号作为编码;

（8）.判断编码完毕否，未完转步骤（1）;

（9）.结束。