CN1162840C

CN1162840C - 一种将语音文件转换成文本文件的方法

Info

Publication number: CN1162840C
Application number: CNB021128197A
Authority: CN
Inventors: 倪苏平; 丁祁正
Original assignee: SUZHOU KONGQUE ELECTRIC EQUIPMENT GROUP CORP Ltd
Current assignee: SUZHOU KONGQUE ELECTRIC EQUIPMENT GROUP CORP Ltd
Priority date: 2002-03-25
Filing date: 2002-03-25
Publication date: 2004-08-18
Anticipated expiration: 2022-03-25
Also published as: CN1371090A

Abstract

一种将语音文件转换成文本文件的方法，包括如下步骤：(1)获取需要转换的语音文件，利用语音播放器播放该语音文件，播放长度至少包含50个字；(2)由使用者识别，输入相应的文字，获得用于训练的语音文件和对应的文本文件；(3)利用步骤2获得的训练文件，对带有语音识别器库的基本的语音识别器，采用语音自适应技术重新估计语音参数；(4)由此获得与录音者相关的语音识别器，利用该语音识别器识别需转换的语音文件，将其转换为文本文件。

Description

一种将语音文件转换成文本文件的方法

技术领域

本发明涉及一种语音识别方法，特别是一种自适应的语音识别方法，可以直接处理识别语音文件，并将其转换成文本文件。

背景技术

计算机的广泛应用，推动了语音识别研究的进展，特别是近二十多年来，随着隐马尔可夫模型(HMM)理论的提出及逐步工程化，研究者们利用隐马尔可夫模型建立的语音识别***，已有部分进入商业应用。作为商业应用的语音识别***，通常包括与讲话人无关的基本的语音识别器，由于不同的使用者的发音有较大的差别，必须对该基本的语音识别器进行训练，利用语音自适应技术对特定用户的语言参数重新估计，以获得讲话者相关的语音识别器，这里的自适应技术可以是最大后验自适应(MAP)或最大似然线性回归自适应(MLLR)，这类技术已在商业化的语音识别器中应用。

目前对语音识别器进行训练的方法一般是，由识别器附带若干精选的标准文本，使用者朗读标准文本，识别器经过对使用者语音的实时采集和分析，重新估算与使用者相关的声学模型参数，生成与使用者相关的语音识别器(例如IBM Via Voice，Dragon Naturally Speaking，Kurzwil1)。这种方法，由于使用者的语音与标准语音差别较大，同时，声学特性矢量在不同的语音前后关系中表现出明显变化，因而如果使用者的语音带有方言口音，或者语言涉及比较专业的领域时，要提高识别率，训练量是很大的。为减小训练量，中国发明专利申请CN1298533A公开了一种用于特殊领域或方言的语音识别器，该识别器在提交用户使用之前，首先采集方言或特殊领域的语言数据，采用讲话人自适应技术对基本语音识别器进行处理，重新估计HMM参数，以获得与讲话人无关的方言或特殊领域的语音识别器，作为商业销售的产品，这种产品由于针对某种方言或特殊领域(如化工技术)进行了参数调整，当提供给该方言或特殊领域的使用者使用时，由于与使用者的语音差别相对较小，可以减少所需的训练量。

不管如何，为达到一定的识别率要求，特定的语音识别使用者必须对商业化的语音识别器进行训练。上节中提供的两类***，在提交用户使用后的训练阶段都是一样的，即由识别器提供预先准备好的标准文本，用户根据识别器的指示朗读注册文本，通过语音自适应技术重新估计语音参数，生成与该用户相关的语音识别器。这种方法，通常用于语音输入领域，作为一种输入方法使用时，用户可以预先对语音识别器进行训练，但是，当用于识别预先存储好的语音文件(如演讲、讲课、采访的录音等)时，请讲话者来对语音识别器进行训练是不现实的，而且，由于汉语的方言众多，即使讲话者是用普通话讲的，常常也带有较重的地方口音，这使得未经训练的标准语音识别器难以准确识别；同时，即使是采用某种方言的语音识别器，由于汉语方言的地域区别很大(如以苏南地区为例，不但相邻的苏州和无锡两市的口音不同，苏州市和下属县级市的口音也不同，甚至如苏州的吴中区内也有多种方言)，未经训练的方言语音识别器也无法准确识别邻近地域的方言。

因此，用现有的语音识别器训练方法，无法实现对语音文件的识别转换，即使勉强使用自带的标准识别器，识别率也很低，不能达到实用的要求。一旦能解决这个问题，语音识别技术将不再只是一种代替键盘的即时输入技术，而能方便地将演讲、讲课、采访的录音等转换成文字，因而有着巨大的应用前景。

发明内容

本发明目的是提供一种将语音文件转换成文本文件的方法，能够利用语音文件对语音识别器进行训练，使语音识别器对语音文件有较高的识别率。

为达到上述目的，本发明采用的技术方案是：一种将语音文件转换成文本文件的方法，包括如下步骤：

(1)获取需要转换的语音文件，利用语音播放器播放该语音文件，播放长度至少包含50个字；

(2)以上述部分语音文件作为用于训练的语音文件，由使用者识别，输入相应的文字，获得对应的文本文件；

(3)利用步骤2获得的训练文件，对带有语音识别器库的基本的语音识别器，采用语音自适应技术重新估计语音参数：

(4)由此获得与录音者相关的语音识别器，利用该语音识别器识别需转换的语音文件，将其转换为文本文件。

上述技术方案中，所述的“语音播放器”用于将语音文件转换成声音播放，供使用者识别输入，语音播放器既可以是带有声卡和喇叭(或耳机)的计算机，也可以采用数码录、放音装置如数码录音机等：所述的“带有语音识别器库的基本的语音识别器”是指可销售的语音识别器，这类识别器一般已由厂家进行了标准的训练，可以识别至少一种标准语音，如标准普通话或某种方言：所述的“语音自适应技术”是现有技术，可以采用隐马尔可夫模型(HMM)，用最大归纳自适应技术(MAP)或最大似然线性回归自适应技术(MLLR)进行语音自适应参数调整，并且可以选择性地执行贝叶斯平滑。

上述技术方案中，可以包括下述可选步骤，即在所述第3步骤后，用调整参数后的语音识别器判断识别文件，如识别率未达到规定要求，则重复步骤1到3，进行再次的改进训练直至识别率达到规定要求。这里的识别率规定要求，一般是指识别率的基本要求，可以由用户设定，通常选择在70％-90％，达到该识别率要求时，***将自动进入识别阶段，如果达不到该设定要求，***会提示进行再次训练：当然，在达到设定要求的情况下，***仍可以应用户的要求进行再次的训练。

上述技术方案中，所述步骤1中播放语音文件的长度为播放50至2 50个字：所播放的该部分语音文件，可以位于待转换文件的起始，也可以位于待转换文件的中间，还可以位于待转换文件的结尾处。为便于使用者识别输入，在所述步骤1中可以采用调速播放软件播放所述语音文件，使播放速度与使用者录入对应文字的速度相一致。

上述技术方案中，在步骤2中所述的文字输入，可以采用键盘输入，也可以采用手写板输入。输入只是为了获得对照用的文本文件，输入方式可以采用现有的任一种输入法，甚至，如果使用者的语音输入识别率很高的话，也可以采用语音输入方法。

上述技术方案中，所述步骤3中的语音识别器库可以是标准普通话库，也可以是方言库，还可以是用于特定行业领域的语音库。

为进一步提高识别率及扩展适用的范围，可以采用的另一种技术方案是，所述步骤3中的基本的语音识别器可以带有至少2个语音识别器库，所述步骤3可以分解为，首先根据训练文件判断选择较接近的语音识别器库，再对该语音识别器库采用语音自适应技术重新估计语音参数。

上述技术方案中，所述的“选择较接近的语音识别器库”，可以由***自动选择，也可以由用户根据情况指定，这里的语音识别器库，可以包括应用于一般领域的标准普通话库、一些常用的方言库、某些特殊领域的普通话库，以及特殊领域的方言库。

上述技术方案中，在经过3次训练未能达到基本识别率时，判定为语音识别器库选择错误，重新选择语音识别器库并利用存储的3次训练文件对该语音识别器库进行训练识别。在无法达到基本识别率时，可以给用户发出提示，由用户选择是否接受较低识别率的识别。

上述技术方案中，所述的语音识别器库可以包括标准普通话库、官话库、吴语库、川语库、粤语库和闽南语库。

本发明工作原理是：在汉语言的识别过程中，会遇到非常多的方言，还有不标准的方言，以及方言与普通话的某种混合体，因而大大提高了识别的难度，对于预先录制的语音文件，如果不经训练直接识别，识别率会非常低(除非讲话者的口音较标准，这种情况是很少见的)，而如现有技术般请讲话者来对语音识别器进行训练是不可行的。本发明为此进行了反向思维，将录音的一小部分内容通过人的识别输入到计算机中，代替原来使用的标准文本，用于对语音识别器进行训练，从而达到了训练的目的，可以大大提高对语音文件的识别率，使其进入实用阶段。另一方面，汉语言虽然方言繁多，但从语音分类上来讲，大体可以分为官话区、吴语区(有时也细分为吴语区和越语区)、川语区、粤语区和闽南语区，各个方言区内的方言虽然仍存在发音的不同，但通常其发音较为类似，语法结构相同，因此，可以用某一语区中较有代表性的方言制成该语区的语音库，对于识别该语区的方言来说，采用该语音库，其识别率和学习的难度将大大低于采用标准普通话库。这样，本发明提供了进一步的技术方案，即基本的语音识别器可以带有多个语音识别器库，一个通用的***中可以带有标准普通话库及上述各种方言库，在识别时，首先用自动或人工的方式选择一种比较接近的语音识别器库，以获得较高的识别率及较低的训练强度。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

1、由于本发明利用录制好的语音文件进行反向训练，不需要讲话者到场对识别器进行训练，因而利用本发明方法制成的***，其使用者不必是讲话者，特别适用于对录制的演讲、讲课、采访等内容识别成文本文件进行整理；

2、由于本发明语音至文本的转换是非实时的，对计算机硬件配置、运算速度等要求不高；另一方面，如果计算机配置较好，可以对语音文件快速处理，不必象现有技术那样使用与讲话基本相同的时间进行转换，提高了使用效率。

附图说明

附图1为本发明实施例一的方法流程图；

附图2为实施例一中语音识别器的工作原理图。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：参见附图1和图2所示，一种将语音文件转换成文本文件的方法，包括如下步骤：

(1)获取需要转换的语音文件，利用语音播放器播放该语音文件，播放长度包含50至250个字，播放位置由用户指定，所述语音播放器采用调速播放软件，播放速度由用户调节至与使用者录入对应文字的速度相一致；

(2)以上述部分语音文件作为用于训练的语音文件，由使用者识别，输入相应的文字，获得对应的文本文件，使用者可以采用键盘输入方法，也可以采用手写板输入；

(3)利用步骤2获得的训练文件，对带有语音识别器库的基本的语音识别器，采用语音自适应技术重新估计语音参数；

(4)用调整参数后的语音识别器判断识别文件，如识别率未达到规定要求，则重复步骤1到3，进行再次的改进训练直至识别率达到规定要求。

(5)由此获得与录音者相关的语音识别器，利用该语音识别器识别需转换的语音文件，将其转换为文本文件。

实施例二：一种将语音文件转换成文本文件的方法，包括如下步骤：

(3)利用步骤2获得的训练文件，对带有语音识别器库的基本的语音识别器，采用语音自适应技术重新估计语音参数；所述基本的语音识别器带有6个语音识别器库，分别为标准普通话库、官话库、吴语库、川语库、粤语库和闽南语库，首先根据训练文件判断选择较接近的语音识别器库，再对该语音识别器库采用语音自适应技术重新估计语音参数。

Claims

1.一种将语音文件转换成文本文件的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的将语音文件转换成文本文件的方法，其特征在于：包括下述可选步骤，即在所述第3步骤后，用调整参数后的语音识别器判断识别文件，如识别率未达到规定要求，则重复步骤1到3，进行再次的改进训练直至识别率达到规定要求。

3.如权利要求1所述的将语音文件转换成文本文件的方法，其特征在于：所述步骤1中播放的长度为播放50至250个字。

4.如权利要求3所述的将语音文件转换成文本文件的方法，其特征在于：所播放的该部分语音文件，选自待转换文件的起始部分、中间部分、结尾部分中的一处。

5.如权利要求1或3或4所述的将语音文件转换成文本文件的方法，其特征在于：在所述步骤1中采用调速播放软件播放所述语音文件，使播放速度与使用者录入对应文字的速度相一致。

6.如权利要求1所述的将语音文件转换成文本文件的方法，其特征在于：在步骤2中所述的文字输入，采用键盘输入或手写板输入中的一种方法。

7.如权利要求1所述的将语音文件转换成文本文件的方法，其特征在于：所述步骤3中的语音识别器库选自标准普通话库、方言库、特定行业领域的语音库。

8.如权利要求1所述的将语音文件转换成文本文件的方法，其特征在于：所述步骤3中的基本的语音识别器带有至少2个语音识别器库，所述步骤3分解为，首先根据训练文件判断选择较接近的语音识别器库，再该语音识别器库采用语音自适应技术重新估计语音参数。

9.如权利要求8所述的将语音文件转换成文本文件的方法，其特征在于：在经过3次训练未能达到基本识别率时，判定为语音识别器库选择错误，重新选择语音识别器库并利用存储的3次训练文件对该语音识别器库进行训练识别。

10.如权利要求8所述的将语音文件转换成文本文件的方法，其特征在于：所述的语音识别器库可以包括标准普通话库、官话库、吴语库、川语库、粤语库和闽南语库。