CN1162840C - 一种将语音文件转换成文本文件的方法 - Google Patents

一种将语音文件转换成文本文件的方法 Download PDF

Info

Publication number
CN1162840C
CN1162840C CNB021128197A CN02112819A CN1162840C CN 1162840 C CN1162840 C CN 1162840C CN B021128197 A CNB021128197 A CN B021128197A CN 02112819 A CN02112819 A CN 02112819A CN 1162840 C CN1162840 C CN 1162840C
Authority
CN
China
Prior art keywords
speech recognition
recognition device
voice document
storehouse
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB021128197A
Other languages
English (en)
Other versions
CN1371090A (zh
Inventor
倪苏平
丁祁正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU KONGQUE ELECTRIC EQUIPMENT GROUP CORP Ltd
Original Assignee
SUZHOU KONGQUE ELECTRIC EQUIPMENT GROUP CORP Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU KONGQUE ELECTRIC EQUIPMENT GROUP CORP Ltd filed Critical SUZHOU KONGQUE ELECTRIC EQUIPMENT GROUP CORP Ltd
Priority to CNB021128197A priority Critical patent/CN1162840C/zh
Publication of CN1371090A publication Critical patent/CN1371090A/zh
Application granted granted Critical
Publication of CN1162840C publication Critical patent/CN1162840C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种将语音文件转换成文本文件的方法,包括如下步骤:(1)获取需要转换的语音文件,利用语音播放器播放该语音文件,播放长度至少包含50个字;(2)由使用者识别,输入相应的文字,获得用于训练的语音文件和对应的文本文件;(3)利用步骤2获得的训练文件,对带有语音识别器库的基本的语音识别器,采用语音自适应技术重新估计语音参数;(4)由此获得与录音者相关的语音识别器,利用该语音识别器识别需转换的语音文件,将其转换为文本文件。

Description

一种将语音文件转换成文本文件的方法
                          技术领域
本发明涉及一种语音识别方法,特别是一种自适应的语音识别方法,可以直接处理识别语音文件,并将其转换成文本文件。
                          背景技术
计算机的广泛应用,推动了语音识别研究的进展,特别是近二十多年来,随着隐马尔可夫模型(HMM)理论的提出及逐步工程化,研究者们利用隐马尔可夫模型建立的语音识别***,已有部分进入商业应用。作为商业应用的语音识别***,通常包括与讲话人无关的基本的语音识别器,由于不同的使用者的发音有较大的差别,必须对该基本的语音识别器进行训练,利用语音自适应技术对特定用户的语言参数重新估计,以获得讲话者相关的语音识别器,这里的自适应技术可以是最大后验自适应(MAP)或最大似然线性回归自适应(MLLR),这类技术已在商业化的语音识别器中应用。
目前对语音识别器进行训练的方法一般是,由识别器附带若干精选的标准文本,使用者朗读标准文本,识别器经过对使用者语音的实时采集和分析,重新估算与使用者相关的声学模型参数,生成与使用者相关的语音识别器(例如IBM Via Voice,Dragon Naturally Speaking,Kurzwil1)。这种方法,由于使用者的语音与标准语音差别较大,同时,声学特性矢量在不同的语音前后关系中表现出明显变化,因而如果使用者的语音带有方言口音,或者语言涉及比较专业的领域时,要提高识别率,训练量是很大的。为减小训练量,中国发明专利申请CN1298533A公开了一种用于特殊领域或方言的语音识别器,该识别器在提交用户使用之前,首先采集方言或特殊领域的语言数据,采用讲话人自适应技术对基本语音识别器进行处理,重新估计HMM参数,以获得与讲话人无关的方言或特殊领域的语音识别器,作为商业销售的产品,这种产品由于针对某种方言或特殊领域(如化工技术)进行了参数调整,当提供给该方言或特殊领域的使用者使用时,由于与使用者的语音差别相对较小,可以减少所需的训练量。
不管如何,为达到一定的识别率要求,特定的语音识别使用者必须对商业化的语音识别器进行训练。上节中提供的两类***,在提交用户使用后的训练阶段都是一样的,即由识别器提供预先准备好的标准文本,用户根据识别器的指示朗读注册文本,通过语音自适应技术重新估计语音参数,生成与该用户相关的语音识别器。这种方法,通常用于语音输入领域,作为一种输入方法使用时,用户可以预先对语音识别器进行训练,但是,当用于识别预先存储好的语音文件(如演讲、讲课、采访的录音等)时,请讲话者来对语音识别器进行训练是不现实的,而且,由于汉语的方言众多,即使讲话者是用普通话讲的,常常也带有较重的地方口音,这使得未经训练的标准语音识别器难以准确识别;同时,即使是采用某种方言的语音识别器,由于汉语方言的地域区别很大(如以苏南地区为例,不但相邻的苏州和无锡两市的口音不同,苏州市和下属县级市的口音也不同,甚至如苏州的吴中区内也有多种方言),未经训练的方言语音识别器也无法准确识别邻近地域的方言。
因此,用现有的语音识别器训练方法,无法实现对语音文件的识别转换,即使勉强使用自带的标准识别器,识别率也很低,不能达到实用的要求。一旦能解决这个问题,语音识别技术将不再只是一种代替键盘的即时输入技术,而能方便地将演讲、讲课、采访的录音等转换成文字,因而有着巨大的应用前景。
                          发明内容
本发明目的是提供一种将语音文件转换成文本文件的方法,能够利用语音文件对语音识别器进行训练,使语音识别器对语音文件有较高的识别率。
为达到上述目的,本发明采用的技术方案是:一种将语音文件转换成文本文件的方法,包括如下步骤:
(1)获取需要转换的语音文件,利用语音播放器播放该语音文件,播放长度至少包含50个字;
(2)以上述部分语音文件作为用于训练的语音文件,由使用者识别,输入相应的文字,获得对应的文本文件;
(3)利用步骤2获得的训练文件,对带有语音识别器库的基本的语音识别器,采用语音自适应技术重新估计语音参数:
(4)由此获得与录音者相关的语音识别器,利用该语音识别器识别需转换的语音文件,将其转换为文本文件。
上述技术方案中,所述的“语音播放器”用于将语音文件转换成声音播放,供使用者识别输入,语音播放器既可以是带有声卡和喇叭(或耳机)的计算机,也可以采用数码录、放音装置如数码录音机等:所述的“带有语音识别器库的基本的语音识别器”是指可销售的语音识别器,这类识别器一般已由厂家进行了标准的训练,可以识别至少一种标准语音,如标准普通话或某种方言:所述的“语音自适应技术”是现有技术,可以采用隐马尔可夫模型(HMM),用最大归纳自适应技术(MAP)或最大似然线性回归自适应技术(MLLR)进行语音自适应参数调整,并且可以选择性地执行贝叶斯平滑。
上述技术方案中,可以包括下述可选步骤,即在所述第3步骤后,用调整参数后的语音识别器判断识别文件,如识别率未达到规定要求,则重复步骤1到3,进行再次的改进训练直至识别率达到规定要求。这里的识别率规定要求,一般是指识别率的基本要求,可以由用户设定,通常选择在70%-90%,达到该识别率要求时,***将自动进入识别阶段,如果达不到该设定要求,***会提示进行再次训练:当然,在达到设定要求的情况下,***仍可以应用户的要求进行再次的训练。
上述技术方案中,所述步骤1中播放语音文件的长度为播放50至2 50个字:所播放的该部分语音文件,可以位于待转换文件的起始,也可以位于待转换文件的中间,还可以位于待转换文件的结尾处。为便于使用者识别输入,在所述步骤1中可以采用调速播放软件播放所述语音文件,使播放速度与使用者录入对应文字的速度相一致。
上述技术方案中,在步骤2中所述的文字输入,可以采用键盘输入,也可以采用手写板输入。输入只是为了获得对照用的文本文件,输入方式可以采用现有的任一种输入法,甚至,如果使用者的语音输入识别率很高的话,也可以采用语音输入方法。
上述技术方案中,所述步骤3中的语音识别器库可以是标准普通话库,也可以是方言库,还可以是用于特定行业领域的语音库。
为进一步提高识别率及扩展适用的范围,可以采用的另一种技术方案是,所述步骤3中的基本的语音识别器可以带有至少2个语音识别器库,所述步骤3可以分解为,首先根据训练文件判断选择较接近的语音识别器库,再对该语音识别器库采用语音自适应技术重新估计语音参数。
上述技术方案中,所述的“选择较接近的语音识别器库”,可以由***自动选择,也可以由用户根据情况指定,这里的语音识别器库,可以包括应用于一般领域的标准普通话库、一些常用的方言库、某些特殊领域的普通话库,以及特殊领域的方言库。
上述技术方案中,在经过3次训练未能达到基本识别率时,判定为语音识别器库选择错误,重新选择语音识别器库并利用存储的3次训练文件对该语音识别器库进行训练识别。在无法达到基本识别率时,可以给用户发出提示,由用户选择是否接受较低识别率的识别。
上述技术方案中,所述的语音识别器库可以包括标准普通话库、官话库、吴语库、川语库、粤语库和闽南语库。
本发明工作原理是:在汉语言的识别过程中,会遇到非常多的方言,还有不标准的方言,以及方言与普通话的某种混合体,因而大大提高了识别的难度,对于预先录制的语音文件,如果不经训练直接识别,识别率会非常低(除非讲话者的口音较标准,这种情况是很少见的),而如现有技术般请讲话者来对语音识别器进行训练是不可行的。本发明为此进行了反向思维,将录音的一小部分内容通过人的识别输入到计算机中,代替原来使用的标准文本,用于对语音识别器进行训练,从而达到了训练的目的,可以大大提高对语音文件的识别率,使其进入实用阶段。另一方面,汉语言虽然方言繁多,但从语音分类上来讲,大体可以分为官话区、吴语区(有时也细分为吴语区和越语区)、川语区、粤语区和闽南语区,各个方言区内的方言虽然仍存在发音的不同,但通常其发音较为类似,语法结构相同,因此,可以用某一语区中较有代表性的方言制成该语区的语音库,对于识别该语区的方言来说,采用该语音库,其识别率和学习的难度将大大低于采用标准普通话库。这样,本发明提供了进一步的技术方案,即基本的语音识别器可以带有多个语音识别器库,一个通用的***中可以带有标准普通话库及上述各种方言库,在识别时,首先用自动或人工的方式选择一种比较接近的语音识别器库,以获得较高的识别率及较低的训练强度。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
1、由于本发明利用录制好的语音文件进行反向训练,不需要讲话者到场对识别器进行训练,因而利用本发明方法制成的***,其使用者不必是讲话者,特别适用于对录制的演讲、讲课、采访等内容识别成文本文件进行整理;
2、由于本发明语音至文本的转换是非实时的,对计算机硬件配置、运算速度等要求不高;另一方面,如果计算机配置较好,可以对语音文件快速处理,不必象现有技术那样使用与讲话基本相同的时间进行转换,提高了使用效率。
                          附图说明
附图1为本发明实施例一的方法流程图;
附图2为实施例一中语音识别器的工作原理图。
                        具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例一:参见附图1和图2所示,一种将语音文件转换成文本文件的方法,包括如下步骤:
(1)获取需要转换的语音文件,利用语音播放器播放该语音文件,播放长度包含50至250个字,播放位置由用户指定,所述语音播放器采用调速播放软件,播放速度由用户调节至与使用者录入对应文字的速度相一致;
(2)以上述部分语音文件作为用于训练的语音文件,由使用者识别,输入相应的文字,获得对应的文本文件,使用者可以采用键盘输入方法,也可以采用手写板输入;
(3)利用步骤2获得的训练文件,对带有语音识别器库的基本的语音识别器,采用语音自适应技术重新估计语音参数;
(4)用调整参数后的语音识别器判断识别文件,如识别率未达到规定要求,则重复步骤1到3,进行再次的改进训练直至识别率达到规定要求。
(5)由此获得与录音者相关的语音识别器,利用该语音识别器识别需转换的语音文件,将其转换为文本文件。
实施例二:一种将语音文件转换成文本文件的方法,包括如下步骤:
(1)获取需要转换的语音文件,利用语音播放器播放该语音文件,播放长度至少包含50个字;
(2)以上述部分语音文件作为用于训练的语音文件,由使用者识别,输入相应的文字,获得对应的文本文件;
(3)利用步骤2获得的训练文件,对带有语音识别器库的基本的语音识别器,采用语音自适应技术重新估计语音参数;所述基本的语音识别器带有6个语音识别器库,分别为标准普通话库、官话库、吴语库、川语库、粤语库和闽南语库,首先根据训练文件判断选择较接近的语音识别器库,再对该语音识别器库采用语音自适应技术重新估计语音参数。
(4)由此获得与录音者相关的语音识别器,利用该语音识别器识别需转换的语音文件,将其转换为文本文件。

Claims (10)

1.一种将语音文件转换成文本文件的方法,其特征在于,包括如下步骤:
(1)获取需要转换的语音文件,利用语音播放器播放该语音文件,播放长度至少包含50个字;
(2)以上述部分语音文件作为用于训练的语音文件,由使用者识别,输入相应的文字,获得对应的文本文件;
(3)利用步骤2获得的训练文件,对带有语音识别器库的基本的语音识别器,采用语音自适应技术重新估计语音参数;
(4)由此获得与录音者相关的语音识别器,利用该语音识别器识别需转换的语音文件,将其转换为文本文件。
2.如权利要求1所述的将语音文件转换成文本文件的方法,其特征在于:包括下述可选步骤,即在所述第3步骤后,用调整参数后的语音识别器判断识别文件,如识别率未达到规定要求,则重复步骤1到3,进行再次的改进训练直至识别率达到规定要求。
3.如权利要求1所述的将语音文件转换成文本文件的方法,其特征在于:所述步骤1中播放的长度为播放50至250个字。
4.如权利要求3所述的将语音文件转换成文本文件的方法,其特征在于:所播放的该部分语音文件,选自待转换文件的起始部分、中间部分、结尾部分中的一处。
5.如权利要求1或3或4所述的将语音文件转换成文本文件的方法,其特征在于:在所述步骤1中采用调速播放软件播放所述语音文件,使播放速度与使用者录入对应文字的速度相一致。
6.如权利要求1所述的将语音文件转换成文本文件的方法,其特征在于:在步骤2中所述的文字输入,采用键盘输入或手写板输入中的一种方法。
7.如权利要求1所述的将语音文件转换成文本文件的方法,其特征在于:所述步骤3中的语音识别器库选自标准普通话库、方言库、特定行业领域的语音库。
8.如权利要求1所述的将语音文件转换成文本文件的方法,其特征在于:所述步骤3中的基本的语音识别器带有至少2个语音识别器库,所述步骤3分解为,首先根据训练文件判断选择较接近的语音识别器库,再该语音识别器库采用语音自适应技术重新估计语音参数。
9.如权利要求8所述的将语音文件转换成文本文件的方法,其特征在于:在经过3次训练未能达到基本识别率时,判定为语音识别器库选择错误,重新选择语音识别器库并利用存储的3次训练文件对该语音识别器库进行训练识别。
10.如权利要求8所述的将语音文件转换成文本文件的方法,其特征在于:所述的语音识别器库可以包括标准普通话库、官话库、吴语库、川语库、粤语库和闽南语库。
CNB021128197A 2002-03-25 2002-03-25 一种将语音文件转换成文本文件的方法 Expired - Fee Related CN1162840C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB021128197A CN1162840C (zh) 2002-03-25 2002-03-25 一种将语音文件转换成文本文件的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB021128197A CN1162840C (zh) 2002-03-25 2002-03-25 一种将语音文件转换成文本文件的方法

Publications (2)

Publication Number Publication Date
CN1371090A CN1371090A (zh) 2002-09-25
CN1162840C true CN1162840C (zh) 2004-08-18

Family

ID=4742274

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB021128197A Expired - Fee Related CN1162840C (zh) 2002-03-25 2002-03-25 一种将语音文件转换成文本文件的方法

Country Status (1)

Country Link
CN (1) CN1162840C (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839548B (zh) * 2012-11-26 2018-06-01 腾讯科技(北京)有限公司 一种语音交互方法、装置、***和移动终端
CN104732975A (zh) * 2013-12-20 2015-06-24 华为技术有限公司 一种语音即时通讯方法及装置
CN104252517B (zh) * 2014-01-08 2018-05-15 五八同城信息技术有限公司 基于语音识别和云标签的简历推荐***
CN105159870B (zh) * 2015-06-26 2018-06-29 徐信 一种精准完成连续自然语音文本化的处理***及方法
CN107657842A (zh) * 2017-11-02 2018-02-02 北京中智高新技术研究院 一种人工智能普通话练习设备、方法以及应用
CN109036424A (zh) * 2018-08-30 2018-12-18 出门问问信息科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN111159334A (zh) * 2019-12-10 2020-05-15 贝壳技术有限公司 用于房源跟进信息处理的方法及***

Also Published As

Publication number Publication date
CN1371090A (zh) 2002-09-25

Similar Documents

Publication Publication Date Title
Moreno et al. A recursive algorithm for the forced alignment of very long audio segments.
CN101382937B (zh) 基于语音识别的多媒体资源处理方法及其在线教学***
JP2006039120A (ja) 対話装置および対話方法、並びにプログラムおよび記録媒体
WO2003010754A1 (fr) Systeme de recherche a entree vocale
US20110093263A1 (en) Automated Video Captioning
Choi et al. Finding intonational boundaries using acoustic cues related to the voice source
CN111489765A (zh) 一种基于智能语音技术的话务服务质检方法
US7280963B1 (en) Method for learning linguistically valid word pronunciations from acoustic data
CN1162840C (zh) 一种将语音文件转换成文本文件的方法
CN1333501A (zh) 一种动态汉语语音合成方法
CN1645363A (zh) 便携式即时方言互译装置及其方法
CN1945692A (zh) 一种在语音合成***中提升提示音匹配效果的智能方法
CN1153127C (zh) 普通话语音输入和训练方法及普通话听写机
CN1267838C (zh) 一种语音检索方法及采用该方法的音像信息检索***
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN1819019A (zh) 基于矩阵特征向量范数的语音识别装置及其语音识别方法
Adell Mercado et al. Buceador, a multi-language search engine for digital libraries
CN1924996A (zh) 利用语音辨识以选取声音内容的***及其方法
Whetten et al. Evaluating Automatic Speech Recognition and Natural Language Understanding in an Incremental Setting
CN118136047B (zh) 一种基于语义语调的语音情感分析方法
CN113362803B (zh) 一种arm侧离线语音合成的方法、装置及存储介质
Žgank et al. The SI TEDx-UM speech database: A new Slovenian spoken language resource
Lo et al. Multi-scale spoken document retrieval for Cantonese broadcast news
Kulkarni et al. DL Based Speech to Text Converter for Audio Visual Applications
Fayan et al. Enhancing Content Creation Workflows through Automatic Speech Recognition Techniques

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee