CN106710587A - 一种语音识别数据预处理方法 - Google Patents
一种语音识别数据预处理方法 Download PDFInfo
- Publication number
- CN106710587A CN106710587A CN201611184565.5A CN201611184565A CN106710587A CN 106710587 A CN106710587 A CN 106710587A CN 201611184565 A CN201611184565 A CN 201611184565A CN 106710587 A CN106710587 A CN 106710587A
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- model
- standard
- dictionary
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000007781 pre-processing Methods 0.000 title abstract 2
- 238000013499 data model Methods 0.000 claims abstract description 28
- 238000013138 pruning Methods 0.000 claims description 3
- 230000033764 rhythmic process Effects 0.000 claims description 3
- 230000008520 organization Effects 0.000 abstract description 2
- 238000009434 installation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明通过提供一种语音识别数据预处理方法,包括标准音频文件组织模块,标准文本编辑模块,发音词典配置模块,语音模型生成模块,标准音特征数据识别处理模块.保存最终生成标准音数据模型到文件***,在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分,解决在实际应用中需要对标准音识别然后最对用户录音识别的效率低的问题。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种语音识别数据预处理方法。
背景技术
语音识别技术已广泛应用于手机,pc等用户终端中.如:输入法,语言学习***,搜索***产品.绝大部份语音识别应用产品在语音识别技术应用中都是采用用户终端采集用户录音数据,发送到后台服务器进行识别模式.例如公开号为CN103137129 A的一种语音识别方法及电子装置,其通过电子装置的用户使用情况收集用户特定信息,记录用户的发言,使远程服务器产生记录的发言的远程语音识别结果等等,这种模式的缺点是后台识别***需要有强大性能的硬件***支撑,搭建成本高,动辄上亿才能基本满足大用户量访问需求.而且用户必须在网络连接状态下使用语音识别应用产品.如果能够把用户终端机器计算能力利用起来,就能极大的减少硬件成本.但用户终端计算能力一般没有服务器***强,因此需要一种优化在用户终端进行语音识别计算的处理,提高识别效率的方法。
发明内容
本发明的目的是提供一种能够优化利用用户终端计算能力进行语音识别评分效率而进行的处理语音识别数据方法。
具体技术方案包含如下步骤:
步骤1)组织标准音频文件,整理需要生成数据模型的音频文件;
步骤2)编辑标准文本,整理编辑需要识别评分的文段,句子,单词等文本;
步骤3)配置发音词典,配置该文段需要用到的通用发音词典或者特殊发音词典;
步骤4)生成对应语音模型,根据以上步骤产出文件来生成对应语音模型,保存语音模型文件;
步骤5)采用生成的语音模型调用语音识别引擎进行对标准音特征数据进行识别处理,生成并保存标准音数据模型;
步骤6)采用预生成数据模型在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分。
进一步的,所述步骤1)具体分为如下步骤:
11)由于用户终端CPU计算能力限制,进行语音识别评分需要把识别目标设定在一定范围内.如设定为一个单元的课文内容;
进一步的,所述步骤2)中整理编辑文本的步骤如下:创建一个XML配置文件,给每个句子或者单词都在配置文件中创建一个节点,节点中包含音频文件引用路径和对应文本;
进一步的,所述步骤3)中配置发音词典的步骤如下:31)完成单词或句子配置后,针对每个单词的节点对应配置发音词典的发音,并进行关联;32)进一步的,发音词典分为常用发音词典和特殊发音词典,如果一篇文段里所有单词都在常用发音词典里,这时就不需要配置特殊发音词典,否则就需要创建对每个常用词典里没有的单词进行发音标注添加到特殊发音词典;
进一步的,所述步骤4)中标准音特征识别数据生成的步骤如下:使用步骤2)中编辑好的标准音频和标准文本配置文件和步骤3)中编辑好的发音词典使用语音识别引擎工具生成该文段的文段语音模型,文段语音模型是用于描述用户发音空间,在识别用户发音时,使语音识别引擎在约束词汇条件下进行快速高效剪枝,快速识别出用户发音内容;
进一步的,所述步骤5)中语音模型生成模块的步骤如下:调用语音识别引擎,传入声学模型和在步骤4)中生成的文段语音模型,依次对在步骤2)中生成配置文件里面的每个节点配置单词或者句子进行语音识别,保存识别引擎返回每个节点配置的音频文件识别数据到本地文本文件,至此,已获得每个单词或者句子标准音的文本,发音,节奏,重音,语调的特征数据模型.在对用户发音识别评分时只需把数据模型传入识别引擎,识别引擎把用户发音识别后直接跟标准音数据模型进行对比评分即可,无需对标准音进行识别来获取标准音数据模型。
本发明的有益效果在于:经过本发明的实施步骤,口语练习等语音识别应用在用户终端中的语音识别用时减少一半,识别效率的提高使得可以利用用户终端计算能力进行识别,无需搭建服务器***,无需网络访问,用户都可以在使用单机版语音识别应用中获得较好体验。
附图说明
结合附图对本发明作进一步详细说明:
图1为本申请的流程框图。
具体实施方式
以下将根据附图所示的优选实施例,对本发明进行详细解释,然而本发明不限于该实施例。
如图1所示步骤如下,前三个步骤为资源准备步骤:
1组织标准音频文件,整理需要生成数据模型的音频文件;由于用户终端CPU计算能力限制,进行语音识别评分需要把识别目标设定在一定范围内.如设定为一个单元的课文内容;
2编辑标准文本,整理编辑需要识别评分的文段,句子,单词等文本,创建一个XML配置文件,给每个句子或者单词都在配置文件中创建一个节点,节点中包含音频文件引用路径和对应文本;
3配置发音词典,配置该文段需要用到的通用发音词典或者特殊发音词典,完成单词或句子配置后,针对每个单词的节点对应配置发音词典的发音,并进行关联;进一步的,发音词典分为常用发音词典和特殊发音词典,如果一篇文段里所有单词都在常用发音词典里,这时就不需要配置特殊发音词典,否则就需要创建对每个常用词典里没有的单词进行发音标注添加到特殊发音词典;
资源准备完毕后,进行语音模型处理:
4生成对应语音模型,使用步骤2中编辑好的标准音频和标准文本配置文件和步骤3)中编辑好的发音词典使用语音识别引擎工具生成该文段的文段语音模型,文段语音模型是用于描述用户发音空间,在识别用户发音时,使语音识别引擎在约束词汇条件下进行快速高效剪枝,快速识别出用户发音内容;
5采用生成的语音模型调用语音识别引擎进行对标准音特征数据进行识别处理,生成并保存标准音数据模型;调用语音识别引擎,传入声学模型和在步骤4中生成的文段语音模型,依次对在步骤2)中生成配置文件里面的每个节点配置单词或者句子进行语音识别,保存识别引擎返回每个节点配置的音频文件识别数据到本地文本文件,至此,已获得每个单词或者句子标准音的文本,发音,节奏,重音,语调的特征数据模型.在对用户发音识别评分时只需把数据模型传入识别引擎,识别引擎把用户发音识别后直接跟标准音数据模型进行对比评分即可,无需对标准音进行识别来获取标准音数据模型;
6采用预生成数据模型在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分;
本发明的语音识别数据方法,包括标准音频文件组织模块,标准文本编辑模块,发音词典配置模块,语音模型生成模块,标准音特征数据识别处理模块.保存最终生成标准音数据模型到文件***,在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分,解决在实际应用中需要对标准音识别然后最对用户录音识别的效率低的问题。
以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种语音识别数据预处理方法,其特征在于,包括以下步骤:
步骤1)组织标准音频文件,整理需要生成数据模型的音频文件;
步骤2)编辑标准文本,整理编辑需要识别评分的文段,句子,单词等文本;
步骤3)配置发音词典,配置该文段需要用到的通用发音词典或者特殊发音词典;
步骤4)生成对应语音模型,根据以上步骤产出文件来生成对应语音模型,保存语音模型文件;
步骤5)采用生成的语音模型调用语音识别引擎进行对标准音特征数据进行识别处理,生成并保存标准音数据模型;
步骤6)采用预生成数据模型在应用产品中直接加载预生成数据模型进行对用户录音进行识别评分。
2.根据权利要求1所述的一种语音识别数据预处理方法,其特征在于:所述步骤1)中整理编辑文本的步骤如下:
11)由于用户终端CPU计算能力限制,进行语音识别评分需要把识别目标设定在一定范围内.如设定为一个单元的课文内容。
3.根据权利要求1所述的一种语音识别数据预处理方法,其特征在于:所述步骤2)中整理编辑文本的步骤如下:创建一个XML配置文件,给每个句子或者单词都在配置文件中创建一个节点,节点中包含音频文件引用路径和对应文本。
4.根据权利要求1所述的一种语音识别数据预处理方法,其特征在于:所述步骤3)中配置发音词典的步骤如下:
31)完成单词或句子配置后,针对每个单词的节点对应配置发音词典的发音,并进行关联;
32)进一步的,发音词典分为常用发音词典和特殊发音词典,如果一篇文段里所有单词都在常用发音词典里,这时就不需要配置特殊发音词典,否则就需要创建对每个常用词典里没有的单词进行发音标注添加到特殊发音词典。
5.根据权利要求1所述的一种语音识别数据预处理方法,其特征在于:所述步骤4)中标准音特征识别数据生成的步骤如下:使用步骤2)中编辑好的标准音频和标准文本配置文件和步骤3)中编辑好的发音词典使用语音识别引擎工具生成该文段的文段语音模型,文段语音模型是用于描述用户发音空间,在识别用户发音时,使语音识别引擎在约束词汇条件下进行快速高效剪枝,快速识别出用户发音内容。
6.根据权利要求1所述的一种语音识别数据预处理方法,其特征在于:所述步骤5)中语音模型生成模块的步骤如下:调用语音识别引擎,传入声学模型和在步骤4)中生成的文段语音模型,依次对在步骤2)中生成配置文件里面的每个节点配置单词或者句子进行语音识别,保存识别引擎返回每个节点配置的音频文件识别数据到本地文本文件,至此,已获得每个单词或者句子标准音的文本,发音,节奏,重音,语调的特征数据模型,在对用户发音识别评分时只需把数据模型传入识别引擎,识别引擎把用户发音识别后直接跟标准音数据模型进行对比评分即可,无需对标准音进行识别来获取标准音数据模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611184565.5A CN106710587A (zh) | 2016-12-20 | 2016-12-20 | 一种语音识别数据预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611184565.5A CN106710587A (zh) | 2016-12-20 | 2016-12-20 | 一种语音识别数据预处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106710587A true CN106710587A (zh) | 2017-05-24 |
Family
ID=58939302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611184565.5A Pending CN106710587A (zh) | 2016-12-20 | 2016-12-20 | 一种语音识别数据预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106710587A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578778A (zh) * | 2017-08-16 | 2018-01-12 | 南京高讯信息科技有限公司 | 一种口语评分的方法 |
CN109246214A (zh) * | 2018-09-10 | 2019-01-18 | 北京奇艺世纪科技有限公司 | 一种提示音获取方法、装置、终端及服务器 |
CN112837679A (zh) * | 2020-12-31 | 2021-05-25 | 北京策腾教育科技集团有限公司 | 一种语言学习方法及*** |
US20220301561A1 (en) * | 2019-12-10 | 2022-09-22 | Rovi Guides, Inc. | Systems and methods for local automated speech-to-text processing |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101432801A (zh) * | 2006-02-23 | 2009-05-13 | 日本电气株式会社 | 语音识别词典制作支持***、语音识别词典制作支持方法以及语音识别词典制作支持用程序 |
CN103985392A (zh) * | 2014-04-16 | 2014-08-13 | 柳超 | 音素级的低功耗的口语评价与缺陷诊断方法 |
WO2016053531A1 (en) * | 2014-09-30 | 2016-04-07 | Apple Inc. | A caching apparatus for serving phonetic pronunciations |
US20160133251A1 (en) * | 2013-05-31 | 2016-05-12 | Longsand Limited | Processing of audio data |
-
2016
- 2016-12-20 CN CN201611184565.5A patent/CN106710587A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101432801A (zh) * | 2006-02-23 | 2009-05-13 | 日本电气株式会社 | 语音识别词典制作支持***、语音识别词典制作支持方法以及语音识别词典制作支持用程序 |
US20160133251A1 (en) * | 2013-05-31 | 2016-05-12 | Longsand Limited | Processing of audio data |
CN103985392A (zh) * | 2014-04-16 | 2014-08-13 | 柳超 | 音素级的低功耗的口语评价与缺陷诊断方法 |
WO2016053531A1 (en) * | 2014-09-30 | 2016-04-07 | Apple Inc. | A caching apparatus for serving phonetic pronunciations |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578778A (zh) * | 2017-08-16 | 2018-01-12 | 南京高讯信息科技有限公司 | 一种口语评分的方法 |
CN109246214A (zh) * | 2018-09-10 | 2019-01-18 | 北京奇艺世纪科技有限公司 | 一种提示音获取方法、装置、终端及服务器 |
CN109246214B (zh) * | 2018-09-10 | 2022-03-04 | 北京奇艺世纪科技有限公司 | 一种提示音获取方法、装置、终端及服务器 |
US20220301561A1 (en) * | 2019-12-10 | 2022-09-22 | Rovi Guides, Inc. | Systems and methods for local automated speech-to-text processing |
CN112837679A (zh) * | 2020-12-31 | 2021-05-25 | 北京策腾教育科技集团有限公司 | 一种语言学习方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108364632B (zh) | 一种具备情感的中文文本人声合成方法 | |
CN109686361B (zh) | 一种语音合成的方法、装置、计算设备及计算机存储介质 | |
US11475897B2 (en) | Method and apparatus for response using voice matching user category | |
JP5149737B2 (ja) | 自動会話システム、並びに会話シナリオ編集装置 | |
WO2020253509A1 (zh) | 面向情景及情感的中文语音合成方法、装置及存储介质 | |
CN108428446A (zh) | 语音识别方法和装置 | |
CN106710587A (zh) | 一种语音识别数据预处理方法 | |
JP2018146715A (ja) | 音声対話装置、その処理方法及びプログラム | |
CN111433847A (zh) | 语音转换的方法及训练方法、智能装置和存储介质 | |
CN103632663B (zh) | 一种基于hmm的蒙古语语音合成前端处理的方法 | |
EP3489951B1 (en) | Voice dialogue apparatus, voice dialogue method, and program | |
CN111508501B (zh) | 一种电话机器人中带口音的语音识别方法及*** | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
US9805740B2 (en) | Language analysis based on word-selection, and language analysis apparatus | |
JP2015049254A (ja) | 音声データ認識システム及び音声データ認識方法 | |
CN114120985A (zh) | 智能语音终端的安抚交互方法、***、设备及存储介质 | |
CN110852075B (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
CN106710591A (zh) | 用于电力终端的语音客服*** | |
US9218807B2 (en) | Calibration of a speech recognition engine using validated text | |
Tsiakoulis et al. | Dialogue context sensitive HMM-based speech synthesis | |
CN109104258A (zh) | 一种基于关键词识别的无线电识别方法 | |
CN116564286A (zh) | 语音录入方法、装置、存储介质及电子设备 | |
CN115019787B (zh) | 一种交互式同音异义词消歧方法、***、电子设备和存储介质 | |
CN111128127A (zh) | 一种语音识别处理方法及装置 | |
KR102376552B1 (ko) | 음성 합성 장치 및 음성 합성 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170524 |