CN113053364A - 一种语音识别方法、装置和用于语音识别的装置 - Google Patents
一种语音识别方法、装置和用于语音识别的装置 Download PDFInfo
- Publication number
- CN113053364A CN113053364A CN201911383577.4A CN201911383577A CN113053364A CN 113053364 A CN113053364 A CN 113053364A CN 201911383577 A CN201911383577 A CN 201911383577A CN 113053364 A CN113053364 A CN 113053364A
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- target
- phoneme
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000004880 explosion Methods 0.000 claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 62
- 238000005422 blasting Methods 0.000 claims description 50
- 238000012545 processing Methods 0.000 claims description 33
- 239000012634 fragment Substances 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 101100425901 Rattus norvegicus Tpm1 gene Proteins 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012076 audiometry Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例提供了一种语音识别方法、装置和用于语音识别的装置。其中的方法具体包括:获取待识别语音;根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果;其中,所述语音识别模型根据符合预设语流规则的语音样本训练得到,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。本发明实施例可以提高语音识别结果的准确性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音识别方法、装置和用于语音识别的装置。
背景技术
语音识别技术,也被称为ASR(Automatic Speech Recognition,自动语音识别),其目标是将语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
在英文语音的发音中,可能出现失去***的情况。例如,前一词如果以“t”结尾,后一词以“t”或“d”开头,则前一词的“t”就会失去***,也就是前一词的“t”不发音。如“whattime”中“what”的“t”就会失去***。
由于英文语音的上述特性,可能导致英文语音的语音识别结果不够准确。
发明内容
本发明实施例提供一种语音识别方法、装置和用于语音识别的装置,可以提高语音识别结果的准确性。
为了解决上述问题,本发明实施例公开了一种语音识别方法,所述方法包括:
获取待识别语音;
根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果;其中,所述语音识别模型根据符合预设语流规则的语音样本训练得到,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。
另一方面,本发明实施例公开了一种语音识别装置,所述装置包括:
语音获取模块,用于获取待识别语音;
语音识别模块,用于根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果;其中,所述语音识别模型根据符合预设语流规则的语音样本训练得到,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。
再一方面,本发明实施例公开了一种用于语音识别的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待识别语音;
根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果;其中,所述语音识别模型根据符合预设语流规则的语音样本训练得到,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。
又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如前述一个或多个所述的语音识别方法。
本发明实施例包括以下优点:
本发明实施例可以预先根据符合预设语流规则的语音样本训练得到语音识别模型,根据该语音识别模型对获取的待识别语音进行语音识别,得到语音识别结果。所述语流规则可以为根据语音中的语流现象所设置,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。由此,本发明实施例的所述语音识别模型可以识别英文语音中的语流现象,进而得到符合所述语流现象的发音规律的语音识别结果,可以提高语音识别结果的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种语音识别方法实施例的步骤流程图;
图2是本发明的一种语音识别装置实施例的结构框图;
图3是本发明的一种用于语音识别的装置800的框图;及
图4是本发明的一些实施例中服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
方法实施例
参照图1,示出了本发明的一种语音识别方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101、获取待识别语音;
步骤102、根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果;其中,所述语音识别模型根据符合预设语流规则的语音样本训练得到,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。
本发明实施例的语音识别方法可适用于电子设备,所述电子设备包括但不限于:服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture Experts GroupAudio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
本发明实施例的语音识别方法可以根据已训练的语音识别模型,对获取的待识别语音进行语音识别,确定所述待识别语音对应的语音识别结果。所述待识别语音可以是一段连续的英文语音,例如一个句子、一段话等。可以理解,本发明实施例对所述待识别语音的来源不加以限制,例如,所述待识别语音可以为通过所述电子设备的录音功能实时采集的语音片段。
在本发明的一种可选实施例中,所述步骤101的获取待识别语音,具体可以包括:获取用户通过即时通讯应用输入或发送或接收的待识别语音。
其中,所述即时通讯应用是通过即时通讯技术来实现在线聊天、交流的应用程序。本发明实施例获取的待识别语音可以包括:用户通过即时通讯应用输入的语音信息、用户通过即时通讯应用向通讯对端发送的语音信息、用户通过即时通讯应用从通讯对端接收的语音信息等。
在获取待识别语音之后,可以对所述待识别语音进行预处理,以消除由发声器官和采集设备所带来的混叠、高次谐波失真、高频等音素的影响,提高语音识别的准确性。所述预处理可以包括预加重、分帧、加窗等操作。
在英文语音的发音中,可能存在如下语流现象:失爆、连读、加音、同化、省音、弱读、浊化等。例如,对于英文语音“what time”,“what”中的“t”就会出现失爆的语流现象,导致发音由/wɑt t m/变成/wɑt m/。然而,现有的语音识别***不能识别英文发音中的语流现象,将导致识别结果出现错误。又例如,英文语音“that big”,“that”中的“t”也会出现失爆的语流现象,“that big”实际发音与“being”的发音较为相似,因此,现有的语音识别***可能得到的语音识别结果为“being”,导致语音识别结果有误。
为了解决该问题,本发明实施例针对上述语流现象设置相应的语流规则,并筛选出符合语流规则的语音样本,进而可以训练可识别语流规则的语音识别模型,以提高语音识别模型识别英文语音的准确性。其中,所述语流规则至少可以包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。由此,本发明实施例的所述语音识别模型可以识别英文语音中的语流现象,进而得到符合所述语流现象的发音规律的语音识别结果,可以提高语音识别结果的准确性。
例如,本发明实施例将发音为“/wɑt m/”的英文语音“what time”作为语音样本训练得到语音识别模型,通过该语音识别模型对待识别语音“what time”进行语音识别时,即可得到准确的语音识别结果。
在本发明的一种可选实施例中,步骤102所述根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果之前,所述方法还可以包括:
步骤S11、收集历史语音;
步骤S12、对所述历史语音对应的识别文本按照音素展开,得到所述历史语音对应的音素序列;
步骤S13、在所述历史语音中,确定语音样本,所述语音样本对应的音素序列符合所述预设语流规则;
步骤S14、根据所述语音样本,训练得到语音识别模型。
本发明实施例可以收集历史语音来训练语音识别模型,其中,所述历史语音中可以包括英文语音。
具体地,在收集历史语音之后,首先根据音素词典,对所述历史语音对应的识别文本按照音素展开,得到所述历史语音对应的音素序列。例如,对于一历史语音,识别得到的文本为“what time”,可以将该历史语音对应的识别文本“what time”按照音素展开,得到如下音素序列:/wɑtt m/。
然后,筛选出音素序列符合预设语流规则的历史语音作为语音样本,用于训练语音识别模型。可以理解,在具体应用中,可以根据实际情况设置所需的语流规则。例如,若需要语音识别模型可以识别失爆的语流现象,则可以预先设置失爆的语流现象对应的语流规则,在筛选语音样本时,可以筛选出符合失爆的语流规则的语音样本。同理,还可以筛选出符合连读的语流规则的语音样本,或者筛选出符合浊化的语流规则的语音样本等。
在本发明的一种可选实施例中,步骤S13,所述在所述历史语音中,确定语音样本,具体可以包括:在所述历史语音中,确定对应的音素序列符合失爆的语流规则的历史语音为语音样本,所述失爆的语流规则包括失去***的语流规则和/或不完全***的语流规则。
失爆现象是英文发音中较为常见并且较为突出的发音方法。失爆现象具体可以包括失去***和不完全***两种现象,因此,本发明实施例针对这两种现象,分别设置相应的语流规则,并且筛选出对应的音素序列符合失去***的语流规则的语音样本,和/或,对应的音素序列符合不完全***的语流规则的语音样本。
在本发明实施例中,预先设置失去***的语流规则具体如下:若音素序列中包含均为***音的两个相邻音素,则该相邻音素中的前一个音素产生失去***的语流现象,该音素序列符合失去***的语流规则。
其中,***音包括:/p/、/b/、/t/、/d/、/k/、/g/。当两个***音相邻时,前一个***音只按其发音部位做好发音口形、形成阻碍而不***出来,稍微停顿后即发出后面的辅音。前一个***音被称为失去***。如:“kept”中的***音“p”失去***,“bad boy”中的***音“d”失去***,“goodbye”中的***音“d”失去***等。
在本发明实施例中,预先设置不完全***的语流规则可以包括至少如下四种类别:“***音+摩擦音”、“***音+破擦音”、“***音+鼻辅音”、“***音+边辅音”。
第一种,“***音+摩擦音”,指若音素序列中包含***音与摩擦音相邻的两个音素,则该相邻的两个音素产生不完全***的语流现象,该音素序列符合不完全***的语流规则。
其中,***音包括:/p/、/b/、/t/、/d/、/k/、/g/。摩擦音包括:/f/、/v/、/s/、/z/、/∫/、/θ/、/r/、/h/。当***音与摩擦音相邻的情况下,在发摩擦音时,发音器官并不形成阻碍而只形成一个很狭小的缝隙让气流从缝隙中摩擦而出,这种***是不完全的,因此称为不完全***。如:“advance”中的***音“d”和摩擦音“v”产生不完全***;“success”中的***音“c”和摩擦音“c”产生不完全***;“old friends”中的***音“d”和摩擦音“f”产生不完全***;“Keep that in mind”中的***音“p”和摩擦音“t”产生不完全***等。
第二种,“***音+破擦音”,指若音素序列中包含***音与破擦音相邻的两个音素,则该相邻的两个音素产生不完全***的语流现象,该音素序列符合不完全***的语流规则。
其中,破擦音包括:/t∫/、/tr/、/dr/。如:“picture”中的***音“c”和破擦音“t”产生不完全***;“good job”中的***音“d”和破擦音“j”产生不完全***;“sweetdreams”中的***音“t”和破擦音“d”产生不完全***等。
第三种,“***音+鼻辅音”,指若音素序列中包含***音与鼻辅音相邻的两个音素,则该相邻的两个音素产生不完全***的语流现象,该音素序列符合不完全***的语流规则。
其中,鼻辅音包括:/m/、/n/、当***音与鼻辅音相邻的情况下,在词尾鼻腔***,产生不完全***的语流现象。如:midnight中的***音“d”和鼻辅音“n”产生不完全***;“I don’t know”中的***音“t”和鼻辅音“kn”产生不完全***等。
第四种,“***音+边辅音”,指若音素序列中包含***音与边辅音相邻的两个音素,则该相邻的两个音素产生不完全***的语流现象,该音素序列符合不完全***的语流规则。
其中,边辅音包括:/l/。当***音与边辅音相邻的情况下,该***音在词中不完全***,在词尾舌侧***,产生不完全***的语流现象。如:“friendly”中的***音“d”和边辅音“l”产生不完全***;“I’d like to”中的***音“d”和边辅音“l”产生不完全***;“atlast”中的***音“t”和边辅音“l”产生不完全***等。
在设置了失爆的语流现象对应的语流规则之后,可以对历史语音对应的音素序列进行解析,筛选出符合上述失爆语流规则的语音样本,用于训练语音识别模型。
可以理解,本发明实施例还可以根据其它语流现象的发音规则,设置其它语流现象对应的语流规则,并且从历史语音中筛选出其它语流规则(如连读、加音、同化、省音、弱读、浊化等)对应的语音样本,用于训练语音识别模型。
具体地,可以设置连读的语流规则包括但不限于:若相邻的两个词中,前一个词的末尾音素是辅音,后一个词的开头音素是元音(简称“辅音+元音”),或者“r/re+元音”、“辅音+半元音”等,则该相邻的两个词对应的音素序列符合连读的语流规则。例如,“Take alook at it”中“Take”的/k/与“a”的/e/连读,“look”的/k/与“at”的连读,“at”的/t/与“it”的连读。
可以设置加音的语流规则包括但不限于:相邻的两个词中,若前一个词的末尾音素为元音/u:/、/u/、/au/,后一个词的开头音素为元音,那么,在前一个词的末尾音素后面加上一个辅音/w/;或者,相邻的两个词中,若前一个词的末尾音素为元音/i:/、/i/、/ei/、/ai/、后一个词的开头音素为元音,那么,在前一个词的末尾音素后面加上一个辅音/j/。例如,“Just do(w)it”中“do”和“it”之间增加了辅音/w/。
可以设置同化的语流规则包括但不限于如下三种:
第二种,在音素序列中,辅音/t/与/j/相邻时,/t/和/j/被同化为/t∫/。例如,“Can’tyou”中“Can’t”的/t/和“you”中的/j/被同化为/t∫/。
第三种,在音素序列中,辅音/s/与/j/相邻时,/s/与/j/被同化为/∫/。例如,“Missyou”中“Miss”的/s/和“you”中的/j/被同化为/∫/。
可以设置省音的语流规则包括但不限于如下两种:
第二种,当he/him/his/her/have/who在语音中处于弱读位置且为非句首位置时,其中/h/音素的发音被省略。如,“Leave him alone”中“him”的/h/音被省略,“him”发音变为
可以设置弱读的语流规包括但不限于:虚词要弱读,所述虚词包括:冠词、人称代词、be动词、助动词、情态动词、单音节介词、单音节连词以及其他特殊词等。如“What wouldyou like”中“would”弱读为
可以设置浊化的语流规包括但不限于如下两种:
第一种,音素/s/后面的清辅音要浊化。如“discussion”中的/k/浊化成/g/;“stand”中的/t/浊化成/d/。
在本发明的一种应用示例中,假设预设语流规则为弱读的语流规则,在对历史语音进行筛选时,可以筛选弱读的语流规则对应的语音样本。由上述设置的弱读的语流规则可知,单词“for”正常发音为弱读情况下发音为因此,当历史语音中存在单词“for”时,可以确定该条历史语音符合弱读的语流规则,可以作为弱读的语流规则对应的语音样本。
在本发明的另一种应用示例中,假设预设语流规则为浊化的语流规则,在对历史语音进行筛选时,可以筛选浊化的语流规则对应的语音样本。由上述设置的浊化的语流规则可知,单词water中的“t”会发生浊化,浊化后读音为因此,当历史语音中存在单词“water”时,可以确定该条历史语音符合浊化的语流规则,可以作为浊化的语流规则对应的语音样本。
可以理解,其它语流规则对应的语音样本的筛选过程类似,此处不再进行赘述,相互参照即可。
在本发明的一种可选实施例中,步骤S13,所述在所述历史语音中,确定语音样本,具体可以包括:
步骤S21、对所述历史语音中的每一条语音对应的音素序列进行解析,确定音素序列符合所述预设语流规则的目标语音;
步骤S22、对所述目标语音进行口语评测,确定所述目标语音对应的音素序列中目标音素对应的声学后验概率;其中,所述目标音素为符合所述预设语流规则的音素;
步骤S23、确定目标音素对应的声学后验概率小于预设概率阈值的目标语音为语音样本。
具体的,步骤S3中,针对步骤S21确定的每一条目标语音,分别判断该目标语音对应的音素序列中包括的目标音素的声学后验概率,是否小于预设概率阈值,如果小于,则确定该目标语音为语音样本。
其中,所述预设概率阈值可以依据大量符合所述预设语流规则的目标语音中包括的目标音素对应的声学后验概率确定,也可以依据需要人为设定,在此不做限制。
需要说明的是,本发明实施例对确定目标语音的具体方式不加以限制。例如,可以通过人工分析的方式对每一条历史语音对应的音素序列进行解析,手动筛选出音素序列符合所述预设语流规则的目标语音;或者,还可以编写用于识别音素序列是否符合预设语流规则的脚本程序,通过该脚本程序对每一条语音对应的音素序列进行解析,自动筛选出音素序列符合所述预设语流规则的目标语音。
例如,对于一历史语音,识别得到的文本为“what time”,可以将该历史语音对应的识别文本“what time”按照音素展开,得到如下音素序列:/wɑtt aIm/。根据上述预设的失爆规则可知,音素序列/wɑt t m/中包括两个相邻的***音/t/和/t/,因此,前一个/t/符合失去***的语流规则,可以确定音素序列/wɑt t m/中的第一个音素/t/为目标音素。
在实际应用中,由于收集的历史语音可能来自不同用户、不同场景下的各种语音数据,因此,其中可能存在实际发音并不符合预设语流规则的语音数据。例如,对于应该失去***的发音,用户的实际发音并没有失去***。如根据失去***的语流规则,“whattime”的实际发音应该为/wɑt m/,但是在收集的历史语音中,某用户实际的发音却为/wɑt t m/,也即该条历史语音的音素序列符合失去***的语流规则,但是该条语音的实际发音并不符合失去***的语流规则。
如果语音样本中包括上述音素序列符合预设语流规则,但是实际发音却不符合预设语流规则的语音数据,将影响语音识别模型训练的准确性。因此,本发明实施例对筛选出的目标语音进一步进行口语评测,确定所述目标语音对应的音素序列中目标音素对应的声学后验概率,所述目标音素为音素序列中符合预设语流规则的音素,如音素序列/wɑt t m/中的第一个音素/t/。
其中,口语评测的目的是给出一个以音素为基本单位的评测分数,该评测分数可以体现语音样本中音素的实际发音与标准语音库中相应音素的标准发音之间的相似程度。所述标准语音库中可以包括标准发音人对照文本进行发音得到的录音,用于作为口语评测标准,评测用户的发音质量。例如,对于对照文本“what time”,以音素为单位的标准发音应该为/wɑtt m/。
具体地,对待评测的语音(如上述目标语音)按帧提取语音特征得到特征向量序列。通常提取的语音特征可以包括PLP(Perceptual Linear Predictive,感知线性预测特征)和MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征。然后根据标准语音库中标准语音的发音、以及相应单词的发音字典,通过Viterbi(维特比)算法确定所述目标语音中音素状态的时间边界。在确定时间边界后,提取时间边界内所有帧对应的声学后验概率,按帧长取平均值,作为该音素状态的声学后验概率。该声学后验概率即为以音素为基本单位的评测分数。
在对每一条目标语音进行口语评测,得到每一条目标语音对应的音素序列中目标音素对应的声学后验概率之后,可以抽取各预设语流规则下的目标语音进行测听,为满足各预设语流规则的声学后验概率设定概率阈值。如果某目标音素对应的声学后验概率小于该概率阈值,则确定该目标音素符合相应的预设语流规则。
以上述目标音素为/wɑt t m/中的第一个/t/为例,如果某个目标语音“whattime”中的目标音素第一个/t/的声学后验概率超过预设的概率阈值,说明该目标语音的实际发音接近标准语音库中的标准发音“/wɑtt m/”,那么,也就说明该目标语音的实际发音不符合失去***的语流规则。反之,如果该目标语音中的目标音素的声学后验概率小于所述概率阈值,说明该目标语音的实际发音可能由于产生了失去***的语流现象,因此不符合标准语音库中的标准发音“/wɑtt m/”。那么,也就说明该目标语音的实际发音符合失去***的语流规则,可以将该目标语音作为失去***的语流规则对应的语音样本。
同理,根据上述步骤可以对不同语流规则的声学后验概率分别设定相应的概率阈值。根据不同语流规则的声学后验概率对应的预设概率阈值,可以确定符合不同语流规则的语音样本,进而可以训练用于识别不同语流规则的语音识别模型。
上述在历史语音中筛选弱读语流规则对应的语音样本的示例中,假设筛选出的目标语音中包括单词“for”,其对应的音素序列中包括目标音素在对该目标语音进行口语评测的过程中,如果单词“for”中目标音素的声学后验概率小于预设的概率阈值,可以认为单词“for”的发音发生了弱读现象,符合弱读的语流规则,则该目标语音可以作为弱读语流规则对应的语音样本。
上述在历史语音中筛选浊化语流规则对应的语音样本的示例中,假设筛选出的目标语音中包括单词“water”,其对应的音素序列中包括目标音素/t/,在对该目标语音进行口语评测的过程中,如果单词“water”中目标音素/t/的声学后验概率小于预设的概率阈值,可以认为单词“water”的发音发生了浊化现象,符合浊化的语流规则,则该目标语音可以作为浊化语流规则对应的语音样本。
可以理解,对其它语流规则对应的目标语音进行口语评测的过程类似,此处不再进行赘述,相互参照即可。
在本发明的一种可选实施例中,步骤S22,所述确定所述目标语音对应的音素序列中目标音素对应的声学后验概率之后,所述方法还可以包括:
步骤S31、确定目标音素对应的声学后验概率大于或等于所述预设概率阈值的目标语音为待处理语音;
步骤S32、对所述待处理语音进行音频处理,得到处理后语音,所述处理后语音中所述目标音素的发音符合所述预设语流规则;
步骤S33、将所述处理后语音作为用于训练所述语音识别模型的语音样本。
具体的,步骤S31中,针对步骤S21确定的每一条目标语音,如果某条目标语音对应的音素序列中包括的目标音素的声学后验概率,大于或等于预设概率阈值,说明该目标语音的音素序列虽然符合预设语流规则,但是其对应的实际发音并不符合预设语流规则。此时,可以将所述目标语音作为待处理语音,对其进行音频处理,使得处理后的目标语音的发音符合预设语流规则。其中,所述音频处理的主要目的在于:使得目标语音对应的音素序列中包括的目标音素的发音符合所述预设语流规则。
在实际应用中,由于收集的历史语音可能来自不同用户、不同场景下的各种语音数据,其中可能存在音素序列符合预设语流规则,但是实际发音却不符合预设语流规则的语音数据。例如,对于应该失去***的发音,用户的实际发音并没有失去***。如根据失去***规则,“what time”的发音应该为/wɑt m/,但是用户实际的发音为/wɑt t m/。
经过步骤S21至S24,本发明实施例可以筛选出音素序列和实际发音均符合预设语流规则的目标语音作为语音样本。
接下来,本发明实施例进一步确定出,目标音素的声学后验概率大于或等于所述预设概率阈值的目标语音为待处理语音。由于所述待处理语音中的目标音素的声学后验概率大于或等于所述预设概率阈值,说明所述待处理语音的音素序列符合预设语流规则但实际发音并不符合该预设语流规则。对所述待处理语音进行进一步的音频处理,使得处理后语音中目标音素的发音符合相应的预设语流规则。进而可以将所述处理后语音也作为用于训练所述语音识别模型的语音样本,实现对训练模型所需样本的扩充。
例如,某一目标语音的识别文本为“what time”,其对应的音素序列中包含目标音素为第一个/t/。如果该目标音素/t/的声学后验概率大于或等于预设的概率阈值,说明该目标音素/t/的实际发音符合标准语音库中的标准发音。也即,该目标语音的实际发音符合标准发音/wɑt t m/,而不符合口语中失去***规则的发音/wɑt m/,则将该目标语音作为待处理语音。
然后对该待处理语音进行音频处理,得到处理后语音,使得该处理后语音中目标音素的发音符合失去***的语流规则,也即使得该处理后语音的实际发音变为/wɑt m/。本发明实施例通过该音频处理过程,可以对所述待处理语音中本应符合预设语流规则但是却未符合该预设语流规则的目标音素的发音进行纠正,得到发音符合该预设语流规则的处理后语音。
最后将所述处理后语音作为用于训练所述语音识别模型的语音样本。
由此,本发明实施例将所述处理后语音作为用于训练所述语音识别模型的语音样本,不仅可以对发音不符合预设语流规则的目标语音进行纠正,得到发音符合预设语流规则的处理后语音;而且可以对训练相应预设语流规则下的语音识别模型的语音样本进行扩充,得到更加丰富的样本数据,使得训练得到的语音识别模型更加准确。
在本发明的一种可选实施例中,步骤S32,所述对所述待处理语音进行音频处理,得到处理后语音,具体可以包括:
将所述待处理语音中所述目标音素对应的语音片段替换为目标语音片段,得到处理后语音;其中,所述目标语音片段为对所述目标音素按照所述预设语流规则进行发音得到的语音片段。
其中,所述目标音素为本应该按照预设语流规则进行发音,但是实际发音却不符合所述预设语流规则发音规律的音素。本发明实施例将所述待处理语音中目标音素对应的语音片段替换为目标语音片段,得到处理后语音,所述目标语音片段为对所述目标音素按照所述预设语流规则进行发音得到的语音片段。由此,使得该处理后语音中目标音素的发音符合所述预设语流规则,进而,使得处理后语音的发音符合该预设语流规则。
在本发明的一种可选实施例中,所述预设语流规则可以包括失爆的语流规则。所述将所述待处理语音中所述目标音素对应的语音片段替换为目标语音片段,所述目标语音片段为预设长度的静音片段。其中,所述预设长度为将所述待处理语音中目标音素对应的语音片段的时间长度缩短至一定比例的长度。
在本发明的另一种可选实施例中,还可以先将所述待处理语音中目标音素对应的语音片段的时间长度缩短至预设长度,然后将所述待处理语音中缩短后的目标音素对应的语音片段替换为所述预设长度的静音片段。
在本发明实施例中,在所述预设语流规则具体为失爆规则的情况下,可以对目标语音中,本应该失爆但是却没有失爆的目标音素对应的语音片段进行纠正,得到发音符合所述失爆规则的处理后语音。
具体地,首先在所述待处理语音中,确定本应符合失爆规则但是发音却未符合失爆规则的目标音素。在确定目标音素之后,将该目标音素对应的语音片段的时间长度缩短至预设长度。根据失爆规则的发音规律,所述预设长度可以设置为该目标音素对应语音片段的时间长度的三分之一。最后对该待处理语音中缩短后的目标音素对应的语音片段进行静音覆盖,得到处理后语音。例如,可以取该待处理语音中预设长度的静音片段对缩短后的目标音素对应的语音片段进行覆盖,得到处理后语音。
通过上述音频处理得到的处理后语音,可以实现处理后语音中目标音素对应的语音片段具有未***发音而只稍微停顿的效果,符合失爆规则的发音规律。进而可以起到对该待处理数据的发音进行纠正,以及对用于训练符合失爆规则的语音识别模型的语音样本进行扩充的作用。
在本发明的一种可选实施例中,所述预设语流规则可以包括弱读的语流规则。所述将所述待处理语音中所述目标音素对应的语音片段替换为目标语音片段,所述目标语音片段为对所述目标音素按照弱读的语流规则进行发音得到的语音片段。
以上述筛选弱读的语流规则对应的语音样本为例,在对符合弱读的语流规则对应的目标语音进行口语评测之后,可以确定弱读的语流规则对应的待处理数据,对该待处理数据进行音频处理,可以得到发音符合弱读语流规则的处理后语音。例如,若待处理语音中存在单词“for”,且待处理语音中“for”中本该弱读的音素的实际发音并未弱读,也即该音素的声学后验概率大于或等于预设的概率阈值,则确定该待处理语音中的目标音素为单词“for”中的音素进而可以将待处理语音中单词“for”中目标音素对应的语音片段替换为目标语音片段,得到处理后语音,该目标语音片段为对目标音素按照所述弱读的语流规则发音得到的语音片段,也即按照音素发音得到的语音片段。
在本发明的一种可选实施例中,所述预设语流规则可以包括浊化的语流规则。所述将所述待处理语音中所述目标音素对应的语音片段替换为目标语音片段,所述目标语音片段为对所述目标音素按照浊化的语流规则进行发音得到的语音片段。
以上述筛选浊化的语流规则对应的语音样本为例,在对符合浊化的语流规则对应的目标语音进行口语评测之后,可以确定浊化的语流规则对应的待处理数据,对该待处理数据进行音频处理,可以得到发音符合浊化语流规则的处理后语音。例如,若待处理语音中存在单词“water”,且待处理语音中“water”本应浊化的音素/t/的实际发音并未浊化,也即该音素/t/的声学后验概率大于或等于预设的概率阈值,则确定该待处理语音中的目标音素为单词“water”中的音素/t/,进而可以将该待处理语音中单词“water”中目标音素/t/对应的语音片段替换为目标语音片段,得到处理后语音,该目标语音片段为为对目标音素/t/按照所述浊化的语流规则发音得到的语音片段,也即按照音素/d/发音得到的语音片段。
可以理解,对其它语流规则对应的待处理数据进行音频处理的过程类似,此处不再进行赘述,相互参照即可。
所述根据所述语音样本,训练得到语音识别模型,具体可以包括:根据音素序列符合所述失去***的语流规则对应的第一语音样本和/或音素序列符合所述不完全***的语流规则对应的第二语音样本,训练得到语音识别模型。
针对英文语音中存在失去***与不完全***的两种失爆现象,本发明实施例可以获取音素序列符合所述失去***的语流规则对应的第一语音样本和/或音素序列符合所述不完全***的语流规则对应的第二语音样本。
根据所述第一语音样本或所述第二语音样本可以分别训练用于识别不同失爆现象的语音识别模型,或者,还可以根据所述第一语音样本和所述第二语音样本共同训练可同时识别两种失爆现象的语音识别模型。
在本发明的一种可选实施例中,所述根据所述语音样本,训练得到语音识别模型,具体可以包括:根据所述语音样本,对基础模型进行训练,得到语音识别模型。
其中,所述语音样本可以包括通过步骤S21至步骤S23筛选得到的语音样本,以及通过步骤S31至步骤S33处理后得到的语音样本。
所述基础模型指现有的语音识别模型,该基础模型在训练过程中采用的训练数据并未区分是否符合语流规则,也即,该基础模型在进行语音识别的过程中,不能识别英文语音中的语流现象,对于存在上述语流现象的英文语音,语音识别结果可能不够准确。
本发明实施例可以根据获取的语音样本,直接对所述基础模型进行进一步训练,得到语音识别模型。
可以理解,本发明实施例对所述基础模型的具体类型不加以限制,所述基础模型可以包括DNN(Deep NeuralNetworks,深度神经网络)。所述深度神经网络可以融合多种神经网络,所述多种神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套:CNN(Convolutional Neural Network,卷积神经网络)、LSTM(Long Short-TermMemory,长短时记忆)网络、RNN(Simple RecurrentNeural Network,循环神经网络)、注意力神经网络等。
例如,根据符合失去***的语流规则对应的第一语音样本,对基础模型进行训练,得到第一语音识别模型。该第一语音识别模型可以识别英文语音中失去***的语流现象。
又如,根据符合不完全***的语流规则对应的第二语音样本,对基础模型进行训练,得到第二语音识别模型。该第二语音识别模型可以识别英文语音中不完全***的语流现象。
再如,根据符合连读的语流规则对应的第三语音样本,对基础模型进行训练,得到第三语音识别模型。该第三语音识别模型可以识别英文语音中连读的语流现象等。
本发明实施例可以根据所述语音样本,对基础模型进一步强化训练,得到训练完成的语音识别模型,使得已有的基础模型得到优化,可以根据预设语流规则,准确识别英文语音中的语流现象,提高语音识别的准确率。此外,本发明实施例直接对基础模型进行优化,而不用重新训练语音识别模型,可以减少训练语音识别模型所需的样本数据量,以及可以减少训练语音识别模型所需的时间,提高模型训练的效率。
具体地,在收集语音样本之后,首先可以根据语音样本中包含的语流规则,对语音样本对应的文本进行标注;然后对所述语音样本进行特征提取,得到所述语音样本对应的语音样本特征;接下来将基础模型作为初始模型,将所述语音样本特征输入所述初始模型进行训练,并且在训练过程中,根据标注信息调整所述初始模型的模型参数直至满足迭代次数,可以得到训练完成的语音识别模型。
需要说明的是,对于上述多种语流规则,本发明实施例可以分别训练符合不同语流规则的多个语音识别模型,如上述第一语音识别模型、第二语音识别模型、第三语音识别模型等。当然,也可以训练一个可识别多种语流规则的语音识别模型。例如,可以根据符合失去***规则的语音样本、符合不完全***规则的语音样本、以及符合连读规则的语音样本等,对基础模型共同进行训练,得到一个语音识别模型,该语音识别模型可以同时识别不同语流规则对应的语流现象。
在本发明的一种应用实例中,获取的待识别语音为“But is it the firsttimeyouhave been in China orbecause forme itwas the first time.”
其中,“is it the”中“it”的“t”和“the”的“th”相邻,也即音素/t/和相邻,属于不完全失爆的语流规则中的第二种情况。由于/t/会被不完全***,所以该语音中“is itthe”对应的音素序列为如果采用基础模型进行语音识别,得到的识别结果将为“easythe”,整句的语音识别结果可能为“But easy the first time you have beeninChina or because for me was the first time.”,导致语音识别结果有误。而采用本发明实施例中根据符合失爆语流规则的语音样本训练得到的语音识别模型进行语音识别,可以得到准确的语音识别结果:“But is it the first time you have been in Chinaor because for me it was the first time.”
综上,本发明实施例可以预先根据符合预设语流规则的语音样本训练得到语音识别模型,根据该语音识别模型对获取的待识别语音进行语音识别,得到语音识别结果。所述语流规则可以为根据语音中的语流现象所设置,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。由此,本发明实施例的所述语音识别模型可以识别英文语音中的语流现象,进而得到符合所述语流现象的发音规律的语音识别结果,可以提高语音识别结果的准确性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
装置实施例
参照图2,示出了本发明的一种语音识别装置实施例的结构框图,所述装置具体可以包括:
语音获取模块201,用于获取待识别语音;
语音识别模块202,用于根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果;其中,所述语音识别模型根据符合预设语流规则的语音样本训练得到,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。
可选地,所述装置还可以包括:
语音收集模块,用于收集历史语音;
语音展开模块,用于对所述历史语音对应的识别文本按照音素展开,得到所述历史语音对应的音素序列;
样本确定模块,用于在所述历史语音中,确定语音样本,所述语音样本对应的音素序列符合所述预设语流规则;
模型训练模块,用于根据所述语音样本,训练得到语音识别模型。
可选地,所述模型训练模块,具体用于根据所述语音样本,对基础模型进行训练,得到语音识别模型。
可选地,所述样本确定模块,具体可以包括:
目标确定子模块,用于对所述历史语音中的每一条语音对应的音素序列进行解析,确定音素序列符合所述预设语流规则的目标语音;
口语评测子模块,用于对所述目标语音进行口语评测,确定所述目标语音对应的音素序列中目标音素对应的声学后验概率;其中,所述目标音素为符合所述预设语流规则的音素;
第一样本确定子模块,用于确定目标音素对应的声学后验概率小于预设概率阈值的目标语音为语音样本。
可选地,所述装置还可以包括:
待处理确定子模块,用于确定目标音素的声学后验概率大于或等于所述预设概率阈值的目标语音为待处理语音;
音频处理子模块,用于对所述待处理语音进行音频处理,得到处理后语音,所述处理后语音中所述目标音素的发音符合所述预设语流规则;
第二样本确定子模块,用于将所述处理后语音作为用于训练所述语音识别模型的语音样本。
可选地,所述音频处理子模块,具体用于将所述待处理语音中所述目标音素对应的语音片段替换为目标语音片段,得到处理后语音;其中,所述目标语音片段为对所述目标音素按照所述目标音素对应的预设语流规则进行发音得到的语音片段。
可选地,所述预设语流规则包括失爆的语流规则;所述目标语音片段为预设长度的静音片段;其中,所述预设长度为将所述待处理语音中目标音素对应的语音片段的时间长度缩短至一定比例的长度。
可选地,所述样本确定模块,具体用于在所述历史语音中,确定对应的音素序列符合失爆的语流规则的历史语音为语音样本,所述失爆的语流规则包括失去***的语流规则和/或不完全***的语流规则;
所述模型训练模块,具体用于根据对应的音素序列符合所述失去***的语流规则的第一语音样本和/或对应的音素序列符合所述不完全***的语流规则的第二语音样本,训练得到语音识别模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供了一种用于语音识别的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取待识别语音;根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果;其中,所述语音识别模型根据符合预设语流规则的语音样本训练得到,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。
图3是根据一示例性实施例示出的一种用于语音识别的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理***,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音信息处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频信息处理(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图4是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行图1所示的语音识别方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行一种语音识别方法,所述方法包括:获取待识别语音;根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果;其中,所述语音识别模型根据符合预设语流规则的语音样本训练得到,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。
本发明实施例公开了A1、一种语音识别方法,包括:
获取待识别语音;
根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果;其中,所述语音识别模型根据符合预设语流规则的语音样本训练得到,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。
A2、根据A1所述的方法,所述根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果之前,所述方法还包括:
收集历史语音;
对所述历史语音对应的识别文本按照音素展开,得到所述历史语音对应的音素序列;
在所述历史语音中,确定语音样本,所述语音样本对应的音素序列符合所述预设语流规则;
根据所述语音样本,训练得到语音识别模型。
A3、根据A2所述的方法,所述在所述历史语音中,确定语音样本,包括:
对所述历史语音中的每一条语音对应的音素序列进行解析,确定音素序列符合所述预设语流规则的目标语音;
对所述目标语音进行口语评测,确定所述目标语音对应的音素序列中目标音素对应的声学后验概率;其中,所述目标音素为符合所述预设语流规则的音素;
确定目标音素对应的声学后验概率小于预设概率阈值的目标语音为语音样本。
A4、根据A3所述的方法,所述确定所述目标语音对应的音素序列中目标音素对应的声学后验概率之后,所述方法还包括:
确定目标音素对应的声学后验概率大于或等于所述预设概率阈值的目标语音为待处理语音;
对所述待处理语音进行音频处理,得到处理后语音,所述处理后语音中所述目标音素的发音符合所述预设语流规则;
将所述处理后语音作为用于训练所述语音识别模型的语音样本。
A5、根据A4所述的方法,所述对所述待处理语音进行音频处理,得到处理后语音,包括:
将所述待处理语音中所述目标音素对应的语音片段替换为目标语音片段,得到处理后语音;其中,所述目标语音片段为对所述目标音素按照所述目标音素对应的预设语流规则进行发音得到的语音片段。
A6、根据A5所述的方法,所述预设语流规则包括失爆的语流规则;
所述目标语音片段为预设长度的静音片段;其中,所述预设长度为将所述待处理语音中目标音素对应的语音片段的时间长度缩短至一定比例的长度。
A7、根据A2所述的方法,所述在所述历史语音中,确定语音样本,包括:
在所述历史语音中,确定对应的音素序列符合失爆的语流规则的历史语音为语音样本,所述失爆的语流规则包括失去***的语流规则和/或不完全***的语流规则;
所述根据所述语音样本,训练得到语音识别模型,包括:
根据对应的音素序列符合所述失去***的语流规则的第一语音样本和/或对应的音素序列符合所述不完全***的语流规则的第二语音样本,训练得到语音识别模型。
本发明实施例公开了B8、一种语音识别装置,包括:
语音获取模块,用于获取待识别语音;
语音识别模块,用于根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果;其中,所述语音识别模型根据符合预设语流规则的语音样本训练得到,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。
B9、根据B8所述的装置,所述装置还包括:
语音收集模块,用于收集历史语音;
语音展开模块,用于对所述历史语音对应的识别文本按照音素展开,得到所述历史语音对应的音素序列;
样本确定模块,用于在所述历史语音中,确定语音样本,所述语音样本对应的音素序列符合所述预设语流规则;
模型训练模块,用于根据所述语音样本,训练得到语音识别模型。
B10、根据B9所述的装置,所述样本确定模块,包括:
目标确定子模块,用于对所述历史语音中的每一条语音对应的音素序列进行解析,确定音素序列符合所述预设语流规则的目标语音;
口语评测子模块,用于对所述目标语音进行口语评测,确定所述目标语音对应的音素序列中目标音素对应的声学后验概率;其中,所述目标音素为符合所述预设语流规则的音素;
第一样本确定子模块,用于确定目标音素对应的声学后验概率小于预设概率阈值的目标语音为语音样本。
B11、根据B10所述的装置,所述装置还包括:
待处理确定子模块,用于确定目标音素的声学后验概率大于或等于所述预设概率阈值的目标语音为待处理语音;
音频处理子模块,用于对所述待处理语音进行音频处理,得到处理后语音,所述处理后语音中所述目标音素的发音符合所述预设语流规则;
第二样本确定子模块,用于将所述处理后语音作为用于训练所述语音识别模型的语音样本。
B12、根据B11所述的装置,所述音频处理子模块,具体用于将所述待处理语音中所述目标音素对应的语音片段替换为目标语音片段,得到处理后语音;其中,所述目标语音片段为对所述目标音素按照所述目标音素对应的预设语流规则进行发音得到的语音片段。
B13、根据B12所述的装置,所述预设语流规则包括失爆的语流规则;
所述目标语音片段为预设长度的静音片段;其中,所述预设长度为将所述待处理语音中目标音素对应的语音片段的时间长度缩短至一定比例的长度。
B14、根据B9所述的装置,所述样本确定模块,具体用于在所述历史语音中,确定对应的音素序列符合失爆的语流规则的历史语音为语音样本,所述失爆的语流规则包括失去***的语流规则和/或不完全***的语流规则;
所述模型训练模块,具体用于根据对应的音素序列符合所述失去***的语流规则的第一语音样本和/或对应的音素序列符合所述不完全***的语流规则的第二语音样本,训练得到语音识别模型。
本发明实施例公开了C15、一种用于语音识别的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待识别语音;
根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果;其中,所述语音识别模型根据符合预设语流规则的语音样本训练得到,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。
C16、根据C15所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
收集历史语音;
对所述历史语音对应的识别文本按照音素展开,得到所述历史语音对应的音素序列;
在所述历史语音中,确定语音样本,所述语音样本对应的音素序列符合所述预设语流规则;
根据所述语音样本,训练得到语音识别模型。
C17、根据C16所述的装置,所述在所述历史语音中,确定语音样本,包括:
对所述历史语音中的每一条语音对应的音素序列进行解析,确定音素序列符合所述预设语流规则的目标语音;
对所述目标语音进行口语评测,确定所述目标语音对应的音素序列中目标音素对应的声学后验概率;其中,所述目标音素为符合所述预设语流规则的音素;
确定目标音素对应的声学后验概率小于预设概率阈值的目标语音为语音样本。
C18、根据C17所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定目标音素的声学后验概率大于或等于所述预设概率阈值的目标语音为待处理语音;
对所述待处理语音进行音频处理,得到处理后语音,所述处理后语音中所述目标音素的发音符合所述预设语流规则;
将所述处理后语音作为用于训练所述语音识别模型的语音样本。
C19、根据C18所述的装置,所述对所述待处理语音进行音频处理,得到处理后语音,包括:
将所述待处理语音中所述目标音素对应的语音片段替换为目标语音片段,得到处理后语音;其中,所述目标语音片段为对所述目标音素按照所述目标音素对应的预设语流规则进行发音得到的语音片段。
C20、根据C19所述的装置,所述预设语流规则包括失爆的语流规则;
所述目标语音片段为预设长度的静音片段;其中,所述预设长度为将所述待处理语音中目标音素对应的语音片段的时间长度缩短至一定比例的长度。
C21、根据C16所述的装置,所述在所述历史语音中,确定语音样本,包括:
在所述历史语音中,确定对应的音素序列符合失爆的语流规则的历史语音为语音样本,所述失爆的语流规则包括失去***的语流规则和/或不完全***的语流规则;
所述根据所述语音样本,训练得到语音识别模型,包括:
根据对应的音素序列符合所述失去***的语流规则的第一语音样本和/或对应的音素序列符合所述不完全***的语流规则的第二语音样本,训练得到语音识别模型。
本发明实施例公开了D22、一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如A1至A7中一个或多个所述的语音识别方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种语音识别方法、一种语音识别装置和一种用于语音识别的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种语音识别方法,其特征在于,所述方法包括:
获取待识别语音;
根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果;其中,所述语音识别模型根据符合预设语流规则的语音样本训练得到,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。
2.根据权利要求1所述的方法,其特征在于,所述根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果之前,所述方法还包括:
收集历史语音;
对所述历史语音对应的识别文本按照音素展开,得到所述历史语音对应的音素序列;
在所述历史语音中,确定语音样本,所述语音样本对应的音素序列符合所述预设语流规则;
根据所述语音样本,训练得到语音识别模型。
3.根据权利要求2所述的方法,其特征在于,所述在所述历史语音中,确定语音样本,包括:
对所述历史语音中的每一条语音对应的音素序列进行解析,确定音素序列符合所述预设语流规则的目标语音;
对所述目标语音进行口语评测,确定所述目标语音对应的音素序列中目标音素对应的声学后验概率;其中,所述目标音素为符合所述预设语流规则的音素;
确定目标音素对应的声学后验概率小于预设概率阈值的目标语音为语音样本。
4.根据权利要求3所述的方法,其特征在于,所述确定所述目标语音对应的音素序列中目标音素对应的声学后验概率之后,所述方法还包括:
确定目标音素对应的声学后验概率大于或等于所述预设概率阈值的目标语音为待处理语音;
对所述待处理语音进行音频处理,得到处理后语音,所述处理后语音中所述目标音素的发音符合所述预设语流规则;
将所述处理后语音作为用于训练所述语音识别模型的语音样本。
5.根据权利要求4所述的方法,其特征在于,所述对所述待处理语音进行音频处理,得到处理后语音,包括:
将所述待处理语音中所述目标音素对应的语音片段替换为目标语音片段,得到处理后语音;其中,所述目标语音片段为对所述目标音素按照所述目标音素对应的预设语流规则进行发音得到的语音片段。
6.根据权利要求5所述的方法,其特征在于,所述预设语流规则包括失爆的语流规则;
所述目标语音片段为预设长度的静音片段;其中,所述预设长度为将所述待处理语音中目标音素对应的语音片段的时间长度缩短至一定比例的长度。
7.根据权利要求2所述的方法,其特征在于,所述在所述历史语音中,确定语音样本,包括:
在所述历史语音中,确定对应的音素序列符合失爆的语流规则的历史语音为语音样本,所述失爆的语流规则包括失去***的语流规则和/或不完全***的语流规则;
所述根据所述语音样本,训练得到语音识别模型,包括:
根据对应的音素序列符合所述失去***的语流规则的第一语音样本和/或对应的音素序列符合所述不完全***的语流规则的第二语音样本,训练得到语音识别模型。
8.一种语音识别装置,其特征在于,所述装置包括:
语音获取模块,用于获取待识别语音;
语音识别模块,用于根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果;其中,所述语音识别模型根据符合预设语流规则的语音样本训练得到,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。
9.一种用于语音识别的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待识别语音;
根据已训练的语音识别模型,确定所述待识别语音对应的语音识别结果;其中,所述语音识别模型根据符合预设语流规则的语音样本训练得到,所述语流规则至少包括如下任意一种:失爆、连读、加音、同化、省音、弱读、浊化。
10.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中一个或多个所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911383577.4A CN113053364A (zh) | 2019-12-27 | 2019-12-27 | 一种语音识别方法、装置和用于语音识别的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911383577.4A CN113053364A (zh) | 2019-12-27 | 2019-12-27 | 一种语音识别方法、装置和用于语音识别的装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113053364A true CN113053364A (zh) | 2021-06-29 |
Family
ID=76507228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911383577.4A Pending CN113053364A (zh) | 2019-12-27 | 2019-12-27 | 一种语音识别方法、装置和用于语音识别的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113053364A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0173986A2 (en) * | 1984-09-03 | 1986-03-12 | CSELT Centro Studi e Laboratori Telecomunicazioni S.p.A. | Method of and device for the recognition, without previous training of connected words belonging to small vocabularies |
JPH0261700A (ja) * | 1988-08-27 | 1990-03-01 | Brother Ind Ltd | 音声認識装置 |
JPH02124600A (ja) * | 1988-07-20 | 1990-05-11 | Nec Corp | 音声認識装置 |
CN103680495A (zh) * | 2012-09-26 | 2014-03-26 | ***通信集团公司 | 语音识别模型训练方法和装置及终端 |
JP2016018042A (ja) * | 2014-07-07 | 2016-02-01 | 沖電気工業株式会社 | 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器 |
CN107610691A (zh) * | 2017-09-08 | 2018-01-19 | 深圳大学 | 英语元音发声纠错方法及装置 |
CN108510978A (zh) * | 2018-04-18 | 2018-09-07 | 中国人民解放军62315部队 | 一种应用于语种识别的英语声学模型的建模方法及*** |
CN110136748A (zh) * | 2019-05-16 | 2019-08-16 | 上海流利说信息技术有限公司 | 一种节奏识别校正方法、装置、设备及存储介质 |
-
2019
- 2019-12-27 CN CN201911383577.4A patent/CN113053364A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0173986A2 (en) * | 1984-09-03 | 1986-03-12 | CSELT Centro Studi e Laboratori Telecomunicazioni S.p.A. | Method of and device for the recognition, without previous training of connected words belonging to small vocabularies |
JPH02124600A (ja) * | 1988-07-20 | 1990-05-11 | Nec Corp | 音声認識装置 |
JPH0261700A (ja) * | 1988-08-27 | 1990-03-01 | Brother Ind Ltd | 音声認識装置 |
CN103680495A (zh) * | 2012-09-26 | 2014-03-26 | ***通信集团公司 | 语音识别模型训练方法和装置及终端 |
JP2016018042A (ja) * | 2014-07-07 | 2016-02-01 | 沖電気工業株式会社 | 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器 |
CN107610691A (zh) * | 2017-09-08 | 2018-01-19 | 深圳大学 | 英语元音发声纠错方法及装置 |
CN108510978A (zh) * | 2018-04-18 | 2018-09-07 | 中国人民解放军62315部队 | 一种应用于语种识别的英语声学模型的建模方法及*** |
CN110136748A (zh) * | 2019-05-16 | 2019-08-16 | 上海流利说信息技术有限公司 | 一种节奏识别校正方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107632980B (zh) | 语音翻译方法和装置、用于语音翻译的装置 | |
CN110210310B (zh) | 一种视频处理方法、装置和用于视频处理的装置 | |
US9070363B2 (en) | Speech translation with back-channeling cues | |
CN108399914B (zh) | 一种语音识别的方法和装置 | |
WO2015171646A1 (en) | Method and system for speech input | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
CN111583944A (zh) | 变声方法及装置 | |
CN107274903B (zh) | 文本处理方法和装置、用于文本处理的装置 | |
CN110992942B (zh) | 一种语音识别方法、装置和用于语音识别的装置 | |
Chuang et al. | Improved lite audio-visual speech enhancement | |
CN112509598B (zh) | 音频检测方法及装置、存储介质 | |
CN108628819B (zh) | 处理方法和装置、用于处理的装置 | |
CN112735371B (zh) | 一种基于文本信息生成说话人视频的方法及装置 | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
CN109584906B (zh) | 口语发音评测方法、装置、设备及存储设备 | |
Qu et al. | Lipsound2: Self-supervised pre-training for lip-to-speech reconstruction and lip reading | |
JP2009251199A (ja) | 音声合成装置、方法及びプログラム | |
CN112151072B (zh) | 语音处理方法、装置和介质 | |
CN111640452A (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN107886940B (zh) | 语音翻译处理方法及装置 | |
CN113112575A (zh) | 一种口型生成方法、装置、计算机设备及存储介质 | |
US11715457B1 (en) | Real time correction of accent in speech audio signals | |
CN113053364A (zh) | 一种语音识别方法、装置和用于语音识别的装置 | |
CN113889105A (zh) | 一种语音翻译方法、装置和用于语音翻译的装置 | |
EP3718107B1 (en) | Speech signal processing and evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |