CN110517693A - 语音识别方法、装置、电子设备和计算机可读存储介质 - Google Patents
语音识别方法、装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN110517693A CN110517693A CN201910707508.8A CN201910707508A CN110517693A CN 110517693 A CN110517693 A CN 110517693A CN 201910707508 A CN201910707508 A CN 201910707508A CN 110517693 A CN110517693 A CN 110517693A
- Authority
- CN
- China
- Prior art keywords
- score
- recognition result
- probability score
- candidate
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 37
- 230000015654 memory Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 12
- 235000013399 edible fruits Nutrition 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语音识别方法、装置、电子设备和计算机可读存储介质,通过语音识别***获取预定数量的候选识别结果、各候选识别结果在语音识别***的声学模型中对应的第一概率得分以及在语音是识别***的语言模型中对应的第二概率得分,并获取基于预先训练的语义识别模型获取的各候选识别结果对应的第三概率得分,根据预先确定的得分权重计算各候选识别结果的第一概率得分、第二概率得分和第三概率得分的加权和,根据所述加权和对各候选识别结果进行排序以获取语音识别结果,由此,可以提高语音识别的准确率。
Description
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种语言识别方法、装置、电子设备和计算机可读存储介质。
背景技术
语音识别技术是一种将人类语音转换为计算机可读输入的技术。语音识别技术在语音拨号、语音导航、自动设备控制等领域都有广泛的应用。因此,如何提高语音识别的准确性成为一个重要的课题。
现有技术中,一般使用语音模型对用户输入的语音进行识别,将输入的语音特征序列转换为字符序列。语音模型一般包括声学模型和语言模型,分别对应语音到音节概率的计算以及音节到字符概率的计算。其中,现有技术中的语言模型无法针对长序列数据进行建模,语音识别的准确率较低。
发明内容
有鉴于此,本发明实施例提供一种语音识别方法、装置、电子设备和计算机可读存储介质,以提高语音识别的准确率。
第一方面,本发明实施例提供一种语音处理方法,所述方法包括:
获取待识别语音;
将所述待识别语音输入语音识别***以获取预定数量的候选识别结果以及各候选识别结果对应的第一概率得分和第二概率得分;其中,所述第一概率得分为所述语言识别***的声学模型对所述候选识别结果的打分,所述第二概率得分为所述语言识别***的语言模型对所述候选识别结果的打分;
获取各候选识别结果对应的第三概率得分,第三概率得分用于表征基于预先训练的语义识别模型对所述各候选识别结果的打分;
根据预先确定的得分权重计算各候选识别结果的所述第一概率得分、第二概率得分和第三概率得分的加权和以获取综合概率得分;
根据所述综合概率得分对所述各候选识别结果进行排序,以获取语音识别结果。
可选的,获取各候选识别结果对应的第三概率得分包括:
对所述候选识别结果进行分词处理以获取分词后的每个词对应的词向量;
处理所述候选识别结果对应的词向量以获取各词向量对应的第四概率得分,所述第四概率得分用于表征所对应词向量在语义上跟随于所述候选识别结果中在前出现的多个词向量的概率;
根据所述各词向量对应的第四概率得分获取对应的候选识别结果的第三概率得分。
可选的,根据所述各词向量对应的第四概率得分获取对应的候选识别结果的第三概率得分包括:
计算各词向量对应的第四概率得分的对数之和以获取对应的候选识别结果的第三概率得分。
可选的,所述方法还包括:
通过pairwise算法确定所述第一概率得分、第二概率得分和第三概率得分对应的得分权重,其中,所述第一概率得分、第二概率得分和第三概率得分为所述pairwise算法的特征。
可选的,所述方法还包括:
根据标注好候选识别结果的语音识别测试集合,采用预定步长对所述得分权重进行穷举,以获取使得所述语音识别测试集中的候选识别结果字错率最低的得分权重。
可选的,所述语言识别***的语言模型为n-gram语言模型。
可选的,所述语义识别模型为神经网络模型。
第二方面,本发明实施例提供一种语音处理装置,所述装置包括:
待识别语音获取单元,被配置为获取待识别语音;
语音识别***处理单元,被配置为将所述待识别语音输入语音识别***以获取预定数量的候选识别结果以及各候选识别结果对应的第一概率得分和第二概率得分;其中,所述第一概率得分为所述语言识别***的声学模型对所述候选识别结果的打分,所述第二概率得分为所述语言识别***的语言模型对所述候选识别结果的打分;
语义识别模型处理单元,被配置为获取各候选识别结果对应的第三概率得分,第三概率得分用于表征基于预先训练的语义识别模型对所述各候选识别结果的打分;
综合概率得分获取单元,被配置为根据预先确定的得分权重计算各候选识别结果的所述第一概率得分、第二概率得分和第三概率得分的加权和以获取综合概率得分;
排序及获取单元,被配置为根据所述综合概率得分对所述各候选识别结果进行排序,以获取语音识别结果。
第三方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被处理器执行以实现如上所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行以实现如上所述的方法。
本发明实施例通过语音识别***获取预定数量的候选识别结果、各候选识别结果在语音识别***的声学模型中对应的第一概率得分以及在语音是识别***的语言模型中对应的第二概率得分,并获取基于预先训练的语义识别模型获取的各候选识别结果对应的第三概率得分,根据预先确定的得分权重计算各候选识别结果的第一概率得分、第二概率得分和第三概率得分的加权和,根据所述加权和对各候选识别结果进行排序以获取语音识别结果,由此,可以提高语音识别的准确率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的语音识别方法的示意图;
图2是本发明实施例的获取第三概率得分的方法流程图;
图3是本发明实施例的语义识别模型的示意图;
图4是本发明实施例的语音识别过程的示意图;
图5是本发明实施例的语音识别装置的示意图;
图6是本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1是本发明实施例的语音识别方法的示意图。如图1所示,本实施例的语音识别方法包括以下步骤:
步骤S100,获取待识别语音。
步骤S200,将待识别语音输入语音识别***以获取预定数量的候选识别结果以及各候选识别结果对应的第一概率得分和第二概率得分。其中,第一概率得分为语言识别***的声学模型对候选识别结果的打分,第二概率得分为所述语言识别***的语言模型对候选识别结果的打分。
在本实施例中,语音识别***包括声学模型和语音模型,其通常基于WFST(weighted finite-state transducer,加权有限状态转换器)生成最佳的预定数量的识别结果,同时输出各识别结果对应的声学模型和语音模型的打分。其中,声学模型表示给定文字后翻译成某种语言信号的概率,语言模型表示一个文字序列本身的概率。可选的,通过上下文相关的音素建模方法(例如三元音素建模)来对语音中的协同发音现象进行建模。在一种可选的实现方式中,声学模型可采用基于模式匹配的动态时间规整法(DTW)、隐马尔可夫模型法(HMM)、基于人工神经网络识别法(ANN)等方法来进行建模。语言模型可采用n-gram模型(N元模型),也即第N个词的出现只与前面N-1个词相关,一个语音整句的概率可以为各个词出现概率的乘积。由此,本实施例的语音识别***可通过声学模型和语言模型对待识别语音进行处理,获取声学模型和语言模型对各识别结果的打分,根据打分获取候选识别结果(例如总的概率得分最高的预定数量的识别结果作为候选识别结果)。
步骤S300,获取各候选识别结果对应的第三概率得分,第三概率得分用于表征基于预先训练的语义识别模型对所述各候选识别结果的打分。在本实施例中,语义识别模型可以根据给定的前m-1个词,确定第m个词为预定词的概率,m大于等于2。在一种可选的实现方式中,语义识别模型是一种神经网络语言模型,与n-gram模型不同的是,语义识别模型中的m可以设置的较大,也即,语义识别模型可以较好的建模长句。其中,通常情况下,n-gram模型中的N最多为4,也即n-gram模型可以根据前3个词,确定第4个词为预定词的概率。
例如,假设待识别语音的一个识别结果为“今天的天气真好啊我们去打球吧”,则n-gram模型能够根据“今天的天气”来确定“真好”的概率得分、或根据“啊我们去”来确定“打球”的概率得分等,而本实施例的语义识别模型则可以根据“今天的天气真好啊我们去”来确定“打球”的概率得分。由此,在本实施例中,可以通过语音识别***中的语言模型(例如n-gram模型)和预先训练的语义识别模型相结合,从短句和长句两个方面对识别结果进行打分,从而可以提高语音识别的准确率,同时,由于语义识别模型只需对语音识别***获取的候选识别结果进行数据处理,因此,本实施例可以在提高语音识别准确率的同时,保证相对较小的计算量。
图2是本发明实施例的获取第三概率得分的方法流程图。在一种可选的实现方式中,如图3所示,步骤S300进一步包括以下步骤:
步骤S310,对候选识别结果进行分词处理以获取分词后的每个词对应的词向量。例如,假设一个候选识别结果为“今天的天气真好啊我们去打球吧”,则将这句话进行分词处理后,得到“今天的天气真好啊我们去打球吧”。在一种可选的实现方式中,可以通过one-shot编码获取分词后的每个词对应的词向量。one-hot编码,也可以称为有效编码,主要采用X位分类值寄存器来对X个分类值进行编码,每个分类值都有其独立的寄存器位,并且在任意时候只有一位有效。也就是说,每个词对应的特征向量均有一个特定位为1。
步骤S320,处理候选识别结果对应的词向量以获取各词向量对应的第四概率得分。其中,第四概率得分用于表征所对应词向量在语义上跟随于所述候选识别结果中在前出现的多个词向量的概率。
步骤S330,根据各词向量对应的第四概率得分获取对应的候选识别结果的第三概率得分。在一种可选的实现方式中,计算各词向量对应的第四概率得分的对数之和以获取对应的候选识别结果的第三概率得分。例如,假设以后候选识别结果具有6个词向量,对应的第四概率分别为y1-y6,则对应的第三概率得分为(logy1+logy2+logy3+logy4+logy5+logy6)。本实施例中的对数运算中底数可以为10、e等值,应理解,本实施例并不对此进行限制。
图3是本发明实施例的语义识别模型的示意图。在一种可选的实现方式中,如图3所示,本实施例的语义识别模型包括L1层、L2层、LSTM层(Long Short-Term Memory,长短期记忆网络)和Softmax层。其中,L1层用于对输入的候选识别结果进行分词处理,以获取t个分词w1-wt,其中t大于等于1。L2层用于获取各个分词对应的词向量x1-xt。LSTM是一种特殊的RNN(Recurrent Neural Network,循环神经网络),可以学习长期依赖信息,用于根据各词向量之间的向下文关系确定各个词向量对应的第四概率得分,Softmax层用于根据各个词向量对应的第四概率得分获取对应的候选识别结果的第三概率得分score_nn。
可选的,可以将日常通用语料或特定领域的文本语料作为语义识别模型的训练数据,例如,一个日常通用语料为“今天的天气真好啊我们去打球吧”,则由此获取的训练数据可以为“今天的天气真好啊我们去”、“的天气真好啊我们去打球”或者“今天的天气真好啊我们去打球”、“的天气真好啊我们去打球吧”等,也即,可以根据输入的在前出现的多个词,输出在语义上跟随该多个词的词,由此,在根据大量的训练数据对语义识别***进行训练后,可以基于在前出现的多个词,根据向下文的语义信息,获取在语义上跟随该多个词的词的概率得分。例如,在前确定的多个词为“今天的天气真好啊我们去”,可以根据训练好的语义识别模型确定下一个词为“打球”的概率得分。可选的,概率得分的确定与训练过程中获得的上下文语义联系的密切程度相关。例如,在训练过程中,输入为“今天的天气真好啊我们去”,输出为“的天气真好啊我们去打球”的频率大于输入为“今天的天气真好啊我们去”,输出为“的天气真好啊我们去踢球”的频率,也即,“今天的天气真好啊我们去”与“打球”的密切程度大于“踢球”。由此,若候选识别结果中包含“今天的天气真好啊我们去打球”和“今天的天气真好啊我们去踢球”,语义识别模型输出的“今天的天气真好啊我们去打球”的概率得分大于“今天的天气真好啊我们去踢球”。
步骤S400,根据预先确定的得分权重计算各候选识别结果的第一概率得分、第二概率得分和第三概率得分的加权和以获取综合概率得分。
在一种可选的实现方式中,如果语音识别测试集中的测试数据足够多,则可以将获取第一概率得分、第二概率得分和第三概率得分的得分权重以进行重打分的问题转化为排序问题,使用语音识别测试集中的一个测试数据(也即待识别语音及其对应的候选识别结果)中字错率最小的结果作为排序的标签,采用排序学习的方法对语音识别测试集进行学习以确定第一概率得分、第二概率得分和第三概率得分对应的得分权重。
可选的,本实施例通过pairwise算法确定第一概率得分、第二概率得分和第三概率得分对应的得分权重,其中,第一概率得分、第二概率得分和第三概率得分为pairwise算法的特征。pairwise算法以偏序文档作为训练样例,通过判断不同文档与查询的相关性大小来为文档排序,主要有RankNet、LambdaRank、LambdaMART、Ranking SVM、IR SVM、RankBoost等方法。
在基于pairwise算法进行学习前,从语音识别测试集中获取训练数据。例如,对语音识别测试集中的每个待识别语音对应的候选识别结果计算字错率,对字错率进行排序,得到字错率从低到高的识别文本结果(S1,S2,…,Sx),x为每个待识别语音对应的候选识别结果的数量。其中,字错率越小,其对应的综合概率得分(也即第一概率得分、第二概率得分和第三概率得分的加权和)应该越高,其中,每个待识别语音对应的识别文本结果(S1,S2,…,Sx)为一组训练数据,采用pairwise算法,例如Ranking SVM算法对训练数据进行学习,以获取各组训练数据对应的权重,并计算出最优的权重(例如使得各训练数据中的数据排序正确率最高的一组权重),作为第一概率得分、第二概率得分和第三概率得分的得分权重。由此,通过将获取各得分权重以进行重打分的问题转化为排序问题,可以获取较为准确的得分权重,进一步提高了语音识别的准确性。
在另一种可选的实现方式中,根据标注好候选识别结果的语音识别测试集合,采用预定步长对得分权重进行穷举,以获取使得候选识别结果字错率最低的得分权重。例如,得分权重大于等于0小于等于1,采用的预定步长为0.1,对第一概率得分、第二概率得分和第三概率得分的得分权重进行穷举,以获取使得语音识别测试集合中的待识别语音对应的候选识别结果均基本按照字错率从低到高进行排序的得分权重。由此,通过相对简单的方法获取较为准确的得分权重,进一步提高了语音识别的准确性。
步骤S500,根据综合概率得分对所述各候选识别结果进行排序,以获取语音识别结果。
本发明实施例通过包括声学模型和语言模型的语音识别***对待识别语音进行处理以获取预定数量的候选识别结果、以及各候选识别结果对应于声学模型和语言模型的第一概率得分和第二概率得分,并通过语义识别模型对各候选识别结果进行处理以获取各候选识别结果对应于语义识别模型的第三概率得分,并根据预先确定的得分权重计算第一概率得分、第二概率得分和第三概率得分加权和,基于该加权和对各候选识别结果进行排序,由此,能够得到更为准确的排序结果,从而获取字错率最小的候选识别结果作为语音识别结果,提高了语音识别的准确率。
图4是本发明实施例的语音识别过程的示意图。如图4所示,将待识别语音Voi输入语音识别***41中进行处理,以输出候选识别结果集合V。语音识别***41包括声学模型411和语音模型412。其中,语音识别***41对待识别语音Voi处理以输出候选识别结果集合V具体可以为:声学模型411对待识别语音Voi进行处理以计算各识别结果的第一概率得分score_am,语音模型412对待识别语音Voi进行处理以计算各识别结果的第二概率得分score_lm,根据各识别结果的第一概率得分score_am和第二概率得分score_lm对各识别结果进行排序,例如计算第一概率得分score_am和第二概率得分score_lm的和、或对应的对数值的和以获取各识别结果在语音识别***41中的总的概率得分,各识别结果按总的概率得分从高到低进行排序,以获取总的概率得分最高的预定数量的识别结果作为候选识别结果。将候选识别结果集合V中的候选识别结果输入至语义识别模型42中进行处理以计算各候选识别结果的第三概率得分score_nn。
综合概率得分获取单元43获取各候选识别结果的第一概率得分score_am、第二概率得分score_lm和第三概率得分score_nn,并根据预先确定的得分权重w1、w2和w3计算综合概率得分score。其中,w1为第一概率得分score_am对应的得分权重,w2为第二概率得分score_lm对应的得分权重,w3为第三概率得分score_nn对应的得分权重。由此,综合概率得分score=w1*score_am+w2*score_lm+w3*score_nn。
排序及获取单元43根据各候选识别结果的综合概率得分对各候选识别结果进行排序,并获取综合概率得分最高的候选识别结果Sr作为语音识别结果。
本实施例通过语音识别***获取预定数量的候选识别结果、各候选识别结果在语音识别***的声学模型中对应的第一概率得分以及在语音是识别***的语言模型中对应的第二概率得分,并获取基于预先训练的语义识别模型获取的各候选识别结果对应的第三概率得分,根据预先确定的得分权重计算各候选识别结果的第一概率得分、第二概率得分和第三概率得分的加权和,根据所述加权和对各候选识别结果进行排序以获取语音识别结果,由此,可以提高语音识别的准确率。
以下采用将待识别语音Voi为“今天的天气真好啊我们去打球吧”进行举例描述,其中,假设候选识别结果的预定数量为4个,第一概率得分score_am、第二概率得分score_lm和第三概率得分score_nn的值在0-1之间。
将待识别语音Voi输入语音识别***41以获取候选识别结果集合V及各候选识别结果的第一概率得分score_am和第二概率得分score_lm。假设语音识别***41输出的排序后的候选识别结果及各候选识别结果的第一概率得分score_am和第二概率得分score_lm如表(1):
表(1)
序号 | 候选识别结果 | score_am | score_lm | 总概率得分 |
1 | 今天的天气真好我们去打球吧 | 0.9 | 1 | 1.9 |
2 | 今天的天气真好啊我们去打球吧 | 0.9 | 0.9 | 1.8 |
3 | 今天的天气真好我们去踢球吧 | 0.8 | 0.9 | 1.7 |
4 | 今天的天气真好我们去打球 | 0.8 | 0.8 | 1.6 |
将上述候选识别结果输入语义识别模型42中,获得的第三概率得分score_nn如表(2)所示:
表(2)
序号 | 候选识别结果 | score_nn |
1 | 今天的天气真好我们去打球吧 | 0.9 |
2 | 今天的天气真好啊我们去打球吧 | 1 |
3 | 今天的天气真好我们去踢球吧 | 0.7 |
4 | 今天的天气真好我们去打球 | 0.8 |
假设预先确定的第一概率得分score_am、第二概率得分score_lm和第三概率得分score_nn的得分权重分别为0.3、0.2、0.5,则候选识别结果的综合概率得分及排序结果如表(3)所示:
表(3)
由表(3)可知,上述示例中将“今天的天气真好啊我们去打球吧”作为语音识别结果,其与待识别语音一致,字错率为0。由此,本实施例通过对语音识别***41和语义识别模型42得到的各候选识别结果的第一概率得分score_am、第二概率得分score_lm和第三概率得分score_nn进行加权运算以获取综合概率得分score,并基于综合概率得分score对各候选识别结果进行排序,可以使得各候选识别结果基本按照字错率由低到高进行排序,提高了语音识别的准确率。
图5是本发明实施例的语音识别装置的示意图。如图5所示,本实施例的语音识别装置5包括待识别语音获取单元51、语音识别***处理单元52、语义识别模型处理单元53、综合概率得分获取单元54和排序及获取单元55。
其中,识别语音获取单元51被配置为获取待识别语音。语音识别***处理单元52被配置为将所述待识别语音输入语音识别***以获取预定数量的候选识别结果以及各候选识别结果对应的第一概率得分和第二概率得分;其中,所述第一概率得分为所述语言识别***的声学模型对所述候选识别结果的打分,所述第二概率得分为所述语言识别***的语言模型对所述候选识别结果的打分。在一种可选的实现方式中,所述语言识别***的语言模型为n-gram语言模型。
语义识别模型处理单元53被配置为获取各候选识别结果对应的第三概率得分,第三概率得分用于表征基于预先训练的语义识别模型对所述各候选识别结果的打分。在一种可选的实现方式中,所述语义识别模型为神经网络模型。
综合概率得分获取单元54被配置为根据预先确定的得分权重计算各候选识别结果的所述第一概率得分、第二概率得分和第三概率得分的加权和以获取综合概率得分。排序及获取单元55被配置为根据所述综合概率得分对所述各候选识别结果进行排序,以获取语音识别结果。
在一种可选的实现方式中,语义识别模型处理单元53进一步被配置为:
对所述候选识别结果进行分词处理以获取分词后的每个词对应的词向量;
处理所述候选识别结果对应的词向量以获取各词向量对应的第四概率得分,所述第四概率得分用于表征所对应词向量在语义上跟随于所述候选识别结果中在前出现的多个词向量的概率;
根据所述各词向量对应的第四概率得分获取对应的候选识别结果的第三概率得分。可选的,语义识别模型处理单元53进一步被配置为计算各词向量对应的第四概率得分的对数之和以获取对应的候选识别结果的第三概率得分。
在一种可选的实现方式中,语音识别装置5还包括第一得分权重获取单元56,被配置为通过pairwise算法确定所述第一概率得分、第二概率得分和第三概率得分分别对应的得分权重,其中,所述第一概率得分、第二概率得分和第三概率得分为所述pairwise算法的特征。在另一种可选的实现方式中,语音识别装置5还包括第让得分权重获取单元57,被配置为根据标注好候选识别结果的语音识别测试集合,采用预定步长对所述得分权重进行穷举,以获取使得候选识别结果字错率最低的得分权重。
本实施例通过语音识别***获取预定数量的候选识别结果、各候选识别结果在语音识别***的声学模型中对应的第一概率得分以及在语音是识别***的语言模型中对应的第二概率得分,并获取基于预先训练的语义识别模型获取的各候选识别结果对应的第三概率得分,根据预先确定的得分权重计算各候选识别结果的第一概率得分、第二概率得分和第三概率得分的加权和,根据所述加权和对各候选识别结果进行排序以获取语音识别结果,由此,可以提高语音识别的准确率。
图6是本发明实施例的电子装置的示意图。如图6所示,电子设备6:至少包括一个处理器61;以及,与处理器61通信连接的存储器62;以及,与扫描装置通信连接的通信组件63,通信组件63在处理器61的控制下接收和发送数据;其中,存储器62存储有可被至少一个处理器61执行的指令,指令被至少一个处理器61执行以实现上述任一实施方式的语音识别方法。
具体地,电子设备6包括:一个或多个处理器61以及存储器62,图6中以包括一个处理器61为例,处理器61用于执行本实施例中的语音识别方法的至少一个步骤。处理器61和存储器62可以通过总线或者其他方式连接,图6中以通过总线连接为例。存储器62作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器61通过运行存储在存储器62中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现本发明实施例的语音识别方法。
存储器62可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器62可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器62可选包括相对于处理器61远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器62存储有一个或者多个单元,当一个或者多个单元被处理器61执行时,执行上述任意方法实施方式中的语音识别方法。
本发明的另一个实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本发明实施方式所提供的方法。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音处理方法,其特征在于,所述方法包括:
获取待识别语音;
将所述待识别语音输入语音识别***以获取预定数量的候选识别结果以及各候选识别结果对应的第一概率得分和第二概率得分;其中,所述第一概率得分为所述语言识别***的声学模型对所述候选识别结果的打分,所述第二概率得分为所述语言识别***的语言模型对所述候选识别结果的打分;
获取各候选识别结果对应的第三概率得分,第三概率得分用于表征基于预先训练的语义识别模型对所述各候选识别结果的打分;
根据预先确定的得分权重计算各候选识别结果的所述第一概率得分、第二概率得分和第三概率得分的加权和以获取综合概率得分;
根据所述综合概率得分对所述各候选识别结果进行排序,以获取语音识别结果。
2.根据权利要求1所述的方法,其特征在于,获取各候选识别结果对应的第三概率得分包括:
对所述候选识别结果进行分词处理以获取分词后的每个词对应的词向量;
处理所述候选识别结果对应的词向量以获取各词向量对应的第四概率得分,所述第四概率得分用于表征所对应词向量在语义上跟随于所述候选识别结果中在前出现的多个词向量的概率;
根据所述各词向量对应的第四概率得分获取对应的候选识别结果的第三概率得分。
3.根据权利要求2所述的方法,其特征在于,根据所述各词向量对应的第四概率得分获取对应的候选识别结果的第三概率得分包括:
计算各词向量对应的第四概率得分的对数之和以获取对应的候选识别结果的第三概率得分。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过pairwise算法确定所述第一概率得分、第二概率得分和第三概率得分对应的得分权重,其中,所述第一概率得分、第二概率得分和第三概率得分为所述pairwise算法的特征。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据标注好候选识别结果的语音识别测试集合,采用预定步长对所述得分权重进行穷举,以获取使得所述语音识别测试集中的候选识别结果字错率最低的得分权重。
6.根据权利要求1所述的方法,其特征在于,所述语言识别***的语言模型为n-gram语言模型。
7.根据权利要求1所述的方法,其特征在于,所述语义识别模型为神经网络模型。
8.一种语音处理装置,其特征在于,所述装置包括:
待识别语音获取单元,被配置为获取待识别语音;
语音识别***处理单元,被配置为将所述待识别语音输入语音识别***以获取预定数量的候选识别结果以及各候选识别结果对应的第一概率得分和第二概率得分;其中,所述第一概率得分为所述语言识别***的声学模型对所述候选识别结果的打分,所述第二概率得分为所述语言识别***的语言模型对所述候选识别结果的打分;
语义识别模型处理单元,被配置为获取各候选识别结果对应的第三概率得分,第三概率得分用于表征基于预先训练的语义识别模型对所述各候选识别结果的打分;
综合概率得分获取单元,被配置为根据预先确定的得分权重计算各候选识别结果的所述第一概率得分、第二概率得分和第三概率得分的加权和以获取综合概率得分;
排序及获取单元,被配置为根据所述综合概率得分对所述各候选识别结果进行排序,以获取语音识别结果。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被处理器执行以实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行以实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910707508.8A CN110517693B (zh) | 2019-08-01 | 2019-08-01 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910707508.8A CN110517693B (zh) | 2019-08-01 | 2019-08-01 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110517693A true CN110517693A (zh) | 2019-11-29 |
CN110517693B CN110517693B (zh) | 2022-03-04 |
Family
ID=68624079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910707508.8A Active CN110517693B (zh) | 2019-08-01 | 2019-08-01 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110517693B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111554275A (zh) * | 2020-05-15 | 2020-08-18 | 深圳前海微众银行股份有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN112259084A (zh) * | 2020-06-28 | 2021-01-22 | 北京沃东天骏信息技术有限公司 | 语音识别方法、装置和存储介质 |
CN112542162A (zh) * | 2020-12-04 | 2021-03-23 | 中信银行股份有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN112562640A (zh) * | 2020-12-01 | 2021-03-26 | 北京声智科技有限公司 | 多语言语音识别方法、装置、***及计算机可读存储介质 |
CN112885336A (zh) * | 2021-01-29 | 2021-06-01 | 深圳前海微众银行股份有限公司 | 语音识别***的训练、识别方法、装置、电子设备 |
CN112988979A (zh) * | 2021-04-29 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、计算机可读介质及电子设备 |
CN113129870A (zh) * | 2021-03-23 | 2021-07-16 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、设备和存储介质 |
CN113450805A (zh) * | 2021-06-24 | 2021-09-28 | 平安科技(深圳)有限公司 | 基于神经网络的自动语音识别方法、设备及可读存储介质 |
CN113673866A (zh) * | 2021-08-20 | 2021-11-19 | 上海寻梦信息技术有限公司 | 农作物决策方法、模型训练方法以及相关设备 |
WO2023016347A1 (zh) * | 2021-08-13 | 2023-02-16 | 华为技术有限公司 | 声纹认证应答方法、***及电子设备 |
CN112259084B (zh) * | 2020-06-28 | 2024-07-16 | 北京汇钧科技有限公司 | 语音识别方法、装置和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5839106A (en) * | 1996-12-17 | 1998-11-17 | Apple Computer, Inc. | Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model |
US20010041978A1 (en) * | 1997-12-24 | 2001-11-15 | Jean-Francois Crespo | Search optimization for continuous speech recognition |
US6374217B1 (en) * | 1999-03-12 | 2002-04-16 | Apple Computer, Inc. | Fast update implementation for efficient latent semantic language modeling |
CN1551103A (zh) * | 2003-05-01 | 2004-12-01 | 用于语音识别和自然语言理解的具有合成统计和基于规则的语法模型的*** | |
CN103325370A (zh) * | 2013-07-01 | 2013-09-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法和语音识别*** |
CN105244024A (zh) * | 2015-09-02 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法及装置 |
CN106486115A (zh) * | 2015-08-28 | 2017-03-08 | 株式会社东芝 | 改进神经网络语言模型的方法和装置及语音识别方法和装置 |
CN107403620A (zh) * | 2017-08-16 | 2017-11-28 | 广东海翔教育科技有限公司 | 一种语音识别方法及装置 |
CN108062954A (zh) * | 2016-11-08 | 2018-05-22 | 科大讯飞股份有限公司 | 语音识别方法和装置 |
CN109427330A (zh) * | 2017-09-05 | 2019-03-05 | 中国科学院声学研究所 | 一种基于统计语言模型得分规整的语音识别方法及*** |
-
2019
- 2019-08-01 CN CN201910707508.8A patent/CN110517693B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5839106A (en) * | 1996-12-17 | 1998-11-17 | Apple Computer, Inc. | Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model |
US20010041978A1 (en) * | 1997-12-24 | 2001-11-15 | Jean-Francois Crespo | Search optimization for continuous speech recognition |
US6374217B1 (en) * | 1999-03-12 | 2002-04-16 | Apple Computer, Inc. | Fast update implementation for efficient latent semantic language modeling |
CN1551103A (zh) * | 2003-05-01 | 2004-12-01 | 用于语音识别和自然语言理解的具有合成统计和基于规则的语法模型的*** | |
CN103325370A (zh) * | 2013-07-01 | 2013-09-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法和语音识别*** |
CN106486115A (zh) * | 2015-08-28 | 2017-03-08 | 株式会社东芝 | 改进神经网络语言模型的方法和装置及语音识别方法和装置 |
CN105244024A (zh) * | 2015-09-02 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法及装置 |
CN108062954A (zh) * | 2016-11-08 | 2018-05-22 | 科大讯飞股份有限公司 | 语音识别方法和装置 |
CN107403620A (zh) * | 2017-08-16 | 2017-11-28 | 广东海翔教育科技有限公司 | 一种语音识别方法及装置 |
CN109427330A (zh) * | 2017-09-05 | 2019-03-05 | 中国科学院声学研究所 | 一种基于统计语言模型得分规整的语音识别方法及*** |
Non-Patent Citations (1)
Title |
---|
李明琴 等: "语义分析和结构化语言模型", 《软件学报》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111554275B (zh) * | 2020-05-15 | 2023-11-03 | 深圳前海微众银行股份有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN111554275A (zh) * | 2020-05-15 | 2020-08-18 | 深圳前海微众银行股份有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN112259084A (zh) * | 2020-06-28 | 2021-01-22 | 北京沃东天骏信息技术有限公司 | 语音识别方法、装置和存储介质 |
CN112259084B (zh) * | 2020-06-28 | 2024-07-16 | 北京汇钧科技有限公司 | 语音识别方法、装置和存储介质 |
CN112562640A (zh) * | 2020-12-01 | 2021-03-26 | 北京声智科技有限公司 | 多语言语音识别方法、装置、***及计算机可读存储介质 |
CN112562640B (zh) * | 2020-12-01 | 2024-04-12 | 北京声智科技有限公司 | 多语言语音识别方法、装置、***及计算机可读存储介质 |
CN112542162A (zh) * | 2020-12-04 | 2021-03-23 | 中信银行股份有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN112885336A (zh) * | 2021-01-29 | 2021-06-01 | 深圳前海微众银行股份有限公司 | 语音识别***的训练、识别方法、装置、电子设备 |
CN112885336B (zh) * | 2021-01-29 | 2024-02-02 | 深圳前海微众银行股份有限公司 | 语音识别***的训练、识别方法、装置、电子设备 |
CN113129870A (zh) * | 2021-03-23 | 2021-07-16 | 北京百度网讯科技有限公司 | 语音识别模型的训练方法、装置、设备和存储介质 |
US12033616B2 (en) | 2021-03-23 | 2024-07-09 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for training speech recognition model, device and storage medium |
CN112988979B (zh) * | 2021-04-29 | 2021-10-08 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、计算机可读介质及电子设备 |
CN112988979A (zh) * | 2021-04-29 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、计算机可读介质及电子设备 |
CN113450805B (zh) * | 2021-06-24 | 2022-05-17 | 平安科技(深圳)有限公司 | 基于神经网络的自动语音识别方法、设备及可读存储介质 |
CN113450805A (zh) * | 2021-06-24 | 2021-09-28 | 平安科技(深圳)有限公司 | 基于神经网络的自动语音识别方法、设备及可读存储介质 |
WO2023016347A1 (zh) * | 2021-08-13 | 2023-02-16 | 华为技术有限公司 | 声纹认证应答方法、***及电子设备 |
CN113673866A (zh) * | 2021-08-20 | 2021-11-19 | 上海寻梦信息技术有限公司 | 农作物决策方法、模型训练方法以及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110517693B (zh) | 2022-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110517693A (zh) | 语音识别方法、装置、电子设备和计算机可读存储介质 | |
US11593612B2 (en) | Intelligent image captioning | |
Zhang et al. | Unsupervised spoken keyword spotting via segmental DTW on Gaussian posteriorgrams | |
US9058811B2 (en) | Speech synthesis with fuzzy heteronym prediction using decision trees | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
CN108831445A (zh) | 四川方言识别方法、声学模型训练方法、装置及设备 | |
CN110489750A (zh) | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 | |
CN101785050B (zh) | 语音识别用对照规则学习***以及语音识别用对照规则学习方法 | |
Simonnet et al. | Simulating ASR errors for training SLU systems | |
CN105654940B (zh) | 一种语音合成方法和装置 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN113343671B (zh) | 一种语音识别后的语句纠错方法、装置、设备及存储介质 | |
CN113035231A (zh) | 关键词检测方法及装置 | |
CN107093422A (zh) | 一种语音识别方法和语音识别*** | |
CN1391211A (zh) | 对识别***中的参数进行训练的方法和*** | |
CN111508497B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
Mary et al. | Searching speech databases: features, techniques and evaluation measures | |
CN112347780B (zh) | 基于深度神经网络的司法事实查明生成方法、装置、介质 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN116597809A (zh) | 多音字消歧方法、装置、电子设备及可读存储介质 | |
CN113051923B (zh) | 数据验证方法、装置、计算机设备和存储介质 | |
CN113012685B (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN112735379B (zh) | 语音合成方法、装置、电子设备和可读存储介质 | |
CN113096646B (zh) | 音频识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |