CN111651599B - 一种语音识别候选结果的排序方法及装置 - Google Patents
一种语音识别候选结果的排序方法及装置 Download PDFInfo
- Publication number
- CN111651599B CN111651599B CN202010475597.0A CN202010475597A CN111651599B CN 111651599 B CN111651599 B CN 111651599B CN 202010475597 A CN202010475597 A CN 202010475597A CN 111651599 B CN111651599 B CN 111651599B
- Authority
- CN
- China
- Prior art keywords
- candidate
- word
- result information
- candidate result
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000013145 classification model Methods 0.000 claims abstract description 110
- 238000012549 training Methods 0.000 claims description 296
- 239000013598 vector Substances 0.000 claims description 189
- 230000008569 process Effects 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 239000003550 marker Substances 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种语音识别候选结果的排序方法及装置,该方法包括:获取语音识别的候选结果信息;将识别得到的候选结果信息进行两两组合,生成至少一个候选组合;识别候选组合的共同错误单词;将候选组合中的每个候选结果信息包括的共同错误单词替换为标志词,将共同错误单词的单词信息替换为标志单词信息,得到每个候选结果信息对应的替换候选结果,得到待分类组合;利用预先训练得到的二分类模型,得到每个待分类组合中两条替换候选结果的优劣度;根据各个待分类组合中两条替换候选结果的优劣度,对候选结果信息进行排序。通过得到每两条替换候选结果的优劣度,可以确定各条替换候选结果信息之间的优劣度排序,得到准确的语音识别结果。
Description
技术领域
本申请涉及语音识别技术领域,具体涉及一种语音识别候选结果的排序方法及装置。
背景技术
目前,在语音识别的过程中,首先进行语音信息的转化,得到语音信息对应的多个候选结果信息,再对得到的多个候选结果信息进行排序,最终通过排序结果中最优的候选结果信息得到语音识别结果。
但是,现有的对于候选结果信息的排序方法存在着排序结果不准确的问题,使得通过排序结果得到的最优的候选结果信息并不准确,导致语音识别结果与语音信息存在着较大的偏差。
发明内容
有鉴于此,本申请实施例提供一种语音识别候选结果的排序方法及装置,能够对候选结果信息进行较为准确的排序,通过排序结果得到较为准确的语音识别结果。
为解决上述问题,本申请实施例提供的技术方案如下:
一种语音识别候选结果的排序方法,所述方法还包括:
获取语音识别的候选结果信息,每个所述候选结果信息包括识别文本单词序列以及所述识别文本单词序列中各个单词的单词信息;
将识别得到的候选结果信息进行两两组合,生成至少一个候选组合;
识别所述候选组合的共同错误单词,所述共同错误单词为该候选组合包括的两个候选结果信息共同具有的且位置相同的错误单词;
将所述候选组合中的每个候选结果信息包括的共同错误单词替换为标志词,将所述共同错误单词的单词信息替换为标志单词信息,得到每个候选结果信息对应的替换候选结果,得到待分类组合;
利用预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度;
根据各个所述待分类组合中两条替换候选结果的优劣度,对所述候选结果信息进行排序。
在一种可能的实现方式中,所述识别所述候选组合的共同错误单词,包括:
获取所述候选组合中两条候选结果信息包括的各个单词的出现概率值;
将所述候选结果信息中出现概率值低于阈值的单词确定为错误单词,并确定出每个所述错误单词在对应的候选结果信息中出现的位置;
将所述候选组合中两条候选结果信息分别包括的错误单词以及各错误单词在对应的候选结果信息中出现的位置进行比对,识别出位于相同位置的相同错误单词作为所述候选组合对应的共同错误单词。
在一种可能的实现方式中,所述利用预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度,包括:
获取目标替换候选结果中所述识别文本单词序列对应的第一特征向量,所述目标替换候选结果分别为所述待分类组合中的每条替换候选结果;
获取所述目标替换候选结果中各个单词的单词信息对应的第二特征向量;
将所述第一特征向量与所述第二特征向量进行拼接,生成所述目标替换候选结果的特征表示;
将所述待分类组合中两条替换候选结果的特征表示输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度。
在一种可能的实现方式中,所述单词信息包括声学模型得分、语音模型得分、时长、置信度中的一个或多个;
所述获取所述目标替换候选结果中各个单词的单词信息对应的第二特征向量,包括:
将所述目标替换候选结果中各个单词的单词信息输入全连接网络,得到所述目标替换候选结果中各个单词的特征向量;
将所述目标替换候选结果中各个单词的特征向量进行拼接,生成所述目标替换候选结果中各个单词的单词信息对应的第二特征向量。
在一种可能的实现方式中,所述将所述待分类组合中两条替换候选结果的特征表示输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度,包括:
将所述待分类组合中两条替换候选结果的特征表示输入转换器模型的编码器部分,得到所述转换器模型的编码器部分输出的第一个隐层向量;
将所述第一个隐层向量输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度。
在一种可能的实现方式中,所述二分类模型的训练过程包括:
获取语音样本信息以及所述语音样本信息对应的标准识别文本;
对所述语音样本信息进行语音识别得到所述语音样本信息对应的训练候选结果信息,所述训练候选结果信息包括训练识别文本单词序列以及所述训练识别文本单词序列中各个单词的单词信息;
将所述训练候选结果信息中与所述标准识别文本相似度最高的确定为标准训练候选结果信息;
将所述标准训练候选结果信息与其他所述训练候选结果信息分别组合,生成至少一个待训练组合;
利用所述待训练组合以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
在一种可能的实现方式中,所述利用所述待训练组合以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型,包括:
获取目标训练候选结果信息中所述识别文本单词序列对应的第三特征向量,所述目标训练候选结果信息分别为所述待训练组合中的标准训练候选结果信息与训练候选结果信息;
获取所述目标训练候选结果信息中各个单词的单词信息对应的第四特征向量;
将所述第三特征向量与所述第四特征向量进行拼接,生成所述目标训练候选结果信息的特征表示;
利用所述待训练组合中标准训练候选结果信息的特征表示、所述待训练组合中训练候选结果信息的特征表示以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
一种语音识别候选结果的排序装置,所述装置包括:
获取单元,用于获取语音识别的候选结果信息,每个所述候选结果信息包括识别文本单词序列以及所述识别文本单词序列中各个单词的单词信息;
组合单元,用于将识别得到的候选结果信息进行两两组合,生成至少一个候选组合;
识别单元,用于识别所述候选组合的共同错误单词,所述共同错误单词为该候选组合包括的两个候选结果信息共同具有的且位置相同的错误单词;
替换单元,用于将所述候选组合中的每个候选结果信息包括的共同错误单词替换为标志词,将所述共同错误单词的单词信息替换为标志单词信息,得到每个候选结果信息对应的替换候选结果,得到待分类组合;
优劣度获取单元,用于利用预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度;
排序单元,用于根据各个所述待分类组合中两条替换候选结果的优劣度,对所述候选结果信息进行排序。
在一种可能的实现方式中,所述识别单元,包括:
概率值获取子单元,用于获取所述候选组合中两条候选结果信息包括的各个单词的出现概率值;
确定子单元,用于将所述候选结果信息中出现概率值低于阈值的单词确定为错误单词,并确定出每个所述错误单词在对应的候选结果信息中出现的位置;
识别子单元,用于将所述候选组合中两条候选结果信息分别包括的错误单词以及各错误单词在对应的候选结果信息中出现的位置进行比对,识别出位于在相同位置的相同错误单词作为所述候选组合对应的共同错误单词。
在一种可能的实现方式中,所述优劣度获取单元,包括:
第一获取子单元,用于获取目标替换候选结果中所述识别文本单词序列对应的第一特征向量,所述目标替换候选结果分别为所述待分类组合中的每条替换候选结果;
第二获取子单元,用于获取所述目标替换候选结果中各个单词的单词信息对应的第二特征向量;
第一拼接子单元,用于将所述第一特征向量与所述第二特征向量进行拼接,生成所述目标替换候选结果的特征表示;
优劣度获取子单元,用于将所述待分类组合中两条替换候选结果的特征表示输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度。
在一种可能的实现方式中,所述单词信息包括声学模型得分、语音模型得分、时长、置信度中的一个或多个;
所述第二获取子单元,包括:
特征向量获取子单元,用于将所述目标替换候选结果中各个单词的单词信息输入全连接网络,得到所述目标替换候选结果中各个单词的特征向量;
第二拼接子单元,用于将所述目标替换候选结果中各个单词的特征向量进行拼接,生成所述目标替换候选结果中各个单词的单词信息对应的第二特征向量。
在一种可能的实现方式中,所述优劣度获取子单元,包括:
隐层向量获取子单元,用于将所述待分类组合中两条替换候选结果的特征表示输入转换器模型的编码器部分,得到所述转换器模型的编码器部分输出的第一个隐层向量;
优劣度确定子单元,用于将所述第一个隐层向量输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度。
在一种可能的实现方式中,所述二分类模型的训练过程包括:
获取语音样本信息以及所述语音样本信息对应的标准识别文本;
对所述语音样本信息进行语音识别得到所述语音样本信息对应的训练候选结果信息,所述训练候选结果信息包括训练识别文本单词序列以及所述训练识别文本单词序列中各个单词的单词信息;
将所述训练候选结果信息中与所述标准识别文本相似度最高的确定为标准训练候选结果信息;
将所述标准训练候选结果信息与其他所述训练候选结果信息分别组合,生成至少一个待训练组合;
利用所述待训练组合以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
在一种可能的实现方式中,所述利用所述待训练组合以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型,包括:
获取目标训练候选结果信息中所述识别文本单词序列对应的第三特征向量,所述目标训练候选结果信息分别为所述待训练组合中的标准训练候选结果信息与训练候选结果信息;
获取所述目标训练候选结果信息中各个单词的单词信息对应的第四特征向量;
将所述第三特征向量与所述第四特征向量进行拼接,生成所述目标训练候选结果信息的特征表示;
利用所述待训练组合中标准训练候选结果信息的特征表示、所述待训练组合中训练候选结果信息的特征表示以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
一种用于语音识别候选结果的排序装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取语音识别的候选结果信息,每个所述候选结果信息包括识别文本单词序列以及所述识别文本单词序列中各个单词的单词信息;
将识别得到的候选结果信息进行两两组合,生成至少一个候选组合;
识别所述候选组合的共同错误单词,所述共同错误单词为该候选组合包括的两个候选结果信息共同具有的且位置相同的错误单词;
将所述候选组合中的每个候选结果信息包括的共同错误单词替换为标志词,将所述共同错误单词的单词信息替换为标志单词信息,得到每个候选结果信息对应的替换候选结果,得到待分类组合;
利用预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度;
根据各个所述待分类组合中两条替换候选结果的优劣度,对所述候选结果信息进行排序。
一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如上述的语音识别候选结果的排序方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例提供的语音识别候选结果的排序方法中,首先获取语音识别的候选结果信息,将候选结果信息进行两两组合,生成至少一个候选组合;识别候选组合的共同错误单词,将候选组合中的每个候选结果信息包括的共同错误单词替换为标志词,共同错误单词的单词信息替换为标志单词信息,以生成包括两条替换候选结果的待分类组合;再利用预先训练得到的二分类模型,得到每个待分类组合中两条替换候选结果的优劣度;最后,根据各个待分类组合中两条替换候选结果的优劣度,得到候选结果信息的排序结果。由此可见,一方面,通过利用二分类模型对待分类组合中两条替换候选结果进行比较,可以得到每两条替换候选结果的优劣度以确定各条替换候选结果信息之间的优劣度排序,进一步得到较为准确的候选结果信息的排序结果,从而得到准确的语音识别结果。另一方面,将候选组合的共同错误单词以及共同错误单词的单词信息进行替换,可以减少共同错误单词对于判断替换候选结果之间优劣度的影响,提高了替换候选结果优劣度判定的准确性,使得最终确定的语音识别结果更加准确。
附图说明
图1为本申请实施例提供的语音识别候选结果信息的排序方法的示例性应用场景的示意图;
图2为本申请实施例提供的语音识别候选结果的排序方法的流程图;
图3为本申请实施例提供的得到替换候选结果的优劣度的方法的流程图;
图4为本申请实施例提供的生成目标替换候选结果的特征表示的示意图;
图5为本申请实施例提供的一种训练二分类模型的示意图;
图6为本申请实施例提供的一种语音识别候选结果的排序装置的结构示意图;
图7为本申请实施例提供的客户端的结构示意图;
图8为本申请实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为了便于理解和解释本申请实施例提供的技术方案,下面将先对本申请的背景技术进行说明。
发明人对于传统的语音识别的研究中发现,在部分基于隐马尔科夫模型的语音识别***中,通过n-gram语言模型对语音信息进行解码,生成可能的候选结果信息,也就是语音信息可能对应的识别结果。再通过该n-gram语言模型对得到的候选结果信息进行排序,将最优的候选结果信息作为最终的语音识别结果。然而,在对候选结果信息进行排序时,所采用的n-gram语言模型主要用于针对基于历史词汇进行当前词汇的预测,与对多个候选结果信息进行排序,得到最优的候选结果信息的处理目标并不一致。因此,通过n-gram语言模型得到的候选结果信息的排序结果并不准确,导致通过排序结果中最优候选结果信息得到的语音识别结果并非是最准确的语音识别结果。
另外,在一些情况下,候选结果信息中可能包括的错误单词会影响对于候选结果信息优劣度的判断。但是,现有的语言模型通常是通过历史词进行当前词的概率的计算,即根据一个句子中较前位置的词计算相应的可能在后续位置出现的词汇的概率。当较前位置的词汇出现错误,受较前位置词汇出现错误的影响,即使后续位置的词汇也出现了错误,但语言模型可能会将后续位置的词汇判断为与在先出现错误的词汇是相关联的,将后续位置的错误词汇误判断为正确的词汇。相应的,若后续词汇是正确的,但由于与较前位置的错误词汇的关联度不高,语言模型也可能会将后续位置的正确词汇误判断为错误的词汇。这会使得语言模型对候选结果信息的优劣度的判断存在着一定的误差,使得通过语言模型得到的候选结果信息的排序结果不准确,影响到最终语音识别结果的准确度。
作为示例,假设对同一个语音信息进行语音识别,得到的第i个和第j个候选结果信息并进行分词,得到分词后的单词集合分别为Wi=[wi1,wi2,wi3,wi4,wi5,wi6,wi7]和Wj=[wj1,wj2,wj3,wj4,wj5,wj6,wj7]。其中,wi3、wj3和wi6属于两个候选结果信息中存在错误的单词。如果wi3和wj3相同,则认为wi3和wj3是两个候选结果信息中包括的共同错误单词。从识别结果来看,由于Wi中具有wi3和wi6两个错误单词,使得Wi与Wj相比,应当是Wj较优。但是如果采用现有语言模型对Wi与Wj进行排序,在先错误单词wi3的存在可能会导致语言模型对在后错误单词wi6做出是正确单词的误判,导致可能出现Wi较优的排序结果。
基于此,本申请实施例提供了一种语音识别候选结果的排序方法,该方法包括:获取语音识别的候选结果信息,每个候选结果信息包括识别文本单词序列以及识别文本单词序列中各个单词的单词信息;将候选结果信息进行两两组合,生成至少一个候选组合;识别候选组合的共同错误单词;将候选组合中每个候选结果信息中包括的共同错误单词替换为标志词,将共同错误单词的单词信息替换为标志单词信息,生成待分类组合;利用预先训练得到的二分类模型,得到每个待分类组合中两条替换候选结果的优劣度;根据各个待分类组合中两条替换候选结果的优劣度,对候选结果信息进行排序。
一方面,利用预先训练得到的二分类模型对待分类组合中的两条候选结果信息进行优劣度的排序,可以得到每两条替换候选结果对应的优劣度的排序。由此可以通过两两比较得到较为准确的替换候选结果的优劣度的排序结果,进一步得到较为准确的候选结果信息的排序结果。另一方面,将候选组合的共同错误单词以及共同错误单词的单词信息进行替换,在使用二分类模型进行替换候选结果的优劣度判断时减少了共同错误单词的影响,提高了替换候选结果优劣度判定的准确性,使得最终确定的语音识别结果更加准确。
为了便于理解本申请实施例提供的语音识别候选结果的排序方法,下面先结合图1对本申请实施例提供的语音识别候选结果信息的排序方法的应用场景进行说明。图1为本申请实施例提供的语音识别候选结果信息的排序方法的示例性应用场景的示意图。
在语音识别应用中,客户端101向服务器102发送需要进行语音识别的语音信息,服务器102对语音信息进行语音识别,先得到对应于语音信息的多个可能的候选结果信息,再对得到的候选结果信息进行排序,从候选结果信息中选择最优的作为最终的语音识别结果,将语音识别结果发送至客户端101。其中,服务器102可以利用本申请实施例提供的语音识别候选结果的排序方法对得到的候选结果信息进行排序。
本领域技术人员可以理解,图1所示的应用场景的示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该应用场景任何方面的限制。
需要注意的是,客户端101可以承载于终端,该终端可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如,Wi-Fi、LAN、蜂窝、同轴电缆等)相互交互的任何用户设备,包括但不限于:现有的、正在研发的或将来研发的智能可穿戴设备、智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。本申请的实施方式在此方面不受任何限制。还需要注意的是,本申请实施例中服务器102可以是现有的、正在研发的或将来研发的、能够向客户端102提供语音识别候选结果排序的设备的一个示例。本申请的实施方式在此方面不受任何限制。
为便于理解本申请实施例提供的技术方案,下面将结合附图对本申请实施例提供的语音识别候选结果的排序方法进行说明。
参见图2,该图为本申请实施例提供的语音识别候选结果的排序方法的流程图。
本申请实施例提供的语音识别候选结果的排序方法,包括S201-S204:
S201:获取语音识别的候选结果信息,每个候选结果信息包括识别文本单词序列以及识别文本单词序列中各个单词的单词信息。其中,每个候选结果信息包括的识别文本单词序列,是针对该候选结果对应的识别文本进行分词得到的单词序列。
在获取到一段待识别的语音信息后,可以对该语音信息进行初步的语音识别得到多个候选结果,以便从得到的多个候选结果中选择最优的作为语音识别结果。而候选结果信息则可以包括初步的语音识别后得到的识别文本以及该识别文本的相关信息。
则语音识别的候选结果信息中可以包括识别文本单词序列以及识别文本单词序列中各个单词的单词信息。其中,识别文本单词序列可以是对该条候选结果对应的识别文本进行分词,得到的单词的顺序序列。识别文本单词序列中各个单词的单词信息可以包括每个单词的声学模型得分、语言模型得分、时长、置信度等单词本身的相关信息。声学模型得分可以是声学模型对该单词对应的特征到对应的音素映射的概率得分。语言模型得分可以是通过语言模型计算得到的该单词在识别文本序列中对应的概率得分。时长可以为该单词对应的语音的时间长度。置信度用于表示该单词是否为正确的识别结果的程度。另外,在实际应用中,当识别得到的候选结果信息有多条时,每条候选结果信息还可以具有相应的序号标识,例如第1条候选结果信息的序号标识为1、第2条候选结果信息的序号标识为2,以此类推。
本申请实施例中,获取语音识别的候选结果信息,以便于后续进行对多个候选结果信息的排序,根据最优的候选结果信息得到语音识别结果。
S202:将识别得到的候选结果信息进行两两组合,生成至少一个候选组合。
候选组合是由任意两个候选结果信息组合得到的,为了使得到的多个候选结果信息的排序结果更为准确,可以将识别得到的多个候选结果信息分别进行两两组合,得到所有可能的候选组合。
当候选结果信息为多个时,将多个候选结果信息进行两两组合得到的候选组合的数量是大于或者等于一个的。
需要说明的是,本申请实施例中不限定对于候选结果信息进行两两组合的方法。在一种可能的实现方式中,可以包括:对每个候选结果信息包括的识别文本单词序列与该识别文本单词序列中各个单词的单词信息进行拼接操作;将完成拼接操作后的多个候选结果信息进行两两组合,得到候选组合。
相对应的,可以在每个候选组合包括的两个候选结果信息之间***划分标志,用于明确候选组合中每个候选结果信息的范围。例如,针对每个候选组合,可以在候选组合的起始位置***开始标志,在候选组合包括的每个候选结果信息的结尾位置***结束标志,由此可以明确候选组合中每个候选结果信息的范围。
S203:识别候选组合包括的共同错误单词;所述共同错误单词为该候选组合包括的两个候选结果信息共同具有的且位置相同的错误单词。
共同错误单词可能是由于获取语音信息时所处的环境因素或者是语音信息产生时的发音错误导致的,使得通过语音识别得到的多条候选结果信息中均具有该错误。基于此,当候选组合中的两条候选结果信息均具有该共同错误单词时,应当降低对该共同错误单词的关注度,提高对于候选结果信息中其他错误单词在确定优劣度时的关注度。
本申请实施例提供了一种S203所述的识别候选组合包括的共同错误单词的实施方式,请参见下文具体说明。
S204:将候选组合中的每个候选结果信息包括的共同错误单词替换为标志词,共同错误单词的单词信息替换为标志单词信息,得到每个候选结果信息对应的替换候选结果,得到待分类组合。
本申请实施例中,在确定出候选组合中两个候选结果信息的共同错误单词之后,针对候选组合中包括的每个候选结果信息,将每个候选结果信息中的共同错误单词替换为标志词,每个候选结果信息中的共同错误单词的单词信息替换为标志单词信息。由此,将候选组合中包括的候选结果信息转化为对应的替换候选结果,得到该候选组合对应的待分类组合。每个待分类组合中包括两条替换候选结果。
其中,标志词可以为不具有实际含义的单词,标志单词信息也可以不具有实际含义的信息,用于减少共同错误单词对于候选结果信息中其他单词的影响。可以理解的是,替换候选结果与候选结果信息相对应,每条替换候选结果也可以具有相应的序号标识,例如序号标识为1的候选结果信息对应的替换候选结果的序号标识也为1,序号标识为2的候选结果信息对应的替换候选结果的序号标识为2,以此类推。
作为示例,假设候选组合中两条候选结果信息分别为Wi=[wi1,wi2,wi3,wi4,wi5,wi6,wi7]和Wj=[wj1,wj2,wj3,wj4,wj5,wj6,wj7]。其中,wi3、wi6属于候选结果信息Wi中存在的错误,wj3属于候选结果信息Wj中存在的错误;其中,wi3和wj3相同,即为两个候选结果信息中共同存在的错误并且位置相同,则wi3和wj3即为这两个候选结果信息的共同错误单词。则可以将候选结果信息Wi中的wi3替换为标志词MARK,并且将wi3对应的单词信息替换为MARK对应的单词信息;将候选结果信息Wj中的wj3替换为标志词MARK,并且将wj3对应的单词信息替换为MARK对应的单词信息。
其中,标志词MARK可以用于在将待分类组合输入二分类模型时,使得二分类模型忽略替换候选结果中的标志词MARK,由此可以减少共同错误单词对于候选结果信息中其他单词的影响。执行上述替换操作后得到的替换候选结果分别为:Wi=[wi1,wi2,MARK,wi4,wi5,wi6,wi7]和Wj=[wj1,wj2,MARK,wj4,wj5,wj6,wj7]。这两条替换候选结果可以组成待分类组合。
S205:利用预先训练得到的二分类模型,得到每个待分类组合中两条替换候选结果的优劣度。
本申请实施例中,通过预先训练得到的二分类模型,可以得到待分类组合中两条替换候选结果的优劣度。其中,二分类模型是预先训练得到的,用于根据输入的待分类组合,输出待分类组合中的替换候选结果的优劣度。通过预先训练得到的二分类模型,可以具有针对性的进行替换候选结果的比较,使得对于替换候选结果的排序更加准确,有利于较为准确地确定语音识别结果。
本申请实施例提供了一种二分类模型训练方法的实施方式,请参见下文具体说明。
需要说明的是,优劣度可以用于体现两个替换候选结果的准确程度。两个替换候选结果中较优的替换候选结果的准确程度较高,较差的替换候选结果的准确程度较低。影响替换候选结果的优劣度的因素较多,可以包括替换候选结果中具有的错误单词或者是单词信息中具有较差的模型得分等。
本申请实施例中不限定优劣度的表现形式,在一种可能的实现方式中,当组成待分类组合的替换候选结果具有先后顺序时,可以通过二分类模型输出“1”表示顺序在前的替换候选结果较优,通过输出“0”表示顺序在后的替换候选结果较优。
另外,本申请实施例还提供一种S205所述的每个待分类组合中两条替换候选结果的优劣度的实施方式,请参见下文具体说明。
S206:根据各个待分类组合中两条替换候选结果的优劣度,对候选结果信息进行排序。
本申请实施例中,在得到全部待分类组合中包括的替换候选结果之间的优劣度后,可以根据优劣度对全部替换候选结果进行排序,得到替换候选结果的优劣顺序。因为,替换候选结果与候选结果信息之间具有对应关系,则由替换候选结果的排序结果可以得到候选结果信息的排序结果。最后可以根据候选结果信息的排序选择最优的候选结果信息作为最终的语音识别结果。
本申请实施例中不限定对多个替换候选结果进行排序的方法。
在第一种可能的实现方式中,可以选取任意一个待分类组合中两条替换候选结果的优劣度,确定在这两条替换候选结果中较优的替换候选结果以及较差的替换候选结果。之后可以分别用这两条替换候选结果与其他的替换候选结果在对应的待分类组合中的优劣度,确定四条替换候选结果的优劣顺序。以此类推进行替换候选结果的优劣度的比较,最终得到替换候选结果的排序。
在第二种可能的实现方式中,当具有替换候选结果的数量较多时,可以先将替换候选结果进行划分,得到多个集合的替换候选结果。分别对每个集合中的替换候选结果进行排序,得到每个集合中最优的替换候选结果。然后再对得到的每个集合中最优的替换候选结果进行排序,从而得到全部替换候选结果中最优的替换候选结果。对每个集合中的替换候选结果进行排序以及对每个集合中最优的替换候选结果进行排序的方式可以参见上述对多个替换候选结果进行排序的第一种实现方式。
如此便可以通过较少次数的比较,得到最优的替换候选结果,进而得到最优的替换候选结果对应的候选结果信息,以获得语音识别结果。
基于上述步骤S201至S206的相关内容可知,本申请实施例中,一方面,通过二分类模型对待分类组合中两条替换候选结果的优劣度的确定,由于二分类模型是针对进行候选结果信息之间优劣度比较而训练得到的,则通过二分类模型得到的各个待分类组合中两条替换候选结果之间的优劣度较为准确。进一步通过替换候选结果的排序结果,得到较为准确的候选结果信息的排序结果,从而得到准确的语音识别结果。另一方面,将候选结果信息组合的共同错误单词以及共同错误单词的单词信息进行替换,可以减少共同错误单词对于判断替换候选结果之间优劣度的影响,提高了替换候选结果优劣度判定的准确性,使得最终确定的语音识别结果更加准确。
在一种可能的实施方式中,上述S203识别候选组合包括的共同错误单词,具体可以包括以下三个步骤:
A1:获取候选组合中两条候选结果信息包括的各个单词的出现概率值。
单词的出现概率值可以是:确定单词在候选结果信息中的位置,根据该单词出现在大量历史文本中的位置,确定出该单词出现在候选结果信息中该位置的概率值。本申请实施例中不限定获取各个单词的出现概率值的方法,在一种可能的实现方式中,可以通过语言模型或者是神经网络模型对各个单词的出现概率值进行计算,得到两条候选结果信息包括的各个单词的出现概率值。
A2:将候选结果信息中出现概率值低于阈值的单词确定为错误单词,并确定出每个错误单词在对应的候选结果信息中出现的位置。
当单词的出现概率值低于阈值时,表明该单词本身具有较小的概率值在候选结果信息中的该位置出现,在候选结果信息中应当属于错误单词。其中,阈值可以为正确单词的出现概率值的最小值。
本申请实施例中,通过对单词的出现的概率值是否低于阈值进行判断,可以将出现概率值低于阈值的单词先确定为错误单词,以便后续进行共同错误单词的确定。
A3:将候选组合中两条候选结果信息分别包括的错误单词以及各错误单词在对应的候选结果信息中出现的位置进行比对,识别出位于相同位置的相同错误单词作为所述候选组合对应的共同错误单词。
需要说明的是,在得到候选组合中两条候选结果信息分别包括的错误单词以及各错误单词在对应的候选结果信息中出现的位置后,需要识别是否两条候选结果信息的相同位置出现相同错误单词。两条候选结果信息的相同位置可以是指在候选结果信息中单词顺序相同的位置。可以理解的是,对于同一条语音信息得到的候选结果信息的单词数量以及单词长度可能存在不同。当两条候选结果信息中各个单词的数量和长度相同时,也就是候选结果信息的结构以及两条候选结果信息的字数一致时,相同位置可以为在候选结果信息中的字数顺序相同的位置。当两条候选结果信息的单词的数量或者单词的长度不同时,也就是两条候选结果信息的结构或者候选结果信息的字数不同时,相同位置可以为在候选结果信息中具有相同结构作用的位置。
例如,两条候选结果信息中均是由名词1、动词和名词2的结构组成,但是,两条候选结果信息中对应的名词1和名词2单词的长度并不相同,两条候选结果信息的字数长度不同。此时相同位置可以为具有相同结构作用的动词位置,或者是具有相同结构作用的名词1位置,或者是具有相同结构作用的名词2位置等。又例如,一条候选结果信息是由名词1、动词和名词2的结构组成,另一条候选结果信息是由名词1、动词、介词和名词2的结构组成。此时两条候选结果信息的字数长度可能不同,结构也不同。此时相同位置可以为具有相同结构作用的位置,也就是对应的名词1位置、动词位置以及名词2位置。
在一种可能的实现方式中,可以先获取两条候选结果信息中的错误单词,再逐一判断候选结果信息中的错误单词是否为两条候选结果信息共同拥有的错误单词。若候选结果信息中存在着共同拥有的错误单词,再判断共同拥有的错误单词的位置是否相同,若位置相同,则确定为两条候选结果信息的共同错误单词。
将在候选结果信息中相同位置的相同错误单词作为共同错误单词,通过替换共同错误单词生成替换候选结果,可以在对待分类组合中的两个替换候选结果进行优劣度的确定之前对共同错误单词进行处理,减小共同错误单词对于替换候选结果优劣度的影响。
将进行标志词与标识单词信息替换后,得到每个候选结果信息对应的替换候选结果,从而得到待分类组合,利用待分类组合执行上述S203利用预先训练得到的二分类模型,得到每个待分类组合中两条替换候选结果的优劣度。通过将共同错误单词替换为标志词,可以消除共同错误单词对于其他单词的影响,以便得到更加准确的候选结果信息的优劣度。
在一种可能的实施方式中,由于替换候选结果中包括识别文本单词序列以及识别文本单词序列中各个单词的单词信息,可以分别从单词序列的角度和单词信息的角度提取替换候选结果的特征。因此,可以通过单词序列以及单词信息进行替换候选结果的优劣度的确定。
基于此,本申请实施例还提供了一种得到待分类组合中替换候选结果优劣度的实施方式,也就是上述S205利用预先训练得到的二分类模型,得到每个待分类组合中两条替换候选结果的优劣度的一种实施方式。参见图3,该图为本申请实施例提供的得到替换候选结果的优劣度的方法的流程图,具体可以包括S301-S304:
S301:获取目标替换候选结果中识别文本单词序列对应的第一特征向量,目标替换候选结果分别为待分类组合中的每条替换候选结果。
将待分类组合中的每条替换候选结果分别作为目标替换候选结果进行特征的提取。将目标替换候选结果中识别文本单词序列进行对应的第一特征向量的提取。其中,第一特征向量可以为目标替换候选结果中识别文本单词序列对应的各个单词的词向量。通过对识别文本单词序列进行第一特征向量的提取,可以获取目标替换候选结果在语义角度上的单词的特征。
在一种可能的实现方式中,可以将目标替换候选结果中识别文本单词序列输入至Embedding模块中,输出识别文本单词序列中每个单词对应的词向量。其中,Embedding模块是用于根据输入的单词序列输出各个单词对应的词向量,输出的词向量是单词在语义方面的特征表示。
S302:获取目标替换候选结果中各个单词的单词信息对应的第二特征向量。
将目标替换候选结果中各个单词的单词信息进行对应的第二特征向量的提取。其中,第二特征向量可以为单词信息的特征向量,通过对各个单词的单词信息进行第二特征向量的提取,可以获取目标替换候选结果在语音角度上的单词特征。
单词信息可以包括声学模型得分、语音模型得分、时长、置信度等单词本身具有的信息中的一个或多个。其中声学模型得分与语音模型得分均为该单词通过声学模型和语音模型得到的概率得分,取值范围可以为[0,1]。时长为该单词对应的发音语音的时间长度,可以通过该单词对应的时间长度在单词时间长度分布中对应的概率值表示,概率值的取值范围为[0,1]。置信度用于度量该单词是否为正确的识别结果的程度,可以用对应的取值范围为[0,1]的数值表示。
获取目标替换候选结果中各个单词的单词信息对应的第二特征向量具体可以包括以下两个步骤B1-B2:
B1:将目标替换候选结果中各个单词的单词信息输入全连接网络,得到目标替换候选结果中各个单词的特征向量。
本申请实施例中,单词信息包括声学模型得分、语音模型得分、时长、置信度等单词本身具有的信息中的一个或多个。将各个单词的单词信息输入至全连接网络中,得到各个单词的特征向量,其中,特征向量是对应于单词信息中不同的信息的。需要说明的是,全连接网络可以为DNN(Deep Neural Networks,深度神经网络)。
作为示例,当目标替换候选结果中各个单词的单词信息包括声学模型得分、语音模型得分、时长和置信度时,将目标替换候选结果中各个单词的单词信息输入全连接网络,分别得到各个单词对应于声学模型得分、语音模型得分、时长和置信度的特征向量。
B2:将目标替换候选结果中各个单词的特征向量进行拼接,生成目标替换候选结果中各个单词的单词信息对应的第二特征向量。
本申请实施例中,特征向量是对应于各个单词的单词信息提取得到的,单词的单词信息中可能具有一种或者多种单词信息,对应的特征向量可以为一种或者多种。将各个单词的特征向量进行拼接,可以得到各个单词的单词信息整体上对应的第二特征向量。
S303:将第一特征向量与第二特征向量进行拼接,生成目标替换候选结果的特征表示。
由于第一特征向量与第二特征向量为分别从不同的角度提取到的替换候选结果的特征向量,将第一特征向量与第二特征向量进行拼接,可以得到对应于目标替换候选结果的特征表示。需要说明的是,为了便于拼接,第一特征向量和第二特征向量的维度应当相同。
进而可以将得到的目标替换候选结果的特征表示输入至二分类模型中以便进行替换候选结果优劣度的确定。
参见图4,该图为本申请实施例提供的生成目标替换候选结果的特征表示的示意图。
将目标替换候选结果中识别文本单词序列输入至Embedding模块中,输出识别文本单词序列中每个单词对应的词向量,也就是第一特征向量。将目标替换候选结果中各个单词的单词信息,单词信息包括声学模型得分、语音模型得分、时长和置信度,输入全连接网络,得到目标替换候选结果中各个单词的特征向量,将目标替换候选结果中各个单词的特征向量进行拼接,生成目标替换候选结果中各个单词的单词信息对应的第二特征向量。将第一特征向量与第二特征向量进行拼接得到目标替换候选结果的特征表示。
S304:将待分类组合中两条替换候选结果的特征表示输入预先训练得到的二分类模型,得到每个待分类组合中两条替换候选结果的优劣度。
二分类模型是预先训练得到的,用于对输入的待分类组合中的两条替换候选结果进行优劣度的确定。二分类模型可以根据输入的待分类组合中两条替换候选结果的特征表示输出对应的待分类组合中两条替换候选结果的优劣度。
将待分类组合中两条替换候选结果的特征表示输入预先训练得到的二分类模型,得到每个待分类组合中两条替换候选结果的优劣度,具体可以包括以下两个步骤C1-C2:
C1:将待分类组合中两条替换候选结果的特征表示输入转换器模型的编码器部分,得到转换器模型的编码器部分输出的第一个隐层向量。
转换器的编码器部分可以由自注意力机制模块和全连接模块构成。通过将待分类组合中两条替换候选结果的特征表示输入至转换器的编码器部分,可以将两条替换候选结果的特征表示均与转换器的编码器部分输出的第一个隐层向量建立联系,第一个隐层向量包含有两条替换候选结果的特征表示的相关信息。则可以通过将第一个隐层向量输入至二分类模型中,得到两条替换候选结果的优劣度。
C2:将第一个隐层向量输入预先训练得到的二分类模型,得到每个待分类组合中两条替换候选结果的优劣度。
由于第一个隐层向量中包含与两条替换候选结果的特征表示相关的信息,可以通过将第一个隐层向量时输入二分类模型中,得到待分类组合中两条替换候选结果的优劣度。
二分类模型可以由全连接网络构成,在一种可能的实现方式中,可以通过二分类模型的输出结果判断两条替换候选结果的优劣度。例如,当待分类组合中的两条候选结果信息具有先后顺序时,当二分类模型输出为“1”时,可以认为第一条替换候选结果较优,当二分类模型输出为“0”时,可以认为第二条替换候选结果较差。
基于上述内容可知,在本申请实施例中,通过获取目标替换候选结果中识别文本单词序列对应的第一特征向量以及各个单词的单词信息对应的第二特征向量,将第一特征向量与第二特征向量进行拼接得到目标替换候选结果的特征表示。将得到的目标替换候选结果的特征表示输入至二分类模型,得到待分类组合中两条替换候选结果的优劣度。通过获取目标替换候选结果的第一特征向量和第二特征向量,并将第一特征向量与第二特征向量进行拼接得到的特征表示作为二分类模型的输入,可以从分别从两个角度提取目标替换候选结果中的特征,使得通过二分类模型得到的待分类组合中两条替换候选结果的优劣度更加准确。
为了便于对上述利用预先训练得到的二分类模型,得到每个待分类组合中两条替换候选结果的优劣度的实施方法进行理解和解释,下面结合示例进行说明。
参见图5,该图为本申请实施例提供的一种二分类模型的示意图。两条候选结果信息Wi和Wj,在Wi=[wi1,wi2,wi3,wi4,wi5,wi6,wi7]和Wj=[wj1,wj2,wj3,wj4,wj5,wj6,wj7]中wi3和wj3为共同错误单词,将共同错误单词替换为标志词MARK。得到的待分类组合W2=[[CLS],wi1,wi2,MARK,wi4,wi5,wi6,wi7,[SEQ],wj1,wj2,MARK,wj4,wj5,wj6,wj7,[SEQ]]。将W2输入至Embedding模块,得到W2对应的第一特征向量,将W2输入至全连接网络中,得到W2对应的第二特征向量。将第一特征向量与第二特征向量进行拼接,得到特征表示H2=[h[CLS],hi1,hi2,hMARK,hi4,hi5,hi6,hi7,h[SEQ],hj1,hj2,hMARK,hj4,hj5,hj6,hj7,h[SEQ]]。将特征表示输入至转换器模型的编码器部分,得到[CLS]的隐藏向量。[CLS]的隐藏向量中具有与其他特征表示相关的信息,将[CLS]的隐藏向量输入至二分类模型中,得到二分类模型的输出结果,根据输出结果得到替换候选结果的优劣度。通过将共同错误单词进行替换以及共同错误单词的单词信息替换为标志单词信息,可以减小共同错误单词对于两条替换候选结果优劣度判断的影响。
基于上述内容可知,通过二分类模型,可以得到待分类组合中两条替换候选结果的优劣度,其中,二分类模型是预先训练得到的。对此,本申请实施例提供一种二分类模型的训练方法,具体包括以下五个步骤D1-D5:
D1:获取语音样本信息以及所述语音样本信息对应的标准识别文本。
语音样本信息可以为可以作为语音样本的较为标准的语音信息,例如,声学模型训练集中的语音样本信息。并且获取语音样本信息对应的标准识别文本,用于确定较为准确的标准训练候选结果信息。
使用语音样本信息进行语音识别,一方面是语音样本信息较为标准,可以得到较好的识别结果,有利于得到准确率较高的训练候选结果信息;另一方面是语音样本信息具有对应的标准识别文本,可以利用标准识别文本在训练候选结果信息中选取较为标准的训练候选结果信息并进行相应的标记,可以训练得到具有较高性能的二分类模型。
D2:对语音样本信息进行语音识别得到语音样本信息对应的训练候选结果信息,训练候选结果信息包括训练识别文本单词序列以及训练识别文本单词序列中各个单词的单词信息。
通过将语音样本信息进行语音识别,可以得到对应的训练候选结果信息,包括训练识别文本单词序列以及训练识别文本单词序列中各个单词的单词信息。其中,训练识别文本单词序列可以是该条训练候选结果中组成该训练识别文本的单词的顺序序列。训练识别文本单词序列中各个单词的单词信息可以包括每个单词的声学模型得分、语言模型得分、时长、置信度等单词本身的相关信息。得到的训练候选结果信息可以组成待训练组合,作为二分类模型的训练数据。
在本申请实施例中,不限定将语音样本信息进行语音识别得到对应的训练候选结果信息的方法,在一种可能的实现方式中,可以采用基于隐马尔科夫模型的语音识别***进行语音识别。
D3:将训练候选结果信息中与标准识别文本相似度最高的确定为标准训练候选结果信息。
将语音样本信息进行语音识别,得到的与语音样本信息对应的训练候选结果信息可能具有多条,将得到的训练候选结果信息中与语音样本信息对应的标准识别文本相似度最高的作为标准训练候选结果信息。相似度可以为训练候选结果信息与标准识别文本在单词信息以及单词序列等方面的相似度。在本申请实施例中,可以通过分别计算标准识别文本与训练候选结果信息的相似度,将计算结果中相似度最高的训练候选结果信息作为标准候选结果信息。
通过得到标准候选结果信息,可以相应的进行候选结果信息优劣度的标签标记,由此得到用于二分类模型训练的相关数据。
D4:将标准训练候选结果信息与其他训练候选结果信息分别组合,生成至少一个待训练组合。
标准训练候选结果信息是训练候选结果信息中与标准识别文本相似度最高的训练候选结果信息,可以作为与其他训练候选结果信息相比排序较优的训练候选结果信息。
将标准训练候选结果信息与其他的训练候选结果信息进行组合,得到至少一个待训练组合。在本申请实施例中,可以通过将标准训练候选结果信息与其他候选结果信息进行拼接得到待训练组合。在得到待训练组合后可以进行标准训练候选结果信息较优的标签的标记,以表示待训练组合中标准训练候选结果信息是优劣度较优的训练候选结果信息。
D5:利用待训练组合以及待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
将由标准训练候选结果信息与其他训练候选结果信息组合得到的待训练组合以及用于表示标准训练候选结果信息优于训练候选结果信息的标签作为训练数据进行二分类模型的训练,得到的二分类模型可以根据输入的待分类组合输出待分类组合中候选结果信息的优劣度。在本申请实施例中,二分类模型可以由全连接网络构成。
利用待训练组合以及待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型具体可以包括以下四个步骤E1-E4:
E1:获取目标训练候选结果信息中识别文本单词序列对应的第三特征向量,目标训练候选结果信息分别为待训练组合中的标准训练候选结果信息与训练候选结果信息。
将待训练组合中的标准训练候选结果信息和训练候选结果信息分别作为目标训练候选结果信息进行特征的提取。对目标训练候选结果信息中识别文本单词序列进行特征提取,得到第三特征向量。第三特征向量可以是目标训练候选结果信息中识别文本单词序列对应的各个单词的词向量。
在本申请实施例中,可以通过将目标训练候选结果信息中识别文本单词序列输入至Embedding模块中得到目标训练候选结果信息中识别文本单词序列对应的第三特征向量。
E2:获取目标训练候选结果信息中各个单词的单词信息对应的第四特征向量。
第四特征向量是通过对单词的单词信息进行提取得到的特征向量,单词信息可以包括声学模型得分、语音模型得分、时长、置信度等单词本身具有的信息中的一个或多个。
需要说明的是,由于单词信息可以包括一种或者多种信息,在一种可能的实现方式中,可以将目标训练候选结果信息中各个单词的单词信息输入全连接网络,得到目标训练候选结果信息中各个单词的特征向量。其中,特征向量为对应于单词的单词信息中的一种信息提取得到的特征向量。将目标训练候选结果信息中各个单词的特征向量进行拼接,生成目标训练候选结果信息中各个单词的单词信息对应的第四特征向量,也就是各个单词对应的单词信息的特征向量。
E3:将第三特征向量与第四特征向量进行拼接,生成目标训练候选结果信息的特征表示。
由于第三特征向量与第四特征向量为分别从不同的角度提取到的训练候选结果信息的特征向量,将第三特征向量与第四特征向量进行拼接,可以得到对应于目标训练候选结果信息的特征表示。
E4:利用待训练组合中标准训练候选结果信息的特征表示、待训练组合中训练候选结果信息的特征表示以及待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
将得到的待训练组合中标准训练候选结果信息的特征表示、待训练组合中训练候选结果信息的特征表示以及标准训练候选结果信息优于训练候选结果信息的标签作为训练数据,通过大量的训练数据训练得到二分类模型。二分类模型可以为由全连接网络构成的。训练得到的二分类模型可以根据输入的待分类组合中两条替换候选结果的特征表示,输出待分类组合中两条替换候选结果的优劣度。
在本申请实施例中,通过将语音样本信息进行语音识别,得到语音样本信息对应的训练候选结果信息。将训练候选结果信息中与语音样本信息对应的标准识别文本相似度最高的确定为标准训练候选结果信息,将标准训练候选结果信息与其他训练候选结果信息分别组合,生成至少一个待训练组合。利用得到的待训练组合以及标准训练候选结果信息优于训练候选结果信息的标签进行二分类模型的训练,得到可以用于根据输入的待分类组合中两条替换候选结果的特征表示,输出待分类组合中两条替换候选结果的优劣度的二分类模型。
为了便于对上述训练二分类模型的方法进行理解和解释,下面结合示例进行说明。
获取语音样本信息,并对语音样本信息进行语音识别,得到语音样本信息对应的训练候选结果信息,将训练候选结果信息中与标准识别文本相似度最高的确定为标准训练候选结果信息,将标准训练候选结果信息与其他训练候选结果信息分别组合,得到至少一个待训练组合。例如,其中一个待训练组合可以由标准训练候选结果信息Wa=[wa1,wa2,wa3,wa4,wa5,wa6,wa7]和训练候选结果信息Wb=[wb1,wb2,wb3,wb4,wb5,wb6,wb7]组合得到。并且在组合时在待训练组合的开头加入[CLS]标识,便于后续利用[CLS]的隐层向量进行二分类模型的训练。在Wa以及Wb的末尾加入[SEQ]标识,用于标记标准训练候选结果信息的结束以及训练候选结果信息的结束。得到的待训练组合W3=[[CLS],wa1,wa2,wa3,wa4,wa5,wa6,wa7,[SEQ],wb1,wb2,wb3,wb4,wb5,wb6,wb7,[SEQ]]。将W3输入至Embedding模块,得到W3对应的第三特征向量。将W3输入至全连接网络中,得到W3对应的第四特征向量,将第三特征向量与第四特征向量进行拼接,得到特征表示H3=[h[CLS],ha1,ha2,ha3,ha4,ha5,ha6,ha7,h[SEQ],hb1,hb2,hb3,hb4,hb5,hb6,hb7,h[SEQ]]。将特征表示输入至转换器模型的编码器部分,得到[CLS]的隐藏向量。[CLS]的隐藏向量中具有与其他特征表示相关的信息。将得到的[CLS]的隐藏向量以及待训练组合中Wa优于Wb的标签作为训练数据用于二分类模型的训练。
基于上述方法实施例,本申请还提供了一种语音识别候选结果的排序装置,下面将结合附图对该装置进行说明。
参见图6,该图为本申请实施例提供的一种语音识别候选结果的排序装置结构图,如图6所示,该装置可以包括:
获取单元601,用于获取语音识别的候选结果信息,每个所述候选结果信息包括识别文本单词序列以及所述识别文本单词序列中各个单词的单词信息;
组合单元602,用于将识别得到的候选结果信息进行两两组合,生成至少一个候选组合;
识别单元603,用于识别所述候选组合的共同错误单词,所述共同错误单词为该候选组合包括的两个候选结果信息共同具有的且位置相同的错误单词;
替换单元604,用于将所述候选组合中的每个候选结果信息包括的共同错误单词替换为标志词,将所述共同错误单词的单词信息替换为标志单词信息,得到每个候选结果信息对应的替换候选结果,得到待分类组合;
优劣度获取单元605,用于利用预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度;
排序单元606,用于根据各个所述待分类组合中两条替换候选结果的优劣度,对所述候选结果信息进行排序。
可选的,所述识别单元603,包括:
概率值获取子单元,用于获取所述候选组合中两条候选结果信息包括的各个单词的出现概率值;
确定子单元,用于将所述候选结果信息中出现概率值低于阈值的单词确定为错误单词,并确定出每个所述错误单词在对应的候选结果信息中出现的位置;
识别子单元,用于将所述候选组合中两条候选结果信息分别包括的错误单词以及各错误单词在对应的候选结果信息中出现的位置进行比对,识别出位于在相同位置的相同错误单词作为所述候选组合对应的共同错误单词。
可选的,所述优劣度获取单元605,包括:
第一获取子单元,用于获取目标替换候选结果中所述识别文本单词序列对应的第一特征向量,所述目标替换候选结果分别为所述待分类组合中的每条替换候选结果;
第二获取子单元,用于获取所述目标替换候选结果中各个单词的单词信息对应的第二特征向量;
第一拼接子单元,用于将所述第一特征向量与所述第二特征向量进行拼接,生成所述目标替换候选结果的特征表示;
优劣度获取子单元,用于将所述待分类组合中两条替换候选结果的特征表示输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度。
可选的,所述单词信息包括声学模型得分、语音模型得分、时长、置信度中的一个或多个;
所述第二获取子单元,包括:
特征向量获取子单元,用于将所述目标替换候选结果中各个单词的单词信息输入全连接网络,得到所述目标替换候选结果中各个单词的特征向量;
第二拼接子单元,用于将所述目标替换候选结果中各个单词的特征向量进行拼接,生成所述目标替换候选结果中各个单词的单词信息对应的第二特征向量。
可选的,所述优劣度获取子单元,包括:
隐层向量获取子单元,用于将所述待分类组合中两条替换候选结果的特征表示输入转换器模型的编码器部分,得到所述转换器模型的编码器部分输出的第一个隐层向量;
优劣度确定子单元,用于将所述第一个隐层向量输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度。
可选的,所述二分类模型的训练过程包括:
获取语音样本信息以及所述语音样本信息对应的标准识别文本;
对所述语音样本信息进行语音识别得到所述语音样本信息对应的训练候选结果信息,所述训练候选结果信息包括训练识别文本单词序列以及所述训练识别文本单词序列中各个单词的单词信息;
将所述训练候选结果信息中与所述标准识别文本相似度最高的确定为标准训练候选结果信息;
将所述标准训练候选结果信息与其他所述训练候选结果信息分别组合,生成至少一个待训练组合;
利用所述待训练组合以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
可选的,所述利用所述待训练组合以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型,包括:
获取目标训练候选结果信息中所述识别文本单词序列对应的第三特征向量,所述目标训练候选结果信息分别为所述待训练组合中的标准训练候选结果信息与训练候选结果信息;
获取所述目标训练候选结果信息中各个单词的单词信息对应的第四特征向量;
将所述第三特征向量与所述第四特征向量进行拼接,生成所述目标训练候选结果信息的特征表示;
利用所述待训练组合中标准训练候选结果信息的特征表示、所述待训练组合中训练候选结果信息的特征表示以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
图7示出了一种客户端1200的框图。例如,客户端1200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,客户端1200可以包括以下一个或多个组件:处理组件1202,存储器1204,电源组件1206,多媒体组件1208,音频组件1210,输入/输出(I/O)的接口1212,传感器组件1214,以及通信组件1216。
处理组件1202通常控制客户端1200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1202可以包括一个或多个处理器1220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1202可以包括一个或多个模块,便于处理组件1202和其他组件之间的交互。例如,处理部件1202可以包括多媒体模块,以方便多媒体组件1208和处理组件1202之间的交互。
存储器1204被配置为存储各种类型的数据以支持在客户端1200的操作。这些数据的示例包括用于在客户端1200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1206为客户端1200的各种组件提供电力。电源组件1206可以包括电源管理***,一个或多个电源,及其他与为客户端1200生成、管理和分配电力相关联的组件。
多媒体组件1208包括在所述客户端1200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1208包括一个前置摄像头和/或后置摄像头。当客户端1200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件1210被配置为输出和/或输入音频信号。例如,音频组件1210包括一个麦克风(MIC),当客户端1200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中,音频组件1210还包括一个扬声器,用于输出音频信号。
I/O接口为处理组件1202和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1214包括一个或多个传感器,用于为客户端1200提供各个方面的状态评估。例如,传感器组件1214可以检测到设备1200的打开/关闭状态,组件的相对定位,例如所述组件为客户端1200的显示器和小键盘,传感器组件1214还可以检测客户端1200或客户端1200一个组件的位置改变,用户与客户端1200接触的存在或不存在,客户端1200方位或加速/减速和客户端1200的温度变化。传感器组件1214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1216被配置为便于客户端1200和其他设备之间有线或无线方式的通信。客户端1200可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件1216经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件1216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,客户端1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法:
获取语音识别的候选结果信息,每个所述候选结果信息包括识别文本单词序列以及所述识别文本单词序列中各个单词的单词信息;
将识别得到的候选结果信息进行两两组合,生成至少一个候选组合;
识别所述候选组合的共同错误单词,所述共同错误单词为该候选组合包括的两个候选结果信息共同具有的且位置相同的错误单词;
将所述候选组合中的每个候选结果信息包括的共同错误单词替换为标志词,将所述共同错误单词的单词信息替换为标志单词信息,得到每个候选结果信息对应的替换候选结果,得到待分类组合;
利用预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度;
根据各个所述待分类组合中两条替换候选结果的优劣度,对所述候选结果信息进行排序。
可选的,所述识别所述候选组合的共同错误单词,包括:
获取所述候选组合中两条候选结果信息包括的各个单词的出现概率值;
将所述候选结果信息中出现概率值低于阈值的单词确定为错误单词,并确定出每个所述错误单词在对应的候选结果信息中出现的位置;
将所述候选组合中两条候选结果信息分别包括的错误单词以及各错误单词在对应的候选结果信息中出现的位置进行比对,识别出位于在相同位置的相同错误单词作为所述候选组合对应的共同错误单词。
可选的,所述利用预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度,包括:
获取目标替换候选结果中所述识别文本单词序列对应的第一特征向量,所述目标替换候选结果分别为所述待分类组合中的每条替换候选结果;
获取所述目标替换候选结果中各个单词的单词信息对应的第二特征向量;
将所述第一特征向量与所述第二特征向量进行拼接,生成所述目标替换候选结果的特征表示;
将所述待分类组合中两条替换候选结果的特征表示输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度。
可选的,所述单词信息包括声学模型得分、语音模型得分、时长、置信度中的一个或多个;
所述获取所述目标替换候选结果中各个单词的单词信息对应的第二特征向量,包括:
将所述目标替换候选结果中各个单词的单词信息输入全连接网络,得到所述目标替换候选结果中各个单词的特征向量;
将所述目标替换候选结果中各个单词的特征向量进行拼接,生成所述目标替换候选结果中各个单词的单词信息对应的第二特征向量。
可选的,所述将所述待分类组合中两条替换候选结果的特征表示输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度,包括:
将所述待分类组合中两条替换候选结果的特征表示输入转换器模型的编码器部分,得到所述转换器模型的编码器部分输出的第一个隐层向量;
将所述第一个隐层向量输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度。
可选的,所述二分类模型的训练过程包括:
获取语音样本信息以及所述语音样本信息对应的标准识别文本;
对所述语音样本信息进行语音识别得到所述语音样本信息对应的训练候选结果信息,所述训练候选结果信息包括训练识别文本单词序列以及所述训练识别文本单词序列中各个单词的单词信息;
将所述训练候选结果信息中与所述标准识别文本相似度最高的确定为标准训练候选结果信息;
将所述标准训练候选结果信息与其他所述训练候选结果信息分别组合,生成至少一个待训练组合;
利用所述待训练组合以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
可选的,所述利用所述待训练组合以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型,包括:
获取目标训练候选结果信息中所述识别文本单词序列对应的第三特征向量,所述目标训练候选结果信息分别为所述待训练组合中的标准训练候选结果信息与训练候选结果信息;
获取所述目标训练候选结果信息中各个单词的单词信息对应的第四特征向量;
将所述第三特征向量与所述第四特征向量进行拼接,生成所述目标训练候选结果信息的特征表示;
利用所述待训练组合中标准训练候选结果信息的特征表示、所述待训练组合中训练候选结果信息的特征表示以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
图8是本发明实施例中服务器的结构示意图。该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)1022(例如,一个或一个以上处理器)和存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在服务器1000上执行存储介质1030中的一系列指令操作。
服务器1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1056,一个或一个以上键盘1056,和/或,一个或一个以上操作***1041,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
另外,本申请实施例还提供一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述的语音识别候选结果的排序方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (22)
1.一种语音识别候选结果的排序方法,其特征在于,所述方法还包括:
获取语音识别的候选结果信息,每个所述候选结果信息包括识别文本单词序列以及所述识别文本单词序列中各个单词的单词信息;
将识别得到的候选结果信息进行两两组合,生成至少一个候选组合;
识别所述候选组合的共同错误单词,所述共同错误单词为该候选组合包括的两个候选结果信息共同具有的且位置相同的错误单词;所述两个候选结果信息包括各个单词的出现概率值,所述错误单词为所述两个候选结果信息中出现概率低于阈值的单词;
将所述候选组合中的每个候选结果信息包括的共同错误单词替换为标志词,将所述共同错误单词的单词信息替换为标志单词信息,得到每个候选结果信息对应的替换候选结果,得到待分类组合;
利用预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度;
根据各个所述待分类组合中两条替换候选结果的优劣度,对所述候选结果信息进行排序。
2.根据权利要求1所述的方法,其特征在于,所述识别所述候选组合的共同错误单词,包括:
获取所述候选组合中两条候选结果信息包括的各个单词的出现概率值;
将所述候选结果信息中出现概率值低于阈值的单词确定为错误单词,并确定出每个所述错误单词在对应的候选结果信息中出现的位置;
将所述候选组合中两条候选结果信息分别包括的错误单词以及各错误单词在对应的候选结果信息中出现的位置进行比对,识别出位于相同位置的相同错误单词作为所述候选组合对应的共同错误单词。
3.根据权利要求1或2所述的方法,其特征在于,所述利用预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度,包括:
获取目标替换候选结果中所述识别文本单词序列对应的第一特征向量,所述目标替换候选结果分别为所述待分类组合中的每条替换候选结果;
获取所述目标替换候选结果中各个单词的单词信息对应的第二特征向量;
将所述第一特征向量与所述第二特征向量进行拼接,生成所述目标替换候选结果的特征表示;
将所述待分类组合中两条替换候选结果的特征表示输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度。
4.根据权利要求3所述的方法,其特征在于,所述单词信息包括声学模型得分、语音模型得分、时长、置信度中的一个或多个;
所述获取所述目标替换候选结果中各个单词的单词信息对应的第二特征向量,包括:
将所述目标替换候选结果中各个单词的单词信息输入全连接网络,得到所述目标替换候选结果中各个单词的特征向量;
将所述目标替换候选结果中各个单词的特征向量进行拼接,生成所述目标替换候选结果中各个单词的单词信息对应的第二特征向量。
5.根据权利要求3所述的方法,其特征在于,所述将所述待分类组合中两条替换候选结果的特征表示输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度,包括:
将所述待分类组合中两条替换候选结果的特征表示输入转换器模型的编码器部分,得到所述转换器模型的编码器部分输出的第一个隐层向量;
将所述第一个隐层向量输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度。
6.根据权利要求1所述的方法,其特征在于,所述二分类模型的训练过程包括:
获取语音样本信息以及所述语音样本信息对应的标准识别文本;
对所述语音样本信息进行语音识别得到所述语音样本信息对应的训练候选结果信息,所述训练候选结果信息包括训练识别文本单词序列以及所述训练识别文本单词序列中各个单词的单词信息;
将所述训练候选结果信息中与所述标准识别文本相似度最高的确定为标准训练候选结果信息;
将所述标准训练候选结果信息与其他所述训练候选结果信息分别组合,生成至少一个待训练组合;
利用所述待训练组合以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
7.根据权利要求6所述的方法,其特征在于,所述利用所述待训练组合以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型,包括:
获取目标训练候选结果信息中所述识别文本单词序列对应的第三特征向量,所述目标训练候选结果信息分别为所述待训练组合中的标准训练候选结果信息与训练候选结果信息;
获取所述目标训练候选结果信息中各个单词的单词信息对应的第四特征向量;
将所述第三特征向量与所述第四特征向量进行拼接,生成所述目标训练候选结果信息的特征表示;
利用所述待训练组合中标准训练候选结果信息的特征表示、所述待训练组合中训练候选结果信息的特征表示以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
8.一种语音识别候选结果的排序装置,其特征在于,所述装置包括:
获取单元,用于获取语音识别的候选结果信息,每个所述候选结果信息包括识别文本单词序列以及所述识别文本单词序列中各个单词的单词信息;
组合单元,用于将识别得到的候选结果信息进行两两组合,生成至少一个候选组合;
识别单元,用于识别所述候选组合的共同错误单词,所述共同错误单词为该候选组合包括的两个候选结果信息共同具有的且位置相同的错误单词;所述两个候选结果信息包括各个单词的出现概率值,所述错误单词为所述两个候选结果信息中出现概率低于阈值的单词;
替换单元,用于将所述候选组合中的每个候选结果信息包括的共同错误单词替换为标志词,将所述共同错误单词的单词信息替换为标志单词信息,得到每个候选结果信息对应的替换候选结果,得到待分类组合;
优劣度获取单元,用于利用预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度;
排序单元,用于根据各个所述待分类组合中两条替换候选结果的优劣度,对所述候选结果信息进行排序。
9.根据权利要求8所述的装置,其特征在于,所述识别单元,包括:
概率值获取子单元,用于获取所述候选组合中两条候选结果信息包括的各个单词的出现概率值;
确定子单元,用于将所述候选结果信息中出现概率值低于阈值的单词确定为错误单词,并确定出每个所述错误单词在对应的候选结果信息中出现的位置;
识别子单元,用于将所述候选组合中两条候选结果信息分别包括的错误单词以及各错误单词在对应的候选结果信息中出现的位置进行比对,识别出位于在相同位置的相同错误单词作为所述候选组合对应的共同错误单词。
10.根据权利要求8或9所述的装置,其特征在于,所述优劣度获取单元,包括:
第一获取子单元,用于获取目标替换候选结果中所述识别文本单词序列对应的第一特征向量,所述目标替换候选结果分别为所述待分类组合中的每条替换候选结果;
第二获取子单元,用于获取所述目标替换候选结果中各个单词的单词信息对应的第二特征向量;
第一拼接子单元,用于将所述第一特征向量与所述第二特征向量进行拼接,生成所述目标替换候选结果的特征表示;
优劣度获取子单元,用于将所述待分类组合中两条替换候选结果的特征表示输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度。
11.根据权利要求10所述的装置,其特征在于,所述单词信息包括声学模型得分、语音模型得分、时长、置信度中的一个或多个;
所述第二获取子单元,包括:
特征向量获取子单元,用于将所述目标替换候选结果中各个单词的单词信息输入全连接网络,得到所述目标替换候选结果中各个单词的特征向量;
第二拼接子单元,用于将所述目标替换候选结果中各个单词的特征向量进行拼接,生成所述目标替换候选结果中各个单词的单词信息对应的第二特征向量。
12.根据权利要求10所述的装置,其特征在于,所述优劣度获取子单元,包括:
隐层向量获取子单元,用于将所述待分类组合中两条替换候选结果的特征表示输入转换器模型的编码器部分,得到所述转换器模型的编码器部分输出的第一个隐层向量;
优劣度确定子单元,用于将所述第一个隐层向量输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度。
13.根据权利要求8所述的装置,其特征在于,所述二分类模型的训练过程包括:
获取语音样本信息以及所述语音样本信息对应的标准识别文本;
对所述语音样本信息进行语音识别得到所述语音样本信息对应的训练候选结果信息,所述训练候选结果信息包括训练识别文本单词序列以及所述训练识别文本单词序列中各个单词的单词信息;
将所述训练候选结果信息中与所述标准识别文本相似度最高的确定为标准训练候选结果信息;
将所述标准训练候选结果信息与其他所述训练候选结果信息分别组合,生成至少一个待训练组合;
利用所述待训练组合以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
14.根据权利要求13所述的装置,其特征在于,所述利用所述待训练组合以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型,包括:
获取目标训练候选结果信息中所述识别文本单词序列对应的第三特征向量,所述目标训练候选结果信息分别为所述待训练组合中的标准训练候选结果信息与训练候选结果信息;
获取所述目标训练候选结果信息中各个单词的单词信息对应的第四特征向量;
将所述第三特征向量与所述第四特征向量进行拼接,生成所述目标训练候选结果信息的特征表示;
利用所述待训练组合中标准训练候选结果信息的特征表示、所述待训练组合中训练候选结果信息的特征表示以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
15.一种用于语音识别候选结果的排序装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取语音识别的候选结果信息,每个所述候选结果信息包括识别文本单词序列以及所述识别文本单词序列中各个单词的单词信息;
将识别得到的候选结果信息进行两两组合,生成至少一个候选组合;
识别所述候选组合的共同错误单词,所述共同错误单词为该候选组合包括的两个候选结果信息共同具有的且位置相同的错误单词;所述两个候选结果信息包括各个单词的出现概率值,所述错误单词为所述两个候选结果信息中出现概率低于阈值的单词;
将所述候选组合中的每个候选结果信息包括的共同错误单词替换为标志词,将所述共同错误单词的单词信息替换为标志单词信息,得到每个候选结果信息对应的替换候选结果,得到待分类组合;
利用预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度;
根据各个所述待分类组合中两条替换候选结果的优劣度,对所述候选结果信息进行排序。
16.根据权利要求15所述的装置,其特征在于,所述处理器具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取所述候选组合中两条候选结果信息包括的各个单词的出现概率值;
将所述候选结果信息中出现概率值低于阈值的单词确定为错误单词,并确定出每个所述错误单词在对应的候选结果信息中出现的位置;
将所述候选组合中两条候选结果信息分别包括的错误单词以及各错误单词在对应的候选结果信息中出现的位置进行比对,识别出位于相同位置的相同错误单词作为所述候选组合对应的共同错误单词。
17.根据权利要求15或16所述的装置,其特征在于,所述处理器具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取目标替换候选结果中所述识别文本单词序列对应的第一特征向量,所述目标替换候选结果分别为所述待分类组合中的每条替换候选结果;
获取所述目标替换候选结果中各个单词的单词信息对应的第二特征向量;
将所述第一特征向量与所述第二特征向量进行拼接,生成所述目标替换候选结果的特征表示;
将所述待分类组合中两条替换候选结果的特征表示输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度。
18.根据权利要求17所述的装置,其特征在于,所述单词信息包括声学模型得分、语音模型得分、时长、置信度中的一个或多个;所述处理器具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
将所述目标替换候选结果中各个单词的单词信息输入全连接网络,得到所述目标替换候选结果中各个单词的特征向量;
将所述目标替换候选结果中各个单词的特征向量进行拼接,生成所述目标替换候选结果中各个单词的单词信息对应的第二特征向量。
19.根据权利要求17所述的装置,其特征在于,所述处理器具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
将所述待分类组合中两条替换候选结果的特征表示输入转换器模型的编码器部分,得到所述转换器模型的编码器部分输出的第一个隐层向量;
将所述第一个隐层向量输入预先训练得到的二分类模型,得到每个所述待分类组合中两条替换候选结果的优劣度。
20.根据权利要求15所述的装置,其特征在于,所述处理器具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取语音样本信息以及所述语音样本信息对应的标准识别文本;
对所述语音样本信息进行语音识别得到所述语音样本信息对应的训练候选结果信息,所述训练候选结果信息包括训练识别文本单词序列以及所述训练识别文本单词序列中各个单词的单词信息;
将所述训练候选结果信息中与所述标准识别文本相似度最高的确定为标准训练候选结果信息;
将所述标准训练候选结果信息与其他所述训练候选结果信息分别组合,生成至少一个待训练组合;
利用所述待训练组合以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
21.根据权利要求20所述的装置,其特征在于,所述处理器具体还用于执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取目标训练候选结果信息中所述识别文本单词序列对应的第三特征向量,所述目标训练候选结果信息分别为所述待训练组合中的标准训练候选结果信息与训练候选结果信息;
获取所述目标训练候选结果信息中各个单词的单词信息对应的第四特征向量;
将所述第三特征向量与所述第四特征向量进行拼接,生成所述目标训练候选结果信息的特征表示;
利用所述待训练组合中标准训练候选结果信息的特征表示、所述待训练组合中训练候选结果信息的特征表示以及所述待训练组合中标准训练候选结果信息优于训练候选结果信息的标签,训练得到二分类模型。
22.一种计算机可读介质,其特征在于,所述计算机可读介质上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中任一项所述的语音识别候选结果的排序方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010475597.0A CN111651599B (zh) | 2020-05-29 | 2020-05-29 | 一种语音识别候选结果的排序方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010475597.0A CN111651599B (zh) | 2020-05-29 | 2020-05-29 | 一种语音识别候选结果的排序方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651599A CN111651599A (zh) | 2020-09-11 |
CN111651599B true CN111651599B (zh) | 2023-05-26 |
Family
ID=72348639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010475597.0A Active CN111651599B (zh) | 2020-05-29 | 2020-05-29 | 一种语音识别候选结果的排序方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651599B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108711422A (zh) * | 2018-05-14 | 2018-10-26 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机可读存储介质和计算机设备 |
CN109243430A (zh) * | 2017-07-04 | 2019-01-18 | 北京搜狗科技发展有限公司 | 一种语音识别方法及装置 |
CN109791767A (zh) * | 2016-09-30 | 2019-05-21 | 罗伯特·博世有限公司 | 用于语音识别的***和方法 |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
CN110765244A (zh) * | 2019-09-18 | 2020-02-07 | 平安科技(深圳)有限公司 | 获取应答话术的方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102450853B1 (ko) * | 2015-11-30 | 2022-10-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
-
2020
- 2020-05-29 CN CN202010475597.0A patent/CN111651599B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109791767A (zh) * | 2016-09-30 | 2019-05-21 | 罗伯特·博世有限公司 | 用于语音识别的***和方法 |
CN109243430A (zh) * | 2017-07-04 | 2019-01-18 | 北京搜狗科技发展有限公司 | 一种语音识别方法及装置 |
CN108711422A (zh) * | 2018-05-14 | 2018-10-26 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机可读存储介质和计算机设备 |
CN110765244A (zh) * | 2019-09-18 | 2020-02-07 | 平安科技(深圳)有限公司 | 获取应答话术的方法、装置、计算机设备及存储介质 |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111651599A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291690B (zh) | 标点添加方法和装置、用于标点添加的装置 | |
RU2377664C2 (ru) | Способ ввода текста | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
US20170076181A1 (en) | Converting text strings into number strings, such as via a touchscreen input | |
CN107436691B (zh) | 一种输入法进行纠错的方法、客户端、服务器及装置 | |
CN107221330B (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN108399914B (zh) | 一种语音识别的方法和装置 | |
CN111368541B (zh) | 命名实体识别方法及装置 | |
CN108008832A (zh) | 一种输入方法和装置、一种用于输入的装置 | |
CN108803890B (zh) | 一种输入方法、输入装置和用于输入的装置 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN110765294B (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN108345581A (zh) | 一种信息识别方法、装置和终端设备 | |
CN109101505B (zh) | 一种推荐方法、推荐装置和用于推荐的装置 | |
CN112906381B (zh) | 对话归属的识别方法、装置、可读介质和电子设备 | |
CN111753091A (zh) | 分类方法、分类模型的训练方法、装置、设备及存储介质 | |
CN107424612B (zh) | 处理方法、装置和机器可读介质 | |
CN114154459A (zh) | 语音识别文本处理方法、装置、电子设备及存储介质 | |
CN114880480A (zh) | 一种基于知识图谱的问答方法及装置 | |
CN112035651B (zh) | 语句补全方法、装置及计算机可读存储介质 | |
CN114822519A (zh) | 中文语音识别纠错方法、装置及电子设备 | |
CN111651599B (zh) | 一种语音识别候选结果的排序方法及装置 | |
CN110858099B (zh) | 候选词生成方法及装置 | |
CN111274389A (zh) | 一种信息处理方法、装置、计算机设备及存储介质 | |
CN115730073A (zh) | 文本处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |