CN113257227B - 语音识别模型性能检测方法、装置、设备及存储介质 - Google Patents
语音识别模型性能检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113257227B CN113257227B CN202110448299.7A CN202110448299A CN113257227B CN 113257227 B CN113257227 B CN 113257227B CN 202110448299 A CN202110448299 A CN 202110448299A CN 113257227 B CN113257227 B CN 113257227B
- Authority
- CN
- China
- Prior art keywords
- text
- recognition
- voice
- model
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 239000010410 layer Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音识别模型性能检测方法、装置、设备及存储介质,该方法通过获取待识别语音数据集;将待识别语音数据输入至语音识别模型中,以通过语音识别模型对待识别语音数据进行语音识别,得到语音识别文本;将语音识别文本输入至性能检测模型中,以通过所述性能检测模型确定语音识别文本的文本错误率;在文本错误率大于或等于预设错误率阈值时,将语音识别模型的错误识别总数累加一;获取所述错误识别总数,并将错误识别总数与预设数量之间的比值记录为错误比值;在错误比值大于或等于预设比值阈值时,发送包含语音识别模型的性能警示指令。本发明降低了人工成本,提高了性能检测的效率以及准确率。
Description
技术领域
本发明涉及检测模型技术领域,尤其涉及一种语音识别模型性能检测方法、装置、设备及存储介质。
背景技术
目前,语音识别技术已被广泛应用于各个领域中,例如智能问答领域,智能客服领域,亦或者导航领域等。语音识别模型往往需要通过大量数据训练之后才可以应用在不同场景,然而在语音识别模型被应用在与训练数据集存在一定差异的场景下时,语音识别模型的实际识别效果与期望性能存在较大的偏差,因此需要对语音识别模型的性能进行检测,以在语音识别模型的性能较差时,需要对语音识别模型进行再训练。而现有技术中,针对于语音识别模型的性能检测一般通过人工方式进行检测报错,这种方式性能检测的效率很低,并且在检测过程中可能存在错误检测,导致性能检测错误率较高。
发明内容
本发明实施例提供一种语音识别模型性能检测方法、装置、设备及存储介质,以解决性能检测的效率低以及性能检测错误率较高的问题。
一种语音识别模型性能检测方法,包括:
获取待识别语音数据集;所述待识别语音数据集中包括预设数量的待识别语音数据;
将所述待识别语音数据输入至语音识别模型中,以通过所述语音识别模型对所述待识别语音数据进行语音识别,得到语音识别文本;
将所述语音识别文本输入至性能检测模型中,以通过所述性能检测模型确定所述语音识别文本的文本错误率;
在所述文本错误率大于或等于预设错误率阈值时,将所述语音识别模型的错误识别总数累加一;
获取所述错误识别总数,并将所述错误识别总数与所述预设数量之间的比值记录为错误比值;
在所述错误比值大于或等于预设比值阈值时,发送包含所述语音识别模型的性能警示指令。
一种语音识别模型性能检测装置,包括:
语音数据集获取模块,用于获取待识别语音数据集;所述待识别语音数据集中包括预设数量的待识别语音数据;
语音识别模块,用于将所述待识别语音数据输入至语音识别模型中,以通过所述语音识别模型对所述待识别语音数据进行语音识别,得到语音识别文本;
性能检测模块,用于将所述语音识别文本输入至性能检测模型中,以通过所述性能检测模型确定所述语音识别文本的文本错误率;
错误识别总数累加模块,用于在所述文本错误率大于或等于预设错误率阈值时,将所述语音识别模型的错误识别总数累加一;
错误比值记录模块,用于获取所述错误识别总数,并将所述错误识别总数与所述预设数量之间的比值记录为错误比值;
性能警示模块,用于在所述错误比值大于或等于预设比值阈值时,发送包含所述语音识别模型的性能警示指令。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音识别模型性能检测方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音识别模型性能检测方法。
上述语音识别模型性能检测方法、装置、设备及存储介质,该方法通过获取待识别语音数据集;所述待识别语音数据集中包括预设数量的待识别语音数据;将所述待识别语音数据输入至语音识别模型中,以通过所述语音识别模型对所述待识别语音数据进行语音识别,得到语音识别文本;将所述语音识别文本输入至性能检测模型中,以通过所述性能检测模型确定所述语音识别文本的文本错误率;在所述文本错误率大于或等于预设错误率阈值时,将所述语音识别模型的错误识别总数累加一;获取所述错误识别总数,并将所述错误识别总数与所述预设数量之间的比值记录为错误比值;在所述错误比值大于或等于预设比值阈值时,发送包含所述语音识别模型的性能警示指令。
本发明通过引入性能检测模型针对语音识别模型输出的语音识别文本,对语音识别模型进行性能的优劣进行判断,可以替代人工抽检的方式,发现语音识别模型的性能的优劣,降低人工成本,提高了性能检测的效率以及准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中语音识别模型性能检测方法的一应用环境示意图;
图2是本发明一实施例中语音识别模型性能检测方法的一流程图;
图3是本发明一实施例中语音识别模型性能检测方法中步骤S20的一流程图;
图4是本发明一实施例中语音识别模型性能检测方法的另一流程图;
图5是本发明一实施例中语音识别模型性能检测装置的一原理框图;
图6是本发明一实施例中语音识别模型性能检测装置中语音识别模块的一原理框图;
图7是本发明一实施例中语音识别模型性能检测装置的另一原理框图;
图8是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的语音识别模型性能检测方法,该语音识别模型性能检测方法可应用如图1所示的应用环境中。具体地,该语音识别模型性能检测方法应用在语音识别模型性能检测***中,该语音识别模型性能检测***包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决性能检测的效率低以及性能检测错误率较高的问题。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图X所示,提供一种语音识别模型性能检测方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取待识别语音数据集;所述待识别语音数据集中包括预设数量的待识别语音数据。
可以理解地,待识别语音数据集可以为从不同场景下采集待识别语音数据的集合,示例性地,该待识别语音数据集中的待识别语音数据可以从智能问答场景中采集,也可以从电影场景中采集等。预设数量指的是待识别语音数据集中的待识别语音数据的总量。
S20:将所述待识别语音数据输入至语音识别模型中,以通过所述语音识别模型对所述待识别语音数据进行语音识别,得到语音识别文本。
可以理解地,语音识别模型即为用于将待识别语音数据转换为语音识别文本的模型,该语音识别模型为端到端的语音识别深度学习模型,该语音识别模型中包含分类识别模型以及注意力识别模型。其中,分类识别模型用于将语音数据转换为文本,该分类识别模型中包含分类编码模块以及分类解码模块,进一步地,分类编码模块可以采用如CNN/RNN/BiRNN/GRU/LSTM等神经网络构建,分类解码模块中可以采用CTC算法构建。注意力识别模型也用于将语音数据转化为文本,该注意力识别模型中包含注意力编码模块、注意力处理模块以及注意力解码模块,进一步地,注意力编码模块与分类编码模块相同,也可以采用CNN/RNN/BiRNN/GRU/LSTM等神经网络构建,注意力处理模块是基于attention注意力机制构建的,注意力解码模块也可以采用如CNN/RNN/BiRNN/GRU/LSTM等神经网络构建。
进一步地,除了上述说明的语音识别模型中包含分类识别模型以及注意力识别模型之外,还可以直接将分类识别模型作为语音识别模型,亦或者直接将注意力识别模型作为语音识别模型。
在一实施例中,如图3所示,所述语音识别模型中包括分类识别模型以及注意力识别模型,步骤S20中,包括:
S201:通过所述分类识别模型对所述待识别语音数据进行语音识别之后得到分类识别文本,以及通过所述注意力识别模型对所述待识别语音数据进行语音识别之后注意力识别文本。
具体地,在将待识别语音数据输入至语音识别模型之后,通过分类识别模型中的分类编码模块对待识别语音数据进行编码,进而将编码后的待识别语音数据输入至分类解码模块,以令分类解码模块确定与待识别语音数据对应的文本映射关系,生成分类识别文本;同时,通过注意力识别模型的注意力编码模块对待识别语音数据进行编码,进而将编码后的待识别语音数据输入至注意力处理模块,该注意力处理模块实质为权重向量或者权重矩阵,进而在通过注意力处理模块对编码后的待识别语音数据进行注意力处理之后,使得注意力解码模块可以更好的识别出待识别语音数据中对注意力识别文本具有重要输出意义的语音帧,可以降低待识别语音数据中其它噪音带来的影响,进而生成注意力识别文本。
S202:根据所述分类识别文本以及所述注意力识别文本,确定所述语音识别文本。
具体地,在通过所述分类识别模型对所述待识别语音数据进行语音识别之后得到分类识别文本,以及通过所述注意力识别模型对所述待识别语音数据进行语音识别之后注意力识别文本之后,根据分类识别文本以及注意力识别文本,整合形成语音识别文本。
在一实施例中,步骤S202中,包括:
获取与所述分类识别模型对应的第一识别权重,以及与所述注意力识别模型对应的第二识别权重。
可以理解地,由于分类识别模型与注意力识别模型的识别能力可能存在不同,且分类识别模型以及注意力识别模型均需要经过一定数据迭代训练之后,才具有较高的识别准确率,因此对于分类识别模型以及注意力识别模型,可以根据其语音识别的准确率设置相对应的权重(如分类识别模型的语音识别准确率较高时,给予分类识别模型较高的权重),进而提高语音识别的准确率。进一步地,第一识别权重与第二识别权重之和为1。
根据所述第一识别权重、分类识别文本、第二识别权重以及注意力识别文本,确定所述语音识别文本。
具体地,在获取与分类识别模型对应的第一识别权重,以及与注意力识别模型对应的第二识别权重之后,根据第一识别权重、分类识别文本、第二识别权重以及注意力识别文本,确定所述语音识别文本。
S30:将所述语音识别文本输入至性能检测模型中,以通过所述性能检测模型确定所述语音识别文本的文本错误率。
可以理解地,性能检测模型用于检测语音识别模型输出性能,也即判断语音识别模型针对于待识别语音数据输出的语音识别文本是否存在错误,该性能检测模型可以为基于RNN构建的模型。
进一步地,将语音识别文本输入至性能检测模型进行检测的频率可以根据待识别语音数据的预设数量进行选择。示例性地,假设待识别语音数据的预设数量较小时(如预设数量为1000),则可以将每一待识别语音数据对应的语音识别文本输入至性能检测模型中,以更好的检测语音识别模型的识别性能;假设待识别语音数据的预设数量较大时(如预设数量为10k),则可以采用比例抽检的方式,如每五个待识别语音数据进行一次性能检测,也即在第一个待识别语音数据对应的语音识别文本被输入至性能检测模型进行检测之后,令第六个待识别语音数据对应的语音识别文本被输入至性能检测模型进行检测,也即第二至第五个待识别语音数据对应的语音识别文本均不需要进行性能检测。
具体地,在将所述待识别语音数据输入至语音识别模型中,以通过所述语音识别模型对所述待识别语音数据进行语音识别,得到语音识别文本之后,将语音识别文本输入至性能检测模型中,进而通过性能检测模型中的双向编码模块对语音识别文本进行向量编码,得到与语音识别文本对应的编码向量;通过性能检测模型中的平均池化层对编码向量进行平均池化处理,以提取编码向量中更具有语音信息的特征,并将平均池化处理后的编码向量输入至全连接层中,以对语音识别文本进行文本错误预测,得到文本错误率。
在一实施例中,如图4所示,步骤S30之前,也即所述将所述语音识别文本输入至性能检测模型中之前,包括:
S01:获取语音识别样本集;所述语音识别样本集中包含至少一个语音识别样本;所述语音识别样本是通过不同的语音数据识别模型对语音数据进行语音识别后得到的;其中,所述语音数据与语音真实文本关联。
可以理解地,语音真实文本指的是与语音数据对应的真实文本,示例性地,在电影场景下,针对于演员说的每一句话均存在对应的剧本,剧本则可以作为语音真实文本,而通过对演员说的话,也即语音数据进行语音识别得到的文本即为语音识别样本。语音数据识别模型可以为各类不同的语音识别模型,如可以为步骤S20中的包含分类识别模型以及注意力识别模型的语音识别模型,也可以为分类识别模型,亦或者注意力识别模型等,进而可以通过不同的语音数据识别模型对语音数据进行语音识别,得到多个不同的语音识别样本,丰富对步骤S02中的预设检测模型的训练。
S02:将所述语音识别样本输入至包含初始参数的预设检测模型中,通过所述预设检测模型对所述语音识别样本进行错误预测,得到文本错误预测值。
可以理解地,预设检测模型为基于RNN神经网络构建的模型,该预设检测模型中包含至少一个双向编码模块,平均池化层以及全连接层,
进一步地,在本实施例中预设检测模型的双向编码模块的个数优选为两个,因为双层双向编码模块与单层双向编码模块相比,可以提取到语音识别样本中更多的特征,若设置为三个、四个或者更多的双向编码模块则会降低预设检测模型的运行速度,进而降低训练预设检测模型的效率;双向编码模块即为BiLSTM(Bi-directional Long Short-TermMemory,双向长短期记忆网络)模块,该双向编码模块可以从正向开始提取语音识别样本的特征,也可以从逆向开始提取语音识别样本的特征,提高预设检测模型的预测准确率。
进一步地,本实施例中的全连接层可以采用前向MLP(Muti-Layer Perception,多层感知器)层,BP(Back Propagation,误差反向传播)网络层等,该全连接层用户对语音识别样本进行错误率预测。
在一实施例中,步骤S02中包括:
通过所述预设检测模型中的至少一个双向编码模块对所述语音识别样本进行向量编码,得到与所述语音识别样本对应的语音文本向量。
具体地,在获取语音识别样本集之后,将语音识别样本输入至包含初始参数的预设检测模型中,以通过预设检测模型中的双向编码模块对语音识别样本进行向量编码,以提取语音识别样本中的文本特征,进而得到与语音识别样本对应的语音文本向量。
对所述语音文本向量进行平均池化处理之后,将平均池化处理后的语音文本向量输入至所述预设检测模型的全连接层中,得到所述文本错误预测值。
具体地,在通过所述预设检测模型中的至少一个双向编码模块对所述语音识别样本进行向量编码,得到与所述语音识别样本对应的语音文本向量之后,对语音文本向量进行平均池化处理,以进一步提取语音文本向量中的特征,进而将平均池化处理后的语音文本向量输入至所述预设检测模型的全连接层中,对语音识别样本进行文本错误预测,得到文本错误预测值。
S03:根据所述语音识别样本以及所述语音真实文本,确定所述语音数据识别模型的文本错误真实值。
可以理解地,文本错误真实值表征的语音识别样本与语音真实文本之间的误差,也即语音识别样本与语音真实文本之间的不同。
具体地,在获取语音识别样本集之后,将与同一语音数据对应的语音识别样本以及语音真实文本进行比较,进而确定语音识别模型的文本错误真实值,也即该语音识别样本的文本错误真实值。
S04:根据所述文本错误预测值以及所述文本错误真实值,确定所述预设检测模型的预测损失值。
具体地,在根据所述语音识别样本以及所述语音真实文本,确定所述语音识别模型的文本错误真实值,以及通过所述预设检测模型对所述语音识别样本进行错误预测,得到文本错误预测值之后,根据文本错误预测值以及文本错误真实值,通过如MSE均方差损失函数、交叉熵损失函数等损失函数确定预设检测模型的预测损失值,也即确定预设检测模型对语音识别样本的错误率预测的偏差。
S05:在所述预测损失值未达到预设的收敛条件时,更新迭代所述预设检测模型的初始参数,直至所述预测损失值达到所述预设的收敛条件时,将收敛之后的所述预设检测模型记录为所述性能检测模型。
可以理解地,该收敛条件可以为预测损失值小于设定阈值的条件,也即在预测损失值小于设定阈值时,停止训练;收敛条件还可以为预测损失值经过了10000次计算后值为很小且不会再下降的条件,也即预测损失值经过10000次计算后值很小且不会下降时,停止训练,将收敛之后的所述预设检测模型记录为所述性能检测模型。
进一步地,根据所述文本错误预测值以及所述文本错误真实值,确定所述预设检测模型的预测损失值之后,在预测损失值未达到预设的收敛条件时,根据该预测损失值调整预设检测模型的初始参数,并将该语音识别样本重新输入至调整初始参数后的预设检测模型中,以在该语音识别样本对应的预测损失值达到预设的收敛条件时,选取语音识别样本集中另一仅语音识别样本,并执行上述步骤S01至S04,并得到与该语音识别样本对应的预测损失值,并在该预测损失值未达到预设的收敛条件时,根据该预测损失值再次调整预设检测模型的初始参数,使得该语音识别样本对应的预测损失值达到预设的收敛条件。
如此,在通过语音识别样本集中所有语音识别样本对预设检测模型进行训练之后,使得预设检测模型输出的结果可以不断向准确地结果靠拢,让识别准确率越来越高,直至所有语音识别样本对应的预测损失值均达到预设的收敛条件时,将收敛之后的所述预设检测模型记录为所述性能检测模型。
S40:在所述文本错误率大于或等于预设错误率阈值时,将所述语音识别模型的错误识别总数累加一。
可选地,预设错误率阈值可以根据具体应用场景进行选择,示例性地,预设错误率阈值可以设置为5%,10%等。错误识别总数指的是语音识别模型输出的语音识别文本的文本错误率大于或等于预设错误率阈值的总次数。
S50:获取所述错误识别总数,并将所述错误识别总数与所述预设数量之间的比值记录为错误比值;
S60:在所述错误比值大于或等于预设比值阈值时,发送包含所述语音识别模型的性能警示指令。
示例性地,假设语音识别模型为初期刚开始训练的模型,则预设比值阈值可以设定为20%,若语音识别模型为经过大量数据迭代训练后,预设比值阈值可以设定为5%,10%等。
具体地,在在所述文本错误率大于或等于预设错误率阈值时,将所述语音识别模型的错误识别总数加一之后,实时获取错误识别总数,并将获取的错误识别总数与预设数量之间的比值记录为错误比值,并将错误比值与预设比值阈值进行比较;在错误比值大于或等于预设比值阈值时,则确定语音识别模型的识别错误率较高,则可以采用邮件或者短信等方式发送包含所述语音识别模型的性能警示指令,以提示该语音识别模型的性能较差,需要进一步训练之后再适用于语音识别中;在错误比值小于预设比值阈值时,则表征语音识别模型的识别错误率较低,性能较好,因此可以继续对语音识别模型进行性能检测。
在本实施例中,通过引入性能检测模型针对语音识别模型输出的语音识别文本,对语音识别模型进行性能的优劣进行判断,可以替代人工抽检的方式,发现语音识别模型的性能的优劣,降低人工成本,提高性能检测的效率以及准确率。
在另一具体实施例中,为了保证上述实施例中的语音识别模型以及性能检测模型的私密以及安全性,可以将语音识别模型以及性能检测模型存储在区块链中。其中,区块链(Blockchain),是由区块(Block)形成的加密的、链式的交易的存储结构。
例如,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,从而基于哈希值实现区块中交易的防篡改和防伪造;新产生的交易被填充到区块并经过区块链网络中节点的共识后,会被追加到区块链的尾部从而形成链式的增长。
在一实施例中,步骤S60之后,也即所述发送包含所述语音识别模型的性能警示指令之后,包括:
将大于或等于预设错误率阈值的文本错误率对应的语音识别文本,以及与其对应的待识别语音数据关联记录为待训练数据。
根据所述待训练数据对所述语音识别模型进行模型更新训练,得到更新后的语音识别模型。
可以理解地,在错误比值大于或等于预设比值阈值时,表征语音识别模型当前的语音识别准确率较低,进而需要对语音识别模型进行再训练。因此,将大于或等于预设错误率阈值的文本错误率对应的待识别语音数据记录为待训练语音数据,进而根据该待训练语音数据,以及与其对应的语音识别文本(也即经过步骤S20语音识别得到的文本),对语音识别模型中的参数进行调整,从而可以提高调整更新后的语音识别模型准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种语音识别模型性能检测装置,该语音识别模型性能检测装置与上述实施例中语音识别模型性能检测方法一一对应。如图5所示,该语音识别模型性能检测装置包括语音数据集获取模块10、语音识别模块20、性能检测模块30、错误识别总数累加模块40、错误比值记录模块50和性能警示模块60。各功能模块详细说明如下:
语音数据集获取模块10,用于获取待识别语音数据集;所述待识别语音数据集中包括预设数量的待识别语音数据;
语音识别模块20,用于将所述待识别语音数据输入至语音识别模型中,以通过所述语音识别模型对所述待识别语音数据进行语音识别,得到语音识别文本;
性能检测模块30,用于将所述语音识别文本输入至性能检测模型中,以通过所述性能检测模型确定所述语音识别文本的文本错误率;
错误识别总数累加模块40,用于在所述文本错误率大于或等于预设错误率阈值时,将所述语音识别模型的错误识别总数累加一;
错误比值记录模块50,用于获取所述错误识别总数,并将所述错误识别总数与所述预设数量之间的比值记录为错误比值;
性能警示模块60,用于在所述错误比值大于或等于预设比值阈值时,发送包含所述语音识别模型的性能警示指令。
优选地,如图6所示,语音识别模块20包括:
语音识别单元201,用于通过所述分类识别模型对所述待识别语音数据进行语音识别之后得到分类识别文本,以及通过所述注意力识别模型对所述待识别语音数据进行语音识别之后注意力识别文本;
语音识别文本确定单元202,用于根据所述分类识别文本以及所述注意力识别文本,确定所述语音识别文本。
优选地,语音识别文本确定单元202包括:
识别权重获取子单元,用于获取与所述分类识别模型对应的第一识别权重,以及与所述注意力识别模型对应的第二识别权重;
语音识别文本确定子单元,用于根据所述第一识别权重、分类识别文本、第二识别权重以及注意力识别文本,确定所述语音识别文本。
优选地,语音识别模型性能检测装置还包括:
语音识别样本集获取模块01,用于获取语音识别样本集;所述语音识别样本集中包含至少一个语音识别样本;所述语音识别样本是通过不同的语音数据识别模型对语音数据进行语音识别后得到的;其中,所述语音数据与语音真实文本关联;
错误预测模块02,用于将所述语音识别样本输入至包含初始参数的预设检测模型中,通过所述预设检测模型对所述语音识别样本进行错误预测,得到文本错误预测值;
文本错误真实值确定模块03,用于根据所述语音识别样本以及所述语音真实文本,确定所述语音数据识别模型的文本错误真实值;
预测损失值确定模块04,用于根据所述文本错误预测值以及所述文本错误真实值,确定所述预设检测模型的预测损失值;
模型训练模块05,用于在所述预测损失值未达到预设的收敛条件时,更新迭代所述预设检测模型的初始参数,直至所述预测损失值达到所述预设的收敛条件时,将收敛之后的所述预设检测模型记录为所述性能检测模型。
优选地,错误预测模块包括:
向量编码单元,用于通过所述预设检测模型中的至少一个双向编码模块对所述语音识别样本进行向量编码,得到与所述语音识别样本对应的语音文本向量;
文本预测单元,用于对所述语音文本向量进行平均池化处理之后,将平均池化处理后的语音文本向量输入至所述预设检测模型的全连接层中,得到所述文本错误预测值。
优选地,语音识别模型性能检测装置包括:
待训练数据记录模块,用于将大于或等于预设错误率阈值的文本错误率对应的语音识别文本,以及与其对应的待识别语音数据关联记录为待训练数据;
模型更新训练模块,用于根据所述待训练数据对所述语音识别模型进行模型更新训练,得到更新后的语音识别模型。
关于语音识别模型性能检测装置的具体限定可以参见上文中对于语音识别模型性能检测方法的限定,在此不再赘述。上述语音识别模型性能检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中语音识别模型性能检测所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型性能检测方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中语音识别模型性能检测方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中语音识别模型性能检测方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (7)
1.一种语音识别模型性能检测方法,其特征在于,包括:
获取待识别语音数据集;所述待识别语音数据集中包括预设数量的待识别语音数据;
将所述待识别语音数据输入至语音识别模型中,以通过所述语音识别模型对所述待识别语音数据进行语音识别,得到语音识别文本;
将所述语音识别文本输入至性能检测模型中,以通过所述性能检测模型确定所述语音识别文本的文本错误率;
在所述文本错误率大于或等于预设错误率阈值时,将所述语音识别模型的错误识别总数累加一;
获取所述错误识别总数,并将所述错误识别总数与所述预设数量之间的比值记录为错误比值;
在所述错误比值大于或等于预设比值阈值时,发送包含所述语音识别模型的性能警示指令;
所述将所述语音识别文本输入至性能检测模型中之前,包括:
获取语音识别样本集;所述语音识别样本集中包含至少一个语音识别样本;所述语音识别样本是通过不同的语音数据识别模型对语音数据进行语音识别后得到的;其中,所述语音数据与语音真实文本关联;
将所述语音识别样本输入至包含初始参数的预设检测模型中,通过所述预设检测模型对所述语音识别样本进行错误预测,得到文本错误预测值;
根据所述语音识别样本以及所述语音真实文本,确定所述语音数据识别模型的文本错误真实值;
根据所述文本错误预测值以及所述文本错误真实值,确定所述预设检测模型的预测损失值;
在所述预测损失值未达到预设的收敛条件时,更新迭代所述预设检测模型的初始参数,直至所述预测损失值达到所述预设的收敛条件时,将收敛之后的所述预设检测模型记录为所述性能检测模型;
所述语音识别模型中包括分类识别模型以及注意力识别模型,所述通过所述语音识别模型对所述待识别语音数据进行语音识别,得到语音识别文本,包括:
通过所述分类识别模型对所述待识别语音数据进行语音识别之后得到分类识别文本,以及通过所述注意力识别模型对所述待识别语音数据进行语音识别之后注意力识别文本;
根据所述分类识别文本以及所述注意力识别文本,确定所述语音识别文本。
2.如权利要求1所述的语音识别模型性能检测方法,其特征在于,所述根据所述分类识别文本以及所述注意力识别文本,确定所述语音识别文本,包括:
获取与所述分类识别模型对应的第一识别权重,以及与所述注意力识别模型对应的第二识别权重;
根据所述第一识别权重、分类识别文本、第二识别权重以及注意力识别文本,确定所述语音识别文本。
3.如权利要求1所述的语音识别模型性能检测方法,其特征在于,所述通过所述预设检测模型对所述语音识别样本进行错误预测,得到文本错误预测值,包括:
通过所述预设检测模型中的至少一个双向编码模块对所述语音识别文本进行向量编码,得到与所述语音识别样本对应的语音文本向量;
对所述语音文本向量进行平均池化处理之后,将平均池化处理后的语音文本向量输入至所述预设检测模型的全连接层中,得到所述文本错误预测值。
4.如权利要求1所述的语音识别模型性能检测方法,其特征在于,所述发送包含所述语音识别模型的性能警示指令之后,包括:
将大于或等于预设错误率阈值的文本错误率对应的语音识别文本,以及与其对应的待识别语音数据关联记录为待训练数据;
根据所述待训练数据对所述语音识别模型进行模型更新训练,得到更新后的语音识别模型。
5.一种语音识别模型性能检测装置,其特征在于,所述语音识别模型性能检测装置用于执行如权利要求1至4任一项所述语音识别模型性能检测方法,所述语音识别模型性能检测装置包括:
语音数据集获取模块,用于获取待识别语音数据集;所述待识别语音数据集中包括预设数量的待识别语音数据;
语音识别模块,用于将所述待识别语音数据输入至语音识别模型中,以通过所述语音识别模型对所述待识别语音数据进行语音识别,得到语音识别文本;
性能检测模块,用于将所述语音识别文本输入至性能检测模型中,以通过所述性能检测模型确定所述语音识别文本的文本错误率;
错误识别总数累加模块,用于在所述文本错误率大于或等于预设错误率阈值时,将所述语音识别模型的错误识别总数累加一;
错误比值记录模块,用于获取所述错误识别总数,并将所述错误识别总数与所述预设数量之间的比值记录为错误比值;
性能警示模块,用于在所述错误比值大于或等于预设比值阈值时,发送包含所述语音识别模型的性能警示指令。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述语音识别模型性能检测方法。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述语音识别模型性能检测方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110448299.7A CN113257227B (zh) | 2021-04-25 | 2021-04-25 | 语音识别模型性能检测方法、装置、设备及存储介质 |
PCT/CN2021/097109 WO2022227195A1 (zh) | 2021-04-25 | 2021-05-31 | 语音识别模型性能检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110448299.7A CN113257227B (zh) | 2021-04-25 | 2021-04-25 | 语音识别模型性能检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113257227A CN113257227A (zh) | 2021-08-13 |
CN113257227B true CN113257227B (zh) | 2024-03-01 |
Family
ID=77221539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110448299.7A Active CN113257227B (zh) | 2021-04-25 | 2021-04-25 | 语音识别模型性能检测方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113257227B (zh) |
WO (1) | WO2022227195A1 (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012128188A (ja) * | 2010-12-15 | 2012-07-05 | Nippon Hoso Kyokai <Nhk> | テキスト修正装置およびプログラム |
CN105653517A (zh) * | 2015-11-05 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种识别率确定方法及装置 |
CN109473093A (zh) * | 2018-12-13 | 2019-03-15 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN110459206A (zh) * | 2019-08-19 | 2019-11-15 | 菏泽学院 | 一种基于双机器识别的语音识别***及方法 |
CN110473531A (zh) * | 2019-09-05 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、电子设备、***及存储介质 |
CN111696526A (zh) * | 2020-06-22 | 2020-09-22 | 北京达佳互联信息技术有限公司 | 语音识别模型的生成方法、语音识别方法、装置 |
KR20200129007A (ko) * | 2019-05-07 | 2020-11-17 | 주식회사 엔씨소프트 | 발화검증 장치 및 발화검증 방법 |
CN112217947A (zh) * | 2020-10-10 | 2021-01-12 | 携程计算机技术(上海)有限公司 | 客服电话语音转录文本方法、***、设备及存储介质 |
CN112560453A (zh) * | 2020-12-18 | 2021-03-26 | 平安银行股份有限公司 | 语音信息校验方法、装置、电子设备及介质 |
CN112634867A (zh) * | 2020-12-11 | 2021-04-09 | 平安科技(深圳)有限公司 | 模型训练方法、方言识别方法、装置、服务器及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297797B (zh) * | 2016-07-26 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠错方法和装置 |
CN106548772A (zh) * | 2017-01-16 | 2017-03-29 | 上海智臻智能网络科技股份有限公司 | 语音识别测试***及方法 |
CN110956959B (zh) * | 2019-11-25 | 2023-07-25 | 科大讯飞股份有限公司 | 语音识别纠错方法、相关设备及可读存储介质 |
CN112466288B (zh) * | 2020-12-18 | 2022-05-31 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
-
2021
- 2021-04-25 CN CN202110448299.7A patent/CN113257227B/zh active Active
- 2021-05-31 WO PCT/CN2021/097109 patent/WO2022227195A1/zh active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012128188A (ja) * | 2010-12-15 | 2012-07-05 | Nippon Hoso Kyokai <Nhk> | テキスト修正装置およびプログラム |
CN105653517A (zh) * | 2015-11-05 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种识别率确定方法及装置 |
CN109473093A (zh) * | 2018-12-13 | 2019-03-15 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
KR20200129007A (ko) * | 2019-05-07 | 2020-11-17 | 주식회사 엔씨소프트 | 발화검증 장치 및 발화검증 방법 |
CN110459206A (zh) * | 2019-08-19 | 2019-11-15 | 菏泽学院 | 一种基于双机器识别的语音识别***及方法 |
CN110473531A (zh) * | 2019-09-05 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、电子设备、***及存储介质 |
CN111696526A (zh) * | 2020-06-22 | 2020-09-22 | 北京达佳互联信息技术有限公司 | 语音识别模型的生成方法、语音识别方法、装置 |
CN112217947A (zh) * | 2020-10-10 | 2021-01-12 | 携程计算机技术(上海)有限公司 | 客服电话语音转录文本方法、***、设备及存储介质 |
CN112634867A (zh) * | 2020-12-11 | 2021-04-09 | 平安科技(深圳)有限公司 | 模型训练方法、方言识别方法、装置、服务器及存储介质 |
CN112560453A (zh) * | 2020-12-18 | 2021-03-26 | 平安银行股份有限公司 | 语音信息校验方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022227195A1 (zh) | 2022-11-03 |
CN113257227A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413730B (zh) | 文本信息匹配度检测方法、装置、计算机设备和存储介质 | |
CN110163261B (zh) | 不平衡数据分类模型训练方法、装置、设备及存储介质 | |
CN111062215B (zh) | 基于半监督学习训练的命名实体识别方法和装置 | |
US10714058B2 (en) | Decision-based data compression by means of deep learning technologies | |
CN112016318B (zh) | 基于解释模型的分诊信息推荐方法、装置、设备及介质 | |
WO2021043076A1 (zh) | 网络发布数据处理方法、装置、计算机设备和存储介质 | |
CN112766319B (zh) | 对话意图识别模型训练方法、装置、计算机设备及介质 | |
CN111859911A (zh) | 图像描述文本生成方法、装置、计算机设备及存储介质 | |
CN110968689A (zh) | 罪名及法条预测模型的训练方法以及罪名及法条预测方法 | |
CN113065525B (zh) | 年龄识别模型训练方法、人脸年龄识别方法及相关装置 | |
CN113723070B (zh) | 文本相似度模型训练方法、文本相似度检测方法及装置 | |
CN113627207B (zh) | 条码识别方法、装置、计算机设备和存储介质 | |
CN115758225B (zh) | 基于多模态数据融合的故障预测方法、装置与存储介质 | |
CN111666931B (zh) | 基于混合卷积文字图像识别方法、装置、设备及存储介质 | |
CN117197271A (zh) | 图像生成方法、装置、电子设备及存储介质 | |
CN115146068A (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
CN113257227B (zh) | 语音识别模型性能检测方法、装置、设备及存储介质 | |
CN105740916B (zh) | 图像特征编码方法及装置 | |
CN116504230A (zh) | 数据闭环方法、装置、计算机设备及计算机可读存储介质 | |
CN113239171B (zh) | 对话管理***更新方法、装置、计算机设备及存储介质 | |
CN112866257B (zh) | 一种域名检测方法、***及装置 | |
CN115169334A (zh) | 意图识别模型训练方法、装置、计算机设备及存储介质 | |
CN114254588A (zh) | 数据标签处理方法和装置 | |
CN112380860B (zh) | 句子向量处理方法、句子匹配方法、装置、设备和介质 | |
CN115204146B (zh) | 关键词抽取方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |