CN113593535A - 语音数据的处理方法及装置、存储介质、电子装置 - Google Patents
语音数据的处理方法及装置、存储介质、电子装置 Download PDFInfo
- Publication number
- CN113593535A CN113593535A CN202110744802.3A CN202110744802A CN113593535A CN 113593535 A CN113593535 A CN 113593535A CN 202110744802 A CN202110744802 A CN 202110744802A CN 113593535 A CN113593535 A CN 113593535A
- Authority
- CN
- China
- Prior art keywords
- voice
- preset
- model
- models
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title description 6
- 238000012545 processing Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种语音数据的处理方法及装置、存储介质、电子装置,上述方法包括:获取待处理的语音数据;根据多个预设语音模型中各预设语音模型对应的权重,从多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度;通过至少一个目标语音模型对待处理的语音数据进行处理,解决了现有技术中在使用多种语音识别引擎(即语音模型)进行语音识别时,识别时间长,无法确定识别结果的准确率等问题,确保了语音数据进行识别的灵活性,提升对于识别准确率的确定时间。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种语音数据的处理方法及装置、存储介质、电子装置。
背景技术
现有的语音对话***中,通过语音交互***从输入设备中获取来自用户的自然语音音频数据,将该音频数据输入至一个或多语音识别引擎来识别用户语音,从而获得语音识别结果。
单一引擎的识别,通常存在着各自的问题,尤其云端大模型,每个引擎都有各自的优劣,通常希望可以使各个引擎相互弥补,以提高识别效果。这就涉及到多引擎的识别。
通常,多引擎的使用为将用户的语音数据输入到多个引擎,得到全部引擎的识别结果后进行一定的计算,得到最终的结果。然而这就存在这,不同语音识别引擎的交互响应时间不尽相同的问题,若经过全部引擎,就一定会等待最后一个识别结果到来后,再进行后续的判决,但这种以时间为代价获取较佳的识别结果的方式,在真实的用户交互体验时,等待过久,严重影响交互体验。
针对相关技术中,在使用多种语音识别引擎(即语音模型)进行语音识别时,识别时间长,无法确定识别结果的准确率等问题,尚未提出有效的技术方案。
发明内容
本发明实施例提供了一种语音数据的处理方法及装置、存储介质、电子装置,以至少解决相关技术中,在使用多种语音识别引擎(即语音模型)进行语音识别时,识别时间长,无法确定识别结果的准确率等问题。
根据本发明的一个实施例,提供了一种语音数据的处理方法,包括:获取待处理的语音数据;根据多个预设语音模型中各预设语音模型对应的权重,从所述多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度;通过所述至少一个目标语音模型对所述待处理的语音数据进行处理。
在一个示例性实施例中,获取待处理的语音数据之前,所述方法还包括:获取用于训练所述多个预设语音模型的样本语音;通过所述多个预设语音模型分别对所述样本语音进行处理,得到各预设语音模型对应的识别结果和置信度;根据所述各预设语音模型对应的所述识别结果和所述置信度,确定所述多个预设语音模型对应的权重。
在一个示例性实施例中,通过所述多个预设语音模型分别对所述样本语音进行处理,得到各预设语音模型对应的识别结果,包括:获取所述样本语音的标准识别数据,其中,所述标准识别数据用于指示样本语音正确解析对应的文本内容;确定所述标准识别数据与所述各预设语音模型对于所述样本语音处理得到的识别数据的差异;根据所述差异确定出所述各预设语音模型对于所述样本语音的识别结果。
在一个示例性实施例中,通过所述多个预设语音模型分别对所述样本语音进行处理,得到各预设语音模型对应的置信度,包括:获取所述样本语音对应的置信区间;确定所述各预设语音模型对于所述样本语音处理得到的识别值存在与所述置信区间的概率,其中,所述识别值用于指示各预设语音模型对于样本语音识别后的识别数据与标准识别数据存在重复的词序数量;根据所述概率确定所述各预设语音模型对应的置信度。
在一个示例性实施例中,根据所述各预设语音模型对应的所述识别结果和所述置信度,确定所述多个预设语音模型对应的权重,包括:获取所述样本语音在所述多个预设语音模型的多个识别结果,根据所述多个识别结果确定所述样本语音的第一特征向量;获取所述样本语音在所述多个预设语音模型的多个置信度,根据所述多个置信度确定所述样本语音的第二特征向量;将所述第一特征向量和所述第二特征向量输入到预设神经网络模型中,以获取所述多个预设语音模型对应的权重。
在一个示例性实施例中,根据所述多个预设语音模型中各预设语音模型对应的权重,从所述多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度之前,所述方法还包括:确定所述待处理的语音数据对应目标对象的身份信息;根据所述身份信息确定目标对象的调用权限,其中,所述调用权限用于指示多个预设语音模型中能处理所述目标对象对应的所述待处理的语音数据的模型列表,其中,不同的预设识别模型用于识别不同结构的语音数据。
根据本发明的另一个实施例,提供了一种语音数据的处理装置,包括:获取模块,用于获取待处理的语音数据;配置模块,用于根据预设识别模型对所述语音数据进行识别配置,其中,所述预设识别模型为多个预设语音模型组成的用于识别语音的模型,所述预设识别模型包含各个预设语音模型对应的权重,所述权重用于指示不同预设语音模型对应识别结果和置信度的加权系数;确定模块,用于在确定所述识别配置对应内容的情况下,从所述多个预设语音模型中确定至少一个目标语音模型对所述待处理的语音数据进行识别处理。
在一个示例性实施例中,上述装置还包括:样本模块,用于获取用于训练所述多个预设语音模型的样本语音;通过所述多个预设语音模型分别对所述样本语音进行处理,得到各预设语音模型对应的识别结果和置信度;根据所述各预设语音模型对应的所述识别结果和所述置信度,确定所述多个预设语音模型对应的权重。
在一个示例性实施例中,上述样本模块,还用于获取所述样本语音的标准识别数据,其中,所述标准识别数据用于指示样本语音正确解析对应的文本内容;确定所述标准识别数据与所述各预设语音模型对于所述样本语音处理得到的识别数据的差异;根据所述差异确定出所述各预设语音模型对于所述样本语音的识别结果。
在一个示例性实施例中,上述样本模块,还用于获取所述样本语音对应的置信区间;确定所述各预设语音模型对于所述样本语音处理得到的识别值存在与所述置信区间的概率,其中,所述识别值用于指示各预设语音模型对于样本语音识别后的识别数据与标准识别数据存在重复的词序数量;根据所述概率确定所述各预设语音模型对应的置信度。
在一个示例性实施例中,上述样本模块,还用于获取所述样本语音在所述多个预设语音模型的多个识别结果,根据所述多个识别结果确定所述样本语音的第一特征向量;获取所述样本语音在所述多个预设语音模型的多个置信度,根据所述多个置信度确定所述样本语音的第二特征向量;将所述第一特征向量和所述第二特征向量输入到预设神经网络模型中,以获取所述多个预设语音模型对应的权重。
在一个示例性实施例中,上述装置还包括:权限模块,用于确定所述待处理的语音数据对应目标对象的身份信息;根据所述身份信息确定目标对象的调用权限,其中,所述调用权限用于指示多个预设语音模型中能处理所述目标对象对应的所述待处理的语音数据的模型列表,其中,不同的预设识别模型用于识别不同结构的语音数据。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,获取待处理的语音数据;根据多个预设语音模型中各预设语音模型对应的权重,从多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度;通过至少一个目标语音模型对待处理的语音数据进行处理,也就是说,通过确定多个预设语音模型中各预设语音模型对应的权重,从中选择出符合处理待处理的语音数据的至少一个目标语音模型对待处理的语音数据进行处理,从而向目标对象反馈更准确的语音结果,因此,可以解决现有技术中在使用多种语音识别引擎(即语音模型)进行语音识别时,识别时间长,无法确定识别结果的准确率等问题,确保了语音数据进行识别的灵活性,提升对于识别准确率的确定时间。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种语音数据的处理方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的语音数据的处理方法的流程图;
图3是根据本发明实施例的语音数据的处理装置的结构框图(一);
图4是根据本发明实施例的语音数据的处理装置的结构框图(二)。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例所提供的方法实施例可以在计算机终端或者设备终端类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种语音数据的处理方法的计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,在一个示例性实施例中,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的语音数据的处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种语音数据的处理方法,图2是根据本发明实施例的语音数据的处理方法的流程图,该流程包括如下步骤:
步骤S202,获取待处理的语音数据;
步骤S204,根据多个预设语音模型中各预设语音模型对应的权重,从所述多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度;
步骤S206,通过所述至少一个目标语音模型对所述待处理的语音数据进行处理。
通过上述步骤,获取待处理的语音数据;根据多个预设语音模型中各预设语音模型对应的权重,从多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度;通过至少一个目标语音模型对待处理的语音数据进行处理,也就是说,通过确定多个预设语音模型中各预设语音模型对应的权重,从中选择出符合处理待处理的语音数据的至少一个目标语音模型对待处理的语音数据进行处理,从而向目标对象反馈更准确的语音结果,因此,可以解决现有技术中在使用多种语音识别引擎(即语音模型)进行语音识别时,识别时间长,无法确定识别结果的准确率等问题,确保了语音数据进行识别的灵活性,提升对于识别准确率的确定时间。
需要说明的是,上述预设语音模型的识别种类多种多样,即存在可以进行语音识别的预设语音模型,还可以存在用于进行语义理解的预设语音模型,还可以是用于进行声纹识别的预设语音模型,本发明对此不做过多限定,但类似的模型均可以作为本发明实施例中的预设语音模型。
在一个示例性实施例中,获取待处理的语音数据之前,所述方法还包括:获取用于训练所述多个预设语音模型的样本语音;通过所述多个预设语音模型分别对所述样本语音进行处理,得到各预设语音模型对应的识别结果和置信度;根据所述各预设语音模型对应的所述识别结果和所述置信度,确定所述多个预设语音模型对应的权重。
需要说明的是,样本语音与待处理的语音数据具有相同的参数信息,具体的:参数信息可以是:用户ID、声纹特征、针对的语音处理设备(家电、机器人、音箱等)等。
可以理解的是,为了保证语音数据可以在后续的过程中被更加快速的识别,在确定了语音数据的处理准确率之后,根据语音数据对应内容的语义种类,确定对于同一种语义种类不同识别模型的准确率,继而得到所述语音数据的语音数据识别列表,在后续碰见包含相同语义中的语音数据时,从语音数据识别列表选择具有较高识别准确率对应的预设识别模型进行识别操作。
在一个示例性实施例中,通过所述多个预设语音模型分别对所述样本语音进行处理,得到各预设语音模型对应的识别结果,包括:获取所述样本语音的标准识别数据,其中,所述标准识别数据用于指示样本语音正确解析对应的文本内容;确定所述标准识别数据与所述各预设语音模型对于所述样本语音处理得到的识别数据的差异;根据所述差异确定出所述各预设语音模型对于所述样本语音的识别结果。
在一个示例性实施例中,通过所述多个预设语音模型分别对所述样本语音进行处理,得到各预设语音模型对应的置信度,包括:获取所述样本语音对应的置信区间;确定所述各预设语音模型对于所述样本语音处理得到的识别值存在与所述置信区间的概率,其中,所述识别值用于指示各预设语音模型对于样本语音识别后的识别数据与标准识别数据存在重复的词序数量;根据所述概率确定所述各预设语音模型对应的置信度。
也就是说,为了保证语音数据识别的准确率在一定安全范围内,通过预设的词错误率阈值对预设识别模型对应的历史词错误率进行筛选,进而将识别语音数据的预设识别模型的词错误率保证在目标对象允许的范围内。
在一个示例性实施例中,根据所述各预设语音模型对应的所述识别结果和所述置信度,确定所述多个预设语音模型对应的权重,包括:获取所述样本语音在所述多个预设语音模型的多个识别结果,根据所述多个识别结果确定所述样本语音的第一特征向量;获取所述样本语音在所述多个预设语音模型的多个置信度,根据所述多个置信度确定所述样本语音的第二特征向量;将所述第一特征向量和所述第二特征向量输入到预设神经网络模型中,以获取所述多个预设语音模型对应的权重。
在一个示例性实施例中,根据所述多个预设语音模型中各预设语音模型对应的权重,从所述多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度之前,所述方法还包括:确定所述待处理的语音数据对应目标对象的身份信息;根据所述身份信息确定目标对象的调用权限,其中,所述调用权限用于指示多个预设语音模型中能处理所述目标对象对应的所述待处理的语音数据的模型列表,其中,不同的预设识别模型用于识别不同结构的语音数据。
简而言之,由于不同的目标对象对应的身份信息不同,在进行预设识别模型调用时可供选择的预设识别模型也是不同的,由于目标对象可以提前在服务器上进行身份的注册,并根据注册结果为其分配对应的预设识别模型的调用权限,即在对目标对象在服务器上完成了注册,且目标对象身份验证通过的情况下,可以从服务器上设置的多个预设识别模型中选取与调用权限对应的一个或多个预设识别模型进行语音数据的处理。
为了更好的理解上述语音数据的处理方法的过程,以下结合两个可选实施例对上述语音数据的处理方法流程进行说明。
在智能语音对话***中,为了不影响交互响应时间,通过调用多个通用语音识别引擎的方法来达到最佳的用户交互体验的一种重新分配流量调用的分流策略。由于现有的多引擎调用通常为同时在多个引擎上识别同一用户语音数据,这样导致了各个引擎的响应时间是不一致的,而每次以所有结果得到的时间为准,这样就导致,每次都是以最长的交互时间为最终的响应时间,严重影响用户的交互体验。但多个引擎的优点却是明显的,可以互相弥补已达到最优的识别结果。
为解决这一问题,本发明可选实施例中,主要提供了一种基于多语音识别引擎的分流策略的实现方法,通过使用定时重新分配流量的策略,每个语音仅通过一个引擎识别,但该引擎为各引擎中识别该语音最优的引擎,定期重新分配每个用户使用的引擎,以达到用户的数据与引擎的匹配度最高,达到最优的识别结果及交互体验,进而通过使用多引擎动态分流的策略,动态调用不同的引擎,达到在单一引擎调用的响应时间内反馈给用户更准确的识别结果,却不影响交互体验的技术效果。
作为一种可选的实施方式,多通用语音识别引擎识别结果输出解决方案如下,包含以下步骤:
步骤1、首先基于现有识别***,利用人机对话将部分用户语音同时进入多引擎识别,并对用户数据进行筛选及标注,以得到用户的正确指令要求。
步骤2、对各个引擎在上述步骤中的数据得到的置信度(也称可信度)confidence值进行统计,根据各引擎的阈值分析,确定整体数据中达到阈值的比例;
可选地,Confidence值的计算:由于是云端通用模型,根据模型的不同结构及结果进行统计confidence。
作为一种可选的实施例,传统的模型结构使用的是后验概率,即:使用语言模型及声学模型打分来确定最佳路径,以得到后验概率的结果,语音识别得到最佳词序列的公式如下:
其中,P(W)为语言模型的打分,P(X|W)为声学模型打分。
作为另一种可选的实施方式,可以进行Confidence比例的计算,根据所有的引擎计算得到所有数据的confidence结果,经过softmax归一化,
例如,假设共m个引擎,n个数据:
其中,上述c(total)为总的置信度值,上述cm(conf{1..n}>thresm)表示m个引擎对n个数据进行识别后对应的置信度值是否大于预设的M个引擎的平均置信度;CM用于指示n个数据在M引擎中的可信度的比例构成的向量;通过softmax函数对向量进行归一化:公式如下:
S1=softmax(CM);
可选地,识别结果比例计算:根据识别评估标准的词错误率WER进行统计每个引擎的识别结果,公式如下:
WM=[(1-WER1),...,(1-WERm)];
上述WM为识别准确率的向量;同样经过softmax函数归一化;
S2=softmax(WM);
结合上述归一化后的结果S1及S2,加权平均重新衡量每个引擎的性能:
S=λ1S1+λ2S2
其中,λ1,λ2∈Rm,Rm为每一个引擎对应的权重系数的集合,将S1及S2作为两组m维特征的向量,使用k折交叉验证,进行DNN模型训练,得到最优的λ1,λ2,从而得到最后的分配结果S。
步骤3、对S进行排序,选取准确率为前三的三个引擎,默认词错误率的相差度在10%以内,重新做归一化后,得到最终的权重分配方案,即云端通过配置用户可调用的引擎方式,在多引擎择优选一个的引擎调用的情况下,达到最大程度的提高识别率。
步骤4、定期重复执行步骤1-3,将整个流程自动化为动态根据权重重新分配引擎调用的方式。
可选地,根据以下表1的实际测试结果(WER)来看,双引擎的效果最佳:
表1
综上,本发明可选实施例,通过将多引擎的置信度和识别结果作为特征向量,进行不同引擎的权重系数模型训练调优,得到最佳的权重结果。根据权重结果进行引擎的动态分配,使得不同的用户可调用不同的引擎。达到最优的识别准确性,定期重新训练权重结果,动态分配引擎。此外,使用多语音识别引擎混合调用方式,提高识别正确率,并且用户指令进入单一引擎,得到全部引擎的最佳识别结果,降低响应时间,进一步的由于各引擎的权重可自动生成,故可自动调用不同的引擎,实现动态分配策略。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种语音数据的处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的语音数据的处理装置的结构框图,如图3所示,该装置包括:
(1)获取模块34,用于获取待处理的语音数据;
(2)配置模块36,用于根据多个预设语音模型中各预设语音模型对应的权重,从所述多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度;
(3)确定模块38,用于通过所述至少一个目标语音模型对所述待处理的语音数据进行处理。
通过上述装置,获取待处理的语音数据;根据多个预设语音模型中各预设语音模型对应的权重,从多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度;通过至少一个目标语音模型对待处理的语音数据进行处理,也就是说,通过确定多个预设语音模型中各预设语音模型对应的权重,从中选择出符合处理待处理的语音数据的至少一个目标语音模型对待处理的语音数据进行处理,从而向目标对象反馈更准确的语音结果,因此,可以解决现有技术中在使用多种语音识别引擎(即语音模型)进行语音识别时,识别时间长,无法确定识别结果的准确率等问题,确保了语音数据进行识别的灵活性,提升对于识别准确率的确定时间。
需要说明的是,上述预设语音模型的识别种类多种多样,即存在可以进行语音识别的预设语音模型,还可以存在用于进行语义理解的预设语音模型,还可以是用于进行声纹识别的预设语音模型,本发明对此不做过多限定,但类似的模型均可以作为本发明实施例中的预设语音模型。
图4是根据本发明实施例的另一种语音数据的处理装置的结构框图,如图4所示,该装置还包括:样本模块30,权限模块32;
在一个示例性实施例中,上述装置还包括:样本模块,用于获取用于训练所述多个预设语音模型的样本语音;通过所述多个预设语音模型分别对所述样本语音进行处理,得到各预设语音模型对应的识别结果和置信度;根据所述各预设语音模型对应的所述识别结果和所述置信度,确定所述多个预设语音模型对应的权重。
需要说明的是,样本语音与待处理的语音数据具有相同的参数信息,具体的:参数信息可以是:用户ID、声纹特征、针对的语音处理设备(家电、机器人、音箱等)等。
可以理解的是,为了保证语音数据可以在后续的过程中被更加快速的识别,在确定了语音数据的处理准确率之后,根据语音数据对应内容的语义种类,确定对于同一种语义种类不同识别模型的准确率,继而得到所述语音数据的语音数据识别列表,在后续碰见包含相同语义中的语音数据时,从语音数据识别列表选择具有较高识别准确率对应的预设识别模型进行识别操作。
在一个示例性实施例中,上述样本模块,还用于获取所述样本语音的标准识别数据,其中,所述标准识别数据用于指示样本语音正确解析对应的文本内容;确定所述标准识别数据与所述各预设语音模型对于所述样本语音处理得到的识别数据的差异;根据所述差异确定出所述各预设语音模型对于所述样本语音的识别结果。
在一个示例性实施例中,上述样本模块,还用于获取所述样本语音对应的置信区间;确定所述各预设语音模型对于所述样本语音处理得到的识别值存在与所述置信区间的概率,其中,所述识别值用于指示各预设语音模型对于样本语音识别后的识别数据与标准识别数据存在重复的词序数量;根据所述概率确定所述各预设语音模型对应的置信度。
也就是说,为了保证语音数据识别的准确率在一定安全范围内,通过预设的词错误率阈值对预设识别模型对应的历史词错误率进行筛选,进而将识别语音数据的预设识别模型的词错误率保证在目标对象允许的范围内。
在一个示例性实施例中,上述样本模块,还用于获取所述样本语音在所述多个预设语音模型的多个识别结果,根据所述多个识别结果确定所述样本语音的第一特征向量;获取所述样本语音在所述多个预设语音模型的多个置信度,根据所述多个置信度确定所述样本语音的第二特征向量;将所述第一特征向量和所述第二特征向量输入到预设神经网络模型中,以获取所述多个预设语音模型对应的权重。
在一个示例性实施例中,上述装置还包括:权限模块,用于确定所述待处理的语音数据对应目标对象的身份信息;根据所述身份信息确定目标对象的调用权限,其中,所述调用权限用于指示多个预设语音模型中能处理所述目标对象对应的所述待处理的语音数据的模型列表,其中,不同的预设识别模型用于识别不同结构的语音数据。
简而言之,由于不同的目标对象对应的身份信息不同,在进行预设识别模型调用时可供选择的预设识别模型也是不同的,由于目标对象可以提前在服务器上进行身份的注册,并根据注册结果为其分配对应的预设识别模型的调用权限,即在对目标对象在服务器上完成了注册,且目标对象身份验证通过的情况下,可以从服务器上设置的多个预设识别模型中选取与调用权限对应的一个或多个预设识别模型进行语音数据的处理。
在本发明的描述中,需要理解的是,术语中“中心”、“上”、“下”、“前”、“后”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或组件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连接”、“相连”应做广义理解,例如,可以是固定连接,也可以是拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以是通过中间媒介间接相连,可以是两个组件内部的连通。当组件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明的具体含义。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待处理的语音数据;
S2,根据多个预设语音模型中各预设语音模型对应的权重,从所述多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度;
S3,通过所述至少一个目标语音模型对所述待处理的语音数据进行处理。
在一个示例性实施例中,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
在一个示例性实施例中,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待处理的语音数据;
S2,根据多个预设语音模型中各预设语音模型对应的权重,从所述多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度;
S3,通过所述至少一个目标语音模型对所述待处理的语音数据进行处理。
在一个示例性实施例中,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,在一个示例性实施例中,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音数据的处理方法,其特征在于,包括:
获取待处理的语音数据;
根据多个预设语音模型中各预设语音模型对应的权重,从所述多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度;
通过所述至少一个目标语音模型对所述待处理的语音数据进行处理。
2.根据权利要求1所述的方法,其特征在于,获取待处理的语音数据之前,所述方法还包括:
获取用于训练所述多个预设语音模型的样本语音;
通过所述多个预设语音模型分别对所述样本语音进行处理,得到各预设语音模型对应的识别结果和置信度;
根据所述各预设语音模型对应的所述识别结果和所述置信度,确定所述多个预设语音模型对应的权重。
3.根据权利要求2所述的方法,其特征在于,通过所述多个预设语音模型分别对所述样本语音进行处理,得到各预设语音模型对应的识别结果,包括:
获取所述样本语音的标准识别数据,其中,所述标准识别数据用于指示样本语音正确解析对应的文本内容;
确定所述标准识别数据与所述各预设语音模型对于所述样本语音处理得到的识别数据的差异;
根据所述差异确定出所述各预设语音模型对于所述样本语音的识别结果。
4.根据权利要求2所述的方法,其特征在于,通过所述多个预设语音模型分别对所述样本语音进行处理,得到各预设语音模型对应的置信度,包括:
获取所述样本语音对应的置信区间;
确定所述各预设语音模型对于所述样本语音处理得到的识别值存在与所述置信区间的概率,其中,所述识别值用于指示各预设语音模型对于样本语音识别后的识别数据与标准识别数据存在重复的词序数量;
根据所述概率确定所述各预设语音模型对应的置信度。
5.根据权利要求2所述的方法,其特征在于,根据所述各预设语音模型对应的所述识别结果和所述置信度,确定所述多个预设语音模型对应的权重,包括:
获取所述样本语音在所述多个预设语音模型的多个识别结果,根据所述多个识别结果确定所述样本语音的第一特征向量;
获取所述样本语音在所述多个预设语音模型的多个置信度,根据所述多个置信度确定所述样本语音的第二特征向量;
将所述第一特征向量和所述第二特征向量输入到预设神经网络模型中,以获取所述多个预设语音模型对应的权重。
6.根据权利要求1所述的方法,其特征在于,根据所述多个预设语音模型中各预设语音模型对应的权重,从所述多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度之前,所述方法还包括:
确定所述待处理的语音数据对应目标对象的身份信息;
根据所述身份信息确定目标对象的调用权限,其中,所述调用权限用于指示多个预设语音模型中能处理所述目标对象对应的所述待处理的语音数据的模型列表,其中,不同的预设识别模型用于识别不同结构的语音数据。
7.一种语音数据的处理装置,其特征在于,包括:
获取模块,用于获取待处理的语音数据;
配置模块,用于根据多个预设语音模型中各预设语音模型对应的权重,从所述多个预设语音模型中确定至少一个目标语音模型,各预设语音模型的权重表征该预设语音模型识别结果的置信度;
确定模块,用于通过所述至少一个目标语音模型对所述待处理的语音数据进行处理。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
样本模块,用于获取用于训练所述多个预设语音模型的样本语音;通过所述多个预设语音模型分别对所述样本语音进行处理,得到各预设语音模型对应的识别结果和置信度;根据所述各预设语音模型对应的所述识别结果和所述置信度,确定所述多个预设语音模型对应的权重。
9.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110744802.3A CN113593535B (zh) | 2021-06-30 | 2021-06-30 | 语音数据的处理方法及装置、存储介质、电子装置 |
PCT/CN2022/096411 WO2023273776A1 (zh) | 2021-06-30 | 2022-05-31 | 语音数据的处理方法及装置、存储介质、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110744802.3A CN113593535B (zh) | 2021-06-30 | 2021-06-30 | 语音数据的处理方法及装置、存储介质、电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113593535A true CN113593535A (zh) | 2021-11-02 |
CN113593535B CN113593535B (zh) | 2024-05-24 |
Family
ID=78245663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110744802.3A Active CN113593535B (zh) | 2021-06-30 | 2021-06-30 | 语音数据的处理方法及装置、存储介质、电子装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113593535B (zh) |
WO (1) | WO2023273776A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114446279A (zh) * | 2022-02-18 | 2022-05-06 | 青岛海尔科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
WO2023273776A1 (zh) * | 2021-06-30 | 2023-01-05 | 青岛海尔科技有限公司 | 语音数据的处理方法及装置、存储介质、电子装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103117058A (zh) * | 2012-12-20 | 2013-05-22 | 四川长虹电器股份有限公司 | 基于智能电视平台的多语音引擎切换***及方法 |
CN103853703A (zh) * | 2014-02-19 | 2014-06-11 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN104795069A (zh) * | 2014-01-21 | 2015-07-22 | 腾讯科技(深圳)有限公司 | 语音识别方法和服务器 |
CN111179934A (zh) * | 2018-11-12 | 2020-05-19 | 奇酷互联网络科技(深圳)有限公司 | 选择语音引擎的方法、移动终端和计算机可读存储介质 |
CN111883122A (zh) * | 2020-07-22 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 语音识别方法及装置、存储介质、电子设备 |
WO2021000497A1 (zh) * | 2019-07-03 | 2021-01-07 | 平安科技(深圳)有限公司 | 检索方法、装置、计算机设备和存储介质 |
WO2021114840A1 (zh) * | 2020-05-28 | 2021-06-17 | 平安科技(深圳)有限公司 | 基于语义分析的评分方法、装置、终端设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110148416B (zh) * | 2019-04-23 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备和存储介质 |
CN111933117A (zh) * | 2020-07-30 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 语音验证方法和装置、存储介质及电子装置 |
CN112116910A (zh) * | 2020-10-30 | 2020-12-22 | 珠海格力电器股份有限公司 | 语音指令的识别方法和装置、存储介质、电子装置 |
CN113593535B (zh) * | 2021-06-30 | 2024-05-24 | 青岛海尔科技有限公司 | 语音数据的处理方法及装置、存储介质、电子装置 |
-
2021
- 2021-06-30 CN CN202110744802.3A patent/CN113593535B/zh active Active
-
2022
- 2022-05-31 WO PCT/CN2022/096411 patent/WO2023273776A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103117058A (zh) * | 2012-12-20 | 2013-05-22 | 四川长虹电器股份有限公司 | 基于智能电视平台的多语音引擎切换***及方法 |
CN104795069A (zh) * | 2014-01-21 | 2015-07-22 | 腾讯科技(深圳)有限公司 | 语音识别方法和服务器 |
CN103853703A (zh) * | 2014-02-19 | 2014-06-11 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN111179934A (zh) * | 2018-11-12 | 2020-05-19 | 奇酷互联网络科技(深圳)有限公司 | 选择语音引擎的方法、移动终端和计算机可读存储介质 |
WO2021000497A1 (zh) * | 2019-07-03 | 2021-01-07 | 平安科技(深圳)有限公司 | 检索方法、装置、计算机设备和存储介质 |
WO2021114840A1 (zh) * | 2020-05-28 | 2021-06-17 | 平安科技(深圳)有限公司 | 基于语义分析的评分方法、装置、终端设备及存储介质 |
CN111883122A (zh) * | 2020-07-22 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 语音识别方法及装置、存储介质、电子设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023273776A1 (zh) * | 2021-06-30 | 2023-01-05 | 青岛海尔科技有限公司 | 语音数据的处理方法及装置、存储介质、电子装置 |
CN114446279A (zh) * | 2022-02-18 | 2022-05-06 | 青岛海尔科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2023273776A1 (zh) | 2023-01-05 |
CN113593535B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7039951B1 (en) | System and method for confidence based incremental access authentication | |
CN110310633B (zh) | 多音区语音识别方法、终端设备和存储介质 | |
EP2763134B1 (en) | Method and apparatus for voice recognition | |
CN110336723A (zh) | 智能家电的控制方法及装置、智能家电设备 | |
CN113593535B (zh) | 语音数据的处理方法及装置、存储介质、电子装置 | |
CN107978311A (zh) | 一种语音数据处理方法、装置以及语音交互设备 | |
EP2760018A1 (en) | Voice identification method and apparatus | |
CN109817222B (zh) | 一种年龄识别方法、装置及终端设备 | |
CN109640340A (zh) | 基站数据处理方法、装置、设备及计算机可读存储介质 | |
CN109065051B (zh) | 一种语音识别处理方法及装置 | |
CN111862951B (zh) | 语音端点检测方法及装置、存储介质、电子设备 | |
CN110634471B (zh) | 一种语音质检方法、装置、电子设备和存储介质 | |
CN106169295A (zh) | 身份向量生成方法和装置 | |
CN111312286A (zh) | 年龄识别方法、装置、设备及计算机可读存储介质 | |
CN111797320A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110572524A (zh) | 一种用户呼叫处理方法、装置、存储介质和服务器 | |
CN110415044A (zh) | 作弊检测方法、装置、设备及存储介质 | |
CN111343660B (zh) | 一种应用程序的测试方法及设备 | |
CN110889009B (zh) | 一种声纹聚类方法、装置、处理设备以及计算机存储介质 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
CN110175655B (zh) | 数据识别方法及装置、存储介质及电子设备 | |
CN112735406B (zh) | 设备的控制方法及装置、存储介质及电子装置 | |
CN109346080A (zh) | 语音控制方法、装置、设备和存储介质 | |
CN112735394B (zh) | 一种语音的语义解析方法及装置 | |
CN115146775A (zh) | 边缘设备推理加速方法、装置和数据处理*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |