CN114049883A - 语音识别方法及装置、计算机可读存储介质 - Google Patents
语音识别方法及装置、计算机可读存储介质 Download PDFInfo
- Publication number
- CN114049883A CN114049883A CN202111399172.7A CN202111399172A CN114049883A CN 114049883 A CN114049883 A CN 114049883A CN 202111399172 A CN202111399172 A CN 202111399172A CN 114049883 A CN114049883 A CN 114049883A
- Authority
- CN
- China
- Prior art keywords
- instruction
- voice
- training
- model
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 149
- 238000004458 analytical method Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 14
- 230000000875 corresponding effect Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000013179 statistical model Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 241000220317 Rosa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种语音识别方法及装置、计算机可读存储介质,所述方法包括:接收语音指令;将所述语音指令输入特定语音模型中,得到所述语音指令为预设指令的当前概率;将所述语音指令输入特定域语音模型中,得到用于确定所述语音指令是否为所述预设指令的概率阈值;根据所述当前概率和所述概率阈值之间的关系,确定所述语音指令是否是预设指令;其中,所述特定语音模型以第一样本集为样本训练得到,所述特定域语音模型以训练集和所述第一样本集为样本训练得到,所述训练集包含所述预设指令对应的所述第一样本集和非预设指令对应的第二样本集。由此,在少量训练数据的情况下,能够训练出收敛效果好的语音识别模型,并实现较好的语音指令识别效果。
Description
技术领域
本申请涉及语音识别领域,尤其涉及一种语音识别方法及装置、计算机可读存储介质。
背景技术
随着计算机技术和大数据技术的发展,各种电子数据得到了广泛的应用,语音数据作为电子数据的一个重要组成部分,如何对语音数据进行智能识别成为当前普遍面临的问题。
传统的,一般会基于大量的语音样本打标签后作为模型的训练数据,以训练出用于语音识别的模型。然而一般需要大量的训练样本才能收敛得到效果较好的语音识别模型。
综上,如何在少量训练数据的情况下,也能够训练出收敛效果好的语音识别模型,并实现较好的语音指令识别效果,成为亟待解决的问题。
发明内容
本申请解决的技术问题是如何提供一种语音识别方法,在少量训练数据的情况下,也能够训练出收敛效果好的语音识别模型,并实现较好的语音指令识别效果。
为解决上述问题,本申请实施例提供了一种语音识别方法,所述方法包括:接收语音指令;将所述语音指令输入特定语音模型中,得到所述语音指令为预设指令的当前概率;将所述语音指令输入特定域语音模型中,得到用于确定所述语音指令是否为所述预设指令的概率阈值;根据所述当前概率和所述概率阈值之间的关系,确定所述语音指令是否是预设指令;其中,所述特定语音模型以第一样本集为样本训练得到,所述特定域语音模型以训练集和所述第一样本集为样本训练得到,所述训练集包含所述预设指令对应的所述第一样本集和非预设指令对应的第二样本集。
可选的,所述第一样本集和所述训练集均包括多个指令,每个指令均包括多个语音信号帧;所述特定语音模型包括第一聚类模块和识别模块,所述第一聚类模块用于对输入的指令中的语音信号帧进行逐帧分析,所述识别模块用于根据输入的指令中各个语音信号帧的逐帧分析结果计算输入的指令为预设指令的概率;所述第一聚类模块的训练步骤包括:以所述第一样本集中多个指令的语音信号帧为训练样本,对初始的第一聚类模块进行模型训练,得到训练后的第一聚类模块;所述识别模块的训练步骤包括:以所述第一样本集经过所述第一聚类模块得到的聚类结果为训练样本,对初始的识别模块进行模型训练,得到训练后的识别模块;所述特定域语音模型包括第二聚类模块和所述识别模块,所述第二聚类模块用于对输入的指令中的语音信号帧进行逐帧分析;所述第二聚类模块的训练步骤包括:以所述训练集中各个指令的语音信号帧为训练样本,对初始的第二聚类模块进行模型训练,得到训练后的第二聚类模块。
可选的,所述第一聚类模块和/或所述第二聚类模块包括高斯混合聚类模型,所述识别模块包括隐马尔科夫模型。
可选的,当所述概率阈值小于所述当前概率,和/或,所述当前概率和所述概率阈值之间的差值的绝对值大于等于第一预设值时,确定所述语音指令的识别结果有效。
可选的,所述根据所述当前概率和所述概率阈值之间的关系,确定所述语音指令是否是预设指令,包括:当所述当前概率的值大于等于第二预设值、且所述语音指令的识别结果有效时,所述语音指令是所述预设指令。
可选的,所述根据所述当前概率和所述概率阈值之间的关系,确定所述语音指令是否是预设指令,还包括:当所述当前概率的值小于第二预设值、且所述语音指令的识别结果有效时,所述语音指令为所述非预设指令。
可选的,所述方法还包括:若确定所述语音指令的识别结果无效,则输出对所述语音指令识别失败的消息。
本申请实施例还提供一种语音识别装置,所述装置包括:指令接收模块,用于接收语音指令;概率计算单元,用于将所述语音指令输入特定语音模型中,得到所述语音指令为预设指令的当前概率;阈值获取模块,用于将所述语音指令输入特定域语音模型中,得到用于确定所述语音指令是否为所述预设指令的概率阈值;指令确定模块,用于根据所述当前概率和所述概率阈值之间的关系,确定所述语音指令是否是预设指令;其中,所述特定语音模型以第一样本集为样本训练得到,所述特定域语音模型以训练集和所述第一样本集为样本训练得到,所述训练集包含所述预设指令对应的所述第一样本集和非预设指令对应的第二样本集。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,实现上述方法的步骤。
本申请实施例还提供一种语音识别装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时,执行上述方法的步骤。
与现有技术相比,本申请实施例的技术方案具有以下有益效果:
本申请实施例提供一种语音识别方法,包括:接收语音指令;将所述语音指令输入特定语音模型中,得到所述语音指令为预设指令的当前概率;将所述语音指令输入特定域语音模型中,得到用于确定所述语音指令是否为所述预设指令的概率阈值;根据所述当前概率和所述概率阈值之间的关系,确定所述语音指令是否是预设指令;其中,所述特定语音模型以第一样本集为样本训练得到,所述特定域语音模型以训练集和所述第一样本集为样本训练得到,所述训练集包含所述预设指令对应的所述第一样本集和非预设指令对应的第二样本集。较之现有技术,本申请实施例的语音识别方法,能够基于数据量较小的训练集训练得到特定语音模型和特定域语音模型,生成各个输入语音指令动态对应的当前概率和概率阈值,综合当前概率和概率阈值进行本次语音指令的识别。由此,能够在少量训练数据的情况下,也能够训练出收敛效果好的识别模型,达到较好的语音指令识别效果。
进一步,特定语音模型基于第一样本集训练得到,其训练数据量小,在语音指令的识别中针对性更高。特定域语音模型的聚类模块基于更大数据量的训练集训练得到,能够引入从更多指令样本的逐帧分析结果中学习到的分析能力。如果特定域语音模型中的识别模块基于与第二聚类模块相同的训练样本训练得到,则会引入非预设指令的干扰因素,反而会降低识别结果的针对性。故,本实施例中特定域语音模型中的识别模块的参数与特定语音模型中的识别模块的参数保持一致,使得特定域语音模型在引入更高的分析能力的同时,保持识别结果的针对性,从而具有更好的语音识别效果。
进一步,本申请实施例创建一个独立于模型训练阶段生成的固定的训练阈值之外的动态阈值,也即各个语音指令的概率阈值,实现一种软决策的方案。进而结合软决策和硬决策两种决策形式,可以针对更复杂的语音识别情况做出决策。
附图说明
图1为本申请实施例的第一种语音识别方法的流程示意图;
图2为本申请实施例的一种用于模型训练的数据集的示意图;
图3为本申请实施例的特定语音模型和特定域语音模型的训练简图;
图4为本申请实施例的一种具体语音识别方法的部分流程图
图5为本申请实施例的一种语音识别装置的结构示意图。
具体实施方式
如背景技术所言,当前面临的问题为:如何在少量训练数据的情况下,也能够训练出收敛效果好的语音识别模型,并实现较好的语音指令识别效果。
具体地,基于时间序列的统计模型提供了数据分布的良好内部方面,使其适合于分类、决策和预测。因此,它们被广泛应用于现代移动设备中的许多人工识别/预测任务中,比如在智能语音识别任务中,基于时间序列的统计模型即得到了广泛的应用。在大多数情况下,这些模型对输入的语音数据进行识别并返回输入的语音数据对应类别、方向或趋势概率的观察结果。
然而,这些模型总是需要一些辅助信息(比如计算得到的概率对应的阈值)来帮助得到最后的识别结果。当语音的识别任务在资源有限的设备上运行时,主要有以下两个困难:(1)这些统计模型需要尽可能由大量训练数据训练得到,以保证其在实际应用中的有效性。但训练数据并不总是能够很好地代表真实世界的语音数据的分布情况。这使得模型的识别结果很容易落入局部最大值/最小值,也即发生过拟合现象,导致识别结果不明确。(2)在计算或者存储资源有限的设备中,可以一次运行的统计模型的数量很少。这将极大地限制可以提供的辅助信息,也会降低识别结果的准确性。
当前存在一种使用高斯混合模型-隐马尔可夫模型(GMM-HMM)***的序列统计模型,在人工识别/预测任务中有着巨大的潜在应用。因为GMM-HMM***可以很好地模拟自动语音识别(Automatic Speech Recognition,简称ASR)***中的声学模型。尽管这类模型需要良好的样本训练数据和多个仔细关联的预测模型,但几十年来它一直是ASR的标准方法。为了进一步提高***的鲁棒性,还提出了一种垃圾模型(Garbage Model),其用于收集和建模任何不需要的样本,以提高准确性并减少误报,其思路可以参见美国的专利(专利号为:US5895448A)《为说话人相关语音识别目的生成和使用说话人无关垃圾模型的方法和设备》以及罗斯Rose,R.C.,Paul,D.B的作品《一个基于隐马尔可夫模型的关键词识别***》等。
基于上述***识别一个语音指令的数据序列,并输出一个概率或似然值来判断该数据序列是否来自该***模拟的真实世界的语音指令。当输出概率/似然度值大于训练阶段生成的固定的训练阈值时,可以将此数据序列视为真实世界现象的一个语音指令的示例,本次判断可以称为硬决策。
然而,训练的阈值是基于有限的训练样本得到的,这些例子无法反映从真实世界中的所有语音指令的分布情况。在许多情况下,硬决策可能导致识别出错,其识别的准确率不高且存在高预警的问题。即使应用了垃圾模型之后,在实际应用中也受到限制,容易产生偏差,无法克服训练数据的局限性。
为了解决上述问题,本申请实施例提供了一种语音识别方法,为了使得本申请更加的清楚,以下结合各个实施例的示意图对具体方案进行介绍。
请参见图1,图1为本申请实施例的一种语音识别方法的流程示意图,所述语音识别方法可以由终端执行,所述终端可以包括手机、电脑、平板电脑、智能手表、智能机器人、服务器以及服务器集群等设备。该方法可以包括如下步骤S101至步骤S104,详述如下。
步骤S101,接收语音指令。
其中,语音指令为一段待识别的语音。可以终端从其他设备接收到的语音,也可以为终端通过内置或者外置的录音设备接收到的语音。终端接收到该语音指令之后,判断其是否为需要执行对应操作的预设指令。
预设指令包括预设的一个或多个指令。例如,预设指令包括“启动搜索界面”,在终端识别到接收到的语音指令为“启动搜索界面”这一预设指令后,终端调用浏览器或者终端***自带的搜索界面,在屏幕等显示界面上显示该搜索界面。需要说明的是,预设指令可以是基于需求设置的一个或多个指令,包括但不限于前述例子,预设指令可以以文字或者语音等形式存储于所述终端。
步骤S102,将所述语音指令输入特定语音模型中,得到所述语音指令为预设指令的当前概率。
其中,特定语音模型是用于计算语音指令为预设指令的概率(记作当前概率),当前概率被用于确定语音指令是否为预设指令。可选的,在语音指令的当前概率高于预设的阈值时,则确定语音指令为预设指令。
特定语音模型以收集的语音数据为样本,通过大数据训练学习到识别输入的语音指令为预设指令的当前概率的能力。可选的,特定语音模型可以包括基于大数据样本训练出来的、用于自动语音识别(Automatic Speech Recognition,简称ASR)的模型。其可以是不同建模方法训练出来的模型,例如基于循环神经网络变换器(Recurrent NeuralNetwork Transducer,简称RNN-T)的端到端模型、基于谷歌的Transformer模型框架的端到端模型、基于有限加权状态转换机(Weighted Finite State Transducers,简称WFST)的语音模型等等。
步骤S103,将所述语音指令输入特定域语音模型中,得到用于确定所述语音指令是否为所述预设指令的概率阈值。
步骤S104,根据所述当前概率和所述概率阈值之间的关系,确定所述语音指令是否是预设指令。
其中,所述特定语音模型以第一样本集为样本训练得到,所述特定域语音模型以训练集和所述第一样本集为样本训练得到,所述训练集包含所述预设指令对应的所述第一样本集和非预设指令对应的第二样本集。
可选的,所述特定域语音模型用于判定输入的语音指令属于预设领域集的语音指令的概率。特定域语音模型的种类可以与所述特定语音模型相同,也可以不同。也即,特定域语音模型可以包括基于大数据样本训练出来的、用于ASR的模型。其可以是不同建模方法训练出来的模型,例如RNN-T的端到端模型、基于谷歌的Transformer模型框架的端到端模型、基于WFST的语音模型等等。
其中,预设领域集为本申请实施例进行语音识别时需要关注的领域的数据集,其可以对应我们进行语音指令识别的常见情况。比如,当前进行语音识别针对的指令是中文的语音指令,则所述预设领域集可以包括各种各样的中文语音指令。再例如,当前进行语音识别针对的指令是电商的语音指令,则所述预设领域集可以包括在电商领域中的多种语音指令。
另外,本申请实施例还可以包括预设集(也可以称为特定集(Specific set)),预设集为与预设指令对应的语音数据集。进一步,针对一个或多个预设指令,可以收集不同表达方式发出的同一预设指令得到的语音数据作为预设领域集中的数据,同一预设指令的不同表达方式可以包括用多种语言(如中文、英文、法语以及多种方言)说出同一预设指令,同一预设指令的不同表达方式还可以包括。或者,还可以收集不同人发出同一预设指令(可以包括不同年纪、不同性别的人)得到的语音数据作为预设领域集中的数据。
用于模型训练的训练数据通常由来自真实世界的有限数据样本组成。本申请实施例设计了一个训练数据的选择过程,以确保选择出的数据量较小的训练数据的数据集(简称训练集)仍然能够为后续的建模过程提供良好的信息。比如,这个训练集可以为几十个小时的语音数据构成的语料库。
请参见图2,图2为本申请实施例的一种用于模型训练的数据集的示意图,其中训练集(Training set)201为收集到的用于训练模型(包括特定域语音模型和特定语音模型)的样本数据集。预设领域集(也称特定领域集Specific domain set)202为本申请实施例进行语音识别时需要关注的领域的数据集,预设集203为本申请实施例预设指令对应的数据集。预设集203为预设领域集202的子集。训练集201与预设集203存在交集。训练集201、预设集202和预设领域集202中的数据均是从真实世界中收集到的数据,故其均属于真实世界数据集204的子集。在实际情况中、预设领域集202和预设集202中的数据几乎是无限的,本申请实施例中利用收集到的训练集201作为其中的一部分数据进行模型训练。
在一个具体实施例中,训练集201的生成过程包括:在预设领域集202中收集部分数据作为训练集201中的数据。将训练集201中与预设指令对应的语音数据进行标记,标记的数据为训练集201与预设集203的交集。由此,以训练集201与预设集203的交集作为第一样本集,将训练集201中除第一样本集之外的其他数据作为第二样本集的数据,第二样本集与非预设指令对应,非预设指令也即除预设指令之外的其他指令。
第一样本集用于训练特定语音模型,以使得特定语音模型能够判断输入的语音指令为预设指令的概率,也即当前概率。训练集201用于训练特定域语音模型,以使得特定语音模型能够判断输入的语音指令属于预设领域集的概率,并将其作为用于判定该语音指令的概率阈值。在本次识别的语音指令的当前概率和其概率阈值之间的关系满足预设的判定条件时,则可以确定本次识别的语音指令为预设指令。
通过图1所述的方法,能够基于数据量较小的训练集训练得到特定语音模型和特定域语音模型,生成各个输入语音指令动态对应的当前概率和概率阈值,综合当前概率和概率阈值进行本次语音指令的识别。由此,能够在少量训练数据的情况下,也能够训练出收敛效果好的识别模型,达到较好的语音指令识别效果。
在一个实施例中,请参见图3,图3为特定语音模型31和特定域语音模型32的训练简图;所述第一样本集和所述训练集均包括多个指令,每个指令均包括多个语音信号帧;所述特定语音模型31包括第一聚类模块311和识别模块312,所述第一聚类模块311用于对输入的指令中的语音信号帧进行逐帧分析,所述识别模块312用于根据输入的指令中各个语音信号帧的逐帧分析结果计算输入的指令为预设指令的概率。
所述第一聚类模块311的训练步骤可以包括:以所述第一样本集中多个指令的语音信号帧为训练样本,对初始的第一聚类模块311进行模型训练,得到训练后的第一聚类模块311。其中,训练后的第一聚类模块311的参数(如图3中所示)是通过本训练步骤得到的。
可选的,训练后的第一聚类模块311能够基于第一样本集中的各个指令的语音信号帧的聚类结果,对输入的指令(也即图1中的语音指令)中的语音信号帧进行逐帧分析。可选的,第一样本集中的各个指令的语音信号帧的聚类结果可以指对语音信号帧中的一个或者多个音素进行聚类的结果,训练后的第一聚类模块311能够识别输入的指令中包含的多个音素。
所述识别模块312的训练步骤可以包括:以多个所述第一样本指令中的语音信号帧经过所述第一聚类模块得到的聚类结果为训练样本,对初始的识别模块进行模型训练,得到训练后的识别模块312。其中,训练后的识别模块312的参数(如图3中所示)是通过本训练步骤得到的。
可选的,识别模块312根据第一样本集中各个指令的语音信号帧的逐帧分析结果以及对应的预设指令,学习识别预设指令对应的音素特征。
将语音指令输入特定语音模型之后,先通过训练后的第一聚类模块311得到语音指令的逐帧分析的结果,再将该逐帧分析的结果输入训练后的识别模块312,以使得训练后的识别模块312计算该逐帧分析的结果对应的当前概率。
所述特定域语音模型32包括第二聚类模块321和识别模块312,所述第二聚类模块用于对输入的指令中的语音信号帧进行逐帧分析。所述第二聚类模块321的训练步骤可以包括:以所述训练集中各个指令的语音信号帧为训练样本,对初始的第二聚类模块321进行模型训练,得到训练后的第二聚类模块321。其中,训练后的第二聚类模块321的参数(如图3中所示)是通过本训练步骤得到的。
可选的,训练后的第二聚类模块321能够基于训练集中的各个指令的语音信号帧的聚类结果,对输入的指令(也即图1中的语音指令)中的语音信号帧进行逐帧分析。可选的,训练集中的各个指令的语音信号帧的聚类结果可以指对这些语音信号帧中的一个或者多个音素进行聚类的结果。
将语音指令输入特定域语音模型之后,先通过训练后的第二聚类模块321识别输入的指令中包含的多个音素,得到语音指令的逐帧分析结果,再通过训练后的识别模块312计算该语音指令为预设指令的概率,记作概率阈值。
本实施例中,特定语音模型和特定域语音模型都是基于聚类模块和识别模块组成。两个模型的聚类模块的参数(即第一聚类模块311和第二聚类模块321)是基于不同的训练样本训练得到,能够根据各自的参数得到同一语音指令不同的逐帧分析结果。两个模型的识别模块的参数都是基于预设指令对应的第一样本集训练得到的,能够基于统一的识别目标确定同一语音指令的不同逐帧分析结果得到其为预设指令的概率,分别记作当前概率和概率阈值。结合当前概率和概率阈值之间的关系,确定语音指令是否为预设指令。
特定语音模型基于第一样本集(其为训练集的子集)训练得到,其训练数据量小,在语音指令的识别中针对性更高。特定域语音模型的聚类模块(即第二聚类模块)基于更大数据量的训练集训练得到,能够引入从更多指令样本的逐帧分析结果中学习到的分析能力。如果特定域语音模型中的识别模块基于与第二聚类模块相同的训练样本(也即训练集中的数据)训练得到,则会引入非预设指令的干扰因素,反而会降低识别结果的针对性。故,本实施例中特定域语音模型中的识别模块的参数与特定语音模型中的识别模块的参数保持一致,使得特定域语音模型在引入更高的分析能力的同时,保持识别结果的针对性,从而具有更好的语音识别效果。
在一个具体实施例中,请再次参见图3,所述第一聚类模块311和/或所述第二聚类模块321包括高斯混合聚类模型(Gaussian Mixture clustering Model,简称GMM),所述识别模块312包括隐马尔科夫模型(Hidden Markov Model,简称HMM)。进一步,第一聚类模块311和第二聚类模块321均包括GMM,识别模块312包括HMM,特定域模型31基于GMM-HMM***构建,特定域语音模型32也基于GMM-HMM***构建。关于GMM-HMM***的结构可参见现有GMM-HMM***的相关描述,这里不再赘述。
需要说明的是,第一聚类模块311和/或所述第二聚类模块321还可以包括采用其他聚类算法的模型或者计算模块,例如K均值(K-means)聚类算法等等。所述识别模块312还可以包括马尔可夫模型、神经网络模型等其他用于语音识别检测的模型或者计算模块。
可选的,所述隐马尔可夫模型(HMM)可以使用鲍姆-韦尔奇估计(Baum-Welchestimation)算法或者维比特(Viterbi)算法等等,用于获取训练后的识别模块的参数。
在一个实施例中,当满足条件一和/或条件二时,确定所述语音指令的识别结果有效;其中,条件一包括:所述概率阈值小于所述当前概率;条件二包括:所述当前概率和所述概率阈值之间的差值的绝对值大于等于第一预设值时。
具体地,由于特定域语音模型的聚类模块(即第二聚类模块)相较于特定语音模型的聚类模块(即第一聚类模块),其基于更大数据量的训练集训练得到,能够引入从更多指令样本的逐帧分析结果中学习到的分析能力。故同一对语音指令进行识别时,得到的概率阈值的值应小于当前概率,此时能够体现两个模型(特定语音模型和特定域语音模型)经样本训练后识别能力的差异,故此时本次语音指令的识别结果有效。
第一预设值为根据实验或者经验得到的一个概率值。在根据两个模型对同一语音指令进行识别后,若当前概率和所述概率阈值之间的差值的绝对值大于等于第一预设值,表示本次对语音指令的识别能够体现两个模型经样本训练后识别能力的差异。故此时本次语音指令的识别结果有效。
可选的,在不满足上述条件一或条件二时,确定所述语音指令的识别结果无效。进一步,终端可以输出对所述语音指令识别失败的消息,以提示用户本次语音指令的识别超出了训练好的模型的识别能力,无法得到对应的识别结果。
可选的,图1中步骤S104所述根据所述当前概率和所述概率阈值之间的关系,确定所述语音指令是否是预设指令,可以包括:当所述当前概率的值大于等于第二预设值、且所述语音指令的识别结果有效时,所述语音指令是所述预设指令。
其中,第二预设值为根据实验或者经验得到的概率值,在本次语音指令的识别结果有效的情况下,若当前概率大于等于第一预设值,则能够确定语音指令为预设指令。可选的,第二预设值可以为特定语音模型在训练阶段生成的固定的训练阈值。
进一步,当所述当前概率的值小于第二预设值、且所述语音指令的识别结果有效时,所述语音指令为所述非预设指令。
其中,无论终端确定语音指令为预设指令还是非预设指令,本次语音指令的识别均未超出了训练好的模型的识别能力。
在一个具体实施例中,请参见图4,图4为本申请实施例的一种具体语音识别方法的部分流程图,在根据图1的步骤S102和步骤S103得到当前概率和概率阈值之后,所述方法还可以包括:
步骤S401,确定所述语音指令的识别结果是否有效。其中,当满足条件一和/或条件二时,则确定所述语音执行的识别结果有效。若在步骤S401中确定所述语音执行的识别结果有效,则跳转至步骤S402,判断所述当前概率的值是否大于等于第二预设值,若判断结果为是,则跳转至步骤S403,确定所述语音指令为预设指令。若步骤S402的盘算结果为否,则跳转至步骤S404,确定所述语音指令为非预设指令。另外,若在步骤S401中确定所述语音执行的识别结果无效,则跳转至步骤S405,输出对所述语音指令识别失败的消息。
基于如上的特定语音模型和特定域语音模型(二者均可以基于GMM-HMM***构建),如果输入的语音指令满足第一样本集中的数据的特征,则当前概率的值应该大于第二预设值。如果输入的语音指令还满足训练集中的数据特征、且能够体现两个模型识别能力的区别,概率阈值应低于当前概率。如果输入的语音指令超出了模型的识别能力,则输出对语音指令识别失败的消息。
由此,本申请实施例创建一个独立于模型训练阶段生成的固定的训练阈值之外的动态阈值,也即各个语音指令的概率阈值,实现一种软决策的方案。进而结合软决策和硬决策两种决策形式,可以针对更复杂的语音识别情况做出决策。
在一个实施例中,本申请还提供一种语音识别装置50,请参见图5,图5为一种语音识别装置50的结构示意图。语音识别装置50可以包括:
指令接收模块501,用于接收语音指令;
概率计算模块502,用于将所述语音指令输入特定语音模型中,得到所述语音指令为预设指令的当前概率;
阈值获取模块503,用于将所述语音指令输入特定域语音模型中,得到用于确定所述语音指令是否为所述预设指令的概率阈值;
指令确定模块504,用于根据所述当前概率和所述概率阈值之间的关系,确定所述语音指令是否是预设指令;
其中,所述特定语音模型以第一样本集为样本训练得到,所述特定域语音模型以训练集和所述第一样本集为样本训练得到,所述训练集包含所述预设指令对应的所述第一样本集和非预设指令对应的第二样本集。
可选的,所述第一样本集和所述训练集均包括多个指令,每个指令均包括多个语音信号帧;所述特定语音模型包括第一聚类模块和识别模块,所述第一聚类模块用于对输入的指令中的语音信号帧进行逐帧分析,所述识别模块用于根据输入的指令中各个语音信号帧的逐帧分析结果计算输入的指令为预设指令的概率;所述第一聚类模块的训练步骤包括:以所述第一样本集中多个指令的语音信号帧为训练样本,对初始的第一聚类模块进行模型训练,得到训练后的第一聚类模块;所述识别模块的训练步骤包括:以所述第一样本集经过所述第一聚类模块得到的聚类结果为训练样本,对初始的识别模块进行模型训练,得到训练后的识别模块;所述特定域语音模型包括第二聚类模块和所述识别模块,所述第二聚类模块用于对输入的指令中的语音信号帧进行逐帧分析;所述第二聚类模块的训练步骤包括:以所述训练集中各个指令的语音信号帧为训练样本,对初始的第二聚类模块进行模型训练,得到训练后的第二聚类模块。
可选的,所述第一聚类模块和/或所述第二聚类模块包括高斯混合聚类模型,所述识别模块包括隐马尔科夫模型。
在一个实施例中,所述语音识别装置50还可以包括:
有效性确定模块,当所述概率阈值小于所述当前概率,和/或,所述当前概率和所述概率阈值之间的差值的绝对值大于等于第一预设值时,用于确定所述语音指令的识别结果有效。
在一个实施例中,在所述当前概率的值大于等于第二预设值、且所述语音指令的识别结果有效时,指令确定模块504还用于确定所述语音指令是所述预设指令。
在一个实施例中,当所述当前概率的值小于第二预设值、且所述语音指令的识别结果有效时,指令确定模块504还用于确定所述语音指令为所述非预设指令。
在一个实施例中,所述语音识别装置50还可以包括:
消息输出模块,用于在确定所述语音指令的识别结果无效时,输出对所述语音指令识别失败的消息。
关于语音识别装置50的工作原理、工作方式的更多内容,可以参照图1至图4任一关于语音识别方法的相关描述,这里不再赘述。
在具体实施中,上述的语音识别装置50可以对应于终端中具有计算功能的芯片,或者对应于具有数据处理功能的芯片,例如片上***(System-On-a-Chip,SOC)、射频芯片等;或者对应于终端中包括具有计算功能芯片的芯片模组;或者对应于具有数据处理功能芯片的芯片模组,或者对应于终端。
关于上述实施例中描述的各个装置、产品包含的各个模块/单元,其可以是软件模块/单元,也可以是硬件模块/单元,或者也可以部分是软件模块/单元,部分是硬件模块/单元。例如,对于应用于或集成于芯片的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于芯片模组的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片模组内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于终端的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于终端内同一组件(例如,芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于终端内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器运行时执行图1至图4任一语音识别方法的步骤。计算机可读存储介质可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器,还可以包括光盘、机械硬盘、固态硬盘等。
本申请实施例还提供一种语音识别装置,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机程序,处理器运行计算机程序时,实现图1至图4任一语音识别方法的步骤。
本申请实施例还提供了一种计算机程序产品,其上存储有计算机程序,计算机程序被处理器运行时,实现图1至图4任一语音识别方法的步骤。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/“,表示前后关联对象是一种“或”的关系。
本申请实施例中出现的“多个”是指两个或两个以上。
本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。
本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式,以实现设备间的通信,本申请实施例对此不做任何限定。
应理解,本申请实施例中,处理器可以为中央处理单元(central processingunit,简称CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor,简称DSP)、专用集成电路(application specific integrated circuit,简称ASIC)、现成可编程门阵列(field programmable gate array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行计算机指令或计算机程序时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和***,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的部分步骤。
虽然本申请披露如上,但本申请并非限定于此。任何本领域技术人员,在不脱离本申请的精神和范围内,均可作各种更动与修改,因此本申请的保护范围应当以权利要求所限定的范围为准。
Claims (10)
1.一种语音识别方法,其特征在于,所述方法包括:
接收语音指令;
将所述语音指令输入特定语音模型中,得到所述语音指令为预设指令的当前概率;
将所述语音指令输入特定域语音模型中,得到用于确定所述语音指令是否为所述预设指令的概率阈值;
根据所述当前概率和所述概率阈值之间的关系,确定所述语音指令是否是预设指令;
其中,所述特定语音模型以第一样本集为样本训练得到,所述特定域语音模型以训练集和所述第一样本集为样本训练得到,所述训练集包含所述预设指令对应的所述第一样本集和非预设指令对应的第二样本集。
2.根据权利要求1所述的方法,其特征在于,所述第一样本集和所述训练集均包括多个指令,每个指令均包括多个语音信号帧;
所述特定语音模型包括第一聚类模块和识别模块,所述第一聚类模块用于对输入的指令中的语音信号帧进行逐帧分析,所述识别模块用于根据输入的指令中各个语音信号帧的逐帧分析结果计算输入的指令为预设指令的概率;
所述第一聚类模块的训练步骤包括:以所述第一样本集中多个指令的语音信号帧为训练样本,对初始的第一聚类模块进行模型训练,得到训练后的第一聚类模块;
所述识别模块的训练步骤包括:以所述第一样本集经过所述第一聚类模块得到的聚类结果为训练样本,对初始的识别模块进行模型训练,得到训练后的识别模块;
所述特定域语音模型包括第二聚类模块和所述识别模块,所述第二聚类模块用于对输入的指令中的语音信号帧进行逐帧分析;
所述第二聚类模块的训练步骤包括:以所述训练集中各个指令的语音信号帧为训练样本,对初始的第二聚类模块进行模型训练,得到训练后的第二聚类模块。
3.根据权利要求2所述的方法,其特征在于,所述第一聚类模块和/或所述第二聚类模块包括高斯混合聚类模型,所述识别模块包括隐马尔科夫模型。
4.根据权利要求2所述的方法,其特征在于,当所述概率阈值小于所述当前概率,和/或,所述当前概率和所述概率阈值之间的差值的绝对值大于等于第一预设值时,确定所述语音指令的识别结果有效。
5.根据权利要求4所述的方法,其特征在于,所述根据所述当前概率和所述概率阈值之间的关系,确定所述语音指令是否是预设指令,包括:
当所述当前概率的值大于等于第二预设值、且所述语音指令的识别结果有效时,所述语音指令是所述预设指令。
6.根据权利要求4或5所述的方法,其特征在于,所述根据所述当前概率和所述概率阈值之间的关系,确定所述语音指令是否是预设指令,还包括:
当所述当前概率的值小于第二预设值、且所述语音指令的识别结果有效时,所述语音指令为所述非预设指令。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若确定所述语音指令的识别结果无效,则输出对所述语音指令识别失败的消息。
8.一种语音识别装置,其特征在于,所述装置包括:
指令接收模块,用于接收语音指令;
概率计算单元,用于将所述语音指令输入特定语音模型中,得到所述语音指令为预设指令的当前概率;
阈值获取模块,用于将所述语音指令输入特定域语音模型中,得到用于确定所述语音指令是否为所述预设指令的概率阈值;
指令确定模块,用于根据所述当前概率和所述概率阈值之间的关系,确定所述语音指令是否是预设指令;
其中,所述特定语音模型以第一样本集为样本训练得到,所述特定域语音模型以训练集和所述第一样本集为样本训练得到,所述训练集包含所述预设指令对应的所述第一样本集和非预设指令对应的第二样本集。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时,实现权利要求1至7任一项所述方法的步骤。
10.一种语音识别装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时,执行权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111399172.7A CN114049883A (zh) | 2021-11-19 | 2021-11-19 | 语音识别方法及装置、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111399172.7A CN114049883A (zh) | 2021-11-19 | 2021-11-19 | 语音识别方法及装置、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114049883A true CN114049883A (zh) | 2022-02-15 |
Family
ID=80210773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111399172.7A Pending CN114049883A (zh) | 2021-11-19 | 2021-11-19 | 语音识别方法及装置、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114049883A (zh) |
-
2021
- 2021-11-19 CN CN202111399172.7A patent/CN114049883A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110473531B (zh) | 语音识别方法、装置、电子设备、***及存储介质 | |
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN110718223B (zh) | 用于语音交互控制的方法、装置、设备和介质 | |
WO2021174757A1 (zh) | 语音情绪识别方法、装置、电子设备及计算机可读存储介质 | |
EP3872652A2 (en) | Method and apparatus for processing video, electronic device, medium and product | |
WO2021103712A1 (zh) | 一种基于神经网络的语音关键词检测方法、装置及*** | |
CN111653274B (zh) | 唤醒词识别的方法、装置及存储介质 | |
CN110223134B (zh) | 基于语音识别的产品推荐方法及相关设备 | |
US11393490B2 (en) | Method, apparatus, device and computer-readable storage medium for voice interaction | |
CN112232276B (zh) | 一种基于语音识别和图像识别的情绪检测方法和装置 | |
JP7178394B2 (ja) | 音声信号を処理するための方法、装置、機器、および媒体 | |
KR20220082790A (ko) | 오디오 신호를 처리하는 방법과 장치, 모델의 훈련 방법과 장치, 전자 기기, 저장 매체, 및 컴퓨터 프로그램 | |
CN111126084B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN110956958A (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
WO2024093578A1 (zh) | 语音识别方法、装置、电子设备、存储介质及计算机程序产品 | |
CN113393841B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN117407507A (zh) | 基于大语言模型的事件处理方法、装置、设备及介质 | |
CN112434953A (zh) | 一种基于计算机数据处理的客服人员考核方法和装置 | |
CN113724698B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN114171000A (zh) | 一种基于声学模型和语言模型的音频识别方法 | |
CN114049883A (zh) | 语音识别方法及装置、计算机可读存储介质 | |
CN114297409A (zh) | 模型训练方法、信息抽取方法及装置、电子设备、介质 | |
CN112037772A (zh) | 基于多模态的响应义务检测方法、***及装置 | |
CN110688858A (zh) | 语义解析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |