CN114093358A - 语音识别方法和装置、电子设备和存储介质 - Google Patents
语音识别方法和装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114093358A CN114093358A CN202111361480.0A CN202111361480A CN114093358A CN 114093358 A CN114093358 A CN 114093358A CN 202111361480 A CN202111361480 A CN 202111361480A CN 114093358 A CN114093358 A CN 114093358A
- Authority
- CN
- China
- Prior art keywords
- confidence
- word
- word sequence
- decoding
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000004590 computer program Methods 0.000 claims description 9
- 230000000875 corresponding effect Effects 0.000 description 140
- 238000004364 calculation method Methods 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 239000002131 composite material Substances 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 239000002699 waste material Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本公开实施例公开了一种语音识别方法和装置、电子设备和存储介质,通过对待识别语音进行解码,得到解码结果后,获取该解码结果中解码路径对应的词序列的第一置信度、该词序列中各子词的第二置信度,然后,基于第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定该词序列是否属于预设命令词,进而,根据该词序列是否属于预设命令词的确定结果,得到待识别语音的语音识别结果,能够准确的知道命令词识别结果的可靠性,有效提高语音识别的准确率和稳定性,提高语音识别***的资源利用率。
Description
技术领域
本公开涉及语音识别技术,尤其是一种语音识别方法和装置、电子设备和存储介质。
背景技术
随着移动互联网的发展,语音识别越来越重要,它是很多其他应用能够实现的基础。例如,通过语音识别技术,可以实现语音拨号、语音导航等应用。语音识别结果越准确,以语音识别为基础的应用的效果就会越好。而在语音识别中,最重要的一项内容为命令词识别,在识别出命令词时,基于识别出的命令词对电子设备进行相应的控制。例如,如果语音识别结果为命令词“增大音量”时,可以增大电子设备的音量。
发明内容
本公开的实施例提供了一种语音识别方法和装置、电子设备和存储介质。
根据本公开实施例的一个方面,提供了一种语音识别方法,包括:
对待识别语音进行解码,得到解码结果;
获取所述解码结果中解码路径对应的词序列的第一置信度、所述词序列中各子词的第二置信度;
基于所述第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定所述词序列是否属于预设命令词;
根据所述词序列是否属于预设命令词的确定结果,得到所述待识别语音的语音识别结果。
根据本公开实施例的另一个方面,提供了一种语音识别装置,包括:
第一得到模块,用于对待识别语音进行解码,得到解码结果;
获取模块,用于获取所述解码结果中解码路径对应的词序列的第一置信度、所述词序列中各子词的第二置信度;
确定模块,用于基于所述第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定所述词序列是否属于预设命令词;
第二得到模块,用于根据所述词序列是否属于预设命令词的确定结果,得到所述待识别语音的语音识别结果。
根据本公开实施例的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本公开上述任一实施例所述的语音识别方法。
根据本公开实施例的再一个方面,提供了一种电子设备,所述电子设备包括:处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行本公开上述任一实施例所述的语音识别方法。
基于本公开上述实施例提供的语音识别方法和装置、电子设备和存储介质,通过对待识别语音进行解码,得到解码结果后,获取该解码结果中解码路径对应的词序列的第一置信度、该词序列中各子词的第二置信度,然后,基于该第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定该词序列是否属于预设命令词,进而,根据该词序列是否属于预设命令词的确定结果,得到待识别语音的语音识别结果。本公开实施例同时根据解码结果中解码路径对应的词序列的第一置信度及其对应的第一置信度阈值、词序列中各子词的第二置信度及其对应的第二置信度阈值之间的关系,确定解码路径对应的词序列是否属于预设命令词,能够有效应对语音识别模型鲁棒性差、用户的发音习惯不同、词序列中前后缀不同、语音中存在前背景噪声等情况,提高在这些情况下命令词识别结果的可靠性,进而根据该词序列是否属于预设命令词的确定结果得到语音识别结果,能够有效提高语音识别的准确率和稳定性,正确控制电子设备的运行,有助于改善用户体验;另外,可以有效避免由于针对集外词(非命令词集合中的词)进行识别导致的语音识别***资源的浪费,提高语音识别***的资源利用率。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开所适用的场景图。
图2是本公开一示例性实施例提供的语音识别方法的流程示意图。
图3是本公开另一示例性实施例提供的语音识别方法的流程示意图。
图4是本公开又一示例性实施例提供的语音识别方法的流程示意图。
图5是本公开再一示例性实施例提供的语音识别方法的流程示意图。
图6是本公开一示例性实施例提供的语音识别装置的结构示意图。
图7是本公开另一示例性实施例提供的语音识别装置的结构示意图。
图8是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机***、服务器等电子设备,其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于:个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境,等等。
终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算***存储介质上。
申请概述
命令词识别,主要是用于识别一段语音中是否包含特定的命令词集合(以下简称:集内词)中的词。
在实现本公开的过程中,本申请的发明人通过研究发现:在实际的语音环境中,由于通常存在各种复杂信号源、噪音等干扰、以及相似发音等情况,会导致语音识别结果中往往包括大量不属于集内词的错误结果,从而对电子设备产生错误的控制,降低了用户体验,并且浪费了语音识别***的资源。
因此,需要知道命令词识别结果有多可靠,就需要一个度量方法。
本公开实施例采用置信度作为衡量命令词识别结果可靠性的度量方法,同时根据解码结果中解码路径对应的词序列的第一置信度及其对应的第一置信度阈值、词序列中各子词的第二置信度及其对应的第二置信度阈值之间的关系,确定解码路径对应的词序列是否属于预设命令词,能够准确的知道命令词识别结果的可靠性,进而根据该词序列是否属于预设命令词的确定结果得到语音识别结果,能够有效提高语音识别的准确率和稳定性,正确控制电子设备的运行,有助于改善用户体验;另外,可以有效避免由于针对集外词进行识别导致的语音识别***资源的浪费,提高语音识别***的资源利用率。
另外,本公开实施例同时根据解码路径对应的词序列的第一置信度及其对应的第一置信度阈值、词序列中各子词的第二置信度及其对应的第二置信度阈值之间的关系,确定解码路径对应的词序列是否属于预设命令词,可以有效应对语音识别模型鲁棒性差、用户的发音习惯不同、词序列中前后缀不同、语音中存在前背景噪声等情况,提高在这些情况下命令词识别结果的可靠性。
示例性***
本公开实施例可用于语音导航、语音点歌、语音预定闹铃、自动驾驶等任意可以基于语音进行控制的场景。图1是本公开所适用的场景图。如图1所示,由音频采集模块101(例如麦克风等)采集得到原始音频信号,该原始音频信号或该原始音频信号经前端信号处理后的语音,作为待识别语音输入本公开实施例的语音识别装置102,由语音识别装置102获取该解码结果中解码路径对应的词序列的第一置信度、该词序列中各子词的第二置信度,基于上述第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定上述词序列是否属于预设命令词,若上述词序列属于预设命令词,由此确定最终的语音识别结果并输出,基于该语音识别结果,则控制装置103可以控制电子设备104执行相应的操作,例如,在语音导航、语音点歌、语音预定闹铃、自动驾驶等应用场景中控制电子设备104执行相应的操作。例如,在语音点歌应用场景中,语音识别结果为“增大音量”时,控制电子设备上的扬声器增大歌曲音量。而在上述词序列不属于预设命令词时,则不作为语音识别结果输出,无需控制装置103执行任意控制操作。
采用本发明实施例后,能够准确确定词序列是否属于预设命令词,进而能够有效提高语音识别的准确率和稳定性,可以有效避免由于针对集外词进行识别导致的语音识别***资源的浪费,提高语音识别***的资源利用率。
示例性方法
图2是本公开一示例性实施例提供的语音识别方法的流程示意图。本实施例可应用在电子设备上,如图2所示,该实施例的语音识别方法包括如下步骤:
步骤201,对待识别语音进行解码,得到解码结果。
本公开实施例中,对待识别语音进行解码得到的解码结果可以包括一个或者多个解码路径,每个解码路径对应一个词序列,每个词序列包括一个或多个字或词。
其中的待识别语音,可以是由音频采集模块(例如麦克风等)采集的原始音频信号,也可以是原始音频信号经前端信号处理后的语音,本公开实施例对此不做限制。其中,前端信号处理例如可以包括但不限于:语音活动检测(Voice Activity Detection,VAD)、降噪、声学回声消除(Acoustic Echo Cancellaction,AEC)、去混响处理、声源定位、波束形成(Beam Forming,BF)等。
语音活动检测又称语音端点检测、语音边界检测,是指在噪声环境中检测音频信号中语音的存在与否,准确的检测出音频信号中语音段起始位置,通常用于语音编码、语音增强等语音处理***中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。VAD的起点是从静音到语音,VAD的结束点是从语音到静音,VAD的结束点的判断需要一段静音。原始音频信号经前端信号处理得到的语音,包括从VAD的起点到结束点的语音,因此,作为本公开实施例的待识别语音,在语音段后还可能包括一段静音。
其中,在一个具体例子中,假设待识别语音为:你好祖国人民,基于步骤201得到的解码结果可能包括以下解码路径对应的词序列:您好-中-国-人名,你好-中-国,您好-祖-国-人民,你-好-人-民,您好-祖-国-人名,等等。
本公开实施例中,通过该步骤201对待识别语音进行解码得到的解码结果还不是最终的语音识别结果,因此可以称为中间识别结果。
步骤202,获取解码结果中解码路径对应的词序列的第一置信度、该词序列中各子词的第二置信度。
其中,第一置信度用于表示对应的词序列作为中间识别结果的可靠性。第二置信度用于表示各子词作为中间识别结果的可靠性。
第一置信度和第二置信度的取值通常位于[0,1]范围内。
步骤203,基于上述第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定上述词序列是否属于预设命令词。
其中,第一置信度阈值和第二置信度阈值为预先设置的数值,第一置信度阈值和第二置信度阈值的取值为大于0且不大于1的取值。第一置信度阈值和第二置信度阈值的具体取值可根据实际应用中对识别结果准确性的需求预先设置,并可以根据不同的应用场景、地域、用户发音习惯等因素具体确定和调整,本公开实施例对第一置信度阈值和第二置信度阈值的取值大小及影响因素不做限制。
本公开实施例中,考虑到不同子词的发音不同,预先分别对各子词设置对应的第二置信度阈值,相对于对所有的子词采用统一的置信度阈值,能够提高在各子词识别结果的可靠性。
步骤204,根据上述词序列是否属于预设命令词的确定结果,得到待识别语音的语音识别结果。
本公开实施例中的预设命令词,即预先设置的集内词中的词。
基于本实施例,同时根据解码结果中解码路径对应的词序列的第一置信度及其对应的第一置信度阈值、词序列中各子词的第二置信度及其对应的第二置信度阈值之间的关系,确定解码路径对应的词序列是否属于预设命令词,能够有效应对语音识别模型鲁棒性差、用户的发音习惯不同、词序列中前后缀不同、语音中存在前背景噪声等情况,提高在这些情况下命令词识别结果的可靠性,进而根据该词序列是否属于预设命令词的确定结果得到语音识别结果,能够有效提高语音识别的准确率和稳定性,正确控制电子设备的运行,有助于改善用户体验;另外,可以有效避免由于针对集外词(非命令词集合中的词)进行识别导致的语音识别***资源的浪费,提高语音识别***的资源利用率。
在一些可选的实施方式中,上述步骤202中,可以获取解码路径对应的词序列中各子词的第二置信度,然后,分别基于该词序列中各子词的第二置信度获取该词序列的第一置信度。
例如,可以以该词序列中所有子词的第二置信度的均值,作为该词序列的第一置信度;或者,也可以以该词序列中所有子词的第二置信度的乘积,作为该词序列的第一置信度;或者,还可以以该词序列中所有子词的第二置信度的中值,作为该词序列的第一置信度;等等,本公开实施例对基于该词序列中各子词的第二置信度获取该词序列的第一置信度的具体方式不做限制。
基于本实施例,可以先获取词序列中各子词的第二置信度,然后,分别基于该词序列中各子词的第二置信度获取该词序列的第一置信度,使获得的词序列的第一置信度更客观、准确。
图3是本公开另一示例性实施例提供的语音识别方法的流程示意图。如图3所示,在上述图2所示实施例的基础上,步骤203可以包括如下步骤:
步骤2031,比较词序列的第一置信度是否大于第一置信度阈值。
若词序列的第一置信度大于第一置信度阈值,执行操作2032;否则,若词序列的第一置信度不大于第一置信度阈值,不执行本实施例的后续流程。
步骤2032,比较词序列中各子词的第二置信度是否均大于对应的第二置信度阈值。
若词序列中各子词的第二置信度均大于对应的第二置信度阈值,执行步骤2033;否则,若词序列中各子词的第二置信度不均大于对应的第二置信度阈值,不执行本实施例的后续流程。
步骤2033,确定该词序列属于预设命令词,即属于集内词。
基于本实施例,先比较词序列的第一置信度是否大于第一置信度阈值,在词序列的第一置信度大于第一置信度阈值时,进一步比较词序列中各子词的第二置信度是否均大于对应的第二置信度阈值,若词序列中各子词的第二置信度均大于对应的第二置信度阈值,才确定该词序列属于预设命令词,能够有效应对语音识别模型鲁棒性差、用户的发音习惯不同、词序列中前后缀不同、语音中存在前背景噪声等情况,提高在这些情况下命令词识别结果的可靠性,进而提高语音识别的准确率和稳定性,并且可以避免针对集外词(非命令词集合中的词)进行识别导致的语音识别***资源的浪费,提高语音识别***的资源利用率;在词序列的第一置信度不大于第一置信度阈值时,不再比较词序列中各子词的第二置信度是否均大于对应的第二置信度阈值,可以节省计算资源,节省所需时间,提高语音识别效率。
可选地,再参见图3,步骤203还可以包括:若词序列中有子词的第二置信度不大于对应的第二置信度阈值,则可以执行步骤2034,确定该词序列不属于预设命令词。
例如,在一个具体应用实例中,假设预设命令词“增大音量”的置信度阈值(即第一置信度阈值)为0.5,该预设命令词“增大音量”包括的4个字(即子词)“增”、“大”、“音”、“量”对应的置信度阈值(即第二置信度阈值)依次为:0.3、0.4、0.5、0.6,基于上述步骤202获取到该预设命令词“增大音量”的第一置信度为0.6,该预设命令词“增大音量”包括的4个字“增”、“大”、“音”、“量”的第二置信度依次为:0.05、0.45、0.6、0.7,如果仅比较整个预设命令词“增大音量”的第一置信度与第一置信度阈值,则由于整个预设命令词“增大音量”的第一置信度0.6大于第一置信度阈值0.5,则确定“增大音量”属于集内词,语音识别结果通过,可以控制电子设备增大音量。但实际用户说的可能是“大点音量”,并不属于集内词,应该被拒绝。根据本公开实施例,可以根据“增”的第二置信度0.05小于对应的第二置信度阈值0.3,拒绝该语音识别结果,从而不控制电子设备执行相应动作。
基于本实施例,在词序列中有子词的第二置信度不大于对应的第二置信度阈值时,确定该词序列不属于预设命令词,提高了命令词识别结果的可靠性,可以有效避免由于针对集外词(非命令词集合中的词)进行识别导致的语音识别***资源的浪费,提高语音识别***的资源利用率。
可选地,再参见图3,在步骤203中,若词序列的第一置信度不大于第一置信度阈值,则可以执行步骤2034,确定该词序列不属于预设命令词。
基于本实施例,在词序列的第一置信度不大于第一置信度阈值时,可以直接确定该词序列不属于预设命令词,可以有效避免由于针对集外词(非命令词集合中的词)进行识别导致的语音识别***资源的浪费,提高语音识别***的资源利用率,并且可以节省继续执行后续流程所需的计算资源,节省时间,提高语音识别效率。
在一些可选的实施方式中,上述步骤202中,词序列中的各子词可以为词序列中的各字,或者为词序列中的各字对应的音素,或者可以同时包括词序列中的各字和各字对应的音素,即,在上述步骤202中,获取词序列中各子词的第二置信度时,可以是获取词序列中的各字的置信度作为第二置信度,或者是获取词序列中的各字对应的各音素的置信度作为第二置信度,或者,同时获取词序列中的各字的置信度以及各字对应的各音素的置信度作为第二置信度。
具体来说,在其中一种实现方式中,在上述步骤202中,获取词序列中的各字的第二置信度,相应地,在步骤203中,基于词序列的第一置信度与第一置信度阈值、词序列中各字的第二置信度与对应的第二置信度阈值之间的关系,确定上述词序列是否属于预设命令词,即比较词序列的第一置信度是否大于第一置信度阈值,以及比较词序列中各字的第二置信度是否均大于对应的第二置信度阈值。若词序列的第一置信度大于第一置信度阈值、且词序列中各字的第二置信度均大于对应的第二置信度阈值,确定该词序列属于预设命令词。否则,若词序列的第一置信度不大于第一置信度阈值、和/或词序列中有字的第二置信度不大于对应的第二置信度阈值,则确定该词序列不属于预设命令词。
在另一种实现方式中,在上述步骤202中,获取词序列中各字对应的音素的第二置信度,相应地,在步骤203中,基于词序列的第一置信度与第一置信度阈值、词序列中各字对应的音素的第二置信度与各字对应的音素对应的第二置信度阈值之间的关系,确定上述词序列是否属于预设命令词,即比较词序列的第一置信度是否大于第一置信度阈值,以及比较词序列中各字对应的音素的第二置信度是否均大于对应的第二置信度阈值。若词序列的第一置信度大于第一置信度阈值、且词序列中各字对应的音素的第二置信度均大于对应的第二置信度阈值,确定该词序列属于预设命令词。否则,若词序列的第一置信度不大于第一置信度阈值、和/或词序列中有音素的第二置信度不大于对应的第二置信度阈值,则确定该词序列不属于预设命令词。
在又一种实现方式中,在上述步骤202中,获取词序列中的各字的第二置信度以及各字对应的各音素的第二置信度,相应地,在步骤203中,基于词序列的第一置信度与第一置信度阈值、词序列中各字的第二置信度与对应的第二置信度阈值之间的关系、以及词序列中各字对应的音素的第二置信度与各字对应的音素对应的第二置信度阈值之间的关系,确定上述词序列是否属于预设命令词,即比较词序列的第一置信度是否大于第一置信度阈值,比较词序列中各字的第二置信度是否均大于对应的第二置信度阈值,以及比较词序列中各字对应的音素的第二置信度是否均大于对应的第二置信度阈值。若词序列的第一置信度大于第一置信度阈值、且词序列中各字的第二置信度均大于对应的第二置信度阈值、且词序列中各字对应的音素的第二置信度均大于对应的第二置信度阈值,确定该词序列属于预设命令词。否则,若词序列的第一置信度不大于第一置信度阈值、和/或词序列中有字的第二置信度不大于对应的第二置信度阈值、和/或词序列中有字对应的音素的第二置信度不大于对应的第二置信度阈值,即出现这三种情况中的任一情况时,即确定该词序列不属于预设命令词。
在实际应用中,步骤202中的子词包括字或音素、或者同时包括字和音素,步骤203中比较各子词的第二置信度与对应的第二置信度阈值之间的关系时,是相应的比较词序列中各字的第二置信度与对应的第二置信度阈值之间的关系,还是比较词序列中各字对应的音素的第二置信度与对应的第二置信度阈值之间的关系,或者同时比较词序列中各字的第二置信度与对应的第二置信度阈值之间的关系、各字对应的音素的第二置信度与对应的第二置信度阈值之间的关系,可以根据具体的应用场景、语音识别的需求等因素预先设置,并可以根据实际需要更新,本公开实施例对此不做限制。
在一些可选的实施方式中,在步骤2032之前,还可以获取词序列中各子词在该词序列对应的命令词中的置信度阈值,作为对应的第二置信度阈值。
可选地,在本公开实施例中,可以预先分别为各预设命令词(即集内词中的每一个命令词)、以及各预设命令词中的各子词分别设置一个对应的置信度阈值,即,各子词对应的置信度阈值的大小,不止与该子词有关,还与该子词所在的预设命令词有关。如下表1所示,为本公开实施例中为集内词及集内词中各字的设置的一个可能的置信度阈值表。
表1
表1中,示例性地包括了集内词中各命令词对应的第一置信度阈值和该命令词中各字对应的第二置信度阈值。另外,若上述实施例中词序列中的各子词为词序列中的各字对应的音素,则表1中的子词具体为命令词中各字对应的各音素。若上述实施例中词序列中的各子词包括词序列中的各字和各字对应的音素,则表1中还包括各字对应的音素以及各音素对应的第二置信度阈值。具体可以参考上述表1设置,此处不再赘述。
另外,也可以通过不同的表分别存储预先设置的集内词中各命令词对应的第一置信度阈值、以及各命令词中各子词对应的第二置信度阈值。其中,若上述实施例中词序列中的各子词包括词序列中的各字和各字对应的音素,则各命令词中各字对应的第二置信度阈值和各命令词中各字对应的各音素第二置信度阈值,可以通过一个表格存储,也可以通过两个单独的表格存储。本公开实施例对第一置信度阈值和各子词对应的第二置信度阈值的存储方式不做限制。
本公开发明人通过研究发现,由于发音习惯和位置等原因,不同字在不同词中计算得到的置信度有可能差别较大,若对同一个字在所有词中使用相同的置信度阈值,则可能造成误识别增多,例如,命令词“大(加重音调)点声”和命令词“增大(正常音调)音量”中都有“大”字,由于发音习惯和位置的原因,“大”字在两个词中计算出的置信度很有可能差别较大,若使用相同的第二置信度阈值0.3,则可能会造成“大点声”的误识别增多,例如,可能将“小点声”(实际发音)误识别为“大点声”(识别结果),但“大”字的置信度为0.31(大于0.3),若将“大点声”中的“大”字的第二置信度阈值设置为0.4,则该识别结果被拒绝。
基于本实施例,预先考虑发音习惯和位置等原因,分别为各预设命令词、以及各预设命令词中的各子词分别设置一个对应的置信度阈值,在语音识别过程中,获取词序列中各子词在该词序列对应的命令词中的置信度阈值作为对应的第二置信度阈值,有助于减少命令词的误识别,可以在保证语音识别结果的正确识别率的情况下,提升拒识率。
经实验验证,本公开实施例在噪声环境较大的情况下取得了显著的效果,与未采用本公开实施例的相关方案相比,本公开实施例可以在保证正确识别率的情况下,将拒识率提升20%左右。
图4是本公开又一示例性实施例提供的语音识别方法的流程示意图。如图4所示,该实施例的语音识别方法包括如下步骤:
步骤301,对待识别语音进行解码,得到解码结果。
其中的待识别语音,可以是由音频采集模块(例如麦克风等)采集的原始音频信号,也可以是原始音频信号经前端信号处理后的语音,本公开实施例对此不做限制。
本公开实施例中的解码结果即词图,其包括至少一个解码路径,每个解码路径对应一个词序列,每个词序列包括一个或多个字或词、以及字或词的开始时间和结束时间、以及声学概率和语言概率。
在一些可选的实施方式中,本公开实施例可以利用语音识别模型(包括声学模型和语言模型),对待识别语音进行解码,得到解码结果。其中的声学模型例如可以包括但不限于:高斯混合模型-隐马尔科夫模型(Gaussian Mixture-Model Hidden Markov Model,GMM-HMM)、循环神经网络(Recurrent Neural Networks,RNN)、前馈序列记忆神经网络(Feedforward Sequential Memory Networks,FSMN)等;其中的语言模型例如可以包括但不限于:规则语言模型、统计语言模型或者神经网络语言模型(Neural Network LauguageModel,NNLM)等,本公开实施例对声学模型和语言模型的具体实现方式不做限制。
其中,声学概率用于表示待识别语音中某段语音的发音到音素的概率,可以通过声学模型获得。声学模型输出的是声学识别结果,该声学识别结果包括至少一条路径,每条路径包括至少一个音素以及该至少一个音素中各音素的声学概率。声学模型得到该声学识别结果后,可以将该声学识别结果输入语言模型,由语言模型得到声学识别结果中各音素到字或词的语言概率。
步骤302,分别针对解码结果中的各解码路径对应的词序列,获取词序列的第一置信度、以及该词序列中各子词的第二置信度。
在一些可选的实施方式中,可以分别针对解码结果中的各解码路径中的各音素,先基于解码路径中该音素的声学概率,计算该音素在所在解码路径中的多个声学后验概率的平均值,得到该音素在词序列中的置信度(即音素作为子词的第二置信度)。例如,可以分别针对解码结果中的各解码路径中的各音素,基于该音素的声学概率,采用预设前后向算法,分别计算该音素的前向概率和后向概率,然后,基于该音素的前向概率和后向概率,采用预设计算方式,计算该音素在所在解码路径中的声学后验概率,得到多个声学后验概率,计算该多个声学后验概率的平均值,可以得到该音素在所在解码路径中的置信度。然而,本公开实施例对音素在所在解码路径中的置信度的计算方式不限于此。
然后,基于词序列中各字或词对应的音素对应的置信度,计算得到词序列中各字或词的置信度(即字作为子词的第二置信度)。例如,获取词序列中各字或词对应的音素的置信度的平均值,作为词序列中各字或词的置信度;或者,按照各音素的预设权重值,对词序列中各字或词对应的音素对应的置信度进行加权、再获取平均值,作为词序列中各字或词的置信度。然而,本公开实施例对字或词的置信度的计算方式不限于此。
进而,基于词序列中各字或词的置信度,计算得到词序列的置信度(即第一置信度)。例如,获取词序列中各字或词的置信度的平均值,作为该词序列的置信度。或者,按照各字或词的预设权重值,对词序列中各字或词的置信度进行加权、再获取平均值,作为该词序列的置信度。然而,本公开实施例对词序列的置信度的计算方式不限于此。
步骤303,基于上述第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定上述词序列是否属于预设命令词,得到确定结果。
步骤304,根据上述确定结果,若有词序列属于预设命令词,选择属于预设命令词、且在解码结果中解码路径的综合得分最高的词序列对应的命令词,作为语音识别结果。
本公开实施例中的预设命令词,即预先设置的集内词中的词。
在一些可选的实施方式中,可以分别以各预设命令词对应解码路径中所有字或词的语言概率之和、或者平均值等,作为该解码路径的综合得分;或者,在另一些可选的实施方式中,也可以以各预设命令词对应解码路径中所有字或词的声学概率与语言概率之和、或者平均值等,作为该解码路径的综合得分;或者,在又一些可选的实施方式中,还可以以各预设命令词对应解码路径中所有词的声学概率与语言概率按照预设权重值的加权平均值,作为该解码路径的综合得分。然而,本公开实施例对解码路径的综合得分的具体计算方式不做限制。
基于本实施例,先分别确定各解码路径对应的词序列是否属于预设命令词,选择属于预设命令词、且在解码结果中解码路径的综合得分最高的词序列对应的命令词,作为语音识别结果,可以在提升拒识率的情况下,使得语音识别结果更客观、准确。
图5是本公开再一示例性实施例提供的语音识别方法的流程示意图。如图5所示,该实施例的语音识别方法包括如下步骤:
步骤401,对待识别语音进行解码,得到解码结果。
其中的待识别语音,可以是由音频采集模块(例如麦克风等)采集的原始音频信号,也可以是原始音频信号经前端信号处理后的语音,本公开实施例对此不做限制。
本公开实施例中的解码结果即词图,其包括至少一个解码路径,每个解码路径对应一个词序列,每个词序列包括一个或多个字或词、以及字或词的开始时间和结束时间、以及声学概率和语言概率。
在一些可选的实施方式中,本公开实施例可以利用语音识别模型(包括声学模型和语言模型),对待识别语音进行解码,得到解码结果。本公开实施例对声学模型和语言模型的具体实现方式不做限制。
其中,声学概率用于表示待识别语音中某段语音的发音到音素的概率,可以通过声学模型获得。声学模型输出的是声学识别结果,该声学识别结果包括至少一条路径,每条路径包括至少一个音素以及该至少一个音素中各音素的声学概率。声学模型得到该声学识别结果后,可以将该声学识别结果输入语言模型,由语言模型得到声学识别结果中各音素到字或词的语言概率。
步骤402,针对解码结果中综合得分最高的解码路径,获取该综合得分最高的解码路径对应的词序列的第一置信度、以及该词序列中各子词的第二置信度。
具体来说,在一些可选的实施方式中,可以分别以各解码路径中所有字或词的语言概率之和、或者平均值等,作为该解码路径的综合得分;或者,在另一些可选的实施方式中,也可以以各解码路径中所有字或词的声学概率与语言概率之和、或者平均值等,作为该解码路径的综合得分;或者,在又一些可选的实施方式中,还可以以各解码路径中所有词的声学概率与语言概率按照预设权重值的加权平均值,作为该解码路径的综合得分。然而,本公开实施例对解码路径的综合得分的具体计算方式不做限制。
在一些可选的实施方式中,可以针对综合得分最高的解码路径中的各音素,先基于该音素的声学概率,计算该音素在该综合得分最高的解码路径中的多个声学后验概率的平均值,得到该音素在词序列中的置信度(即音素作为子词的第二置信度)。例如,可以针对该综合得分最高的解码路径中的各音素,基于该音素的声学概率,采用预设前后向算法,分别计算该音素的前向概率和后向概率,然后,基于该音素的前向概率和后向概率,采用预设计算方式,计算该音素在该综合得分最高的解码路径中的声学后验概率,得到多个声学后验概率,计算该多个声学后验概率的平均值,可以得到该音素在该综合得分最高的解码路径中的置信度。然而,本公开实施例对音素在综合得分最高的解码路径中的置信度的计算方式不限于此。
然后,基于词序列中各字或词对应的音素对应的置信度,计算得到词序列中各字或词的置信度(即字作为子词的第二置信度)。例如,获取词序列中各字或词对应的音素的置信度的平均值,作为词序列中各字或词的置信度;或者,按照各音素的预设权重值,对词序列中各字或词对应的音素对应的置信度进行加权、再获取平均值,作为词序列中各字或词的置信度。然而,本公开实施例对字或词的置信度的计算方式不限于此。
进而,基于词序列中各字或词的置信度,计算得到词序列的置信度(即第一置信度)。例如,获取词序列中各字或词的置信度的平均值,作为该词序列的置信度。或者,按照各字或词的预设权重值,对词序列中各字或词的置信度进行加权、再获取平均值,作为该词序列的置信度。然而,本公开实施例对词序列的置信度的计算方式不限于此。
步骤403,基于上述第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定上述词序列是否属于预设命令词,得到确定结果。
步骤404,根据上述确定结果,若上述词序列属于预设命令词,以该词序列属于的命令词作为语音识别结果。
本公开实施例中的预设命令词,即预先设置的集内词中的词。
基于本实施例,由于解码结果中综合得分最高的解码路径对应的词序列,作为用户语音识别结果的概率最高,直接获取解码结果中综合得分最高的解码路径对应的词序列的第一置信度、以及该词序列中各子词的第二置信度,通过该第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定该词序列属于预设命令词时直接作为语音识别结果,可以在提升拒识率的情况下,使得语音识别结果更客观、准确;另外,相对于针对解码结果中的所有解码路径,分别计算词序列及该词序列中各子词的置信度来确定该词序列是否属于预设命令词,大大减少了计算量,节省了计算资源,提高了整个语音识别流程的效率。
在本公开的一些可选例子中,得到待识别语音的语音识别结果之后,还可以基于该词序列属于的命令词,控制电子设备执行相应的操作。
基于本实施例,针对语音识别模型鲁棒性差、用户的发音习惯不同、词序列中前后缀不同、语音中存在前背景噪声等情况,均能够有效提高语音识别的准确率和稳定性,正确控制电子设备的运行,有助于改善用户体验。
本公开实施例提供的任一种语音识别方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种语音识别方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种语音识别方法。下文不再赘述。
示例性装置
图6是本公开一示例性实施例提供的语音识别装置的结构示意图。该语音识别装置可以设置于终端设备、服务器等电子设备中,执行本公开上述任一实施例的语音识别方法。如图6所示,该语音识别装置包括:第一得到模块501,获取模块502,确定模块503和第二得到模块504。其中:
第一得到模块501,用于对待识别语音进行解码,得到解码结果。
获取模块502,用于获取解码结果中解码路径对应的词序列的第一置信度、该词序列中各子词的第二置信度。
确定模块503,用于基于上述第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定该词序列是否属于预设命令词。
第二得到模块504,用于根据上述词序列是否属于预设命令词的确定结果,得到待识别语音的语音识别结果。
基于本实施例,同时根据解码结果中解码路径对应的词序列的第一置信度及其对应的第一置信度阈值、词序列中各子词的第二置信度及其对应的第二置信度阈值之间的关系,确定解码路径对应的词序列是否属于预设命令词,能够有效应对语音识别模型鲁棒性差、用户的发音习惯不同、词序列中前后缀不同、语音中存在前背景噪声等情况,提高在这些情况下命令词识别结果的可靠性,进而根据该词序列是否属于预设命令词的确定结果得到语音识别结果,能够有效提高语音识别的准确率和稳定性,正确控制电子设备的运行,有助于改善用户体验;另外,可以有效避免由于针对集外词(非命令词集合中的词)进行识别导致的语音识别***资源的浪费,提高语音识别***的资源利用率。
图7是本公开另一示例性实施例提供的语音识别装置的结构示意图。如图7所示,在上述图6所示实施例的基础上,在其中一些实施方式中,获取模块502可以包括:第一获取单元5021,用于获取解码路径对应的词序列中各子词的第二置信度;第二获取单元5022,用于分别基于所述词序列中各子词的第二置信度获取所述词序列的第一置信度。
再参见图7,在其中一些实施方式中,确定模块503可以包括:第一比较单元5031,用于比较词序列的第一置信度是否大于第一置信度阈值;第二比较单元5032,用于若词序列的第一置信度大于第一置信度阈值,比较词序列中各子词的第二置信度是否均大于对应的第二置信度阈值;确定单元5033,用于若词序列中各子词的第二置信度均大于对应的第二置信度阈值,确定该词序列属于预设命令词。
可选地,在另一些实施方式中,确定单元5033还可以用于若词序列中有子词的第二置信度不大于对应的第二置信度阈值,确定词序列不属于预设命令词。
可选地,在另一些实施方式中,确定单元5033还可以用于若词序列的第一置信度不大于第一置信度阈值,确定词序列不属于预设命令词。
另外,再参见图7,在本公开上述图6所示实施例的基础上,语音识别装置还可以包括:阈值获取模块505,用于获取词序列中各子词在词序列对应的命令词中的置信度阈值,作为对应的第二置信度阈值。
可选地,在其中一些实施方式中,上述解码结果包括至少一个解码路径。在该实施例中,获取模块502,具体用于分别针对解码结果中的各解码路径对应的词序列,获取词序列的第一置信度、以及词序列中各子词的第二置信度。相应地,第二得到模块504,具体用于根据确定模块503得到的确定结果,若有词序列属于预设命令词,选择属于预设命令词、且在解码结果中解码路径的综合得分最高的词序列对应的命令词,作为语音识别结果。
可选地,在另一些实施方式中,上述解码结果包括至少一个解码路径。在该实施例中,获取模块502,具体用于针对解码结果中综合得分最高的解码路径,执行获取解码结果中解码路径对应的词序列的第一置信度、词序列中各子词的第二置信度的操作。相应地,第二得到模块504,具体用于根据确定模块503得到的确定结果,若词序列属于预设命令词,以词序列属于的命令词作为语音识别结果。
另外,再参见图7,在本公开上述图6所示实施例的基础上,语音识别装置还可以包括:控制模块506,用于基于上述词序列属于的命令词,控制电子设备执行相应的操作。
示例性电子设备
下面,参考图8来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图8图示了根据本公开实施例的电子设备的框图。如图8所示,电子设备800包括一个或多个处理器801和存储器802。
处理器801可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备800中的其他组件以执行期望的功能。
存储器802可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器801可以运行所述程序指令,以实现上文所述的本公开的各个实施例的语音识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备800还可以包括:输入装置803和输出装置804,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备或第二设备时,该输入装置803可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置803可以是通信网络连接器,用于从第一设备和第二设备接收所采集的输入信号。
此外,该输入装置803还可以包括例如键盘、鼠标等等。
该输出装置804可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备804可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图8中仅示出了该电子设备800中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备800还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (11)
1.一种语音识别方法,包括:
对待识别语音进行解码,得到解码结果;
获取所述解码结果中解码路径对应的词序列的第一置信度、所述词序列中各子词的第二置信度;
基于所述第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定所述词序列是否属于预设命令词;
根据所述词序列是否属于预设命令词的确定结果,得到所述待识别语音的语音识别结果。
2.根据权利要求1所述的方法,其中,所述获取所述解码结果中解码路径对应的词序列的第一置信度、所述词序列中各子词的第二置信度,包括:
获取解码路径对应的词序列中各子词的第二置信度;
分别基于所述词序列中各子词的第二置信度获取所述词序列的第一置信度。
3.根据权利要求1或2所述的方法,其中,所述基于所述第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定所述词序列是否属于预设命令词,包括:
比较所述词序列的第一置信度是否大于所述第一置信度阈值;
若所述词序列的第一置信度大于所述第一置信度阈值,比较所述词序列中各子词的第二置信度是否均大于所述对应的第二置信度阈值;
若所述词序列中各子词的第二置信度均大于所述对应的第二置信度阈值,确定所述词序列属于预设命令词。
4.根据权利要求3所述的方法,其中,所述基于所述第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定所述词序列是否属于预设命令词,还包括:
若所述词序列中有子词的第二置信度不大于所述对应的第二置信度阈值,确定所述词序列不属于预设命令词。
5.根据权利要求3或4所述的方法,其中,所述基于所述第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定所述词序列是否属于预设命令词,还包括:
若所述词序列的第一置信度不大于所述第一置信度阈值,确定所述词序列不属于预设命令词。
6.根据权利要求3-5任一所述的方法,其中,所述比较所述词序列中各子词的第二置信度是否均大于所述对应的第二置信度阈值之前,还包括:
获取所述词序列中各子词在所述词序列对应的命令词中的置信度阈值,作为所述对应的第二置信度阈值。
7.根据权利要求1-6任一所述的方法,其中,所述解码结果包括至少一个解码路径;
所述获取所述解码结果中解码路径对应的词序列的第一置信度、所述词序列中各子词的第二置信度,包括:
分别针对所述解码结果中的各解码路径对应的词序列,获取所述词序列的第一置信度、以及所述词序列中各子词的第二置信度;
所述根据所述词序列是否属于预设命令词的确定结果,得到所述待识别语音的语音识别结果,包括:
根据所述确定结果,若有词序列属于预设命令词,选择属于预设命令词、且在所述解码结果中解码路径的综合得分最高的词序列对应的命令词,作为所述语音识别结果。
8.根据权利要求1-6任一所述的方法,其中,所述解码结果包括至少一个解码路径;
所述获取所述解码结果中解码路径对应的词序列的第一置信度、所述词序列中各子词的第二置信度,包括:
针对所述解码结果中综合得分最高的解码路径,执行所述获取所述解码结果中解码路径对应的词序列的第一置信度、所述词序列中各子词的第二置信度的操作;
所述根据所述词序列是否属于预设命令词的确定结果,得到所述待识别语音的语音识别结果,包括:
根据所述确定结果,若所述词序列属于预设命令词,以所述词序列属于的命令词作为所述语音识别结果。
9.一种语音识别装置,包括:
第一得到模块,用于对待识别语音进行解码,得到解码结果;
获取模块,用于获取所述解码结果中解码路径对应的词序列的第一置信度、所述词序列中各子词的第二置信度;
确定模块,用于基于所述第一置信度与第一置信度阈值、各子词的第二置信度与对应的第二置信度阈值之间的关系,确定所述词序列是否属于预设命令词;
第二得到模块,用于根据所述词序列是否属于预设命令词的确定结果,得到所述待识别语音的语音识别结果。
10.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8任一所述的语音识别方法。
11.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-8任一所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111361480.0A CN114093358A (zh) | 2021-11-17 | 2021-11-17 | 语音识别方法和装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111361480.0A CN114093358A (zh) | 2021-11-17 | 2021-11-17 | 语音识别方法和装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114093358A true CN114093358A (zh) | 2022-02-25 |
Family
ID=80301264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111361480.0A Pending CN114093358A (zh) | 2021-11-17 | 2021-11-17 | 语音识别方法和装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114093358A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580406A (zh) * | 2022-02-28 | 2022-06-03 | 贝壳找房网(北京)信息技术有限公司 | 用于存储语言模型的方法、设备、介质和程序产品 |
CN115497484A (zh) * | 2022-11-21 | 2022-12-20 | 深圳市友杰智新科技有限公司 | 语音解码结果处理方法、装置、设备及存储介质 |
CN115831100A (zh) * | 2023-02-22 | 2023-03-21 | 深圳市友杰智新科技有限公司 | 语音命令词识别方法、装置、设备及存储介质 |
-
2021
- 2021-11-17 CN CN202111361480.0A patent/CN114093358A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580406A (zh) * | 2022-02-28 | 2022-06-03 | 贝壳找房网(北京)信息技术有限公司 | 用于存储语言模型的方法、设备、介质和程序产品 |
CN115497484A (zh) * | 2022-11-21 | 2022-12-20 | 深圳市友杰智新科技有限公司 | 语音解码结果处理方法、装置、设备及存储介质 |
CN115831100A (zh) * | 2023-02-22 | 2023-03-21 | 深圳市友杰智新科技有限公司 | 语音命令词识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11138977B1 (en) | Determining device groups | |
CN114093358A (zh) | 语音识别方法和装置、电子设备和存储介质 | |
US9672812B1 (en) | Qualifying trigger expressions in speech-based systems | |
US10685664B1 (en) | Analyzing noise levels to determine usability of microphones | |
US10854192B1 (en) | Domain specific endpointing | |
US11532301B1 (en) | Natural language processing | |
CN111916068A (zh) | 音频检测方法和装置 | |
CN112687286A (zh) | 音频设备的降噪模型的调整方法和装置 | |
KR20230020523A (ko) | 자동 핫워드 임계치 튜닝 | |
CN112071310A (zh) | 语音识别方法和装置、电子设备和存储介质 | |
US11682416B2 (en) | Voice interactions in noisy environments | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
US20240013784A1 (en) | Speaker recognition adaptation | |
CN111862943B (zh) | 语音识别方法和装置、电子设备和存储介质 | |
CN112767916A (zh) | 智能语音设备的语音交互方法、装置、设备、介质及产品 | |
CN116343765A (zh) | 自动语境绑定领域特定话音识别的方法和*** | |
US11348579B1 (en) | Volume initiated communications | |
CN113889091A (zh) | 语音识别方法、装置、计算机可读存储介质及电子设备 | |
CN114255754A (zh) | 语音识别方法、电子设备、程序产品和存储介质 | |
CN113053377A (zh) | 语音唤醒方法和装置、计算机可读存储介质、电子设备 | |
US11626107B1 (en) | Natural language processing | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN112863496B (zh) | 一种语音端点检测方法以及装置 | |
US20230223014A1 (en) | Adapting Automated Speech Recognition Parameters Based on Hotword Properties |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |