CN111078937B

CN111078937B - 语音信息检索方法、装置、设备和计算机可读存储介质

Info

Publication number: CN111078937B
Application number: CN201911374503.4A
Authority: CN
Inventors: 郭立钊; 谷悦; 杨嵩; 刘子韬
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2021-08-10
Anticipated expiration: 2039-12-27
Also published as: CN111078937A

Abstract

本申请提出一种语音信息检索方法、装置、设备和计算机可读存储介质。该方法包括：获取待检索语音信息的候选文本集合，候选文本集合包括多个候选文本；在多个候选文本中检索与目标文本匹配的第一候选文本；获取第一候选文本在待检索语音信息中的第一韵律特征；获取目标文本的固有韵律特征；根据第一候选文本的第一韵律特征以及目标文本的固有韵律特征，认定目标文本是否存在于待检索语音信息中。利用本申请实施例能够降低语音信息检索的误判率。

Description

语音信息检索方法、装置、设备和计算机可读存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音信息检索方法、装置、设备和计算机可读存储介质。

背景技术

随着移动互联网和硬件设备的迅速发展，语音信息的积累呈现***性的增长。如何在这些语音信息中准确的查找到用户关心的内容，成为了研究者感兴趣的热点问题。随着深度神经网络技术的发展，语音关键词检索(Keywords Spotting，KWS)技术被广泛应用于语音信息的检索。语音信息检索的目的是在连续语音中辨认一些特定的文本，例如在语音信息中搜索用户感兴趣的关键词。

目前，常用的语音关键词检索技术通常是先对语音文件进行识别，获得该语音文件对应的文本内容以及文本内容中每个字或词的出现时间，然后在文本内容中搜索用户感兴趣的目标关键词，***可返回搜索到的关键词及其出现的起止时间。

但是，由于已有的语音识别模型，特别是在嘈杂环境下或者在训练数据较少的条件下训练得到的语音识别模型，识别准确度并不高，经常发生语音信息识别错误的情况，导致对语音信息进行关键词检索时，时常会出现误判，给实际应用带来诸多不便。

发明内容

本申请实施例提供一种语音信息检索方法、装置、设备和计算机可读存储介质，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种语音信息检索方法，包括：

获取待检索语音信息的候选文本集合，候选文本集合包括多个候选文本；

在多个候选文本中检索与目标文本匹配的第一候选文本；

获取第一候选文本在待检索语音信息中的第一韵律特征；

获取目标文本的固有韵律特征；

根据第一候选文本的第一韵律特征以及目标文本的固有韵律特征，认定目标文本是否存在于待检索语音信息中。

在一种实施方式中，多个候选文本具有对应的置信度；

在多个候选文本中检索与目标文本匹配的第一候选文本，包括：

在多个候选文本中检索到与目标文本相同的候选文本时，从检索到的候选文本中选取置信度大于或等于预设阈值的候选文本，作为第一候选文本。

在一种实施方式中，获取目标文本的固有韵律特征，包括：

从预存的韵律特征曲线模板库中，获取与目标文本对应的韵律特征曲线，作为目标文本的固有韵律特征；其中，

韵律特征曲线模板库包括多个文本以及与多个文本分别对应的各自一组韵律特征曲线，其中，每一组韵律特征曲线包括与多个位置区域分别对应的各自一个韵律特征曲线，多个位置区域包括与该组韵律特征曲线对应的单个文本在不同的语音信息中所处的多个位置区域。

在一种实施方式中，从预存的韵律特征曲线模板库中，获取与目标文本对应的韵律特征曲线，作为目标文本的固有韵律特征，包括：

根据第一候选文本在待检索语音信息中出现的时刻，确定第一候选文本在待检索语音信息中处于第一位置区域；

在韵律特征曲线模板库中，确定目标文本对应的一组韵律特征曲线，并在该组韵律特征曲线中，选择第一位置区域对应的韵律特征曲线，作为目标文本的固有韵律特征。

在一种实施方式中，获取第一候选文本在待检索语音信息中的第一韵律特征，包括：

根据第一候选文本在待检索语音信息中出现的起始时刻和结束时刻，确定待检索语音信息中与第一候选文本对应的语音片段的时长；

获取固有韵律特征对应的时长；

对语音片段进行处理，以使语音片段的时长等于固有韵律特征对应的时长；

对进行处理后的语音片段的韵律特征进行曲线拟合，将拟合得到的韵律特征曲线作为第一候选文本在待检索语音信息中的第一韵律特征。

在一种实施方式中，根据第一候选文本的第一韵律特征以及目标文本的固有韵律特征，认定目标文本是否存在于待检索语音信息中，包括：

确定第一候选文本的第一韵律特征以及目标文本的固有韵律特征的相关系数；

如果相关系数大于或等于预设阈值，认定目标文本存在于待检索语音信息中。

在一种实施方式中，多个候选文本具有对应的置信度；

根据第一候选文本的第一韵律特征以及目标文本的固有韵律特征，认定目标文本是否存在于待检索语音信息中，包括：

根据预设的置信度权重和相关系数权重，对第一候选文本的置信度和相关系数进行加权求和，得到第一候选文本的分值；

如果第一候选文本的分值大于或等于预设阈值，认定目标文本存在于待检索语音信息中。

在一种实施方式中，第一韵律特征包括第一基频曲线和/或第一浊音概率曲线；固有韵律特征包括固有基频曲线和/或固有浊音概率曲线。

第二方面，本申请实施例提供了一种语音信息检索装置，包括：

识别模块，用于获取待检索语音信息的候选文本集合，候选文本集合包括多个候选文本；

检索模块，用于在多个候选文本中检索与目标文本匹配的第一候选文本；

第一获取模块，用于获取第一候选文本在待检索语音信息中的第一韵律特征；

第二获取模块，用于获取目标文本的固有韵律特征；

认定模块，用于根据所述第一候选文本的第一韵律特征以及目标文本的固有韵律特征，认定目标文本是否存在于所述待检索语音信息中。

第三方面，本申请实施例提供了一种语音信息检索的设备，该设备包括：存储器和处理器。其中，该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行上述各方面任一种实施方式中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的方法被执行。

上述技术方案中的优点或有益效果至少包括：

本申请实施例的语音信息检索方案，通过获取待检索语音信息的候选文本集合，从该集合检索到与目标文本匹配的第一候选文本后，获取第一候选文本在待检索语音信息中的韵律特征，以及目标文本的固有韵律特征，根据两者确定目标文本是否存在于待检索语音信息中。本申请实施例考虑了相同文本对应的语音应具有近似的韵律，通过引入韵律特征，排除韵律差异较大的检索结果，降低语音信息检索的误判率。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1为作为示例的待检索语音的词图示意图；

图2为本申请实施例提供的语音信息检索方法的流程图；

图3为本申请实施例提供的语音信息检索方法的流程图；

图4为本申请实施例提供的语音信息检索方法的流程图；

图5为本申请实施例提供的语音信息检索装置的结构框图；

图6为本申请实施例提供的语音信息检索装置的结构框图；

图7为本申请实施例提供的语音信息检索装置的结构框图；

图8为本发明实施例提供的设备的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

对语音信息进行检索，以在语音信息中识别出特定文本，这种技术可以被广泛应用于人们的日常生活中。例如，在教学环境中进行录音，在录音得到的语音信息中识别敏感词汇，可以判断教学人员是否在教学过程使用敏感词汇。又如，在网约车行驶过程中进行录音，在录音得到的语音信息中识别特定关键词，可以判断网约车行驶过程中是否存在乘客人身安全风险。

在本领域，采用语音关键词检索技术对语音信息进行检索，可以包括语音识别和关键词检索。在语音识别阶段，可以利用训练好的语音识别模型对语音信息进行识别。在每一个识别节点，根据置信度衡量识别结果的可靠性，保留置信度最高的多个候选词，然后以这多个候选词为下一个识别节点，逐步识别整段语音信息，得到语音信息对应的词图(lattice)。词图可以包括多个候选路径中的候选词。每个候选词具有对应的置信度。词图中还可以包括候选词在语音信息中的起始时刻。

作为示例，图1示出了一段语音信息的词图。该语音信息所表达的内容是“给我点声音”。词图中包括多个候选路径，如图中的黑色圆点之间的连线。多个候选路径分别包括多个候选词w，例如从左边的第一个黑色圆点开始沿上方连线到右边的最后一个黑色圆点形成的候选路径包括“！NULL(静音符)”、“<enter>(开始符)”、“给我”、“点”、“声音”和“！NULL(静音符)”。如图1所示，识别该语音得到的候选识别结果有“给我点声音”、“我点声音”、“路边的声音”、“没路边的事”、“没路边的生意”等。词图中还包括候选词在语音信息中的起始时刻t，其单位可以是秒(s)。

在关键词检索阶段，基于给定的目标关键词，在词图上快速检索与目标关键词相同的文本，得到目标关键词在语音信息中的时间信息和置信度。但词图包括多个候选路径，并非全部候选词都是准确的语音内容。而且，已有的语音识别模型准确度有限。因此，在词图中检索得到的目标关键词的置信度可能很低，容易造成误判。例如，目标关键词为“生意”，语音“给我点声音”的词图中包含候选词“生意”，因此，会得出在语音“给我点声音”中检索到目标关键词“生意”的结论，但实际上该语音中不存在该目标关键词，由此造成误判。语音识别模型的准确度、不同发音人的发音差异、发音环境中的噪声，都会造成语音信息检索的误判。

本申请实施例提供一种语音信息检索方法，图2示出该方法的流程图。如图2所示，该方法包括：

步骤S101、获取待检索语音信息的候选文本集合，候选文本集合包括多个候选文本。

本申请实施例中，语音信息可以是用于承载声音信息的音频文件，例如音乐或人们说话的语音等。语音信息可以包括随时间变化的波形信号，从该波形信号中可以提取随时间变化的基频、振幅、谐波比例、浊音概率等声音特征。将这些声音特征拟合成随时间变化的曲线，可以得到特征曲线。

待检索语音信息，可以包括需要确认是否存在特定文本的语音信息，例如需要确认是否存在敏感词汇的课堂教学录音。

示例性地，可以利用语音识别模型生成待检索语音信息的候选文本集合。语音识别模型可以包括声学模型和/或语言模型。将待检索语音信息输入语音识别模型，语音识别模型提取待检索语音信息的语音识别特征，包括滤波器组(Filter Banks，FBank)特征或梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征等。然后，语音识别模型利用搜索算法，例如维特比算法，逐步识别待检索语音信息所表达的内容，得到待检索语音信息的候选文本集合，该候选文本集合可以包括多个候选文本。候选文本可以包括短句、单个词和/或单个字等文本。

候选文本集合可以是词图，例如，将待检索语音信息“给我点声音”，输入语音识别模型，利用语音识别模型可以生成如图1所示的词图，其包括的候选文本有：给我、点、声音、我、路边、的、事、没、变、生意、别的、事情、哦和普遍。在一些实施方式中，候选文本集合也可以是其他形式的多个候选文本的集合。

步骤S102、在所述多个候选文本中检索与目标文本匹配的第一候选文本。

目标文本可以包括根据检索需求预先设定的一些特定文本。例如，需要确认教学人员是否在课堂教学录音中说出一些敏感词汇，可以设定目标文本包括敏感词汇。

示例性地，可以以目标文本为索引，在候选文本集合中遍历搜索，查找与目标文本匹配的第一候选文本。与目标文本匹配的第一候选文本，可以是与目标文本相同的第一候选文本。例如，目标文本为“声音”，在图1所示的词图中搜索，可以查找到在图中右上方的文本“声音”，作为第一候选文本。

如前所述，由于发音差异、环境噪声和识别准确度，与目标文本相同的候选文本所对应的语音片段可能并没有表达目标文本。例如，在待检索语音“给我点声音”中检索目标文本“生意”，会检索到在t＝0.97s处出现文本“生意”。但在该待检索语音中，t＝0.97s处的语音片段实际表达的是“声音”。在一些实施方式中，可以设置一些筛选条件，与目标文本匹配的第一候选文本需要与目标文本相同且满足这些筛选条件，从而排除与目标文本相同但对应的语音片段没有表达目标文本的候选文本。

例如，词图中的每一个候选文本对应有置信度，这里所述的“置信度”可以理解为语音识别模型为识别结果中的各文本给出的分值，分值越高，置信度越高，识别准确的概率越高。在步骤S102中，可以将置信度大于或等于预设阈值设置为筛选条件，以与目标文本相同且置信度大于或等于预设阈值的候选文本作为第一候选文本，可在一定程度上提高检索准确度。

步骤S103、获取第一候选文本在待检索语音信息中的第一韵律特征。

韵律特征包含人说话的韵律信息，例如语音中具有韵律感的声调和顿挫起伏感。通常，语音信息的特征包括基频和浊音概率。基频能够体现音高，也就是常说的声调；浊音概率能够体现语音的顿挫起伏感。因此，语音信息的韵律特征可以包括基频和/或浊音概率。在步骤S103中，可以直接以第一候选文本在待检索语音信息中各时间点的基频和/或浊音概率作为第一韵律特征。也可以将基频和/或浊音概率分别拟合成随时间变化的曲线，得到第一基频曲线和/或第一浊音概率曲线，作为第一韵律特征。例如，如图1所示，在待检索语音“给我点声音”中检索目标文本“生意”，词图中的“生意”为第一候选文本，第一候选文本在待检索语音信息中的位置为t＝0.97s至t＝0.98s，第一韵律特征可以是待检索语音中t＝0.97s至t＝0.98s之间的基频或基频曲线。

在文本相同的情况下，不同发音人的语音的韵律特征是相近的。如一名成人和一名儿童都读“未来”时，其声调组合都为“四声+二声”。考虑相同文本对应的语音应具有近似的韵律，本申请实施例可以利用韵律差异排除错误的检索结果，从而降低语音检索的误判率。例如，第一候选文本“生意”在待检索语音信息中的第一韵律特征是语音片段“声音”的韵律特征，在后续步骤中，可以利用“声音”与“生意”的韵律差异，降低语音检索的误判率。

步骤S104、获取目标文本的固有韵律特征。

固有韵律特征是文本对应的语音本身应该具备的韵律特征，代表绝大多数人在通常语境下说出该文本而得到的语音的韵律特征。示例性地，可以预先准备好多个文本，例如“声音”、“生意”、“事情”等，录制每一个文本的语音信息，从中提取韵律特征进行处理，作为这些文本的固有韵律特征。

为使单个文本的固有韵律特征能够与绝大多数情况下该文本对应的语音的韵律特征相近，可以预先录制不同人例如成人和小孩在不同语境下说出该文本的多个语音。还可以将该文本置于不同的语句或段落中，录制不同人在不同语境下说出该语句或段落的多个语音，从多个语句或段落的语音中提取该文本的多个语音。例如，将“声音”置于语句“给我点声音”、“她的声音真好听”和“声音是从哪儿来的”中，录制不同人在不同语境下说出这三个语句的语音，从中提取出“声音”的语音。从文本的多个语音中提取韵律特征，然后对多个语音的韵律特征进行处理，可以得到该文本的固有韵律特征。例如取多个语音的韵律特征的均值或者众数，作为该文本的固有韵律特征。再如，取多个语音的韵律特征，拟合成韵律特征曲线，作为该文本的固有韵律特征。

作为一种示例，对于多个文本中的每一个文本，均分别利用多个语音的韵律特征拟合得到韵律特征曲线，从而得到每一个文本的固有韵律特征，可以建立包括多个文本的韵律特征曲线的韵律特征曲线模板库。则步骤S104、获取目标文本的固有韵律特征，可以包括：

从预存的韵律特征曲线模板库中，获取与目标文本对应的韵律特征曲线，作为目标文本的固有韵律特征。其中，韵律特征曲线模板库可以包括多个文本以及与多个文本分别对应的一个或多个韵律特征曲线。

在上述各示例中，利用语音的基频，可以拟合成基频曲线；利用语音的浊音概率，可以拟合成浊音概率曲线。文本的固有韵律特征，可以包括固有基频曲线和/或固有韵律特征曲线。

步骤S105、根据第一候选文本的第一韵律特征以及目标文本的固有韵律特征，认定目标文本是否存在于待检索语音信息中。

示例性地，可以对第一候选文本在待检索语音信息中的第一韵律特征以及目标文本的固有韵律特征进行比对。根据两者的相似度或相关性，判断在待检索语音信息中，与第一候选文本对应的语音片段是否是目标文本的语音，从而认定目标文本是否存在于待检索语音信息中。例如，第一候选文本“生意”在待检索语音信息中的第一韵律特征是语音片段“声音”的韵律特征，将语音片段“声音”的韵律特征与目标文本“生意”的固有韵律特征进行比对，容易发现两者并不相似，从而认定目标文本“生意”并没有存在于待检索语音信息“给我点声音”中。

上述技术方案，通过识别待检索语音信息得到候选文本集合，从该集合检索到与目标文本匹配的第一候选文本后，获取第一候选文本在待检索语音信息中的第一韵律特征以及目标文本的固有韵律特征，根据两者确定目标文本是否存在于待检索语音信息中。该技术方案考虑了相同文本对应的语音应具有近似的韵律，将韵律差异较大的检索结果排除，降低了语音信息检索的误判率。

对于同一文本，其语境不同，韵律特征曲线也不尽相同，因为韵律特征受上下文语境的影响。因此，对同一文本，还可以根据其处于不同的语境再进行细分，预先录制不同语境下的语音，拟合不同语境下的韵律特征曲线。

当文本处于语音信息中的不同位置区域时，上下文内容对文本的韵律会形成不同的影响，从而韵律特征会有所不同。由于文本在不同位置区域的韵律特征，体现了上下文语境对韵律特征的影响，所以位置区域可以作为一种语境信息。例如：待检索的目标文本为“天真”，语音信息分别为“夏天真热！”和“天真的小孩”，因目标文本位于不同语音信息中的不同位置区域，其特征曲线会受前后发音词的词性或者整个语句句型(感叹、疑问)不同而有所变化。因此，可以使用同一个文本在不同的语音信息中处于不同的位置区域时的语音片段，拟合多个韵律特征曲线。例如，利用“声音”在语音信息“声音是从哪儿来的”中对应的语音片段，拟合“声音”处于语音开始位置的韵律特征曲线；利用“声音”在语音信息“她的声音真好听”中对应的语音片段，拟合“声音”处于语音中间位置的韵律特征曲线；利用“声音”在语音信息“给我点声音”中对应的语音片段，拟合“声音”处于语音结尾位置的韵律特征曲线。韵律特征曲线模板库包括多个文本分别对应的各自一组韵律特征曲线。每一组韵律特征曲线包括与多个位置区域分别对应的各自一个韵律特征曲线。其中，多个位置区域包括与该组韵律特征曲线对应的单个文本在不同的语音信息中所处的多个位置区域。例如，每一组韵律特征曲线包括对应的文本分别在语音开始位置、语音中间位置和语音结尾位置的韵律特征曲线。

作为示例性的实施方式，如图3所示的语音信息检索方法的流程图，步骤S104中，从预存的韵律特征曲线模板库中，获取与目标文本对应的韵律特征曲线，作为目标文本的固有韵律特征，包括：

步骤S1041、根据第一候选文本在待检索语音信息中出现的时刻，确定第一候选文本在待检索语音信息中处于第一位置区域；其中，该时刻可以是起始时刻，也可以是中间时刻或结束时刻；

步骤S1042、在韵律特征曲线模板库中，确定目标文本对应的一组韵律特征曲线，并在该组韵律特征曲线中，选择第一位置区域对应的第一韵律特征曲线，作为目标文本的固有韵律特征。

例如，参见图1，根据词图中第一候选文本“生意”的起始时刻t＝0.97s，可以确定第一候选文本“生意”在时间长度为0.98s的整句语音信息中处于语音结尾位置。然后在韵律特征曲线模板库中，确定目标文本“生意”对应的一组韵律特征曲线。再从该组韵律特征曲线中，选择语音结尾位置对应的韵律特征曲线，作为目标文本“生意”的固有韵律特征。

此外，语境信息也可以包括语言情景。在不同的语言情景下，说话人的态度、环境氛围不同，韵律也会有所不同。韵律特征曲线模板库可以包括多个文本分别在多种语言情景中的韵律特征曲线。步骤S104中，从预存的韵律特征曲线模板库中，获取与目标文本对应的韵律特征曲线，作为目标文本的固有韵律特征，可以包括：获取待检索语音信息的语言情景；从韵律特征曲线模板库中，获取目标文本在该语言情景中的韵律特征曲线，作为目标文本的固有韵律特征。

作为一种示例性的实施方式，如图4所示的语音信息检索方法的流程图，上述步骤S103、获取第一候选文本在待检索语音信息中的韵律特征，可以包括：

步骤S1031、根据第一候选文本在待检索语音信息中出现的起始时刻和结束时刻，确定待检索语音信息中与第一候选文本对应的语音片段的时长；

步骤S1032、获取固有韵律特征对应的时长；其中，固有韵律特征是从韵律特征曲线模板库中选取的一个韵律特征曲线，固有韵律特征对应的时长可以是该曲线的时间轴长度；

步骤S1033、对该语音片段进行处理，以使该语音片段的时长等于固有韵律特征对应的时长；

步骤S1034、对进行处理后的语音片段的韵律特征进行曲线拟合，将拟合得到的韵律特征曲线作为第一候选文本在待检索语音信息中的第一韵律特征。

示例性地，上述对语音片段的处理可以是将第一候选文本对应的语音片段进行升采样或降采样。本申请实施例可以通过比对第一候选文本的第一韵律特征和目标文本的固有韵律特征，衡量两者之间的相关性或相似度，从而确定目标文本是否存在于待检索语音信息中。而固有韵律特征是模板库中的一个韵律特征曲线，第一候选文本的第一韵律特征要与模板库中的韵律特征曲线比对，可以先对第一候选文本对应的语音片段进行曲线拟合。上述示例性的处理方式可以使第一候选文本对应的语音片段的时长与作为固有韵律特征的韵律特征曲线对应的时长一致，从而用于做比对的两个曲线的时长一致，可以提高相关性和相似度衡量的准确性。

在一些实施方式中，在预先设置韵律特征曲线模板库时，其中的曲线拟合的过程可以包括：先获得语音信息中各音节的韵律特征，形成包括依序排列的各音节和其韵律特征的韵律特征序列，对该韵律特征序列进行多项式曲线拟合，例如三次多项式曲线拟合，得到韵律特征曲线。相应地，上述步骤S1034也可以采用相同或相似的方式对第一候选文本对应的语音片段的韵律特征进行曲线拟合。

以韵律特征为基频作为例子，曲线拟合的步骤可以如下：

步骤A、根据每个音节的起止时间，提取语音信息中每个音节的基频值；

步骤B、对于基频序列F0＝{(t1，f1)，(t2，f2)…(tn，fn)}，其中n表示语音信息中的多个音节共包括n个基频点，其中第i个基频点对应的时间点为ti,基频值为fi。经过归一化处理后，得到新的基频序列F′0＝{(t′1,f′1),(t′2,f′2),…,(t′n,f′n)}。

步骤C、对这个基频序列进行三次曲线拟合,得到体现曲线形状特征的四个参数a0、a1、a2、a3,这四个参数为三次曲线拟合得到的多项式的系数。该多项式为：F0(t)＝a0+a1*t+a2*t2+a3*t3，最后得到基频曲线。

对于浊音概率曲线，也可以使用上述示例性方式拟合得到。

作为一种示例性实施方式，步骤S105、根据第一候选文本的第一韵律特征以及目标文本的固有韵律特征，认定目标文本是否存在于待检索语音信息中，可以包括：

相关性可以反映两个变量之间的关联程度。相关性可以用相关系数衡量。两条曲线的相关系数越高，则两条曲线的走向越相近。本申请实施例第一韵律特征与固有韵律特征均可以是韵律特征曲线，使用相关系数量化第一候选文本的第一韵律特征与目标文本的固有韵律特征之间的差异，可以便于确定目标文本是否存在于待检索语音信息中。

作为示例，以两个变量(X，Y)代表两条特征曲线，相关系数(ρX，Y)等于他们之间的协方差cov(X，Y)除以他们各自标准差的乘积ρXρY。可以使用如下公式计算，其中，符号E()表示数学期望：

本申请实施例还可以结合候选文本的置信度，以及候选文本的韵律特征与目标文本的固有韵律特征之间的相关系数，综合判别候选文本对应的语音片段是否目标文本的发音，从而认定目标文本是否存在于待检索语音信息中。有如下综合判别的示例：

示例一、在多个候选文本中检索与目标文本匹配的第一候选文本时，可以将与目标文本相同但置信度低于预设阈值的候选文本排除，只保留高于该阈值的候选文本作为第一候选文本。即步骤S102、在多个候选文本中检索与目标文本匹配的第一候选文本，包括：

通过对检索结果进行置信度过滤，可以减少后续对韵律特征进行处理以及相关系数计算等各步骤的运算量，可以提高语音信息检索效率。

示例二、可以在获得韵律特征相关系数后，再结合置信度对检索结果进行判决。即步骤S105、根据第一候选文本的第一韵律特征以及目标文本的固有韵律特征，认定目标文本是否存在于待检索语音信息中，可以包括：

确定第一候选文本的第一韵律特征以及目标文本的固有韵律特征之间的相关系数；

根据第一候选文本的分值是否大于预设阈值，认定目标文本是否存在于待检索语音信息中。

在该示例中，可以调整置信度权重和相关系数权重，以语音信息检索的召回率最大时对应的权重为最优权重系数。

在具体实施时，韵律特征可以包括基频，或者包括浊音概率，也可以既包括基频也包括浊音概率。相应地，在候选文本集合中得到的第一候选文本所对应的语音片段的韵律特征曲线也可以包括基频曲线和浊音概率曲线。韵律特征曲线模板库中的韵律特征曲线包括基频曲线和浊音概率曲线，因此，目标文本的固有韵律特征也可以包括基频曲线和浊音概率曲线。对于两种韵律特征的相关系数，可以分别进行计算，再综合起来对目标文本是否存在于待检索语音信息中进行判别。

需要说明的是，尽管以上述示例介绍了语音信息检索方法如上，但本领域技术人员能够理解，本申请应不限于此。事实上，用户完全可根据个人喜好和/或实际应用场景灵活设定该方法。

这样，根据本申请上述实施例的语音信息检索方法，通过识别待检索语音信息得到候选文本集合，从该集合检索到与目标文本匹配的第一候选文本后，获取第一候选文本在待检索语音信息中的韵律特征，以及目标文本的固有韵律特征，根据两者确定目标文本是否存在于待检索语音信息中。本申请实施例考虑了相同文本对应的语音应具有近似的韵律，通过引入韵律特征，排除韵律差异较大的检索结果，降低了语音信息检索的误判率。

图5示出根据本发明实施例的语音信息检索装置的结构框图。如图5所示，该装置600可以包括：

识别模块610，用于获取待检索语音信息的候选文本集合，候选文本集合包括多个候选文本；

检索模块620，用于在多个候选文本中检索与目标文本匹配的第一候选文本；

第一获取模块630，用于获取第一候选文本在待检索语音信息中的第一韵律特征；

第二获取模块640，用于获取目标文本的固有韵律特征；

认定模块650，用于根据所述第一候选文本的第一韵律特征以及目标文本的固有韵律特征，认定目标文本是否存在于所述待检索语音信息中。

在一种实施方式中，多个候选文本具有对应的置信度；检索模块620用于在多个候选文本中检索到与目标文本相同的候选文本时，从检索到的候选文本中选取置信度大于或等于预设阈值的候选文本，作为第一候选文本。

在一种实施方式中，第二获取模块640用于从预存的韵律特征曲线模板库中，获取与目标文本对应的韵律特征曲线，作为目标文本的固有韵律特征；其中，

在一种实施方式中，如图6所示的语音信息检索装置的结构框图，第二获取模块640包括：

位置确定单元641，用于根据第一候选文本在待检索语音信息中出现的时刻，确定第一候选文本在待检索语音信息中处于第一位置区域；

选择单元642，用于在韵律特征曲线模板库中，确定目标文本对应的一组韵律特征曲线，并在该组韵律特征曲线中，选择第一位置区域对应的韵律特征曲线，作为目标文本的固有韵律特征。

在一种实施方式中，如图7所示的语音信息检索装置的结构框图，第一获取模块630，包括：

时长确定单元631，用于根据第一候选文本在待检索语音信息中出现的起始时刻和结束时刻，确定待检索语音信息中与第一候选文本对应的语音片段的时长；

时长获取单元632，用于获取固有韵律特征对应的时长；

时长处理单元633，用于对语音片段进行处理，以使语音片段的时长等于固有韵律特征对应的时长；

曲线拟合单元634，用于对进行处理后的语音片段的韵律特征进行曲线拟合，将拟合得到的韵律特征曲线作为第一候选文本在待检索语音信息中的第一韵律特征。

在一种实施方式中，认定模块650，包括：

相关系数确定单元，用于确定第一候选文本的第一韵律特征以及目标文本的固有韵律特征的相关系数；

第一认定单元，用于在相关系数大于或等于预设阈值的情况下，认定目标文本存在于待检索语音信息中。

在一种实施方式中，多个候选文本具有对应的置信度；认定模块650包括：

加权求和单元，用于根据预设的置信度权重和相关系数权重，对第一候选文本的置信度和相关系数进行加权求和，得到第一候选文本的分值；

第二认定单元，用于在第一候选文本的分值大于或等于预设阈值的情况下，认定目标文本存在于待检索语音信息中。

图8示出根据本发明实施例的设备的结构框图。如图8所示，该设备包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行该计算机程序时实现上述实施例中的语音信息检索方法。存储器910和处理器920的数量可以为一个或多个。

该设备还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音信息检索方法，其特征在于，包括：

获取待检索语音信息的候选文本集合，所述候选文本集合包括多个候选文本；

在所述多个候选文本中检索与目标文本匹配的第一候选文本；

获取所述第一候选文本在所述待检索语音信息中的第一韵律特征；

获取所述目标文本的固有韵律特征；

根据所述第一候选文本的第一韵律特征以及所述目标文本的固有韵律特征，认定所述目标文本是否存在于所述待检索语音信息中；

其中，所述获取所述目标文本的固有韵律特征，包括：

根据所述第一候选文本在所述待检索语音信息中出现的时刻，确定所述第一候选文本在所述待检索语音信息中处于第一位置区域；

在韵律特征曲线模板库中，确定所述目标文本对应的一组韵律特征曲线，并在该组韵律特征曲线中，选择所述第一位置区域对应的韵律特征曲线，作为所述目标文本的固有韵律特征；其中，所述韵律特征曲线模板库包括多个文本以及与所述多个文本分别对应的各自一组韵律特征曲线，其中，每一组韵律特征曲线包括与多个位置区域分别对应的各自一个韵律特征曲线，所述多个位置区域包括与该组韵律特征曲线对应的单个文本在不同的语音信息中所处的多个位置区域。

2.根据权利要求1所述的方法，其特征在于，其中，所述多个候选文本具有对应的置信度；

所述在所述多个候选文本中检索与所述目标文本匹配的第一候选文本，包括：

在所述多个候选文本中检索到与所述目标文本相同的候选文本时，从检索到的候选文本中选取置信度大于或等于预设阈值的候选文本，作为所述第一候选文本。

3.根据权利要求1所述的方法，其特征在于，所述获取所述第一候选文本在所述待检索语音信息中的第一韵律特征，包括：

根据所述第一候选文本在所述待检索语音信息中出现的起始时刻和结束时刻，确定所述待检索语音信息中与所述第一候选文本对应的语音片段的时长；

获取所述固有韵律特征对应的时长；

对所述语音片段进行处理，以使所述语音片段的时长等于所述固有韵律特征对应的时长；

对进行处理后的所述语音片段的韵律特征进行曲线拟合，将拟合得到的韵律特征曲线作为所述第一候选文本在所述待检索语音信息中的第一韵律特征。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一候选文本的第一韵律特征以及所述目标文本的固有韵律特征，认定所述目标文本是否存在于所述待检索语音信息中，包括：

确定所述第一候选文本的第一韵律特征以及所述目标文本的固有韵律特征的相关系数；

如果所述相关系数大于或等于预设阈值，认定所述目标文本存在于所述待检索语音信息中。

5.根据权利要求1所述的方法，其特征在于，所述多个候选文本具有对应的置信度；

所述根据所述第一候选文本的第一韵律特征以及所述目标文本的固有韵律特征，认定所述目标文本是否存在于所述待检索语音信息中，包括：

根据预设的置信度权重和相关系数权重，对所述第一候选文本的置信度和所述相关系数进行加权求和，得到所述第一候选文本的分值；

如果所述第一候选文本的分值大于或等于预设阈值，认定所述目标文本存在于所述待检索语音信息中。

6.根据权利要求1所述的方法，其特征在于，所述第一韵律特征包括第一基频曲线和/或第一浊音概率曲线；所述固有韵律特征包括固有基频曲线和/或固有浊音概率曲线。

7.一种语音信息检索装置，其特征在于，包括：

识别模块，用于获取待检索语音信息的候选文本集合，所述候选文本集合包括多个候选文本；

检索模块，用于在所述多个候选文本中检索与目标文本匹配的第一候选文本；

第一获取模块，用于获取所述第一候选文本在所述待检索语音信息中的第一韵律特征；

第二获取模块，用于获取所述目标文本的固有韵律特征；

认定模块，用于根据所述第一候选文本的第一韵律特征以及所述目标文本的固有韵律特征，认定所述目标文本是否存在于所述待检索语音信息中；

其中，所述第二获取模块包括：

位置确定单元，用于根据所述第一候选文本在所述待检索语音信息中出现的时刻，确定所述第一候选文本在所述待检索语音信息中处于第一位置区域；

选择单元，用于在韵律特征曲线模板库中，确定所述目标文本对应的一组韵律特征曲线，并在该组韵律特征曲线中，选择所述第一位置区域对应的韵律特征曲线，作为所述目标文本的固有韵律特征；其中，所述韵律特征曲线模板库包括多个文本以及与所述多个文本分别对应的各自一组韵律特征曲线，其中，每一组韵律特征曲线包括与多个位置区域分别对应的各自一个韵律特征曲线，所述多个位置区域包括与该组韵律特征曲线对应的单个文本在不同的语音信息中所处的多个位置区域。

8.一种用于语音信息检索的设备，其特征在于，包括：包括处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。