CN115482809B

CN115482809B - 关键词检索方法、装置、电子设备以及存储介质

Info

Publication number: CN115482809B
Application number: CN202211137975.XA
Authority: CN
Inventors: 张辉; 熊新雷; 周羊; 黄宇鑫; 陈泽裕; 文灿
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2023-08-11
Anticipated expiration: 2042-09-19
Also published as: CN115482809A

Abstract

本公开提供一种关键词检索方法、装置、电子设备以及存储介质，涉及语音识别的技术领域，具体涉及语音关键词检索技术领域，可应用于客服业务质检等场景。方案包括：对语音数据进行解码，得到语音数据的文本和解码帧数据，解码帧数据包括文本中每个文字对应的解码帧；针对文本中每个文字，基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳，计算该文字的时间信息；对文本进行关键词检索，响应于文本包含有预设的目标关键词，基于目标关键词中的文字的时间信息确定目标关键词的时间信息；生成包含目标关键词和目标关键词的时间信息的检索结果。上述方法在不引入过多的额外模型的基础上，即可准确地获取到目标关键词的时间信息。

Description

关键词检索方法、装置、电子设备以及存储介质

技术领域

本公开涉及语音识别的技术领域，具体涉及语音关键词检索技术领域，可应用于客服业务质检等场景。

背景技术

在一些针对语音数据的关键词检索的业务中，通常是基于语音识别技术获取语音数据的文本，之后通过预设的关键词识别方式确定文本中是否包含目标关键词。一旦发现文本包含目标关键词，工作人员需要播放语音数据的音频，以便复核语音数据是否存在与目标关键词匹配的语音内容。

为了能够方便工作人员快速地在语音数据中定位到目标关键词对应的语音段，相关技术可以在获取到语音数据的文本之后，基于语音数据中说话人的平均语速来估计文本中每个文字的时间信息，但是这种方式获取到的时间信息的准确度较低；或者，相关技术还可以引入对齐模型来估计文本中每个文字的时间信息，但是这种方式需要引入新的模型，会显著地增加成本。

发明内容

本公开提供了一种关键词检索方法、装置、电子设备以及存储介质。

根据本公开的第一方面，提供了一种关键词检索方法，所述方法包括：

对语音数据进行解码，得到语音数据的文本和解码帧数据，其中，解码帧数据包括文本中每个文字对应的解码帧；

针对文本中每个文字，基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳，计算该文字的时间信息；

对文本进行关键词检索，响应于文本包含有预设的目标关键词，基于目标关键词中的文字的时间信息确定目标关键词的时间信息；

生成包含目标关键词和目标关键词的时间信息的检索结果。

在本公开实施例中，针对文本中的每个文字，基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳，计算该文字的时间信息，包括：

针对文本中的每个文字，从该文字的解码帧中确定出该文字的代表解码帧，其中，代表解码帧为包含该文字的音素的概率最高的解码帧；

基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳，计算该文字的时间信息。

在本公开实施例中，基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳，计算该文字的时间信息，包括：

基于该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳，计算该文字的开始时间；

基于该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳，计算该文字的结束时间；

其中，该文字为文本中的第一个文字的情况下，该文字的前一个文字的代表解码帧为解码帧数据中的第一解码帧，第一解码帧在该文字的代表解码帧之前；

该文字为文本中的最后一个文字的情况下，该文字的后一个文字的代表解码帧为解码帧数据中的第二解码帧，第二解码帧在该文字的代表解码帧之后。

在本公开实施例中，基于该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳，计算该文字的开始时间，包括：

计算该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳的平均值，作为该文字的开始时间。

在本公开实施例中，基于该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳，计算该文字的结束时间，包括：

计算该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳的平均值，作为该文字的结束时间。

在本公开实施例中，基于目标关键词中的文字的时间信息确定目标关键词的时间信息，包括：

将目标关键词中的首位文字的开始时间，作为目标关键词的开始时间；

将目标关键词中的末位文字的结束时间，作为目标关键词的结束时间。

在本公开实施例中，解码帧数据中的每个解码帧的时间戳，是基于该解码帧的帧号和该解码帧的时长计算得到的；

解码帧数据中的每个解码帧的时长，为该解码帧所对应的所有语音帧的时长之和。

在本公开实施例中，语音数据是通过语音识别模型进行解码的；

解码帧数据中的每个解码帧对应的语音帧的数量，与语音识别模型中的卷积神经网络的层数和每层卷积神经网络的步长成正比。

根据本公开的第二方面，提供了一种关键词检索装置，关键词检索装置包括语音解码模块、时间信息计算模块、关键词检索模块和检索结果生成模块。

语音解码模块用于对语音数据进行解码，得到语音数据的文本和解码帧数据，其中，解码帧数据包括文本中每个文字对应的解码帧；

时间信息计算模块用于针对文本中的每个文字，基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳，计算该文字的时间信息；

关键词检索模块用于对文本进行关键词检索，响应于文本包含有预设的目标关键词，基于目标关键词中的文字的时间信息确定目标关键词的时间信息；

检索结果生成模块用于生成包含目标关键词和目标关键词的时间信息的检索结果。

在本公开实施例中，时间信息计算模块在用于针对文本中的每个文字，基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳，计算该文字的时间信息时，具体用于：

在本公开实施例中，时间信息计算模块在用于基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳，计算该文字的时间信息时，具体用于：

在本公开实施例中，时间信息计算模块在用于基于该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳，计算该文字的开始时间时，具体用于：

在本公开实施例中，时间信息计算模块在用于基于该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳，计算该文字的结束时间时，具体用于：

在本公开实施例中，关键词检索模块在用于基于目标关键词中的文字的时间信息确定目标关键词的时间信息时，具体用于：

将目标关键词中的首位文字的开始时间，作为目标关键词的开始时间；将目标关键词中的末位文字的结束时间，作为目标关键词的结束时间。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行根据第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据第一方面所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本公开提供的技术方案带来的有益效果是：

在本公开的技术方案中，通过对语音数据进行解码得到语音数据的文本和文本中每个文字对应的解码帧，基于文字的解码帧的时间戳准确地计算出表示该文字对应的语音段在语音数据中的位置的时间信息，在从文本中检索出目标关键词之后，通过目标关键词所包含的文字的时间信息，即可确定出表示目标关键词对应的语音段在语音数据中的位置的时间信息。上述方法可以在不引入过多的额外模型的基础上，即可准确地获取到目标关键词的时间信息，方便在语音数据中快速地定位到目标关键词对应的语音段，兼顾了时间信息的准确度和较低的成本。

此外，考虑到对语音数据进行解码得到的解码帧的概率分有延后出现的特性，在将一个文字的解码帧的时间戳作为计算文字的时间信息的依据的基础上，进一步将该文字的相邻文字的解码帧的时间戳作为计算文字的时间信息的依据，从而确保计算出文字的更加准确的时间信息。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了本公开实施例提供的一种关键词检索方法的流程示意图；

图2示出了本公开实施例提供的图1中S120的一种实现流程示意图；

图3示出了本公开实施例提供的一种关键词检索装置的组成示意图；

图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

应当理解，在本公开各实施例中，字符“/”一般表示前后关联对象是一种“或”的关系。术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

以客服质检为例，为了确保客服人员的在服务过程中没有违规行为，需要基于语音识别技术获取客服人员的语音数据的文本，之后通过预设的关键词识别方式确定文本中是否包含目标关键词(如侮辱性词语或不合规词语等)。一旦发现文本包含目标关键词，工作人员需要客户的播放语音数据的音频，复核该语音数据是否存在与目标关键词匹配的语音内容。

本公开提供了一种关键词检索方法，上述方法可以在不引入过多的额外模型的基础上，即可准确地获取到目标关键词的时间信息，方便在语音数据中快速地定位到目标关键词对应的语音段，兼顾了时间信息的准确度和较低的成本。

该方法的执行主体可以是终端设备、或者计算机、又或者服务器，或者还可以是其他具有数据处理能力的设备。在此对该方法的执行主体不作限制。

可选地，终端设备可以是手机，也可以是平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personaldigital assistant，PDA)等，本公开实施例对终端设备的具体类型不作限制。

一些实施例中，服务器可以是单独的一个服务器，或者，也可以是由多个服务器构成的服务器集群。部分实施方式中，服务器集群还可以是分布式集群。本公开对服务器的具体实现方式也不作限制。

下面对该关键词检索方法进行示例性说明。

图1示出了本公开实施例提供的关键词检索方法的流程示意图，如图1所示，该方法可以包括：

S110：对语音数据进行解码，得到语音数据的文本和解码帧数据。

在本公开实施例中，语音数据是通过语音识别模型进行解码的，例如，语音识别模型可以通过连结时序分类模型进行解码，这里，连结时序分类模型即ConnectionistTemporal Classification，简称CTC，是一种可以用于在语音识别问题中训练深度神经网络的算法。当然，语音数据也可以通过其他类型的语音识别模型进行解码，本公开对此不作限制。在对对语音数据进行解码之后，可以得到语音数据对应的文本和解码帧数据，可以理解的是，文本包含的是语音数据的文字内容，解码帧数据包括文本中每个文字对应的解码帧，这里，每个文字通常会对应有多个解码帧。

可以理解的是，解码帧数据中的每个解码帧都具有时间戳，解码帧的时间戳是基于该解码帧的帧号和该解码帧的时长计算得到的，解码帧的时间戳表示该解码帧在语音数据中的时间点。具体地，解码帧的帧号可以表示解码帧在所有解码帧中序号，例如，第一帧解码帧的帧号为1，第二帧解码帧的帧号为2；解码帧的时长表示该解码帧对应的语音时长，例如，解码帧的时长可以为40ms。对于每个解码帧，计算第一帧解码帧至该解码帧的总时长，即可得到该解码帧的时间戳。解码帧的帧号在对语音数据解码后即可得到，解码帧的时长也可以由解码工具的参数直接确定得到，这两个参数不需要额外的极计算过程即可得到，基于帧号对单个解码帧的时长相应的次数即可得到时间戳，计算过程简单快捷。

在此需要说明的是，解码帧数据中的每个解码帧通常对应有至少一个语音帧。每个解码帧对应的语音帧的数量，与语音识别模型中的卷积神经网络(ConvolutionalNeural Network，CNN)的层数和每层卷积神经网络的步长(Stride)成正比。以语音识别模型的卷积神经网络的层数为2，每层卷积神经网络的步长为2，则每个解码帧对应4个语音帧。解码帧数据中的每个解码帧的时长，为该解码帧所对应的所有语音帧的时长之和，以每个解码帧对应4个语音帧为例，若语音帧的时长为10ms，则解码帧的时长为40ms。

可选地，S110中的语音数据可以是从原始语音数据中提取出来的。为了消除原始语音数据中的冗余数据(如长时间的静音期数据)，可以基于语音活动检测(VoiceActivity Detection，VAD)技术从从原始的语音数据中提取语音数据，提取后的语音数据中的冗余数据可以显著降低。

S120：针对文本中每个文字，基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳，计算该文字的时间信息。

在本公开实施例中，文字的时间信息表示文字对应的语音段在语音数据中的位置。如前文所述，解码帧的时间戳表示该解码帧在语音数据中的时间点，因此通常可以基于该文字的解码帧的时间戳来计算文字的时间信息。考虑到对语音数据进行解码得到的解码帧的概率分有延后出现的特性，在将一个文字的解码帧的时间戳作为计算文字的时间信息的依据的基础上，还进一步将该文字的相邻文字的解码帧的时间戳作为计算文字的时间信息的依据，从而确保计算出文字的更加准确的时间信息。

S130：对文本进行关键词检索，响应于文本包含有预设的目标关键词，基于目标关键词中的文字的时间信息确定目标关键词的时间信息。

本公开实施例可以预先设置一个关键词列表，关键词列表包含需要在文本进行检索的目标关键词。在对文本进行关键词检索时，可以将关键词列表中的每个目标关键词与文本中的文字内容进行匹配，确定文本是否包含有目标关键词。如果确定文本包含目标关键词，可以基于文本中的目标关键词中的文字的时间信息确定目标关键词的时间信息，这里，目标关键词的时间信息表示该目标关键词对应的语音段在语音数据中的位置。

S140：生成包含目标关键词和目标关键词的时间信息的检索结果。

可以理解的是，如果本公开实施例的执行主体是服务器，服务器在生成检索结果之后，可以将检索结果返回给终端设备，或者将检索结果存储在预设位置。如果本公开实施例的执行主体是终端设备，终端设备在生成检索结果之后，可以展示目标关键词及其时间信息，可以将检索结果存储在预设位置，可以将检索结果发送给其他的终端设备。可选地，用户可以根据目标关键词的时间信息，播放时间信息所表示的语音数据中的语音，判断语音内容与目标关键词是否一致。

在本公开实施例中，每个文字通常会对应有多个解码帧，针对这种情况，图2示出了本公开实施例提供的图1中S120的一种实现流程示意图，如图2所示，该流程主要可以包括以下步骤：

S210：针对文本中的每个文字，从该文字的解码帧中确定出该文字的代表解码帧。

可以理解的是，文字的每个解码帧均有一定的概率解码帧包含该文字的音素，解码帧对应的概率是在对语音数据的解码过程中得到的，其中，文本的每个文字的代表解码帧为包含该文字的音素的概率最高的解码帧。

S220：基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳，计算该文字的时间信息。

由于一个文字的代表解码帧为包含该文字的音素的概率最高的解码帧，该代表解码帧的时间戳就是该文字的音频内容出现概率最大的时间点，进而确定该文字的时间信息所对应的时间范围有极大的概率包含了这个时间点，因此基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳所计算出的时间信息的准确度较高。

每个文字的时间信息可以包括开始时间和结束时间，每个文字的相邻文字包括该文字的前一个文字和后一个文字。在S120中，可以基于该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳，计算该文字的开始时间；基于该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳，计算该文字的结束时间。

可以理解的是，如果一个文字是文本中的第一个文字的情况下，由于该文字没有与其相邻的前一个文字，可以将该文字的前一个文字的代表解码帧定义为解码帧数据中的第一解码帧，第一解码帧在该文字的代表解码帧之前，也就是说，第一解码帧的帧号小于该文字的代表解码帧的帧号。这里，第一解码帧的具***置可以根据实际的设计需要而定，例如，可以选择第一个文字的代表解码帧之前的第五帧解码帧作为第一解码帧。

如果一个文字是文本中的最后一个文字，由于该文字没有与其相邻的后一个文字，可以将该文字的后一个文字的代表解码帧定义为解码帧数据中的第二解码帧，第二解码帧在该文字的代表解码帧之后，也就是说，第二解码帧的帧号大于该文字的代表解码帧的帧号。这里，第二解码帧的具***置可以根据实际的设计需要而定，例如，可以选择最后一个文字的代表解码帧之后的第五帧解码帧作为第二解码帧。

在本公开实施例中，在基于该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳计算该文字的开始时间时，可以计算该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳的平均值，作为该文字的开始时间。相邻两个文字的代表解码帧的时间戳的平均值，即可作为其中一个文字的开始时间，也可以作为另一个文字的结束时间，一次计算即可获得两个文字的时间数据，可以缩短程序运行时间，提高效率。

可选地，平均值可以是加权平均值。具体地，在计算一个文字文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳的第一平均值时，可以为该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳配置权重系数，基于两个时间戳及其对应的权重系数，计算两个时间戳的加权平均值。

在本公开实施例中，在基于该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳计算该文字的结束时间时，可以计算该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳的平均值，作为该文字的结束时间。相邻两个文字的代表解码帧的时间戳的平均值，即可作为其中一个文字的开始时间，也可以作为另一个文字的结束时间，一次计算即可获得两个文字的时间数据，可以缩短程序运行时间，提高效率。

可选地，平均值可以是加权平均值。具体地，在计算一个文字文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳的平均值时，可以为该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳配置权重系数，基于两个时间戳及其对应的权重系数，计算两个时间戳的加权平均值。

在本公开实施例中，每个文字的时间信息可以包括开始时间和结束时间，在基于目标关键词中的文字的时间信息确定目标关键词的时间信息时，可以将目标关键词中的首位文字的开始时间作为目标关键词的开始时间，将目标关键词中的末位文字的结束时间，作为目标关键词的结束时间。可以理解的是，目标关键词中的首位文字是指目标关键词中的第一个文字，目标关键词中的末位文字是指目标关键词中的最后一个文字；当目标关键词仅包含一个文字时，该文字同时被作为首位文字和末位文字。

基于与上述的关键词检索方法相同的原理，本公开实施例提供了一种关键词检索装置，图3示出了本公开实施例提供的一种关键词检索装置的示意图。如图3所示，关键词检索装置300包括语音解码模块310、时间信息计算模块320、关键词检索模块330和检索结果生成模块340。

语音解码模块310用于对语音数据进行解码，得到语音数据的文本和解码帧数据，其中，解码帧数据包括文本中每个文字对应的解码帧；

时间信息计算模块320用于针对文本中的每个文字，基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳，计算该文字的时间信息；

关键词检索模块330用于对文本进行关键词检索，响应于文本包含有预设的目标关键词，基于目标关键词中的文字的时间信息确定目标关键词的时间信息；

检索结果生成模块340用于生成包含目标关键词和目标关键词的时间信息的检索结果。

本公开实施例提供的关键词检索装置，通过对语音数据进行解码得到语音数据的文本和文本中每个文字对应的解码帧，基于文字的解码帧的时间戳准确地计算出表示该文字对应的语音段在语音数据中的位置的时间信息，在从文本中检索出目标关键词之后，通过目标关键词所包含的文字的时间信息，即可确定出表示目标关键词对应的语音段在语音数据中的位置的时间信息。上述方法可以在不引入过多的额外模型的基础上，即可准确地获取到目标关键词的时间信息，方便在语音数据中快速地定位到目标关键词对应的语音段，兼顾了时间信息的准确度和较低的成本。

在本公开实施例中，时间信息计算模块320在用于针对文本中的每个文字，基于该文字的解码帧的时间戳和该文字的相邻文字的解码帧的时间戳，计算该文字的时间信息时，具体用于：

在本公开实施例中，时间信息计算模块320在用于基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳，计算该文字的时间信息时，具体用于：

在本公开实施例中，时间信息计算模块320在用于基于该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳，计算该文字的开始时间时，具体用于：

在本公开实施例中，时间信息计算模块320在用于基于该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳，计算该文字的结束时间时，具体用于：

在本公开实施例中，关键词检索模块330在用于基于目标关键词中的文字的时间信息确定目标关键词的时间信息时，具体用于：

可以理解的是，本公开实施例中的关键词检索装置的上述各模块具有实现上述的关键词检索方法相应步骤的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件，上述各模块可以单独实现，也可以多个模块集成实现。对于上述关键词检索装置的各模块的功能描述具体可以参见上述的关键词检索方法的对应描述，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质、一种计算机程序产品和一种自动驾驶车辆。

示例性实施例中，电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如以上实施例所述的方法。该电子设备可以是上述计算机或服务器。

示例性实施例中，可读存储介质可以是存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行根据以上实施例所述的方法。

示例性实施例中，计算机程序产品包括计算机程序，所述计算机程序在被处理器执行时实现根据以上实施例所述的方法。

示例性实施例中，自动驾驶车辆包括上述的电子设备。

图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，电子设备400包括计算单元401，其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序，来执行各种适当的动作和处理。在RAM 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

电子设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如关键词检索方法。例如，在一些实施例中，关键词检索方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到电子设备400上。当计算机程序加载到RAM 403并由计算单元401执行时，可以执行上文描述的关键词检索方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行关键词检索方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种关键词检索方法，所述方法包括：

对语音数据进行解码，得到所述语音数据的文本和解码帧数据，其中，所述解码帧数据包括所述文本中每个文字对应的解码帧；

针对所述文本中的每个文字，从该文字的解码帧中确定出该文字的代表解码帧，其中，所述代表解码帧为包含该文字的音素的概率最高的解码帧，每个所述解码帧对应的概率有延后出现的特性；

基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳，计算该文字的时间信息；

对所述文本进行关键词检索，响应于所述文本包含有预设的目标关键词，基于所述目标关键词中的文字的时间信息确定所述目标关键词的时间信息；

生成包含所述目标关键词和所述目标关键词的时间信息的检索结果。

2.根据权利要求1所述的方法，其中，所述基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳，计算该文字的时间信息，包括：

其中，该文字为所述文本中的第一个文字的情况下，将所述解码帧数据中在该文字的代表解码帧之前第一解码帧定义为该文字的前一个文字的代表解码帧；

该文字为所述文本中的最后一个文字的情况下，将所述解码帧数据中在该文字的代表解码帧之后第二解码帧定义为该文字的后一个文字的代表解码帧。

3.根据权利要求2所述的方法，其中，所述基于该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳，计算该文字的开始时间，包括：

4.根据权利要求2所述的方法，其中，所述基于该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳，计算该文字的结束时间，包括：

5.根据权利要求2所述的方法，其中，所述基于所述目标关键词中的文字的时间信息确定所述目标关键词的时间信息，包括：

将所述目标关键词中的首位文字的开始时间，作为所述目标关键词的开始时间；

将所述目标关键词中的末位文字的结束时间，作为所述目标关键词的结束时间。

6.根据权利要求1-5中任一项所述的方法，其中，所述解码帧数据中的每个解码帧的时间戳，是基于该解码帧的帧号和该解码帧的时长计算得到的；

所述解码帧数据中的每个解码帧的时长，为该解码帧所对应的所有语音帧的时长之和。

7.根据权利要求6所述的方法，其中，所述语音数据是通过语音识别模型进行解码的；

所述解码帧数据中的每个解码帧对应的语音帧的数量，与所述语音识别模型中的卷积神经网络的层数和每层所述卷积神经网络的步长成正比。

8.一种关键词检索装置，所述装置包括：

语音解码模块，用于对语音数据进行解码，得到所述语音数据的文本和解码帧数据，其中，所述解码帧数据包括所述文本中每个文字对应的解码帧；

时间信息计算模块，用于针对所述文本中的每个文字，从该文字的解码帧中确定出该文字的代表解码帧，其中，所述代表解码帧为包含该文字的音素的概率最高的解码帧，每个所述解码帧对应的概率有延后出现的特性；以及用于基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳，计算该文字的时间信息；

关键词检索模块，用于对所述文本进行关键词检索，响应于所述文本包含有预设的目标关键词，基于所述目标关键词中的文字的时间信息确定所述目标关键词的时间信息；

检索结果生成模块，用于生成包含所述目标关键词和所述目标关键词的时间信息的检索结果。

9.根据权利要求8所述的装置，其中，所述时间信息计算模块在用于基于该文字的代表解码帧的时间戳和该文字的相邻文字的代表解码帧的时间戳，计算该文字的时间信息时，具体用于：

10.根据权利要求9所述的装置，其中，所述时间信息计算模块在用于基于该文字的代表解码帧的时间戳和该文字的前一个文字的代表解码帧的时间戳，计算该文字的开始时间时，具体用于：

11.根据权利要求9所述的装置，其中，所述时间信息计算模块在用于基于该文字的代表解码帧的时间戳和该文字的后一个文字的代表解码帧的时间戳，计算该文字的结束时间时，具体用于：

12.根据权利要求9所述的装置，其中，所述关键词检索模块在用于基于所述目标关键词中的文字的时间信息确定所述目标关键词的时间信息时，具体用于：

13.根据权利要求8-12中任一项所述的装置，其中，所述解码帧数据中的每个解码帧的时间戳，是基于该解码帧的帧号和该解码帧的时长计算得到的；

14.根据权利要求13所述的装置，其中，所述语音数据是通过语音识别模型进行解码的；

15.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行根据权利要求1-7任一项所述的方法。