CN105335466A

CN105335466A - 一种音频数据的检索方法与装置

Info

Publication number: CN105335466A
Application number: CN201510622340.2A
Authority: CN
Inventors: 夏青; 张佳梁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-25
Filing date: 2015-09-25
Publication date: 2016-02-17

Abstract

本发明实施例公开了一种音频数据的检索方法与装置。所述检索方法包括：获取并识别用户输入的检索词；将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对，形成检索结果；将所述检索结果输出。本发明实施例提供了一种音频数据的检索方法，能够将用户输入的音频检索信息和音频数据的直接对接，改善用户在音频信息检索方面的用户体验。

Description

一种音频数据的检索方法与装置

技术领域

本发明实施例涉及互联网中数据资源检索技术，尤其涉及一种音频数据的检索方法和装置。

背景技术

在浩如烟海的互联网资源数据库中，音频数据的比例日趋增高。现今，对互联网资源的检索方法大多集中于通过文字信息对文字数据进行检索，即使有针对性的对音频数据进行检索，事实上也是在检索的过程中将音频信息转化为文字信息进行检索。其具体检索的过程为：首先，获取用户输入的文字检索信息；其次，将用户输入的文字检索信息与互联网资源数据库中的音频数据的文字标签或者文字描述进行比对；最后，将检索到的文字标签或者文字描述全部或部分包含有用户输入的所述文字检索信息的所述音频数据作为检索结果并输出。在上述检索过程中，所提及的与所述音频数据的对应的文字标签或者文字描述，是由用户或工作人员在上传和管理所述音频数据的过程根据自己的判断和自己的理解进行添加的。

现有的这种音频数据检索方法，事实上是将对音频信息的检索转换为对文字信息的检索。这种音频信息检索方法依赖于所述音频数据对应的文字标签或者文字描述，而这些文字标签或者文字描述又是由人工进行添加的。人工在添加的过程中难免因为自己思维的局限性，理解偏差等因素，造成所述文字标签或者文字描述对所述音频数据的描述不够全面、不够准确的现象。因此，现有的这种音频数据检索方法不能够很好地帮助用户的对音频数据进行检索，同时使得用户体验感差。

发明内容

本发明提供一种音频数据的检索方法及装置，能够提高音频检索的效率和准确性。

第一方面，本发明实施例提供了一种音频数据的检索方法，包括：

获取并识别用户输入的检索词；

将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对，形成检索结果；

将所述检索结果输出。

第二方面，本发明实施例还提供了一种音频数据的检索装置，包括：

检索词获取模块，用于获取并识别用户输入的检索词；

音频检索模块，用于将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对，形成检索结果；

检索结果输出模块，用于将所述检索结果输出。

本发明实施例通过将用户输入的检索词对应的音频检索信息与资源数据库中的音频数据直接进行比对，解决了现有技术中对音频数据进行检索的过程中，需要依赖于具有局限性和不准确性的文字标签或者文字描述进行检索，致使在对音频信息进行检索的过程中用户体验差的问题，实现了以音频检索信息本身为检索对象，直接对资源数据库中的音频数据中进行检索的目的，改善了用户在音频信息检索方面的用户体验。

附图说明

图1是本发明实施例一提供的一种音频数据的检索方法的流程图；

图2是本发明实施例二提供的一种音频数据的检索方法的流程图；

图3是本发明实施例三提供的一种音频数据的检索装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种音频数据的检索方法的流程图。本方法适用于以音频检索信息本身为检索对象，直接对资源数据库中的音频数据中进行检索的情况。本方法主要由服务器来执行，尤其是指搜索引擎服务器，但是用户需要在用户终端上的客户端输入检索词。所述用户终端可以为但不限于下述设备中的任意一种：智能手机、电脑以及智能可穿戴设备。所述服务器可以通过互联网与用户终端进行通信。所述方法具体包括如下：

S110、获取并识别用户输入的检索词；

位于用户终端上的客户端可以调用用户终端上音频输入识别类软件。用户在启动用户终端上的客户端后，点击用于输入音频信息的输入按钮后，用户开始说话，即输入检索词，用户终端上的客户端在接收到用户输入的检索词后，将其发送给服务器。

由于用户说话的方式不一样，可能带有地域性的口音，也可能带有没有实际语意的语气词等。所述服务器在获取用户输入的检索词后，需要对用户输入的检索词进行识别。

所述服务器通过将用户输入的检索词与音频单元模型库中的音频单元模型进行比对，确定检索词包含有几个音频单元，以及所包括的音频单元分别为哪些。其中，音频单元是指具有独立语意的文字对应的音频信息，可以为单个的字或词组等。通常用户输入的检索词中至少包含有一个音频单元，用户输入的检索词中除有效音频单元之外的，诸如语气词、或重复词等无效音频信息可丢弃。

进一步的，音频单元为采用国家通用语言标准发音进行表述的具有独立语意的音频信息，即具有标准发音的音频信息。而音频单元模型可以利用国家通用语言标准发音进行表述的具有独立语意的音频信息，也可以为利用不同地域性的口音表述(非标准发音)的具有独立语意的音频信息。

当音频单元模型为利用国家通用语言标准发音进行表述的具有独立语意的音频信息时，每个音频单元模型与其对应的音频单元等价。在识别检索词时，直接将检索词与音频单元模型相对比。若经比对后，发现该检索词与该音频单元模型不匹配，说明该检索词不含有该音频单元模型对应的音频单元。

当音频单元模型为利用不同地域性的口音表述的具有独立语意的音频信息时，每个音频单元模型与其对应的音频单元不等价。这种情况下，一个音频单元通常对应于多个音频单元模型。在识别检索词时，直接将检索词与某音频单元模型比对后，发现该检索词与该音频单元模型不匹配，并不能说明该检索词不含有该音频单元模型对应的音频单元。只有将该检索词与某一音频单元对应的所有的音频单元模型都进行比对后，发现该检索词与这些音频单元模型均不匹配，才能说明该检索词不含有该音频单元。但是，当将检索词与某音频单元模型比对后，发现该检索词与该音频单元模型匹配时，则可以说明该检索词含有该音频单元模型对应的音频单元。采用这种技术方案有助于提高所述服务器识别用户输入的检索词的准确率。

S120，将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对，形成检索结果；

检索词对应的音频检索信息是指经识别后，检索词包含的所有音频单元的集合。所述音频数据包括音频文件或包含有音频的视频文件。

本步骤的具体实施方法为：

首先，将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对；

其次，如果所述音频数据包括所述音频检索信息的全部或部分音频单元，则将所述音频数据确定为检索结果。

在检索的过程中，优选是形成作为检索结果的各音频数据与检索词对应的音频检索信息的匹配值，以方便用户依据该匹配值，对作为检索结果输出的各音频数据进行有选择性地查看。

上述匹配值的计算方法可以有多种，例如，将检索词对应的音频检索信息与资源数据库中的音频数据进行比对之前，可以为音频检索信息中每一个音频单元设定一个确切的分值，每一个音频单元对应的分值可以相同也可以不同，其具体分值可以由该音频单元的具体字数或者由客户意向决定，例如用户在十分种内连续搜索五次，其中每一次中都包含有“温暖”或者与“温暖”为互为同义词的词语，则“温暖”及其同义词对应的分值可以根据上述情况适当上调。在比对的过程中，若检索到某一个可作为检索结果的音频数据，则该音频检索信息与检索到的该音频数据之间的匹配值等于该音频数据中包含的所有音频单元对应的分值之和。

在上述匹配值的计算方法中，有一个因素可能会影响到上述匹配值计算的准确性，甚至会影响到检索到的音频数据是否确实含有检索词对应的音频检索信息，该因素为资源数据库中的音频数据中包含有背景音或者该音频数据为带有地域性的口音(即非标准音)的音频数据等。

对于上述这种情况，通常有两种解决方案：

一种解决方案是，可以在实际检索的过程中，确定一个吻合度的参数，用于表示音频检索信息中具体某个音频单元与资源数据库中的音频数据中与该音频单元对应的音频信息的吻合程度，将它们二者的吻合度与该音频单元对应的分值之积作为该音频单元与该音频数据之间的匹配值。同样地，某个可以作为检索结果的音频数据与检索词对应的音频检索信息的匹配值等于检索词对应的音频检索信息中各音频单元与该音频数据的匹配值之和。

另一种解决方案是，在将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对的过程中，统一将资源数据库中的音频数据中的背景音过滤，同时将音频数据中非标准音的音频信息统一转化为具有标准音的音频信息。

利用这两种技术方案，均可以实现提高上述匹配值计算的准确性目的，同时有效避免出现检索失败的现象。

S130，将所述检索结果输出。

所述检索结果可以包括下述至少一项：所述音频检索信息与检索到的音频数据之间的匹配值、各所述检索到的音频数据的链接地址、来源和属性信息、以及所述音频检索信息出现在各所述检索到的音频数据的时间点等。

其中，各所述检索到的音频数据的来源是指检索到的各所述音频数据属于哪个具体的数据库；各所述检索到的音频数据的属性信息是指各检索到的音频数据的文件类型、文件大小、可播放时长、具体上传时间、上传用户等；所述音频检索信息出现在各所述检索到的音频数据的时间点是指检索词对应的音频检索信息中的各音频单元出现在检索到的音频数据的具体时刻。

所述检索结果输出的方式有多种，例如可以对检索到的所述音频数据进行排序或分组，其排序或分组的依据可以为音频检索信息与检索到的音频数据之间的匹配值、各检索到的音频数据的链接地址、来源和属性信息、音频检索信息出现在各检索到的音频数据的时间点中的一项或多项。

优选是，根据述检索到的音频数据的匹配值，对所述检索到的音频数据进行排序并显示；或根据所述检索到的音频数据的匹配值，对各所述检索到的音频数据进行分组并显示。由于所述匹配值可以直观地反映所述检索到的音频数据与所述检索词的匹配吻合度，可以方便用户查找到自己想要检索的音频数据。

检索结果显示的方法有多种，可以为在客户端界面上依次给出每个检索到的音频数据的链接地址，以及其相对应的其他信息，也可以在客户端界面中直接弹出加载有检索到的音频数据的网络播放器。该网络播放器可以为音频播放器，也可以为视频播放器。进一步，优选是在播放器中的进度条中标明与用户所输入的检索词对应的音频检索信息中的各音频单元对应的时刻，且用于表示进度的图标恰好位于其中某个音频单元对应时刻的位置处，这样用户在点击该网络播放器中的播放按钮后，网络播放器开始播放的时刻恰好为用户所检索的内容，方便用户确定所检索到的内容是否为用户所希望检索的内容。

本发明实施例中的技术方案以音频检索信息本身为检索对象，直接与资源数据库中的音频数据进行比对，解决了现有技术中对音频数据进行检索需要转换为对文字信息进行检索的问题，可以实现对音频数据直接进行检索，改善用户在音频信息检索方面的用户体验的目的。

实施例二

图2为本实施例提供的一种音频数据的检索方法的流程图。本实施例在前述实施例基础上做了两处改进：第一改进点在于，将获取并识别用户输入的检索词优化为两步，分别为：获取用户输入的检索词；判断所述检索词是否为音频信息；若所述检查词为音频信息，将所述音频信息进行去背景音，并识别为音频检索信息；若所述检索词为文字信息，将文字信息转化为音频检索信息。

第二个改进点在于，增加了获取用户对本次检索的反馈信息的操作。

本实施例的方法具体包括：

S210a，获取用户输入的检索词；

S210b,判断所述检索词是否为音频信息；若所述检查词为音频信息，将所述音频信息进行去背景音，并识别为音频检索信息；若所述检索词为文字信息，将文字信息转化为音频检索信息；

在本实施例中，获取并识别用户输入的检索词具体可以包括：获取用户输入的文字信息和/或音频信息；根据所述文字信息和/或音频信息进行检索词识别。即，用户终端的客户端上设置有用于输入文字信息的文字输入框以及用于输入音频信息的输入按键，可获取用户输入文字信息、音频信息或者同时参杂有文字信息和音频信息的信息作为检索词。

在获取用户输入的检索词后，判断检索词是否全部或部分为音频信息；若检索词中全部或者部分为音频信息，将该音频信息与背景音数据库中的背景音模型进行比对，若该音频信息中包含与背景音模型库中的某一个背景音模型一致或吻合度比较高的音频信息，将该音频信息过滤。上述所提到的背景音模型可以来源与互联网中的已有的背景音，也可以为用户临时自己录制的背景音。

当用户需要通过输入带有音频信息的检索词进行音频数据检索时，如果用户所处环境恰好十分吵杂，优选是，首先，用户在不发声的情况下将所处环境中的声音录制为背景音，并将其设置为背景音模型；其次，用户在搜索引擎的客户端中输入带有音频信息的检索词。所述服务器在获得用户所输入的音频信息后，对比用户之前录制的背景音模型，将用户所输入的检索词中音频信息中的背景音过滤后，识别用户输入的检索词对应的音频检索信息。这样，无论用户所处环境多么吵杂，都可以准确地识别用户所输入的检索词对应的音频检索信息。

另外，用户可以根据情况自行设定是否过滤用户所输入的音频信息中背景音。用户还可以设定需要过滤的背景音具体参数(如频率或响度等)的临界阈值，当用户所输入的音频信息中背景音的参数的达到所述临界阈值，***可以自行将用户所输入的音频信息中背景音过滤。

当检索词中全部或者部分为文字信息，即在将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对之前，若识别到所述检索词为文字信息，根据文字信息中单个文字与音节元素的对应关系，将所述检索词转化为音频检索信息。由于每个用户自身情况不同、输入习惯也不尽相同，通过将文字信息转化为音频检索信息，可以为只能通过文字信息进行检索的用户进行音频搜索，有利于改善用户在音频数据检索方面的体验效果。

S220，将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对，形成检索结果；

S230，将所述检索结果输出。

S240，获取用户对本次检索的反馈信息。

上述S240为一个优选操作，当单次检索完成后，所述服务器还可以通过客户端邀请用户回答调查问卷的方式获取用户对本次检索结果的反馈信息。反馈信息包括用户满意程度、检索存在的问题以及用户希望改进的地方等。通过获取用户对本次检索的反馈信息可以有助于工作人员对上述技术方案进行有针对性地改进，以使用户可以拥有更好的用户体验。

例如，若用户在某次检索的反馈信息中指出在该次检索过程中，服务器识别出的音频单元不在用户输入的音频信息范围之内，即服务器对用户输入的所述检索词识别不正确，这种情况可以请用户输入与之前检索的音频信息对应的正确的文字。服务器在获取该用户反馈信息后，将用户输入的检索词中识别错误的发音建立音频单元模型并保存在音频单元模型库中，为以后具有同类发音特征的其他用户进行检索时提供方便。

进一步的，资源数据库中的音频数据还可以设置属性信息。属性信息用于表示所述音频数据所伴有的特征，如语音对象为人类、语音对象的情绪为兴奋、语音对象的性别为男性、或语音背景为大海等。属性信息可以为文字标签或者音频标签。用于表示资源数据库中的音频数据的属性信息的标签可以在音频数据上传时添加，亦可以在网络管理员对网络资源进行管理的过程中添加。

在具体检索过程中，当资源数据库中的音频数据属性信息为文字属性信息时，将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对之前，或之后，将所述检索词对应的音频检索信息对应的文字检索信息，与所述资源数据库中音频数据的文字属性信息进行比对，以对音频数据进行过滤。当资源数据库中的音频数据属性信息为音频属性信息时，将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对之前，或之后，将所述检索词对应的音频检索信息，与所述资源数据库中音频数据的音频属性信息进行比对，以对音频数据进行过滤。

进一步的，用户输入的检索词可以通过音频单元模型以及音频单元模型对应的文字进行自由切换。同时，用于检索的检索范围可以为文字数据资源，也可以音频数据资源，还可以为既包括文字数据资源又包括音频数据资源的数据资源。所述检索范围可以由用户自行设定。

实施例三

图3为本发明实施例三提供的一种音频数据的检索装置的结构示意图，该装置包括：检索词获取模块310，音频检索模块320和检索结果输出模块330。其中，检索词获取模块310，用于获取并识别用户输入的检索词；音频检索模块320，用于将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对，形成检索结果；检索结果输出模块330，用于将所述检索结果输出。

具体的，所述检索词获取模块310具体用于：获取用户输入的文字信息和/或音频信息；根据所述文字信息和/或音频信息进行检索词识别。

进一步的，所述装置还包括，音频转化模块，用于将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对之前，若识别到所述检索词为文字信息，根据文字信息中单个文字与音节元素的对应关系，将所述检索词转化为音频检索信息。

进一步的，所述音频检索模块320具体用于：将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对；如果所述音频数据包括所述音频检索信息的全部或部分音频单元，则将所述音频数据确定为检索结果。

进一步的，所述装置，还包括：文字检索模块，用于在将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对之前，或之后，将所述检索词对应的音频检索信息对应的文字检索信息，与所述资源数据库中音频数据的文字属性信息进行比对，以对音频数据进行过滤。

进一步的，所述音频数据包括音频文件或包含有音频的视频文件。

进一步的，所述检索结果包括下述至少一项：所述音频检索信息与检索到的音频数据之间的匹配值、各所述检索到的音频数据的链接地址、来源和属性信息、以及所述音频检索信息出现在各所述检索到的音频数据的时间点。

进一步的，所述检索结果输出模块330具体用于：根据所述检索到的音频数据的匹配值，对所述检索到的音频数据进行排序并显示；或根据所述检索到的音频数据的匹配值，对各所述检索到的音频数据进行分组并显示。

本发明实施例所述提供的一种音频数据的检索装置，以音频检索信息本身为检索对象，直接与资源数据库中的音频数据进行比对，解决了现有技术中对音频数据进行检索需要转换为对文字信息进行检索的问题，可以实现对音频数据直接进行检索，改善用户在音频信息检索方面的用户体验的目的。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种音频数据的检索方法，其特征在于，包括：

获取并识别用户输入的检索词；

将所述检索结果输出。

2.根据权利要求1所述的方法，其特征在于，获取并识别用户输入的检索词包括：

获取用户输入的文字信息和/或音频信息；

根据所述文字信息和/或音频信息进行检索词识别。

3.根据权利要求1所述的方法，其特征在于，将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对之前，还包括：

若识别到所述检索词为文字信息，根据文字信息中单个文字与音节元素的对应关系，将所述检索词转化为音频检索信息。

4.根据权利要求1所述的方法，其特征在于，将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对，形成检索结果包括：

将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对；

如果所述音频数据包括所述音频检索信息的全部或部分音频单元，则将所述音频数据确定为检索结果。

5.根据权利要求1所述的方法，其特征在于，将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对之前，或之后，还包括：

将所述检索词对应的音频检索信息的对应的文字检索信息，与所述资源数据库中音频数据的文字属性信息进行比对，以对音频数据进行过滤。

6.根据权利要求1所述的方法，其特征在于，所述音频数据包括音频文件或包含有音频的视频文件。

7.根据权利要求1所述的方法，其特征在于，所述检索结果包括下述至少一项：

所述音频检索信息与检索到的音频数据之间的匹配值、各所述检索到的音频数据的链接地址、来源和属性信息、以及所述音频检索信息出现在各所述检索到的音频数据的时间点。

8.根据权利要求6所述的方法，其特征在于，将所述检索结果输出包括：

根据所述检索到的音频数据的匹配值，对所述检索到的音频数据进行排序并显示；或

根据所述检索到的音频数据的匹配值，对各所述检索到的音频数据进行分组并显示。

9.一种音频数据的检索装置，其特征在于，包括：

检索词获取模块，用于获取并识别用户输入的检索词；

检索结果输出模块，用于将所述检索结果输出。

10.根据权利要求9所述的装置，其特征在于，所述检索词获取模块具体用于：

获取用户输入的文字信息和/或音频信息；

根据所述文字信息和/或音频信息进行检索词识别。

11.根据权利要求9所述的装置，其特征在于，还包括：

音频转化模块，用于将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对之前，若识别到所述检索词为文字信息，根据文字信息中单个文字与音节元素的对应关系，将所述检索词转化为音频检索信息。

12.根据权利要求9所述的装置，其特征在于，所述音频检索模块具体用于：

13.根据权利要求9所述的装置，其特征在于，还包括：

文字检索模块，用于在将所述检索词对应的音频检索信息与资源数据库中的音频数据进行比对之前，或之后，将所述检索词对应的音频检索信息对应的文字检索信息，与所述资源数据库中音频数据的文字属性信息进行比对，以对音频数据进行过滤。

14.根据权利要求9所述的装置，其特征在于，所述音频数据包括音频文件或包含有音频的视频文件。

15.根据权利要求9所述的装置，其特征在于，所述检索结果包括下述至少一项：

16.根据权利要求15所述的装置，其特征在于，所述检索结果输出模块具体用于：