CN107766571B

CN107766571B - 一种多媒体资源的检索方法和装置

Info

Publication number: CN107766571B
Application number: CN201711108216.XA
Authority: CN
Inventors: 柳军飞; 麻志毅; 杨寒; 李宏强; 孙博; 范红杰
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2021-02-09
Anticipated expiration: 2037-11-08
Also published as: CN107766571A

Abstract

本发明公开了一种多媒体资源的检索方法和装置，所述方法包括：接收用户发出的查询请求；根据所述查询请求在多媒体资源检索库中进行检索，并返回检索结果；其中，所述多媒体资源检索库中存储有多个多媒体资源的多模态信息。应用本发明可以更充分地检索出满足检索条件的多媒体资源，从而更好地满足多媒体资源的检索需求。

Description

一种多媒体资源的检索方法和装置

技术领域

本发明涉及视频检索领域，特别是指一种多媒体资源的检索方法和装置。

背景技术

伴随着互联网技术的飞速发展以及网络带宽的极大提升，存储在互联网上的多媒体资源(视频)呈***式增长。这些海量的多媒体资源中，不乏存在巨大商业价值的宝贵资源。如何在海量多媒体资源(视频)中进行高效检索便成为多媒体视频资源高效利用并最大化其价值的关键。

当前对多媒体资源(视频)的检索主要是依赖于基于关键字对多媒体资源(视频)的编目信息进行检索；而不同的多媒体资源生产商通常是根据自己的需要定义多媒体资源的编目信息；因此，多媒体资源的编目信息中所包含的信息往往具有局限性或片面性。基于编目信息进行的检索，不能很好地满足检索需求，会遗漏掉许多有用的多媒体资源。

发明内容

有鉴于此，本发明的目的在于提出一种多媒体资源的检索方法和装置，可以更充分地检索出满足检索条件的多媒体资源，从而更好地满足多媒体资源的检索需求。

基于上述目的本发明提供一种多媒体资源的检索方法，包括：

接收用户发出的查询请求；

根据所述查询请求在多媒体资源检索库中进行检索，并返回检索结果；

其中，所述多媒体资源检索库中存储有多个多媒体资源的多模态信息。

较佳地，所述多媒体资源检索库中还存储有：各多媒体资源的编目信息。

其中，所述多媒体资源的多模态信息包括文本信息；以及

所述文本信息是预先存储到所述多媒体资源检索库的：

从所述多媒体资源的视频中识别出文本信息；

将识别出的文本信息存储到所述多媒体资源检索库中。

其中，所述多媒体资源的多模态信息包括语音信息；其中，所述语音信息是以音频压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的：

从所述多媒体资源中提取出音频并进行语音识别后转换为文字内容，将转换得到的文字内容作为所述多媒体资源的文字形式的语音信息存储到所述多媒体资源检索库中；和/或

将从所述多媒体资源中提取出音频，并进一步提取所述音频的特征并对提取出的音频特征进行压缩编码后，得到所述多媒体资源的音频压缩编码形式的语音信息。

其中，所述多媒体资源的多模态信息包括图像信息；其中，所述图像信息是以像素压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的：

从所述多媒体资源的视频中抽取关键帧，对所述关键帧进行图像内容描述和/或进行图像物体标注，将图像内容描述得到的文字内容和/或图像物体标注得到的文字内容作为所述多媒体资源的文字形式的图像信息存储到所述多媒体资源检索库中；和/或

将从所述多媒体资源的视频中抽取关键帧，提取所述关键帧的图片像素特征并进行压缩编码后，得到所述多媒体资源的像素压缩编码形式的图像信息存储到所述多媒体资源检索库中。

其中，所述根据所述查询请求在多媒体资源检索库中进行检索，包括：

分析所述查询请求，得到所述查询请求的关键字集合K；

对所述关键字集合K进行拓展，得到拓展后的关键字集合K′；

根据所述拓展后的关键字集合K′在所述多媒体资源检索库中进行检索。

或者，所述根据所述查询请求在多媒体资源检索库中进行检索，包括：

分析所述查询请求，获取所述查询请求中的音频片段；

根据所述音频片段，在所述多媒体资源检索库中的音频压缩编码形式的音频信息中进行检索。

分析所述查询请求，获取所述查询请求中的图片；

根据所述图片，在所述多媒体资源检索库中的像素压缩编码形式的图像信息中进行检索。

进一步，在所述根据所述查询请求在多媒体资源检索库中进行检索后，还包括：

针对同一多媒体资源，得到该多媒体资源的编目信息，以及不同模态的信息所分别对应于所述查询请求的契合度；

将多媒体资源的编目信息，以及不同模态的信息所分别对应于所述查询请求的契合度做加权平均，将得到的加权平均值作为该多媒体资源匹配于所述查询请求的分值；

根据各多媒体资源的分值作降序排序；

将各多媒体资源的排序结果作为所述检索结果。

本发明还提供一种多媒体资源的检索装置，包括：

多媒体资源检索库，用于存储多个多媒体资源的多模态信息；

查询请求接收模块，用于接收用户发出的查询请求；

检索模块，用于根据所述查询请求在所述多媒体资源检索库中进行检索，并返回检索结果。

进一步，所述多媒体资源检索库中还存储有：各多媒体资源的编目信息。

其中，所述多媒体资源的多模态信息至少包括如下信息之一：文本信息、语音信息、图像信息；其中，所述语音信息是以音频压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的；所述图像信息是以像素压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的。

进一步，所述装置还包括：多模态信息存储模块；以及

所述多模态信息存储模块包括至少如下单元之一：

文本信息存储单元，用于从所述多媒体资源的视频中识别出文本信息；将识别出的文本信息存储到所述多媒体资源检索库中；

语音信息存储单元，用于从所述多媒体资源中提取出音频并进行语音识别后转换为文字内容，将转换得到的文字内容作为所述多媒体资源的文字形式的语音信息存储到所述多媒体资源检索库中；和/或将从所述多媒体资源中提取出音频，并进一步提取所述音频的特征并对提取出的音频特征进行压缩编码后，得到所述多媒体资源的音频压缩编码形式的语音信息，将得到的所述多媒体资源的音频压缩编码形式的语音信息存储到所述多媒体资源检索库中；

图像信息存储单元，用于从所述多媒体资源的视频中抽取关键帧，对所述关键帧进行图像内容描述和/或进行图像物体标注，将图像内容描述得到的文字内容和/或图像物体标注得到的文字内容作为所述多媒体资源的文字形式的图像信息存储到所述多媒体资源检索库中；和/或将从所述多媒体资源的视频中抽取关键帧，提取所述关键帧的图片像素特征并进行压缩编码后，得到所述多媒体资源的像素压缩编码形式的图像信息存储到所述多媒体资源检索库中。

本发明技术方案中，多媒体资源检索库中存储有多媒体资源的多模态信息，根据查询请求在多媒体资源检索库中进行检索，可以基于比编目信息更为丰富的信息进行检索，从而可以更充分地检索出满足检索条件的多媒体资源，更好满足多媒体资源的检索需求。

附图说明

图1为本发明实施例的一种多媒体资源的检索方法流程图；

图2为本发明实施例的一种获取并存储多媒体资源的文本信息的方法流程图；

图3为本发明实施例的一种获取并存储多媒体资源的语音信息的方法流程图；

图4为本发明实施例的一种获取并存储多媒体资源的图像信息的方法流程图；

图5为本发明实施例的一种多媒体资源的检索装置内部结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

本发明的发明人考虑到，多媒体资源(视频)中包含了多模态的信息，比如文本、语音、图像等。如果在检索时利用到这些信息，可以更充分地检索出满足检索条件的多媒体资源，从而更好地满足了多媒体资源的检索需求。

下面结合附图详细介绍本发明的技术方案。

基于上述的思路，为了能在检索时利用多媒体资源的多模态的信息，本发明实施例的技术方案中，首先对存储的多媒体资源进行预处理，从多媒体资源中抽取多模态的信息存储到多媒体资源检索库中。本发明实施例提供的多媒体资源检索库中，各多媒体资源的多模态的信息可以包括至少如下一种信息：文本信息、语音信息、图像信息。多媒体资源的多模态的信息是预先存储于多媒体资源检索库中的，其中，所述语音信息是以音频压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的；所述图像信息是以像素压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的。如何获取并存储多模态的信息将在后续详细介绍。当然，更优地，还可将多媒体资源的编目信息也存储到多媒体资源检索库中。

基于上述的多媒体资源检索库，本发明实施例提供的一种多媒体资源的检索方法，流程如图1所示，包括如下步骤：

S101：接收用户发出的查询请求。

本步骤中，接收的查询请求可以包括待查询的关键字，或者待查询的音频片段，或者待查询的图片。

S102：根据所述查询请求在多媒体资源检索库中进行检索。

本步骤中，对于包括待查询的关键字的查询请求，可以首先分析所述查询请求，得到所述查询请求的关键字集合K；例如，可以采用分词、中文分词、命名实体识别、情感分析等技术分析查询请求，得到查询请求的关键字集合K。

进而，对所述关键字集合K进行拓展，得到拓展后的关键字集合K′；例如，可以通过知识图谱、或同义词扩展等方法拓展关键字集合K。

之后，根据拓展后的关键字集合K′在所述多媒体资源检索库的多模态的信息中进行检索；也可以是，根据所述拓展后的关键字集合K′在所述多媒体资源检索库的多模态的信息和编目信息中进行检索。

此处将关键字集合拓展旨在提高查询的完备性。例如用户查询请求包含“西红柿”，则对于“西红柿”的同义词“番茄”，本发明的技术方案可同样查询到包含“番茄”内容的视频。也就是说，根据拓展后的关键字集合进行检索，可以得到更多的与查询请求中的查询条件相关的检索结果。

如何根据关键字集合进行检索的方法为本领域技术人员所熟知，此处不赘述。

本步骤中，对于包括待查询的音频片段的查询请求，首先分析所述查询请求，获取所述查询请求中的音频片段；进而，根据所述音频片段，在所述多媒体资源检索库中的音频压缩编码形式的音频信息中进行检索：提取音频片段的音频特征后进行压缩编码，利用聚类算法在所述多媒体资源检索库中的音频压缩编码形式的音频信息中查找相近的音频信息。

本步骤中，对于包括待查询的图片的查询请求，首先分析所述查询请求，获取所述查询请求中的图片；进而根据所述图片，在所述多媒体资源检索库中的像素压缩编码形式的图像信息中进行检索：提取所述图片的图片像素特征并进行压缩编码后，利用聚类算法在所述多媒体资源检索库中的像素压缩编码形式的图像信息查找相近的图像信息。

进一步，在所述多媒体资源检索库的多模态的信息以及编目信息中进行检索后，可以得到同一多媒体资源的编目信息，以及不同模态的信息(即文本信息、语音信息、图像信息)所分别对应于所述查询请求的契合度，或称匹配度，将多媒体资源的编目信息，以及不同模态的信息(即文本信息、语音信息、图像信息)所分别对应于所述查询请求的契合度做加权平均，将得到的加权平均值作为该多媒体资源匹配于所述查询请求的分值。根据各多媒体资源的分值作降序排序；将各多媒体资源的排序结果作为所述检索结果。

S103：返回检索结果。

在得到与查询请求中的查询条件相匹配的检索结果后，将检索结果向用户返回，则用户可以获知符合查询条件的多媒体资源，或符合与查询条件相近似的条件的多媒体资源。

上述多媒体资源检索库中各多媒体资源的多模态的信息是预先获取并存储的，其中，本发明实施例提供的一种获取并存储多媒体资源的文本信息的具体方法流程如图2所示，包括如下步骤：

S201：从所述多媒体资源的视频中识别出文本信息。

具体地，可以对所述多媒体资源中相似程度高的图像帧进行去重，对去重后的所述多媒体资源视频的图像帧进行文字识别。

S202：将识别出的文本信息存储到所述多媒体资源检索库中。

本步骤中，较佳地，可以先对识别出的文本信息进行去重处理，将去重后的文本信息存储到所述多媒体资源检索库中。去重处理有助于去除大量冗余信息，节省多媒体资源检索库的空间。

本发明实施例提供的一种预先获取并存储多媒体资源的语音信息的具体方法流程如图3所示，包括如下步骤：

S301：从所述多媒体资源中提取出音频。

S302：将提取出的音频进行语音识别后转换为文字内容，和/或进一步提取所述音频的特征并对提取出的音频特征进行压缩编码后，得到所述多媒体资源的音频压缩编码形式的语音信息。

S303：将转换得到的文字内容作为所述多媒体资源的语音信息存储到所述多媒体资源检索库中，和/或将压缩编码后得到的多媒体资源的音频压缩编码形式的语音信息存储到所述多媒体资源检索库中。

本步骤中，较佳地，将转换得到的文字内容做文本摘要，将摘要得到的文字内容作为所述多媒体资源的语音信息存储到所述多媒体资源检索库中；和/或

本步骤中，将对S302步骤中压缩编码后得到所述多媒体资源的音频压缩编码形式的语音信息存储到所述多媒体资源检索库中。

一般而言，多媒体资源中的语音内容比较大，但有用的只是其中的一部分。故而对转换得到的文字内容做文本摘要，去除掉其中无实际意义的内容。然后将摘要得到的文字内容添加到多模态媒体资源检索库中。这样有助于去除大量冗余信息，节省多媒体资源检索库的空间。

本发明实施例提供的一种预先获取并存储多媒体资源的图像信息的具体方法流程如图4所示，包括如下步骤：

S401：从所述多媒体资源的视频中抽取关键帧。

事实上，多媒体资源的视频是由一帧一帧的图片构成的，图片中包含的语义信息对于理解视频内容至关重要。本***先对视频做关键帧抽取得到关键帧。

S402：对抽取的关键帧进行图像内容描述和/或进行图像物体标注，和/或提取所述关键帧的图片像素特征并进行压缩编码。

本步骤中，对每张关键帧进行图像内容描述，生成描述该关键帧的文本内容，和/或对每张关键帧进行图像物体标注，得到图像物体标注的文字内容。具体地，可以采用深度学习等人工智能相关技术对关键帧进行图像内容描述，得到描述的文字内容；其中，对关键帧进行图像物体标注具体指的是对关键帧中识别出的物体图像进行文字标注。和/或

本步骤中，提取每张关键帧的图片像素特征并进行压缩编码后，得到所述多媒体资源的像素压缩编码形式的图像信息。

S403：将图像内容描述得到的文字内容和/或图像物体标注得到的文字内容作为所述多媒体资源的文字形式的图像信息存储到所述多媒体资源检索库中，和/或将得到的多媒体资源的像素压缩编码形式的图像信息存储到所述多媒体资源检索库中。

本步骤中，较佳地，可以先将图像内容描述得到的文字内容和/或图像物体标注得到的文字内容进行去重处理，将去重后的文字内容作为所述多媒体资源的文字形式的图像信息存储到所述多媒体资源检索库中；和/或

本步骤中，将得到的多媒体资源的像素压缩编码形式的图像信息存储到所述多媒体资源检索库中。

基于上述的方法，本发明实施例提供的一种多媒体资源的检索装置，内部框图如图5所示，包括：多媒体资源检索库501、查询请求接收模块502、检索模块503。

多媒体资源检索库501用于存储多个多媒体资源的多模态信息；较佳地，多媒体资源检索库501中还可存储有：各多媒体资源的编目信息。其中，所述多媒体资源的多模态信息至少包括如下信息之一：文本信息、语音信息、图像信息。

查询请求接收模块502用于接收用户发出的查询请求。

检索模块503用于根据查询请求接收模块502接收的查询请求在多媒体资源检索库501中进行检索，并返回检索结果。

较佳地，检索模块503用于分析所述查询请求，得到所述查询请求的关键字集合K；对所述关键字集合K进行拓展，得到拓展后的关键字集合K′；根据所述拓展后的关键字集合K′在所述多媒体资源检索库中进行检索。检索模块503的具体检索方法可以参考上述步骤S102中的内容，此处不再赘述。

进一步，检索模块503在根据拓展后的关键字集合K′在所述多媒体资源检索库的多模态的信息以及编目信息中进行检索后，针对同一多媒体资源，可以得到该多媒体资源的编目信息，以及不同模态的信息所分别对应于所述查询请求的契合度，或称匹配度，将多媒体资源的编目信息，以及不同模态的信息所分别对应于所述查询请求的契合度做加权平均，将得到的加权平均值作为该多媒体资源匹配于所述查询请求的分值。将检索结果按分值降序返回给用户。

或者，检索模块503还可用于分析所述查询请求，获取所述查询请求中的音频片段；根据所述音频片段，在所述多媒体资源检索库中的音频压缩编码形式的音频信息中进行检索。

或者，检索模块503还可用于分析所述查询请求，获取所述查询请求中的图片；根据所述图片，在所述多媒体资源检索库中的像素压缩编码形式的图像信息中进行检索。

进一步，本发明实施例提供的一种多媒体资源的检索装置还可以包括：多模态信息存储模块504；

多模态信息存储模块504包括至少如下单元之一：文本信息存储单元511、语音信息存储单元512、图像信息存储单元513。

文本信息存储单元511用于从所述多媒体资源的视频中识别出文本信息；将识别出的文本信息存储到所述多媒体资源检索库501中。文本信息存储单元511获取并存储多媒体资源的文本信息的具体方法可参考上述图2所示的各步骤方法，此处不再赘述。

语音信息存储单元512用于从所述多媒体资源中提取出音频并进行语音识别后转换为文字内容，将转换得到的文字内容作为所述多媒体资源的文字形式的语音信息存储到所述多媒体资源检索库中；将从所述多媒体资源中提取出音频，并进一步提取所述音频的特征并对提取出的音频特征进行压缩编码后，得到所述多媒体资源的音频压缩编码形式的语音信息，将得到的所述多媒体资源的音频压缩编码形式的语音信息存储到所述多媒体资源检索库501中。语音信息存储单元512获取并存储多媒体资源的语音信息的具体方法可参考上述图3所示的各步骤方法，此处不再赘述。

图像信息存储单元513从所述多媒体资源的视频中抽取关键帧，对所述关键帧进行图像内容描述和/或进行图像物体标注，将图像内容描述得到的文字内容和/或图像物体标注得到的文字内容作为所述多媒体资源的文字形式的图像信息存储到所述多媒体资源检索库中；和/或将从所述多媒体资源的视频中抽取关键帧，提取所述关键帧的图片像素特征并进行压缩编码后，得到所述多媒体资源的像素压缩编码形式的图像信息存储到所述多媒体资源检索库501中。图像信息存储单元513获取并存储多媒体资源的图像信息的具体方法可参考上述图4所示的各步骤方法，此处不再赘述。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多媒体资源的检索方法，其特征在于，包括：

接收用户发出的查询请求；

根据所述查询请求在多媒体资源检索库中进行检索，针对同一多媒体资源，得到该多媒体资源的编目信息，以及不同模态的信息所分别对应于所述查询请求的契合度；将多媒体资源的编目信息，以及不同模态的信息所分别对应于所述查询请求的契合度做加权平均，将得到的加权平均值作为该多媒体资源匹配于所述查询请求的分值；根据各多媒体资源的分值作降序排序；将各多媒体资源的排序结果作为检索结果，并返回检索结果；

2.根据权利要求1所述的方法，其特征在于，所述多媒体资源的多模态信息包括文本信息；以及

所述文本信息是预先存储到所述多媒体资源检索库的：

从所述多媒体资源的视频中识别出文本信息；

将识别出的文本信息存储到所述多媒体资源检索库中。

3.根据权利要求1所述的方法，其特征在于，所述多媒体资源的多模态信息包括语音信息；其中，所述语音信息是以音频压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的：

4.根据权利要求1所述的方法，其特征在于，所述多媒体资源的多模态信息包括图像信息；其中，所述图像信息是以像素压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的：

5.根据权利要求3所述的方法，其特征在于，所述根据所述查询请求在多媒体资源检索库中进行检索，包括：

分析所述查询请求，获取所述查询请求中的音频片段；

6.根据权利要求4所述的方法，其特征在于，所述根据所述查询请求在多媒体资源检索库中进行检索，包括：

分析所述查询请求，获取所述查询请求中的图片；

7.根据权利要求1所述的方法，其特征在于，在所述根据所述查询请求在多媒体资源检索库中进行检索后，还包括：

根据各多媒体资源的分值作降序排序；

将各多媒体资源的排序结果作为所述检索结果。

8.一种多媒体资源的检索装置，包括：

查询请求接收模块，用于接收用户发出的查询请求；

检索模块，用于根据所述查询请求在所述多媒体资源检索库中进行检索，针对同一多媒体资源，得到该多媒体资源的编目信息，以及不同模态的信息所分别对应于所述查询请求的契合度；将多媒体资源的编目信息，以及不同模态的信息所分别对应于所述查询请求的契合度做加权平均，将得到的加权平均值作为该多媒体资源匹配于所述查询请求的分值；根据各多媒体资源的分值作降序排序；将各多媒体资源的排序结果作为检索结果，并返回检索结果。

9.根据权利要求8所述的装置，其特征在于，所述多媒体资源的多模态信息至少包括如下信息之一：文本信息、语音信息、图像信息；其中，所述语音信息是以音频压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的；所述图像信息是以像素压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的。

10.根据权利要求9所述的装置，其特征在于，还包括：多模态信息存储模块；以及

所述多模态信息存储模块包括至少如下单元之一：