CN107766571B - 一种多媒体资源的检索方法和装置 - Google Patents

一种多媒体资源的检索方法和装置 Download PDF

Info

Publication number
CN107766571B
CN107766571B CN201711108216.XA CN201711108216A CN107766571B CN 107766571 B CN107766571 B CN 107766571B CN 201711108216 A CN201711108216 A CN 201711108216A CN 107766571 B CN107766571 B CN 107766571B
Authority
CN
China
Prior art keywords
information
multimedia resource
multimedia
query request
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711108216.XA
Other languages
English (en)
Other versions
CN107766571A (zh
Inventor
柳军飞
麻志毅
杨寒
李宏强
孙博
范红杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201711108216.XA priority Critical patent/CN107766571B/zh
Publication of CN107766571A publication Critical patent/CN107766571A/zh
Application granted granted Critical
Publication of CN107766571B publication Critical patent/CN107766571B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多媒体资源的检索方法和装置,所述方法包括:接收用户发出的查询请求;根据所述查询请求在多媒体资源检索库中进行检索,并返回检索结果;其中,所述多媒体资源检索库中存储有多个多媒体资源的多模态信息。应用本发明可以更充分地检索出满足检索条件的多媒体资源,从而更好地满足多媒体资源的检索需求。

Description

一种多媒体资源的检索方法和装置
技术领域
本发明涉及视频检索领域,特别是指一种多媒体资源的检索方法和装置。
背景技术
伴随着互联网技术的飞速发展以及网络带宽的极大提升,存储在互联网上的多媒体资源(视频)呈***式增长。这些海量的多媒体资源中,不乏存在巨大商业价值的宝贵资源。如何在海量多媒体资源(视频)中进行高效检索便成为多媒体视频资源高效利用并最大化其价值的关键。
当前对多媒体资源(视频)的检索主要是依赖于基于关键字对多媒体资源(视频)的编目信息进行检索;而不同的多媒体资源生产商通常是根据自己的需要定义多媒体资源的编目信息;因此,多媒体资源的编目信息中所包含的信息往往具有局限性或片面性。基于编目信息进行的检索,不能很好地满足检索需求,会遗漏掉许多有用的多媒体资源。
发明内容
有鉴于此,本发明的目的在于提出一种多媒体资源的检索方法和装置,可以更充分地检索出满足检索条件的多媒体资源,从而更好地满足多媒体资源的检索需求。
基于上述目的本发明提供一种多媒体资源的检索方法,包括:
接收用户发出的查询请求;
根据所述查询请求在多媒体资源检索库中进行检索,并返回检索结果;
其中,所述多媒体资源检索库中存储有多个多媒体资源的多模态信息。
较佳地,所述多媒体资源检索库中还存储有:各多媒体资源的编目信息。
其中,所述多媒体资源的多模态信息包括文本信息;以及
所述文本信息是预先存储到所述多媒体资源检索库的:
从所述多媒体资源的视频中识别出文本信息;
将识别出的文本信息存储到所述多媒体资源检索库中。
其中,所述多媒体资源的多模态信息包括语音信息;其中,所述语音信息是以音频压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的:
从所述多媒体资源中提取出音频并进行语音识别后转换为文字内容,将转换得到的文字内容作为所述多媒体资源的文字形式的语音信息存储到所述多媒体资源检索库中;和/或
将从所述多媒体资源中提取出音频,并进一步提取所述音频的特征并对提取出的音频特征进行压缩编码后,得到所述多媒体资源的音频压缩编码形式的语音信息。
其中,所述多媒体资源的多模态信息包括图像信息;其中,所述图像信息是以像素压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的:
从所述多媒体资源的视频中抽取关键帧,对所述关键帧进行图像内容描述和/或进行图像物体标注,将图像内容描述得到的文字内容和/或图像物体标注得到的文字内容作为所述多媒体资源的文字形式的图像信息存储到所述多媒体资源检索库中;和/或
将从所述多媒体资源的视频中抽取关键帧,提取所述关键帧的图片像素特征并进行压缩编码后,得到所述多媒体资源的像素压缩编码形式的图像信息存储到所述多媒体资源检索库中。
其中,所述根据所述查询请求在多媒体资源检索库中进行检索,包括:
分析所述查询请求,得到所述查询请求的关键字集合K;
对所述关键字集合K进行拓展,得到拓展后的关键字集合K′;
根据所述拓展后的关键字集合K′在所述多媒体资源检索库中进行检索。
或者,所述根据所述查询请求在多媒体资源检索库中进行检索,包括:
分析所述查询请求,获取所述查询请求中的音频片段;
根据所述音频片段,在所述多媒体资源检索库中的音频压缩编码形式的音频信息中进行检索。
或者,所述根据所述查询请求在多媒体资源检索库中进行检索,包括:
分析所述查询请求,获取所述查询请求中的图片;
根据所述图片,在所述多媒体资源检索库中的像素压缩编码形式的图像信息中进行检索。
进一步,在所述根据所述查询请求在多媒体资源检索库中进行检索后,还包括:
针对同一多媒体资源,得到该多媒体资源的编目信息,以及不同模态的信息所分别对应于所述查询请求的契合度;
将多媒体资源的编目信息,以及不同模态的信息所分别对应于所述查询请求的契合度做加权平均,将得到的加权平均值作为该多媒体资源匹配于所述查询请求的分值;
根据各多媒体资源的分值作降序排序;
将各多媒体资源的排序结果作为所述检索结果。
本发明还提供一种多媒体资源的检索装置,包括:
多媒体资源检索库,用于存储多个多媒体资源的多模态信息;
查询请求接收模块,用于接收用户发出的查询请求;
检索模块,用于根据所述查询请求在所述多媒体资源检索库中进行检索,并返回检索结果。
进一步,所述多媒体资源检索库中还存储有:各多媒体资源的编目信息。
其中,所述多媒体资源的多模态信息至少包括如下信息之一:文本信息、语音信息、图像信息;其中,所述语音信息是以音频压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的;所述图像信息是以像素压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的。
进一步,所述装置还包括:多模态信息存储模块;以及
所述多模态信息存储模块包括至少如下单元之一:
文本信息存储单元,用于从所述多媒体资源的视频中识别出文本信息;将识别出的文本信息存储到所述多媒体资源检索库中;
语音信息存储单元,用于从所述多媒体资源中提取出音频并进行语音识别后转换为文字内容,将转换得到的文字内容作为所述多媒体资源的文字形式的语音信息存储到所述多媒体资源检索库中;和/或将从所述多媒体资源中提取出音频,并进一步提取所述音频的特征并对提取出的音频特征进行压缩编码后,得到所述多媒体资源的音频压缩编码形式的语音信息,将得到的所述多媒体资源的音频压缩编码形式的语音信息存储到所述多媒体资源检索库中;
图像信息存储单元,用于从所述多媒体资源的视频中抽取关键帧,对所述关键帧进行图像内容描述和/或进行图像物体标注,将图像内容描述得到的文字内容和/或图像物体标注得到的文字内容作为所述多媒体资源的文字形式的图像信息存储到所述多媒体资源检索库中;和/或将从所述多媒体资源的视频中抽取关键帧,提取所述关键帧的图片像素特征并进行压缩编码后,得到所述多媒体资源的像素压缩编码形式的图像信息存储到所述多媒体资源检索库中。
本发明技术方案中,多媒体资源检索库中存储有多媒体资源的多模态信息,根据查询请求在多媒体资源检索库中进行检索,可以基于比编目信息更为丰富的信息进行检索,从而可以更充分地检索出满足检索条件的多媒体资源,更好满足多媒体资源的检索需求。
附图说明
图1为本发明实施例的一种多媒体资源的检索方法流程图;
图2为本发明实施例的一种获取并存储多媒体资源的文本信息的方法流程图;
图3为本发明实施例的一种获取并存储多媒体资源的语音信息的方法流程图;
图4为本发明实施例的一种获取并存储多媒体资源的图像信息的方法流程图;
图5为本发明实施例的一种多媒体资源的检索装置内部结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
本发明的发明人考虑到,多媒体资源(视频)中包含了多模态的信息,比如文本、语音、图像等。如果在检索时利用到这些信息,可以更充分地检索出满足检索条件的多媒体资源,从而更好地满足了多媒体资源的检索需求。
下面结合附图详细介绍本发明的技术方案。
基于上述的思路,为了能在检索时利用多媒体资源的多模态的信息,本发明实施例的技术方案中,首先对存储的多媒体资源进行预处理,从多媒体资源中抽取多模态的信息存储到多媒体资源检索库中。本发明实施例提供的多媒体资源检索库中,各多媒体资源的多模态的信息可以包括至少如下一种信息:文本信息、语音信息、图像信息。多媒体资源的多模态的信息是预先存储于多媒体资源检索库中的,其中,所述语音信息是以音频压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的;所述图像信息是以像素压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的。如何获取并存储多模态的信息将在后续详细介绍。当然,更优地,还可将多媒体资源的编目信息也存储到多媒体资源检索库中。
基于上述的多媒体资源检索库,本发明实施例提供的一种多媒体资源的检索方法,流程如图1所示,包括如下步骤:
S101:接收用户发出的查询请求。
本步骤中,接收的查询请求可以包括待查询的关键字,或者待查询的音频片段,或者待查询的图片。
S102:根据所述查询请求在多媒体资源检索库中进行检索。
本步骤中,对于包括待查询的关键字的查询请求,可以首先分析所述查询请求,得到所述查询请求的关键字集合K;例如,可以采用分词、中文分词、命名实体识别、情感分析等技术分析查询请求,得到查询请求的关键字集合K。
进而,对所述关键字集合K进行拓展,得到拓展后的关键字集合K′;例如,可以通过知识图谱、或同义词扩展等方法拓展关键字集合K。
之后,根据拓展后的关键字集合K′在所述多媒体资源检索库的多模态的信息中进行检索;也可以是,根据所述拓展后的关键字集合K′在所述多媒体资源检索库的多模态的信息和编目信息中进行检索。
此处将关键字集合拓展旨在提高查询的完备性。例如用户查询请求包含“西红柿”,则对于“西红柿”的同义词“番茄”,本发明的技术方案可同样查询到包含“番茄”内容的视频。也就是说,根据拓展后的关键字集合进行检索,可以得到更多的与查询请求中的查询条件相关的检索结果。
如何根据关键字集合进行检索的方法为本领域技术人员所熟知,此处不赘述。
本步骤中,对于包括待查询的音频片段的查询请求,首先分析所述查询请求,获取所述查询请求中的音频片段;进而,根据所述音频片段,在所述多媒体资源检索库中的音频压缩编码形式的音频信息中进行检索:提取音频片段的音频特征后进行压缩编码,利用聚类算法在所述多媒体资源检索库中的音频压缩编码形式的音频信息中查找相近的音频信息。
本步骤中,对于包括待查询的图片的查询请求,首先分析所述查询请求,获取所述查询请求中的图片;进而根据所述图片,在所述多媒体资源检索库中的像素压缩编码形式的图像信息中进行检索:提取所述图片的图片像素特征并进行压缩编码后,利用聚类算法在所述多媒体资源检索库中的像素压缩编码形式的图像信息查找相近的图像信息。
进一步,在所述多媒体资源检索库的多模态的信息以及编目信息中进行检索后,可以得到同一多媒体资源的编目信息,以及不同模态的信息(即文本信息、语音信息、图像信息)所分别对应于所述查询请求的契合度,或称匹配度,将多媒体资源的编目信息,以及不同模态的信息(即文本信息、语音信息、图像信息)所分别对应于所述查询请求的契合度做加权平均,将得到的加权平均值作为该多媒体资源匹配于所述查询请求的分值。根据各多媒体资源的分值作降序排序;将各多媒体资源的排序结果作为所述检索结果。
S103:返回检索结果。
在得到与查询请求中的查询条件相匹配的检索结果后,将检索结果向用户返回,则用户可以获知符合查询条件的多媒体资源,或符合与查询条件相近似的条件的多媒体资源。
上述多媒体资源检索库中各多媒体资源的多模态的信息是预先获取并存储的,其中,本发明实施例提供的一种获取并存储多媒体资源的文本信息的具体方法流程如图2所示,包括如下步骤:
S201:从所述多媒体资源的视频中识别出文本信息。
具体地,可以对所述多媒体资源中相似程度高的图像帧进行去重,对去重后的所述多媒体资源视频的图像帧进行文字识别。
S202:将识别出的文本信息存储到所述多媒体资源检索库中。
本步骤中,较佳地,可以先对识别出的文本信息进行去重处理,将去重后的文本信息存储到所述多媒体资源检索库中。去重处理有助于去除大量冗余信息,节省多媒体资源检索库的空间。
本发明实施例提供的一种预先获取并存储多媒体资源的语音信息的具体方法流程如图3所示,包括如下步骤:
S301:从所述多媒体资源中提取出音频。
S302:将提取出的音频进行语音识别后转换为文字内容,和/或进一步提取所述音频的特征并对提取出的音频特征进行压缩编码后,得到所述多媒体资源的音频压缩编码形式的语音信息。
S303:将转换得到的文字内容作为所述多媒体资源的语音信息存储到所述多媒体资源检索库中,和/或将压缩编码后得到的多媒体资源的音频压缩编码形式的语音信息存储到所述多媒体资源检索库中。
本步骤中,较佳地,将转换得到的文字内容做文本摘要,将摘要得到的文字内容作为所述多媒体资源的语音信息存储到所述多媒体资源检索库中;和/或
本步骤中,将对S302步骤中压缩编码后得到所述多媒体资源的音频压缩编码形式的语音信息存储到所述多媒体资源检索库中。
一般而言,多媒体资源中的语音内容比较大,但有用的只是其中的一部分。故而对转换得到的文字内容做文本摘要,去除掉其中无实际意义的内容。然后将摘要得到的文字内容添加到多模态媒体资源检索库中。这样有助于去除大量冗余信息,节省多媒体资源检索库的空间。
本发明实施例提供的一种预先获取并存储多媒体资源的图像信息的具体方法流程如图4所示,包括如下步骤:
S401:从所述多媒体资源的视频中抽取关键帧。
事实上,多媒体资源的视频是由一帧一帧的图片构成的,图片中包含的语义信息对于理解视频内容至关重要。本***先对视频做关键帧抽取得到关键帧。
S402:对抽取的关键帧进行图像内容描述和/或进行图像物体标注,和/或提取所述关键帧的图片像素特征并进行压缩编码。
本步骤中,对每张关键帧进行图像内容描述,生成描述该关键帧的文本内容,和/或对每张关键帧进行图像物体标注,得到图像物体标注的文字内容。具体地,可以采用深度学习等人工智能相关技术对关键帧进行图像内容描述,得到描述的文字内容;其中,对关键帧进行图像物体标注具体指的是对关键帧中识别出的物体图像进行文字标注。和/或
本步骤中,提取每张关键帧的图片像素特征并进行压缩编码后,得到所述多媒体资源的像素压缩编码形式的图像信息。
S403:将图像内容描述得到的文字内容和/或图像物体标注得到的文字内容作为所述多媒体资源的文字形式的图像信息存储到所述多媒体资源检索库中,和/或将得到的多媒体资源的像素压缩编码形式的图像信息存储到所述多媒体资源检索库中。
本步骤中,较佳地,可以先将图像内容描述得到的文字内容和/或图像物体标注得到的文字内容进行去重处理,将去重后的文字内容作为所述多媒体资源的文字形式的图像信息存储到所述多媒体资源检索库中;和/或
本步骤中,将得到的多媒体资源的像素压缩编码形式的图像信息存储到所述多媒体资源检索库中。
基于上述的方法,本发明实施例提供的一种多媒体资源的检索装置,内部框图如图5所示,包括:多媒体资源检索库501、查询请求接收模块502、检索模块503。
多媒体资源检索库501用于存储多个多媒体资源的多模态信息;较佳地,多媒体资源检索库501中还可存储有:各多媒体资源的编目信息。其中,所述多媒体资源的多模态信息至少包括如下信息之一:文本信息、语音信息、图像信息。
查询请求接收模块502用于接收用户发出的查询请求。
检索模块503用于根据查询请求接收模块502接收的查询请求在多媒体资源检索库501中进行检索,并返回检索结果。
较佳地,检索模块503用于分析所述查询请求,得到所述查询请求的关键字集合K;对所述关键字集合K进行拓展,得到拓展后的关键字集合K′;根据所述拓展后的关键字集合K′在所述多媒体资源检索库中进行检索。检索模块503的具体检索方法可以参考上述步骤S102中的内容,此处不再赘述。
进一步,检索模块503在根据拓展后的关键字集合K′在所述多媒体资源检索库的多模态的信息以及编目信息中进行检索后,针对同一多媒体资源,可以得到该多媒体资源的编目信息,以及不同模态的信息所分别对应于所述查询请求的契合度,或称匹配度,将多媒体资源的编目信息,以及不同模态的信息所分别对应于所述查询请求的契合度做加权平均,将得到的加权平均值作为该多媒体资源匹配于所述查询请求的分值。将检索结果按分值降序返回给用户。
或者,检索模块503还可用于分析所述查询请求,获取所述查询请求中的音频片段;根据所述音频片段,在所述多媒体资源检索库中的音频压缩编码形式的音频信息中进行检索。
或者,检索模块503还可用于分析所述查询请求,获取所述查询请求中的图片;根据所述图片,在所述多媒体资源检索库中的像素压缩编码形式的图像信息中进行检索。
进一步,本发明实施例提供的一种多媒体资源的检索装置还可以包括:多模态信息存储模块504;
多模态信息存储模块504包括至少如下单元之一:文本信息存储单元511、语音信息存储单元512、图像信息存储单元513。
文本信息存储单元511用于从所述多媒体资源的视频中识别出文本信息;将识别出的文本信息存储到所述多媒体资源检索库501中。文本信息存储单元511获取并存储多媒体资源的文本信息的具体方法可参考上述图2所示的各步骤方法,此处不再赘述。
语音信息存储单元512用于从所述多媒体资源中提取出音频并进行语音识别后转换为文字内容,将转换得到的文字内容作为所述多媒体资源的文字形式的语音信息存储到所述多媒体资源检索库中;将从所述多媒体资源中提取出音频,并进一步提取所述音频的特征并对提取出的音频特征进行压缩编码后,得到所述多媒体资源的音频压缩编码形式的语音信息,将得到的所述多媒体资源的音频压缩编码形式的语音信息存储到所述多媒体资源检索库501中。语音信息存储单元512获取并存储多媒体资源的语音信息的具体方法可参考上述图3所示的各步骤方法,此处不再赘述。
图像信息存储单元513从所述多媒体资源的视频中抽取关键帧,对所述关键帧进行图像内容描述和/或进行图像物体标注,将图像内容描述得到的文字内容和/或图像物体标注得到的文字内容作为所述多媒体资源的文字形式的图像信息存储到所述多媒体资源检索库中;和/或将从所述多媒体资源的视频中抽取关键帧,提取所述关键帧的图片像素特征并进行压缩编码后,得到所述多媒体资源的像素压缩编码形式的图像信息存储到所述多媒体资源检索库501中。图像信息存储单元513获取并存储多媒体资源的图像信息的具体方法可参考上述图4所示的各步骤方法,此处不再赘述。
本发明技术方案中,多媒体资源检索库中存储有多媒体资源的多模态信息,根据查询请求在多媒体资源检索库中进行检索,可以基于比编目信息更为丰富的信息进行检索,从而可以更充分地检索出满足检索条件的多媒体资源,更好满足多媒体资源的检索需求。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多媒体资源的检索方法,其特征在于,包括:
接收用户发出的查询请求;
根据所述查询请求在多媒体资源检索库中进行检索,针对同一多媒体资源,得到该多媒体资源的编目信息,以及不同模态的信息所分别对应于所述查询请求的契合度;将多媒体资源的编目信息,以及不同模态的信息所分别对应于所述查询请求的契合度做加权平均,将得到的加权平均值作为该多媒体资源匹配于所述查询请求的分值;根据各多媒体资源的分值作降序排序;将各多媒体资源的排序结果作为检索结果,并返回检索结果;
其中,所述多媒体资源检索库中存储有多个多媒体资源的多模态信息。
2.根据权利要求1所述的方法,其特征在于,所述多媒体资源的多模态信息包括文本信息;以及
所述文本信息是预先存储到所述多媒体资源检索库的:
从所述多媒体资源的视频中识别出文本信息;
将识别出的文本信息存储到所述多媒体资源检索库中。
3.根据权利要求1所述的方法,其特征在于,所述多媒体资源的多模态信息包括语音信息;其中,所述语音信息是以音频压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的:
从所述多媒体资源中提取出音频并进行语音识别后转换为文字内容,将转换得到的文字内容作为所述多媒体资源的文字形式的语音信息存储到所述多媒体资源检索库中;和/或
将从所述多媒体资源中提取出音频,并进一步提取所述音频的特征并对提取出的音频特征进行压缩编码后,得到所述多媒体资源的音频压缩编码形式的语音信息。
4.根据权利要求1所述的方法,其特征在于,所述多媒体资源的多模态信息包括图像信息;其中,所述图像信息是以像素压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的:
从所述多媒体资源的视频中抽取关键帧,对所述关键帧进行图像内容描述和/或进行图像物体标注,将图像内容描述得到的文字内容和/或图像物体标注得到的文字内容作为所述多媒体资源的文字形式的图像信息存储到所述多媒体资源检索库中;和/或
将从所述多媒体资源的视频中抽取关键帧,提取所述关键帧的图片像素特征并进行压缩编码后,得到所述多媒体资源的像素压缩编码形式的图像信息存储到所述多媒体资源检索库中。
5.根据权利要求3所述的方法,其特征在于,所述根据所述查询请求在多媒体资源检索库中进行检索,包括:
分析所述查询请求,获取所述查询请求中的音频片段;
根据所述音频片段,在所述多媒体资源检索库中的音频压缩编码形式的音频信息中进行检索。
6.根据权利要求4所述的方法,其特征在于,所述根据所述查询请求在多媒体资源检索库中进行检索,包括:
分析所述查询请求,获取所述查询请求中的图片;
根据所述图片,在所述多媒体资源检索库中的像素压缩编码形式的图像信息中进行检索。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述查询请求在多媒体资源检索库中进行检索后,还包括:
针对同一多媒体资源,得到该多媒体资源的编目信息,以及不同模态的信息所分别对应于所述查询请求的契合度;
将多媒体资源的编目信息,以及不同模态的信息所分别对应于所述查询请求的契合度做加权平均,将得到的加权平均值作为该多媒体资源匹配于所述查询请求的分值;
根据各多媒体资源的分值作降序排序;
将各多媒体资源的排序结果作为所述检索结果。
8.一种多媒体资源的检索装置,包括:
多媒体资源检索库,用于存储多个多媒体资源的多模态信息;
查询请求接收模块,用于接收用户发出的查询请求;
检索模块,用于根据所述查询请求在所述多媒体资源检索库中进行检索,针对同一多媒体资源,得到该多媒体资源的编目信息,以及不同模态的信息所分别对应于所述查询请求的契合度;将多媒体资源的编目信息,以及不同模态的信息所分别对应于所述查询请求的契合度做加权平均,将得到的加权平均值作为该多媒体资源匹配于所述查询请求的分值;根据各多媒体资源的分值作降序排序;将各多媒体资源的排序结果作为检索结果,并返回检索结果。
9.根据权利要求8所述的装置,其特征在于,所述多媒体资源的多模态信息至少包括如下信息之一:文本信息、语音信息、图像信息;其中,所述语音信息是以音频压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的;所述图像信息是以像素压缩编码形式和/或文字形式预先存储到所述多媒体资源检索库的。
10.根据权利要求9所述的装置,其特征在于,还包括:多模态信息存储模块;以及
所述多模态信息存储模块包括至少如下单元之一:
文本信息存储单元,用于从所述多媒体资源的视频中识别出文本信息;将识别出的文本信息存储到所述多媒体资源检索库中;
语音信息存储单元,用于从所述多媒体资源中提取出音频并进行语音识别后转换为文字内容,将转换得到的文字内容作为所述多媒体资源的文字形式的语音信息存储到所述多媒体资源检索库中;和/或将从所述多媒体资源中提取出音频,并进一步提取所述音频的特征并对提取出的音频特征进行压缩编码后,得到所述多媒体资源的音频压缩编码形式的语音信息,将得到的所述多媒体资源的音频压缩编码形式的语音信息存储到所述多媒体资源检索库中;
图像信息存储单元,用于从所述多媒体资源的视频中抽取关键帧,对所述关键帧进行图像内容描述和/或进行图像物体标注,将图像内容描述得到的文字内容和/或图像物体标注得到的文字内容作为所述多媒体资源的文字形式的图像信息存储到所述多媒体资源检索库中;和/或将从所述多媒体资源的视频中抽取关键帧,提取所述关键帧的图片像素特征并进行压缩编码后,得到所述多媒体资源的像素压缩编码形式的图像信息存储到所述多媒体资源检索库中。
CN201711108216.XA 2017-11-08 2017-11-08 一种多媒体资源的检索方法和装置 Expired - Fee Related CN107766571B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711108216.XA CN107766571B (zh) 2017-11-08 2017-11-08 一种多媒体资源的检索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711108216.XA CN107766571B (zh) 2017-11-08 2017-11-08 一种多媒体资源的检索方法和装置

Publications (2)

Publication Number Publication Date
CN107766571A CN107766571A (zh) 2018-03-06
CN107766571B true CN107766571B (zh) 2021-02-09

Family

ID=61272932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711108216.XA Expired - Fee Related CN107766571B (zh) 2017-11-08 2017-11-08 一种多媒体资源的检索方法和装置

Country Status (1)

Country Link
CN (1) CN107766571B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647245B (zh) * 2018-04-13 2023-04-18 腾讯科技(深圳)有限公司 多媒体资源的匹配方法、装置、存储介质及电子装置
CN110489594A (zh) * 2018-05-14 2019-11-22 北京松果电子有限公司 图像视觉标注方法、装置、存储介质及设备
CN109255036B (zh) * 2018-08-31 2020-02-18 北京字节跳动网络技术有限公司 用于输出信息的方法和装置
CN109446356A (zh) * 2018-09-21 2019-03-08 深圳市九洲电器有限公司 一种多媒体文件检索方法及装置
CN109684553A (zh) * 2018-12-26 2019-04-26 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN110110099A (zh) * 2019-04-12 2019-08-09 华勤通讯技术有限公司 一种多媒体文件检索方法及装置
CN110532404B (zh) * 2019-09-03 2023-08-04 北京百度网讯科技有限公司 一种源多媒体确定方法、装置、设备及存储介质
CN111159435B (zh) * 2019-12-27 2023-09-05 新方正控股发展有限责任公司 多媒体资源处理方法、***、终端及计算机可读存储介质
CN113128285A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 一种处理视频的方法及装置
CN111221984B (zh) * 2020-01-15 2024-03-01 北京百度网讯科技有限公司 多模态内容处理方法、装置、设备及存储介质
CN112528053A (zh) * 2020-12-23 2021-03-19 三星电子(中国)研发中心 多媒体库分类检索管理***
CN112818906B (zh) * 2021-02-22 2023-07-11 浙江传媒学院 一种基于多模态信息融合理解的全媒体新闻智能编目方法
CN113507613A (zh) * 2021-06-07 2021-10-15 茂名市群英网络有限公司 基于cdn的视频录入调度***及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN101968819A (zh) * 2010-11-05 2011-02-09 中国传媒大学 面向广域网的音视频智能编目信息获取方法
CN107203586A (zh) * 2017-04-19 2017-09-26 天津大学 一种基于多模态信息的自动化结果生成方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7185049B1 (en) * 1999-02-01 2007-02-27 At&T Corp. Multimedia integration description scheme, method and system for MPEG-7
CN100388282C (zh) * 2006-09-14 2008-05-14 浙江大学 基于多模态信息融合分析的跨媒体检索方法
CN101272397B (zh) * 2008-05-05 2010-11-10 南京师范大学 基于asf数据融合技术获得可定位流媒体的方法
US20100100439A1 (en) * 2008-06-12 2010-04-22 Dawn Jutla Multi-platform system apparatus for interoperable, multimedia-accessible and convertible structured and unstructured wikis, wiki user networks, and other user-generated content repositories
US8259082B2 (en) * 2008-09-12 2012-09-04 At&T Intellectual Property I, L.P. Multimodal portable communication interface for accessing video content
CN102650993A (zh) * 2011-02-25 2012-08-29 北大方正集团有限公司 音视频文件的索引建立和检索方法、装置及***
US9292552B2 (en) * 2012-07-26 2016-03-22 Telefonaktiebolaget L M Ericsson (Publ) Apparatus, methods, and computer program products for adaptive multimedia content indexing
US9449002B2 (en) * 2013-01-16 2016-09-20 Althea Systems and Software Pvt. Ltd System and method to retrieve relevant multimedia content for a trending topic
CN103778204A (zh) * 2014-01-13 2014-05-07 北京奇虎科技有限公司 基于语音分析的视频搜索方法、设备及***
CN106209575B (zh) * 2016-06-23 2019-09-24 厦门黑镜科技有限公司 信息发送方法、获取方法、装置及界面***
CN106446051A (zh) * 2016-08-31 2017-02-22 北京新奥特云视科技有限公司 Eagle媒资深度搜索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN101968819A (zh) * 2010-11-05 2011-02-09 中国传媒大学 面向广域网的音视频智能编目信息获取方法
CN107203586A (zh) * 2017-04-19 2017-09-26 天津大学 一种基于多模态信息的自动化结果生成方法

Also Published As

Publication number Publication date
CN107766571A (zh) 2018-03-06

Similar Documents

Publication Publication Date Title
CN107766571B (zh) 一种多媒体资源的检索方法和装置
US8396286B1 (en) Learning concepts for video annotation
US20110022394A1 (en) Visual similarity
US8126897B2 (en) Unified inverted index for video passage retrieval
CN112015949A (zh) 视频生成方法和装置、存储介质及电子设备
CN108446316B (zh) 联想词的推荐方法、装置、电子设备及存储介质
CN111506771B (zh) 一种视频检索方法、装置、设备及存储介质
CN108334489B (zh) 文本核心词识别方法和装置
CN109710792B (zh) 一种基于索引的快速人脸检索***应用
CN111008321A (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
CN106980664B (zh) 一种双语可比较语料挖掘方法及装置
CN114359810B (zh) 视频摘要生成方法、装置、电子设备及存储介质
CN112036177A (zh) 基于多模型融合的文本语义相似度信息处理方法及***
CN111125457A (zh) 一种深度跨模态哈希检索方法及装置
CN113806588A (zh) 搜索视频的方法和装置
CN113392265A (zh) 多媒体处理方法、装置及设备
JP6397378B2 (ja) 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム
CN107451120B (zh) 一种公开文本情报的内容冲突检测方法及***
CN111353055A (zh) 基于智能标签扩展元数据的编目方法及***
CN111950261B (zh) 提取文本关键词的方法、设备和计算机可读存储介质
CN110413770B (zh) 将群消息归类到群话题的方法及装置
JP4703487B2 (ja) 画像分類方法及び装置及びプログラム
CN110351183B (zh) 即时通讯中的资源收藏方法以及装置
CN116011443A (zh) 一种基于人工智能的文件要素信息识别方法及装置
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210209

Termination date: 20211108

CF01 Termination of patent right due to non-payment of annual fee