CN112905829A - 一种跨模态人工智能信息处理***及检索方法 - Google Patents

一种跨模态人工智能信息处理***及检索方法 Download PDF

Info

Publication number
CN112905829A
CN112905829A CN202110320317.3A CN202110320317A CN112905829A CN 112905829 A CN112905829 A CN 112905829A CN 202110320317 A CN202110320317 A CN 202110320317A CN 112905829 A CN112905829 A CN 112905829A
Authority
CN
China
Prior art keywords
modality
information
module
data
artificial intelligence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110320317.3A
Other languages
English (en)
Inventor
王芳
连芷萱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110320317.3A priority Critical patent/CN112905829A/zh
Publication of CN112905829A publication Critical patent/CN112905829A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种跨模态人工智能信息处理***及跨模态信息检索方法。***包括:分隔模块,其被配置为对第一模态信息进分隔得到连续的多段第一模态信息片段;特征提取模块,其被配置为对每段第一模态信息片段表达的内容进行特征提取形成事件图谱;标识模块,其被配置为将事件图谱中的元素利用第二模态信息进行标识形成第二模态标识信息;第二编码模块,其被配置对第二模态标识信息进行编码形成第二模态信息数据;关联模块,其被配置为将第二模态信息数据与相应段的第一模态信息片段中的每帧数据进行关联生成关联标识;第一***模块,其被配置为将关联标识的***到第一模态数据帧中;第二***模块,其被配置为关联标识的***到第二模态数据帧中。

Description

一种跨模态人工智能信息处理***及检索方法
技术领域
本发明涉及一种跨模态人工智能信息处理***及检索方法,属于人工智能技术领域。
背景技术
现有技术中,对文本信息可通过关键词进行全文检索,而对音频/视频信息而言,想在一定时间长度音频时间段和视频时间段中查寻关注的信息却无能为力。
发明内容
本发明的发明目的是提供一种跨模态人工智能信息处理***及检索方法,能够快速进行跨模态信息检索并再现。
为实现所述发明目的,本发明提供一种跨模态人工智能信息处理***,其特征在于,包括:分隔模块,其被配置为对第一模态信息进分隔得到连续的多段第一模态信息片段;特征提取模块,其被配置为对每段第一模态信息片段表达的内容进行特征提取形成表征每段第一模态数据片段表达的内容中的事件及其关系的事件图谱;标识模块,其被配置为将事件图谱中的元素利用第二模态信息进行标识形成第二模态标识信息;第二编码模块,其被配置对第二模态标识信息进行编码形成第二模态信息数据;关联模块,其被配置为将第二模态信息数据与相应段的第一模态信息片段中的每帧数据进行关联生成关联标识;第一***模块,其被配置为将关联标识的***到第一模态数据帧中,而后存储于第一模态信息数据库中;第二***模块,其被配置为关联标识的***到第二模态数据帧中而后存储于第二模态信息数据库中。
优选地,第一模态信息包括语音和/或者视频;第二模态信息包括文本。
优选地,特征提取模块包括事件图谱建立模块和累加模块,所述事件图像建立模块被配置为根据第一模态信息源表达的内容建立事件图谱,累加模块被配置为累加连续相同事件图谱的时长;分隔模块还被配置为根据时长对第一模态信息进分隔得到连续的多段第一模态信息片段。
优选地,跨模态人工智能信息处理***还包括第一编码模块,所述第一编码模块用于对分隔后的第一模态信息片段进行编码生成第一模态信息数据。
优选地,第一模态信息包括视频数据;第二模态信息包括文本。
优选地,特征提取模块包括转换模块、人工智能模块、事件图谱建立模块和累加模块,其中,转换模块将第一模态信息数据转换成二维图像;人工智能模块被配置为识别每帧二维图像的特征值,所特征值包括前景图像特征值、背景图像特征值;事件图谱建立模块,其被配置为根据每帧图像的前景图像特征值表征图元的关系及前景图像特征值表征的图元与背景图像特征值表征的图元的关系建立事件图谱;累加模块被配置为累加连续相同事件图谱的时长;分配模块还根据被配置为根据时长对第一模态信息进分隔得到连续的多段第一模态信息片段。
为实现所述发明目的,本发明还提供一种利用权利上述***进行跨模态信息检索方法,其特征在于,包括如下步骤:根据输入的第二模态信息在第二模态信息数据库中查找对应的第二模态数据;提取第二模态数据的关联头;根据关联头从第一模态信息数据库中检索第一模态信息数据帧,利用第一模态信息数据帧再现第一模态信息。
与现有技术相比,本发明的发明目的是提供一种跨模态人工智能信息处理***及检索方法,能够快速进行跨模态信息检索。
附图说明
图1是本发明第一实施例提供的跨模态人工智能信息处理***的组成框图;
图2是表示将第一模态信息分隔成多个信息片段的示意图;
图3是本发明一实施例提供的跨模态人工智能信息处理***中的第一编码模块的组成框图;
图4是本发明一实施例提供的帧间预测处理模块的组成框图;
图5是本发明第二实施例提供的跨模态人工智能信息处理***的组成框图;
图6是本发明提供的跨模态信息检索方法的流程图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
第一实施例
图1是本发明第一实施例提供的跨模态人工智能信息处理***的组成框图,如图1所示,第一实施例提供跨模态人工智能信息处理***包括:第一模态信息源510,其例如为由声电转换器获取的音频信息源或者由光电转换器获取的图像信息源;分隔模块520,其被配置为对第一模态信息进分隔得到连续的多段第一模态信息片段;特征提取模块,其被配置为对每段第一模态信息片段表达的内容进行特征提取形成表征每段第一模态数据片段表达的内容中的事件及其关系的事件图谱,本发明中事件图谱以树状结构的形式组织,树状结构中,每个节点称为元素;标识模块580,其被配置为将事件图谱中的元素利用第二模态信息进行标识形成第二模态标识信息;第二编码模块590,其被配置对第二模态标识信息进行编码形成第二模态信息数据,即利用字符串对第二模态信息进行编码,所述字符串包括二进制字符串;关联模块570,其被配置为将第二模态信息数据与相应段的第一模态信息片段进行关联生成关联标识(或者关联指针);第一***模块540,其被配置为将关联标识的***到第一模态数据信息数据片段的每帧数据中,而后存储于第一模态信息数据库中或者送入到信道编码器,经信道编码而后发送给通信单元;第二***模块600,其被配置为关联标识的***到第二模态数据帧中而后存储于第二模态信息数据库中或者送入到信道编码器,经信道编码而后发送给通信单元。
第一实施例中,第一模态信息包括语音和/或者视频,所述语音包括多种语种语音、方言等;第二模态信息包括文本,所述文本包括多种语言文字。
第一实施例中,第一模态信息数据中的每帧数据具有如下格式:
第一模态信息数据头 第一模态信息数据
第二模态信息数据中的每帧数据具有如下格式:
第二模态信息数据头 第二模态信息数据
***关联头的第一模态信息数据具有如下格式:
关联头 第一模态信息数据头 第一模态信息数据
***关联头的第二模态信息数据具有如下格式:
关联头 第二模态信息数据头 第二模态信息数据
第一实施例中,特征提取模块包括事件图谱建立模块550和累加模块560,所述事件图像建立模块550被配置为根据第一模态信息源表达的内容建立事件图谱,累加模块560被配置为累加连续相同事件图谱的时长,即第一模态信息源表示相同的事件时间段;分配模块520还被配置为根据时长对连续的具有一定时长第一模态信息进分隔得到连续的多段第一模态信息片段。如图2所示,具有设定时长T的视频信息,表达了四个事件:事件1、事件2、事件3和事件4,分隔模块将该视频分成四个片段,时长分别为T1、T2、T3和T4。优选地每个事件1可根据表达的不同内容进一步细分。
第一实施例中,跨模态人工智能信息处理***还包括第一编码模块530,所述编码模块用于对分隔后的第一模态信息片段进行编码生成第一模态信息数据。本发明中,第一模态信息为视频信息时,第一编码模块采用的图3-4所示的结构形式。
图3为本发明中第一编码模块的组成框图。如图3所示,第一编码模块中,预测残差信号生成模块103求出输入视频信号与作为帧间预测处理模块102的输出的预测信号之间的差分,并将其作为预测残差信号输出。转换模块104对预测残差信号进行离散余弦变换等正交变换,对变换系数进行量化,并输出该量化后的变换系数。熵编码模块105对量化后的变换系数进行熵编码,并作为编码流输出。另一方面,量化后的变换系数也被输入到逆转换模块106,在此进行逆量化和逆正交变换,输出预测残差信号。在解码影像信号生成模块107中,将预测残差信号和帧间预测处理模块102的输出的预测信号相加,生成编码后的编码对象块的解码影像信号。该解码影像信号为了在帧间预测处理模块102中作为参照图像使用,而被输出到环路滤波器处理模块108。在环路滤波器处理模块108中进行降低编码失真的滤波处理,将该滤波处理后的图像作为解码影像信号输出到帧间预测处理模块102。
图3是本发明帧间预测处理模块102的组成框图,如图3所示,帧间预测处理模块102包括缩小图像生成单元291、预搜索处理单元292、第一模式判定单元293、整数像素搜索处理单元294、小数图像生成单元295、小数像素搜索处理单元296以及第二模式判定单元297。缩小图像生成单元291输入当前帧图像信号和前帧图像信号,进行缩小处理并输出,所述缩小处理例如利用卷积神经网络CNN进行处理。预搜索处理单元292输入缩小后的当前帧图像信号和前帧图像信号,在缩小后的当前帧图像信号上进行运动搜索处理并将搜索的运动矢量传送给整数像素搜索处理单元294。另外,第一模式判定单元293从预搜索处理单元292输入编码模式信息。整数像素搜索处理单元294根据运动矢量以及编码模式进行整数像素的搜索处理。小数图像生成单元207生成相应的前帧图像位置的小数像素内插图像,并输出到小数像素搜索处理单元296;第二模式判定单元297从整数像素搜索处理单元203接收编码模式信息并输入到小数像素搜索处理单元296;小数像素搜索处理单元296通过由整数像素搜索处理单元294和第二模式判定单元297分别指定的运动矢量以及编码模式来进行小数像素的搜索处理。在小数像素检索处理单元296中检索出预测残差图像和运动矢量信息,根据预测残差图像和运动矢量信息提取特征值。本发明第一实施例通过上述方案可以提高编码效率。
第二实施例
图5是本发明第二实施例提供的跨模态人工智能信息处理***的组成框图,如图5所示,第二实施例提供跨模态人工智能信息处理***包括:第一模态数据源310,其被配置为从多个信息源中获取第一模态信息数据,例如通过信道解码器获取的音频数据和/或视频数据,通过网络获取的音频数据和/或视频数据,第一模态信息数据具有多个时间序列数据帧,第一模态信息数据通过显示部件可显示表达一个或者多个事件的发展过程;分隔模块320,其被配置为对第一模态信息数据进分隔得到连续的多段第一模态信息数据片段,每段第一模态信息数据片段具有多个时间序列数据帧;特征提取模块,其被配置为对再现每段第一模态信息数据片段表达的内容进行特征提取形成表征再现每段第一模态信息数据片段内容的事件及其关系的事件图谱;标识模块370,其被配置为将事件图谱中的元素利用第二模态信息进行标识形成第二模态标识信息;第二编码模块390,其被配置对第二模态标识信息进行编码形成第二模态信息数据;关联模块380,其被配置为将第二模态信息数据与相应段的第一模态信息数据片段中的每帧数据进行关联生成关联标识;第一***模块340,其被配置为将关联标识的***到第一模态信息数据帧中,而后存储于第一模态信息数据库中或者送入到信道编码器,经信道编码而后发送给通信单元;第二***模块400,其被配置为关联标识的***到第二模态数据帧中而后存储于第二模态信息数据库中或者送入到信道编码器,经信道编码而后发送给通信单元。
第一实施例中,第一模态信息包括语音数据和/或者视频数据;第二模态信息包括文本。
第一实施例中,特征提取模块包括转换模块330、人工智能模块340、事件图谱建立模块350和累加模块370,其中,转换模块330将第一模态信息数据转换成按时间序列的二维图像;人工智能模块被配置为识别每帧二维图像的深层图像特征值,所述深层图像特征值包括背景图像特征值、多个前景图像特征值;事件图谱建立模块350,其被配置为根据每帧图像的多个前景图像特征值表征的图元的关系及其与背景图像特征值表征的图元的关系建立事件图谱;累加模块360被配置为累加连续相同事件图谱的时长;分隔模块320还根据被配置为根据时长对第一模态信息进分隔得到连续的多段第一模态信息片段
第二实施例中,第二模态信息数据中的每帧数据具有如下格式:
第一模态信息数据头 第一模态信息数据
第二模态信息数据中的每帧数据具有如下格式:
第二模态信息数据头 第二模态信息数据
***关联头的第一模态信息数据具有如下格式:
关联头 第一模态信息数据头 第一模态信息数据
***关联头的第二模态信息数据具有如下格式:
关联头 第二模态信息数据头 第二模态信息数据
第二实施例中,人工智能模块包括卷积神经网络(CNN),卷积神经网络被配置为对输入的图像进行分类分成背景图像特征值和前景图像特征值,并将前景图像特征值分成多个前景图元特征值。卷积神经网络应用于从作为输入数据的图像数据识别规定的形状、图案的图像识别技术,具有中间层和全结合层。中间层由多个特征量提取处理层阶层性地连接的构成。中间层具备卷积层以及池化层。
图6是本发明提供的人工智能跨模态信息检索方法的流程图,如图6所示,本发明提供的利用上述***进行跨模态信息检索方法包括如下步骤:根据用户输入的第二模态信息(如文本关键词)在第二模态信息数据库中查找对应的第二模态信息数据;提取第二模态信息数据的关联头;根据关联头从第一模态信息数据库中检索第一模态信息数据(如视频数据流、音频数据流),利用检索到的第一模态数据再现第一模态信息,如通过显示器件再现图像,利用扬声器再现声音。
通过本发明提供技术方案进行文本关键词检索时,根据事件图谱能够快速地找到相关联的音/视频数据片段,并利用音/视频数据片段进行再现,而不必将全程的音/视频数据转换为音频和/或视频,从而可实现跨模态信息检索,且提高了检索效率;同时,使用户可以观看希望关注的视频和/或听想听的音频片段,而不必关心不想关注的部分,提高用户的时间利用率。
本发明可以通过计算机实现上述各个实施例实施方式,也可以将用于实现各个实施例的程序记录在计算机可读取的记录介质中,使计算机***读入并执行该记录介质中记录的程序来实现。另外,这里所说的"计算机***"包括OS和***设备等硬件。另外,"计算机可读取的记录介质"是指软盘、光磁盘、ROM、CD-ROM等可移动介质、内置于计算机***的硬盘等存储装置。
此外,"计算机可读记录介质"可以包括在短时间内动态地保持程序的介质,例如通过诸如因特网的网络或诸如电话线的通信线路来发送程序的通信线路,或者可以包括在预定时间内保持程序的介质,例如在这种情况下用作服务器或客户端的计算机***中的易失性存储器。另外,上述程序既可以是用于实现前述的功能的一部分的程序,也可以是通过与已经记录于计算机***的程序的组合来实现前述的功能的程序,还可以是使用PLD或FPGA 等硬件来实现的程序。
上述各实施例仅用于说明本发明,其中各部件的结构、设置位置及其连接方式等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。

Claims (7)

1.一种跨模态人工智能信息处理***,其特征在于,包括:分隔模块,其被配置为对第一模态信息进分隔得到连续的多段第一模态信息片段;特征提取模块,其被配置为对每段第一模态信息片段表达的内容进行特征提取形成表征每段第一模态数据片段表达的内容中的事件及其关系的事件图谱;标识模块,其被配置为将事件图谱中的元素利用第二模态信息进行标识形成第二模态标识信息;第二编码模块,其被配置对第二模态标识信息进行编码形成第二模态信息数据;关联模块,其被配置为将第二模态信息数据与相应段的第一模态信息片段中的每帧数据进行关联生成关联标识;第一***模块,其被配置为将关联标识的***到第一模态数据帧中,而后存储于第一模态信息数据库中;第二***模块,其被配置为关联标识的***到第二模态数据帧中而后存储于第二模态信息数据库中。
2.根据权利要求1所述的跨模态人工智能信息处理***,其特征在于,第一模态信息包括语音和/或者视频;第二模态信息包括文本。
3.根据权利要求2所述的跨模态人工智能信息处理***,其特征在于,特征提取模块包括事件图谱建立模块和累加模块,所述事件图像建立模块被配置为根据第一模态信息源表达的内容建立事件图谱,累加模块被配置为累加连续相同事件图谱的时长;分隔模块还被配置为根据时长对第一模态信息进分隔得到连续的多段第一模态信息片段。
4.根据权利要求3所述的跨模态人工智能信息处理***,其特征在于,还包括第一编码模块,所述第一编码模块用于对分隔后的第一模态信息片段进行编码生成第一模态信息数据。
5.根据权利要求1所述的跨模态人工智能信息处理***,其特征在于,第一模态信息包括视频数据;第二模态信息包括文本。
6.根据权利要求5所述的跨模态人工智能信息处理***,其特征在于,特征提取模块包括转换模块、人工智能模块、事件图谱建立模块和累加模块,其中,转换模块将第一模态信息数据转换成二维图像;人工智能模块被配置为识别每帧二维图像的特征值,所特征值包括前景图像特征值、背景图像特征值;事件图谱建立模块,其被配置为根据每帧图像的前景图像特征值表征图元的关系及前景图像特征值表征的图元与背景图像特征值表征的图元的关系建立事件图谱;累加模块被配置为累加连续相同事件图谱的时长;分配模块还根据被配置为根据时长对第一模态信息进分隔得到连续的多段第一模态信息片段。
7.一种利用权利要求1-7任一所述***进行跨模态信息检索方法,其特征在于,包括如下步骤:
根据输入的第二模态信息在第二模态信息数据库中查找对应的第二模态数据;提取第二模态数据的关联头;根据关联头从第一模态信息数据库中检索第一模态信息数据帧,利用第一模态信息数据帧再现第一模态信息。
CN202110320317.3A 2021-03-25 2021-03-25 一种跨模态人工智能信息处理***及检索方法 Pending CN112905829A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110320317.3A CN112905829A (zh) 2021-03-25 2021-03-25 一种跨模态人工智能信息处理***及检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110320317.3A CN112905829A (zh) 2021-03-25 2021-03-25 一种跨模态人工智能信息处理***及检索方法

Publications (1)

Publication Number Publication Date
CN112905829A true CN112905829A (zh) 2021-06-04

Family

ID=76106449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110320317.3A Pending CN112905829A (zh) 2021-03-25 2021-03-25 一种跨模态人工智能信息处理***及检索方法

Country Status (1)

Country Link
CN (1) CN112905829A (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110099195A1 (en) * 2009-10-22 2011-04-28 Chintamani Patwardhan Method and Apparatus for Video Search and Delivery
US20140328570A1 (en) * 2013-01-09 2014-11-06 Sri International Identifying, describing, and sharing salient events in images and videos
CN105103547A (zh) * 2013-04-05 2015-11-25 三菱电机株式会社 彩色图像编码装置、彩色图像解码装置、彩色图像编码方法以及彩色图像解码方法
CN105430536A (zh) * 2015-10-30 2016-03-23 北京奇艺世纪科技有限公司 一种视频推送方法和装置
CN108459785A (zh) * 2018-01-17 2018-08-28 中国科学院软件研究所 一种视频多尺度可视化方法与交互方法
CN109101558A (zh) * 2018-07-12 2018-12-28 北京猫眼文化传媒有限公司 一种视频检索方法及装置
WO2019176398A1 (ja) * 2018-03-16 2019-09-19 ソニー株式会社 情報処理装置、情報処理方法、および、プログラム
CN110800296A (zh) * 2017-06-29 2020-02-14 索尼公司 图像处理装置、图像处理方法和程序
CA3068692A1 (en) * 2019-01-18 2020-07-18 James Carey Investigation generation in an observation and surveillance system
WO2020155423A1 (zh) * 2019-01-31 2020-08-06 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN111680173A (zh) * 2020-05-31 2020-09-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 统一检索跨媒体信息的cmr模型
CN111886863A (zh) * 2018-12-27 2020-11-03 Kddi 株式会社 动态图像解码装置、动态图像解码方法及程序
CN112001265A (zh) * 2020-07-29 2020-11-27 北京百度网讯科技有限公司 视频事件识别方法、装置、电子设备及存储介质
CN112020859A (zh) * 2018-03-29 2020-12-01 日本放送协会 图像编码装置、图像解码装置以及程序

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110099195A1 (en) * 2009-10-22 2011-04-28 Chintamani Patwardhan Method and Apparatus for Video Search and Delivery
US20140328570A1 (en) * 2013-01-09 2014-11-06 Sri International Identifying, describing, and sharing salient events in images and videos
CN105103547A (zh) * 2013-04-05 2015-11-25 三菱电机株式会社 彩色图像编码装置、彩色图像解码装置、彩色图像编码方法以及彩色图像解码方法
CN105430536A (zh) * 2015-10-30 2016-03-23 北京奇艺世纪科技有限公司 一种视频推送方法和装置
CN110800296A (zh) * 2017-06-29 2020-02-14 索尼公司 图像处理装置、图像处理方法和程序
CN108459785A (zh) * 2018-01-17 2018-08-28 中国科学院软件研究所 一种视频多尺度可视化方法与交互方法
WO2019176398A1 (ja) * 2018-03-16 2019-09-19 ソニー株式会社 情報処理装置、情報処理方法、および、プログラム
CN112020859A (zh) * 2018-03-29 2020-12-01 日本放送协会 图像编码装置、图像解码装置以及程序
CN109101558A (zh) * 2018-07-12 2018-12-28 北京猫眼文化传媒有限公司 一种视频检索方法及装置
CN111886863A (zh) * 2018-12-27 2020-11-03 Kddi 株式会社 动态图像解码装置、动态图像解码方法及程序
CA3068692A1 (en) * 2019-01-18 2020-07-18 James Carey Investigation generation in an observation and surveillance system
WO2020155423A1 (zh) * 2019-01-31 2020-08-06 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN111680173A (zh) * 2020-05-31 2020-09-18 西南电子技术研究所(中国电子科技集团公司第十研究所) 统一检索跨媒体信息的cmr模型
CN112001265A (zh) * 2020-07-29 2020-11-27 北京百度网讯科技有限公司 视频事件识别方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
大学生嵌入式***专题邀请赛组委会组: "大学生嵌入式***专题邀请赛优秀作品选编 第四届", 31 March 2010, 上海交通大学出版社, pages: 3 - 10 *
毕厚杰,陈启美,方晖: "IP宽带通信网络技术", 29 February 2004, 北京邮电大学出版社, pages: 164 - 171 *

Similar Documents

Publication Publication Date Title
CN111488489B (zh) 视频文件的分类方法、装置、介质及电子设备
CN101539929B (zh) 利用计算机***进行的电视新闻标引方法
CN108307250B (zh) 一种生成视频摘要的方法及装置
JP2002541738A (ja) 画像圧縮
WO2022188644A1 (zh) 词权重的生成方法、装置、设备及介质
US10229688B2 (en) Data compression apparatus, computer-readable storage medium having stored therein data compression program, data compression system, data compression method, data decompression apparatus, data compression/decompression apparatus, and data structure of compressed data
CN113327603A (zh) 语音识别方法、装置、电子设备和计算机可读存储介质
KR20120090101A (ko) 디지털 비디오 고속 정합 시스템
CN114625918A (zh) 视频推荐方法、装置、设备、存储介质及程序产品
CN114333896A (zh) 语音分离方法、电子设备、芯片及计算机可读存储介质
CN116233445A (zh) 视频的编解码处理方法、装置、计算机设备和存储介质
CN114827663A (zh) 分布式直播插帧***及方法
CN113409803B (zh) 语音信号处理方法、装置、存储介质及设备
JP2010183499A (ja) 画像比較装置及びその方法、画像検索装置、並びにプログラム及び記録媒体
CN112905829A (zh) 一种跨模态人工智能信息处理***及检索方法
US20220417540A1 (en) Encoding Device and Method for Utility-Driven Video Compression
CN115604475A (zh) 一种多模态信源联合编码方法
WO2005046213A1 (en) Document image encoding/decoding
CN102047662A (zh) 编码器
CA2392644C (en) Coding and decoding apparatus of key data for graphic animation and method thereof
CN115731587A (zh) 语音匹配方法、装置、设备及计算机可读存储介质
CN115019137A (zh) 一种多尺度双流注意力视频语言事件预测的方法及装置
KR100348901B1 (ko) 오디오/영상물의 음향적 장면분할방법
CN105912615A (zh) 一种基于人类语音内容索引的音频和视频文件管理方法
JP4964114B2 (ja) 符号化装置、復号化装置、符号化方法、復号化方法、符号化プログラム、復号化プログラム、および記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination