CN112905829A

CN112905829A - 一种跨模态人工智能信息处理***及检索方法

Info

Publication number: CN112905829A
Application number: CN202110320317.3A
Authority: CN
Inventors: 王芳; 连芷萱
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-06-04

Abstract

一种跨模态人工智能信息处理***及跨模态信息检索方法。***包括：分隔模块，其被配置为对第一模态信息进分隔得到连续的多段第一模态信息片段；特征提取模块，其被配置为对每段第一模态信息片段表达的内容进行特征提取形成事件图谱；标识模块，其被配置为将事件图谱中的元素利用第二模态信息进行标识形成第二模态标识信息；第二编码模块，其被配置对第二模态标识信息进行编码形成第二模态信息数据；关联模块，其被配置为将第二模态信息数据与相应段的第一模态信息片段中的每帧数据进行关联生成关联标识；第一***模块，其被配置为将关联标识的***到第一模态数据帧中；第二***模块，其被配置为关联标识的***到第二模态数据帧中。

Description

一种跨模态人工智能信息处理***及检索方法

技术领域

本发明涉及一种跨模态人工智能信息处理***及检索方法，属于人工智能技术领域。

背景技术

现有技术中，对文本信息可通过关键词进行全文检索，而对音频/视频信息而言，想在一定时间长度音频时间段和视频时间段中查寻关注的信息却无能为力。

发明内容

本发明的发明目的是提供一种跨模态人工智能信息处理***及检索方法，能够快速进行跨模态信息检索并再现。

为实现所述发明目的，本发明提供一种跨模态人工智能信息处理***，其特征在于，包括：分隔模块，其被配置为对第一模态信息进分隔得到连续的多段第一模态信息片段；特征提取模块，其被配置为对每段第一模态信息片段表达的内容进行特征提取形成表征每段第一模态数据片段表达的内容中的事件及其关系的事件图谱；标识模块，其被配置为将事件图谱中的元素利用第二模态信息进行标识形成第二模态标识信息；第二编码模块，其被配置对第二模态标识信息进行编码形成第二模态信息数据；关联模块，其被配置为将第二模态信息数据与相应段的第一模态信息片段中的每帧数据进行关联生成关联标识；第一***模块，其被配置为将关联标识的***到第一模态数据帧中，而后存储于第一模态信息数据库中；第二***模块，其被配置为关联标识的***到第二模态数据帧中而后存储于第二模态信息数据库中。

优选地，第一模态信息包括语音和/或者视频；第二模态信息包括文本。

优选地，特征提取模块包括事件图谱建立模块和累加模块，所述事件图像建立模块被配置为根据第一模态信息源表达的内容建立事件图谱，累加模块被配置为累加连续相同事件图谱的时长；分隔模块还被配置为根据时长对第一模态信息进分隔得到连续的多段第一模态信息片段。

优选地，跨模态人工智能信息处理***还包括第一编码模块，所述第一编码模块用于对分隔后的第一模态信息片段进行编码生成第一模态信息数据。

优选地，第一模态信息包括视频数据；第二模态信息包括文本。

优选地，特征提取模块包括转换模块、人工智能模块、事件图谱建立模块和累加模块，其中，转换模块将第一模态信息数据转换成二维图像；人工智能模块被配置为识别每帧二维图像的特征值，所特征值包括前景图像特征值、背景图像特征值；事件图谱建立模块，其被配置为根据每帧图像的前景图像特征值表征图元的关系及前景图像特征值表征的图元与背景图像特征值表征的图元的关系建立事件图谱；累加模块被配置为累加连续相同事件图谱的时长；分配模块还根据被配置为根据时长对第一模态信息进分隔得到连续的多段第一模态信息片段。

为实现所述发明目的，本发明还提供一种利用权利上述***进行跨模态信息检索方法，其特征在于，包括如下步骤：根据输入的第二模态信息在第二模态信息数据库中查找对应的第二模态数据；提取第二模态数据的关联头；根据关联头从第一模态信息数据库中检索第一模态信息数据帧，利用第一模态信息数据帧再现第一模态信息。

与现有技术相比，本发明的发明目的是提供一种跨模态人工智能信息处理***及检索方法，能够快速进行跨模态信息检索。

附图说明

图1是本发明第一实施例提供的跨模态人工智能信息处理***的组成框图；

图2是表示将第一模态信息分隔成多个信息片段的示意图；

图3是本发明一实施例提供的跨模态人工智能信息处理***中的第一编码模块的组成框图；

图4是本发明一实施例提供的帧间预测处理模块的组成框图；

图5是本发明第二实施例提供的跨模态人工智能信息处理***的组成框图；

图6是本发明提供的跨模态信息检索方法的流程图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

第一实施例

图1是本发明第一实施例提供的跨模态人工智能信息处理***的组成框图，如图1所示，第一实施例提供跨模态人工智能信息处理***包括：第一模态信息源510，其例如为由声电转换器获取的音频信息源或者由光电转换器获取的图像信息源；分隔模块520，其被配置为对第一模态信息进分隔得到连续的多段第一模态信息片段；特征提取模块，其被配置为对每段第一模态信息片段表达的内容进行特征提取形成表征每段第一模态数据片段表达的内容中的事件及其关系的事件图谱，本发明中事件图谱以树状结构的形式组织，树状结构中，每个节点称为元素；标识模块580，其被配置为将事件图谱中的元素利用第二模态信息进行标识形成第二模态标识信息；第二编码模块590，其被配置对第二模态标识信息进行编码形成第二模态信息数据，即利用字符串对第二模态信息进行编码，所述字符串包括二进制字符串；关联模块570，其被配置为将第二模态信息数据与相应段的第一模态信息片段进行关联生成关联标识（或者关联指针）；第一***模块540，其被配置为将关联标识的***到第一模态数据信息数据片段的每帧数据中，而后存储于第一模态信息数据库中或者送入到信道编码器，经信道编码而后发送给通信单元；第二***模块600，其被配置为关联标识的***到第二模态数据帧中而后存储于第二模态信息数据库中或者送入到信道编码器，经信道编码而后发送给通信单元。

第一实施例中，第一模态信息包括语音和/或者视频，所述语音包括多种语种语音、方言等；第二模态信息包括文本，所述文本包括多种语言文字。

第一实施例中，第一模态信息数据中的每帧数据具有如下格式：

第一模态信息数据头

第一模态信息数据

第二模态信息数据中的每帧数据具有如下格式：

第二模态信息数据头

第二模态信息数据

***关联头的第一模态信息数据具有如下格式：

关联头

第一模态信息数据头

第一模态信息数据

***关联头的第二模态信息数据具有如下格式：

关联头

第二模态信息数据头

第二模态信息数据

第一实施例中，特征提取模块包括事件图谱建立模块550和累加模块560，所述事件图像建立模块550被配置为根据第一模态信息源表达的内容建立事件图谱，累加模块560被配置为累加连续相同事件图谱的时长，即第一模态信息源表示相同的事件时间段；分配模块520还被配置为根据时长对连续的具有一定时长第一模态信息进分隔得到连续的多段第一模态信息片段。如图2所示，具有设定时长T的视频信息，表达了四个事件:事件1、事件2、事件3和事件4，分隔模块将该视频分成四个片段，时长分别为T1、T2、T3和T4。优选地每个事件1可根据表达的不同内容进一步细分。

第一实施例中，跨模态人工智能信息处理***还包括第一编码模块530，所述编码模块用于对分隔后的第一模态信息片段进行编码生成第一模态信息数据。本发明中，第一模态信息为视频信息时，第一编码模块采用的图3-4所示的结构形式。

图3为本发明中第一编码模块的组成框图。如图3所示，第一编码模块中，预测残差信号生成模块103求出输入视频信号与作为帧间预测处理模块102的输出的预测信号之间的差分，并将其作为预测残差信号输出。转换模块104对预测残差信号进行离散余弦变换等正交变换，对变换系数进行量化，并输出该量化后的变换系数。熵编码模块105对量化后的变换系数进行熵编码，并作为编码流输出。另一方面，量化后的变换系数也被输入到逆转换模块106，在此进行逆量化和逆正交变换，输出预测残差信号。在解码影像信号生成模块107中，将预测残差信号和帧间预测处理模块102的输出的预测信号相加，生成编码后的编码对象块的解码影像信号。该解码影像信号为了在帧间预测处理模块102中作为参照图像使用，而被输出到环路滤波器处理模块108。在环路滤波器处理模块108中进行降低编码失真的滤波处理，将该滤波处理后的图像作为解码影像信号输出到帧间预测处理模块102。

图3是本发明帧间预测处理模块102的组成框图，如图3所示，帧间预测处理模块102包括缩小图像生成单元291、预搜索处理单元292、第一模式判定单元293、整数像素搜索处理单元294、小数图像生成单元295、小数像素搜索处理单元296以及第二模式判定单元297。缩小图像生成单元291输入当前帧图像信号和前帧图像信号，进行缩小处理并输出，所述缩小处理例如利用卷积神经网络CNN进行处理。预搜索处理单元292输入缩小后的当前帧图像信号和前帧图像信号，在缩小后的当前帧图像信号上进行运动搜索处理并将搜索的运动矢量传送给整数像素搜索处理单元294。另外，第一模式判定单元293从预搜索处理单元292输入编码模式信息。整数像素搜索处理单元294根据运动矢量以及编码模式进行整数像素的搜索处理。小数图像生成单元207生成相应的前帧图像位置的小数像素内插图像，并输出到小数像素搜索处理单元296；第二模式判定单元297从整数像素搜索处理单元203接收编码模式信息并输入到小数像素搜索处理单元296；小数像素搜索处理单元296通过由整数像素搜索处理单元294和第二模式判定单元297分别指定的运动矢量以及编码模式来进行小数像素的搜索处理。在小数像素检索处理单元296中检索出预测残差图像和运动矢量信息，根据预测残差图像和运动矢量信息提取特征值。本发明第一实施例通过上述方案可以提高编码效率。

第二实施例

图5是本发明第二实施例提供的跨模态人工智能信息处理***的组成框图，如图5所示，第二实施例提供跨模态人工智能信息处理***包括：第一模态数据源310，其被配置为从多个信息源中获取第一模态信息数据，例如通过信道解码器获取的音频数据和/或视频数据，通过网络获取的音频数据和/或视频数据，第一模态信息数据具有多个时间序列数据帧，第一模态信息数据通过显示部件可显示表达一个或者多个事件的发展过程；分隔模块320，其被配置为对第一模态信息数据进分隔得到连续的多段第一模态信息数据片段，每段第一模态信息数据片段具有多个时间序列数据帧；特征提取模块，其被配置为对再现每段第一模态信息数据片段表达的内容进行特征提取形成表征再现每段第一模态信息数据片段内容的事件及其关系的事件图谱；标识模块370，其被配置为将事件图谱中的元素利用第二模态信息进行标识形成第二模态标识信息；第二编码模块390，其被配置对第二模态标识信息进行编码形成第二模态信息数据；关联模块380，其被配置为将第二模态信息数据与相应段的第一模态信息数据片段中的每帧数据进行关联生成关联标识；第一***模块340，其被配置为将关联标识的***到第一模态信息数据帧中，而后存储于第一模态信息数据库中或者送入到信道编码器，经信道编码而后发送给通信单元；第二***模块400，其被配置为关联标识的***到第二模态数据帧中而后存储于第二模态信息数据库中或者送入到信道编码器，经信道编码而后发送给通信单元。

第一实施例中，第一模态信息包括语音数据和/或者视频数据；第二模态信息包括文本。

第一实施例中，特征提取模块包括转换模块330、人工智能模块340、事件图谱建立模块350和累加模块370，其中，转换模块330将第一模态信息数据转换成按时间序列的二维图像；人工智能模块被配置为识别每帧二维图像的深层图像特征值，所述深层图像特征值包括背景图像特征值、多个前景图像特征值；事件图谱建立模块350，其被配置为根据每帧图像的多个前景图像特征值表征的图元的关系及其与背景图像特征值表征的图元的关系建立事件图谱；累加模块360被配置为累加连续相同事件图谱的时长；分隔模块320还根据被配置为根据时长对第一模态信息进分隔得到连续的多段第一模态信息片段

第二实施例中，第二模态信息数据中的每帧数据具有如下格式：

第一模态信息数据头

第一模态信息数据

第二模态信息数据中的每帧数据具有如下格式：

第二模态信息数据头

第二模态信息数据

***关联头的第一模态信息数据具有如下格式：

关联头

第一模态信息数据头

第一模态信息数据

***关联头的第二模态信息数据具有如下格式：

关联头

第二模态信息数据头

第二模态信息数据

第二实施例中，人工智能模块包括卷积神经网络（CNN），卷积神经网络被配置为对输入的图像进行分类分成背景图像特征值和前景图像特征值，并将前景图像特征值分成多个前景图元特征值。卷积神经网络应用于从作为输入数据的图像数据识别规定的形状、图案的图像识别技术，具有中间层和全结合层。中间层由多个特征量提取处理层阶层性地连接的构成。中间层具备卷积层以及池化层。

图6是本发明提供的人工智能跨模态信息检索方法的流程图，如图6所示，本发明提供的利用上述***进行跨模态信息检索方法包括如下步骤：根据用户输入的第二模态信息（如文本关键词）在第二模态信息数据库中查找对应的第二模态信息数据；提取第二模态信息数据的关联头；根据关联头从第一模态信息数据库中检索第一模态信息数据（如视频数据流、音频数据流），利用检索到的第一模态数据再现第一模态信息，如通过显示器件再现图像，利用扬声器再现声音。

通过本发明提供技术方案进行文本关键词检索时，根据事件图谱能够快速地找到相关联的音/视频数据片段，并利用音/视频数据片段进行再现，而不必将全程的音/视频数据转换为音频和/或视频，从而可实现跨模态信息检索，且提高了检索效率；同时，使用户可以观看希望关注的视频和/或听想听的音频片段，而不必关心不想关注的部分，提高用户的时间利用率。

本发明可以通过计算机实现上述各个实施例实施方式，也可以将用于实现各个实施例的程序记录在计算机可读取的记录介质中，使计算机***读入并执行该记录介质中记录的程序来实现。另外，这里所说的"计算机***"包括OS和***设备等硬件。另外，"计算机可读取的记录介质"是指软盘、光磁盘、ROM、CD-ROM等可移动介质、内置于计算机***的硬盘等存储装置。

此外，"计算机可读记录介质"可以包括在短时间内动态地保持程序的介质，例如通过诸如因特网的网络或诸如电话线的通信线路来发送程序的通信线路，或者可以包括在预定时间内保持程序的介质，例如在这种情况下用作服务器或客户端的计算机***中的易失性存储器。另外，上述程序既可以是用于实现前述的功能的一部分的程序，也可以是通过与已经记录于计算机***的程序的组合来实现前述的功能的程序，还可以是使用PLD或FPGA 等硬件来实现的程序。

上述各实施例仅用于说明本发明，其中各部件的结构、设置位置及其连接方式等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.一种跨模态人工智能信息处理***，其特征在于，包括：分隔模块，其被配置为对第一模态信息进分隔得到连续的多段第一模态信息片段；特征提取模块，其被配置为对每段第一模态信息片段表达的内容进行特征提取形成表征每段第一模态数据片段表达的内容中的事件及其关系的事件图谱；标识模块，其被配置为将事件图谱中的元素利用第二模态信息进行标识形成第二模态标识信息；第二编码模块，其被配置对第二模态标识信息进行编码形成第二模态信息数据；关联模块，其被配置为将第二模态信息数据与相应段的第一模态信息片段中的每帧数据进行关联生成关联标识；第一***模块，其被配置为将关联标识的***到第一模态数据帧中，而后存储于第一模态信息数据库中；第二***模块，其被配置为关联标识的***到第二模态数据帧中而后存储于第二模态信息数据库中。

2.根据权利要求1所述的跨模态人工智能信息处理***，其特征在于，第一模态信息包括语音和/或者视频；第二模态信息包括文本。

3.根据权利要求2所述的跨模态人工智能信息处理***，其特征在于，特征提取模块包括事件图谱建立模块和累加模块，所述事件图像建立模块被配置为根据第一模态信息源表达的内容建立事件图谱，累加模块被配置为累加连续相同事件图谱的时长；分隔模块还被配置为根据时长对第一模态信息进分隔得到连续的多段第一模态信息片段。

4.根据权利要求3所述的跨模态人工智能信息处理***，其特征在于，还包括第一编码模块，所述第一编码模块用于对分隔后的第一模态信息片段进行编码生成第一模态信息数据。

5.根据权利要求1所述的跨模态人工智能信息处理***，其特征在于，第一模态信息包括视频数据；第二模态信息包括文本。

6.根据权利要求5所述的跨模态人工智能信息处理***，其特征在于，特征提取模块包括转换模块、人工智能模块、事件图谱建立模块和累加模块，其中，转换模块将第一模态信息数据转换成二维图像；人工智能模块被配置为识别每帧二维图像的特征值，所特征值包括前景图像特征值、背景图像特征值；事件图谱建立模块，其被配置为根据每帧图像的前景图像特征值表征图元的关系及前景图像特征值表征的图元与背景图像特征值表征的图元的关系建立事件图谱；累加模块被配置为累加连续相同事件图谱的时长；分配模块还根据被配置为根据时长对第一模态信息进分隔得到连续的多段第一模态信息片段。

7.一种利用权利要求1-7任一所述***进行跨模态信息检索方法，其特征在于，包括如下步骤：

根据输入的第二模态信息在第二模态信息数据库中查找对应的第二模态数据；提取第二模态数据的关联头；根据关联头从第一模态信息数据库中检索第一模态信息数据帧，利用第一模态信息数据帧再现第一模态信息。