CN114996511A - 一种针对跨模态视频检索模型的训练方法及装置 - Google Patents

一种针对跨模态视频检索模型的训练方法及装置 Download PDF

Info

Publication number
CN114996511A
CN114996511A CN202210428132.9A CN202210428132A CN114996511A CN 114996511 A CN114996511 A CN 114996511A CN 202210428132 A CN202210428132 A CN 202210428132A CN 114996511 A CN114996511 A CN 114996511A
Authority
CN
China
Prior art keywords
vector
text
target
feature vector
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210428132.9A
Other languages
English (en)
Inventor
李冠楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing IQIYI Science and Technology Co Ltd
Original Assignee
Beijing IQIYI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing IQIYI Science and Technology Co Ltd filed Critical Beijing IQIYI Science and Technology Co Ltd
Priority to CN202210428132.9A priority Critical patent/CN114996511A/zh
Publication of CN114996511A publication Critical patent/CN114996511A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0463Neocognitrons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种针对跨模态视频检索模型的训练方法及装置,通过获取用于表达视频序列的特征的多个视频序列特征向量;切分文本序列生成分词和分词序列;提取针对分词的多个文本序列特征向量,和,针对分词序列的文本标签特征向量;合并多个视频序列特征向量生成第一目标视觉特征向量;合并多个文本序列特征向量生成第一目标文本特征向量;将第一目标视觉特征向量和第一目标文本特征向量分别映射至隐藏向量空间和标签向量空间,并计算出隐含特征向量相似度和标签特征向量相似度;基于文本标签特征向量、隐含特征向量相似度、标签特征向量相似度确定检索结果,从而实现了中文或中英文文本搜索视频的跨模态检索功能。

Description

一种针对跨模态视频检索模型的训练方法及装置
技术领域
本发明涉及跨模态检索技术领域,特别是涉及一种针对跨模态视频检索模型的训练方法、一种针对跨模态视频检索模型的训练装置、一种电子设备即一种计算机可读介质。
背景技术
跨模态检索是对一种模态的查询词,返回与之相关的其他不同模态检索结果的新型检索方法,是跨媒体检索的新兴技术,随着移动设备的智能化、便携化以及在线视频平台的蓬勃发展,大量的互联网用户选择通过视频媒介进行信息的共享和传播。在这一趋势下,当前广泛使用的基于文本标题的视频检索方式存在人工标注成本高昂且效率低下,同时文本标题无法对视频中的语义内容全面涵盖等问题,难以有效满足日益增长的海量视频数据管理和分析需求。
视频文本跨模态检索旨在通过最小化同一视频的视频模态表征和文本模态表征之间的差异,确定不同模态下的表征在特征空间所具有相似性,从而达到跨模态检索的效果。具体而言,该检索范式允许查询输入和检索结果的候选对象为视频和文本其中一种模态数据,将视频和文本进行向量化表示后,计算跨模态向量相似度并排序实现对另一模态数据的检索。由于视频文本跨模态检索是在视频内容理解的基础上实现的语义内容检索,极大的解放了繁重的人工标注劳动,有效的提高了海量视频的智能处理能力,然而,现有针对视频的跨模态检索方式通常基于英文数据集进行训练,由于词表中包含中文词汇数量有限,且中英文分词方式存在差异,从而导致模型提取的文本特征向量区分度较低,进而导致跨模态检索准确率较低。
发明内容
本发明实施例的目的在于提供一种针对跨模态视频检索模型的训练方法、一种针对跨模态视频检索模型的训练装置、一种电子设备即一种计算机可读介质,以实现无法针对中文文本进行跨模态视频检索的问题。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种针对跨模态视频检索模型的训练方法,所述跨模态视频检索模型包括隐藏向量空间、标签向量空间,所述方法可以包括:
获取视频流中用于表达视频序列的特征的多个视频序列特征向量;所述视频序列具有对应的文本序列;
切分所述文本序列,生成分词和由所述分词组成的分词序列;
提取针对所述分词的多个文本序列特征向量,和,针对所述分词序列的文本标签特征向量;
合并所述多个视频序列特征向量,并生成第一目标视觉特征向量;
合并所述多个文本序列特征向量,并生成第一目标文本特征向量;
将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度;
将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度;
基于所述文本标签特征向量、所述隐含特征向量相似度、所述标签特征向量相似度确定检索结果。
可选地,所述跨模态视频检索模型包括多个不同尺度的循环神经网络,所述合并所述多个视频序列特征向量,并生成第一目标视觉特征向量的步骤可以包括:
采用所述多个视频序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标视觉特征向量;所述多个第二目标视觉特征向量与所述多个不同尺度的循环神经网络一一对应;
拼接多个所述第二目标视觉特征向量,并生成第一目标视觉特征向量。
可选地,所述合并所述多个文本序列特征向量,并生成第一目标文本特征向量的步骤可以包括:
采用所述多个文本序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标文本特征向量;所述多个第二目标文本特征向量与所述多个不同尺度的循环神经网络一一对应;
拼接多个所述第二目标文本特征向量和所述文本标签特征向量,并生成第一目标文本特征向量。
可选地,,所述将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度的步骤可以包括:
分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,生成隐含视觉向量和隐含文本向量;
确定所述隐含视觉向量和所述隐含文本向量之间的第一向量距离;
采用所述第一向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度。
可选地,所述跨模态视频检索模型包括多层全连接神经网络,所述多层全连接神经网络具有对应的网络参数,在所述确定所述隐含视觉向量和所述隐含文本向量之间的第一向量距离的步骤之前,还可以包括:
采用所述隐含视觉向量和所述隐含文本向量生成第一目标损失函数;所述第一目标损失函数包括第一损失函数值;
通过控制所述网络参数,降低所述第一损失函数值。
可选地,所述将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度的步骤可以包括:
分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,生成标签视觉向量和标签文本向量;
确定所述标签视觉向量和所述标签文本向量之间的第二向量距离;
采用所述第二向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度。
可选地,所述跨模态视频检索模型包括多层全连接神经网络,所述多层全连接神经网络具有对应的网络参数,在所述确定所述标签视觉向量和所述标签文本向量之间的第二向量距离的步骤之前,还可以包括:
采用所述标签视觉向量和所述标签文本向量生成第二目标损失函数;
采用所述标签视觉向量和所述文本标签特征向量生成第三目标损失函数;
采用所述标签文本向量和所述文本标签特征向量生成第四目标损失函数;
通过控制所述网络参数,降低所述第二损失函数值,和,所述第三损失函数值,和,所述第四损失函数值。
可选地,所述基于所述文本标签特征向量、所述隐含特征向量相似度、所述标签特征向量相似度确定检索结果步骤可以进一步包括:
确定所述第一目标文本特征向量和所述文本标签特征向量之间的分词相似度;
对所述分词相似度加权,并计算出权重系数;
采用所述权重系数、所述隐含特征向量相似度和所述标签特征向量相似度计算出检索结果。
可选地,所述获取视频流中用于表达视频序列的特征的多个视频序列特征向量的步骤可以包括:
按固定帧数间隔确定视频流中的多个目标帧;
提取与所述多个目标帧对应的目标帧画面的视频序列特征向量作为多个视频序列特征向量。
可选地,所述跨模态视频检索模型包括用于获取所述多个视频序列特征向量的视觉基础网络模型,用于获取所述多个文本序列特征向量的多语言文本模型,视觉特征序列融合模块,文本特征序列融合模块,特征一致性学习模块,标签一致性学习模块,所述跨模态视频检索模型具有针对所述视觉特征序列融合模块,所述文本特征序列融合模块,所述特征一致性学习模块,所述标签一致性学习模块的参数调整阶段,所述跨模态视频检索模型包括针对于所述多语言文本模型与所述视觉基础网络模型的控制开关,所述方法还可以包括:
当所述跨模态视频检索模型处于所述参数调整阶段时,关闭所述控制开关。
在本发明实施的第二方面,还提供了一种针对跨模态视频检索模型的训练装置,所述跨模态视频检索模型包括隐藏向量空间、标签向量空间,所述装置可以包括:
视频序列特征向量获取模块,用于获取视频流中用于表达视频序列的特征的多个视频序列特征向量;所述视频序列具有对应的文本序列;
文本序列切分模块,用于切分所述文本序列,生成分词和由所述分词组成的分词序列;
文本序列特征向量提取模块,用于提取针对所述分词的多个文本序列特征向量,和,针对所述分词序列的文本标签特征向量;
视频序列特征向量合并模块,用于合并所述多个视频序列特征向量,并生成第一目标视觉特征向量;
文本序列特征向量合并模块,用于合并所述多个文本序列特征向量,并生成第一目标文本特征向量;
隐藏向量映射模块,用于将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度;
标签向量映射模块,用于将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度;
检索结果确定模块,用于基于所述文本标签特征向量、所述隐含特征向量相似度、所述标签特征向量相似度确定检索结果。
可选地,所述跨模态视频检索模型包括多个不同尺度的循环神经网络,所述视频序列特征向量合并模块可以包括:
第二目标视觉特征向量生成子模块,用于采用所述多个视频序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标视觉特征向量;所述多个第二目标视觉特征向量与所述多个不同尺度的循环神经网络一一对应;
第二目标视觉特征向量拼接子模块,用于拼接多个所述第二目标视觉特征向量,并生成第一目标视觉特征向量。
可选地,所述文本序列特征向量合并模块可以包括:
第二目文本觉特征向量生成子模块,用于采用所述多个文本序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标文本特征向量;所述多个第二目标文本特征向量与所述多个不同尺度的循环神经网络一一对应;
第二目文本觉特征向量拼接子模块,用于拼接多个所述第二目标文本特征向量和所述文本标签特征向量,并生成第一目标文本特征向量。
可选地,所述隐藏向量映射模块可以包括:
隐藏向量映射子模块,用于分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,生成隐含视觉向量和隐含文本向量;
第一向量距离确定子模块,用于确定所述隐含视觉向量和所述隐含文本向量之间的第一向量距离;
隐含特征向量相似度计算子模块,用于采用所述第一向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度。
可选地,所述跨模态视频检索模型包括多层全连接神经网络,所述多层全连接神经网络具有对应的网络参数,还包括:
第一目标损失函数生成子模块,用于采用所述隐含视觉向量和所述隐含文本向量生成第一目标损失函数;所述第一目标损失函数包括第一损失函数值;
第一网络参数控制子模块,用于通过控制所述网络参数,降低所述第一损失函数值。
可选地,所述标签向量映射模块可以包括:
标签向量映射子模块,用于分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,生成标签视觉向量和标签文本向量;
第二向量距离确定子模块,用于确定所述标签视觉向量和所述标签文本向量之间的第二向量距离;
标签特征向量相似度计算子模块,用于采用所述第二向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度。
可选地,所述跨模态视频检索模型包括多层全连接神经网络,所述多层全连接神经网络具有对应的网络参数,还包括:
第二目标损失函数生成子模块,用于采用所述标签视觉向量和所述标签文本向量生成第二目标损失函数;
第三目标损失函数生成子模块,用于采用所述标签视觉向量和所述文本标签特征向量生成第三目标损失函数;
第四目标损失函数生成子模块,用于采用所述标签文本向量和所述文本标签特征向量生成第四目标损失函数;
第二网络参数控制子模块,用于通过控制所述网络参数,降低所述第二损失函数值,和,所述第三损失函数值,和,所述第四损失函数值。
可选地,所述检索结果确定模块可以进一步包括:
分词相似度确定子模块,用于确定所述第一目标文本特征向量和所述文本标签特征向量之间的分词相似度;
权重系数计算子模块,用于对所述分词相似度加权,并计算出权重系数;
检索结果计算子模块,用于采用所述权重系数、所述隐含特征向量相似度和所述标签特征向量相似度计算出检索结果。
可选地,所述视频序列特征向量获取模块可以包括:
目标帧确定子模块,用于按固定帧数间隔确定视频流中的多个目标帧;
频序列特征向量获取子模块,用于提取与所述多个目标帧对应的目标帧画面的视频序列特征向量作为多个视频序列特征向量。
可选地,所述跨模态视频检索模型包括用于获取所述多个视频序列特征向量的视觉基础网络模型,用于获取所述多个文本序列特征向量的多语言文本模型,视觉特征序列融合模块,文本特征序列融合模块,特征一致性学习模块,标签一致性学习模块,所述跨模态视频检索模型具有针对所述视觉特征序列融合模块,所述文本特征序列融合模块,所述特征一致性学习模块,所述标签一致性学习模块的参数调整阶段,所述跨模态视频检索模型包括针对于所述多语言文本模型与所述视觉基础网络模型的控制开关,所述装置还可以包括:
控制开关关闭模块,用于在所述跨模态视频检索模型处于所述参数调整阶段时,关闭所述控制开关。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的针对跨模态视频检索模型的训练方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的针对跨模态视频检索模型的训练方法。
本发明实施例,通过获取用于表达视频序列的特征的多个视频序列特征向量;切分文本序列生成分词和分词序列;提取针对分词的多个文本序列特征向量,和,针对分词序列的文本标签特征向量;合并多个视频序列特征向量生成第一目标视觉特征向量;合并多个文本序列特征向量生成第一目标文本特征向量;将第一目标视觉特征向量和第一目标文本特征向量分别映射至隐藏向量空间和标签向量空间,并计算出隐含特征向量相似度和标签特征向量相似度;基于文本标签特征向量、隐含特征向量相似度、标签特征向量相似度确定检索结果,从而实现了中文(或中英文)文本搜索视频的跨模态检索功能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1是本发明实施例中提供的一种针对跨模态视频检索模型的训练方法的步骤流程图;
图2是本发明实施例中提供的一种跨模态视频检索模型的结构示意图;
图3是本发明实施例中提供的一种针对跨模态视频检索模型的训练的结构框图。
图4是本发明实施例中提供的一种电子设备的框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
参见图1,图1是本发明实施例提供的一种针对跨模态视频检索模型的训练方法的步骤流程图,具体可以包括如下步骤:
步骤101,获取视频流中用于表达视频序列的特征的多个视频序列特征向量;所述视频序列具有对应的文本序列;
步骤102,切分所述文本序列,生成分词和由所述分词组成的分词序列;
步骤103,提取针对所述分词的多个文本序列特征向量,和,针对所述分词序列的文本标签特征向量;
步骤104,合并所述多个视频序列特征向量,并生成第一目标视觉特征向量;
步骤105,合并所述多个文本序列特征向量,并生成第一目标文本特征向量;
步骤106,将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度;
步骤107,将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度;
步骤108,基于所述文本标签特征向量、所述隐含特征向量相似度、所述标签特征向量相似度确定检索结果。
在实际应用中,本发明实施例可以应用于跨模态视频检索模型,例如,跨模态视频检索模型MultiLingual-CLIP,跨模态视频检索模型可以是针对跨模态视频检索技术的模型,在本发明实施例中,可以使用大量和跨模态视频检索相关的训练样本集来训练跨模态视频检索模型,通过跨模态视频检索模型在训练样本集上的误差不断迭代训练模型,可以得到对训练样本集拟合合理的跨模态视频检索模型,再将训练好的跨模态视频检索模型应用到实际的跨模态视频检索过程中。跨模态视频检索模型在待测视频和文本上预测结果误差越小,说明跨模态视频检索模型的训练越精确。
在本发明实施例中,可以为跨模态检索模型配置用于储存映射向量的虚拟储存空间,具体地,可以包括用于储存隐藏向量的隐藏向量空间和用于储存标签向量的标签向量空间,再完成针对储存空间的创建后,可以将视频流作为训练样本集,具体地,视频流中可以包括由多帧有序图像组成的视频序列,而视频流可以具有对应的文本信息,视频序列则可以具有对应的文本序列,文本序列可以是由文本信息中有序的字词组成。
在具体实现中,本发明实施例可以在跨模态视频检索模型中集成一视觉基础网络模型,例如,视觉基础网络ViT模型(VisionTransformer)或视觉基础网络Resnet模型等等,本发明实施例可以通过视觉基础网络模型获取视频流中用于表达视频序列的特征的多个视频序列特征向量。
本发明实施例可以对视频序列包含的图像帧进行处理,每张图像可以得到相应的特征向量,具体地,可以采用视觉基础网络模型对图片中的视频序列特征进行提取,然后采用视频序列特征向量表达视频序列特征,一个视频序列包含多帧图像,所以可以针对一个视频流可以提取多个视频序列特征向量。
例如,可以利用分帧工具对视频进行分帧处理,获得按时间顺序排序的帧序列,再对帧序列中的多帧图像提取一组序列长度为S_v,特征维度为D_v的特征向量,可表示为feat_v_seq=[feat_v_1,feat_v_2,feat_v_sv]。
本发明实施例还可以在跨模态视频检索模型中集成多语言文本模型,例如,多语言博特模型Bert或者多语言clip模型,Bert来自谷歌的论文,语言理解深度双向变换器的预训练(Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding)BERT是“Bidirectional Encoder Representations from Transformers”的首字母缩写,Bert整体是一个自编码语言模型,而clip模型则可以是对比语言意象预训练模型Contrastive Language-Image Pre-training。
本发明实施例可以通过多语言文本模型切分文本序列,并获得该文本序列的分词和由分词组成的分词序列,分词序列可以是保持各分词在文本信息中先后顺序的序列。
在相关技术中,提取文本序列特征向量的方式为,输入文本序列,则可以对应输出一个文本序列特征向量。例如,输入一句话作为文本序列,则可以输出1024*1这一特征,而这一方式目前仅适用于英文文本,这是因为现有的跨模态视频检索模型都是基于英文文本进行训练,用单一向量足以满足对文本序列的表达,但如果是中文文本,各分词的信息已经混淆在单一向量中,从而导致无法对其进行细分。所以,本发明实施例可以不直接采用一个特征向量表达文本序列,而是查找在较浅的层数输出的特征序列向量,具体地,可以通过多语言文本模型依次对每一条文本序列进行分词,即,通过多语言文本模型每一条文本序列中的每个词的词性进行分类,从而提取针对多个分词的多个文本序列特征向量。
在实际应用中,分词序列还可以包括各分词在词表中的位置信息,词表可以根据以往所有训练数据统计得出,也可以采用其它方法预先构建,不做具体限定。本发明实施例除了可以用多语言文本模型提取文本序列特征向量,还可以通过各分词在词表中的位置信息提取针对分词序列的文本标签特征向量,具体地,在已知词表的前提下,分词序列的顺序与文本信息中各分词的语序顺序对应,且具备分词与词表之间的映射关系,分词序列则可以用一个文本标签特征向量进行表示。
例如,文本序列包括:我爱A市,你讨厌B市,他喜欢D市。则经过切分文本序列可以得到“1(我)3(爱)4(A市)5(你)6(讨厌)10(B市)7(他)8(喜欢)12(D市)”这一分词序列,括号中的为分词,***数字数字则代表该分词在词表中的位置信息。
预先确定的词表为:
Figure RE-GDA0003767122970000181
Figure RE-GDA0003767122970000191
这一句话的分词序列长度为9,对应长度为9的文本序列特征向量:其中第1个文本特征序列向量对应词表中的单词1(“我”),第2个文本特征序列向量对应词表中的单词3(“爱”),...,第9个文本特征序列向量对应词表中的单词12(“D市”),文本序列特征向量可以是一组序列长度为S_t,特征维度为D_t的特征向量,例如可表示为feat_t_seq=[feat_t_1,feat_t_2, feat_t_st]:其中,序列长度S_t与分词序列长度相同;序列中的每个特征向量 (feat_t_i),对应相同的特征维度为D_t,D_t的典型值可以但不限于为256, 512,1024等。
文本标签特征向量可以是这一个文本信息对应的标签信息,是一个维度为 M的向量,其中M为标签集合的大小。
基于训练数据进行统计,可以得到一组标签集合,该集合可以仅表达文本序列的分词内容而不表达各分词之间的顺序关系,集合中的每一个元素可以对应一个分词,以上述文本序列为例,其标签集合为:“我、你、他、爱、讨厌、 A市、B市、C市、D市(M-9)”。
文本序列“我爱A市,你讨厌B市,他喜欢D市”的分词与标签集合进行对应的结果为:
标签名称 标签命中次数
1
1
A市 1
1
讨厌 1
B市 1
1
C市 0
D市 1
则用于表达分词序列的文本标签特征向量可以为:[1,1,1,1,1,1, 1,0,1]。
在实际应用中,直接提取到的序列数据在一般情况下多为相关性较差的数据,不宜直接作为后续计算生成相似度的数据,因为用于获取视频序列特征向量的视觉特征模型与用于获取文本序列特征向量的文本特征模型是独立训练的,因此两个模型提取到的特征序列向量会分布在不同的空间中,二者的相似 (相关)性是无法保证的,所以需要将多个文本序列特征向量及多个视频序列特征向量作为单一向量映射至同一向量空间,才能对两者的相似(相关)性进行计算,从而实现在向量空间计算特征相似性度量实现中文或中英文文本搜索视频的跨模态检索功能。
本发明实施例可以在获取到视频序列特征向量和文本序列特征向量后,分别对视频序列特征向量和文本序列特征向量进行拼接融合,例如,可以在跨模态视频检索模型中集成RNN(循环神经网络,RecurrentNeuralNetwork),将多个视频序列特征向量和多个文本序列特征向量输入至RNN进行序列处理,从而得到第一目标视觉特征向量和第一目标文本特征向量,第一目标视觉特征向量和第一目标文本特征向量可以是对视频/文本序列整体进行描述的单一向量。
可选地,本发明实施例还可以采用LSTM(长短时记忆网络,Long ShortTermMemory),或,GRU(门控循环单元,Gated RecurrentUnit)替换RNN, LSTM是一种特殊的循环神经网络,可以学习长期依赖信息。针对RNN存在的诸多问题,在LSTM上都得到了明显的改善,GRU可以看成是LSTM的变种,GRU把LSTM中的遗忘门和输入们用更新门来替代,在计算当前时刻新信息的方法和LSTM有所不同,GRU保持了LSTM的效果同时又使结构更加简单。
由上可知,在实际应用中,利用既有模型提取到的视频序列特征向量与文本序列特征向量分布在不同的空间中,不能直接进行相似性度量,因此无法直接进行检索,所以本发明实施例可以通过网络结构将二者映射至同一空间,约束二者在映射后中的相似性,从而进行模型参数学习。
在生成第一目标视觉特征向量和第一目标文本特征向量后,本发明实施例可以将第一目标视觉特征向量和第一目标文本特征向量映射至隐藏向量空间,并计算出针对于第一目标视觉特征向量和第一目标文本特征向量的隐含特征向量相似度;将第一目标视觉特征向量和第一目标文本特征向量映射至标签向量空间,并计算出针对于第一目标视觉特征向量和第一目标文本特征向量的标签特征向量相似度,然后则可以基于文本标签特征向量、隐含特征向量相似度、标签特征向量相似度确定检索结果。
本发明实施例,通过获取用于表达视频序列的特征的多个视频序列特征向量;切分文本序列生成分词和分词序列;提取针对分词的多个文本序列特征向量,和,针对分词序列的文本标签特征向量;合并多个视频序列特征向量生成第一目标视觉特征向量;合并多个文本序列特征向量生成第一目标文本特征向量;将第一目标视觉特征向量和第一目标文本特征向量分别映射至隐藏向量空间和标签向量空间,并计算出隐含特征向量相似度和标签特征向量相似度;基于文本标签特征向量、隐含特征向量相似度、标签特征向量相似度确定检索结果,从而实现了中文(或中英文)文本搜索视频的跨模态检索功能。
在上述实施例的基础上,提出了上述实施例的变型实施例,在此需要说明的是,为了使描述简要,在变型实施例中仅描述与上述实施例的不同之处。
在本发明的一个可选地实施例中,所述跨模态视频检索模型包括多个不同尺度的循环神经网络,所述合并所述多个视频序列特征向量,并生成第一目标视觉特征向量的步骤包括:
采用所述多个视频序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标视觉特征向量;所述多个第二目标视觉特征向量与所述多个不同尺度的循环神经网络一一对应;
拼接多个所述第二目标视觉特征向量,并生成第一目标视觉特征向量。
在实际应用中,基于RNN的特性,随着时间步的变长,RNN不能从后面很远的时间中获得上下文,导致学习困难,例如,对于“我生长在法国...我能说一口流利的()”,若想判断出括号内的内容应该是什么,直观的判断应该是“法语”,判断依据是前面有“法国”一词,可以认为法国是X4的数据,而需要推断的是Xt(t≥8)的数据,对于RNN而言,这两个单词距离太远,导致其无法解决这一问题,所以本发明实施例还可以采用多个不同尺度的RNN 融合多个文本序列特征向量,也可以采用多个不同尺度的RNN融合多个视频序列特征向量以提升RNN的学习能力,从而进一步提升输入/输出的相似度。
本发明实施例可以采用多个不同尺度的RNN融合多个视频序列特征向量,从而生成多个与多个不同尺度的RNN一一对应的第二目标视觉特征向量,并通过拼接多个第二目标视觉特征向量,从而生成第一目标视觉特征向量。
例如,将视频序列特征向量输入至时域采样间隔为1的双向LSTM/双向 GRU模型,得到a输出,将视频序列特征向量输入至时域采样间隔为2的双向LSTM/双向GRU模型,得到b输出,将视频序列特征向量输入至时域采样间隔为3的双向LSTM/双向GRU模型,得到c输出,将视频序列特征向量输入至时域采样间隔为4的双向LSTM/双向GRU模型,得到d输出,则此时a 输出、b输出、c输出、d输出可以作为第二目标视觉特征向量,当生成与多个不同尺度的循环神经网络一一对应的第二目标视觉特征向量后,可以对a输出、 b输出、c输出、d输出进行拼接,并将进行拼接后得到的数据作为第一目标视觉特征向量。
在本发明的一个可选地实施例中,所述合并所述多个文本序列特征向量,并生成第一目标文本特征向量的步骤包括:
采用所述多个文本序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标文本特征向量;所述多个第二目标文本特征向量与所述多个不同尺度的循环神经网络一一对应;
拼接多个所述第二目标文本特征向量和所述文本标签特征向量,并生成第一目标文本特征向量。
同理,本发明实施例可以采用多个不同尺度的RNN融合多个视频序列特征向量,从而生成多个与多个不同尺度的RNN一一对应的第二目标文本特征向量,并通过拼接多个第二目标文本特征向量,从而生成第一目标文本特征向量。
例如,将文本序列特征向量输入至时域采样间隔为1的双向LSTM/双向 GRU模型,得到a输出,将文本序列特征向量输入至时域采样间隔为2的双向LSTM/双向GRU模型,得到b输出,将文本序列特征向量输入至时域采样间隔为3的双向LSTM/双向GRU模型,得到c输出,将文本序列特征向量输入至时域采样间隔为4的双向LSTM/双向GRU模型,得到d输出,则此时a 输出、b输出、c输出、d输出可以作为第二目标文本特征向量,当生成与多个不同尺度的循环神经网络一一对应的第二目标文本特征向量后,可以对a输出、 b输出、c输出、d输出进行拼接,并将进行拼接后得到的数据作为第一目标文本特征向量。
本发明实施例,通过采用所述多个视频序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标视觉特征向量;所述多个第二目标视觉特征向量与所述多个不同尺度的循环神经网络一一对应;拼接多个所述第二目标视觉特征向量,并生成第一目标视觉特征向量;采用所述多个文本序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标文本特征向量;所述多个第二目标文本特征向量与所述多个不同尺度的循环神经网络一一对应;拼接多个所述第二目标文本特征向量和所述文本标签特征向量,并生成第一目标文本特征向量,从而进一步地提升了第一目标视觉特征向量和第一目标文本特征向量相关性。
在本发明的一个可选地实施例中,所述将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度的步骤包括:
分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,生成隐含视觉向量和隐含文本向量;
确定所述隐含视觉向量和所述隐含文本向量之间的第一向量距离;
采用所述第一向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度。
所述跨模态视频检索模型包括多层全连接神经网络,所述多层全连接神经网络具有对应的网络参数,在所述确定所述隐含视觉向量和所述隐含文本向量之间的第一向量距离的步骤之前,还包括:
采用所述隐含视觉向量和所述隐含文本向量生成第一目标损失函数;所述第一目标损失函数包括第一损失函数值;
通过控制所述网络参数,降低所述第一损失函数值。
在实际应用中,本发明实施例可以在跨模态视频检索模型中集成多层全连接神经网络,在具体实现中,多层全连接神经网络即多个全连接层FC layer级联的结构,全连接层FC layer是神经网络中的一种典型结构,是一种用于特征维度变换的常见方法,多层全连接神经网络可以用于分别将第一目标视觉特征向量和第一目标文本特征向量映射至隐藏向量空间,从而可以从隐藏向量空间得到隐含视觉向量和隐含文本向量,并在训练过程中缩小隐含视觉向量和隐含文本向量的隐含层特征差异值,可选地,本发明实施例还可以采用隐含视觉向量和隐含文本向量生成第一目标损失函数,第一目标损失函数可以包括第一损失函数值,通过梯度下降的方式调整多层全连接神经网络的网络参数,以降低所述第一损失函数值,从而达到缩小特征差异的效果,进而减小了跨模态视频检索的误差。
在最小化隐含视觉向量和隐含文本向量之间的隐含层特征差异值后,可以确定隐含视觉向量和所述隐含文本向量之间的第一向量距离,并采用第一向量距离计算出隐含特征向量相似度,可选地,第一向量距离可以为欧式距离或是余弦距离。
例如,采用多层全连接神经网络(例如2层)分别将第一目标视觉特征向量和第一目标文本特征向量映射至隐藏向量空间,在最小化隐含视觉向量和隐含文本向量之间的隐含层特征差异值,在模型推理时,隐含特征向量相似度 sim_e可以采用隐含视觉向量和隐含文本向量计算出隐含特征向量的余弦相似度来表示。
在本发明的一个可选地实施例中,所述将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度的步骤包括:
分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,生成标签视觉向量和标签文本向量;
确定所述标签视觉向量和所述标签文本向量之间的第二向量距离;
采用所述第二向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度。
所述跨模态视频检索模型包括多层全连接神经网络,所述多层全连接神经网络具有对应的网络参数,在所述确定所述标签视觉向量和所述标签文本向量之间的第二向量距离的步骤之前,还包括:
采用所述标签视觉向量和所述标签文本向量生成第二目标损失函数;
采用所述标签视觉向量和所述文本标签特征向量生成第三目标损失函数;
采用所述标签文本向量和所述文本标签特征向量生成第四目标损失函数;
通过控制所述网络参数,降低所述第二损失函数值,和,所述第三损失函数值,和,所述第四损失函数值。
区别于文本标签特征向量,标签文本向量可以是文本特征经过多层全连接网络结构映射至标签空间后对应的特征向量;标签视觉向量可以是视觉特征经过多层全连接网络结构映射至标签空间后对应的特征向量。
在实际应用中,本发明实施例可以在跨模态视频检索模型中集成多层全连接神经网络,多层全连接神经网络可以用于分别将第一目标视觉特征向量和第一目标文本特征向量映射至标签向量空间,从而可以从标签向量空间得到标签视觉向量和标签文本向量,并在训练过程中缩小标签视觉向量、标签文本向量、文本标签特征向量两两之间的差异值,可选地,本发明实施例可以采用标签视觉向量和标签文本向量生成第二目标损失函数,采用标签视觉向量和文本标签特征向量生成第三目标损失函数,采用标签文本向量和文本标签特征向量生成第四目标损失函数,通过梯度下降的方式调整多层全连接神经网络的网络参数,以降低第二损失函数值,和,第三损失函数值,和,第四损失函数值,从而达到缩小特征差异的效果,进而减小了跨模态视频检索的误差。
在最小化标签视觉向量、标签文本向量和文本标签特征向量之间的差异值后,可以确定标签视觉向量和标签文本向量之间的第二向量距离,并采用第二向量距离计算出标签特征向量相似度,可选地,第二向量距离可以为欧式距离或是余弦距离。
例如,采用多层全连接神经网络(例如2层)分别将第一目标视觉特征向量和第一目标文本特征向量映射至标签向量空间,在最小化标签视觉向量、标签文本向量和文本标签特征向量之间的差异值,在模型推理时,标签特征向量相似度sim_t可以采用标签视觉向量和标签文本向量计算出标签特征向量的余弦相似度来表示。
在本发明的一个可选地实施例中,所述基于所述文本标签特征向量、所述隐含特征向量相似度、所述标签特征向量相似度确定检索结果步骤进一步包括:
确定所述第一目标文本特征向量和所述文本标签特征向量之间的分词相似度;
对所述分词相似度加权,并计算出权重系数;
采用所述权重系数、所述隐含特征向量相似度和所述标签特征向量相似度计算出检索结果。
在具体实现中,本发明实施可以通过第一目标文本特征向量和文本标签特征向量之间的欧式距离或余弦距离计算出第一目标文本特征向量和文本标签特征向量之间分词相似度,再对分词相似度进行加权计算出权重系数,然后采用权重系数、隐含特征向量相似度和标签特征向量相似度计算出检索结果,例如,采用sim_t表示标签特征向量相似度,采用sim_e表示隐含特征向量相似度,将经归一化的分词相似度钳制到[min_w,max_w]区间,作为特征检索的权重 w_t,则检索结果sim=w_t*sim_t+(1-w_t)*sim_e,当然,本领域技术人员可以采用其他数值作为权重系数w_t也是可以的,例如,可以采用典型值0.5,另外,本领域技术人员通过其他算法采用权重系数、隐含特征向量相似度和标签特征向量相似度计算出检索结果也是可以的,对此,本发明实施例不作限制。
在本发明的一个可选地实施例中,所述获取视频流中用于表达视频序列的特征的多个视频序列特征向量的步骤包括:
按固定帧数间隔确定视频流中的多个目标帧;
提取与所述多个目标帧对应的目标帧画面的视频序列特征向量作为多个视频序列特征向量。
在实际应用中,若要对每一帧的图像提取视频序列特征向量,会造成巨大的运算量,所以,本发明实施例可以先采用分帧工具对每一个视频进行分帧处理,获得按时间顺序排序的帧序列,将帧序列按固定帧数间隔确定视频流中的目标帧,再采用视觉基础网络模型提取与目标帧对应的目标帧画面的视频序列特征向量,例如,视频序列特征向量是一组序列长度为S_v,特征维度为D_v 的特征向量,可表示为feat_v_seq=[feat_v_1,feat_v_2,feat_v_sv]:其中,序列长度S_v可以与目标帧数量相同;序列中的每个特征向量(feat_v_i),由视觉基础网络模型输出,即,由视觉基础网络模型对目标帧图像进行处理所得到,对应相同的特征维度为D_v,D_v的典型值可以但不限于为256,512,1024 等,视频序列特征向量的长度可以与目标帧的数量相同。
本发明实施例通过按固定帧数间隔确定视频流中的目标帧,并采用所述视觉基础网络模型提取与所述目标帧对应的目标帧画面的视频序列特征向量,从而避免了对每一帧的图像提取视频序列特征向量,从而避免了造成过大的数据运算量。
在本发明的一个可选实施例中,所述跨模态视频检索模型包括用于获取所述多个视频序列特征向量的视觉基础网络模型,用于获取所述多个文本序列特征向量的多语言文本模型,视觉特征序列融合模块,文本特征序列融合模块,特征一致性学习模块,标签一致性学习模块,所述跨模态视频检索模型具有针对所述视觉特征序列融合模块,所述文本特征序列融合模块,所述特征一致性学习模块,所述标签一致性学习模块的参数调整阶段,所述跨模态视频检索模型包括针对于所述多语言文本模型与所述视觉基础网络模型的控制开关,所述方法还包括:
当所述跨模态视频检索模型处于所述参数调整阶段时,关闭所述控制开关。
在实际应用中,跨模态视频检索模型具有对应的参数调整阶段,例如针对视觉特征序列融合模块,文本特征序列融合模块,特征一致性学习模块,标签一致性学习模块的学习阶段,多语言文本模型和视觉基础网络模型在参数调整阶段中会增大不必要的数据运算量,所以,本发明可以在跨模态视频检索模型的参数调整阶段,关闭针对多语言博特模型和视觉基础网络模型的控制开关,以使多语言博特模型和视觉基础网络模型不参与训练,从而提升模型在小样本训练数据集上的泛化能力。
需要强调的是,本发明实施例对于跨模态视频检索模型的训练数据,要求视频需具备对应的文本序列,而模型训练完成后,即模型参数固定时,使用训练好的模态视频检索模型进行跨模态检索时,一条可以只具备视频流信息或者文本序列即可实现跨模态检索,不要求二者兼备,例如,模型训练完成之后可以按如下方式使用,由N条视频,N=10w,构成视频数据库,此处对视频数据库中的每条视频是否需具备文本序列可以不作限定;对应查询文本,如“蓝天白云下一个人在走路”,使用跨模态检索模型,检索在前述视频数据库中最符合此描述的topK条视频数据,作为返回数据即可完成跨模态检索。
当然,本领域技术人员可以根据实际情况设定数据规模(N值)和检索返回规模(topK值),对此,本发明实施例不作限制。
为使本领域技术人员更好的理解本发明实施例,以下用一完整示例对本发明实施例进行说明。
如图2所示,图2是本发明实施例中提供的一种跨模态视频检索模型的结构示意图,跨模态视频检索模型200可以包括:视频序列特征提取模块201、文本序列特征提取模块202、视频特征序列融合模块203、文本特征序列融合模块204、特征一致性学习模块205、标签一致性学习模块206;
视频序列特征提取模块201,可以由ViT或Resnet等典型深度学习网络构成,可以用于对视频目标帧提取以及目标帧画面特征提取,具体地,可以采用等间隔抽帧方案实现视频目标帧提取,可以采用ViT或Resnet提取用于表达目标帧画面特征的特征序列向量。
文本序列特征提取模块202,可以由多语言Bert模型构成,针对文本序列特征向量的获取方式可以用于对多语言Bert模型输入文本序列,并输出文本序列的分词序列及用于表达各分词文本特征的特征序列向量,例如,可以使用多语言博特模型对分词序列进行处理,将语言模型输出的序列特征(序列长度为S_t,对应Bert的较浅层,即,非最后一层输出)中第i个位置的输出作为feat_t_i,也可以使用Bert依次对分词序列进行处理,将语言模型对第i个分词输出的特征向量作为feat_t_i;以中、英文为例,中文的分词结果可以为单个字符,英文的分词结果可以为一个单词。
视觉特征序列融合模块203,可以由多个不同尺度的RNN模型构成,具体用于,采用多个不同尺度的RNN融合视频序列特征向量从而生成多个与多个不同尺度的RNN一一对应的第二目标视觉特征向量,并通过拼接多个第二目标视觉特征向量,从而生成第一目标视觉特征向量。
例如,时域采样间隔为1的双向LSTM/双向GRU模型a;时域采样间隔为2 的双向LSTM/双向GRU模型b;时域采样间隔为3的双向LSTM/双向GRU模型c;时域采样间隔为4的双向LSTM/双向GRU模型d;对模型a、模型b、模型c、模型d输入视频序列特征,再对模型a、模型b、模型c、模型d的输出进行拼接,作为第一目标视觉特征向量。
文本特征序列融合模块204,可以由多个不同尺度的RNN模型构成,具体用于,采用多个不同尺度的RNN融合视文本列特征信息从而生成多个与多个不同尺度的RNN一一对应的第二目标文本特征向量,并通过拼接多个第二目标文本特征向量,从而生成第一目标文本特征向量。
例如,时域采样间隔为1的双向LSTM/双向GRU模型A;时域采样间隔为2 的双向LSTM/双向GRU模型B;时域采样间隔为3的双向LSTM/双向GRU模型C;时域采样间隔为4的双向LSTM/双向GRU模型D;对模型A、模型B、模型C、模型D输入文本序列特征,再对型A、模型B、模型C、模型D的输出进行拼接,作为第一目标文本特征向量。
标签一致性学习模块205,可以由多层全连接网络构成,可以用于采用多层全连接网络(例如2层)分别将第一目标视觉特征向量及第一目标文本特征向量映射至同一标签向量空间,并得到标签视觉向量和标签文本向量,在训练过程中最小化标签视觉向量、标签文本向量和文本标签特征向量之间的差异值;
特征一致性学习模块206,可以由多层全连接网络构成,可以用于采用多层全连接网络(例如2层)分别将第一目标视觉特征向量及第一目标文本特征向量映射至同一隐含向量空间,并得到隐含视觉向量和隐含文本向量,在训练过程中最小化隐含视觉向量和隐含文本向量之间的隐含层特征差异值。
跨模态视频检索模型200,可以用于在跨模态视频检索模型200推理时,采用隐含视觉向量和隐含文本向量,计算出隐含特征向量相似度sim_e;采用标签视觉向量和标签文本向量,计算出标签特征向量相似度sim_t;对查询文本进行分词,计算各分词结果与命中的训练文本标签之间的相似性,对各分词的相似度进行加权作为文本标签重构的一致性,将文本标签的重构一致性钳制到 [min_w,max_w]区间,作为特征检索的权重w_t,或者,直接采用典型值0.5 作为权重w_t;则跨模态检索结果sim=w_t*sim_t+(1-w_t)*sim_e;在跨模态视频检索模型200的视觉特征序列融合模块203、文本特征序列融合模块204、标签一致性学习模块205、特征一致性学习模块206的学习过程中,视频序列特征提取模块201及文本序列特征提取模块202的参数无需参与训练,可减少训练参数量,提升模型在小样本训练数据集上的泛化能力。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了是本发明实施例中提供的一种针对跨模态视频检索模型的训练装置的结构框图,具体可以包括如下模块:
视频序列特征向量获取模块301,用于获取视频流中用于表达视频序列的特征的多个视频序列特征向量;所述视频序列具有对应的文本序列;
文本序列切分模块302,用于切分所述文本序列,生成分词和由所述分词组成的分词序列;
文本序列特征向量提取模块303,用于提取针对所述分词的多个文本序列特征向量,和,针对所述分词序列的文本标签特征向量;
视频序列特征向量合并模块304,用于合并所述多个视频序列特征向量,并生成第一目标视觉特征向量;
文本序列特征向量合并模块305,用于合并所述多个文本序列特征向量,并生成第一目标文本特征向量;
隐藏向量映射模块306,用于将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度;
标签向量映射模块307,用于将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度;
检索结果确定模块308,用于基于所述文本标签特征向量、所述隐含特征向量相似度、所述标签特征向量相似度确定检索结果。
可选地,所述跨模态视频检索模型包括多个不同尺度的循环神经网络,所述视频序列特征向量合并模块可以包括:
第二目标视觉特征向量生成子模块,用于采用所述多个视频序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标视觉特征向量;所述多个第二目标视觉特征向量与所述多个不同尺度的循环神经网络一一对应;
第二目标视觉特征向量拼接子模块,用于拼接多个所述第二目标视觉特征向量,并生成第一目标视觉特征向量。
可选地,所述文本序列特征向量合并模块可以包括:
第二目文本觉特征向量生成子模块,用于采用所述多个文本序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标文本特征向量;所述多个第二目标文本特征向量与所述多个不同尺度的循环神经网络一一对应;
第二目文本觉特征向量拼接子模块,用于拼接多个所述第二目标文本特征向量和所述文本标签特征向量,并生成第一目标文本特征向量。
可选地,所述隐藏向量映射模块可以包括:
隐藏向量映射子模块,用于分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,生成隐含视觉向量和隐含文本向量;
第一向量距离确定子模块,用于确定所述隐含视觉向量和所述隐含文本向量之间的第一向量距离;
隐含特征向量相似度计算子模块,用于采用所述第一向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度。
可选地,所述跨模态视频检索模型包括多层全连接神经网络,所述多层全连接神经网络具有对应的网络参数,还包括:
第一目标损失函数生成子模块,用于采用所述隐含视觉向量和所述隐含文本向量生成第一目标损失函数;所述第一目标损失函数包括第一损失函数值;
第一网络参数控制子模块,用于通过控制所述网络参数,降低所述第一损失函数值。
可选地,所述标签向量映射模块可以包括:
标签向量映射子模块,用于分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,生成标签视觉向量和标签文本向量;
第二向量距离确定子模块,用于确定所述标签视觉向量和所述标签文本向量之间的第二向量距离;
标签特征向量相似度计算子模块,用于采用所述第二向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度。
可选地,所述跨模态视频检索模型包括多层全连接神经网络,所述多层全连接神经网络具有对应的网络参数,还包括:
第二目标损失函数生成子模块,用于采用所述标签视觉向量和所述标签文本向量生成第二目标损失函数;
第三目标损失函数生成子模块,用于采用所述标签视觉向量和所述文本标签特征向量生成第三目标损失函数;
第四目标损失函数生成子模块,用于采用所述标签文本向量和所述文本标签特征向量生成第四目标损失函数;
第二网络参数控制子模块,用于通过控制所述网络参数,降低所述第二损失函数值,和,所述第三损失函数值,和,所述第四损失函数值。
可选地,所述检索结果确定模块可以进一步包括:
分词相似度确定子模块,用于确定所述第一目标文本特征向量和所述文本标签特征向量之间的分词相似度;
权重系数计算子模块,用于对所述分词相似度加权,并计算出权重系数;
检索结果计算子模块,用于采用所述权重系数、所述隐含特征向量相似度和所述标签特征向量相似度计算出检索结果。
可选地,所述视频序列特征向量获取模块可以包括:
目标帧确定子模块,用于按固定帧数间隔确定视频流中的多个目标帧;
频序列特征向量获取子模块,用于提取与所述多个目标帧对应的目标帧画面的视频序列特征向量作为多个视频序列特征向量。
可选地,所述跨模态视频检索模型包括用于获取所述多个视频序列特征向量的视觉基础网络模型,用于获取所述多个文本序列特征向量的多语言文本模型,视觉特征序列融合模块,文本特征序列融合模块,特征一致性学习模块,标签一致性学习模块,所述跨模态视频检索模型具有针对所述视觉特征序列融合模块,所述文本特征序列融合模块,所述特征一致性学习模块,所述标签一致性学习模块的参数调整阶段,所述跨模态视频检索模型包括针对于所述多语言文本模型与所述视觉基础网络模型的控制开关,所述装置还可以包括:
控制开关关闭模块,用于在所述跨模态视频检索模型处于所述参数调整阶段时,关闭所述控制开关。
另外,本发明实施例还提供一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:
获取视频流中用于表达视频序列的特征的多个视频序列特征向量;所述视频序列具有对应的文本序列;
切分所述文本序列,生成分词和由所述分词组成的分词序列;
提取针对所述分词的多个文本序列特征向量,和,针对所述分词序列的文本标签特征向量;
合并所述多个视频序列特征向量,并生成第一目标视觉特征向量;
合并所述多个文本序列特征向量,并生成第一目标文本特征向量;
将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度;
将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度;
基于所述文本标签特征向量、所述隐含特征向量相似度、所述标签特征向量相似度确定检索结果。
可选地,所述跨模态视频检索模型包括多个不同尺度的循环神经网络,所述合并所述多个视频序列特征向量,并生成第一目标视觉特征向量的步骤可以包括:
采用所述多个视频序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标视觉特征向量;所述多个第二目标视觉特征向量与所述多个不同尺度的循环神经网络一一对应;
拼接多个所述第二目标视觉特征向量,并生成第一目标视觉特征向量。
可选地,所述合并所述多个文本序列特征向量,并生成第一目标文本特征向量的步骤可以包括:
采用所述多个文本序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标文本特征向量;所述多个第二目标文本特征向量与所述多个不同尺度的循环神经网络一一对应;
拼接多个所述第二目标文本特征向量和所述文本标签特征向量,并生成第一目标文本特征向量。
可选地,,所述将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度的步骤可以包括:
分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,生成隐含视觉向量和隐含文本向量;
确定所述隐含视觉向量和所述隐含文本向量之间的第一向量距离;
采用所述第一向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度。
可选地,所述跨模态视频检索模型包括多层全连接神经网络,所述多层全连接神经网络具有对应的网络参数,在所述确定所述隐含视觉向量和所述隐含文本向量之间的第一向量距离的步骤之前,还可以包括:
采用所述隐含视觉向量和所述隐含文本向量生成第一目标损失函数;所述第一目标损失函数包括第一损失函数值;
通过控制所述网络参数,降低所述第一损失函数值。
可选地,所述将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度的步骤可以包括:
分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,生成标签视觉向量和标签文本向量;
确定所述标签视觉向量和所述标签文本向量之间的第二向量距离;
采用所述第二向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度。
可选地,所述跨模态视频检索模型包括多层全连接神经网络,所述多层全连接神经网络具有对应的网络参数,在所述确定所述标签视觉向量和所述标签文本向量之间的第二向量距离的步骤之前,还可以包括:
采用所述标签视觉向量和所述标签文本向量生成第二目标损失函数;
采用所述标签视觉向量和所述文本标签特征向量生成第三目标损失函数;
采用所述标签文本向量和所述文本标签特征向量生成第四目标损失函数;
通过控制所述网络参数,降低所述第二损失函数值,和,所述第三损失函数值,和,所述第四损失函数值。
可选地,所述基于所述文本标签特征向量、所述隐含特征向量相似度、所述标签特征向量相似度确定检索结果步骤可以进一步包括:
确定所述第一目标文本特征向量和所述文本标签特征向量之间的分词相似度;
对所述分词相似度加权,并计算出权重系数;
采用所述权重系数、所述隐含特征向量相似度和所述标签特征向量相似度计算出检索结果。
可选地,所述获取视频流中用于表达视频序列的特征的多个视频序列特征向量的步骤可以包括:
按固定帧数间隔确定视频流中的多个目标帧;
提取与所述多个目标帧对应的目标帧画面的视频序列特征向量作为多个视频序列特征向量。
可选地,所述跨模态视频检索模型包括用于获取所述多个视频序列特征向量的视觉基础网络模型,用于获取所述多个文本序列特征向量的多语言文本模型,视觉特征序列融合模块,文本特征序列融合模块,特征一致性学习模块,标签一致性学习模块,所述跨模态视频检索模型具有针对所述视觉特征序列融合模块,所述文本特征序列融合模块,所述特征一致性学习模块,所述标签一致性学习模块的参数调整阶段,所述跨模态视频检索模型包括针对于所述多语言文本模型与所述视觉基础网络模型的控制开关,所述方法还可以包括:
当所述跨模态视频检索模型处于所述参数调整阶段时,关闭所述控制开关。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(RandomAccess Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的针对跨模态视频检索模型的训练方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的针对跨模态视频检索模型的训练方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (13)

1.一种针对跨模态视频检索模型的训练方法,其特征在于,所述跨模态视频检索模型包括隐藏向量空间、标签向量空间,所述方法包括:
获取视频流中用于表达视频序列的特征的多个视频序列特征向量;所述视频序列具有对应的文本序列;
切分所述文本序列,生成分词和由所述分词组成的分词序列;
提取针对所述分词的多个文本序列特征向量,和,针对所述分词序列的文本标签特征向量;
合并所述多个视频序列特征向量,并生成第一目标视觉特征向量;
合并所述多个文本序列特征向量,并生成第一目标文本特征向量;
将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度;
将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度;
基于所述文本标签特征向量、所述隐含特征向量相似度、所述标签特征向量相似度确定检索结果。
2.根据权利要求1所述的方法,其特征在于,所述跨模态视频检索模型包括多个不同尺度的循环神经网络,所述合并所述多个视频序列特征向量,并生成第一目标视觉特征向量的步骤包括:
采用所述多个视频序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标视觉特征向量;所述多个第二目标视觉特征向量与所述多个不同尺度的循环神经网络一一对应;
拼接多个所述第二目标视觉特征向量,并生成第一目标视觉特征向量。
3.根据权利要求2所述的方法,其特征在于,所述合并所述多个文本序列特征向量,并生成第一目标文本特征向量的步骤包括:
采用所述多个文本序列特征向量通过所述多个不同尺度的循环神经网络生成多个第二目标文本特征向量;所述多个第二目标文本特征向量与所述多个不同尺度的循环神经网络一一对应;
拼接多个所述第二目标文本特征向量和所述文本标签特征向量,并生成第一目标文本特征向量。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度的步骤包括:
分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,生成隐含视觉向量和隐含文本向量;
确定所述隐含视觉向量和所述隐含文本向量之间的第一向量距离;
采用所述第一向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度。
5.根据权利要求4所述的方法,其特征在于,所述跨模态视频检索模型包括多层全连接神经网络,所述多层全连接神经网络具有对应的网络参数,在所述确定所述隐含视觉向量和所述隐含文本向量之间的第一向量距离的步骤之前,还包括:
采用所述隐含视觉向量和所述隐含文本向量生成第一目标损失函数;所述第一目标损失函数包括第一损失函数值;
通过控制所述网络参数,降低所述第一损失函数值。
6.根据权利要求1或4所述的方法,其特征在于,所述将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度的步骤包括:
分别将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,生成标签视觉向量和标签文本向量;
确定所述标签视觉向量和所述标签文本向量之间的第二向量距离;
采用所述第二向量距离计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度。
7.根据权利要求6所述的方法,其特征在于,所述跨模态视频检索模型包括多层全连接神经网络,所述多层全连接神经网络具有对应的网络参数,在所述确定所述标签视觉向量和所述标签文本向量之间的第二向量距离的步骤之前,还包括:
采用所述标签视觉向量和所述标签文本向量生成第二目标损失函数;
采用所述标签视觉向量和所述文本标签特征向量生成第三目标损失函数;
采用所述标签文本向量和所述文本标签特征向量生成第四目标损失函数;
通过控制所述网络参数,降低所述第二损失函数值,和,所述第三损失函数值,和,所述第四损失函数值。
8.根据权利要求1所述的方法,其特征在于,所述基于所述文本标签特征向量、所述隐含特征向量相似度、所述标签特征向量相似度确定检索结果步骤进一步包括:
确定所述第一目标文本特征向量和所述文本标签特征向量之间的分词相似度;
对所述分词相似度加权,并计算出权重系数;
采用所述权重系数、所述隐含特征向量相似度和所述标签特征向量相似度计算出检索结果。
9.根据权利要求1所述的方法,其特征在于,所述获取视频流中用于表达视频序列的特征的多个视频序列特征向量的步骤包括:
按固定帧数间隔确定视频流中的多个目标帧;
提取与所述多个目标帧对应的目标帧画面的视频序列特征向量作为多个视频序列特征向量。
10.根据权利要求1所述的方法,其特征在于,所述跨模态视频检索模型包括用于获取所述多个视频序列特征向量的视觉基础网络模型,用于获取所述多个文本序列特征向量的多语言文本模型,视觉特征序列融合模块,文本特征序列融合模块,特征一致性学习模块,标签一致性学习模块,所述跨模态视频检索模型具有针对所述视觉特征序列融合模块,所述文本特征序列融合模块,所述特征一致性学习模块,所述标签一致性学习模块的参数调整阶段,所述跨模态视频检索模型包括针对于所述多语言文本模型与所述视觉基础网络模型的控制开关,所述方法还包括:
当所述跨模态视频检索模型处于所述参数调整阶段时,关闭所述控制开关。
11.一种针对跨模态视频检索模型的训练装置,其特征在于,所述跨模态视频检索模型包括隐藏向量空间、标签向量空间,所述装置包括:
视频序列特征向量获取模块,用于获取视频流中用于表达视频序列的特征的多个视频序列特征向量;所述视频序列具有对应的文本序列;
文本序列切分模块,用于切分所述文本序列,生成分词和由所述分词组成的分词序列;
文本序列特征向量提取模块,用于提取针对所述分词的多个文本序列特征向量,和,针对所述分词序列的文本标签特征向量;
视频序列特征向量合并模块,用于合并所述多个视频序列特征向量,并生成第一目标视觉特征向量;
文本序列特征向量合并模块,用于合并所述多个文本序列特征向量,并生成第一目标文本特征向量;
隐藏向量映射模块,用于将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述隐藏向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的隐含特征向量相似度;
标签向量映射模块,用于将所述第一目标视觉特征向量和所述第一目标文本特征向量映射至所述标签向量空间,并计算出针对于所述第一目标视觉特征向量和所述第一目标文本特征向量的标签特征向量相似度;
检索结果确定模块,用于基于所述文本标签特征向量、所述隐含特征向量相似度、所述标签特征向量相似度确定检索结果。
12.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-10任一所述的方法步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一所述的方法。
CN202210428132.9A 2022-04-22 2022-04-22 一种针对跨模态视频检索模型的训练方法及装置 Pending CN114996511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210428132.9A CN114996511A (zh) 2022-04-22 2022-04-22 一种针对跨模态视频检索模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210428132.9A CN114996511A (zh) 2022-04-22 2022-04-22 一种针对跨模态视频检索模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN114996511A true CN114996511A (zh) 2022-09-02

Family

ID=83025109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210428132.9A Pending CN114996511A (zh) 2022-04-22 2022-04-22 一种针对跨模态视频检索模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN114996511A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116166843A (zh) * 2023-03-02 2023-05-26 北京中科闻歌科技股份有限公司 基于细粒度感知的文本视频跨模态检索方法和装置
CN116795886A (zh) * 2023-07-13 2023-09-22 杭州逍邦网络科技有限公司 用于销售数据的数据分析引擎及方法
WO2024051730A1 (zh) * 2022-09-07 2024-03-14 华为技术有限公司 跨模态检索方法、装置、设备、存储介质及计算机程序

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051730A1 (zh) * 2022-09-07 2024-03-14 华为技术有限公司 跨模态检索方法、装置、设备、存储介质及计算机程序
CN116166843A (zh) * 2023-03-02 2023-05-26 北京中科闻歌科技股份有限公司 基于细粒度感知的文本视频跨模态检索方法和装置
CN116166843B (zh) * 2023-03-02 2023-11-07 北京中科闻歌科技股份有限公司 基于细粒度感知的文本视频跨模态检索方法和装置
CN116795886A (zh) * 2023-07-13 2023-09-22 杭州逍邦网络科技有限公司 用于销售数据的数据分析引擎及方法
CN116795886B (zh) * 2023-07-13 2024-03-08 杭州逍邦网络科技有限公司 用于销售数据的数据分析引擎及方法

Similar Documents

Publication Publication Date Title
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN108038103B (zh) 一种对文本序列进行分词的方法、装置和电子设备
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN111581510A (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN114996511A (zh) 一种针对跨模态视频检索模型的训练方法及装置
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN112131883B (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN116720004B (zh) 推荐理由生成方法、装置、设备及存储介质
CN111783903B (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN113627447A (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN111538818B (zh) 数据查询方法、装置、电子设备及存储介质
CN114998777A (zh) 一种针对跨模态视频检索模型的训练方法及装置
CN113128431B (zh) 视频片段检索方法、装置、介质与电子设备
US11669679B2 (en) Text sequence generating method and apparatus, device and medium
CN112650842A (zh) 基于人机交互的客服机器人意图识别方法及相关设备
CN113806588A (zh) 搜索视频的方法和装置
CN112989212A (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
CN111625715A (zh) 信息提取方法、装置、电子设备及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN110852103A (zh) 一种命名实体识别方法及装置
CN116958852A (zh) 视频与文本的匹配方法、装置、电子设备和存储介质
CN115909357A (zh) 基于人工智能的目标识别方法、模型训练方法和装置
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination