CN110069666B - 基于近邻结构保持的哈希学习方法和装置 - Google Patents

基于近邻结构保持的哈希学习方法和装置 Download PDF

Info

Publication number
CN110069666B
CN110069666B CN201910264740.9A CN201910264740A CN110069666B CN 110069666 B CN110069666 B CN 110069666B CN 201910264740 A CN201910264740 A CN 201910264740A CN 110069666 B CN110069666 B CN 110069666B
Authority
CN
China
Prior art keywords
video
training
training video
neighbor
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910264740.9A
Other languages
English (en)
Other versions
CN110069666A (zh
Inventor
鲁继文
周杰
李舒燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910264740.9A priority Critical patent/CN110069666B/zh
Publication of CN110069666A publication Critical patent/CN110069666A/zh
Application granted granted Critical
Publication of CN110069666B publication Critical patent/CN110069666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于近邻结构保持的哈希学习方法和装置,其中,方法包括:获取视频训练集,并提取每个训练视频的M个帧级特征;提取每个训练视频的时域外观特征,对时域外观特征进行聚类,得到锚点特征集合;从锚点特征集合中获取每个训练视频对应的时域外观近邻特征;采用编码网络,根据时域外观近邻特征,将每个训练视频编码为对应的深度表达;将每个训练视频对应的深度表达转化为一列二值码;根据二值码重构出每个训练视频对应的M个重构帧级特征;生成重构误差函数和近邻相似性误差函数;对网络进行训练,以使重构误差函数和近邻相似性误差函数最小化。能够实现保证汉明空间中近邻结构的完好保存,提高大规模无监督视频数据库上的检索精度。

Description

基于近邻结构保持的哈希学习方法和装置
技术领域
本发明涉及视频处理技术领域,尤其涉及一种基于近邻结构保持的哈希学习方法和装置。
背景技术
大规模视频检索,旨在从一个庞大的数据库中检索出与所给的询问视频相似的视频,一般情况下,视频可以用一系列采样得到的视频帧进行表示,并且,每帧视频帧可以由一个特征进行表示。在视频检索时,可以根据视频对应的特征集合,确定相关的视频。
在高维特征与海量数据面前,哈希方法在大规模视觉检索任务中取得了很大的成就,视频哈希将视频编码成致密的二值码,并保证视频空间的相似性结构,在汉明空间中得以保存。基于学习的视频哈希方法探索数据特性并取得了比手工设计的哈希方法更佳的性能,因为免除了人工标注的麻烦,无监督哈希相较有监督哈希在大规模视频检索任务中更加可行。
目前,大多数无监督哈希着眼于利用视频的表征与时序信息,但忽略了对近邻结构的利用,从而导致编码网络将毫无差别地吸收输入视频的内容,而不去辨别这些内容是否与近邻内容相似,这样并不利于近邻相似性的保存,从而在大规模无监督视频数据库上进行视频检索时,无法保证检索的精度。
发明内容
本发明提出一种基于近邻结构保持的哈希学习方法和装置,以实现保证汉明空间中近邻结构的完好保存,提高大规模无监督视频数据库上的检索精度,用于解决现有技术中无监督哈希着眼于利用视频的表征与时序信息,但忽略了对近邻结构的利用,无法保证视频检索的精度的技术问题。
本发明一方面实施例提出了一种基于近邻结构保持的哈希学习方法,包括:
S1、获取视频训练集,针对所述视频训练集中的每个训练视频,提取所述每个训练视频的M个帧级特征;
S2、采用自动编码器,提取每个训练视频的时域外观特征,并对所述时域外观特征进行聚类,得到锚点特征集合;
S3、针对每个训练视频,从所述锚点特征集合中获取每个训练视频对应的时域外观近邻特征;
S4、采用编码网络,根据所述时域外观近邻特征,将每个训练视频编码为对应的深度表达;
S5、根据使用激活函数的全链接层,将所述每个训练视频对应的深度表达,转化为一列二值码;
S6、采用译码网络,根据所述二值码重构出每个训练视频对应的M个重构帧级特征;
S7、根据每个训练视频对应的所述帧级特征和所述重构帧级特征,生成重构误差函数,并根据所述时域外观特征和所述二值码,生成近邻相似性误差函数;
S8、对网络进行训练,以使所述重构误差函数最小化,以及使所述近邻相似性误差函数最小化;其中,所述网络包括所述编码网路、所述全链接层和所述译码网络。
本发明实施例的基于近邻结构保持的哈希学习方法,通过获取视频训练集,针对视频训练集中的每个训练视频,提取每个训练视频的M个帧级特征,之后,采用自动编码器,提取每个训练视频的时域外观特征,并对时域外观特征进行聚类,得到锚点特征集合,而后,针对每个训练视频,从锚点特征集合中获取每个训练视频对应的时域外观近邻特征,并采用编码网络,根据时域外观近邻特征,将每个训练视频编码为对应的深度表达,之后,根据使用激活函数的全链接层,将每个训练视频对应的深度表达,转化为一列二值码,接着,采用译码网络,根据二值码重构出每个训练视频对应的M个重构帧级特征,之后,根据每个训练视频对应的帧级特征和重构帧级特征,生成重构误差函数,并根据时域外观特征和二值码,生成近邻相似性误差函数,最后,对网络进行训练,以使重构误差函数最小化,以及使近邻相似性误差函数最小化;其中,网络包括编码神经网路、全链接层和译码网络。本发明中,将视频的近邻嵌入到编码网络中,由此,在对视频的帧级特征进行编码过程中,该视频中与其近邻相似的内容得以被更多的关注,进而可以提高大规模无监督视频数据库上的检索精度。并且,通过最小化重建误差和近邻相似性误差,可以保证汉明空间中近邻结构的完好保存,进一步提高视频数据库上的检索精度。
本发明又一方面实施例提出了一种基于近邻结构保持的哈希学习装置,包括:
获取模块,用于获取视频训练集,针对所述视频训练集中的每个训练视频,提取所述每个训练视频的M个帧级特征;
提取模块,用于采用自动编码器,提取每个训练视频的时域外观特征,并对所述时域外观特征进行聚类,得到锚点特征集合;
所述获取模块,还用于针对每个训练视频,从所述锚点特征集合中获取每个训练视频对应的时域外观近邻特征;
编码模块,用于采用编码网络,根据所述时域外观近邻特征,将每个训练视频编码为对应的深度表达;
转化模块,用于根据使用激活函数的全链接层,将所述每个训练视频对应的深度表达,转化为一列二值码;
重构模块,用于采用译码网络,根据所述二值码重构出每个训练视频对应的M个重构帧级特征;
生成模块,用于根据每个训练视频对应的所述帧级特征和所述重构帧级特征,生成重构误差函数,并根据所述时域外观特征和所述二值码,生成近邻相似性误差函数;
训练模块,用于对网络进行训练,以使所述重构误差函数最小化,以及使所述近邻相似性误差函数最小化;其中,所述网络包括所述编码网路、所述全链接层和所述译码网络。
本发明实施例的基于近邻结构保持的哈希学习装置,通过获取视频训练集,针对视频训练集中的每个训练视频,提取每个训练视频的M个帧级特征,之后,采用自动编码器,提取每个训练视频的时域外观特征,并对时域外观特征进行聚类,得到锚点特征集合,而后,针对每个训练视频,从锚点特征集合中获取每个训练视频对应的时域外观近邻特征,并采用编码网络,根据时域外观近邻特征,将每个训练视频编码为对应的深度表达,之后,根据使用激活函数的全链接层,将每个训练视频对应的深度表达,转化为一列二值码,接着,采用译码网络,根据二值码重构出每个训练视频对应的M个重构帧级特征,之后,根据每个训练视频对应的帧级特征和重构帧级特征,生成重构误差函数,并根据时域外观特征和二值码,生成近邻相似性误差函数,最后,对网络进行训练,以使重构误差函数最小化,以及使近邻相似性误差函数最小化;其中,网络包括编码网路、全链接层和译码网络。本发明中,将视频的近邻嵌入到编码网络中,由此,在对视频的帧级特征进行编码过程中,该视频中与其近邻相似的内容得以被更多的关注,进而可以提高大规模无监督视频数据库上的检索精度。并且,通过最小化重建误差和近邻相似性误差,可以保证汉明空间中近邻结构的完好保存,进一步提高视频数据库上的检索精度。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例一所提供的基于近邻结构保持的哈希学习方法的流程示意图;
图2为本发明实施例中哈希学习过程示意图一;
图3为本发明实施例的哈希学习过程示意图二;
图4为本发明实施例二所提供的基于近邻结构保持的哈希学习装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
目前,一些视频哈希方法将哈希函数整合到了深度神经网络中,具体地,通过深度卷积网络提取视频帧的特征,这些特征通过时序池化操作或者深度循环网络,近一步被编码成二值码。因为免除了人工标注的麻烦,无监督哈希相较有监督哈希在大规模视频检索任务中更加可行。
然而,大多数无监督哈希着眼于利用视频的表征与时序信息,但忽略了对近邻结构的利用,尽管有一些哈希方法设计了某种近邻相似度代价函数来训练网络,但近邻结构仅被用于指导二值码的生成,而在视频特征编码上并没有被利用到。这种方式下,设计出的编码网络将毫无差别地吸收输入视频的内容,而不去辨别这些内容是否与近邻内容相似,并不利于近邻相似性的保存,从而在大规模无监督视频数据库上进行视频检索时,无法保证检索的精度。
因此,本发明主要针对现有技术中无监督哈希着眼于利用视频的表征与时序信息,但忽略了对近邻结构的利用,无法保证视频检索的精度的技术问题,提出一种基于近邻结构保持的哈希学习方法。
本发明实施例的基于近邻结构保持的哈希学习方法,通过将视频的近邻嵌入到编码网络中,由此,在对视频帧级特征进行编码过程中,视频中与其近邻相似的内容得以被更多的关注,进而可以提高大规模无监督视频数据库上的检索精度。并且,在对网络进行训练时,通过最小化重建误差和近邻相似性误差,可以保证汉明空间中近邻结构的完好保存,进一步提高视频数据库上的检索精度。
下面参考附图描述本发明实施例的基于近邻结构保持的哈希学习方法和装置。
图1为本发明实施例一所提供的基于近邻结构保持的哈希学习方法的流程示意图。
本发明实施例以基于近邻结构保持的哈希学习方法被配置于基于近邻结构保持的哈希学习装置中来举例说明,该基于近邻结构保持的哈希学习装置可以应用于任一计算机设备中,以使该计算机设备可以执行基于近邻结构保持的哈希学习功能。
其中,计算机设备可以为个人电脑(PersonalComputer,简称PC)、云端设备、移动设备等,移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作***、触摸屏和/或显示屏的硬件设备。
如图1所示,该基于近邻结构保持的哈希学习方法可以包括以下步骤:
S1,获取视频训练集,针对视频训练集中的每个训练视频,提取每个训练视频的M个帧级特征。
本发明实施例中,视频训练集中包括N个训练视频,N个训练视频可以为计算机设备本地存储的视频,或者,也可以为计算机设备在线下载的视频,对此不作限制。其中,N的大小为预先设置的,M的大小也为预先设置的。
本发明实施例中,标记视频训练集为
Figure BDA0002016433290000051
针对视频训练集中的每个训练视频,可以对其均匀采样M帧,并由深度卷积网络提取每个训练视频对应的维度为l的M个帧级特征,则可以将每个训练视频转化为帧级特征集合
Figure BDA0002016433290000052
S2,采用自动编码器,提取每个训练视频的时域外观特征,并对时域外观特征进行聚类,得到锚点特征集合。
本发明实施例中,针对每个训练视频,可以通过自动编码器得到d维的时域外观特征。对于每个训练视频,可以通过计算该训练视频与视频库中其他视频的距离,并进行排序,确定该训练视频对应的a个时域外观近邻特征,例如,可以通过使用二范数来计算不同视频之间的距离,由于这一计算过程在测试阶段也需要计算,而面向整个视频训练集的近邻检索会消耗大量时间,是不现实的。因此,本发明中,可以对视频训练集中的训练视频进行K均值聚类,得到n个聚类中心,例如,可以对时域外观特征进行K均值聚类,得到n个聚类中心。对于每个聚类中心,可以确定与该聚类中心最近的(或距离最小的)时域外观特征,从而得到n个时域外观特征。而后,可以将n个时域外观特征作为锚点,并列入锚点特征集合,标记该锚点特征集合为
Figure BDA0002016433290000053
S3,针对每个训练视频,从锚点特征集合中获取每个训练视频对应的时域外观近邻特征。
本发明实施例中,针对每个训练视频,可以从锚点特征集合,获取该训练视频对应的a个时域外观近邻特征,分别为
Figure BDA0002016433290000054
由于a<<n<<N,因此,获取a个时域外观近邻特征只需消耗微量时间,可以极大地提升视频检索的效率。
S4,采用编码网络,根据时域外观近邻特征,将每个训练视频编码为对应的深度表达。
本发明实施例中,编码网络已学习得到各视频对应的时域外观近邻特征与深度表达之间的对应关系,在确定每个训练视频对应的时域外观近邻特征后,可以将每个训练视频对应的时域外观近邻特征,输入至编码网络,以得到每个训练视频对应的深度表达。
作为一种可能的实现方式,在近邻注意力学习机制中,需要得到近邻结构表达ni。具体地,针对每个训练视频,可以将该训练视频对应的a个时域外观近邻特征,列向合并得到第一向量
Figure BDA0002016433290000055
并将该第一向量映射为b维的近邻结构表达ni,则近邻结构表达ni为:
Figure BDA0002016433290000061
其中,FC表示全链接层映射。
针对每个训练视频,在第一个时刻,将该训练视频的第一帧帧级特征输入至编码网络,并将近邻结构表达ni以如下方式嵌入至b维的记忆状态中:
Figure BDA0002016433290000062
其中,d为固定值,Wq、Wk、Wv为编码网络的参数值,
Figure BDA0002016433290000063
表示列向合并,
Figure BDA0002016433290000064
表示训练视频的第一个时刻输入的帧级特征,mi,1表示第一个时刻对应的记忆状态。
通过如公式(2)的方式,近邻结构的信息将存在与每一时刻的记忆状态中,在1<t≤M时,当有新的视频帧级特征输入至编码网络时,记忆状态可以按照如下的方式进行更新:
Figure BDA0002016433290000065
其中,
Figure BDA0002016433290000066
表示第t个时刻输入的视频帧级特征,mi,t表示第t个时刻对应的记忆状态,mi,t-1表示第t-1个时刻对应的记忆状态。
通过如公式(2)和(3)的方式,在每一个时刻,记忆状态将根据其所包含的近邻结构信息,来选择输入特征中有用的信息写入至新的记忆状态中。将上述近邻注意力学习机制嵌入至编码网络中,可以得到各个运算单元为:
Figure BDA0002016433290000067
其中,MLP表示多层映射,BN表示批规范化,Wiv、Wih、Wfv、Wfh、Wov、Woh表示编码网络的参数值,
Figure BDA0002016433290000068
表示内积,σ函数的计算方式为σ=1/(1+e-x),tanh函数的计算方式为σ=(ex-e-x)/(ex+e-x)。在最后一个时刻所得的隐层输出hi,M,即为训练视频的深度表达。具体地,针对每个训练视频,该训练视频的深度表达为:
Figure BDA0002016433290000069
其中,
Figure BDA00020164332900000610
表示该训练视频对应的帧级特征,θ表示编码网络的参数。
本发明实施例中,将视频的近邻嵌入到编码网络中,由此,在对视频的帧级特征进行编码过程中,该视频中与其近邻相似的内容得以被更多的关注,进而可以提高大规模无监督视频数据库上的检索精度。
S5,根据使用激活函数的全链接层,将每个训练视频对应的深度表达,转化为一列二值码。
本发明实施例中,针对每个训练视频,根据使用激活函数的全链接层,将该训练视频对应的深度表达,转化得到的一列二值码为:
bi=sgn(ti);(6)
其中,ti=FC(hi,M,k);FC表示全链接层映射,sgn表示符号函数,当ti大于0时,sgn(ti)为1,当ti小于或等于0时,sgn(ti)为-1,k表示一列二值码的长度。
S6,采用译码网络,根据二值码重构出每个训练视频对应的M个重构帧级特征。
本发明实施例中,可以采用长短时记忆网络(Long Short Term Memory,简称LSTM)作为译码网络。具体地,可以将每个训练视频对应的一列二值码映射为l维向量
Figure BDA0002016433290000071
在第一个时刻,将
Figure BDA0002016433290000072
输入至译码网络,可以得到第一个重构的视频帧级特征
Figure BDA0002016433290000073
本发明实施例中记为重构帧级特征
Figure BDA0002016433290000074
在第二个时刻,将
Figure BDA00020164332900000711
输入至译码网络,得到第二个重构帧级特征
Figure BDA0002016433290000075
Figure BDA0002016433290000076
输入至译码网络,得到第三个重构帧级特征
Figure BDA0002016433290000077
如此循环,直到译码网络输出第M个重构帧级特征
Figure BDA0002016433290000078
时,译码完成。
作为一种示例,参见图2,图2为本发明实施例中哈希学习过程示意图一。其中,在得到训练视频对应的M个帧级特征v1、v2、…、vM后,可以经过编码网络输出对应的深度表达,以及经过使用激活函数的全链接层,得到对应的二值码后,可以通过译码网络输出对应的M个重构帧级特征
Figure BDA0002016433290000079
S7,根据每个训练视频对应的帧级特征和重构帧级特征,生成重构误差函数,并根据时域外观近邻特征和二值码,生成近邻相似性误差函数。
本发明实施例中,设计了两个损失函数来训练网络,分别为重构误差函数Lr和近邻相似性误差函数Ls
其中,重构误差函数Lr表示输入的训练视频对应的帧级特征和译码得到的重构帧级特征之间的差异,可使用均方误差来表示重构误差函数Lr
Figure BDA00020164332900000710
其中,
Figure BDA0002016433290000081
表示第i个训练视频中的第m个帧级特征,
Figure BDA0002016433290000082
表示第i个训练视频中的第m个重构帧级特征。
本发明实施例中,近邻相似性误差函数表示原始视频空间和汉明空间中相似性结构的差异,可根据公式(8)得到近邻相似性误差函数Ls
Figure BDA0002016433290000083
其中,sij表示第i个训练视频的时域外观特征与第j个训练视频的时域外观特征之间的相似性,
Figure BDA0002016433290000084
表示第i个对应二值码bi与第j个对应二值码bj之间的相似性。
为了计算公式(8)中的sij,可以按照如下方式建立近似相似性矩阵A。首先,可以根据训练视频对应的帧级特征xi,以及对应的a个时域外观近邻特征
Figure BDA0002016433290000085
定义一个删减的相似性矩阵
Figure BDA0002016433290000086
可用公式(9)表示Y中的每一个元素Yij
Figure BDA0002016433290000087
其中,<i>表示a个时域外观近邻特征在锚点特征集合中的位置,Dist表示距离计算函数,可以采用二范数计算距离,t表示带宽参数。
可以根据公式(10)计算近似相似性矩阵A:
A=YΛ-1YT;(10)
其中,
Figure BDA0002016433290000088
根据公式(10)计算得到的A为稀疏非负矩阵,矩阵的每一行每一列之和为1,当Aij>0时,可以将sij设置为1,而当Aij≤0时,可以将sij设置为0。
公式(8)中表示二值码bi与二值码bj之间的相似性
Figure BDA0002016433290000089
可以定义为
Figure BDA00020164332900000810
为了避免网络训练过程中的震荡,可以用
Figure BDA00020164332900000811
近似表示
Figure BDA00020164332900000812
其中,ti为二值码bi的松弛表示。
为了减小
Figure BDA00020164332900000813
Figure BDA00020164332900000814
之间的近似误差,可以引入关于ti和bi的辅助损失项,则可以将公式(8)转化为:
Figure BDA00020164332900000815
S8,对网络进行训练,以使重构误差函数最小化,以及使近邻相似性误差函数最小化;其中,网络包括编码网路、全链接层和译码网络。
本发明实施例中,网络可以分为三部分:第一部分是一个具有近邻注意力学习机制的编码网络,通过该编码网络可以学习得到训练视频的深度表达;第二个部分是一个带有非线性激活函数的全链接层,用于将深度表达转化成一个K维度的二值码;第三个部分是一个译码网络,从编码得到的二值码中解码出训练视频每一帧的重构帧级特征。
本发明实施例中,可以根据重构误差函数以及近邻相似性误差函数,对网络进行训练,通过将重构误差函数最小化,可以实现较好地利用输入的训练视频所包含的信息,通过将近邻相似性误差函数最小化,可以最大化保存近邻相似性。对网络进行训练时,使用的训练损失函数可以为重构误差函数和近邻相似性误差函数加权:
L=αLs+(1-α)Lr;(12)
其中,α表示平衡重构误差函数和近邻相似性误差函数的超参数。
本发明实施例中,在端对端的训练网络时,可以采用反向梯度传导的方式,来优化网络参数。
作为一种示例,参见图3,图3为本发明实施例的哈希学习过程示意图二。对网络进行训练时,当输入一个训练视频时,可以将时域外观近邻特征嵌入到哈希编码网络中进行哈希学习,通过一个编码网络来生成哈希码,通过最小化重建误差和近邻相似性误差来保证汉明空间中近邻结构的完好保存。
本发明实施例的基于近邻结构保持的哈希学习方法,通过获取视频训练集,针对视频训练集中的每个训练视频,提取每个训练视频的M个帧级特征,之后,采用自动编码器,提取每个训练视频的时域外观特征,并对时域外观特征进行聚类,得到锚点特征集合,而后,针对每个训练视频,从锚点特征集合中获取每个训练视频对应的时域外观近邻特征,并采用编码网络,根据时域外观近邻特征,将每个训练视频编码为对应的深度表达,之后,根据使用激活函数的全链接层,将每个训练视频对应的深度表达,转化为一列二值码,接着,采用译码网络,根据二值码重构出每个训练视频对应的M个重构帧级特征,之后,根据每个训练视频对应的帧级特征和重构帧级特征,生成重构误差函数,并根据时域外观特征和二值码,生成近邻相似性误差函数,最后,对网络进行训练,以使重构误差函数最小化,以及使近邻相似性误差函数最小化;其中,网络包括编码网路、全链接层和译码网络。本发明中,将视频的近邻嵌入到编码网络中,由此,在对视频的帧级特征进行编码过程中,该视频中与其近邻相似的内容得以被更多的关注,进而可以提高大规模无监督视频数据库上的检索精度。并且,通过最小化重建误差和近邻相似性误差,可以保证汉明空间中近邻结构的完好保存,进一步提高视频数据库上的检索精度。
为了实现上述实施例,本发明还提出一种基于近邻结构保持的哈希学习装置。
图4为本发明实施例二所提供的基于近邻结构保持的哈希学习装置的结构示意图。
如图4所示,该基于近邻结构保持的哈希学习装置包括:获取模块101、提取模块102、编码模块103、转化模块104、重构模块105、生成模块106以及训练模块107。
其中,获取模块101,用于获取视频训练集,针对视频训练集中的每个训练视频,提取每个训练视频的M个帧级特征。
提取模块102,用于采用自动编码器,提取每个训练视频的时域外观特征,并对时域外观特征进行聚类,得到锚点特征集合。
获取模块101,还用于针对每个训练视频,从锚点特征集合中获取每个训练视频对应的时域外观近邻特征。
编码模块103,用于采用编码网络,根据时域外观近邻特征,将每个训练视频编码为对应的深度表达。
作为一种可能的实现方式,每个训练视频具有a个时域外观近邻特征,分别为
Figure BDA0002016433290000101
Figure BDA0002016433290000102
编码模块103,具体用于:
将每个训练视频对应的a个时域外观近邻特征,列向合并得到第一向量
Figure BDA0002016433290000103
将第一向量映射为b维的近邻结构表达ni,其中,
Figure BDA0002016433290000104
FC表示全链接层映射;
针对每个训练视频,在第一个时刻,将每个训练视频的第一帧帧级特征输入至编码网络,并将近邻结构表达ni以如下方式嵌入至b维的记忆状态中:
Figure BDA0002016433290000105
其中,d为固定值,Wq、Wk、Wv为编码网络的参数值,
Figure BDA0002016433290000106
表示列向合并,
Figure BDA0002016433290000107
表示对应训练视频的第一个时刻输入的帧级特征,mi,1表示第一个时刻对应的记忆状态;
当有新的帧级特征输入至编码网络时,记忆状态按照如下方式进行更新:
Figure BDA0002016433290000108
其中,1<t≤M,
Figure BDA0002016433290000109
表示第t个时刻输入的帧级特征,mi,t表示第t个时刻对应的记忆状态,mi,t-1表示第t-1个时刻对应的记忆状态;
编码网络为LSTM网络,编码网络中的各个运算单元为:
Figure BDA0002016433290000111
其中,MLP表示多层映射,BN表示批规范化,Wiv、Wih、Wfv、Wfh、Wov、Woh表示编码网络的参数值,
Figure BDA0002016433290000112
表示内积;
将最后一个时刻所得的隐层输出hi,M,作为对应训练视频的深度表达;其中,
Figure BDA0002016433290000113
Figure BDA0002016433290000114
表示对应训练视频的帧级特征,θ表示编码网络的参数。
转化模块104,用于根据使用激活函数的全链接层,将每个训练视频对应的深度表达,转化为一列二值码。
作为一种可能的实现方式,根据使用激活函数的全链接层,将对应训练视频的深度表达进行转化,得到的一列二值码为:bi=sgn(ti);其中,ti=FC(hi,M,k);FC表示全链接层映射,sgn表示符号函数,当ti大于0时,sgn(ti)为1,当ti小于或等于0时,sgn(ti)为-1,k表示一列二值码的长度。
重构模块105,用于采用译码网络,根据二值码重构出每个训练视频对应的M个重构帧级特征。
生成模块106,用于根据每个训练视频对应的帧级特征和重构帧级特征,生成重构误差函数,并根据时域外观特征和二值码,生成近邻相似性误差函数。
作为一种可能的实现方式,视频训练集中包括N个训练视频,重构误差函数为:
Figure BDA0002016433290000115
其中,
Figure BDA0002016433290000116
表示第i个训练视频中的第m个帧级特征,
Figure BDA0002016433290000117
表示第i个训练视频中的第m个重构帧级特征。
作为一种可能的实现方式,近邻相似性误差函数为:
Figure BDA0002016433290000118
其中,sij表示第i个训练视频的时域外观特征与第j个训练视频的时域外观特征之间的相似性,ti为二值码bi的松弛表示。
训练模块107,用于对网络进行训练,以使重构误差函数最小化,以及使近邻相似性误差函数最小化;其中,网络包括编码网路、全链接层和译码网络。
需要说明的是,前述对基于近邻结构保持的哈希学习方法实施例的解释说明也适用于该实施例的基于近邻结构保持的哈希学习装置,此处不再赘述。
本发明实施例的基于近邻结构保持的哈希学习装置,通过获取视频训练集,针对视频训练集中的每个训练视频,提取每个训练视频的M个帧级特征,之后,采用自动编码器,提取每个训练视频的时域外观特征,并对时域外观特征进行聚类,得到锚点特征集合,而后,针对每个训练视频,从锚点特征集合中获取每个训练视频对应的时域外观近邻特征,并采用编码网络,根据时域外观近邻特征,将每个训练视频编码为对应的深度表达,之后,根据使用激活函数的全链接层,将每个训练视频对应的深度表达,转化为一列二值码,接着,采用译码网络,根据二值码重构出每个训练视频对应的M个重构帧级特征,之后,根据每个训练视频对应的帧级特征和重构帧级特征,生成重构误差函数,并根据时域外观特征和二值码,生成近邻相似性误差函数,最后,对网络进行训练,以使重构误差函数最小化,以及使近邻相似性误差函数最小化;其中,网络包括编码网路、全链接层和译码网络。本发明中,将视频的近邻嵌入到编码网络中,由此,在对视频的帧级特征进行编码过程中,该视频中与其近邻相似的内容得以被更多的关注,进而可以提高大规模无监督视频数据库上的检索精度。并且,通过最小化重建误差和近邻相似性误差,可以保证汉明空间中近邻结构的完好保存,进一步提高视频数据库上的检索精度。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于近邻结构保持的哈希学习方法,其特征在于,所述方法包括以下步骤:
S1、获取视频训练集,针对所述视频训练集中的每个训练视频,提取所述每个训练视频的M个帧级特征;
S2、采用自动编码器,提取每个训练视频的时域外观特征,并对所述时域外观特征进行聚类,得到锚点特征集合;
S3、针对每个训练视频,从所述锚点特征集合中获取每个训练视频对应的时域外观近邻特征;
S4、采用编码网络,根据所述时域外观近邻特征,将每个训练视频编码为对应的深度表达;
S5、根据使用激活函数的全链接层,将所述每个训练视频对应的深度表达,转化为一列二值码;
S6、采用译码网络,根据所述二值码重构出每个训练视频对应的M个重构帧级特征;
S7、根据每个训练视频对应的所述帧级特征和所述重构帧级特征,生成重构误差函数,并根据所述时域外观特征和所述二值码,生成近邻相似性误差函数;
S8、对网络进行训练,以使所述重构误差函数最小化,以及使所述近邻相似性误差函数最小化;其中,所述网络包括所述编码网络、所述全链接层和所述译码网络。
2.根据权利要求1所述的方法,其特征在于,每个训练视频具有a个时域外观近邻特征,分别为
Figure FDA0002951578810000011
其中,i=1,2,3,…,N,N为所述视频训练集中训练视频的个数;步骤S4具体包括:
S41、将每个训练视频对应的a个时域外观近邻特征,列向合并得到第一向量
Figure FDA0002951578810000012
S42、将所述第一向量映射为b维的近邻结构表达ni,其中,
Figure FDA0002951578810000013
FC表示全链接层映射;
S43、针对每个训练视频,在第一个时刻,将每个训练视频的第一帧帧级特征输入至所述编码网络,并将近邻结构表达ni以如下方式嵌入至b维的记忆状态中:
Figure FDA0002951578810000014
其中,d为固定值,Wq、Wk、Wv为编码网络的参数值,
Figure FDA0002951578810000015
表示列向合并,
Figure FDA0002951578810000016
表示对应训练视频的第一个时刻输入的帧级特征,mi,1表示第一个时刻对应的记忆状态;
S44、当有新的帧级特征输入至编码网络时,记忆状态按照如下方式进行更新:
Figure FDA0002951578810000021
其中,1<t≤M,
Figure FDA0002951578810000022
表示第t个时刻输入的帧级特征,mi,t表示第t个时刻对应的记忆状态,mi,t-1表示第t-1个时刻对应的记忆状态;
所述编码网络为LSTM网络,所述编码网络中的各个运算单元为:
Figure FDA0002951578810000023
其中,MLP表示多层映射,BN表示批规范化,Wiv、Wih、Wfv、Wfh、Wov、Woh表示所述编码网络的参数值,⊙表示内积;其中,σ函数的计算方式为σ(x)=1/(1+e-x);hi,t-1表示第t-1时刻隐层的输出、hit表示第t时刻隐层的输出;
S45,将最后一个时刻所得的隐层输出hi,M,作为对应训练视频的深度表达;
其中,
Figure FDA0002951578810000024
Figure FDA0002951578810000025
表示对应训练视频的帧级特征,θ表示编码网络的参数。
3.根据权利要求2所述的方法,其特征在于,根据使用激活函数的全链接层,将对应训练视频的深度表达进行转化,得到的一列二值码为:
bi=sgn(ti);
其中,ti=FC(hi,M,k);FC表示全链接层映射,sgn表示符号函数,当ti大于0时,sgn(ti)为1,当ti小于或等于0时,sgn(ti)为-1,k表示所述一列二值码的长度。
4.根据权利要求1所述的方法,其特征在于,所述视频训练集中包括N个训练视频,
所述重构误差函数为:
Figure FDA0002951578810000026
其中,
Figure FDA0002951578810000027
表示第i个训练视频中的第m个帧级特征,
Figure FDA0002951578810000028
表示第i个训练视频中的第m个重构帧级特征,l表示帧级特征的维度。
5.根据权利要求4所述的方法,其特征在于,所述近邻相似性误差函数为:
Figure FDA0002951578810000031
其中,sij表示第i个训练视频的时域外观特征与第j个训练视频的时域外观特征之间的相似性,ti,tj分别为二值码bi,bj的松弛表示,k表示二值码的长度,j为不大于N的正整数。
6.一种基于近邻结构保持的哈希学习装置,其特征在于,所述装置包括:
获取模块,用于获取视频训练集,针对所述视频训练集中的每个训练视频,提取所述每个训练视频的M个帧级特征;
提取模块,用于采用自动编码器,提取每个训练视频的时域外观特征,并对所述时域外观特征进行聚类,得到锚点特征集合;
所述获取模块,还用于针对每个训练视频,从所述锚点特征集合中获取每个训练视频对应的时域外观近邻特征;
编码模块,用于采用编码网络,根据所述时域外观近邻特征,将每个训练视频编码为对应的深度表达;
转化模块,用于根据使用激活函数的全链接层,将所述每个训练视频对应的深度表达,转化为一列二值码;
重构模块,用于采用译码网络,根据所述二值码重构出每个训练视频对应的M个重构帧级特征;
生成模块,用于根据每个训练视频对应的所述帧级特征和所述重构帧级特征,生成重构误差函数,并根据所述时域外观特征和所述二值码,生成近邻相似性误差函数;
训练模块,用于对网络进行训练,以使所述重构误差函数最小化,以及使所述近邻相似性误差函数最小化;其中,所述网络包括所述编码网络、所述全链接层和所述译码网络。
7.根据权利要求6所述的装置,其特征在于,每个训练视频具有a个时域外观近邻特征,分别为
Figure FDA0002951578810000032
其中,i=1,2,3,…,N,N为所述视频训练集中训练视频的个数;所述编码模块,具体用于:
将每个训练视频对应的a个时域外观近邻特征,列向合并得到第一向量
Figure FDA0002951578810000033
将所述第一向量映射为b维的近邻结构表达ni,其中,
Figure FDA0002951578810000034
FC表示全链接层映射;
针对每个训练视频,在第一个时刻,将每个训练视频的第一帧帧级特征输入至所述编码网络,并将近邻结构表达ni以如下方式嵌入至b维的记忆状态中:
Figure FDA0002951578810000041
其中,d为固定值,Wq、Wk、Wv为编码网络的参数值,
Figure FDA0002951578810000042
表示列向合并,
Figure FDA0002951578810000043
表示对应训练视频的第一个时刻输入的帧级特征,mi,1表示第一个时刻对应的记忆状态;
当有新的帧级特征输入至编码网络时,记忆状态按照如下方式进行更新:
Figure FDA0002951578810000044
其中,1<t≤M,
Figure FDA0002951578810000045
表示第t个时刻输入的帧级特征,mi,t表示第t个时刻对应的记忆状态,mi,t-1表示第t-1个时刻对应的记忆状态;
所述编码网络为LSTM网络,所述编码网络中的各个运算单元为:
Figure FDA0002951578810000046
其中,MLP表示多层映射,BN表示批规范化,Wiv、Wih、Wfv、Wfh、Wov、Woh表示所述编码网络的参数值,⊙表示内积;其中,σ函数的计算方式为σ(x)=1/(1+e-x);hi,t-1表示第t-1时刻隐层的输出、hit表示第t时刻隐层的输出;
将最后一个时刻所得的隐层输出hi,M,作为对应训练视频的深度表达;其中,
Figure FDA0002951578810000047
Figure FDA0002951578810000048
表示对应训练视频的帧级特征,θ表示编码网络的参数。
8.根据权利要求7所述的装置,其特征在于,根据使用激活函数的全链接层,将对应训练视频的深度表达进行转化,得到的一列二值码为:
bi=sgn(ti);
其中,ti=FC(hi,M,k);FC表示全链接层映射,sgn表示符号函数,当ti大于0时,sgn(ti)为1,当ti小于或等于0时,sgn(ti)为-1,k表示所述一列二值码的长度。
9.根据权利要求6所述的装置,其特征在于,所述视频训练集中包括N个训练视频,
所述重构误差函数为:
Figure FDA0002951578810000051
其中,
Figure FDA0002951578810000052
表示第i个训练视频中的第m个帧级特征,
Figure FDA0002951578810000053
表示第i个训练视频中的第m个重构帧级特征,l表示帧级特征的维度。
10.根据权利要求8所述的装置,其特征在于,所述近邻相似性误差函数为:
Figure FDA0002951578810000054
其中,sij表示第i个训练视频的时域外观特征与第j个训练视频的时域外观特征之间的相似性,ti,tj分别为二值码bi,bj的松弛表示,k表示二值码的长度,j为不大于N的正整数。
CN201910264740.9A 2019-04-03 2019-04-03 基于近邻结构保持的哈希学习方法和装置 Active CN110069666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910264740.9A CN110069666B (zh) 2019-04-03 2019-04-03 基于近邻结构保持的哈希学习方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910264740.9A CN110069666B (zh) 2019-04-03 2019-04-03 基于近邻结构保持的哈希学习方法和装置

Publications (2)

Publication Number Publication Date
CN110069666A CN110069666A (zh) 2019-07-30
CN110069666B true CN110069666B (zh) 2021-04-06

Family

ID=67366914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910264740.9A Active CN110069666B (zh) 2019-04-03 2019-04-03 基于近邻结构保持的哈希学习方法和装置

Country Status (1)

Country Link
CN (1) CN110069666B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199520B (zh) * 2020-09-19 2022-07-22 复旦大学 基于细粒度相似性矩阵的跨模态哈希检索算法
CN113111836B (zh) * 2021-04-25 2022-08-19 山东省人工智能研究院 基于跨模态哈希学习的视频解析方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012077818A1 (ja) * 2010-12-10 2012-06-14 国立大学法人豊橋技術科学大学 ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム
CN103744973A (zh) * 2014-01-11 2014-04-23 西安电子科技大学 基于多特征哈希的视频拷贝检测方法
CN107229757A (zh) * 2017-06-30 2017-10-03 中国科学院计算技术研究所 基于深度学习和哈希编码的视频检索方法
CN108304808A (zh) * 2018-02-06 2018-07-20 广东顺德西安交通大学研究院 一种基于时空信息与深度网络的监控视频对象检测方法
CN108763481A (zh) * 2018-05-29 2018-11-06 清华大学深圳研究生院 一种基于大规模街景数据的图片地理定位方法和***
CN109151501A (zh) * 2018-10-09 2019-01-04 北京周同科技有限公司 一种视频关键帧提取方法、装置、终端设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777130B (zh) * 2016-12-16 2020-05-12 西安电子科技大学 一种索引生成方法、数据检索方法和装置
CN109409208A (zh) * 2018-09-10 2019-03-01 东南大学 一种基于视频的车辆特征提取与匹配方法
CN109299097B (zh) * 2018-09-27 2022-06-21 宁波大学 一种基于哈希学习的在线高维数据最近邻查询方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012077818A1 (ja) * 2010-12-10 2012-06-14 国立大学法人豊橋技術科学大学 ハッシュ関数の変換行列を定める方法、該ハッシュ関数を利用するハッシュ型近似最近傍探索方法、その装置及びそのコンピュータプログラム
CN103744973A (zh) * 2014-01-11 2014-04-23 西安电子科技大学 基于多特征哈希的视频拷贝检测方法
CN107229757A (zh) * 2017-06-30 2017-10-03 中国科学院计算技术研究所 基于深度学习和哈希编码的视频检索方法
CN108304808A (zh) * 2018-02-06 2018-07-20 广东顺德西安交通大学研究院 一种基于时空信息与深度网络的监控视频对象检测方法
CN108763481A (zh) * 2018-05-29 2018-11-06 清华大学深圳研究生院 一种基于大规模街景数据的图片地理定位方法和***
CN109151501A (zh) * 2018-10-09 2019-01-04 北京周同科技有限公司 一种视频关键帧提取方法、装置、终端设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"二值表示学习及其应用";鲁继文;《模式识别与人工智能》;20180131;第31卷(第1期);第12-21页 *

Also Published As

Publication number Publication date
CN110069666A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
AU2019360080B2 (en) Image captioning with weakly-supervised attention penalty
US20200104640A1 (en) Committed information rate variational autoencoders
CN112509555B (zh) 方言语音识别方法、装置、介质及电子设备
WO2017158363A1 (en) Generative methods of super resolution
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111932546A (zh) 图像分割模型训练方法、图像分割方法、装置、设备及介质
Cascianelli et al. Full-GRU natural language video description for service robotics applications
CN110069666B (zh) 基于近邻结构保持的哈希学习方法和装置
CN115687571B (zh) 一种基于模态融合重建哈希的深度无监督跨模态检索方法
US20220309292A1 (en) Growing labels from semi-supervised learning
CN110990596A (zh) 一种基于自适应量化多模态哈希检索方法及***
CN114596456B (zh) 一种基于聚集哈希学习的图像集分类方法
CN116543351A (zh) 一种基于时空串并联关系编码的自监督群体行为识别方法
US20230252993A1 (en) Visual speech recognition for digital videos utilizing generative adversarial learning
CN115775350A (zh) 一种图像增强方法和装置、计算设备
CN115426075A (zh) 语义通信的编码传输方法及相关设备
CN117893859A (zh) 多模态文本图像分类方法、装置、电子设备及存储介质
Ma et al. Partial hash update via hamming subspace learning
CN116977509A (zh) 虚拟对象动作生成方法、装置、计算机设备和存储介质
CN116168394A (zh) 图像文本识别方法和装置
CN115965833A (zh) 点云序列识别模型的训练、识别方法、装置、设备及介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN115757844A (zh) 一种医学图像检索网络训练方法、应用方法及电子设备
CN116798044A (zh) 文本识别方法、装置,以及电子设备
CN115470327A (zh) 基于知识图谱的医疗问答方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant