CN109213853B - 一种基于cca算法的中文社区问答跨模态检索方法 - Google Patents

一种基于cca算法的中文社区问答跨模态检索方法 Download PDF

Info

Publication number
CN109213853B
CN109213853B CN201810935656.0A CN201810935656A CN109213853B CN 109213853 B CN109213853 B CN 109213853B CN 201810935656 A CN201810935656 A CN 201810935656A CN 109213853 B CN109213853 B CN 109213853B
Authority
CN
China
Prior art keywords
image
text
question
feature vector
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810935656.0A
Other languages
English (en)
Other versions
CN109213853A (zh
Inventor
苏磊
刘浠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810935656.0A priority Critical patent/CN109213853B/zh
Publication of CN109213853A publication Critical patent/CN109213853A/zh
Application granted granted Critical
Publication of CN109213853B publication Critical patent/CN109213853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于CCA算法的中文社区问答跨模态检索方法,首先从中文社区的问答对中提取数据集,数据集中包括文本数据和图像数据,然后分别采用LDA主题模型提取文本数据的特征向量、采用卷积神经网络特征提取方法和K‑means聚类方法提取图像数据的特征向量,分别得到文本数据的特征向量集X和图像数据的特征向量集Y,用CCA算法将X和Y映射到同一个特征空间,然后计算文本和图像的相似度,构建图像和文本跨模态检索模型,利用跨模态检索模型进行跨模态检索,实现图文交叉检索,本发明能够为提问者的问题匹配到更合理的答案,提高了问答***中问题检索答案的性能以及准确性。

Description

一种基于CCA算法的中文社区问答跨模态检索方法
技术领域
本发明涉及一种基于CCA算法的中文社区问答跨模态检索方法,属于信息检索技术领域。
背景技术
随着中文问答社区的发展,如知乎、百度知道等中文问答社区网站每天发布有数以万计的问题,问答社区的搜索引擎一般返回给用户一系列的相关问题推荐。推荐的问题也是以前用户提出过并已得到回答而组成的问答对。但问答对数目庞大,答案中可能含有文字、图片、音视频等多模态数据。如何为提问者的问题匹配到更合理的答案,是中文社区问答平台需要解决的关键问题。近年来在中文问答***中关于提问问题和问答对相关性的研究主要是基于统计方法或机器学习方法来进行的,多是对答案中的词对齐、词匹配、主题特征及词向量特征等来完成答案选择,大多数是对文本特征进行的研究,忽略了回答中对其他模态数据的分析。综合回答中文字和图片等跨模态信息的研究,有利于为提问者匹配到更合理的答案,解决跨模态信息检索问题。
发明内容
本发明的目的在于提供一种基于CCA算法的中文社区问答跨模态检索方法,用于解决现有社区问答答案质量层次不齐和跨模态信息检索的问题,为用户匹配到更合理的答案。
本发明的技术方案是:一种基于CCA算法的中文社区问答跨模态检索方法,其特征在于,具体步骤如下:
(1)从中文社区的问答对中提取数据集,数据集中包括文本数据和图像数据,然后分别采用LDA主题模型提取文本数据的特征向量、采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量,分别得到文本数据的特征向量集X和图像数据的特征向量集Y;
(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间,然后计算文本和图像的相似度,构建图像和文本跨模态检索模型。
(3)利用步骤(2)得到的跨模态检索模型进行跨模态检索,实现图文交叉检索。
所述步骤(1)采用LDA主题模型提取文本数据的特征向量,具体步骤如下:
Stepl:将数据集中文本数据进行预处理,预处理包括分词、去除停用词、词干提取;
Step2:将预处理后的所有文本数据即问答对中的单词作为行,文本问答对中各单词出现的频率作为列,构建文本词频矩阵;
Step3:将步骤(2)的文本词频矩阵转化为一个向量列表,该列表包括单词以及单词出现的频率;
Step4:利用LDA主题模型计算每个单词对应文本数据中每条问答对的概率,设所有问答对组成的集合为D,集合D中的第k条问答对为dk,设主题的集合为T,集合T中第i个主题为ti,设每条问答对dk由一个以上的单词组成,单词集合为{w1,w2,,,wj,,,wn},则D中涉及的所有的不同的单词组成词典VOC,则每条问答对对应主题集合T中的第i个主题的概率pti为:
Figure BDA0001767754140000021
其中,nti表示每条问答对中对应第i个主题的单词的数目,n是问答对中所有单词的总数;
计算主题集合T中的主题t生成词典VOC中第j个单词的概率pwj
Figure BDA0001767754140000022
其中,Nti表示主题t对应到词典VOC中第j个单词出现的数目,N表示主题t下所有单词的总数;
则第k条问答对dk中的第j个单词wj对应主题ti的概率Pi(wj|dk)为:
Pi(wj|dk)=pti*pwj
然后对主题集合T中的所有主题求概率,得到问答对中的第j个单词wj对应的所有主题的概率,并将概率最大的作为第j个单词wj最终对应的主题;
将问答对集合D中所有的问答对分别重复以上步骤,得到分类主题,即完成用LDA模型对文本数据进行分类,分类后的结果作为文本数据的特征向量集X;
所述步骤(1)采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量的具体步骤如下:
Step1:首采用opencv图像处理方法将原始图像在不改变像素的基础上调整为统一大小的图像,并将处理后的图片作为卷积神经网络的输入层;
Step2:图像数据集经过卷积神经网络进行特征提取,卷积神经网络模型输出图像数据集的特征向量空间集,且特征向量空间集中的每个特征向量列表表示每张图像的局部特征;
Step3:然后采用K-means聚类方法将Step2得到的特征向量空间集中的所有的特征向量进行聚类分析,聚类后得到的特征向量集为图像数据的特征向量集Y。
所述步骤(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间,然后计算文本和图像的相似度,并对图文进行交叉检索,具体步骤如下:
Step1:分别计算文本数据的特征向量集X、图像数据的特征向量集Y的均值
Figure BDA0001767754140000031
Step2:然后根据
Figure BDA0001767754140000032
计算数据集的协方差矩阵Cw(X,Y):
Figure BDA0001767754140000033
Step3:将文本数据的特征向量集X进行线性表示,投影到一维,并定义μ=aTX,将图像数据的特征向量集Y进行线性表示,投影到一维,并定义v=bTY,其中aT,bT分别为特征向量的转置,然后最大化μ和v的相关性,μ和v的相关性表示如下:
Figure BDA0001767754140000034
对该公式进行求解,首先固定分母,求解分子,将Corr(μ,v)的求解条件重写为:
Maximize:aTCw(X,Y)b
subject to:aTCw(X,X)a=1,bTCw(Y,Y)b=1
对其求解的方式是构造Lagrangian等式:
Figure BDA0001767754140000035
其中,λ和θ为参数,对λ和θ分别求导,并令导数为0,得到方程组:
求导,令导数为0,得到方程组:
Cw(X,Y)b-λCw(X,X)a=0 (1)
Cw(Y,X)a-θCw(Y,Y)b=0 (2)
再将其转换为:
aT(Cw(X,Y)b-λCw(X,X)a)=0
bT(Cw(Y,X)a-θCw(Y,Y)b)=0
根据已知条件中aTCw(X,X)a=1,bTCw(Y,Y)b=1,得到:
λ=θ=aTCw(X,Y)b
求出的λ即为Corr(μ,v),故只需计算λ的最大值,将上面的方程(1)(2)进一步简化,得到
Cw(X,X)-1Cw(X,Y)b=λa (3)
Cw(Y,Y)-1Cw(Y,X)b=λb (4)
其矩阵的表示形式为:
Figure BDA0001767754140000041
最终求解结果为:
Cw(X,X)-1Cw(X,Y)Cw(Y,Y)-1Cw(Y,X)=λ2a
对其求解特征值λ2和特征向量a,再根据上述等式(3)求得b,故得到了文本数据X和图像数据Y的替代变量u和v,λ是u和v的相关系数;
Step4:令向量ρD作为文本特征向量集X映射到u的最大子空间上的一个空间坐标,令向量ρI作为图像特征空间Y映射到v的最大子空间上的一个空间坐标,给定一个查询问答对dk和它的文本特征投影向量ρD,求出文本特征投影向量ρD与所有的图像数据特征投影向量之间的距离d(ρT,ρI),将计算的d(ρr,ρI)最小值的图像作为与文本特征投影向量ρD最匹配的检索图像,通过文本数据的投影向量与图像数据的投影向量得到文本数据集中的问答对与图像数据集中的最匹配的图像;同理,给定一个查询图像I和它的投影ρI,求出图像的投影ρI与所有的文本数据的投影ρD之间的距离d(ρI,ρD),将计算的d(ρI,ρD)的最小值的问答对作为与图像投影最匹配的问答对,从而实现图像和文本间的交叉检索,构建了图像和文本的跨模态检索模型。
与现有技术相比,本发明的有益效果是:本发明通过LDA方法进行文本特征提取、运用卷积神经网络及K-means聚类方法进行图片的特征提取后,运用CCA方法进行相关性分析,利用文字和图片等跨模态信息,能够为提问者的问题匹配到更合理的答案,提高了问答***中问题检索答案的性能以及准确性。
附图说明
图1为本发明方法的总体流程图;
图2为本发明的图像检索文本和文本检索图像示例图(Sogou数据集);
图3为本发明的中文社区问答跨模态检索构建过程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。
实施例1:如图1~3所示,本基于CCA算法的中文社区问答跨模态检索方法具体步骤如下:
(1)从中文社区的问答对中提取数据集,数据集中包括文本数据和图像数据,然后分别采用LDA主题模型提取文本数据的特征向量、采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量,分别得到文本数据的特征向量集X和图像数据的特征向量集Y;
(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间,然后计算文本和图像的相似度,构建图像和文本跨模态检索模型。
(3)利用步骤(2)得到的跨模态检索模型进行跨模态检索,实现图文交叉检索。
所述步骤(1)采用LDA主题模型提取文本数据的特征向量,具体步骤如下:
Step1:将数据集中文本数据进行预处理,预处理包括分词、去除停用词、词干提取;
Step2:将预处理后的所有文本数据即问答对中的单词作为行,文本问答对中各单词出现的频率作为列,构建文本词频矩阵;
Step3:将步骤(2)的文本词频矩阵转化为一个向量列表,该列表包括单词以及单词出现的频率;
Step4:利用LDA主题模型计算每个单词对应文本数据中每条问答对的概率,设所有问答对组成的集合为D,集合D中的第k条问答对为dk,设主题的集合为T,集合T中第i个主题为ti,设每条问答对dk由一个以上的单词组成,单词集合为{w1,w2,,,wj,,,wn},则D中涉及的所有的不同的单词组成词典VOC,则每条问答对对应主题集合T中的第i个主题的概率pti为:
Figure BDA0001767754140000061
其中,nti表示每条问答对中对应第i个主题的单词的数目,n是问答对中所有单词的总数;
计算主题集合T中的主题t生成词典VOC中第j个单词的概率pwj
Figure BDA0001767754140000062
其中,Nti表示主题t对应到词典VOC中第j个单词出现的数目,N表示主题t下所有单词的总数;
则第k条问答对dk中的第j个单词wj对应主题ti的概率Pi(wj|dk)为:
Pi(wj|dk)=pti*pwj
然后对主题集合T中的所有主题求概率,得到问答对中的第j个单词wj对应的所有主题的概率,并将概率最大的作为第j个单词wj最终对应的主题;
将问答对集合D中所有的问答对分别重复以上步骤,得到分类主题,即完成用LDA模型对文本数据进行分类,分类后的结果作为文本数据的特征向量集X:
所述步骤(1)采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量的具体步骤如下:
Step1:首采用opencv图像处理方法将原始图像在不改变像素的基础上调整为统一大小的图像,并将处理后的图片作为卷积神经网络的输入层;
Step2:图像数据集经过卷积神经网络进行特征提取,卷积神经网络模型输出图像数据集的特征向量空间集,且特征向量空间集中的每个特征向量列表表示每张图像的局部特征;
Step3:然后采用K-means聚类方法将Step2得到的特征向量空间集中的所有的特征向量进行聚类分析,聚类后得到的特征向量集为图像数据的特征向量集Y。
所述步骤(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间,然后计算文本和图像的相似度,并对图文进行交叉检索,具体步骤如下:
Step1:分别计算文本数据的特征向量集X、图像数据的特征向量集Y的均值
Figure BDA0001767754140000071
Step2:然后根据
Figure BDA0001767754140000072
计算数据集的协方差矩阵Cw(X,Y):
Figure BDA0001767754140000073
Step3:将文本数据的特征向量集X进行线性表示,投影到一维,并定义μ=aTX,将图像数据的特征向量集Y进行线性表示,投影到一维,并定义v=bTY,其中aT,bT分别为特征向量的转置,然后最大化μ和v的相关性,μ和v的相关性表示如下:
Figure BDA0001767754140000074
对该公式进行求解,首先固定分母,求解分子,将Corr(μ,v)的求解条件重写为:
Maximize:aTCw(X,Y)b
subject to:aTCw(X,X)a=1,bTCw(Y,Y)b=1
对其求解的方式是构造Lagrangian等式:
Figure BDA0001767754140000075
其中,λ和θ为参数,对λ和θ分别求导,并令导数为0,得到方程组:
求导,令导数为0,得到方程组:
Cw(X,Y)b-λCw(X,X)a=0 (1)
Cw(Y,X)a-θCw(Y,Y)b=0 (2)
再将其转换为:
aT(Cw(X,Y)b-λCw(X,X)a)=0
bT(Cw(Y,X)a-θCw(Y,Y)b)=0
根据已知条件中aTCw(X,X)a=1,bTCw(Y,Y)b=1,得到:
λ=θ=aTCw(X,Y)b
求出的λ即为Corr(μ,v),故只需计算λ的最大值,将上面的方程(1)(2)进一步简化,得到
Cw(X,X)-1Cw(X,Y)b=λa (3)
Cw(Y,Y)-1Cw(Y,X)b=λb (4)
其矩阵的表示形式为:
Figure BDA0001767754140000081
最终求解结果为:
Cw(X,X)-1Cw(X,Y)Cw(Y,Y)-1Cw(Y,X)=λ2a
对其求解特征值λ2和特征向量a,再根据上述等式(3)求得b,故得到了文本数据X和图像数据Y的替代变量u和v,λ是u和v的相关系数;
Step4:令向量ρD作为文本特征向量集X映射到u的最大子空间上的一个空间坐标,令向量ρI作为图像特征空间Y映射到v的最大子空间上的一个空间坐标,给定一个查询问答对dk和它的文本特征投影向量ρD,求出文本特征投影向量ρD与所有的图像数据特征投影向量之间的距离d(ρT,ρI),将计算的d(ρT,ρI)最小值的图像作为与文本特征投影向量ρD最匹配的检索图像,通过文本数据的投影向量与图像数据的投影向量得到文本数据集中的问答对与图像数据集中的最匹配的图像;同理,给定一个查询图像I和它的投影ρI,求出图像的投影ρI与所有的文本数据的投影ρD之间的距离d(ρI,ρD),将计算的d(ρI,ρD)的最小值的问答对作为与图像投影最匹配的问答对,从而实现图像和文本间的交叉检索,构建了图像和文本的跨模态检索模型。
本实施例将所提出的图像和文本跨模态检索模型在Sogou自然语言数据集与图片数据集上进行跨模态语义相关检索实验,具体结果如图2所示。假设Sogou自然语言数据集中的文本是问答社区中用户所提出的问题,而Sogou图片数据集中的图片是问答社区中回答中所包含的图片,图2中分别展示了基于主题模型和卷积神经网络结合起来的模型用于图像检索文本或者文本检索图像的实例。在图2(a)和2(b)示意图中的X轴代表语义类别的id,Y轴代表跨模态检索任务在对应语义类别上的排序值归一化的结果。在图2(a)中以“体育”类别中的橄榄球体育运动为例进行跨模态检索,返回的结果文本都是描述该运动比赛所对应的文本,从图2(a)中的直方图中也同样可以看出检索出来的结果与图像非常相关。在文本检索图像任务中如图2(b)所示,在该图中的上部分是以文检图任务所得到与文本对应的图像,下半部分是文本检索图像所对应的不同语义结果分布直方图。该直方图中的X轴和Y轴都和图2(a)中的直方图中的X轴和Y轴意义相同。图2(b)中是以“地理”类别中的山水语义主题的文本进行检索图像。从上面的实验结果分可以分析出,跨模态检索任务返回的检索结果与输入语料属于同一类别中的相似度还是比较高的。因此,可以通过本发明所提出的方法分析问答社区中的问题文本与回答中的图片的相似性,从而调整返回答案的顺序,为用户返回更加合理的答案。
本发明创新性地引入了跨模态CCA方法,将问答社区中用户提出问题的文本特征与答案中的图片特征映射到同一特征空间中,计算它们的最大相似度,为用户提出的问题匹配更合理的答案。首先用常规PageRank方法对答案进行初始排序,但是该方法“投票”选出的答案排序并不一定是最合理的答案。因此在该排序上使用CCA方法进行进一步的调整,优化答案的排序,从而为用户返回更合理的答案。本发明有现有技术相比,对答案的排序进行改进后,能够为提问者的问题匹配到更合理的答案,提高了问答***中问题检索答案的性能以及准确性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.一种基于CCA算法的中文社区问答跨模态检索方法,其特征在于,具体步骤如下:
(1)从中文社区的问答对中提取数据集,数据集中包括文本数据和图像数据,然后分别采用LDA主题模型提取文本数据的特征向量、采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量,分别得到文本数据的特征向量集X和图像数据的特征向量集Y;
(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间,然后计算文本和图像的相似度,构建图像和文本跨模态检索模型;
(3)利用步骤(2)得到的跨模态检索模型进行跨模态检索,实现图文交叉检索;
所述步骤(1)采用LDA主题模型提取文本数据的特征向量,具体步骤如下:
Stepl:将数据集中文本数据进行预处理,预处理包括分词、去除停用词、词干提取;
Step2:将预处理后的所有文本数据即问答对中的单词作为行,文本问答对中各单词出现的频率作为列,构建文本词频矩阵;
Step3:将步骤Step2的文本词频矩阵转化为一个向量列表,该列表包括单词以及单词出现的频率;
Step4:利用LDA主题模型计算每个单词对应文本数据中每条问答对的概率,设所有问答对组成的集合为D,集合D中的第k条问答对为dk,设主题的集合为T,集合T中第i个主题为ti,设每条问答对dk由一个以上的单词组成,单词集合为{w1,w2,,,wj,,,wn},则D中涉及的所有的不同的单词组成词典VOC,则每条问答对对应主题集合T中的第i个主题的概率pti为:
Figure FDA0003364312430000011
其中,nti表示每条问答对中对应第i个主题的单词的数目,n是问答对中所有单词的总数;
计算主题集合T中的主题t生成词典VOC中第j个单词的概率pwj
Figure FDA0003364312430000021
其中,Ntj表示主题t对应到词典VOC中第j个单词出现的数目,N表示主题t下所有单词的总数;
则第k条问答对dk中的第j个单词wj对应主题ti的概率Pi(wj|dk)为:
Pi(wj|dk)=pti*pwj
然后对主题集合T中的所有主题求概率,得到问答对中的第j个单词wj对应的所有主题的概率,并将概率最大的作为第j个单词wj最终对应的主题;
将问答对集合D中所有的问答对分别重复以上步骤,得到分类主题,即完成用LDA模型对文本数据进行分类,分类后的结果作为文本数据的特征向量集X。
2.根据权利要求1所述的基于CCA算法的中文社区问答跨模态检索方法,其特征在于:所述步骤(1)采用卷积神经网络特征提取方法和K-means聚类方法提取图像数据的特征向量的具体步骤如下:
Step1:首采用opencv图像处理方法将原始图像在不改变像素的基础上调整为统一大小的图像,并将处理后的图片作为卷积神经网络的输入层;
Step2:图像数据集经过卷积神经网络进行特征提取,卷积神经网络模型输出图像数据集的特征向量空间集,且特征向量空间集中的每个特征向量列表表示每张图像的局部特征;
Step3:然后采用K-means聚类方法将Step2得到的特征向量空间集中的所有的特征向量进行聚类分析,聚类后得到的特征向量集为图像数据的特征向量集Y。
3.根据权利要求1所述的基于CCA算法的中文社区问答跨模态检索方法,其特征在于:所述步骤(2)用CCA算法将步骤(1)文本数据的特征向量集和图像数据的特征向量集映射到同一个特征空间,然后计算文本和图像的相似度,并对图文进行交叉检索,具体步骤如下:
Step1:分别计算文本数据的特征向量集X、图像数据的特征向量集Y的均值
Figure FDA0003364312430000022
Step2:然后根据
Figure FDA0003364312430000023
计算数据集的协方差矩阵Cw(X,Y):
Figure FDA0003364312430000031
Step3:将文本数据的特征向量集X进行线性表示,投影到一维,并定义μ=aTX,将图像数据的特征向量集Y进行线性表示,投影到一维,并定义v=bTY,其中aT,bT分别为特征向量的转置,然后最大化μ和v的相关性,μ和v的相关性表示如下:
Figure FDA0003364312430000032
对该公式进行求解,首先固定分母,求解分子,将Corr(μ,v)的求解条件重写为:
Maximize:aTCw(X,Y)b
subject to:aTCw(X,X)a=1,bTCw(Y,Y)b=1
对其求解的方式是构造Lagrangian等式:
Figure FDA0003364312430000033
其中,λ和θ为参数,对λ和θ分别求导,并令导数为0,得到方程组:
Cw(X,Y)b-λCw(X,X)a=0 (1)
Cw(Y,X)a-θCw(Y,Y)b=0 (2)
再将其转换为:
aT(Cw(X,Y)b-λCw(X,X)a)=0
bT(Cw(Y,X)a-θCw(Y,Y)b)=0
根据已知条件中aTCw(X,X)a=1,bTCw(Y,Y)b=1,得到:
λ=θ=aTCw(X,Y)b
求出的λ即为Corr(μ,v),故只需计算λ的最大值,将上面的方程(1)(2)进一步简化,得到
Cw(X,X)-1Cw(X,Y)b=λa(3)
Cw(Y,Y)-1Cw(Y,X)b=λb(4)
其矩阵的表示形式为:
Figure FDA0003364312430000034
最终求解结果为:
Cw(X,X)-1Cw(X,Y)Cw(Y,Y)-1Cw(Y,X)=λ2a
对其求解特征值λ2和特征向量a,再根据上述等式(3)求得b,故得到了文本数据X和图像数据Y的替代变量u和v,λ是u和v的相关系数;
Step4:令向量ρD作为文本特征向量集X映射到u的最大子空间上的一个空间坐标,令向量ρI作为图像特征空间Y映射到v的最大子空间上的一个空间坐标,给定一个查询问答对dk和它的文本特征投影向量ρD,求出文本特征投影向量ρD与所有的图像数据特征投影向量之间的距离d(ρT,ρI),将计算的d(ρT,ρI)最小值的图像作为与文本特征投影向量ρD最匹配的检索图像,通过文本数据的投影向量与图像数据的投影向量得到文本数据集中的问答对与图像数据集中的最匹配的图像;同理,给定一个查询图像I和它的投影ρI,求出图像的投影ρI与所有的文本数据的投影ρD之间的距离d(ρI,ρD),将计算的d(ρI,ρD)的最小值的问答对作为与图像投影最匹配的问答对,从而实现图像和文本间的交叉检索,构建了图像和文本的跨模态检索模型。
CN201810935656.0A 2018-08-16 2018-08-16 一种基于cca算法的中文社区问答跨模态检索方法 Active CN109213853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810935656.0A CN109213853B (zh) 2018-08-16 2018-08-16 一种基于cca算法的中文社区问答跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810935656.0A CN109213853B (zh) 2018-08-16 2018-08-16 一种基于cca算法的中文社区问答跨模态检索方法

Publications (2)

Publication Number Publication Date
CN109213853A CN109213853A (zh) 2019-01-15
CN109213853B true CN109213853B (zh) 2022-04-12

Family

ID=64988633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810935656.0A Active CN109213853B (zh) 2018-08-16 2018-08-16 一种基于cca算法的中文社区问答跨模态检索方法

Country Status (1)

Country Link
CN (1) CN109213853B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840287B (zh) * 2019-01-31 2021-02-19 中科人工智能创新技术研究院(青岛)有限公司 一种基于神经网络的跨模态信息检索方法和装置
CN110209784B (zh) * 2019-04-26 2024-03-12 腾讯科技(深圳)有限公司 消息交互方法、计算机设备及存储介质
CN110298395B (zh) * 2019-06-18 2023-04-18 天津大学 一种基于三模态对抗网络的图文匹配方法
CN112825109B (zh) * 2019-11-20 2024-02-23 南京贝湾信息科技有限公司 一种句子对齐方法及计算设备
CN111159366A (zh) * 2019-12-05 2020-05-15 重庆兆光科技股份有限公司 一种基于正交主题表示的问答优化方法
CN113392196B (zh) * 2021-06-04 2023-04-21 北京师范大学 一种基于多模态交叉比较的题目检索方法和***
CN117932161B (zh) * 2024-03-22 2024-05-28 成都数据集团股份有限公司 一种多源多模态数据的可视化搜索方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986298A (zh) * 2010-10-28 2011-03-16 浙江大学 用于在线论坛的信息实时推荐方法
CN102567483A (zh) * 2011-12-20 2012-07-11 华中科技大学 多特征融合的人脸图像搜索方法和***
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN104504087A (zh) * 2014-12-25 2015-04-08 中国科学院电子学研究所 一种基于低秩分解的精细主题挖掘方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN108334601A (zh) * 2018-01-31 2018-07-27 腾讯音乐娱乐科技(深圳)有限公司 基于标签主题模型的歌曲推荐方法、装置及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101986298A (zh) * 2010-10-28 2011-03-16 浙江大学 用于在线论坛的信息实时推荐方法
CN102567483A (zh) * 2011-12-20 2012-07-11 华中科技大学 多特征融合的人脸图像搜索方法和***
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN104504087A (zh) * 2014-12-25 2015-04-08 中国科学院电子学研究所 一种基于低秩分解的精细主题挖掘方法
CN105243152A (zh) * 2015-10-26 2016-01-13 同济大学 一种基于图模型的自动文摘方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN108334601A (zh) * 2018-01-31 2018-07-27 腾讯音乐娱乐科技(深圳)有限公司 基于标签主题模型的歌曲推荐方法、装置及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Cross-modal Retrieval of Chinese-CQA Based on CCA Algorithm;Xi LIU等;《Simulation and Mathematical Statistics (CMSMS 2018)》;20180625;第310-317页 *
Latent Dirichlet Allocation;David M. Blei等;《Journal of Machine Learning Research》;20031231;第993-1022页 *
Xi LIU等.Cross-modal Retrieval of Chinese-CQA Based on CCA Algorithm.《Simulation and Mathematical Statistics (CMSMS 2018)》.2018,第310-317页. *

Also Published As

Publication number Publication date
CN109213853A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109213853B (zh) 一种基于cca算法的中文社区问答跨模态检索方法
CN111538908B (zh) 搜索排序方法、装置、计算机设备和存储介质
US11816888B2 (en) Accurate tag relevance prediction for image search
CN109800306B (zh) 意图分析方法、装置、显示终端及计算机可读存储介质
Bruni et al. Distributional semantics from text and images
Shen et al. Question/answer matching for CQA system via combining lexical and sequential information
CN103262118B (zh) 属性值估计装置和属性值估计方法
CN111708873A (zh) 智能问答方法、装置、计算机设备和存储介质
CN102663129A (zh) 医疗领域深度问答方法及医学检索***
CN111400493A (zh) 基于槽位相似度的文本匹配方法、装置、设备及存储介质
CN114332680A (zh) 图像处理、视频搜索方法、装置、计算机设备和存储介质
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
KR102398832B1 (ko) 지식 그래프에 기초하여 응답을 도출하는 장치, 방법 및 컴퓨터 프로그램
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN109614480B (zh) 一种基于生成式对抗网络的自动摘要的生成方法及装置
CN112434134B (zh) 搜索模型训练方法、装置、终端设备及存储介质
CN106227836B (zh) 基于图像与文字的无监督联合视觉概念学习***及方法
CN116992007B (zh) 基于问题意图理解的限定问答***
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN113722512A (zh) 基于语言模型的文本检索方法、装置、设备及存储介质
CN117093739A (zh) 图像生成以及图文对齐方法、装置、终端设备及存储介质
CN114416929A (zh) 实体召回模型的样本生成方法、装置、设备及存储介质
CN112667797B (zh) 自适应迁移学习的问答匹配方法、***及存储介质
CN108268883B (zh) 基于开放数据的移动端信息模板自构建***
CN113705310A (zh) 特征学习的方法、目标物体的识别方法和对应装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant