CN105005616B - 基于文本图片特征交互扩充的文本图解方法及*** - Google Patents
基于文本图片特征交互扩充的文本图解方法及*** Download PDFInfo
- Publication number
- CN105005616B CN105005616B CN201510427365.7A CN201510427365A CN105005616B CN 105005616 B CN105005616 B CN 105005616B CN 201510427365 A CN201510427365 A CN 201510427365A CN 105005616 B CN105005616 B CN 105005616B
- Authority
- CN
- China
- Prior art keywords
- text
- data set
- picture
- theme distribution
- picture database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000003993 interaction Effects 0.000 title claims abstract description 35
- 238000009826 distribution Methods 0.000 claims abstract description 95
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 230000009193 crawling Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 3
- 230000000452 restraining effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 239000004744 fabric Substances 0.000 description 6
- 238000011524 similarity measure Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 235000020004 porter Nutrition 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
Landscapes
- Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本图片特征交互扩充的文本图解方法及***,其中,方法包括以下步骤:采集图片数据库数据集与外部文本数据集;对外部文本数据集和图片数据库数据集进行预处理;在预处理之后进行主题挖掘,以获取主题分布;根据主题分布对图片数据库数据集和外部文本数据集进行特征扩充;迭代直至收敛,并保存扩充后的图片数据库中每条数据的主题分布;输入待图解文本;得到主题分布概率;获取待图解文本与图片标签的相似度,以输出结果。本发明实施例的文本图解方法,通过文本图片特征的交互扩充,从而提高相似度计算的准确性,提高推送图片的准确率,简单便捷。
Description
技术领域
本发明涉及计算机媒体技术领域,特别涉及一种基于文本图片特征交互扩充的文本图解方法及***。
背景技术
随着互联网与网络多媒体技术的飞速发展,人们对于文本图解的需求越来越高。在社交网络中,用户习惯于用图片来匹配文字,更好的表达自己。但是,互联网中的图片数据库十分庞大,手动检索与文本相匹配的图片需要很长的时间。因此,自动化的文本图解***对于用户是非常重要的。
相关技术中,现有的文本图解***是通过计算待图解文本与图片数据库中数据的相似度,以将相似度最高的特定数量图片作为图解推送给用户。其中,计算相似度的方法主要有一下三种:一种是直接根据待图解文本与图片标签之间出现的共同词语来进行相似搜索;第二种是先提取待图解文本中的关键词语,然后再将关键词语与图片标签词语进行相似搜索;第三种是将图片数据库中每一条数据的图像特征词袋模型与图片标签词袋模型进行拼接,然后计算待图解文本的主题分布与图片数据库中数据的主题分布的相似性。
然而,相关技术中存在以下缺点:
一、根据词的共现关系计算相似度的方法最早是在图片搜索引擎上使用的,通过tf-idf等度量方式直接计算出图片的关键词与待图解文本的相似性。这种方法虽然简单直接,易于实现,并且在关键词较完整时有比较好的效果,但是直接应用文本特征进行相似度度量,没有对文本的关键信息进行提取,没有对文本的语义进行分析,使得冗余文本特征带来的噪声较大,并且没有考虑图片的内容特征,导致实际效果在很大程度上依赖于图片标签的质量。
二、根据文本中的关键词语寻找相似图片进行文本图解的方法在Barnard与Joshi等人的文本图解***中均得到了应用。该方法的具体步骤如下:(1)提取待图解文本中的描述性词语,即关键词。(2)计算提取出的关键词和每个图片的标签词语的相似度。(3)依据该相似度对备选图片排序,选择相似度最高的图片作为文本的图解。这种方法通过关键词的寻找去除了文本中的部分噪声,但是该方法没有考虑图片的内容特征,因此在很大程度上依赖于图片标签的质量。另外,直接度量两个词语的相似度而不考虑词语所处的语境也会对度量的结果造成巨大的偏差。
三、利用图片特征与图片标签信息进行拼接的方法,首先将图片特征与文本特征拼接到同一特征空间下,然后利用主题挖掘计算主题分布,并利用主题的概率分布来表示每一条数据,最后依据待图解文本特征向量与图片数据库中每个数据的主题分布的相似性排序,选出匹配的图片。利用主题挖掘的方式可以更好地挖掘词与词在深层语义空间中的关系,利用图像特征也可以更好地考虑图片内容之间的相似度,但是没有解决由于图片标签的稀疏性和词语脱离语境可能造成的语义挖掘不准确的问题。此外,直接将文本特征与图片特征拼接到同一特征空间下也忽视了图片与文本特征不同的概率分布特点。
发明内容
本发明旨在至少在一定程度上解决上述相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于文本图片特征交互扩充的文本图解方法,该方法可以提高相似度计算的准确性,并且简单便捷。
本发明的另一个目的在于提出一种基于文本图片特征交互扩充的文本图解***。
为达到上述目的,本发明一方面实施例提出了一种基于文本图片特征交互扩充的文本图解方法,包括以下步骤:S1,采集图片数据库数据集与外部文本数据集;S2,对所述外部文本数据集进行文本预处理,并且对所述图片数据库数据集进行图片特征提取和关键词预处理;S3,在预处理之后的外部文本数据集与图片数据库数据集上进行主题挖掘,以获取外部文本数据集的主题分布和图片数据库数据集的主题分布;S4,根据所述外部文本数据集的主题分布对所述图片数据库数据集进行文本特征扩充,并且根据所述图片数据库数据集的主题分布对所述外部文本数据集进行图像特征扩充;S5,迭代所述步骤S3与所述步骤S4,直至收敛,并保存扩充后的图片数据库中每条数据的主题分布;S6,输入待图解文本;S7,根据所述每条数据的主题分布对所述待图解文本进行主题推断,以得到主题分布概率;以及S8,根据所述主题分布概率获取所述待图解文本与图片标签的相似度,以输出结果。
根据本发明实施例提出的基于文本图片特征交互扩充的文本图解方法,通过对原有数据进行扩充,丰富了原有数据的表示,很好地解决了因为关键词稀疏造成的相似度量不准确问题,同时以文本特征与图像特征的对应关系为基础,分别利用文本和图片,针对文本与图片的不同特征属性特点进行扩充,将两类数据分开处理,充分考虑到二者独有的分布,避免了因为数据属性不同造成相互影响的问题,从而提高相似度计算的准确性,提高推送图片的准确率,简单便捷,提高用户的使用体验。
另外,根据本发明上述实施例的基于文本图片特征交互扩充的文本图解方法还可以具有如下附加的技术特征:
进一步地,在本发明的一个实施例中,对所述外部文本数据集进行文本预处理,进一步包括:去除所述外部文本数据集中的长文本的停用词;根据PSA(Porter StemmingAlgorithm,波特词干算法)算法对所述外部文本数据集中的词语和关键词进行去词根处理,以获取每个文本对应的词袋模型。
进一步地,在本发明的一个实施例中,对所述图片数据库数据集进行图片特征提取和关键词预处理,进一步包括:根据SIFT(Scale-invariant feature transform,尺度不变特征变换)算法提取所述图片数据库数据集中每张图片的图片特征;根据所述每张图片的图片特征检测所述每张图片的描述子,并进行聚类以得到多个聚类中心;以及根据所述多个聚类中心得到所述每张图片的词袋模型。
进一步地,在本发明的一个实施例中,根据LDA(Latent Dirichlet Allocation,文档主题生成模型)算法在所述预处理之后的外部文本数据集与图片数据库数据集上进行主题挖掘。
进一步地,在本发明的一个实施例中,根据以下公式计算相似度,所述公式为:
其中,i表示第i个待图解文本,j表示图片数据库中第j张图片,为第i个待图解文本对应的主题分布概率,为第j张图片对应的主题分布概率。
本发明另一方面实施例提出了一种基于文本图片特征交互扩充的文本图解***,包括:采集模块,用于采集图片数据库数据集与外部文本数据集;预处理模块,用于对所述外部文本数据集进行文本预处理,并且对所述图片数据库数据集进行图片特征提取和关键词预处理;处理模块,用于在预处理之后的外部文本数据集与图片数据库数据集上进行主题挖掘,以获取外部文本数据集的主题分布和图片数据库数据集的主题分布;扩充模块,用于根据所述外部文本数据集的主题分布对所述图片数据库数据集进行文本特征扩充,并且根据所述图片数据库数据集的主题分布对所述外部文本数据集进行图像特征扩充;迭代模块,用于迭代所述处理模块与所述扩充模块所做的操作,直至收敛,并保存扩充后的图片数据库中每条数据的主题分布;输入模块,用于输入待图解文本;获取模块,用于根据所述每条数据的主题分布对所述待图解文本进行主题推断,以得到主题分布概率;以及输出模块,用于根据所述主题分布概率获取所述待图解文本与图片标签的相似度,以输出结果。
根据本发明实施例提出的基于文本图片特征交互扩充的文本图解***,通过对原有数据进行扩充,丰富了原有数据的表示,很好地解决了因为关键词稀疏造成的相似度量不准确问题,同时以文本特征与图像特征的对应关系为基础,分别利用文本和图片,针对文本与图片的不同特征属性特点进行扩充,将两类数据分开处理,充分考虑到二者独有的分布,避免了因为数据属性不同造成相互影响的问题,从而提高相似度计算的准确性,提高推送图片的准确率,简单便捷,提高用户的使用体验。
另外,根据本发明上述实施例的基于文本图片特征交互扩充的文本图解***还可以具有如下附加的技术特征:
进一步地,在本发明的一个实施例中,所述预处理模块进一步用于:去除所述外部文本数据集中的长文本的停用词;根据PSA算法对所述外部文本数据集中的词语和关键词进行去词根处理,以获取每个文本对应的词袋模型。
进一步地,在本发明的一个实施例中,所述预处理模块进一步用于:根据SIFT算法提取所述图片数据库数据集中每张图片的图片特征;根据所述每张图片的图片特征检测所述每张图片的描述子,并进行聚类以得到多个聚类中心;以及根据所述多个聚类中心得到所述每张图片的词袋模型。
进一步地,在本发明的一个实施例中,所述处理模块用于根据LDA算法在所述预处理之后的外部文本数据集与图片数据库数据集上进行主题挖掘。
进一步地,在本发明的一个实施例中,根据以下公式计算相似度,所述公式为:
其中,i表示第i个待图解文本,j表示图片数据库中第j张图片,为第i个待图解文本对应的主题分布概率,为第j张图片对应的主题分布概率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于文本图片特征交互扩充的文本图解方法的流程图;
图2为根据本发明一个实施例的基于文本图片特征交互扩充的文本图解方法的流程图;
图3为根据本发明实施例的基于文本图片特征交互扩充的文本图解***的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
下面在描述根据本发明实施例提出的基于文本图片特征交互扩充的文本图解方法及***之前,先来简单描述一下相关技术中的文本图解***。
其中,文本图解***的目标是从图片数据库中选取与输入的待图解文本最为相关的特定数目图片作为输出结果。对于输出的结果,期望得到与输入文本中关键词相关的图片,并且这些图片之间也应该有一定的相关性,从而能够更好地表达输入文本想要表达的内容。在这个过程中,技术难点主要有两方面:一是图片数据库中图片描述的关键词语缺少上下文语境,长度较短,文本稀疏,存在着相似度量不准确的问题;二是图片的内容特征与文本特征之间存在关联,但是两种数据的属性不同,其特征的分布存在巨大的差异性,在计算相似性时,应当充分考虑。
传统的文本图解***均没有很好的解决上面提到的两个技术难点。对于稀疏的文本没有做特殊的处理,使得相似度计算的准确程度大大降低。在图片内容特征和图片标签信息拼接的方法中虽然引入了图像特征的概念,但是由于图像和文本具有不同的属性,二者的分布有着很大的差别,简单将两种特征拼接到一起就直接忽视了他们之间的差异性,会使得文本特征与图像特征互相影响,起到一定程度的噪音作用,从而降低自动化的文本图解***推送图片的准确率。
本发明正是基于上述问题,而提出了一种基于文本图片特征交互扩充的文本图解方法与一种基于文本图片特征交互扩充的文本图解***。
下面参照附图描述根据本发明实施例提出的基于文本图片特征交互扩充的文本图解方法及***,首先将参照附图描述根据本发明实施例提出的基于文本图片特征交互扩充的文本图解方法。参照图1所示,该文本图解方法包括以下步骤:
S1,采集图片数据库数据集与外部文本数据集。
参照图2所示,首先收集图片数据库数据集与外部文本数据集。
具体地,在本发明的一个实施例中,本发明实施例需要收集外部文本集与图片数据库两个训练数据集,与一个待图解文本的测试数据集。其中外部文本集U包含数目较多的长文本其词语的主题分布比较接近于待图解文本的主题分布,而图片数据库D中包含有关键词描述的图片数据待图解文本数据集T中包含输入的文本
S2,对外部文本数据集进行文本预处理,并且对图片数据库数据集进行图片特征提取和关键词预处理。
进一步地,参照图2所示,其次对数据集中的文本进行预处理,并且对图片数据库进行图片数据清洗和图片特征提取。
其中,在本发明的一个实施例中,对外部文本数据集进行文本预处理,进一步包括:去除外部文本数据集中的长文本的停用词;根据PSA算法对外部文本数据集中的词语和关键词进行去词根处理,以获取每个文本对应的词袋模型。
进一步地,在本发明的一个实施例中,对图片数据库数据集进行图片特征提取和关键词预处理,进一步包括:根据SIFT算法提取图片数据库数据集中每张图片的图片特征;根据每张图片的图片特征检测每张图片的描述子,并进行聚类以得到多个聚类中心;以及根据多个聚类中心得到每张图片的词袋模型。
具体地,在本发明的一个实施例中,在文本预处理的过程中,本发明实施例可以将外部文本集U中的长文本的停用词去除,之后利用PSA算法(Porter Stemming Algorithm)对U中长文本中的词语以及D中关键词进行去词根的处理,之后计算出每个文本对应的词袋模型。
其中,对于U中的每个文本Ui,其中t为文本集中所有词语的数量。
进一步地,在本发明的实施例中,本发明实施例可以利用SIFT算法提取图片数据库D中每张图片的图片特征,即每张图片得到一个ni×128的图片特征。对于每张图片i,ni是该图片检测出的描述子的数量。接下来,我们对于中的所有描述子进行聚类,得到k个聚类中心,我们将这k个聚类中心视作文本中的k个词语,得到每张图片的词袋模型。
其中,对于D中的每个文本Di,
S3,在预处理之后的外部文本数据集与图片数据库数据集上进行主题挖掘,以获取外部文本数据集的主题分布和图片数据库数据集的主题分布。
进一步地,参照图2所示,在图片数据库数据集与外部文本数据集上进行主题挖掘,计算主题分布。
优选地,在本发明的一个实施例中,根据LDA算法在预处理之后的外部文本数据集与图片数据库数据集上进行主题挖掘。
具体地,在本发明的一个实施例中,本发明实施例首先利用LDA算法在两个数据集U与D进行主题挖掘,得到U与D中的主题分布,主要有四个参数其中θU是指U中词语在主题上的分布,是指U中主题在文档上的分布,θD是指D中词语在主题上的分布,是指D中主题在文档上的分布。
S4,根据外部文本数据集的主题分布对图片数据库数据集进行文本特征扩充,并且根据图片数据库数据集的主题分布对外部文本数据集进行图像特征扩充。
进一步地,参照图2所示,根据外部文本数据集上的主题分布对图片数据库数据集进行文本特征的扩充,并且根据图片数据库数据集上的主题分布对外部文本数据集进行图像特征的扩充。
具体地,在本发明的一个实施例中,如果满足下面的公式,则图片数据集D中数据Di扩充U的词表中第j个词语wj:
通过上述公式选择出外部文本数据库U中的词语,扩充到数据Di中描述图片的关键词后,以此种方式更新所有数据
进一步地,在本发明的实施例中,如果满足下面的公式,则外部文本数据集U中数据Ui扩充D的词表中第j个词语wj:
通过上述公式选择出图片数据集D中的图片特征词语,扩充到数据Ui中,以此种方式更新所有数据
S5,迭代步骤S3与步骤S4,直至收敛,并保存扩充后的图片数据库中每条数据的主题分布。
进一步地,参照图2所示,迭代进行S3和S4中的步骤,直至收敛,并保存扩充后图片数据库中每条数据的主题分布。
具体地,在本发明的一个实施例中,迭代进行S4和S5中的步骤,即对于扩充后的U与D两个数据集重新进行主题挖掘,然后针对所得到的分布,进一步扩充文本特征与图像特征,直至达到规定的迭代次数d。最后,对扩充d次后的数据集D,挖掘其主题得到θ,两个分布。
S6,输入待图解文本。
S7,根据每条数据的主题分布对待图解文本进行主题推断,以得到主题分布概率。
进一步地,参照图2所示,基于S5中主题分布对待图解文本进行主题推断,得到主题分布概率。
具体地,在本发明的一个实施例中,对于新输入的待图解文本数据集,本发明实施例可以在θ,两个主题分布上进行主题推断,从而得到θt,其中θt是指T中词语在主题上的分布,是指T中主题在文档上的分布。
S8,根据主题分布概率获取待图解文本与图片标签的相似度,以输出结果。
最后,参照图2所示,根据主题分布概率,计算待图解文本与图片标签的相似度,并输出最相似的若干图片。
其中,在本发明的一个实施例中,根据以下公式计算相似度,公式为:
其中,i表示第i个待图解文本,j表示图片数据库中第j张图片,为第i个待图解文本对应的主题分布概率,为第j张图片对应的主题分布概率。
具体地,在本发明的一个实施例中,根据以下公式计算相似性待图解文本Ti与图片数据库中图片Dj的相似度:
对于图片数据库中的图片对依据上式计算所得的相似度进行排序,为用户推荐r张相似度最高的图片作为文本图解***的输出结果。
应理解,步骤S1和步骤S8的设置仅为了描述的方便,而不用于限制方法的执行顺序。
如上所述,在本发明的实施例中,本发明实施例具有以下优点:
1)传统的文本图解方法直接利用数据中的文本特征和图像特征计算相似度,而本发明实施例针对图像数据库中文本关键词以及文本数据库中图像特征的稀疏性特点,采用了扩充的方法来丰富文本特征与图像特征,更好地建立待图解文本与图片的关联,解决了因为文本较短、缺少上下文语境而造成的关联不准确的问题。
2)本发明实施例改变了传统方法只利用文本特征或者利用文本特征与图像特征简单拼接后计算相似度的方式,充分考虑到两种数据属性的不同特点,以图片和标签文本的对应关系为基础进行扩充。在扩充过程中,寻找与图像特征最为匹配的文本特征对文本进行扩充,寻找与文本特征最为匹配的图像特征对图像进行扩充,使得每条数据的特征更加丰富,更具有区分度。
3)迭代的扩充过程可以获得较为准确稳定的主题分布。本发明实施例利用了上下文语境来丰富文本特征与图像特征,在每一次的扩充过程中,扩充的词语会帮助图片标签词的分布进一步接近大量文本特征的分布,即更加贴近上下文语境,扩充的图片特征词也会帮助图像特征的分布进一步接近大量图像特征的分布。因此,经过一定次数的迭代,本发明实施例可以得到引入上下文语境信息后的稳定文本特征与图像特征的主题分布。
根据本发明实施例提出的基于文本图片特征交互扩充的文本图解方法,通过对原有数据进行扩充,丰富了原有数据的表示,很好地解决了因为关键词稀疏造成的相似度量不准确问题,同时以文本特征与图像特征的对应关系为基础,分别利用文本和图片,针对文本与图片的不同特征属性特点进行扩充,将两类数据分开处理,充分考虑到二者独有的分布,避免了因为数据属性不同造成相互影响的问题,从而提高相似度计算的准确性,提高推送图片的准确率,简单便捷,提高用户的使用体验。
其次将参照附图描述根据本发明实施例提出的基于文本图片特征交互扩充的文本图解***。参照图3所示,该文本图解***10包括:采集模块100、预处理模块200、处理模块300、扩充模块400、迭代模块500、输入模块600、获取模块700和输出模块800。
其中,采集模块100用于采集图片数据库数据集与外部文本数据集。预处理模块200用于对外部文本数据集进行文本预处理,并且对图片数据库数据集进行图片特征提取和关键词预处理。处理模块300用于在预处理之后的外部文本数据集与图片数据库数据集上进行主题挖掘,以获取外部文本数据集的主题分布和图片数据库数据集的主题分布。扩充模块400用于根据外部文本数据集的主题分布对图片数据库数据集进行文本特征扩充,并且根据图片数据库数据集的主题分布对外部文本数据集进行图像特征扩充。迭代模块500用于迭代处理模块与扩充模块所做的操作,直至收敛,并保存扩充后的图片数据库中每条数据的主题分布。输入模块600用于输入待图解文本。获取模块700用于根据每条数据的主题分布对待图解文本进行主题推断,以得到主题分布概率。输出模块800用于根据主题分布概率获取待图解文本与图片标签的相似度,以输出结果。本发明实施例的文本图解***10可以通过文本图片特征的交互扩充,从而提高相似度计算的准确性,提高推送图片的准确率,简单便捷。
进一步地,在本发明的一个实施例中,参照图3所示,预处理模块200进一步用于:去除外部文本数据集中的长文本的停用词;根据PSA算法对外部文本数据集中的词语和关键词进行去词根处理,以获取每个文本对应的词袋模型。
进一步地,在本发明的一个实施例中,参照图3所示,预处理模块200进一步用于:根据SIFT算法提取图片数据库数据集中每张图片的图片特征;根据每张图片的图片特征检测每张图片的描述子,并进行聚类以得到多个聚类中心;以及根据多个聚类中心得到每张图片的词袋模型。
进一步地,在本发明的一个实施例中,参照图3所示,处理模块用于300根据LDA算法在预处理之后的外部文本数据集与图片数据库数据集上进行主题挖掘。
优选地,在本发明的一个实施例中,根据以下公式计算相似度,公式为:
其中,i表示第i个待图解文本,j表示图片数据库中第j张图片,为第i个待图解文本对应的主题分布概率,为第j张图片对应的主题分布概率。
需要说明的是,本发明实施例的***的具体实现方式与方法部分的具体实现方式类似,为了减少冗余,此处不做赘述。
根据本发明实施例提出的基于文本图片特征交互扩充的文本图解***,通过对原有数据进行扩充,丰富了原有数据的表示,很好地解决了因为关键词稀疏造成的相似度量不准确问题,同时以文本特征与图像特征的对应关系为基础,分别利用文本和图片,针对文本与图片的不同特征属性特点进行扩充,将两类数据分开处理,充分考虑到二者独有的分布,避免了因为数据属性不同造成相互影响的问题,从而提高相似度计算的准确性,提高推送图片的准确率,简单便捷,提高用户的使用体验。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于文本图片特征交互扩充的文本图解方法,其特征在于,包括以下步骤:
S1,采集图片数据库数据集与外部文本数据集;
S2,对所述外部文本数据集进行文本预处理,并且对所述图片数据库数据集进行图片特征提取和关键词预处理;
S3,在预处理之后的外部文本数据集与图片数据库数据集上进行主题挖掘,以获取外部文本数据集的主题分布和图片数据库数据集的主题分布;
S4,根据所述外部文本数据集的主题分布对所述预处理之后的图片数据库数据集进行文本特征扩充,并且根据所述图片数据库数据集的主题分布对所述预处理之后的外部文本数据集进行图像特征扩充;
S5,迭代所述步骤S3与所述步骤S4,直至收敛,并保存扩充后的图片数据库中每条数据的主题分布;
S6,输入待图解文本;
S7,根据所述每条数据的主题分布对所述待图解文本进行主题推断,以得到主题分布概率;以及
S8,根据所述主题分布概率获取所述待图解文本与图片标签的相似度,以输出结果。
2.如权利要求1所述的基于文本图片特征交互扩充的文本图解方法,其特征在于,对所述外部文本数据集进行文本预处理,进一步包括:
去除所述外部文本数据集中的长文本的停用词;
根据波特词干算法对所述外部文本数据集中长文本中的词语和所述图片数据库数据集中关键词进行去词根处理,以获取每个文本对应的词袋模型。
3.如权利要求1所述的基于文本图片特征交互扩充的文本图解方法,其特征在于,对所述图片数据库数据集进行图片特征提取和关键词预处理,进一步包括:
根据SIFT算法提取所述图片数据库数据集中每张图片的图片特征;
根据所述每张图片的图片特征检测所述每张图片的描述子,并进行聚类以得到多个聚类中心;以及
根据所述多个聚类中心得到所述每张图片的词袋模型。
4.如权利要求1所述的基于文本图片特征交互扩充的文本图解方法,其特征在于,根据LDA算法在所述预处理之后的外部文本数据集与图片数据库数据集上进行主题挖掘。
5.如权利要求1所述的基于文本图片特征交互扩充的文本图解方法,其特征在于,根据以下公式计算相似度,所述公式为:
其中,i表示第i个待图解文本,j表示图片数据库中第j张图片,为第i个待图解文本对应的主题分布概率,为第j张图片对应的主题分布概率。
6.一种基于文本图片特征交互扩充的文本图解***,其特征在于,包括:
采集模块,用于采集图片数据库数据集与外部文本数据集;
预处理模块,用于对所述外部文本数据集进行文本预处理,并且对所述图片数据库数据集进行图片特征提取和关键词预处理;
处理模块,用于在预处理之后的外部文本数据集与图片数据库数据集上进行主题挖掘,以获取外部文本数据集的主题分布和图片数据库数据集的主题分布;
扩充模块,用于根据所述外部文本数据集的主题分布对所述预处理之后的图片数据库数据集进行文本特征扩充,并且根据所述图片数据库数据集的主题分布对所述预处理之后的外部文本数据集进行图像特征扩充;
迭代模块,用于迭代所述处理模块与所述扩充模块所做的操作,直至收敛,并保存扩充后的图片数据库中每条数据的主题分布;
输入模块,用于输入待图解文本;
获取模块,用于根据所述每条数据的主题分布对所述待图解文本进行主题推断,以得到主题分布概率;以及
输出模块,用于根据所述主题分布概率获取所述待图解文本与图片标签的相似度,以输出结果。
7.如权利要求6所述的基于文本图片特征交互扩充的文本图解***,其特征在于,所述预处理模块进一步用于:
去除所述外部文本数据集中的长文本的停用词;
根据波特词干算法对所述外部文本数据集中长文本中的词语和所述图片数据库数据集中关键词进行去词根处理,以获取每个文本对应的词袋模型。
8.如权利要求6所述的基于文本图片特征交互扩充的文本图解***,其特征在于,所述预处理模块进一步用于:
根据SIFT算法提取所述图片数据库数据集中每张图片的图片特征;
根据所述每张图片的图片特征检测所述每张图片的描述子,并进行聚类以得到多个聚类中心;以及
根据所述多个聚类中心得到所述每张图片的词袋模型。
9.如权利要求6所述的基于文本图片特征交互扩充的文本图解***,其特征在于,所述处理模块用于根据LDA算法在所述预处理之后的外部文本数据集与图片数据库数据集上进行主题挖掘。
10.如权利要求6所述的基于文本图片特征交互扩充的文本图解***,其特征在于,根据以下公式计算相似度,所述公式为:
其中,i表示第i个待图解文本,j表示图片数据库中第j张图片,为第i个待图解文本对应的主题分布概率,为第j张图片对应的主题分布概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510427365.7A CN105005616B (zh) | 2015-07-20 | 2015-07-20 | 基于文本图片特征交互扩充的文本图解方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510427365.7A CN105005616B (zh) | 2015-07-20 | 2015-07-20 | 基于文本图片特征交互扩充的文本图解方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105005616A CN105005616A (zh) | 2015-10-28 |
CN105005616B true CN105005616B (zh) | 2018-05-29 |
Family
ID=54378292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510427365.7A Expired - Fee Related CN105005616B (zh) | 2015-07-20 | 2015-07-20 | 基于文本图片特征交互扩充的文本图解方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105005616B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766853B (zh) * | 2016-08-16 | 2021-08-06 | 阿里巴巴集团控股有限公司 | 一种图像的文本信息的生成、显示方法及电子设备 |
CN106844424B (zh) * | 2016-12-09 | 2020-11-03 | 宁波大学 | 一种基于lda的文本分类方法 |
CN107241260B (zh) * | 2017-06-02 | 2020-05-05 | 北京百度网讯科技有限公司 | 基于人工智能的新闻推送的方法和装置 |
CN107958272B (zh) * | 2017-12-12 | 2020-11-24 | 北京旷视科技有限公司 | 图片数据集更新方法、装置、***及计算机存储介质 |
CN108304328B (zh) * | 2018-02-05 | 2021-04-27 | 苏州大学 | 一种众包测试报告的文本描述生成方法、***及装置 |
CN109947526B (zh) * | 2019-03-29 | 2023-04-11 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN114338129B (zh) * | 2021-12-24 | 2023-10-31 | 中汽创智科技有限公司 | 一种报文异常检测方法、装置、设备及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582080B (zh) * | 2009-06-22 | 2011-05-04 | 浙江大学 | 一种基于图像和文本相关性挖掘的Web图像聚类方法 |
CN104657375B (zh) * | 2013-11-20 | 2018-01-26 | 中国科学院深圳先进技术研究院 | 一种图文主题描述方法、装置以及*** |
CN104317837B (zh) * | 2014-10-10 | 2017-06-23 | 浙江大学 | 一种基于主题模型的跨模态检索方法 |
-
2015
- 2015-07-20 CN CN201510427365.7A patent/CN105005616B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN105005616A (zh) | 2015-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105005616B (zh) | 基于文本图片特征交互扩充的文本图解方法及*** | |
CN108009228B (zh) | 一种内容标签的设置方法、装置及存储介质 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN107578292B (zh) | 一种用户画像构建*** | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
US20180357211A1 (en) | Constructing a Narrative Based on a Collection of Images | |
CN109508378B (zh) | 一种样本数据处理方法及装置 | |
CN110287389A (zh) | 基于文本、语音和视频融合的多模态情感分类方法 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN108197109A (zh) | 一种基于自然语言处理的多语言分析方法和装置 | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机***和可读存储介质 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN105893478A (zh) | 一种标签提取方法及设备 | |
CN112507711B (zh) | 文本摘要抽取方法及*** | |
CN105243129A (zh) | 商品属性特征词聚类方法 | |
CN107992542A (zh) | 一种基于主题模型的相似文章推荐方法 | |
CN112948575B (zh) | 文本数据处理方法、装置和计算机可读存储介质 | |
CN110738033B (zh) | 报告模板生成方法、装置及存储介质 | |
CN102298606A (zh) | 基于标签图模型随机游走的图像自动标注方法及装置 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及*** | |
CN109472021A (zh) | 基于深度学习的医学文献中关键句筛选方法及装置 | |
CN109614626A (zh) | 基于万有引力模型的关键词自动抽取方法 | |
CN104199838B (zh) | 一种基于标签消歧的用户模型建构方法 | |
CN106649250A (zh) | 一种情感新词的识别方法及装置 | |
CN102236714A (zh) | 一种基于xml的交互应用多媒体信息检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180529 |