CN114297415A - 面向全媒体数据空间的多源异构数据存储方法及检索方法 - Google Patents
面向全媒体数据空间的多源异构数据存储方法及检索方法 Download PDFInfo
- Publication number
- CN114297415A CN114297415A CN202111623678.1A CN202111623678A CN114297415A CN 114297415 A CN114297415 A CN 114297415A CN 202111623678 A CN202111623678 A CN 202111623678A CN 114297415 A CN114297415 A CN 114297415A
- Authority
- CN
- China
- Prior art keywords
- data
- vector
- text
- image
- user query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向全媒体数据空间的多源异构数据存储方法及检索方法,所述方法包括:获取待存储数据,其中,待存储数据包含图像数据和/或文本数据;将待存储数据向量化,得到第一向量;将第一向量输入至训练好的生成判别模型,得到第二向量,其中,生成判别模型包括生成器和判别器,生成器用于基于输入的图像向量或者文本向量输出调整后图像向量或文本向量,判别器用于识别生成器输出的向量的模态类型,通过反复对抗训练至损失函数收敛,得到训练好的生成判别模型;将第二向量存储在第一预置数据库。本发明可提高跨模态检索的准确性。
Description
技术领域
本发明涉及跨模态信息检索技术领域,具体涉及一种面向全媒体数据空间的多源异构数据存储方法及检索方法。
背景技术
全媒体数据空间是广播、电视、报纸等媒体设计、创作、发行、管理等业务域中产生的全体系、全价值链对象构成的文本、图像、视频、音频等数据空间,网络中充斥着大量文本数据、图像数据、视频数据、音频数据,是网络世界常见的数据模态,具有丰富的信息量和极高的检索需求。
在实际检索时,需对检索词与数据库中的数据进行相似度对比,通常将检索词与数据库中的数据向量化后进行向量相似度对比。不同模态的数据有该领域常规的向量转化方法,比如文本模态的数据可通过向量空间模型VSM将文本映射为特征向量,图像模态的数据可通过CNN等深度神经网络向量化。不同模态的数据转化后的向量之间存在较大差距,因而在跨模态检索中,若直接对比不同模态数据通过各自领域的常规方法转化获得的向量,会导致相似度对比结果不准确,进而导致检索结果准确性低的问题。
发明内容
本发明解决的问题是现有的跨模态检索存在检索结果准确性低的问题。
本发明提出一种面向全媒体数据空间的多源异构数据存储方法,包括:
获取待存储数据,其中,所述待存储数据包含图像数据和/或文本数据;
将所述待存储数据向量化,得到第一向量;
将所述第一向量输入至训练好的生成判别模型,得到第二向量,其中,所述生成判别模型包括生成器和判别器,所述生成器用于基于输入的图像向量或者文本向量输出调整后图像向量或文本向量,所述判别器用于识别所述生成器输出的向量的模态类型,通过反复对抗训练至损失函数收敛,得到训练好的所述生成判别模型;
将所述第二向量存储在第一预置数据库。
可选地,所述获取待存储数据包括:
获取原始数据;
当所述原始数据为音频数据时,将所述音频数据转化为文本数据,作为所述待存储数据;
当所述原始数据为视频数据时,从所述视频数据中提取关键帧图像,作为所述待存储数据;
当所述原始数据为图像数据或者文本数据时,将所述图像数据或者文本数据作为所述待存储数据。
可选地,所述第一预置数据库采用正向索引和倒排索引结合的方式建立数据索引,具体包括:
为所述第一预置数据库划分多个数据分区,为每个所述数据分区构建一个正向索引表,在所述正向索引表中将所述数据分区中的所有数据按顺序编号,每个数据的属性信息存储在该数据对应的正向索引中,其中,所述属性信息包括数据的标识信息;
通过聚类算法将所述数据分区中的数据进行相似度聚类后进行分类,得到多个数据子集,为每个所述数据分区设置一个倒排索引表,在所述倒排索引表上设置各个所述数据子集对应的索引区域,分别用于存储所述数据子集中各数据的所述标识信息。
可选地,所述的面向全媒体数据空间的多源异构数据存储方法,还包括:
当存储模式为图文存储模式或事件存储模式时,执行所述获取待存储数据的步骤;
当存储模式为文本存储模式时,获取待存储文本,将所述待存储文本向量化后存储在文本数据库;
当存储模式为图像存储模式时,获取待存储图像,将所述待存储图像向量化后存储在图像数据库。
可选地,当存储模式为事件存储模式时,所述第一预置数据库为事件数据库,每条数据对应存储的属性信息包括事件id、事件向量、事件url、人物和事件描述,其中,所述事件向量包括事件图像向量和文本向量;
当存储模式为图文存储模式时,所述第一预置数据库为图文数据库,每条图像数据包括数据id、图像向量及图像url,每条文本数据包括数据id、文本向量及文本url。
可选地,所述聚类算法为k-means算法。
本发明还提出一种面向全媒体数据空间的多源异构数据检索方法,包括:
接收用户查询指令,生成所述用户查询指令对应的用户查询向量;
基于所述用户查询向量,分别在第二预置数据库的各个数据分区搜索,获得每个数据分区中与所述用户查询向量的最相似数据子集,其中,所述第二预置数据库中的数据采用如上所述的面向全媒体数据空间的多源异构数据存储方法存储;
在每个所述最相似数据子集中,分别采用HNSW算法进行搜索,得到每个所述最相似数据子集中与所述用户查询向量相似的数据,其中,所述最相似数据子集通过在所述数据分区采用聚类算法聚类而得;
根据每个所述最相似数据子集中与所述用户查询向量相似的数据,获得各所述数据分区中与所述用户查询向量最相似的前M个数据,作为各所述数据分区的检索结果;
根据各所述数据分区的检索结果获得与所述用户查询指令对应的最终查询结果。
可选地,所述接收用户查询指令,生成所述用户查询指令对应的用户查询向量之后,且所述基于所述用户查询向量,分别在第二预置数据库的各个数据分区搜索之前包括:
根据所述用户查询指令确定查询模式;
当所述查询模式为图文互搜模式时,所述第二预置数据库为图文数据库;
当所述查询模式为事件搜索时,所述第二预置数据库为事件数据库;
当所述查询模式为文搜文模式时,所述第二预置数据库为文本数据库;
当所述查询模式为图搜图模式时,所述第二预置数据库为图像数据库。
本发明还提出一种面向全媒体数据空间的多源异构数据检索***,包括:前端模块、至少一个集成器模块、至少一个中继器模块和多个搜索器模块,每个所述集成器模块对应至少一个所述中继器模块,每个所述中继器模块对应多个所述搜索器模块;
所述前端模块,其用于接收用户查询指令,并将所述用户查询指令转发给所述集成器模块;
所述集成器模块,其用于将接收的所述用户查询指令发送给所述集成器模块自身对应的所有所述中继器模块;
所述中继器模块,其用于将接收的所述用户查询指令发送给所述中继器模块自身对应的所有所述搜索器模块;
所述搜索器模块,其用于生成所述用户查询指令对应的用户查询向量,基于所述用户查询向量,分别在第二预置数据库的各个数据分区搜索,获得每个数据分区中与所述用户查询向量的最相似数据子集,其中,所述第二预置数据库中的数据采用如权利要求1至6中任一项所述的面向全媒体数据空间的多源异构数据存储方法存储;在每个所述最相似数据子集中,分别采用HNSW算法进行搜索,得到每个所述最相似数据子集中与所述用户查询向量相似的数据,其中,所述最相似数据子集通过在所述数据分区采用聚类算法聚类而得,每个所述搜索器模块负责一个所述数据分区的搜索操作;其还用于根据每个所述最相似数据子集中与所述用户查询向量相似的数据,获得各所述数据分区中与所述用户查询向量最相似的前M个数据,作为各所述数据分区的检索结果;
所述中继器模块,其还用于将来自其对应的所述搜索器模块的检索结果合并,再发送回对应的所述集成器模块;
所述集成器模块,其还用于对接收的所述检索结果进行排序处理后,作为所述用户查询指令对应的最终查询结果返回给所述前端模块。
本发明还提出一种面向全媒体数据空间的多源异构数据存储装置,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上所述的面向全媒体数据空间的多源异构数据存储方法。
本发明通过将待存储数据向量化后,输入至训练好的生成判别模型,由生成判别模型对输入的向量进行处理后,输出最终用于存储在第一预置数据库中的第二向量,其中的生成判别模型可将输入的不同模态的向量进行调整,降低不同模态的向量之间的差距,进而提高不同模态的向量相似度计算的准确性,从而提高检索准确性。
附图说明
图1为本发明实施例面向全媒体数据空间的多源异构数据存储方法一流程示意图;
图2为本发明实施例面向全媒体数据空间的多源异构数据存储方法另一流程示意图;
图3为本发明实施例面向全媒体数据空间的多源异构数据存储方法一框架示意图;
图4为本发明实施例面向全媒体数据空间的多源异构数据检索方法一流程示意图;
图5为本发明实施例面向全媒体数据空间的多源异构数据存储方法中正排索引表的示意图;
图6为本发明实施例面向全媒体数据空间的多源异构数据存储方法中倒排索引表的示意图;
图7为本发明实施例面向全媒体数据空间的多源异构数据检索方法中HNSW算法的原理示意图;
图8为本发明实施例面向全媒体数据空间的多源异构数据检索***的架构示意图;
图9为本发明实施例面向全媒体数据空间的多源异构数据检索***一实例的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
参见图1和图2,在本发明一实施例中,本发明面向全媒体数据空间的多源异构数据存储方法,包括:
步骤S1,获取待存储数据,其中,所述待存储数据包含图像数据和/或文本数据。
待存储数据,可仅包含图像数据,或者仅包含文本数据,或者既包含图像数据又包含文本数据。
可选地,所述获取待存储数据包括:获取原始数据;当所述原始数据为音频数据时,将所述音频数据转化为文本数据,作为所述待存储数据;当所述原始数据为视频数据时,从所述视频数据中提取关键帧图像,作为所述待存储数据;当所述原始数据为图像数据或者文本数据时,将所述图像数据或者文本数据作为所述待存储数据。
其中,原始数据,指拟存储的未经本发明所述方法处理的数据。例如,通过数据爬虫从特定网站爬取到的原始数据。
其中,可通过常用的语音识别算法将音频数据转化为文本数据,例如基于参数模型的隐马尔可夫模型(HMM)的方法、循环神经网络算法等。其中,对于从音频模态转化为文本模态的数据,将音频url与其关联存储。
从视频数据中提取的关键帧图像,可以为从视频数据中随机提取的一帧或多帧图像,也可以为固定位置的一帧或多帧图像图像,比如视频的第一帧图像,和/或视频的中间帧图像,和/或视频的最后一帧图像。因存在大量视频数据,为了简化处理步骤,提高检索效率,每个视频仅提取一帧或多帧图像。其中,对于从视频模态转化为图像模态的数据,将视频url与其关联存储。
通过识别原始数据的数据模态,将音频数据转化为文本数据,将视频数据转化为图像数据,使得最终存储在数据库中的数据模态仅包含文本和图像,降低存储空间的占用以及检索过程中的计算量,提高检索效率,同时又可以通过存储的文本和图像链接到原始的音频数据和视频数据,实现音频数据和视频数据的检索,从而实现多模态的异构数据的存储与检索。
可选地,在步骤S1之后还可执行:判断所述待存储数据是否为第一预置数据库中已存储的重复数据,若是,则继续执行步骤S1,不执行步骤S2,若否,则执行步骤S2。以避免在第一预置数据库中存储大量重复数据,避免存储资源不必要的损耗。
步骤S2,将所述待存储数据向量化,得到第一向量。
如图2,当待存储数据包括文本数据时,可将文本数据通过word2vec/doc2vec算法向量化。在将文本数据向量化之前,可判断文本数据类型(txt,json,string等)和文本长度,对文本数据进行预处理,具体包括去除非法字符、去除重复数据等,若文本长度过长,则对文本进行适当切分。
如图2,当待存储数据包括图像数据时,可将图像数据通过VGG16模型向量化。在将图像数据向量化之前,可判断图像大小,将其裁剪为适合大小。
上述提及的向量化方法仅为一种实施例,本发明并不限制步骤S2采用的具体的向量化算法。
当待存储数据既包含文本数据,又包含图像数据时,将文本数据和图像数据分别向量化,得到的文本向量和图像向量都为此处的第一向量。第一向量仅为了与本文中其他向量作区分,并无特殊含义。
可选的,在将待存储数据向量化后,先对获得的第一向量进行归一化处理,再执行步骤S3。具体可采用最小-最大归一化方法,其可以对原始数据的线性更改,而不更改其分布,因此结果落在间隔[0,1]之内。
步骤S3,将所述第一向量输入至训练好的生成判别模型,得到第二向量,其中,所述生成判别模型包括生成器和判别器,所述生成器用于基于输入的图像向量或者文本向量输出调整后图像向量或文本向量,所述判别器用于识别所述生成器输出的向量的模态类型,通过反复对抗训练至损失函数收敛,得到训练好的所述生成判别模型。
其中,当待存储数据既包含文本数据,又包含图像数据时,第一向量包含文本向量和图像向量,在此步骤中,将第一向量包含的文本向量和图像向量组合成文本图像向量对,输入生成判别模型,获得对应的第二向量,第二向量也为文本图像向量对。当待存储数据仅包含文本数据时,将文本数据转化后的文本向量输入生成判别模型,获得对应的第二向量。当待存储数据仅包含图像数据时,将图像数据转化后的图像向量输入生成判别模型,获得对应的第二向量。
生成器通过不断捕捉训练库里的真实向量,学***衡,最后生成器可生成多模态数据的向量,且其生成的不同模态数据的向量之间的差距缩小,难以被判别器识别出来,进而在进行不同模态数据之间的相似度对比时,可获得更为准确的结果。
步骤S4,将所述第二向量存储在第一预置数据库。
一实施方式中,第一预置数据库为一预置数据库,将第二向量全部存储在该数据库。
另一可选实施方式中,本发明面向全媒体数据空间的多源异构数据存储方法包含不同的存储模式,根据存储模式确定第一预置数据库。当存储模式为事件存储模式时,所述第一预置数据库为事件数据库,每条数据对应存储的属性信息包括事件id、事件向量、事件url、人物和事件描述,其中,所述事件向量包括事件图像向量和文本向量。当存储模式为图文存储模式时,所述第一预置数据库为图文数据库,每条图像数据包括数据id、图像向量及图像url,每条文本数据包括数据id、文本向量及文本url。
其中,事件数据库中每条数据可能既包含图像向量也包含文本向量,也可能仅包含图像向量和文本向量中的一种,而图文数据库中每条数据只能包含图像向量和文本向量中的一种。
事件数据库,一实施方式中,可设置为新闻事件数据库,每条数据对应存储的属性信息包括新闻事件id,新闻事件的图、文向量以及新闻事件的图文url、人物和新闻事件描述。由此可支撑专项的新闻检索,满足特殊的检索需求(如图9中示出了新闻检索)。
本发明实施例通过将待存储数据向量化后,输入至训练好的生成判别模型,由生成判别模型对输入的向量进行处理后,输出最终用于存储在第一预置数据库中的第二向量,其中的生成判别模型可将输入的不同模态的向量进行调整,降低不同模态的向量之间的差距,进而提高不同模态的向量相似度计算的准确性,从而提高检索准确性。
可选地,所述第一预置数据库采用正向索引和倒排索引结合的方式建立数据索引,具体包括:
为所述第一预置数据库划分多个数据分区,为每个所述数据分区构建一个正向索引表,在所述正向索引表中将所述数据分区中的所有数据按顺序编号,每个数据的属性信息存储在该数据对应的正向索引中,其中,所述属性信息包括数据的标识信息;
通过聚类算法将所述数据分区中的数据进行相似度聚类后进行分类,得到多个数据子集,为每个所述数据分区设置一个倒排索引表,在所述倒排索引表上设置各个所述数据子集对应的索引区域,分别用于存储所述数据子集中各数据的所述标识信息。
其中,所述聚类算法可选为k-means算法。
海量多源多模态数据需要建立索引,索引采取正向索引与倒排索引结合的方式。正向索引表如图5所示,其中,每个图像数据或文本数据都按顺序编号,属性存储在一个正向索引中,该索引是一个自定义数组,并且数组中的每个元素都包含相应的属性信息:ID,向量,url。
倒排索引表由多个索引区域组成。每个数据子集(如图6,一个Center代表一个数据子集)具有相似高维特征,为每个数据子集分别设置对应的索引区域。倒排索引表如图6所示。采用如k-means算法的聚类算法对给定的训练数据集(即图像或文本特征)进行分类,每个Center代表一类图像。在为新数据建立索引时,根据新数据与倒排索引表中数据的相似度计算新数据所属的类别,并将新数据的ID标识信息附加到相应的索引区域。
正排索引是指以一组数据中的ID为key,每组数据都包含相应的属性信息,比如新闻的标题,人物,文本内容,图片等属性。由于正排的耗时太长缺点,倒排就正好相反,***中以每个图像文本分类中心作为关键索引。表中关键字所对应的记录表项记录了具有这一类特征的数据组,比如ID1,ID2中的图文信息具有A类特征,ID3,ID4中的图文信息具有B类特征。它适用于快速的全体搜索。本质上说,存在这样两个空间,一个称为"索引词空间",一个称为"文档空间"。正排索引可以理解成一个定义在文档空间到索引词组空间的一个映射,任意一个文档对应唯一的一组索引词;而倒排索引可以理解成一个定义在索引词空间到文档组空间的一个映射。任意一个索引词对应唯一的一组该索引词其命中的文档。因此从文档到正排索引,进而从正排索引到倒排索引就是理顺这种关系的过程。使得给出一个索引词,就能通过倒排索引能够找到其命中的文档,以及位置信息。即通过将正向索引和倒排索引结合,实现海量多模态数据的索引,便于实现海量多模态数据的高效检索。
可选地,所述面向全媒体数据空间的多源异构数据存储方法还包括:
当存储模式为图文存储模式或事件存储模式时,执行所述步骤S1-S4的步骤;
当存储模式为文本存储模式时,获取待存储文本,将所述待存储文本向量化后存储在文本数据库。文本存储模式下,存储的文本属性信息包括文本id、文本向量、文本名和文本url。文本存储模式下的存储流程包括:首先判断文本数据类型(txt,json,string等)与文本长度,对文本数据进行预处理,具体包括去除非法字符、重复数据等,如果文本长度过长,对文本进行适当切分,使预处理之后的数据更适合word2vec/doc2vec处理,再通过word2vec/doc2vec将文本数据转化为向量,最后进行归一化处理将数据存入文本数据库中。可选地,文本数据库也采用正向索引和倒排索引结合的方式建立数据索引,具体内容已在上文详述,此处不赘述。
当存储模式为图像存储模式时,获取待存储图像,将所述待存储图像向量化后存储在图像数据库。图像存储模式下,存储的图像属性信息包括图像id、图像向量、图像名和图像url。图像存储模式下的存储流程包括:首先判断图像是否为重复图像,若是,则不进行下一步操作,继续等待接收图像数据,若不是重复图像,则对其进行预处理(如裁剪成预设大小)后,输入到VGG16中,生成向量,再归一化处理后将数据存入图像数据库中。其中,VGG16是一种经典网络模型,能很好地适应大部分图数据集,分类性能非常好。如图9示出了图搜图的查询模式。可选地,图像数据库也采用正向索引和倒排索引结合的方式建立数据索引,具体内容已在上文详述,此处不赘述。
通过上述多种存储模式,可实现不同用户对内容检索的不同需求,提高检索***的适用性。
图3为所述面向全媒体数据空间的多源异构数据存储方法一框架示意图。如图3所述,通过将文本、语音、图像及视频等多模态数据源通过向量化及生成判别模型调整后统一语义映射,并存储在数据中心,实现多模态数据的可靠存储。此外,通过构建正向索引和倒排索引结合的语义索引模型,用以支撑高效的跨模态数据查询,同时,还可对文本数据库和图像数据库等单模态数据库构建正向索引和倒排索引结合的语义索引模型,以支撑高效的单模态数据查询。
如图4,在本发明一实施例中,本发明面向全媒体数据空间的多源异构数据检索方法,包括:
步骤S100,接收用户查询指令,生成所述用户查询指令对应的用户查询向量。
用户查询指令,包含查询文本或查询图像。面向全媒体数据空间的多源异构数据检索***提供输入/接收用户查询指令的前端模块。
将用户查询指令转化为向量形式,即用户查询向量。可选地,可根据用户查询指令的模态确定向量转化方式,当用户查询指令为文本形式的查询语句时,可采用word2vec/doc2vec等向量转化算法,当用户查询指令为图像形式的查询语句时,可采用VGG16或其他现有的图像向量化的方法。
步骤S200,基于所述用户查询向量,分别在第二预置数据库的各个数据分区搜索,获得每个数据分区中与所述用户查询向量的最相似数据子集,其中,所述第二预置数据库中的数据采用如上所述的面向全媒体数据空间的多源异构数据存储方法存储。
为提高检索效率,将第二预置数据库设置多个数据分区,在每个数据分区并行搜索。可将第二预置数据库均分为多个数据分区,每个数据分区具有基本相同的数据量。
可根据用户查询指令确定具体的第二预置数据库,例如,当根据用户查询指令确定当前为图文互搜模式时,可将图文数据库作为第二预置数据库;当根据用户查询指令确定当前为新闻模式时,可将事件数据库作为第二预置数据库。
步骤S300,在每个所述最相似数据子集中,分别采用HNSW算法进行搜索,得到每个所述最相似数据子集中与所述用户查询向量相似的数据,其中,所述最相似数据子集通过在所述数据分区采用聚类算法聚类而得。
其中,HNSW算法指分层联通朴素构图算法,是基于NSW朴素构图算法的一种基于图的算法。NSW朴素构图算法,向图中逐个***点,每当***一个全新点时,通过朴素查找法(通过计算相邻的点和待***点的距离以此判断下一个进入点是哪个点)查找到与这个待***点最近的P个点(P由用户设置),连接待***点到P个点的连线,完成***。HNSW原理如图7所示,其首先把高维空间中所有的向量构建成一张相互联通的图,该图有多层,且图的每一层都采用NSW朴素构图算法,之后通过跳表连接各层从而找到目标向量。但HNSW算法仅适用于高相似度的向量之间的迅速查找且适用于单模态数据,HNSW算法适用于高相似向量之间的检索,如果本身事物之间差别很大效果则不理想,比如检索一本书与一个苹果的效果不如检索两本颜色不同的书,因此,对于跨模态检索,若是直接采用HNSW算法检索经初步向量化的跨模态数据,检索结果准确性无法保证。因此,在本发明中,一方面,通过聚类算法对一个数据分区的数据进行聚类,形成多个数据子集,每个数据子集都是具有相似特征的高维向量集(图像和/或文本的向量集),在每个数据子集上各自进行HNSW算法处理;另一方面,HNSW算法适用于第二预置数据库,而当第二预置数据库为图文数据库或事件数据库时,采用如上文所述的面向全媒体数据空间的多源异构数据存储方法进行数据存储,对初步向量化后的数据采用生成判别模型,减小跨模态数据的向量之间的距离,以利于HNSW算法的使用,提高其准确性。
最相似数据子集为聚类后形成的数据子集中的一个。
其中,可采用k-means算法作为此处的聚类算法。
步骤S400,根据每个所述最相似数据子集中与所述用户查询向量相似的数据,获得各所述数据分区中与所述用户查询向量最相似的前M个数据,作为各所述数据分区的检索结果。
因知晓每个数据分区中最相似数据子集与用户查询向量的相似情况,即知晓每个数据分区中最相似数据子集中的数据与用户查询向量的相似度,所以可在各个数据分区基于相似度进行排序,确定各数据分区中与用户查询向量最相似的前M个数据。M由人为设定。
步骤S500,根据各所述数据分区的检索结果获得与所述用户查询指令对应的最终查询结果。
可将各数据分区的检索结果整合起来进行排序,如可以根据相似度高低进行排序,进而得到最终查询结果。
本发明实施例通过接收用户查询指令,生成所述用户查询指令对应的用户查询向量,并分别在第二预置数据库的各个数据分区搜索,获得每个数据分区中与所述用户查询向量的最相似数据子集,通过将第二预置数据库进行数据分区,在每个数据分区实现并行检索,提高检索效率;同时,在每个数据分区筛选出最相似数据子集,因最相似数据子集通过在数据分区采用聚类算法聚类而得,其为高相似度的向量集,因而可在每个最相似数据子集分别采用HNSW算法进行搜索,最终生成检索结果,同时,HNSW算法适用于第二预置数据库,当第二预置数据库为图文数据库或事件数据库时,第二预置数据库采用如上文所述的面向全媒体数据空间的多源异构数据存储方法进行数据存储,对初步向量化后的数据采用生成判别模型,减小跨模态数据的向量之间的距离,以利于HNSW算法的使用,提高其准确性。
可选地,所述步骤S100之后,且所述步骤S200前包括:
根据所述用户查询指令确定查询模式;
当所述查询模式为图文互搜模式时,所述第二预置数据库为图文数据库;
当所述查询模式为事件搜索时,所述第二预置数据库为事件数据库;
当所述查询模式为文搜文模式时,所述第二预置数据库为文本数据库;
当所述查询模式为图搜图模式时,所述第二预置数据库为图像数据库。
其中,事件数据库可为新闻事件数据库,其在检索***前端可如图9所示设置。
通过设置不同的查询模式对应不同的数据库,可为具有不同特点的查询模式设置与之匹配的数据库,进而保证数据检索的准确性,且设置不同的数据库,还可支撑实现并行检索,进而提高检索效率,同时,设置不同的查询模式,可满足不同人群的不同检索需求,提高本发明的实用性。
可选地,步骤S500之后,还包括:
接收共享请求,从中获得请求共享的数据条数;将所述最终查询结果中所述数据条数的数据抽取出来,进行打包并下载。以便用户在数据查询后进行数据下载,实现如图3所示的面向语义的快速共享交互。
如图8,本发明面向全媒体数据空间的多源异构数据检索***一实施例中,包括:前端模块、至少一个集成器模块、至少一个中继器模块和多个搜索器模块,每个所述集成器模块对应至少一个所述中继器模块,每个所述中继器模块对应多个所述搜索器模块;
所述前端模块,其用于接收用户查询指令,并将所述用户查询指令转发给所述集成器模块;
所述集成器模块,其用于将接收的所述用户查询指令发送给所述集成器模块自身对应的所有所述中继器模块;
所述中继器模块,其用于将接收的所述用户查询指令发送给所述中继器模块自身对应的所有所述搜索器模块;
所述搜索器模块,其用于生成所述用户查询指令对应的用户查询向量,基于所述用户查询向量,分别在第二预置数据库的各个数据分区搜索,获得每个数据分区中与所述用户查询向量的最相似数据子集,其中,所述第二预置数据库中的数据采用如上所述的面向全媒体数据空间的多源异构数据存储方法存储;在每个所述最相似数据子集中,分别采用HNSW算法进行搜索,得到每个所述最相似数据子集中与所述用户查询向量相似的数据,其中,所述最相似数据子集通过在所述数据分区采用聚类算法聚类而得,每个所述搜索器模块负责一个所述数据分区的搜索操作;其还用于根据每个所述最相似数据子集中与所述用户查询向量相似的数据,获得各所述数据分区中与所述用户查询向量最相似的前M个数据,作为各所述数据分区的检索结果;
所述中继器模块,其还用于将来自其对应的所述搜索器模块的检索结果合并,再发送回对应的所述集成器模块;
所述集成器模块,其还用于对接收的所述检索结果进行排序处理后,作为所述用户查询指令对应的最终查询结果返回给所述前端模块。
本发明面向全媒体数据空间的多源异构数据检索***采用基于分布式的三级架构模式与分层联通朴素构图算法来实现高性能相似查询。其中,工作流程为:在接收到来自用户的查询时,前端模块将查询请求转发给某一个集成器。然后,集成器模块将查询发送给所有中继器模块,每个中继器模块要求其对应的搜索器模块并行执行搜索。同时每个中继器都有多个相同的实例,其中,实例指负责中继器阶段检索的程序,若某实例出现意外终止的情况,则启动其他相同的实例,确保中继器阶段检索任务的顺利进行,实现负载平衡和容错能力。每个搜索器模块负责从整个数据库的一个数据分区中搜索相似的数据,搜索器将前M个最相似的数据返回给请求的中继器模块。然后,中继器模块将来自其对应的搜索器模块的结果合并,然后将其发送回集成器模块。集成器模块对结果进行排序并将其返回给前端模块,展示给用户。
每个数据分区都有一个搜索器模块。搜索器模块负责搜索相应的数据分区,具体搜索相应的数据分区的索引。每个搜索器模块识别与所查询图像/文本最相似的数据子集,扫描数据子集的倒排表,并计算与倒排表中每个图像/文本的相似度,返回前M个最相似的图像/文本,可通过遍历倒排列表并计算其到倒排列表中每个图像/文本的欧几里得距离,来识别最相似的项,最后,对结果进行排名。可见,通过上述架构,可实现如图3所示的多级处理和并行容错。
通过基于分布式的三级架构模式,当数据量不断增大至百万级别甚至千万级别时,可以通过在每一级架构中添加相应的集成器,中继器,搜索器等使单阶段中每个检索任务的检索规模维持在一个稳定的数量级以维持***整体的负载均衡,这种模式确保本发明的可扩展性。
本发明一实施例中,面向全媒体数据空间的多源异构数据检索装置包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上所述的面向全媒体数据空间的多源异构数据检索方法。本发明面向全媒体数据空间的多源异构数据检索装置相对于现有技术所具有的有益效果与上述面向全媒体数据空间的多源异构数据检索方法一致,此处不赘述。
为验证本发明的效果,给出相关实验数据。
实验采用公开图文数据集flick30k,其中包含158915个文字描述,31783个图像。在本发明原型***上进行了整体性能测试的实验,采用公开数据集flickr30k,同时对比了基于MatConvNet框架的CNN,以此测本发明的速度与准确率。下表1为本发明面向全媒体数据空间的多源异构数据检索方法和基于MatConvNet的方法的性能对比,如下表所示,可以看出单次检索速度可达到毫秒级,查准率与查全率稳定在90%以上。无论是速率还是准确率均好于基于MatConvNet框架的CNN。
表1
其中,针对图文互检,我们采用单个flick30k数据集进行对比实验,表2为本发明与MatConvNet性能指标对比。其中Recall@K表示正确答案出现在前K个返回结果的样例占总样例的比例;Median Rank(MR)表示在结果排序中,第一个真实样本出现的位置的中位数也是使得Recall@K>=50%的最小K值。MR为0表示第一个返回结果即为目标结果。同理Average Rank(AR)表示真实样本的出现位置的平均数。本次实验分别验证了k=1,k=3以及k=5的情况,单个flick30k数据集情况下,测试随着数目的增大,召回率依然稳定;同时,无论是准确率还是速率均是本发明较好。
表2
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种面向全媒体数据空间的多源异构数据存储方法,其特征在于,包括如下步骤:
获取待存储数据,其中,所述待存储数据包含图像数据和/或文本数据;
将所述待存储数据向量化,得到第一向量;
将所述第一向量输入至训练好的生成判别模型,得到第二向量,其中,所述生成判别模型包括生成器和判别器,所述生成器用于基于输入的图像向量或者文本向量输出调整后图像向量或文本向量,所述判别器用于识别所述生成器输出的向量的模态类型,通过反复对抗训练至损失函数收敛,得到训练好的所述生成判别模型;
将所述第二向量存储在第一预置数据库。
2.如权利要求1所述的面向全媒体数据空间的多源异构数据存储方法,其特征在于,所述获取待存储数据包括:
获取原始数据;
当所述原始数据为音频数据时,将所述音频数据转化为文本数据,作为所述待存储数据;
当所述原始数据为视频数据时,从所述视频数据中提取关键帧图像,作为所述待存储数据;
当所述原始数据为图像数据或者文本数据时,将所述图像数据或者文本数据作为所述待存储数据。
3.如权利要求1所述的面向全媒体数据空间的多源异构数据存储方法,其特征在于,所述第一预置数据库采用正向索引和倒排索引结合的方式建立数据索引,具体包括:
为所述第一预置数据库划分多个数据分区,为每个所述数据分区构建一个正向索引表,在所述正向索引表中将所述数据分区中的所有数据按顺序编号,每个数据的属性信息存储在该数据对应的正向索引中,其中,所述属性信息包括数据的标识信息;
通过聚类算法将所述数据分区中的数据进行相似度聚类后进行分类,得到多个数据子集,为每个所述数据分区设置一个倒排索引表,在所述倒排索引表上设置各个所述数据子集对应的索引区域,分别用于存储所述数据子集中各数据的所述标识信息。
4.如权利要求1所述的面向全媒体数据空间的多源异构数据存储方法,其特征在于,还包括:
当存储模式为图文存储模式或事件存储模式时,执行所述获取待存储数据的步骤;
当存储模式为文本存储模式时,获取待存储文本,将所述待存储文本向量化后存储在文本数据库;
当存储模式为图像存储模式时,获取待存储图像,将所述待存储图像向量化后存储在图像数据库。
5.如权利要求1所述的面向全媒体数据空间的多源异构数据存储方法,其特征在于,还包括:
当存储模式为事件存储模式时,所述第一预置数据库为事件数据库,每条数据对应存储的属性信息包括事件id、事件向量、事件url、人物和事件描述,其中,所述事件向量包括事件图像向量和文本向量;
当存储模式为图文存储模式时,所述第一预置数据库为图文数据库,每条图像数据包括数据id、图像向量及图像url,每条文本数据包括数据id、文本向量及文本url。
6.如权利要求3所述的面向全媒体数据空间的多源异构数据存储方法,其特征在于,所述聚类算法为k-means算法。
7.一种面向全媒体数据空间的多源异构数据检索方法,其特征在于,包括:
接收用户查询指令,生成所述用户查询指令对应的用户查询向量;
基于所述用户查询向量,分别在第二预置数据库的各个数据分区搜索,获得每个数据分区中与所述用户查询向量的最相似数据子集,其中,所述第二预置数据库中的数据采用如权利要求1至6中任一项所述的面向全媒体数据空间的多源异构数据存储方法存储;
在每个所述最相似数据子集中,分别采用HNSW算法进行搜索,得到每个所述最相似数据子集中与所述用户查询向量相似的数据,其中,所述最相似数据子集通过在所述数据分区采用聚类算法聚类而得;
根据每个所述最相似数据子集中与所述用户查询向量相似的数据,获得各所述数据分区中与所述用户查询向量最相似的前M个数据,作为各所述数据分区的检索结果;
根据各所述数据分区的检索结果获得与所述用户查询指令对应的最终查询结果。
8.如权利要求7所述的面向全媒体数据空间的多源异构数据检索方法,其特征在于,所述接收用户查询指令,生成所述用户查询指令对应的用户查询向量之后,且所述基于所述用户查询向量,分别在第二预置数据库的各个数据分区搜索之前包括:
根据所述用户查询指令确定查询模式;
当所述查询模式为图文互搜模式时,所述第二预置数据库为图文数据库;
当所述查询模式为事件搜索时,所述第二预置数据库为事件数据库;
当所述查询模式为文搜文模式时,所述第二预置数据库为文本数据库;
当所述查询模式为图搜图模式时,所述第二预置数据库为图像数据库。
9.一种面向全媒体数据空间的多源异构数据检索***,其特征在于,包括:前端模块、至少一个集成器模块、至少一个中继器模块和多个搜索器模块,每个所述集成器模块对应至少一个所述中继器模块,每个所述中继器模块对应多个所述搜索器模块;
所述前端模块,其用于接收用户查询指令,并将所述用户查询指令转发给所述集成器模块;
所述集成器模块,其用于将接收的所述用户查询指令发送给所述集成器模块自身对应的所有所述中继器模块;
所述中继器模块,其用于将接收的所述用户查询指令发送给所述中继器模块自身对应的所有所述搜索器模块;
所述搜索器模块,其用于生成所述用户查询指令对应的用户查询向量,基于所述用户查询向量,分别在第二预置数据库的各个数据分区搜索,获得每个数据分区中与所述用户查询向量的最相似数据子集,其中,所述第二预置数据库中的数据采用如权利要求1至6中任一项所述的面向全媒体数据空间的多源异构数据存储方法存储;在每个所述最相似数据子集中,分别采用HNSW算法进行搜索,得到每个所述最相似数据子集中与所述用户查询向量相似的数据,其中,所述最相似数据子集通过在所述数据分区采用聚类算法聚类而得,每个所述搜索器模块负责一个所述数据分区的搜索操作;其还用于根据每个所述最相似数据子集中与所述用户查询向量相似的数据,获得各所述数据分区中与所述用户查询向量最相似的前M个数据,作为各所述数据分区的检索结果;
所述中继器模块,其还用于将来自其对应的所述搜索器模块的检索结果合并,再发送回对应的所述集成器模块;
所述集成器模块,其还用于对接收的所述检索结果进行排序处理后,作为所述用户查询指令对应的最终查询结果返回给所述前端模块。
10.一种面向全媒体数据空间的多源异构数据存储装置,其特征在于,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如权利要求1-6任一项所述的面向全媒体数据空间的多源异构数据存储方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111623678.1A CN114297415A (zh) | 2021-12-28 | 2021-12-28 | 面向全媒体数据空间的多源异构数据存储方法及检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111623678.1A CN114297415A (zh) | 2021-12-28 | 2021-12-28 | 面向全媒体数据空间的多源异构数据存储方法及检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114297415A true CN114297415A (zh) | 2022-04-08 |
Family
ID=80970962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111623678.1A Pending CN114297415A (zh) | 2021-12-28 | 2021-12-28 | 面向全媒体数据空间的多源异构数据存储方法及检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114297415A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115455061A (zh) * | 2022-11-14 | 2022-12-09 | 广东电网有限责任公司佛山供电局 | 一种基于异构计算的用户特征快速检索方法 |
CN116303730A (zh) * | 2023-05-18 | 2023-06-23 | 安徽泛联信息科技有限公司 | 一种数据可视化平台用异步数据源连接*** |
CN116578867A (zh) * | 2023-04-20 | 2023-08-11 | 华为技术有限公司 | 标识生成方法及电子设备 |
CN117033308A (zh) * | 2023-08-28 | 2023-11-10 | 中国电子科技集团公司第十五研究所 | 一种基于特定范围的多模态检索方法及装置 |
-
2021
- 2021-12-28 CN CN202111623678.1A patent/CN114297415A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115455061A (zh) * | 2022-11-14 | 2022-12-09 | 广东电网有限责任公司佛山供电局 | 一种基于异构计算的用户特征快速检索方法 |
CN116578867A (zh) * | 2023-04-20 | 2023-08-11 | 华为技术有限公司 | 标识生成方法及电子设备 |
CN116303730A (zh) * | 2023-05-18 | 2023-06-23 | 安徽泛联信息科技有限公司 | 一种数据可视化平台用异步数据源连接*** |
CN117033308A (zh) * | 2023-08-28 | 2023-11-10 | 中国电子科技集团公司第十五研究所 | 一种基于特定范围的多模态检索方法及装置 |
CN117033308B (zh) * | 2023-08-28 | 2024-03-26 | 中国电子科技集团公司第十五研究所 | 一种基于特定范围的多模态检索方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114297415A (zh) | 面向全媒体数据空间的多源异构数据存储方法及检索方法 | |
CN109947904B (zh) | 一种基于Spark环境的偏好空间Skyline查询处理方法 | |
Clinchant et al. | Xrce’s participation in wikipedia retrieval, medical image modality classification and ad-hoc retrieval tasks of imageclef 2010 | |
CN100423004C (zh) | 基于内容的视频搜索调度*** | |
AU2018349276A1 (en) | Methods and system for semantic search in large databases | |
CN115270738B (zh) | 一种研报生成方法、***及计算机存储介质 | |
CN110750995B (zh) | 一种基于自定义图谱的文件管理方法 | |
CN111125457A (zh) | 一种深度跨模态哈希检索方法及装置 | |
KR101472451B1 (ko) | 디지털 콘텐츠 관리 시스템 및 방법 | |
CN112307364A (zh) | 一种面向人物表征的新闻文本发生地抽取方法 | |
Costache et al. | Categorization based relevance feedback search engine for earth observation images repositories | |
CN111737507A (zh) | 一种单模态图像哈希检索方法 | |
Kumar et al. | Fusion of CNN-QCSO for Content Based Image Retrieval | |
Uriza et al. | Efficient large-scale image search with a vocabulary tree | |
Ogier et al. | Madonne: document image analysis techniques for cultural heritage documents | |
Tejasree et al. | An improved differential bond energy algorithm with fuzzy merging method to improve the document clustering for information mining | |
Budikova et al. | Search-based image annotation: Extracting semantics from similar images | |
CN114298020A (zh) | 一种基于主题语义信息的关键词向量化方法及其应用 | |
Cheng et al. | A simple instance-based approach to multilabel classification using the mallows model | |
Sabahi et al. | Hopfield network-based image retrieval using re-ranking and voting | |
Li et al. | Partial-duplicate clustering and visual pattern discovery on web scale image database | |
Aggarwal et al. | Event summarization in videos | |
CN114090799B (zh) | 文本检索方法、装置、存储介质及服务器 | |
JP2001052024A (ja) | 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体 | |
AU2021101719A4 (en) | Logo-based document image retrieval and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |