CN107729411A

CN107729411A - 一种跨媒体大数据检索非结构化数据兼容模型

Info

Publication number: CN107729411A
Application number: CN201710883538.5A
Authority: CN
Inventors: 李晓瑜; 郑德生; 黄鸣; 黄一鸣; 胡晗
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2018-02-23

Abstract

本发明涉及一种跨媒体大数据检索非结构化数据兼容模型，模型由自身特有的元数据按照一定层次组织而成。每个元数据由特征层、语义层、兼容层三层构成，通过相似度计算和垂直回溯计算用户所请求的返回数据集合并向用户返回数据，通过具体的搜索实验证明本发明的搜索引擎可以更加有效的进行跨媒体检索。

Description

一种跨媒体大数据检索非结构化数据兼容模型

技术领域

本发明涉及一种跨媒体大数据检索非结构化数据兼容模型，属于搜索引擎算法技术领域。

背景技术

传统的多媒体检索以基于文本标注的形式进行。为了解决传统基于文本的多媒体检索存在标注费时费力、主观差异性大等缺陷,基于内容的多媒体分析与检索方法于20世纪90年代被提出,其基本思路是通过视觉、听觉或者三维模型几何特征以及例子来计算被检索对象和用户查询之间的相似度。

基于内容的多媒体分析与检索方法发展到21世纪，研究者已普遍认识到图像和视频等多媒体数据本身所具有的高维数据在本质上是由有限自由度来决定的,分析数据几何拓扑结构不仅能优化数据之间相似性计算,同时能够大大降低计算复杂度,将有利于多媒体检索。流形学习理论被提出,对流形学习方法进行了详细介绍和述评。2008年左右，互联网上图像周围伴随文本增多以及Web2.0的到来,从伴随文本和用户标注信息中提取能反映多媒体数据语义的精确标注单词成为近年来的研究热点。文献在此方向，进行了研究探索。2010年以后，图像语义标注的研究重点转向互联网大规模图像标注、标注不一致以及标注扩展等问题。

总结目前处理跨媒体检索的主流方法，大致有如下两种方法：

1、提取不同类型媒体的底层特征，将不同类型媒体的底层特征同时映射到一张关联表中，通过维护关联表、计算关联表中特征值的距离，实现跨媒体检索。此类方法较好地推动了跨媒体检索的发展，但是需要维护媒体间的关联表，随着数据量的***性增长，关联表所占据的空间越来越大，消耗的资源也越来越大。

2、通过为不同类型的媒体建立索引，并且组建多媒体建立知识库。该方法有效的解决了第一种方法需要消耗资源维护关联表的弊端，并且已经在一些领域进行使用。但是该方法并非针对跨媒体检索的特性提出，所以仍然存在进一步优化的可能。

发明内容

为解决上述技术问题，本发明采用的一个技术方案是：一种跨媒体大数据检索非结构化数据兼容模型，其特征在于,建立UDC模型，对用户所请求的数据与UDC模型元数据的进行相似度计算，具体而言，

UDC模型的每一个元数据的特征层是由n个特征向量组成的特征集，提取用户所提交请求的特征集F，F为目标特征集,F包含n个特征向量，所述相似度计算包括:

对比元数据特征层中特征的类型，降维处理，即舍去元数据中不包含在F中的特征对应的向量值，得到特征向量组f，f有n个特征向量，

分别计算目标特征集F与元数据特征集f中每个向量之间的欧式距离D_i(0<i<n),，并定义作为该数据与元数据的相似度；

完成用户请求与元数据相似度计算之后，采用垂直回溯算法计算用户请求的推荐集合，并返还给用户，具体包括：

(1)调用特征提取算法提取图像的特征集F，F为目标特征集。

(2)假设处于第N层(N＝1,2…)，运用相似度计算算法，计算目标特征集F与第N层每个节点特征集的相似度，当相似度小于阈值t时，直接丢弃。返回第T层相似度最近的K个节点，作为第N层的结果集R_n,记录R_n节点所在层数N。当R_n中元素个数为0时，查询结束，转步骤(5)。

(3)遍历R_n中从属于每个节点的位于(N+1)层的节点，运用相似度计算算法，计算目标特征集F与第(N+1)层中查询的节点特征集的相似度，当相似度小于阈值t时，直接丢弃。返回(N+1)层相似度最近的K个节点，作为第(N+1)层的结果集R_n+1，记录R_n+1节点所在层数(N+1)。当R_n+1中元素个数为0时，查询结束，转步骤(5)。

(4)重复步骤(3)，直到抵达最低层。

(5)对返回的所有结果集R_i(i＝1,2,3…)中的节点进行排序，选出距离F最近的k个节点组成集合R。

(6)调用相似度计算算法，计算出R中每个节点兼容层关联的其他节点与F之间的距离D_r,选择距离最近的k个节点，组成关联结果集R′。

(7)遍历集合R中节点所在层数，得到分布最密集的层数m，回溯到结果集R_(m-1),随机选择从属于R_(m-1)中每个节点的位于R_m层的k个节点，作为推荐结果集R_r。

(8)排序R∪R′后，作为搜索结果返回给用户，R_r作为相关推荐结果返回给用户。

进一步的，所述每个元数据按照从属关系分为上下三层，每层逻辑上从属于上一层；

第一层为特征层，对经过预处理，包括去噪、重复内容消重和上下文关联等步骤，的多媒体数据提取其底层特征，集合成特征向量集作为第一层，特征集中的每一个特征向量描述了语义的一个侧面；

第二层为语义层，在第一层特征向量集的基础上，采用结构分析和智能分析转换等方法，抽取出能够反映多媒体资源语义的标注词，对底层多媒体数据进行语义标注；

第三层为兼容层，将第二层提取出来的某一种媒体的语义信息兼容到多种媒体；

当用户提交搜索请求，检索每个元数据时，元数据第一层特征集与搜索请求匹配程度越高，则此数据与搜索请求相似度越接近。

进一步的，所述模型由数据采集爬虫和跨媒体信息搜索两部分功能模块组成的B/S结构***，其中，***全部使用java语言基于JDK1.8编写完成，网络爬虫程序基于Heritrix扩展编写，使用开源全文检索引擎工具包Lucene建立索引数据库，UDC模型的每个元数据拥有一个记录文件，记录文件维护其所属层次结构以及关联的其他媒体。

区别于现有技术的情况，本发明的有益效果是：

1)搜索范围只限于特定的主题或专门的领域，因而在搜索过程中只需要选择与主题查询相关性大的页面进行访问，同时舍弃掉相关性过低的网页。

2)基于UDC模型的搜索引擎与传统的搜索引擎相比，可以有效实现对旅游领域多媒体信息的全面检索，并且做出有效的相关推荐。

3)基于此模型的搜索引擎可以有效返回用户想要的有关信息。

4)基于此模型的搜索引擎在有效返回用户搜索数据的同时，也能保证返回数据的准确性。

5)召回率与准确率成反相关，符合客观规律，并且算法中阈值设置只要不过大，算法的结果是非常稳定的，具有极强的健壮性。

6)本发明提出的模型以及算法能够有效的在旅游领域进行关联性查询以及关联性推荐。

附图说明

图1是本发明面向旅游领域的基于UDC模型自顶向下组织模式示意图。

图2是本发明跨媒体大数据检索非结构化数据兼容模型实验***构架图。

图3是本发明实验召回率柱状图。

图4是本发明实验准确率柱状图。

图5是本发明实验召回率、准确率关系图。

图6是本发明算法健壮性分析图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例以旅游领域为例(但不仅限于旅游领域，还可以涉及电商领域等)，提出一种跨媒体大数据检索非结构化数据兼容模型，建立UDC模型，对用户所请求的数据与UDC模型元数据的进行相似度计算，具体而言，

UDC模型的每个元数据按照从属关系分为上下三层，每层逻辑上从属于上一层；

所述每个元数据的特征层是由n个特征向量组成的特征集，提取用户所提交请求的特征集F，F为目标特征集,F包含n个特征向量，所述相似度计算包括:

分别计算目标特征集F与元数据特征集f中每个向量之间的欧式距离D_i(0<i<n),，并定义作为该数据与元数据的相似度，当用户提交搜索请求，检索每个元数据时，元数据第一层特征集与搜索请求匹配程度越高，则此数据与搜索请求相似度越接近。

(1)调用特征提取算法提取图像的特征集F，F为目标特征集。

(4)重复步骤(3)，直到抵达最低层。

(8)排序R∪R′后，作为搜索结果返回给用户，R_r作为相关推荐结果返回给用户。具体而言，以一个搜索过程为例，

当一个用户提交“北京北京烤鸭”的搜索请求后，如图2所示，经历的搜索过程为：

(1)自顶向下搜索到“北京→美食→北京烤鸭”时，得到相关文本数据。

(2)获得“北京烤鸭”元数据关联的其他多媒体数据，比如关于“北京烤鸭”的图片信息，介绍视频信息。

(3)从“北京烤鸭”节点回溯到“美食”节点，获取到从属于“北京—>美食”概念下的其他节点，比如“北京—>美食-->老北京炸酱面”、“北京—>美食-->卤煮火烧”等，作为推荐结果集。

(4)排序、整理结果集，返回给用户。

对于不同的搜索方向，图1中由不同的连线区别了不同的搜索模式。

如图2所示，设计实现了由数据采集爬虫和旅游领域跨媒体信息搜索两部分功能模块组成的B/S结构***。***全部使用java语言基于JDK1.8编写完成，网络爬虫程序基于Heritrix扩展编写，使用开源全文检索引擎工具包Lucene建立索引数据库。UDC模型的每个元数据拥有一个记录文件，记录文件维护其所属层次结构以及关联的其他媒体。使用tomcat服务器运行web程序，前端用户使用界面为JavaScript、CSS、JSP相关技术框架编写完成。以其在旅游领域的应用进行进一步的说明，并对搜索结果进行分析：

对于旅游领域的应用，用网络爬虫主要在“去哪儿”、“携程”等官方网站、以及借助“百度搜索”爬取了200个相关网页、100个图片、50段音频、50段视频，爬取的数据均为与成都的相关旅游信息，放置于本地作为样本媒体库。对于非文本数据，提取并且标注底层特征。查询初期，垂直回溯算法的阈值采用t＝0.5。

当用户在基于UDC模型的搜索引擎输入关键词“成都冒菜”后，调用本***核心的“垂直回溯算法”，***返回关于以“成都冒菜”为主题的多媒体信息以及以“成都美食”为主题的推荐信息，从查询结果上可以看出，跟传统搜索引擎相比，本搜索方式可以有效的实现对旅游领域多媒体信息的全面减速，并作出有效的相关推荐。

召回率是衡量搜索引擎搜索质量的重要标准之一，用基于UDC模型的搜索引擎进行5次查询，如图3所示，查询的关键词分别是“成都冒菜“(编号1)，”成都快捷酒店“(编号2)，”成都乐山乐山大佛”(编号3)，“成都锦里”(编号4)，“三星堆”(编号5)。5次实验的召回率分别为：0.70、0.76、0.80、076、0.74，说明基于此模型的搜索引擎可以有效返回用户想要的有关信息。

准确率也是衡量搜索引擎搜索质量的重要标准之一。采用人工验证准确率的方式验证5次查询的准确率，如图4所示，5次实验的准确率分别为：0.95、0.93、0.91、0.93、0.92，说明基于此模型的搜索引擎在有效返回用户搜索数据的同时，也能保证返回数据的准确性。

基于之前的数据，本实施例分析了召回率与准确率的相互关系，结果如图4，可以看到召回率与准确率成反相关，符合客观规律。

本实施例是基于垂直回溯算法中阈值t＝0.5进行的，所以有必要验证当阈值t改变时，算法的健壮性，通过比较阈值从0到1改变时，准确率以及召回率的变化，可以得到算法健壮性的情况。结果如图6所示，对第一次提交的查询“成都冒菜”进行健壮性分析，可以看到，当阈值t不过大时，算法结果非常稳定，所以此算法同样具有极强健壮性

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种跨媒体大数据检索非结构化数据兼容模型，其特征在于,建立UDC模型，对用户所请求的数据与UDC模型元数据的进行相似度计算，具体而言，

(1)调用特征提取算法提取图像的特征集F，F为目标特征集；

(2)假设处于第N层(N＝1,2…)，运用相似度计算算法，计算目标特征集F与第N层每个节点特征集的相似度，当相似度小于阈值t时，直接丢弃。返回第T层相似度最近的K个节点，作为第N层的结果集R_n,记录R_n节点所在层数N。当R_n中元素个数为0时，查询结束，转步骤(5)；

(3)遍历R_n中从属于每个节点的位于(N+1)层的节点，运用相似度计算算法，计算目标特征集F与第(N+1)层中查询的节点特征集的相似度，当相似度小于阈值t时，直接丢弃。返回(N+1)层相似度最近的K个节点，作为第(N+1)层的结果集R_n+1，记录R_n+1节点所在层数(N+1)；当R_n+1中元素个数为0时，查询结束，转步骤(5)；

(4)重复步骤(3)，直到抵达最低层；

(5)对返回的所有结果集R_i(i＝1,2,3…)中的节点进行排序，选出距离F最近的k个节点组成集合R；

(6)调用相似度计算算法，计算出R中每个节点兼容层关联的其他节点与F之间的距离D_r,选择距离最近的k个节点，组成关联结果集R′；

(7)遍历集合R中节点所在层数，得到分布最密集的层数m，回溯到结果集R_(m-1),随机选择从属于R_(m-1)中每个节点的位于R_m层的k个节点，作为推荐结果集R_r；

2.根据权利要求1所述的跨媒体大数据检索非结构化数据兼容模型，其特征在于：所述每个元数据按照从属关系分为上下三层，每层逻辑上从属于上一层；

3.根据权利要求1所述的跨媒体大数据检索非结构化数据兼容模型，其特征在于：所述模型由数据采集爬虫和跨媒体信息搜索两部分功能模块组成的B/S结构***，其中，***全部使用java语言基于JDK1.8编写完成，网络爬虫程序基于Heritrix扩展编写，使用开源全文检索引擎工具包Lucene建立索引数据库，UDC模型的每个元数据拥有一个记录文件，记录文件维护其所属层次结构以及关联的其他媒体。