CN110750656A

CN110750656A - 一种基于知识图谱的多媒体检测方法

Info

Publication number: CN110750656A
Application number: CN201911036867.1A
Authority: CN
Inventors: 袁赛杰; 谢赟; 韩欣; 许青青
Original assignee: Shanghai Tak Billiton Information Technology Ltd By Share Ltd
Current assignee: Shanghai Tak Billiton Information Technology Ltd By Share Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-02-04
Anticipated expiration: 2039-10-29
Also published as: CN110750656B

Abstract

本发明公开了一种基于知识图谱的多媒体检测方法，包括：各个用户向多媒体数据库中上传共享多媒体文件以及自定义标签；针对多媒体文件中包含人像的图片文件和视频文件，通过人脸检测、人脸识别和人脸对比进行处理，构建人像库；针对多媒体文件中去除人像后的图片文件和视频文件，通过图像分类和目标检测进行处理，识别出场景和实物；针对多媒体文件中的文本文件，通过通用类与教育类两种分类器，对文本文件进行分类，并根据分类结果打上类别标签；针对每个用户构成文件图谱；构建人物关系网络；基于文件图谱、人物库以及人物关系网络，用户进行检索。在知识图谱的基础上进行多媒体属性关联检索，便于用户使用。

Description

一种基于知识图谱的多媒体检测方法

技术领域

本发明涉及信息检索技术领域，尤其涉及基于知识图谱的多媒体检测方法。

背景技术

目前图像、文本检索主要集中在单模态检索上，查询和候选集的内容均属于同一模态。而跨模态检索(Cross-modal retrieval)通过建立在多种模态之间的信息映射关系，完成信息在不同形态空间中的表达转化，最终实现跨越信息资源形态差异的检索。伴随着多媒体技术的发展与丰富，对于多模态之间检索的需求则越来越强。当前跨模态检索面临的最大问题是如何能更好地在文本、图像等多模态之间实现互相识别与检索，这也是跨模态检索的目标与意义所在。由于将知识图谱引入多媒体检索***后，有助于获得不同检索下的情境数据，更好地支持用户以自然语言来表达检索意图，还可以通过进一步推理来发现不同情境下的特征，实现更加准确的用户查询语义分析和检索。

随着人工智能的发展及其对知识需求的急剧增加，知识图谱在工业界和学术界得到了大量关注。知识图谱由Google公司在2012年提出，特指其用于提升搜索引擎性能的知识库；广义的知识图谱泛指各类知识库项目。知识图谱将各类信息、数据和链接关系聚合为知识，是大数据环境下知识的有效组织方法。各类大规模知识图谱在智能搜索、智能问答、智能推荐、情报分析、反欺诈、用户输入去歧、社交网络、金融、医疗、电商以及教育科研等领域发挥了重要作用。随着规模的迅速增长，大规模知识图谱的理解、分析和利用仍然是一个挑战。可视化将抽象的数据映射为图形元素，并辅以人机交互手段，帮助用户有效地感知和分析数据。因此，将知识图谱引入多媒体检索中对于提高检索效果具有重要作用。

发明内容

本发明的目的在于提供一种基于知识图谱的多媒体检测方法，在知识图谱的基础上进行多媒体属性关联检索，便于用户使用。

实现上述目的的技术方案是：

一种基于知识图谱的多媒体检测方法，包括：

步骤S1，构建多媒体数据库，各个用户向多媒体数据库中上传共享多媒体文件以及自定义标签；

步骤S2，针对多媒体文件中包含人像的图片文件和视频文件，通过人脸检测、人脸识别和人脸对比进行处理，构建人像库；针对多媒体文件中去除人像后的图片文件和视频文件，通过图像分类和目标检测进行处理，识别出场景和实物；针对多媒体文件中的文本文件，通过通用类与教育类两种分类器，对文本文件进行分类，并根据分类结果打上类别标签；

步骤S3，针对每个用户，通过步骤S2对其上传的多媒体文件分析获得人像数据、场景数据、实物数据以及文本文件分类数据，一方面，将人像数据、场景数据、实物数据以及文本文件分类数据与各多媒体文件进行关联，另一方面，将该用户分别与其上传的多媒体文件、自定义标签以及人像数据进行关联，构成文件图谱；

步骤S4，根据构建的人像库中每两个人物之间存在的集体照数量以及集体照上人数，确定两个人物之间的关系类型，构建人物关系网络；

步骤S5，基于文件图谱、人物库以及人物关系网络，用户进行检索。

优选的，所述步骤S2，包括：

当图片文件或视频文件的关键帧检测到人像，通过人脸检测过滤侧脸和模糊脸，然后通过人脸识别将人像信息向量化表示，再将向量化的人像信息与人像库内数据进行人脸对比，计算相似度并进行降序排列，相似度最高且大于预设值则认为匹配成功，将新的人像信息加入人像库，反之匹配失败时，则在人像库中新增数据，以此方式构建人像库；

针对去除人像后的图片文件或视频文件的关键帧，利用目标检测模型进行图像分类和目标检测，从而识别出相关的场景或实物，再利用深度卷积网络的方式对实物进行分类。

优选的，人脸检测指：通过特征点距离计算出人像双眼的眼角至眼尾距离比，判断当距离比大于预设倍数时认定人脸为侧向，并将此过滤；利用拉普拉斯算子进行边缘检测，当拉普拉斯算子值小于预设值时，则认为人像图为模糊脸而将此过滤。

优选的，利用基于角度的人脸识别模型，进行人脸检测和人脸识别。

优选的，所述步骤S4中的人物关系包括：

当两个人物以集体照的形式出现在同一照片中，则认为两人为同框关系；

当两个人物的集体照数量大于第一预设数值且不大于第三预设数值，并且每张照片中人数少于第二预设数值，则认为两人为认识关系；

当两个人物的集体照数量大于第三预设数值并且每张照片中人数少于第二预设数值，则认为两人为亲密关系。

优选的，所述步骤S3中，文件图谱记录其他用户对文件图谱中数据的操作行为，并关联关系。

优选的，通用类文本分类包含体育，财经，房产，家居，教育，科技，时尚，时政，游戏，娱乐，彩票，股票，社会，星座；教育类文本分类包含仪器设备，党政，基建，外事，教学，科研，行政，财会。

优选的，所述步骤S5包括：

用户以图片方式检索：通过人脸检测和人脸识别将人像信息向量化表示，和/或，通过图像分类和目标检测进行处理，识别出场景和实物；然后将向量化的人像信息与文件图谱、人物库以及人物关系网络中人像依据相似度进行检索匹配，和/或，将识别的场景和实物与文件图谱中场景和实物依据相似度进行检索匹配；或者

用户以自然语言进行关键词检索：利用词库结合最短编辑距离方法对关键词进行文本纠错与矫正，从文件图谱、人物库以及人物关系网络中进行检索匹配；

用户检索匹配出对应结果，优先展示结果对应的相关图片、视频、文本和主页链接，同时给出以搜索意图作为一般内容检索的选项。

优选的，所述步骤S5中，

当匹配出图片或关键词信息为场景名时，则优先展示同场景的相关图片，形成以该场景名为中心的用户文件网络图谱，并提供以场景名作为一般内容检索的选项入口；

当匹配出图片或关键词信息为物品名时，则优先展示包含该物品类的相关图片，形成以该物品类为中心的用户文件网络图谱，并提供以物品名作为一般内容检索的选项入口；

当匹配出关键词信息为文件类别名时，则优先展示该类别名下的相关文档，形成以该文件类为中心的用户文件网络图谱，并提供以文件类别名作为一般内容检索的选项入口；

当匹配出图片信息为人像名时，则优先展示该人像的相关图片、视频，形成以该人像为中心的用户文件网络图谱，并提供以人像名作为一般内容检索的选项入口；

当匹配出关键词信息为用户名时，则优先展示该用户的主页链接，形成以该用户为中心的用户文件网络图谱，并提供以用户名作为一般内容检索的选项入口；

当匹配出关键词信息为自定义标签时，则优先展示包含该自定义标签的相关文件，形成以该自定义标签的相关文件为中心的用户文件网络图谱，并提供以自定义标签作为一般内容检索的选项入口；

当上述匹配都无法成功时，则将图片或关键词信息作为一般内容，进行一般内容检索，并展示相关对应结果。

本发明的有益效果是：本发明基于知识图谱，结合多媒体文件分析技术，即图片、影像识别(包括人脸检测、过滤、识别、对比，物体、场景识别)和文本分类(使用通用分类器和教育专用两种分类方法进行双层分类)等，获得与当前用户查询内容相符合的各种维度的检索数据，并以知识图谱的形式将检索数据可视化，便于当前用户更好的理解。推动检索技术朝向多模态检索、智能检索方向发展，具有非常大的实际应用价值以及广阔的应用前景。

附图说明

图1是本发明的基于知识图谱的多媒体检测方法的流程示意图；

图2是本发明中人物库构建流程示意图；

图3是本发明中人物关系定义示意图；

图4是本发明中搜索流程示意图。

具体实施方式

下面将结合附图对本发明作进一步说明。

请参阅图1，本发明的基于知识图谱的多媒体检测方法，包括下列步骤：

步骤S1，构建多媒体数据库，各个用户向多媒体数据库中上传共享多媒体文件以及自定义标签。因为当前传播实体的相关知识不再仅仅通过单一媒体进行表示，往往是多媒体多渠道的方式传播信息。针对多种媒体形态(图片，视频，文本，用户等)的实体信息，利用图像分类，目标检测，文本分类等技术进行分析。多媒体文件包括自然属性(比如文件上传的地点，时间，大小，文件类型等，)与社会属性(比如文件的所属分类类别，文件中识别出的人像、实物、场景等)。

步骤S2，针对多媒体文件中包含人像的图片文件和视频文件，通过人脸检测、人脸识别和人脸对比进行处理，构建人像库。如图2所示，具体地:

首先利用开源的基于角度的人脸识别模型，进行人脸检测和人脸识别。当图片文件或视频文件的关键帧检测到人像，通过人脸检测过滤侧脸和模糊脸，主要通过特征点距离计算出人像双眼的眼角至眼尾距离比，判断当距离比大于预设倍数(例如3)时认定人脸为侧向，并将此过滤。利用开源的图像处理库中的拉普拉斯算子进行边缘检测。拉普拉斯算子用二阶微分正峰、负峰之间的过零点确定缓慢变化的边缘线，突出图像中的孤立点、孤立线和线端点。当拉普拉斯算子值小于于预设值(例如12)时，则认为人像图为模糊脸而将此过滤，保留算子值大于12的清晰图片。拉普拉斯算子是最简单的各向同性微分算子，具有旋转不变性。一个二维图像函数的拉普拉斯变换是各向同性的二阶导数，定义为：

其中f为图像函数，x，y表示不同方向的求导。

然后通过人脸识别将人像信息向量化表示，即利用人脸识别模型倒数第二层网络输出向量作为人脸信息向量化表示，再将向量化的人像信息与人像库内数据进行人脸对比，计算相似度并进行降序排列，相似度最高且大于预设值(例如70％)则认为匹配成功，将新的人像信息加入人像库，反之匹配失败时，则在人像库中新增数据，以此方式构建人像库。

针对多媒体文件中的文本文件，通过通用类与教育类两种分类器，对文本文件进行分类，并根据分类结果打上类别标签。其中通用类利用清华大学自然语言处理(NLP)实验室的中文文本分类训练集THUNews进行训练分类，利用卷积神经网络对文本进行分类的算法(TextCNN)分类算法进行训练，将文本分为'体育','财经','房产','家居','教育','科技','时尚','时政','游戏','娱乐','彩票','股票','社会','星座'等14个类别，其准确率科大98.7％。教育类则是通过在教育网站手机各大高校的各个类别的文章形成测试集，通过TextCNN进行文本分类训练，将文本分为'仪器设备','党政','基建','外事','教学','科研','行政','财会'等8个类别，其准确率为93％。用户上传文本文件，获得文本文件的文件名称与详细内容，进行去停用词，分词，特征向量化处理后，首先利用通用分类器文本数据进行分类，如果文本分类为非教育类的其他13类别，则将文本打上相应的类别标签；如果文本分类为教育类，则使用教育专用分类器对文本继续分类，根据分类结果打上相应类别标签。

步骤S3，针对每个用户，通过步骤S2对其上传的多媒体文件分析获得人像数据、场景数据、实物数据以及文本文件分类数据，一方面，将人像数据、场景数据、实物数据以及文本文件分类数据与各多媒体文件进行关联，另一方面，将该用户分别与其上传的多媒体文件、自定义标签以及人像数据进行关联，初步形成以知识图谱表示的网络结构，即文件图谱。之后其他用户在平台上对文件图谱中数据进行操作的行为也会被记录(如预览、下载、上传等)关联关系，更新至图谱脉络中，不断丰富图谱信息并进行展示。

步骤S4，根据构建的人像库中每两个人物之间存在的集体照数量以及集体照上人数，确定两个人物之间的关系类型，构建人物关系网络。如图3所示，具体地，人物关系包括同框、认识与亲密，如下：

当两个人物的集体照数量大于第一预设数值(例如3)且不大于第三预设数值(例如8)，并且每张照片中人数少于第二预设数值(例如5)，则认为两人为认识关系；

当两个人物的集体照数量大于第三预设数值(例如8)并且每张照片中人数少于第二预设数值(例如5)，则认为两人为亲密关系。

步骤S5，基于文件图谱、人物库以及人物关系网络，用户进行检索。在用户查询时，用户可以以多媒体方式(自然语言如人名、文件名、关键词，文件如图片等)进行检索，可以得出搜索词的文件图谱或人名的人物关系图谱及其他基础的如文件信息，地图信息，人物信息等结果。对于用户输入的查询内容，分别以文本和其他多媒体的内容进行各自的分析与联合，以此来更好解析用户查询意图，反馈期望结果。如图4所示，具体地，

用户检索匹配出对应结果，优先展示结果对应的相关图片、视频、文本和主页链接，同时给出以搜索意图作为一般内容检索的选项。分为如下情况：

基于文件图谱的实物社会属性与自然属性等关联关系以及标准化信息，整合其中的对应信息可以构建人物关系、人像检索、关键词搜索和地图搜索等相关应用，实现基于文件图谱技术的多媒体全方位多角度检索***，构建相对完整的知识体系，提升搜索广度与深度，更好的展示搜索结果。

以上实施例仅供说明本发明之用，而非对本发明的限制，有关技术领域的技术人员，在不脱离本发明的精神和范围的情况下，还可以作出各种变换或变型，因此所有等同的技术方案也应该属于本发明的范畴，应由各权利要求所限定。

Claims

1.一种基于知识图谱的多媒体检测方法，其特征在于，包括：

2.根据权利要求1所述的基于知识图谱的多媒体检测方法，其特征在于，所述步骤S2，包括：

3.根据权利要求2所述的基于知识图谱的多媒体检测方法，其特征在于，人脸检测指：通过特征点距离计算出人像双眼的眼角至眼尾距离比，判断当距离比大于预设倍数时认定人脸为侧向，并将此过滤；利用拉普拉斯算子进行边缘检测，当拉普拉斯算子值小于预设值时，则认为人像图为模糊脸而将此过滤。

4.根据权利要求2所述的基于知识图谱的多媒体检测方法，其特征在于，利用基于角度的人脸识别模型，进行人脸检测和人脸识别。

5.根据权利要求1所述的基于知识图谱的多媒体检测方法，其特征在于，所述步骤S4中的人物关系包括：

6.根据权利要求1所述的基于知识图谱的多媒体检测方法，其特征在于，所述步骤S3中，文件图谱记录其他用户对文件图谱中数据的操作行为，并关联关系。

7.根据权利要求1所述的基于知识图谱的多媒体检测方法，其特征在于，通用类文本分类包含体育，财经，房产，家居，教育，科技，时尚，时政，游戏，娱乐，彩票，股票，社会，星座；教育类文本分类包含仪器设备，党政，基建，外事，教学，科研，行政，财会。

8.根据权利要求1所述的基于知识图谱的多媒体检测方法，其特征在于，所述步骤S5包括：

9.根据权利要求8所述的基于知识图谱的多媒体检测方法，其特征在于，所述步骤S5中，