CN111680202B

CN111680202B - 一种基于本体的人脸图像数据收集方法和装置

Info

Publication number: CN111680202B
Application number: CN202010333289.4A
Authority: CN
Inventors: 李帆; 李永刘; 朱铭皓
Original assignee: Fiberhome Telecommunication Technologies Co Ltd
Current assignee: Fiberhome Telecommunication Technologies Co Ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2022-04-26
Anticipated expiration: 2040-04-24
Also published as: CN111680202A

Abstract

本发明涉及人脸图像数据整理技术领域，提供了一种基于本体的人脸图像数据收集方法和装置。获取待收集的人脸图像数据的目标主题关键词；根据所述目标主题关键词，进行被爬取网站的综合优先度分析；其中，所述综合优先度分析，包括网站与所述目标主题关键词的相关度，以及图片质量权重；根据所述综合优先度的排序和待收集的人脸图像数据的相关要求，结合已储备的人脸图像本体完成待收集的人脸图像数据的收集。本发明构建了人脸图像本体，并通过扩展人脸图像数据，使得人脸图像本体更加丰富，最终形成信息完备人脸图像本体库。同时，采用人脸图像本体、网页图像质量改进爬虫链接综合优先级评估方式使得整个爬虫过程更容易聚焦有效数据上来。

Description

一种基于本体的人脸图像数据收集方法和装置

【技术领域】

本发明涉及人脸图像数据整理技术领域，特别是涉及一种基于本体的人脸图像数据收集方法和装置。

【背景技术】

近年来，人像识别技术得到快速发展，许多学者、公共服务业或企业也开始围绕人像识别领域开展相关研究。一些人像识别研发和治综项目开发过程中，对于人脸图像测试数据集的获取亟待提供一个高效良好的采集方案。相比于人工采集方案，网络图片采集可以更好的减少人力消耗，并且合理利用了公共资源。然而，现有的网络图片爬虫采集过程中缺少主题语义分析，存在主题漂移问题，并且已有采集方法仅进行图片数据下载收集，忽略对图片的信息标注。此外，针对人脸图像数据采集缺失对图像数据包含的人物实体信息标注，使得采集的人脸图像数据信息单一。

鉴于此，克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。

【发明内容】

本发明要解决的技术问题是现有的网络图片爬虫采集过程中缺少主题语义分析，存在主题漂移问题，并且已有采集方法仅进行图片数据下载收集，忽略对图片的信息标注。此外，针对人脸图像数据采集缺失对图像数据包含的人物实体信息标注，使得采集的人脸图像数据信息单一。

本发明采用如下技术方案：

第一方面，本发明提供了一种基于本体的人脸图像数据收集方法，储备有人脸图像本体，其中，人脸图像本体包括人脸图片属性、人脸身份属性和人脸拓扑关系属性，所述数据搜集方法包括：

获取待收集的人脸图像数据的目标主题关键词；

根据所述目标主题关键词，进行被爬取网站的综合优先度分析；其中，所述综合优先度分析，包括网站与所述目标主题关键词的相关度，以及图片质量权重；

根据所述综合优先度的排序和待收集的人脸图像数据的相关要求，结合已储备的人脸图像本体完成待收集的人脸图像数据的收集。

优选的，所述网站与所述目标主题关键词的相关度包括网页文本主题相关度，则所述根据所述目标主题关键词，进行被爬取网站的综合优先度分析，具体包括：

综合优先度Priority(l)＝γ×R(P_l)+θ×F(P_u)，其中，γ和θ加权系数满足γ+θ＝1；其中，P_l表示网页文本；所述R(P_l)表示网页文本主题相关度；P_u表示链接l所在网页；F(P_u)表示当前所在网页图像质量；

其中，综合优先度越高，相应的抓取顺序越靠前。

优选的，所述网站与所述目标主题关键词的相关度包括锚文本主题相关度、周围文字主题相关度和网页文本主题相关度，则所述根据所述目标主题关键词，进行被爬取网站的综合优先度分析，具体包括：

综合优先度Priority(l)＝α×R(A_l)+β×R(S_l)+γ×R(P_l)+θ×F(P_u)，其中，α、β、γ和θ加权系数满足α+β+γ+θ＝1；其中，A_l、S_l、P_l表示超链接l的锚文本、锚文本周围的文字和网页文本；所述R(A_l)、R(S_l)、R(P_l)表示锚文本主题相关度、周围文字主题相关度和网页文本主题相关度；P_u表示链接l所在网页；F(P_u)表示当前所在网页图像质量；

其中，综合优先度越高，相应的抓取顺序越靠前。

优选的，所述网站与所述目标主题关键词的相关度包括锚文本主题相关度、周围文字主题相关度、网页的重要程度和网页文本主题相关度，则所述根据所述目标主题关键词，进行被爬取网站的综合优先度分析，具体包括：

综合优先度Priority(l)＝α×R(A_l)+β×R(S_l)+γ×R(P_l)+η×PR(P_l)+θ×F(P_u)，其中，α、β、γ、η和θ加权系数满足α+β+γ+η+θ＝1；其中，A_l、S_l、P_l表示超链接l的锚文本、锚文本周围的文字和网页文本；所述R(A_l)、R(S_l)、R(P_l)表示锚文本主题相关度、周围文字主题相关度和网页文本主题相关度；PR(P_l)表示超链接l指向网页的重要程度；P_u表示链接l所在网页；F(P_u)表示当前所在网页图像质量；

其中，综合优先度越高，相应的抓取顺序越靠前。

优选的，网页文本主题相关度和/或锚文本主题相关度、周围文字主题相关度的获取，具体为：

网页文本P_l和/或将锚文本A_l、锚文本周围的文字S_l各自作为一个文本Doc，获取Doc对应的文本主题向量D，带入第一公式计算文本主题相关度；所述第一公式为：

其中，T和D分别为带有语义权重的目标主题关键词向量和文本中对应目标主题关键词的向量；W_T、W_D分别为T和D对应的语义权重向量；

分别为T和D中第i个对应目标主题关键词的语义权重。

优选的，用TF_i,j表示第i个目标主题关键词在文本Doc第j个位置出现的词频，所述文本Doc表示为D_TF＝[(TF_1,1,TF_2,1,...,TF_n,1),(TF_1,2,TF_2,2,...,TF_n,2),…,(TF_1,J,TF_2,J,...,TF_n,J)]；

用w_di表示切分出的目标主题关键词在文本Doc的语义权重，文本Doc的文本主题向量表示为

其中，

其中，idf_i中N表示已处理的网页文本总数，N_i表示包含第i个目标主题关键词的网页文本个数。

优选的，所述PR(P_l)的计算通过将网页文本P_l代入第二公式中的参数P计算得到，所述第二公式为：

其中，d表示阻尼系数；ω表示调节因子；m表示已爬取的网页中网页P的入链网页总数，P_i表示指向网页P的第i个入链网页；PR(P_i)表示网页P_i的PR值；C(P_i)表示网页P_i的出链网页总数。

优选的，将当前网页中已分析的图片数量、图片质量用于评估子链接l相关度；链接l所在网页的网页图像质量F(P_u)计算方式如下：

其中，σ和τ加权系数满足σ+τ＝1；T_e表示符合人脸图像质量分阈值的图像数量，T_f表示包含人脸图像的图像数量，T_z表示当前网页的图像总数，E_i表示归一化处理之后的人脸图像质量分。

优选的，所述人脸图片属性包括：图像像素、人脸可见度、面部扭曲程度、噪声级别和人脸图像质量分中的一项或者多项，则所述符合质量分阈值的图像，具体为：

图像根据所述图像像素、人脸可见度、面部扭曲程度、噪声级别和人脸图像质量分中的一项或者多项综合打分得到的质量分；

其中，所述质量分阈值是根据储备的人脸图像本体中，与所述目标主题关键词关联的人脸图片属性的人脸图像质量分计算得到。

优选的，所述待收集的人脸图像数据的相关要求，具体包括：

待收集的人脸图像数据的相关要求为针对每一人物收集预设阈值内的人脸图像数据；和/或，

待收集的人脸图像数据的相关要求为本次爬虫的人脸图像数量大于目标人脸图像阈值或者等待抓取队列为空，则爬虫任务结束；和/或，

待收集的人脸图像数据的相关要求为补充针对每一人物的不同程度的人脸可见度。

优选的，所述根据所述综合优先度的排序和待收集的人脸图像数据的相关要求，结合已储备的人脸图像本体完成待收集的人脸图像数据的收集，具体包括：

根据已储备的人脸图像本体中的人脸身份属性和人脸拓扑关系属性，确定当前所抓取网站中的人脸图像数据与储备的人脸图像本体之间的关系；

若待收集的人脸图像数据的相关要求为针对每一人物收集预设阈值内的人脸图像数据，则在当前针对人物A的人脸图像数据达到所述预设阈值时，对于新抓取到的人脸图像质量分更高的图片，替代掉已经存储的针对人物A的人脸图像本体中，人脸图像质量分相比所抓取的人脸图像质量分低的图片；

若待收集的人脸图像数据的相关要求为补充针对每一人物的不同程度的人脸可见度，则将抓取到的对应每一人物的不同程度的人脸可见度的人脸图像数据，补全到储备的人脸图像本体中。

第二方面，本发明还提供了一种基于本体的人脸图像数据收集装置，用于实现第一方面所述的基于本体的人脸图像数据收方法，所述装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，用于执行第一方面所述的基于本体的人脸图像数据收方法。

第三方面，本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，用于完成第一方面所述的基于本体的人脸图像数据收方法。

本发明构建了人脸图像本体，并通过扩展人脸图像数据，使得人脸图像本体更加丰富，最终形成信息完备人脸图像本体库。同时，采用人脸图像本体、网页图像质量(即所述图片质量权重)改进爬虫链接综合优先级评估方式使得整个爬虫过程更容易聚焦有效数据上来。本发明针对目前人像识别数据集采集的局限性，考虑到网络资源的优越性，结合自然语言处理技术，给出一种新颖的基于人脸图像本体的数据集收集方法。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于本体的人脸图像数据收集方法流程示意图；

图2是本发明实施例提供的一种关键词语义关系表示意图；

图3是本发明实施例提供的一种人脸图像采集装置整体框架示意图；

图4是本发明实施例提供的一种初始本体示例图；

图5是本发明实施例提供的一种基于本体的人脸图像数据收集方法流程示意图；

图6是本发明实施例提供的一种人脸图片属性表；

图7是本发明实施例提供的一种人物实体基本关系和基本属性表；

图8是本发明实施例提供的一种HTML文本位置权重表；

图9是本发明实施例提供的一种基于本体的人脸图像数据收集装置结构示意图。

【具体实施方式】

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明的描述中，术语“内”、“外”、“纵向”、“横向”、“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明而不是要求本发明必须以特定的方位构造和操作，因此不应当理解为对本发明的限制。

此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1:

海量网络图像资源数据库中，如何快速采集高质量的人脸图像数据集对于人像识别领域的相关研究和开发具有重要意义。然而，目前的图像爬虫工具仅针对图像数据采集，缺少对网页文本中带有文本块的图像模块实现文本和图像语义分析。主题爬虫的收敛性是一个重要研究，聚焦到特定主题域可以避免爬虫漂移，以防花费大量时间进行主题不相关检索。

本发明实施例提出了一种基于本体的人脸图像数据收集方法，储备有人脸图像本体，其中，人脸图像本体包括人脸图片属性(例如：图像像素、人脸可见度、面部扭曲程度、噪声级别等等)、人脸身份属性(例如：人脸图片所具体代表的人物身份)和人脸拓扑关系属性(即人脸图片所代表人物身份的周边社会关系，例如：父母关系、亲朋关系、同事关系等等)，在本发明的后续扩展方案中，将进一步实例化和扩展所述人脸图像本体的结构组成，使其除了包含上述的人脸图片属性所代表的图像实体信息，以及人脸身份属性和人脸拓扑关系属性所构成的人物实体信息外，还进一步包括从图片自身提炼出的关键词构成的图像语义信息，从而形成更为完善的人脸图像本体。如图1所示，所述数据搜集方法包括：

在步骤201中，获取待收集的人脸图像数据的目标主题关键词。

其中，所述目标主题关键词，通常是操作人员通过控制界面导入。也可以是通过平台自主分析当前存储的人脸图像本体中，由人脸拓扑关系属性界定的，所缺失的人脸图片，从而生成目标主题关键词，完成自发性的收集。这是因为，在实际操作过程中，尤其是通过网页爬取的方式，从中获取的文字信息量通常比图片要大，从而可以在上述由文字构成的人脸拓扑关系属性和实际的人脸图片数量差距超过预设值时，边可触发平台进行上述的自主分析和后续的收集过程。

例如图4所示，所述目标主题关键词，对应着所要收集的人脸图像数据的共有属性，可以是“明星”，也可以是“港台明星”；除此以外，在不同场景中还可以“政要人物”、“地产大鳄”等等。

在步骤202中，根据所述目标主题关键词，进行被爬取网站的综合优先度分析；其中，所述综合优先度分析，包括网站与所述目标主题关键词的相关度，以及图片质量权重。

在本发明实施例中，重点扩展两个基层实体信息：图像实体、人脸图像中包含的人物实体信息。通过人像识别技术可以获取图像实体信息，结合图像语义(例如：图像数据一般为.jpg等格式，我们映射这种格式的数据为“一张图像/一张图片”，然后通过图像语义分析，丰富这张图像的描述，例如：“一张女孩的大头照”、“一张女孩和男孩的合影照片”)和社交语义分析(例如图片中可能包含的多个人物对象，则可通过人物识别获取到人物之间的社交关系，进一步，还可以是根据锚文本周围的文字信息、网页内容等分析得到)，可以获取所涉及的人物实体信息(即上述的人脸身份属性和人脸拓扑关系属性，其中人脸拓扑关系的另一种表述方式可以为社交拓扑关系，与所述社交语义分析所对应)。其中，扩展的人物实体信息用于对应收集到的图像数据中的图像信息标注。

在步骤203中，根据所述综合优先度的排序和待收集的人脸图像数据的相关要求，结合已储备的人脸图像本体完成待收集的人脸图像数据的收集。

本发明实施例构建了人脸图像本体，并通过扩展人脸图像数据，使得人脸图像本体更加丰富，最终形成信息完备人脸图像本体库。同时，采用人脸图像本体、网页图像质量(即所述图片质量权重)改进爬虫链接l综合优先级评估方式使得整个爬虫过程更容易聚焦有效数据上来。本发明实施例针对目前人像识别数据集采集的局限性，考虑到网络资源的优越性，结合自然语言处理技术，给出一种新颖的基于人脸图像本体的数据集收集方法。

在本发明实施例中，除了上述步骤201中解释的目标主题关键词的两种获取方式外，在本发明实施例具体实现过程中，还可以针对人脸图像采集，通过分析候选人脸图像本体得到不同域的代表关键词，提供多个所述代表关键词作为中心主题方案，即从已经爬取到的网页中得到更为完善的目标主题关键词。

本发明实施例能够在短时间内尽可能多的获取与给定主题相关的人脸图像网页资源，不仅进行人脸图片收集，也同时实现实体标记图片信息，增加了收集人脸图像数据的质量，减少了人工干涉数据集采集过程。同时，由于实现信息标注，也简化、优化了人像识别研究和项目中测试结果的校验核对。

在本发明实施例中，对于所述根据所述目标主题关键词，进行被爬取网站的综合优先度分析，给予了以下至少三种可实现方式：

实现方式一：

网站与所述目标主题关键词的相关度包括网页文本主题相关度，则综合优先度Priority(l)＝γ×R(P_l)+θ×F(P_u)，其中，γ和θ加权系数满足γ+θ＝1；其中，P_l表示网页文本；所述R(P_l)表示网页文本主题相关度；P_u表示链接l所在网页；F(P_u)表示当前所在网页图像质量；其中，综合优先度越高，相应的抓取顺序越靠前。

实现方式二：

所述网站与所述目标主题关键词的相关度包括锚文本主题相关度、周围文字主题相关度和网页文本主题相关度，则综合优先度Priority(l)＝α×R(A_l)+β×R(S_l)+γ×R(P_l)+θ×F(P_u)，其中，α、β、γ和θ加权系数满足α+β+γ+θ＝1；其中，A_l、S_l、P_l表示超链接l的锚文本、锚文本周围的文字和网页文本；所述R(A_l)表示锚文本主题相关度，即作为链接l的锚文本自身与目标主题关键词之间的相关度；R(S_l)表示周围文字主题相关度，即锚文本周围的指定词组构成的文字与目标主题关键词之间的相关度，例如：一般采取左右两侧3-5个词组构成；R(P_l)表示网页文本主题相关度，即网页文本中包含的内容与目标主题关键词之间的相关度；P_u表示链接l(也可以理解为锚文本在本发明实施例中的另一种表述方式)所在网页；F(P_u)表示当前所在网页图像质量；其中，综合优先度越高，相应的抓取顺序越靠前。

实现方式三：

所述网站与所述目标主题关键词的相关度包括锚文本主题相关度、周围文字主题相关度、网页的重要程度和网页文本主题相关度，则综合优先度Priority(l)＝α×R(A_l)+β×R(S_l)+γ×R(P_l)+η×PR(P_l)+θ×F(P_u)，其中，α、β、γ、η和θ加权系数满足α+β+γ+η+θ＝1；其中，A_l、S_l、P_l表示超链接l的锚文本、锚文本周围的文字和网页文本；所述R(A_l)、R(S_l)、R(P_l)表示锚文本主题相关度、周围文字主题相关度和网页文本主题相关度；PR(P_l)表示超链接l指向网页的重要程度；P_u表示链接l所在网页；F(P_u)表示当前所在网页图像质量；其中，综合优先度越高，相应的抓取顺序越靠前。例如，如果重点考虑R(A_l)对于评估链接l优先级的影响，则可以给系数α一个较大值，同理考虑其它因子的影响。本发明实施例给出初始参数配置如(α，β，γ，η，θ)＝(0.3，0.1，0.3，0.1，0.2)，重点考虑了R(A_l)、R(P_l)、F(P_u)三个影响因子，后续根据实际实验可进行调节。

上述三种方式可以理解为应对不同的爬取任务量，不同的计算资源情况下所设定的，在具体实现过程中，可以基于具体情况做因地适宜的选择和调整。从计算得到的优先度来说，方式三的精准性高于方式二，而方式二的精准性高于方式一；所述精准性是指代排序出来的优先度，所具体表现出于目标主题关键词的关联紧密程度。

对于上述三种实现方式中所涉及的，锚文本主题相关度、周围文字主题相关度和网页文本主题相关度的获取，本发明实施例还提供了一种具体获取方法，阐述如下：

可以将锚文本A_l、锚文本周围的文字S_l和网页文本P_l任意一个或者多个单独为一个文本Doc，获取Doc对应的文本主题向量D，带入第一公式计算文本主题相关度；所述第一公式为：

分别为T和D中第i个对应目标主题关键词的语义权重。在具体操作过程中，由于A_l和S_l的文本长度较短，通常不需要划分文本结构权重。而对于较长的P_l文本，本发明实施例根据网页结构和非结构化的图像数据，给出网页文本位置权重(见图2)。具体为非结构化的图像数据转化为结构化的文本(即本发明实施例1中提出的图像语义)进行分析，非结构化的图像数据可以理解为图像数据一般为.jpg等格式，我们映射这种格式的数据为“一张图像/一张图片”，然后通过图像语义分析，丰富这张图像的描述，例如：“一张女孩的大头照”、“一张女孩和男孩的合影照片”。

在本发明实施例中，例如用TF_i,j表示第i个主题词在文本Doc第j个位置出现的词频，所述文本Doc表示为：

D_TF＝[(TF_1,1,TF_2,1,...,TF_n,1),(TF_1,2,TF_2,2,...,TF_n,2),…,(TF_1,J,TF_2,J,...,TF_n,J)]；

用w_di表示切分出的目标主题关键词在文本Doc的语义权重，则文本Doc的文本主题向量表示为

其中，

其中，tf_i，j表示第i个目标主题关键词在网页文本第j个位置规范化后的词频，maxTF_i，j表示第i个目标主题关键词在所有j个位置上出现的最大词频，w_j表示目标主题关键词在网页文档中第j个位置的权重系数，其中，tf_i,j＝TF_i,j/maxTF_i,j，如图8所示，划分网页结构为J＝5组。idf_i中N表示已处理的网页文本总数，N_i表示包含第i个目标主题关键词的网页文本个数。在本发明实施例中，所述语义权重向量w_ti的取值是根据语义距离、关键词密度、关键词深度、关键词重合度和关键词语义关系综合分析得到，而具体的如何根据语义距离、关键词密度、关键词深度、关键词重合度和关键词语义关系综合分析过程，属于本领域语义分析中的现有技术，不在本发明中赘述。

基于本发明实施例，还针对上述方式三中所涉及的所述PR(P_l)提供了一种可行的实现方案，所述PR(P_l)的计算通过将网页文本P_l代入第二公式中的参数P计算得到，所述第二公式为：

其中，d表示阻尼系数，通常设置为0.85；ω表示调节因子，通常设置为0.6。可调参数d和ω可以根据实际实验情景进行调整。m表示已爬取的网页中网页P的入链网页总数，P_i表示指向网页P的第i个入链网页。PR(P_i)表示网页P_i的PR值；C(P_i)表示网页P_i的出链网页总数；R(A_i)表示P_i的锚文本主题相关度。

在本发明实施例中，网页P的重要程度(PR值)不仅仅依赖于该网页的入链数量，还依赖于入链网页的重要程度及其出链数量，甚至可以同时考虑锚文本的主题相关度改善网页P关于设定主题的重要程度。

基于本发明实施例，还对上述方式一、方式二和方式三中共同涉及的F(P_u)给予了一种可行的实现方案，将当前网页中已分析的图片数量、图片质量用于评估子链接l相关度；链接l所在网页的网页图像质量F(P_u)计算方式如下：

其中，σ和τ加权系数满足σ+τ＝1；T_e表示符合人脸图像质量分阈值的图像数量，T_f表示包含人脸图像的图像数量，T_z表示当前网页的图像总数，E_i表示归一化处理之后的人脸图像质量分。F(P_u)涉及两部分影响因子，因子的重要程度通过调节σ和τ加权系数实现。设置两部分因子同样重要，在本发明实施例的可选方案中，给出初始加权系数配置(σ，τ)＝(0.5，0.5)，后续根据实际实验可进行调节。

在本发明实施例中，所述人脸图片属性包括：图像像素、人脸可见度、面部扭曲程度、噪声级别和人脸图像质量分中的一项或者多项，则在上述计算F(P_u)的公式中所涉及的T_e表示符合人脸图像质量分阈值的图像数量，具体为：

图像根据所述图像像素、人脸可见度、面部扭曲程度、噪声级别和人脸图像质量分中的一项或者多项综合打分得到的人脸图像质量分；

其中，所述人脸图像质量分阈值是根据储备的人脸图像本体中，与所述目标主题关键词关联的人脸图片属性的人脸图像质量分计算得到。例如：人脸图像质量分阈值采取60％-75％。

结合本发明实施例，还给予所述待收集的人脸图像数据的相关要求，几种可能的实现情况：

1)待收集的人脸图像数据的相关要求为针对每一人物收集预设阈值内的人脸图像数据；

2)待收集的人脸图像数据的相关要求为本次爬虫的人脸图像数量大于目标人脸图像阈值或者等待抓取队列为空，则爬虫任务结束；

3)待收集的人脸图像数据的相关要求为补充针对每一人物的不同程度的人脸可见度。

给予上述不同的人脸图像数据的相关要求，进一步，在本发明实施例步骤203中实现的所述根据所述综合优先度的排序和待收集的人脸图像数据的相关要求，结合已储备的人脸图像本体完成待收集的人脸图像数据的收集，可具体表现为：

若待收集的人脸图像数据的相关要求为针对每一人物收集预设阈值内的人脸图像数据，则在当前针对人物A的人脸图像数据达到所述预设阈值时，对于新抓取到的人脸图像质量分更高的图片，替代掉已经存储的针对人物A的人脸图像本体中人脸图像质量分相比所抓取的人脸图像质量分低的图片；

实施例2：

本发明实施例作为实施例1在具体场景下的具体阐述，并将实施例1中介绍的人脸图像本体基本结构做更为清晰、更为形象的示例性阐述，以便于对实施例1中所阐述方案的具体实现有更清楚的界定。本发明实施例相比较实施例1而言，进一步引入人脸图像本体中的图像语义信息概念，即将图像中提取出的数据信息作为一层语义，与爬取到的图片进行更深层次的关联性分析。

本发明实施例将目标主题关键词和对应爬取的网页文本(其中锚文本和锚文本周围文字因为通常比较短，因此，以网页文本为典型案例进行表述)分为字符层，语言层和语义层三个研究阶段。本发明实施例在具体实现过程中，通常需要预先构建人脸图像本体库，并将其应用于指导网络人脸图像爬虫采集过程。

如图3所示，基于中国分类主题关键词表，对于人脸图像关键词进行扩展。例如，检索50篇学术文献作为初始关键词关系网构建数据源。同时，针对不同域名获取代表性的5个网页数据，并将其也应用于初始化人脸图像本体。不同域名的对于人脸图像采集的主题描述形式主体偏重不同，因此为不同域名适配与顶级主题(可涵盖各域名对应的网站)对应的目标主题关键词十分必要。

例如图4关键词关系网示例图中，不同关键词节点之间的语义关系不同，关键词关系网表现的关键词上下级关系线的格式不同。图4中划分了四层关键词结构，目标主题关键词为第0层，以此类推。主题关键词C_i的所处关键词深度、包含的上层节点数、下层节点数等都影响主题关键词C_i的关键词语义权重值。本发明实施例结合图3的架构关系，进一步通过如图5所示的方法过程，将其架构中的关联关系做进一步阐述：

在步骤301中，使用构建的不同域名初始候选本体进行爬虫，爬虫解析网页中图像数据和文本数据。

对应图3中的构造人脸图像本体的中的第一块内容，而相应的结果可以形成如图4所示的关键词网络(即主体基准模型)。

在步骤302中，图像数据处理，将图像数据导出蕴含的基本特征，将人的视觉观测转化为丰富的语义描述。此处对应，图3中的构造人脸图像本体部分的中的第二块内容。图像语义通常划分为三阶段：底层特征语义、目标和空间关系特征、高层特征语义。本发明实施例主要关注图像语义的底层特征和高层语义特征，结合人脸检索，对图像本身质量评估和图像人脸质量评估，例如底层特征包括图像像素、人脸可见度、面部扭曲程度、噪声级别、人脸图像质量分以及图像所在域名，如图6所示，但不局限于罗列的基本属性信息。所述高层语义特征是将所述底层特征转换成可以引用语义分析的特征属性。

此外，将网页正文涉及的图像的底层特征(可以理解为通过图像识别获取到的图像数据)导出高层语义特征(例如人脸性别、人物关系、人物所处环境特征等等)作为正文的一部分。作为优选的方案之一，由于采集目标明确，因此将大小不同的人脸图像实现裁剪。此处为减少裁剪处理的数据量，本发明实施例仅针对人脸图像质量分大于阈值M₁的人脸图像数据进行裁剪操作。本发明实施例初始设置人脸图像质量分M₁＝0.55，将爬虫过程中人脸图像质量分大于M₁保留为有效图像数据，并将对应的实体信息扩充至人脸图像本体库。

在步骤303中，网页文本数据处理，结合步骤302中图像数据处理结果，考虑图像数据上下文内容，使用社交语义分析图像数据关联的文本内容，即可得到社交拓扑关系。此处仍然对应，图3中的构造人脸图像本体部分的中的第二块内容。

在本发明实施例中，通过步骤302中导出非结构化图像数据的高层语义特征，有利于提高社交语义决策分析结果的质量。本发明实施例主要关注人脸图像中涉及人物实体的基本属性和基本关系，如图7所示，但不局限于已罗列的属性和关系。

在步骤304中，根据目标主题向量T与中文本主题向量D实现向量积计算R(P_l)＝Sem(T,D)，得到文本中包含的主题关键词和目标主题关键词之间相关度(简称为主体相关度)。同理处理综合优先级中的锚文本R(A_l)、链接l周围文字R(S_l)的文本主题相关度计算。此处对应图3中的建立单目标优化模型部分。

其中，文本向量D的计算。以实施例1中所涉及的网页P_l为例子，综合HTML标签权重，本发明实施例划分网页结构为J＝5组，如图8所示。如果用TF_i,j表示第i个目标主题关键词在网页文本第j个位置出现的词频(我们可以根据HTML的标签不同进行网页文本结构划分，见图8，关键词出现在不同的标签中，即位置上，影响关键词的语义权重值计算)，则w_di作为切分出的目标主题关键词在文本Doc的语义权重，可通过实施例1中介绍的公式计算得到，并得到文本向量D。

在步骤305中，通过上述步骤301-304的方法过程，提取所有子链接Urls，并对Urls进行综合优先度评估。

其中，每个Url的综合优先度评估包含五部分影响因子，即锚文本主题相关度、周围文字主题相关度(实例中具体表现为锚文本周围文字，或者也可直接理解为链接周围文字)、网页文本主题相关度(在本发明实施例中也可表述为链接指向网页文本主题相关度)、链接指向网页的PR值(即实施例1中的网页的重要程度)以及链接所在当前网页图像质量(即实施例1中的图片质量权重)。

对于图3中的主题爬虫部分可详见实施例1中的相关描述，在本发明实施例中不做赘述。

其中，文本主题相关度的计算见步骤304(以及实施例1中所介绍的各种组合方式)所述。此外，Url在网络拓扑中的重要性程度使用PageRank迭代更新计算(详见本发明实施例1中对应第二公式阐述内容)，并且在传统的PR计算中增加链接锚文本主题相关度使得原PR计算具有主题相关性。本发明实施例增加链接所在当前网页图像质量加权项，网页图像质量F(P_u)越高，网页内容的质量越高，那么当前网页中Urls的预评估质量也会越高。

在本发明实施例中，通常还会同步解析网页，使用分布式爬虫进行不同域名候选人脸图像本体收集。首次爬虫采集过程需要基于构建的初始关键词网络实现，后续爬虫优化则基于上一次爬虫本体结果继续抓取。其中，在人脸图像本体收集过程中，对于人脸图像本体中人脸图片、人脸身份属性(源自步骤302)、人脸拓扑关系属性(源自步骤303)实体标记信息进行更新，例如：若收集过程中得到对应于同一人物的人脸图片质量更高的人脸图片，则将其替换掉人脸图像本体库中对应的人脸图片。

在本发明实施例中，同样可以采用实施例1中介绍的结束策略，例如采集的人脸图像数据集达到一定量级时，则本次爬虫任务结束。

在本发明实施例，通常不根据网页文本相关度决定是否提取子链接，而是将当前网页所有子链接Urls均进行综合优先级评估，并增加至等待队列Q_w。

本发明实施例爬虫实现链接去重操作，避免环形爬取，陷入局部搜索陷阱。

本发明实施例构建了人脸图像本体，并通过扩展实体实现图像标记，使得人脸图像本体更加丰富，最终形成信息完备人脸图像本体库。针对人脸图像采集，通过分析候选人脸图像本体得到不同域的代表关键词，提供多关键词作为目标主题关键词方案。同时，采用人脸图像本体、网页图像质量改进爬虫链接综合优先级评估方式。本发明实施例针对目前人像识别数据集采集的局限性，考虑到网络资源的优越性，结合自然语言处理技术，给出一种新颖的基于人脸图像本体的数据集收集方法。

实施例3：

如图9所示，是本发明实施例的基于本体的人脸图像数据收装置的架构示意图。本实施例的基于本体的人脸图像数据收装置包括一个或多个处理器21以及存储器22。其中，图9中以一个处理器21为例。

处理器21和存储器22可以通过总线或者其他方式链接，图9中以通过总线连接为例。

存储器22作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序和非易失性计算机可执行程序，如实施例1中的基于本体的人脸图像数据收方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令，从而执行基于本体的人脸图像数据收方法。

存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器22可选包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述程序指令/模块存储在所述存储器22中，当被所述一个或者多个处理器21执行时，执行上述实施例1中的基于本体的人脸图像数据收方法，例如，执行以上描述的图1和/或图5所示的各个步骤。

值得说明的是，上述装置和***内的模块、单元之间的信息交互、执行过程等内容，由于与本发明的处理方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于本体的人脸图像数据收集方法，其特征在于，储备有人脸图像本体，其中，人脸图像本体包括人脸图片属性、人脸身份属性和人脸拓扑关系属性，所述数据搜集方法包括：

获取待收集的人脸图像数据的目标主题关键词；

根据所述综合优先度的排序和待收集的人脸图像数据的相关要求，结合已储备的人脸图像本体完成待收集的人脸图像数据的收集；

将当前网页中已分析的图片数量、图片质量用于评估子链接l相关度；链接l所在网页的网页图像质量F(P_u)计算方式如下：

2.根据权利要求1所述的基于本体的人脸图像数据收集方法，其特征在于，所述网站与所述目标主题关键词的相关度包括网页文本主题相关度，则所述根据所述目标主题关键词，进行被爬取网站的综合优先度分析，具体包括：

其中，综合优先度越高，相应的抓取顺序越靠前。

3.根据权利要求1所述的基于本体的人脸图像数据收集方法，其特征在于，所述网站与所述目标主题关键词的相关度包括锚文本主题相关度、周围文字主题相关度和网页文本主题相关度，则所述根据所述目标主题关键词，进行被爬取网站的综合优先度分析，具体包括：

其中，综合优先度越高，相应的抓取顺序越靠前。

4.根据权利要求1所述的基于本体的人脸图像数据收集方法，其特征在于，所述网站与所述目标主题关键词的相关度包括锚文本主题相关度、周围文字主题相关度、网页的重要程度和网页文本主题相关度，则所述根据所述目标主题关键词，进行被爬取网站的综合优先度分析，具体包括：

其中，综合优先度越高，相应的抓取顺序越靠前。

5.根据权利要求2-4任一所述的基于本体的人脸图像数据收集方法，其特征在于，网页文本主题相关度和/或锚文本主题相关度、周围文字主题相关度的获取，具体为：

分别为T和D中第i个对应目标主题关键词的语义权重。

6.根据权利要求5所述的基于本体的人脸图像数据收集方法，其特征在于，用TF_i,j表示第i个目标主题关键词在文本Doc第j个位置出现的词频，所述文本Doc表示为

其中，

7.根据权利要求4所述的基于本体的人脸图像数据收集方法，其特征在于，所述PR(P_l)的计算通过将网页文本P_l代入第二公式中的参数P计算得到，所述第二公式为：

其中，d表示阻尼系数；ω表示调节因子；m表示已爬取的网页中网页P的入链网页总数，P_i表示指向网页P的第i个入链网页；PR(P_i)表示网页P_i的PR 值；C(P_i)表示网页P_i的出链网页总数。

8.根据权利要求1所述的基于本体的人脸图像数据收集方法，其特征在于，所述人脸图片属性包括：图像像素、人脸可见度、面部扭曲程度、噪声级别和人脸图像质量分中的一项或者多项，则所述符合质量分阈值的图像，具体为：

9.根据权利要求1所述的基于本体的人脸图像数据收集方法，其特征在于，所述待收集的人脸图像数据的相关要求，具体包括：

10.根据权利要求9所述的基于本体的人脸图像数据收集方法，其特征在于，所述根据所述综合优先度的排序和待收集的人脸图像数据的相关要求，结合已储备的人脸图像本体完成待收集的人脸图像数据的收集，具体包括：

11.一种基于本体的人脸图像数据收集装置，其特征在于，所述装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有被所述至少一个处理器执行的指令，所述指令被所述处理器执行，用于完成权利要求1-10任一所述的基于本体的人脸图像数据收集方法。