CN109255342A

CN109255342A - 一种基于眼动轨迹数据两步聚类的图像感兴趣区域提取方法和***

Info

Publication number: CN109255342A
Application number: CN201811383677.2A
Authority: CN
Inventors: 陈震中; 张滢雪
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2019-01-22
Anticipated expiration: 2038-11-20
Also published as: CN109255342B

Abstract

本发明提供一种基于眼动数据两步聚类的图像感兴趣区域提取方法，包括预聚类阶段和聚类阶段；其中预聚类阶段旨在剔除眼动数据中的噪声点，输入测试图片上的多人眼动轨迹点数据，将每两人的轨迹点数据合并进行聚类，以点层面和类层面的识别标准对噪声点剔除，保留属于有效注视过程的眼动轨迹点。聚类阶段旨在从有效眼动轨迹点中提取感兴趣区域，以所有属于有效注视过程的眼动轨迹点作为输入，首先对点进行聚类，其中每一类代表一个感兴趣区域，中心代表感兴趣区域位置，类内点数则代表区域吸引注意力的多少。本发明通过两步聚类对多人轨迹点进行分析，所得感兴趣区域提取结果更加符合人类视觉注意模式，具有更好的稳定性和抗噪声干扰能力。

Description

一种基于眼动轨迹数据两步聚类的图像感兴趣区域提取方法和***

技术领域

本发明涉及眼动数据分析领域，特别涉及一种基于眼动数据两步聚类的感兴趣区域提取方法和***。

背景技术

眼动仪可用于记录人眼处理视觉信息时的眼动特征，包括眼球位置、注视时长及注视位置等相关信息，随着眼动仪硬件及相关软件的智能化发展，眼动数据广泛应用于心理学、医学等学术研究领域和广告、网页优化等商业领域。其中，对眼动仪的应用热点之一在于通过用户的眼动数据分布特征找到用户对某一视觉目标的感兴趣区域。相应地，根据眼动轨迹数据提取图像感兴趣区域也成为眼动数据分析的研究重点之一。

对眼动数据的分析需首先对原始的文本形式输出的眼动数据进行读取和显示。由于眼动仪以固定的频率对注视位置进行记录，人眼在一定时间内对于视觉目标的注视表现为分布在注视区域上的离散点集。因此，视觉目标上包含了较多注视点的位置即代表该区域吸引了较多的视觉注意，可视作观察者的感兴趣区域。

目前，许多现有的图像感兴趣区域提取方法采取手动标注的方式，根据不同的应用场景对感兴趣区域进行形状随机的框选；或将图像分割为规则网格，以多个网格单元的组合定义一个感兴趣区域。这类方式对于由形状规则的内容组成的视觉目标较为有效，例如文本、脸部图像等。而当目标中包含不同形状、随机分布的内容时，如自然场景图像等，人工标注的方式则无法高效地完成感兴趣区域提取的任务，尤其是图像数量较多时，人工标注的方式需要耗费大量时间和人力。

针对以上所述背景及问题，需要一种基于眼动轨迹数据的方法，能够从眼动仪采集的眼动轨迹数据中自动识别观察者感兴趣区域，且更加符合观察者的视觉注意行为模式。与上述传统方法不同，本发明提出的算法基于两步聚类，对多人眼动轨迹数据进行有效的去噪及聚类，最终以每个眼动数据类代表图像上观察者感兴趣的区域，即包含较多眼动注视点的区域。

发明内容

本发明的目的在于针对多人眼动轨迹数据，提出一种基于两步聚类的图像感兴趣区域提取的技术方案。

本发明的技术方案提供一种基于眼动数据两步聚类的图像感兴趣区域提取方法，包括预聚类阶段和聚类阶段，

所述预聚类阶段进行眼动数据噪声点的剔除，包含以下步骤：

步骤1.1，读入测试图片上多个观察者产生的眼动轨迹点数据，假设有N个观察者浏览了该测试图片，则产生N组眼动轨迹点记录；

步骤1.2，将每两个观察者的眼动轨迹点数据合并进行聚类，将其分为若干类；

步骤1.3，基于上述聚类结果中的每个类进行噪声检测，并设定点层面及类层面噪声检测准则；

步骤1.4，对图像上每两个观察者合并后的眼动轨迹点重复以上步骤1.2-1.3，得到剔除噪声后的预聚类结果，即属于有效注视过程的眼动轨迹点；

所述聚类阶段进行感兴趣区域的提取，包含以下步骤：

步骤2.1，合并所有经过噪声剔除的属于有效注视过程的眼动轨迹点为一个点集，

步骤2.2，对合并后的点集进行聚类，经过聚类得到的眼动轨迹点类即可代表图像感兴趣区域，以聚类后每类的中心点代表感兴趣区域位置，类中点的数量代表感兴趣区域所吸引注意力的多少。

进一步的，步骤1.1中对每个观察者n，其眼动轨迹点记录可表达为每个点空间坐标的集合如下：

其中，I_n为观察者n所产生的眼动轨迹点数目。

进一步的，步骤1.2中采用近邻传播聚类方法进行聚类，具体过程如下，

步骤1.2.1，计算轨迹点间的相似度，构成相似度矩阵，其中相似度以负欧氏距离度量，以遵循两点距离越近，则相似度越高的原则；相似度计算公式如下：

其中，s(i，j)为点i与点j的相似度，x_i，y_i，x_j，y_i分别为点i与点j的横纵坐标，Q为两个点集中注视点的总数目；

对集合中每两个点计算相似度后构成相似度矩阵如下：

此外，将相似度矩阵对角线上元素s(k，k)(k＝1，2，...，Q)，即自相似度，设为相同的值，代表每个点成为聚类中心的可能性相同；

步骤1.2.2，基于局部相似度矩阵及近邻传播聚类的消息传递机制，在轨迹数据点间定义两类消息Responsibility和Availability，并将所有点的两类消息分别组成两个初始消息矩阵R_Q×Q和A_Q×Q；Responsibility为自数据点向候选中心点传递的消息，是数据点表达各个候选中心适合成为其中心的程度的消息，其初始值计算公式如下：

其中，i代表第i个轨迹点，其取值为1，2，...，n；k代表作为候选中心点的第k个轨迹点，其取值为1，2，...，n；k′为除k外的其他候选中心点；R(i，k)为第i点向候选中心点k传递的消息，即Responsibility；Sim(i，k)为第i点与第k点的相似度；Sim(i，k′)则为第i点与除第k点外的其他候选中心点间的相似度；

Availability为自候选中心向数据点传递的消息，是候选中心表达其对于成为各点中心的适合程度的消息，其初始值为0；

步骤1.2.3，对两类消息分别更新如下：

其中，i′代表除第i点和第k点外的其他轨迹点；A(i，k′)为自除第k点外的其他候选中心点向第i点传递的消息；R(i′，k)为除第i点外的其他数据点i′向候选中心点k传递的消息，i′≠i且i′≠k；

步骤1.2.4，为去除来自其他点的Responsibility过大的影响，以不同的方式更新A(k，k)如下：

步骤1.2.5，为避免可能出现的数值振荡，在更新后为所有新消息增加阻尼如下：

R(i，k)＝(1-λ)R(i，k)+λr_old(i，k)

A(i，k)＝(1-λ)A(i，k)+λa_old(i，k)

其中，λ为阻尼系数，λ∈(0，1)；r_old(i，k)与a_old(i，k)分别为两类消息在前一次传递中的值；

步骤1.2.6，重复以上步骤1.2.3-1.2.5，至矩阵R与前一次传递得到的矩阵R_old相等时则停止消息传递过程；

步骤1.2.7，将以上步骤所得Responsibility矩阵与Availability矩阵相加得到矩阵E作为聚类的依据如下：

步骤1.2.8，取矩阵E的对角线元素E(k，k)，若E(k，k)＞0，则对应的轨迹点即被选为聚类中心，其他非中心的轨迹点将会被分配至与其具有最大相似度的聚类中心点所代表的类中。

进一步的，步骤1.3的具体实现方式如下，

步骤1.3.1，计算每个点i与其所属类的中心点C的欧式距离D(i，C)，若满足以下条件：

D(i，C)＞μ+fσ，

则将该点i标记为噪声并剔除，其中，μ，σ分别为类中所有点与中心点间距离的平均值及标准差，f用于控制噪声检测的尺度；

步骤1.3.2，计算每个类中的轨迹点的总时长，若时长满足以下条件：

Dur＜100ms，

则将该类整体标记为噪声，并整体剔除。

进一步的，每个类中的轨迹点的总时长可结合眼动仪设备频率，通过点的数量进行判断。

进一步的，步骤2.2中同样采用邻传播聚类方法进行聚类，具体实现方式和步骤1.2相同。

本发明还提供一种基于眼动数据两步聚类的感兴趣区域提取***，其特征在于：包括预聚类模块和聚类模块；

所述预聚类模块用于进行眼动数据噪声点的剔除，包含以下子模块：

眼动轨迹点数据读取子模块，用于读入测试图片上多个观察者产生的眼动轨迹点数据，假设有N个观察者浏览了该测试图片，则产生N组眼动轨迹点记录；

眼动轨迹点数据合并及聚类子模块，用于将每两个观察者的眼动轨迹点数据合并进行聚类，将其分为若干类；

噪声检测子模块，用于基于上述聚类结果中的每个类进行噪声检测，并设定点层面及类层面噪声检测准则；

有效注视眼动轨迹点获取子模块，用于对图像上每两个观察者合并后的眼动轨迹点重复以上眼动轨迹点数据合并及聚类子模块和噪声检测子模块，得到剔除噪声后的预聚类结果，即属于有效注视过程的眼动轨迹点；

所述聚类模块用于进行感兴趣区域的提取，包含以下子模块：

有效注视眼动轨迹点合并子模块，用于合并所有经过噪声剔除的属于有效注视过程的眼动轨迹点为一个点集，

图像感兴趣区域获取子模块，用于对合并后的点集进行聚类，经过聚类得到的眼动轨迹点类即可代表图像感兴趣区域，以聚类后每类的中心点代表感兴趣区域位置，类中点的数量代表感兴趣区域所吸引注意力的多少。

进一步的，眼动轨迹点数据读取子模块中对每个观察者n，其眼动轨迹点记录可表达为每个点空间坐标的集合如下：

其中，I_n为观察者n所产生的眼动轨迹点数目。

进一步的，眼动轨迹点数据合并及聚类子模块中采用近邻传播聚类方法进行聚类，具体过程如下，

其中，s(i，j)为点i与点j的相似度，x_i，y_i，x_j，y_j分别为点i与点j的横纵坐标，Q为两个点集中注视点的总数目；

对集合中每两个点计算相似度后构成相似度矩阵如下：

此外，将相似度矩阵对角线上元素s(k，k)(k＝1，2，...Q），即自相似度，设为相同的值，代表每个点成为聚类中心的可能性相同；

其中，i代表第i个轨迹点，其取值为1，2,...，n；k代表作为候选中心点的第k个轨迹点，其取值为1，2，...，n；k′为除k外的其他候选中心点；R(i，k)为第i点向候选中心点k传递的消息，即Responsibility；Sim(i，k)为第i点与第k点的相似度；Sim(i，k′)则为第i点与除第k点外的其他候选中心点间的相似度；

步骤1.2.3，对两类消息分别更新如下：

R(i，k)＝(1-λ)R(i，k)+λr_old(i，k)

A(i，k)＝(1-λ)A(i，k)+λa_old(i，k)

进一步的，噪声检测子模块的具体实现方式如下，

D(i，C)＞μ+fσ，

Dur＜100ms，

则将该类整体标记为噪声，并整体剔除。

本发明与现有技术相比具有以下优点：

1.本发明利用多人眼动轨迹数据提取感兴趣区域，避免单独观察者在观察视觉目标时可能出现的特殊情况的影响，具有更高的抗干扰能力，更加符合观察者的一般视觉注意模式；

2.本发明排除了轨迹点聚类过程中对聚类数目的人为限定，使结果更加符合客观情况，包容性更强；

3.本发明的去噪过程充分考虑了不同类型的噪声，结合眼动数据的实际，从不同层面进行噪声的识别及剔除，使得感兴趣区域的提取结果更加准确。

附图说明

图1为本发明所述技术的框架图。

具体实施方式

本发明首先依次对每两个观察者的眼动轨迹数据进行聚类，得到每两个观察者数据的聚类结果，对每个类在点层面和类层面分别进行噪声点的检测和剔除，得到包含属于注视过程的有效眼动轨迹点；其次对剔除噪声后的预聚类结果合并为一组后再次进行聚类，得到最终的聚类结果，其中每一类代表图像中的一个感兴趣区域位置。

本发明技术方案可采用计算机软件方式支持自动运行流程。以下结合附图和实施例详细说明本发明技术方案。

实施例包括预聚类阶段和聚类阶段，

1.所述预聚类阶段进行眼动数据噪声点的剔除，包含以下子步骤：

步骤1.1读入测试图片上多个观察者产生的眼动轨迹点数据。本实施例共涉及6个观察者，即有6组眼动轨迹点记录，对每个观察者n，其眼动轨迹点记录可表达为每个点空间坐标的集合如下：

其中，I_n为观察者n所产生的眼动轨迹点数目。

步骤1.2将每两个观察者的眼动轨迹点数据合并进行聚类。基于近邻传播聚类的原理，对每两个观察者m，n的轨迹数据G_mn＝{G_m，G_n|m，n＝1，2,...,6}进行聚类，针对参与聚类的点集G_mn，近邻传播聚类的具体过程如下：

步骤1.2.1计算轨迹点间的相似度，构成相似度矩阵。其中相似度以负欧氏距离度量，以遵循两点距离越近，则相似度越高的原则。相似度计算公式如下：

其中，s(i，j)为点i与点j的相似度，x_i，y_i，x_j，y_j分别为点i与点j的横纵坐标，Q为两个点集中注视点的总数目。

对集合中每两个点计算相似度后构成相似度矩阵如下：

此外，将相似度矩阵对角线上元素s(k，k)(k＝1，2，...，Q)，即自相似度，设为相同的值，代表每个点成为聚类中心的可能性相同，取值大小决定类别数目的多少。具体实施时可由本领域技术人员自行选择。本实施例中选择用矩阵所有元素的中值作为自相似度的值，以得到较为适中的类别数。

步骤1.2.2基于局部相似度矩阵及近邻传播聚类的消息传递机制，在轨迹数据点间定义两类消息Responsibility和Availability，并将所有点的两类消息分别组成两个初始消息矩阵R_Q×Q和A_Q×Q。Responsibility为自数据点向候选中心点传递的消息，是数据点表达各个候选中心适合成为其中心的程度的消息，其初始值计算公式如下：

其中，i代表第i个轨迹点，其取值为1，2，...，n；k代表作为候选中心点的第k个轨迹点，其取值为1，2，...，n；k′为除k外的其他候选中心点；R(i，k)为第i点向候选中心点k传递的消息，即Responsibility；Sim(i，k)为第i点与第k点的相似度；Sim(i，k′)则为第i点与除第k点外的其他候选中心点间的相似度。

Availability为自候选中心向数据点传递的消息，是候选中心表达其对于成为各点中心的适合程度的消息，其初始值为0。

步骤1.2.3对两类消息分别更新如下：

其中，i′代表除第i点和第k点外的其他轨迹点；A(i,k′)为自除第k点外的其他候选中心点向第i点传递的消息；R(i′，k)为除第i点外的其他数据点i′向候选中心点k传递的消息，i′≠i且i′≠k.

步骤1.2.4特别地，为去除来自其他点的Responsibility过大的影响，以不同的方式更新A(k，k)如下：

步骤1.2.5为避免可能出现的数值振荡，在更新后为所有新消息增加阻尼如下：

R(i，k)＝(1-λ)R(i，k)+λr_old(i，k)

A(i，k)＝(1-λ)A(i，k)+λa_old(i，k)

其中，λ为阻尼系数，λ∈(0，1)；其具体值可由本领域技术人员自行设定，本实施例中设定λ＝0.8。r_old(i，k)与a_old(i，k)分别为两类消息在前一次传递中的值。

步骤1.2.6重复以上步骤1.2.3-1.2.5，至矩阵R与前一次传递得到的矩阵R_old相等时则停止消息传递过程。

步骤1.2.7将以上步骤所得Responsibility矩阵与Availability矩阵相加得到矩阵E作为聚类的依据如下：

步骤1.2.8取矩阵E的对角线元素E(k，k)，若E)k，k)＞0，则对应的轨迹点即被选为聚类中心，其他非中心的轨迹点将会被分配至与其具有最大相似度的聚类中心点所代表的类中，本实施例中最终得到的聚类中心为374。

步骤1.3基于上述聚类结果中的每个类进行噪声检测，设定点层面及类层面噪声检测准则，具体步骤如下：

步骤1.3.1计算每个点i与其所属类的中心点C的欧式距离D(i，C)，若满足以下条件：

D(i，C)＞μ+fσ，

则将该点i标记为噪声并剔除。其中，μ，σ分别为类中所有点与中心点间距离的平均值及标准差，f用于控制噪声检测的尺度，具体实施时可由本领域技术人员自行选择。本实施例中设定f＝3。

步骤1.3.2计算每个类中的轨迹点的总时长，若时长满足以下条件：

Dur＜100ms，

则将该类整体标记为噪声，并整体剔除。其中，时长可结合眼动仪设备频率，通过点的数量进行判断。本实施例中数据采集频率为240Hz，因此当类中点数少于24个时，即剔除该类。

步骤1.4对图像上每两个观察者合并后的眼动轨迹点重复以上步骤1.2-1.3，得到剔除噪声后的预聚类结果，即属于有效注视过程的眼动轨迹点。本实施例中共有原始眼动轨迹点4302个，经过上述预聚类阶段的噪声剔除后，保留属于有效注视过程的眼动轨迹点3674个。

2.所述聚类阶段进行感兴趣区域的提取，包含以下子步骤：

步骤2.1合并所有经过噪声剔除的属于的注视过程的眼动轨迹点为一个点集，在本实施例中为一个包含全部3674个点的类。

步骤2.2基于近邻传播聚类原理对点集进行聚类，聚类过程与上述步骤1.2相同。经过聚类得到的眼动轨迹点类即可代表图像感兴趣区域。本实施例中最终得到4类点集，代表图像上4个感兴趣区域。以聚类后每类的中心点代表感兴趣区域位置，类中点的数量代表感兴趣区域所吸引注意力的多少。

本发明实施例还提供一种基于眼动数据两步聚类的感兴趣区域提取***，其特征在于：包括预聚类模块和聚类模块；

各模块及子模块的具体实现方式和各步骤相应，本发明不予撰述。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明，本发明所属技术领域的技术人员可对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但不会偏离本发明的精神或超越所附权利要求书所定义的范围。

Claims

1.一种基于眼动数据两步聚类的感兴趣区域提取方法，其特征在于：包括预聚类阶段和聚类阶段；

所述聚类阶段进行感兴趣区域的提取，包含以下步骤：

2.如权利要求1所述的一种基于眼动数据两步聚类的感兴趣区域提取方法，其特征在于：步骤1.1中对每个观察者n，其眼动轨迹点记录可表达为每个点空间坐标的集合如下：

其中，I_n为观察者n所产生的眼动轨迹点数目。

3.如权利要求2所述的一种基于眼动数据两步聚类的感兴趣区域提取方法，其特征在于：步骤1.2中采用近邻传播聚类方法进行聚类，具体过程如下，

对集合中每两个点计算相似度后构成相似度矩阵如下：

其中，i代表第i个轨迹点，其取值为1，2，...，n；k代表作为候选中心点的第k个轨迹点，其取值为1，2，...，n；k′为除k外的其他候选中心点；R(i，k)为第i点向候选中心点k传递的消息，即Responsibility；Sim(i,k)为第i点与第k点的相似度；Sim(i，k′)则为第i点与除第k点外的其他候选中心点间的相似度；

步骤1.2.3，对两类消息分别更新如下：

R(i，k)＝(1-λ)R(i，k)+λr_old(i，k)

A(i，k)＝(1-λ)A(i，k)+λa_old(i，k)

4.如权利要求1所述的一种基于眼动数据两步聚类的感兴趣区域提取方法，其特征在于：步骤1.3的具体实现方式如下，

D(i，C)＞μ+fσ，

Dur＜100ms，

则将该类整体标记为噪声，并整体剔除。

5.如权利要求4所述的一种基于眼动数据两步聚类的感兴趣区域提取方法，其特征在于：每个类中的轨迹点的总时长可结合眼动仪设备频率，通过点的数量进行判断。

6.如权利要求3所述的一种基于眼动数据两步聚类的感兴趣区域提取方法，其特征在于：

步骤2.2中同样采用邻传播聚类方法进行聚类，具体实现方式和步骤1.2相同。

7.一种基于眼动数据两步聚类的感兴趣区域提取***，其特征在于：包括预聚类模块和聚类模块；

8.如权利要求7所述的一种基于眼动数据两步聚类的感兴趣区域提取***，其特征在于：眼动轨迹点数据读取子模块中对每个观察者n，其眼动轨迹点记录可表达为每个点空间坐标的集合如下：

其中，I_n为观察者n所产生的眼动轨迹点数目。

9.如权利要求8所述的一种基于眼动数据两步聚类的感兴趣区域提取***，其特征在于：眼动轨迹点数据合并及聚类子模块中采用近邻传播聚类方法进行聚类，具体过程如下，

对集合中每两个点计算相似度后构成相似度矩阵如下：

步骤1.2.3，对两类消息分别更新如下：

R(i，k)＝(1-λ)R(i，k)+λr_old(i，k)

A(i，k)＝(1-λ)A(i，k)+λa_old(i，k)

10.如权利要求7所述的一种基于眼动数据两步聚类的感兴趣区域提取***，其特征在于：噪声检测子模块的具体实现方式如下，

D(i，C)＞μ+fσ，

Dur＜100ms，

则将该类整体标记为噪声，并整体剔除。