CN105590020A

CN105590020A - 改进的数据比较方法

Info

Publication number: CN105590020A
Application number: CN201510747116.6A
Authority: CN
Inventors: J·博纳; S·根特里克
Original assignee: Morpho SA
Current assignee: Adimia Identity And Security France
Priority date: 2014-11-05
Filing date: 2015-11-05
Publication date: 2016-05-18
Anticipated expiration: 2035-11-05
Also published as: FR3028064A1; JP6603548B2; KR20160053833A; CN105590020B; EP3018615A1; KR102399025B1; FR3028064B1; US20160125308A1; JP2016091566A; US10332016B2; EP3018615B1

Abstract

本发明涉及一种对从传感器或接口得到的两个数据进行比较的方法，该方法由处理单元的处理装置实现，该方法包括计算待比较的两个特征向量之间的相似度函数，其特征在于，数据的每个特征向量被建模为高斯变量求和，所述高斯变量包括：向量所属的类的平均值，固有偏差，以及向量的观测噪声，每个特征向量与一个质量向量相关联，该质量向量包括特征向量的观测噪声的信息，并且在于，根据特征向量和相关联的质量向量来计算相似度函数。

Description

改进的数据比较方法

技术领域

本发明涉及一种对从传感器或接口得到的数据进行比较以确定数据之间的相似率的方法。本发明尤其涉及一种通过机器学习的数据比较方法。

背景技术

在计算机视觉(或数字视觉)领域实现的众多任务例如要求对诸如图像之类的复杂数据进行比较以得到该数据之间的相似度分数。

例如，在生物计量认证领域，对个体的面部图像进行比较以确定图像是否是从同一人处得到的。

为了解决这类问题，已知从待比较的数据中提取特征，特征提取将待比较的数据转换为特征向量，并随后计算特征向量之间的相似度函数。

计算出的相似度函数通常包括预先未知的参数。这些参数被确定并通过机器学习来逐步优化。为此，处理单元对从数据库中得到的一组数据进行数据比较操作，将由相似度函数给出的结果与实际结果进行比较，并且相应地优化相似度函数的参数以得到更加可靠的结果。

例如，根据D.Chen，X.Cao，L.Wang，F.Wen和J.Sun在2012年的ECCV(EuropeanConferenceonComputerVision，欧洲计算机视觉国际会议)上发表的《BayesianFaceRevisited:AJointFormulation》(贝叶斯面部重历：联合公式化)，数据之间的相似度函数的学***均值以及该数据相对于平均值的变化。

例如，如果数据为面部图像，则类对应于主体的身份，并且相对于类的平均值的变化对应于主体的平均面部图像与不同环境下拍摄的图像之间可能存在的全部改变：

-图像上的光和影，

-图像中的面部姿态，

-面部表情，

-局部模糊等。

然而，在数据库中将数据的质量变化考虑在内限制了机器学***的提升。其结果是，所确定的相似度函数表现出欠佳的性能并因此表现出欠佳的比较质量。所提出的比较方法因而并不完全可靠。

发明内容

本发明的目的是提出一种数据比较方法，该数据比较方法相比于现有技术具有改进的性能。

在此方面，本发明的主题是由处理单元的处理装置实现对从传感器或接口得到的两个计算机数据项目进行比较的方法，该方法包括计算待比较的两个特征向量之间的相似度函数，

其特征在于，对高斯变量求和来对一个数据的各特征向量建模，所述变量包括：

-向量所属的类的平均值，

-固有偏差，以及，

-向量的观测噪声，

每个特征向量与一个质量向量相关联，该质量向量包括特征向量的观测噪声的信息，

并且在于，根据特征向量和相关联的质量向量来计算相似度函数。

有利但可选地，本发明的方法还可以包括以下特征中的至少一个：

-相似度函数是具有属于同一类的向量的特征向量的概率密度与与具有两个不同类的向量的特征向量的概率密度之间的比率的对数。

-相似度函数还根据特征向量的分量的协方差矩阵来计算，并且每个特征向量的观测噪声的协方差矩阵根据相关联的质量向量来得到。

-该方法还包括实现学***均值和相对于类平均值的向量偏差的协方差矩阵。

-学习算法为期望最大算法；

-相似度函数由下式给出：

其中：

A = {(S_{μ} + S_{ω} + S_{ϵ_{x}} - S_{μ} {(S_{μ} + S_{ω} + S_{ϵ_{y}})}^{- 1} S_{μ})}^{- 1}

B = - {AS}_{μ} {(S_{μ} + S_{ω} + S_{ϵ_{y}})}^{- 1}

C = {(S_{μ} + S_{ω} + S_{ϵ_{y}})}^{- 1} (I + S_{μ} {AS}_{μ} {(S_{μ} + S_{ω} + S_{ϵ_{y}})}^{- 1})

并且其中，S_μ为所述类的平均值的协方差矩阵(类间协方差矩阵)，S_ω为相对于平均值的偏差的协方差矩阵(类内协方差矩阵)，并且S_εx和S_εy分别为所述向量x和y的所述观测噪声的协方差矩阵；

-来此传感器或接口的计算机数据是表示物理对象或物理量的数据；

-来自传感器或接口的计算机数据是图像，并且通过对图像应用至少一个滤波器得到特征向量；

-质量向量的分量根据数据类型和形成特征向量的特征类型来生成；

-该方法还包括将所计算的相似度函数的结果与阈值进行比较，从而确定数据是否属于公共类。

本发明的另一主题是一种包括代码指令的计算机程序产品，该代码指令在被处理单元的处理装置执行时实现之前描述的方法。

本发明的另一主题是一种***，包括：

-数据库，包括多个所谓的标签数据；

-数据采集单元；以及

-处理单元，该处理单元包括处理装置，该处理单元适用于根据两个数据项来构造两个特征向量和两个相关联的质量向量，所述处理单元还适用于通过实现之前描述的方法来比较数据。

所提出的方法使得能够在计算数据之间的相似度函数的同时考虑到数据质量。这使得有可能在质量良好的数据与不确定性更大的数据之间使用可变的权重。

例如，当本发明的方法被应用于图像比较时，相似度函数对于图像的阴影或模糊区域并未被相似度函数的考虑权重并不如清晰可见、清楚辨别的区域那样大。

数据比较性能借此得到了增强。

另外，机器学习使得能够优化相似度函数参数并因此提升比较方法的性能。

附图说明

根据以下仅以解释为目的的非限定性说明并且结合附图，本发明的其他特点、目的和优点将变得明显，在附图中：

-图1示出了适用于实现比较方法的***的一个示例；

-图2示出了根据本发明的一个实施例的数据比较方法的主要步骤。

具体实施方式

参考图1，所示***1包括处理单元10，处理单元10包括处理装置11以实现下述计算机数据比较方法。

处理单元10例如可以是集成电路并且处理装置可以是处理器。

有利地，***1还包括可选远程数据库20，远程数据库20在存储器中存储了多个数据，这些数据被处理单元10使用以实现下述机器学习。

最后，***1包括数据采集单元30，或者当数据采集单元30独立于***时，***包括适用于与此单元进行通信的接口(未示出)。以此方式，***1能够接收并处理数据b，尤其是使用下述方法对数据b进行比较。

根据在下述方法中待比较的数据类型的不同，数据采集单元可以是任何类型的，例如，光学传感器(照相机、摄像机、扫描仪)、声学传感器、指纹传感器、运动传感器等等。数据采集单元还可以是人机接口(键盘、具有触屏接口的平板电脑)以记录操作人员输入的诸如文本、图片等数据。

计算机数据b由采集单元30得到并因而来自传感器或者例如人机接口这样的接口。计算机数据b可以是代表物理对象(例如图像、示意图、记录、说明)或者代表(电、机械、热、声等)物理量的数据，例如，由传感器记录的数据。

处理单元的处理装置11有利地被配置为通过执行合适的程序来实现下述数据比较方法。

为了实现本方法，处理装置11有利地还包括特征提取模块12，特征提取模块12适用于根据由数据采集单元30传送的输入计算机数据b进行特征提取，以便生成与数据相关联的特征向量x以及与特征向量相关联的质量向量qx。

质量向量qx与特征向量的大小相同，并且质量向量qx中的每个元素表明特征向量x的对应元素中包含的信息的质量。替代性地，质量向量qx可以是任意大小的。质量向量qx的生成取决于数据b的类型。

例如，通过将用于此用途的一个或更多滤波器应用于数据b，可选地随后对滤波结果(例如，计算出的直方图等)进行处理，能够实现特征提取。

质量向量的生成依赖于数据b的类型和特征向量x的特征类型，即向量x的分量元素。质量向量的每个元素将与特征向量的特定特征相关联的固有数据有关信息考虑在内。

例如，在信号处理或图像处理领域，当数据是图像或者是采集到的由传感器采集的代表性信号时，经常将数据的频率表示(例如，傅里叶变换)或者时频表示(例如，小波变换)用作特征向量x。特征向量的每个分量则仅取决于某些频带。

在此情况下，数据的高频分量证明比低频分量更容易识别，但同样对于诸如存在噪声或者信号分辨率低这样的现象更加灵敏。

如果数据是由传感器采集的信号，则数据中的噪声量能够通过分析数据的频谱来确定；或者如果数据是图像，则通过分析数据的固有分辨率来确定。例如，已知Pfenning和Kirchner在2012年ISCCP(InternationalSatelliteCloudClimatologyProject，国际卫星云气候学计划)的用于确定图像分辨率的文章《SpectralMethodstoDeterminetheExactScalingFactorofResampledDigitalImages》(用于确定重采样数字图像的精确比例因子的频谱方法)。

根据特征向量x和数据的固有质量生成的质量向量qx则能够如下构造：

-将高质量赋予特征向量中对数据的低频分量灵敏的分量；

-将高质量赋予特征向量中对数据的高频分量灵敏并且具有低噪声水平和/或高分辨率的分量；

-将低质量赋予特征向量中对高频分量灵敏并且具有高噪声水平和/或低分辨率的分量。

所赋予的质量值以及噪声水平或分辨率的阈值能够以实验方式确定，以便在验证基础上优化比较方法的性能。

根据另一示例，数据是面部图像。

根据该示例，如Chen等人在2013年的VCPR(WorldClimateResearchProgramme，世界气候研究计划)的文章《BlessingofDimensionality:High–dimensionalFeatureandItsEfficientCompressionforFaceVerification》(来自维度的恩赐：高维度特征及其对于面部检验的高效压缩)中，通过将从面部的某些语义点(例如，鼻尖、嘴角、眼睛等)附近提取的局部描述符相连接能够获得特征向量。

与在规则网格处提取描述符的方法相比，该表示的优点在于对姿势的变化具有更好的鲁棒性。

然而，这些特征的提取包括检测这些点的步骤。在整个该步骤中，所使用的检测器在提供面部的每个点在图像中的最可能的位置外，还提供解释检测精度的置信水平的信息。

例如从Rapp等人在2011年的AutomaticFace&GestureRecognition(自动面部和姿势识别)的文章《BlessingofDimensionality:MultiplekernellearningSVMandstatisticalvalidationforfaciallandmarkdetection》(来自维度的恩赐：面部特征点检测的多核学***面的距离。

另一示例在Dantone等人在2012年的CVPR的文章《Real–timeFacialFeatureDetectionusingConditionalRegressionForests》(使用条件回归森林的实时面部特征检测)，其中，信度测量由检测器使用回归树确定的大量票数给出。

该信度信息能够被用于通过向特征向量的每个分量赋予对应于该分量的面部语义点的检测质量来生成与特征向量的每个分量相关联的质量。

根据进一步的示例，当面部图像是根据并非是面部正面图像的图像生成的面部图像时，例如，通过应用专利申请FR2998402中所述的方法，质量向量可以是信度指数，该指数对于出现在原始图像中的面部的点相对较高并且对于并未出现在原始图像中而是在通过插值重新构建图像中的面部的点相对较低。

更普遍地，当数据是图像时，质量向量能够通过模糊局部测量来得到。

替代性地，特征提取模块是采集单元30的一个模块，特征提取模块使得采集单元能够直接与处理装置11传送特征向量和相关联的质量向量。

数据比较方法

参考图2，在此给出了对处理单元的处理装置11实现的数据比较方法的说明。

该方法包括通过计算分别从数据中得到的大小相同的两个特征向量x和y之间的相似度函数100，并且通过实现数据库上的相似度函数的参数的机器学习200，来对两个数据项目进行比较。

在该方法中，每个特征向量被建模为三个独立的高斯变量求和：

x＝μ+ω+ε

其中：

-μ为向量x所属的类的平均值；

-ω为向量x与平均值的固有偏差；以及

-ε为观测噪声。

类是被认为相似的一组特征向量。如果使用相似度函数对两个特征向量的比较产生的结果高于由经验确定的阈值，则两个特征向量被认为相似。

例如，如果数据是面部图像，类有利地对应于个体。通过对多个数据的两个特征向量进行比较，如果数据来自同一个体，则被认为相似。

回到之前所述的模型，属于同一类的两个特征向量因而具有相同的μ值，但是具有不同的ω和ε值。

如果特征向量属于不同的类，则三个变量完全独立。

则认为这三个变量满足中位数为0的多变量正态分布，并且各协方差矩阵被记为S_μ、S_ω和S_ε。S_μ被称为类间协方差矩阵，S_ω为类内协方差矩阵且S_ε为观测噪声协方差矩阵。

S_μ、S_ω对于全部特征向量都是未知数。

另一方面，S_ε是已知的，这是因为S_ε是由特征提取模型从与特征向量相关量的质量向量中得到的。S_ε与相关联的特征向量具有相同的大小。

例如，假定观测噪声彼此不相关，则S_ε能够由对角矩阵充分近似。

与质量向量的分量的方差对应的该对角矩阵的元素能够根据该向量得到。

例如，通过向质量向量qx的分量应用f(q_x)＝1/e^aqx+b类型的Sigmoid函数来利用方差。能够选择系数a和b以将确定的方差水平与质量水平相联系。

例如，高质量能够与零方差相关联，极低质量能够与最大方差相关联，中间方差对应于中间质量。

通常来说，因为质量向量和特征向量取决于数据类型，所以将质量向量转换为噪声协方差矩阵的传递函数特定于相关联的质量向量和特征向量。

在本申请的其他部分，S_εx表示根据质量向量qx得到的向量x的背景噪声的协方差矩阵，并且S_εy为根据质量向量qy得到的向量y的背景噪声的协方差矩阵。

H_sim表示假设两个特征向量属于同一类，即认为对应的数据相似，并且H_dis表示相反的假设，特征向量属于不同类并且认为对应的数据不相似。

已知x和y的各自背景噪声的协方差矩阵并且考虑到假设H_sim，x和y的联合生成概率被记作该概率符合高斯律，其中位数为零并且协方差矩阵为S_sim:

已知x和y的各自背景噪声的协方差矩阵并且考虑到假设H_dis，x和y的联合发生概率被记作该概率符合高斯律，其中位数为零并且协方差矩阵为S_dis:

矩阵S_sim和S_dis的定义如下：

S_{s i m} = [\begin{matrix} S_{μ} + S_{ω} + S_{ϵ_{X}} & S_{μ} \\ S_{μ} & S_{μ} + S_{ω} + S_{ϵ_{y}} \end{matrix}]

S_{d i s} = [\begin{matrix} S_{μ} + S_{ω} + S_{ϵ_{x}} & O \\ O & S_{μ} + S_{ω} + S_{ϵ_{y}} \end{matrix}]

的概率密度以已知方式为其中，|S_sim|为S_sim的行列式，且N为特征向量的维度。

相同的表达式被参照应用于的概率密度。

计算出的对与向量x和y相对应的两个数据进行比较的相似度函数是具有属于同一类的向量的特征向量的概率密度与具有属于两个不同类的向量的特征向量的概率密度之间的比率。

相似度函数因而表达如下：

L R (x, y | S_{ϵ_{x}}, S_{ϵ_{y}}) = l o g (\frac{P (x, y | H_{s i m}, S_{ϵ_{x}}, S_{ϵ_{y}})}{P (x, y | H_{d i s}, S_{ϵ_{x}}, S_{ϵ_{y}})})

在使用上述概率密度的表达式时，并且当使用块反演公式来反演矩阵S_sim和S_dis以使函数演化时，得到的相似度函数表达如下：

在该表达式中，A、B和C是由S_sim的块反演形成的项并且表达分别如下：

A = {(S_{μ} + S_{ω} + S_{ϵ_{x}} - S_{μ} {(S_{μ} + S_{ω} + S_{ϵ_{y}})}^{- 1} S_{μ})}^{- 1}

B = - {AS}_{μ} {(S_{μ} + S_{ω} + S_{ϵ_{y}})}^{- 1}

C = {(S_{μ} + S_{ω} + S_{ϵ_{y}})}^{- 1} (I + S_{μ} {AS}_{μ} {(S_{μ} + S_{ω} + S_{ϵ_{y}})}^{- 1})

常数不依赖于x、y、或并因而能够忽略。

因而发现，相似度函数LR将x和y的观测噪声的协方差矩阵和考虑在内，并因此将与各特征向量相关联的质量向量考虑在内。

比较结果因而受到与特征向量相关联的质量或信度的影响，这使得被认为质量差或者不确定的特征能够具有较小的权重，并且质量良好或信度更好的特征具有较大的权重。

正如在本申请其他部分所见，相似度函数还由机器学习来参数化。通过考虑与特征向量相关联的质量，质量差的数据对于函数的参数化的影响能够被降到最小。

比较方法因而更加可靠。

回到图2，则在步骤110中将比较结果与预定阈值进行比较。

该阈值有利地通过对数据库中的已知的特征向量(已知属于或者不属于同一类)进行大量比较来以经验方式确定。

如果应用于x和y的相似度函数的结果大于预定阈值，则认为对应的数据相似。否则，认为数据相异。

前述的相似度函数LR的表达式表示出，该函数由未知的协方差矩阵S_μ、S_ω参数化。

因而，该方法包括步骤200以通过机器学习确认所述矩阵。

该方法有利地通过使用最大期望算法(expectation-maximizationalgorithm，EM算法)并且对存储在数据库20中的一组数据来进行，该数据被称为“标签”(labelled)，即这些数据各自所属的类是已知的。

数量为m_c的特征向量所属的类被记为c，并且表示该类的特征向量的级联，且表示各自的观测噪声的协方差矩阵。

对于每个类c定义潜在变量其中，每个μ_c为类平均值；因而仅有一个，并且每个ω_c,i为该类中的特征向量相对于该平均值的偏差(因而对于每个特征向量存在一个)。

使用EM算法估计的参数为Θ＝{S_μ,S_ω}。

最大期望算法是迭代算法，包括估计潜在变量的分布参数的第一步骤210，其中，是参数的先前估计值。

在方法初始化时，为参数的第一经验估计值。

参数S_μ的初始化有利地通过针对每一类c计算该类的经验平均值并确定平均值的协方差矩阵来得到。

参数S_ω的初始化能够通过针对每一类计算减去该类的平均值(即特征向量相对于平均值的差)之后的特征向量的协方差矩阵并计算全部类的平均协方差矩阵来得到。

算法接下来包括最大化步骤220，该步骤遵循潜在变量Z_c期望对数似然数的Θ。

为了正确进行该步骤并且使得计算时间最短，考虑到潜在变量ω_c,i有条件地独立于通过对进行以下因式分解修正的μ_c：

P (Z_{c} | X_{c}, {\overset{&OverBar;}{S}}_{μ}, {\overset{&OverBar;}{S}}_{ω}) = P (μ_{c} | X_{c}, {\overset{&OverBar;}{S}}_{μ}, {\overset{&OverBar;}{S}}_{ω}) Π_{i = 1}^{_{m_{c}}} P (ω_{c, i} | x_{c, i}, μ_{c}, {\overset{&OverBar;}{S}}_{μ}, {\overset{&OverBar;}{S}}_{ω})

在步骤220中对的优化要求计算参数和的概率分布。这些计算具体如下：

其中：

T_{μ_{c}} = {({\overset{&OverBar;}{S}}_{μ}^{- 1} + Σ_{i = 1}^{m_{c}} {({\overset{&OverBar;}{S}}_{ω} + S_{ϵ_{c, i}})}^{- 1})}^{- 1}

并且

b_{μ_{c}} = T_{μ_{c}} Σ_{i = 1}^{m_{c}} {({\overset{&OverBar;}{S}}_{ω} + S_{ϵ_{c, i}})}^{- 1} x_{c, i}

将等式(1)与是概率分布相结合则意味着

另外：

其中，

R_{c, i} = {({S_{ϵ_{c, i}}}^{- 1} + {\overset{&OverBar;}{S}}_{ω}^{- 1})}^{- 1}

其中：

T_{w_{c, i}} = R_{c, i} {S_{ϵ_{c, i}}}^{- 1} T_{μ_{c}} {S_{ϵ_{c, i}}}^{- 1} R_{c, i} + R_{c, i}

并且

b_{ω_{c, i}} = R_{c, i} {S_{ϵ_{c, i}}}^{- 1} (x_{c, i} - b_{μ_{c}})

步骤220因而使得需要相对于S_μ和S_w最大化：

这通过计算斜率并求解和来得到。

另外：

期望最大算法通过在步骤210中连续计算变量和并且在步骤220中调整S_μ和S_ω的值并由此调整的值直到收敛来迭代执行。在步骤210的每一次新的迭代中，再次使用在先前步骤220中得到的的新值。

Claims

1.一种对从传感器或接口(30)得到的两个数据进行比较的方法，该方法由处理单元(10)的处理装置(11)实现，所述方法包括计算(100)待比较的数据的两个特征向量(x、y)之间的相似度函数，

其特征在于，数据的每个特征向量被建模为三个独立的高斯变量求和μ+ω+ε，其中，所述高斯变量为：

-所述向量所属的类的平均值μ，

-固有偏差ω，以及

-所述向量的观测噪声ε，

每个特征向量x与质量向量qx相关联，所述质量向量包括所述特征向量的所述观察噪声的信息，所述质量向量的分量根据数据类型和形成所述特征向量的特征类型来生成，

并且在于，所述相似度函数根据所述特征向量(x、y)和相关联的质量向量(qx、qy)并依照所述特征向量的分量的协方差矩阵(S_μ、S_ω、S_εxS_εy)来计算，并且每个特征向量的所述观测噪声的协方差矩阵(S_εxS_εy)根据相关联的质量向量来得到。

2.根据权利要求1所述的比较方法，其中，所述特征向量的分量的所述协方差矩阵分别包括被称为类间协方差矩阵(S_μ)的所述向量所属的类的平均值的协方差矩阵以及被称为类内协方差矩阵(S_ω)的向量与所述类的平均值的偏差的协方差矩阵。

3.根据权利要求1或2所述的比较方法，其中，所述相似度函数(LR)是具有属于同一类的向量的所述特征向量的概率密度与具有属于两个不同类的向量的所述特征向量的概率密度之间的比率的对数。

4.根据权利要求1至3所述的比较方法，还包括应用(200)学***均值以及所述向量相对于所述类的平均值的偏差的协方差矩阵(S_μ、S_ω)。

5.根据权利要求4所述的比较方法，其中，所述学习算法为期望最大算法。

6.根据前述权利要求中任一项所述的比较方法，其中，所述相似度函数由下式给出：

其中：

\begin{matrix} A = {(S_{μ} + S_{ω} + S_{ϵ_{x}} - S_{μ} {(S_{μ} + S_{ω} + S_{ϵ_{y}})}^{- 1} S_{μ})}^{- 1} \\ B = - {AS}_{μ} {(S_{μ} + S_{ω} + S_{ϵ_{y}})}^{- 1} \\ C = {(S_{μ} + S_{ω} + S_{ϵ_{y}})}^{- 1} (I + S_{μ} {AS}_{μ} {(S_{μ} + S_{ω} + S_{ϵ_{y}})}^{- 1}) \end{matrix}

并且其中，S_μ为所述类的平均值的协方差矩阵，S_ω为相对于平均值的偏差的协方差矩阵，并且S_εx和S_εy分别为所述向量x和y的所述观测噪声的协方差矩阵。

7.根据前述权利要求中任一项所述的比较方法，其中，来自传感器或接口的计算机数据是表示物理对象或物理量的数据。

8.根据权利要求7所述的比较方法，其中，来自传感器或接口的所述计算机数据是图像，并且通过对所述图像应用至少一个滤波器得到所述特征向量。

9.根据前述权利要求中任一项所述的比较方法，还包括将所计算的相似度函数(LR)的结果与阈值进行比较(110)，从而确定所述数据是否属于公共类。

10.一种计算机程序产品，该计算机程序产品包括代码指令，所述代码指令在被处理单元(10)的处理装置(11)执行时实现根据前述权利要求中任一项所述的方法。

11.一种***(1)，包括：

-数据库(20)，包括多个所谓的标签数据；

-数据采集单元(30)；以及

-处理单元(10)，所述处理单元包括处理装置(11)，所述处理单元适用于根据两个数据项来构造两个特征向量(x、y)和两个相关联的质量向量(qx、qy)，所述处理单元还适用于通过实现根据权利要求1至9中任一项所述的方法来比较所述数据。