CN101694692B

CN101694692B - 一种基于加速度传感器的手势识别的方法

Info

Publication number: CN101694692B
Application number: CN2009101540186A
Authority: CN
Inventors: 潘纲; 吴嘉慧; 张大庆; 吴朝晖; 李石坚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang Zheda Xitou Brain Computer Intelligent Technology Co ltd
Priority date: 2009-10-22
Filing date: 2009-10-22
Publication date: 2011-09-07
Anticipated expiration: 2029-10-22
Also published as: CN101694692A

Abstract

本发明公开了一种基于加速度传感器的手势识别的方法，其步骤如下：(1)利用手持设备检测并记录用户一个手势的三维加速度数据序列；(2)对三维加速度数据序列分帧处理；(3)帧内特征描述子提取；(4)整体特征描述子的形成；(5)基于支持向量机的手势数据集模型训练；(6)基于支持向量机的动作识别。本发明的积极效果在于减低手势识别过程中环境和用户的依赖性，已经减低加速度信号中噪点和变化得影响，从而提高手势识别的性能。

Description

一种基于加速度传感器的手势识别的方法

技术领域

本发明涉及一种基于加速度传感器的手势识别的方法，尤其涉及一种采用分帧处理、帧内提取时域与频域信号特征来分析三维加速度数据序列，并以多类支持向量机为模型进行手势分类和识别的方法。

背景技术

随着电器和计算设备在日常生活中的应用越来越广泛，推进各种不同模态的新型人机交互方式的发展成为计算技术研究的热点。其中以用户的动态手势与设备进行交互的方式具有广泛的应用前景，特别是家用电器控制、手持设备(如手机)控制等领域。

传统的手势识别是基于计算机视觉技术实现的。该技术对周围环境的光线和用户所处的位置和方向都有强烈的依赖性，显然不能满足用户多变的日常使用的实际要求。已有的基于加速度传感器的手势识别方法多采用手势过程中加速度信号的时域信息，如隐马尔可夫模型、动态时间规整模型等，使得识别过程中对信号噪点和信号的变化非常敏感，限制了手势识别的准确率。

发明内容

本发明的目的在于减低已有的手势识别技术中对周围环境和用户位置的高依赖性以及识别过程中噪点和信号变化带来的限制，而提供一种基于加速度传感器的、采用分帧和同时利用信号时域和频域特征的手势识别的方法。

一种基于加速度传感器的手势识别的方法，其步骤如下：

(1)利用三维加速度传感器检测手持该三维加速度传感器的用户整个手势变化过程中相对于三维加速度传感器的三维加速度数据序列；

通过装有三维加速度传感器的手持设备(如手机、游戏机控制器、遥控器等，三维加速度传感器则可以采用现有技术)检测用户某个独立的、包含某种语意或表达某种意图的动态手势，并记录该手势从开始到完成的整个过程中由加速度传感器检测的、相对于加速度传感器前后方向x轴、左右方向y轴、上下方向z轴的三个正交方向的加速度数据列(称为三维加速度数据序列)；

步骤(1)中的三维加速度数据序列G采用下述方法标记：

G＝(a_x，a_y，a_z)，式1

其中a_x、a_y、a_z分别表示在前后方向x轴、左右方向y轴、上下方向z轴的三个正交方向的加速度数据序列，而就某一方向上加速度数据序列可以表示为

a_{T} = (a_{T}^{0}, a_{T}^{1}, . . ., a_{T}^{L - 1}),

T＝x，y，z，即下标T可以表示x、y或z轴，L为的加速度数据序列长度，这样三维加速度数据序列T轴上在第i个加速度数值可以用a_T ⁱ表示。

(2)三维加速度数据序列分帧处理：

将步骤(1)中记录下来的三维加速度数据序列进行帧间等长的分帧处理，得到的每个帧称为三维加速度数据子序列；

步骤(2)将三维加速度数据序列G首先分帧的方法具体为：现将为三维加速度数据序列G分为N+1段，其中每两个相邻的段组成1帧，共N帧。上述分帧方法的特征为各帧等长，相邻两帧之间具有50％重叠。其中第k个三维加速度数据子序列R_k采用下述方法描述：

R_k＝(r_x，k，r_y，k，r_z，k)，k＝0，...，N-1，式2

r_{T, k} = (r_{T, k}^{0}, r_{T, k}^{1}, . . ., r_{T, k}^{L_{s} \cdot 2 - 1}), T = x, y, z

式3

r_{T, k}^{i} = a_{T}^{L_{s} \cdot k + i}, i = 0, . . ., L_{s} \cdot 2 - 1

式4

其中r_T，k表示第k个三维加速度数据子序列T轴上的加速度子序列，

表示三维加速度数据子序列r_T，k的长度，r_T，k ⁱ表示三维加速度数据子序列r_T，k的第i个的加速度数值。由于R_k是G的子序列，r_T，k ⁱ的值可从G中获得，其对应关系见式4。

步骤(2)中N为一个固定的整数值，取值根据实际应用以及手势完成的时间长短取值，一般为4至15中任一整数。

(3)帧内特征描述子提取

将步骤(2)中得到N个三维加速度数据子序列分别进行帧内三维加速度数据序列信号特征提取，并将该三维x轴、y轴、z轴上的多个不同信号特征连接成一个帧内特征描述子；

步骤(3)中的信号特征采用信号理论中的时域和频域信号特征，共5种。

可以参见Ling Bao，Stephen S.Intille.Activity Recognition fromUser-Annotated Acceleration Data：PERVASIVE 2004，LNCS 3001，pp.1-17，2004；以及Nishkam Ravi，Nikhil Dandekar，Preetham Mysore，Michael L.Littman.Activity Recognition from Accelerometer Data.Proceedings of the17th conference on Innovative applications of artificial intelligence，2005。

对于第k个三维加速度数据子序列R_k，特征1采用x轴、y轴、z轴三个维度上的加速度时域上的方差σ_T，k，T＝x，y，z：

σ_{T, k} = \sqrt{Σ_{i = 0}^{L_{s} \cdot 2 - 1} {(r_{T, k}^{i} - {\overset{&OverBar;}{r}}_{T, k})}^{2}}

式5

{\overset{&OverBar;}{r}}_{T, k} = \frac{Σ_{i = 0}^{L_{s} \cdot 2 - 1} r_{T, k}^{i}}{L_{s} \cdot 2}

式6

其中r_T，k ⁱ见式4，r_T，k表示三维加速度数据子序列R_k在T轴的所有加速度值在时域上的均值。

对于第k个三维加速度数据子序列R_k，特征2采用加速度两两维度时域上的的相关度

T₁，T₂＝x，y，z：

γ_{T_{1} ~ T_{2}, k} = \frac{{&upsi;}_{T_{1} ~ T_{2}, k} - {\overset{&OverBar;}{r}}_{T_{1}, k} \cdot {\overset{&OverBar;}{r}}_{T_{2}, k}}{\sqrt{{&upsi;}_{T_{1} ~ T_{1}, k} - {({\overset{&OverBar;}{r}}_{T_{1}, k})}^{2}} \cdot \sqrt{{&upsi;}_{T_{2} ~ T_{2}, k} - {({\overset{&OverBar;}{r}}_{T_{2}, k})}^{2}}}

式7

{&upsi;}_{T_{1} ~ T_{2}, k} = \frac{Σ_{i = 0}^{L_{s} \cdot 2 - 1} | r_{T_{1}, k}^{i} \cdot r_{T_{2}, k}^{i} |}{L_{s} \cdot 2}

式8

其中

表示三维加速度数据子序列R_k上T₁轴和T₂轴的相关度。

采用快速傅里叶变换分别将三维加速度数据子序列R_k的x轴、y轴、z轴时域上数据子序列{r_T，k ⁱ}，T＝x，y，z转换到频域上的数据子序列{t_T，k ⁿ}，T＝x，y，z：

t_{T, k}^{n} = Σ_{j = 0}^{L_{s} \cdot 2 - 1} r_{T, k}^{j} e^{- \frac{2 πi}{L_{s} \cdot 2 - 1} nj},

式9

k＝0，...，N-1，

n＝0，...，L_s·2-1.

对于第k个三维加速度数据子序列R_k，特征3采用x轴、y轴、z轴三个维度上的加速度频域上的直流分量μ_T，k，T＝x，y，z：

μ_{T, k} = t_{T, k}^{0}

式10

对于第k个三维加速度数据子序列R_k，特征4采用x轴、y轴、z轴三个维度上的加速度频域上的交流分量的能量均值ε_T，k，T＝x，y，z：

ϵ_{T, k} = \frac{Σ_{i = 1}^{L_{s} \cdot 2 - 1} {| t_{T, k}^{i} |}^{2}}{| L_{s} \cdot 2 - 1 |}

式11

对于第k个三维加速度数据子序列R_k，特征5采用x轴、y轴、z轴三个维度上的加速度频域上的交流分量的信息熵作为帧内特征描述子δ_T，k，T＝x，y，z：

δ_{T, k} = Σ_{i = 1}^{L_{s} \cdot 2 - 1} p_{T, k}^{i} \log (\frac{1}{p_{T, k}^{i}})

式12

p_{T, k}^{i} = \frac{| t_{T, k}^{i} |}{Σ_{j = 1}^{L_{s} \cdot 2 - 1} | t_{T, k}^{j} |}

式13

其中p_T，k ⁱ表示第i个交流分量的权重占所有交流分量权重总和的比例。

按上述方法，计算得出第k个三维加速度数据子序列R_k的5种×3维＝15个的信号特征，并简单连接成帧内特征描述子τ^(k)：

τ^(k)＝(σ_x，k，σ_y，k，σ_z，k，

γ_x～y，k，γ_y～z，k，γ_z～x，k，

μ_x，k，μ_y，k，μ_z，k，.式14

ε_x，k，ε_y，k，ε_z，k，

δ_x，k，δ_y，k，δ_z，k)

(4)整体特征描述子的形成

将步骤(3)中得到的一个手势的N个帧的帧内特征描述子简单连接成一个整体特征描述子；

整体特征描述子τ表示为：

τ = (\begin{matrix} τ_{0}^{(0)}, & τ_{1}^{(0)}, & . . ., & τ_{14}^{(0)}, \end{matrix}

式15

τ_{0}^{(N - 1)}, τ_{1}^{(N - 1)}, . . ., τ_{14}^{(N - 1)})

其中τ_i ^(k)表示帧内特征描述子τ^(k)的第i个元素。

(5)基于支持向量机的手势数据集模型训练

对不同种类的手势按步骤(1)分别检测并记录其三维加速度数据序列，以作模型训练所需的数据样本，并按步骤(2)-(4)对每个三维加速度数据序列进行整体特征描述子的计算，最后采用基于结构化输出的多类支持向量机算法，可以参见I.Tsochantaridis，T.Hofmann，T.Joachims，and Y.Altun.Support Vector Learning for Interdependent and StructuredOutput Spaces，ICML，2004.对所有整体特征描述子进行建模和参数训练，最终得到在整体特征描述子张成的向量空间中不同种类手势的分界面；

(6)基于支持向量机的手势识别

按步骤(1)检测并记录一个新的手势三维加速度数据序列，按步骤(2)-(4)对该三维加速度数据序列进行整体特征描述子的计算，

利用步骤(5)训练得出的支持向量机模型的向量空间中不同种类手势的分界面对新的手势数据进行分类识别。

本发明的积极效果在于减低手势识别过程中环境和用户的依赖性，已经减低加速度信号中噪点和变化得影响，从而提高手势识别的性能。

附图说明

图1是本发明的流程图；

图2是本发明的三维加速度传感器；

图3是本发明的分帧示意图；

具体实施方式

本发明的步骤如图1所示，

(1)利用

Wiimote检测并记录用户的手势：

用户手持内置了三维加速度传感器的

Wiimote游戏控制器不同种类的动态手势。加速度数据序列中的x轴、y轴、z轴是相对于加速度传感器建立的三维坐标系，其中前后方向为x轴，左右方向为y轴，上下方向为z轴，见图2。数据采用率为100Hz。用户手势的开始与结束通过按按钮来标识。用户手势的三维加速的数据序列通过蓝牙通讯发送至计算机端。手势的三维加速的数据序列

G＝(a_x，a_y，a_z)，式16

以文件形式记录在计算机内，其中

a_{T} = (a_{T}^{0}, a_{T}^{1}, . . ., a_{T}^{L - 1}),

T＝x，y，z表示T轴上长度为L的加速度数据序列。根据Wiimote内置的三维加速度传感器的物理性能，a_T ⁰的量纲为重力加速的g，取值范围为[-3，3]。

(2)三维加速度数据序列分帧处理

设一个手势样本的三维加速的数据序列G的长度为L。L根据具体的手势样本确定。参数N取N＝9，我们将手势样本的三维加速的数据序列G为10段，其中每两个相邻的段组成1帧，共9帧，见图3。根据上述的方法，每段的长度应为每帧的长度应为

为了方便描述，我们把每个帧的三维加速度数据子序列形式化地写成R_k：

R_k＝(r_x，k，r_y，k，r_z，k)，k＝0，...，N-1，式17

r_{T, k} = (r_{T, k}^{0}, r_{T, k}^{1}, . . ., r_{T, k}^{L_{s} \cdot 2 - 1}), T = x, y, z

式18

r_{T, k}^{n} = a_{T}^{L_{s} \cdot k + n}, n = 0, . . ., L_{s} \cdot 2 - 1

式19

其中r_T，k表示第k个三维加速度数据子序列T轴上的加速度子序列，r_T，k ⁿ表示序列的r_T，k的第n个的加速度数值。由于R_k是G的子序列，r_T，k ⁿ的值可从G中获得，其对应关系见式4。

(3)帧内特征描述子提取

将步骤(2)中得到N个三维加速度数据子序列分别在x轴、y轴、z轴上提取信号特征σ_T，k，

μ_T，k，ε_T，k，δ_T，k。计算方法如下：

σ_{T, k} = \sqrt{Σ_{i = 0}^{L_{s} \cdot 2 - 1} {(r_{T, k}^{i} - {\overset{&OverBar;}{r}}_{T, k})}^{2}}

式20

γ_{T_{1} ~ T_{2}, k} = \frac{{&upsi;}_{T_{1} ~ T_{2}, k} - {\overset{&OverBar;}{r}}_{T_{1}, k} \cdot {\overset{&OverBar;}{r}}_{T_{2}, k}}{\sqrt{{&upsi;}_{T_{1} ~ T_{1}, k} - {({\overset{&OverBar;}{r}}_{T_{1}, k})}^{2}} \cdot \sqrt{{&upsi;}_{T_{2} ~ T_{2}, k} - {({\overset{&OverBar;}{r}}_{T_{2}, k})}^{2}}}

式21

μ_{T, k} = t_{T, k}^{0}

式22

ϵ_{T, k} = \frac{Σ_{i = 1}^{L_{s} \cdot 2 - 1} {| t_{T, k}^{i} |}^{2}}{| L_{s} \cdot 2 - 1 |}

式23

δ_{T, k} = Σ_{i = 1}^{L_{s} \cdot 2 - 1} p_{T, k}^{i} \log (\frac{1}{p_{T, k}^{i}})

式24

其中，

{\overset{&OverBar;}{r}}_{T, k} = \frac{Σ_{i = 0}^{L_{s} \cdot 2 - 1} r_{T, k}^{i}}{L_{s} \cdot 2}

{&upsi;}_{T_{1} ~ T_{2}, k} = \frac{Σ_{i = 0}^{L_{s} \cdot 2 - 1} | r_{T_{1}, k}^{i} \cdot r_{T_{2}, k}^{i} |}{L_{s} \cdot 2}

t_{T, k}^{n} = Σ_{j = 0}^{L_{s} \cdot 2 - 1} r_{T, k}^{j} e^{- \frac{2 πi}{L_{s} \cdot 2 - 1} nj}

p_{T, k}^{i} = \frac{| t_{T, k}^{i} |}{Σ_{j = 1}^{L_{s} \cdot 2 - 1} | t_{T, k}^{j} |}

τ^(k)＝(σ_x，k，σ_y，k，σ_z，k，

γ_x～y，k，γ_y～z，k，γ_z～x，k，

μ_x，k，μ_y，k，μ_z，k，式25

ε_x，k，ε_y，k，ε_z，k，

δ_x，k，δ_y，k，δ_z，k)

(4)将步骤(3)中得到的一个手势的9个帧的帧内特征描述子简单连接成一个整体特征描述子；整体特征描述子τ表示为：

τ = (τ_{0}^{(0)}, τ_{1}^{(0)}, . . ., τ_{14}^{(0)},

式26

τ_{0}^{(8)}, τ_{1}^{(8)}, . . ., τ_{14}^{(8)})

(5)基于多类支持向量机的手势数据集模型训练

我们要求10位用户做手持Wiimote做12种不同的手势，包括向左、向右、向后、向前、圆圈、方框、直角、字母C、字母S、字母V、字母W、字母Z。每种手势做28次，组成一个规模为10×12×28＝3360的手势数据集。按步骤(2)-(4)对手势数据集分别进行分帧，特征提取，最后使得每一个手势样本均被一个整体特征描述子表示。

多类支持向量机模型训练算法以手势数据集中所有样本的整体特征描述子作为输入，以一个多类支持向量机模型M作为输出；采用基于结构化输出的多类支持向量机算法实现一对多的多类分类策略(winner-takes-all)；核函数采用一次线性核函数。

为了检验模型的有效性，我们通过4折交叉确认方法来验证。将手势数据集中每个用户的数据分为4组，每组均包含了12种不同的手势，每种手势7个样本。每次实验选取某一个用户4组手势中的中3组作为训练数据集，另外1组作为测试数据集。因此实验总共进行

10 \times C_{4}^{3} = 40

次。40次实验结果的平均识别准确率为95.21％。

(6)基于支持向量机的手势识别

按步骤(1)检测并记录一个新的手势三维加速度数据序列，按步骤(2)-步骤(4)对该三维加速度数据序列进行整体特征描述子的计算，最后利用步骤(5)训练得出的支持向量机模型M对新的数据样本分类识别。

Claims

1.一种基于加速度传感器的手势识别的方法，其步骤如下：

(2)将所述的三维加速度数据序列进行帧间等长的分帧处理，得到的每个帧为三维加速度数据子序列；

(3)将步骤(2)中得到多个三维加速度数据子序列分别进行帧内三维加速度数据序列的信号特征提取，并将该三维x轴、y轴、z轴上的多个不同的信号特征连接成一个帧内特征描述子；所述的信号特征为：

a)x轴、y轴、z轴三个维度上的加速度时域上的方差；

b)加速度两两维度时域上的相关度；

c)x轴、y轴、z轴三个维度上的加速度频域上的直流分量；

d)x轴、y轴、z轴三个维度上的加速度频域上的交流分量的能量均值；

e)x轴、y轴、z轴三个维度上的加速度频域上的交流分量的信息熵；

(4)将步骤(3)中得到的一个手势的多个帧的帧内特征描述子连接成一个整体特征描述子；

(5)对不同种类的手势按步骤(1)分别检测并记录其三维加速度数据序列，以作模型训练所需的数据样本，并按步骤(2)-(4)得到每个三维加速度数据序列的整体特征描述子，运用多类支持向量机模型对所有整体特征描述子进行建模和参数训练得到在整体特征描述子张成的向量空间中不同种类手势的分界面；

(6)按步骤(1)检测并记录一个新的手势三维加速度数据序列，按步骤(2)-步骤(4)对该三维加速度数据序列进行整体特征描述子的计算，利用步骤(5)训练得出的支持向量机模型的向量空间中不同种类手势的分界面对新的手势数据进行分类识别。

2.根据权利要求1所述的基于加速度传感器的手势识别的方法，其特征是：步骤(2)中在对三维加速度数据序列进行分帧处理时，不同种类手势使用相同分帧数目。

3.根据权利要求1所述的基于加速度传感器的手势识别的方法，其特征是：步骤(2)中在对三维数据序列进行分帧处理时，各帧等长，但帧与帧之间有50％的重叠。