CN109902554B - 一种基于商用Wi-Fi的手语的识别方法 - Google Patents

一种基于商用Wi-Fi的手语的识别方法 Download PDF

Info

Publication number
CN109902554B
CN109902554B CN201910020972.XA CN201910020972A CN109902554B CN 109902554 B CN109902554 B CN 109902554B CN 201910020972 A CN201910020972 A CN 201910020972A CN 109902554 B CN109902554 B CN 109902554B
Authority
CN
China
Prior art keywords
sign language
language words
csi
words
sign
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910020972.XA
Other languages
English (en)
Other versions
CN109902554A (zh
Inventor
张翼翔
张蕾
阮新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910020972.XA priority Critical patent/CN109902554B/zh
Publication of CN109902554A publication Critical patent/CN109902554A/zh
Application granted granted Critical
Publication of CN109902554B publication Critical patent/CN109902554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于商用Wi‑Fi的手语识别方法,包括:对CSI序列的原始轨迹依次进行部分多路径去噪、离群滤波、带通滤波和局部加权线性回归处理;利用手语句子分割组件对过滤后的CSI序列进行分割,将手语单词分离出来;构建深度信念网络模型用于提取手语单词的细粒度特征,利用改进后的隐马尔可夫模型对细粒度特征进行处理,识别手语单词;基于N‑gram模型对识别出的正确手语单词与相似手语单词进行筛选校正,提高识别精度;将所有校正后的手语单词组合在一起,重构出手语句子,并通过语音助手将手语句子输出到智能手机或其他交互设备上。本发明避免了经验上手工选择的不合适特征,并且集成了一系列的降噪和部分多路径方法减少了噪声的影响。

Description

一种基于商用Wi-Fi的手语的识别方法
技术领域
本发明涉及手语识别领域,尤其涉及一种基于商用Wi-Fi的手语的识别方法。
背景技术
手语作为聋人群体的共同语言,也是聋人与正常人交流的重要桥梁。然而,没有经过特殊训练的正常人是无法理解手语的。这两个群体之间的沟通障碍仍然存在。聋人作为每个国家的重要群体,理应有一种更方便的方式与正常人交流。如果手语能够通过识别技术转换成语音,将极大地促进聋哑人与正常人之间的交流。
现有的手语识别方法可以分为两大类:基于设备的识别和基于无设备的识别。基于设备的信号手语识别方法包括基于视觉的和基于传感器的解决方案。基于视觉的方法通常使用摄像头或Kinect来录制视频,并利用视频处理技术来识别手语。但是基于视觉的解决方案受到光照条件的严重影响。此外,视频处理需要大量的计算资源,阻碍了快速响应。基于传感器的方法利用Leap Motion[1]和嵌入专用手套等可穿戴设备的运动传感器检测用户的运动,然后识别手语。然而,为了准确地检测动作,因为手语可以涉及到身体的许多部位,如头部、手臂和手指的动作,使用者必须佩戴许多传感器。此外,与手语无关的肢体动作也会对阅读入侵传感器产生很大影响。
广泛部署的Wi-Fi设备和基于商用Wi-Fi的传感技术的发展,为基于商用Wi-Fi的人类活动识别提供了强有力的支持。商用Wi-Fi设备上的CSI(信道状态信息)揭示了子载波更细粒度的特征。此外,他们不要求用户佩戴任何运动传感器。由于许多基于CSI的活动识别方法大多只提供粗粒度的信息或特定身体部位的信息,如手或者手指。而且,现有的基于CSI的手语识别方法大多侧重于孤立的单词识别,而不是连续的句子识别。因此基于CSI的连续句识别仍然是一个有待解决的问题。
发明内容
本发明提供了一种基于商用Wi-Fi的手语的识别方法,本发明用于识别连续的手语句子,构建模型解决了如何从手语句子中自动提取出手语单词特征的问题,避免了经验上手工选择的不合适特征,并且集成了一系列的降噪和部分多路径方法减少了噪声的影响,详见下文描述:
一种基于商用Wi-Fi的手语识别方法,所述方法包括:
对CSI序列的原始轨迹依次进行部分多路径去噪、离群滤波、带通滤波和局部加权线性回归处理;
利用手语句子分割组件对过滤后的CSI序列进行分割,将手语单词分离出来;
构建深度信念网络模型用于提取手语单词的细粒度特征,利用改进后的隐马尔可夫模型对细粒度特征进行处理,识别手语单词;基于N-gram模型对识别出的正确手语单词与相似手语单词进行筛选校正,提高识别精度;
将所有校正后的手语单词组合在一起,重构出手语句子,并通过语音助手将手语句子输出到智能手机或其他交互设备上。
其中,所述部分多路径去噪具体为:
利用逆傅里叶变换对原始CSI序列进行计算,获取时域近似的功率延迟剖面;
将功率延迟剖面中延迟时间超过阈值的多路径组件删除;将剩余的功率延迟剖面通过傅里叶变换转换回频域CSI序列。
进一步地,所述利用手语句子分割组件对过滤后的CSI序列进行分割,将手语单词分离出来包括:预处理、相关估计、特征分解以及符号指示计算。
其中,所述符号指示计算具体为:
将一组符号指示符与符号阈值进行比较,以获得它们的交点作为手语动作的起始点或终点的候选者,获取候选集合;
每一对起始点和终点之间的CSI值被作为手语单词的手势配置。
进一步地,所述深度信念网络模型的训练包括三个阶段:预训练阶段、展开阶段和微调阶段;
其中,预训练阶段:使用一个输入层和四个隐藏层,用hi表示隐藏层变量,i=1,2,3,4; h0表示校准数据;
还将W1、W2、W3和W4分别表示为校准的数据和第一个隐藏层,第一个和第二个隐藏层,第二个和第三个隐藏层以及第三个和第四个隐藏层之间的权重。
其中,所述改进后的隐马尔可夫模型具体为:
使用每个手语单词的训练样本为相应活动构造一个隐马尔可夫模型,通过Baum-Welch 算法估计每个状态对应的平均向量和协方差矩阵以及转移概率。
进一步地,所述估计每个状态对应的平均向量和协方差矩阵以及转移概率具体为:
将每个训练样本的特征向量序列在状态间平均分割,然后使用分配给该状态的特征向量计算每个状态的均值向量和协方差矩阵的初始值;
从所有状态间平均分割的训练样本的特征向量序列中,计算每对状态之间的转移次数,然后除以所有训练样本中的转移总数。
其中,所述基于N-gram模型对识别出的正确手语单词与相似手语单词进行筛选校正,提高识别精度具体为:
对数据进行平滑处理,将每个n元对得出现次数加上一个常数δ:
P(Wi|Wi-n+1,...,Wi-1)=(count(Wi-n+1,...,Wi-1,Wi)+δ)/( count(Wi-n+1,...,Wi-1)+Nδ)
过滤掉概率较低的HMM模型,然后从剩余的模型中挑选出最高概率的识别结果作为最终的分类结果。
本发明提供的技术方案的有益效果是:
1、本发明使用常规的Wi-Fi设备即可实现句子级别的手语识别,可以自动检测手语动作和自动提取手语动作的特征,具有较高的自动化特性;为解决以往手语识别工作识别精度不高的缺点,本发明采用自动提取细粒度特征,与之前手语识别人工提取的粗粒度特征相比,可以极大地分辨出相似手语动作,同时减少筛选特征的难度,极大地节省人力的消耗;
2、本发明基于商用的Wi-Fi设备,价格低廉,无需投入大量资金;由于Wi-Fi设备已被广泛部署,所以无需增添额外的硬件,可以在现有的硬件基础上实施,节约成本;
3、本发明与可穿戴设备相比,基于Wi-Fi的手语识别采用非侵入式,不要求受试者穿戴任何设备;与基于摄像头的手语识别相比,本发明不受光线明暗的约束,也不会侵犯人的隐私;
4、本发明提出的数据处理方法,可用于其他领域,有很好的通用性。
附图说明
图1为一种基于商用Wi-Fi的手语的识别方法的流程图;
图2为原始CSI经过逆傅里叶变换过后的时域直方图;
图3为CSI振幅在数据清洗前后的对比示意图;
其中,(a)为原始CSI振幅数据,(b)为部分多路径去除后的数据,(c)为离群值滤波之后的数据,(d)为带通滤波器处理后的数据,(e)为局部加权回归处理后的数据。
图4为CSI原始相位和校准后的相位示意图;
图5为三个手语单词被符号指示器检测的示意图;
图6为基于商用Wi-Fi的手语识别操作的示意图;
其中,Tx为发射端,例如路由器;Rx为接收端,例如笔记本电脑。
发射端与接收端摆放在1.5m高的桌面上,且相距0.8m。室内为一个5m×6m的矩形区域,人在发射端与接收端的LOS做手语动作。
图7为在图6的环境基础上在发射端的周围放置一些椅子;
图8为在图6的环境基础上令一个无关人在周围做干扰活动;
图9为在图6的环境基础上识别错误单词数量的手语句子所占的比例。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
首先,通过对背景技术的分析可知,如何对连续采集的CSI样本进行分割,分离出手语单词是一个难题。如果一个手语的开始点和结束点识别不正确,一个手语动作就会被误认为是另一个手语动作的组成,从而导致错误。其次,通过有限数量的人工选择特征识别涉及多个身体部位的复杂手语是一项挑战。此外,由于手的大小、身高和使用习惯的不同,不同人的有效特征也可能不同。这种多样性使得手动选择特性难以实现。第三,由于环境因素,CSI样本存在噪声。如何适应不同的操作环境是一个挑战。
实施例1
一种基于商用Wi-Fi的手语识别方法,参见图1,该方法包括以下步骤:
101:在部署一对无线收发器的环境中,受试者执行手语动作,原始CSI序列由接收方收集;
102:对CSI序列的原始轨迹进行了一系列去噪处理,包括:部分多路径去噪、离群滤波、带通滤波和局部加权线性回归;
103:去除噪声后,利用手语句子分割组件对过滤后的CSI序列进行分割,将手语单词分离出来;
即采用一种基于PCA(主成分分析)的分割方法寻找手语单词的开头和结尾,然后将分割的手语单词转发到手语识别组件,执行步骤104。其中,手语识别可分为孤立词识别和连续句子识别,孤立词的识别是指从一个所知道的不超过一个单词的片段中识别出单个手语单词。然而,连续词手语识别是指根据一定的语法规则组合起来的一系列手语词汇的识别,采样序列中可能存在多个单词。为了将一个个单词从句子中分割出来,因此需要手语句子分割组件。
104:构建DBN(深度信念网络)模型用于提取手语单词的细粒度特征,利用HMM (隐马尔可夫)模型对细粒度特征进行处理,识别手语单词;将识别出的手语单词转发到 N-gram模型[2](为一种语言模型,为本领域技术人员所公知)中,对基于N-gram模型的模糊手语单词进行校正;
其中,上述利用HMM(隐马尔可夫)模型对细粒度特征进行处理具体为:首先对一个手语动作的180个子载波数据进行如图1所示的分窗处理,将每一个窗口的数据放入 DBN模型中提取手语单词特征得到一个一维向量,然后将所有窗口的一维向量作为观测数据集代入不同手语单词的HMM模型中进行匹配,以此来识别手语单词。
105:将所有校正后的手语组合在一起,重构出手语句子,并通过语音助手将手语句子输出到智能手机或其他交互设备上。
综上所述,本发明实例结合了DBN模型、HMM模型、以及N-gram模型,根据细粒度特征提取和信息识别,实现了手语句子的识别,准确率较高。
实施例2
下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
一、利用商用Wi-Fi采集CSI信号
本发明使用了两台带有Intel 5300网卡和Ubuntu***的笔记本电脑。其中一台笔记本电脑的天线作为发射器,在IEEE 802.11n监控模式下运行频率为5.825GHz,另一台笔记本电脑的天线为接收器。测量过程中,发射器通过WiFi路由器每秒向接收机发送约1000个数据包。本发明通过设置较高的发送包频率有助于实现较高的CSI采样率,保证CSI值的时间分辨率,捕捉CSI流中的细微变化,最大化不同手语运动的细节。收发机放置在1.5m 高度,它们之间的距离是80厘米。使用一根天线作为发射端,3根天线作为接收端,一共会有3个CSI流被收集,每个流中有30个子载波,即共有90个子载波被收集。
受试者被要求在接收端和发送端之间的视线(LOS)路径上实施手语动作,每组句子执行70次。将每个样本的采样时间固定在15秒。采集到的CSI被存储在接收端,用matlab进行处理,其中十分之一的手语实例用于测试,其余的则用于每个人的训练。
二、数据清洗
CSI工具采集的原始CSI样本本质上是噪声的。为了识别手语的细粒度运动,需要为分类模型提供高质量的数据。否则,噪声会混淆分类模型,导致分类精度低。因此,采集到的原始CSI轨迹首先由信号预处理组件进行处理,去除噪声。
1)部分多路径去除
虽然多路径提供了丰富的环境信息,但是它也给CSI带来了太多的噪声。因此需要删除在场景中没有相关信息的长延时反射。为了将延迟保持在一个有限的范围内,以消除噪声的长反射。首先利用IFFT(逆傅里叶变换)对原始CSI进行计算,得到时域近似的功率延迟剖面。然后,删除延迟超过阈值的多路径组件。根据经验将阈值设置为800ns。然后将剩余的功率延迟剖面通过FFT(傅里叶变换)转换回频域CSI。时域直方图如图2所示,从图2中可以看出延迟主要在800ns以内。800ns后的功率元件非常有限。部分多路径删除后的CSI跟踪如图3(b)所示。
2)相位处理
当信号遇到障碍物堵塞时,CSI的振幅会明显减弱,提供的信息有限。而信号相位随传播距离的周期性变化更具有鲁棒性。因此,还利用相位来提取信息。然而,由于发射端和接收端之间的随机噪声和时钟不同步,原始相位信息在可行域内表现出极大的随机性。更糟糕的是,相位对温度和硬件条件也很敏感,带来了更多的噪音。为了消除随机噪声,采用了一种线性变换方法。线性变换公式如下:
Figure BDA0001940736710000061
其中,
Figure BDA0001940736710000062
Figure BDA0001940736710000063
是原始相位和校准相位,ki表示第i个子载波的子载波索引(在IEEE802.11n上范围从-28到28),n等于56。
图4显示了第二个子载波的原始相位(+点)和相位处理组件校准的相位(星点)。原始相位随机分布在(-π,+π)的范围内。直接使用这种随机的原始相位不能提供有价值的信息。在相位处理组件中的线性变换方法可以有效的将混沌相位校准为有序波形。
3)离群值滤波器
由于协议规范和环境噪声的存在,这些离群值出现在CSI测量中。为了确认和消除这些偏差测量,采用了Hampel标识符。对于给定的子载波数据x1,x2,x3,...,xn和一个长度为 k的滑动窗口。如果数据xi的一个采样点如下所示:
|xi-mi|>nσσi
其中,mi和σi是窗口内采样点的中值和标准偏差,nσ为给定的阈值,Hampel标识符声明xi是个异常点并用mi取代它。离群值滤波后的结果如图3(c)所示。
4)带通滤波器
采用频域去噪过程。由于环境噪声(如电子噪声)和硬件缺陷(如载频偏置)引起的噪声大多在高频范围内。另一方面,身体运动(如胸部运动和眨眼)属于低频范围。因此,采用5 阶巴特沃斯带通滤波器去除带外噪声。根据实验观察,不同受试者的手语动作频率在[2Hz, 35Hz]范围内。为了保守起见,采用了截止频率分别为1Hz和40Hz的带通滤波器。经过带通滤波后,平滑CSI,如图3(d)所示。
5)局部加权线性回归
CSI波形不能用线性模型准确描述。因此,一个加权线性最小二乘模型和一个二阶多项式模型组合的局部加权线性回归方法可以更好地拟合。图3(e)为局部加权回归结果。
三、手语句子分割
为了检测CSI流中的手语动作,设计了一种自动截取手语单词动作的起始点和结束点。原理主要是利用PCA去探索CSI流之间的相关性,提取过程被安排为以下四个步骤:
1)预处理:经过实验观察,决定利用经过部分多路径消除的CSI的振幅去做手语句子分割,其中第3个数据流具有较好的数据。把这些数据流放入带入滑动窗口的箱中。窗口大小为500,步长为400,每个箱大小为500×30的矩阵,表示为M。
其中,本发明是通过实验观察出第3个数据流的CSI波形对手语的变化更加敏感,更能反映出手语动作,因此将第3个数据流放入带入滑动窗口的箱中进行后续处理,具体实现时,本发明实施例对此不做限制。
2)相关估计:计算相关矩阵为MT×M,相关矩阵有N×N的维数,其中N=30是CSI 流子载波的数量。
3)特征分解:在得到相关矩阵的特征向量和特征值后,发现了一个规律:当监测环境中没有运动时,第二特征向量q2在相邻子载波上随机变化。然而,当手语动作出现时,CSI的子载波就变得相关。由于第一个分量捕获了太多的噪声,所以不使用第一个特征向量。这是因为主成分按方差降序排列,方差大的噪声成分在主成分中排名靠前。由于多个CSI子载波变化的相关性,去除该主成分不会导致任何显著的信息丢失,因为剩余的主成分仍然包含足够的信息,能够成功地检测出手语单词的开始和结束。
4)符号指示计算:计算
Figure BDA0001940736710000081
其中Nc代表了CSI子载波的数量,并且|q2(l)-q2(l-1)|表示相邻子载波的系数差,此外,手语动作的出现导致主成分h2的方差
Figure BDA0001940736710000082
更高。
因此定义
Figure BDA0001940736710000089
作为表示手语动作出现的符号指示符,符号指示符的波形有一些突然的变化,这可能会导致检测结果的错误。因此,经验将一个3点的中值滤波器应用到一组符号指示符中,以方便检测手势的运动。
经验的选择符号阈值为0.5,该算法将一组符号指示符与符号阈值进行比较,如图5 所示,以获得它们的交点,作为手语动作的起始点或终点的候选者,例如:候选集合为
Figure BDA0001940736710000083
分别为第n个手语动作的起始点和结束点,每一对起始点和终点之间的CSI值被作为手语单词的手势配置,表示为
Figure BDA0001940736710000085
Pi的大小为Nc×l,Nc=180表示3个流CSI子载波振幅和相位的数量之和,
Figure BDA0001940736710000086
表示手势持续时间。不同手势的配置文件表示为Pi(i=1,2,…n)。
四、手语识别
在得到分割后的手语单词后,由于受试者做每个手语单词的持续时间可能不同,即使是相同的手语单词。该模块采用三次样条插值的算法对每个符号词的数据序列进行缩放,以便进行批处理。由于发现用户生成的不同手语单词的频谱是不同的,该组件采用DBN、HMM和N-gram组合的识别模型。
1)DBN模型
DBN用于提取有效特征。DBN网络的训练包括三个阶段:预训练、展开和微调。预训练阶段,本模块使用一个输入层和四个隐藏层。让hi表示隐藏层变量,i=1,2,3,4。h0表示校准数据。此外,还将W1、W2、W3和W4分别表示为校准的数据和第一个隐藏层,第一个和第二个隐藏层,第二个和第三个隐藏层以及第三个和第四个隐藏层之间的权重。
Figure BDA0001940736710000087
表示一个输入层和三个隐藏层的深层网络的概率生成模型。为了在预训练阶段获得最佳的权重,需要最大化深度网络的校准数据的边际分布,即
Figure BDA0001940736710000088
由于复杂的模型结构具有多个隐藏层和深网络中的大量节点,因此用最大似然法来获得最优权重是具有挑战性的。本模块开发了一种贪婪的学习算法,通过使用一堆RBMs(受限玻尔兹曼机)来降低复杂性,从而对权重进行分层。对于第i层的RBM模型,i=1,2,3。联合分布Pr(hi-1,hi)是由一个RBM表示为一个由两部分构成的无向图形化模型,即:
Figure BDA0001940736710000091
其中,E(hi-1,hi)代表了i-1层和第i层的自由能量,表示为:
E(hi-1,hi)=-bi-1hi-1-bihi-hi-1Wihi,
其中,bi-1和bi分别是i-1层和i层的偏置项,事实上,由于很难找到联合分布Pr(hi -1,hi),本模块使用CD-1算法来近似它,如下所述,
Figure BDA0001940736710000092
其中,
Figure BDA0001940736710000093
Figure BDA0001940736710000094
由sigmoid函数(本领域技术人员所公知)描述,并得到:
Figure BDA0001940736710000095
其中,Ki为RBM第i层的结点数,Wi j,t为第i层第t个结点与第i-1层第j个结点的权值,
Figure BDA0001940736710000096
为第i层的第j个结点的偏置项,
Figure BDA0001940736710000097
为第i层的第t个结点的数据。
本模块使用贪心算法来估计一堆RBMs的所有权重的参数。首先,给出了校准的振幅和相位数据,利用CD-1方法估计了第一层RBM的{b0,b1,W1}的参数。然后冻结第一个层的{b0,W1}的参数,以及条件概率Pr(h1|h0)的样本来训练第二层RBM的参数{b1,b2,W2}。接下来,第一层和第二层的参数{b0,b1,W1,W2}被冻结,然后从条件概率Pr(h2|h1)中取样,以训练第三层RBM的参数{b2,b3,W3},以此类推。
为了更新每个RBM中的权重,采用CD-1方法来近似它们。对于层i的RBM模型,首先,
Figure BDA0001940736710000098
是通过从条件概率Pr(hi-1|hi)的抽样来估计的。然后通过从条件概率
Figure BDA0001940736710000099
中采样获得
Figure BDA00019407367100000910
最后,参数被更新如下。
Figure BDA0001940736710000101
其中,ε是步长,ΔW为权值W更新后的数据,Δb为偏置项b更新后的数据,
Figure BDA0001940736710000102
为更新后第i层数据。
一旦完成了预训练阶段,获得了深层网络的最优权重。然后,在展开阶段,通过前向传播展开深度网络,得到重构标定的样本数据。最后,通过计算输入校准的样本数据和重建校准的样本数据之间的误差,利用反向传播算法对深层网络中的所有权重进行训练。这个阶段叫做微调。在最小化错误之后,最优权重存储在指纹数据库中。
2)HMM模型
使用HMM来识别手语单词,因为HMM适合于利用时变特征建立状态转移模型。该发明使用每个手势单词的训练样本为相应活动构造一个HMM。为了估计隐马尔可夫模型每个状态对应的平均向量和协方差矩阵以及转移概率,使用了著名的Baum-Welch算法。 Baum-Welch算法需要从这些概率的粗略猜测初始值。为了猜测初始值,首先将每个训练样本的特征向量序列在状态间平均分割,然后使用分配给该状态的特征向量计算每个状态的均值向量和协方差矩阵的初始值。同时,计算初始转移概率的方法是,首先从所有状态间平均分割的训练样本的特征向量序列中,计算每对状态之间的转移次数,然后除以所有训练样本中的转移总数。
3)N-gram模型
由于两个不同的手语单词可能有相似的动作,HMM模型也可以是相似的。为了修正相似的模型,该模块采用N-gram语言模型来修正手语单词,以提高准确性。
N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关。(这也是隐马尔可夫当中的假设。)整个句子出现的概率就等于各个词出现的概率乘积。各个词的概率可以通过语料中统计计算得到。假设句子T是有词序列w1,w2,w3…,wn组成,用公式表示N-Gram语言模型如下:
P(T)=P(w1)*P(w2)*P(w3)…*P(wn)=P(w1)*P(w2|w1)*P(w3|w1w2)*…P(wn|w1w2w3wn-1)
在这里N=1,即句子中的某一词只与前一个词相关。公式表示如下:
P(T)=P(w1|begin)*P(w2|w1)*P(w3|w2)*...*P(wn|wn-1)
注意上面概率的计算方法:P(w1|begin)定义为所有句子中以w1为开头的总数与句子总数之比;P(w2|w1)定义为所有句子中w1,w2同时出现的次数与w1出现的次数之比,以此类推。不过即使训练数据的规模很大,会有很多语言现象在训练语料中没有出现过,这就会导致很多参数(某n元对的概率)为0。对数据进行了平滑,将每个n元对得出现次数加上一个常数δ(0<δ≤1):
P(Wi|Wi-n+1,...,Wi-1)=(count(Wi-n+1,...,Wi-1,Wi)+δ)/( count(Wi-n+1,...,Wi-1)+Nδ)
过滤掉概率较低的HMM模型,然后从剩余的模型中挑选出最高概率的识别结果作为最终的分类结果。
实施例3
下面结合附图6对上述实施例1和2中的作用和效果进行展示。
本示例以CSI数据处理为例给出具体的实施方式,具体步骤如下:
使用一个笔记本电脑作为Wi-Fi接入点,即发送端,另外一个笔记本电脑作为接收端,两台笔记本都安装了Intel 5300 NIC和Ubuntu 14.04 LTS桌面版***,发射端有1根天线,每个接收端有3根天线,每端3根天线之间的距离为一个波长(5.79cm),并且位于一条直线上。发射端和接收端分别放在两个个小桌板上,距离地面1.5m,发射端与接收端之间的距离为80cm。测量过程中,发射器通过WiFi路由器每秒向接收机发送约1000个数据包。设置较高的发送包频率有助于实现较高的CSI采样率,保证CSI值的时间分辨率,捕捉 CSI流中的细微变化,最大化不同手语运动的细节。
采集到的CSI被存储在接收器中,用matlab进行处理,其中十分之一的手语样本用于测试,其余的则用于训练。并采用十折交叉验证对模型进行估计,以确保准确性。
结合图7,在图6环境的基础上在发射端周围放一些椅子或其他的杂物,训练的模型仍旧采用原始环境下的数据,测试数据采用受试者在图7新环境的数据,实验结果表明本发明在一些周围细微的环境改变下与原精度无差别。
结合图8,在图6环境的基础上令一名志愿者在本发明周围做一些干扰活动,干扰人分别距离受试者1m、2m、3m、4m及5m。表明本发明可以抗拒3m以外的干扰而不受明显的影响。
参见图9,在图6环境的基础上,受试者在执行多组手语句子之后,手语句子识别错误单词的数量为0,1,2和3个及其以上所占的百分比。手语识别错误单词数量为0,1,2之和所占的比重多于3个及其3个以上的比重,进一步说明了本发明手语句子识别的有效性。
参考文献
[1]M.Mohandes,S.Aliyu,and M.Deriche.2014.Arabic sign languagerecognition using the leap motion controller.In IEEE International Symposiumon Industrial Electronics.
[2]Lin,Chin Yew.2003.Automatic Evaluation of Summaries Using N-gramCo-Occurrence Statistics.Conference of the North American Chapter of theAssociation for Computational Linguistics on Human Language TechnologyAssociation for Computational Linguistics.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于商用Wi-Fi的手语识别方法,其特征在于,所述方法包括:
对CSI序列的原始轨迹依次进行部分多路径去噪、离群滤波、带通滤波和局部加权线性回归处理;
利用手语句子分割组件对过滤后的CSI序列进行分割,将手语单词分离出来;
构建深度信念网络模型用于提取手语单词的细粒度特征,利用改进后的隐马尔可夫模型对细粒度特征进行处理,识别手语单词;基于N-gram模型对识别出的正确手语单词与相似手语单词进行筛选校正,提高识别精度;
将所有校正后的手语单词组合在一起,重构出手语句子,并通过语音助手将手语句子输出到智能手机或其他交互设备上;
其中,所述部分多路径去噪具体为:
利用逆傅里叶变换对原始CSI序列进行计算,获取时域近似的功率延迟剖面;
将功率延迟剖面中延迟时间超过阈值的多路径组件删除;将剩余的功率延迟剖面通过傅里叶变换转换回频域CSI序列;
所述利用手语句子分割组件对过滤后的CSI序列进行分割,将手语单词分离出来包括:预处理、相关估计、特征分解以及符号指示计算;
所述改进后的隐马尔可夫模型具体为:
使用每个手语单词的训练样本为相应活动构造一个隐马尔可夫模型,通过Baum-Welch算法估计每个状态对应的平均向量和协方差矩阵以及转移概率;
所述估计每个状态对应的平均向量和协方差矩阵以及转移概率具体为:
将每个训练样本的特征向量序列在状态间平均分割,然后使用分配给该状态的特征向量计算每个状态的均值向量和协方差矩阵的初始值;
从所有状态间平均分割的训练样本的特征向量序列中,计算每对状态之间的转移次数,然后除以所有训练样本中的转移总数;
所述符号指示计算具体为:
将一组符号指示符与符号阈值进行比较,以获得它们的交点作为手语动作的起始点或终点的候选者,获取候选集合;
每一对起始点和终点之间的CSI值被作为手语单词的手势配置。
2.根据权利要求1所述的一种基于商用Wi-Fi的手语识别方法,其特征在于,所述深度信念网络模型的训练包括三个阶段:预训练阶段、展开阶段和微调阶段;
其中,预训练阶段:使用一个输入层和四个隐藏层,用hi表示隐藏层变量,i=1,2,3,4;h0表示校准数据;
还将W1、W2、W3和W4分别表示为校准的数据和第一个隐藏层,第一个和第二个隐藏层,第二个和第三个隐藏层以及第三个和第四个隐藏层之间的权重。
3.根据权利要求1所述的一种基于商用Wi-Fi的手语识别方法,其特征在于,所述基于N-gram模型对识别出的正确手语单词与相似手语单词进行筛选校正,提高识别精度具体为:
对数据进行平滑处理,将每个n元对得出现次数加上一个常数δ:
P(Wi|Wi-n+1,...,Wi-1)=(count(Wi-n+1,...,Wi-1,Wi)+δ)/(count(Wi-n+1,...,Wi-1)+Nδ)
过滤掉概率较低的HMM模型,然后从剩余的模型中挑选出最高概率的识别结果作为最终的分类结果。
CN201910020972.XA 2019-01-09 2019-01-09 一种基于商用Wi-Fi的手语的识别方法 Active CN109902554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910020972.XA CN109902554B (zh) 2019-01-09 2019-01-09 一种基于商用Wi-Fi的手语的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910020972.XA CN109902554B (zh) 2019-01-09 2019-01-09 一种基于商用Wi-Fi的手语的识别方法

Publications (2)

Publication Number Publication Date
CN109902554A CN109902554A (zh) 2019-06-18
CN109902554B true CN109902554B (zh) 2023-03-10

Family

ID=66943844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910020972.XA Active CN109902554B (zh) 2019-01-09 2019-01-09 一种基于商用Wi-Fi的手语的识别方法

Country Status (1)

Country Link
CN (1) CN109902554B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458118B (zh) * 2019-08-14 2022-08-12 南京邮电大学 基于信道状态信息的简单手语识别方法
CN113495619B (zh) * 2020-04-03 2023-11-10 北京金坤科创技术有限公司 一种基于Wi-Fi信道状态信息相位的手势识别方法
CN111914724B (zh) * 2020-07-27 2023-10-27 合肥工业大学 基于滑动窗口分割的连续中国手语识别方法及其***
CN115913415B (zh) * 2022-11-09 2024-02-02 华工未来科技(江苏)有限公司 一种基于ris辅助的wifi信号动作识别方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539994A (zh) * 2009-04-16 2009-09-23 西安交通大学 一种手语语音互译***及手语语音互译方法
CN105893942A (zh) * 2016-03-25 2016-08-24 中国科学技术大学 一种基于eSC和HOG的自适应HMM的手语识别方法
CN105956529A (zh) * 2016-04-25 2016-09-21 福州大学 一种基于lstm型rnn的中国手语识别方法
CN107451578A (zh) * 2017-08-14 2017-12-08 西安文理学院 基于体感设备的聋哑人手语机器翻译方法
CN108171198A (zh) * 2018-01-11 2018-06-15 合肥工业大学 基于非对称多层lstm的连续手语视频自动翻译方法
CN108256458A (zh) * 2018-01-04 2018-07-06 东北大学 一种针对聋人自然手语的双向实时翻译***及方法
CN109034093A (zh) * 2018-08-10 2018-12-18 成都理工大学 一种快速动态手语识别算法的设计与实现

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539994A (zh) * 2009-04-16 2009-09-23 西安交通大学 一种手语语音互译***及手语语音互译方法
CN105893942A (zh) * 2016-03-25 2016-08-24 中国科学技术大学 一种基于eSC和HOG的自适应HMM的手语识别方法
CN105956529A (zh) * 2016-04-25 2016-09-21 福州大学 一种基于lstm型rnn的中国手语识别方法
CN107451578A (zh) * 2017-08-14 2017-12-08 西安文理学院 基于体感设备的聋哑人手语机器翻译方法
CN108256458A (zh) * 2018-01-04 2018-07-06 东北大学 一种针对聋人自然手语的双向实时翻译***及方法
CN108171198A (zh) * 2018-01-11 2018-06-15 合肥工业大学 基于非对称多层lstm的连续手语视频自动翻译方法
CN109034093A (zh) * 2018-08-10 2018-12-18 成都理工大学 一种快速动态手语识别算法的设计与实现

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Robust Sign Language Recognition System with Multiple Wi-Fi Devices;Jiacheng Shang ,Jie Wu;《In Proceedings of the Workshop on Mobility in the Evolving Internet Architecture (MobiArch "17)》;20171231;论文第19–24页 *
A Robust Sign Language Recognition System with Sparsely Labeled Instances Using Wi-Fi Signals;J. Shang, J. Wu;《2017 IEEE 14th International Conference on Mobile Ad Hoc and Sensor Systems (MASS)》;20171231;论文第99-107页 *

Also Published As

Publication number Publication date
CN109902554A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN109902554B (zh) 一种基于商用Wi-Fi的手语的识别方法
Venkatnarayan et al. Multi-user gesture recognition using WiFi
Li et al. WiHF: Enable user identified gesture recognition with WiFi
CN108962237B (zh) 混合语音识别方法、装置及计算机可读存储介质
CN106407905B (zh) 基于机器学习的无线感知动作识别方法
CN105844216B (zh) 一种利用WiFi信号识别手写字母的检测与匹配机制
Liu et al. DeepCount: Crowd counting with WiFi via deep learning
CN110502105B (zh) 一种基于csi相位差的手势识别***及识别方法
JP2018173285A (ja) 行動認識システム、及び行動認識方法
CN107862295B (zh) 一种基于WiFi信道状态信息识别面部表情的方法
US9786275B2 (en) System and method for anomaly detection and extraction
CN105190751B (zh) 键盘输入检测和抑制
Zhang et al. Wisign: Ubiquitous american sign language recognition using commercial wi-fi devices
CN112733609B (zh) 一种基于离散小波变换的领域自适应Wi-Fi手势识别方法
CN114048773A (zh) 一种基于迁移学习和WiFi的行为识别方法及***
Venkatnarayan et al. WiFi based multi-user gesture recognition
Zhu et al. NotiFi: A ubiquitous WiFi-based abnormal activity detection system
CN111901028B (zh) 一种基于多天线上csi的人体行为识别方法
CN114781463A (zh) 一种跨场景鲁棒的室内摔倒无线检测方法及相关设备
Teklehaymanot et al. Bayesian target enumeration and labeling using radar data of human gait
Yousefi et al. A survey of human activity recognition using wifi CSI
CN108846407B (zh) 基于独立成分高序不确定脑网络的磁共振影像分类方法
Zhang et al. Modified subspace method based on convex model for underdetermined blind speech separation
CN111913575B (zh) 一种手语词的识别方法
CN109784212A (zh) 一种基于WiFi信号的生物打字识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant