CN101794528A - 一种手语语音双向翻译*** - Google Patents

一种手语语音双向翻译*** Download PDF

Info

Publication number
CN101794528A
CN101794528A CN 201010139012 CN201010139012A CN101794528A CN 101794528 A CN101794528 A CN 101794528A CN 201010139012 CN201010139012 CN 201010139012 CN 201010139012 A CN201010139012 A CN 201010139012A CN 101794528 A CN101794528 A CN 101794528A
Authority
CN
China
Prior art keywords
sign language
language
voice
inertial navigation
gesture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010139012
Other languages
English (en)
Other versions
CN101794528B (zh
Inventor
时广轶
舒长青
金玉丰
邹月娴
贾松涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jacal Electronic (Wuxi) Co., Ltd.
Original Assignee
Wuxi Produces Study Grinds Cooperation Education Base Of Peking University Software & Microelectronic College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Produces Study Grinds Cooperation Education Base Of Peking University Software & Microelectronic College filed Critical Wuxi Produces Study Grinds Cooperation Education Base Of Peking University Software & Microelectronic College
Priority to CN2010101390124A priority Critical patent/CN101794528B/zh
Publication of CN101794528A publication Critical patent/CN101794528A/zh
Application granted granted Critical
Publication of CN101794528B publication Critical patent/CN101794528B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于传感技术和模式识别技术的肢体动作识别技术以及语音识别技术,属于传感技术和惯性信号处理、语音处理技术领域,特指一种手语语音双向翻译***,其以微惯导传感器网络和手语动作分类器为核心,通过安装在聋哑人手指、手臂以及头部的传感器,检测聋哑人做出的手语动作,并正确识别,然后将其代表的含义通过语音和发声***连贯的表达出来,以达到让正常人“看懂”手语的效果;同时,正常人的语言可以被翻译成特定的连贯的手语动作,并以动画或视频的形式显示出来,以达到聋哑人间接“听到”正常人说话的效果。该***有效解决了聋哑人与正常人双向交流的障碍,且廉价便携,有着巨大的社会效益和经济效益。

Description

一种手语语音双向翻译***
技术领域
本发明涉及基于传感技术和模式识别技术的肢体动作识别技术以及语音识别技术,尤指一种以微惯导传感器网络和手语动作分类器为核心的手语语音双向翻译***,能对手语动作进行语音表达,也能将语音信息翻译成手语动作加以显示,属于传感技术和微惯导信号处理、语音处理技术领域。
背景技术
手语动作的模式识别是手语翻译***中的重要环节,现在用得较多的手语翻译***的模式识别都是基于视觉识别的。这种识别方式主要是用多个相机同时从各个视角拍下手语动作,然后进行图像帧的底层特征提取,接着进行帧间的特征联系,最终识别出手语动作。但这种基于视觉的手语动作的模式识别是有缺陷的,其比较明显的有两点:1,对于复杂的手语动作,用图像进行处理和识别难以精确;2,用图像进行处理和识别很容易受环境的影响,比如在光线很暗的情况下就很受影响。
随着现代技术的不断发展,微机电***以其体积小、重量轻、功耗低、成本低、可靠性高等优点,在军用市场和民用市场均得到了广泛的应用。特别是惯性传感器,已经在航空航天、汽车、电子设备保护、娱乐等领域取得了非常引人注目的应用,开创了微型汽车安全气囊传感器等新的产业。随着技术的发展和深入,继承多种惯性微机电***传感器是目前的研究热点,在生物医学、环境监控、消费电子等领域有着十分广阔的应用前景。特别值得一提的是现在微机电***研究和发展的一个重要方向,也即微型惯性测量组合(uIMU),它在生物医学、工业自动化、智能建筑、航空航天、环境监控、消费电子等领域前景巨大。
微惯导是微惯导测量组合的简称,它由一定数量的三维加速度计和三维陀螺仪组成,它的测量原理是经典力学中的牛顿运动定律,它通过三维加速度计和三维陀螺仪测量车辆、飞机、导弹、舰艇、人造卫星等物体的质心运动和姿态运动,从而对物体进行控制和导航。基于MEMS三维加速度计和三维陀螺仪的微惯性测量***具有体积小、重量轻、可靠性高、易集成、能大批量生产、价格低廉等优点,从而在军用、民用领域有广阔的应用前景。
基于微惯导技术的这些卓越的特性,能否将其结合到图像识别技术用于对人体动作的翻译,以及如何结合,为本领域技术人员开拓了一条崭新的思路。
同时,为了解决聋哑人与正常人交流的障碍,仅仅能够将聋哑人的手语翻译出来是不够的,为了使聋哑人能够明白正常人的意图,还需要能够将正常人的语音信息翻译成对应的手语动作并显示给聋哑人的装置。
发明内容
本发明旨在公开一种手语语音双向翻译***,既可将手语翻译成对应的语音信息,又可将语音翻译成对应的手语并显示,该***包括:基于微惯导传感的手语动作捕捉***、微惯导信号处理与分析***、一训练完成的手语动作特征分类器、用来训练手语动作分类器的手语动作特征数据库、语音文字数据库、视频/动画数据库、语音信号采集***、语音分析***、发声***和显示***;其中:所述手语动作捕捉***与所述微惯导信号处理与分析***通信连接,所述手语动作分类器分别与所述手语动作特征数据库、微惯导信号处理与分析***、语音文字数据库、视频/动画数据库、显示***通信连接,所述语音文字数据库还与所述语音分析***和视频/动画数据库通信连接,所述语音信号采集***和发声***分别与所述语音分析***通信连接;
优选地,所述手语动作捕捉***包括主控单元、信号滤波和放大单元、AD转换单元以及发送单元,还包括若干个微惯导传感节点,每一个传感节点包含三维加速度传感器和三维陀螺仪;
优选地,所述手语动作捕捉***还需要进行以下操作步骤:
1)建立微惯导器件失配误差模拟模型;
2)高性能6维自由度的uIMU手语动作传感子***设计;
3)建立手语动作误差模型;
优选地,所述微惯导信号处理与分析***接收手语动作捕捉***传送来的微惯导数字信号,采用特定的滤波算法对这些信号进行运算和分析,并采用特定的特征提取方法和最优搜索法、次优搜索法、模拟退火法、遗传算法,根据可分离性判据来选择可分性最大的特征组;
优选地,所述特定的滤波算法为基于矢量的Kalman滤波法,所述特定的特征提取方法基于主成分分析法(PCA)或者频域分析方法快速傅里叶变换(FFT)和离散余弦变换(DCT);
优选地,所述手语动作特征数据库包含多个常用的手语动作,每条手语动作包含多个不同样本的手语动作特征信息,且信息量可扩充;采集不同身高,不同体型,不同年龄,不同性别,不同动作习惯的多组同一手语动作样本,使用BP神经网络算法或SVM算法或隐式马尔科夫模型(HMM)训练生成手语动作特征分类器,使经这些样本训练而成的分类器拥有较高的动作识别率;
优选地,所述手语动作分类器采用“一对一”或者“一对多”的分类策略;
优选地,所述发声***由立体声或者单声道扬声器及其配套的驱动***组成;所述显示***由独立显示***或由基于WIFI、ZIGBEE、BLUETOOTH技术实现与翻译***通信的手机来实现;
本发明还公开了一种采用上述手语语音双向翻译***将手语翻译成语音的方法,具体包括以下步骤:
(1)微惯导传感器节点,负责采集手语动作中人体相应点位的三维加速度和三维角速度信息,其具有基本的信号处理功能和无线/有线发送功能;
(2)由多个节点组成的微惯导传感器网络构成的基于微惯导的手语动作捕捉***,负责实时同步采集各个节点的数据,并将其发送到微惯导信号处理和分析***;
(3)微惯导信号处理和分析***通过有线或无线的方式实时接收来自“手语动作捕捉***”产生的多通道同步数据,并把接收到的数据进行平滑和滤波处理,去掉影响判断的噪声和干扰信号,然后以特定的算法进行特征提取,得到实时的手语动作特征信息;
(4)手语动作特征数据库包括500个或以上手语动作的500个不同样本的特征信息,即每个手语动作所对应的三维加速度和三维角速度,动作持续时间等信息;采用手语动作特征数据库结合特定算法训练出用于动作识别的手语动作分类器;
(5)手语动作分类器接收来自微惯导信号处理和分析***提供的实时手语动作特征信息,并对其进行动作识别,得到手语动作相应的含义,将从手语动作翻译得来的分离词语整合成类自然语言,并能通过查询语音数据库实时输出语音信号,驱动发声***发声,完成手语向语音的翻译。
本发明还公开了一种采用上述手语语音双向翻译***将手语翻译成语音的方法,具体包括以下步骤:
(1)由麦克风或麦克风阵列组成的语音信号采集***,将把说话者的声音实时记录下来,并进行一系列处理后传递给基于模式识别的语音分析***;
(2)该语音分析***通过模式识别的方法和相关联的语音文字数据库来进行语义的准确分析,并形成可供转换成手语动作的分离词语;
(3)手语动作分类器与视频/动画数据库,语音和文字数据库相关联,根据分离出的词语实时查询包含对应手语动作的视频/动画,并将资料实时提供给显示***,完成语音向手语的翻译。
附图说明
图1:本发明的手语语音双向翻译***架构图;
图2:动作识别流程图;
图3:分类器训练流程图;
符号说明
0 手语动作特征数据库
1 手语动作捕捉***
2 微惯导信号处理与分析***
3 手语动作分类器
4 语音信号采集***
5 语音分析***
6 语音文字数据库
7 发声***
8 显示***
9 动画/视频库
具体实施方式
下面,结合附图,详细说明本发明的手语语音双向翻译***的***组成,以及***构建方法。
本发明的手语语音双向翻译***,包括一套基于微惯导传感的手语动作捕捉***1、一套微惯导信号处理与分析***2、一个训练完成的手语动作特征分类器3和一套用来训练手语动作分类器3的手语动作特征数据库0,同时整合了语音文字数据库6、视频/动画数据库9、语音信号采集***4和语音分析***5,还整合了发声***7和显示***8,共同组成完整的手语语音双向翻译***。
其具体连接关系如图1所示:手语动作捕捉***1与微惯导信号处理与分析***2通信连接,手语动作分类器3分别与手语动作特征数据库0、微惯导信号处理与分析***2、语音文字数据库6、视频/动画数据库9、显示***8通信连接,语音文字数据库6还与语音分析***5和视频/动画数据库9通信连接,语音信号采集***4和发声***7分别与语音分析***5通信连接。
本文所述的通信连接是指,通信主体之间可以采用有线或者无线的方式进行数据传输。
下面对其中的几个主要部分作详细描述:
一.手语动作捕捉***
基于微惯导传感的手语动作捕捉***1主要包括主控单元(例如微处理器DSP)、信号滤波和放大单元、AD转换单元以及发送单元,还包括若干个微惯导传感节点,每一个传感节点包含三维加速度传感器和三维陀螺仪,节点覆盖范围包含双手,双臂和头部,节点数目任意可调,以能够准确探测出每个手语动作为宜,优选在10~30之间;各微惯导传感器测量范围是,加速度范围:-5G-+5G,角速度范围:-300度/s-+300度/s;节点与***间的实时通信采用无线或有线方式进行;传感器信息采集速率在100Hz以上,可满足对手语动作状态的实时捕捉。
在使用该***时,还需要进行以下操作步骤:
(1)建立微惯导器件失配误差模拟模型
深入分析微惯导传感器漂移和原始误差,失配误差的产生机制,以及它们对微惯导***性能的影响,进行仿真模拟,建立其失配误差模型,对各种误差进行精确补偿。
(2)高性能6维自由度的uIMU手语动作传感子***设计
在有限体积内集成三维加速度与三维角速度传感单元,并集成多传感器数据的采集和模数转换电路、具有准确时钟***的微控制器时序电路、微***数据存储电路、微***电源***电路、无线传输电路和DSP控制单元。通过完善的电路板级电磁兼容设计,信号完整性设计等消除高频噪声、热噪声、串扰、时钟抖动等误差,提高微型惯性测量单元性能。
(3)建立手语动作误差模型
结合手语动作的规律和时频特性,消除由于人体协同运动(血压、心跳、肌肉和皮肤抖动等)造成的测量误差,完成微惯导传感***的初始对准和标定;实现鲁棒自适应卡尔曼滤波器的手语动作姿态的准确测量;并利用先进数字信号处理算法的鲁棒自适应实时测量误差补偿、干扰信号抑制技术,以提高整个***的性能。
二.微惯导信号处理与分析***
微惯导信号处理与分析***2接收手语动作捕捉***传送来的多路采集的6维8bit微惯导数字信号,采用基于矢量的Kalman滤波器对这些信号进行运算和分析;采用基于主成分分析法(PCA)或者基于频域分析方法(FFT/DCT)的特征提取方法;采用最优搜索法、次优搜索法、模拟退火法和遗传算法,根据可分离性判据来选择可分性最大的特征组。
(1)建立高维多节点运动状态特征矢量并构造相应的运动状态空间。通过对高维空间位姿点运动轨迹的行为分析和运动状态中各参量的约束关系,实现手语动作的特征提取。
离散***的Kalman滤波最早由Rudolph E.Kalman提出,并将其用于处理非平稳时变信号以便在信号处理过程中实现时变估计。工程技术人员通过使用状态空间方法提供的一套实现最小均方误差的Kalman滤波方法,较好的解决了某些维纳滤波无法解决的工程问题。Kalman滤波解决问题的主要特点是:
由于采用了递归技术,因此无需考虑多个过去的输入信号,而在每次递归运算时,只考虑前一个输入信号就可以了。因此,便于用计算机实时处理信号。
在考虑某些问题时,可以用矢量形式表示随机过程多个有关参量。
随机线性离散***的Kalman滤波基本方程:
设随机线性离散***的方程(不考虑控制作用)为
Xk=Φk,k-1Xk-1k.k-1Wk-1
Zk=HkXk+Vk
式中Xk是***的n维状态向量,Zk是***的m维观测序列,Wk是p维***过程噪声序列,Vk是m维观测噪声序列,Φk,k-1是***的n×n维状态转移矩阵,Γk.k-1是n×p维噪声输入矩阵,Hk是m×n维观测矩阵。
关于***过程噪声和观测噪声的统计特性,我们假定如下
E[Wk]=0,E[Vk]=0, E [ W k V j T ] = 0 , E [ W k W j T ] = Q k δ kj , E [ V k V j T ] = R k δ kj
其中Qk是***过程噪声Wk的p×p维对称非负定方差矩阵,Rk是***观测噪声Vk的m×m维对称正定方差阵,而δkj是Kronecker-δ函数。
下面直接给出随机线性离散***基本Kalman滤波方程。
状态一步预测
X ^ k , k - 1 = Φ k , k - 1 X ^ k - 1
状态估计
X ^ k = X ^ k , k - 1 + K k [ Z k - H k X ^ k , k - 1 ]
滤波增益矩阵
K k = P k . k - 1 H k T [ H k P k , k - 1 H k T + R k ] - 1 , K k = P k H k T R k - 1
一步预测误差方差阵
P k . k - 1 = Φ k , k - 1 P k - 1 Φ k , k - 1 T + Γ k . k - 1 Q k - 1 Γ k , k - 1 T
估计误差方差阵
P k = [ I - K k H k ] P k . k - 1 [ I - K k H k ] T + K k R k K k T ,
或Pk=[I-KkHk]Pk.k-1,或
上述式即为随机线性离散***Kalman滤波基本方差。只要给定初值
Figure GSA000000718642000711
和P0,根据k时刻的观测值Zk,就可以递推计算得k时刻的状态估计
Figure GSA000000718642000712
(2)以PCA法说明本发明的手语动作特征提取过程,该法是一种典型的代数特征提取方法,它是对K-L变换后的特征空间进行选择,将K-L变换后的特征值从大到小排列,挑选出相对大的特征值所对应的特征向量,构成一个K-L变换特征空间的子空间,来进行特征提取。K-L变换是信息特征压缩的一种最优正交变换,其实质是建立一个新的特征空间,将数据沿其特征矢量用对齐的方式来旋转变换,这个变换接触了原有数据向量的各个分量之间的相关性,从而有可能去掉那些带有较少信息的坐标系以达到降低特征空间维度的目的。经过以上K-L变换的得到的特征是原手语动作特征向量的正交分解,不损失任何信息。在这个互相正交,可测量的特征空间中进行手语动作的特征提取,可以有效的利用动作之间的差异,提取有效信息。
(3)采用快速傅里叶变换FFT和离散余弦变换DCT进行频域特征提取,其算法公式为统一标准,此处不予敖述。因为人体动作为低频动作,提取特征一般为低频域内特征,一般取前10阶到前15阶作为特征输入。
三.手语动作特征数据库
该数据库0包含多个(例如500条或以上)常用的手语动作,每条手语动作包含多个(例如500个)不同样本的手语动作特征信息,并且信息量可扩充;采集不同身高,不同体型,不同年龄,不同性别,不同动作***台上实现,并且采用离线训练模式。
使用SVM算法训练分类器的基本思想是:对于一定数目的手语动作特征信息样本矢量,将其通过非线性变换映射到另一个高维空间Z中,在变换后的空间里,寻找一个最优的分界面(超平面),使其推广能力最好。具体来说,给定训练样本(X1,Y1),(X2,Y2),...(XL,YL),其中Y∈{-1,1},找到一个非线性变换Z=θ(X),使X成为线性可分,则可以找到权向量W和参数B,满足
WTZi+B>=1,Yi=1;
和WTZi+B<=-1,Yi=-1;
即:Yi(WTZi+B)>=0,i=1,2,...,L
设最优分界面H的方程,则两类中靠近H的点之间距离P可求出,求导使P值最小化。那么得到一个Z空间的二次规划问题,求解该问题,得到分界面H的参数WT 0和B0,即分界面H为已知,对该分界面求反变换,得到一个X空间的分类函数F,这就是分类器。其中分类器的参数可以随着训练样本的增加,而逐渐调整到理想值。
四.可训练的手语动作分类器
(1)采用支持向量机的方法完成对手语数据库的训练
手语动作分类器3对微惯导信号处理与分析***2输出的手语动作特征信息进行分类和识别,分类策略采用“一对一”或者“一对多”。若X为特征信息变量,A,B,C分别指某个动作分类,则“一对一”是指:若X不属于A,则X属于B。“一对多”是指若X不属于A,则X属于B或者C,或者其他类别。采用后一种策略,更容易得到好的识别效果。
假设识别样本有C类,记为S1,S2,...,SC.设计C个SVM分类器Fi(i=1,2,...,C),每一个Fi用其中的一类样本Si作为正样本训练,而其他样本Sj(j不等于i)作为负样本训练。对于正负样本,***输出为+1,-1.测试阶段,将每个测试样本输入到C个分类器里,如果只有一个Fi输出是+1,则该样本判别为第i类。若有P(P>1)个分类器输出是+1,则再利用最近邻分类技术,即计算测试样本和这P个分类器所代表的训练样本之间的距离,将测试样本判别为最小值对应的那个类别。如果所有分类器输出为-1,则将测试样本判定为新样本。
(2)采用隐式马尔科夫模型对数据库进行训练
隐式马尔可夫模型(HMM)是一种用参数表示的用于描述随机过程统计特性的概率模型[1]。它由两部分组成:一部分是隐含的马尔可夫链称为隐含层;另一部分是实际的观测量称为观测层。HMM是一个统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。
在正常的马尔可夫模型中,状态对于观察者来说是直接可见的。这样状态变迁概率便是全部的参数。而在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一概率分布。因此输出符号的序列能够透露出状态序列的一些信息。
隐马尔可夫模型可以有以下描述:
1.N,模型状态数码,一般情况下,状态具有遍历性,即一个状态可由其他任何一个状态到达。模型的状态记为S={S1,S2,......,SN}。
2.M个状态可观察的离散符号数,对过程的物理输出进行矢量量化编码,符号数就是码数大小。符号记为V={V1,V2,......,VM}。
3.AN×N,状态转移概率矩阵。描述了HMM模型中各个状态之间的转移概率。其中
Aij=P(at+1=Sj|qt=Si),1≤i,j≤N.(1)
式(1)表示在t时刻、状态为Si的条件下,在t+1时刻状态是Sj的概率。
4.BN×N,观测符号概率分布矩阵。其中
Bj(k)=P[Vk(t)|qt=Sj];1≤j≤N,1≤k≤M.
表示在t时刻、状态是Sj条件下,观察符号为Vk(t)的概率。
5.πj=P[q1=Sj];1≤j≤N.
表示在出示t=1时刻状态为Sj的概率。
该分类器识别过程在便携式***的DSP单元中进行,能够实时的对传来的特征信息进行分类识别,***时延在0.1秒以下,动作识别正确率在80%以上;由于***需要对识别出的动作信息进行翻译,转化成语音,通过发声***输出,所以分类器还需要与语音库相关联,以便实时查询。
五.其它部分
语音信号采集***和语音分析***用于采集语音信息并进行初步分析,这在现有技术中十分常见,如麦克风等,在此不再赘述。
发声***由立体声或者单声道扬声器及其配套的驱动***组成,负责把语音***传入的语音信号实时转换为人耳可以听到的声音信号。
显示***可由独立LCD或OLED显示***,也可由基于WIFI,ZIGBEE或BLUETOOTH技术实现与翻译***通信的手机(PDA,UMPC)来显示。该***负责把查询到的手语动作三维动画或者真人视频实时显示出来。
语音文字数据库和动画/视频库是建立语音、图像以及文字之间联系的数据库。
下面示例说明本发明的硬件构成:
微惯导传感器节点:
三维加速度传感器,三维陀螺仪(北京大学微电子学院研制),信号滤波和放大模块,ADC,无线(蓝牙)或有线(串口或并口)传送模块;
信息处理中心:
TI 6000 DSP,SUMSUNG 256M bit SDRAM,SUMSUNG 8G FLASH,无线或有线接收模块,ADC
输入输出设备:
SUMSUNG 4.3英寸背光LED屏显示器,0.7W扬声器,YAMAHA扬声器驱动IC,微型麦克风。
采用本发明的手语语音双向翻译***工作流程如下:
                   A  手语翻译成语音
(1)微惯导传感器节点,负责采集手语动作中人体相应点位的三维加速度和三维角速度信息,其具有基本的信号处理功能和无线/有线发送功能;
(2)由多个节点组成的微惯导传感器网络构成的基于微惯导的手语动作捕捉***,负责实时同步采集各个节点的数据,并将其发送到微惯导信号处理和分析***;
(3)微惯导信号处理和分析***通过有线或无线的方式实时接收来自“手语动作捕捉***”产生的多通道同步数据,并把接收到的数据进行平滑和滤波处理,去掉影响判断的噪声和干扰信号,然后以特定的算法进行特征提取,得到实时的手语动作特征信息;
(4)手语动作特征数据库包括500个或以上手语动作的500个不同样本的特征信息,即每个手语动作所对应的三维加速度和三维角速度,动作持续时间等信息;采用手语动作特征数据库结合特定算法训练出用于动作识别的手语动作分类器;
(5)手语动作分类器接收来自微惯导信号处理和分析***提供的实时手语动作特征信息,并对其进行动作识别,得到手语动作相应的含义,将从手语动作翻译得来的分离词语整合成类自然语言,并能通过查询语音数据库实时输出语音信号,驱动发声***发声,完成手语向语音的翻译;
                   B  语音翻译成手语
(1)由麦克风或麦克风阵列组成的语音信号采集***,将把说话者的声音实时记录下来,并进行一系列处理后传递给基于模式识别的语音分析***;
(2)该语音分析***通过模式识别的方法和相关联的语音文字数据库来进行语义的准确分析,并形成可供转换成手语动作的分离词语;
(3)手语动作分类器与视频/动画数据库,语音和文字数据库相关联,根据分离出的词语实时查询包含对应手语动作的视频/动画,并将资料实时提供给显示***,完成语音向手语的翻译。
与现有技术相比,本***具有如下优点:
1)成本低
由于采用uIMU作为传感器和普通的DSP芯片作为信息处理中心,预计整套***的成本将比使用光学运动捕捉的手语翻译***低60%以上。
2)低功耗
微惯导传感器节点的功耗小于20mW,DSP信息处理中心的功耗小于100mW,扬声器和显示屏的功耗稍大,可达到:0.7W和0.3W,以20个节点算,整个***功耗小于等于1.5W。
3)简单便携,适用性强
本发明可做成一副传感器手套或者一件内嵌传感器上衣,使用者只需带上特定手套或者穿上特定上衣就可以使用本***,且该***不受使用环境限制。
4)功能强大
能够实现手语与语音的双向翻译,使聋哑人与正常人的日常交流成为可能。
本实施案例并不限制本发明,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以作出若干改进和变化,这些改进和变化也应视为本发明的保护范围之内。

Claims (10)

1.一种手语语音双向翻译***,其特征在于,所述***包括:基于微惯导传感的手语动作捕捉***(1)、微惯导信号处理与分析***(2)、一训练完整的手语动作特征分类器(3)、用来训练手语动作分类器(3)的手语动作特征数据库(0)、语音文字数据库(6)、视频/动画数据库(9)、语音信号采集***(4)、语音分析***(5)、发声***(7)和显示***(8);其中:所述手语动作捕捉***(1)与所述微惯导信号处理与分析***(2)通信连接,所述手语动作分类器(3)分别与所述手语动作特征数据库(0)、微惯导信号处理与分析***(2)、语音文字数据库(6)、视频/动画数据库(9)、显示***(8)通信连接,所述语音文字数据库(6)还与所述语音分析***(5)和视频/动画数据库(9)通信连接,所述语音信号采集***(4)和发声***(7)分别与所述语音分析***(5)通信连接。
2.如权利要求1所述的手语语音双向翻译***,其特征在于,所述手语动作捕捉***(1)包括主控单元、信号滤波和放大单元、AD转换单元以及发送单元,还包括若干个微惯导传感节点,每一个传感节点包含三维加速度传感器和三维陀螺仪。
3.如权利要求1所述的手语语音双向翻译***,其特征在于,所述手语动作捕捉***(1)还需要进行以下操作步骤:
1)建立微惯导器件失配误差模拟模型;
2)高性能6维自由度的uIMU手语动作传感子***设计;
3)建立手语动作误差模型。
4.如权利要求1所述的手语语音双向翻译***,其特征在于,所述微惯导信号处理与分析***(2)接收手语动作捕捉***(1)传送来的微惯导数字信号,采用特定的滤波算法对这些信号进行运算和分析,并采用特定的特征提取方法和最优搜索法、次优搜索法、模拟退火法、遗传算法,根据可分离性判据来选择可分性最大的特征组。
5.如权利要求4所述的手语语音双向翻译***,其特征在于,所述特定的滤波算法为基于矢量的Kalman滤波法,所述特定的特征提取方法基于主成分分析法(PCA)或者特征频率描述方法包括快速傅里叶变换(FFT)或离散余弦变换(DCT)。
6.如权利要求1所述的手语语音双向翻译***,其特征在于,所述手语动作特征数据库(0)包含多个常用的手语动作,每条手语动作包含多个不同样本的手语动作特征信息,且信息量可扩充;采集不同身高,不同体型,不同年龄,不同性别,不同动作习惯的多组同一手语动作样本,使用BP神经网络算法或SVM算法或基于隐马尔可夫模型(HMM)训练生成手语动作特征分类器,使经这些样本训练而成的分类器拥有较高的动作识别率。
7.如权利要求1所述的手语语音双向翻译***,其特征在于,所述手语动作分类器(3)采用“一对一”或者“一对多”的分类策略。
8.如权利要求1所述的手语语音双向翻译***,其特征在于,所述发声***由立体声或者单声道扬声器及其配套的驱动***组成;所述显示***由独立显示***或由基于WIFI、ZIGBEE、BLUETOOTH技术实现与翻译***通信的手机来实现。
9.采用如权利要求1-8所述的手语语音双向翻译***将手语翻译成语音的方法,具体包括以下步骤:
(1)微惯导传感器节点,负责采集手语动作中人体相应点位的三维加速度和三维角速度信息,其具有基本的信号处理功能和无线/有线发送功能;
(2)由多个节点组成的微惯导传感器网络构成的基于微惯导的手语动作捕捉***,负责实时同步采集各个节点的数据,并将其发送到微惯导信号处理和分析***;
(3)微惯导信号处理和分析***通过有线或无线的方式实时接收来自“手语动作捕捉***”产生的多通道同步数据,并把接收到的数据进行平滑和滤波处理,去掉影响判断的噪声和干扰信号,然后以特定的算法进行特征提取,得到实时的手语动作特征信息;
(4)手语动作特征数据库包括500个或以上手语动作的500个不同样本的特征信息,即每个手语动作所对应的三维加速度和三维角速度,动作持续时间等信息;采用手语动作特征数据库结合特定算法训练出用于动作识别的手语动作分类器;
(5)手语动作分类器接收来自微惯导信号处理和分析***提供的实时手语动作特征信息,并对其进行动作识别,得到手语动作相应的含义,将从手语动作翻译得来的分离词语整合成类自然语言,并能通过查询语音数据库实时输出语音信号,驱动发声***发声,完成手语向语音的翻译。
10.采用如权利要求1-8所述的手语语音双向翻译***将语音翻译成手语的方法,具体包括以下步骤:
(1)由麦克风或麦克风阵列组成的语音信号采集***,将把说话者的声音实时记录下来,并进行一系列处理后传递给基于模式识别的语音分析***;
(2)该语音分析***通过模式识别的方法和相关联的语音文字数据库来进行语义的准确分析,并形成可供转换成手语动作的分离词语;
(3)手语动作分类器与视频/动画数据库,语音和文字数据库相关联,根据分离出的词语实时查询包含对应手语动作的视频/动画,并将资料实时提供给显示***,完成语音向手语的翻译。
CN2010101390124A 2010-04-02 2010-04-02 一种手语语音双向翻译*** Expired - Fee Related CN101794528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101390124A CN101794528B (zh) 2010-04-02 2010-04-02 一种手语语音双向翻译***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101390124A CN101794528B (zh) 2010-04-02 2010-04-02 一种手语语音双向翻译***

Publications (2)

Publication Number Publication Date
CN101794528A true CN101794528A (zh) 2010-08-04
CN101794528B CN101794528B (zh) 2012-03-14

Family

ID=42587197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101390124A Expired - Fee Related CN101794528B (zh) 2010-04-02 2010-04-02 一种手语语音双向翻译***

Country Status (1)

Country Link
CN (1) CN101794528B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567703A (zh) * 2010-12-10 2012-07-11 上海上大海润信息***有限公司 一种基于分类特征的手部动作识别信息处理方法
CN103116576A (zh) * 2013-01-29 2013-05-22 安徽安泰新型包装材料有限公司 一种语音手势交互翻译装置及其控制方法
CN103517029A (zh) * 2012-06-26 2014-01-15 华为技术有限公司 可视通话的数据处理方法、终端和***
CN104104898A (zh) * 2013-04-03 2014-10-15 联想(北京)有限公司 一种数据处理方法、装置和电子设备
CN104951757A (zh) * 2015-06-10 2015-09-30 南京大学 一种基于无线信号的动作检测和识别的方法
CN104980599A (zh) * 2015-06-17 2015-10-14 上海斐讯数据通信技术有限公司 一种手语语音通话方法及***
CN105096696A (zh) * 2015-07-31 2015-11-25 努比亚技术有限公司 一种基于智能手环的手语翻译装置和方法
CN105868282A (zh) * 2016-03-23 2016-08-17 乐视致新电子科技(天津)有限公司 聋哑人进行信息交流的方法、装置及智能终端
CN106295603A (zh) * 2016-08-18 2017-01-04 广东技术师范学院 汉语手语双向翻译***、方法和装置
CN107231289A (zh) * 2017-04-19 2017-10-03 王宏飞 信息交流装置、信息交流***和方法
CN107566863A (zh) * 2016-06-30 2018-01-09 中兴通讯股份有限公司 一种交流信息展示方法、装置及设备、机顶盒
CN107690651A (zh) * 2015-04-16 2018-02-13 罗伯特·博世有限公司 用于自动化手语识别的***和方法
CN107798964A (zh) * 2017-11-24 2018-03-13 郑军 一种实时识别手势的手语智能交互设备及其交互方法
CN107945600A (zh) * 2017-12-07 2018-04-20 李成斌 一种个性化视频学习***及方法
CN108256458A (zh) * 2018-01-04 2018-07-06 东北大学 一种针对聋人自然手语的双向实时翻译***及方法
CN108615009A (zh) * 2018-04-24 2018-10-02 山东师范大学 一种基于动态手势识别的手语翻译交流***
CN109214347A (zh) * 2018-09-19 2019-01-15 北京因时机器人科技有限公司 一种跨语种的手语翻译方法、装置和移动设备
CN109271901A (zh) * 2018-08-31 2019-01-25 武汉大学 一种基于多源信息融合的手语识别方法
CN109919127A (zh) * 2019-03-20 2019-06-21 邱洵 一种哑语语言转换***
CN110286774A (zh) * 2019-07-03 2019-09-27 中国科学技术大学 一种基于手腕运动传感器的手语识别方法
WO2019214456A1 (zh) * 2018-05-11 2019-11-14 深圳双猴科技有限公司 一种肢体语言翻译***、方法及服务器
CN110730360A (zh) * 2019-10-25 2020-01-24 北京达佳互联信息技术有限公司 视频上传、播放的方法、装置、客户端设备及存储介质
CN110826441A (zh) * 2019-10-25 2020-02-21 深圳追一科技有限公司 交互方法、装置、终端设备及存储介质
CN111428802A (zh) * 2020-03-31 2020-07-17 上海市计量测试技术研究院 一种基于支持向量机的手语翻译方法
CN113780013A (zh) * 2021-07-30 2021-12-10 阿里巴巴(中国)有限公司 一种翻译方法、设备和可读介质
CN113793533A (zh) * 2021-08-30 2021-12-14 武汉理工大学 一种基于车辆前方障碍物识别的碰撞预警方法及其装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020088290A (ko) * 2001-05-21 2002-11-27 (주)애드임팩트 가상현실용 장갑을 이용한 수화 자동번역장치
CN1506871A (zh) * 2002-12-06 2004-06-23 徐晓毅 一种手语翻译***
KR100747114B1 (ko) * 2006-03-29 2007-08-09 한국과학기술원 수화 번역기
CN201035501Y (zh) * 2006-10-10 2008-03-12 刘向东 智能同步手语翻译***
CN101430603A (zh) * 2008-11-26 2009-05-13 东北大学 一种便携实用型手语识别发声装置
CN101539994A (zh) * 2009-04-16 2009-09-23 西安交通大学 一种手语语音互译***及手语语音互译方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020088290A (ko) * 2001-05-21 2002-11-27 (주)애드임팩트 가상현실용 장갑을 이용한 수화 자동번역장치
CN1506871A (zh) * 2002-12-06 2004-06-23 徐晓毅 一种手语翻译***
KR100747114B1 (ko) * 2006-03-29 2007-08-09 한국과학기술원 수화 번역기
CN201035501Y (zh) * 2006-10-10 2008-03-12 刘向东 智能同步手语翻译***
CN101430603A (zh) * 2008-11-26 2009-05-13 东北大学 一种便携实用型手语识别发声装置
CN101539994A (zh) * 2009-04-16 2009-09-23 西安交通大学 一种手语语音互译***及手语语音互译方法

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567703B (zh) * 2010-12-10 2014-04-09 上海上大海润信息***有限公司 一种基于分类特征的手部动作识别信息处理方法
CN102567703A (zh) * 2010-12-10 2012-07-11 上海上大海润信息***有限公司 一种基于分类特征的手部动作识别信息处理方法
CN103517029A (zh) * 2012-06-26 2014-01-15 华为技术有限公司 可视通话的数据处理方法、终端和***
CN103116576A (zh) * 2013-01-29 2013-05-22 安徽安泰新型包装材料有限公司 一种语音手势交互翻译装置及其控制方法
CN104104898A (zh) * 2013-04-03 2014-10-15 联想(北京)有限公司 一种数据处理方法、装置和电子设备
CN107690651A (zh) * 2015-04-16 2018-02-13 罗伯特·博世有限公司 用于自动化手语识别的***和方法
CN104951757A (zh) * 2015-06-10 2015-09-30 南京大学 一种基于无线信号的动作检测和识别的方法
CN104951757B (zh) * 2015-06-10 2018-11-09 南京大学 一种基于无线信号的动作检测和识别的方法
CN104980599A (zh) * 2015-06-17 2015-10-14 上海斐讯数据通信技术有限公司 一种手语语音通话方法及***
CN105096696A (zh) * 2015-07-31 2015-11-25 努比亚技术有限公司 一种基于智能手环的手语翻译装置和方法
CN105868282A (zh) * 2016-03-23 2016-08-17 乐视致新电子科技(天津)有限公司 聋哑人进行信息交流的方法、装置及智能终端
WO2017161741A1 (zh) * 2016-03-23 2017-09-28 乐视控股(北京)有限公司 聋哑人进行信息交流的方法、装置及智能终端
CN107566863A (zh) * 2016-06-30 2018-01-09 中兴通讯股份有限公司 一种交流信息展示方法、装置及设备、机顶盒
CN106295603A (zh) * 2016-08-18 2017-01-04 广东技术师范学院 汉语手语双向翻译***、方法和装置
CN107231289A (zh) * 2017-04-19 2017-10-03 王宏飞 信息交流装置、信息交流***和方法
CN107798964A (zh) * 2017-11-24 2018-03-13 郑军 一种实时识别手势的手语智能交互设备及其交互方法
CN107945600A (zh) * 2017-12-07 2018-04-20 李成斌 一种个性化视频学习***及方法
CN108256458A (zh) * 2018-01-04 2018-07-06 东北大学 一种针对聋人自然手语的双向实时翻译***及方法
CN108256458B (zh) * 2018-01-04 2020-08-04 东北大学 一种针对聋人自然手语的双向实时翻译***及方法
CN108615009B (zh) * 2018-04-24 2019-07-23 山东师范大学 一种基于动态手势识别的手语翻译交流***
CN108615009A (zh) * 2018-04-24 2018-10-02 山东师范大学 一种基于动态手势识别的手语翻译交流***
WO2019214456A1 (zh) * 2018-05-11 2019-11-14 深圳双猴科技有限公司 一种肢体语言翻译***、方法及服务器
CN109271901A (zh) * 2018-08-31 2019-01-25 武汉大学 一种基于多源信息融合的手语识别方法
CN109214347A (zh) * 2018-09-19 2019-01-15 北京因时机器人科技有限公司 一种跨语种的手语翻译方法、装置和移动设备
CN109919127A (zh) * 2019-03-20 2019-06-21 邱洵 一种哑语语言转换***
CN109919127B (zh) * 2019-03-20 2021-12-17 胡海明 一种哑语语言转换***
CN110286774A (zh) * 2019-07-03 2019-09-27 中国科学技术大学 一种基于手腕运动传感器的手语识别方法
CN110826441A (zh) * 2019-10-25 2020-02-21 深圳追一科技有限公司 交互方法、装置、终端设备及存储介质
CN110730360A (zh) * 2019-10-25 2020-01-24 北京达佳互联信息技术有限公司 视频上传、播放的方法、装置、客户端设备及存储介质
CN110826441B (zh) * 2019-10-25 2022-10-28 深圳追一科技有限公司 交互方法、装置、终端设备及存储介质
CN111428802A (zh) * 2020-03-31 2020-07-17 上海市计量测试技术研究院 一种基于支持向量机的手语翻译方法
CN111428802B (zh) * 2020-03-31 2023-02-07 上海市计量测试技术研究院 一种基于支持向量机的手语翻译方法
CN113780013A (zh) * 2021-07-30 2021-12-10 阿里巴巴(中国)有限公司 一种翻译方法、设备和可读介质
CN113793533A (zh) * 2021-08-30 2021-12-14 武汉理工大学 一种基于车辆前方障碍物识别的碰撞预警方法及其装置

Also Published As

Publication number Publication date
CN101794528B (zh) 2012-03-14

Similar Documents

Publication Publication Date Title
CN101794528B (zh) 一种手语语音双向翻译***
Hou et al. Signspeaker: A real-time, high-precision smartwatch-based sign language translator
Fang et al. Learning transportation modes from smartphone sensors based on deep neural network
Hussain et al. User independent hand gesture recognition by accelerated DTW
Nakano et al. Effect of dynamic feature for human activity recognition using smartphone sensors
WO2015066348A2 (en) Method and system for estimating multiple modes of motion
Zhang et al. Human activity recognition based on time series analysis using U-Net
CN111399642A (zh) 手势的识别方法、装置、移动终端和存储介质
CN108877809A (zh) 一种说话人语音识别方法及装置
CN108629170A (zh) 身份识别方法以及相应的装置、移动终端
Liu et al. Accelerometer Based Joint Step Detection and Adaptive Step Length Estimation Algorithm Using Handheld Devices.
Wang et al. A2dio: Attention-driven deep inertial odometry for pedestrian localization based on 6d imu
CN109766798A (zh) 基于经验小波的手势数据处理方法、服务器及感知设备
CN109086667A (zh) 基于智能终端的相似活动识别方法
Sideridis et al. Gesturekeeper: Gesture recognition for controlling devices in iot environments
Golroudbari et al. End-to-end deep learning framework for real-time inertial attitude estimation using 6dof imu
CN109766951A (zh) 一种基于时频统计特性的WiFi手势识别
CN109597031A (zh) 一种基于svm和步行者航位推算融合的室内定位方法
Yin et al. A Systematic Review of Human Activity Recognition Based On Mobile Devices: Overview, Progress and Trends
CN101819635A (zh) 一种基于微惯导信号和模式识别的手语翻译方法
Swee et al. Malay sign language gesture recognition system
Wang Data feature extraction method of wearable sensor based on convolutional neural network
Ling et al. Unsupervised human activity segmentation applying smartphone sensor for healthcare
Atashi et al. Online Dynamic Window (ODW) Assisted two-stage LSTM frameworks for indoor localization
CN104021295A (zh) 用于运动识别的聚类特征融合方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160311

Address after: 214121 Wuxi base, Peking University, No. 5, No. 1 road, Binhu District, Jiangsu, Wuxi

Patentee after: Wuxi Produces Study Grinds Cooperation Education Base of Peking University Software & Microelectronic College

Patentee after: Jacal Electronic (Wuxi) Co., Ltd.

Address before: 214121 Wuxi base, Peking University, No. 5, No. 1 road, Binhu District, Jiangsu, Wuxi

Patentee before: Wuxi Produces Study Grinds Cooperation Education Base of Peking University Software & Microelectronic College

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120314

Termination date: 20190402