CN104217218A

CN104217218A - 一种唇语识别方法及***

Info

Publication number: CN104217218A
Application number: CN201410462392.3A
Authority: CN
Inventors: 王冠华; 伍楷舜; 倪明选
Original assignee: Guangzhou HKUST Fok Ying Tung Research Institute
Current assignee: Guangzhou HKUST Fok Ying Tung Research Institute
Priority date: 2014-09-11
Filing date: 2014-09-11
Publication date: 2014-12-17
Anticipated expiration: 2034-09-11
Also published as: CN104217218B

Abstract

本发明公开了一种唇语识别方法，包括：定向发射无线信号，使所述无线信号覆盖用户面部；接收用户面部反射的无线信号，并对所述反射的无线信号进行过滤，获得用户嘴部运动时的嘴部反射信号；对所述嘴部反射信号进行分段，获得分段信号，并提取所述分段信号的波形特征图；所述分段信号为每发出一个语音事件的反射信号；比较所述分段信号的波形特征图与预先采样的所有嘴部运动特征图的相似度，读取相似度最高的嘴部运动特征图所对应的语音事件。相应的，本发明实施例还提供一种唇语识别***。采用本发明实施例，能够通过无线信号探测用户嘴部运动来实现唇语识别，提高识别效率和准确率。

Description

一种唇语识别方法及***

技术领域

本发明涉及移动通信技术领域，尤其涉及一种唇语识别方法及***。

背景技术

无线探测识别的应用提高到一个新的水平，包括运动检测、手势识别、定位、材料分类等。通过检测和分析信号的反射，无线探测识别***可以发现穿墙运动和识别人的手势，甚至可以检测和定位人体中的肿瘤。

但是，在现有技术中，对用户说话的识别，只是通过声学传感器或摄像装置来实现。采用这种方法的***布置代价很高，并且具有限的传感和通信范围。此外，采用声学传感器或摄像装置的***对于检测会有延迟，因为传感器必须先录制声音，摄像装置必须先拍摄图片，再进行处理，然后才会发送到接收器。同时，采用声学传感器的***不能在太嘈杂的环境中解码。

发明内容

本发明实施例提出一种唇语识别方法及***，能够通过无线信号探测用户嘴部运动来实现唇语的识别，提高识别效率和准确率。

本发明实施例提供一种唇语识别方法，包括：

定向发射无线信号，使所述无线信号覆盖用户面部；

接收用户面部反射的无线信号，并对所述反射的无线信号进行过滤，获得用户嘴部运动时的嘴部反射信号；

对所述嘴部反射信号进行分段，获得分段信号，并提取所述分段信号的波形特征图；所述分段信号为每发出一个语音事件的反射信号；

比较所述分段信号的波形特征图与预先采样的所有嘴部运动特征图的相似度，读取相似度最高的嘴部运动特征图所对应的语音事件；所述嘴部运动特征图为发出一个语音事件时的无线信号波形特征图。

进一步地，所述定向发射无线信号，使所述无线信号覆盖用户面部，具体包括：

匀速旋转无线信号，记录所述无线信号变换程度最大的时间点；

根据所述无线信号匀速旋转的角速度和所述时间点，计算所述无线信号定向发射的角度；

根据所述角度定向发射无线信号，使所述无线信号覆盖用户面部。

进一步地，所述接收用户面部反射的无线信号，并对所述反射的无线信号进行过滤，获得用户嘴部运动时的嘴部反射信号，具体包括：

接收用户面部反射的无线信号，并采用巴特沃斯滤波器，对所述反射的无线信号进行过滤，获得滤波信号；

设置延迟阈值，去除延迟时间大于所述延迟阈值的滤波信号，获得用户嘴部运动时的嘴部反射信号。

进一步地，所述设置延迟阈值，去除延迟时间大于所述延迟阈值的滤波信号，获得用户嘴部运动时的嘴部反射信号，具体包括：

对所述滤波信号的信道状态信息CSI进行快速傅里叶逆变换，获得滤波信号的时域CSI；

设置延迟阈值，去除时域CSI大于所述延迟阈值的滤波信号，获得具有时域CSI的嘴部反射信号；

对所述嘴部反射信号的时域CSI进行快速傅里叶变换，获得用户嘴部运动时的嘴部反射信号。

进一步地，所述对所述嘴部反射信号进行分段，获得分段信号，并提取所述分段信号的波形特征图，具体包括：

采用小波变换算法，对所述嘴部反射信号进行分段，获得分段信号；

在所述分段信号的CSI中，选取每个时间段信号强度变化最大的子载波，并将每个时间段选取的子载波拼接起来，获得所述分段信号的波形特征图；所述CSI具有30个子载波。

进一步地，所述比较所述分段信号的波形特征图与预先采样的所有嘴部运动特征图的相似度，读取相似度最高的嘴部运动特征图所对应的语音事件，具体包括：

根据最小二乘法算法，比较所述分段信号的波形特征图与预先采样的所有嘴部运动特征图的相似度，读取相似度最高的嘴部运动特征图所对应的语音事件。

相应地，本发明实施例还提供一种唇语识别***，包括发射端和接收端；所述接收端包括信号过滤模块、特征提取模块和特征对比模块；

所述发射端用于定向发射无线信号，使所述无线信号覆盖用户面部；

所述信号过滤模块用于接收用户面部反射的无线信号，并对所述反射的无线信号进行过滤，获得用户说话时嘴部的反射信号；

所述特征提取模块用于对所述嘴部反射信号进行分段，获得分段信号，并提取分段信号的波形特征图；所述分段信号为每发出一个语音事件的反射信号；

所述特征对比模块用于比较所述分段信号的波形特征图与预先采样的所有嘴部运动特征图的相似度，读取相似度最高的嘴部运动特征图所对应的语音事件；所述嘴部运动特征图为用户发出一个语音事件时的无线信号波形特征图。

实施本发明实施例，具有如下有益效果：

本发明实施例提供的唇语识别方法及***能够通过无线信号探测用户嘴部运动来提取嘴部反射信号的波形特征图，并将波形特征图与预先采样的嘴部运动特征图进行对比，从而实现唇语的识别，提高识别效率和准确率；无需部署额外的装置，成本低廉，而且，在具有噪音的环境下，仍可准确进行唇语识别；定向发射无线信号，使无线信号覆盖用户面部，以减少不相关的多径效应，提高探测信号的精度；提取嘴部反射信号的波形特征图，选取每段时间内信号强度变化最大的子载波作为特征图，降低计算复杂度，提高识别效率；由于相同用户具有相同语速，从而对每个用户均建立嘴部运动特征图档案，在对用户的唇语进行识别时，直接与其嘴部运动特征图档案进行对比，提高唇语识别的准确率；采用上下文相关的纠错技术，对已识别的唇语进行验证，进一步提高唇语识别的准确率。

附图说明

图1是本发明提供的唇语识别方法的一个实施例的流程示意图；

图2是本发明提供的唇语识别方法中步骤S1的一个实施例的流程示意图；

图3是本发明提供的唇语识别方法中步骤S2的一个实施例的流程示意图；

图4是图2所示实施例中的步骤S22的一个实施例的流程示意图；

图5是本发明提供的唇语识别方法中步骤S3的一个实施例的流程示意图；

图6是本发明提供的唇语识别***的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明提供的唇语识别方法的一个实施例的流程示意图，包括：

S1、定向发射无线信号，使所述无线信号覆盖用户面部；

S2、接收用户面部反射的无线信号，并对所述反射的无线信号进行过滤，获得用户嘴部运动时的嘴部反射信号；

S3、对所述嘴部反射信号进行分段，获得分段信号，并提取所述分段信号的波形特征图；所述分段信号为每发出一个语音事件的反射信号；

S4、比较所述分段信号的波形特征图与预先采样的所有嘴部运动特征图的相似度，读取相似度最高的嘴部运动特征图所对应的语音事件；所述嘴部运动特征图为发出一个语音事件时的无线信号波形特征图。

在一个优选地实施方式中，如图2所示，所述步骤S1具体包括：

S11、匀速旋转无线信号，记录所述无线信号变换程度最大的时间点；

S12、根据所述无线信号匀速旋转的角速度和所述时间点，计算所述无线信号定向发射的角度；

S13、根据所述角度定向发射无线信号，使所述无线信号覆盖用户面部。

在另一个优选地实施方式中，所述步骤S1具体包括：

S111、发射端保持无线信号发射的垂直方向仰角不变，在水平方向匀速360度旋转无线信号；

S112、接收端记录无线信号在水平方向变换程度最大的第一时间点，并将第一时间点反馈给发射端；

S113、发射端根据水平方向匀速旋转的角速度和第一时间点，调整无线信号的水平方向角度；

S114、发射端固定水平方向角速度，在垂直方向匀速360度旋转无线信号；

S115、接收端记录无线信号在垂直方向变换程度最大的第二时间点，并将第二时间点反馈给发射端；

S116、发射端根据无线信号垂直方向匀速旋转的角速度和第二时间点，调整无线信号的垂直方向角度；

S117、根据水平方向角度和垂直方向角度，定向发射无线信号，使无线信号覆盖用户面部。

在又一个实施方式中，定向发射无线信号的角度通过用户在固定位置重复预定义已知的语音事件来实现。例如，用户每秒发出一个“啊”的音，发射端匀速旋转无线信号，接收端检测接收到的波形，并将接收到的波形与预先采样的“啊”音所对应的波形特征图进行对比，找到与“啊”音对应的波形特征图相似度最高、波形最匹配的时间点。根据时间点和无线信号旋转角速度，计算出无线信号定向发射角度。

需要说明的是，发射端用无线信号对周围环境进行360度扫描，其扫描过程是通过将发射端安装在步进电机上旋转来实现的。接收端通过感知信号变换程度，记录信号变换程度最大的时间点。其中，发射端可从同一位置开始多次重复扫描过程，接收端记录多次的时间点，然后通过分析和排除偶然误差，将正确的时间点反馈给发射端。发射端根据反馈的时间点调整定向发射无线信号的角度。接收端还可以在后续信号分析匹配过程中，进一步向发射端反馈更精准的时间点信息，以改进无线信号的发射方向。

采用定向发射无线信号的方式，使无线信号覆盖用户面部，以减少不相关的多径效应，提高探测信号的精度。

进一步地，如图3所示，所述步骤S2具体包括：

S21、接收用户面部反射的无线信号，并采用巴特沃斯滤波器，对所述反射的无线信号进行过滤，获得滤波信号。

采用3阶巴特沃斯带通滤波器，并设置巴特沃斯带通滤波器具有通带内最大平坦的频率响应，以确保在目标频率范围内的信号的保真度，同时消除带外噪声。通过巴特沃斯带通滤波器，保留嘴部运动对信号的干扰信息，滤除其他频段的信息。

S22、设置延迟阈值，去除延迟时间大于所述延迟阈值的滤波信号，获得用户嘴部运动时的嘴部反射信号。

无线信号从发射端发出，会沿着不同路径反射，即多径反射，最终到达接收端。而由于嘴部运动，如舌头、嘴唇和下颚的运动，是非刚性的，一组多径反射可能反映嘴部不同部分的运动信息。因此，设置延迟阈值，去除延迟时间超过延迟阈值的多径分量(通常来自周围静态环境的反射)。其中，延迟阈值是根据经验选择并基于嘴部运动特征图的分类过程来进行调整的。由于典型的室内信道的最大额外时延通常小于500纳秒，因此，通常设置延迟阈值为500纳秒。

进一步地，如图4所示，所述步骤S22具体包括：

S221、对所述滤波信号的信道状态信息CSI进行快速傅里叶逆变换，获得滤波信号的时域CSI；

S222、设置延迟阈值，去除时域CSI大于所述延迟阈值的滤波信号，获得具有时域CSI的嘴部反射信号；

S223、对所述嘴部反射信号的时域CSI进行快速傅里叶变换，获得用户嘴部运动时的嘴部反射信号。

CSI(Channel State Information，信道状态信息)表示各个子载波的细粒度的信道频率响应。根据CSI在时域中的功率延迟分布来对滤波信号进行进一步的过滤。先对滤波信号的频域CSI进行快速傅里叶逆变换，将频域CSI转换为CSI在时域中的功率延迟分布。然后，设置延迟阈值，去除延迟时间大于延迟阈值的多径分量。最后，通过快速傅里叶变换，将保留的多径分量的时域CSI转换回频域CSI，从而获得嘴部反射信号。

进一步地，如图5所示，所述步骤S3具体包括：

S31、采用小波变换算法，对所述嘴部反射信号进行分段，获得分段信号；

S32、在所述分段信号的CSI中，选取每个时间段信号强度变化最大的子载波，并将每个时间段选取的子载波拼接起来，获得所述分段信号的波形特征图；所述CSI具有30个子载波。

在每个时间段内，分段信号CSI均具有30个子载波，即分段信号CSI在每个时间段均具有30组数据，每组数据表示一个子载波的信号幅度和相位信息。选取30个子载波中信号强度(波形峰峰值)变化最大的子载波，并舍弃该时间段内其余29个子载波。将变化最大的子载波作为该时间段的单一代表值，并将每个时间段选取的单一代表值拼接起来，形成分段信号整个时间内的信号变换值，该信号变换值即为分段信号的波形特征图。在每段时间内，选取信号强度变化最大的子载波来进行后续处理，简化了计算，并提高了效率。

进一步地，所述步骤S4具体包括：

需要说明的是，对于同一个用户，其语速有相似的节奏模式。预先采样该用户的嘴部运动特征图，从而根据广义最小二乘法算法，直接比较分段信号的波形特征图与预先采样的所有嘴部运动特征图的相似度，获得相似度最高的嘴部运动特征图。读取相似度最高的嘴部运动特征图对应的语音事件，即可完成该用户唇语的识别。

进一步地，在所述步骤S2之前，还包括：

采样用户发出已知的语音事件时无线信号的波形特征图，获得所述已知语音事件对应的嘴部运动特征图；

将所述嘴部运动特征图进行归类，使具有相同读音的已知语音事件所对应的嘴部运动特征图为一类。

在对用户进行唇语识别之前，需先对用户的嘴部运动特征图进行采样，对不同用户建立不同的嘴部运动特征档案。嘴部运动特征图的采样方法与上述分段信号的波形特征图的获得方法相同，这里不再详细描述。

对于发音不同的语音事件，嘴部运动不同，对无线信号波形的影响也不同。但对于发音相同的语音事件，嘴部运动基本相同，对无线信号波形的影响也相同，因此，将对无线信号波形的影响相同的嘴部运动特征图归为一类。

由于用户发出的每个语音事件之间是相关的，在完成对唇语的识别后，通过使用上下文的纠错技术，对识别的唇语进行验证，减少同类别嘴部运动特征图的识别错误，进一步提高唇语识别的准确率。

优选地，所述语音事件为音节或单词。

在预先采样用户的嘴部运动特征图时，可对用户发出一个音节的嘴部运动特征图进行采样，也可对用户发出一个单词的嘴部运动特征图进行采样。相应的，在对嘴部反射信号进行分段时，可采用词内分段或词间分段的方法。若采用词内分段的方法，则将一个单词分为多个音节，通过音节的组合来识别该单词。若采用词间分段的方法，由于通常人在连续发出两个单词之间有较短的间隔时间(如300毫秒)，通过检测无声的间隔区间将单词区分开来。

参见图6，是本发明提供的一种唇语识别***的一个实施例的结构示意图，包括发射端101和接收端102；所述接收端102包括信号过滤模块103、特征提取模块104和特征对比模块105；

所述发射端101用于定向发射无线信号，使所述无线信号覆盖用户面部；

所述信号过滤模块103用于接收用户面部反射的无线信号，并对所述反射的无线信号进行过滤，获得用户说话时嘴部的反射信号；

所述特征提取模块104用于对所述嘴部反射信号进行分段，获得分段信号，并提取分段信号的波形特征图；所述分段信号为每发出一个语音事件的反射信号；

所述特征对比模块105用于比较所述分段信号的波形特征图与预先采样的所有嘴部运动特征图的相似度，读取相似度最高的嘴部运动特征图所对应的语音事件；所述嘴部运动特征图为用户发出一个语音事件时的无线信号波形特征图。

其中，发射端101采用定向天线或具有束波功能，从而保证无线信号的定向发射。在接收反射的无线信号时，可使用多个接收端102，部署在不同的角度，从而提高识别的精度。

优选地，所述语音事件为音节或单词。

需要说明的是，本发明实施例仅以一个用户的唇语识别为例进行描述，但在具体实施当中，还可对多个用户同时进行唇语识别。

在识别前，先对多个用户分别进行采样，建立用户对应的嘴部运动特征图档案。识别过程中，发射端发射不同的无线信号，使每个无线信号定位不同的用户。接收端采用MIMO(Multiple-Input Multiple-Output，多输入多输出)技术，同时解码多个用户的嘴部运动。在对多个用户进行唇语识别时，采用之字形消除(Zigzag cancelation)来实现同时识别技术。例如，同时对两个用户唇语进行识别时，先识别第一用户的第一语音事件，当第一用户的第二语音事件与第二用户的第一语音事件同时发生时，消除第一用户的第二语音事件，而根据第一用户的第一语音事件来预测其第二语音事件，同时，识别出第二用户的第一语音事件。重复这一过程，从而实现对多个用户的唇语识别，无需部署额外的设备。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种唇语识别方法，其特征在于，包括：

定向发射无线信号，使所述无线信号覆盖用户面部；

2.如权利要求1所述的唇语识别方法，其特征在于，所述定向发射无线信号，使所述无线信号覆盖用户面部，具体包括：

根据所述无线信号旋转的角速度和所述时间点，计算所述无线信号定向发射的角度；

3.如权利要求1所述的唇语识别方法，其特征在于，所述接收用户面部反射的无线信号，并对所述反射的无线信号进行过滤，获得用户嘴部运动时的嘴部反射信号，具体包括：

4.如权利要求3所述的唇语识别方法，其特征在于，所述设置延迟阈值，去除延迟时间大于所述延迟阈值的滤波信号，获得用户嘴部运动时的嘴部反射信号，具体包括：

5.如权利要求1所述的唇语识别方法，其特征在于，所述对所述嘴部反射信号进行分段，获得分段信号，并提取所述分段信号的波形特征图，具体包括：

6.如权利要求1所述的唇语识别方法，其特征在于，所述比较所述分段信号的波形特征图与预先采样的所有嘴部运动特征图的相似度，读取相似度最高的嘴部运动特征图所对应的语音事件，具体包括：

7.如权利要求1所述的唇语识别方法，其特征在于，在所述接收用户面部反射的无线信号，并对所述反射的无线信号进行过滤，获得用户嘴部运动时的嘴部反射信号之前，还包括：

将所述嘴部运动特征图进行归类，使具有相同发音的已知语音事件所对应的嘴部运动特征图为一类。

8.如权利要求1至7任一项所述的唇语识别方法，其特征在于，所述语音事件为音节或单词。

9.一种唇语识别***，其特征在于，包括发射端和接收端；所述接收端包括信号过滤模块、特征提取模块和特征对比模块；

10.如权利要求9所述的唇语识别***，其特征在于，所述语音事件为音节或单词。