WO2020206579A1

WO2020206579A1 - 一种基于脸部振动的智能设备输入方法

Info

Publication number: WO2020206579A1
Application number: PCT/CN2019/081676
Authority: WO
Inventors: 伍楷舜; 关茂柠
Original assignee: 深圳大学
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2020-10-15
Also published as: US11662610B2; US20210233533A1

Abstract

一种基于脸部振动的智能设备输入方法，该方法包括采集用户进行语音输入时所产生的脸部振动信号；从所述脸部振动信号中提取梅尔频率倒谱系数；将所述梅尔频率倒谱系数作为观测序列，利用经训练的隐马尔可夫模型获得脸部振动信号对应的文本输入。所述输入方法解决了智能设备由于屏幕太小或由于用户双手占用而导致的打字难问题，并且避免了受重放攻击和模仿攻击的影响。

Description

一种基于脸部振动的智能设备输入方法

技术领域

本发明涉及文本输入领域，尤其涉及一种基于脸部振动的智能设备输入方法。

背景技术

传统的智能设备输入方法是通过键盘进行打字输入或语音识别输入，但随着可穿戴设备的发展，这种方法的局限性逐渐显现。例如，智能手表输入方法是利用触摸屏上的虚拟键盘来进行打字输入，但是由于智能手表的屏幕太小，用户很难进行打字输入，又如，当用户带着手套的时候，也不能进行打字输入。

目前，存在利用手指跟踪进行手写输入的方式，这样用户只需要用手指在空气中画出想要输入的数字或字母即可进行手写输入，但是这种输入方法太慢，而且当用户手上拿着东西的时候，这种手写输入的方式并不适用。还存在的一种方式是，将带着手表的那只手的指关节映射成一个九宫格虚拟键盘，同时使用大拇指来进行敲击打字输入，然而，当用户带着手表的那只手也拿着东西的时候，这种输入方式也不适用。而传统的语音识别技术容易受环境噪声的影响，同时也容易受到重放攻击和模仿攻击。

因此，需要对现有技术进行改进，以提供更精确、有效的文本输入方法。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种基于脸部振动的智能设备输入方法。

根据本发明的第一方面，提供了一种基于脸部振动的智能设备输入方法，包括以下步骤：

步骤S1：采集用户进行语音输入时所产生的脸部振动信号；

步骤S2：从所述脸部振动信号中提取梅尔频率倒谱系数；

步骤S3：将所述梅尔频率倒谱系数作为观测序列，利用经训练的隐马尔可夫模型获得脸部振动信号对应的文本输入。

在一个实施例中，在步骤S1中，通过设置于眼镜上的振动传感器采集所述脸部振动信号。

在一个实施例中，在步骤S2中，对于一个振动信号进行以下处理：将采集到的所述脸部振动信号进行放大；将放大后的脸部振动信号经由无线模块发送至所述智能设备；所述智能设备从接收到的脸部振动信号中截取一段作为有效部分并从所述有效部分提取梅尔频率倒谱系数。

在一个实施例中，从脸部振动信号截取有效部分包括：

基于所述脸部振动信号的短时能量标准差σ设置第一切断门限和第二切断门限，其中，第一切断门限是TL＝u+σ，第二切断门限是TH＝u+3σ，u是背景噪声的平均能量；

从所述脸部振动信号中找出短时能量最大的一帧信号且该帧信号的能量高于所述第二切断门限；

从该帧信号的前序帧和后序帧，分别找出能量低于所述第一切断门限并且在时序上与该帧信号最近的帧，将获得的前序帧位置作为起点，将获得的后续帧位置作为终点，截取起点和终点之间的部分作为所述脸部振动信号的有效部分。

在一个实施例中，从脸部振动信号截取有效部分还包括：对于一个振动信号，设置信号峰之间的最大间隔门限maxInter和最小长度门限minLen；若该振动信号的两个信号峰之间的间隔小于所述最大间隔门限maxInter，则将该两个信号峰作为该振动信号的一个信号峰；若该振动信号的一个信号峰的长度小于所述最小长度门限minLen，则舍弃该信号峰。

在一个实施例中，训练隐马尔可夫模型包括：

对所述智能设备的每个输入按键类型生成一个对应的隐马尔可夫模型，获得多个隐马尔可夫模型；

为每个隐马尔可夫模型构建相应的训练样本集，其中所述训练样本集中的每个观测序列由一个脸部振动信号的梅尔频率倒谱系数构成；

评估出最有可能产生观测序列所代表的读音的隐马尔可夫模型作为所述经训练的隐马尔可夫模型。

在一个实施例中，步骤S3还包括：利用维特比算法计算测试样本对于所述多个隐马尔可夫模型的输出概率；基于所述输出概率显示该测试样本对应的按键类型和可选按键类型。

在一个实施例中，步骤S3还包括：根据用户所选择的按键情况判断分类结果是否正确；将分类结果正确的测试样本加入所述训练样本集中，对应的分类标签是该分类结果；将分类结果错误的测试样本加入到所述训练样本集中，对应的分类标签是根据用户的选择所确定的类别。

与现有技术相比，本发明的优点在于：利用人说话时产生的脸部振动信号来进行智能设备的文本输入，解决了智能设备由于屏幕太小或由于用户双手占用而导致的打字难问题；同时，基于脸部振动信号进行文本输入，避免了周围环境噪声的影响，也避免了受重放攻击和模仿攻击的影响；此外，本发明还提出了一种实时校正和自适应机制用于校正错误的识别结果和更新训练样本集，提高了输入文本的识别精度和鲁棒性。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1示出了根据本发明一个实施例的基于脸部振动的智能设备输入方法的流程图；

图2示出了根据本发明一个实施例的基于脸部振动的智能手表输入方法的原理示意图；

图3示出了根据本发明一个实施例的基于脸部振动的智能手表输入方法的信号感知设备；

图4示出了根据本发明一个实施例的信号放大器的电路原理图；

图5示出了根据本发明一个实施例的一段振动信号的示意图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

在本文示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

为了便于本领域技术人员的理解，下面结合附图和实例对本发明作进一步的描述。

根据本发明的一个实施例，提供了一种基于脸部振动的智能设备输入方法，简言之，该方法包括采集用户说话时产生的脸部振动信号；从振动信号中提取能够反映信号特征的梅尔频率倒谱(MFCC)系数；以梅尔频率倒谱系数作为观测序列，利用预先生成的隐马尔可夫模型(HMM)获得用户期望的文本输入，其中，预先生成的隐马尔可夫模型是以已知的梅尔频率倒谱系数和对应的按键类型作为训练样本集通过训练获得。本发明实施例的输入方法可应用于可穿戴设备或其他类型的智能设备。在下文，将以智能手表为例进行说明。

参见图1所示，本发明实施例的基于脸部振动的智能设备输入方法包括以下步骤：

步骤S110，采集用户说话时产生的脸部振动信号。

在此步骤中，针对语音输入方式，采集用户说话时产生的脸部振动信号。

图2示意了智能手表的输入方法原理，当用户说话时，产生振动信号，振动信号经无线传输到达智能手表，智能手表对振动信号进一步处理，从中提取振动信号的特征，进而识别不同的振动信号对应的按键类别。

在一个实施例中，利用安装在眼镜上的信号感知模块采集人说话时产生的脸部振动信号，参见图3示意的信号感知模块310。信号感知模块310可以是压电薄膜振动传感器、压电陶瓷振动传感器或者其他能检测信号的振动传感器。例如，将压电陶瓷振动传感器安装在眼镜上，人说话时会带动眼镜振动，此时振动传感器可采集人说话时产生的脸部振动信号。

进一步地，可利用设置在眼镜上的信号处理模块320接收脸部振动信号，对脸部振动信号进行放大处理后接入到模数(AD)转换器，从而将脸部振动信号转换为数字信号。

应理解的是，信号感知模块310、信号处理模块320可设置在眼镜外部或嵌入到眼镜内部。此外，本文所描述的振动传感器、放大器、模数转换器等可使用市售的或定制器件，只要其功能能够实现本发明的目的即可。

图4示出了根据本发明一个实施例的放大器的电路原理图，该放大器采用市售的LMV358实现，其是一个两级放大器，最大放大倍数是225，每一级的放大倍数为15。为了滤除***噪声，每一级放大电路有一个带通滤波器，频率范围为15.9Hz到12.9kHz。

具体地，当振动信号经过放大器放大之后，接入AD模数转换器(例如MCP3008)；AD模数转换器的下一级接树莓派，用于控制采集和发送脸部振动信号。

需说明的是，为简洁，未示出AD模数转换器、树莓派和其他的***电路，但应理解的是，本发明实施例所需的这些电路或芯片均可作为信号处理模块320的一部分，设置在眼镜上。

步骤S120，将脸部振动信号发送至智能设备。

在此步骤中，经由无线模块将经过放大、模数转换等处理之后的脸部振动信号发送给智能手表，无线模块包括蓝牙传输模块、WiFi传输模块或其他能将信号发送给智能手表的无线传输模块。

例如，设置树莓派控制蓝牙模块，将经过步骤S110处理之后的数字信号发送给智能手表。

步骤S130，智能设备检测信号的有效部分。

在此步骤中，智能设备从接收的脸部振动信号中截取一段作为有效部分，通过截取有效部分在保留信号特征的前提下进一步提高了后续的处理速度。

在一个实施例中，基于能量的双门限端点检测法来检测信号的有效部分，具体包括：

步骤S131，智能手表接收蓝牙模块发送来的脸部振动信号之后，使用巴特沃斯带通滤波器对其进行滤波。

带通滤波器的截止频率例如可分别为10Hz和1000Hz。

步骤S132，对信号进行分帧，其中帧长为7ms，帧移为3.2ms，窗函数为Hamming窗，计算脸部振动信号的短时能量。

例如，短时能量的计算公式表示为：

其中，E是帧信号的短时能量，L是帧信号的长度，S(i)是振动信号的幅度，t表示帧信号的时间索引。

步骤S133，基于脸部振动信号的短时能量设置截取有效部分时的高门限和低门限。

在获得脸部振动信号的短时能量之后，可进一步计算振动信号的能量标准差，记为σ，同时计算背景噪声的平均能量，记为u。

在一个实施例中，将截取时的低门限设置为TL＝u+σ，将截取时的高门限设置为TH＝u+3σ。

步骤S134，设置信号峰之间的最大间隔门限和最小长度门限。

在此步骤中，对于同一个振动信号，设置信号峰之间的最大间隔门限maxInter和最小长度门限minLen，可根据经验设置这两个参数，例如，maxInter一般是50(帧)，minLen一般是30(帧)。

步骤S135，找出信号中能量最大的一帧信号且该帧信号的能量需要高于所设置的高门限。

步骤S136，从该帧信号分别向左和向右延伸，直到下一帧信号的能量低于所设置的低门限，记录此时的帧位置，将得到的左边的帧位置作为该信号峰的起点，右边的帧位置作为该信号峰的终点。

获得起点和终点之后，在此步骤中还需要将该信号峰所在位置的帧能量设置为零，以便后续迭代处理其他的信号峰。

需说明的是，本文的“左”、“右”反映的是时序方向，例如，“向左延伸”是指搜索帧信号的前序帧，而“向右延伸”指搜索帧信号的后序帧。

步骤S137，重复步骤S135和步骤S136，直到找出整段信号中的所有信号峰。

步骤S138，若两个信号峰的间隔小于maxInter，则合并两个信号峰，即将该两个信号峰当作一个信号峰。

在此步骤中，通过合并信号峰，所有信号峰之间的间隔都大于maxInter。

步骤S139，若信号峰的长度小于minLen，则直接舍弃该信号峰。

经过上述处理之后，对于一个振动信号，最后得到的信号峰的数量应该为1，且该信号峰即为截取的振动信号的有效部分，若得到的信号峰的数量大于1，则将该振动信号视为无效信号，直接舍弃。

图6示意了经过上述处理之后的一段振动信号，横坐标示意的是采样值索引，纵坐标示意的是归一化幅度。可见，该段振动信号包括10个振动信号，每个振动信号对应一个信号峰，对于第8个振动信号，实际上包含两个小峰，但由于这两个小峰之间的间隔小于maxInter，则将这两个小峰作为一个峰处理，即对应一个振动信号。

步骤S140，提取信号的梅尔频率倒谱系数。

在此步骤中，从截取的有效部分提取梅尔频率倒谱系数作为信号特征。

在一个实施例中，提取梅尔频率倒谱系数包括：

对振动信号的有效部分进行预加重、分帧和加窗，例如，预加重的系数可设置为0.96，帧长为20ms，帧移为6ms，窗函数为Hamming窗；

对每一帧信号进行快速傅里叶变换(FFT)得到对应的频谱；

将获得的频谱通过梅尔滤波器组得到梅尔频谱，例如，梅尔滤波频率范围为10Hz到1000Hz，滤波器通道数为28；

对得到的梅尔频率频谱取对数，然后进行离散余弦变换(DCT)，最后取前14个系数作为梅尔频率倒谱系数(MFCC)。

应理解的是，所提取的梅尔频率倒谱系数不限于14个，可根据训练模型的精确度和执行速度要求提取适当数量的梅尔频率倒谱系数。此外，本文对预加重、分帧、加窗、傅里叶变换等现有技术不作具体介绍。

步骤S150，以梅尔频率倒谱系数作为观测序列，训练隐马尔可夫模型。

在此步骤中，以提取的振动信号的梅尔频率倒谱系数(MFCC)作为信号特征来训练隐马尔可夫模型(HMM)。

以T9键盘为例，需要对10种数字(分别对应键盘上的数字0，1，2，…，9)进行分类，对每种数字都训练1个HMM模型，共10个HMM模型，最后求出各HMM模型对某个测试样本的输出概率，输出概率最高的HMM模型所对应的数字即是该测试样本的分类结果。

典型地，HMM模型采用λ＝(A,B,π)表示，其中，π是初始状态概率矩阵，A是隐含状态转移概率矩阵，B是隐含状态对观测状态的生成矩阵。例如，采用鲍姆-韦尔奇算法训练HMM模型的过程包括：对HMM的参数进行初始化；计算前、后向概率矩阵；计算转移概率矩阵；计算各个高斯概率密度函数的均值和方差；计算各个高斯概率密度函数的权重；计算所有观测序列的输出概率，并进行累加得到总和输出概率。

具体地，以数字“0”对应的HMM模型的训练为例，其中，状态数N为3，每个状态包含的高斯混合的个数M都是2，训练过程包括：

对于数字“0”采集多个(例如10个)振动信号，然后分别求出这10个振动信号所对应的梅尔频率倒谱系数作为信号的特征，即数字“0”对应的训练样本集包括10个样本；

将初始状态概率矩阵π初始化为[1,0,0]，将隐含状态转移概率矩阵A初始化为：

然后，对数字“0”的每个观察序列(即MFCC参数)按状态数N进行平均分段，并将所有观察序列中属于一个段的MFCC参数组成一个大的矩阵，使用k均值算法进行聚类，计算得到各个高斯元的均值、方差和权系数；

对于每一个观察序列(即MFCC参数)，计算它的前向概率、后向概率、标定系数数组、过渡概率和混合输出概率；

根据这10个观察序列的过渡概率重新计算HMM模型的转移概率，同时根据混合输出概率重新计算相关的高斯概率密度函数的均值、方差和权系数等；

计算所有观察序列的输出概率，并进行累加得到总和输出概率。

因为本发明实施例是部署在智能手表上，考虑到计算资源有限，所以该训练过程可只迭代1次。

综上，本发明解决的问题是给定一个信号的MFCC特征(即观察序列)和HMM模型λ＝(A,B,π)，然后计算观察序列对HMM模型的输出概率。本发明实施例为每个按键类型生成一个对应的HMM，每个观测序列由一个脸部振动信号的梅尔频率倒谱系数构成，最终评估出最有可能产生观测序列所代表的读音的HMM。

步骤S160，对测试数据进行分类识别。

在此步骤中，利用步骤S150生成的隐马尔可夫模型对测试样本进行分类识别。

在一个实施例中，分类识别包括：利用维特比算法计算测试样本对于各隐马尔可夫模型的输出概率，并给出最佳的状态路径；

输出概率最大的隐马尔可夫模型所对应的类别即为该测试样本的分类结果。

步骤S170，对分类结果进行校正。

为了提高隐马尔可夫模型的识别精确度，可使用实时校正和自适应机制对分类结果进行校正，以优化步骤S150中使用的训练样本集。

具体地，在步骤S160中除了输出最后的分类结果之外，还根据各隐马尔可夫模型的输出概率给出可能性最高的两个候选按键和“Delete”按键。当分类结果正确时，用户不需要进行任何操作；当分类结果错误时，若是正确的分类结果出现在候选按键中，则用户可以点击候选按键进行校正，若是正确的分类结果没有出现在候选按键中，则用户需要利用智能手表的内置虚拟键盘输入正确的数字来进行校正；若用户在输入时，由于发音错误或者眼镜佩戴等原因造成输入本身就是错误的，则用户可以点击“Delete”按键来删除该输入数字。

在一个实施例中，对分类结果进行校正包括：

步骤S171，若用户没点击任何按键也没有使用内置虚拟键盘来进行输入，则表示该次输入的分类结果是正确的，将该次输入所对应的脸部振动信号加入训练样本集中1次；

步骤S172，若用户点击了候选按键，则代表该次输入的分类结果是错误的，而且该次输入的正确分类结果出现在候选按键中，则该次输入所对应的脸部振动信号将会被加入训练样本集中n _i次。

其中，n _i代表按键i连续错误的次数，1≤n _i≤3。例如，若是按键2的分类结果连续错误了2次，则n _i等于2。若是按键i的连续错误次数超过3次，则n _i仍然设置成3。而一旦按键i的分类结果是正确的，则n _i被重置为1。

步骤S173，若用户使用智能手表内置的虚拟键盘来输入数字，则代表该次输入的分类结果是错误的，而且该次输入的正确分类结果没有出现在候选按键中，则该次输入所对应的脸部振动信号将会被加入训练样本集中3次。

步骤S174，若用户点击了“Delete”键，代表用户在输入时本身就存在错误，则该次输入所对应的脸部振动信号将会被直接丢弃。

步骤S175，判断是否需要重新训练隐马尔可夫模型。

定义每一个按键总共被加入到训练样本集中的次数为Q _i，定义所有按键被加入到训练样本集中的总次数为N，可以得到：

其中，当N大于等于10时，隐马尔可夫模型将会被重新训练。一旦某一个按键所对应的训练样本个数大于35个，则该按键的最早被加入到训练样本集中的训练样本将会被丢弃，从而保证该按键的最大训练样本个数为35个。

应理解的是，对于本发明实施例中涉及的训练样本个数、按键被加入到训练样本集中的次数等具体值，本领域的技术人员可根据模型训练精度、对文本输入的执行速度要求等设置合适值。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种基于脸部振动的智能设备输入方法，包括以下步骤：

步骤S1：采集用户进行语音输入时所产生的脸部振动信号；

步骤S2：从所述脸部振动信号中提取梅尔频率倒谱系数；

步骤S3：将所述梅尔频率倒谱系数作为观测序列，利用经训练的隐马尔可夫模型获得脸部振动信号对应的文本输入。
根据权利要求1所述的方法，其中，在步骤S1中，通过设置于眼镜上的振动传感器采集所述脸部振动信号。
根据权利要求1所述的方法，其中，在步骤S2中，对于一个振动信号进行以下处理：

将采集到的所述脸部振动信号进行放大；

将放大后的脸部振动信号经由无线模块发送至所述智能设备；

所述智能设备从接收到的脸部振动信号中截取一段作为有效部分并从所述有效部分提取梅尔频率倒谱系数。
根据权利要求3所述的方法，其中，从脸部振动信号截取有效部分包括：

基于所述脸部振动信号的短时能量标准差σ设置第一切断门限和第二切断门限，其中，第一切断门限是TL＝u+σ，第二切断门限是TH＝u+3σ，u是背景噪声的平均能量；

从所述脸部振动信号中找出短时能量最大的一帧信号且该帧信号的能量高于所述第二切断门限；

从该帧信号的前序帧和后序帧，分别找出能量低于所述第一切断门限并且在时序上与该帧信号最近的帧，将获得的前序帧位置作为起点，将获得的后续帧位置作为终点，截取起点和终点之间的部分作为所述脸部振动信号的有效部分。
根据权利要求4所述的方法，其中，从脸部振动信号截取有效部分还包括：

对于一个振动信号，设置信号峰之间的最大间隔门限maxInter和最小长度门限minLen；

若该振动信号的两个信号峰之间的间隔小于所述最大间隔门限maxInter，则将该两个信号峰作为该振动信号的一个信号峰；

若该振动信号的一个信号峰的长度小于所述最小长度门限minLen，则舍弃该信号峰。
根据权利要求1所述的方法，其中，训练隐马尔可夫模型包括：

对所述智能设备的每个输入按键类型生成一个对应的隐马尔可夫模型，获得多个隐马尔可夫模型；

为每个隐马尔可夫模型构建相应的训练样本集，其中所述训练样本集中的每个观测序列由一个脸部振动信号的梅尔频率倒谱系数构成；

评估出最有可能产生观测序列所代表的读音的隐马尔可夫模型作为所述经训练的隐马尔可夫模型。
根据权利要求1所述的方法，其中，步骤S3还包括：

利用维特比算法计算测试样本对于所述多个隐马尔可夫模型的输出概率；

基于所述输出概率显示该测试样本对应的按键类型和可选按键类型。
根据权利要求7所述的方法，其中，还包括：

根据用户所选择的按键情况判断分类结果是否正确；

将分类结果正确的测试样本加入所述训练样本集中，对应的分类标签是该分类结果；

将分类结果错误的测试样本加入到所述训练样本集中，对应的分类标签是根据用户的选择所确定的类别。
一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。
一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。