CN104978960A

CN104978960A - 一种基于语音识别拍照的方法及装置

Info

Publication number: CN104978960A
Application number: CN201510374888.XA
Authority: CN
Inventors: 陈包容
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-07-01
Filing date: 2015-07-01
Publication date: 2015-10-14

Abstract

本发明公开了一种基于语音识别拍照的方法及装置，该方法通过获取用户输入的拍照暗语；对拍照暗语进行特征提取，获得拍照暗语的特征矢量；计算拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值；判断每一个匹配值是否都小于设定值，若是，则建立拍照暗语的隐马尔科夫模型，并将其保存在样本库中，若否，则执行拍照动作，解决了多个用户针对同一拍照暗语均需要预录制的技术问题，实现了针对同一个拍照暗语只需进行一次预录制，提高了基于语音识别拍照的效率，提升了用户体验。

Description

一种基于语音识别拍照的方法及装置

技术领域

本发明涉及语音识别技术领域，具体涉及一种基于语音识别拍照的方法及装置。

背景技术

随着智能手机、相机等在人们的日常生活中使用越来越广泛，如可通过智能手机或相机为喜欢的景物或人物进行拍照。现有的拍照一般是通过按压物理按键启动拍照，或者通过屏幕上的虚拟按键启动拍照，采用上述两种方式拍照会有拍照延时，不仅按压不方便，且拍照效果不佳。

针对该问题，专利号为201220601960.X提出了一种利用语音识别拍照的方法，该方法通过预录制不同的拍照暗语，并在拍照的过程中判断用户采用的拍照暗语是否是预录制的拍照暗语，以及在判定用户采用的拍照暗语与预录制的拍照暗语一致的情况下，控制拍照设备执行拍照动作。但该方法针对每一条拍照暗语都需要重新预录制，当不同的拍照用户采用同样的拍照暗语时，***也不能自动匹配其他拍照用户已经预录制的拍照暗语，从而导致拍照效率不高，用户体验不佳。例如，当有一百个用户均采用自定义拍照暗语为“奶酪”的拍照暗语控制拍摄设备自动拍照时，这一百个用户均需要预录制拍照暗语为“奶酪”的拍照暗语。

发明内容

本发明提供了一种基于语音识别拍照的方法及装置，以解决现有基于语音识别拍照时，不同的用户采用同样的拍照暗语均需要预录制拍照暗语的技术问题。

根据本发明的一方面，提供了一种基于语音识别拍照的方法，包括：

获取用户输入的拍照暗语；

对拍照暗语进行特征提取，获得拍照暗语的特征矢量；

计算拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值；

判断每一个匹配值是否都小于设定值，若是，则建立拍照暗语的隐马尔科夫模型，并将其保存在样本库中，若否，则执行拍照动作。

进一步地，计算拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值包括：

通过维特比识别算法计算拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值。

进一步地，获取用户输入的拍照暗语之后，对拍照暗语进行特征提取之前还包括：

对拍照暗语进行预处理，预处理包括功率放大、自增益控制以及高通滤波中的一种或多种。

进一步地，建立拍照暗语的隐马尔科夫模型，并将其保存在样本库中包括：

向用户发送是否同意分享指令，并在接收到用户发送的同意分享指令后建立拍照暗语的隐马尔科夫模型，并将其保存在样本库中。

进一步地，拍照暗语的特征矢量是拍照暗语的美尔频率倒谱系数。

进一步地，拍照暗语为普通话、方言、口音中的任意一种或多种。

根据本发明的另一方面，提供了一种语音控制装置，包括：

获取装置，用于获取用户输入的拍照暗语；

特征矢量提取装置，用于对拍照暗语进行特征提取，获得拍照暗语的特征矢量；

匹配值计算装置，用于计算拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值；

判断装置，用于判断每一个匹配值是否都小于设定值，若是，则建立拍照暗语的隐马尔科夫模型，并将其保存在样本库中，若否，则执行拍照动作。

进一步地，匹配值计算装置包括：

维特比识别算法计算装置，用于通过维特比识别算法计算拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值。

进一步地，基于语音识别拍照的装置还包括：

预处理装置，用于对拍照暗语进行预处理，预处理包括功率放大、自增益控制以及高通滤波中的一种或多种。

进一步地，判断装置还包括：

指令发送装置，用于向用户发送是否同意分享指令，并在接收到用户发送的同意分享指令后建立拍照暗语的隐马尔科夫模型，并将其保存在样本库中。

本发明具有以下有益效果：

本发明提供了一种基于语音识别拍照的方法及装置，通过获取用户输入的拍照暗语；对拍照暗语进行特征提取，获得拍照暗语的特征矢量；计算拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值；判断每一个匹配值是否都小于设定值，若是，则建立拍照暗语的隐马尔科夫模型，并将其保存在样本库中，若否，则执行拍照动作，解决了多个用户针对同一拍照暗语均需要预录制的技术问题，实现了针对同一个拍照暗语只需进行一次预录制，提高了基于语音识别拍照的效率，提升了用户体验。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的语音识别拍照的方法流程图；

图2是本发明优选实施例针对一个拍照场景的语音识别拍照的方法流程图；

图3是本发明优选实施例的语音识别拍照的装置结构示意图。

附图标记说明：

10、获取装置； 20、特征矢量提取装置；30、匹配值计算装置；40、判断装置。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参照图1，本发明的优选实施例提供了一种基于语音识别拍照的方法，包括：

步骤S101，获取用户输入的拍照暗语；

步骤S102，对拍照暗语进行特征提取，获得拍照暗语的特征矢量；

步骤S103，计算拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值；

步骤S104，判断每一个匹配值是否都小于设定值，若是，则建立拍照暗语的隐马尔科夫模型，并将其保存在样本库中，若否，则执行拍照动作。

本发明的基于语音识别拍照的方法，通过获取用户输入的拍照暗语；对拍照暗语进行特征提取，获得拍照暗语的特征矢量；计算拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值；判断每一个匹配值是否都小于设定值，若是，则建立拍照暗语的隐马尔科夫模型，并将其保存在样本库中，若否，则执行拍照动作，解决了多个用户针对同一拍照暗语均需要预录制的技术问题，实现了针对同一个拍照暗语只需进行一次预录制，提高了基于语音识别拍照的效率，提升了用户体验。

本实施例的隐马尔科夫模型(Hidden Markov Models，简称为HMM) 是一个双重随机过程：一重用于描述非平稳信号的短时平稳段的统计特征( 信号的瞬态特征，可直接观测到) ；另一重随机过程描述了每个短时平稳段是如何转变到下一个短时平稳段，即短时统计特征的动态特性( 隐含在观察序列中)。人的言语过程也是这样一种双重随机过程，因此用隐马尔科夫模型(HMM) 描述语音信号的产生过程是非常精确的。

可选地，计算拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值包括：通过维特比识别算法计算拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值。

可选地，获取用户输入的拍照暗语之后，对拍照暗语进行特征提取之前还包括：对拍照暗语进行预处理，预处理包括功率放大、自增益控制以及高通滤波中的一种或多种。

一般在对语音信号处理之前，必须要对其进行数字化，这个过程就是模/数(A/D) 转化。模/ 数转化过程要经过采样和量化两个过程，从而得到时间和幅度上的离散数字信号。根据奈奎斯特采样定律，一般采样频率为原始信号频率的两倍以上，才能使采样过程中不会丢失信息，而且能从采样信号中准确的重构原始信号的波形。本实施例对拍照暗语进行模/数(A/D) 转化后，进一步对拍照暗语进行功率放大、自增益控制或高通滤波，其中高通滤波的目的是滤除低频干扰，尤其是50Hz 或者60Hz 的工频干扰，从而提升对语音识别有用的高频部分，让信号的频谱变得平坦，从而便于进行频谱分析或声道参数分析。

由于语音信号是一种非平稳信号，具有时变特征，但在一个短时范围内(一般认为在10-30ms)，其特性基本保持不变，因而可以将其看作是一个准稳态过程，因此可以将语音信号进行分帧操作。一般每秒的帧数约为33-100 帧，视情况而定。分帧可以采用连续分段的方法，但一般要采用交叠分段的方法，这是为了使得帧与帧之间平滑过渡，保持连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0-0.5。由于分帧的作用，使原本的信号变成一段一段的，这就相当于是在原始的信号在时域内加上了一个矩形窗。时域内与矩形窗相乘也就相当于频域内信号频谱与矩形窗的傅里叶变换进行卷积。这会改变原始信号的频谱。为此在分帧之后要对每一帧做一个加窗的处理，从而得到加窗语音信号。本实施例对经过高通滤波后的拍照暗语信号采用汉明窗加窗函数对其进行加窗处理。

可选地，建立拍照暗语的隐马尔科夫模型，并将其保存在样本库中包括：向用户发送是否同意分享指令，并在接收到用户发送的同意分享指令后建立拍照暗语的隐马尔科夫模型，并将其保存在样本库中。通过向用户发送是否同意分享指令，充分尊重用户是否决定将其输入的拍照暗语进行分享的意愿，提升了用户拍照体验。

可选地，拍照暗语的特征矢量是拍照暗语的美尔频率倒谱系数。语音信号的特征参数提取有多种方法，线性预测系数(LPC) 是基于语音发音机理的，描述的是声道特性；线性预测倒谱系数(LPCC) 是基于LPC 合成的参数。但是这两种参数都没有充分利用人耳的听觉特性。人的听觉***其实也是一个特殊的非线性***，它对不同频率的信号的敏感度不同，基本上是一个对数关系。本实施例采用美尔频率倒谱系数(MFCC) 提取语音信号的特征参数，美尔频率倒谱系数（MFCC）是一种能够很好反映人耳听觉机理的特征参数。

可选地，拍照暗语为普通话、方言、口音中的任意一种。通过设置不同类型的拍照暗语，丰富了样本库中拍照暗语种类，增加了拍照的可玩性和趣味性。

参照图2，下面本实施例针对一个拍照场景对基于语音识别拍照的方法进行进一步具体说明。

拍照场景：A用户通过内容为“奶酪”的拍照暗语进行语音拍照（样本库中没有内容为“奶酪”的拍照暗语对应的隐马尔科夫模型），本实施例中A用户实现语音拍照的具体过程为:

步骤S201，获取用户输入的拍照暗语。具体为内容是“奶酪”的拍照暗语的语音信号。本实施例在用户输入拍照暗语之前，可预先选择麦克风类型，（诸如耳机麦克风，***自带麦克风或者其它麦克风等）并设置麦克风（诸如调节麦克风的音量大小等）。

步骤S202，对语音信号进行预处理，具体包括：先通过A/D转换得到数字信号；然后采用一阶高通滤波器对该数字信号进行高通滤波处理，本实施例采用的高通滤波器为一阶高通滤波器；最后对滤波处理后的数字信号进行加窗处理，本实施例采用的加窗处理函数为汉明窗加窗函数。

步骤S203，计算语音信号的美尔频率倒谱系数，并将其作为该语音信号的特征矢量。具体为首先将语音信号的频谱的频率轴变换为Mel 频率刻度，然后再变换到倒谱域从而得到的倒谱系数(MFCC)。本实施例中，Mel 频率刻度与频率的对应转换关系为：，其中，为实际线性频率，为美尔频率。

步骤S204，计算内容是“奶酪”的拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值。本实施例通过维特比识别算法计算拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值。

步骤S205，判断每一个匹配值是否都小于设定值，若是，则向用户发送是否同意分享内容是“奶酪”的拍照暗语指令，若否，则执行拍照动作。由于本实施例的样本库中不存在内容是“奶酪”的拍照暗语的隐马尔科夫模型，且假定内容是“奶酪”的拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值都小于设定值，故本实施例在判断之后，执行向用户发送是否同意分享内容是“奶酪”的拍照暗语指令。

步骤S206，在接收到用户发送的同意分享指令后建立内容是“奶酪”的拍照暗语的隐马尔科夫模型，并将其保存在样本库中。

本实施例通过在样本库中建立A所采用的内容是“奶酪”的拍照暗语的隐马尔科夫模型后，其他用户若再采用内容是“奶酪”的拍照暗语进行语音拍照时，无需预录制内容是“奶酪”的拍照暗语，即可以直接采用内容是“奶酪”的拍照暗语完成拍照，需要说明的是，本实施例中的其他用户和A用户的拍照应用程序共享同一个服务器。本实施例建立内容是“奶酪”的拍照暗语的隐马尔科夫模型的具体过程为：首先定义隐马尔科夫模型（HMM）的参数集合λ＝(π，A，C，μ，U)，其中π为初始状态分布概率，A为状态转移概率，C为混合增益矩阵，μ为混合分量的均值矩阵，U为混合分量的协方差矩阵；然后采用前向后向算法计算在给定模型λ 的条件下产生观察序列的概率；接着采用Viterbi 算法选择基于给定的观察序列和给定模型条件下相应的最佳的( 能最好的解释观察序列) 的状态序列；最后采用Baum-Welch 算法调整模型参数λ＝(π，A，C，μ，U) ，以使在给定模型λ 的条件下产生观察序列的概率最大，并将调整好模型参数的隐马尔科夫模型保存在样本库中。

采用本实施例的方法，解决了多个用户针对同一拍照暗语均需要预录制的技术问题，实现了针对同一个拍照暗语只需进行一次预录制，提高了基于语音识别拍照的效率，提升了用户体验。

参考图3，根据本发明的另一方面，提供了一种基于语音识别拍照的装置，包括：

获取装置10，用于获取用户输入的拍照暗语；

特征矢量提取装置20，用于对拍照暗语进行特征提取，获得拍照暗语的特征矢量；

匹配值计算装置30，用于计算拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值；

判断装置40，用于判断每一个匹配值是否都小于设定值，若是，则建立拍照暗语的隐马尔科夫模型，并将其保存在样本库中，若否，则执行拍照动作。

可选地，匹配值计算装置30包括：

可选地，基于语音识别拍照的装置还包括：

可选地，判断装置40还包括：指令发送装置，用于向用户发送是否同意分享指令，并在接收到用户发送的同意分享指令后建立拍照暗语的隐马尔科夫模型，并将其保存在样本库中。

本实施例的基于语音识别拍照的装置的具体工作过程和工作原理可参照本实施例中的基于语音识别拍照的方法的工作过程和工作原理。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音识别拍照的方法，其特征在于，包括：

获取用户输入的拍照暗语；

对所述拍照暗语进行特征提取，获得所述拍照暗语的特征矢量；

计算所述拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值；

判断每一个所述匹配值是否都小于设定值，若是，则建立所述拍照暗语的隐马尔科夫模型，并将其保存在所述样本库中，若否，则执行拍照动作。

2.根据权利要求1所述的基于语音识别拍照的方法，其特征在于，计算所述拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值包括：

通过维特比识别算法计算所述拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值。

3.根据权利要求2所述的基于语音识别拍照的方法，其特征在于，获取用户输入的拍照暗语之后，对所述拍照暗语进行特征提取之前还包括：

对所述拍照暗语进行预处理，所述预处理包括功率放大、自增益控制以及高通滤波中的一种或多种。

4.根据权利要求3所述的基于语音识别拍照的方法，其特征在于，建立所述拍照暗语的隐马尔科夫模型，并将其保存在所述样本库中包括：

向所述用户发送是否同意分享指令，并在接收到所述用户发送的同意分享指令后建立所述拍照暗语的隐马尔科夫模型，并将其保存在所述样本库中。

5.根据权利要求4所述的基于语音识别拍照的方法，其特征在于，

所述拍照暗语的特征矢量是所述拍照暗语的美尔频率倒谱系数。

6.根据权利要求1-5任一所述的基于语音识别拍照的方法，其特征在于，

所述拍照暗语为普通话、方言、口音中的任意一种或多种。

7.一种基于语音识别拍照的装置，其特征在于，包括：

获取装置（10），用于获取用户输入的拍照暗语；

特征矢量提取装置（20），用于对所述拍照暗语进行特征提取，获得所述拍照暗语的特征矢量；

匹配值计算装置（30），用于计算所述拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值；

判断装置（40），用于判断每一个所述匹配值是否都小于设定值，若是，则建立所述拍照暗语的隐马尔科夫模型，并将其保存在所述样本库中，若否，则执行拍照动作。

8.根据权利要求7所述的基于语音识别拍照的装置，其特征在于，所述匹配值计算装置（30）包括：

维特比识别算法计算装置，用于通过维特比识别算法计算所述拍照暗语的特征矢量与样本库中每一个拍照暗语的隐马尔科夫模型之间的匹配值。

9.根据权利要求8所述的基于语音识别拍照的装置，其特征在于，所述基于语音识别拍照的装置还包括：

预处理装置，用于对所述拍照暗语进行预处理，所述预处理包括功率放大、自增益控制以及高通滤波中的一种或多种。

10.根据权利要求9所述的基于语音识别拍照的装置，其特征在于，所述判断装置（40）还包括：

指令发送装置，用于向所述用户发送是否同意分享指令，并在接收到所述用户发送的同意分享指令后建立所述拍照暗语的隐马尔科夫模型，并将其保存在所述样本库中。