CN105931637A

CN105931637A - 一种可自定义指令识别的语音拍照***

Info

Publication number: CN105931637A
Application number: CN201610204445.0A
Authority: CN
Inventors: 王丹丹; 臧娴
Original assignee: Jinling Institute of Technology
Current assignee: Jinling Institute of Technology
Priority date: 2016-04-01
Filing date: 2016-04-01
Publication date: 2016-09-07

Abstract

本发明公开了一种可自定义指令识别的语音拍照***，所述***包括语音指令采集模块、音频信号预处理模块、音频信号特征提取模块、语音定义训练模块和语言识别控制模块，所述语音指令采集模块采集语音指令的音频信号；采集到的音频信号依次经过音频信号预处理模块和音频信号特征提取模块进行预处理和特征提取；语音定义训练模块建立语音特征模式库，将经过预处理和特征提取的音频信号所对应的语音指令均录入所述特征模式库；语言识别控制模块通过搜索最小匹配误差得到识别结果，执行相应的语音指令。本发明所公开的技术方案一方面可以提升语音拍照功能的实用性，另一方面也实现了用户个性化的定制，增强了用户与设备之间的交互性。

Description

一种可自定义指令识别的语音拍照***

技术领域

本发明公开了一种可自定义指令识别的语音拍照***，涉及音频信号处理技术领域。

背景技术

随着信息产业的飞速发展，智能化的产品已广泛受到人们的青睐。语音识别作为人机交互的一项关键技术，其应用已经涉及我们生活的诸多方面，例如车载语音导航、手机声控拨号、家电控制及语音数据库检索服务等等。

在智能化产品市场中，手机因其轻便、灵巧及其丰富的APP功能占有重要一席，其中，各种各样的拍照软件得到了广大用户的青睐，其功能也不在不断地演变和完善。不难发现，在众多拍照软件中基本都有语音拍照的功能，其主要通过语音命令的识别来控制相机拍照程序的执行，这一设计给手机用户带来了更多的方便和交互体验。但是，这些语音命令一般都由***指定，也就是说用户只能通过固定的语音指令来实现语音拍照。这必然会造成一定的局限，首先，每个人的说话方式不同、发音不同以及方言的存在都有可能导致采用的指定语音命令识别不成功。其次，当用户希望通过语音来实现自拍的时候，考虑到每个人的笑容也不是千篇一律的，因此，使用同一个语音指令实现的自拍效果可能不能同时满足每个用户的要求，例如：有的人用“茄子”这个语音指令时可以达到最美的微笑，而有的人则喜欢用“番茄”、“Cheese”或“Kimci”(韩语中“泡菜”的发音)等等。现有技术中还比较少见用户可自定义语音指令进行识别和控制相机拍照的方法或***。

发明内容

本发明所要解决的技术问题是：针对现有技术的缺陷，提供一种可自定义指令识别的语音拍照***。

本发明为解决上述技术问题采用以下技术方案：

一种可自定义指令识别的语音拍照***，所述***包括语音指令采集模块、音频信号预处理模块、音频信号特征提取模块、语音定义训练模块和语言识别控制模块，

所述语音指令采集模块采集语音指令的音频信号；

采集到的音频信号依次经过音频信号预处理模块和音频信号特征提取模块进行预处理和特征提取；

语音定义训练模块建立语音特征模式库，将经过预处理和特征提取的音频信号所对应的语音指令均录入所述特征模式库；

语言识别控制模块将经过预处理和特征提取的音频信号所对应的语音指令与特征模式库中存储的语音指令进行失真度测量，通过搜索最小匹配误差得到识别结果，执行相应的语音指令。

作为本发明的进一步优选方案，所述音频信号预处理模块包括预加重模块、分帧模块、加窗模块和端点检测模块，上述模块依次对语音指令的音频信号进行预加重、分帧、加窗和端点检测处理。

作为本发明的进一步优选方案，所述音频信号特征提取模块包括快速傅立叶变换模块、Mel滤波器组、对数能量模块、离散余弦变换模块，音频信号特征提取模块从语音指令的音频信号中提取具有抗噪性的特征参数，所述参数为梅尔频率倒谱系数。

作为本发明的进一步优选方案，所述语言识别控制模块采用模板匹配的方法，通过动态时间规整将待识别语音指令的音频信号参数与特征模式库存储的数据进行比对，进行失真度测量。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明提出了用户可自定义语音指令进行识别和控制相机拍照的方法，一方面可以提升语音拍照功能的实用性，另一方面也实现了用户个性化的定制，增强了用户与手机之间的交互性。

附图说明

图1是本发明的***结构示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明的***结构示意图如图1所示，所述可自定义指令识别的语音拍照***，所述***包括语音指令采集模块、音频信号预处理模块、音频信号特征提取模块、语音定义训练模块和语言识别控制模块，

所述语音指令采集模块采集语音指令的音频信号；

更进一步的，所述音频信号预处理模块包括预加重模块、分帧模块、加窗模块和端点检测模块，上述模块依次对语音指令的音频信号进行预加重、分帧、加窗和端点检测处理。

更进一步的，所述音频信号特征提取模块包括快速傅立叶变换模块、Mel滤波器组、对数能量模块、离散余弦变换模块，音频信号特征提取模块从语音指令的音频信号中提取具有抗噪性的特征参数，所述参数为梅尔频率倒谱系数。

更进一步的，所述语言识别控制模块采用模板匹配的方法，通过动态时间规整将待识别语音指令的音频信号参数与特征模式库存储的数据进行比对，进行失真度测量。

语音拍照***设计大体上包括定义训练和识别控制两个步骤。在定义训练部分，用户可以根据自己需要通过麦克风录入自定义的语音指令，并对这些指令进行预处理，即预加重、分帧加窗和端点检测，再提取具有抗噪性的特征参数—梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient，简称MFCC)，为所有输入的语音指令建立一个语音特征模式库。在***的这一部分，用户可以自定义多个指令，也可以随时更新语音指令库。

在识别控制部分，考虑到指令一般为字、单词等孤立词，在对用户输入的待识别语音指令进行同样的预处理和特征提取操作后，采用模板匹配的方法，即通过动态时间规整(DynamicTime Warping，简称为DTW)将待识别语音指令参数与参考特征模式库进行失真度测量，通过搜索最小匹配误差得到识别结果，执行相应的语音指令进行拍照。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种可自定义指令识别的语音拍照***，其特征在于：所述***包括语音指令采集模块、音频信号预处理模块、音频信号特征提取模块、语音定义训练模块和语言识别控制模块，

所述语音指令采集模块采集语音指令的音频信号；

2.如权利要求1所述的一种可自定义指令识别的语音拍照***，其特征在于：所述音频信号预处理模块包括预加重模块、分帧模块、加窗模块和端点检测模块，上述模块依次对语音指令的音频信号进行预加重、分帧、加窗和端点检测处理。

3.如权利要求1所述的一种可自定义指令识别的语音拍照***，其特征在于：所述音频信号特征提取模块包括快速傅立叶变换模块、Mel滤波器组、对数能量模块、离散余弦变换模块，音频信号特征提取模块从语音指令的音频信号中提取具有抗噪性的特征参数，所述参数为梅尔频率倒谱系数。

4.如权利要求1所述的一种可自定义指令识别的语音拍照***，其特征在于：所述语言识别控制模块采用模板匹配的方法，通过动态时间规整将待识别语音指令的音频信号参数与特征模式库存储的数据进行比对，进行失真度测量。