CN105931637A - 一种可自定义指令识别的语音拍照*** - Google Patents

一种可自定义指令识别的语音拍照*** Download PDF

Info

Publication number
CN105931637A
CN105931637A CN201610204445.0A CN201610204445A CN105931637A CN 105931637 A CN105931637 A CN 105931637A CN 201610204445 A CN201610204445 A CN 201610204445A CN 105931637 A CN105931637 A CN 105931637A
Authority
CN
China
Prior art keywords
module
audio signal
speech
phonetic order
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610204445.0A
Other languages
English (en)
Inventor
王丹丹
臧娴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinling Institute of Technology
Original Assignee
Jinling Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinling Institute of Technology filed Critical Jinling Institute of Technology
Priority to CN201610204445.0A priority Critical patent/CN105931637A/zh
Publication of CN105931637A publication Critical patent/CN105931637A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种可自定义指令识别的语音拍照***,所述***包括语音指令采集模块、音频信号预处理模块、音频信号特征提取模块、语音定义训练模块和语言识别控制模块,所述语音指令采集模块采集语音指令的音频信号;采集到的音频信号依次经过音频信号预处理模块和音频信号特征提取模块进行预处理和特征提取;语音定义训练模块建立语音特征模式库,将经过预处理和特征提取的音频信号所对应的语音指令均录入所述特征模式库;语言识别控制模块通过搜索最小匹配误差得到识别结果,执行相应的语音指令。本发明所公开的技术方案一方面可以提升语音拍照功能的实用性,另一方面也实现了用户个性化的定制,增强了用户与设备之间的交互性。

Description

一种可自定义指令识别的语音拍照***
技术领域
本发明公开了一种可自定义指令识别的语音拍照***,涉及音频信号处理技术领域。
背景技术
随着信息产业的飞速发展,智能化的产品已广泛受到人们的青睐。语音识别作为人机交互的一项关键技术,其应用已经涉及我们生活的诸多方面,例如车载语音导航、手机声控拨号、家电控制及语音数据库检索服务等等。
在智能化产品市场中,手机因其轻便、灵巧及其丰富的APP功能占有重要一席,其中,各种各样的拍照软件得到了广大用户的青睐,其功能也不在不断地演变和完善。不难发现,在众多拍照软件中基本都有语音拍照的功能,其主要通过语音命令的识别来控制相机拍照程序的执行,这一设计给手机用户带来了更多的方便和交互体验。但是,这些语音命令一般都由***指定,也就是说用户只能通过固定的语音指令来实现语音拍照。这必然会造成一定的局限,首先,每个人的说话方式不同、发音不同以及方言的存在都有可能导致采用的指定语音命令识别不成功。其次,当用户希望通过语音来实现自拍的时候,考虑到每个人的笑容也不是千篇一律的,因此,使用同一个语音指令实现的自拍效果可能不能同时满足每个用户的要求,例如:有的人用“茄子”这个语音指令时可以达到最美的微笑,而有的人则喜欢用“番茄”、“Cheese”或“Kimci”(韩语中“泡菜”的发音)等等。现有技术中还比较少见用户可自定义语音指令进行识别和控制相机拍照的方法或***。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种可自定义指令识别的语音拍照***。
本发明为解决上述技术问题采用以下技术方案:
一种可自定义指令识别的语音拍照***,所述***包括语音指令采集模块、音频信号预处理模块、音频信号特征提取模块、语音定义训练模块和语言识别控制模块,
所述语音指令采集模块采集语音指令的音频信号;
采集到的音频信号依次经过音频信号预处理模块和音频信号特征提取模块进行预处理和特征提取;
语音定义训练模块建立语音特征模式库,将经过预处理和特征提取的音频信号所对应的语音指令均录入所述特征模式库;
语言识别控制模块将经过预处理和特征提取的音频信号所对应的语音指令与特征模式库中存储的语音指令进行失真度测量,通过搜索最小匹配误差得到识别结果,执行相应的语音指令。
作为本发明的进一步优选方案,所述音频信号预处理模块包括预加重模块、分帧模块、加窗模块和端点检测模块,上述模块依次对语音指令的音频信号进行预加重、分帧、加窗和端点检测处理。
作为本发明的进一步优选方案,所述音频信号特征提取模块包括快速傅立叶变换模块、Mel滤波器组、对数能量模块、离散余弦变换模块,音频信号特征提取模块从语音指令的音频信号中提取具有抗噪性的特征参数,所述参数为梅尔频率倒谱系数。
作为本发明的进一步优选方案,所述语言识别控制模块采用模板匹配的方法,通过动态时间规整将待识别语音指令的音频信号参数与特征模式库存储的数据进行比对,进行失真度测量。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明提出了用户可自定义语音指令进行识别和控制相机拍照的方法,一方面可以提升语音拍照功能的实用性,另一方面也实现了用户个性化的定制,增强了用户与手机之间的交互性。
附图说明
图1是本发明的***结构示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明的***结构示意图如图1所示,所述可自定义指令识别的语音拍照***,所述***包括语音指令采集模块、音频信号预处理模块、音频信号特征提取模块、语音定义训练模块和语言识别控制模块,
所述语音指令采集模块采集语音指令的音频信号;
采集到的音频信号依次经过音频信号预处理模块和音频信号特征提取模块进行预处理和特征提取;
语音定义训练模块建立语音特征模式库,将经过预处理和特征提取的音频信号所对应的语音指令均录入所述特征模式库;
语言识别控制模块将经过预处理和特征提取的音频信号所对应的语音指令与特征模式库中存储的语音指令进行失真度测量,通过搜索最小匹配误差得到识别结果,执行相应的语音指令。
更进一步的,所述音频信号预处理模块包括预加重模块、分帧模块、加窗模块和端点检测模块,上述模块依次对语音指令的音频信号进行预加重、分帧、加窗和端点检测处理。
更进一步的,所述音频信号特征提取模块包括快速傅立叶变换模块、Mel滤波器组、对数能量模块、离散余弦变换模块,音频信号特征提取模块从语音指令的音频信号中提取具有抗噪性的特征参数,所述参数为梅尔频率倒谱系数。
更进一步的,所述语言识别控制模块采用模板匹配的方法,通过动态时间规整将待识别语音指令的音频信号参数与特征模式库存储的数据进行比对,进行失真度测量。
语音拍照***设计大体上包括定义训练和识别控制两个步骤。在定义训练部分,用户可以根据自己需要通过麦克风录入自定义的语音指令,并对这些指令进行预处理,即预加重、分帧加窗和端点检测,再提取具有抗噪性的特征参数—梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,简称MFCC),为所有输入的语音指令建立一个语音特征模式库。在***的这一部分,用户可以自定义多个指令,也可以随时更新语音指令库。
在识别控制部分,考虑到指令一般为字、单词等孤立词,在对用户输入的待识别语音指令进行同样的预处理和特征提取操作后,采用模板匹配的方法,即通过动态时间规整(DynamicTime Warping,简称为DTW)将待识别语音指令参数与参考特征模式库进行失真度测量,通过搜索最小匹配误差得到识别结果,执行相应的语音指令进行拍照。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (4)

1.一种可自定义指令识别的语音拍照***,其特征在于:所述***包括语音指令采集模块、音频信号预处理模块、音频信号特征提取模块、语音定义训练模块和语言识别控制模块,
所述语音指令采集模块采集语音指令的音频信号;
采集到的音频信号依次经过音频信号预处理模块和音频信号特征提取模块进行预处理和特征提取;
语音定义训练模块建立语音特征模式库,将经过预处理和特征提取的音频信号所对应的语音指令均录入所述特征模式库;
语言识别控制模块将经过预处理和特征提取的音频信号所对应的语音指令与特征模式库中存储的语音指令进行失真度测量,通过搜索最小匹配误差得到识别结果,执行相应的语音指令。
2.如权利要求1所述的一种可自定义指令识别的语音拍照***,其特征在于:所述音频信号预处理模块包括预加重模块、分帧模块、加窗模块和端点检测模块,上述模块依次对语音指令的音频信号进行预加重、分帧、加窗和端点检测处理。
3.如权利要求1所述的一种可自定义指令识别的语音拍照***,其特征在于:所述音频信号特征提取模块包括快速傅立叶变换模块、Mel滤波器组、对数能量模块、离散余弦变换模块,音频信号特征提取模块从语音指令的音频信号中提取具有抗噪性的特征参数,所述参数为梅尔频率倒谱系数。
4.如权利要求1所述的一种可自定义指令识别的语音拍照***,其特征在于:所述语言识别控制模块采用模板匹配的方法,通过动态时间规整将待识别语音指令的音频信号参数与特征模式库存储的数据进行比对,进行失真度测量。
CN201610204445.0A 2016-04-01 2016-04-01 一种可自定义指令识别的语音拍照*** Pending CN105931637A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610204445.0A CN105931637A (zh) 2016-04-01 2016-04-01 一种可自定义指令识别的语音拍照***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610204445.0A CN105931637A (zh) 2016-04-01 2016-04-01 一种可自定义指令识别的语音拍照***

Publications (1)

Publication Number Publication Date
CN105931637A true CN105931637A (zh) 2016-09-07

Family

ID=56840120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610204445.0A Pending CN105931637A (zh) 2016-04-01 2016-04-01 一种可自定义指令识别的语音拍照***

Country Status (1)

Country Link
CN (1) CN105931637A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106550132A (zh) * 2016-10-25 2017-03-29 努比亚技术有限公司 一种移动终端及其控制方法
CN106847281A (zh) * 2017-02-26 2017-06-13 上海新柏石智能科技股份有限公司 基于语音模糊识别技术的智能家居语音控制***及方法
CN108010526A (zh) * 2017-12-08 2018-05-08 北京奇虎科技有限公司 语音处理方法及装置
CN108074561A (zh) * 2017-12-08 2018-05-25 北京奇虎科技有限公司 语音处理方法及装置
CN108553260A (zh) * 2018-03-23 2018-09-21 湖北淇思智控科技有限公司 一种智能按摩枕的远程监控***及其控制方法
CN108831469A (zh) * 2018-08-06 2018-11-16 珠海格力电器股份有限公司 语音命令定制方法、装置和设备及计算机存储介质
CN109302528A (zh) * 2018-08-21 2019-02-01 努比亚技术有限公司 一种拍照方法、移动终端及计算机可读存储介质
CN109561003A (zh) * 2018-12-20 2019-04-02 深圳市朗强科技有限公司 一种基于声控的红外遥控器及电器控制***
CN110602391A (zh) * 2019-08-30 2019-12-20 Oppo广东移动通信有限公司 拍照控制方法、装置、存储介质及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320560A (zh) * 2008-07-01 2008-12-10 上海大学 语音识别***应用采样速率转化提高识别率的方法
CN101794126A (zh) * 2009-12-15 2010-08-04 广东工业大学 一种无线智能家电语音控制***
CN102509547A (zh) * 2011-12-29 2012-06-20 辽宁工业大学 基于矢量量化的声纹识别方法及***
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别***及其识别方法
CN102982803A (zh) * 2012-12-11 2013-03-20 华南师范大学 基于hrsf及改进dtw算法的孤立词语音识别方法
CN202872910U (zh) * 2012-11-14 2013-04-10 广东欧珀移动通信有限公司 一种基于语音识别拍照的移动终端
CN104883503A (zh) * 2015-05-28 2015-09-02 牟肇健 基于语音的个性化拍照技术
CN104978960A (zh) * 2015-07-01 2015-10-14 陈包容 一种基于语音识别拍照的方法及装置
TWI519122B (zh) * 2012-11-12 2016-01-21 輝達公司 行動資訊裝置與利用語音控制行動資訊裝置的方法
US20160080628A1 (en) * 2005-10-17 2016-03-17 Cutting Edge Vision Llc Pictures using voice commands

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160080628A1 (en) * 2005-10-17 2016-03-17 Cutting Edge Vision Llc Pictures using voice commands
CN101320560A (zh) * 2008-07-01 2008-12-10 上海大学 语音识别***应用采样速率转化提高识别率的方法
CN101794126A (zh) * 2009-12-15 2010-08-04 广东工业大学 一种无线智能家电语音控制***
CN102509547A (zh) * 2011-12-29 2012-06-20 辽宁工业大学 基于矢量量化的声纹识别方法及***
CN102789779A (zh) * 2012-07-12 2012-11-21 广东外语外贸大学 一种语音识别***及其识别方法
TWI519122B (zh) * 2012-11-12 2016-01-21 輝達公司 行動資訊裝置與利用語音控制行動資訊裝置的方法
CN202872910U (zh) * 2012-11-14 2013-04-10 广东欧珀移动通信有限公司 一种基于语音识别拍照的移动终端
CN102982803A (zh) * 2012-12-11 2013-03-20 华南师范大学 基于hrsf及改进dtw算法的孤立词语音识别方法
CN104883503A (zh) * 2015-05-28 2015-09-02 牟肇健 基于语音的个性化拍照技术
CN104978960A (zh) * 2015-07-01 2015-10-14 陈包容 一种基于语音识别拍照的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵力: "《高等院校通信与信息专业规划教材--语音信号处理第2版》", 31 May 2009 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106550132A (zh) * 2016-10-25 2017-03-29 努比亚技术有限公司 一种移动终端及其控制方法
CN106847281A (zh) * 2017-02-26 2017-06-13 上海新柏石智能科技股份有限公司 基于语音模糊识别技术的智能家居语音控制***及方法
CN108010526A (zh) * 2017-12-08 2018-05-08 北京奇虎科技有限公司 语音处理方法及装置
CN108074561A (zh) * 2017-12-08 2018-05-25 北京奇虎科技有限公司 语音处理方法及装置
CN108010526B (zh) * 2017-12-08 2021-11-23 北京奇虎科技有限公司 语音处理方法及装置
CN108553260A (zh) * 2018-03-23 2018-09-21 湖北淇思智控科技有限公司 一种智能按摩枕的远程监控***及其控制方法
CN108831469A (zh) * 2018-08-06 2018-11-16 珠海格力电器股份有限公司 语音命令定制方法、装置和设备及计算机存储介质
CN109302528A (zh) * 2018-08-21 2019-02-01 努比亚技术有限公司 一种拍照方法、移动终端及计算机可读存储介质
CN109302528B (zh) * 2018-08-21 2021-05-25 努比亚技术有限公司 一种拍照方法、移动终端及计算机可读存储介质
CN109561003A (zh) * 2018-12-20 2019-04-02 深圳市朗强科技有限公司 一种基于声控的红外遥控器及电器控制***
CN110602391A (zh) * 2019-08-30 2019-12-20 Oppo广东移动通信有限公司 拍照控制方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN105931637A (zh) 一种可自定义指令识别的语音拍照***
CN112074901B (zh) 语音识别登入
JP6859522B2 (ja) ユーザ声紋モデルを構築するための方法、装置、及びシステム
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
US10074363B2 (en) Method and apparatus for keyword speech recognition
WO2020211354A1 (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
CN112088402A (zh) 用于说话者识别的联合神经网络
CN110136749A (zh) 说话人相关的端到端语音端点检测方法和装置
US20190259388A1 (en) Speech-to-text generation using video-speech matching from a primary speaker
CN106294774A (zh) 基于对话服务的用户个性化数据处理方法及装置
CN107369439A (zh) 一种语音唤醒方法和装置
CN112233680B (zh) 说话人角色识别方法、装置、电子设备及存储介质
US11790900B2 (en) System and method for audio-visual multi-speaker speech separation with location-based selection
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN109935226A (zh) 一种基于深度神经网络的远场语音识别增强***及方法
CN108735200A (zh) 一种说话人自动标注方法
CN113744742B (zh) 对话场景下的角色识别方法、装置和***
CN110211609A (zh) 一种提升语音识别准确率的方法
Yun et al. An end-to-end text-independent speaker verification framework with a keyword adversarial network
CN105869636A (zh) 一种语音识别装置及其方法、一种智能电视及其控制方法
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
CN110931016A (zh) 一种离线质检用语音识别方法及***
US20180366127A1 (en) Speaker recognition based on discriminant analysis
CN107123420A (zh) 一种语音识别***及其交互方法
US20230169988A1 (en) Method and apparatus for performing speaker diarization based on language identification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160907

RJ01 Rejection of invention patent application after publication