CN105719650A - 一种语音识别的方法及*** - Google Patents
一种语音识别的方法及*** Download PDFInfo
- Publication number
- CN105719650A CN105719650A CN201610065010.2A CN201610065010A CN105719650A CN 105719650 A CN105719650 A CN 105719650A CN 201610065010 A CN201610065010 A CN 201610065010A CN 105719650 A CN105719650 A CN 105719650A
- Authority
- CN
- China
- Prior art keywords
- identification module
- speech data
- module
- order word
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 12
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 7
- 230000007812 deficiency Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种语音识别的方法及***,目的在于解决语音识别***不能大规模应用于智能硬件的不足,其包括以下步骤:获取语音数据;通过命令词识别模块识别所述语音数据,若所述命令词识别模块识别出所述语音数据,则输出所述命令词识别模块识别的语音数据结果;若否,则输入至听写识别模块;通过听写识别模块识别所述输入至听写识别模块的语音数据,并获得最终的语音数据结果。该一种语音识别的方法及***通过在语音输入后首先进行命令词识别,如果命令词识别未识别出再进行听写识别,最后给出识别结果,在一定程度上扩大了语音识别***在智能硬件上应用规模。
Description
技术领域
本发明涉及语音识别领域,特别涉及一种语音识别的方法及***。
背景技术
语音识别技术就是让机器通过识别和理解过程将语音信号转变为相应的文字或命令的技术。目前现有的语音识别***包括听写识别和命令词识别,而这两种技术都存在缺陷。听写识别的不足在于对计算机硬件以及通信网络要求相对较高,响应时间比较长;命令词识别虽然不需要网络但是其识别内容受到限制,无法满足需要大量内容识别的需求,因此,在目前的智能硬件上还无法大规模应用语音识别。
发明内容
为了克服现有技术语音识别***不能大规模应用智能硬件的不足,本发明的目的在于提供一种便于语音识别***大规模应用的语音识别的方法及***。
为解决上述问题,本发明所采用的技术方案如下:提供一种语音识别的方法,包括以下步骤:
S101:获取语音数据;
S102:通过命令词识别模块识别所述语音数据,若所述命令词识别模块识别出所述语音数据,则输出所述命令词识别模块识别的语音数据结果;若否,则输入至听写识别模块;
S103:通过听写识别模块识别所述输入至听写识别模块的语音数据,并获得最终的语音数据结果。
优选地,步骤S102包括以下步骤:
根据命令词构建波纹库;
将获取的语音数据的波纹与波纹库内的波纹进行比对,若有,则输出命令词识别模块识别的语音数据结果;若无,则输入至听写识别模块。
优选地,步骤S103包括以下步骤:
从所述输入至听写识别模块的语音数据中提取特征信息;
利用隐马尔可夫模型处理特征信息获得最终的语音数据结果。
优选地,所述特征信息为MFCC或PLP。
提供一种语音识别的***,其特征在于,包括获取模块、命令词识别模块以及听写识别模块,所述命令词识别模块连接所述获取模块,所述听写识别模块连接所述命令词识别模块;其中,
所述获取模块用于获取语音数据;
所述命令词识别模块用于识别所述语音数据,若所述命令词识别模块识别出所述语音数据,则输出所述命令词识别模块识别的语音数据结果;若否,则输入至所述听写识别模块;
所述听写识别模块用于识别所述命令词识别模块输入的语音数据,并获得最终的语音数据结果。
优选地,所述命令词识别模块包括构建模块和比对模块,所述构建模块用于根据命令词构建波纹库,所述比对模块用于将获取的语音数据的波纹与波纹库内的波纹进行比对,若有,则输出所述命令词识别模块识别的语音数据结果;若否,则输入至听写识别模块。
优选地,所述听写识别模块包括提取模块和模型模块,所述提取模块用于从所述输入至听写识别模块的语音数据中提取特征信息,所述模型模块用于利用隐马尔可夫模型处理特征信息获得最终的语音数据结果。
优选地,所述听写识别模块为HTK语音识别模块。
相比现有技术,本发明的有益效果在于:
该一种语音识别的方法及***通过在语音输入后首先进行命令词识别,如果命令词识别出识别结果则识别完成,如果未识别出识别结果则进行听写识别,最后给出识别结果,使得语音识别技术能够在不需要过高的硬件配置不需要对网络依赖不受识别内容限制的情况下,仍能够拥有较高的识别精度,同时,在一定程度上还扩大了语音识别***在智能硬件上应用规模。
附图说明
图1是本发明实施例一种语音识别的方法的流程图;
图2是本发明实施例一种语音识别的***的模块结构图。
图中标识说明:
1001、获取模块;1002、命令词识别模块;1003、听写识别模块。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细说明。
请参阅图1,图1示出了本发明提供的实施例一种语音识别方法的流程图,该语音识别的方法包括以下步骤:
S101:获取语音数据;
S102:通过命令词识别模块识别所述语音数据,若所述命令词识别模块识别出所述语音数据,则输出所述命令词识别模块识别的语音数据结果;若否,则输入至听写识别模块;
具体地,步骤S102包括以下步骤:
根据命令词构建波纹库;
将获取的语音数据的波纹与波纹库内的波纹进行比对,若有,则输出命令词识别模块识别的语音数据结果;若无,则输入至听写识别模块。
S103:通过听写识别模块识别所述输入至听写识别模块的语音数据,并获得最终的语音数据结果。
具体地,步骤S103包括以下步骤:
从所述输入至听写识别模块的语音数据中提取特征信息;
利用隐马尔可夫模型处理特征信息获得最终的语音数据结果。
可选地,上述特征信息可以为MFCC(Mel-FrequencyCepstralCoefficients,Mel频率倒谱系数)或PLP(PerceptualLinearPrediction,感知线性预测系数)。
本发明一种提供的实施例一种识别***,其包括获取模块1001、命令词识别模块1002以及听写识别模块1003,所述命令词识别模块1002连接获取模块1001,所述听写识别模块1003连接所述命令词识别模块1002;其中,
所述获取模块1001用于获取语音数据;
所述命令词识别模块1002用于识别所述语音数据,若所述命令词识别模块1002识别出所述语音数据,则输出所述命令词识别模块1002识别的语音数据结果;若否,则输入至所述听写识别模块1003;
所述听写识别模块1003用于识别所述命令词识别模块1002输入的语音数据,并获得最终的语音数据结果。
命令词识别模块1002包括构建模块和比对模块,其中,构建模块用于根据命令词构建波纹库;比对模块用于将获取的语音数据的波纹与波纹库内的波纹进行比对,若有,则输出所述命令词识别模块1002识别的语音数据结果,若无,则输入至听写识别模块1003。
听写识别模块1003包括提取模块和模型模块,其中,提取模块用于从所述输入至听写识别模块1003的语音数据中提取特征信息;模型模块用于利用隐马尔可夫模型处理特征信息获得最终的语音数据结果。
优选地,听写识别模块1003为HTK语音识别模块。
与现有技术相比,本发明具有以下有益效果:
该一种语音识别的方法及***通过在语音输入后首先进行命令词识别,如果命令词识别出结果则识别完成,如果未识别出识别结果则进行听写识别,最后给出识别结果,使得语音识别技术能够在不需要过高的硬件配置不需要对网络依赖不受识别内容限制的情况下,仍能够拥有较高的识别精度,同时,在一定程度上还扩大了语音识别***在智能硬件上应用规模。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。
Claims (8)
1.一种语音识别的方法,其特征在于,包括以下步骤:
S101:获取语音数据;
S102:通过命令词识别模块识别所述语音数据,若所述命令词识别模块识别出所述语音数据,则输出所述命令词识别模块识别的语音数据结果;若否,则输入至听写识别模块;
S103:通过听写识别模块识别所述输入至听写识别模块的语音数据,并获得最终的语音数据结果。
2.如权利要求1所述的语音识别的方法,其特征在于,步骤S102包括以下步骤:
根据命令词构建波纹库;
将获取的语音数据的波纹与波纹库内的波纹进行比对,若有,则输出命令词识别模块识别的语音数据结果;若无,则输入至听写识别模块。
3.如权利要求1所述的语音识别的方法,其特征在于,步骤S103包括以下步骤:
从所述输入至听写识别模块的语音数据中提取特征信息;
利用隐马尔可夫模型处理特征信息获得最终的语音数据结果。
4.如权利要求3所述的语音识别的方法,其特征在于,所述特征信息为MFCC或PLP。
5.一种语音识别的***,其特征在于,包括获取模块、命令词识别模块以及听写识别模块,所述命令词识别模块连接所述获取模块,所述听写识别模块连接所述命令词识别模块;其中,
所述获取模块用于获取语音数据;
所述命令词识别模块用于识别所述语音数据,若所述命令词识别模块识别出所述语音数据,则输出所述命令词识别模块识别的语音数据结果;若否,则输入至所述听写识别模块;
所述听写识别模块用于识别所述命令词识别模块输入的语音数据,并获得最终的语音数据结果。
6.如权利要求5所述的语音识别的***,其特征在于,所述命令词识别模块包括构建模块和比对模块,所述构建模块用于根据命令词构建波纹库,所述比对模块用于将获取的语音数据的波纹与波纹库内的波纹进行比对,若有,则输出所述命令词识别模块识别的语音数据结果;若否,则输入至听写识别模块。
7.如权利要求5所述的语音识别的***,其特征在于,所述听写识别模块包括提取模块和模型模块,所述提取模块用于从所述输入至听写识别模块的语音数据中提取特征信息,所述模型模块用于利用隐马尔可夫模型处理特征信息获得最终的语音数据结果。
8.如权利要求5所述的语音识别的***,其特征在于,所述听写识别模块为HTK语音识别模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610065010.2A CN105719650A (zh) | 2016-01-30 | 2016-01-30 | 一种语音识别的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610065010.2A CN105719650A (zh) | 2016-01-30 | 2016-01-30 | 一种语音识别的方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105719650A true CN105719650A (zh) | 2016-06-29 |
Family
ID=56154485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610065010.2A Pending CN105719650A (zh) | 2016-01-30 | 2016-01-30 | 一种语音识别的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105719650A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106371801A (zh) * | 2016-09-23 | 2017-02-01 | 安徽声讯信息技术有限公司 | 一种基于语音识别技术的语音鼠标*** |
CN106653013A (zh) * | 2016-09-30 | 2017-05-10 | 北京奇虎科技有限公司 | 语音识别方法及装置 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2634587Y (zh) * | 2003-03-06 | 2004-08-18 | 深圳市和而泰电子科技有限公司 | 语音控制洗衣机控制器 |
CN1537663A (zh) * | 2003-10-23 | 2004-10-20 | 天威科技股份有限公司 | 语音辨识互动型玩偶 |
CN1692406A (zh) * | 2003-02-03 | 2005-11-02 | 三菱电机株式会社 | 车载控制装置 |
CN101192925A (zh) * | 2006-11-20 | 2008-06-04 | 华为技术有限公司 | 说话人验证方法和***及媒体资源控制实体和处理实体 |
CN102723081A (zh) * | 2012-05-30 | 2012-10-10 | 林其灿 | 语音信号处理方法、语音和声纹识别方法及其装置 |
CN102841772A (zh) * | 2012-08-06 | 2012-12-26 | 四川长虹电器股份有限公司 | 语音控制智能终端显示文件的方法 |
CN102968992A (zh) * | 2012-11-26 | 2013-03-13 | 北京奇虎科技有限公司 | 用于浏览器的语音识别处理方法和浏览器 |
CN202838947U (zh) * | 2012-08-20 | 2013-03-27 | 上海闻通信息科技有限公司 | 一种语音遥控器 |
CN103475551A (zh) * | 2013-09-11 | 2013-12-25 | 厦门狄耐克电子科技有限公司 | 一种基于语音识别的智能家居*** |
CN103714816A (zh) * | 2012-09-28 | 2014-04-09 | 三星电子株式会社 | 电子装置、服务器及其控制方法 |
CN104160372A (zh) * | 2012-02-24 | 2014-11-19 | 三星电子株式会社 | 用于通过语音识别来控制终端的锁定/解锁状态的方法和设备 |
CN104269016A (zh) * | 2014-09-22 | 2015-01-07 | 北京奇艺世纪科技有限公司 | 一种报警方法及装置 |
CN104575504A (zh) * | 2014-12-24 | 2015-04-29 | 上海师范大学 | 采用声纹和语音识别进行个性化电视语音唤醒的方法 |
CN104732590A (zh) * | 2015-03-09 | 2015-06-24 | 北京工业大学 | 一种手语动画的合成方法 |
CN105120048A (zh) * | 2015-07-21 | 2015-12-02 | 广东欧珀移动通信有限公司 | 通话语音的记录方法和*** |
-
2016
- 2016-01-30 CN CN201610065010.2A patent/CN105719650A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1692406A (zh) * | 2003-02-03 | 2005-11-02 | 三菱电机株式会社 | 车载控制装置 |
CN2634587Y (zh) * | 2003-03-06 | 2004-08-18 | 深圳市和而泰电子科技有限公司 | 语音控制洗衣机控制器 |
CN1537663A (zh) * | 2003-10-23 | 2004-10-20 | 天威科技股份有限公司 | 语音辨识互动型玩偶 |
CN101192925A (zh) * | 2006-11-20 | 2008-06-04 | 华为技术有限公司 | 说话人验证方法和***及媒体资源控制实体和处理实体 |
CN104160372A (zh) * | 2012-02-24 | 2014-11-19 | 三星电子株式会社 | 用于通过语音识别来控制终端的锁定/解锁状态的方法和设备 |
CN102723081A (zh) * | 2012-05-30 | 2012-10-10 | 林其灿 | 语音信号处理方法、语音和声纹识别方法及其装置 |
CN102841772A (zh) * | 2012-08-06 | 2012-12-26 | 四川长虹电器股份有限公司 | 语音控制智能终端显示文件的方法 |
CN202838947U (zh) * | 2012-08-20 | 2013-03-27 | 上海闻通信息科技有限公司 | 一种语音遥控器 |
CN103714816A (zh) * | 2012-09-28 | 2014-04-09 | 三星电子株式会社 | 电子装置、服务器及其控制方法 |
CN102968992A (zh) * | 2012-11-26 | 2013-03-13 | 北京奇虎科技有限公司 | 用于浏览器的语音识别处理方法和浏览器 |
CN103475551A (zh) * | 2013-09-11 | 2013-12-25 | 厦门狄耐克电子科技有限公司 | 一种基于语音识别的智能家居*** |
CN104269016A (zh) * | 2014-09-22 | 2015-01-07 | 北京奇艺世纪科技有限公司 | 一种报警方法及装置 |
CN104575504A (zh) * | 2014-12-24 | 2015-04-29 | 上海师范大学 | 采用声纹和语音识别进行个性化电视语音唤醒的方法 |
CN104732590A (zh) * | 2015-03-09 | 2015-06-24 | 北京工业大学 | 一种手语动画的合成方法 |
CN105120048A (zh) * | 2015-07-21 | 2015-12-02 | 广东欧珀移动通信有限公司 | 通话语音的记录方法和*** |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106371801A (zh) * | 2016-09-23 | 2017-02-01 | 安徽声讯信息技术有限公司 | 一种基于语音识别技术的语音鼠标*** |
CN106653013A (zh) * | 2016-09-30 | 2017-05-10 | 北京奇虎科技有限公司 | 语音识别方法及装置 |
CN106653013B (zh) * | 2016-09-30 | 2019-12-20 | 北京奇虎科技有限公司 | 语音识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103700370B (zh) | 一种广播电视语音识别***方法及*** | |
CN106448663A (zh) | 语音唤醒方法及语音交互装置 | |
CN108074576A (zh) | 审讯场景下的说话人角色分离方法及*** | |
CN110097870B (zh) | 语音处理方法、装置、设备和存储介质 | |
CN101923857A (zh) | 一种人机交互的可扩展语音识别方法 | |
CN102915731A (zh) | 一种个性化的语音识别的方法及装置 | |
CN104538034A (zh) | 一种语音识别方法及*** | |
CN105931637A (zh) | 一种可自定义指令识别的语音拍照*** | |
CN105225665A (zh) | 一种语音识别方法及语音识别装置 | |
CN110706707B (zh) | 用于语音交互的方法、装置、设备和计算机可读存储介质 | |
CN113674746B (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN109215634A (zh) | 一种多词语音控制通断装置的方法及其*** | |
CN110246496A (zh) | 语音识别方法、***、计算机设备及储存介质 | |
WO2022108830A1 (en) | Adapting hotword recognition based on personalized negatives | |
CN111862943B (zh) | 语音识别方法和装置、电子设备和存储介质 | |
CN105719650A (zh) | 一种语音识别的方法及*** | |
US20040193416A1 (en) | System and method for speech recognition utilizing a merged dictionary | |
CN114267342A (zh) | 识别模型的训练方法、识别方法、电子设备及存储介质 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN111477226A (zh) | 控制方法、智能设备和存储介质 | |
CN114399992B (zh) | 语音指令响应方法、装置及存储介质 | |
CN115862604A (zh) | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 | |
CN102592592A (zh) | 语音数据的提取方法和装置 | |
CN114155845A (zh) | 服务确定方法、装置、电子设备及存储介质 | |
CN114121022A (zh) | 语音唤醒方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160629 |