CN112151028A - 一种语音识别的方法及装置 - Google Patents
一种语音识别的方法及装置 Download PDFInfo
- Publication number
- CN112151028A CN112151028A CN202010906497.9A CN202010906497A CN112151028A CN 112151028 A CN112151028 A CN 112151028A CN 202010906497 A CN202010906497 A CN 202010906497A CN 112151028 A CN112151028 A CN 112151028A
- Authority
- CN
- China
- Prior art keywords
- voice
- module
- state information
- application
- application state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 147
- 230000003213 activating effect Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 18
- 230000009286 beneficial effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音识别的方法及装置,用以实现在特定情况下较快捷的处理语音命令。所述方法,包括:在应用模块处于休眠状态下,获取关于所述应用模块的应用状态信息;在应用模块处于休眠状态下,接收输入的语音;在所述应用状态信息属于预设的应用状态信息时,将所述语音作为语音命令,同所述应用状态信息,发送到语音处理后端进行语音识别。
Description
技术领域
本发明涉及计算机及通信技术领域,特别涉及一种语音识别的方法及装置。
背景技术
语音识别和控制技术是人工智能的核心基础。已有很多智能设备支持语音控制。用户说出唤醒词,唤醒智能设备,是语音控制智能设备的第一步。但是在一些特殊的场景中,用户可能比较着急,先说唤醒词,再说语音命令,可能会耽误一些时间。
发明内容
本发明提供一种语音识别的方法及装置,用以实现在特定情况下较快捷的处理语音命令。
本发明提供一种语音识别的方法,应用于语音处理前端,所述方法包括:
在应用模块处于休眠状态下,获取关于所述应用模块的应用状态信息;
在应用模块处于休眠状态下,接收输入的语音;
在所述应用状态信息属于预设的应用状态信息时,将所述语音作为语音命令,同所述应用状态信息,发送到语音处理后端进行语音识别。
本发明的实施例提供的技术方案可以包括以下有益效果:本实施例实现了在应用的特定状态下可以不需要唤醒词,而直接处理语音命令。有助于较快对应用的当前状态进行响应和处理。
可选的,所述方法还包括:
接收语音处理后端发送的控制命令;
激活所述应用模块;
向所述应用模块发送所述控制命令。
本发明的实施例提供的技术方案可以包括以下有益效果:本实施例可以连续实现应用模块的激活和控制命令的传输,不需要唤醒词的触发,有助于较快对应用的当前状态进行响应和处理。
可选的,所述方法还包括:
在所述应用状态信息不属于预设的应用状态信息时,将所述语音作为唤醒词发送到语音处理后端进行语音识别。
本发明的实施例提供的技术方案可以包括以下有益效果:本实施例中在所述应用状态信息不属于预设的应用状态信息时,可以按照唤醒方式处理语音。
可选的,所述方法还包括:
向所述语音处理后端发送所述应用模块的用户标识。
本发明的实施例提供的技术方案可以包括以下有益效果:本实施例中,将应用状态与用户标识绑定,便于对语音的处理结果更符合用户的需求。
可选的,所述应用模块位于外部的智能终端;
所述获取关于所述应用模块的应用状态信息,包括:
接收外部的智能终端发送的所述应用模块的应用状态信息。
本发明的实施例提供的技术方案可以包括以下有益效果:本实施例中语音处理前端不仅可以处理针对本地应用的语音,也可以处理针对外部关联设备的应用的语音。
本发明提供一种语音识别的方法,应用于语音处理后端,所述方法包括:
接收语音处理前端发来的应用状态信息和语音;
将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配;
在匹配一致时,将匹配一致的语音命令对应的控制命令发送给语音处理前端。
本发明的实施例提供的技术方案可以包括以下有益效果:
可选的,所述语音包括唤醒词和命令词;
所述方法还包括:
从所述语音中解析出唤醒词和命令词;
删除所述唤醒词;
所述将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配,包括:
将所述命令词与预设的与所述应用状态信息对应的语音命令进行匹配。
本发明的实施例提供的技术方案可以包括以下有益效果:
可选的,所述方法还包括:
接收语音处理前端发来的语音;
判断所述应用状态信息是否处于有效期;
在处于有效期时,将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配;
在不处于有效期时,将所述语音作为通常语音进行处理。
本发明的实施例提供的技术方案可以包括以下有益效果:
可选的,所述方法还包括:
接收语音处理前端发来的所述应用模块的用户标识;
调用所述用户标识对应的场景上下文,所述场景上下文包括应用状态信息与语音命令的对应关系。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明提供一种语音识别的装置,应用于语音处理前端,包括:
获取模块,用于在应用模块处于休眠状态下,获取关于所述应用模块的应用状态信息;
第一接收模块,用于在应用模块处于休眠状态下,接收输入的语音;
第一发送模块,用于在所述应用状态信息属于预设的应用状态信息时,将所述语音作为语音命令,同所述应用状态信息,发送到语音处理后端进行语音识别。
可选的,所述装置还包括:
第二接收模块,用于接收语音处理后端发送的控制命令;
激活模块,用于激活所述应用模块;
第二发送模块,用于向所述应用模块发送所述控制命令。
可选的,所述装置还包括:
第三发送模块,用于在所述应用状态信息不属于预设的应用状态信息时,将所述语音作为唤醒词发送到语音处理后端进行语音识别。
可选的,所述装置还包括:
第四发送模块,用于向所述语音处理后端发送所述应用模块的用户标识。
可选的,所述应用模块位于外部的智能终端;
所述获取模块包括:
接收子模块,用于接收外部的智能终端发送的所述应用模块的应用状态信息。
本发明提供一种语音识别的装置,应用于语音处理后端,所述装置包括:
第一接收模块,用于接收语音处理前端发来的应用状态信息和语音;
第一匹配模块,用于将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配;
发送模块,用于在匹配一致时,将匹配一致的语音命令对应的控制命令发送给语音处理前端。
可选的,所述语音包括唤醒词和命令词;
所述装置还包括:
解析模块,用于从所述语音中解析出唤醒词和命令词;
删除模块,用于删除所述唤醒词;
所述第一匹配模块包括:
匹配子模块,用于将所述命令词与预设的与所述应用状态信息对应的语音命令进行匹配。
可选的,所述装置还包括:
第二接收模块,用于接收语音处理前端发来的语音;
判断模块,用于判断所述应用状态信息是否处于有效期;
第二匹配模块,用于在处于有效期时,将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配;
第三匹配模块,用于在不处于有效期时,将所述语音作为通常语音进行处理。
可选的,所述装置还包括:
第三接收模块,用于接收语音处理前端发来的所述应用模块的用户标识;
调用模块,用于调用所述用户标识对应的场景上下文,所述场景上下文包括应用状态信息与语音命令的对应关系。
本发明提供一种语音识别的装置,应用于语音处理前端,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在应用模块处于休眠状态下,获取关于所述应用模块的应用状态信息;
在应用模块处于休眠状态下,接收输入的语音;
在所述应用状态信息属于预设的应用状态信息时,将所述语音作为语音命令,同所述应用状态信息,发送到语音处理后端进行语音识别。
本发明提供一种语音识别的装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
接收语音处理前端发来的应用状态信息和语音;
将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配;
在匹配一致时,将匹配一致的语音命令对应的控制命令发送给语音处理前端。
本发明提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被处理器执行时实现语音处理前端的方法的步骤。
本发明提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被处理器执行时实现语音处理后端的方法的步骤。
本发明提供一种语音识别的***,包括:用于语音处理前端的装置,和用于语音处理后端的装置。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中语音识别的方法流程图;
图2为本发明实施例中语音识别的方法流程图;
图3为本发明实施例中语音识别的方法流程图;
图4为本发明实施例中语音识别的方法流程图;
图5为本发明实施例中语音识别的方法流程图;
图6为本发明实施例中语音识别的装置结构图;
图7为本发明实施例中语音识别的装置结构图;
图8为本发明实施例中语音识别的装置结构图;
图9为本发明实施例中语音识别的装置结构图;
图10为本发明实施例中获取模块的结构图;
图11为本发明实施例中语音识别的装置结构图;
图12为本发明实施例中语音识别的装置结构图;
图13为本发明实施例中第一匹配模块的结构图;
图14为本发明实施例中语音识别的装置结构图;
图15为本发明实施例中语音识别的装置结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
相关技术中,用户说出唤醒词,唤醒智能设备,是语音控制智能设备的第一步。但是在一些特殊的场景中,用户可能比较着急,先说唤醒词,再说语音命令,可能会耽误一些时间。
为解决上述问题,本实施例在一些应用的特定状态下,可以不需要唤醒词,直接将语音作为语音命令进行处理。有助于较快捷的响应应用的当前状态和进行相应的处理。
参见图1,本实施例中语音识别的方法包括:
步骤101:在应用模块处于休眠状态下,获取关于所述应用模块的应用状态信息。
步骤102:在应用模块处于休眠状态下,接收输入的语音。
步骤103:在所述应用状态信息属于预设的应用状态信息时,将所述语音作为语音命令,同所述应用状态信息,发送到语音处理后端进行语音识别。
本实施例中,在应用模块处于激活状态下,可以获取关于所述应用模块的应用状态信息,也可以不获取应用状态信息。将收到的语音作为语音命令,发送到语音处理后端进行语音识别。此时可以发送,也可以不用发送当前的应用状态信息。
本实施例可以由语音处理前端实现,语音处理前端用于接收语音。语音处理前端与语音处理后端可以位于同一智能设备内,实现离线语音识别。或者,语音处理前端位于智能终端,语音处理后端位于云端服务器,实现在线语音识别。其中,智能设备和智能终端,可以是家里的中控设备、智能音箱等设备。
语音处理前端与所述应用模块可以位于同一智能设备内,当应用模块的某项功能被触发时,应用模块通过操作***将当前的应用状态信息发送给语音处理前端。语音处理前端与所述应用模块可以位于不同的智能设备,例如语音处理前端是家里的中控设备,应用模块是闹钟、门禁、音箱等智能设备。当应用模块的某项功能被触发时,应用模块通过网络将当前的应用状态信息发送给语音处理前端。
应用状态信息是应用模块中某些使用户不宜等待过长时间的功能的状态,可以预先配置。例如,应用模块是闹钟时,应用状态信息是闹钟响铃时的状态信息。又如,应用模块是门禁,应用状态信息是门禁收到开门请求时的状态信息。应用状态信息可以包括应用标识和状态标识。
本实施例中区分唤醒词和语音命令。唤醒词用于唤醒处于休眠状态的应用模块。唤醒词一般包括应用模块的标识信息。在收到唤醒词后,激活相应的应用模块,即使应用模块从休眠状态转换为激活状态。语音命令是在应用模块处于激活状态下有效。将语音命令转换为相应的控制命令,将控制命令发送给应用模块,应用模块对控制命令进行处理。例如,应用模块是闹钟,当前状态是闹钟响铃,语音命令如“关闭闹钟”,相应的控制命令是关闭响铃。
本实施例中,在收到应用状态信息,且该应用状态信息符合预设的应用状态信息时,可以将收到的语音作为语音命令进行处理,而不是作为唤醒词进行处理。该语音可以不用包括应用模块的标识信息。例如,应用模块是闹钟,当前状态是闹钟响铃,语音命令如“关闭”,根据应用状态信息确定相应的控制命令,控制命令是关闭闹钟的响铃。此时不会得到关于其它应用模块的控制命令,如不会关闭音乐播放(不会关闭音乐播放器)。并且,由于是根据应用状态信息确定相应的控制命令,所以可以减少环境声音的干扰,使得对语音的识别和得到控制命令更准确。
可选的,所述方法还包括:步骤A1-步骤A3。
步骤A1:接收语音处理后端发送的控制命令。
步骤A2:激活所述应用模块。
步骤A3:向所述应用模块发送所述控制命令。
本实施例中,语音控制前端在收到控制命令时,执行了两项处理,一项是激活应用模块,另一项是发送控制命令。由此可见,本实施例省略了唤醒词的触发过程,使得控制命令产生了两项作用。
语音控制前端根据之前收到的应用状态信息,便可确定需要激活的应用模块。该应用状态信息在语音控制前端中存在一定的有效期,该有效期可以是一个预设的时长,也可以是收到下一个应用状态信息,两者哪个先到来,都会使有效期结束。
或者,控制命令包含应用模块的标识信息,语音控制前端根据控制命令可以确定需要激活的应用模块。
可选的,所述方法还包括:步骤B1。
步骤B1:在所述应用状态信息不属于预设的应用状态信息时,将所述语音作为唤醒词发送到语音处理后端进行语音识别。
本实施例中,在所述应用状态信息不属于预设的应用状态信息时,可以确定当前的应用状态不是比较紧急的状态,可以按照先唤醒再命令的方式来处理。所以,此时收到的语音作为唤醒词进行处理。并且,在将所述语音作为唤醒词发送到语音处理后端进行语音识别时,可以不发送应用状态信息。与传统的语音处理方式兼容。
可选的,所述方法还包括:步骤C1。
步骤C1:向所述语音处理后端发送所述应用模块的用户标识。
本实施例中,还可以向语音处理后端发送用户标识,该用户标识与应用模块对应,可以认为是应用模块的帐号标识。语音处理后端可以对应多个语音处理前端,语音处理前端可以对应多个应用模块。语音处理后端通过用户标识可以知道是哪个用户的应用模块。根据用户标识和应用状态信息,可以确定对应该用户的应用模块和相应的控制命令。这样确定的控制命令更符合用户的需求。
步骤C1与步骤103可以同步进行,也就是说,可以在一条消息里向语音处理后端发送用户标识、语音命令和应用状态信息。
可选的,所述应用模块位于外部的智能终端。
所述步骤101包括:步骤D1。
步骤D1:接收外部的智能终端发送的所述应用模块的应用状态信息。
本实施例中,语音处理前端与所述应用模块可以位于不同的智能设备,例如语音处理前端是家里的中控设备,应用模块是闹钟、门禁、音箱等智能设备。当应用模块的某项功能被触发时,应用模块通过网络将当前的应用状态信息发送给语音处理前端。
下面通过实施例详细介绍实现过程。
参见图2,本实施例中语音识别的方法包括:
步骤201:在应用模块处于休眠状态下,获取关于所述应用模块的应用状态信息。
步骤202:在应用模块处于休眠状态下,接收输入的语音。
步骤203:在所述应用状态信息属于预设的应用状态信息时,将所述语音作为语音命令,同所述应用状态信息和所述应用模块的用户标识,发送到语音处理后端进行语音识别。
在所述应用状态信息不属于预设的应用状态信息时,将所述语音作为唤醒词发送到语音处理后端进行语音识别。
步骤204:接收语音处理后端发送的控制命令。
步骤205:激活所述应用模块。
步骤206:向所述应用模块发送所述控制命令。
参见图3,本实施例中语音识别的方法包括:
步骤301:接收语音处理前端发来的应用状态信息和语音。
步骤302:将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配。
步骤303:在匹配一致时,将匹配一致的语音命令对应的控制命令发送给语音处理前端。
本实施例可以由语音处理后端实现。语音处理后端存储有多种应用状态信息构成的上下文。每个应用状态信息对应有一组语音命令和与语音命令对应的控制命令。语音处理后端:将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配,可以缩小匹配范围,并且有助于提高语音命令识别的准确性。在匹配一致时,可以得到更适用于该应用模块的控制命令。例如,应用模块是闹钟,当前状态是闹钟响铃,语音命令如“关闭”,将“关闭”的语音命令与闹钟对应的语音命令匹配。例如,与闹钟对应的语音命令有“关闭闹铃”、“关闭闹钟”等。由于有响铃的应用状态信息,又有“关闭”的语音命令,所以可以确认匹配一致,此时可以降低匹配一致时的相似度阈值,或者将应用状态信息与收到的语音命令组合在一起与对应的语音命令进行匹配,得到“关闭闹铃”的匹配结果,并且可以确定实现“关闭闹铃”的控制命令。
本实施例中,语音处理后端在收到应用状态信息时,便可将收到的语音作为语音命令来处理,而不是作为唤醒词来处理。语音处理后端收到的语音命令实质是语音。
可选的,所述语音包括唤醒词和命令词。
所述方法还包括:步骤E1-步骤E2。
步骤E1:从所述语音中解析出唤醒词和命令词。
步骤E2:删除所述唤醒词。
所述步骤302包括:步骤E3。
步骤E3:将所述命令词与预设的与所述应用状态信息对应的语音命令进行匹配。
本实施例中,收到的语音可能包括唤醒词,例如,语音为“XX(闹钟的唤醒词),关闭闹铃”。语音处理后端在对语音进行识别时,可以识别出唤醒词,即从所述语音中解析出唤醒词和命令词。但是不需要对唤醒词进行处理,可以忽略或删除唤醒词。对命令词进行处理,与语音命令进行匹配,进而确定控制命令。可见,本实施例省略了对唤醒词的处理过程。并且不会受唤醒词的影响。
可选的,所述方法还包括:步骤F1-步骤F4。
步骤F1:接收语音处理前端发来的语音。
步骤F2:判断所述应用状态信息是否处于有效期。
步骤F3:在处于有效期时,将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配。
步骤F4:在不处于有效期时,将所述语音作为通常语音进行处理。
本实施例中,语音处理后端可以在步骤301后,再次收到语音。此时判断所述应用状态信息是否处于有效期。该应用状态信息在语音控制后端中存在一定的有效期,该有效期可以是一个预设的时长(如30秒、1分钟等),也可以是收到下一个应用状态信息,两者哪个先到来,都会使有效期结束。再次收到语音时,并且未收到应用状态信息,以及之前收到的应用状态信息处于有效期内,那么将当前收到的语音作为与处于有效期内的应用状态信息关联的语音命令进行处理,即将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配。如果之前收到的应用状态信息不处于有效期内,那么将所述语音命令与预设的通用的语音命令进行匹配。也就是说,不用将收到的语音与所述应用状态信息对应的语音命令进行匹配,而是将语音作为一个通常的语音进行处理,例如识别所述语音是否是某应用模块的唤醒词。本实施例中的通常语音区别于直接作为语音命令的语音。
本实施例中,应用状态信息的有效期的时长可以与应用模块处于激活状态的计时器的时长相近。应用模块处于激活状态下,若在计时器超时前一直未收到任何触发,则在计时器超时时转为休眠状态。
可选的,所述方法还包括:步骤G1-步骤G2。
步骤G1:接收语音处理前端发来的所述应用模块的用户标识。
步骤G2:调用所述用户标识对应的场景上下文,所述场景上下文包括应用状态信息与语音命令的对应关系。
本实施例中,步骤G1与步骤301可以是同一条消息。语音处理后端存储有多种应用状态信息构成的上下文,即场景上下文。构建有用户标识-应用状态信息-语音命令三者的对应关系。这样可以针对用户的使用习惯来进行语音命令的匹配,可以得到更准确的语音命令。并且,可以将同一用户的多个语音构成语音上下文,结合多个语音的前后逻辑,有助于得到更准确的语音命令。
下面通过实施例详细介绍实现过程。
参见图4,本实施例中语音识别的方法包括:
步骤401:接收语音处理前端发来的应用状态信息、应用模块的用户标识和语音。
步骤402:调用所述用户标识对应的场景上下文,所述场景上下文包括应用状态信息与语音命令的对应关系。
步骤403:将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配。
步骤404:在匹配一致时,将匹配一致的语音命令对应的控制命令发送给语音处理前端。
在匹配不一致时,向语音处理前端反馈表示语音识别失败的命令。
步骤405:接收语音处理前端发来的语音。
步骤406:判断所述应用状态信息是否处于有效期。在处于有效期时,继续步骤407;在不处于有效期时,继续步骤408。
步骤407:将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配。
步骤408:将所述语音作为通常语音进行处理。
下面结合语音处理前端和语音处理后端两侧来介绍实现过程。
参见图5,本实施例中语音识别的方法包括:
步骤501:语音处理前端在应用模块处于休眠状态下,获取关于所述应用模块的应用状态信息。
步骤502:语音处理前端在应用模块处于休眠状态下,接收输入的语音。
步骤503:语音处理前端在所述应用状态信息属于预设的应用状态信息时,将所述语音作为语音命令,同所述应用状态信息,发送到语音处理后端进行语音识别。
步骤504:语音处理后端将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配。
步骤505:语音处理后端在匹配一致时,将匹配一致的语音命令对应的控制命令发送给语音处理前端。
步骤506:语音处理前端激活所述应用模块。
步骤507:语音处理前端向所述应用模块发送所述控制命令。
上述实施例可根据实际需要进行自由组合。
通过以上描述介绍了语音识别的实现过程,该过程可由装置实现,下面对该装置的内部结构和功能进行介绍。
参见图6,本实施例中语音识别的装置,应用于语音处理前端,包括:获取模块601、第一接收模块602和第一发送模块603。
获取模块601,用于在应用模块处于休眠状态下,获取关于所述应用模块的应用状态信息。
第一接收模块602,用于在应用模块处于休眠状态下,接收输入的语音。
第一发送模块603,用于在所述应用状态信息属于预设的应用状态信息时,将所述语音作为语音命令,同所述应用状态信息,发送到语音处理后端进行语音识别。
可选的,如图7所示,所述装置还包括:第二接收模块701、激活模块702和第二发送模块703。
第二接收模块701,用于接收语音处理后端发送的控制命令。
激活模块702,用于激活所述应用模块。
第二发送模块703,用于向所述应用模块发送所述控制命令。
可选的,如图8所示,所述装置还包括:第三发送模块801。
第三发送模块801,用于在所述应用状态信息不属于预设的应用状态信息时,将所述语音作为唤醒词发送到语音处理后端进行语音识别。
可选的,如图9所示,所述装置还包括:第四发送模块901。
第四发送模块901,用于向所述语音处理后端发送所述应用模块的用户标识。
可选的,所述应用模块位于外部的智能终端。
如图10所示,所述获取模块601包括:接收子模块1001。
接收子模块1001,用于接收外部的智能终端发送的所述应用模块的应用状态信息。
参见图11,本实施例中语音识别的装置,应用于语音处理后端,所述装置包括:第一接收模块1101、第一匹配模块1102和发送模块1103。
第一接收模块1101,用于接收语音处理前端发来的应用状态信息和语音。
第一匹配模块1102,用于将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配。
发送模块1103,用于在匹配一致时,将匹配一致的语音命令对应的控制命令发送给语音处理前端。
可选的,所述语音包括唤醒词和命令词。
如图12所示,所述装置还包括:解析模块1201和删除模块1202。
解析模块1201,用于从所述语音中解析出唤醒词和命令词。
删除模块1202,用于删除所述唤醒词。
如图13所示,所述第一匹配模块1102包括:匹配子模块1301。
匹配子模块1301,用于将所述命令词与预设的与所述应用状态信息对应的语音命令进行匹配。
可选的,如图14所示,所述装置还包括:第二接收模块1401、判断模块1402、第二匹配模块1403和第三匹配模块1404。
第二接收模块1401,用于接收语音处理前端发来的语音。
判断模块1402,用于判断所述应用状态信息是否处于有效期。
第二匹配模块1403,用于在处于有效期时,将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配。
第三匹配模块1404,用于在不处于有效期时,将所述语音作为通常语音进行处理。
可选的,如图15所示,所述装置还包括:第三接收模块1501和调用模块1502。
第三接收模块1501,用于接收语音处理前端发来的所述应用模块的用户标识。
调用模块1502,用于调用所述用户标识对应的场景上下文,所述场景上下文包括应用状态信息与语音命令的对应关系。
一种语音识别的装置,应用于语音处理前端,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在应用模块处于休眠状态下,获取关于所述应用模块的应用状态信息;
在应用模块处于休眠状态下,接收输入的语音;
在所述应用状态信息属于预设的应用状态信息时,将所述语音作为语音命令,同所述应用状态信息,发送到语音处理后端进行语音识别。
一种语音识别的装置,应用于语音处理后端,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
接收语音处理前端发来的应用状态信息和语音;
将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配;
在匹配一致时,将匹配一致的语音命令对应的控制命令发送给语音处理前端。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现语音处理前端的所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现语音处理后端的所述方法的步骤。
一种语音识别的***,包括:语音处理前端和语音处理后端。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (23)
1.一种语音识别的方法,其特征在于,应用于语音处理前端,所述方法包括:
在应用模块处于休眠状态下,获取关于所述应用模块的应用状态信息;
在应用模块处于休眠状态下,接收输入的语音;
在所述应用状态信息属于预设的应用状态信息时,将所述语音作为语音命令,同所述应用状态信息,发送到语音处理后端进行语音识别。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
接收语音处理后端发送的控制命令;
激活所述应用模块;
向所述应用模块发送所述控制命令。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
在所述应用状态信息不属于预设的应用状态信息时,将所述语音作为唤醒词发送到语音处理后端进行语音识别。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
向所述语音处理后端发送所述应用模块的用户标识。
5.如权利要求1所述的方法,其特征在于,所述应用模块位于外部的智能终端;
所述获取关于所述应用模块的应用状态信息,包括:
接收外部的智能终端发送的所述应用模块的应用状态信息。
6.一种语音识别的方法,其特征在于,应用于语音处理后端,所述方法包括:
接收语音处理前端发来的应用状态信息和语音;
将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配;
在匹配一致时,将匹配一致的语音命令对应的控制命令发送给语音处理前端。
7.如权利要求6所述的方法,其特征在于,所述语音包括唤醒词和命令词;
所述方法还包括:
从所述语音中解析出唤醒词和命令词;
删除所述唤醒词;
所述将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配,包括:
将所述命令词与预设的与所述应用状态信息对应的语音命令进行匹配。
8.如权利要求6所述的方法,其特征在于,所述方法还包括:
接收语音处理前端发来的语音;
判断所述应用状态信息是否处于有效期;
在处于有效期时,将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配;
在不处于有效期时,将所述语音作为通常语音进行处理。
9.如权利要求6所述的方法,其特征在于,所述方法还包括:
接收语音处理前端发来的所述应用模块的用户标识;
调用所述用户标识对应的场景上下文,所述场景上下文包括应用状态信息与语音命令的对应关系。
10.一种语音识别的装置,其特征在于,应用于语音处理前端,包括:
获取模块,用于在应用模块处于休眠状态下,获取关于所述应用模块的应用状态信息;
第一接收模块,用于在应用模块处于休眠状态下,接收输入的语音;
第一发送模块,用于在所述应用状态信息属于预设的应用状态信息时,将所述语音作为语音命令,同所述应用状态信息,发送到语音处理后端进行语音识别。
11.如权利要求10所述的装置,其特征在于,所述装置还包括:
第二接收模块,用于接收语音处理后端发送的控制命令;
激活模块,用于激活所述应用模块;
第二发送模块,用于向所述应用模块发送所述控制命令。
12.如权利要求10所述的装置,其特征在于,所述装置还包括:
第三发送模块,用于在所述应用状态信息不属于预设的应用状态信息时,将所述语音作为唤醒词发送到语音处理后端进行语音识别。
13.如权利要求10所述的装置,其特征在于,所述装置还包括:
第四发送模块,用于向所述语音处理后端发送所述应用模块的用户标识。
14.如权利要求10所述的装置,其特征在于,所述应用模块位于外部的智能终端;
所述获取模块包括:
接收子模块,用于接收外部的智能终端发送的所述应用模块的应用状态信息。
15.一种语音识别的装置,其特征在于,应用于语音处理后端,所述装置包括:
第一接收模块,用于接收语音处理前端发来的应用状态信息和语音;
第一匹配模块,用于将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配;
发送模块,用于在匹配一致时,将匹配一致的语音命令对应的控制命令发送给语音处理前端。
16.如权利要求15所述的装置,其特征在于,所述语音包括唤醒词和命令词;
所述装置还包括:
解析模块,用于从所述语音中解析出唤醒词和命令词;
删除模块,用于删除所述唤醒词;
所述第一匹配模块包括:
匹配子模块,用于将所述命令词与预设的与所述应用状态信息对应的语音命令进行匹配。
17.如权利要求15所述的装置,其特征在于,所述装置还包括:
第二接收模块,用于接收语音处理前端发来的语音;
判断模块,用于判断所述应用状态信息是否处于有效期;
第二匹配模块,用于在处于有效期时,将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配;
第三匹配模块,用于在不处于有效期时,将所述语音作为通常语音进行处理。
18.如权利要求15所述的装置,其特征在于,所述装置还包括:
第三接收模块,用于接收语音处理前端发来的所述应用模块的用户标识;
调用模块,用于调用所述用户标识对应的场景上下文,所述场景上下文包括应用状态信息与语音命令的对应关系。
19.一种语音识别的装置,其特征在于,应用于语音处理前端,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在应用模块处于休眠状态下,获取关于所述应用模块的应用状态信息;
在应用模块处于休眠状态下,接收输入的语音;
在所述应用状态信息属于预设的应用状态信息时,将所述语音作为语音命令,同所述应用状态信息,发送到语音处理后端进行语音识别。
20.一种语音识别的装置,其特征在于,应用与语音处理后端,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
接收语音处理前端发来的应用状态信息和语音;
将所述语音与预设的与所述应用状态信息对应的语音命令进行匹配;
在匹配一致时,将匹配一致的语音命令对应的控制命令发送给语音处理前端。
21.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
22.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被处理器执行时实现权利要求6至9中任一项所述方法的步骤。
23.一种语音识别的***,其特征在于,包括:权利要求10-14中任一项所述的装置,和权利要求15-18中任一项所述的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010906497.9A CN112151028A (zh) | 2020-09-01 | 2020-09-01 | 一种语音识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010906497.9A CN112151028A (zh) | 2020-09-01 | 2020-09-01 | 一种语音识别的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112151028A true CN112151028A (zh) | 2020-12-29 |
Family
ID=73890178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010906497.9A Pending CN112151028A (zh) | 2020-09-01 | 2020-09-01 | 一种语音识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151028A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115312051A (zh) * | 2022-07-07 | 2022-11-08 | 青岛海尔科技有限公司 | 设备的语音控制方法和装置、存储介质及电子装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107564518A (zh) * | 2017-08-21 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 智能设备控制方法、装置及计算机设备 |
CN108335695A (zh) * | 2017-06-27 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 语音控制方法、装置、计算机设备和存储介质 |
CN109192208A (zh) * | 2018-09-30 | 2019-01-11 | 深圳创维-Rgb电子有限公司 | 一种电器设备的控制方法、***、装置、设备及介质 |
CN109493849A (zh) * | 2018-12-29 | 2019-03-19 | 联想(北京)有限公司 | 语音唤醒方法、装置及电子设备 |
CN110503962A (zh) * | 2019-08-12 | 2019-11-26 | 惠州市音贝科技有限公司 | 语音识别和设定方法、装置、计算机设备和存储介质 |
-
2020
- 2020-09-01 CN CN202010906497.9A patent/CN112151028A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108335695A (zh) * | 2017-06-27 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 语音控制方法、装置、计算机设备和存储介质 |
CN107564518A (zh) * | 2017-08-21 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 智能设备控制方法、装置及计算机设备 |
CN109192208A (zh) * | 2018-09-30 | 2019-01-11 | 深圳创维-Rgb电子有限公司 | 一种电器设备的控制方法、***、装置、设备及介质 |
CN109493849A (zh) * | 2018-12-29 | 2019-03-19 | 联想(北京)有限公司 | 语音唤醒方法、装置及电子设备 |
CN110503962A (zh) * | 2019-08-12 | 2019-11-26 | 惠州市音贝科技有限公司 | 语音识别和设定方法、装置、计算机设备和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115312051A (zh) * | 2022-07-07 | 2022-11-08 | 青岛海尔科技有限公司 | 设备的语音控制方法和装置、存储介质及电子装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109326289B (zh) | 免唤醒语音交互方法、装置、设备及存储介质 | |
AU2019246868B2 (en) | Method and system for voice activation | |
CN108962262B (zh) | 语音数据处理方法和装置 | |
CN106463112B (zh) | 语音识别方法、语音唤醒装置、语音识别装置及终端 | |
CN106782554B (zh) | 基于人工智能的语音唤醒方法和装置 | |
CN110111789B (zh) | 语音交互方法、装置、计算设备和计算机可读介质 | |
CN108538298B (zh) | 语音唤醒方法及装置 | |
CN110047481B (zh) | 用于语音识别的方法和装置 | |
CN109741753B (zh) | 一种语音交互方法、装置、终端及服务器 | |
CN107220532B (zh) | 用于通过声音识别用户身份的方法及设备 | |
CN111161714B (zh) | 一种语音信息处理方法、电子设备及存储介质 | |
CN111261151B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
US11810593B2 (en) | Low power mode for speech capture devices | |
CN110706703A (zh) | 一种语音唤醒方法、装置、介质和设备 | |
CN105744074A (zh) | 一种在移动终端中进行语音操作方法和装置 | |
WO2019227370A1 (zh) | 一种多语音助手控制方法、装置、***及计算机可读存储介质 | |
CN112420044A (zh) | 语音识别方法、语音识别装置及电子设备 | |
CN106303015A (zh) | 一种通信消息的处理方法及装置、终端设备 | |
CN110718225A (zh) | 一种语音控制方法、终端以及存储介质 | |
CN112151028A (zh) | 一种语音识别的方法及装置 | |
CN116705033A (zh) | 用于无线智能音频设备的片上***和无线处理方法 | |
CN111862965A (zh) | 唤醒处理方法、装置、智能音箱及电子设备 | |
CN114391165A (zh) | 语音信息处理方法、装置、设备及存储介质 | |
CN115862604A (zh) | 语音唤醒模型训练及语音唤醒方法、装置及计算机设备 | |
CN111464644B (zh) | 一种数据传输方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |