CN108899028A - 语音唤醒方法、搜索方法、装置和终端 - Google Patents
语音唤醒方法、搜索方法、装置和终端 Download PDFInfo
- Publication number
- CN108899028A CN108899028A CN201810587174.0A CN201810587174A CN108899028A CN 108899028 A CN108899028 A CN 108899028A CN 201810587174 A CN201810587174 A CN 201810587174A CN 108899028 A CN108899028 A CN 108899028A
- Authority
- CN
- China
- Prior art keywords
- wake
- word
- preset
- voice
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000002618 waking effect Effects 0.000 claims abstract description 79
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 6
- 238000005265 energy consumption Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000037007 arousal Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electric Clocks (AREA)
Abstract
本发明涉及一种语音唤醒方法,包括步骤;获取第一语音信号;对第一语音信号进行唤醒识别,得到唤醒识别结果;在唤醒识别结果与预置唤醒词匹配时,唤醒语音识别模块,并将与唤醒识别结果匹配的预置唤醒词发送到语音识别模块。还公开一种语音搜索方法及一种语音识别终端。通过唤醒识别装置34对第一语音信号进行唤醒识别,并在唤醒语音识别装置36后,将匹配的预置唤醒词发送给语音识别装置36,以使语音识别装置36可以直接根据唤醒信息进行前向搜索,得到对应预置唤醒词的优化路径网络。实现语音识别模块唤醒即同步获得输入信号,进而得到优化路径网络,进而可以方便实现用户所需的控制操作,大大提高了语音唤醒与控制的效率。
Description
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音唤醒方法、搜索方法、装置和终端。
背景技术
随着信息技术的不断革新,各种智能设备也在快速更新换代。作为众多智能设备的热门技术之一的语音识别技术,即是一种数据信息应用的典型代表。语音识别技术能够将给定的语音识别成对应的文字信息,因此,被广泛应用在各种智能交互设备上,例如智能交互设备的语音唤醒功能和语音助手等功能。
传统的语音唤醒方式,一般是通过设置一个配置有小型语音识别网络的唤醒识别模块或者直接使用内置的语音识别模块,在用户说出唤醒词的语音时,识别到与预存唤醒词匹配的唤醒词,则唤醒智能交互设备的相应功能,例如唤醒待机状态的智能交互设备,以备用户操控。然而,发明人在实现本发明的过程中,发现传统的语音唤醒方式仍然存在唤醒效率较低的问题。
发明内容
基于此,有必要针对传统的语音唤醒方式存在的上述问题,提供一种语音唤醒方法、一种语音搜索方法、一种语音唤醒装置、一种语音搜索装置和一种语言识别终端。
为实现上述目的,本发明实施例采用以下技术方案:
一方面,本发明实施例提供一种语音唤醒方法,包括如下步骤;
获取第一语音信号;
对所述第一语音信号进行唤醒识别,得到唤醒识别结果;
在所述唤醒识别结果与预置唤醒词匹配时,唤醒语音识别模块,并将与所述唤醒识别结果匹配的预置唤醒词发送到所述语音识别模块。
在其中一个实施例中,将与所述唤醒识别结果匹配的预置唤醒词发送到所述语音识别模块的过程,还包括:
向所述语音识别模块发送所述第一语音信号。
在其中一个实施例中,所述唤醒识别结果与预置唤醒词匹配的判断,包括:
将词序列形式的所述唤醒识别结果与词序列形式的所述预置唤醒词进行匹配分析;
或,将特征序列形式的所述唤醒识别结果与特征序列形式的所述预置唤醒词进行匹配分析。
另一方面,还提供一种语音搜索方法,包括如下步骤:
接收唤醒识别模块发送的预置唤醒词;其中,所述预置唤醒词与所述唤醒识别模块得到的唤醒识别结果相匹配;
根据所述预置唤醒词进行前向搜索,得到对应所述预置唤醒词的优化路径网络。
在其中一个实施例中,根据所述预置唤醒词进行前向搜索,得到对应所述预置唤醒词的优化路径网络的步骤后,包括:
获取所述唤醒识别模块接收到的第一语音信号,根据所述第一语音信号和所述优化路径网络进行前向搜索,得到识别结果。
在其中一个实施例中,根据所述预置唤醒词进行前向搜索,得到对应所述预置唤醒词的优化路径网络的步骤后,还包括:
获取第二语音信号,根据所述第二语音信号和所述优化路径网络进行前向搜索,得到所述识别结果。
在其中一个实施例中,根据所述预置唤醒词进行前向搜索,得到对应所述预置唤醒词的优化路径网络的步骤后,还包括:
获取第二语音信号;
根据所述第一语音信号、所述优化路径网络和所述第二语音信号进行前向搜索,得到所述识别结果。
又一方面,还提供一种语音唤醒装置,包括:
第一信号获取模块,用于获取第一语音信号;
唤醒模块,用于对所述第一语音信号进行唤醒识别,得到唤醒识别结果;在所述唤醒识别结果与预置唤醒词匹配时,唤醒语音识别模块,并将与所述唤醒识别结果匹配的预置唤醒词发送到所述语音识别模块。
再一方面,还提供一种语音搜索装置,包括:
接收模块,用于接收唤醒识别模块发送的预置唤醒词;其中,所述预置唤醒词与所述唤醒识别模块得到的唤醒识别结果相匹配;
搜索模块,用于根据所述预置唤醒词进行前向搜索,得到对应所述预置唤醒词的优化路径网络。
再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述的语音唤醒方法的步骤和/或所述的语音搜索方法的步骤。
再一方面,还提供一种语音识别终端,包括语音信号接收器、唤醒识别装置和语音识别装置,所述语音信号接收器分别电连接所述唤醒识别装置和所述语音识别装置,所述唤醒识别装置电连接所述语音识别装置;
所述语音信号接收器接收到第一语音信号后,发送到所述唤醒识别装置;所述唤醒识别装置对所述第一语音信号进行唤醒识别,得到唤醒识别结果,并在所述唤醒识别结果与预置唤醒词匹配时,唤醒所述语音识别模块,并向所述语音识别模块发送与所述唤醒识别结果匹配的预置唤醒词;
所述语音识别装置根据所述预置唤醒词进行前向搜索,得到对应所述预置唤醒词的优化路径网络。
上述技术方案中的一个技术方案具有如下有益效果:
通过唤醒识别模块对第一语音信号进行唤醒识别,并在唤醒语音识别模块后,将预置唤醒词发送给语音识别模块,以使语音识别模块可以直接根据预置唤醒词进行前向搜索,得到优化路径网络。无需用户先行输入专门的唤醒词语音,再输入需要设备执行的指令语音,实现语音识别模块唤醒即同步获得输入信号,进而得到搜索结果,也即优化路径网络,进而可以直接基于搜索结果方便实现用户所需的控制操作。降低设备能耗同时,提高语音控制的响应速度,大大提高了语音唤醒与控制的效率。
附图说明
图1为一个实施例中语音唤醒方法的应用环境图;
图2为一个实施例中语音唤醒方法的流程示意图;
图3为一个实施例中语音搜索方法的流程示意图;
图4为一个实施例中语音唤醒装置的结构框图;
图5为一个实施例中语音搜索装置的结构框图;
图6为一个实施例中语音识别终端的结构框图;
图7为另一个实施例中语音识别终端的应用示例图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请提供的语音唤醒方法与语音搜索方法,可以应用于如图1所示的应用环境中。其中,终端102通过数据网络或无线网络连接到外部通信网,或者离线工作。终端102上可以设置有唤醒识别模块11和语音识别模块13,唤醒识别模块11获取到第一语音信号后,例如用户语音输入或者其他终端发送过来的第一语音信号,唤醒识别模块11对第一语音信号进行唤醒识别,得到唤醒识别结果。当唤醒识别模块11得到的唤醒识别结果与唤醒识别模块11中预先配置多个的预置唤醒词中任意一个匹配时,唤醒语音识别模块13,并将前述匹配到的预置唤醒词发送给语音识别模块13。进而,语音识别模块13可以根据唤醒时获得的预置唤醒词进行前向搜索,得到对应预置唤醒词的优化路径网络。其中,终端102可以但不限于是各种智能手机、个人计算机、笔记本电脑、平板电脑、智能家电设备和车载智能终端设备。
在一个实施例中,如图2所示,提供了一种语音唤醒方法,以该方法应用于图1中的终端102为例,从唤醒识别模块11的角度进行说明。可以理解,上述的语音识别模块13可以与唤醒识别模块11分别作为两个硬件模块设置在一个终端102内,或者分立设置在两个不同的终端102内,还可以分别设置在服务器和终端102内,本说明书中不作限定。唤醒识别模块11和语音识别模块13也可以是两个软件功能模块。唤醒识别模块11也可以与语音识别模块13一体化设置,例如在同一个语音识别处理的芯片电路模块上,通过嵌入式开发等常规手段,设置唤醒识别模块11,从而可以通过唤醒识别模块11触发启动或唤醒整个语音识别模块13。需要说明的是,唤醒识别模块11还可以用于常规的终端102唤醒操作,例如唤醒待机状态的终端102,本说明书的实施例中不做展开说明。
上述的语音识别的唤醒方法,具体可以包括以下步骤S12至S16:
S12,获取第一语音信号。
可以理解,终端102在待机状态或者正常运行过程中,语音识别模块通常是处于关闭状态或者睡眠状态,此时,可以通过功耗较低的唤醒识别模块11的运行来随时接收第一语音信号。第一语音信号例如是用户说出的一段语音,也可以是其他终端发送过来的音频信号。
S14,对第一语音信号进行唤醒识别,得到唤醒识别结果。
可以理解,唤醒识别模块11中设置有小型语音识别网络,例如常用的WFST网络,可以对预先设定的多个预置唤醒词进行快速识别输出,从而可以从输入的第一语音信号中,快速识别出其中是否含有任一个设定的预置唤醒词。唤醒识别结果可以是对应于第一语音信号的词序列,也可以是第一语音信号对应的特征序列,例如MFCC特征提取得到特征序列(如特征向量)。
具体的,唤醒识别模块11获得第一语音信号后,对第一语音信号在预先构建的识别网络中进行搜索,完成对第一语音信号的唤醒识别,得到对应于第一语音信号的唤醒识别结果。
S16,在唤醒识别结果与预置唤醒词匹配时,唤醒语音识别模块,并将与唤醒识别结果匹配的预置唤醒词发送到语音识别模块13。
可以理解,唤醒识别结果与预置唤醒词的匹配时,可以是指词序列形式的唤醒识别结果中,存在与任一个词序列形式的预置唤醒词相匹配时;也可以是指特征序列形式的唤醒识别结果中,存在与任一个特征序列形式的预置唤醒词相同或相似度高于设定阈值时;还可以是指唤醒识别结果中存在与预置唤醒词的特征频率一致的频率成分,或者本领域中其他可以表征上述匹配含义的形式。预置唤醒词可以根据终端102的具体的类型和应用场景等设置多个。
具体的,唤醒识别模块11可以对基于第一语音信号进行唤醒识别得到的唤醒识别结果,与预置唤醒词进行匹配分析。在唤醒识别结果与任一个预置唤醒词匹配时,唤醒识别模块11触发启动或者唤醒语音识别模块13,并将所匹配到的预置唤醒词发送给语音识别模块13。
如此,语音识别模块13可以直接基于启动或唤醒时获得的预置唤醒词,通过内部的识别网络进行识别搜索。
可以理解,在唤醒识别结果未与任一个预置唤醒词匹配时,唤醒识别模块11将继续处于等待执行唤醒识别的运行状态,以使语音识别模块13维持关闭状态或者睡眠状态。
通过唤醒识别模块对第一语音信号进行唤醒识别,并在唤醒语音识别模块后,将预置唤醒词发送给语音识别模块,以使语音识别模块可以直接根据预置唤醒词进行前向搜索,得到优化路径网络。无需用户先行输入专门的唤醒词语音,再输入需要设备执行的指令语音,实现语音识别模块唤醒即同步获得输入信号,进而得到搜索结果,也即优化路径网络,进而可以直接基于搜索结果方便实现用户所需的控制操作。降低设备能耗同时,提高语音控制的响应速度,大大提高了语音唤醒与控制的效率。
在其中一个实施例中,唤醒识别结果与预置唤醒词匹配的判断,可以包括:将词序列形式的唤醒识别结果与词序列形式的预置唤醒进行匹配分析。或者,将音素序列形式的唤醒识别结果与音素序列形式的预置唤醒词进行匹配分析。
可以理解,上述唤醒识别结果与预置唤醒词匹配判断,可以直接通过词序列形式进行匹配分析,以确定所得的唤醒识别结果是否有任意一个预置唤醒词相匹配,匹配操作简单,判断效率较高。
唤醒识别结果在获取的过程中,唤醒识别模块11可以对第一语音信号进行声学特征提取,得到对应该第一语音信号的声学特征信息,例如MFCC特征提取得到的特征序列。因此,也可以通过将特征序列形式的唤醒识别结果与特征序列形式的预置唤醒词进行匹配分析,确定唤醒识别结果是否有任意一个预置唤醒词相匹配,实现上述的唤醒识别结果与预置唤醒词匹配的判断。匹配方便且精确度较高。上述的匹配判断可以分别具体通过本领域相应的常规技术实现,例如深度神经网络、相似度计算、混合高斯模型或PLP特征提取等技术实现。
在其中一个实施例中,唤醒识别结果与预置唤醒词匹配的判断,还可以是将特征频率形式的唤醒识别结果与特征频率形式的预置唤醒词进行匹配分析。可以理解,每一个用户输入的语音,均会存在对应该语音发音的特征频率,因此基于第一语音信号得到的唤醒识别结果,也可以是对应的特征频率。从而还可以通过特征频率形式的唤醒识别结果与特征频率形式的预置唤醒词进行匹配分析,确定唤醒识别结果是否有与任意一个预置唤醒词相匹配,匹配速度较快且简单。需要说明的是,上述的特征频率可以通过本领域中常规的频率提取方式获得。
在其中一个实施例中,将与唤醒识别结果匹配的预置唤醒词发送到语音识别模块13的过程,还包括以下步骤:向语音识别模块13发送第一语音信号。
可以理解,唤醒识别模块11在唤醒语音识别模块13时,还可以将接收到的第一语音信号发送给语音识别模块13,以使语音识别模块13获得被唤醒前,输入的语音信号。如此,语音识别模块13可以在唤醒后,未获取到用户继续输入的语音前,根据第一语音信号进行语音识别,得到相应的识别结果,从而可以执行各种相关的操作,例如直接根据识别结果执行相应的终端控制;或者,例如为后续输入的语音信号的识别提供解码搜索的状态起点,利于提高语音识别的准确度。
在另一个实施例中,如图3所示,还提供了一种语音搜索方法,以该方法应用于图1中的终端102为例,并从语音识别模块13的角度进行说明,包括以下步骤S20至S22:
S20,接收唤醒识别模块发送的预置唤醒词;其中,预置唤醒词与唤醒识别模块得到的唤醒识别结果相匹配。
S22,根据预置唤醒词进行前向搜索,得到对应预置唤醒词的优化路径网络。
可以理解,语音识别是将输入的语音信号转换成文字内容的解码搜索过程,一般过程是对输入的语音信号输入到预先构建的解码搜索网络中,不断进行前向搜索,从中找到一条概率最大的搜索路径并输出该搜索路径对应的词序列,也即得到识别结果输出。
语音识别模块13可以在接收到唤醒识别模块11发送过来的、与唤醒识别结果相匹配的预置唤醒词后,根据得到的预置唤醒词,在预先构建好的语音识别网络(如WFST网络)中进行前向搜索,例如根据匹配的预置唤醒词,在语音识别网络中进行初始化的前向搜索,得到与预置唤醒词相关的各个搜索路径,也即优化路径网络。
通过接收唤醒识别模块13发送过来的预置唤醒词,作为语音识别模块13的初始输入,从而可以基于预置唤醒词直接得到相应的优化路径网络,或者根据得到优化路径网络中概率最大的路径输出对应预置唤醒词的搜索结果,来执行相应的控制操作,例如发送过来的预置唤醒词为“打开风机”,则语音识别模块13可以完成相应的控制指令输出,实现打开风机的控制操作。如此,一方面可以实现用户只需输入一次语音信号,即可以得到相应的优化路径网络,或者完成所需的识别输出与控制,唤醒与识别控制的效率得到大幅提升;另一方面,通过对预置唤醒词的前置搜索,得到的优化路径网络,可以为后续用户再次输入的语音提供前向搜索的状态起点,也即后续输入的语音信号,可以在语音识别网络中,以预置唤醒词所在的状态为起始节点进行前向搜索,得到与预置唤醒词最相关的搜索结果输出,有效提升识别准确率。
在其中一个实施例中,上述的步骤S22后,还可以包含以下步骤:获取唤醒识别模块11接收到的第一语音信号,根据第一语音信号和优化路径网络进行前向搜索,得到识别结果。
可以理解,语音识别模块13还可以接收唤醒识别模块11传递过来的第一语音信号,在优化路径网络中,进行前向搜索,得到对应于第一语音信号的识别结果,例如词序列的识别结果输出,或者词序列对应的控制指令输出,以使终端102完成相应的控制操作。如此,通过第一语音信号与预置唤醒词发送到语音识别模块13,可以无需等待用户在语音识别模块13被唤醒之后的再次语音输入,实现用户对终端102输入一次语音,终端102即可完成相应的唤醒和相应的控制操作;也可以为语音识别模块13唤醒以后输入的语音信号,提供前向搜索的状态起点,提高后续输入语音信号的识别效率。
在其中一个实施例中,上述步骤S22后,还可以包含以下步骤:获取第二语音信号,根据第二语音信号和优化路径网络进行前向搜索,得到识别结果。
可以理解,第二语音信号为唤醒语音识别模块13之后,输入的语音信号。具体的,语音识别模块13还可以根据接收到的第二语音信号,在优化路径网络中进行前向搜索,得到对应第二语音信号识别结果。例如,语音识别模块13可以在WFST网络中根据接收到的预置唤醒词进行前置搜索,获得预置唤醒词相关的优化路径网络,进而将第二语音信号输入前述的优化路径网络进行识别,可以得到与预置唤醒词相关的识别结果。如此,可以减少语音识别过程中需要经历的搜索路径,提升语音识别精确度同时,提升语音识别的处理速度,提升语音唤醒与控制效率。
在其中一个实施例中,上述的步骤S22后,还可以包含以下步骤:获取第二语音信号;根据第一语音信号、优化路径网络和第二语音信号进行前向搜索,得到识别结果。
可以理解,语音识别模块13还可以在接收到唤醒识别模块11发送的第一语音信号和预置唤醒词后,接收输入的第二语音信号。语音识别模块13进而可以根据第一语音信号和第二语音信号,在优化路径网络中进行前向搜索,得到与预置唤醒词最相关的,也即最接近终端102当前应用场景的识别结果。语音识别模块13从而可以将识别结果输出,例如输出词序列,或者,可以根据识别结果输出对应的控制指令,以使终端102完成对应的控制操作。
通过上述的搜索步骤,可以减少语音识别模块13被唤醒之后,输入的语音信号的语音识别过程中,需要经历的搜索路径,提升语音搜索准确率同时,提升语音识别过程的处理速度。
在一种实施方式中,以用户对终端102输入的第一语音信号为“请帮我打开酷狗音乐”的语音为例,唤醒识别模块11获得第一语音信号输入后,唤醒识别模块11可以搜索得到“打开”或“da kai”等的词序列或者音素序列形式的唤醒识别结果,进而将该唤醒识别结果与各个预置唤醒词进行匹配分析。匹配到唤醒识别结果中的“打开”与预置唤醒词“打开”相匹配时,触发启动关闭状态的语音识别模块13,或者唤醒睡眠状态的语音识别模块13,例如向语音识别模块13发送触发信号,以使终端102启动语音识别模块13或恢复语音识别模块13的工作电源,语音识别模块13进入工作状态。
唤醒识别模块11将第一语音信号以及匹配到的预置唤醒词,发送到工作状态的语音识别模块13,语音识别模块13从而获得唤醒时的初始输入,并根据第一语音信号和匹配到的预置唤醒词进行前向搜索,进而得到识别结果。例如输出“请帮我打开酷狗音乐”词序列的识别结果,以便基于识别结果执行相应的操作,如展示给用户,或者输出打开酷狗音乐的启动指令,以启动酷狗音乐。
在另一种实施方式中,以用户对终端102输入的第一语音信号为“请帮我打开”的语音为例,唤醒识别模块11获得第一语音信号输入后,唤醒识别模块11通过与上述实施方式的唤醒过程,唤醒语音识别模块13,并向语音识别模块13传递第一语音信号和匹配的预置唤醒词“打开”。语音识别模块13则可以得到识别结果“请帮我打开”。语音识别模块13可以在接收到在后输入的第二语音信号后,基于前述的识别结果,对第二语音信号进行识别,得到最终的识别结果。例如第二语音信号为“空调”,则语音识别模块13将可以在“请帮我打开”相关的多个路径中进行搜索输出,快速得到“请帮我打开空调”的最终识别结果,无需在整个语音识别网络中遍历所有路径后,得到识别结果。
上述搜索过程中,语音识别模块13可以通过以下可选的实现方式完成对第二语音信号的识别:第二语音信号在语音识别模块13的WFST网络中,可以“打开”对应的搜索状态为起始节点,进行前向搜索,得到与“打开”相关的识别结果,如“打开”风机、“打开”雨刷或“打开”通信录等。也即是说,语音识别模块13可以将第二语音信号输入到与“打开”相关度较高的优化路径网络中,进行前向搜索,获得最接近终端102应用场景的识别结果输出,避免第二语音信号的识别,遍历整个WFST网络中的所有搜索路径,降低唤醒与识别的整体效率及准确率。
在另一种实施方式中,语音识别模块13被唤醒后,若在设定时长内,未接收到输入的第二语音信号,则在设定时长终止时,自动进入关闭状态或低功耗的睡眠状态。前述的状态自动切换,可以通过本领域中各种常规的延时切换状态的方式实现,例如延迟设定时长后,跳变电平状态或者通过向终端的主控制器发送触发信号,以使主控制器控制语音识别模块13切换运行状态等方式。通过延时自动切换运行状态,使语音识别模块13在没有有效的语音信号输入时,自动关闭或睡眠,降低终端102的功耗。
在其中一个实施例中,上述各实施例中的预置唤醒词可以是预置唤醒词本身的词序列,以及预置唤醒词在设置时对应分配的编号。
可以理解,在向唤醒识别模块11中设置预置唤醒词时,各个预置唤醒词可以是词序列形式的单词或短句,并分配相应的编号。在唤醒识别模块11得到的唤醒识别结果,与任一个预置唤醒词相匹配时,例如,唤醒识别结果中匹配到多个预置唤醒词时,唤醒识别模块11可以将各个匹配的预置唤醒词及其编号,发送到语音识别模块13,从而可以确定各预置唤醒词在唤醒识别结果中出现的先后顺序。前述的编号,例如是数字编号、文字编号或其他形式的编号,只要能够区别各个预置唤醒词的顺序即可。
具体的,上述各实施例中,语音识别模块13可以接收唤醒识别模块11发送的预置唤醒词及其对应的编号,从而语音识别模块13可以根据预置唤醒词及其编号,进行前向搜索,保证输出的搜索路径中,各个预置唤醒词的出现次序不会发生混乱。如此,在语音识别模块13对输入的第一语音信号和/或第二语音信号的进行前向搜索后,可以维持预置唤醒词的出现顺序,快速得到准确的识别结果输出,避免识别结果前后不对应等识别出错的问题。
请参阅图4,在一个实施例中,还提供一种语音识别的唤醒装置100,包括第一信号获取模块12和唤醒模块14。第一信号获取模块12用于获取第一语音信号。唤醒模块14用于对第一语音信号进行唤醒识别,得到唤醒识别结果;在唤醒识别结果与预置唤醒词匹配时,唤醒语音识别模块,并将与唤醒识别结果匹配的预置唤醒词发送到语音识别模块。
通过唤醒模块14启动或唤醒语音识别模块13时,将匹配的预置唤醒词发送给语音识别模块13,以使语音识别模块13可以直接根据预置唤醒词进行前向搜索,得到优化路径网络。无需用户先行输入专门的唤醒词语音,再输入需要设备执行的指令语音,实现语音识别模块13唤醒即同步获得输入信号,进而得到搜索结果,也即优化路径网络,进而可以直接基于搜索结果方便实现用户所需的控制操作。降低设备能耗同时,提高语音控制的响应速度,大大提高了语音唤醒与控制的效率。
在其中一个实施例中,上述的语音识别的唤醒装置100,还可以通过唤醒模块14实现上述各实施例中语音唤醒方法的步骤。
请参阅图5,在一个实施例中,还提供一种语音识别装置200,包括接收模块22和搜索模块24。接收模块22用于接收唤醒识别模块发送的所述预置唤醒词。其中,所述预置唤醒词与所述唤醒识别模块得到的唤醒识别结果相匹配。搜索模块24用于根据所述预置唤醒词进行前向搜索,得到对应预置唤醒词的优化路径网络。
通过接收模块22和搜索模块24,一方面可以实现用户只需输入一次语音信号,即可以得到相应的优化路径网络,或者完成所需的识别输出与控制,唤醒与识别控制的效率得到大幅提升;另一方面,还可以通过对预置唤醒词的前置搜索,得到的优化路径网络,可以为后续用户再次输入的语音提供前向搜索的状态识别起点,也即后续输入的语音信号,可以在W语音识别FST网络中,以预置唤醒词所在的状态为起始节点进行前向搜索识别,得到与预置唤醒词最相关的搜索结果输出,有效提升识别准确率。
在其中一个实施例中,上述的语音识别装置200,还可以通过接收模块22和搜索模块24实现上述各实施例中语音搜索方法的步骤。
在一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,可以实现上述的语音识别的唤醒方法的步骤:获取第一语音信号;对第一语音信号进行唤醒识别,得到唤醒识别结果;在唤醒识别结果与预置唤醒词匹配时,唤醒语音识别模块,并将预置唤醒词发送到语音识别模块;其中,预置唤醒词与唤醒识别结果匹配。或者,可以实现上述的语音识别方法的步骤:接收唤醒识别模块发送的预置唤醒词;其中,预置唤醒词与唤醒识别模块得到的唤醒识别结果相匹配;根据预置唤醒词进行语音识别,得到识别结果。又或者,实现上述的语音识别的唤醒方法的步骤和上述的语音识别方法的步骤。
在其中一个实施例中,前述的计算机可读存储介质还可以实现上述各实施例中的语音识别的唤醒方法的步骤和/或上述的语音识别方法的步骤。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
请参阅图6和图7,在一个实施例中,还提供一种语音识别终端300,包括语音信号接收器32、唤醒识别装置34和语音识别装置36。语音信号接收器32分别电连接唤醒识别装置34和语音识别装置36。唤醒识别装置34电连接语音识别装置36。如图7所示,用户对语音识别终端300发出第一语音,语音信号接收器32接收到第一语音信号后,发送到唤醒识别装置34。唤醒识别装置34对第一语音信号进行唤醒识别,得到唤醒识别结果,并在唤醒识别结果与预置唤醒词匹配时,唤醒语音识别模块36,并向语音识别模块36发送与唤醒识别结果匹配的预置唤醒词。语音识别装置36根据预置唤醒词进行前向搜索,得到对应预置唤醒词的优化路径网络。
可以理解,语音信号接收器32可以是本领域中各种常规的声音接收器。唤醒识别装置34可以是但不限于以DSP处理器为主控器件的唤醒识别模块电路。语音识别装置36可以是但不限于AP处理器为主控器件的语音识别模块电路。唤醒识别装置34可以与语音识别装置36相互独立设置,唤醒识别装置34也可以嵌入到语音识别装置36内,也即是说,两个模块也可以一体化设置,以提高集成度。语音识别终端300还可以包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,语音识别终端300的处理器用于提供计算和控制能力。语音识别终端300的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该语音唤醒与识别设备的网络接口用于与外部的终端通过网络连接通信。语音识别终端300的显示屏可以是液晶显示屏、LED显示屏或者电子墨水显示屏,语音识别终端300的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在其中一个实施例中,语音识别终端300还可以实现上述各实施例中的语音唤醒方法的步骤和/或上述的语音搜索方法的步骤。
通过唤醒识别装置34对第一语音信号进行唤醒识别,并在唤醒语音识别装置36后,将匹配的预置唤醒词发送给语音识别装置36,以使语音识别装置36可以直接根据唤醒信息进行前向搜索,得到对应预置唤醒词的优化路径网络。无需用户先行输入专门的唤醒词语音,再输入需要设备执行的指令语音,实现语音识别模块唤醒即同步获得输入信号,进而得到搜索结果,也即优化路径网络,进而可以直接基于搜索结果方便实现用户所需的控制操作。降低设备能耗同时,提高语音控制的响应速度,大大提高了语音唤醒与控制的效率。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种语音唤醒方法,其特征在于,包括如下步骤;
获取第一语音信号;
对所述第一语音信号进行唤醒识别,得到唤醒识别结果;
在所述唤醒识别结果与预置唤醒词匹配时,唤醒语音识别模块,并将与所述唤醒识别结果匹配的预置唤醒词发送到所述语音识别模块。
2.根据权利要求1所述的语音唤醒方法,其特征在于,将与所述唤醒识别结果匹配的预置唤醒词发送到所述语音识别模块的过程,还包括:
向所述语音识别模块发送所述第一语音信号。
3.根据权利要求1所述的语音唤醒方法,其特征在于,所述唤醒识别结果与预置唤醒词匹配的判断,包括:
将词序列形式的所述唤醒识别结果与词序列形式的所述预置唤醒词进行匹配分析;
或,将特征序列形式的所述唤醒识别结果与特征序列形式的所述预置唤醒词进行匹配分析。
4.一种语音搜索方法,其特征在于,包括如下步骤:
接收唤醒识别模块发送的预置唤醒词;其中,所述预置唤醒词与所述唤醒识别模块得到的唤醒识别结果相匹配;
根据所述预置唤醒词进行前向搜索,得到对应所述预置唤醒词的优化路径网络。
5.根据权利要求4所述的语音搜索方法,其特征在于,根据所述预置唤醒词进行前向搜索,得到对应所述预置唤醒词的优化路径网络的步骤后,包括:
获取所述唤醒识别模块接收到的第一语音信号,根据所述第一语音信号和所述优化路径网络进行前向搜索,得到识别结果。
6.根据权利要求4所述的语音搜索方法,其特征在于,根据所述预置唤醒词进行前向搜索,得到对应所述预置唤醒词的优化路径网络的步骤后,还包括:
获取第二语音信号,根据所述第二语音信号和所述优化路径网络进行前向搜索,得到所述识别结果。
7.根据权利要求5所述的语音搜索方法,其特征在于,根据所述预置唤醒词进行前向搜索,得到对应所述预置唤醒词的优化路径网络的步骤后,还包括:
获取第二语音信号;
根据所述第一语音信号、所述优化路径网络和所述第二语音信号进行前向搜索,得到所述识别结果。
8.一种语音唤醒装置,其特征在于,包括:
第一信号获取模块,用于获取第一语音信号;
唤醒模块,用于对所述第一语音信号进行唤醒识别,得到唤醒识别结果;在所述唤醒识别结果与预置唤醒词匹配时,唤醒语音识别模块,并将与所述唤醒识别结果匹配的预置唤醒词发送到所述语音识别模块。
9.一种语音搜索装置,其特征在于,包括:
接收模块,用于接收唤醒识别模块发送的预置唤醒词;其中,所述预置唤醒词与所述唤醒识别模块得到的唤醒识别结果相匹配;
搜索模块,用于根据所述预置唤醒词进行前向搜索,得到对应所述预置唤醒词的优化路径网络。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的语音唤醒方法的步骤和/或权利要求4至7中任一项所述的语音搜索方法的步骤。
11.一种语音识别终端,其特征在于,包括语音信号接收器、唤醒识别装置和语音识别装置,所述语音信号接收器分别电连接所述唤醒识别装置和所述语音识别装置,所述唤醒识别装置电连接所述语音识别装置;
所述语音信号接收器接收到第一语音信号后,发送到所述唤醒识别装置;所述唤醒识别装置对所述第一语音信号进行唤醒识别,得到唤醒识别结果,并在所述唤醒识别结果与预置唤醒词匹配时,唤醒所述语音识别模块,并向所述语音识别模块发送与所述唤醒识别结果匹配的预置唤醒词;
所述语音识别装置根据所述预置唤醒词进行前向搜索,得到对应所述预置唤醒词的优化路径网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810587174.0A CN108899028A (zh) | 2018-06-08 | 2018-06-08 | 语音唤醒方法、搜索方法、装置和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810587174.0A CN108899028A (zh) | 2018-06-08 | 2018-06-08 | 语音唤醒方法、搜索方法、装置和终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108899028A true CN108899028A (zh) | 2018-11-27 |
Family
ID=64344285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810587174.0A Pending CN108899028A (zh) | 2018-06-08 | 2018-06-08 | 语音唤醒方法、搜索方法、装置和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108899028A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109448720A (zh) * | 2018-12-18 | 2019-03-08 | 维拓智能科技(深圳)有限公司 | 便民服务自助终端及其语音唤醒方法 |
CN109545211A (zh) * | 2018-12-07 | 2019-03-29 | 苏州思必驰信息科技有限公司 | 语音交互方法及*** |
CN109559743A (zh) * | 2018-12-05 | 2019-04-02 | 嘉兴行适安车联网信息科技有限公司 | 基于Android***的车载即时通讯工具信息分享方法 |
CN110689887A (zh) * | 2019-09-24 | 2020-01-14 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
CN110989963A (zh) * | 2019-11-22 | 2020-04-10 | 北京梧桐车联科技有限责任公司 | 唤醒词推荐方法及装置、存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104282301A (zh) * | 2013-07-09 | 2015-01-14 | 安徽科大讯飞信息科技股份有限公司 | 一种语音命令处理方法以及*** |
CN104538030A (zh) * | 2014-12-11 | 2015-04-22 | 科大讯飞股份有限公司 | 一种可以通过语音控制家电的控制***与方法 |
US20150179166A1 (en) * | 2013-12-24 | 2015-06-25 | Kabushiki Kaisha Toshiba | Decoder, decoding method, and computer program product |
CN104866274A (zh) * | 2014-12-01 | 2015-08-26 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN105654943A (zh) * | 2015-10-26 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语音唤醒方法、装置及*** |
CN105869637A (zh) * | 2016-05-26 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN106297777A (zh) * | 2016-08-11 | 2017-01-04 | 广州视源电子科技股份有限公司 | 一种唤醒语音服务的方法和装置 |
US20170263242A1 (en) * | 2016-03-14 | 2017-09-14 | Kabushiki Kaisha Toshiba | Information processing device, information processing method, computer program product, and recognition system |
CN107369439A (zh) * | 2017-07-31 | 2017-11-21 | 北京捷通华声科技股份有限公司 | 一种语音唤醒方法和装置 |
CN107450879A (zh) * | 2016-05-30 | 2017-12-08 | 中兴通讯股份有限公司 | 终端操作方法及装置 |
CN107622652A (zh) * | 2016-07-15 | 2018-01-23 | 青岛海尔智能技术研发有限公司 | 家电***的语音控制方法与家电控制*** |
CN107886944A (zh) * | 2017-11-16 | 2018-04-06 | 出门问问信息科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
-
2018
- 2018-06-08 CN CN201810587174.0A patent/CN108899028A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104282301A (zh) * | 2013-07-09 | 2015-01-14 | 安徽科大讯飞信息科技股份有限公司 | 一种语音命令处理方法以及*** |
US20150179166A1 (en) * | 2013-12-24 | 2015-06-25 | Kabushiki Kaisha Toshiba | Decoder, decoding method, and computer program product |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN104866274A (zh) * | 2014-12-01 | 2015-08-26 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
CN104538030A (zh) * | 2014-12-11 | 2015-04-22 | 科大讯飞股份有限公司 | 一种可以通过语音控制家电的控制***与方法 |
CN105654943A (zh) * | 2015-10-26 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种语音唤醒方法、装置及*** |
US20170263242A1 (en) * | 2016-03-14 | 2017-09-14 | Kabushiki Kaisha Toshiba | Information processing device, information processing method, computer program product, and recognition system |
CN105869637A (zh) * | 2016-05-26 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN107450879A (zh) * | 2016-05-30 | 2017-12-08 | 中兴通讯股份有限公司 | 终端操作方法及装置 |
CN107622652A (zh) * | 2016-07-15 | 2018-01-23 | 青岛海尔智能技术研发有限公司 | 家电***的语音控制方法与家电控制*** |
CN106297777A (zh) * | 2016-08-11 | 2017-01-04 | 广州视源电子科技股份有限公司 | 一种唤醒语音服务的方法和装置 |
CN107369439A (zh) * | 2017-07-31 | 2017-11-21 | 北京捷通华声科技股份有限公司 | 一种语音唤醒方法和装置 |
CN107886944A (zh) * | 2017-11-16 | 2018-04-06 | 出门问问信息科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109559743A (zh) * | 2018-12-05 | 2019-04-02 | 嘉兴行适安车联网信息科技有限公司 | 基于Android***的车载即时通讯工具信息分享方法 |
CN109545211A (zh) * | 2018-12-07 | 2019-03-29 | 苏州思必驰信息科技有限公司 | 语音交互方法及*** |
CN109448720A (zh) * | 2018-12-18 | 2019-03-08 | 维拓智能科技(深圳)有限公司 | 便民服务自助终端及其语音唤醒方法 |
CN110689887A (zh) * | 2019-09-24 | 2020-01-14 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
CN110689887B (zh) * | 2019-09-24 | 2022-04-22 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
CN110989963A (zh) * | 2019-11-22 | 2020-04-10 | 北京梧桐车联科技有限责任公司 | 唤醒词推荐方法及装置、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108899028A (zh) | 语音唤醒方法、搜索方法、装置和终端 | |
CN111223497B (zh) | 一种终端的就近唤醒方法、装置、计算设备及存储介质 | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN106653021A (zh) | 语音唤醒的控制方法、装置及终端 | |
CN110890093B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN102543071B (zh) | 用于移动设备的语音识别***和方法 | |
EP3057094B1 (en) | Electronic device and method of operating voice recognition function | |
CN108520743A (zh) | 智能设备的语音控制方法、智能设备及计算机可读介质 | |
CN110534099A (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
CN108735209A (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
CN105190746A (zh) | 用于检测目标关键词的方法和设备 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN102847325B (zh) | 基于移动通讯终端语音交互的玩具控制方法及*** | |
CN108766438A (zh) | 人机交互方法、装置、存储介质及智能终端 | |
CN111105796A (zh) | 无线耳机控制装置及控制方法、语音控制设置方法和*** | |
US11810593B2 (en) | Low power mode for speech capture devices | |
CN110570857B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN111862938A (zh) | 一种智能应答方法与终端、计算机可读存储介质 | |
CN111081254B (zh) | 一种语音识别方法和装置 | |
CN111522592A (zh) | 一种基于人工智能的智能终端唤醒方法和装置 | |
CN108682415A (zh) | 语音搜索方法、装置和*** | |
CN114360510A (zh) | 一种语音识别方法和相关装置 | |
CN102868740A (zh) | 基于移动通讯终端及互联网语音交互的玩具控制方法及*** | |
CN114120979A (zh) | 语音识别模型的优化方法、训练方法、设备及介质 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181127 |