CN109065044B

CN109065044B - 唤醒词识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN109065044B
Application number: CN201811004169.9A
Authority: CN
Inventors: 胡亚光
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2021-04-02
Anticipated expiration: 2038-08-30
Also published as: CN109065044A

Abstract

本发明实施例涉及语音处理领域，提供了一种唤醒词识别方法、装置、电子设备及计算机可读存储介质，其中，唤醒词识别方法包括：获取用户输入的待识别的语音信息；接着基于预设的语音识别模型，确定语音信息对应的第一音节序列；接着确定第一音节序列中是否包括预设唤醒词的第二音节序列；接着若包括，则确定语音信息中包括预设唤醒词，并执行相应的唤醒操作。本发明实施例的方法，根据音节序列即可识别出语音信息中是否包括唤醒词，而无需识别语音信息中是否包括唤醒词的字或词语，从而使得语音识别模型无需随着唤醒词的更改而更改，可以固定不变，极大降低设计的复杂度及研发成本。

Description

唤醒词识别方法、装置、电子设备及计算机可读存储介质

技术领域

本发明实施例涉及语音处理技术领域，特别是涉及一种唤醒词识别方法、装置、电子设备及计算机可读存储介质。

背景技术

随着终端设备的不断发展，智能语音硬件设备的应用越来越广泛，例如智能音响、机器人等，用户可以通过在智能语音硬件设备中输入一段声音信号，随后，智能语音硬件设备或者智能语音硬件设备的后台服务器，可以对该段声音信号进行语义识别，并根据语义识别结果执行对应的操作，在某些情况下还可以向用户返回相应的操作结果。

目前，智能语音设备获取到用户输入的语音信号后，需要先通过语音识别模型识别获取到的语音信号中是否包括唤醒词，如果包括唤醒词，便会对获取到的语音信号进行识别，从而根据所识别出的语音信号执行相应的操作，如果不包括唤醒词，则不会对获取到的语音信号进行识别。即语音唤醒技术是一种具有开关入口属性的功能，用户通过唤醒词的唤醒，可以发起人机交互的操作，即智能语音设备只有被用户所说的唤醒词唤醒后，才会对用户的语音信号进行识别。

发明人在具体实施过程中，发现现有技术中存在如下缺陷：语音识别模型的各个节点中存储的是字或词语，例如唤醒词为“旺咪咪”时，语音识别模型里的各个节点中存储的是“旺”与“咪咪”，而且在进行语音识别时，识别的结果也是输出对应的唤醒词本身，即输出“旺咪咪”，但是当更改唤醒词时，例如由唤醒词“旺咪咪”更改为“小甲”，语音识别模型也需要进行相应的更改，即将节点中存储“旺”与“咪咪”的唤醒词模型，更改为节点中存储“小”与“甲”的唤醒词模型，导致语音识别模型要随着唤醒词的更改而更改，无法固定，不仅造成使用上的不便利，而且极大增加了设计的复杂度及研发成本。

发明内容

有鉴于此，本发明实施例提供了一种唤醒词识别方法、装置、电子设备及计算机可读存储介质，能够使得语音识别模型固定不变，无极大降低设计的复杂度及研发成本。

为了解决上述问题，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种唤醒词识别方法，该方法包括：

获取用户输入的待识别的语音信息；

基于预设的语音识别模型，确定语音信息对应的第一音节序列；

确定第一音节序列中是否包括预设唤醒词的第二音节序列；

若包括，则确定语音信息中包括预设唤醒词，并执行相应的唤醒操作。

第二方面，本发明实施例还提供了一种唤醒词识别装置，该装置包括：

获取模块，用于获取用户输入的待识别的语音信息；

第一确定模块，用于基于预设的语音识别模型，确定语音信息对应的第一音节序列；

第二确定模块，用于确定第一音节序列中是否包括预设唤醒词的第二音节序列；

第三确定模块，用于当包括时，确定语音信息中包括预设唤醒词，并执行相应的唤醒操作。

第三方面，本发明实施例还提供了一种电子设备，包括：

至少一个处理器；

以及与处理器连接的至少一个存储器、总线；其中，

处理器、存储器通过总线完成相互间的通信；

处理器用于调用存储器中的程序指令，以执行上述的唤醒词识别方法。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其中，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述的唤醒词识别方法。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

本发明实施例提供的唤醒词识别方法，获取用户输入的待识别的语音信息，为后续确定待识别的音频数据中是否包括语音信号提供前提保障；基于预设的语音识别模型，确定语音信息对应的第一音节序列，为后续确定第一音节序列中是否包括预设唤醒词的第二音节序列奠定坚实基础；确定第一音节序列中是否包括预设唤醒词的第二音节序列，从而根据音节序列即可识别出语音信息中是否包括唤醒词，而无需识别语音信息中是否包括唤醒词的字或词语，从而使得语音识别模型无需随着唤醒词的更改而更改，可以固定不变，极大降低设计的复杂度及研发成本；若包括，则确定语音信息中包括预设唤醒词，并执行相应的唤醒操作，使得在确定第一音节序列中包括预设唤醒词的第二音节序列后，即可确定语音信息中包括预设唤醒词，并执行相应的唤醒操作，从而极大缩短了智能语音设备的识别时间，提高了唤醒词的识别效率及响应速度。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明实施例的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的唤醒词识别方法的流程示意图；

图2示出了本发明实施例提供的唤醒词识别装置的基本结构示意图；

图3示出了本发明实施例提供的唤醒词识别装置的详细结构示意图；

图4示出了本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

本发明实施例提供了一种唤醒词识别方法，可以由智能语音设备执行，如图1所示，包括：步骤S110，获取用户输入的待识别的语音信息；步骤S120，基于预设的语音识别模型，确定语音信息对应的第一音节序列；步骤S130：确定第一音节序列中是否包括预设唤醒词的第二音节序列；步骤S140：若包括，则确定语音信息中包括预设唤醒词，并执行相应的唤醒操作。

具体地，本发明实施例可以由智能语音设备执行，也可以由服务器执行，本发明实施例不对其做限制。其中，智能语音设备作为执行主体的唤醒词识别过程与服务器作为执行主体的唤醒词识别过程大致相同，只是步骤S110略有差异，智能语音设备作为执行主体时，在步骤S110中，可以通过其内置的高性能音频采集设备(例如麦克风、麦克风阵列)，获取用户输入的待识别的语音信息；服务器作为执行主体时，在步骤S110中，可以通过智能语音设备获取用户输入的待识别的语音信息，即智能语音设备将其获取到的待识别的语音信息发送给服务器，服务器接收智能语音设备发送的待识别的语音信息。

下面以智能语音设备作为执行主体为例，对本发明实施例的语音识别方法进行详细介绍，如下所示：

步骤S110，获取用户输入的待识别的语音信息。

具体地，智能语音设备处于开启状态时，通常都是通过其内置的高性能音频采集设备(例如麦克风、麦克风阵列)实时获取用户输入的待识别的语音信息，其中，语音信息中包括用户说话的语音，例如语音信息为“小甲，帮我导航至机场”，又例如语音信息为“打开音箱”。

步骤S120，基于预设的语音识别模型，确定语音信息对应的第一音节序列。

具体地，智能语音设备的音频采集设备获取到用户输入的待识别的语音信息之后，会将该待识别的语音信息传输至智能语音设备中预设的语音识别模型，通过语音识别模型对语音信息进行识别处理，确定该语音信息对应的音节序列(即第一音节序列)，其中，音节序列是指一系列的音节，音节就相当于汉字的拼音，包括声母、韵母等。

进一步地，假如语音信息为“小问，帮我导航至机场”，此时确定出的该语音信息的音节序列为“xiao wen bang wo dao hang zhi ji chang”，假如语音信息为“打开音箱”，此时确定出的该语音信息的音节序列为“da kai yin xiang”。

进一步地，智能语音设备的语音识别模型确定出语音信息的第一音节序列后，可以将该第一音节序列发送至唤醒词检测模型，以便后续通过唤醒词检测模型检测该第一音节序列中是否包括唤醒词的第二音节序列，从而确定出语音信息中是否包括唤醒词。

步骤S130：确定第一音节序列中是否包括预设唤醒词的第二音节序列。

具体地，唤醒词是预先设置好的，智能语音设备的语音识别模型可以预先对该预先设置的唤醒词进行识别处理，确定该唤醒词对应的音节序列(即第二音节序列)，假如唤醒词为“小问”，此时确定出的该唤醒词的音节序列为“xiao wen”。其中，在确定预设唤醒词的音节序列后，可以将该音节序列保存至唤醒词检测模型，即唤醒词检测模型接收并保存语音识别模型发送的第二音节序列，便于后续通过唤醒词检测模型检测语音信息中是否包括唤醒词。

进一步地，可以通过唤醒词检测模型确定语音信息的第一音节序列中是否包括预设唤醒词的第二音节序列，假如第一音节序列为“xiao wen bang wo dao hang zhi jichang”，第二音节序列为“xiao wen”，此时可以确定第一音节序列中包括第二音节序列，假如第一音节序列为“da kai yin xiang”，第二音节序列为“xiao wen”，此时可以确定第一音节序列中不包括第二音节序列。

步骤S140：若包括，则确定语音信息中包括预设唤醒词，并执行相应的唤醒操作。

具体地，在确定第一音节序列中包括预设唤醒词的第二音节序列后，即可确定语音信息中包括预设唤醒词，并执行相应的唤醒操作，唤醒智能语音设备，以使得智能语音设备对获取到的语音信息进行语义识别，从而根据所识别出的语义执行相应的操作，例如生成导航至机场的导航路线。

本发明实施例提供的唤醒词识别方法，与现有技术相比，获取用户输入的待识别的语音信息，为后续确定待识别的音频数据中是否包括语音信号提供前提保障；基于预设的语音识别模型，确定语音信息对应的第一音节序列，为后续确定第一音节序列中是否包括预设唤醒词的第二音节序列奠定坚实基础；确定第一音节序列中是否包括预设唤醒词的第二音节序列，从而根据音节序列即可识别出语音信息中是否包括唤醒词，而无需识别语音信息中是否包括唤醒词的字或词语，从而使得语音识别模型无需随着唤醒词的更改而更改，可以固定不变，极大降低设计的复杂度及研发成本；若包括，则确定语音信息中包括预设唤醒词，并执行相应的唤醒操作，使得在确定第一音节序列中包括预设唤醒词的第二音节序列后，即可确定语音信息中包括预设唤醒词，并执行相应的唤醒操作，从而极大缩短了智能语音设备的识别时间，提高了唤醒词的识别效率及响应速度。

实施例二

本发明实施例提供了另一种可能的实现方式，在实施例一的基础上，还包括实施例二所示的方法，其中，

语音识别模型包括音节列表，音节列表包括不带音调的音节或带音调的音节。

步骤S120包括步骤S1201(图中未标注)与步骤S1202(图中未标注)，其中，

步骤S1201：依据预设唤醒词的语音片段长度，对语音信息进行划分，得到多个语音信息片段。

步骤S1202：基于预设的语音识别模型，确定多个语音信息片段分别对应的第三音节序列。

步骤S130包括步骤S1301(图中未标注)与步骤S1302(图中未标注)，其中，

步骤S1301：确定任一第三音节序列中是否包括第二音节序列。

步骤S1302：当第三音节序列中包括第二音节序列包括时，确定第一音节序列中包括第二音节序列。

具体地，语音识别模型中预存储有音节列表，音节列表可以以表格的形式存储于语音识别模型中，也可以以数据库的形式存储于语音识别模型中，其中，音节列表包括不带音调的音节或带音调的音节，所有汉字的不带音调的音节总共约有400至500个，所有汉字的带音调的音节总共约有1400个，即语音识别模型中存储有约400至500个不带音调的音节，或者存储有约1400个带音调的音节。

进一步地，在获取到用户输入的语音信息后，可以根据语音识别模型中存储的音节列表，确定语音信息对应的音节序列(即第一音节序列)，同时也可以根据语音识别模型中存储的音节列表，确定预设唤醒词的音节序列(即第二音节序列)。

进一步地，在基于预设的语音识别模型，确定语音信息对应的第一音节序列的过程中，尤其是语音信息过长时，为便于后续对唤醒词的音节序列的识别，可以先依据预设唤醒词(例如“小问”)的语音片段长度(2个字节)，对用户输入的语音信息进行划分，得到多个语音信息片段。接着，可以根据语音识别模型中的音节列表，确定多个语音信息片段分别对应的音节序列(即第三音节序列)，从而通过确定任一第三音节序列中是否包括第二音节序列，来确定第一音节序列中是否包括预设唤醒词的第二音节序列，如果任一第三音节序列中包括第二音节序列，则可以确定第一音节序列中包括预设唤醒词的第二音节序列。其中，根据多个语音信号片段的先后划分次序，对多个第三音节进行重新组合，即可得到语音信号对应的音节序列(即第一音节序列)。

假如语音信息为“小问，帮我导航至机场”，长度为10个字节，则可以依据预设唤醒词(例如“小问”)的语音片段长度(2个字节)，将语音信息划分为5个语音信息片段，分别为“小问”、“，帮”、“我导”、“航至”及“机场”，接着根据语音识别模型中的音节列表，确定多个语音信息片段分别对应的音节序列(即第三音节序列)，分别为“xiao wen”、“bang”、“wodao”、“hang zhi”及“ji chang”，接着可以分别确定“xiao wen”、“bang”、“wo dao”、“hangzhi”及“ji chang”等多个第三音节序列中是否包括唤醒词的第二音节序列“xiao wen”，其中，第三音节序列“xiao wen”与第二音节序列的相似度值为100％，而其它的第三音节序列“bang”、“wo dao”、“hang zhi”及“ji chang”与第二音节序列的相似度值均为0％，即第三音节序列“xiao wen”中包括第二音节序列“xiao wen”，故可以确定第一音节序列中包括预设唤醒词的第二音节序列。

又假如语音信息为“打开音箱”，长度为4个字节，可以依据预设唤醒词(例如“小问”)的语音片段长度(2个字节)，将语音信息划分为2个语音信息片段，分别为“打开”与“音箱”，接着根据语音识别模型中的音节列表，确定各个语音信息片段分别对应的音节序列(即第三音节序列)，分别为“da kai”与“yin xiang”，接着可以分别确定“da kai”与“yinxiang”等多个第三音节序列中是否包括唤醒词的第二音节序列“xiao wen”，其中，第三音节序列“da kai”、“yin xiang”与第二音节序列的相似度值均为0％，故可以确定第一音节序列中不包括预设唤醒词的第二音节序列。

再假如语音信息为“早上好小问”，长度为5个字节，可以依据预设唤醒词(例如“小问”)的语音片段长度(2个字节)，将语音信息划分为3个语音信息片段，分别为“早上”、“好小”与“问”，接着根据语音识别模型中的音节列表，确定各个语音信息片段分别对应的音节序列(即第三音节序列)，分别为“zao shang”、“hao xiao”与“wen”，接着可以分别确定“zaoshang”、“hao xiao”与“wen”等多个第三音节序列中是否包括唤醒词的第二音节序列“xiaowen”，其中，第三音节序列“zao shang”与第二音节序列的相似度值为0％，而其它的第三音节序列“hao xiao”、“wen”与第二音节序列的相似度值分别为50％，即第三音节序列“haoxiao”与“wen”中可能包括第二音节序列，此时可以先根据语音信号片段的先后划分次序，将“hao xiao”、“wen”进行组合，得到组合后的音节序列“hao xiao wen”，再通过确定组合后的音节序列中是否包括第二音节序列，来确定第一音节序列中是否包括预设唤醒词的第二音节序列，如果确定出组合后的音节序列“hao xiao wen”与第二音节序列“xiao wen”的相似度值为100％，而且音节“xiao”紧挨音节“wen”并位于音节“wen”之前，即可确定组合后的音节序列中包括第二音节序列“xiao wen”，故可以确定第一音节序列中包括预设唤醒词的第二音节序列。

其中，根据多个语音信号片段的先后划分次序，对多个第三音节进行重新组合，即可得到语音信号对应的音节序列(即第一音节序列)，例如“xiao wen bang wo dao hangzhi ji chang”、“da kai yin xiang”及“zao shang hao xiao wen”。

对于本发明实施例，通过语音信息的片段划分，得到各语音信息片段的第三音节序列，再通过确定各个第三音节序列中是否包括第二音节序列，来确定第一音节序列中是否包括第二音节序列，有效避免了由于语音信息过长而导致出现无法识别唤醒词的情况生，确保了唤醒词识别过程中的准确性，利于提高识别效率。

实施例三

本发明实施例提供了另一种可能的实现方式，在实施例二的基础上，还包括实施例三所示的方法，其中，

在步骤S110之前还包括步骤S100(图中未标注)及步骤S101(图中未标注)，其中，

步骤S100：接收输入的音频信号。

步骤S101：对音频信号进行噪音滤除处理，以获取音频信号中的语音信息。

具体地，智能语音设备处于开启状态时，通常都是通过其内置的高性能音频采集设备(例如麦克风、麦克风阵列)实时接收输入的音频信号，其中，在非常安静的场景下，音频信号可以是只包括用户说话的语音，而在稍微嘈杂的环境下，音频信号可以是包括各种噪音的语音。

进一步地，在接收到输入的音频信号后，可以先对音频信号进行噪音滤除处理，以滤除音频信号中噪音对语音的干扰，便于后续在语音中进行唤醒词的快速、准确识别，其中，在滤除噪音时可以采用高通滤波器、维纳滤波器、平滑线性滤波、高斯滤波等方式，当然也可以采用现有技术中的其它方式，本发明实施例不对其做限制。

对于本发明实施例，通过对音频信号进行噪音滤除处理，有效避免了噪音对语音信号的干扰，从而确保了后续语音识别的准确性，为后续基于语音信号识别唤醒词提供前提保障。

实施例四

图2为本发明实施例提供的一种唤醒词识别装置的结构示意图，如图2所示，该装置20可以包括获取模块21、第一确定模块22、第二确定模块23及第三确定模块24，其中，

获取模块21用于获取用户输入的待识别的语音信息。

第一确定模块22用于基于预设的语音识别模型，确定语音信息对应的第一音节序列。

第二确定模块23用于确定第一音节序列中是否包括预设唤醒词的第二音节序列。

第三确定模块24用于当包括时，确定语音信息中包括预设唤醒词，并执行相应的唤醒操作。

具体地，语音识别模型包括音节列表，音节列表包括不带音调的音节或带音调的音节。

进一步地，第一确定模块22包括片段划分子模块221与音节序列确定子模块222，如图3所示，其中，

片段划分子模块221用于依据预设唤醒词的语音片段长度，对语音信息进行划分，得到多个语音信息片段；

音节序列确定子模块222用于基于预设的语音识别模型，确定多个语音信息片段分别对应的第三音节序列。

进一步地，第二确定模块23包括处理子模块231与确定子模块232，如图3所示，其中，

第一确定子模块231用于确定任一第三音节序列中是否包括第二音节序列；

第二确定子模块232用于当第三音节序列中包括第二音节序列时，确定第一音节序列中包括第二音节序列。

进一步地，该装置还包括接收模块25与噪音处理模块26，如图3所示，其中，

接收模块25用于接收输入的音频信号；

噪音处理模块26用于对音频信号进行噪音滤除处理，以获取所述音频信号中的语音信息。

本发明实施例提供的唤醒词识别装置，与现有技术相比，获取用户输入的待识别的语音信息，为后续确定待识别的音频数据中是否包括语音信号提供前提保障；基于预设的语音识别模型，确定语音信息对应的第一音节序列，为后续确定第一音节序列中是否包括预设唤醒词的第二音节序列奠定坚实基础；确定第一音节序列中是否包括预设唤醒词的第二音节序列，从而根据音节序列即可识别出语音信息中是否包括唤醒词，而无需识别语音信息中是否包括唤醒词的字或词语，从而使得语音识别模型无需随着唤醒词的更改而更改，可以固定不变，极大降低设计的复杂度及研发成本；若包括，则确定语音信息中包括预设唤醒词，并执行相应的唤醒操作，使得在确定第一音节序列中包括预设唤醒词的第二音节序列后，即可确定语音信息中包括预设唤醒词，并执行相应的唤醒操作，从而极大缩短了智能语音设备的识别时间，提高了唤醒词的识别效率及响应速度。

由于本发明实施例所介绍的唤醒词识别装置为可以执行本发明实施例中的唤醒词识别方法的装置，故而基于本发明实施例中所介绍的唤醒词识别方法，本领域所属技术人员能够了解本实施例的唤醒词识别装置的具体实施方式以及其各种变化形式，所以在此对于该唤醒词识别装置如何实现本发明实施例中的唤醒词识别方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中唤醒词识别方法所采用的装置，都属于本发明所欲保护的范围。

实施例五

本发明实施例提供了一种电子设备，如图4所示，图4所示的电子设备40包括：处理器41和存储器42。其中，处理器41和存储器42相连，如通过总线43相连。进一步地，电子设备40还可以包括收发器44(图中未标注)。需要说明的是，实际应用中收发器44不限于一个，该电子设备40的结构并不构成对本发明实施例的限定。

其中，处理器41应用于本发明实施例中，用于实现图2或图3所示的获取模块、第一确定模块、第二确定模块及第三确定模块的功能，以及图3所示的接收模块及噪音处理模块的功能。

处理器41可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器41也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线43可包括一通路，在上述组件之间传送信息。总线43可以是PCI总线或EISA总线等。总线43可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器42可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器42用于存储执行本发明方案的应用程序代码，并由处理器41来控制执行。处理器41用于执行存储器42中存储的应用程序代码，以实现图2或图3所示实施例提供的唤醒词识别装置的动作。

本发明实施例提供的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，与现有技术相比，可实现：获取用户输入的待识别的语音信息，为后续确定待识别的音频数据中是否包括语音信号提供前提保障；基于预设的语音识别模型，确定语音信息对应的第一音节序列，为后续确定第一音节序列中是否包括预设唤醒词的第二音节序列奠定坚实基础；确定第一音节序列中是否包括预设唤醒词的第二音节序列，从而根据音节序列即可识别出语音信息中是否包括唤醒词，而无需识别语音信息中是否包括唤醒词的字或词语，从而使得语音识别模型无需随着唤醒词的更改而更改，可以固定不变，极大降低设计的复杂度及研发成本；若包括，则确定语音信息中包括预设唤醒词，并执行相应的唤醒操作，使得在确定第一音节序列中包括预设唤醒词的第二音节序列后，即可确定语音信息中包括预设唤醒词，并执行相应的唤醒操作，从而极大缩短了智能语音设备的识别时间，提高了唤醒词的识别效率及响应速度。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。与现有技术相比，获取用户输入的待识别的语音信息，为后续确定待识别的音频数据中是否包括语音信号提供前提保障；基于预设的语音识别模型，确定语音信息对应的第一音节序列，为后续确定第一音节序列中是否包括预设唤醒词的第二音节序列奠定坚实基础；确定第一音节序列中是否包括预设唤醒词的第二音节序列，从而根据音节序列即可识别出语音信息中是否包括唤醒词，而无需识别语音信息中是否包括唤醒词的字或词语，从而使得语音识别模型无需随着唤醒词的更改而更改，可以固定不变，极大降低设计的复杂度及研发成本；若包括，则确定语音信息中包括预设唤醒词，并执行相应的唤醒操作，使得在确定第一音节序列中包括预设唤醒词的第二音节序列后，即可确定语音信息中包括预设唤醒词，并执行相应的唤醒操作，从而极大缩短了智能语音设备的识别时间，提高了唤醒词的识别效率及响应速度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、***或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种唤醒词识别方法，其特征在于，包括：

获取用户输入的待识别的语音信息；

依据预设唤醒词的语音片段长度，对所述语音信息进行划分，得到多个具有先后划分次序的语音信息片段，所述唤醒词的语音片段长度为2个字节；

基于预设的语音识别模型，确定所述多个具有先后划分次序的语音信息片段分别对应的第三音节序列；

确定任一第三音节序列中是否包括预设唤醒词的第二音节序列；

若包括，则确定所述语音信息中包括预设唤醒词，并执行相应的唤醒操作；

所述确定任一第三音节序列中是否包括预设唤醒词的第二音节序列，包括：

若两个相邻的语音信息片段分别对应的第三音节序列与所述唤醒词的第二音节序列相似度为50％，根据所述语音信息片段的先后划分次序，将所述两个相邻的语音信息片段分别对应的第三音节序列重新组合，以得到组合后的音节序列，确定所述组合后的音节序列是否包括预设唤醒词的第二音节序列。

2.根据权利要求1所述的方法，其特征在于，所述语音识别模型包括音节列表，所述音节列表包括不带音调的音节或带音调的音节。

3.根据权利要求1-2任一项所述的方法，其特征在于，在获取用户输入的待识别的语音信息之前，还包括：

接收输入的音频信号；

对所述音频信号进行噪音滤除处理，以获取所述音频信号中的语音信息。

4.一种唤醒词识别装置，其特征在于，包括：

获取模块，用于获取用户输入的待识别的语音信息；

片段划分子模块，用于依据预设唤醒词的语音片段长度，对所述语音信息进行划分，得到多个具有先后划分次序的语音信息片段，所述唤醒词的语音片段长度为2个字节；

音节序列确定子模块，用于基于预设的语音识别模型，确定所述多个具有先后划分次序的语音信息片段分别对应的第三音节序列；

第二确定模块，用于确定任一第三音节序列中是否包括预设唤醒词的第二音节序列；

第三确定模块，用于当包括时，确定所述语音信息中包括预设唤醒词，并执行相应的唤醒操作；

所述第二确定模块还用于若两个相邻的语音信息片段分别对应的第三音节序列与所述唤醒词的第二音节序列相似度为50％，根据所述语音信息片段的先后划分次序，将所述两个相邻的语音信息片段分别对应的第三音节序列重新组合，以得到组合后的音节序列，确定所述组合后的音节序列是否包括预设唤醒词的第二音节序列。

5.根据权利要求4所述的装置，其特征在于，所述语音识别模型包括音节列表，所述音节列表包括不带音调的音节或带音调的音节。

6.一种电子设备，其特征在于，包括：

至少一个处理器；

以及与所述处理器连接的至少一个存储器、总线；其中，

所述处理器、存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1至权利要求3中任一项所述的唤醒词识别方法。

7.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1至权利要求3中任一项所述的唤醒词识别方法。