CN105872687A

CN105872687A - 一种通过语音控制智能设备的方法及装置

Info

Publication number: CN105872687A
Application number: CN201610196676.1A
Authority: CN
Inventors: 张文
Original assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd; LeTV Holding Beijing Co Ltd
Current assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd; LeTV Holding Beijing Co Ltd
Priority date: 2016-03-31
Filing date: 2016-03-31
Publication date: 2016-08-17

Abstract

本发明公开了一种通过语音控制智能设备的方法及装置，属于语音控制技术领域。所述方法包括：获取用户发出的控制语音；将所述控制语音与预置的语言系属分类库包括的语音模板进行比对；根据比对结果确定与所述控制语音对应的控制指令，执行所述控制指令对应的操作，其中，所述语言系属分类库包括与智能设备控制指令关联的普通话语音模板和方言语音模板。本发明实施例解决现有技术中智能设备的语音控制功能对方言的识别率不高，可能出现用户喊出几次控制指令，智能设备却无法识别的问题，提供一种准确迅速识别用户语音控制指令的方式，达到了提升用户的应用体验的效果。

Description

一种通过语音控制智能设备的方法及装置

技术领域

本发明实施例涉及语音控制技术领域，尤其涉及一种通过语音控制智能设备的方法及装置。

背景技术

现有技术中，对智能电视的遥控方法主要包括两种，一种为通过按键式遥控器与智能电视的红外通信，控制智能电视；以及，另一种为通过语音控制智能电视。通过遥控器操作电视，如果遥控器出现故障，用户无法使用电视机，因此，通过语音控制电视机已经逐渐取代遥控器控制。

语音控制功能给用户带来诸多便利，简化用户的操作步骤，完美的实现人机交互。但是，目前智能电视的语音功能尚只支持普通话。然而，目前普通话的普及并不十分广泛，各个地方的用户普通话不是特别标准。家庭用户也还是以地方方言交流为主，这样就使得智能电视的语音识别率比较低，可能出现用户喊出几次语音命令，智能电视却无法识别的情况，用户得不到很好的交互体验。

发明内容

本发明实施例提供一种通过语音控制智能设备的方法及装置，以提供一种智能设备的新的语音控制方式，提高了语音识别准确率，提升了用户的交互体验。

第一方面，本发明实施例提供了一种通过语音控制智能设备的方法，包括：

获取用户发出的控制语音；

将所述控制语音与预置的语言系属分类库包括的语音模板进行比对；

根据比对结果确定与所述控制语音对应的控制指令，执行所述控制指令对应的操作，其中，所述语言系属分类库包括与智能设备控制指令关联的普通话语音模板和方言语音模板。

优选的，在获取用户发出的控制语音之前，还包括：

通过智能设备的显示屏显示设定语句，以提示用户读所述设定语句；

将对应于设定语句的用户语音与设定测试语音库进行匹配，以确定用户的语言系属分类；

将所述语言系属分类库中对应于所确定的语言系属分类的语音模板的比对优先级设为最高；

以及，将所述控制语音与预置的语言系属分类库包括的语音模板进行比对，包括：

确定当前用户发出的所述控制语音对应的音频特征码；

将音频特征码与所述语言系属分类库中比对优先级最高的语音模板进行比对，获得比对结果。

优选的，将所述用户语音与对应于所述设定语句的预设测试语音库进行匹配，以确定用户的语言系属分类，包括：

确定所述用户语音对应的音频特征码；

将所述音频特征码与所述测试语音库中的音频特征码模板进行匹配；

根据匹配结果确定用户对应的语言系属分类，其中，所述语言系属分类包括普通话和方言。

优选的，将所述音频特征码与所述测试语音库中的音频特征码模板进行匹配，包括：

根据网际协议地址确定智能设备所处地区；

根据所确定的地区获取所述测试语音库中与所述地区对应的音频特征码模块；

将所述音频特征码与所述音频特征码模板进行匹配，确定匹配度；

在匹配度未达到设定阈值时，按照设定顺序依次比对所述音频特征码与所述测试语音库中剩余音频特征码模板。

优选的，将所述控制语音与预置的语言系属分类库包括的语音模板进行比对，包括：

确定当前用户发出的所述控制语音对应的音频特征码；

按照预设的比对优先级，依次将所述音频特征码与所述语言系属分类库包括的语音模板进行匹配，以识别所述控制语音。

第二方面，本发明实施例还提供了一种通过语音控制智能设备的装置，该装置包括：

语音获取模块，用于获取用户发出的控制语音；

语音识别模块，用于将所述控制语音与预置的语言系属分类库包括的语音模板进行比对；

指令确定模块，用于根据比对结果确定与所述控制语音对应的控制指令，执行所述控制指令对应的操作，其中，所述语言系属分类库包括与智能设备控制指令关联的普通话语音模板和方言语音模板。

优选的，所述装置还包括：

设定语句显示模块，用于在获取用户发出的控制语音之前，通过智能设备的显示屏显示设定语句，以提示用户读所述设定语句；

语系确定模块，用于将对应于设定语句的用户语音与设定测试语音库进行匹配，以确定用户的语言系属分类；

优先级设置模块，用于将所述语言系属分类库中对应于所确定的语言系属分类的语音模板的比对优先级设为最高；

以及，所述指令确定模块具体用于：

确定当前用户发出的所述控制语音对应的音频特征码；

将音频特征码与所述语言系属分类库中比对优先级最高的语音模板进行比对，以识别所述控制语音。

优选的，所述语系确定模块包括：

特征码提取子模块，用于确定所述用户语音对应的音频特征码；

语音匹配子模块，用于将所述音频特征码与所述测试语音库中的音频特征码模板进行匹配；

语言系属确定子模块，根据匹配结果确定用户对应的语言系属分类，其中，所述语言系属分类包括普通话和方言。

优选的，所述语言系属确定子模块具体用于：

根据网际协议地址确定智能设备所处地区；

在匹配度未达到设定阈值时，将所述音频特征码与所述测试语音库中剩余音频特征码模板进行匹配。

优选的，所述指令确定模块具体用于：

确定当前用户发出的所述控制语音对应的音频特征码；

按照预设的比对优先级顺序，将所述音频特征码与所述语言系属分类库包括的语音模板进行匹配，以识别所述控制语音。

本发明实施例通过获取用户发出的控制语音；将所述控制语音与预置的语言系属分类库包括的语音模板进行比对；根据比对结果确定与所述控制语音对应的控制指令，执行所述控制指令对应的操作，解决现有技术中智能设备的语音控制功能对方言的识别率不高，可能出现用户喊出几次控制指令，智能设备却无法识别的问题，提供一种准确迅速识别用户语音控制指令的方式，达到了提升用户的应用体验的效果。

附图说明

图1是本发明实施例一中的一种通过语音控制智能设备的方法的流程图；

图2是本发明实施例二中的一种通过语音控制智能设备的方法中控制语音识别步骤的流程图；

图3是本发明实施例三中的一种通过语音控制智能设备的装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种通过语音控制智能设备的方法的流程图，本实施例可适用于不使用普通话或普通话不标准的用户使用智能设备的语音控制功能的情况，该方法可以由通过语音控制智能设备的装置来执行，该装置被配置于具有数据处理功能的智能设备中。所述通过语音控制智能设备的方法具体包括如下步骤：

步骤110、获取用户发出的控制语音。

其中，所述控制语音为用户想要下达到智能设备的语音指令，可以是普通话、可以是方言或其它任何语言。智能设备通过麦克风获取到用户对智能设备发出的语音指令。对所述语音指令执行滤波、降噪等预处理，将预处理后的语音指令转换为数字信号输入至智能设备的主控制器。其中，麦克风可设置在智能设备内(诸如智能电视机机体内)，也可是单独的位于智能设备之外(诸如智能电视机机体外)，麦克风与智能设备为通信连接。若所述智能设备为智能电视，当用户说出想要看的电视频道时，通过麦克风采集用户的语音数据，采集过程中通过滤波、降噪等预处理，实现将其它不需要的声音数据当作噪音进行过滤而保留用户的声音数据的目的。

步骤120、将所述控制语音与预置的语言系属分类库包括的语音模板进行比对。

其中，语言系属分类库为与普通话、方言或其它语言相关的音素的集合，并且，根据语言系属不同，所述语言系属分类库包括若干个子库。例如，所述语言系属分类库包括普通话子库、上海话子库、东北话子库、重庆话子库以及粤语子库等。其中，音素是构成音节的最小单位或最小的语音片段，是从音质的角度划分出来的最小的线性的语音单位。例如，汉语中的声母和韵母，以及英语中的元音和辅音等。每一种语言中的音素都是不一样的，即使是同种语言中，方言的音素也是不一样的。

在各个子库中存储有与智能设备控制指令关联的音素的集合，所述音素的集合以词组的形式构成语音模板。其中，控制指令包括打开电视、关闭电视、打开空调、看北京卫视及播放新闻联播等智能设备的操作指令。并且由设定数目的连续发音的音素组成一个词组。例如，在上海话子库中存储有与智能设备控制指令关联的上海话语音模板。东北话子库中存储有与智能设备控制指令关联的东北话语音模板。

智能设备确定当前用户发出的所述控制语音对应的音频特征码。其中，音频特征码包括当前用户发出的控制语音对应的音素。例如，智能设备的主控制器对所述控制语音进行分帧，每一帧占有设定的时长(比如25ms)。再假设这样的一帧既足够长(可以蕴含足以判断它的音素属性)，又很平稳(方便进行短时傅里叶分析)，这样将每一帧转换为一个特征向量，依次识别控制语音对应的音素。

按照预设的比对优先级，依次将所述音频特征码与所述语言系属分类库包括的语音模板进行匹配，以识别所述控制语音。通过智能设备可以预先为语言系属分类库中的各个子库指定优先级。例如，可以在智能设备出厂前为语言系属分类库包括的各个子库按照设定的规则指定优先级。一种可能的顺序是普通话子库的优先级最高，其余子库根据各地区首字的首字母排列顺序确定与地区对应的子库的优先级。还可以由用户为语言系属分类库包括的各个子库指定优先级。一种指定的情形可能是提示用户根据家人所用的语言设置子库的优先级。还可以是智能设备记录控制语音所属的子库，根据使用频率自动更新优先级排名。智能设备在对控制语音执行分帧处理，并识别出控制语音对应的音素后，根据各个子库的优先级排名，将控制语音与各个子库对应的语音模板进行比对，执行搜索解码过程。解码的原理通常是在给定了根据语法、字典对马尔科夫模型进行连接后的搜索的网络(网络的每个节点可以是一个词组等)后，在所有可能的搜索路径中选择一条或多条最优(通常是最大后验概率)路径(字典中出现词组的词组串)作为识别结果。

步骤130、根据比对结果确定与所述控制语音对应的控制指令，执行所述控制指令对应的操作。

由于所述语言系属分类库包括的语音模板与智能设备控制指令关联，即所述语音模块与打开电视、关闭电视、打开空调、看北京卫视以及播放新闻联播等智能设备的控制指令存在设定对应关系。若确定了控制语音与语音模块的对应关系，也就确定了控制语音与控制指令的对应关系。智能设备根据所确定的控制指令执行相应的操作。

本实施例的技术方案，通过获取用户发出的控制语音；将所述控制语音与预置的语言系属分类库包括的语音模板进行比对；根据比对结果确定与所述控制语音对应的控制指令，执行所述控制指令对应的操作，解决现有技术中智能设备的语音控制功能对方言的识别率不高，可能出现用户喊出几次控制指令，智能设备却无法识别的问题，提供一种准确迅速识别用户语音控制指令的方式，达到了提升用户的应用体验的效果。

实施例二

图2是本发明实施例二中的一种通过语音控制智能设备的方法中控制语音识别步骤的流程图。本实施例的技术方案进一步对将所述控制语音与预置的语言系属分类库包括的语音模板进行比对进行说明，具体包括如下步骤：

步骤210、通过智能设备的显示屏显示设定语句，以提示用户读所述设定语句。

智能设备在检测到语音输入时，在显示屏上显示设定语句，提示用户读所述设定语句。例如，在检测到用户向智能电视发出语音指令时，在智能电视上显示能够区分各个地区的语言的一个短句。

步骤220、将对应于设定语句的用户语音与设定测试语音库进行匹配，以确定用户的语言系属分类。

智能设备确定所述用户语音对应的音频特征码，音频特征码的确定过程与实施例一的记载的方式相同，此处不再赘述。

智能终端将所述音频特征码与所述测试语音库中的音频特征码模板进行匹配。其中，测试语音库中包括对应于所述设定语句的音频特征码模板。例如，所述测试语音库包括普通话测试子库、上海话测试子库、东北话测试子库、重庆话测试子库以及粤语测试子库等。在各个测试子库中存储有与所述设定语句对应的音素的集合，所述音素的集合以词组(设定数目的连续发音的音素组成一个词组)的形式构成音频特征码模板。例如，在重庆话测试子库中存储有与所述设定语句对应的重庆话语音模板。在闽南语测试子库中存储有与所述设定语句对应的闽南语语音模板。

智能设备确定对应于设定语句的用户语音对应的音频特征码。其中，音频特征码包括当前用户发出的用户语音对应的音素。例如，智能设备的主控制器对所述用户语音进行分帧，每一帧占有设定的时长(比如25ms)。再假设这样的一帧既足够长(可以蕴含足以判断它的音素属性)，又很平稳(方便进行短时傅里叶分析)，这样将每一帧转换为一个特征向量，依次识别用户语音对应的音素。

智能设备根据网际协议地址确定智能设备所处地区，根据所确定的地区获取所述测试语音库中与所述地区对应的音频特征码模块。智能设备将所述音频特征码与所述音频特征码模板进行匹配，确定匹配度；在匹配度超过设定的阈值时，确定当前测试子库对应的语言系属分类为用户使用的语言。在匹配度未达到设定阈值时，按照设定顺序依次比对所述音频特征码与所述测试语音库中剩余音频特征码模板。根据匹配结果确定用户对应的语言系属分类，其中，所述语言系属分类包括普通话和方言。例如，智能设备的主控制器根据当前的网际协议IP地址确定当前智能设备处于天津，在测试语音库中选择天津话测试子库包括的音频特征码模板。智能设备将对应于设定语句的用户语音的音频特征码与天津话测试子库的音频特征码模板进行匹配。如匹配度超过设定阈值，则确定当前用户使用天津话。若匹配度未达到设定阈值，则按照设定优先级将对应于设定语句的所述音频特征码与所述测试语音库中剩余音频特征码模板进行匹配，将匹配度超过设定阈值的音频特征码模板对应的语言系属分类作为用户设有的语言系属分类。其中，测试语音库中各个测试子库的优先级的设定方式与实施例一中语言系属分类库中的各个子库的优先级设定方式相同，此处不再赘述。

步骤230、将所述语言系属分类库中对应于所确定的语言系属分类的语音模板的比对优先级设为最高。

智能设备将上述步骤中确定的用户使用的语言系属分类对应的语音模板的比对优先级设为最高。例如，通过上述步骤确定用户使用天津话，那么，将语言系属分类库中天津话子库包括的语音模板的优先级设为最高。所述语言系属分类库中语音模板的优先级对应于包括所述语音模板的子库的优先级。所述语言系属分类库中剩余语音模板的优先级按照实施例一中语言系属分类库中的各个子库的优先级排序，此处不再赘述。

步骤240、获取用户发出的控制语音。

智能设备通过麦克风采集用户的语音数据，对所采集的语音数据的处理方式与实施例一相同，此处不再赘述。

步骤250、确定当前用户发出的所述控制语音对应的音频特征码。

智能设备确定当前用户发出的所述控制语音对应的音频特征码。音频特征码的确定过程与实施例一的记载的方式相同，此处不再赘述。

步骤260、将音频特征码与所述语言系属分类库中比对优先级最高的语音模板进行比对，获得比对结果。

智能设备将音频特征码与上述步骤中确定的优先级最高的语音模板进行比对。例如，根据上述步骤确定语言系属分类库中天津话子库包括的语音模板的优先级最高。在执行比对操作时，智能设备的主控制器首先将所述音频特征码与天津话子库包括的语音模板进行比对，若存在匹配度超过设定阀值的词组，则将该词组或词组串作为根据比对结果得到的控制语音的识别结果。

本实施例的技术方案，通过使用户读设定语句，缩小了语音识别的范围，提高了识别速度。并且首先对用户使用的语言进行确定，从而设定智能设备在获得用户的控制指令时，优先比对的语言系属分类库包括的语音模板，实现每次获取控制指令后，智能设备可以有针对性的确定首选的比对模板，进一步提高了语音识别速度和准确度。

实施例三

图3是本发明实施例三中的一种通过语音控制智能设备的装置的结构示意图。所述装置包括：

语音获取模块310，用于获取用户发出的控制语音。

语音识别模块320，用于将所述控制语音与预置的语言系属分类库包括的语音模板进行比对。

指令确定模块330，用于根据比对结果确定与所述控制语音对应的控制指令，执行所述控制指令对应的操作，其中，所述语言系属分类库包括与智能设备控制指令关联的普通话语音模板和方言语音模板。

本实施例的技术方案，通过语音获取模块310获取用户发出的控制语音。采用语音识别模块320将所述控制语音与预置的语言系属分类库包括的语音模板进行比对。通过指令确定模块330根据比对结果确定与所述控制语音对应的控制指令，执行所述控制指令对应的操作，解决现有技术中智能设备的语音控制功能对方言的识别率不高，可能出现用户喊出几次控制指令，智能设备却无法识别的问题，提供一种准确迅速识别用户语音控制指令的方式，达到了提升用户的应用体验的效果。

进一步的，所述装置还包括：

以及，所述指令确定模块具体用于：

确定当前用户发出的所述控制语音对应的音频特征码；

进一步的，所述语系确定模块包括：

进一步的，所述语言系属确定子模块具体用于：

根据网际协议地址确定智能设备所处地区；

进一步的，所述指令确定模块330具体用于：

确定当前用户发出的所述控制语音对应的音频特征码；

上述通过语音控制智能设备的装置可执行本发明任意实施例所提供的通过语音控制智能设备的方法，具备执行方法相应的功能模块和有益效果。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种通过语音控制智能设备的方法，其特征在于，包括：

获取用户发出的控制语音；

2.根据权利要求1所述的方法，其特征在于，在获取用户发出的控制语音之前，还包括：

确定当前用户发出的所述控制语音对应的音频特征码；

3.根据权利要求2所述的方法，其特征在于，将所述用户语音与对应于所述设定语句的预设测试语音库进行匹配，以确定用户的语言系属分类，包括：

确定所述用户语音对应的音频特征码；

4.根据权利要求3所述的方法，其特征在于，将所述音频特征码与所述测试语音库中的音频特征码模板进行匹配，包括：

根据网际协议地址确定智能设备所处地区；

5.根据权利要求1所述的方法，其特征在于，将所述控制语音与预置的语言系属分类库包括的语音模板进行比对，包括：

确定当前用户发出的所述控制语音对应的音频特征码；

6.一种通过语音控制智能设备的装置，其特征在于，包括：

语音获取模块，用于获取用户发出的控制语音；

7.根据权利要求6所述的装置，其特征在于，还包括：

以及，所述指令确定模块具体用于：

确定当前用户发出的所述控制语音对应的音频特征码；

8.根据权利要求7所述的装置，其特征在于，所述语系确定模块包括：

9.根据权利要求8所述的装置，其特征在于，所述语言系属确定子模块具体用于：

根据网际协议地址确定智能设备所处地区；

10.根据权利要求6所述的装置，其特征在于，所述指令确定模块具体用于：

确定当前用户发出的所述控制语音对应的音频特征码；