CN103714815A

CN103714815A - 语音控制方法及其设备

Info

Publication number: CN103714815A
Application number: CN201310657278.1A
Authority: CN
Inventors: 何永; 李传丰
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-12-09
Filing date: 2013-12-09
Publication date: 2014-04-09

Abstract

本发明公开了一种语音控制方法及其设备，所述控制方法包括步骤：（a）实时地接收音频数据；（b）通过语音断点检测对接收到的所述音频数据进行首部判断，以获取一有效音频信息；（c）判断所述有效音频信息是否包含一唤醒信息；若包含所述唤醒信息，则进一步执行步骤（d）；否则执行步骤（a）；（d）通过语音断点检测对所述有效音频信息进行首尾判断，以获取执行内容信息；（e）进行语义解析，以将所述执行内容信息转换为标准执行命令信息；（f）根据所述标准执行命令信息来执行相关的命令，并将执行的结果显示给用户。本发明提供一种新型的智能语音交互的环境，使得用户能高效便捷地使用语音交互功能。

Description

语音控制方法及其设备

技术领域

本发明涉及语音/语义识别技术、自然语言处理技术及智能终端应用开发技术领域，具体的说，是一种语音控制方法及其设备。

背景技术

随着语音交互技术和智能控制技术地不断发展，具有语音识别功能并能根据所输入的语音内容执行相关操作的设备也越来越多。目前，已知的语音控制设备主要采用两种方式进行交互，一种方式是通过手动启动语音识别开关，在启动该开关之后，语音输入执行内容。另一种方式是通过特定的唤醒信息以启动语音识别功能，在唤醒完成后，再语音输入执行内容。但是上述两类的语音交互的控制设备存有以下不足之处：（1）第一种方式，需要手动操作，不能完全实现语音交互全自动操作。（2）第二种方式，每次语音操作，首先需要先语音输入一特定的唤醒信息，然后在等待一设定时间（若干秒）之后，设备才会自动去截取用户所述的语音内容，于是这样会大大降低智能语音交互的快捷性和便捷性。

故，需要一种新型的语音控制方法及其设备。

发明内容

本发明的目的在于，提供一种语音控制方法及其设备，其能够克服现有技术的不足之处，并提供一种新型的智能语音交互的环境，使得用户能够更高效便捷地使用语音交互功能。

为实现上述目的，本发明一种语音控制方法，包括步骤：（a）实时地接收音频数据；（b）通过语音断点检测对接收到的所述音频数据进行首部判断，以获取一有效音频信息；（c）判断所述有效音频信息是否包含一唤醒信息；若包含所述唤醒信息，则进一步执行步骤（d）；否则执行步骤（a）；（d）通过语音断点检测对所述有效音频信息进行首尾判断，以获取执行内容信息；（e）进行语义解析，以将所述执行内容信息转换为标准执行命令信息；（f）根据所述标准执行命令信息来执行相关的命令，并且将执行的结果显示给用户。

进一步，在步骤（c）中进一步包括以下步骤：

将所述有效音频信息传送至一本地唤醒信息数据库；

将所述有效音频信息与所述本地唤醒信息数据库的内容进行匹配；当匹配出唤醒信息时，则执行步骤（d）；否则，则执行步骤（a）。

进一步，在所述步骤（d）和步骤（e）中进一步包括以下步骤：

将所获得的唤醒信息和执行内容信息同时传送至云端数据库；

通过云端语音识别将所述唤醒信息与云端数据库的内容进行匹配；若匹配出时，则执行步骤（e）；否则执行步骤（a）。

进一步，在所述步骤（e）中进一步包括以下步骤：

将所获得的执行内容信息转为文本格式信息；

将所述文本格式信息解析为标准执行命令信息。

进一步，所述唤醒信息为一个字、一个词或一句子中任意一种。

为了实现上述目的，本发明还提供一种语音控制设备，其包括音频接收模块、断点检测模块、唤醒信息判断模块、执行内容信息获取模块、转换模块和执行模块；其中所述音频接收模块，用以实时地接收音频数据；所述断点检测模块，与所述音频接收模块连接，用以通过语音断点检测对接收到的所述音频数据进行首部判断，以获取一有效音频信息；所述唤醒信息判断模块，与所述断点检测模块连接，用以判断所述有效音频信息是否包含一唤醒信息，若是则调用所述执行内容信息获取模块，否则调用所述音频接收模块；所述执行内容信息获取模块，与所述唤醒信息判断模块连接，用以通过语音断点检测对所述有效音频信息进行首尾判断，以获取执行内容信息；所述转换模块，与所述执行内容信息获取模块连接，用以进行语义解析，以将所述执行内容信息转换为标准执行命令信息；所述执行模块，与所述转换模块连接，所述执行模块用以根据所述标准执行命令信息来执行相关的命令，并且将执行的结果显示给用户。

进一步，所述唤醒信息判断模块进一步包括传送单元和匹配单元；所述传送单元用以将所述有效音频信息传送至一本地唤醒信息数据库；所述匹配单元与所述传送单元连接，用以将所述有效音频信息与所述本地唤醒信息数据库的内容进行匹配；当匹配出唤醒信息时，则调用执行内容信息获取模块；否则，调用所述音频接收模块。

进一步，所述传送单元进一步用以将所获得的唤醒信息和执行内容信息同时传送至云端数据库；所述匹配单元进一步用以通过云端语音识别将所述唤醒信息与云端数据库的内容进行匹配；若匹配出时，则调用所述转换模块；否则调用所述音频接收模块。

进一步，所述转换模块进一步包括转换单元和解析单元，所述转换单元，用以将所获得的执行内容信息转为文本格式信息；所述解析单元与所述转换单元连接，用以将所述文本格式信息解析为标准执行命令信息。

本发明的优点在于，利用语音断点检测技术、唤醒信息检测技术及语音识别技术，以提供一种新型的智能语音交互的环境，使用户能够更高效方便地使用语音交互功能，从而使得相关的设备能够更快捷地完成所欲执行的语音内容。

附图说明

图1是本发明所述语音控制方法的步骤流程图。

图2是本发明所述语音控制设备的架构图。

具体实施方式

下面结合附图对本发明提供的一种语音控制方法及设备的具体实施方式做详细说明。

首先结合附图给出本发明所述语音控制方法的具体实施方式。

图1是本发明所述语音控制方法的步骤流程图。参见图1所示，本发明所述语音控制方法包括：步骤S110、实时地接收音频数据；步骤S120、通过语音断点检测对接收到的所述音频数据进行首部判断，以获取一有效音频信息；步骤S130、判断所述有效音频信息是否包含一唤醒信息；若包含所述唤醒信息，则进一步执行步骤S140；否则执行步骤S110；步骤S140、通过语音断点检测对所述有效音频信息进行首尾判断，以获取执行内容信息；步骤S150、进行语义解析，以将所述执行内容信息转换为标准执行命令信息；步骤S160根据所述标准执行命令信息来执行相关的命令，并且将执行的结果显示给用户。

以下将结合附图1来具体说明每一步骤。

步骤S110：实时地接收音频数据。

进入初始化状态，24小时实时地接收音频数据（以语音方式输入）。

步骤S120：通过语音断点检测对接收到的所述音频数据进行首部判断，以获取一有效音频信息。

在此步骤中，利用语音断点检测方式对所接收到的所述音频数据进行首部判断，从而获得一有效音频信息。所谓的首部判断，正是利用语音断点检测方式，可以获得有效音频信息，并且排除了噪音所产生的信息或非正常语音输入的信息，从而降低目标对象因错误的音频信息而执行动作的概率。

步骤S130：判断所述有效音频信息是否包含一唤醒信息；若包含所述唤醒信息，则进一步执行步骤S140；否则执行步骤S110。

在本发明的一实施方式中，所述唤醒信息（或称唤醒词）为一预先设定，其可以在出厂时默认设置，或者可以在使用前选定设置。所述唤醒信息为一个字、一个词或一句子中任意一种。例如，唤醒信息可以为“新”、“小明”、“我的小宝贝”等。唤醒信息除了包括中文词语之外，还可以包括其他外文词语，在此不做限定。另外，文中所述的唤醒信息为语音输入时对目标对象的称呼，该目标对象可以根据所接收到的语音内容执行相关的动作。所述唤醒信息也在下文中会得到进一步解释说明。

在此步骤中，利用唤醒信息检测技术来判断所述有效音频信息是否包括所设定的唤醒信息。若判断出包含所述唤醒信息，则继续后继步骤，否则重新等待接收新的音频数据。

当判断出有效音频信息包含唤醒信息后，进一步确认唤醒信息是否位于有效音频信息的开始位置，即位于有效音频信息的首部。若满足条件则执行后继步骤，否则，例如唤醒信息出现在有效音频信息的中间某处，或者出现在结尾处，则在此情况下，会重新等待接收新的音频数据。

在本发明的另一实施方式中，在步骤S130中进一步包括以下步骤：

将所述有效音频信息传送至一本地唤醒信息数据库；

将所述有效音频信息与所述本地唤醒信息数据库的内容进行匹配；当匹配出唤醒信息时，则执行步骤S140；否则，则执行步骤S110。

其中将所述有效音频信息与所述本地唤醒信息数据库的内容进行匹配，可以理解为，首先通过大量预设定的数据而建立以数据模型，然后通过所述有效音频信息与该数据模型进行匹配，以确定相似度，若相似度达到一阈值时，则认为所述有效音频信息包含有唤醒信息。

在本发明的其他实施方式不限于上述方式，可采用上述通过一预设定的唤醒信息，以判断所述有效音频信息是否包含所设定的唤醒信息。

步骤S140：通过语音断点检测对所述有效音频信息进行首尾判断，以获取执行内容信息。

在此步骤中，通过语音断点检测再次对所述有效音频信息进行首尾判断，以获取执行内容。所谓的首尾判断，即为通过语音断点检测不仅可以判断出唤醒信息的结束位置，即执行内容的开始位置，而且也判断出执行内容的结束位置，这样，就可以获得一有效的执行内容信息。

而现有技术是首先通过语音输入一特定的唤醒信息，然后在等待一设定时间（即固定若干秒）之后，目标设备才会自动去截取用户所述的语音内容，于是会造成延时截取语音内容的状况，以至与实际语音输入内容有偏差，即不完整，从而产生不同的执行结果。由此可见，采用语音断点检测技术可以保证获取的执行内容是正确的。

在本发明的另一实施方式中，在所述步骤S140和步骤S150中进一步包括以下步骤：

通过云端语音识别将所述唤醒信息与云端数据库的内容进行匹配；若匹配出唤醒信息时，则执行步骤S150；否则执行步骤S110。

上述步骤的执行是为了降低误唤醒概率，通过采用云端语音识别（引擎）再一次验证当前的唤醒信息是否有效。若再次匹配出相同的唤醒信息时，则执行后继步骤。与只通过本地唤醒信息数据库来判断有效音频信息是否包含唤醒信息的方式相比，本步骤所采用的方式是利用云端数据库其具有的大量复杂数据所建立的数据模型，进行唤醒信息的匹配，从而可以有效减低误唤醒次数。

在本发明的其他实施方式中不限于上述方式，也可采用其他方式来验证唤醒信息的正确性。

步骤S150：进行语义解析，以将所述执行内容信息转换为标准执行命令信息。

在判断出所述有效音频信息包含所述唤醒信息，且获得执行内容信息之后，则通过语义解析方式，将所述执行内容信息转换为标准执行命令信息。

在本发明的一实施方式中，该步骤可以进一步包括以下步骤：

将所获得的执行内容信息转为文本格式信息；

将所述文本格式信息解析为标准执行命令信息。

换句话说，就是通过语音识别技术将语音信息转换成可识别的文本信息（例如，将语音信息“小明，请打开门”转换成文本格式“小明，请打开门”），并将所述本文信息解析出相关的执行命令，以标准格式输出。其中，将所述获得的执行内容信息转为文本格式信息的步骤可以在云端数据库中完成，从而提高转换效率。而该步骤在其他实施方式中也可以在本地数据库中完成。同时通过自然语言处理技术将所述文本格式信息解析为标准执行命令信息。

步骤S160：根据所述标准执行命令信息来执行相关的命令，并且将执行的结果显示给用户。

当目标设备（即唤醒信息的对象）可以根据所述标准执行命令信息，并调用相关的模块以执行相关的执行命令，并将执行结果显示给用户。

以下将结合附图给出上述技术方案的实施例。

实施例一、以用户语音输入“小智，请打开卧室空调”为例。

步骤S110、实时地接收音频数据。

目标对象是24小时实时地检测所接收到的语音输入的音频数据。

步骤S120、通过语音断点检测对接收到的所述音频数据进行首部判断，以获取一有效音频信息。

当目标对象接收到音频数据时，会利用语音断点检测对所接收到的音频数据进行首部判断，以获取有效音频信息“小智，请打开卧室空调”，并且排除了“小智”有效音频信息之前的噪音信息或非正常语音输入信息。

步骤S130、判断所述有效音频信息是否包含一唤醒信息。

目标对象将所接收到有效音频信息传送至一本地唤醒信息数据库。

将所述有效音频信息与所述本地唤醒信息数据库的内容进行匹配，检测是否有符合条件的唤醒信息，当检测到有“小智”该唤醒信息之后，可以进一步判断，“小智”该唤醒信息是否位于所述有效音频信息的首部。由于“小智”该唤醒信息是否位于所述有效音频信息的首部，因此，则执行后继步骤，否则目标对象重新等待接收新的音频数据。

步骤S140、通过语音断点检测对所述有效音频信息进行首尾判断，以获取执行内容信息。

通过语音断点检测再次对所述有效音频信息“小智，请打开卧室空调”进行首尾判断，判断出“小智”中“智”一字在什么时候结束，即认为接下来的音频信息即为执行内容的开始位置。同样，利用语音断点检测也判断出“请打开卧室空调”中“调”一字在什么时候结束，即认为执行内容的结束位置。于是，可以获得执行内容信息（即“请打开卧室空调”）。

在本实施例中，目标对象可以经一步将有效音频信息包括唤醒信息和执行内容信息（此处为“小智”“请打开卧室空调”同时传送至云端数据库。

通过云端语音识别将所述唤醒信息“小智”与云端数据库的内容进行匹配，若匹配出，则执行下一步操作，否则目标对象重新等待新的音频数据。通过本地唤醒信息数据库的内容匹配及云端数据库的内容匹配，即唤醒信息的双重验证，以有效降低误唤醒次数。

在本实施例中，通过云端数据库以及语音识别技术，所述执行内容信息转为文本格式信息，从而提高转换效率。

步骤S150、进行语义解析，以将所述执行内容信息转换为标准执行命令信息。

在此步骤中，通过自然语言处理技术将所述文本格式信息解析为标准执行命令信息。也就是说，通过自然语音处理技术，对文本格式信息解析，识别出文本格式信息的真实意图，“请打开卧室空调”的含义是“将卧室这个房间的空调打开”，并转化成标准执行命令信息为“CommandOpen|卧室|空调”。所述标准执行命令信息的格式可按需求定义，只需要以固定格式即可。

步骤S160根据所述标准执行命令信息来执行相关的命令，并且将执行的结果显示给用户。

目标对象根据所述标准执行命令信息“CommandOpen|卧室|空调”，调用相关的处理模块和执行模块，以配合完成所述标准执行命令信息的内容。同时，将执行的结果显示给用户（此处，即为目标对象将卧室的空调开启）。

本发明所述的语音控制方法，是通过识别出用户语音输入的唤醒信息和执行内容，以启动语音控制流程，从而将用户语音输入的操作命令（即执行内容）以预设方式发送至目标设备，实现对目标设备的控制。

更重要的一点是，本发明是利用语音断点检测技术、唤醒信息检测技术、语音识别技术及自然语言处理技术来提供一种新型的智能语音交互的环境，用户无需手动操作目标设备，于是减少用户的操作，使用户能够更高效方便地使用语音交互功能。

除了上述本发明所提供的一种语音控制方法之外，本发明还提供一种语音控制设备。

图2是本发明所述语音控制设备的架构图。参见图2所示，本发明所述语音控制设备包括音频接收模块M210、断点检测模块M220、唤醒信息判断模块M230、执行内容信息获取模块M240、转换模块M250和执行模块M260。其中所述音频接收模块M210，用以实时地接收音频数据。

所述断点检测模块M220，与所述音频接收模块M210连接，用以通过语音断点检测对接收到的所述音频数据进行首部判断，以获取一有效音频信息。

其中，所谓的首部判断，正是利用语音断点检测方式，可以获得有效音频信息，并且排除了噪音所产生的信息或非正常语音输入的信息，从而降低目标对象因错误的音频信息而执行动作的概率。

所述唤醒信息判断模块M230，与所述断点检测模块M220连接，用以判断所述有效音频信息是否包含一唤醒信息，若是则调用所述执行内容信息获取模块，否则调用所述音频接收模块。

在本发明一实施方式中，所述唤醒信息为一预先设定，其可以在出厂时默认设置，或者可以在使用前选定设置。所述唤醒信息为一个字、一个词或一句子中任意一种。例如，唤醒信息可以为“新”、“小明”、“我的小宝贝”等。唤醒信息除了包括中文词语之外，还可以包括其他外文词语，在此不做限定。另外，文中所述的唤醒信息为语音输入时对目标对象的称呼，该目标对象可以根据所接收到的语音内容执行相关的动作。

而作为优选的实施方式，所述唤醒信息判断模块M230进一步包括传送单元M231和匹配单元M233；所述传送单元M231用以将所述有效音频信息传送至一本地唤醒信息数据库；所述匹配单元M233与所述传送单元M231连接，用以将所述有效音频信息与所述本地唤醒信息数据库的内容进行匹配；当匹配出唤醒信息时，则调用所述执行内容信息获取模块M240；否则，调用所述音频接收模块M210。

作为优选的实施方式，所述传送单元M231进一步用以将所获得的唤醒信息和执行内容信息同时传送至云端数据库；所述匹配单元M233进一步用以通过云端语音识别将所述唤醒信息与云端数据库的内容进行匹配；若匹配出唤醒信息时，则调用所述转换模块M250；否则调用所述音频接收模块M210。与只通过本地唤醒信息数据库来判断有效音频信息是否包含唤醒信息的方式相比，利用云端数据库其具有的大量复杂数据所建立的数据模型，进行唤醒信息的匹配，从而可以有效减低误唤醒次数。

所述执行内容信息获取模块M240，与所述唤醒信息判断模块M230连接，用以通过语音断点检测对所述有效音频信息进行首尾判断，以获取执行内容信息。

所谓的首尾判断，即为通过语音断点检测不仅可以判断出唤醒信息的结束位置，即执行内容的开始位置，而且也判断出执行内容的结束位置，这样，就可以获得一有效的执行内容信息。而现有技术是首先通过语音输入一特定的唤醒信息，然后在等待一设定时间（即固定若干秒）之后，目标设备才会自动去截取用户所述的语音内容，于是会造成延时截取语音内容的状况，以至与实际语音输入内容有偏差，即不完整，从而产生不同的执行结果。由此可见，采用语音断点检测技术可以保证获取的执行内容是正确的。

所述转换模块M250，与所述执行内容信息获取模块M240连接，用以进行语义解析，以将所述执行内容信息转换为标准执行命令信息。

作为优选的实施方式，所述转换模块M250进一步包括转换单元M251和解析单元M253，所述转换单元M251，用以将所获得的执行内容信息转为文本格式信息。其中，所述转换单元M251可以设置云端数据库中，以将所述获得的执行内容信息转为文本格式信息，从而提高转换效率。而在其他实施方式中所述转换单元M251可以设置本地数据库中。所述解析单元M253与所述转换单元M251连接，用以将所述文本格式信息解析为标准执行命令信息。

所述执行模块M260，与所述转换模块M250连接，所述执行模块M260用以根据所述标准执行命令信息来执行相关的命令，并且将执行的结果显示给用户。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音控制方法，其特征在于，包括步骤：

（a）实时地接收音频数据；

（b）通过语音断点检测对接收到的所述音频数据进行首部判断，以获取一有效音频信息；

（c）判断所述有效音频信息是否包含一唤醒信息；若包含所述唤醒信息，则进一步执行步骤（d）；否则执行步骤（a）；

（d）通过语音断点检测对所述有效音频信息进行首尾判断，以获取执行内容信息；

（e）进行语义解析，以将所述执行内容信息转换为标准执行命令信息；

（f）根据所述标准执行命令信息来执行相关的命令，并且将执行的结果显示给用户。

2.根据权利要求1所述的语音控制方法，其特征在于，在步骤（c）中进一步包括以下步骤：

将所述有效音频信息传送至一本地唤醒信息数据库；

3.根据权利要求2所述的语音控制方法，其特征在于，在所述步骤（d）和步骤（e）中进一步包括以下步骤：

4.根据权利要求1所述的语音控制方法，其特征在于，在所述步骤（e）中进一步包括以下步骤：

将所获得的执行内容信息转为文本格式信息；

将所述文本格式信息解析为标准执行命令信息。

5.根据权利要求1所述的语音控制方法，其特征在于，所述唤醒信息为一个字、一个词或一句子中任意一种。

6.一种语音控制设备，其特征在于，包括音频接收模块、断点检测模块、唤醒信息判断模块、执行内容信息获取模块、转换模块和执行模块；其中

所述音频接收模块，用以实时地接收音频数据；

所述断点检测模块，与所述音频接收模块连接，用以通过语音断点检测对接收到的所述音频数据进行首部判断，以获取一有效音频信息；

所述唤醒信息判断模块，与所述断点检测模块连接，用以判断所述有效音频信息是否包含一唤醒信息，若是则调用所述执行内容信息获取模块，否则调用所述音频接收模块；

所述执行内容信息获取模块，与所述唤醒信息判断模块连接，用以通过语音断点检测对所述有效音频信息进行首尾判断，以获取执行内容信息；

所述转换模块，与所述执行内容信息获取模块连接，用以进行语义解析，以将所述执行内容信息转换为标准执行命令信息；

所述执行模块，与所述转换模块连接，所述执行模块用以根据所述标准执行命令信息来执行相关的命令，并且将执行的结果显示给用户。

7.根据权利要求6所述的语音控制设备，其特征在于，所述唤醒信息判断模块进一步包括传送单元和匹配单元；所述传送单元用以将所述有效音频信息传送至一本地唤醒信息数据库；所述匹配单元与所述传送单元连接，用以将所述有效音频信息与所述本地唤醒信息数据库的内容进行匹配；当匹配出唤醒信息时，则调用所述执行内容信息获取模块；否则，调用所述音频接收模块。

8.根据权利要求7所述的语音控制设备，其特征在于，所述传送单元进一步用以将所获得的唤醒信息和执行内容信息同时传送至云端数据库；所述匹配单元进一步用以通过云端语音识别将所述唤醒信息与云端数据库的内容进行匹配；若匹配出时，则调用所述转换模块；否则调用所述音频接收模块。

9.根据权利要求6所述的语音控制设备，其特征在于，所述转换模块进一步包括转换单元和解析单元，所述转换单元，用以将所获得的执行内容信息转为文本格式信息；所述解析单元与所述转换单元连接，用以将所述文本格式信息解析为标准执行命令信息。

10.根据权利要求6所述的语音控制设备，其特征在于，所述唤醒信息为一个字、一个词或一句子中任意一种。