CN108074565A

CN108074565A - 语音指令跳转与详细指令执行的方法和***

Info

Publication number: CN108074565A
Application number: CN201611038268.XA
Authority: CN
Inventors: 庞子龙; 曹磊; 王子剑; 严武; 李震川
Original assignee: Shanghai Connaught Intelligent Technology Co Ltd
Current assignee: Shanghai Connaught Intelligent Technology Co Ltd
Priority date: 2016-11-11
Filing date: 2016-11-11
Publication date: 2018-05-25

Abstract

本发明涉及一种语音指令跳转与详细指令执行的方法(200)，该方法包括：采用语音识别技术将用户语音指令翻译为文本(201)；使用字典方法对所述文本指令进行分词(202)；分别使用训练好的语法结构深度神经网络模型和语言实体深度神经网络模型对经分词之后的文本指令的语法结构和语言实体进行分析，其中根据预先设定的语法和实体模式从所述经分析的文本指令中寻找并提取特定指令要素(203)；根据提取的特定指令要素跳转至期望的用户界面以及进行详细指令执行(204)。此外本发明还涉及一种语音指令跳转与详细指令执行的***。

Description

语音指令跳转与详细指令执行的方法和***

技术领域

本发明涉及语音指令处理领域，具体地涉及一种语音指令跳转与详细指令执行方法和***。

背景技术

众所周知，iPhone搭载的Siri可以让用户能够直接通过语音与iPhone手机进行简单的交流完成简单的手机指令；而Android***的Voice Action也具有类似的功能，但它对用户指令要求较为严格，更加死板。

在专利文献103839549A(“一种语音指令控制方法及***”)中公开了使用文本匹配的方法执行语音指令，然而这种方法太过死板，用户只能通过***既定的指令名称来执行指令，而不能达到通过自然语言控制指令的水平。

在专利文献104992709A(“一种语音指令的执行方法及语音识别装置”)中在语音指令识别方面与上述文献103839549A中所公开的类似，也是通过预设语音指令进行指令执行的。

专利文献105070288A(“车载语音指令识别方法和装置”)中所公开的内容与上述两者不同，其中公开了使用一个DNN(深度神经网络)确定用户的情绪，再将情绪与上下文场景结合推断用户意图，根据用户意图为用户选择需要的指令执行，这种方法将情绪与上下文结合纳入语音指令执行，但基于情绪的意图理解具有一定不确定性，误差也可能较大。

发明内容

本发明提出一种语音指令跳转与详细指令执行的方法，该方法包括：采用语音识别技术将用户语音指令翻译为文本指令；使用字典方法对所述文本指令进行分词；分别使用训练好的语法结构深度神经网络模型和语言实体深度神经网络模型对经分词之后的文本指令的语法结构和语言实体进行分析，其中根据预先设定的语法和实体模式从所述经分析的文本指令中寻找并提取特定指令要素；根据提取的特定指令要素跳转至期望的用户界面以及进行详细指令执行。

本发明主要构思在于，采用DNN对用户自然语言指令进行语法分析和语言实体识别，并结合语法与实体内容实现具有粗略指令跳转和详细指令执行的方法和语音指令***，以便能够更好地投入各种实际应用中。

其中，自动分词的基本算法主要分为两大类：基于频度统计的分词方法和基于词典的分词方法。优选地，本发明采用的是基于词典的分词方法，基于词典的分词方法是以词典为基础对语句通过匹配进行切分。

优选地，在基于词典的分词方法进行分词中采用正向最大匹配分词法。所谓的最大匹配，就是要求每一句的分词结果中的词汇总量最少，又分为增字和减字匹配法。由于增字匹配法需要一种特殊的词典结构支持才能达到较高的分词效率，所以在本发明的一个优选实施形式中采用减字匹配法。

在本发明的一个优选实施形式中，在对文本指令的语法结构进行分析及语言实体进行识别的过程中，将文本指令与预先设定的语法和实体模式进行对比，从而找到适合的相应语法和实体模式，随后根据要素提取模式提取所述特定指令要素。

此外有利地，在如上所述提取所述特定指令要素之后，如果还具有其他指令要素，那么自动对指令界面内容进行填充。

其中有利地，根据经验及收集的用户交流数据预先设定大量的语法匹配模式、实体匹配模式以及要素提取模式。

此外本发明还提出一种语音指令跳转与详细指令执行的***，包括：

翻译单元，用于采用语音识别技术将用户语音指令翻译为文本指令；

分词单元，用于使用字典方法对所述文本指令进行分词；

提取单元，用于分别使用训练好的语法结构DNN模型和语言实体DNN模型对经分词之后的文本指令的语法结构和语言实体进行分析，其中根据预先设定的语法和实体模式从所述经分析的文本指令中寻找并提取特定指令要素；

跳转单元，用于根据提取的特定指令要素跳转至期望的用户界面以及进行详细指令执行。

与本发明所述的***相比，当前语音指令***均通过关键词实现模糊指令的执行，缺少对语法的分析，无法完成详细指令调用。

总之，相比于现有技术，本发明的构思在于，使用预先训练的DNN模型解析出用户指令的语法结构，同时使用DNN模型识别出用户指令中关键的语言实体，并且结合语法结构与语言实体的模式，为用户实现更加灵活、精准、自然的指令跳转功能，同时本发明可以通过语法结构与语言实体模式实现功能跳转后详细指令执行，即解析并执行指令参数，实现详细指令的执行。

本发明至少具有以下两个优点：

1.指令执行更为细化：现有大多数语音指令的方法中，仅仅根据用户固定的语言指令匹配既定的关键词进行指令跳转或执行，而本发明的指令执行***还能够有效的提取用户自然语言中与指令相关的要素信息，可以让用户只说一句话就直接为其生成一个最为完善的指令，或者填充一些指令要素，指令内容更加细化，用户使用更加便捷。

2.使用深度神经网络对语法分析及实体的识别，方法具有更强的智能性和适应性。深度网络具有自学习的特性，在经过大量的文本训练后具有更高的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅描述本发明的一部分实施例。这些附图对于本发明来说并不是限制性的，而是起示例性的作用。其中：

图1示意地示出按照本发明的方法的示意流程图；

图2示意地示出DNN-parser网络结构；

图3示意地示出分词后的文本指令之间的依赖关系；

图4示意地示出通过DNN-NER模型进行要素提取的示意图；

图5示意地示出按照本发明的***的方框图。

具体实施形式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施形式，都属于本公开保护的范围。

图1示意地示出按照本发明的方法的示意流程图。下面结合一个具体实施例详细描述按照本发明的方法。在方法步骤201中，采用语音识别技术将用户语音指令翻译为文本指令，具体来说，在该例子中，首先用户通过麦克风或者智能手机按住发音键说话可以发出指令。

在方法步骤202中，对文本指令进行分词，具体来说，通过语音识别***将用户发出的中文指令转换为中文文本之后，再使用基于词典的分词方法对中文文本分词。

在方法步骤203中，分别使用训练好的语法结构DNN模型(结构如图2，输入词向量、POS标签、arc标签，多个隐层使用立方激活函数，输出使用softmax层)和语言实体DNN模型(输入词向量，隐层使用四层栈式自编码神经网络结构，输出使用softmax层)对经分词之后的文本指令的语法结构和语言实体进行分析，其中根据预先设定的语法和实体模式从所述经分析的文本指令中寻找并提取特定指令要素。

其中，预先训练两个DNN模型：用于语法分析的DNN-parser和用于命名实体识别的DNN-NER。

图2示意地示出DNN-parser网络结构。其中采集大量的文本语句、分词、词性标注及词语依赖标签。在分词之后采用每一个词语的词向量表示、词性标注(POS标签)(如NN,NNP,NNS,DT,JJ等等)以及arc标签作为网络的输入。

这样，训练好的模型能够在输入一个分词完成的句子后，快速的输出各词之间的依赖关系，示例性地如图3所述那样。例如在图3中，语法依赖关系为：

SUB(要-2,我-1)

root(ROOT-0,要-2)

VMOD(交-5,给-3)

PMOD(给-3,张三-4)

VC(要-2,交-5)

AMOD(元-7,300-6)

VMOD(交-5,元-7)

OBJ(交-5,话费-8)。

对于图3中的这句指令“我要给张三转账300元”，图4示意地示出通过DNN-NER模型对其进行要素提取的示意图。具体来说，DNN-NER模型可以识别金额、人名、地点、功能名、***、电话号码、邮箱等关键命名实体。只要向DNN-NER模型中输入一句话，便可以提取出关键的实体及实体类型，比如输入如图3中所述的“我要给张三转账300元”，那么通过DNN-NER模型可以提取出：人名＝我，人名＝张三，功能＝转账，金额＝(300)元，如图4所示。

随后，根据预先设计的语法模式和实体模式提取出文本指令成分中所含有的特定的比如重要的指令要素。如在图3和4中所述的文本指令“我要给张三转账300元”，首先可以根据实体识别模式找到人名：“我”、人名：“张三”；功能：“转账”；以及金额：“元”，然后通过语法依赖模式中“元”与“300”的AMOD关系找到完整的转账金额“300元”。

最后在方法步骤204中，根据提取的特定指令要素跳转至期望的用户界面以及进行详细指令执行。亦即具体来说，在该例子中跳转进入转账页面，再将“我”、“张三”、“300元”依据转账页面的情况转换为数字或者***填入相应的表单中。

具体来说，***会根据要素的完整性在不同情况下执行指令跳转、详细指令执行或指令表单填写等，如下表所示：

如果要素完整性比较低，可能只会执行页面跳转，如表格第一行中的“我要开户”；相比之下，如果要素完整性比较高，可能会执行页面跳转之后直接执行详细指令，如表格中的第三行“我要给手机13323432534充50块话费”。

通过使用按照本发明方法中的指令跳转基于语法及实体识别模式匹配，从而区别于现有关键词匹配的方法，深度挖掘词语、句子的真实语义意图。因此指令执行准确率高。

此外本发明还涉及一种相应的语音指令跳转与详细指令执行的***10，用于实现按照本发明的语音指令跳转与详细指令执行的方法。

在图5中示意地示出一种按照本发明的语音指令跳转与详细指令执行***10的方框图。

在图5中，***10包括：

翻译单元101，用于采用语音识别技术将用户语音指令翻译为文本指令；

分词单元102，用于对所述文本指令进行分词；

提取单元103，用于分别使用训练好的语法结构DNN模型和语言实体DNN模型对经分词之后的文本指令的语法结构和语言实体进行分析，其中根据预先设定的语法和实体模式从所述经分析的文本指令中寻找并提取特定指令要素；

跳转单元104，用于根据提取的特定指令要素跳转至期望的用户界面以及进行详细指令执行。

关于按照本发明的***10的详细特征可以参照前述对按照本发明提出的方法200的描述，反之亦然。

对所提出的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。应当理解，以上实施例中所公开的特征，除了有特别说明的情形外，都可以单独地或者相结合地使用。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本文所公开的本发明并不局限于所公开的具体实施例，而是意在涵盖如所附权利要求书所限定的本发明的精神和范围之内的修改。

Claims

1.一种语音指令跳转与详细指令执行的方法(200)，该方法包括：

采用语音识别技术将用户语音指令翻译为文本指令(201)；

使用字典方法对所述文本指令进行分词(202)；

分别使用训练好的语法结构深度神经网络模型和语言实体深度神经网络模型对经分词之后的文本指令的语法结构和语言实体进行分析，其中根据预先设定的语法和实体模式从所述经分析的文本指令中寻找并提取特定指令要素(203)；

根据提取的特定指令要素跳转至期望的用户界面以及进行详细指令执行(204)。

2.根据权利要求1所述的方法，其中，在所述分词(202)步骤中采用正向最大匹配分词法。

3.根据权利要求2所述的方法，其中，正向最大匹配分词法中采用减字匹配法。

4.根据权利要求1所述的方法，其中，将所述文本指令与所述预先设定的语法和实体模式进行对比，找到适合的相应语法和实体模式，随后根据要素提取模式提取所述特定指令要素。

5.根据权利要求1或4所述的方法，其中，在提取所述特定指令要素之后，如果还具有其他指令要素，那么自动对指令界面内容进行填充。

6.根据权利要求4所述的方法，其中，根据经验及收集的用户交流数据预先设定大量的语法匹配模式、实体匹配模式以及要素提取模式。

7.一种语音指令跳转与详细指令执行的***(10)，包括：

翻译单元(101)，用于采用语音识别技术将用户语音指令翻译为文本指令；

分词单元(102)，用于使用字典方法对所述文本指令进行分词；

提取单元(103)，用于分别使用训练好的语法结构深度神经网络模型和语言实体深度神经网络模型对经分词之后的文本指令的语法结构和语言实体进行分析，其中根据预先设定的语法和实体模式从所述经分析的文本指令中寻找并提取特定指令要素；

跳转单元(104)，用于根据提取的特定指令要素跳转至期望的用户界面以及进行详细指令执行。