CN105869640B

CN105869640B - 识别针对当前页面中的实体的语音控制指令的方法和装置

Info

Publication number: CN105869640B
Application number: CN201510031182.3A
Authority: CN
Inventors: 雷欣
Original assignee: Shanghai Ink Hundred Meaning Information Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2015-01-21
Filing date: 2015-01-21
Publication date: 2019-12-31
Anticipated expiration: 2035-01-21
Also published as: CN105869640A

Abstract

本发明提供了一种识别针对当前页面中的实体的语音控制指令的方法和装置。该方法包括：从当前页面中抽取出实体；基于抽取出的实体和对应构造模板，构造候选指令集合；基于用户说出的语音与候选指令集合中的候选指令的匹配，从用户说出的语音中识别出针对当前页面中的实体的语音控制指令。本发明提升了语音指令识别的灵活性。

Description

识别针对当前页面中的实体的语音控制指令的方法和装置

技术领域

本发明涉及语音识别技术，尤其涉及一种识别针对当前页面中的实体的语音控制指令的方法和装置。

背景技术

现有技术中，进行语音指令识别时，通常只能基于固定的语音指令集中的语音指令与用户的语音是否匹配来判定是否用户的语音是一条语音指令。例如，以固定的语音指令集含有指令“我要去买去北京的火车票”为例，只有用户产生的语音内容与该语音指令相同，才能认为用户发出该语音指令，进而执行相关操作。如果用户产生的语音内容为“我要买火车票去北京”，即将句式的顺序予以颠倒，则不能认为用户发出了语音指令，从而不执行相关操作，从而导致语音指令识别的灵活度差。

发明内容

本发明解决的技术问题之一是提升语音指令识别的灵活性。

根据本发明的一个方面的一个实施例，提供了一种识别针对当前页面中的实体的语音控制指令的方法，包括：从当前页面中抽取出实体；基于抽取出的实体和对应构造模板，构造候选指令集合；基于用户说出的语音与候选指令集合中的候选指令的匹配，从用户说出的语音中识别出针对当前页面中的实体的语音控制指令。

可选地，从当前页面中抽取出实体的步骤包括：将当前页面中的文字分词；判断分出的词的词性；将分出的具有特定词性的词中的每一个字输入分类器，以判定该字是否是构成实体的字、以及构成实体的开头、中间还是末尾，分类器是事先用实体和非实体的词样本的集合训练出的；根据分类器对所述分出的具有特定词性的词中的每一个字的判定结果，判断该具有特定词性的词是否是实体。

可选地，构造模板如下事先形成：从当前用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体，并提取出该提取的实体周围的语言模式，作为一个与提取出的实体对应的构造模板。

可选地，构造模板如下事先形成：从所有用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体，并提取出该提取的实体周围的语言模式，作为一个与提取出的实体对应的构造模板。

可选地，基于抽取出的实体和对应构造模板构造候选指令集合的步骤包括：基于抽取出的实体，获取所述抽取出的实体的同义词；将抽取出的实体、获取的同义词分别应用于所述抽取出的实体的对应构造模板，分别得到相应候选指令，放入候选指令集合中。

可选地，基于用户说出的语音与候选指令集合中的候选指令的匹配从用户说出的语音中识别出针对当前页面中的实体的语音控制指令的步骤包括：响应于用户说出的语音与候选指令集合中的一条候选指令匹配，识别该条候选指令对应的抽取出的实体，从而从用户说出的语音中识别出针对当前页面中的该抽取出的实体的语音控制指令。

根据本发明的一个方面的一个实施例，提供了一种识别针对当前页面中的实体的语音控制指令的装置，包括：抽取单元，被配置为从当前页面中抽取出实体；构造单元，被配置为基于抽取出的实体和对应构造模板，构造候选指令集合；识别单元，被配置为基于用户说出的语音与候选指令集合中的候选指令的匹配，从用户说出的语音中识别出针对当前页面中的实体的语音控制指令。

可选地，抽取单元被配置为：将当前页面中的文字分词；判断分出的词的词性；将分出的具有特定词性的词中的每一个字输入分类器，以判定该字是否是构成实体的字、以及构成实体的开头、中间还是末尾，分类器是事先用实体和非实体的词样本的集合训练出的；根据分类器对所述分出的具有特定词性的词中的每一个字的判定结果，判断该具有特定词性的词是否是实体。

可选地，构造单元被配置为：基于抽取出的实体，获取所述抽取出的实体的同义词；将抽取出的实体、获取的同义词分别应用于所述抽取出的实体的对应构造模板，分别得到相应候选指令，放入候选指令集合中。

可选地，识别单元被配置为响应于用户说出的语音与候选指令集合中的一条候选指令匹配，识别该条候选指令对应的抽取出的实体，从而从用户说出的语音中识别出针对当前页面中的该抽取出的实体的语音控制指令。

由于本发明实施例的候选指令集合不是固定的，而是根据当前页面的不同实时根据当前页面上存在的实体并结合对应构造模板来构造的，因此，用户发出指令时可以非常灵活，本发明实施例能够识别出用户发出的各种灵活指令，避免了现有技术中用户只能按固定的语音指令集来发语音指令的僵化模式。

本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本发明并不仅限于这些实施例。而是，本发明的范围是广泛的，且意在仅通过后附的权利要求限定本发明的范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为根据本发明一个实施例的识别针对当前页面中的实体的语音控制指令的方法的流程图；

图2为根据本发明一个实施例的方法中从当前页面中抽取出实体的过程的一个具体的流程图；

图3为根据本发明一个实施例的方法中基于抽取出的实体和对应构造模板构造候选指令集合的过程的一个具体的流程图；

图4为根据本发明一个实施例的识别针对当前页面中的实体的语音控制指令的装置的框图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1为根据本发明一个实施例的识别针对当前页面中的实体的语音控制指令的方法1的流程图。该方法可以用于车载设备、移动终端、固定设备(如桌面电脑)等。当前页面是指目前在车载设备、移动终端、固定设备(如桌面电脑)等显示的页面。它可以是不响应于当前用户(操作车载设备、移动终端、固定设备等的用户)的动作显示的页面，也可以是响应当前用户的动作显示的页面。实体是指页面上显示的、表示用户可能希望的动作的对象的词或序号。例如，桌面上显示“麻辣诱惑”、“麻辣香锅”、“特色烤鱼”等美食项目，其中每一个美食项目都认为是一个实体，在“麻辣诱惑”、“麻辣香锅”、“特色烤鱼”旁边显示的序号(如1、2、3等)也认为是一个实体，因为用户接下来可能发出的语音指令(如“我要吃麻辣诱惑”、“我选3”)很可能是针对它们的。

当前页面是不响应于当前用户(操作车载设备、移动终端、固定设备等的用户)的动作显示的页面的一个应用场景例如，在车载设备上的一个应用，在车载设备开启时，在车载设备的桌面上默认打开。在桌面上显示“导航”、“美食”、“购物”等。当前用户发出“我想去购物”的语音后，本发明的一个实施例的识别针对当前页面中的实体的语音控制指令的方法1就识别出它是针对当前页面中的“购物”这个实体的语音控制指令，从而执行进一步的动作，例如为当前用户显示显示附近的商场等。当然，这样的一个应用也可能是在移动终端或固定设备上，当移动终端或固定设备开启时，使得在显示桌面上默认出现一些选项。

当前页面是响应于当前用户(操作车载设备、移动终端、固定设备等的用户)的动作显示的页面的一个应用场景例如，在某一车载应用中，当前用户先激活该车载应用，然后说例如“请提供给我附近的饭店”，这时车载设备的显示屏上显示“麻辣诱惑”、“沸腾鱼乡”、“全聚德”等，当前用户说出“我要去全聚德”，此时本发明的一个实施例的识别针对当前页面中的实体的语音控制指令的方法1就识别出它是针对当前页面中的“全聚德”这个实体的语音控制指令，进而执行进一步的动作，例如接通全聚德的电话、或显示到全聚德的具体路线等。当然，这样的一个应用也可能是在移动终端或固定设备上，在当前用户通过前序操作使得移动终端或固定设备的显示屏上出现一些选项后，本发明的一个实施例的识别针对当前页面中的实体的语音控制指令的方法1就可以用来识别当前用户接下来发出的语音是否是针对当前页面中的实体的语音控制指令、以及是针对哪个实体的语音控制指令。

在步骤110中，从当前页面中抽取出实体。

在一种情况下，分析当前页面的构成后，发现当前页面主要包括几个框，在这几个框中分别有一个词(识别框里的文字是一个词还是几个词构成的词组或句子可以通过现有的分词技术实现)，可以认为每个框里的词各是一个实体。

在另一种情况下，分析当前页面的构成后，发现当前页面主要包括几个框，在这几个框中分别有一个词组或句子，或者分析当前的页面的构成后，发现当前页面是一篇文章，或者是包括各种文字、各种框的复杂结构的页面，此时需要从例如图2的方法来抽取实体。

在子步骤1101中，将当前页面中的文字分词。

一般是将当前页面识别出的所有文字分词。例如在前述当前页面主要包括几个框、在这几个框中分别有一个词组或句子的情况下，对每一个词组或句子进行分词。例如在当前页面是一篇文章的情况下，对文章进行分词。分词可以采用已有的分词方法实现。

在子步骤1102中，判断分出的词的词性。

目前，语义分析方面已有成熟技术。可以采用现有技术判断词性的方法来判断分出的词的词性。一般来说，只有名词、动词、形容词等实词以及序号词可能成为实体。虚词不太可能成为实体。

在子步骤1103中，将分出的具有特定词性的词中的每一个字输入分类器，以判定该字是否是构成实体的字、以及构成实体的开头、中间还是末尾，分类器是事先用实体和非实体的词样本的集合训练出的。

特定词性的词例如实词和序号词。在某些情况下，特定词性的词可以仅规定为名词和序号词。

机器学习目前已有成熟技术。可以用大量实体词和大量非实体词样本构成的集合训练一个模型，即分类器。具体地说，将这些实体词和非实体词样本的每一个字输入分类器，并将这个字是来自一个实体词还是来自一个非实体词、是构成实体词的开头、中间还是末尾输入分类器，分类器从中学习来自实体词、来自非实体词的字、以及构成实体词的开头、中间以及末尾的字分别有什么规律。这样，当向分类器输入一个新字后，分类器就能够判定该字是否是构成实体的字、以及构成实体的开头、中间还是末尾。

在子步骤1104中，根据分类器对所述分出的具有特定词性的词中的每一个字的判定结果，判断该具有特定词性的词是否是实体。

例如，对于“沸腾鱼乡”，分类器判定“沸”经常作为实体的开头、“腾”经常作为实体的中间或末尾、“鱼”经常作为实体的中间、“乡”经常作为实体的末尾，因此，判断出“沸腾鱼乡”是实体。

在步骤120中，基于抽取出的实体和对应构造模板，构造候选指令集合。

候选指令是指针对当前页面的实体，用户可能会发出的指令。构造模板是指针对当前页面的实体，用户在发出指令是可能用到的语言模式。例如，对于当前页面上的“2.沸腾鱼乡”，用户可能发出指令“我要去沸腾鱼乡”、“去沸腾鱼乡”、“选沸腾鱼乡”、“沸腾鱼乡”、“2”、“选2”等。“我要去沸腾鱼乡”、“去沸腾鱼乡”、“选沸腾鱼乡”、“沸腾鱼乡”、“2”、“选2”是候选指令，“我要去xx”、“去xx”、“选xx”、“xx”、“No.”、“选No.”等是构造模板。

构造模板的一种形成方式是事先由人针对各种实体预定义各种构造模板好并存储在一个数据库中。

构造模板的另一种形成方式是：从所有用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体，并提取出该提取的实体周围的语言模式，作为一个与提取出的实体对应的构造模板。

实体周围的语言模式是指实体所在的带有谓语的独立句子的语言构成方式。例如，从“我要去天安门，坐地铁要多少钱？”中提取出实体“天安门”。其所在的带有谓语的独立句子是“我要去天安门”，其语言模式是“我要去xx”。

例如，对于使用某一应用的用户来说，可以从所有使用这一应用的用户历史上使用这一应用时发出的每条语音控制命令中都提取实体，并提取出该提取的实体周围的语言模式，作为一个与提取出的实体对应的构造模板。

这种形成构造模板的好处是，由于这些构造模板是从用户的实际运用中采集来的，而不是事先由人凭空想出来的，提高了构造模板的客观性，从而提高识别针对当前页面中的实体的语音控制指令的精度。

构造模板的另一种形成方式是：从当前用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体，并提取出该提取的实体周围的语言模式，作为一个与提取出的实体对应的构造模板。

例如，对于使用某一用户的当前用户来说，可以从使用这一应用的当前用户历史上使用这一应用时发出的每条语音控制命令中都提取实体，并提取出该提取的实体周围的语言模式，作为一个与提取出的实体对应的构造模板。

这种形成构造模板的好处是，由于构造模板是从当前用户的历史上的语音控制命令中提取出的，它反映了当前用户自身的语言的特点，例如当前用户历史上见到页面上有“沸腾鱼乡”时经常说“想去吃沸腾鱼乡了”而不是说“我要去沸腾鱼乡”，这时可能“想去吃xx了”对于当前用户来说可能是更常用的构造模板，因此，这种形成构造模板的方式能够适应用户的个性化需求，提高识别针对当前页面中的实体的语音控制指令的精度。

基于抽取出的实体和对应构造模板构造候选指令集合的一种方式是，将抽取出的实体直接应用于所述抽取出的实体的对应构造模板，得到候选指令放入候选指令集合中。

例如，抽取的实体是“沸腾鱼乡”，其对应的构造模板是“我要去xx”、“去xx”、“xx”、“选xx”，将抽取的实体应用于这些构造模板，得到的候选指令是“我要去沸腾鱼乡”、“去沸腾鱼乡”、“沸腾鱼乡”、“选沸腾鱼乡”，将它们放入候选指令集合中。在一种方式中，可以将它们与“沸腾鱼乡”对应地放入候选指令集合中。

如图3所示，在另一种实施方式中，基于抽取出的实体和对应构造模板构造候选指令集合120的步骤包括子步骤1201和子步骤1202。

在子步骤1201中，基于抽取出的实体，获取所述抽取出的实体的同义词。

事先构建一个同义词数据库。例如，由专家为前述从所有用户或当前用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出的实体逐一找到同义词，放在同义词数据库中。或者，由专家对字典中的所有词进行归类，将含义相近的词组成一个同义词集合，所有同义词集合就构成同义词数据库。也可以通过其它方式构建同义词数据库。

当同义词数据库构建好后，就可以通过查找同义词数据库的方式基于抽取出的实体获取所述抽取出的实体的同义词。

在子步骤1202中，将抽取出的实体、获取的同义词分别应用于所述抽取出的实体的对应构造模板，分别得到相应候选指令，放入候选指令集合中。

例如，抽取出的实体是“北京大学”，获取的同义词是“北大”，其对应构造模板是“导航到xx”、“去xx”、“到xx去”、“我想去xx”、“打电话给xx”，则最后得到的候选指令为：

-导航到北京大学

-去北京大学

-到北京大学去

-我想去北京大学

-打电话给北京大学

-导航到北大

-去北大

-到北大去

-我想去北大

-打电话给北大。

在步骤130中，基于用户说出的语音与候选指令集合中的候选指令的匹配，从用户说出的语音中识别出针对当前页面中的实体的语音控制指令。

例如，识别当前用户的语音中停顿的部分，认为在当前用户的语音中两个停顿的部分之间的语音为一个小句的语音，用本领域已知的语音识别方法将这个小句的语音识别成文字，与步骤120中构造出的候选指令集合中的候选指令逐一对比，当发现识别成文字后的小句的语音与步骤120中构造出的候选指令集合中的一条候选指令完全一致或者包含步骤120中构造出的候选指令集合中的一条候选指令时，就认为找到了用户说出的语音与候选指令集合中的候选指令的匹配，找到的候选指令集合中的那条候选指令就是针对当前页面中的实体的语音控制指令。

然后，还可以进一步判断识别出的语音控制指令是针对当前页面的哪个实体的。由于如前所述，在将根据抽取出的实体得到的相应的候选指令放入候选指令集合中时是可以将这些候选指令与抽取出的实体对应的方式存储在候选指令集合中的，因此响应于用户说出的语音与候选指令集合中的一条候选指令匹配，就可以识别出该条候选指令对应的抽取出的实体，从而判断出识别出的语音控制指令是针对当前页面的哪个实体的。

在从用户说出的语音中识别出针对当前页面中的实体的语音控制指令后，接着可以执行该语音控制命令。例如，将候选指令集合中的每个候选指令对应的执行程序代码放在另一个数据库中，当找到候选指令集合中的一条候选指令(即识别出语音控制指令)后，通过执行该另一个数据库中的相应执行程序代码，就可以执行该语音控制命令。

如图4所示，根据本发明的一个实施例的识别针对当前页面中的实体的语音控制指令的装置2包括：抽取单元210，被配置为从当前页面中抽取出实体；构造单元220，被配置为基于抽取出的实体和对应构造模板，构造候选指令集合；识别单元230，被配置为基于用户说出的语音与候选指令集合中的候选指令的匹配，从用户说出的语音中识别出针对当前页面中的实体的语音控制指令。上述各单元可以以软件、硬件(FPGA、集成电路等)或软硬件结合的方式实现。

可选地，抽取单元210被配置为：将当前页面中的文字分词；判断分出的词的词性；将分出的具有特定词性的词中的每一个字输入分类器，以判定该字是否是构成实体的字、以及构成实体的开头、中间还是末尾，分类器是事先用实体和非实体的词样本的集合训练出的；根据分类器对所述分出的具有特定词性的词中的每一个字的判定结果，判断该具有特定词性的词是否是实体。

可选地，识别单元230被配置为响应于用户说出的语音与候选指令集合中的一条候选指令匹配，识别该条候选指令对应的抽取出的实体，从而从用户说出的语音中识别出针对当前页面中的该抽取出的实体的语音控制指令。

附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种识别针对当前页面中的实体的语音控制指令的方法(1)，包括：

从当前页面中抽取出实体(110)，其中，所述实体包括页面显示的实词或序号；

基于抽取出的实体和对应构造模板，构造候选指令集合(120)；

基于用户说出的语音与候选指令集合中的候选指令的匹配，从用户说出的语音中识别出针对当前页面中的实体的语音控制指令(130)；

其中，构造模板如下事先形成：从当前用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体，并提取出该提取的实体周围的语言模式，作为一个与提取出的实体对应的构造模板；

或者，构造模板如下事先形成：从所有用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体，并提取出该提取的实体周围的语言模式，作为一个与提取出的实体对应的构造模板。

2.根据权利要求1的方法，其中从当前页面中抽取出实体(110)的步骤包括：

将当前页面中的文字分词(1101)；

判断分出的词的词性(1102)；

将分出的具有特定词性的词中的每一个字输入分类器，以判定该字是否是构成实体的字、以及构成实体的开头、中间还是末尾(1103)，分类器是事先用实体和非实体的词样本的集合训练出的；

根据分类器对所述分出的具有特定词性的词中的每一个字的判定结果，判断该具有特定词性的词是否是实体(1104)。

3.根据权利要求1的方法，其中基于抽取出的实体和对应构造模板构造候选指令集合(120)的步骤包括：

基于抽取出的实体，获取所述抽取出的实体的同义词(1201)；

将抽取出的实体、获取的同义词分别应用于所述抽取出的实体的对应构造模板，分别得到相应候选指令，放入候选指令集合中(1202)。

4.根据权利要求1的方法，其中基于用户说出的语音与候选指令集合中的候选指令的匹配从用户说出的语音中识别出针对当前页面中的实体的语音控制指令(130)的步骤包括：

响应于用户说出的语音与候选指令集合中的一条候选指令匹配，识别该条候选指令对应的抽取出的实体，从而从用户说出的语音中识别出针对当前页面中的该抽取出的实体的语音控制指令。

5.一种识别针对当前页面中的实体的语音控制指令的装置(2)，包括：

抽取单元(210)，被配置为从当前页面中抽取出实体，其中，所述实体包括页面显示的实词或序号；

构造单元(220)，被配置为基于抽取出的实体和对应构造模板，构造候选指令集合；

识别单元(230)，被配置为基于用户说出的语音与候选指令集合中的候选指令的匹配，从用户说出的语音中识别出针对当前页面中的实体的语音控制指令

6.根据权利要求5的装置，其中抽取单元(210)被配置为：

将当前页面中的文字分词；

判断分出的词的词性；

将分出的具有特定词性的词中的每一个字输入分类器，以判定该字是否是构成实体的字、以及构成实体的开头、中间还是末尾，分类器是事先用实体和非实体的词样本的集合训练出的；

根据分类器对所述分出的具有特定词性的词中的每一个字的判定结果，判断该具有特定词性的词是否是实体。

7.根据权利要求5的装置，其中构造单元(220)被配置为：

基于抽取出的实体，获取所述抽取出的实体的同义词；

将抽取出的实体、获取的同义词分别应用于所述抽取出的实体的对应构造模板，分别得到相应候选指令，放入候选指令集合中。

8.根据权利要求5的装置，其中识别单元(230)被配置为响应于用户说出的语音与候选指令集合中的一条候选指令匹配，识别该条候选指令对应的抽取出的实体，从而从用户说出的语音中识别出针对当前页面中的该抽取出的实体的语音控制指令。