CN105869640B - 识别针对当前页面中的实体的语音控制指令的方法和装置 - Google Patents

识别针对当前页面中的实体的语音控制指令的方法和装置 Download PDF

Info

Publication number
CN105869640B
CN105869640B CN201510031182.3A CN201510031182A CN105869640B CN 105869640 B CN105869640 B CN 105869640B CN 201510031182 A CN201510031182 A CN 201510031182A CN 105869640 B CN105869640 B CN 105869640B
Authority
CN
China
Prior art keywords
entity
extracted
candidate
word
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510031182.3A
Other languages
English (en)
Other versions
CN105869640A (zh
Inventor
雷欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen China Investment Co Ltd
Mobvoi Innovation Technology Co Ltd
Original Assignee
Shanghai Ink Hundred Meaning Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Ink Hundred Meaning Information Technology Co Ltd filed Critical Shanghai Ink Hundred Meaning Information Technology Co Ltd
Priority to CN201510031182.3A priority Critical patent/CN105869640B/zh
Publication of CN105869640A publication Critical patent/CN105869640A/zh
Application granted granted Critical
Publication of CN105869640B publication Critical patent/CN105869640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种识别针对当前页面中的实体的语音控制指令的方法和装置。该方法包括:从当前页面中抽取出实体;基于抽取出的实体和对应构造模板,构造候选指令集合;基于用户说出的语音与候选指令集合中的候选指令的匹配,从用户说出的语音中识别出针对当前页面中的实体的语音控制指令。本发明提升了语音指令识别的灵活性。

Description

识别针对当前页面中的实体的语音控制指令的方法和装置
技术领域
本发明涉及语音识别技术,尤其涉及一种识别针对当前页面中的实体的语音控制指令的方法和装置。
背景技术
现有技术中,进行语音指令识别时,通常只能基于固定的语音指令集中的语音指令与用户的语音是否匹配来判定是否用户的语音是一条语音指令。例如,以固定的语音指令集含有指令“我要去买去北京的火车票”为例,只有用户产生的语音内容与该语音指令相同,才能认为用户发出该语音指令,进而执行相关操作。如果用户产生的语音内容为“我要买火车票去北京”,即将句式的顺序予以颠倒,则不能认为用户发出了语音指令,从而不执行相关操作,从而导致语音指令识别的灵活度差。
发明内容
本发明解决的技术问题之一是提升语音指令识别的灵活性。
根据本发明的一个方面的一个实施例,提供了一种识别针对当前页面中的实体的语音控制指令的方法,包括:从当前页面中抽取出实体;基于抽取出的实体和对应构造模板,构造候选指令集合;基于用户说出的语音与候选指令集合中的候选指令的匹配,从用户说出的语音中识别出针对当前页面中的实体的语音控制指令。
可选地,从当前页面中抽取出实体的步骤包括:将当前页面中的文字分词;判断分出的词的词性;将分出的具有特定词性的词中的每一个字输入分类器,以判定该字是否是构成实体的字、以及构成实体的开头、中间还是末尾,分类器是事先用实体和非实体的词样本的集合训练出的;根据分类器对所述分出的具有特定词性的词中的每一个字的判定结果,判断该具有特定词性的词是否是实体。
可选地,构造模板如下事先形成:从当前用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体,并提取出该提取的实体周围的语言模式,作为一个与提取出的实体对应的构造模板。
可选地,构造模板如下事先形成:从所有用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体,并提取出该提取的实体周围的语言模式,作为一个与提取出的实体对应的构造模板。
可选地,基于抽取出的实体和对应构造模板构造候选指令集合的步骤包括:基于抽取出的实体,获取所述抽取出的实体的同义词;将抽取出的实体、获取的同义词分别应用于所述抽取出的实体的对应构造模板,分别得到相应候选指令,放入候选指令集合中。
可选地,基于用户说出的语音与候选指令集合中的候选指令的匹配从用户说出的语音中识别出针对当前页面中的实体的语音控制指令的步骤包括:响应于用户说出的语音与候选指令集合中的一条候选指令匹配,识别该条候选指令对应的抽取出的实体,从而从用户说出的语音中识别出针对当前页面中的该抽取出的实体的语音控制指令。
根据本发明的一个方面的一个实施例,提供了一种识别针对当前页面中的实体的语音控制指令的装置,包括:抽取单元,被配置为从当前页面中抽取出实体;构造单元,被配置为基于抽取出的实体和对应构造模板,构造候选指令集合;识别单元,被配置为基于用户说出的语音与候选指令集合中的候选指令的匹配,从用户说出的语音中识别出针对当前页面中的实体的语音控制指令。
可选地,抽取单元被配置为:将当前页面中的文字分词;判断分出的词的词性;将分出的具有特定词性的词中的每一个字输入分类器,以判定该字是否是构成实体的字、以及构成实体的开头、中间还是末尾,分类器是事先用实体和非实体的词样本的集合训练出的;根据分类器对所述分出的具有特定词性的词中的每一个字的判定结果,判断该具有特定词性的词是否是实体。
可选地,构造模板如下事先形成:从当前用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体,并提取出该提取的实体周围的语言模式,作为一个与提取出的实体对应的构造模板。
可选地,构造模板如下事先形成:从所有用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体,并提取出该提取的实体周围的语言模式,作为一个与提取出的实体对应的构造模板。
可选地,构造单元被配置为:基于抽取出的实体,获取所述抽取出的实体的同义词;将抽取出的实体、获取的同义词分别应用于所述抽取出的实体的对应构造模板,分别得到相应候选指令,放入候选指令集合中。
可选地,识别单元被配置为响应于用户说出的语音与候选指令集合中的一条候选指令匹配,识别该条候选指令对应的抽取出的实体,从而从用户说出的语音中识别出针对当前页面中的该抽取出的实体的语音控制指令。
由于本发明实施例的候选指令集合不是固定的,而是根据当前页面的不同实时根据当前页面上存在的实体并结合对应构造模板来构造的,因此,用户发出指令时可以非常灵活,本发明实施例能够识别出用户发出的各种灵活指令,避免了现有技术中用户只能按固定的语音指令集来发语音指令的僵化模式。
本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明一个实施例的识别针对当前页面中的实体的语音控制指令的方法的流程图;
图2为根据本发明一个实施例的方法中从当前页面中抽取出实体的过程的一个具体的流程图;
图3为根据本发明一个实施例的方法中基于抽取出的实体和对应构造模板构造候选指令集合的过程的一个具体的流程图;
图4为根据本发明一个实施例的识别针对当前页面中的实体的语音控制指令的装置的框图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为根据本发明一个实施例的识别针对当前页面中的实体的语音控制指令的方法1的流程图。该方法可以用于车载设备、移动终端、固定设备(如桌面电脑)等。当前页面是指目前在车载设备、移动终端、固定设备(如桌面电脑)等显示的页面。它可以是不响应于当前用户(操作车载设备、移动终端、固定设备等的用户)的动作显示的页面,也可以是响应当前用户的动作显示的页面。实体是指页面上显示的、表示用户可能希望的动作的对象的词或序号。例如,桌面上显示“麻辣诱惑”、“麻辣香锅”、“特色烤鱼”等美食项目,其中每一个美食项目都认为是一个实体,在“麻辣诱惑”、“麻辣香锅”、“特色烤鱼”旁边显示的序号(如1、2、3等)也认为是一个实体,因为用户接下来可能发出的语音指令(如“我要吃麻辣诱惑”、“我选3”)很可能是针对它们的。
当前页面是不响应于当前用户(操作车载设备、移动终端、固定设备等的用户)的动作显示的页面的一个应用场景例如,在车载设备上的一个应用,在车载设备开启时,在车载设备的桌面上默认打开。在桌面上显示“导航”、“美食”、“购物”等。当前用户发出“我想去购物”的语音后,本发明的一个实施例的识别针对当前页面中的实体的语音控制指令的方法1就识别出它是针对当前页面中的“购物”这个实体的语音控制指令,从而执行进一步的动作,例如为当前用户显示显示附近的商场等。当然,这样的一个应用也可能是在移动终端或固定设备上,当移动终端或固定设备开启时,使得在显示桌面上默认出现一些选项。
当前页面是响应于当前用户(操作车载设备、移动终端、固定设备等的用户)的动作显示的页面的一个应用场景例如,在某一车载应用中,当前用户先激活该车载应用,然后说例如“请提供给我附近的饭店”,这时车载设备的显示屏上显示“麻辣诱惑”、“沸腾鱼乡”、“全聚德”等,当前用户说出“我要去全聚德”,此时本发明的一个实施例的识别针对当前页面中的实体的语音控制指令的方法1就识别出它是针对当前页面中的“全聚德”这个实体的语音控制指令,进而执行进一步的动作,例如接通全聚德的电话、或显示到全聚德的具体路线等。当然,这样的一个应用也可能是在移动终端或固定设备上,在当前用户通过前序操作使得移动终端或固定设备的显示屏上出现一些选项后,本发明的一个实施例的识别针对当前页面中的实体的语音控制指令的方法1就可以用来识别当前用户接下来发出的语音是否是针对当前页面中的实体的语音控制指令、以及是针对哪个实体的语音控制指令。
在步骤110中,从当前页面中抽取出实体。
在一种情况下,分析当前页面的构成后,发现当前页面主要包括几个框,在这几个框中分别有一个词(识别框里的文字是一个词还是几个词构成的词组或句子可以通过现有的分词技术实现),可以认为每个框里的词各是一个实体。
在另一种情况下,分析当前页面的构成后,发现当前页面主要包括几个框,在这几个框中分别有一个词组或句子,或者分析当前的页面的构成后,发现当前页面是一篇文章,或者是包括各种文字、各种框的复杂结构的页面,此时需要从例如图2的方法来抽取实体。
在子步骤1101中,将当前页面中的文字分词。
一般是将当前页面识别出的所有文字分词。例如在前述当前页面主要包括几个框、在这几个框中分别有一个词组或句子的情况下,对每一个词组或句子进行分词。例如在当前页面是一篇文章的情况下,对文章进行分词。分词可以采用已有的分词方法实现。
在子步骤1102中,判断分出的词的词性。
目前,语义分析方面已有成熟技术。可以采用现有技术判断词性的方法来判断分出的词的词性。一般来说,只有名词、动词、形容词等实词以及序号词可能成为实体。虚词不太可能成为实体。
在子步骤1103中,将分出的具有特定词性的词中的每一个字输入分类器,以判定该字是否是构成实体的字、以及构成实体的开头、中间还是末尾,分类器是事先用实体和非实体的词样本的集合训练出的。
特定词性的词例如实词和序号词。在某些情况下,特定词性的词可以仅规定为名词和序号词。
机器学习目前已有成熟技术。可以用大量实体词和大量非实体词样本构成的集合训练一个模型,即分类器。具体地说,将这些实体词和非实体词样本的每一个字输入分类器,并将这个字是来自一个实体词还是来自一个非实体词、是构成实体词的开头、中间还是末尾输入分类器,分类器从中学习来自实体词、来自非实体词的字、以及构成实体词的开头、中间以及末尾的字分别有什么规律。这样,当向分类器输入一个新字后,分类器就能够判定该字是否是构成实体的字、以及构成实体的开头、中间还是末尾。
在子步骤1104中,根据分类器对所述分出的具有特定词性的词中的每一个字的判定结果,判断该具有特定词性的词是否是实体。
例如,对于“沸腾鱼乡”,分类器判定“沸”经常作为实体的开头、“腾”经常作为实体的中间或末尾、“鱼”经常作为实体的中间、“乡”经常作为实体的末尾,因此,判断出“沸腾鱼乡”是实体。
在步骤120中,基于抽取出的实体和对应构造模板,构造候选指令集合。
候选指令是指针对当前页面的实体,用户可能会发出的指令。构造模板是指针对当前页面的实体,用户在发出指令是可能用到的语言模式。例如,对于当前页面上的“2.沸腾鱼乡”,用户可能发出指令“我要去沸腾鱼乡”、“去沸腾鱼乡”、“选沸腾鱼乡”、“沸腾鱼乡”、“2”、“选2”等。“我要去沸腾鱼乡”、“去沸腾鱼乡”、“选沸腾鱼乡”、“沸腾鱼乡”、“2”、“选2”是候选指令,“我要去xx”、“去xx”、“选xx”、“xx”、“No.”、“选No.”等是构造模板。
构造模板的一种形成方式是事先由人针对各种实体预定义各种构造模板好并存储在一个数据库中。
构造模板的另一种形成方式是:从所有用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体,并提取出该提取的实体周围的语言模式,作为一个与提取出的实体对应的构造模板。
实体周围的语言模式是指实体所在的带有谓语的独立句子的语言构成方式。例如,从“我要去天安门,坐地铁要多少钱?”中提取出实体“天安门”。其所在的带有谓语的独立句子是“我要去天安门”,其语言模式是“我要去xx”。
例如,对于使用某一应用的用户来说,可以从所有使用这一应用的用户历史上使用这一应用时发出的每条语音控制命令中都提取实体,并提取出该提取的实体周围的语言模式,作为一个与提取出的实体对应的构造模板。
这种形成构造模板的好处是,由于这些构造模板是从用户的实际运用中采集来的,而不是事先由人凭空想出来的,提高了构造模板的客观性,从而提高识别针对当前页面中的实体的语音控制指令的精度。
构造模板的另一种形成方式是:从当前用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体,并提取出该提取的实体周围的语言模式,作为一个与提取出的实体对应的构造模板。
例如,对于使用某一用户的当前用户来说,可以从使用这一应用的当前用户历史上使用这一应用时发出的每条语音控制命令中都提取实体,并提取出该提取的实体周围的语言模式,作为一个与提取出的实体对应的构造模板。
这种形成构造模板的好处是,由于构造模板是从当前用户的历史上的语音控制命令中提取出的,它反映了当前用户自身的语言的特点,例如当前用户历史上见到页面上有“沸腾鱼乡”时经常说“想去吃沸腾鱼乡了”而不是说“我要去沸腾鱼乡”,这时可能“想去吃xx了”对于当前用户来说可能是更常用的构造模板,因此,这种形成构造模板的方式能够适应用户的个性化需求,提高识别针对当前页面中的实体的语音控制指令的精度。
基于抽取出的实体和对应构造模板构造候选指令集合的一种方式是,将抽取出的实体直接应用于所述抽取出的实体的对应构造模板,得到候选指令放入候选指令集合中。
例如,抽取的实体是“沸腾鱼乡”,其对应的构造模板是“我要去xx”、“去xx”、“xx”、“选xx”,将抽取的实体应用于这些构造模板,得到的候选指令是“我要去沸腾鱼乡”、“去沸腾鱼乡”、“沸腾鱼乡”、“选沸腾鱼乡”,将它们放入候选指令集合中。在一种方式中,可以将它们与“沸腾鱼乡”对应地放入候选指令集合中。
如图3所示,在另一种实施方式中,基于抽取出的实体和对应构造模板构造候选指令集合120的步骤包括子步骤1201和子步骤1202。
在子步骤1201中,基于抽取出的实体,获取所述抽取出的实体的同义词。
事先构建一个同义词数据库。例如,由专家为前述从所有用户或当前用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出的实体逐一找到同义词,放在同义词数据库中。或者,由专家对字典中的所有词进行归类,将含义相近的词组成一个同义词集合,所有同义词集合就构成同义词数据库。也可以通过其它方式构建同义词数据库。
当同义词数据库构建好后,就可以通过查找同义词数据库的方式基于抽取出的实体获取所述抽取出的实体的同义词。
在子步骤1202中,将抽取出的实体、获取的同义词分别应用于所述抽取出的实体的对应构造模板,分别得到相应候选指令,放入候选指令集合中。
例如,抽取出的实体是“北京大学”,获取的同义词是“北大”,其对应构造模板是“导航到xx”、“去xx”、“到xx去”、“我想去xx”、“打电话给xx”,则最后得到的候选指令为:
-导航到北京大学
-去北京大学
-到北京大学去
-我想去北京大学
-打电话给北京大学
-导航到北大
-去北大
-到北大去
-我想去北大
-打电话给北大。
在步骤130中,基于用户说出的语音与候选指令集合中的候选指令的匹配,从用户说出的语音中识别出针对当前页面中的实体的语音控制指令。
例如,识别当前用户的语音中停顿的部分,认为在当前用户的语音中两个停顿的部分之间的语音为一个小句的语音,用本领域已知的语音识别方法将这个小句的语音识别成文字,与步骤120中构造出的候选指令集合中的候选指令逐一对比,当发现识别成文字后的小句的语音与步骤120中构造出的候选指令集合中的一条候选指令完全一致或者包含步骤120中构造出的候选指令集合中的一条候选指令时,就认为找到了用户说出的语音与候选指令集合中的候选指令的匹配,找到的候选指令集合中的那条候选指令就是针对当前页面中的实体的语音控制指令。
然后,还可以进一步判断识别出的语音控制指令是针对当前页面的哪个实体的。由于如前所述,在将根据抽取出的实体得到的相应的候选指令放入候选指令集合中时是可以将这些候选指令与抽取出的实体对应的方式存储在候选指令集合中的,因此响应于用户说出的语音与候选指令集合中的一条候选指令匹配,就可以识别出该条候选指令对应的抽取出的实体,从而判断出识别出的语音控制指令是针对当前页面的哪个实体的。
在从用户说出的语音中识别出针对当前页面中的实体的语音控制指令后,接着可以执行该语音控制命令。例如,将候选指令集合中的每个候选指令对应的执行程序代码放在另一个数据库中,当找到候选指令集合中的一条候选指令(即识别出语音控制指令)后,通过执行该另一个数据库中的相应执行程序代码,就可以执行该语音控制命令。
如图4所示,根据本发明的一个实施例的识别针对当前页面中的实体的语音控制指令的装置2包括:抽取单元210,被配置为从当前页面中抽取出实体;构造单元220,被配置为基于抽取出的实体和对应构造模板,构造候选指令集合;识别单元230,被配置为基于用户说出的语音与候选指令集合中的候选指令的匹配,从用户说出的语音中识别出针对当前页面中的实体的语音控制指令。上述各单元可以以软件、硬件(FPGA、集成电路等)或软硬件结合的方式实现。
可选地,抽取单元210被配置为:将当前页面中的文字分词;判断分出的词的词性;将分出的具有特定词性的词中的每一个字输入分类器,以判定该字是否是构成实体的字、以及构成实体的开头、中间还是末尾,分类器是事先用实体和非实体的词样本的集合训练出的;根据分类器对所述分出的具有特定词性的词中的每一个字的判定结果,判断该具有特定词性的词是否是实体。
可选地,构造模板如下事先形成:从当前用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体,并提取出该提取的实体周围的语言模式,作为一个与提取出的实体对应的构造模板。
可选地,构造模板如下事先形成:从所有用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体,并提取出该提取的实体周围的语言模式,作为一个与提取出的实体对应的构造模板。
可选地,构造单元被配置为:基于抽取出的实体,获取所述抽取出的实体的同义词;将抽取出的实体、获取的同义词分别应用于所述抽取出的实体的对应构造模板,分别得到相应候选指令,放入候选指令集合中。
可选地,识别单元230被配置为响应于用户说出的语音与候选指令集合中的一条候选指令匹配,识别该条候选指令对应的抽取出的实体,从而从用户说出的语音中识别出针对当前页面中的该抽取出的实体的语音控制指令。
附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (8)

1.一种识别针对当前页面中的实体的语音控制指令的方法(1),包括:
从当前页面中抽取出实体(110),其中,所述实体包括页面显示的实词或序号;
基于抽取出的实体和对应构造模板,构造候选指令集合(120);
基于用户说出的语音与候选指令集合中的候选指令的匹配,从用户说出的语音中识别出针对当前页面中的实体的语音控制指令(130);
其中,构造模板如下事先形成:从当前用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体,并提取出该提取的实体周围的语言模式,作为一个与提取出的实体对应的构造模板;
或者,构造模板如下事先形成:从所有用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体,并提取出该提取的实体周围的语言模式,作为一个与提取出的实体对应的构造模板。
2.根据权利要求1的方法,其中从当前页面中抽取出实体(110)的步骤包括:
将当前页面中的文字分词(1101);
判断分出的词的词性(1102);
将分出的具有特定词性的词中的每一个字输入分类器,以判定该字是否是构成实体的字、以及构成实体的开头、中间还是末尾(1103),分类器是事先用实体和非实体的词样本的集合训练出的;
根据分类器对所述分出的具有特定词性的词中的每一个字的判定结果,判断该具有特定词性的词是否是实体(1104)。
3.根据权利要求1的方法,其中基于抽取出的实体和对应构造模板构造候选指令集合(120)的步骤包括:
基于抽取出的实体,获取所述抽取出的实体的同义词(1201);
将抽取出的实体、获取的同义词分别应用于所述抽取出的实体的对应构造模板,分别得到相应候选指令,放入候选指令集合中(1202)。
4.根据权利要求1的方法,其中基于用户说出的语音与候选指令集合中的候选指令的匹配从用户说出的语音中识别出针对当前页面中的实体的语音控制指令(130)的步骤包括:
响应于用户说出的语音与候选指令集合中的一条候选指令匹配,识别该条候选指令对应的抽取出的实体,从而从用户说出的语音中识别出针对当前页面中的该抽取出的实体的语音控制指令。
5.一种识别针对当前页面中的实体的语音控制指令的装置(2),包括:
抽取单元(210),被配置为从当前页面中抽取出实体,其中,所述实体包括页面显示的实词或序号;
构造单元(220),被配置为基于抽取出的实体和对应构造模板,构造候选指令集合;
识别单元(230),被配置为基于用户说出的语音与候选指令集合中的候选指令的匹配,从用户说出的语音中识别出针对当前页面中的实体的语音控制指令
其中,构造模板如下事先形成:从当前用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体,并提取出该提取的实体周围的语言模式,作为一个与提取出的实体对应的构造模板;
或者,构造模板如下事先形成:从所有用户的历史上的语音控制命令的集合中的每个语音控制命令中提取出实体,并提取出该提取的实体周围的语言模式,作为一个与提取出的实体对应的构造模板。
6.根据权利要求5的装置,其中抽取单元(210)被配置为:
将当前页面中的文字分词;
判断分出的词的词性;
将分出的具有特定词性的词中的每一个字输入分类器,以判定该字是否是构成实体的字、以及构成实体的开头、中间还是末尾,分类器是事先用实体和非实体的词样本的集合训练出的;
根据分类器对所述分出的具有特定词性的词中的每一个字的判定结果,判断该具有特定词性的词是否是实体。
7.根据权利要求5的装置,其中构造单元(220)被配置为:
基于抽取出的实体,获取所述抽取出的实体的同义词;
将抽取出的实体、获取的同义词分别应用于所述抽取出的实体的对应构造模板,分别得到相应候选指令,放入候选指令集合中。
8.根据权利要求5的装置,其中识别单元(230)被配置为响应于用户说出的语音与候选指令集合中的一条候选指令匹配,识别该条候选指令对应的抽取出的实体,从而从用户说出的语音中识别出针对当前页面中的该抽取出的实体的语音控制指令。
CN201510031182.3A 2015-01-21 2015-01-21 识别针对当前页面中的实体的语音控制指令的方法和装置 Active CN105869640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510031182.3A CN105869640B (zh) 2015-01-21 2015-01-21 识别针对当前页面中的实体的语音控制指令的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510031182.3A CN105869640B (zh) 2015-01-21 2015-01-21 识别针对当前页面中的实体的语音控制指令的方法和装置

Publications (2)

Publication Number Publication Date
CN105869640A CN105869640A (zh) 2016-08-17
CN105869640B true CN105869640B (zh) 2019-12-31

Family

ID=56623123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510031182.3A Active CN105869640B (zh) 2015-01-21 2015-01-21 识别针对当前页面中的实体的语音控制指令的方法和装置

Country Status (1)

Country Link
CN (1) CN105869640B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074565A (zh) * 2016-11-11 2018-05-25 上海诺悦智能科技有限公司 语音指令跳转与详细指令执行的方法和***
CN109215644B (zh) * 2017-07-07 2021-10-15 佛山市顺德区美的电热电器制造有限公司 一种控制方法和装置
CN107678309B (zh) * 2017-09-01 2021-07-06 科大讯飞股份有限公司 操控句式生成、应用操控方法及装置、存储介质
CN107919129A (zh) 2017-11-15 2018-04-17 百度在线网络技术(北京)有限公司 用于控制页面的方法和装置
CN108470566B (zh) * 2018-03-08 2020-09-15 腾讯科技(深圳)有限公司 一种应用操作方法以及装置
CN110176227B (zh) * 2018-03-26 2023-07-14 腾讯科技(深圳)有限公司 一种语音识别的方法以及相关装置
JP7173670B2 (ja) 2018-08-07 2022-11-16 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 音声制御コマンド生成方法および端末
CN111383631B (zh) * 2018-12-11 2024-01-23 阿里巴巴集团控股有限公司 一种语音交互方法、装置及***
CN110400576B (zh) * 2019-07-29 2021-10-15 北京声智科技有限公司 语音请求的处理方法及装置
CN110782897B (zh) * 2019-11-18 2021-11-23 成都启英泰伦科技有限公司 一种基于自然语义编码的语音终端通信方法及***
CN112331207A (zh) * 2020-09-30 2021-02-05 音数汇元(上海)智能科技有限公司 服务内容监控方法、装置、电子设备和存储介质
CN112509573A (zh) * 2020-11-19 2021-03-16 北京蓦然认知科技有限公司 一种语音识别的方法、装置
CN112668337B (zh) * 2020-12-23 2022-08-19 广州橙行智动汽车科技有限公司 一种语音指令分类方法和装置
TWI805008B (zh) * 2021-10-04 2023-06-11 中華電信股份有限公司 客製化意圖評選系統、方法及電腦可讀媒介

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296333A (ja) * 2002-04-04 2003-10-17 Canon Inc 画像表示システム、その制御方法および該制御方法を実現するためのプログラム
KR101056511B1 (ko) * 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
CN101645064B (zh) * 2008-12-16 2011-04-06 中国科学院声学研究所 一种浅层自然口语理解***及方法
CN101901235B (zh) * 2009-05-27 2013-03-27 国际商业机器公司 文档处理方法和***
CN103455507B (zh) * 2012-05-31 2017-03-29 国际商业机器公司 搜索引擎推荐方法及装置
CN103020098A (zh) * 2012-07-11 2013-04-03 腾讯科技(深圳)有限公司 提供具有语音识别功能的导航业务的搜索方法
CN102833610B (zh) * 2012-09-24 2015-05-13 北京多看科技有限公司 一种节目选择的方法、装置及数字电视终端
CN103219005B (zh) * 2013-04-28 2016-01-20 北京云知声信息技术有限公司 一种语音识别方法及装置
CN103678281B (zh) * 2013-12-31 2016-10-19 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置

Also Published As

Publication number Publication date
CN105869640A (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN105869640B (zh) 识别针对当前页面中的实体的语音控制指令的方法和装置
US10977452B2 (en) Multi-lingual virtual personal assistant
JP7022062B2 (ja) 統合化された物体認識および顔表情認識を伴うvpa
US10558701B2 (en) Method and system to recommend images in a social application
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
US11494161B2 (en) Coding system and coding method using voice recognition
JP3962763B2 (ja) 対話支援装置
US8543375B2 (en) Multi-mode input method editor
US20170103061A1 (en) Interaction apparatus and method
KR20180025121A (ko) 메시지 입력 방법 및 장치
CN111666380A (zh) 一种智能呼叫方法、装置、设备和介质
WO2014190732A1 (en) Method and apparatus for building a language model
JP2006190006A5 (zh)
CN110910903B (zh) 语音情绪识别方法、装置、设备及计算机可读存储介质
CN104915420B (zh) 知识库数据处理方法及***
CN110808032A (zh) 一种语音识别方法、装置、计算机设备及存储介质
CN112818680B (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
US20160110339A1 (en) Information processing apparatus, information processing method, and program
CN107424612A (zh) 处理方法、装置和机器可读介质
CN113268981A (zh) 一种信息处理方法、装置及电子设备
CN112860995A (zh) 交互方法、装置、客户端、服务器以及存储介质
CN114969195B (zh) 对话内容挖掘方法和对话内容评估模型的生成方法
CN114490986B (zh) 计算机实施的数据挖掘方法、装置、电子设备及存储介质
KR20220111570A (ko) 사용자의 질의를 처리하는 디바이스 및 그 동작 방법
CN109144284B (zh) 信息显示方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211117

Address after: 210034 floor 8, building D11, Hongfeng Science Park, Nanjing Economic and Technological Development Zone, Jiangsu Province

Patentee after: New Technology Co.,Ltd.

Patentee after: Volkswagen (China) Investment Co., Ltd

Address before: Room 307, Building 489 Songtao Road, Zhangjiang High-tech Park, Pudong New Area, Shanghai, 201203

Patentee before: SHANGHAI MOBVOI INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right