CN108885618A

CN108885618A - 意图估计装置和意图估计方法

Info

Publication number: CN108885618A
Application number: CN201680084170.XA
Authority: CN
Inventors: 景祎; 石井纯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2018-11-23
Also published as: US20190005950A1; WO2017168637A1; JP6275354B1; JPWO2017168637A1; DE112016006512T5

Abstract

补充信息估计部(108)在意图估计部(106)的估计对象单句中存在意图估计失败的单句的情况下，使用补充信息估计模型存储部(107)的补充信息估计模型，根据该单句估计补充信息。意图补充部(109)在意图估计部(106)的估计对象单句中存在不完整意图估计结果的单句的情况下，使用由补充信息估计部(108)估计出的补充信息对不完整意图估计结果进行补充。

Description

意图估计装置和意图估计方法

技术领域

本发明涉及用于识别使用语音或键盘等输入的文本来估计用户的意图，执行用户意图的操作的意图估计装置和意图估计方法。

背景技术

近年来，公知有识别人的自由讲话并使用其识别结果来执行机械等的操作的技术。该技术被用作移动电话或导航装置等的语音接口，估计输入语音的识别结果的意图，通过使用根据多种范句和对应的意图而以统计方法进行学习而得到的意图估计模型，能够应对用户的多种语气。

在这种技术中，在讲话内容中包含的意图为一个的情况下是有效的。但是，在由讲话者输入复句这样的包含多个意图的讲话的情况下，很难正确估计多个意图。例如，在“肚子饿了，附近有什么店？”这样的讲话中，存在“肚子饿”这样的意图和“检索周边设施”这样的2个意图，使用上述意图估计模型很难估计这2个意图。

针对这种问题，以往，例如在专利文献1中提出有如下方法：针对包含多个意图的讲话，根据意图估计和复句分割的概率来估计输入文本的适当分割点的位置。

现有技术文献

专利文献

专利文献2：日本特开2000-200273号公报

发明内容

发明要解决的课题

但是，在上述专利文献1记载的技术中，只是直接输出根据分割点估计多个意图的结果，没有示出无法进行适当意图估计时的应对。因此，例如在上述例子中，在根据“目的地设定”、“周边检索”等汽车导航用的特定命令讲话制作的意图估计模型中，能够估计检索周边设施等意图，但是，很难进行针对“肚子饿了”这样的不是命令的自由讲话的意图估计。因此，最终不是估计出作为用户的意图的“检索周边的餐厅”，而是估计出“检索周边的店”的意图，不能说是高精度地估计出用户的意图。因此，此后，还要向用户询问店的种类并最终估计用户的意图成为一般的对话方式。另一方面，在要利用上述专利文献1记载的方法来应对“肚子饿了”这样的自由讲话的情况下，必须收集庞大的学习数据，在现实中很难应对全部的自由讲话。

本发明正是为了解决该问题而完成的，其目的在于，提供针对包含多个意图的复句也能够高精度地估计用户的意图的意图估计装置和意图估计方法。

用于解决课题的手段

本发明的意图估计装置具有：词素分析部，其对包含多个意图的复句进行词素分析；句法分析部，其对由词素分析部进行词素分析后的复句进行句法分析而分割成多个单句；意图估计部，其估计多个单句中分别包含的意图；补充信息估计部，其在意图估计部的估计对象单句中存在意图估计失败的单句的情况下，根据意图估计失败的单句估计补充信息；以及意图补充部，其在意图估计部的估计对象单句中存在不完整意图估计结果的单句的情况下，使用估计出的补充信息对不完整意图估计结果进行补充。

发明效果

本发明的意图估计装置在估计对象单句中存在意图估计失败的单句的情况下，根据该语句估计补充信息，在估计对象单句中存在不完整意图估计结果的单句的情况下，使用估计出的补充信息对不完整意图估计结果进行补充。由此，针对包含多个意图的复句也能够高精度地估计用户的意图。

附图说明

图1是示出实施方式1的意图估计装置的结构图。

图2是示出实施方式1的意图估计模型的一例的说明图。

图3是示出实施方式1的补充信息估计模型的一例的说明图。

图4是示出实施方式1的意图估计装置的硬件结构例的框图。

图5是示出用于说明实施方式1的补充信息估计模型的生成处理的结构例的框图。

图6是示出实施方式1的补充信息估计模型学习用数据的一例的说明图。

图7是用于说明实施方式1的补充信息估计模型的生成处理的流程图。

图8是示出实施方式1的对话例的说明图。

图9是用于说明实施方式1的意图补充处理的流程图。

图10是针对实施方式1的各补充信息示出各特征量的分数的说明图。

图11是示出求出实施方式1的分数之积的计算式的说明图。

图12是示出针对实施方式1的各补充信息的最终分数的说明图。

图13是示出实施方式1的意图补充处理的流程的流程图。

图14是实施方式2的意图估计装置的结构图。

图15是示出实施方式2的补充意图估计模型的一例的说明图。

图16是示出用于说明实施方式2的补充意图估计模型的生成处理的结构例的框图。

图17是示出实施方式2的补充意图估计模型学习用数据的例子的说明图。

图18是用于说明实施方式2的补充意图估计模型的生成处理的流程图。

图19是示出实施方式2的对话例的说明图。

图20是用于说明实施方式2的补充意图估计处理的流程图。

图21是示出针对实施方式2的各补充意图的最终分数的说明图。

具体实施方式

下面，为了更加详细地说明本发明，根据附图对用于实施本发明的方式进行说明。

实施方式1

图1是本实施方式的意图估计装置的结构图。

如图所示，实施方式1的意图估计装置具有语音输入部101、语音识别部102、词素分析部103、句法分析部104、意图估计模型存储部105、意图估计部106、补充信息估计模型存储部107、补充信息估计部108、意图补充部109、命令执行部110、应答生成部111和通知部112。

语音输入部101是用于受理语音的输入的意图估计装置的输入部。语音识别部102是如下的处理部：对与被输入到语音输入部101的语音输入对应的语音数据进行语音识别后，将其转换成文本数据并输出到词素分析部103。在以下的说明中，设文本数据是包含多个意图的复句。复句由多个单句构成，一个单句包含一个意图。

词素分析部103是如下的处理部：对由语音识别部102转换后的文本数据进行词素分析，将其结果输出到句法分析部104。这里，词素分析是将文本划分成词素(语言中具有意义的最小单位)并利用辞典赋予词类的自然语言处理技术。例如，针对“東京タワーへ行く(去东京塔)”这样的单句，划分成“東京タワー/固有名词、へ/格助词、行く/动词”这样的词素。

句法分析部104是如下的处理部：对由词素分析部103进行词素分析后的文本数据，通过句法规则，以句子或短语为单位对语句的构造进行分析(句法分析)。句法分析部104在与文本数据对应的文本是包含多个意图的复句的情况下，将其分割成多个单句，将各单句的词素分析结果输出到意图估计部106。作为句法分析方法，例如能够使用CYK(Cocke-Younger-Kasami：柯克-杨格-加萨米)法等。

另外，在这里的说明中，设文本(复句)包含2个单句1和单句2来进行说明，但是不限于此，也可以由3个以上的单句构成。另外，句法分析部104不需要将与分割出的全部单句对应的数据输出到意图估计部106，例如，在输入的文本(复句)包含单句1、单句2和单句3的情况下，也可以仅将单句1和单句2作为输出的对象。

意图估计模型存储部105是用于以词素为特征进行意图估计的意图估计模型的存储部。意图能够以“<主意图>[<占位符名>＝<占位符值>、…]”这样的形式来表现。这里，主意图表示意图的分类或功能。在导航装置的例子中，主意图对应于用户最初操作的上位层的机械命令(目的地设定、听音乐等)。占位符名和占位符值表示执行主意图所需要的信息。例如，“检索附近的餐厅”这样的单句中包含的意图能够如“周边检索[设施种类＝餐厅]”那样表示，“希望检索附近的店”这样的单句中包含的意图能够如“周边检索[设施种类＝NULL]”那样表现。该情况下虽然进行周边检索，但是没有决定具体的设施种类，因此，还需要对用户询问设施种类。在这种占位符不存在具体值的情况下，在本实施方式中，设意图估计结果是不充分或不完整意图估计结果。另外，无法进行意图估计的情况或意图估计失败的情况是指无法估计主意图的状态。

图2是示出实施方式1的意图估计模型的一例的图。如图2所示，意图估计模型表示针对“目的地设定[设施＝东京塔]”或“周边检索[设施种类＝餐厅]”等意图的各词素的分数。如图2所示，关于词素“去”和“目的地”，意图目的地设定的可能性较高，因此，意图“目的地设定[设施＝东京塔]”的分数较高。另一方面，关于词素“美味”、“吃饭”，意图检索周边餐厅的可能性较高，因此，意图“周边检索[设施种类＝餐厅]”的分数较高。另外，作为意图估计模型，还包含“周边检索[设施种类＝NULL]”这样的未决定具体设施种类的意图(在图2中图示省略)。

意图估计部106是如下的处理部：根据从句法分析部104输入的多个单句的词素分析结果，使用意图估计模型分别估计多个单句中包含的意图，构成为将其结果输出到补充信息估计部108、意图补充部109和命令执行部110。这里，作为意图估计的方式，例如能够利用最大熵法。即，意图估计部106利用统计方法，根据预先大量收集到的词素和意图的组，估计与输入的词素对应的意图如何相似。

补充信息估计模型存储部107是表示单句与补充信息之间的关系的补充信息估计模型的存储部。即，该补充信息估计模型是用于根据意图估计失败的单句的词素进行补充信息的估计的补充信息。补充信息能够以“<占位符名>＝<占位符值>”这样的形式表现。

图3是示出实施方式1的补充信息估计模型的一例的图。如图3所示，是将无法进行意图估计的单句的词素作为特征量而示出补充信息(占位符内容)的关联性的模型。作为图3的例子，表示针对“路径种类＝拥堵避免”和“设施种类＝餐厅”等补充信息的各词素的分数。如图3所示，关于词素“道路”和“拥挤”，意图拥堵避免的可能性较高，因此，补充信息“路径种类＝拥堵避免”的分数较高。另一方面，关于词素“肚子”、“饿”，估计希望吃饭的意图的占位符的可能性较高，因此，补充信息“设施种类＝餐厅”的分数较高。

补充信息估计部108是如下的处理部：针对意图估计不充分的单句，使用无法进行意图估计的单句的词素，参照补充信息估计模型存储部107中存储的补充信息估计模型，估计补充信息。例如，在输入“肚子饿了，搜索周边的店”这样的文本后，单句2的意图估计不充分，因此，根据单句1“お腹が空いた(肚子饿了)”的词素“お腹、が、空く、た”估计补充信息。其结果是，能够估计“设施种类＝餐厅”的补充信息。估计出的补充信息被输出到意图补充部109。另外，估计算法在后面详细叙述。

另外，在这里的说明中，在补充信息估计中使用意图估计失败的单句的全部词素，但是不限于此，也可以如“使用助词以外的词素”那样决定明确的规则来选择特征量、或使用统计方法在补充信息估计中仅使用效果较高的词素。

意图补充部109是如下的处理部：使用从补充信息估计部108得到的补充信息和意图估计不充分(不存在占位符值的状态)的意图对意图进行补充。例如，在针对意图“周边检索[设施种类＝NULL]”得到补充信息[设施种类＝餐厅]的情况下，占位符名的“设施种类”一致，因此，将占位符值的“餐厅”嵌入占位符名“设施种类”中，得到“周边检索[设施种类＝餐厅]”的意图。将补充后的意图转交给命令执行部110。

命令执行部110是如下的处理部：根据由意图估计部106估计出的多个单句中包含的各个意图和由意图补充部109补充后的意图，执行与多个单句中分别包含的意图对应的机械命令(操作)。例如，针对“肚子饿了，搜索店”的讲话，根据“周边检索“设施种类＝[餐厅]””的意图，执行检索周边的餐厅这样的动作。

应答生成部111是生成与由命令执行部110执行的机械命令对应的应答的处理部。应答可以以文本数据的形式生成，也可以生成合成音作为语音数据。在生成语音数据的情况下，例如是“检索到周边的餐厅。请从列表中进行选择”这样的合成音即可。

通知部112是用于向车辆驾驶员等用户通知由应答生成部111生成的应答的处理部。即，通知部112具有向用户通知已由命令执行部110执行了多个机械命令的功能。另外，关于通知的形式，可以是基于显示的通知、基于语音的通知或基于振动的通知等，只要用户能够识别通知即可，可以是任意的。

接着，对意图估计装置的硬件结构进行说明。

图4是示出实施方式1的意图估计装置的硬件结构例的图。意图估计装置构成为对CPU(Central Processing Unit：中央处理单元)等处理装置(Processor)150、ROM(ReadOnly Memory：只读存储器)和硬盘装置等存储装置(Memory)160、键盘和麦克风等输入装置170以及扬声器和显示器等输出装置180进行总线连接。另外，CPU也可以自身具有存储器。

图1所示的语音输入部101通过输入装置170实现，通知部112通过输出装置180实现。

意图估计模型存储部105、补充信息估计模型存储部107、后述的学习用数据存储部113中存储的数据等分别存储在存储装置160中。并且，语音识别部102、词素分析部103、句法分析部104、意图估计部106、补充信息估计部108、意图补充部109、命令执行部110和应答生成部111等“～部”也作为程序存储在存储装置160中。

处理装置150适当读出并执行存储装置160中存储的程序，由此实现上述“～部”中的功能。即，组合作为处理装置150的硬件和作为上述程序的软件，由此实现上述“～部”的功能。并且，在图4的例子中，构成为通过一个处理装置150实现功能，但是，例如也可以利用位于外部的服务器内的处理装置负责一部分功能等，使用多个处理装置实现功能。因此，处理装置150是不仅由一个处理装置构成而且包含多个处理装置的概念。另外，这些“～部”的功能不限于硬件和软件的组合，也可以在处理装置150中安装上述程序，如所谓***LSI那样利用硬件单体实现。作为这种包含硬件和软件的组合以及硬件单体双方在内的上位概念，可以表现为处理电路(Processing Circuitry)。

接着，对实施方式1的意图估计装置的动作进行说明。首先，对补充信息估计模型存储部107中存储的补充信息估计模型的生成处理进行说明。

图5是用于进行实施方式1的补充信息估计模型的生成处理的结构例的说明图。在图5中，学习用数据存储部113是用于存储将补充信息与多个范句对应起来的学习用数据的存储部。

图6是示出实施方式1的学习用数据的一例的说明图。如图6所示，学习用数据是对意图估计失败的单句的范句赋予补充信息后的数据。例如，关于范句No.1的“肚子饿了”，赋予补充信息“设施种类＝餐厅”。该补充信息预先手动赋予。

返回图5，补充信息估计模型生成部114是用于以统计方法对学习用数据存储部113中存储的补充信息的对应关系进行学习的处理部。补充信息估计模型生成部114使用由词素分析部103提取出的词素，生成补充信息估计模型。

图7是用于说明实施方式1的补充信息估计模型的生成处理的流程图。首先，词素分析部103对学习用数据存储部113中存储的学习用数据的各范句进行词素分析(步骤ST1)。例如，就范句No.1而言，词素分析部103对“肚子饿了”进行词素分析。词素分析部103将进行词素分析后的结果输出到补充信息估计模型生成部114。

补充信息估计模型生成部114使用由词素分析部103分析出的词素，根据学习用数据中包含的补充信息生成补充信息估计模型(步骤ST2)。补充信息估计模型生成部114例如在词素“肚子”和“饿”的情况下，如图6所示，学习用数据中包含的补充信息为“设施种类＝餐厅”，因此，判断为分数较高。补充信息估计模型生成部114对学习用数据中包含的全部范句进行与上述相同的处理，最终生成图3所示的补充信息估计模型。

接着，对与使用补充信息估计模型的意图补充处理有关的动作进行说明。

图8是示出实施方式1的对话例的图。图9是用于说明实施方式1的意图补充处理的流程图。

首先，如图8所示，意图估计装置的通知部112讲出“哔声响起后请讲话”(S1)。与此相对，用户讲出“想去○○。”(U1)。另外，这里，将来自意图估计装置的讲话表示为“S”，将来自用户的讲话表示为“U”。接着U或S的编号表示各自的讲话顺序。

在图9中，当如U1所示用户讲话后，语音识别部102对用户输入进行语音识别处理(步骤ST101)，将其转换成文本数据。词素分析部103对转换后的文本数据进行词素分析处理(步骤ST102)。句法分析部104对进行词素分析后的文本数据实施句法分析处理(步骤ST103)，在该文本数据为复句的情况下，将该复句分割成多个单句。在文本数据不是复句的情况下(步骤ST104-否)，转移到步骤ST105以后的处理，在文本数据是复句的情况下(步骤ST104-是)，转移到步骤ST106以后的处理。

U1的输入例为单句，因此，步骤ST104的判断结果为“否”，转移到步骤ST105。因此，句法分析部104将进行词素分析后的单句的文本数据输出到意图估计部106。意图估计部106利用意图估计模型，对输入的单句执行意图估计处理(步骤ST105)。这里，如“目的地设定[设施＝○○]”那样估计意图。

命令执行部110执行与意图估计部106的意图估计结果对应的机械命令(步骤ST108)。例如，命令执行部110执行将设施○○设定成目的地这样的操作。同时，应答生成部111生成与由命令执行部110执行的机械命令对应的合成音。作为合成音，例如为“将○○设定成目的地。”。通知部112通过扬声器等向用户通知由应答生成部111生成的合成音(步骤ST106)。其结果是，如图8的“S2”所示，对用户进行“设○○为目的地。”这样的通知。

接着，对在图8中用户如“U2”所示讲出“肚子饿了，搜素路径周边的店”的情况进行说明。

在图9中，当用户如“U2”所示讲话后，语音识别部102对用户输入进行语音识别处理并将其转换成文本数据，词素分析部103对文本数据进行词素分析处理(步骤ST101、ST102)。接着，句法分析部104对文本数据进行句法分析处理(步骤ST103)。这里，与用户输入有关的文本数据如单句1的“肚子饿了”和单句2的“搜索路径周边的店”那样被分割成多个单句。因此，步骤ST104的判断结果为“是”，转移到步骤ST106以后的处理。

意图估计部106利用意图估计模型，对单句1和单句2分别实施意图估计处理(步骤ST106)。在这里的例子中，意图估计部106针对单句1得到无法进行意图估计这样的意图估计结果，并且，针对单句2得到“周边检索[设施种类＝NULL]”的意图估计结果。即，判断为单句1处于无法估计主意图的状态，单句2与“周边检索[设施种类＝NULL]”相似。

在意图估计部106的意图估计结果中，作为复句的意图估计结果，在存在意图估计不充分的结果且存在无法进行意图估计的结果的情况下(步骤ST107-是)，转移到步骤ST109以后的处理，除此以外的情况下(步骤ST107-否)，转移到步骤ST108的处理。

从意图估计部106得到单句1为意图估计失败，单句2为不完整意图估计结果“周边检索[设施种类＝NULL]”，因此，这里转移到步骤ST109。因此，将单句1的词素分析结果转交给补充信息估计部108，进行补充信息估计(步骤ST109)。下面，对补充信息估计处理进行详细说明。

首先，补充信息估计部108对单句1的词素和补充信息估计模型进行核对，求出针对各补充信息的各词素的分数。

图10是示出针对实施方式1的各补充信息的各词素的分数的图。如图10所示，针对补充信息“路径种类＝拥堵避免”，特征量“お腹(肚子)”的分数为0.01，特征量“が”的分数为0.01，特征量“空く(饿)”的分数为0.15，特征量“た(了)”的分数为0.01。关于其他补充信息，也同样求出各特征量的分数。

图11是示出求出实施方式1的分数之积的计算式的图。在图11中，Si是针对估计对象的补充信息的第i个词素的分数。S是表示针对估计对象的补充信息的Si之积的最终分数。

图12是示出针对实施方式1的各补充信息的最终分数的图。补充信息估计部108使用图11所示的计算式计算图12所示的最终分数。在这里的例子中，针对补充信息“路径种类＝拥堵避免”，特征量“お腹(肚子)”的分数为0.01，特征量“が”的分数为0.01，特征量“空く(饿)”的分数为0.15，特征量“た(了)”的分数为0.01，因此，它们之积即最终分数S计算成1.5e-7。同样，关于其他补充信息，分别计算最终分数。

补充信息估计部108估计计算出的成为估计对象的各补充信息的最终分数中的、分数最高的补充信息“设施种类＝餐厅”作为适当的补充信息。即，补充信息估计部108根据补充信息估计模型中包含的多个词素的分数估计补充信息，换言之，根据通过多个词素的分数之积而得到的最终分数估计补充信息。将估计出的补充信息“设施种类＝餐厅”转交给意图补充部109。另外，作为进行补充信息估计的方法，除了使用多个词素的分数之积以外，例如，还可以取多个词素的分数之和，选择其值(最终分数)最高的补充信息。

返回图9，在意图补充部109中，使用由补充信息估计部108估计出的结果进行意图的补充处理(步骤ST110)。图13中示出意图补充处理的流程。即，意图补充部109使用由补充信息估计部108估计出的结果即“设施种类＝餐厅”，与由意图估计部106得到的意图估计结果“周边检索[设施种类＝NULL]”的占位符名进行比较(步骤ST110a)。在占位符名一致的情况下(步骤ST110a-是)，将补充信息的占位符值嵌入意图估计结果“NULL”的位置(步骤ST110b)，在占位符名不一致的情况下(步骤ST110a-否)，将由意图估计部106得到的意图估计结果“周边检索[设施种类＝NULL]”直接转交给命令执行部110。在这里的例子中，补充信息的占位符名“设施种类”和不完整意图的占位符名一致，嵌入占位符值，得到“周边检索[设施种类＝餐厅]”这样的完整意图。将该意图转交给命令执行部110。另外，在步骤ST110b中，也可以仅在分数为预先设定的阈值以上的情况下嵌入占位符值。

命令执行部110执行与意图补充部109补充后的意图对应的机械命令(步骤ST109)。例如，命令执行部110检索周边的餐厅，在列表中显示周边餐厅的一览。然后，应答生成部111生成与由命令执行部110执行的机械命令对应的合成音(步骤ST109)。作为合成音，例如为“检索到路径周边的餐厅，请从列表中选择”。通知部112通过扬声器等向用户通知由应答生成部111生成的合成音。其结果是，如图8的“S3”所示，对用户进行“检索到路径周边的餐厅，请从列表中选择。”这样的通知。

这样，在实施方式1中，句法分析部104将输入的复句分割成多个单句，对各单句进行意图估计，根据意图估计失败的单句估计补充信息。然后，使用补充信息对意图估计结果不充分的单句的意图进行补充。通过这样进行动作，能够准确地估计用户的意图。

并且，命令执行部110根据由意图补充部109补充后的意图，执行对应的机械命令，因此，能够减轻用户的操作负担。即，与以往相比，能够实现对话次数的削减。

另外，在此前的说明中，为了避免烦杂，说明了意图的占位符为一个的情况，但是，针对具有多个占位符的意图，也能够通过占位符名的核对来应对。并且，在意图估计失败的单句为多个的情况下，也能够根据补充信息估计时的最终分数选择具有最高分数的补充信息，并且通过占位符名的核对来选择适当的补充信息。

如以上说明的那样，根据实施方式1的意图估计装置，具有：词素分析部，其对包含多个意图的复句进行词素分析；句法分析部，其对由词素分析部进行词素分析后的复句进行句法分析而分割成多个单句；意图估计部，其估计多个单句中分别包含的意图；补充信息估计部，其在意图估计部的估计对象单句中存在意图估计失败的单句的情况下，根据意图估计失败的单句估计补充信息；以及意图补充部，其在意图估计部的估计对象单句中存在不完整意图估计结果的单句的情况下，使用估计出的补充信息对不完整意图估计结果进行补充。因此，针对包含多个意图的复句，也能够高精度地估计用户的意图。

并且，根据实施方式1的意图估计装置，具有补充信息估计模型存储部，该补充信息估计模型存储部保持表示单句与补充信息之间的关系的补充信息估计模型，补充信息估计部使用补充信息估计模型进行补充信息的估计。因此，能够高效地估计补充信息。

并且，根据实施方式1的意图估计装置，补充信息估计模型构成为将单句的词素作为特征量而与补充信息的分数对应起来，补充信息估计部求出意图估计失败的单句的每个词素的补充信息的分数，根据通过分数之积而得到的最终分数进行补充信息的估计。因此，能够进行高精度的补充信息的估计。

并且，根据实施方式1的意图估计装置，利用占位符名和占位符值的组合在不存在占位符值的状态下表示不完整意图估计结果，并且，利用占位符名和占位符值表示补充信息，意图补充部在估计出的补充信息的占位符名与不完整意图估计结果的占位符名一致的情况下，将估计出的补充信息的占位符值设为不完整意图估计结果的占位符值，因此，能够针对不完整意图估计结果可靠地进行意图的补充。

并且，根据实施方式1的意图估计装置，具有：语音输入部，其受理包含多个意图的语音的输入；以及语音识别部，其识别与被输入到语音输入部的语音对应的语音数据，将该语音数据转换成包含多个意图的复句的文本数据，词素分析部对从语音识别部输出的文本数据进行词素分析。因此，针对语音输入也能够高精度地估计用户的意图。

并且，根据实施方式1的意图估计方法，使用实施方式1的意图估计装置执行以下步骤：词素分析步骤，对包含多个意图的复句进行词素分析；句法分析步骤，对进行词素分析后的复句进行句法分析而分割成多个单句；意图估计步骤，估计多个单句中分别包含的意图；补充信息估计步骤，在意图估计步骤的估计对象单句中存在意图估计失败的单句的情况下，根据意图估计失败的单句估计补充信息；以及意图补充步骤，在意图估计步骤的估计对象单句中存在不完整意图估计结果的单句的情况下，使用估计出的补充信息对不完整意图估计结果进行补充。因此，针对包含多个意图的复句，也能够高精度地估计用户的意图。

实施方式2

实施方式2是如下例子：使用由装置记录的状态历史、正确估计出的意图和意图估计失败的单句的词素，进行针对意图估计失败的意图的补充意图估计。

图14是示出实施方式2的意图估计装置的结构图。实施方式2的意图估计装置代替实施方式1中的补充信息估计模型存储部107、补充信息估计部108、意图补充部109而具有状态历史存储部115、补充意图估计模型存储部116、补充意图估计部117。其他结构与图1所示的实施方式1相同，因此，对对应部分标注相同标号并省略其说明。

状态历史存储部115是保持基于此前的意图历史的意图估计装置的当前状态作为状态历史的存储部。作为该状态历史，例如在将意图估计装置应用于汽车导航装置的情况下，是路径设定状态的“目的地已设定”、“存在经由地”等。

补充意图估计模型存储部116是用于保持后述的补充意图估计模型的存储部。补充意图估计部117是如下的处理部：将能够由意图估计部106进行意图估计的单句的意图估计结果、意图估计失败的单句的词素、状态历史存储部115中存储的状态历史作为特征量，估计意图估计失败的单句的补充意图。

并且，实施方式2中的意图估计装置的硬件结构由实施方式1的图4所示的结构实现。这里，状态历史存储部115、补充意图估计模型存储部116在存储装置160上实现，补充意图估计部117作为程序存储在存储装置160中。

图15是示出实施方式2的补充意图估计模型的一例的图。如图所示，补充意图估计模型是将各补充意图与多个单句词素、状态历史信息、能够估计出的意图中分别包含的特征量的分数对应起来的数据。在图15中，“肚子”“饿”是词素特征。“不存在经由地”“存在经由地”是状态历史信息特征。“周边检索[设施种类＝餐厅]”“目的地设定[设施＝家]”是意图特征。如图15所示，关于词素“肚子”和“饿”、意图特征“周边检索[设施种类＝餐厅]”，搜索餐厅的可能性较高，因此，补充意图“经由地设定[设施种类＝餐厅]”的分数较高。并且，由于进行经由地设定，因此，状态信息特征“不存在经由地”的分数比“存在经由地”的分数高。另一方面，关于“存在经由地”，针对补充意图“经由地删除[]”进行估计的可能性较高，因此，比“不存在经由地”的分数高。

接着，对实施方式2的意图估计装置的动作进行说明。首先，对补充意图估计模型的生成处理的动作进行说明。

图16是示出用于说明实施方式2的意图补充模型的生成处理的结构的说明图。在图16中，学习用数据存储部113a是用于针对多个范句、意图、状态历史信息利用与补充意图结果之间的对应关系来存储学习用数据的存储部。

图17是示出实施方式2的补充意图估计模型学习用数据的一例的说明图。如图17所示，学习用数据是对无法进行意图估计的单句的范句、状态历史信息、意图估计结果赋予补充意图估计结果后的数据。例如，关于范句No.1的“肚子饿了”“目的地设定[设施＝家]”“存在经由地”，赋予补充意图“经由地删除[]”。该补充意图预先手动赋予。

返回图16，补充意图估计模型生成部118是以统计方法对学习用数据存储部113a中存储的补充意图信息的对应关系进行学习的处理部。补充意图估计模型生成部118使用由词素分析部103提取出的词素、以及学习用数据中包含的状态历史信息和补充意图，生成补充意图估计模型。

图18是用于说明实施方式2的补充意图估计模型的生成处理的流程图。首先，词素分析部103进行学习用数据存储部113a中存储的学习用数据的各范句中的词素分析(步骤ST201)。该词素分析是与实施方式1中的步骤ST1相同的处理，因此省略其说明。

补充意图估计模型生成部118结合由词素分析部103分析出的词素以及作为学习数据而设定的状态历史和补充意图，生成补充意图估计模型(步骤ST202)。补充意图估计模型生成部118例如在词素“肚子”和“饿”的情况下，针对能够进行意图估计的单句的意图估计结果“目的地设定[设施＝家]”和状态历史信息“存在经由地”，如图17所示，学习用数据中包含的补充意图为“经由地删除[]”，因此，判断为分数较高。补充意图估计模型生成部118对学习用数据中包含的全部范句、状态历史信息、学习用意图进行与上述相同的处理，最终生成图15所示的补充意图估计模型。

另外，在这里的说明中，说明了在补充意图估计中使用意图估计失败的单句的全部词素、由状态历史存储部115记录的状态历史、能够进行意图估计的单句的意图估计结果作为特征量的例子，但是不限于此，也可以如“使用助词以外的词素”或“不对特定的状态历史使用意图特征”那样决定明确的规则来选择特征量、或使用统计方法在补充意图估计中仅使用效果较高的词素。

接着，对使用补充意图估计模型的补充意图估计处理进行说明。

图19是示出实施方式2的对话例的图。如图19所示，设在状态历史存储部115中记录有“存在经由地设定”这样的信息。下面，使用图20的流程图对补充意图估计处理进行说明。

如图19所示，意图估计装置的通知部112讲出“哔声响起后请讲话”(S11)。与此相对，用户讲出“肚子饿了，立即回家”(U11)。

首先，语音识别部102对用户输入进行语音识别处理并将其转换成文本数据，词素分析部103对文本数据进行词素分析处理(步骤ST201、ST202)。接着，句法分析部104对文本数据进行句法分析处理(步骤ST203)。这里，与用户输入有关的文本数据如单句1“肚子饿了”和单句2“立即回家”那样被分割成多个单句。句法分析部104将进行词素分析后的各单句的文本数据输出到意图估计部106，进行步骤ST204～步骤ST206的处理。步骤ST205以后的处理与实施方式1中的步骤ST105以后的处理相同，因此省略它们的说明。

意图估计部106利用意图估计模型，对单句1和单句2分别实施意图估计处理(步骤ST206)。在这里的例子中，意图估计部106无法针对单句1进行意图估计，但是，针对单句2估计“目的地设定[设施＝家]”的意图。

根据意图估计部106的结果，存在意图估计失败的单句和能够进行意图估计的单句(步骤ST207-是)，因此，进行步骤ST209以后的处理。

补充意图估计部117使用由意图估计部106估计出的单句的意图“目的地设定[设施＝家]”、从词素分析部103得到的无法进行意图估计的单句的词素“お腹(肚子)”“が”“空く(饿)”“た(了)”以及由状态历史存储部115存储的状态历史“存在经由地”作为特征量，与补充意图估计模型进行核对，求出针对各补充意图的特征量的分数(步骤ST209)。然后，补充意图估计部117使用图11所示的计算式，求出各补充意图中的特征量的分数之积。即，补充意图估计部117根据通过多个特征量的分数而得到的最终分数，估计适当的补充意图。

图21是示出针对实施方式2的各执行顺序的最终分数的图。在这里的例子中，针对补充意图“经由地追加[餐厅]”，特征量“お腹(肚子)”的分数为0.2，特征量“が”的分数为0.01，特征量“空く(饿)”的分数为0.15，特征量“た(了)”的分数为0.01，状态历史特征“存在经由地设定”的分数为0.01，意图特征“目的地设定[设施＝家]”的分数为0.05，因此，它们之积即最终分数S计算成1.5e-9。同样，针对其他补充意图，也分别计算最终分数。

补充意图估计部117估计计算出的成为估计对象的各补充意图的最终分数中的分数最高的补充意图“经由地删除[]”作为适当的意图。

返回图20，命令执行部110根据由意图估计部106估计出的多个单句中包含的各个意图以及由补充意图估计部117估计出的多个单句的多个意图，执行与多个意图分别对应的机械命令(步骤ST208)。

在这里的例子中，由意图估计部106针对单句2估计“目的地设定[设施＝家]”的意图。并且，由补充意图估计部117针对单句1估计“经由地删除[]”的意图。因此，命令执行部110执行删除经由地以及将目的地设定成家。

如图19的S12所示，应答生成部111生成与由命令执行部110执行的机械命令对应的合成音“删除了经由地。将家设定成目的地”，通过通知部112向用户通知该合成音(步骤ST208)。

如以上说明的那样，根据实施方式2的意图估计装置，具有：词素分析部，其对包含多个意图的复句进行词素分析；句法分析部，其对由词素分析部进行词素分析后的复句进行句法分析而分割成多个单句；意图估计部，其估计多个单句中分别包含的意图；以及补充意图估计部，其在意图估计部的估计对象单句中存在意图估计失败的单句的情况下，将能够由意图估计部进行意图估计的单句的意图估计结果、意图估计失败的单句的词素、以及基于此前的意图历史的表示意图估计装置的当前状态的状态历史作为特征量，进行意图估计失败的单句的补充意图估计。因此，针对包含多个意图的复句，也能够高精度地估计用户的意图。

并且，根据实施方式2的意图估计装置，具有状态历史存储部，该状态历史存储部记录状态历史，补充意图估计部使用状态历史存储部中存储的状态历史进行补充意图估计。因此，能够进行反映了状态历史的意图估计。

并且，根据实施方式2的意图估计装置，具有补充意图估计模型存储部，该补充意图估计模型存储部存储将意图估计失败的单句的词素、能够进行意图估计的单句的意图估计结果以及状态历史作为特征量而与补充意图的分数对应起来的补充意图估计模型，补充意图估计部使用补充意图估计模型进行补充意图估计。因此，能够进行高精度的补充意图的估计。

并且，根据实施方式2的意图估计装置，补充意图估计部求出与意图估计失败的单句对应的特征量的分数，根据通过这些分数之积而得到的最终分数进行意图估计失败的单句的补充意图估计。因此，能够针对意图估计失败的单句可靠地进行补充意图估计。

并且，根据实施方式2的意图估计装置，使用实施方式2的意图估计装置执行以下步骤：词素分析步骤，对包含多个意图的复句进行词素分析；句法分析步骤，对进行词素分析后的复句进行句法分析而分割成多个单句；意图估计步骤，估计多个单句中分别包含的意图；以及补充意图估计步骤，在意图估计步骤的估计对象单句中存在意图估计失败的单句的情况下，将在意图估计步骤中能够进行意图估计的单句的意图估计结果、意图估计失败的单句的词素、以及基于此前的意图历史的表示意图估计装置的当前状态的状态历史作为特征量，进行意图估计失败的单句的补充意图的估计。因此，针对包含多个意图的复句，也能够高精度地估计用户的意图。

另外，在实施方式1和实施方式2中，作为意图估计装置，说明了由1台装置实现的例子，但是不限于此，也可以利用其他装置执行一部分功能。例如，也可以通过设置在外部的服务器等执行一部分功能。

并且，在实施方式1和实施方式2中，设进行意图估计的对象语言为日语，但是，还能够应对多种语言。

进而，本申请能够在其发明范围内进行各实施方式的自由组合或各实施方式的任意结构要素的变形，或在各实施方式中省略任意结构要素。

产业上的可利用性

如上所述，本发明的意图估计装置涉及用于识别使用语音或键盘等输入的文本来估计用户的意图，执行用户意图的操作的意图估计的结构，适合用作移动电话或导航装置等的语音接口。

标号说明

101：语音输入部；102：语音识别部；103：词素分析部；104：句法分析部；105：意图估计模型存储部；106：意图估计部；107：补充信息估计模型存储部；108：补充信息估计部；109：意图补充部；110：命令执行部；111：应答生成部；112：通知部；113：学习用数据存储部；114：补充信息估计模型生成部；115：状态历史存储部；116：补充意图估计模型存储部；117：补充意图估计部。

Claims

1.一种意图估计装置，其特征在于，所述意图估计装置具有：

词素分析部，其对包含多个意图的复句进行词素分析；

句法分析部，其对由所述词素分析部进行词素分析后的所述复句进行句法分析而分割成多个单句；

意图估计部，其估计所述多个单句中分别包含的意图；

补充信息估计部，其在所述意图估计部的估计对象单句中存在意图估计失败的单句的情况下，根据该意图估计失败的单句估计补充信息；以及

意图补充部，其在所述意图估计部的估计对象单句中存在不完整意图估计结果的单句的情况下，使用所述估计出的补充信息对该不完整意图估计结果进行补充。

2.根据权利要求1所述的意图估计装置，其特征在于，

所述意图估计装置具有补充信息估计模型存储部，该补充信息估计模型存储部保持表示单句与补充信息之间的关系的补充信息估计模型，

所述补充信息估计部使用所述补充信息估计模型进行所述补充信息的估计。

3.根据权利要求2所述的意图估计装置，其特征在于，

所述补充信息估计模型是将单句的词素作为特征量与补充信息的分数对应起来而构成的，

所述补充信息估计部求出所述意图估计失败的单句的每个词素的补充信息的分数，根据通过该分数之积而得到的最终分数进行所述补充信息的估计。

4.根据权利要求2所述的意图估计装置，其特征在于，

利用在占位符名和占位符值的组合中不存在所述占位符值的状态表示所述不完整意图估计结果，并且，利用占位符名和占位符值表示所述补充信息，

所述意图补充部在所述估计出的补充信息的占位符名与所述不完整意图估计结果的占位符名一致的情况下，将所述估计出的补充信息的占位符值作为所述不完整意图估计结果的占位符值。

5.一种意图估计装置，其特征在于，所述意图估计装置具有：

词素分析部，其对包含多个意图的复句进行词素分析；

意图估计部，其估计所述多个单句中分别包含的意图；以及

补充意图估计部，其在所述意图估计部的估计对象单句中存在意图估计失败的单句的情况下，将能够由所述意图估计部进行意图估计的单句的意图估计结果、所述意图估计失败的单句的词素、以及基于此前的意图历史的表示意图估计装置的当前状态的状态历史作为特征量，进行所述意图估计失败的单句的补充意图估计。

6.根据权利要求5所述的意图估计装置，其特征在于，

所述意图估计装置具有状态历史存储部，该状态历史存储部记录所述状态历史，

所述补充意图估计部使用所述状态历史存储部中存储的状态历史进行所述补充意图估计。

7.根据权利要求5所述的意图估计装置，其特征在于，

所述意图估计装置具有补充意图估计模型存储部，该补充意图估计模型存储部存储将所述意图估计失败的单句的词素、能够进行所述意图估计的单句的意图估计结果以及所述状态历史作为特征量，将分数与补充意图对应起来的补充意图估计模型，

所述补充意图估计部使用所述补充意图估计模型进行所述补充意图估计。

8.根据权利要求7所述的意图估计装置，其特征在于，

所述补充意图估计部求出与所述意图估计失败的单句对应的所述特征量的分数，根据通过这些分数之积而得到的最终分数进行所述意图估计失败的单句的补充意图估计。

9.根据权利要求1所述的意图估计装置，其特征在于，

所述意图估计装置具有：

语音输入部，其受理包含多个意图的语音的输入；以及

语音识别部，其识别与被输入到所述语音输入部的所述语音对应的语音数据，将该语音数据转换成包含所述多个意图的复句的文本数据，

所述词素分析部对从所述语音识别部输出的文本数据进行词素分析。

10.一种意图估计方法，其特征在于，所述意图估计方法使用权利要求1的意图估计装置执行以下步骤：

词素分析步骤，对包含多个意图的复句进行词素分析；

句法分析步骤，对进行所述词素分析后的所述复句进行句法分析而分割成多个单句；

意图估计步骤，估计所述多个单句中分别包含的意图；

补充信息估计步骤，在所述意图估计步骤的估计对象单句中存在意图估计失败的单句的情况下，根据该意图估计失败的单句估计补充信息；以及

意图补充步骤，在所述意图估计步骤的估计对象单句中存在不完整意图估计结果的单句的情况下，使用所述估计出的补充信息对该不完整意图估计结果进行补充。

11.一种意图估计方法，其特征在于，所述意图估计方法使用权利要求5的意图估计装置执行以下步骤：

词素分析步骤，对包含多个意图的复句进行词素分析；

意图估计步骤，估计所述多个单句中分别包含的意图；以及

补充意图估计步骤，在所述意图估计步骤的估计对象单句中存在意图估计失败的单句的情况下，将在所述意图估计步骤中能够进行意图估计的单句的意图估计结果、所述意图估计失败的单句的词素、以及基于此前的意图历史的表示所述意图估计装置的当前状态的状态历史作为特征量，进行所述意图估计失败的单句的补充意图估计。