WO2016120904A1

WO2016120904A1 - 意図推定装置及び意図推定方法

Info

Publication number: WO2016120904A1
Application number: PCT/JP2015/000367
Authority: WO
Inventors: イ景; 悠介小路; 石井　純
Original assignee: 三菱電機株式会社
Priority date: 2015-01-28
Filing date: 2015-01-28
Publication date: 2016-08-04
Also published as: JP6328260B2; JPWO2016120904A1; US10460034B2; DE112015006069T5; US20170371863A1; CN107209758A

Abstract

　意図推定装置は、複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、形態素解析部による形態素解析された複文を構文解析して第１の単文と第２の単文とに分割する構文解析部と、第１の単文に含まれる第１の意図と、第２の単文に含まれる第２の意図とを推定する意図推定部と、第１の単文に含まれる操作の実行順序を示す形態素を第１の特徴量として抽出するとともに、第２の単文に含まれる操作の実行順序を示す形態素を第２の特徴量として抽出する特徴量抽出部と、特徴量抽出部により抽出された第１の特徴量と第２の特徴量とに基づき、第１の意図に対応する第１の操作と第２の意図に対応する第２の操作の実行順序を推定する実行順序推定部とを備えるので、ユーザーの意図を正確に推定することが可能となる。

Description

意図推定装置及び意図推定方法

　本発明は、音声やキーボードなどを用いて入力されたテキストを認識して使用者の意図を推定し、使用者の意図する操作を実行するための意図推定装置及び意図推定方法に関するものである。

　近年、人間の自由発話を認識し、その認識結果を用いて機械等の操作を実行する技術が知られている。この技術は、携帯電話やナビゲーション装置などの音声インタフェースとして利用され、入力音声の認識結果の意図を推定するものであり、多様な文例及び対応する意図から統計的手法を用いて学習した意図推定モデルを使用することにより、使用者の多様な言い回しに対応できる。

　このような技術においては、発話内容に含まれる意図が１つである場合には有効である。しかしながら、発話者により、複文のような複数の意図を含む発話が入力された場合に、正しく複数の意図を推定することは困難であった。例えば、「東京タワーも寄りたいが、先にスカイツリーへ寄って。」という発話では、施設である東京タワーを経由地設定するという意図と、施設であるスカイツリーを経由地設定するという２つの意図があり、上記の意図推定モデルの使用では、これら２つの意図を推定することは困難であった。

　このような問題に対し、例えば特許文献１では、複数の意図を含む発話に対し、入力テキストの適切な分割点の位置を意図推定及び複文分割の確率により推定する手法が提案されている。

特開２０００－２００２７３号公報

　しかしながら、特許文献１の技術では、分割点により複数の意図を推定した結果をそのまま出力するだけであって、推定した複数の意図に対応する機械コマンドの実行順序までを推定することができず、ユーザーの意図を正確に推定することができないという課題があった。

　本発明は、上述した課題を解決するためになされたものであり、ユーザーの意図を正確に推定できる意図推定装置及び意図推定方法を提供することを目的とする。

　本発明に係る意図推定装置は、複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、形態素解析部による形態素解析された複文を構文解析して第１の単文と第２の単文とに分割する構文解析部と、第１の単文に含まれる第１の意図と、第２の単文に含まれる第２の意図とを推定する意図推定部と、第１の単文に含まれる操作の実行順序を示す形態素を第１の特徴量として抽出するとともに、第２の単文に含まれる操作の実行順序を示す形態素を第２の特徴量として抽出する特徴量抽出部と、特徴量抽出部により抽出された第１の特徴量と第２の特徴量とに基づき、第１の意図に対応する第１の操作と第２の意図に対応する第２の操作の実行順序を推定する実行順序推定部とを備えることを特徴とする。

　また、本発明に係る意図推定方法は、複数の意図が含まれる複文を形態素解析するステップと、形態素解析された複文を構文解析して複数の単文に分割するステップと、複数の単文それぞれに含まれる意図を推定するステップと、複数の単文それぞれに含まれる、操作の実行順序を示す形態素を特徴量として抽出するステップと、複数の単文それぞれに含まれる特徴量に基づき、複数の単文それぞれに含まれる意図に対応する各操作の実行順序を推定するステップと、を有することを特徴とする。

　本発明の意図推定装置及び意図推定方法によれば、単文から抽出した特徴量に基づいて意図に対応する操作の実行順序を推定するので、ユーザーの意図を正確に推定することが可能となる。

実施の形態１に係る意図推定装置１の構成例を示す図である。実施の形態１に係る意図推定モデルの１例を示す図である。実施の形態１に係る特徴量抽出ルールの１例を示す図である。実施の形態１に係る実行順序の種類の１例を示す。実施の形態１に係る実行順序推定モデルの１例を示す図である。実施の形態１に係る意図推定装置１のハードウェア構成例を示す図である。実施の形態１に係る実行順序推定モデルの生成処理を説明するための意図推定装置１の構成例を示す図である。実施の形態１に係る学習用データの例を示す図である。実施の形態１に係る実行順序推定モデルの生成処理を説明するためのフローチャートである。実施の形態１に係る対話例を示す図である。実施の形態１に係る意図推定処理を説明するためのフローチャートである。実施の形態１に係る各実行順序に対する各特徴量のスコアを示す図である。実施の形態１に係るスコアの積を求める計算式を示す図である。実施の形態１に係る各実行順序に対する最終スコアを示す図である。実施の形態２に係る意図推定装置１Ｂの構成例を示す図である。実施の形態２に係る実行順序推定モデルの１例を示す図である。実施の形態２に係る実行順序推定モデルの生成処理を説明するための意図推定装置１Ｂの構成例を示す図である。実施の形態２に係る実行順序推定モデルの生成処理を説明するためのフローチャートである。実施の形態２に係る対話例を示す図である。実施の形態２に係る意図推定処理を説明するためのフローチャートである。実施の形態２に係る各実行順序に対する最終スコアを示す図である。

実施の形態１．
　以下図面を用いて本発明の実施の形態１を説明する。

　図１は実施の形態１に係る意図推定装置１の構成例を示す図である。意図推定装置１は、音声入力部１０１と、音声認識部１０２と、形態素解析部１０３と、構文解析部１０４と、意図推定モデル記憶部１０５と、意図推定部１０６と、特徴量抽出ルール記憶部（特徴量抽出条件記憶部）１０７と、特徴量抽出部１０８と、実行順序推定モデル記憶部（実行順序推定情報記憶部）１０９と、実行順序推定部（実行順序決定部）１１０と、コマンド実行部（操作実行部）１１１と、応答生成部１１２と、通知部１１３とを備える。

　音声入力部１０１は、音声の入力を受け付ける。

　音声認識部１０２は、音声入力部１０１に入力された音声入力に対応する音声データを音声認識した上でテキストデータに変換し、形態素解析部１０３に出力する。以下の説明では、テキストデータは複数の意図が含まれる複文であるものとする。複文は、複数の単文から構成され、１つの単文には１つの意図が含まれる。

　形態素解析部１０３は、音声認識部１０２により変換されたテキストデータに対して形態素解析を行い、その結果を構文解析部１０４に出力する。ここで、形態素解析とは、テキストを形態素（言語で意味を持つ最小単位）に区切り、辞書を利用して品詞を識別する自然言語処理技術である。例えば、「東京タワーへ行く」という単文に対しては、「東京タワー/固有名詞、へ/格助詞、行く/動詞」のような形態素に区切られる。なお、形態素は、自立語、素性と表現してもよい。

　構文解析部１０４は、形態素解析部１０３により形態素解析されたテキストデータに対して、文法規則によって文の構造を句や文節を単位として解析（構文解析）を行う。構文解析部１０３は、テキストデータに対応するテキストが複数の意図を含む複文である場合、複数の単文に分割して各単文の形態素解析結果を意図推定部１０６及び特徴量抽出部１０８に出力する。構文解析手法として、例えば、ＣＹＫ（Ｃｏｃｋｅ－Ｙｏｕｎｇｅｒ－Ｋａｓａｍｉ）法等を用いることができる。

　なお、ここでの説明では、テキスト（複文）は２つの単文１及び単文２を含むものとして説明を行うが、これに限るものではなく、３以上の単文から構成されていてもよい。なお、構文解析部１０３は、分割した全ての単文に対応するデータを意図推定部１０６及び特徴量抽出部１０８に出力する必要はなく、例えば、入力されたテキスト（複文）に単文１、単文２及び単文３が含まれる場合であっても、単文１及び単文２のみを出力の対象としてもよい。

　意図推定モデル記憶部１０５は、形態素を特徴として意図推定を行うための意図推定モデルを記憶する。意図は、「＜主意図＞[＜スロット名＞＝＜スロット値＞、・・・]」のような形で表現することができる。ここで、主意図とは、意図の分類または機能を示すものである。ナビゲーション装置の例では、主意図とは、ユーザーが最初に操作する上位層の機械コマンド（目的地設定、音楽を聞く等）に対応する。スロット名およびスロット値は、主意図を実行するために必要な情報を示す。例えば、「目的地を東京タワーに設定する」という単文に含まれる意図は、「＜目的地設定＞[＜施設＞＝＜東京タワー＞]」のように表すことができ、「目的地を設定したい」という単文に含まれる意図は、「＜目的地設定＞[＜施設＞＝＜ＮＵＬＬ＞]」のように表現できる。この場合、目的地は設定されるが、具体的な施設名は決定されない。

　図２は実施の形態１に係る意図推定モデルの１例を示す図である。図２に示すように、意図推定モデルは、「目的地設定[｛施設＝東京タワー｝]」や「経由地設定[｛施設＝東京タワー｝]」等の意図に対する各形態素のスコアを表すものである。図２に示すように、形態素「行く」や「目的地」については、目的地設定を意図している可能性が高いので、意図「目的地設定[｛施設＝東京タワー｝]」のスコアが高くなる。一方で、形態素「経由地」については、経由地設定を意図している可能性が高いので、意図「経由地設定[｛施設＝東京タワー｝]」のスコアが高くなる。

　意図推定部１０６は、構文解析部１０４から入力された複数の単文の形態素解析結果に基づき、意図推定モデルを使って複数の単文に含まれる意図をそれぞれ推定し、その結果をコマンド実行部１１１に出力する。ここで、意図推定の方式としては、例えば最大エントロピー法が利用できる。つまり、意図推定部１０６は、統計的手法を利用して、大量に収集した形態素と意図の組から、入力された形態素に対応する意図がどれだけ尤もらしいかを推定する。

　特徴量抽出ルール記憶部１０７は、実行順序を推定するために用いられ、単文中にある形態素を特徴量として抽出するためのルールである特徴量抽出ルール（特徴量抽出条件）が記憶される。

　図３は実施の形態１に係る特徴量抽出ルールの１例を示す図である。図３に示すように、特徴量抽出ルールは、出現位置条件と品詞条件とが対応づけてられている。出現位置条件とは、単文中の形態素の出現位置（文頭、文末等）を意味し、品詞条件とは当該出現位置に存在する形態素の品詞を意味する。図３において、単文中の文頭に出現する形態素の品詞が時名詞及び格助詞であれば、当該形態素は特徴量として抽出される。また、単文中の文末に出現する形態素の品詞が接続助詞であれば、当該形態素は特徴量として抽出される。

　特徴量抽出部１０８は、構文解析部１０４から入力された複数の単文の形態素解析結果に基づき、特徴量抽出ルールを用いて、各単文中に含まれる操作の実行順序を示す形態素を特徴量として抽出する。つまり、特徴量抽出部１０８は、複数の単文中における形態素の位置及び形態素の品詞からそれぞれの特徴量を抽出する。例えば、「先に東京タワーへ行く」という単文に対しては、形態素解析部１０３により「先に/時名詞＋格助詞、東京タワー/固有名詞、へ/格助詞、行く/動詞」のように形態素解析される。このうち、「先に」という形態素は時名詞及び格助詞により構成されるので、特徴量抽出部１０８は、図３に示す特徴量抽出ルールに従い、形態素である「先に」を特徴量として抽出する。そして、特徴量抽出部１０８は、抽出した特徴量を、実行順序推定部１１０に出力する。

　実行順序推定モデル記憶部１０９は、テキストに含まれる複数の単文の実行順序を推定するために用いられる実行順序推定モデル（実行順序推定情報）を記憶する。

　図４は実施の形態１に係る実行順序の種類の１例を示す。図４に示すように、複数の単文の実行順序とは、各単文の意図に対応する操作をいずれの順序で実行するかということを意味する。例えば、テキストに単文１及び単文２が含まれる場合、実行順序の種類（種別）は、単文１を先に実行するか（単文１優先：Ｎｏ．１）、単文２を先に実行するか（単文２優先：Ｎｏ．２）、単文１と単文２とを同時に実行するか（同時に実行：Ｎｏ．３）、単文１のみ実行するか（単文１のみ実行：Ｎｏ．４）、単文２のみ実行するか（単文２のみ実行：Ｎｏ．５）、に分けられる。

　図５は実施の形態１に係る実行順序推定モデルの１例を示す図である。図５に示すように、実行順序推定モデルは、複数の単文それぞれの意図に対応する操作の実行順序の種別と、複数の単文それぞれに含まれる特徴量のスコアとが対応付けられた情報（実行順序情報）を表す。例えば、単文１中に特徴量「ので」がある場合、「単文１優先」のスコアは０．０７、「単文２優先」のスコアは０．２５、同時に実行のスコアは０．０３、単文１のみ実行のスコアは０．０５、単文２のみ実行のスコアは０．６となる。このスコアの付与の仕方については、ソフトウェアが特徴量の内容に応じて算出してもいいし、ユーザーが任意に設定してもよい。上記例のように、単文１中に特徴量「ので」がある場合、単文１につながる単文２に含まれる意図を実行する可能性が高く、そういったことから、単文２のみ実行のスコアが１番目に高く、単文２優先のスコアが２番目に高くなる。また、単文２中に特徴量「て」がある場合、「単文１優先」のスコアは０．２、単文２優先のスコアは０．２、同時に実行のスコアは０．２、単文１のみ実行のスコアは０．２、単文２のみ実行のスコアは０．２となる。図５に示す他の特徴量「先に」、「だけど」、「やっぱり」、「まず」についても同様で、スコアが付与される。

　実行順序推定部１１０は、特徴量抽出部１０８で抽出された各単文における特徴量に基づき、複数の単文に含まれる各意図に対応する操作の実行順序を推定し、その結果をコマンド実行部１１１に出力する。例えば、「東京タワーも寄りたいが、先にスカイツリーへ寄って。」というテキストが入力されると、単文１「東京タワーも寄りたいが」の特徴量と、単文２「先にスカイツリーへ寄って」の特徴量とを用いることにより、単文２優先との実行順序を推定する。実行順序の推定アルゴリズムの詳細については後述する。

　コマンド実行部１１１は、意図推定部１０６により推定された複数の単文に含まれるそれぞれの意図と、実行順序推定部１１０により推定された操作の実行順序とに基づき、複数の単文それぞれに含まれる意図に対応する機械コマンド（操作）を実行する。例えば、「東京タワーも寄りたいが、先にスカイツリーへ寄って。」というテキストが入力された場合、意図推定部１０６からは、単文１の意図として「＜経由地設定＞[＜施設＞＝＜東京タワー＞]」が入力され、単文２の意図として「＜経由地設定＞[＜施設＞＝＜スカイツリー＞]」が入力される。また、実行順序推定部１１０からは、単文２優先との実行順序が入力される。そして、コマンド実行部１１１は、単文２の意図に対応する機械コマンド（スカイツリーの経由地設定操作）を実行してから、単文１の意図に対応する機械コマンド（東京タワーの経由地設定操作）を実行する。

　応答生成部１１２は、コマンド実行部１１１により実行された機械コマンドに対応する応答を生成する。応答については、テキストデータの形式で生成してもよいし、音声データとして合成音を生成してもよい。音声データを生成する場合、例えば、「スカイツリーを経由地に設定します。東京タワーを経由地に設定します。」のような合成音であればよい。

　通知部１１３は、応答生成部１１２で生成された応答を、ドライバー等の使用者に通知する。つまり、通知部１１３は、コマンド実行部１１１により複数の機械コマンドが実行されたことをユーザーに通知する。なお、通知の態様については、表示による通知、音声による通知、または振動による通知等、使用者が通知を認識できるものであれば何でもよい。

　次に、意図推定装置１のハードウェア構成について説明する。

　図６は実施の形態１に係る意図推定装置１のハードウェア構成例を示す図である。意図推定装置１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等の処理装置（Ｐｒｏｃｅｓｓｏｒ）１５０と、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）やハードディスク装置等の記憶装置（Ｍｅｍｏｒｙ）１６０と、キーボードやマイク等の入力装置１７０と、スピーカやディスプレイ等の出力装置１８０とがバス接続された構成となっている。なお、ＣＰＵは、自身にメモリを備えていてもよい。

　図１に示す音声入力部１０１は、入力装置１７０により実現され、通知部１１３は出力装置１８０により実現される。

　意図推定モデル記憶部１０５、特徴量抽出ルール記憶部１０７、実行順序推定モデル記憶部１０９、後述する学習用データ記憶部１１４に記憶されるデータ等はそれぞれ記憶装置１６０に記憶される。また、音声認識部１０２、形態素解析部１０３、構文解析部１０４、意図推定部１０６、特徴量抽出部１０８、実行順序推定部１１０、コマンド実行部１１１、応答生成部１１２、後述する実行順序推定モデル生成部１１５等の「～部」についても、プログラムとして記憶装置１６０に記憶される。

　処理装置１５０は、記憶装置１６０に記憶されるプログラムを適宜読みだして実行することにより、上記「～部」における機能を実現する。つまり、処理装置１５０であるハードウェアと上記プログラムであるソフトウェアとを組み合わせることにより、上記「～部」の機能を実現する。また、図６の例では１つの処理装置１５０により機能を実現する構成となっているが、例えば一部機能を外部のサーバー内にある処理装置で担う等して、複数の処理装置を用いて機能を実現してもよい。そのため、処理装置１５０としての「ａ　ｐｒｏｃｅｓｓｏｒ」とは、１つの処理装置のみならず、複数の処理装置をも含む概念である。なお、これら「～部」の機能は、ハードウェアとソフトウェアとの組み合わせに限らず、処理装置１５０に上記プログラムをインプリメントし、いわゆるシステムＬＳＩのように、ハードウェア単体で実現するようにしてもよい。このようなハードウェアとソフトウェアの組み合わせ、及び、ハードウェア単体の両者を含めた上位の概念として、Ｐｒｏｃｅｓｓｉｎｇ　Ｃｉｒｃｕｉｔｒｙと表現してもよい。

　実施の形態１に係る意図推定装置１の動作について説明する。まずは、実行順序推定モデルの生成処理に関する動作について説明する。

　図７は実施の形態１に係る実行順序推定モデルの生成処理を説明するための意図推定装置１の構成例を示す図である。

　図７において、学習用データ記憶部１１４は、複数の文例に対して実行順序が付与された学習用データを記憶する。

　図８は実施の形態１に係る学習用データの例を示す図である。図８に示すように、学習用データは、複数の文例（Ｎｏ．１、Ｎｏ．２、Ｎｏ．３、・・・）に対して実行順序が付与されたデータである。例えば、文例Ｎｏ．１の「時間が厳しいので、高速道路で行って」については、単文１「時間が厳しいので」と単文２「高速道路で行って」に分けられ、実行順序として「単文２のみ実行」が付与される。この実行順序については、予め学習データ作成者により付与される。

　図７に戻って、実行順序推定モデル生成部１１５は、学習用データ記憶部１１４に記憶される実行順序の対応関係を統計的な手法で学習する。実行順序推定モデル生成部１１５は、特徴量抽出部１０８で抽出された特徴量と、学習用データ記憶部１１４に記憶される実行順序を用いて、実行順序推定モデルを生成する。

　図９は実施の形態１に係る実行順序推定モデルの生成処理を説明するためのフローチャートである。まず、形態素解析部１０３が、学習用データ記憶部１１４に記憶される学習用データの各文例における単文１及び単文２に対して形態素解析を行う（ステップＳＴ１）。例えば、文例Ｎｏ．１について言えば、形態素解析部１０３は単文１「時間が厳しいので」及び単文２「高速道路で行って」に対して形態素解析を行う。形態素解析部１０３は、形態素解析した結果を、構文解析部１０４を介して特徴量抽出部１０８へ出力する。

　特徴量抽出部１０８が、特徴量抽出ルール記憶部１０７に記憶される特徴量抽出ルールに基づき、形態素解析された単文１及び単文２に対して特徴量抽出処理を行う（ステップＳＴ２）。例えば、文例Ｎｏ．１で言えば、特徴量抽出部１０８は特徴量「ので」と「て」を抽出する。また、特徴量抽出部１０８は、抽出した特徴量にそれぞれ単文位置情報を追加する（ステップＳＴ３）。例えば、特徴量抽出部１０８は、単文１から抽出した特徴量「ので」については、単文位置情報「単文１」を追加して、「単文１＿ので」のようにする。また、特徴量抽出部１０８は、単文２から抽出した特徴量「て」については、単文位置情報「単文２」を追加して、「単文２＿て」のようにする。ここで、単文位置情報を追加した特徴量を、単文位置情報付特徴量のように表現してもよい。特徴量抽出部１０８は、抽出した特徴量に関する情報を実行順序推定モデル生成部１１５に出力する。

　実行順序推定モデル生成部１１５は、特徴量と、学習用データに含まれる実行順序とに基づいて、実行順序推定モデルを生成する（ステップＳＴ４）。実行順序推定モデル生成部１１５は、例えば、特徴量「単文１＿ので」と「単文２＿て」の場合、学習用データに含まれる実行順序は図８に示すように「単文２のみ実行」であるので、特徴量「単文１＿ので」よりも特徴量「単文２＿て」の方がよりスコアが高いと判断する。実行順序推定モデル生成部１１５は、学習用データに含まれる全ての文例に対して上記と同様の処理を行い、最終的に図５に示すような実行順序推定モデルを生成する。

　次に、実行順序推定モデルを用いた意図推定処理に関する動作について説明する。

　図１０は実施の形態１に係る対話例を示す図である。図１１は実施の形態１に係る意図推定処理を説明するためのフローチャートである。

　まず、図１０に示すように、音声認識装置１が「ピッと鳴ったらお話ください」と発話する（Ｓ１）。それに対し、ユーザーが「××へ行きたい。」と発話する（Ｕ１）。なお、ここでは音声認識装置１からの発話を「Ｓ」と表し、ユーザーからの発話を「Ｕ」と表す。以下も同様である。

　図１１において、Ｕ１で示すようにユーザーが発話すると、音声認識部１０２がユーザー入力に対して音声認識処理を行い（ステップＳＴ０１）、テキストデータに変換する。形態素解析１０３部は、変換されたテキストデータに対し、形態素解析処理を行う（ステップＳＴ０２）。構文解析部１０４は、形態素解析されたテキストデータに対し構文解析処理を実施し（ステップＳＴ０３）、当該テキストデータが複文である場合、当該複文を複数の単文に分割する。テキストデータが複文でない場合（ステップＳＴ０４－Ｎｏ）、ステップＳＴ０５以降の処理に移り、テキストデータが複文である場合（ステップＳＴ０４－Ｙｅｓ）、ステップＳＴ０７以降の処理に移る。

　Ｕ１の入力例は単文であるため、ここではステップＳＴ０５に移る。そのため、構文解析部１０４は、形態素解析された単文のテキストデータを意図推定部１０６に出力する。意図推定部１０６は、意図推定モデルを利用して、入力された単文に対し意図推定処理を実行する（ステップＳＴ０５）。ここでは、「＜目的地設定＞[＜施設＞＝＜××＞]」のように意図を推定する。

　コマンド実行部１１１は、意図推定部１０６による意図推定結果に対応する機械コマンドを実行する（ステップＳＴ０６）。例えば、コマンド実行部１１１は、施設××を目的地に設定するという操作を実行する。そして、応答生成部１１２は、コマンド実行部１１１により実行された機械コマンドに対応する合成音を生成する。合成音としては、例えば、「××を目的地に設定しました。」となる。通知部１１３は、応答生成部１１２で生成された合成音を、スピーカ等によりユーザーに通知する。その結果、図１０の「Ｓ２」に示すように、「××を目的地にしました。」のような通知をユーザーに行う。

　次に、図１０において、ユーザーが「Ｕ２」に示すように「先に○○へ寄りたいのだけど、やっぱりまず△△へ寄る。」と発話した場合について説明する。

　図１１において、ユーザーが「Ｕ２」に示すように発話すると、音声認識部１０２がユーザー入力に対して音声認識処理を行ってテキストデータに変換し、形態素解析部１０３がテキストデータに対して形態素解析処理を行う（ステップＳＴ０１、ＳＴ０２）。次に、構文解析部１０４がテキストデータに対して構文解析処理を行う（ステップＳＴ０３）。ここで、ユーザー入力に関するテキストデータは、単文１（第１の単文）「先に○○へ寄りたいのだけど」と、単文２（第２の単文）「やっぱりまず△△へ寄る」のように、複数の単文に分割される。そのため、構文解析部１０４は形態素解析された各単文のテキストデータを意図推定部１０６及び特徴量抽出部１０８へ出力し、ステップＳＴ０７以降の処理がなされることになる。

　意図推定部１０６は、意図推定モデルを利用し、単文１及び単文２に対して、それぞれ意図推定処理を実施する（ステップＳＴ０７）。ここでの例では、意図推定部１０６は、単文１に対して「＜経由地設定＞[＜施設＞＝＜○○＞]」の意図を推定し、単文２に対して「＜経由地設定＞[＜施設＞＝＜△△＞]」の意図を推定する。

　特徴量抽出部１０８は、特徴量抽出ルールを用いて、単文１及び単文２に対して、それぞれ特徴量抽出処理を実施する（ステップＳＴ０８）。ここでの例では、特徴量抽出部１０８は、単文１に対しての第１の特徴量、すなわち、特徴量「単文１＿先に」、「単文１＿だけど」を抽出し、単文２に対しての第２の特徴量、すなわち、特徴量「単文２＿やっぱり」、「単文２＿まず」を抽出する。なお、ここでは特徴量に対して単文位置情報も付与されている。特徴量抽出部１０８は、各単文に対して抽出した特徴量に関する情報を実行順序推定部１１０に出力する。

　実行順序推定部１１０は、特徴量抽出部１０８から出力された特徴量に関する情報と、実行順序推定モデル記憶部１０９に記憶される実行順序推定モデルとに基づいて、各単文の実行順序を推定する（ステップＳＴ０９）。以下、実行順序の推定について詳細を説明する。

　まず、実行順序推定部１１０は、特徴量抽出部１０８から出力された特徴量と、実行順序推定モデルと照らし合わせて、各実行順序に対する各特徴量のスコアを求める。

　図１２は実施の形態１に係る各実行順序に対する各特徴量のスコアを示す図である。図１２に示すように、実行順序「単文１優先」に対しては、特徴量「単文１＿先に」のスコアは０．４５となり、特徴量「単文１＿だけど」のスコアは０．２となり、特徴量「単文２＿やっぱり」のスコアは０．１となり、特徴量「単文２＿まず」のスコアは０．２となる。他の実行順序についても、同様に、各特徴量のスコアが求まる。

　次に、実行順序推定部１１０は、各実行順序における、各特徴量のスコアの積を求める。

　図１３は実施の形態１に係るスコアの積を求める計算式を示す図である。図１３において、Ｓｉは、推定対象の実行順序に対するｉ番目の特徴量のスコアである。Ｓは、推定対象の実行順序に対するＳｉの積を表す最終スコアである。

　図１４は実施の形態１に係る各実行順序に対する最終スコアを示す図である。実行順序推定部１１０は、図１３に示す計算式を用いて、図１４に示す最終スコアを算出する。ここでの例では、実行順序「単文１優先」については、特徴量「単文１＿先に」のスコアは０．４５で、特徴量「単文1＿だけど」のスコアは０．２で、特徴量「単文２＿やっぱり」のスコアは０．１で、特徴量「単文２＿まず」のスコアは０．２となるので、これらの積である最終スコアＳは１．８e－３と算出される。同様に、他の実行順序についても、それぞれ最終スコアが算出される。

　実行順序推定部１１０は、算出した推定対象となる各実行順序の最終スコアのうち、最もスコアが高い実行順序「単文２優先」を適切な実行順序として推定する。つまり、実行順序推定部１１０は、実行順序推定モデルに含まれる複数の特徴量のスコアに基づき、各操作の実行順序を推定するものであり、さらに言うと、複数の特徴量のスコアの積により得られた最終スコアに基づき各操作の実行順序を推定する。

　図１１に戻って、コマンド実行部１１１は、意図推定部１０６により推定された複数の単文に含まれるそれぞれの意図と、実行順序推定部１１０により推定された複数の単文の実行順序とに基づき、複数の単文それぞれに含まれる意図に対応する機械コマンドを実行する（ステップＳＴ１０）。

　ここでの例では、意図推定部１０６により、単文１に対して「＜経由地設定＞[＜施設＞＝＜○○＞]」の意図を推定し、単文２に対して「＜経由地設定＞[＜施設＞＝＜△△＞]」の意図が推定される。また、実行順序推定部１１０により実行順序「単文２優先」が適切な実行順序として推定される。そのため、コマンド実行部１１１は、まず、単文２の意図「＜経由地設定＞[＜施設＞＝＜△△＞]」に対応する機械コマンド（△△の経由地設定操作）を実行し、その後、単文１の意図「＜経由地設定＞[＜施設＞＝＜○○＞]」に対応する機械コマンド（○○の経由地設定操作）を実行する。第１の意図に対応する操作を第１の操作、第２の意図に対応する操作を第２の操作と表現してもよい。

　応答生成部１１２は、図１０のＳ３に示すように、コマンド実行部１１１により実行された機械コマンドに対応する合成音「△△を経由地に設定します。○○を経由地に設定します。」を生成し、通知部１１３によりユーザーに当該合成音が通知される（ステップＳＴ１１）。

　以上より、実施の形態１によれば、構文解析部１０４が入力された複文を複数の単文に分割し、特徴量抽出部１０８が複数の単文それぞれに含まれる特徴量を抽出し、実行順序決定部１１０が抽出された特徴量に基づいて複数の単文それぞれに含まれる意図に対応する処理の実行順序を決定するので、意図の実行順序までをふまえて意図推定が可能となり、ユーザーの意図を正確に推定することができる。

　また、コマンド実行部１１１が、実行順序推定部１１０により推定された複数の単文の実行順序に基づき、複数の単文それぞれに含まれる意図に対応する機械コマンドを実行するので、ユーザーによる操作負担を軽減することが可能となる。

実施の形態２．
　以下図面を用いて本発明の実施の形態２について説明する。実施の形態２では、実行順序推定部１１０は、特徴量抽出部１０８から得た特徴量に加え、意図推定部１０６から得た主意図の特徴量（主意図特徴量）を用いて実行順序を推定する。主意図特徴量の説明については後述する。

　図１５は実施の形態２に係る意図推定装置１Ｂの構成例を示す図である。実施の形態２の意図推定装置１Ｂは、実施の形態１の実行順序推定モデル記憶部１０９及び実行順序推定部１１０の代わりに実行順序推定モデル記憶部１０９Ｂ及び実行順序推定部１１０Ｂを備える点において意図推定装置１と異なる。他の構成については、実施の形態１と同様であるので、図１と同一の符号を付してその説明を省略する。

　実行順序推定モデル記憶部１０９Ｂは、テキストに含まれる複数の単文の実行順序を推定するために用いられる実行順序推定モデル（実行順序推定情報）を記憶する。

　図１６は実施の形態２に係る実行順序推定モデルの１例を示す図である。図１６に示すように、実行順序推定モデルは、各実行順序の種別と、複数の単文それぞれに含まれる特徴量のスコアとが対応づけられ、さらに、各実行順序の種別と、複数の単文それぞれに含まれる主意図特徴量のスコアとが対応づけられた情報である。

　図１６において、特徴量「単文１＿ので」、特徴量「単文２＿て」、特徴量「単文１＿先に」、特徴量「単文１＿だけど」、特徴量「単文２＿やっぱり」、特徴量「単文２＿まず」、のスコアについては、実施の形態１と同様のため説明を省略する。

　図１６において、「単文１＿経由地追加」、「単文２＿目的地設定」は主意図特徴量である。主意図特徴量とは、意図推定部１０６による意図推定結果から抽出された主意図に単文位置情報が付与されたものを表す。例えば、「単文１＿経由地追加」であれば、単文１に含まれる意図が「経由地追加」であることを示す。「単文２＿目的地設定」であれば、単文２に含まれる意図が「目的地設定」であることを示す。

　図１６の例では、主意図特徴量「単文１＿経由地追加」については、実行順序「単文１優先」でのスコアは０．２となり、実行順序「単文２優先」でのスコアは０．２５となり、実行順序「同時に実行」でのスコアは０．２となり、実行順序「単文１のみ実行」でのスコアは０．２５となり、実行順序「単文１のみ実行」でのスコアは０．１となる。また、主意図特徴量「単文２＿目的地設定」については、実行順序「単文１優先」でのスコアは０．１となり、実行順序「単文２優先」でのスコアは０．４５となり、実行順序「同時に実行」でのスコアは０．０５となり、実行順序「単文１のみ実行」でのスコアは０．１となり、実行順序「単文１のみ実行」でのスコアは０．３となる。ナビゲーション装置では、通常、目的地と経由地を設定する場合、先に目的地を設定してから経由地を設定する操作を行う。そのため、主意図特徴量「単文２＿目的地設定」については、実行順序「単文２優先」のスコアが大きくなる。

　実施の形態２に係る意図推定装置１Ｂの動作について説明する。まずは、実行順序推定モデルの生成処理に関する動作について説明する。

　図１７は実施の形態２に係る実行順序推定モデルの生成処理を説明するための意図推定装置１Ｂの構成例を示す図である。図１８は実施の形態２に係る実行順序推定モデルの生成処理を説明するためのフローチャートである。

　まず、形態素解析部１０３が、図８に示す学習用データの各文例における単文１及び単文２に対して形態素解析を行う（ステップＳＴ００１）。例えば、文例Ｎｏ．１について言えば、形態素解析部１０３は単文１「時間が厳しいので」及び単文２「高速道路で行って」に対して形態素解析を行う。形態素解析部１０３は、形態素解析した結果を、構文解析部１０４を介して特徴量抽出部１０８及び意図推定部１０６へ出力する。

　特徴量抽出部１０８が、特徴量抽出ルール記憶部１０７に記憶される特徴量抽出ルールに基づき、形態素解析された単文１及び単文２に対して特徴量抽出処理を行う（ステップＳＴ００２）。例えば、文例Ｎｏ．１で言えば、特徴量抽出部１０８は特徴量「ので」と「て」を抽出する。また、特徴量抽出部１０８は、抽出した特徴量にそれぞれ単文位置情報を追加する（ステップＳＴ００３）。例えば、特徴量抽出部１０８は、単文１から抽出した特徴量「ので」については、単文位置情報「単文１」を追加して、「単文１＿ので」のようにする。また、特徴量抽出部１０８は、単文２から抽出した特徴量「て」については、単文位置情報「単文２」を追加して、「単文２＿て」のようにする。特徴量抽出部１０８は、抽出した特徴量に関する情報を実行順序推定モデル生成部１１５Ｂに出力する。

　次に、意図推定部１０６が、形態素解析された単文１及び単文２に含まれる意図を推定し、主意図特徴量として抽出する（ステップＳＴ００４）。例えば文例Ｎｏ．４で言えば、意図推定部１０６は、単文１から主意図特徴量「経由地設定」を抽出し、単文２から主意図特徴量「目的地設定」を抽出する。また、意図推定部１０６は、単文１から抽出した主意図特徴量に単文位置情報「単文１」を追加して、「単文１＿経由地設定」のようにする。また、意図推定部１０６は、抽出した主意図特徴量に単文位置情報を追加する（ステップＳＴ００５）。例えば、意図推定部１０６は、単文１から抽出した主意図特徴量に単文位置情報「単文１」を追加して、「単文１＿経由地設定」のようにする。また、意図推定部１０６は、単文２から抽出した主意図特徴量に単文位置情報「単文２」を追加して、「単文２＿目的地設定」のようにする。意図推定部１０６は、抽出した特徴量に関する情報を実行順序推定モデル生成部１１５Ｂに出力する。

　実行順序推定モデル生成部１１５Ｂは、特徴量と、主意図特徴量と、学習用データに含まれる実行順序とに基づいて、実行順序推定モデルを生成する（ステップＳＴ００６）。実行順序推定モデル生成部１１５Ｂは、学習用データに含まれる全ての文例に対して上記と同様の処理を行い、最終的に図１６に示すような実行順序推定モデルを生成する。

　図１９は実施の形態２に係る対話例を示す図である。図２０は実施の形態２に係る意図推定処理を説明するためのフローチャートである。

　図１９に示すように、音声認識装置１が「ピッと鳴ったらお話ください」と発話する（Ｓ１１）。それに対し、ユーザーが「先に○○へ寄って、△△へ行く。」と発話する（Ｕ２２）。

　まず、音声認識部１０２がユーザー入力に対して音声認識処理を行ってテキストデータに変換し、形態素解析部１０３がテキストデータに対して形態素解析処理を行う（ステップＳＴ０００１、ＳＴ０００２）。次に、構文解析部１０４がテキストデータに対して構文解析処理を行う（ステップＳＴ０００３）。ここで、ユーザー入力に関するテキストデータは、単文１（第１の単文）「先に○○へ寄って」と、単文２（第２の単文）「△△へ行く」のように、複数の単文に分割される。構文解析部１０４は形態素解析された各単文のテキストデータを意図推定部１０６及び特徴量抽出部１０８へ出力し、ステップＳＴ０７以降の処理がなされることになる。ステップＳＴ０００５及びステップＳＴ０００６の処理については、実施の形態１における図１１の説明と同様のため省略する。

　意図推定部１０６は、意図推定モデルを利用し、単文１及び単文２に対して、それぞれ意図推定処理を実施する（ステップＳＴ０００７）。ここでの例では、意図推定部１０６は、単文１に対して「＜経由地設定＞[＜施設＞＝＜○○＞]」の意図を推定し、単文２に対して「＜目的地設定＞[＜施設＞＝＜△△＞]」の意図を推定する。

　特徴量抽出部１０８は、特徴量抽出ルールを用いて、単文１及び単文２に対して、それぞれ特徴量抽出処理を実施する（ステップＳＴ０００８）。ここでの例では、特徴量抽出部１０８は、単文１に対して、特徴量「単文１＿先に」、「単文１＿て」を抽出する。なお、単文２については抽出される特徴量はない。特徴量には単文位置情報も付与されている。特徴量抽出部１０８は、各単文に対して抽出した特徴量に関する情報を実行順序推定部１１０Ｂに出力する。

　実行順序推定部１１０Ｂは、意図推定部１０６により推定された各単文の意図から、主意図特徴量を抽出する（ステップＳＴ０００９）。例えば、実行順序推定部１１０Ｂは、単文１の意図「＜経由地設定＞[＜施設＞＝＜○○＞]」から主意図特徴量「単文１＿経由地設定」を抽出し、単文２の意図「＜目的地設定＞[＜施設＞＝＜△△＞]」から主意図特徴量「単文２＿目的地設定」を抽出する。主意図特徴量には単文位置情報も付与されている。なお、ここでは実行順序推定部１１０Ｂが、主意図特徴量の抽出処理を行うものとして説明したが、これに限らない。例えば、意図推定部１０６において主意図特徴量の抽出処理を行い、抽出した情報を実行順序推定部１１０Ｂに出力するようにしてもよい。

　実行順序推定部１１０Ｂは、特徴量抽出部１０８から出力された特徴量に関する情報と、抽出した主意図特徴量に関する情報とに基づいて、各単文の意図に対応する操作の実行順序を推定する（ステップＳＴ００１０）。実行順序推定部１１０Ｂは、実施の形態１と同様に、特徴量及び主意図特徴量と、実行順序推定モデルとを照らし合わせて、各実行順序に対する特徴量及び主意図特徴量のスコアを求める。そして、実行順序推定部１１０Ｂは、図１３に示す計算式を用いて、各実行順序における、特徴量及び主意図特徴量のスコアの積を求める。つまり、実行順序推定部１１０Ｂは、各単文に含まれる複数の特徴量のスコアと、主意図特徴量のスコアの積により得られた最終スコアに基づき、操作の実行順序を推定する。

　図２１は実施の形態２に係る各実行順序に対する最終スコアを示す図である。ここでの例では、実行順序「単文１優先」については、特徴量「単文１＿先に」のスコアは０．４５で、特徴量「単文1＿て」のスコアは０．２で、主意図特徴量「単文１＿経由地設定」のスコアは０．２で、主意図特徴量「単文２＿目的地設定」のスコアは０．１となるので、これらの積である最終スコアＳは１．８e－３と算出される。同様に、他の実行順序についても、それぞれ最終スコアが算出される。

　実行順序推定部１１０は、算出した推定対象となる各実行順序の最終スコアのうち、最もスコアが高い実行順序「単文２優先」を適切な実行順序として推定する。

　図２０に戻って、コマンド実行部１１１は、意図推定部１０６により推定された複数の単文に含まれるそれぞれの意図と、実行順序推定部１１０により推定された複数の単文の実行順序とに基づき、複数の単文それぞれに含まれる意図に対応する機械コマンドを実行する（ステップＳＴ００１１）。

　ここでの例では、意図推定部１０６により、単文１に対して「＜経由地設定＞[＜施設＞＝＜○○＞]」の意図を推定し、単文２に対して「＜目的地設定＞[＜施設＞＝＜△△＞]」の意図が推定される。また、実行順序推定部１１０により実行順序「単文２優先」が適切な実行順序として推定される。そのため、コマンド実行部１１１は、まず、単文２の意図「＜目的地設定＞[＜施設＞＝＜△△＞]」に対応する機械コマンド（△△の目的地設定操作）を実行し、その後、単文１の意図「＜経由地設定＞[＜施設＞＝＜○○＞]」に対応する機械コマンド（○○の経由地設定操作）を実行する。

　応答生成部１１２は、図１９のＳ０２に示すように、コマンド実行部１１１により実行された機械コマンドに対応する合成音「△△を目的地に設定します。○○を経由地に設定します。」を生成し、通知部１１３によりユーザーに当該合成音が通知される（ステップＳＴ００１２）。

　以上より、実施の形態２によれば、実行順序推定部１１０Ｂは、特徴量抽出部１０８により抽出された特徴量に加え、意図推定部１０６から得た主意図特徴量も用いて複数の単文それぞれに含まれる意図に対応する操作の実行順序を推定するので、実施の形態１と比較して、より正確にユーザーの意図を推定することが可能となる。

　例えば、上述したような「先に○○へ寄って、△△に行く。」のような発話がなされた場合、実施の形態１のように、実行順序推定部１１０が実行順序の決定に主意図特徴量を用いなければ、図２１において、特徴量は「単文１＿先に」、「単文１＿て」のみになるので、「単文１優先」の最終スコアが最も高い値となる。そうすると、単文１の意図「＜経由地設定＞[＜施設＞＝＜○○＞]」に対応する機械コマンド（○○の経由地設定操作）を実行し、その後、単文２の意図「＜目的地設定＞[＜施設＞＝＜△△＞]」に対応する機械コマンド（△△の目的地設定操作）を実行しようとする。

　しかしながら、通常、ナビゲーション装置では、目的地の設定操作を行ってからしか経由地の設定操作を行うことができないため、実施の形態１では、「先に○○へ寄って、△△に行く。」との発話に対し、適切に機械コマンドの実行ができず、結果として、ユーザーの意図を正確に推定できないことになってしまう。

　一方で、実行順序の推定に特徴量及び主意図特徴量を用いる実施の形態２においては、実行順序推定部１１０Ｂは、上述のように、主意図特徴量を加味して実行順序を「単文２優先」に決定するので、適切に機械コマンドを実行することができ、ユーザーの意図を正確に推定できる。

　なお、これまで説明した意図推定装置１、１Ｂの機能の一部は他の装置で実行されるようにしてもよい。例えば、一部の機能を、外部に設けられたサーバー等により実行するようにしてもよい。

１、１Ｂ　意図推定装置、１０１　音声入力部、１０２　音声認識部、１０３　形態素解析部、１０４　構文解析部、１０５　意図推定モデル記憶部、１０６　意図推定部、１０７　特徴量抽出ルール記憶部、１０８　特徴量抽出部、１０９、１０９Ｂ　実行順序推定モデル記憶部、１１０、１１０Ｂ　実行順序推定部、１１１　コマンド実行部、１１２　応答生成部、１１３　通知部、１１４　学習用データ記憶部、１１５、１１５Ｂ　実行順序推定モデル生成部、１５０　処理装置、１６０　記憶装置、１７０　入力装置、１８０　出力装置

Claims

　複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、
　前記形態素解析部による形態素解析された前記複文を構文解析して第１の単文と第２の単文とに分割する構文解析部と、
　前記第１の単文に含まれる第１の意図と、前記第２の単文に含まれる第２の意図とを推定する意図推定部と、
　前記第１の単文に含まれる操作の実行順序を示す形態素を第１の特徴量として抽出するとともに、前記第２の単文に含まれる操作の実行順序を示す形態素を第２の特徴量として抽出する特徴量抽出部と、
　前記特徴量抽出部により抽出された前記第１の特徴量と前記第２の特徴量とに基づき、前記第１の意図に対応する第１の操作と前記第２の意図に対応する第２の操作の実行順序を推定する実行順序推定部と、を備えることを特徴とする意図推定装置。
　前記第１の操作と前記第２の操作の実行順序の種別と、前記第１の特徴量と前記第２の特徴量を含む複数の特徴量のスコアとが対応付けて実行順序情報として記憶される実行順序情報記憶部を備え、
　前記実行順序推定部は、前記実行順序情報に含まれる前記複数の特徴量のスコアに基づき前記第１の操作と前記第２の操作の実行順序を推定することを特徴とする請求項１に記載の意図推定装置。
　前記実行順序推定部は、前記実行順序情報を用いて前記第１の特徴量のスコアと前記第２の特徴量のスコアとを求め、前記第１の特徴量のスコアと前記第２の特徴量のスコアとの積により得られた最終スコアに基づき前記第１の操作と前記第２の操作の実行順序を推定することを特徴とする請求項２に記載の意図推定装置。
　前記特徴量抽出部は、前記第１の単文中における形態素の位置及び前記形態素の品詞から前記第１の特徴量を抽出するとともに、前記第２の単文中における形態素の位置及び前記形態素の品詞から前記第２の特徴量を抽出することを特徴とする請求項１から３のいずれか１項に記載の意図推定装置。
　前記実行順序情報記憶部において、前記第１の操作と前記第２の操作の実行順序の種別には、前記第１の意図の分類または機能を示す第１の主意図特徴量と前記第２の意図の分類または機能を示す第２の主意図特徴量とを含む複数の主意図特徴量のスコアがさらに対応付けられており、
　前記実行順序推定部は、前記複数の特徴量のスコアと前記複数の主意図特徴量のスコアとに基づき、前記第１の操作と前記第２の操作の実行順序を推定することを特徴とする請求項２から４のいずれか１項に記載の意図推定装置。
　前記実行順序推定部は、前記第１の特徴量のスコア、前記第２の特徴量のスコア、前記第１の主意図特徴量のスコア、及び前記第２の主意図特徴量のスコアの積により得られた最終スコアに基づき、前記第１の操作と前記第２の操作の実行順序を推定することを特徴とする請求項５に記載の意図推定装置。
　複数の意図が含まれる音声の入力を受け付ける音声入力部と、
　前記音声入力部に入力された前記音声に対応する音声データを認識し、前記複数の意図が含まれる複文のテキストデータに変換する音声認識部を備えることを特徴とする請求項１から請求項６のいずれか１項に記載の意図推定装置。
　前記実行順序推定部により推定された実行順序に基づき、前記第１の操作と前記第２の操作を実行する操作実行部と、
　前記操作実行部により前記第１の操作と前記第２の操作とが実行されたことをユーザーに通知する通知部とを備えることを特徴とする請求項１から７のいずれか１項に記載の意図推定装置。
　複数の意図が含まれる複文を形態素解析するステップと、
　前記形態素解析された前記複文を構文解析して複数の単文に分割するステップと、
　前記複数の単文それぞれに含まれる意図を推定するステップと、
　前記複数の単文それぞれに含まれる、操作の実行順序を示す形態素を特徴量として抽出するステップと、
　前記複数の単文それぞれに含まれる特徴量に基づき、前記複数の単文それぞれに含まれる意図に対応する各操作の実行順序を推定するステップと、を有することを特徴とする意図推定方法。