JP2021086362A

JP2021086362A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2021086362A
Application number: JP2019214360A
Authority: JP
Inventors: 市村　由美; Yumi Ichimura; 由美市村; 健弘石井; Takehiro Ishii
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2021-06-03
Anticipated expiration: 2039-11-27
Also published as: WO2021107006A1; US20220270589A1; JP7475844B2; CN114746862A

Abstract

【課題】あらかじめ定義された項目名と一致する表現がない場合でも、項目値を設定するスロットを特定できるようにする。【解決手段】実施形態の情報処理装置は、第１のキーワードを第１の単語に分割し、文章を第２の単語に分割する分割部と、前記第１のキーワードの先頭の前記第１の単語と一致する前記第２の単語を先頭に含む単語列、及び、前記第１のキーワードの末尾の前記第１の単語と一致する前記第２の単語を末尾に含む単語列の少なくとも一方を、前記文章から抽出する抽出部と、前記単語列と前記第１のキーワードとの文字の類似性を示す文字類似度、及び、前記単語列の構成と前記第１のキーワードの構成との類似性を示す構成類似度の少なくとも一方に基づいて、第２のキーワードを検出する検出部と、を備える。【選択図】図１

Description

本発明の実施形態は情報処理装置、情報処理方法及びプログラムに関する。

例えば音声対話を利用して、音声認識された文章から項目値を検出し、フォームデータに含まれるスロット（項目欄）に項目値を入力する技術が従来から知られている。

特許第５７９６４９６号公報特開２０１８−４５４６０号公報特開平７−７３２００号公報特許第３３６１５６３号公報特開２００２−２６９１１５号公報

しかしながら、従来の技術では、あらかじめ定義された項目名と一致する表現がない場合、項目値を設定するスロットを特定することが難しかった。

実施形態の情報処理装置は、第１のキーワードを第１の単語に分割し、文章を第２の単語に分割する分割部と、前記第１のキーワードの先頭の前記第１の単語と一致する前記第２の単語を先頭に含む単語列、及び、前記第１のキーワードの末尾の前記第１の単語と一致する前記第２の単語を末尾に含む単語列の少なくとも一方を、前記文章から抽出する抽出部と、前記単語列と前記第１のキーワードとの文字の類似性を示す文字類似度、及び、前記単語列の構成と前記第１のキーワードの構成との類似性を示す構成類似度の少なくとも一方に基づいて、第２のキーワードを検出する検出部と、を備える。

図１は第１実施形態の情報処理装置の機能構成の例を示す図である。図２は第１実施形態の抽出部の動作例を示すフローチャートである。図３は第１実施形態の検出部の動作例を示すフローチャートである。図４は第１実施形態の検出部の処理結果の例を示す図である。図５は第２実施形態の情報処理装置の機能構成の例を示す図である。図６は第２実施形態の類語辞書の例を示す図である。図７は第２実施形態の抽出部の動作例を示すフローチャートである。図８は第３実施形態の情報処理装置の機能構成の例を示す図である。図９Ａは第３実施形態の項目名データベースの例１を示す図である。図９Ｂは第３実施形態の項目名データベースの例２を示す図である。図１０は第３実施形態の推定部の動作例を示すフローチャートである。図１１は第３実施形態の応答文テンプレートの例を示す図である。図１２は第３実施形態の通知部の動作例を示すフローチャートである。図１３は第１乃至第３実施形態の情報処理装置のハードウェア構成の例を示す図である。

以下に添付図面を参照して、情報処理装置、情報処理方法及びプログラムの実施形態を詳細に説明する。

（第１実施形態）
はじめに、音声対話を利用して、音声認識された文章から項目値を検出し、フォームデータに含まれるスロット（項目欄）に項目値を入力する場合の例について説明する。

例えば、音声対話を利用して、以下のような３つのスロットを持つフォームデータに項目値を入力することを考える。括弧の中はそれぞれの項目のデータ型を示している。
訪問先（会社名型）
訪問日（日付型）
次回訪問日（日付型）

音声入力する場合、システムに不慣れであれば、
ＳＹＳ：「商談レポートの入力を開始します。訪問先を入力してください。」
ＵＳＲ：「ＡＢＣ商事です。」
ＳＹＳ：「訪問日を入力してください。」
ＵＳＲ：「８月２１日です。」
ＳＹＳ：「次回訪問日を入力してください。」
ＵＳＲ：「９月１１日です。」
のように、システムのガイダンスに従って、１項目ずつ入力していくインタフェースが分かりやすい。この方法だと、システムがスロット（訪問先、訪問日又は次回訪問日）を指定しているので、ユーザ発話から項目名を特定する必要がない。

一方、使い慣れてくるとこのようなガイダンスは煩わしく、
ＳＹＳ：「商談レポートを入力してください。」
ＵＳＲ：「訪問した会社はＡＢＣ商事で、訪問した日は８月２１日、次の訪問日は９月１１日です。」
のように、複数のスロットをまとめて話して入力できる方が便利である。

もし、フォームデータが、同じデータ型のスロットを複数含んでいなければ、データ型を手がかりにして、スロットに項目値を入力することが可能である。例えば、フォームデータが「訪問先」及び「訪問日」の２つのスロットで構成されており、ユーザが「訪問した会社はＡＢＣ商事で、訪問した日は８月２１日です。」と発話したとする。例えば固有表現抽出技術を用いて「ＡＢＣ商事」は会社名型、「８月２１日」は日付型であることがわかる。そのため、会社名型である「ＡＢＣ商事」は訪問先スロット、日付型である「８月２１日」は訪問日スロットに入れるというように、項目名ではなくデータ型を手がかりにして、どのスロットに入れるべきか判断できる。

しかし、日付型として「訪問日」及び「次回訪問日」の２つのスロットがあったとすると、「８月２１日」を訪問日スロットに入れるべきか、次回訪問日スロットに入れるべきかをシステムが判断できない。このように、システムがスロットを指定していない場合、ユーザ発話から項目名を特定する必要があるケースが生じる。

このとき、「訪問先」、「訪問日」及び「次回訪問日」のように、スロット定義で指定された表現を使ってユーザが発話した場合は、項目名とスロットとの照合は容易である。しかし、「訪問した会社」、「訪問した日」及び「次の訪問日」のように、スロット定義で指定されていない表現を使ってユーザが発話した場合は、スロットを特定するのが困難になる。

一般に、スロット定義はレポートのフォームを作成する管理者が行うもので、ユーザはどのような表現で項目名がスロットに定義されているかまで把握していない。また、スロット定義の際は、書き言葉である漢語的な表現が使われやすく、発話の際は、話し言葉である口語的な表現が使われやすい。したがって、発話中の項目名との不一致は頻繁に起こりうるものである。

このような課題に対して、管理者がスロットを定義する際に、項目名の言い換え表現を登録する方法が考えられる。しかし、「次回訪問日」に対して「次の訪問日」、「次に訪問する日」、「次回の訪問予定日」又は「次に訪問予定の日」と言い換えるかもしれないなどと、様々なユーザがどんな言い方をするかを想定して漏れなくリストアップすることは不可能である。

また、シソーラスを用いる方法や、インターネット上の大量の言語資源から統計的処理に基づき類似表現を得る方法も考えられる。しかし、そのような汎用なデータから、目的に応じて定義されるフォームデータに必要な言い換え表現が得られるとは限らない。

以下、発話中にあらかじめ定義した項目名と一致する表現がない場合でも、項目名の言い換え表現を準備することなく、発話から類似の表現を検出してスロットを特定可能にする第１実施形態の検出装置について説明する。

以下、図面を参照しながら説明する。

［機能構成の例］
図１は第１実施形態の情報処理装置１０の機能構成の例を示す図である。第１実施形態の情報処理装置１０は、分割部１０１、抽出部１０２及び検出部１０３を備える。

なお、第１実施形態の情報処理装置１０は、例えば、メモリ、磁気ディスク及び光ディスク等の記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されるコンピュータによって実現される。

分割部１０１は、第１のキーワード及び文章を受け付ける。第１のキーワードは、例えば外回り営業や保守・点検業務の報告等に使用されるフォームデータに含まれるスロット（項目欄）の名称（項目名）を示す。文章は、例えばユーザの発話を音声認識することによって取得される。なお、音声認識は、情報処理装置１０で行われてもよい。例えば、分割部１０１で音声認識が行われる場合、分割部１０１はユーザの発話を受け付け、当該発話から文章を認識する。

分割部１０１は、第１のキーワードを第１の単語に分割し、文章を第２の単語に分割する。

例えば、第１のキーワードが、「訪問日」であり、文章が、「訪問した日は８月２１日です。」の場合、第１の単語は、「訪問」及び「日」である。また、第２の単語は、「訪問」、「し」、「た」、「日」、「は」、「８」、「月」、「２１」、「日」「です」及び「。」である。

単語への分割は、例えば形態素解析により実現できるが、必ずしも形態素単位に分割する必要はない。例えば、分割部１０１は、第１のキーワード及び文章をＮ文字ごとに分割したり、文字種や特定記号を区切りとして分割したりしてもよい。

抽出部１０２は、第１のキーワードの先頭の第１の単語と一致する第２の単語を先頭に含む単語列、及び、第１のキーワードの末尾の第１の単語と一致する第２の単語を末尾に含む単語列の少なくとも一方を、文章から抽出する。

例えば、第１のキーワードが、「訪問日」であり、文章が、「訪問した日は８月２１日です。」の場合、第１のキーワードの先頭の第１の単語と一致する第２の単語を先頭に含む単語列は、「訪問」、「訪問し」、「訪問した」及び「訪問した日」等であり、第１のキーワードの末尾の第１の単語と一致する第２の単語を末尾に含む単語列は、「日」、「た日」、「した日」及び「訪問した日」等である。

第１のキーワードの先頭単語や末尾単語に注目することにより、第１のキーワードに類似しそうな文字列に限定できるので、文字列の組み合わせ数を抑えることができる。抽出部１０２の処理の詳細については後述する。

検出部１０３は、抽出された単語列と第１のキーワードとの文字の類似性を示す文字類似度、及び、抽出された単語列の構成と第１のキーワードの構成との類似性を示す構成類似度の少なくとも一方に基づいて、第２のキーワードを検出する。文字の類似性だけでなく、構成の類似性も考慮することにより、第２のキーワードとして、より適切なキーワードを検出することができる。検出部１０３の処理の詳細については後述する。

［抽出部の動作例］
図２は第１実施形態の抽出部１０２の動作例を示すフローチャートである。はじめに、抽出部１０２が、分割部１０１から、第１の単語に分割された第１のキーワード、及び、第２の単語に分割された文章を受け付ける（ステップＳ２０１）。

次に、抽出部１０２は、抽出される単語列の最大単語数を変数ＭＡＸにセットする（ステップＳ２０２）。

次に、抽出部１０２は、上述の第１のキーワードの先頭の第１の単語を変数Ｓ＿ＷＯＲＤにセットする（ステップＳ２０３）。

次に、抽出部１０２は、変数Ｓ＿ＷＯＲＤに一致する第２の単語の位置を変数Ｓにセットする（ステップＳ２０４）。

次に、抽出部１０２は、変数ｉに初期値０をセットする（ステップＳ２０５）。次に、抽出部１０２は、ｉ＜ＭＡＸであるか否かを判定する（ステップＳ２０６）。

ｉ＜ＭＡＸである場合（ステップＳ２０６，Ｙｅｓ）、抽出部１０２は、文章中のＳ番目から（Ｓ＋ｉ）番目までの単語列を取得する（ステップＳ２０７）。次に、抽出部１０２は、ｉを１インクリメントし（ステップＳ２０８）、ステップＳ２０６の処理に戻る。

ｉ＜ＭＡＸでない場合（ステップＳ２０６，Ｎｏ）、処理はステップＳ２０９に進む。

次に、抽出部１０２は、上述の第１のキーワードの末尾の第１の単語を変数Ｅ＿ＷＯＲＤにセットする（ステップＳ２０９）。

次に、抽出部１０２は、変数Ｅ＿ＷＯＲＤに一致する第２の単語の位置を変数Ｅにセットする（ステップＳ２１０）。

次に、抽出部１０２は、変数ｉに初期値０をセットする（ステップＳ２１１）。次に、抽出部１０２は、ｉ＜ＭＡＸであるか否かを判定する（ステップＳ２１２）。

ｉ＜ＭＡＸである場合（ステップＳ２１２，Ｙｅｓ）、抽出部１０２は、文章中の（Ｅ−ｉ）番目からＥ番目までの単語列を取得する（ステップＳ２１３）。次に、抽出部１０２は、ｉを１インクリメントし（ステップＳ２１４）、ステップＳ２１２の処理に戻る。

ｉ＜ＭＡＸでない場合（ステップＳ２１２，Ｎｏ）、処理を終了する。

なお、上述のステップＳ２０４において、文章中でＳ＿ＷＯＲＤに一致する第２の単語が複数個存在する場合は、すべての位置を変数Ｓにセットし、それぞれのＳに対してステップＳ２０５からステップＳ２０８までの処理を繰り返す。

同様に、ステップＳ２１０において、文章中でＥ＿ＷＯＲＤに一致する第２の単語が複数個存在する場合は、すべての位置を変数Ｅにセットし、それぞれのＥに対してステップＳ２１１からステップＳ２１４までの処理を繰り返す。

＜抽出処理の具体例＞
例えば、抽出部１０２が、つぎの文章及び第１のキーワードを、分割部１０１から受け付けたとする。なお／は、文章の分割例を示す。
文章：「訪問／し／た／日／は／８／月／２１／日／です／。」
第１のキーワード：「訪問／日」

取得される単語列の最大単語数を７と指定すると（ＭＡＸ＝７）、抽出部１０２の処理により、つぎの１１個の単語列が得られる。
「訪問」
「訪問し」
「訪問した」
「訪問した日」
「訪問した日は」
「訪問した日は８」
「訪問した日は８月」
「日」
「た日」
「した日」
「訪問した日」

［検出部の動作例］
図３は第１実施形態の検出部１０３の動作例を示すフローチャートである。はじめに、検出部１０３が、抽出部１０２から、第１のキーワード及び単語列を受け付ける（ステップＳ３０１）。

次に、検出部１０３は、ステップＳ３０１で複数の単語列を受け付けた場合は、重複する単語列を削除した後、単語列の数を変数Ｎにセットする（ステップＳ３０２）。次に、検出部１０３は、変数ｉに初期値１をセットする（ステップＳ３０３）。

次に、検出部１０３は、ｉ≦Ｎであるか否かを判定する（ステップＳ３０４）。ｉ≦Ｎである場合（ステップＳ３０４，Ｙｅｓ）、検出部１０３は、ｉ番目の単語列と、第１のキーワードとの文字類似度を計算する（ステップＳ３０５）。

文字類似度は、文字の類似性を示す。文字類似度は、例えば、コサイン類似度やレーベンシュタイン距離を利用して求めることができる。ただし、類似度は値が大きいほど類似性が高いことを意味する。なお、距離は値が大きいほど類似性が低いことを意味することから、距離を利用する場合はその逆数を用いる、又は、０〜１の間に収まるように標準化して１から減算するなどして、値が大きいほど類似性が高いことを意味する数値に変換して利用する。

次に、検出部１０３は、ｉ番目の単語列の構成と、第１のキーワードの構成との類似性を示す構成類似度を計算する（ステップＳ３０６）。

構成類似度は、例えば、単語列に含まれる第２の単語のうち、第１の単語と一致する第２の単語の数に基づいて定められる。例えば、「訪問し」という単語列は、第１のキーワードを構成する第１の単語と一致する第２の単語「訪問」を含むことから、構成類似度は１になる。同様に「訪問した日は」という文字列は、第１のキーワードを構成する第１の単語と一致する第２の単語「訪問」及び「日」を含むことから、構成類似度は２になる。

次に、検出部１０３は、文字類似度及び構成類似度の少なくとも一方に基づいて、ｉ番目の単語列の総合類似度を計算する（ステップＳ３０７）。

総合類似度は、例えば、つぎの式（１）で求めることができる。総合類似度をＳｉｍ、文字類似度をＳｉｍ＿ｃｈｒ、構成類似度をＳｉｍ＿ｃｏｍとし、αとβは、０≦α≦１、０≦β≦１を満たす係数とする。
Ｓｉｍ＝α×Ｓｉｍ＿ｃｈｒ＋ β×Ｓｉｍ＿ｃｏｍ・・・（１）

次に、検出部１０３は、ｉを１インクリメントし（ステップＳ３０８）、ステップＳ３０４の処理に戻る。

ｉ≦Ｎでない場合（ステップＳ３０４，Ｎｏ）、検出部１０３は、総合類似度に基づいて第２のキーワードを検出する（ステップＳ３０９）。

図４は第１実施形態の検出部１０３の処理結果の例を示す図である。図４の例では、総合類似度は式（１）において、α＝１、β＝１として算出した値になっている。この例では、「訪問した日」という単語列の総合類似度が２．７５と最も高い。この場合、検出部１０３は、例えば「訪問した日」という単語列を第２のキーワードとして検出する。

以上、説明したように、第１実施形態の情報処理装置１０では、分割部１０１が、第１のキーワードを第１の単語に分割し、文章を第２の単語に分割する。抽出部１０２が、第１のキーワードの先頭の第１の単語と一致する第２の単語を先頭に含む単語列、及び、第１のキーワードの末尾の第１の単語と一致する第２の単語を末尾に含む単語列の少なくとも一方を、文章から抽出する。そして、検出部１０３が、単語列と第１のキーワードとの文字の類似性を示す文字類似度、及び、単語列の構成と第１のキーワードの構成との類似性を示す構成類似度の少なくとも一方に基づいて、第２のキーワードを検出する。

これにより第１実施形態の情報処理装置１０によれば、あらかじめ定義された項目名と一致する表現がない場合でも、項目値を設定するスロットを特定することができる。例えば、項目名の言い換え表現を準備することなく、発話から類似の表現を検出してスロットを特定することができる。

（第２実施形態）
次に第２実施形態について説明する。第２実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。

［機能構成の例］
図５は第２実施形態の情報処理装置１０−２の機能構成の例を示す図である。第２実施形態の情報処理装置１０−２は、分割部１０１、抽出部１０２−２、検出部１０３、記憶部１０４及び検索部１０５を備える。

図５において、図１と同一部分には同一符号を付与し、異なる部分について説明する。図５では、記憶部１０４及び検索部１０５を新たに備え、抽出部１０２に代わって抽出部１０２−２を備えている。

記憶部１０４は、類語辞書を記憶する。類語辞書は、ユーザ毎、フォームデータ（レポート）毎に用意されていてもよい。

図６は第２実施形態の類語辞書の例を示す図である。第１の単語に類似する類語がある場合には、例えば図６のように、第１の単語毎に類語が登録される。

検索部１０５は、類語辞書を用いて、第１の単語に類似する類語を検索する。検索部１０５は、例えば第１のキーワードの先頭の第１の単語に類似する類語、及び、第１のキーワードの末尾の第１の単語に類似する類語を検索する。例えば、第１のキーワードが「訪問日」である場合、先頭の第１の単語「訪問」の類語として「訪れる」「訪ねる」「訪う」が検索され、末尾の第１の単語「日」の類語として「日付」「日にち」「日時」が検索される。

抽出部１０２−２は、第１のキーワードの先頭の第１の単語に類似する類語と一致する第２の単語を先頭に含む単語列、及び、第１のキーワードの末尾の前記第１の単語に類似する類語と一致する前記第２の単語を末尾に含む単語列の少なくとも一方を、文章から更に抽出する。

［抽出部の動作例］
図７は第２実施形態の抽出部１０２−２の動作例を示すフローチャートである。はじめに、抽出部１０２が、分割部１０１から、第１の単語に分割された第１のキーワード、及び、第２の単語に分割された文章を受け付け、検索部１０５から、類語辞書検索結果を受け付ける（ステップＳ４０１）。

図７の例では、類語辞書検索結果は、第１のキーワードの先頭の第１の単語に類似する類語、及び、第１のキーワードの末尾の第１の単語に類似する類語を含む。

次に、抽出部１０２−２は、抽出される単語列の最大単語数を変数ＭＡＸにセットする（ステップＳ４０２）。

次に、抽出部１０２−２は、上述の第１のキーワードの先頭の第１の単語、及び、当該第１の単語の類語を変数Ｓ＿ＷＯＲＤＳにセットする（ステップＳ４０３）。

次に、抽出部１０２−２は、Ｓ＿ＷＯＲＤＳにセットされた単語（第１の単語、及び、第１の単語の類語）の数を変数Ｎにセットする（ステップＳ４０４）。

次に、抽出部１０２−２は、変数ｊに初期値１をセットする（ステップＳ４０５）。次に、抽出部１０２−２は、ｊ≦Ｎであるか否かを判定する（ステップＳ４０６）。

ｊ≦Ｎである場合（ステップＳ４０６，Ｙｅｓ）、抽出部１０２−２は、Ｓ＿ＷＯＲＤＳにセットされたｊ番目の単語に一致する第２の単語の位置を変数Ｓにセットする（ステップＳ４０７）。

ステップＳ４０８〜ステップＳ４１１は、第１実施形態のステップＳ２０５〜ステップＳ２０８の処理（図２参照）と同様なので説明を省略する。

ｉ＜ＭＡＸでない場合（ステップＳ４０９，Ｎｏ）、抽出部１０２−２は、ｊを１インクリメントし（ステップＳ４１２）、ステップＳ４０６の処理に戻る。

ｊ≦Ｎでない場合（ステップＳ４０６，Ｎｏ）、抽出部１０２−２は、上述の第１のキーワードの末尾の第１の単語、及び、当該第１の単語の類語を変数Ｅ＿ＷＯＲＤＳにセットする（ステップＳ４１３）。

次に、抽出部１０２−２は、Ｅ＿ＷＯＲＤＳにセットされた単語（第１の単語、及び、第１の単語の類語）の数を変数Ｎにセットする（ステップＳ４１４）。

次に、抽出部１０２−２は、変数ｊに初期値１をセットする（ステップＳ４１５）。次に、抽出部１０２−２は、ｊ≦Ｎであるか否かを判定する（ステップＳ４１６）。

ｊ≦Ｎである場合（ステップＳ４１６，Ｙｅｓ）、抽出部１０２−２は、Ｓ＿ＷＯＲＤＳにセットされたｊ番目の単語に一致する第２の単語の位置を変数Ｅにセットする（ステップＳ４１７）。

ステップＳ４１８〜ステップＳ４２１は、第１実施形態のステップＳ２１１〜ステップＳ２１４の処理（図２参照）と同様なので説明を省略する。

ｉ＜ＭＡＸでない場合（ステップＳ４１９，Ｎｏ）、抽出部１０２−２は、ｊを１インクリメントし（ステップＳ４２２）、ステップＳ４１６の処理に戻る。

ｊ≦Ｎでない場合（ステップＳ４１６，Ｎｏ）、処理を終了する。

なお、抽出部１０２−２は、ステップＳ４０７及びステップＳ４１７で一致する単語を探す際、活用する単語の場合は、原形同士を比較する。

＜抽出処理の具体例＞
例えば、抽出部１０２が、つぎの文章及び第１のキーワードを、分割部１０１から受け付けたとする。なお／は、文章の分割例を示す。
文章：「訪れ／た／日にち／は／８／月／２１／日／です／。」
第１のキーワード：「訪問／日」
文章は、第１のキーワードの先頭単語「訪問」も末尾単語「日」も含まない。しかし、それぞれの類語である「訪れる」及び「日にち」を含むので、抽出部１０２−２の処理により、「訪れた日にち」という単語列が検出される。この抽出結果を利用すると、検出部１０３の処理により、「訪れた日にち」が第２のキーワードとして検出される。

第２実施形態の情報処理装置１０−２によれば、類語辞書を用いることにより、あらかじめ定義された項目名と一致する表現がない場合でも、項目値を設定するスロットを特定する処理の性能を更に向上させることができる。

（第３実施形態）
次に第３実施形態について説明する。第３実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。

［機能構成の例］
図８は第３実施形態の情報処理装置１０−３の機能構成の例を示す図である。第３実施形態の情報処理装置１０−３は、分割部１０１、抽出部１０２、検出部１０３、項目名データベース１０６、推定部１０７、通知部１０８及び登録部１０９を備える。

図８において、図１と同一部分には同一符号を付与し、異なる部分について説明する。図８では、項目名データベース１０６、推定部１０７、通知部１０８及び登録部１０９を新たに備えている。分割部１０１、抽出部１０２及び抽出部１０３は、推定部１０７のサブプロセスとして動作する。第３実施形態における入力は文章のみであり、項目名データベース１０６に登録されている全項目名が図１における第１のキーワードに相当する。

項目名データベース１０６は、項目名と、項目名の言い換え表現とを関連付けて記憶する。項目名データベース１０６は、ユーザ毎、フォームデータ（レポート）毎に用意されていてもよい。

＜項目名データベースの例＞
図９Ａは第３実施形態の項目名データベースの例１を示す図である。図９Ｂは第３実施形態の項目名データベースの例２を示す図である。項目名データベース１０６は、項目名、データ型及び言い換え表現を含む。項目名は、フォームデータに含まれる項目名を示す。データ型は、項目名により識別されるスロット（項目欄）に入力されるデータのデータ型を示す。言い換え表現は、項目名の言い換え表現を示す。項目名とデータ型は必須であり、言い換え表現は空欄（図９Ａ）でもよい。

図８に戻り、説明を続ける。推定部１０７は、分割部１０１、抽出部１０２及び検出部１０３を、例えばサブプロセスとして起動して、項目名データベース１０６に格納される項目名に対応する第２のキーワードを文章から検出し、項目名を推定する。推定部１０７の処理の詳細については後述する。

通知部１０８は、推定部１０７の処理結果をユーザに通知する。通知部１０８の処理の詳細については後述する。

登録部１０９は、推定部１０７及び通知部１０８の処理結果に基づき、検出された第２のキーワードを項目名データベース１０６に登録する。キーワード登録部１０９の処理の詳細については後述する。

［推定部の動作例］
図１０は第３実施形態の推定部１０７の動作例を示すフローチャートである。はじめに、推定部１０７が、文章を受け付け、項目名データベース１０６から項目名と言い換え表現とを読み出す（ステップＳ５０１）。推定部１０７は、例えばユーザの発話から音声認識された文章を受け付ける。

次に、推定部１０７は、項目名の数を変数Ｎにセットする（ステップＳ５０２）。次に、推定部１０７は、変数ｉに初期値１をセットする（ステップＳ５０３）。

次に、推定部１０７は、ｉ≦Ｎであるか否かを判定する（ステップＳ５０４）。

ｉ≦Ｎである場合（ステップＳ５０４，Ｙｅｓ）、推定部１０７は、ｉ番目の項目名を変数ＳＬＯＴＮＡＭＥにセットする（ステップＳ５０５）。

次に、推定部１０７は、ｉ番目の項目名について、文章中に項目名又はその言い換え表現に一致する箇所（第２の単語）があるか否かを判定する（ステップＳ５０６）。

一致する箇所がある場合（ステップＳ５０６，Ｙｅｓ）、推定部１０７は、応答文テンプレートのテンプレート名にｄｅｔｅｒｍｉｎｅｄをセットし、ステップＳ５１４に進む。

ここで、応答文テンプレートについて説明する。

＜応答文テンプレートの例＞
図１１は第３実施形態の応答文テンプレートの例を示す図である。応答文テンプレートは、テンプレート名及び応答文を含む。応答文の＄と＄で囲まれた文字列は、推定部１０７によりセットされる変数を示す。例えば、ＳＥＣＯＮＤＫＥＹに「訪問した日」、ＳＬＯＴＮＡＭＥに「訪問日」がセットされていると、テンプレート名「ｃｏｎｆｉｒｍ」の応答文は、「訪問した日とは訪問日のことでしょうか？」となる。

図１０に戻り、推定部１０７の処理動作の説明を続ける。

一致する箇所がない場合（ステップＳ５０６，Ｎｏ）、推定部１０７は、分割部１０１、抽出部１０２及び検出部１０３を起動し、ｉ番目の項目名に対応する第２のキーワードを検出する（ステップＳ５０９）。

次に、推定部１０７は、ｉ番目の項目名について、文章中から第２のキーワードが検出されたか否かを判定する（ステップＳ５１０）。

第２のキーワードが検出された場合（ステップＳ５１０，Ｙｅｓ）、推定部１０７は、第２のキーワードを変数ＳＥＣＯＮＤＫＥＹにセットする（ステップＳ５１２）。次に、推定部１０７は、応答文テンプレートのテンプレート名にｃｏｎｆｉｒｍをセットし（ステップＳ５１３）、ステップＳ５１４に進む。

第２のキーワードが検出されなかった場合（ステップＳ５１０，Ｎｏ）、推定部１０７は、ｉを１インクリメントし（ステップＳ５１１）、ステップＳ５０４の処理に戻る。

ｉ≦Ｎでない場合（ステップＳ５０４，Ｎｏ）、推定部１０７は、応答文テンプレートのテンプレート名にｓｔａｒｔをセットし（ステップＳ５０８）、ステップＳ５１４に進む。

ステップＳ５１４の処理に進んだ場合、推定部１０７は、テンプレート名、ＳＬＯＴＮＡＭＥ、ＳＥＣＯＮＤＫＥＹを渡して、通知部１０８を起動する。

［通知部の動作例］
図１２は第３実施形態の通知部１０８の動作例を示すフローチャートである。はじめに、通知部１０８が、上述のステップＳ５１４の推定部１０７の処理で指定されたテンプレート名で応答文を生成し、当該応答文をユーザに提示する（ステップＳ６０１）。

次に、通知部１０８は、テンプレート名がｃｏｎｆｉｒｍか否かを判定する（ステップＳ６０２）。

テンプレート名がｃｏｎｆｉｒｍである場合（ステップＳ６０２，Ｙｅｓ）、通知部１０８は、ユーザからの応答を受け付ける（ステップＳ６０３）。

次に、通知部１０８は、ユーザからの応答が肯定的であるか否かを判定する（ステップＳ６０４）。肯定的であるかどうかの判定は、例えば、ユーザの発話に「はい」「いいえ」のような特定のキーワードが含まれるかどうかで判定される。また例えば、肯定的であるかどうかの判定は、「ＯＫ」「ＮＧ」ボタンのようなユーザインタフェースで選択してもらうなどで実現できる。

応答が肯定的である場合（ステップＳ６０４，Ｙｅｓ）、通知部１０８は、テンプレート名にｄｅｔｅｒｍｉｎｅｄをセットし、ステップＳ６０１に戻る（ステップＳ６０５）。応答が肯定的でない場合（ステップＳ６０４，Ｎｏ）、通知部１０８は、テンプレート名にｎｏｔ＿ｄｅｔｅｒｍｉｎｅｄをセットし、ステップＳ６０１に戻る（ステップＳ６０６）。

テンプレート名がｃｏｎｆｉｒｍでない場合（ステップＳ６０２，Ｎｏ）、通知部１０８は、テンプレート名がｄｅｔｅｒｍｉｎｅｄであるか否かを判定する（ステップＳ６０７）。

テンプレート名がｄｅｔｅｒｍｉｎｅｄである場合（ステップＳ６０７，Ｙｅｓ）、通知部１０８は、登録部１０９を起動する（ステップＳ６０８）。テンプレート名がｄｅｔｅｒｍｉｎｅｄでない場合（ステップＳ６０７，Ｎｏ）、処理は終了する。

＜通知処理の具体例＞
例えば、項目名データベース１０６に図９Ａのような情報が格納されているときに、つぎの文章が、情報処理装置１０−３の入力として与えられたとする。なお／は、文章の分割例を示す。
文章：「訪問／し／た／日／は／８／月／２１／日／です／。」

文章中には「訪問先」、「訪問日」及び「次回訪問日」のいずれの項目名とも一致する箇所（第２の単語）はない。分割部１０１、抽出部１０２及び検出部１０３の処理により、項目名「訪問日」に対応する第２のキーワード「訪問した日」が検出される。推定部１０７の処理により、
ＳＬＯＴＮＡＭＥ＝訪問日
ＳＥＣＯＮＤＫＥＹ＝訪問した日
テンプレート名＝ｃｏｎｆｉｒｍ
がセットされて、通知部１０８が起動される。
通知部１０８の処理により、
「訪問した日とは訪問日のことでしょうか？」
という応答文が生成されて、ユーザに提示される。

通知部１０８は、ユーザから「はい」等の肯定的な応答を受け付けると、
テンプレート名＝ｄｅｔｅｒｍｉｎｅｄ
をセットし、「訪問日に入力します。」という応答文をユーザに提示する。

さらに、登録部１０９の処理により、項目名「訪問日」の言い換え表現として「訪問した日」が項目名データベース１０６に登録される。その結果、項目名データベース１０６は図９Ｂのように更新される。

なお、通知部１０８は、第２のキーワード「訪問した日」を項目名「訪問日」の言い換え表現として登録するか否かを事前にユーザに確認してから、登録部１０９の処理の実行有無を決定してもよい。

一方、通知部１０８は、ユーザから「いいえ」等の肯定的でない応答を受け付けると、
テンプレート名＝ｎｏｔ＿ｄｅｔｅｒｍｉｎｅｄ
をセットし、「もういちど訪問日を入力してください。」等、項目名を特定できないことを通知する応答文をユーザに提示する。

第３実施形態の情報処理装置１０−３によれば、第１実施形態の情報処理装置１０の機能を用いて、項目名データベース１０６の言い換え表現をより適切に更新することができる。

最後に、第１乃至第３実施形態の情報処理装置１０〜１０−３のハードウェア構成の例について説明する。

［ハードウェア構成の例］
図１３は第１乃至第３実施形態の情報処理装置１０〜１０−３のハードウェア構成の例を示す図である。情報処理装置１０〜１０−３のハードウェア構成は同様なので、情報処理装置１０について説明する。

情報処理装置１０は、制御装置３０１、主記憶装置３０２、補助記憶装置３０３、表示装置３０４、入力装置３０５及び通信装置３０６を備える。制御装置３０１、主記憶装置３０２、補助記憶装置３０３、表示装置３０４、入力装置３０５及び通信装置３０６は、バス３１０を介して接続されている。

制御装置３０１は、補助記憶装置３０３から主記憶装置３０２に読み出されたプログラムを実行する。主記憶装置３０２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及び、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリである。補助記憶装置３０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、及び、メモリカード等である。

表示装置３０４は表示情報を表示する。表示装置３０４は、例えば液晶ディスプレイ等である。入力装置３０５は、コンピュータを操作するためのインタフェースである。入力装置３０５は、例えばキーボードやマウス等である。コンピュータがスマートフォン及びタブレット型端末等のスマートデバイスの場合、表示装置３０４及び入力装置３０５は、例えばタッチパネルである。通信装置３０６は、他の装置と通信するためのインタフェースである。

コンピュータで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、メモリカード、ＣＤ−Ｒ及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。

またコンピュータで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。またコンピュータで実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

またコンピュータで実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

コンピュータで実行されるプログラムは、上述の情報処理装置１０の機能構成（機能ブロック）のうち、プログラムによっても実現可能な機能ブロックを含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、制御装置３０１が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置３０２上にロードされる。すなわち上記各機能ブロックは主記憶装置３０２上に生成される。

なお上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェアにより実現してもよい。

また複数のプロセッサを用いて各機能を実現する場合、各プロセッサは、各機能のうち１つを実現してもよいし、各機能のうち２つ以上を実現してもよい。

また情報処理装置１０を実現するコンピュータの動作形態は任意でよい。例えば、情報処理装置１０を１台のコンピュータにより実現してもよい。また例えば、情報処理装置１０を、ネットワーク上のクラウドシステムとして動作させてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０情報処理装置
１０１分割部
１０２抽出部
１０３検出部
１０４記憶部
１０５検索部
１０６項目名データベース
１０７推定部
１０８通知部
１０９登録部
３０１制御装置
３０２主記憶装置
３０３補助記憶装置
３０４表示装置
３０５入力装置
３０６通信装置

Claims

第１のキーワードを第１の単語に分割し、文章を第２の単語に分割する分割部と、
前記第１のキーワードの先頭の前記第１の単語と一致する前記第２の単語を先頭に含む単語列、及び、前記第１のキーワードの末尾の前記第１の単語と一致する前記第２の単語を末尾に含む単語列の少なくとも一方を、前記文章から抽出する抽出部と、
前記単語列と前記第１のキーワードとの文字の類似性を示す文字類似度、及び、前記単語列の構成と前記第１のキーワードの構成との類似性を示す構成類似度の少なくとも一方に基づいて、第２のキーワードを検出する検出部と、
を備える情報処理装置。
類語辞書を用いて、前記第１の単語に類似する類語を検索する検索部を更に備え、
前記抽出部は、前記第１のキーワードの先頭の前記第１の単語に類似する類語と一致する前記第２の単語を先頭に含む単語列、及び、前記第１のキーワードの末尾の前記第１の単語に類似する類語と一致する前記第２の単語を末尾に含む単語列の少なくとも一方を、前記文章から更に抽出する、
請求項１に記載の情報処理装置。
前記文章は、ユーザの発話から音声認識され、
前記第１のキーワードは、フォームデータに含まれる項目名を示し、
前記第２のキーワードから前記項目名を推定する推定部、
を更に備える請求項１に記載の情報処理装置。
前記項目名と、前記項目名の言い換え表現とを関連付けて記憶する記憶部と、
前記第２のキーワードを、前記言い換え表現として前記記憶部に登録する登録部と、
を更に備える請求項３に記載の情報処理装置。
前記第２のキーワードが前記項目名に対応するか否かを前記ユーザに確認し、前記第２のキーワードが前記項目名に対応しない場合、前記項目名を特定できないことを通知する通知部、
を更に備える請求項４に記載の情報処理装置。
前記第２のキーワードを前記言い換え表現として登録するか否かを前記ユーザに確認し、前記第２のキーワードを前記言い換え表現として登録する場合、前記第２のキーワードの登録を前記登録部に依頼する通知部、
を更に備える請求項４に記載の情報処理装置。
前記文字類似度は、コサイン類似度及びレーベンシュタイン距離の少なくとも一方に基づいて定められる、
請求項１に記載の情報処理装置。
前記構成類似度は、前記単語列に含まれる前記第２の単語のうち、前記第１の単語と一致する前記第２の単語の数に基づいて定められる、
請求項１に記載の情報処理装置。
情報処理装置が、第１のキーワードを第１の単語に分割し、文章を第２の単語に分割するステップと、
前記情報処理装置が、前記第１のキーワードの先頭の前記第１の単語と一致する前記第２の単語を先頭に含む単語列、及び、前記第１のキーワードの末尾の前記第１の単語と一致する前記第２の単語を末尾に含む単語列の少なくとも一方を、前記文章から抽出するステップと、
前記情報処理装置が、前記単語列と前記第１のキーワードとの文字の類似性を示す文字類似度、及び、前記単語列の構成と前記第１のキーワードの構成との類似性を示す構成類似度の少なくとも一方に基づいて、第２のキーワードを検出するステップと、
を含む情報処理方法。
コンピュータを、
第１のキーワードを第１の単語に分割し、文章を第２の単語に分割する分割部と、
前記第１のキーワードの先頭の前記第１の単語と一致する前記第２の単語を先頭に含む単語列、及び、前記第１のキーワードの末尾の前記第１の単語と一致する前記第２の単語を末尾に含む単語列の少なくとも一方を、前記文章から抽出する抽出部と、
前記単語列と前記第１のキーワードとの文字の類似性を示す文字類似度、及び、前記単語列の構成と前記第１のキーワードの構成との類似性を示す構成類似度の少なくとも一方に基づいて、第２のキーワードを検出する検出部、
として機能させるためのプログラム。