JP7047380B2

JP7047380B2 - 生成プログラム、生成方法及び情報処理装置

Info

Publication number: JP7047380B2
Application number: JP2017254324A
Authority: JP
Inventors: 貢大瀧
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2022-04-05
Anticipated expiration: 2037-12-28
Also published as: JP2019121060A; US20190205388A1

Description

本発明は、生成プログラム、生成方法及び情報処理装置に関する。

質問者の質問に対して回答者が回答を行う作業において、回答者が、少ない専門知識や労力でも、質問者を適切な回答に導く作業を効率よく行えるようにする技術が知られている。例えば、入力した検索条件を形態素解析して単語を抽出し、単語に対する語幹と検索条件式から初期検索条件式を生成する文書検索装置が知られている。当該装置は、検索条件式から抽出した単語の形態素解析結果を用いて、該単語に対する変化形と検索条件式から絞込検索条件式を生成し、初期検索条件式に対して文書ＤＢの１次検索を行って中間結果を作成する。当該装置は、中間結果の文書に対して絞込検索条件式を適用して全文検索を行う。

また、ユーザによって指定された検索文に基づき全文検索を行い、検索結果として得られた各文書から有効単語を抽出し、抽出された有効単語を用いて検索結果文書の信頼度を決定し、信頼度に基づいて検索結果を提示する装置も知られている。さらに、検索基準画像データに係る類似画像を、メタデータを利用したキーワード検索により検索するシステムも知られている。当該システムでは、診療情報ＤＢ内の構造化ＤＢに格納されている複数の単一レポート構造化データ、画像データに関する詳細な情報が記載されている読影レポートを構成する文字情報が、画像データに対して検索用のメタデータとして付与されている。当該システムは、ユーザである読影医が読影中に読影対象の画像データを検索の基準となる検索基準画像データとして指定すると、検索基準画像データに対して既に付与されている文字情報をキーワードとする。

特開２００５－４６０６号公報特開２００２－３６６５８２号公報特開２００８－５２５４４号公報

しかし、上記技術においては、回答者の熟練度が低い場合、質問者を適切な回答に導くことが難しい。例えば、ＦＡＱなどの複数の文章を格納したデータベースを用いて、質問に対する回答を検索する場合において、複数の回答候補の中から、最適な回答を特定するために、回答者が質問者に対して追加の質問を行う場合がある。この場合において、上記技術では、追加の質問が生成されないので、追加の質問の内容は、回答者の熟練度に依存する。回答者の熟練度が低いと、追加の質問が適切ではないために、最適な回答を特定できない場合がある。

一つの側面では、的確な質問を生成できる生成プログラム、生成方法及び情報処理装置を提供することを目的とする。

一つの態様において、情報処理装置は、文書データを取得する。情報処理装置は、取得した文書データに複数の文書が含まれる場合、複数の文書のうち、何れかの文書に含まれる各単語の何れかの文書での出現頻度と、当該各単語の複数の文書に含まれる他の文書での出現頻度とに基づき、各単語のうち、何れかの単語を特定する。また、情報処理装置は、特定した何れかの単語に関する質問文を生成する。

一つの態様によれば、的確な質問を生成できる。

図１は、実施例１における全体構成の一例を示す図である。図２は、実施例１における生成処理の一例を示す図である。図３は、実施例１における生成装置の一例を示す図である。図４は、実施例１における事例ＤＢの一例を示す図である。図５は、実施例１における概念ＤＢの一例を示す図である。図６は、実施例１における生成処理の一例を示すフローチャートである。図７は、実施例２における生成装置の一例を示す図である。図８は、実施例２における意味ネットワークＤＢの一例を示す図である。図９は、実施例２における生成処理の一例を示す図である。図１０は、実施例２における生成処理の一例を示すフローチャートである。図１１は、ハードウェア構成例を示す図である。

以下に、本願の開示する生成プログラム、生成方法及び情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、以下に示す各実施例は、矛盾を起こさない範囲で適宜組み合わせても良い。

まず、本実施例における処理の流れについて、図１を用いて説明する。図１は、実施例１における全体構成の一例を示す図である。図１に示すように、本実施例における、後に説明する生成装置１００は、例えば顧客ＣＳからの問い合わせを受け付けるオペレータＯＰにより操作される。なお、生成装置１００は、情報処理装置の一例であり、顧客ＣＳは、ユーザの一例である。

まず、オペレータＯＰは、顧客ＣＳからの問い合わせＭ１を受け付けると、生成装置１００にアクセスする。生成装置１００は、後に説明する事例ＤＢ１２１に記憶された各種の事例の中から、問い合わせＭ１に対応する複数の事例を含む検索結果Ｒ１を抽出する。生成装置１００は、検索結果Ｒ１を用いて質問文Ｍ２を生成し、オペレータＯＰに出力する。

オペレータＯＰは、質問文Ｍ２を顧客ＣＳに提示し、顧客ＣＳから回答Ｍ３を受け付ける。オペレータＯＰは、回答Ｍ３を用いて、さらに生成装置１００にアクセスする。

生成装置１００は、事例ＤＢ１２１から、回答Ｍ３に対応する単一の事例である検索結果Ｒ２を抽出する。そして、オペレータＯＰは、検索結果Ｒ２を含む回答Ｍ４を、顧客ＣＳに提示する。

一般技術においては、検索結果Ｒ１に含まれる複数の事例のうち、単一の事例に絞り込むための質問文Ｍ２は、オペレータＯＰにより作成されている。この場合、質問文Ｍ２の内容は、オペレータＯＰの熟練度により左右される。オペレータＯＰの熟練度が低い場合、質問文Ｍ２の内容が的確ではなく、検索結果Ｒ２を特定するために必要な情報を、顧客ＣＳから引き出すことが難しい場合がある。

一方、本実施例における生成装置１００は、質問文Ｍ２を生成する際に、検索結果Ｒ１に含まれる複数の事例に含まれる単語を用いて、いずれかの単語を特定する。図２は、実施例１における生成処理の一例を示す図である。例えば、生成装置１００は、顧客ＣＳから受け付けた、「HDMI（登録商標）ケーブルを挿入する場所がわかりません」という内容の問い合わせＭ１の入力を受け付ける。生成装置１００は、問い合わせＭ１を用いて事例ＤＢ１２１を参照し、複数の事例１００１乃至１００４を含む、検索結果Ｒ１を抽出する。

次に、生成装置１００は、検索結果Ｒ１に含まれる事例１００１乃至１００３にそれぞれ含まれる単語１１０１乃至１１０３を抽出する。図２に示すように、例えば単語１１０１は「FJ2016JJJJ」という機種名を示す単語である。同様に、例えば単語１１０２は「FJ2016JJJZ」、単語１１０３は「FJ2017GGG」という、それぞれ機種名を示す単語である。なお、生成装置１００は、事例１００４には、機種名を示す単語が含まれないことを特定する。

そして、生成装置１００は、抽出した単語１１０１乃至１１０３に共通する「概念」である「機種名」を確認するための質問文Ｍ２として、「Q. 機種名を、教えてください」という文言を生成して出力する。その際、生成装置１００は、質問文Ｍ２に対応する選択肢２１０１乃至２１０３も合わせて生成する。

そして、生成装置１００は、例えば、質問文Ｍ２に対して顧客ＣＳから受け付けた回答Ｍ３が「FJ2016JJJJ」であった場合、当該単語１１０１を含む事例１００１を、検索結果Ｒ２として出力する。

このように、本実施例における生成装置１００は、相互に類似する複数の文書に含まれる単語の出現頻度に基づいていずれかの単語を特定し、特定した単語の意味ネットワークに基づいて質問文を生成する。これにより、熟練度に依存せず的確な質問を生成できる。

［機能ブロック］
次に、本実施例における生成装置１００の一例について、図３を用いて説明する。図３は、実施例１における生成装置の一例を示す図である。図３に示すように、本実施例における生成装置１００は、外部Ｉ／Ｆ１１０と、記憶部１２０と、制御部１３０とを有する。

外部Ｉ／Ｆ１１０は、有線又は無線を問わず、オペレータＯＰの端末（不図示）などのその他のコンピュータや、オペレータＯＰなどのユーザとの通信を制御する。外部Ｉ／Ｆ１１０は、例えばＮＩＣ（Network Interface Card）等の通信インタフェース等であるが、これに限られず、入力デバイスや表示装置等のユーザインタフェースであってもよい。

記憶部１２０は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやプロセッサなどである。記憶部１２０は、事例ＤＢ１２１及び概念ＤＢ１２２を有する。なお、以下の説明では、データベース（Database）を「ＤＢ」と表記する場合がある。

事例ＤＢ１２１は、問い合わせ内容と、それに対する回答の内容とを対応付けて記憶する。なお、事例ＤＢ１２１に記憶される情報は、例えば過去に受け付けた問い合わせの内容及びそれに対する回答の内容であり、オペレータＯＰにより入力される。事例ＤＢ１２１に記憶される情報は、例えば外部の応答履歴ログ等から取得されてもよい。事例ＤＢ１２１は、例えば、事例１つごとに１レコードとして記憶する。なお、事例は、文書の一例であり、事例ＤＢ１２１は回答データベースの一例である。

図４は、実施例１における事例ＤＢの一例を示す図である。図４に示すように、事例ＤＢ１２１は、例えば、「事例ＩＤ（Identifer）」に対応付けて、「質問」と、「回答」と、「タグ」とを記憶する。図４において、「事例ＩＤ」は、質問と回答との組み合わせを一意に識別する識別子である。「質問」及び「回答」は、過去に受け付けたユーザによる問い合わせ内容と、それに対する回答の内容とをそれぞれ記憶する。「タグ」は、質問及び回答の内容に対応するキーワード等を記憶する。なお、問い合わせ内容は「質問内容」の一例であり、回答の内容は「回答内容」の一例である。

例えば、図４において、事例ＩＤ「０００１」の事例は、「HDMIケーブルを挿入する場所がわかりません」という問い合わせに対して、「FJ2016JJJJには、HDMIケーブルを挿入する場所はありません」と回答されたことを示す。また、事例ＩＤ「０００１」の事例に対して付与されたタグは、「ＨＤＭＩ」及び「場所」である。

次に、概念ＤＢ１２２は、単語と、それに対応する上位概念とを対応付けて記憶する。図５は、実施例１における概念ＤＢの一例を示す図である。図５に示すように、概念ＤＢ１２２は、例えば、「概念ＩＤ」に対応付けて、「上位概念」と、「下位概念１」乃至「下位概念３」とを記憶する。なお、概念ＤＢ１２２に記憶される情報は、例えば外部の類義語データベースや、メーカーの機種データベース等から取得された情報である。外部の類義語データベースは、例えばＷｏｒｄＮｅｔやＷｏｒｄ２Ｖｅｃなどの公知の技術により特定された類義語を記憶する。概念ＤＢ１２２は、例えば、概念１つごとに１レコードとして記憶する。

図５において、「概念ＩＤ」は、上位概念と下位概念との組み合わせを一意に識別する識別子である。「上位概念」は、「下位概念１」乃至「下位概念３」に示す各単語を包括する上位概念を記憶する。「下位概念１」乃至「下位概念３」は、共通の上位概念に従属する各単語を記憶する。

例えば、図５において、概念ＩＤ「Ｃ００１」は、上位概念「機種」に対して、下位概念「FJ2016JJJJ」と「FJ2016JJJZ」と「FJ2017GGG」とが従属することを記憶する。

なお、図５においては下位概念が３つである場合を示したが、下位概念の数はこれに限られない。また、上位概念に記憶される単語が、他の単語の下位概念としてさらに記憶されていてもよく、一つの単語が、複数の上位概念の単語に従属するような構成であってもよい。

図３に戻って、制御部１３０は、生成装置１００全体を司る処理部であり、例えばプロセッサなどである。制御部１３０は、受付部１３１、回答検索部１３２、単語特定部１３３及び出力部１３４を有する。なお、受付部１３１、回答検索部１３２、単語特定部１３３及び出力部１３４は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。

受付部１３１は、顧客ＣＳによる問い合わせを受け付ける。受付部１３１は、外部Ｉ／Ｆ１１０を通じて、例えば顧客ＣＳの端末（不図示）から問い合わせを受け付けると、受け付けた問い合わせに関する情報を、回答検索部１３２に出力する。

また、受付部１３１は、外部Ｉ／Ｆ１１０を通じて、生成された質問文に対する回答をさらに受け付ける。受付部１３１は、例えば顧客ＣＳが、生成された質問文に対応するいずれかの選択肢を選択したことを受け付けた場合、選択された選択肢に関する情報を、回答検索部１３２に出力する。

回答検索部１３２は、事例ＤＢ１２１を参照して、問い合わせ又は回答に対応する事例を検索する。回答検索部１３２は、受付部１３１から問い合わせに関する情報の入力を受けると、事例ＤＢ１２１を参照し、問い合わせに関する情報に対応する事例を検索する。この際、回答検索部１３２は、事例ＤＢ１２１に記憶された「質問」、「回答」及び「タグ」のうち、少なくともいずれかを検索する。なお、回答検索部１３２は、取得部の一例である。

また、回答検索部１３２は、受付部１３１から質問文に対する回答の入力を受けた場合、事例ＤＢ１２１を参照し、回答に対応する事例を検索する。

回答検索部１３２は、事例ＤＢ１２１を参照した結果、検索された事例の候補が１件だけである場合、当該事例の候補を出力部１３４に出力する。一方、回答検索部１３２は、検索された事例の候補が２件以上ある場合、当該事例の候補を単語特定部１３３に出力する。なお、回答検索部１３２は、事例の候補が１件も検索されなかった場合、該当する事例がないことを示す情報を単語特定部１３３又は出力部１３４に出力してもよい。

単語特定部１３３は、事例の候補に含まれる単語を用いて、顧客ＣＳに対する質問文に含む単語を特定する。単語特定部１３３は、回答検索部１３２から事例の候補を取得した場合、当該複数の事例の候補のうち、事例間の類似度が所定の基準を満たす複数の事例の候補を特定する。なお、事例間の類似度は、例えばＤｏｃ２Ｖｅｃなどの公知の手法を用いて特定することができる。また、単語特定部１３３は、特定部の一例である。

次に、単語特定部１３３は、特定された類似度が所定の基準を満たす複数の事例の候補のそれぞれについて、各事例を特徴づける単語を抽出する。事例を特徴づける単語は、例えば特定された複数の事例の候補のうち、当該事例にしか登場しない単語である。なお、事例を特徴づける単語は、例えばＴＦ－ＩＤＦなどの公知の手法を用いて特定することができる。なお、以下において、事例を特徴づける単語を、「特徴語」と表記する場合がある。

次に、単語特定部１３３は、概念ＤＢ１２２を参照し、抽出した各特徴語に対応する上位概念を抽出する。例えば、単語特定部１３３は、各特徴語が「FJ2016JJJJ」と「FJ2016JJJZ」と「FJ2017GGG」とであった場合、対応する上位概念として、「機種」を抽出する。そして、単語特定部１３３は、抽出した上位概念を示す単語を、出力部１３４に出力する。なお、以下において、上位概念を示す単語を、「上位語」と表記する場合がある。

また、単語特定部１３３は、生成した質問文に対する応答を受け、回答検索部１３２からさらに複数の事例の候補の出力を受けた場合、新たな質問文に含まれる単語を特定する処理を繰り返す。

なお、単語特定部１３３は、例えば回答検索部１３２から、該当する事例がないことを示す情報の出力を受けた場合、例えば以前の質問文を生成する処理において、事例間の類似度が所定の基準を満たさないために抽出されなかった事例を再度抽出して、質問文を生成してもよい。

出力部１３４は、特定された上位語を用いた質問文を生成して出力する。なお、出力部１３４は、生成部の一例である。

出力部１３４は、例えば、単語特定部１３３から「機種名」という単語の出力を受けると、図２に示すように、「Q. 機種名を、教えてください」というような質問文を生成する。そして、出力部１３４は、例えば外部Ｉ／Ｆ１１０を通じて、オペレータＯＰの端末等に出力する。なお、出力部１３４は、事例の候補が１件も検索されなかった場合において、該当する事例がないことを示す情報を回答検索部１３２又は単語特定部１３３から出力された場合、検索結果を示す情報を出力してもよい。

また、出力部１３４は、例えば上位語が「機種」である場合、図２に示す「機種名を、教えてください」のように、上位語を用いた文章を、自然文に近い表現に変換して出力する。

［処理の流れ］
次に、本実施例における処理について、図６を用いて説明する。図６は、実施例１における生成処理の一例を示すフローチャートである。図６に示すように、生成装置１００の受付部１３１は、例えば外部Ｉ／Ｆ１１０を通じて問い合わせ内容の入力を受け付けるまで待機する（Ｓ１０：Ｎｏ）。

受付部１３１は、入力を受け付けたと判定した場合（Ｓ１０：Ｙｅｓ）、入力された問合せの内容を回答検索部１３２に出力する。回答検索部１３２は、問い合わせの内容を用いて事例ＤＢ１２１を検索し、複数の回答候補を抽出し、単語特定部１３３に出力する（Ｓ１１）。

単語特定部１３３は、抽出された複数の回答候補の中から、相互に類似する回答候補を特定する（Ｓ１２）。次に、単語特定部１３３は、特定された各回答候補の特徴語を抽出する（Ｓ１３）。次に、単語特定部１３３は、概念ＤＢ１２２を参照し、各特徴語の上位語を特定し、出力部１３４に出力する（Ｓ１４）。

そして、出力部１３４は、特定された上位語を用いて質問文を生成し、例えば外部Ｉ／Ｆ１１０を通じて質問文を出力する（Ｓ２０）。出力部１３４は、その後、応答を取得するまで待機する（Ｓ３０：Ｎｏ）。

受付部１３１は、応答を取得したと判定した場合（Ｓ３０：Ｙｅｓ）、応答を回答検索部１３２に出力する。回答検索部１３２は、事例ＤＢ１２１を検索し、回答候補の中から回答を特定できたか否かを判定する（Ｓ３１）。

回答検索部１３２は、回答を特定できていないと判定した場合（Ｓ３１：Ｎｏ）、Ｓ１１に戻って処理を繰り返す。一方、回答検索部１３２は、回答を特定できたと判定した場合（Ｓ３１：Ｙｅｓ）、出力部１３４に特定した回答を出力する。出力部１３４は、特定した回答を出力し（Ｓ３２）、処理を終了する。

［効果］
以上説明したように、本実施例における生成装置１００は、文書データを取得し、取得した文書データに複数の文書が含まれる場合、複数の文書のうち、何れかの文書に含まれる各単語の何れかの文書での出現頻度と、当該各単語の複数の文書に含まれる他の文書での出現頻度とに基づき、各単語のうち、何れかの単語を特定する。また、本実施例における生成装置１００は、特定した何れかの単語に関する質問文を生成する。これにより、的確な質問を生成できる。

生成装置１００は、取得した文書データに含まれる複数の文書のうち、文書間の類似度が基準を満たす複数の文書を特定し、特定した複数の文書から何れかの文書及び他の文書を選択してもよい。これにより、回答の候補を絞り込んでから、さらに回答を絞りこむための質問を生成できる。

また、生成装置１００は、文書間の類似度が基準を満たす複数の文書において、各文書を特徴づける単語を特定してもよい。なお、生成装置１００は、各文書を特徴づける単語として、例えばいずれか１つの文書にしか登場しない単語を特定する。そして、生成装置１００は、特定された各文書を特徴づける単語に共通する上位概念を示す単語を用いて、質問文を生成してもよい。これにより、選択肢となる各文書の内容に即した質問を生成できる。

さらに、生成装置１００は、質問内容と回答内容とを含む複数の文書を含む文書データを取得し、複数の文書に含まれる質問内容における各単語の出現頻度と回答内容における各単語の出現頻度とに基づき、いずれかの単語を特定してもよい。これにより、過去の問い合わせ履歴等のデータベースを用いて、ユーザの問い合わせに合致する回答を検索するための質問を生成できる。

また、生成装置１００は、ユーザからの問い合わせの入力を受け付け、ユーザからの問い合わせに対する応答文書の候補である複数の文書を含む文書データを回答データベースから抽出する。生成装置１００は、抽出された複数の文書の中から、応答文書を特定するための質問文を生成してもよい。さらに、生成装置１００は、生成した質問文に対するユーザによる回答を受け付け、受け付けた回答に対する応答文書の候補である複数の文書を含む文書データをさらに取得してもよい。これにより、ユーザとの対話形式の中で、ユーザの問い合わせに合致する回答を検索するための質問を生成できる。

ところで、生成装置１００が質問文を生成する際、顧客ＣＳに確認しようとしている内容が「機種名」等であれば、「機種名は何ですか？」のように、「何であるか」を単純に問い合わせればよい。しかし、例えば確認しようとしている内容が「画面の状態」である場合、画面が表示されているか否か、何色になっているか、表示速度は正常か遅くなっているか等、確認したい内容が多岐にわたる場合がある。このような場合、質問の内容が確認したい内容に即していないと、最適な回答を特定することが難しい。

そこで、本実施例においては、生成装置が、顧客ＣＳに対して確認したい内容に応じて質問内容の表現を変更する構成について説明する。

［機能ブロック］
図７は、実施例２における生成装置の一例を示す図である。なお、以下の実施例において、先に説明した図面に示す部位と同一の部位には同一の符号を付し、重複する説明は省略する。本実施例における生成装置２００は、外部Ｉ／Ｆ１１０と、記憶部２２０と、制御部２３０とを有する。

記憶部２２０は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやプロセッサなどである。記憶部２２０は、事例ＤＢ１２１及び概念ＤＢ１２２に加えて、さらに意味ネットワークＤＢ２２３を有する。

意味ネットワークＤＢ２２３は、対象となる単語と、対応する状態や動作などとを対応付けて記憶する、図８は、実施例２における意味ネットワークＤＢの一例を示す図である。図８に示すように、意味ネットワークＤＢ２２３は、「対象ＩＤ」に対応付けて、「対象」と、「属性１」乃至「属性３」とを記憶する。なお、意味ネットワークＤＢ２２３に記憶される情報は、例えば外部の類義語データベース等から取得された情報である。意味ネットワークＤＢ２２３は、例えば、対象１つごとに１レコードとして記憶する。

図８において、「対象ＩＤ」は、対象と属性との組み合わせを一意に識別する識別子である。「対象」は、例えばコンピュータの部品や装置など、確認の対象とするものを記憶する。「属性１」乃至「属性３」は、当該対象に関係する動作や、当該対象がとりうる状態等を含む属性を記憶する。

例えば、図８において、対象ＩＤ「Ｎ００１」は、対象「電源」に対して、属性「入っている」と「切れている」とが対応することを記憶する。なお、図５においては下位概念が３つである場合を示したが、下位概念の数はこれに限られず、「Ｎ００１」のように２つだけであっても、または４つ以上であってもよい。また、例えば、対象ＩＤ「Ｎ００４」に示されるように、対象についての属性を定めず、対象が何であるかが特定できればよい場合などは、属性１に「Ｎ／Ａ」が記憶される。

図７に戻って、制御部２３０は、生成装置２００全体を司る処理部であり、例えばプロセッサなどである。制御部２３０は、受付部１３１、回答検索部１３２、単語特定部２３３及び出力部２３４を有する。なお、単語特定部２３３及び出力部２３４も、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。

単語特定部２３３は、事例の候補に含まれる単語から特定される上位語に加えて、当該単語に対応する属性をさらに特定し、出力部２３４に出力する。単語特定部２３３は、各特徴語と、上位語とに基づいて、意味ネットワークＤＢ２２３を参照し、上位語に対応する属性を特定する。

単語特定部２３３及び出力部２３４による処理について、図９を用いて説明する。図９は、実施例２における生成処理の一例を示す図である。図９に示すように、例えば顧客ＣＳから、「画面が動きません」という質問Ｍ２１を受け付けた場合、回答検索部１３２は、質問Ｍ２１を用いて事例ＤＢ１２１を参照し、複数の事例３００１乃至３００４を含む、検索結果Ｒ２１を抽出する。

この場合において、単語特定部２３３は、検索結果Ｒ１に含まれる事例３００１乃至３００４に共通して含まれる単語「画面」を、対象として抽出する。また、単語特定部２３３は、例えば事例３００１においては、画面が「白く」なったことを示す部分３１０１を特定する。同様に、単語特定部２３３は、事例３００２においては、画面が「暗く」なったことを示す部分３１０２を特定し、事例３００３においては、画面が「青く」なったことを示す部分３１０３を特定する。なお、単語特定部２３３は、事例３００４においては、画面の「動きが遅くなった」ことを示す部分３２０１を特定する。

そして、単語特定部２３３は、意味ネットワークＤＢ２２３を参照し、対象「画面」について、特定した部分３１０１乃至３１０３に対応する属性が、「色が変わった」であることを特定する。同様、単語特定部２３３は、意味ネットワークＤＢ２２３を参照し、対象「画面」について、特定した部分３２０１に対応する属性が、「反応が遅い」であることを特定する。

この場合において、単語特定部２３３は、特定された２つの属性のうち、例えば対応する事例の数が多い属性「色が変わった」を、出力部２３４に出力する。

出力部２３４は、特定された上位語及び属性を用いた質問文を生成して出力する。出力部２３４は、例えば、単語特定部２３３から「画面」という上位語と、「色が変わった」という属性の出力を受けた場合、図９に示すように、質問文Ｍ２２として、「Ｑ．画面の色は変わりましたか？」という文言を生成する。その際、出力部２３４は、質問文Ｍ２２に対応する選択肢４１０１乃至４１０４も合わせて生成する。

なお、出力部２３４は、例えば上位語が「画面」であり、属性が「色が変わった」である場合、図９に示す「画面の色が変わりましたか？」のように、属性や上位語を用いた文章を、自然文に近い表現に変換して出力する。

なお、回答検索部１３２は、質問文Ｍ２２に対して顧客ＣＳから受け付けた回答が、選択肢４１０１乃至４１０３のいずれかである場合、回答として、選択肢４１０１乃至４１０３のいずれかに対応する事例３００１乃至３００３のうちのいずれかを特定する。一方、回答検索部１３２は、顧客ＣＳから受け付けた回答が選択肢４１０４である場合、回答として、選択肢４１０４に対応する事例３００４を特定する。

［処理の流れ］
次に、本実施例における処理について、図１０は、実施例２における生成処理の一例を示すフローチャートである。なお、以下の説明において、図６に示すステップと同じ符号については同様のステップであるため、詳細な説明を省略する。

図１０に示すように、生成装置２００の単語特定部２３３は、各特徴語の上位語を特定すると（Ｓ１４）、意味ネットワークＤＢ２２３を参照し、特定した上位語及び各特徴語に対応する属性を特定し、出力部２３４に出力する（Ｓ１５）。そして、出力部２３４は、特定した上位語及び属性を用いて質問文を生成する（Ｓ２１）。

［効果］
以上説明したように、本実施例における生成装置２００は、各文書を特徴づける単語に対応する意味ネットワークに基づき抽出される動作又は属性に関する単語を特定し、当該動作又は属性に関する単語を疑問文に変換することにより、質問文を生成する。これにより、確認したい内容に即した表現の質問を生成できる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。例えば、生成装置１００又は２００は、顧客ＣＳによる、質問文に対する回答に応じて、次に同様の問い合わせが来た場合の質問文を変更してもよい。例えば、生成装置２００は、図９に示すように、質問文Ｍ２２に対して、属性「色が変わった」ではなく属性「反応が遅い」に対応する選択肢４１０４を受け付けることが多い場合、次に同様の問い合わせが来た場合、当該属性を用いて質問文を生成してもよい。これにより、過去に生成した質問文に対する応答結果を、次の質問文の生成にフィードバックさせ、より精度よく質問を生成することができる。

また、各ＤＢが記憶する情報は一例であり、例えば図４に示す事例ＤＢ１２１は、「タグ」を含まないような構成であってもよい。また、各ＤＢのデータ構造はテーブル形式に限られず、木構造やネットワーク構造であってもよい。

また、事例ＤＢ１２１が、各事例の回答を提示した場合における顧客ＣＳによる問い合わせが解決した割合を示す「解決率」をさらに記憶してもよい。この場合において、単語特定部１３３は、回答検索部１３２から出力された各事例に含まれる複数の特徴語から、それぞれ複数の上位概念が抽出される場合、最も解決率が高い事例に含まれる特徴語の上位概念を特定してもよい。同様に、単語特定部２３３は、回答検索部１３２から出力された各事例に含まれる複数の特徴語から、それぞれ複数の属性が抽出される場合、最も解決率が高い事例に含まれる特徴語の属性を特定してもよい。また、単語特定部１３３又は２３３は、最も解決率が高い事例に含まれる特徴語の代わりに、各上位概念又は各属性に対応する特徴語を含む各事例の解決率の累計を算出してもよい。これにより、より問い合わせの解決率の高い質問を生成することができる。

また、各実施例においては、例えばコンピュータのヘルプデスクにおける顧客ＣＳとオペレータＯＰとの対話を例として説明したが、実施の形態はこれに限られない。例えば、料理の作り方に関するコールセンターに応用する場合、生成装置２００は、「人参」や「キャベツ」に対応する上位語として「野菜」を記憶し、属性として「切る」や「炒める」等を記憶してもよい。また、例えばチケット予約センターのコールセンターにおいては、生成装置２００は、「スポーツ」の属性として、「観戦する」や「プレイする」などの属性を記憶してもよい。

また、オペレータＯＰが、顧客ＣＳによる問い合わせを生成装置１００又は２００に入力し、出力された質問文を顧客ＣＳに再質問する例について説明したが、実施の形態はこれに限られない。例えば、生成装置１００又は２００が、操作部（不図示）を通じて顧客ＣＳによる問い合わせを直接受け付け、表示部（不図示）を通じて質問文を出力するような構成であってもよい。

［システム］
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図３に示す受付部１３１と回答検索部１３２とを統合し、又は受付部１３１と出力部１３４とを統合してもよい。また、図７に示す単語特定部２３３を、上位語を特定する処理部と属性を特定する処理部とに分散してもよい。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア構成］
図１１は、ハードウェア構成例を示す図である。図１１に示すように、コンピュータ１０は、通信インタフェース１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。なお、以下においては実施例１における生成装置１００について説明するが、その他の実施例における生成装置も、同様の構成により実現できる。

通信インタフェース１０ａは、他の装置の通信を制御するネットワークインタフェースカードなどである。ＨＤＤ１０ｂは、プログラムやデータなどを記憶する記憶装置の一例である。

メモリ１０ｃの一例としては、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）等のＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等が挙げられる。プロセッサ１０ｄの一例としては、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、ＰＬＤ（Programmable Logic Device）等が挙げられる。

また、コンピュータ１０は、プログラムを読み出して実行することで学習方法を実行する情報処理装置として動作する。つまり、コンピュータ１０は、受付部１３１、回答検索部１３２、単語特定部１３３及び出力部１３４と同様の機能を実行するプログラムを実行する。この結果、コンピュータ１０は、受付部１３１、回答検索部１３２、単語特定部１３３及び出力部１３４と同様の機能を実行するプロセスを実行することができる。なお、この他の実施例でいうプログラムは、コンピュータ１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

１００、２００生成装置
１１０外部Ｉ／Ｆ
１２０、２２０記憶部
１２１事例ＤＢ
１２２概念ＤＢ
２２３意味ネットワークＤＢ
１３０、２３０制御部
１３１受付部
１３２回答検索部
１３３、２３３単語特定部
１３４、２３４出力部

Claims

文書データを取得し、
取得した前記文書データに含まれる複数の文書のうち、文書間の類似度が基準を満たす複数の文書に含まれる単語の上位概念となる単語を特定し、
特定した前記上位概念となる単語に関する質問文を生成する
処理をコンピュータに実行させることを特徴とする生成プログラム。
前記特定する処理は、文書間の類似度が基準を満たす複数の文書から何れかの文書及び他の文書を選択することを特徴とする請求項１に記載の生成プログラム。
前記生成する処理は、前記文書を特徴づける単語に対応する意味ネットワークに基づき抽出される動作又は属性に関する単語を特定し、当該動作又は属性に関する単語を疑問文に変換することにより、前記質問文を生成することを特徴とする請求項１に記載の生成プログラム。
前記取得する処理は、質問内容と回答内容とを含む複数の文書を含む前記文書データを取得し、
前記特定する処理は、前記複数の文書に含まれる前記質問内容と、前記回答内容とのうち、少なくともいずれかに基づき、前記上位概念となる単語を特定することを特徴とする請求項１乃至３のいずれか１つに記載の生成プログラム。
ユーザからの問い合わせの入力を受け付ける処理をさらに前記コンピュータに実行させ、
前記取得する処理は、前記ユーザからの問い合わせに対する応答文書の候補である複数の文書を含む前記文書データを回答データベースから抽出し、
前記生成する処理は、抽出された前記複数の文書の中から、前記応答文書を特定するための質問文を生成することを特徴とする請求項１乃至４のいずれか１つに記載の生成プログラム。
生成した前記質問文に対するユーザによる回答を受け付け、
受け付けた前記回答に対する応答文書の候補である複数の文書を含む文書データをさらに取得する処理をさらに前記コンピュータに実行させることを特徴とする請求項１乃至５のいずれか１つに記載の生成プログラム。
文書データを取得し、
取得した前記文書データに含まれる複数の文書のうち、文書間の類似度が基準を満たす複数の文書に含まれる単語の上位概念となる単語を特定し、
特定した前記上位概念となる単語に関する質問文を生成する
処理をコンピュータが実行することを特徴とする生成方法。
文書データを取得する取得部と、
取得した前記文書データに含まれる複数の文書のうち、文書間の類似度が基準を満たす複数の文書に含まれる単語の上位概念となる単語を特定する特定部と、
特定した前記上位概念となる単語に関する質問文を生成する生成部と
を有することを特徴とする情報処理装置。