JP7096199B2

JP7096199B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP7096199B2
Application number: JP2019092572A
Authority: JP
Inventors: 賢昭佐藤; 純平三宅
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2022-07-05
Anticipated expiration: 2039-05-16
Also published as: JP2020187282A

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

音声認識結果を含む確からしさに基づいて音声認識を行う技術が知られている（特許文献１参照）。確からしさは、例えば、コーパスとの単純な比較結果や、音声認識結果とコーパスとの類似度を評価する結果に基づいて設定される。

特開２０１６－２０６４８７号公報

しかしながら、従来の技術では、コーパスの各語に対して数万個ある潜在語候補から好適な候補を抽出するための処理に時間を要し、効率的な音声認識処理が実現されない可能性があった。また、コーパスの各語から好適な候補を抽出することの精度向上が十分検討されていない可能性があった。

本発明は、このような事情を考慮してなされたものであり、より効率的、且つ高精度に音声認識処理をすることができる情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。

本発明の一態様は、音声データを取得する取得部と、前記音声データを解析してテキストに変換する解析部と、前記解析部による解析結果のテキストに含まれる複数の第１ワードのそれぞれについて、前記テキストに含まれ且つ前記第１ワードが含まれる被解析文の中における前記第１ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第１ワードの希少性とを評価した第１指標値を導出して前記被解析文に対応付けることを行う指標値導出部と、前記解析部により解析された文を分散表現によるベクトル値に変換するベクトル変換部と、前記指標値導出部により導出された前記第１指標値と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択する選択部と、意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、前記選択部により選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成する生成部と、を備える、情報処理装置である。

本発明の一態様によれば、より効率的、且つ高精度に音声認識処理をすることができる。

実施形態に係る情報処理装置１００の使用環境の一例を示す図である。情報処理装置１００の処理を模式的に示す図である。ＷＦＳＴについて説明するための図である。ＷＦＳＴについて説明するための図である。ＷＦＳＴについて説明するための図である。実施形態に係る情報処理装置１００の構成図である。Ｗ２Ｖ実行部１１０によるベクトル変換処理を説明するための図である。文ベクトルを説明するための図である。選択部１１４による好適候補選択を模式的に示す図である。タスクテキストを説明するための図である。代表ベクトルを説明するための図である。抽出対象テキストの指標値を説明するための図である。ベクトル変換部１１２により導出されたｔｆ－ｉｄｆ値の一例を示す図である。文ベクトルのｔｆ－ｉｄｆベクトルを説明するための図である。信頼度導出部１１４ａによる信頼度導出処理を説明するための図である。類似評価方法について説明するための図である。情報処理装置１００による言語モデル生成処理の流れの一例を示すフローチャートである。情報処理装置１００による音声認識処理の流れの一例を示すフローチャートである。

以下、図面を参照し、本発明の情報処理装置、情報処理方法、およびプログラムの実施形態について説明する。

［概要］
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、利用者の発した音声を収録した音声データを受信し、受信した入力データの音声認識処理を行い、認識の結果に基づいて種々の処理を行う装置（以下、「端末装置」と称する）に対して、言語モデルを提供するための装置である。種々の処理としては、音声を発した利用者の意図に沿ったＩｏＴ（Internet of Things）機器の制御を行うこと、利用者の質問に対して応答することなどがある。

言語モデルとは、音声認識処理において、入力データをテキスト変換する自然言語処理モデルであり、入力結果をテキストに変換した結果が正解である可能性の高い変換結果についての確率を内包するものである。以下、利用者の意図する端末装置の動作を「タスク」と称する場合がある。なお音声データは、圧縮や暗号化などの処理が施されたものであってもよい。

図１は、実施形態に係る情報処理装置１００の使用環境の一例を示す図である。

図示する環境では、端末装置２０、制御対象デバイス３０、およびサービスサーバ４０は、ネットワークＮＷを介して互いに通信する。ネットワークＮＷは、例えば、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、インターネット、プロバイダ装置、無線基地局、専用回線などのうちの一部または全部を含む。図１に示す例では、制御対象デバイス３０の数は、Ｎ（Ｎは、１以上の整数）個である。なお、本明細書では、制御対象デバイス３０－１～３０－Ｎにおいて、共通の事項を説明する場合など、個々の制御対象デバイス３０－１～３０－Ｎを区別しない場合には、単に制御対象デバイス３０と呼ぶ。

端末装置２０は、利用者の音声入力を受け付ける装置である。端末装置２０は、スマートフォンなどの携帯電話、タブレット端末、パーソナルコンピュータ、スマートスピーカ（ＡＩスピーカ）等である。

制御対象デバイス３０は、通信機能と、外部からの制御を受け付けるインターフェースとを備え、利用者により操作される端末装置２０からの指令に応じて制御可能なＩｏＴ機器である。制御対象デバイス３０は、例えば、テレビやラジオ、照明器具、冷蔵庫、電子レンジ、洗濯機、炊飯器、自走式掃除機、空調機器、車両などである。

なお、制御対象デバイス３０は、端末装置２０自身である可能性がある。すなわち、端末装置２０は、情報処理装置１００による処理結果に応じて何らかの検索処理を行ったり、電話をかけたり、メッセージを送信したりすることがある。

サービスサーバ４０は、利用者により操作される端末装置２０からの指令に対応するウェブページを提供するウェブサーバ装置、アプリケーションが起動された端末装置２０と通信を行って各種情報の受け渡しを行ってコンテンツを提供するアプリケーションサーバ装置等である。

図２は、情報処理装置１００の処理を模式的に示す図である。

情報処理装置１００は、利用者が端末装置２０を介して入力された音声データを音響モデルに適用することで音素に変換し、音素に基づいて１以上の抽出対象テキスト（音声データに含まれる音をテキスト化したもの）を生成し、さらに生成した抽出対象テキストのうち既知のタスク特徴量との比較に基づいて選択した抽出対象テキストを言語モデルに適用することで、好適候補を選択する。好適候補とは、抽出対象テキストの中で利用者の意図が反映された可能性が高い好適なテキストであると判定されたものであって、端末装置２０または制御対象デバイスの操作を示唆するテキストである。

音響モデルとは、周波数成分や時間変化を統計的に分析し、入力された音声データがどのような音素で構成されるか（何と言っているか）を判別するためのモデルである。音素とは、アルファベットや仮名などの言語の最小単位を特定するためのラベルであり、例えば、母音や子音等を含む。情報処理装置１００は、音素を言語ルールに従って適宜、結合することで抽出対象テキストを得る。

図２に示すように、音素変換の結果、生成した抽出対象テキストが“kyonotenki”である場合、例えば、”k”や”t”は生成した抽出対象テキストに含まれる音素を示すものである。音声認識処理が日本語を前提として行われる場合、抽出対象テキストは、アルファベット表記で表されてもよいし、ひらがな表記またはカタカナ表記で表されてもよい。図２に示す例において、情報処理装置１００は、受け付けた音声データに基づいて、“kyonotenki”、“kyonotenkii”、“kyonodenki”を含む抽出対象テキストを生成する。

情報処理装置１００の生成する言語モデルは、図２に示す例において、“kyonotenki”、“kyonotenkii”、“kyonodenki”を含む変換候補のそれぞれに対して形態素解析を行う。形態素解析とは、抽出対象テキストを構成する単語の区切りを決定し、区切られたそれぞれの単語の例えば品詞を導出する処理である。形態素解析は、例えば、ＭｅＣＡＢなどの形態素解析エンジンを利用して行われる。

言語モデルは、例えば、抽出対象テキスト“kyonotenki”を解析した結果、「今日（kyo）」、「の(no)」、「天気(tenki)」の３つの単語を導出する。同様に、抽出対象テキスト“kyonotenkii”を解析した結果、「今日（kyo）」、「の(no)」、「テンキー(tenkii)」を、抽出対象テキスト“kyonodenki”を解析した結果、「京（kyo）」、「の(no)」、「電気(denki)」を生成する。このように、音声入力をひらがなから漢字変換する場合に、複数パターンの変換候補が生成される可能性がある。

言語モデルは、１以上の抽出対象テキストのそれぞれから生成した解析結果を評価する評価値を生成し、その評価値に基づいて複数パターンの変換候補の中から１つの抽出対象テキストを選択する。より具体的に、情報処理装置１００は、抽出対象テキストの解析結果の、既知のタスク音声から得られた特徴量との適合率を評価し、利用者の意図に沿ったものと推定される好適候補を選択する。そして、情報処理装置１００は、意図に対応する出力情報を生成するタスクに関する命令を出力する。

［ＷＦＳＴ］
図３～図５は、音響モデルおよび言語モデルにより実現される、ＷＦＳＴ（Weighted Finite-state Transducer；重みつき有限状態トランスデューサ）について説明するための図である。ＷＦＳＴとは、入力データを「変換候補」と「その変換候補の確からしさの推定値」に変換する機構の一例である。

ＷＦＳＴを用いた音声認識が行われる場合、端末装置２０が受け付けた音声入力は、音響モデルによりトリフォン（Triphon）などの文脈依存の音素に変換される（図３）。次に、音響モデル（または言語モデル）は、音素から単語に変換する（図４）。次に、言語モデルは、単語から音声入力の変換結果となるテキストを生成する（図５）。言語モデルは、例えば、N-gram言語モデルである。例えば、言語モデルとして3-gramが採用される場合、３単語ごとに区切り、３単語ごとに意味合いが成立するか否かに基づいてテキスト全体の構成を決定する。

情報処理装置１００は、上述のような形態素解析や、ＷＦＳＴを用いた音声認識がより高速に、かつより高い処理精度で行われるように、好適な言語モデルを生成する。

［全体構成］
図６は、情報処理装置１００の構成図である。情報処理装置１００は、例えば、取得部１０２と、解析部１０４と、頻出性計算部１０６と、希少性計算部１０８と、Ｗ２Ｖ（Word2Vec）実行部１１０と、ベクトル変換部１１２と、選択部１１４と、言語モデル演算部１１６と、指令出力部１１８と、記憶部１２０とを備える。これらの構成要素（記憶部１２０を除く）は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。

また、これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め情報処理装置１００のＨＤＤやフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることで情報処理装置１００のＨＤＤやフラッシュメモリにインストールされてもよい。

記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、レジスタ、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）などにより実現される。記憶部１２０は、例えば、音響モデル１２０ａ、言語モデル１２０ｂ、コーパスの解析結果１２０ｃ、タスクテキストの解析結果１２０ｄ、抽出対象テキストの解析結果１２０ｅ、単語ベクトルリスト１２０ｆ、ベクトルリスト１２０ｇ、言語モデル演算用テキスト１２０ｈなどの情報を記憶する。ベクトルリスト１２０ｇには、例えば、タスクテキストベクトルリスト１２０ｉと、抽出対象テキストベクトルリスト１２０ｊとが含まれる。

取得部１０２は、情報処理装置１００が音声認識処理を行う上でコーパスとして利用する文字情報（以下、「コーパスＩ１」と称する）を取得し、解析部１０４に出力する。コーパスＩ１には、例えば、ニュース等の記事データや、ＳＮＳ（Social Networking Service）の投稿データが含まれる。コーパスＩ１は、「ライブラリ情報」の一例である。

なお、コーパスＩ１は、口語形式のテキスト（例えば、ＳＮＳにおける投稿履歴や、自動応答装置における利用者と装置の会話履歴の書き下し文、現実の会話をテキストに直したもの、端末装置２０から取得した音声入力に対する自装置の処理履歴の書き下し文など）であることが望ましい。

また、取得部１０２は、情報処理装置１００の管理者が設定した定型タスクを示す文字情報のデータセット（以下、「タスクテキストＩ２」と称する）を取得し、解析部１０４に出力する。タスクテキストＩ２は「教師文」の一例である。

また、取得部１０２は、端末装置２０の利用者により入力された音声データ（以下、「音声データＩ３」と称する）を取得し、解析部１０４に出力する。取得部１０２が取得した音声データＩ３に利用者の位置情報を含む場合がある。位置情報とは、例えば、端末装置２０に含まれるＧＮＳＳ（Global Navigation Satellite System）受信装置による処理結果であってもよい。また、端末装置２０が主として特定の場所（例えば、利用者のリビング、利用者のオフィスなど）で利用される装置である場合には、その特定の場所に関する情報が位置情報に相当する。

解析部１０４は、取得部１０２により取得された情報に対して、解析を行い、テキスト（文字データ）に変換する。解析部１０４による解析とは、例えば、形態素解析である。

解析部１０４は、例えば、取得部１０２により出力されたコーパスＩ１に対して解析を行う。解析部１０４は、例えば、取得部１０２により出力されたコーパスＩ１を名詞、動詞、助詞等の品詞の単位で分解する。解析部１０４は、解析結果をコーパスの解析結果１２０ｃとして記憶部１２０に格納する。

また、解析部１０４は、取得部１０２より出力されたタスクテキストＩ２を解析し、解析結果をタスクテキストの解析結果１２０ｄとして記憶部１２０に格納する。

また、解析部１０４は、取得部１０２により出力された音声データＩ３を音響モデル１２０ａに適用して１以上の抽出対象テキストを生成した後に、それぞれの抽出対象テキストに対して形態素解析等の解析処理を行う。また、解析部１０４は、解析結果を抽出対象テキストの解析結果１２０ｅとして記憶部１２０に格納する。

頻出性計算部１０６は、抽出対象テキストの解析結果１２０ｅから、抽出対象テキストに含まれる一文（以下、「被解析文」と称する）に含まれる複数の単語（以下、「第１ワード」と称する）のそれぞれについて頻出性を示す指標値を計算して、被解析文に対応付ける。頻出性計算部１０６は、例えば、抽出対象テキストの解析結果１２０ｅから、抽出対象テキストに含まれる一文に含まれる複数の単語のそれぞれについて、ｔｆ値（Term Frequency Value;頻出性を示す指標値）を計算して被解析文に対応付ける。

なお、頻出性計算部１０６は、コーパスの解析結果１２０ｃに含まれる一文に含まれる単語（以下、「第２ワード」と称する）のそれぞれに対するｔｆ値をあらかじめ計算しておく。頻出性計算部１０６は、コーパスの解析結果１２０ｃに含まれる複数の第２ワードのそれぞれについて、コーパスの解析結果１２０ｃに含まれ且つ第２ワードが含まれるコーパスの一文（以下、「着目文」と称する）の中における第２ワードのｔｆ値をあらかじめ計算しておき、着目文に対応付けておく。

希少性計算部１０８は、抽出対象テキストの解析結果１２０ｅから、抽出対象テキストに含まれる被解析文に含まれる第１ワードのそれぞれに対する希少性を示す指標値を計算して、被解析文に対応付ける。希少性計算部１０８は、例えば、抽出対象テキストの解析結果１２０ｅから、抽出対象テキストに含まれる被解析文に含まれる第１ワードのそれぞれに対するｉｄｆ値（Inversed Document Frequency Value;希少性を示す指標値）を計算して、被解析文に対応付ける。

なお、希少性計算部１０８は、コーパスの解析結果１２０ｃに含まれる一文に含まれる第２ワードのそれぞれに対するｉｄｆ値をあらかじめ計算しておき、着目文に対応付けておく。

頻出性計算部１０６および希少性計算部１０８は、第１ワードに対する指標値の設定と、第２ワードに対する指標値の設定のうち、少なくとも一方を行う。頻出性計算部１０６および希少性計算部１０８を併せ持つものは、「指標値導出部」の一例である。抽出対象テキストの解析結果１２０ｅに関する頻出性計算部１０６および希少性計算部１０８による計算結果は「第１指標値」の一例であり、コーパスの解析結果１２０ｃに関する頻出性計算部１０６および希少性計算部１０８による計算結果は「第２指標値」の一例である。

Ｗ２Ｖ実行部１１０は、解析部１０４により解析された文に含まれる単語のそれぞれを分散表現によるベクトル値に変換する。Ｗ２Ｖ実行部１１０は、例えば、コーパスの解析結果１２０ｃをベクトル値に変換し、変換結果を単語ベクトルリスト１２０ｆに格納する。

ベクトル変換部１１２は、解析部１０４により解析された文を分散表現によるベクトル値に変換する。ベクトル変換部１１２により生成されるベクトル値は、Ｗ２Ｖ実行部１１０により変換されたベクトル値と、頻出性計算部１０６および希少性計算部１０８による計算結果のうち、第１ワードに対する指標値または第２ワードに対する指標値のうち少なくとも一方に基づくものである。

ベクトル変換部１１２は、抽出対象テキストの解析結果１２０ｅおよび単語ベクトルリスト１２０ｆのベクトル値を用いて、抽出対象テキストの文単位のベクトル値（以下、抽出対象テキストの文ベクトル、または単に「文ベクトル」と称する）を生成する。

文ベクトルは、例えば、抽出対象テキストの解析結果１２０ｅがＷ２Ｖ実行部１１０により変換されたベクトル値と、頻出性計算部１０６および希少性計算部１０８による計算結果（以下、「ｔｆ－ｉｄｆ値」と称する）とを含むものである。ベクトル変換部１１２は、抽出対象テキストの文ベクトルを選択部１１４に出力する。

また、ベクトル変換部１１２は、タスクテキストの解析結果１２０ｄおよび単語ベクトルリスト１２０ｆのベクトル値を用いて、タスクテキストの文単位のベクトル値（以下、「タスクテキストの文ベクトル」と称する）を生成する。ベクトル変換部１１２は、タスクテキストの文ベクトルを選択部１１４に出力する。

選択部１１４は、言語モデル１２０ｂの生成過程において、抽出対象テキストの文ベクトルおよびタスクテキストの文ベクトルに基づいて、言語モデル１２０ｂの元となる（言語モデル１２０ｂに反映させる）文ベクトルを選択する。言語モデル１２０ｂの元となる文ベクトルの導出元であるテキストは、「選択文」の一例である。選択部１１４は、選択結果を言語モデル演算部１１６に出力する。

また、選択部１１４は、言語モデル１２０ｂの使用過程（情報処理装置１００による音声認識処理過程）において、ベクトル変換部１１２による変換結果の一部または全部を言語モデル演算部１１６に出力する。

選択部１１４は、例えば、信頼度導出部１１４ａを備える。信頼度導出部１１４ａによる優先度導出処理については後述する。

言語モデル演算部１１６は、言語モデル１２０ｂに関連する処理を行う。

言語モデル演算部１１６は、例えば、言語モデル生成部１１６ａを備える。言語モデル生成部１１６ａは、言語モデル１２０ｂの生成過程において、選択部１１４により出力された選択結果を適用した言語モデルを生成し、言語モデル１２０ｂとして記憶部１２０に格納する。言語モデル生成部１１６ａは、例えば、情報処理装置１００の管理者があらかじめ設定した言語モデル演算用テキスト１２０ｈ、および選択部１１４により選択された変換候補に基づいて言語モデル１２０ｂを生成する。

言語モデル演算用テキスト１２０ｈとは、例えば、情報処理装置１００の管理者が想定するタスクテキストの文ベクトルや、過去の情報処理装置１００の音声認識処理履歴として保持する文ベクトルである。言語モデル演算用テキスト１２０ｈには、コーパスＩ１やタスクテキストＩ２、音声データＩ３などと同一または類似の文から生成された文ベクトルが含まれてもよい。選択部１１４は、頻出性計算部１０６および希少性計算部１０８による第１ワードのｔｆ－ｉｄｆ値または第２ワードのｔｆ－ｉｄｆ値のうち少なくとも一方と、ベクトル変換部１１２による変換結果とに基づいて、被解析文または着目文から一部の文を選択する。

また、言語モデル演算部１１６は、言語モデル１２０ｂの使用過程（情報処理装置１００による音声認識処理過程）において選択部１１４により出力された選択結果を言語モデル１２０ｂに適用し、適用した結果を指令出力部１１８に出力する。

指令出力部１１８は、言語モデル１２０ｂの使用過程（情報処理装置１００による音声認識処理過程）において、ベクトル変換部１１２により変換されたベクトル値に基づいて、被認識文（選択された被解析文、または着目文）の意味合いを推定し、推定結果に基づく指令に関する情報（または指令そのもの）を出力する。指令出力部１１８により出力される指令には、端末装置２０に行わせたい処理の指示、出力先の制御対象デバイス３０を特定する情報、出力先の制御対象デバイス３０に対する処理リクエストなどが含まれる。

指令出力部１１８は、例えば、言語モデル演算部１１６により出力された、言語モデル１２０ｂへの適用結果である好適候補が「今日の天気を教えて」である場合、サービスサーバ４０の提供する天気予報のウェブサイトに対してリクエストを送信し、端末装置２０に送信するための指令の応答の一部または全部を含む情報を出力情報とする。

また、指令出力部１１８は、例えば、好適候補が「音楽の音量を下げて」である場合、音楽再生中の制御対象デバイス３０を特定し、音量を下げる命令を出力する。なお、指令出力部１１８は、出力先が制御対象デバイス３０の出力情報を生成する場合、端末装置２０に制御対象デバイス３０に対して出力情報を出力したことを通知する出力情報を併せて生成してもよい。

〔Ｗ２Ｖベクトル変換〕
図７は、Ｗ２Ｖ実行部１１０によるベクトル変換処理を説明するための図である。

Ｗ２Ｖ実行部１１０は、例えば、コーパスの解析結果１２０ｃに含まれる各単語の意味をベクトル表現化（分散表現化）して単語ベクトルを生成する。図７の例では、Ｗ２Ｖ実行部１１０は、「ボリューム」の単語ベクトルを生成している。

Ｗ２Ｖ実行部１１０は、「音」と「ボリューム」、「ミュージック」と「音楽」のように意味の近い単語同士で単語ベクトル間の距離（コサイン類似度）が近くなるように、単語ベクトルを生成する。Ｗ２Ｖ実行部１１０は、生成したベクトル値を記憶部に単語ベクトルリスト１２０ｆとして記憶部１２０に格納する。

また、Ｗ２Ｖ実行部１１０は、単語ベクトルリスト１２０ｆに記憶されていない単語がタスクテキストまたは抽出対象テキストに含まれる場合、タスクテキストの解析結果１２０ｄ、または抽出対象テキストの解析結果１２０ｅを、例えばコーパスに追加することで同様に解析し、それらのベクトル値を生成してもよい。このベクトル値は、Ｗ２Ｖ実行部１１０による処理の都度、単語ベクトルリスト１２０ｆに反映されてもよいし、反映されなくてもよい。

［文ベクトル］
図８は、文ベクトルについて説明するための図である。

ベクトル変換部１１２は、例えば、「ボリュームを下げて」の文ベクトルを生成する場合、「ボリューム」、「を」、および「下げて」の単語ベクトルに所定の演算を行うことで（例えば、それぞれの単語ベクトルを加算することで）、文ベクトルを生成する。

この結果、文を構成する単語の単語ベクトルを合計した文ベクトルについても同様に、「音楽の音を小さくして」と「ボリュームを下げて」のように意味が近い文の文ベクトル同士の距離は近くなる。

また、ベクトル変換部１１２は、タスクテキストの解析結果１２０ｄおよびＷ２Ｖ実行部１１０により出力された単語ベクトルを用いて、タスクテキストの文ベクトルを生成し、タスクテキストベクトルリスト１２０ｉとして記憶部１２０に格納する。タスクテキストは、利用者の意図を含んでいることが既知のテキストであり、例えば、情報処理装置１００の管理者によってあらかじめ設定される。

［候補選択］
選択部１１４は、言語モデル演算部１１６により出力された抽出対象テキストを評価値に基づいて評価することで、利用者の入力意図が反映された可能性の高い好適候補を選択する。選択部１１４は、選択結果である好適候補を言語モデル演算部１１６に出力する。

図９は、選択部１１４による好適候補選択を模式的に示す図である。

言語モデルとは、抽出対象テキストから、好適候補を生成するためのモデルである。選択部１１４は、例えば、候補ベクトルの文ベクトルとタスクテキストの文ベクトルの類似度から、タスクテキストに近いものほど高い評価値を与え、更に、言語モデルを用いて、単語の並びに関するスコアが高いものほど高い評価値を与える、これらの評価値を総合評価することで、好適候補を選択する。なお、言語モデルは、利用者の周辺環境を加味して評価を行うものでもよい。

［タスクテキスト］
以下、タスクテキストについて説明する。情報処理装置１００の管理者は、例えば、端末装置２０の過去の音声入力履歴や、情報処理装置１００の処理履歴に基づいて、言語モデル１２０ｂが生成される過程において選択部１１４が評価基準として参照するタスクテキストＩ２を抽出する。

図１０は、タスクテキストを説明するための図である。

図１０の左図は、端末装置２０の過去の音声入力履歴の音声認識結果Ｒ１～Ｒ７を示す。音声認識結果には、端末装置２０の利用者の入力意図が反映されたものと、利用者には入力意図はないが音声認識されたものとが含まれる。

情報処理装置１００の管理者は、例えば、音声認識結果Ｒ４をタスクに近いテキストであると判別した場合、図１０の右上図に示すように優先度を高く設定する。「タスクに近い」とは、利用者の入力意図が反映された可能性が高いテキストが含まれることであり、端末装置２０または制御対象デバイス３０に対する操作の意味合いが高いテキストが含まれることである。

また、情報処理装置１００の管理者は、音声認識結果のＲ６をタスクから遠いテキストであると判別した場合、図１０の右下図に示すように優先度を低く設定する。

また、情報処理装置１００の管理者は、音声認識結果Ｒ１、Ｒ２、Ｒ３、Ｒ５、およびＲ７についてもタスクから遠いテキストであると判別し、優先度を低く設定する。タスクテキストの優先度は、例えば、タスクテキストの文ベクトル値とともに、タスクテキストベクトルリスト１２０ｉに登録される。

タスクテキストベクトルリスト１２０ｉは、１０個程度のクラスタ構造をとってもよく、その場合タスクの意味内容が類似するタスクテキストをクラスタとして取りまとめる。クラスタは、例えば、ｋ平均法（k-means clustering）等により構成される。意味内容の類似評価については後述する。

また、タスクテキストベクトルリスト１２０ｉには、被検索効率を高めることを目的としてクラスタ毎に代表ベクトルが設定され、その代表ベクトルが格納されてもよい。代表ベクトルとは、例えば、クラスタを構成するタスクテキストの文ベクトルの平均でもよいし、タスクテキストの優先度と文ベクトルによる加重平均であってもよい。

なお、選択部１１４は、抽出対象テキストに位置情報が付与される場合、その位置情報から利用者の入力環境を推定し、抽出対象テキスト利用者のタスクの実行意図を含むものであるか否かを判別し、判別結果に基づいて後続の処理を行ってもよい。

例えば、選択部１１４は、抽出対象テキストの位置情報から利用者が自宅リビングにいることが推定される場合には、リビングで利用する制御対象デバイス３０に関するタスクの適合率を高く設定し、同時にオフィスで利用する制御対象デバイス３０に関するタスクの適合率を低く設定することで対応するタスクが選択される確度（適合率の高さ）を変更してよい。

例えば、図１０の例においては、音声データＩ３が利用者の自宅リビングに対応付いた位置情報を持つ場合に、「年休がほしい」よりも「電球がほしい」というタスクの実行意図を含むテキストが認識される可能性が高いため、「電球がほしい」の適合率を高く設定している。一方、音声データＩ３が利用者のオフィスに対応付いた位置情報を持つ場合に、「電球がほしい」よりも「年休がほしい」というタスクの実行意図を含むテキストが認識される可能性が高い場合（「電球が欲しい」という音声データＩ３を受け付ける可能性が低い場合）には、図示の例とは異なる適合率（例えば、「電球がほしい」と「年休がほしい」の適合率を逆にするなど）が設定されてもよい。

図１１は、代表ベクトルを説明するための図である。

選択部１１４は、例えば、タスクテキストを選択する際に、まず代表ベクトルと、抽出対象テキストの文ベクトルとを比較してクラスタを選択し、次に選択したクラスタの中から、好適なタスクテキストを選択する。

［抽出対象テキストの指標値］
選択部１１４は、上述のような「タスクに近い」テキストであるか否かの判定要素として、ｔｆ－ｉｄｆ値を用いる。

図１２は、抽出対象テキストの指標値を説明するための図である。

抽出対象テキストに含まれる一文Ｓ１（以下、「抽出対象テキストＳ１」と称する）が「来週／の／土曜／温泉／に／行きたい／ん／だけど／いい／温泉／は／ある／の」（／：単語の区切り位置）という１４単語である場合、ベクトル変換部１１２は、頻出性計算部１０６および希少性計算部１０８による計算結果に基づいて、単語ごとのテキスト内での「重要度」の判定元情報となる文ベクトルを生成する。

以下の説明において、コーパスＩ１に２００，０００文が含まれており、コーパスＩ１に単語「温泉」という単語を含む文が１５０文含まれ、コーパスＩ１に単語「の」を含む文が３０,０００文含まれるものとして説明する。

なお、図１２の例において、抽出対象テキストＳ１は「被解析文」の一例である。また、抽出対象テキストＳ１に含まれる二重下線を引いた単語「温泉」は「第１ワード」の一例である。また、抽出対象テキストＳ１に含まれる下線を引いた単語「の」や、抽出対象テキストＳ２に含まれる下線を引いた単語「の」は、それぞれ以下の説明において着目する「第１ワード」の一例である。

また、タスクテキストＳ３およびタスクテキストＳ４は、図６のタスクテキストＩ２に含まれるタスクテキストの一例である。タスクテキストＳ３は、「着目文」の一例であり、タスクテキストＳ４は「着目文以外の文」の一例である。タスクテキストＳ３に含まれる二重下線を引いた単語「温泉」は「第２ワード」の一例である。また、タスクテキストＳ３およびタスクテキストＳ４に含まれる下線を引いた単語「の」は、「第２ワード」の一例である。

図１２の例において、頻出性計算部１０６は、抽出対象テキストＳ１に含まれる単語「温泉」のｔｆ値を、２／１４（抽出対象テキストＳ１を構成する１４単語のうち２単語を占める）であると計算する。同様に、頻出性計算部１０６は、抽出対象テキストＳ１に含まれる単語「の」のｔｆ値を、２／１４であると計算する。

希少性計算部１０８は、抽出対象テキストＳ１に含まれる単語「温泉」のｉｄｆ値を、log(200000／150)と計算する。同様に、希少性計算部１０８は、抽出対象テキストＳ１に含まれる単語「の」のｉｄｆ値を、log(200000／30000)であると計算する。

次に、ベクトル変換部１１２は、抽出対象テキストＳ１に含まれる単語のそれぞれの頻出性計算部１０６および希少性計算部１０８による計算結果を乗算して、抽出対象テキストＳ１に含まれる単語のそれぞれのｔｆ－ｉｄｆ値を導出する。

例えば、ベクトル変換部１１２は、抽出対象テキストＳ１に含まれる単語「温泉」のｔｆ－ｉｄｆ値を、２／１４×ｌｏｇ（２０００００／１５０）≒０．４４６であると導出する。同様に、ベクトル変換部１１２は、抽出対象テキストＳ１に含まれる単語「の」のｔｆ－ｉｄｆ値を、２／１４×ｌｏｇ（２０００００／３００００）≒０．１１８であると導出する。

ベクトル変換部１１２により導出されたｔｆ－ｉｄｆ値がより大きい値となる単語は、抽出対象テキストＳ１においてより「重要度」の高い単語である。すなわち、図１２の抽出対象テキストＳ１において、ベクトル変換部１１２により導出されたｔｆ－ｉｄｆ値に基づいて評価すると、単語「温泉」がより重要度の高い単語である。

ベクトル変換部１１２は、抽出対象テキストに含まれる一文Ｓ２「来週／の／天気／の／情報」に対して抽出対象テキストＳ１と同様にｔｆ－ｉｄｆ値を導出する。

また、ベクトル変換部１１２は、タスクテキストＩ２に含まれる一文Ｓ３「近く／の／温泉／を／調べて／ほしい」およびタスクテキストＩ２に含まれる一文Ｓ４「明日／の／東京／の／天気」のそれぞれに対して、タスクテキストに含まれる第２ワードのｔｆ値およびｉｄｆ値を導出して、ｔｆ－ｉｄｆ値を導出する。

［文ベクトル（ｔｆ－ｉｄｆベクトル）］
図１３は、ベクトル変換部１１２により導出されたｔｆ－ｉｄｆ値の一例を示す図である。

ベクトル変換部１１２は、抽出対象テキストが「今日／の／天気／を／教えて」である場合、抽出対象テキストに含まれる単語のそれぞれのｔｆ－ｉｄｆ値を導出する。ベクトル変換部１１２は、例えば、単語「今日」のｔｆ－ｉｄｆ値は０．５であり、単語「の」のｔｆ－ｉｄｆ値は０．０２であると導出したとする。

図１４は、文ベクトルのｔｆ－ｉｄｆベクトルを説明するための図である。

ベクトル変換部１１２は、図１２に示したように抽出対象テキストに含まれる単語のそれぞれのｔｆ－ｉｄｆ値の導出結果を用いて、ｔｆ－ｉｄｆベクトルを生成する。例えば、ベクトル変換部１１２がテキスト「今日／の／天気／を／教えて／が」からｔｆ－ｉｄｆベクトルを生成する場合、図１４に示すような分散表現によるベクトルで表現することができる。なお、テキストに含まれる単語「が」は、抽出対象テキストに含まれない単語の一例である。抽出対象テキストに含まれない単語のｔｆ－ｉｄｆベクトル値は０である。

同様に、ベクトル変換部１１２は、コーパスの解析結果１２０ｃに対してもｔｆ－ｉｄｆベクトル値を導出する処理を行っておく。そのようにすることによって、選択部１１４による選択処理においてｔｆ－ｉｄｆベクトル値を参照することが可能になるため、言語モデル１２０ｂの生成のために好適な文ベクトルを選択することができ、高精度の言語モデル１２０ｂの生成が言語モデル生成部１１６ａにより実現される。

［信頼度］
以下、信頼度導出部１１４ａの信頼度導出処理についてより具体的に説明する。信頼度とは、音声認識結果の信頼性を評価する度合を０から１．０の間の数値で示すものであって、認識結果をどれだけ信頼してよいかを表す尺度である。

信頼度導出部１１４ａは、例えば、テキストの信頼性が高い場合、すなわち、他の競合候補となるテキストが存在しない場合に信頼度を１．０に設定する。信頼度は、例えば、大語彙連続音声認識エンジンの検索結果として得られる単語の事後確率を用いて導出される。なお、信頼度の導出には、ｐ＊(ｔｆ－ｉｄｆベクトル値の類似度)が用いられてもよい。

図１５は、信頼度導出部１１４ａによる信頼度導出処理を説明するための図である。

信頼度導出部１１４ａは、例えば、抽出対象テキストＥ１～Ｅ４のそれぞれの信頼度を導出する。選択部１１４は、例えば、信頼度導出部１１４ａが導出した信頼度が閾値（例えば、０．８程度）以上である抽出対象テキストＥ１およびＥ４を優先的にタスクテキストとして選択する。なお、選択部１１４は、複数のタスクテキストが選択可能である場合、信頼度の高いタスクテキストを優先的に選択してもよい。

また、信頼度導出部１１４ａは、信頼度を所定の周期で再設定してもよい。その場合、信頼度導出部１１４ａは、抽出対象テキストＥ１～Ｅ４のうち、誤り（誤変換が含まれたり、タスクテキストに適合するものがなかったりするなどのこと）である可能性の高い抽出対象テキストＥ２およびＥ３に対して、より低い信頼度を設定することで、選択部１１４による処理精度を高めてもよい。

選択部１１４は、信頼度導出部１１４ａにより導出された信頼度に基づいて、被解析文に対応する文ベクトルを選択する。選択部１１４は、例えば、信頼度導出部１１４ａにより導出された信頼度が閾値以上である解析結果から得られた被解析文を優先的に選択する。信頼度導出部１１４ａにより信頼度が設定されることによって、誤った被認識文が言語モデル１２０ｂに反映されることを避けることができる。

また、選択部１１４は、信頼度導出部１１４ａにより導出された信頼度が閾値以上である文ベクトルが見つかった場合、選択処理が途中であったとしても、その選択処理を中断することによって、言語モデル１２０ｂの生成処理に要する処理時間を短縮してもよい。

［テキストの意味内容の類似評価］
以下、テキストの意味内容の類似評価方法について説明する。

言語モデル演算部１１６は、例えば、抽出対象テキストの文ベクトル（以下、「ベクトルｖｉ」と称する）と、各クラスタの代表ベクトルＶとに対してコサイン類似度を求める数式に適用することで、テキストの意味内容の類似評価を行う。コサイン類似度を求める数式は、例えば、任意の文ベクトルｖ１と任意の文ベクトルｖ２の積を、文ベクトルｖ１の絶対値と文ベクトルｖ２の絶対値の積で除算する式であり、演算結果が１に近ければ文ベクトルｖ１と文ベクトルｖ２が類似していることを示す式である。

言語モデル演算部１１６は、導出したコサイン類似度が閾値以上であれば、文ベクトルｖ１と文ベクトルｖ２とが類似である、すなわち、文ベクトルｖ１の導出元のテキストと文ベクトルｖ２の導出元のテキストが同一または類似の意味内容であると判定する。

図１６は、類似評価方法について説明するための図である。

言語モデル演算部１１６は、例えば、抽出対象テキスト「今日の天気はどうかな」のベクトルｖｉを導出する。言語モデル演算部１１６は、「今日の天気を教えて」、「明日の天気を教えて」、「天気は晴れか教えて」などの文ベクトルを含むクラスタＣ１の代表ベクトル（以下、「クラスタ代表ベクトルＣＶ１」と称する）や、「音楽の音を小さくして」などの文ベクトルを含むクラスタＣ２の代表ベクトル（以下、「クラスタ代表ベクトルＣＶ２」と称する）と、ベクトルｖｉとをコサイン類似度を求める数式に適用してテキストの意味内容の類似度を評価する。

なお、クラスタＣ１に含まれるタスクテキストのそれぞれは、「教師文」の一例である。

例えば、図示のように、ベクトルｖｉとクラスタ代表ベクトルＣＶ１の類似度が０．７５であり、ベクトルｖｉとクラスタ代表ベクトルＣＶ２の類似度が０．１である場合、言語モデル演算部１１６は、より類似度の高いクラスタ代表ベクトルＣＶ１の導出元であるクラスタＣ１が、抽出対象テキストのベクトルｖｉとの同一または類似の意味内容であると判定する。

言語モデル演算部１１６は、さらに、クラスタＣ１に含まれるタスクテキストの中から、抽出対象テキストのベクトルｖｉと同一または類似の意味内容であるタスクテキストを選択する。

言語モデル生成部１１６ａは、言語モデル生成部１１６ａにより選択されたタスク文の意味合いを、抽出対象テキストＳ１の意味合いとして対応付けたデータを生成するような言語モデル１２０ｂを生成する。

図示の例においては、例えば、抽出対象テキスト「今日の天気はどうかな」と、クラスタＣ１の中でタスクテキスト「今日の天気を教えて」がのベクトル値の類似性が高い（最も意味合いが近い）と判定されたとする。その場合、言語モデル１２０ｂは抽出対象テキスト「今日の天気はどうかな」が入力されると、上述のようなベクトルの類似性の評価の結果が推定に反映されて、抽出対象テキストがタスクテキスト「今日の天気を教えて」と同一または類似の意味合いであると推定する。

指令出力部１１８は、推定結果であるタスクテキスト「今日の天気を教えて」に基づく指令を端末装置２０に出力する。これにより、端末装置２０は、情報処理装置１００の処理結果に基づいて、タスクテキスト「今日の天気を教えて」に基づく指令（例えば、ネットワークＮＷを介して今日の天気に関する情報を取得することなど）を実行する。

なお、テキストの意味内容の類似評価は、コサイン類似度以外の方法で評価されてもよく、レーベンシュタイン距離によるテキスト比較評価や、ジャロ・ウィンクラー距離によるテキスト比較評価などの評価が行われてもよい。

［言語モデル生成処理フロー］
以下、情報処理装置１００による言語モデル１２０ｂの生成処理について説明する。情報処理装置１００は、例えば、コーパスＩ１の種別毎に言語モデル１２０ｂを生成する。また、情報処理装置１００の管理者により、定期的に言語モデル演算用テキスト１２０ｈの変更・更新が行われてもよく、例えば、言語モデル演算用テキスト１２０ｈの変更・更新のタイミングで言語モデル１２０ｂの再生成が行われる。

図１７は、情報処理装置１００による言語モデル１２０ｂの生成処理の流れの一例を示すフローチャートである。

まず、取得部１０２は、コーパスとして利用する文字情報（コーパスＩ１）を取得する（Ｓ１００）。次に、解析部１０４は、コーパスＩ１を音響モデル１２０ａに適用するなどにより実現される形態素解析等の解析方法により解析し、解析結果をコーパスの解析結果１２０ｃとして記憶部１２０に格納する（Ｓ１０２）。次に、Ｗ２Ｖ実行部１１０は、コーパスの解析結果１２０ｃに含まれる文字情報を構成する単語のそれぞれのベクトル値（単語ベクトル）を生成し（Ｓ１０４）、単語ベクトルリスト１２０ｆとして記憶部１２０に格納する（Ｓ１０６）。

次に、取得部１０２は、タスクテキストＩ２を取得する（Ｓ１０６）。次に、解析部１０４は、タスクテキストＩ２をコーパスＩ１と同様に解析し（Ｓ１０８）、解析結果をタスクテキストの解析結果１２０ｄとして記憶部１２０に格納する（Ｓ１１０）。

次に、取得部１０２は、抽出対象テキストの元情報である音声データＩ３を取得する（Ｓ１１２）。次に、解析部１０４は、音声データＩ３をコーパスＩ１およびタスクテキストＩ２と同様に解析し、解析結果を抽出対象テキストの解析結果１２０ｅとして記憶部１２０に格納する（Ｓ１１４）。

次に、ベクトル変換部１１２は、タスクテキストの解析結果１２０ｄと単語ベクトルリスト１２０ｆを参照して、タスクテキストの文ベクトルを生成し、タスクテキストベクトルリスト１２０ｉとして記憶部１２０に格納する（Ｓ１１４）。次に、ベクトル変換部１１２は、抽出対象テキストの文ベクトルを生成する（Ｓ１１６）。

次に、選択部１１４は、抽出対象テキストの文ベクトルおよびタスクテキストの文ベクトルに基づいて、言語モデル１２０ｂの元となる（言語モデル１２０ｂに反映させる）文ベクトルを選択する（Ｓ１１８）。次に、言語モデル生成部１１６ａは、選択部１１４による選択結果に基づいて、言語モデル１２０ｂを生成する（Ｓ１２０）。以上、本フローチャートの処理の説明を終了する。

［音声認識処理］
図１８は、情報処理装置１００による音声認識処理の流れの一例を示すフローチャートである。

まず、取得部１０２は、端末装置２０から音声データＩ２を取得する（Ｓ２００）。次に、解析部１０４は、取得部１０２により出力された音声データＩ２を音響モデル１２０ａに適用し、抽出対象テキストを生成する（Ｓ２０２）。

次に、言語モデル演算部１１６は、解析部１０４により出力された抽出対象テキストを言語モデル１２０ｂに適用する（Ｓ２０４）。次に、選択部１１４は、言語モデル演算部１１６により出力された適用結果から、好適候補を選択する（Ｓ２０６）。

次に、言語モデル生成部１１６ａは、好適候補に基づいて出力情報を生成する（Ｓ２０８）。次に、指令出力部１１８は、出力情報を端末装置２０等に出力する（Ｓ２１０）。以上、本フローチャートの処理の説明を終了する。

以上、説明した実施形態の情報処理装置１００によれば、音声データを取得する取得部１０２と、取得部１０２により取得された音声データを解析してテキストに変換する解析部１０４と、解析部１０４による解析結果のテキストに含まれる複数の第１ワードのそれぞれについて、テキストに含まれ且つ第１ワードが含まれる被解析文（音声データＩ３）の中における第１ワードの頻出性と、ライブラリ情報に含まれる文に対する第１ワードの希少性とを評価した第１指標値である、ｔｆ値およびｉｄｆ値（またはｔｆ―ｉｄｆベクトル）を導出して被解析文に対応付けることと、コーパスＩ１、タスクテキストＩ２および言語モデル演算用テキスト１２０ｈなどのライブラリ情報に含まれる複数の第２ワードのそれぞれについて、ライブラリ情報に含まれ且つ第２ワードが含まれる着目文の中における第２ワードの頻出性と、ライブラリ情報に含まれる着目文以外の文に対する第２ワードの希少性とを評価した第２指標値であるｔｆ値およびｉｄｆ値（またはｔｆ―ｉｄｆベクトル）を導出して、着目文に対応付けることとのうち少なくとも一方を行う頻出性計算部１０６および希少性計算部１０８と、解析部１０４により解析された文を分散表現によるベクトル値に変換するベクトル変換部１１２と、頻出性計算部１０６および希少性計算部１０８により導出された第１指標値または第２指標値のうち少なくとも一方と、ベクトル変換部１１２によるベクトル変換結果とに基づいて、被解析文または着目文から一部の文を選択する選択部１１４と、意味合いが既知であり且つ文ベクトルが求められている教師文のうち、選択部１１４により選択された選択文と文ベクトルが近い教師文の意味合いを、選択文の意味合いとして対応付けたデータを生成する言語モデル生成部１１６ａと、を備えることにより、より効率的且つ高精度に音声認識処理を行うことができる。

〔変形例〕
言語モデル生成部１１６ａの生成する言語モデル１２０ｂは、固定の単語に特化した言語モデルであってもよい。「固定の単語に特化」とは、例えば、入力される言語に必ず固定の単語（上述の例における「天気」や「温泉」、「野球」など）、または固定の単語と同一または類似の単語が含まれ、固定の単語に関する処理のみを想定することである。

その場合、頻出性計算部１０６および希少性計算部１０８は、抽出対象テキストに基づいて言語モデルを生成する場合、第１ワードを固定して処理を行い、コーパスに基づいて言語モデルを生成する場合、第２ワードを固定して処理を行う。また、頻出性計算部１０６および希少性計算部１０８は、コーパスと抽出対象テキストの両方に基づいて言語モデルを生成する場合、第１ワードおよび第２ワードを同じワードに固定して処理を行う。これにより、例えば、単語「温泉」に特化した言語モデル１２０ｂや、単語「天気」に特化した言語モデル１２０ｂを生成することができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

２０…端末装置、３０…制御対象デバイス、４０…サービスサーバ、１００…情報処理装置、１０２…取得部、１０４…解析部、１０６…頻出性計算部、１０８…希少性計算部、１１０…Ｗ２Ｖ実行部、１１２…ベクトル変換部、１１４…選択部、１１４ａ…信頼度導出部、１１６…言語モデル演算部、１１６ａ…言語モデル生成部、１１８…指令出力部、１２０ｂ…言語モデル

Claims

音声データを取得する取得部と、
前記音声データを解析してテキストに変換する解析部と、
前記解析部による解析結果のテキストに含まれる複数の第１ワードのそれぞれについて、前記テキストに含まれ且つ前記第１ワードが含まれる被解析文の中における前記第１ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第１ワードの希少性とを評価した第１指標値を導出して前記被解析文に対応付けることを行う指標値導出部と、
前記解析部により解析された文を分散表現によるベクトル値に変換するベクトル変換部と、
前記指標値導出部により導出された前記第１指標値と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文から一部の文を選択する選択部と、
意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、前記選択部により選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成する生成部と、
を備え、
前記指標値導出部は、前記ライブラリ情報に含まれる複数の第２ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第２ワードが含まれる着目文の中における前記第２ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第２ワードの希少性とを評価した第２指標値を導出して前記着目文に対応付けることをさらに行い、
前記選択部は、前記指標値導出部により導出された前記第１指標値または第２指標値のうち少なくとも一方と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
前記指標値導出部は、
前記第１指標値のみ導出する場合、前記第１ワードを固定して処理を行い、
前記第２指標値のみ導出する場合、前記第２ワードを固定して処理を行い、
前記第１指標値および前記第２指標値を導出する場合、前記第１ワードおよび前記第２ワードを同じワードに固定して処理を行い、
前記生成部は、前記固定したワードごとに前記対応付けたデータを生成する、
情報処理装置。
音声データを取得する取得部と、
前記音声データを解析してテキストに変換する解析部と、
前記解析部による解析結果のテキストに含まれる複数の第１ワードのそれぞれについて、前記テキストに含まれ且つ前記第１ワードが含まれる被解析文の中における前記第１ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第１ワードの希少性とを評価した第１指標値を導出して前記被解析文に対応付けることを行う指標値導出部と、
前記解析部により解析された文を分散表現によるベクトル値に変換するベクトル変換部と、
前記指標値導出部により導出された前記第１指標値と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文から一部の文を選択する選択部と、
意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、前記選択部により選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成する生成部と、
を備え、
前記指標値導出部は、前記ライブラリ情報に含まれる複数の第２ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第２ワードが含まれる着目文の中における前記第２ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第２ワードの希少性とを評価した第２指標値を導出して前記着目文に対応付けることをさらに行い、
前記選択部は、前記指標値導出部により導出された前記第１指標値または第２指標値のうち少なくとも一方と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
前記ベクトル変換部により変換されたベクトル値に基づいて、被認識文の意味合いを推定し、推定結果に基づく指令を出力する指令出力部を更に備え、
前記ベクトル変換部は、前記解析部による解析結果のテキストに含まれる被認識文を分散表現によるベクトル値に変換し、
前記指令出力部は、前記対応付けたデータに含まれる文とのベクトル値の類似性に基づいて、被認識文の意味合いを推定し、前記推定結果に基づく指令を出力し、
前記選択部は、前記音声データに付与された位置情報に基づいて、前記音声データが利用者のタスクの実行意図を含むものであるか否かを判別する、
情報処理装置。
前記第１指標値と第２指標値とのうち少なくとも一方は、ｔｆ－ｉｄｆ値である、
請求項１または２に記載の情報処理装置。
前記解析結果の信頼度を導出する、信頼度導出部をさらに備え、
前記選択部は、前記信頼度に基づいて前記被解析文を選択する、
請求項１から３のうちいずれか１項に記載の情報処理装置。
前記選択部は、前記信頼度が閾値以上である前記解析結果から得られた前記被解析文を優先的に選択する、
請求項４に記載の情報処理装置。
前記選択部は、前記信頼度が閾値以上である解析結果から得られた前記被解析文を選択した場合、選択処理を終了する、
請求項５に記載の情報処理装置。
前記選択部は、前記位置情報に基づいて推定される前記音声データの入力環境に応じて、対応するタスクが選択される確度を変更する、
請求項２に記載の情報処理装置。
コンピュータが、
音声データを取得し、
前記音声データを解析してテキストに変換し、
解析結果のテキストに含まれる複数の第１ワードのそれぞれについて、前記テキストに含まれ且つ前記第１ワードが含まれる被解析文の中における前記第１ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第１ワードの希少性とを評価した第１指標値を導出して前記被解析文に対応付けることを行い、
被解析文を分散表現によるベクトル値に変換し、
前記第１指標値と、ベクトル変換結果とに基づいて、前記被解析文から一部の文を選択し、
意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成し、
前記ライブラリ情報に含まれる複数の第２ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第２ワードが含まれる着目文の中における前記第２ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第２ワードの希少性とを評価した第２指標値を導出して前記着目文に対応付けることをさらに行い、
前記選択する処理において、前記第１指標値または前記第２指標値のうち少なくとも一方と、前記ベクトル変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
前記第１指標値または前記第２指標値を導出する際に、
前記第１指標値のみ導出する場合、前記第１ワードを固定して処理を行い、
前記第２指標値のみ導出する場合、前記第２ワードを固定して処理を行い、
前記第１指標値および前記第２指標値を導出する場合、前記第１ワードおよび前記第２ワードを同じワードに固定して処理を行い、
前記固定したワードごとに前記対応付けたデータを生成する、
情報処理方法。
コンピュータが、
音声データを取得し、
前記音声データを解析してテキストに変換し、
解析結果のテキストに含まれる複数の第１ワードのそれぞれについて、前記テキストに含まれ且つ前記第１ワードが含まれる被解析文の中における前記第１ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第１ワードの希少性とを評価した第１指標値を導出して前記被解析文に対応付けることを行い、
被解析文を分散表現によるベクトル値に変換し、
前記第１指標値と、ベクトル変換結果とに基づいて、前記被解析文から一部の文を選択し、
意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成し、
前記ライブラリ情報に含まれる複数の第２ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第２ワードが含まれる着目文の中における前記第２ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第２ワードの希少性とを評価した第２指標値を導出して前記着目文に対応付けることをさらに行い、
前記選択する処理において、前記第１指標値または前記第２指標値のうち少なくとも一方と、前記ベクトル変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
前記変換されたベクトル値に基づいて、被認識文の意味合いを推定し、推定結果に基づく指令を出力し、
前記解析結果のテキストに含まれる被認識文を分散表現によるベクトル値に変換し、
前記対応付けたデータに含まれる文とのベクトル値の類似性に基づいて、被認識文の意味合いを推定し、前記推定結果に基づく指令を出力し、
前記音声データに付与された位置情報に基づいて、前記音声データが利用者のタスクの実行意図を含むものであるか否かを判別する、
情報処理方法。
コンピュータに、
音声データを取得し、
前記音声データを解析してテキストに変換し、
解析結果のテキストに含まれる複数の第１ワードのそれぞれについて、前記テキストに含まれ且つ前記第１ワードが含まれる被解析文の中における前記第１ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第１ワードの希少性とを評価した第１指標値を導出して前記被解析文に対応付けることを行い、
被解析文を分散表現によるベクトル値に変換し、
前記第１指標値と、ベクトル変換結果とに基づいて、前記被解析文から一部の文を選択し、
意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成し、
前記ライブラリ情報に含まれる複数の第２ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第２ワードが含まれる着目文の中における前記第２ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第２ワードの希少性とを評価した第２指標値を導出して前記着目文に対応付けることをさらに行い、
前記選択する処理において、前記第１指標値または前記第２指標値のうち少なくとも一方と、前記ベクトル変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
前記第１指標値または前記第２指標値を導出する際に、
前記第１指標値のみ導出する場合、前記第１ワードを固定して処理を行い、
前記第２指標値のみ導出する場合、前記第２ワードを固定して処理を行い、
前記第１指標値および前記第２指標値を導出する場合、前記第１ワードおよび前記第２ワードを同じワードに固定して処理を行い、
前記固定したワードごとに前記対応付けたデータを生成する、
ことを行わせるプログラム。
コンピュータに、
音声データを取得し、
前記音声データを解析してテキストに変換し、
解析結果のテキストに含まれる複数の第１ワードのそれぞれについて、前記テキストに含まれ且つ前記第１ワードが含まれる被解析文の中における前記第１ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第１ワードの希少性とを評価した第１指標値を導出して前記被解析文に対応付けることを行い、
被解析文を分散表現によるベクトル値に変換し、
前記第１指標値と、ベクトル変換結果とに基づいて、前記被解析文から一部の文を選択し、
意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成し、
前記ライブラリ情報に含まれる複数の第２ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第２ワードが含まれる着目文の中における前記第２ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第２ワードの希少性とを評価した第２指標値を導出して前記着目文に対応付けることをさらに行い、
前記選択する処理において、前記第１指標値または前記第２指標値のうち少なくとも一方と、前記ベクトル変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
前記変換されたベクトル値に基づいて、被認識文の意味合いを推定し、推定結果に基づく指令を出力し、
前記解析結果のテキストに含まれる被認識文を分散表現によるベクトル値に変換し、
前記対応付けたデータに含まれる文とのベクトル値の類似性に基づいて、被認識文の意味合いを推定し、前記推定結果に基づく指令を出力し、
前記音声データに付与された位置情報に基づいて、前記音声データが利用者のタスクの実行意図を含むものであるか否かを判別する、
ことを行わせるプログラム。