JP2020042131A

JP2020042131A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2020042131A
Application number: JP2018168724A
Authority: JP
Inventors: 賢昭佐藤; Takaaki Sato; 純平三宅; Junpei Miyake
Original assignee: Z Holdings Corp
Current assignee: LY Corp
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2020-03-19
Anticipated expiration: 2038-09-10
Also published as: JP7058574B2

Abstract

【課題】より効率的に音声認識処理をすることができる情報処理装置、情報処理方法、およびプログラムを提供すること。【解決手段】音声データを取得する取得部と、前記音声データを解析してテキストに変換した、１以上の解析結果を出力する解析部と、前記解析結果に係る前記入力テキストに含まれる複数の単語のそれぞれを示す分散表現によるベクトル値に変換するベクトル変換部と、前記ベクトル変換部により変換されたベクトル値と、前記入力意図が既知の入力テキストに対応し、予め求められている前記既知の入力テキストのベクトル値とに基づいて、前記１以上の解析結果から前記音声データに係る音声を発した利用者の入力テキストの入力意図が反映された可能性の高い前記解析結果を選択する選択部と、を備える、情報処理装置である。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

潜在語言語モデルを用いて音声認識を行う技術が知られている（特許文献１参照）。潜在語言語モデルとは、学習テキスト（コーパス）中の各単語に対する潜在語を考慮したモデルである。

特許第５９７５９３８号公報

しかしながら、従来の技術では、コーパスの各語に対して数万個ある潜在語候補の確率をそれぞれ求める必要があり、語彙が多い場合等では、処理負荷が高くなり、音声認識結果の出力に時間を要する可能性がある。

本発明は、このような事情を考慮してなされたものであり、より効率的に音声認識処理をすることができる情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。

本発明の一態様は、音声データを取得する取得部と、前記音声データを解析してテキストに変換した、１以上の解析結果を出力する解析部と、前記解析結果に係る前記入力テキストに含まれる複数の単語のそれぞれを示す分散表現によるベクトル値に変換するベクトル変換部と、前記ベクトル変換部により変換されたベクトル値と、前記入力意図が既知の入力テキストに対応し、予め求められている前記既知の入力テキストのベクトル値とに基づいて、前記１以上の解析結果から前記音声データに係る音声を発した利用者の入力テキストの入力意図が反映された可能性の高い前記解析結果を選択する選択部と、を備える情報処理装置である。

本発明の一態様によれば、より効率的に音声認識処理をすることができる。

実施形態に係る情報処理装置１００の使用環境の一例を示す図である。情報処理装置１００の処理を模式的に示す図である。実施形態に係る情報処理装置１００の構成図である。Ｗ２Ｖ実行部１０６によるベクトル変換処理を説明するための図である。文ベクトルを説明するための図である。選別部１１０による好適候補選別を模式的に示す図である。タスクテキストを説明するための図である。信頼度導出部１１０ａによる信頼度導出処理を説明するための図である。タスクテキストベクトルリスト１２０ｇを模式的に示す図である。代表ベクトルを説明するための図である。類似評価方法について説明するための図である。言語モデル演算部１１２による、クラスタ選択を模式的に示す図である。情報処理装置１００による言語モデル生成処理の流れの一例を示すフローチャートである。情報処理装置１００による音声認識処理の流れの一例を示すフローチャートである。

以下、図面を参照し、本発明の情報処理装置、情報処理方法、およびプログラムの実施形態について説明する。

［概要］
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、利用者の発した音声を収録した音声データを受信し、受信した入力データの音声認識処理を行い、認識の結果に基づいて種々の処理を行う装置である。種々の処理としては、音声を発した利用者の意図に沿ったＩｏＴ（Internet of Things）機器の制御を行うこと、利用者の質問に対して応答することなどがある。以下、利用者の意図する情報処理装置の動作をタスクと称する場合がある。なお音声データは、圧縮や暗号化などの処理が施されたものであってもよい。

図１は、実施形態に係る情報処理装置１００の使用環境の一例を示す図である。図示する環境では、端末装置２０、制御対象デバイス３０、およびサービスサーバ４０は、ネットワークＮＷを介して互いに通信する。ネットワークＮＷは、例えば、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、インターネット、プロバイダ装置、無線基地局、専用回線などのうちの一部または全部を含む。図１に示す例では、制御対象デバイス３０の数は、Ｎ（Ｎは、１以上の整数）個である。なお、本明細書では、制御対象デバイス３０−１〜３０−Ｎにおいて、共通の事項を説明する場合など、個々の制御対象デバイス３０−１〜３０−Ｎを区別しない場合には、単に制御対象デバイス３０と呼ぶ。

端末装置２０は、利用者の音声入力を受け付ける装置である。端末装置２０は、スマートフォンなどの携帯電話、タブレット端末、パーソナルコンピュータ、スマートスピーカ（ＡＩスピーカ）等である。

制御対象デバイス３０は、通信機能と、外部からの制御を受け付けるインターフェースとを備え、利用者により操作される端末装置２０からのリクエストに応じて制御可能なＩｏＴ機器である。制御対象デバイス３０は、例えば、テレビやラジオ、照明器具、冷蔵庫、電子レンジ、洗濯機、炊飯器、自走式掃除機、空調機器などである。

サービスサーバ４０は、利用者により操作される端末装置２０からのリクエストに対応するウェブページを提供するウェブサーバ装置、アプリケーションが起動された端末装置２０と通信を行って各種情報の受け渡しを行ってコンテンツを提供するアプリケーションサーバ装置等である。

図２は、情報処理装置１００の処理を模式的に示す図である。情報処理装置１００は、利用者が端末装置２０を介して入力された音声データを音響モデルに適用することで音素に変換し、音素に基づいて１以上の候補テキスト（音声データに含まれる音をテキスト化したもの）を生成し、さらに生成した候補テキストのうち既知のタスク特徴量との比較に基づいて選択した候補テキストを言語モデルに適用することで、好適候補を選択する。好適候補とは、候補テキストの中で利用者の意図が反映された可能性が高い好適な候補であると判定されたものである。

音響モデルとは、周波数成分や時間変化を統計的に分析し、入力された音声データがどのような音素で構成されるか（何と言っているか）を判別するためのモデルである。音素とは、アルファベットや仮名などの言語の最小単位を特定するためのラベルであり、例えば、母音や子音等を含む。情報処理装置１００は、音素を言語ルールに従って適宜、結合することで候補テキストを得る。

図２に示すように、音素変換の結果、生成した候補テキストが“kyonotenki”である場合、例えば、”k”や”t”は生成した候補テキストに含まれる音素を示すものである。音声認識処理が日本語を前提として行われる場合、候補テキストは、アルファベット表記で表されてもよいし、ひらがな表記またはカタカナ表記で表されてもよい。図２に示す例において、情報処理装置１００は、受け付けた音声データに基づいて、“kyonotenki”、“kyonotenkii”、“kyonodenki”を含む候補テキストを生成する。

情報処理装置１００は、図２に示す例において、“kyonotenki”、“kyonotenkii”、“kyonodenki”を含む変換候補のそれぞれに対して形態素解析を行う。形態素解析とは、候補テキストを構成する単語の区切りを決定し、区切られたそれぞれの単語の例えば品詞を導出する処理である。形態素解析は、例えば、ＭｅＣＡＢなどの形態素解析エンジンを利用して行われる。情報処理装置１００は、例えば、候補テキスト“kyonotenki”を解析した結果、「今日（kyo）」、「の(no)」、「天気(tenki)」の３つの単語を導出する。同様に、候補テキスト“kyonotenkii”を解析した結果、「今日（kyo）」、「の(no) 」、「テンキー(tenkii)」を、候補テキスト“kyonodenki”を解析した結果、「京（kyo）」、「の(no) 」、「電気(denki)」を生成する。

情報処理装置１００は、１以上の候補テキストのそれぞれから生成した解析結果を評価する。そして、評価値に基づいて１つの候補テキストを選択し、より具体的に、情報処理装置１００は、候補テキストの解析結果の、既知のタスク音声から得られた特徴量との適合率を評価し、利用者の意図に沿ったものと推定される好適候補を選択する。そして、情報処理装置１００は、意図に対応する出力情報を生成するタスクに関する命令を出力する。適合率については後述する。

［構成］
図３は、情報処理装置１００の構成図である。情報処理装置１００は、例えば、取得部１０２と、解析部１０４と、Ｗ２Ｖ（Word2Vec）実行部１０６と、テキストベクトル生成部１０８と、選別部１１０と、言語モデル演算部１１２と、選択部１１４と、出力情報生成部１１６と、出力部１１８と、記憶部１２０とを備える。これらの構成要素は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。また、これらの構成要素のうち一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め情報処理装置１００のＨＤＤやフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ−ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることで情報処理装置１００のＨＤＤやフラッシュメモリにインストールされてもよい。

記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、レジスタ、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）などにより実現される。記憶部１２０は、例えば、音響モデル１２０ａ、言語モデル１２０ｂ、コーパスの解析結果１２０ｃ、タスクテキストの解析結果１２０ｄ、候補テキストの解析結果１２０ｅ、単語ベクトルリスト１２０ｆ、タスクテキストベクトルリスト１２０ｇ、言語モデル演算用テキスト１２０ｈなどの情報を記憶する。

取得部１０２は、情報処理装置１００が音声認識処理を行う上でコーパスとして利用する文字情報（例えば、ニュース等の記事データや、ＳＮＳ（Social Networking Service）の投稿データ）を取得し、解析部１０４に出力する。なお、コーパスとして利用する文字情報は、口語形式のテキスト（例えば、ＳＮＳにおける投稿履歴や、自動応答装置における利用者と装置の会話履歴、現実の会話をテキストに直したもの、自装置の音声処理履歴など）が含まれることが望ましい。また、取得部１０２は、情報処理装置１００の管理者が設定した定型タスクを示す文字情報のデータセット（以下、タスクテキスト）を取得し、解析部１０４に出力する。

また、取得部１０２は、端末装置２０の利用者により入力された音声データを取得し、解析部１０４に出力する。取得部１０２が取得した音声データに利用者の位置情報が付与される場合、その位置情報は、候補テキストと併せて管理されるものとする。

解析部１０４は、取得部１０２により出力されたコーパスとして利用する文字情報を所定の解析方法で解析する。所定の解析方法とは、例えば、形態素解析である。形態素解析とは、文字情報を名詞、動詞、助詞等の品詞の単位で分解することである。解析部１０４は、解析結果をコーパスの解析結果１２０ｃとして記憶部１２０に記憶させる。また、解析部１０４は、取得部１０２により出力されたタスクテキストを解析し、解析結果をタスクテキストの解析結果１２０ｄとして記憶部１２０に記憶させる。

また、解析部１０４は、取得部１０２により出力された音声データを音響モデル１２０ａに適用して１以上の候補テキストを生成した後に、それぞれの候補テキストに対して形態素解析等の解析処理を行う。また、解析部１０４は、解析結果を候補テキストの解析結果１２０ｅとして記憶部１２０に記憶させる。

図４は、Ｗ２Ｖ実行部１０６によるベクトル変換処理を説明するための図である。Ｗ２Ｖ実行部１０６は、例えば、コーパスの解析結果１２０ｃに含まれる各単語の意味をベクトル表現化（分散表現化）して単語ベクトルを生成する。図４の例では、Ｗ２Ｖ実行部１０６は、「ボリューム」の単語ベクトルを生成している。Ｗ２Ｖ実行部１０６は、「音」と「ボリューム」、「ミュージック」と「音楽」のように意味の近い単語同士で単語ベクトル間の距離（コサイン類似度）が近くなるように、単語ベクトルを生成する。Ｗ２Ｖ実行部１０６は、生成したベクトル値を記憶部に単語ベクトルリスト１２０ｆとして記憶部１２０に記憶させる。Ｗ２Ｖ実行部１０６は、「ベクトル変換部」の一例である。

また、Ｗ２Ｖ実行部１０６は、単語ベクトルリスト１２０ｆに記憶されていない単語がタスクテキストまたは候補テキストに含まれる場合、タスクテキストの解析結果１２０ｄ、または候補テキストの解析結果１２０ｅを、例えばコーパスに追加することで同様に解析し、それらのベクトル値を生成してもよい。このベクトル値は、単語ベクトルリスト１２０ｆに記憶されてもよいし、記憶されなくてもよい。

図３に戻り、テキストベクトル生成部１０８は、タスクテキストの解析結果１２０ｄ、候補テキストの解析結果１２０ｅ、および単語ベクトルリスト１２０ｆのベクトル値を用いて、候補テキストの文単位のベクトル値（以下、文ベクトル）を生成する。テキストベクトル生成部１０８は、生成した文ベクトルを選別部１１０に出力する。

図５は、文ベクトルについて説明するための図である。テキストベクトル生成部１０８は、例えば、「ボリュームを下げて」の文ベクトルを生成する場合、「ボリューム」、「を」、および「下げて」の単語ベクトルに所定の演算を行うことで（例えば、それぞれの単語ベクトルを加算することで）、文ベクトルを生成する。この結果、文を構成する単語の単語ベクトルを合計した文ベクトルについても同様に、「音楽の音を小さくして」と「ボリュームを下げて」のように意味が近い文の文ベクトル同士の距離は近くなる。

また、テキストベクトル生成部１０８は、タスクテキストの解析結果１２０ｄおよびＷ２Ｖ実行部１０６により出力された単語ベクトルを用いて、タスクテキストの文ベクトルを生成し、タスクテキストベクトルリスト１２０ｇとして記憶部１２０に記憶させる。タスクテキストは、利用者の意図を含んでいることが既知のテキストであり、例えば、情報処理装置１００の管理者によってあらかじめ設定される。

図３に戻り、選別部１１０は、候補テキストの文ベクトル、タスクテキストの文ベクトル、および言語モデル演算用テキスト１２０ｈの文ベクトルに基づいて、言語モデル１２０ｂの元となる文ベクトルを選別する。選別部１１０は、選別結果を言語モデル演算部１１２に出力する。言語モデル演算用テキスト１２０ｈとは、例えば、情報処理装置１００の管理者が想定するタスクテキストの文ベクトルや、過去の情報処理装置１００の音声認識処理履歴として保持する文ベクトルである。

選別部１１０は、例えば、信頼度導出部１１０ａを備える。信頼度導出部１１０ａによる優先度導出処理については後述する。

言語モデル演算部１１２は、例えば、言語モデル生成部１１２ａを備える。言語モデル生成部１１２ａは、選別部１１０により出力された選別結果を適用した言語モデルを生成し、コーパス毎の言語モデル１２０ｂとして記憶部１２０に記憶させる。言語モデル生成部１１２ａは、例えば、情報処理装置１００の管理者があらかじめ設定した言語モデル演算用テキスト１２０ｈ、および選別部１１０により選択された変換候補に基づいて言語モデル１２０ｂを生成する。

また、言語モデル演算部１１２は、選別部１１０により出力された候補テキストを言語モデル１２０ｂに適用し、適用結果を選択部１１４に出力する。

選択部１１４は、言語モデル演算部１１２により出力された候補テキストを評価値に基づいて評価することで、利用者の入力意図が反映された可能性の高い好適候補を選択する。選択部１１４は、選択結果である好適候補を出力情報生成部１１６に出力する。

なお、選択部１１４は、候補テキストに位置情報が付与される場合、その位置情報から利用者の入力環境を推定し、候補テキスト利用者のタスクの実行意図を含むものであるか否かを評価し、評価結果に基づいて候補テキストを選択してもよい。例えば、選択部１１４は、候補テキストの位置情報から利用者が自宅にいることが推定される場合には、自宅で利用する制御対象デバイス３０に関するタスクの適合率を高く設定し、同時に職場で利用する制御対象デバイス３０に関するタスクの適合率を低く設定することで対応するタスクが選択される確度を変更してよい。

図６は、選択部１１４による好適候補選別を模式的に示す図である。言語モデルとは、候補テキストから、好適候補を生成するためのモデルである。選別部１１０は、例えば、候補ベクトルの文ベクトルとタスクテキストの文ベクトルの類似度から、タスクテキストに近いものほど高い評価値を与え、更に、言語モデルを用いて、単語の並びに関するスコアが高いものほど高い評価値を与える、これらの評価値を総合評価することで、好適候補を選択する。なお、言語モデルは、利用者の周辺環境を加味して評価を行うものでもよい。

図３に戻り、出力情報生成部１１６は、選択部１１４により出力された好適候補に基づいて、利用者の意図する出力情報を生成し、出力部１１８に出力する。出力情報には、出力先の装置を特定する情報、出力先の装置に対する処理リクエストなどが含まれる。

出力情報生成部１１６は、例えば、好適候補が「今日の天気を教えて」である場合、サービスサーバ４０の提供する天気予報のウェブサイトに対してリクエストを送信し、端末装置２０に送信するためのリクエストの応答の一部または全部を含む情報を出力情報とする。また、出力情報生成部１１６は、例えば、好適候補が「音楽の音量を下げて」である場合、音楽再生中の制御対象デバイス３０を特定し、音量を下げる命令を出力する。なお、出力情報生成部１１６は、出力先が制御対象デバイス３０の出力情報を生成する場合、端末装置２０に制御対象デバイス３０に対して出力情報を出力したことを通知する出力情報を併せて生成してもよい。

出力部１１８は、出力情報生成部１１６により出力された出力情報を、端末装置２０または制御対象デバイス３０に出力する。

［タスクテキスト］
以下、タスクテキストについて説明する。情報処理装置１００の管理者は、例えば、端末装置２０の過去の音声入力履歴や、情報処理装置１００の処理履歴に基づいて、選択部１１４が評価基準とするタスクテキストを抽出する。

図７は、タスクテキストを説明するための図である。図７の左図は、端末装置２０の過去の音声入力履歴の音声認識結果Ｒ１〜Ｒ７を示す。音声認識結果には、端末装置２０の利用者の入力意図が反映されたものと、利用者には入力意図はないが音声認識されたものとが含まれる。情報処理装置１００の管理者は、例えば、音声認識結果のＲ４をタスクに近いテキストであると判別した場合、図７の右上図に示すように優先度を高く設定する。タスクに近いとは、利用者の入力意図が反映された可能性が高いテキストが含まれることである。また、情報処理装置１００の管理者は、音声認識結果のＲ６をタスクから遠いテキストであると判別した場合、図７の右下図に示すように優先度を低く設定する。

また、情報処理装置１００の管理者は、Ｒ１、Ｒ２、Ｒ３、Ｒ５、およびＲ７についてもタスクから遠いテキストであると判別し、優先度を低く設定する。タスクテキストの優先度は、例えば、タスクテキストの文ベクトル値とともに、タスクテキストベクトルリスト１２０ｇに登録される。

［言語モデル生成処理フロー］
以下、情報処理装置１００による言語モデル１２０ｂの生成処理について説明する。情報処理装置１００は、例えば、コーパスの種別毎に言語モデル１２０ｂを生成する。また、情報処理装置１００の管理者により、定期的に言語モデル演算用テキスト１２０ｈの変更・更新が行われてもよく、例えば、そのタイミングで言語モデルの再生成が行われる。

図８は、情報処理装置１００による言語モデル１２０ｂの生成処理の流れの一例を示すフローチャートである。

まず、取得部１０２は、コーパスとして利用する文字情報を取得する（Ｓ１００）。次に、解析部１０４は、コーパスとして利用する文字情報を解析し、解析結果をコーパスの解析結果１２０ｃとして記憶部１２０に記憶させる（Ｓ１０２）。次に、Ｗ２Ｖ実行部１０６は、コーパスの解析結果１２０ｃに含まれる単語のベクトル値を生成し、単語ベクトルリスト１２０ｆとして記憶部１２０に記憶させる（Ｓ１０４）。

次に、取得部１０２は、タスクテキストを取得する（Ｓ１０６）。次に、解析部１０４は、タスクテキストを解析し、解析結果をタスクテキストの解析結果１２０ｄとして記憶部１２０に記憶させる（Ｓ１０８）。

次に、取得部１０２は、候補テキストを取得する（Ｓ１１０）。次に、解析部１０４は、候補テキストを解析し、解析結果を候補テキストの解析結果１２０ｅとして記憶部１２０に記憶させる（Ｓ１１２）。

次に、テキストベクトル生成部１０８は、タスクテキストの解析結果１２０ｄと単語ベクトルリスト１２０ｆを参照して、タスクテキストの文ベクトルを生成し、タスクテキストベクトルリスト１２０ｇとして記憶部１２０に記憶させる（Ｓ１１４）。

次に、選別部１１０は、候補テキストを選別し、言語モデル生成部１１２ａに出力する（Ｓ１１６）。

次に、言語モデル生成部１１２ａは、選別部１１０により出力された候補テキストと、言語モデル演算用テキスト１２０ｈとに基づいて、言語モデル１２０ｂを生成する（Ｓ１２０）。以上、本フローチャートの処理の説明を終了する。

［信頼度］
以下、信頼度導出部１１０ａの信頼度導出処理についてより具体的に説明する。信頼度とは、音声認識結果の信頼性を評価する度合を０から１．０の間の数値で示すものである。信頼度導出部１１０ａは、例えば、テキストの信頼性が高い場合、すなわち、他の競合候補となるテキストが存在しない場合に信頼度を１．０に設定する。信頼度は、例えば、大語彙連続音声認識エンジンの検索結果として得られる単語の事後確率を用いて導出される。

図９は、信頼度導出部１１０ａによる信頼度導出処理を説明するための図である。信頼度導出部１１０ａは、例えば、候補テキストＥ１〜Ｅ４のそれぞれの信頼度を導出する。選別部１１０は、例えば、信頼度導出部１１０ａが導出した信頼度が閾値（例えば、０．８程度）以上である候補テキストＥ１およびＥ４をタスクテキストとして選択する。なお、選別部１１０は、複数のタスクテキストが選択可能である場合、信頼度の高いタスクテキストを優先的に選択してもよい。

［ベクトルリストのクラスタリング］
図１０は、タスクテキストベクトルリスト１２０ｇを模式的に示す図である。タスクテキストベクトルリスト１２０ｇは、例えば、１０個程度のクラスタ構造をとる。類似するタスクテキストをクラスタとして取りまとめる。クラスタは、例えば、ｋ平均法（k-means clustering）等により構成される。

また、タスクテキストベクトルリスト１２０ｇは、クラスタ毎に代表ベクトルを導出しておくことで、被検索効率を高めることができる。代表ベクトルとは、例えば、クラスタを構成するタスクテキストの文ベクトルの平均でもよいし、タスクテキストの優先度と文ベクトルによる加重平均であってもよい。

図１１は、代表ベクトルを説明するための図である。選別部１１０は、タスクテキストを選択する際に、まず代表ベクトルと、候補テキストの文ベクトルとを比較してクラスタを選択し、次に選択したクラスタの中から、好適なタスクテキストを選択する。

［テキストの類似評価］
以下、テキストの類似評価方法について説明する。図１２は、類似評価方法について説明するための図である。

言語モデル演算部１１２は、例えば、「ボリュームを下げて」の文ベクトルｖ１、および「音楽の音を小さくして」の文ベクトルｖ２を、式（１）に示すコサイン類似度を求める数式に適用することで、テキストの類似度を評価する。

式（１）は、文ベクトルｖ１と文ベクトルｖ２の積を、文ベクトルｖ１の絶対値と文ベクトルｖ２の絶対値の積で除算することを表す式であり、演算結果が１に近ければ文ベクトルｖ１と文ベクトルｖ２が類似していることを示す。

言語モデル演算部１１２は、コサイン類似度が閾値以上であれば、文ベクトルｖ１と文ベクトルｖ２とが類似である、すなわち、元のテキストが同一または類似の入力意図を示すと判別する。

言語モデル演算部１１２は、例えば、クラスタの代表ベクトルと候補テキストの文ベクトルとの類似評価を行う。図１３は、言語モデル演算部１１２による、クラスタ選択を模式的に示す図である。

言語モデル演算部１１２は、図１３に示すように、例えば、候補テキスト「ボリュームを下げてほしいなあ」の文ベクトルと、クラスタＣ１およびＣ２の代表ベクトルとの類似度をそれぞれ導出し、類似度が高いクラスタＣ２を第１段階の選択対象として選択する。さらに、言語モデル演算部１１２は、選択したクラスタＣ２の中から第２段階の選択対象として１以上の好適なタスクテキストを選択する。

［音声認識処理］
図１４は、情報処理装置１００による音声認識処理の流れの一例を示すフローチャートである。

まず、取得部１０２は、音声データを取得する（Ｓ２００）。次に、解析部１０４は、取得部１０２により出力された音声データを音響モデル１２０ａに適用し、候補テキストを生成する（Ｓ２０２）。次に、言語モデル演算部１１２は、解析部１０４により出力された候補テキストを言語モデル１２０ｂに適用する（Ｓ２０４）。次に、選択部１１４は、言語モデル演算部１１２により出力された適用結果から、好適候補を選択する（Ｓ２０６）。次に、出力情報生成部１１６は、好適候補に基づいて出力情報を生成する（Ｓ２０８）。次に、出力部１１８は、出力情報を端末装置２０等に出力する（Ｓ２１０）。以上、本フローチャートの処理の説明を終了する。

以上、説明した実施形態の情報処理装置１００によれば、音声データを取得する取得部１０２と、音声データを解析して候補テキストに変換した、１以上の解析結果を出力する解析部１０４と、解析結果に係る候補テキストに含まれる複数の単語のそれぞれを示す分散表現によるベクトル値に変換するＷ２Ｖ実行部１０６と、Ｗ２Ｖ実行部１０６により変換されたベクトル値と、音声データに係る音声を発した利用者の入力テキストの入力意図が既知の入力テキストに対応し、予め求められている単語ベクトルリスト１２０ｆとに基づいて、１以上の解析結果から入力意図が反映された可能性の高い解析結果を選択する選択部１１４と、を備えることにより、より効率的に音声認識処理を行うことができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１００…情報処理装置、２０…端末装置、３０…制御対象デバイス、４０…サービスサーバ、１００…情報処理装置、１０２…取得部、１０４…解析部、１０６…Ｗ２Ｖ実行部、１０８…テキストベクトル生成部、１１０…選別部、１１０ａ…信頼度導出部、１１２…言語モデル演算部、１１４…選択部、１１６…出力情報生成部、１１８…出力部

Claims

音声データを取得する取得部と、
前記音声データを解析してテキストに変換した、１以上の解析結果を出力する解析部と、
前記解析結果に係る前記テキストに含まれる複数の単語のそれぞれを示す分散表現によるベクトル値に変換するベクトル変換部と、
前記ベクトル変換部により変換されたベクトル値と、前記音声データに係る音声を発した利用者の入力テキストの入力意図が既知の入力テキストに対応し、予め求められている前記既知の入力テキストのベクトル値とに基づいて、前記１以上の解析結果から前記入力意図が反映された可能性の高い前記解析結果を選択する選択部と、
を備える情報処理装置。
前記解析結果の信頼度を導出する、信頼度導出部をさらに備え、
前記選択部は、前記信頼度に基づいて選択する前記解析結果を変更する、
請求項１に記載の情報処理装置。
前記選択部は、前記信頼度が閾値以上である前記解析結果を優先的に選択する、
請求項２に記載の情報処理装置。
前記ベクトル変換部は、意味の類似度が所定の度合以上の前記既知の入力テキストの一群であるクラスタの代表ベクトルを導出し、
前記選択部は、前記代表ベクトルを用いて前記解析結果の第１段階の選択を行い、その後、前記第１段階の選択により選択された前記クラスタから前記利用者の入力テキストの入力意図が反映された可能性の高い前記解析結果を選択する、
請求項１から３のいずれか１項に記載の情報処理装置。
前記選択部は、前記音声データに付与された位置情報に基づいて、前記音声データが利用者のタスクの実行意図を含むものであるか否かを判別する、
請求項１から４のいずれか１項に記載の情報処理装置。
前記選択部は、前記位置情報に基づいて推定される前記音声データの入力環境に応じて、前記対応するタスクの選択する確度を変更する、
請求項５に記載の情報処理装置。
前記選択部による選択結果に基づいて、前記入力意図に対応する出力情報を生成するタスクに関する命令を出力する出力情報生成部を更に備える、
請求項１から６のいずれか１項に記載の情報処理装置。
コンピュータが、
音声データを取得し、
前記音声データを解析してテキストに変換した、１以上の解析結果を出力し、
前記解析結果に係る前記テキストに含まれる複数の単語のそれぞれを示す分散表現によるベクトル値に変換し、
変換されたベクトル値と、前記音声データに係る音声を発した利用者の入力テキストの入力意図が既知の入力テキストに対応し、予め求められている前記既知の入力テキストのベクトル値とに基づいて、前記１以上の解析結果から前記入力意図が反映された可能性の高い前記解析結果を選択する、
情報処理方法。
コンピュータに、
音声データを取得させ、
前記音声データを解析させてテキストに変換させた、１以上の解析結果を出力させ、
前記解析結果に係る前記テキストに含まれる複数の単語のそれぞれを示す分散表現によるベクトル値に変換させ、
変換されたベクトル値と、前記音声データに係る音声を発した利用者の入力テキストの入力意図が既知の入力テキストに対応し、予め求められている前記既知の入力テキストのベクトル値とに基づいて、前記１以上の解析結果から前記入力意図が反映された可能性の高い前記解析結果を選択させる、
プログラム。