JP7096199B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP7096199B2
JP7096199B2 JP2019092572A JP2019092572A JP7096199B2 JP 7096199 B2 JP7096199 B2 JP 7096199B2 JP 2019092572 A JP2019092572 A JP 2019092572A JP 2019092572 A JP2019092572 A JP 2019092572A JP 7096199 B2 JP7096199 B2 JP 7096199B2
Authority
JP
Japan
Prior art keywords
sentence
word
index value
vector
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019092572A
Other languages
English (en)
Other versions
JP2020187282A (ja
Inventor
賢昭 佐藤
純平 三宅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2019092572A priority Critical patent/JP7096199B2/ja
Publication of JP2020187282A publication Critical patent/JP2020187282A/ja
Application granted granted Critical
Publication of JP7096199B2 publication Critical patent/JP7096199B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
音声認識結果を含む確からしさに基づいて音声認識を行う技術が知られている(特許文献1参照)。確からしさは、例えば、コーパスとの単純な比較結果や、音声認識結果とコーパスとの類似度を評価する結果に基づいて設定される。
特開2016-206487号公報
しかしながら、従来の技術では、コーパスの各語に対して数万個ある潜在語候補から好適な候補を抽出するための処理に時間を要し、効率的な音声認識処理が実現されない可能性があった。また、コーパスの各語から好適な候補を抽出することの精度向上が十分検討されていない可能性があった。
本発明は、このような事情を考慮してなされたものであり、より効率的、且つ高精度に音声認識処理をすることができる情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。
本発明の一態様は、音声データを取得する取得部と、前記音声データを解析してテキストに変換する解析部と、前記解析部による解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、前記テキストに含まれ且つ前記第1ワードが含まれる被解析文の中における前記第1ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第1ワードの希少性とを評価した第1指標値を導出して前記被解析文に対応付けることを行う指標値導出部と、前記解析部により解析された文を分散表現によるベクトル値に変換するベクトル変換部と、前記指標値導出部により導出された前記第1指標値と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択する選択部と、意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、前記選択部により選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成する生成部と、を備える、情報処理装置である。
本発明の一態様によれば、より効率的、且つ高精度に音声認識処理をすることができる。
実施形態に係る情報処理装置100の使用環境の一例を示す図である。 情報処理装置100の処理を模式的に示す図である。 WFSTについて説明するための図である。 WFSTについて説明するための図である。 WFSTについて説明するための図である。 実施形態に係る情報処理装置100の構成図である。 W2V実行部110によるベクトル変換処理を説明するための図である。 文ベクトルを説明するための図である。 選択部114による好適候補選択を模式的に示す図である。 タスクテキストを説明するための図である。 代表ベクトルを説明するための図である。 抽出対象テキストの指標値を説明するための図である。 ベクトル変換部112により導出されたtf-idf値の一例を示す図である。 文ベクトルのtf-idfベクトルを説明するための図である。 信頼度導出部114aによる信頼度導出処理を説明するための図である。 類似評価方法について説明するための図である。 情報処理装置100による言語モデル生成処理の流れの一例を示すフローチャートである。 情報処理装置100による音声認識処理の流れの一例を示すフローチャートである。
以下、図面を参照し、本発明の情報処理装置、情報処理方法、およびプログラムの実施形態について説明する。
[概要]
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、利用者の発した音声を収録した音声データを受信し、受信した入力データの音声認識処理を行い、認識の結果に基づいて種々の処理を行う装置(以下、「端末装置」と称する)に対して、言語モデルを提供するための装置である。種々の処理としては、音声を発した利用者の意図に沿ったIoT(Internet of Things)機器の制御を行うこと、利用者の質問に対して応答することなどがある。
言語モデルとは、音声認識処理において、入力データをテキスト変換する自然言語処理モデルであり、入力結果をテキストに変換した結果が正解である可能性の高い変換結果についての確率を内包するものである。以下、利用者の意図する端末装置の動作を「タスク」と称する場合がある。なお音声データは、圧縮や暗号化などの処理が施されたものであってもよい。
図1は、実施形態に係る情報処理装置100の使用環境の一例を示す図である。
図示する環境では、端末装置20、制御対象デバイス30、およびサービスサーバ40は、ネットワークNWを介して互いに通信する。ネットワークNWは、例えば、WAN(Wide Area Network)、LAN(Local Area Network)、インターネット、プロバイダ装置、無線基地局、専用回線などのうちの一部または全部を含む。図1に示す例では、制御対象デバイス30の数は、N(Nは、1以上の整数)個である。なお、本明細書では、制御対象デバイス30-1~30-Nにおいて、共通の事項を説明する場合など、個々の制御対象デバイス30-1~30-Nを区別しない場合には、単に制御対象デバイス30と呼ぶ。
端末装置20は、利用者の音声入力を受け付ける装置である。端末装置20は、スマートフォンなどの携帯電話、タブレット端末、パーソナルコンピュータ、スマートスピーカ(AIスピーカ)等である。
制御対象デバイス30は、通信機能と、外部からの制御を受け付けるインターフェースとを備え、利用者により操作される端末装置20からの指令に応じて制御可能なIoT機器である。制御対象デバイス30は、例えば、テレビやラジオ、照明器具、冷蔵庫、電子レンジ、洗濯機、炊飯器、自走式掃除機、空調機器、車両などである。
なお、制御対象デバイス30は、端末装置20自身である可能性がある。すなわち、端末装置20は、情報処理装置100による処理結果に応じて何らかの検索処理を行ったり、電話をかけたり、メッセージを送信したりすることがある。
サービスサーバ40は、利用者により操作される端末装置20からの指令に対応するウェブページを提供するウェブサーバ装置、アプリケーションが起動された端末装置20と通信を行って各種情報の受け渡しを行ってコンテンツを提供するアプリケーションサーバ装置等である。
図2は、情報処理装置100の処理を模式的に示す図である。
情報処理装置100は、利用者が端末装置20を介して入力された音声データを音響モデルに適用することで音素に変換し、音素に基づいて1以上の抽出対象テキスト(音声データに含まれる音をテキスト化したもの)を生成し、さらに生成した抽出対象テキストのうち既知のタスク特徴量との比較に基づいて選択した抽出対象テキストを言語モデルに適用することで、好適候補を選択する。好適候補とは、抽出対象テキストの中で利用者の意図が反映された可能性が高い好適なテキストであると判定されたものであって、端末装置20または制御対象デバイスの操作を示唆するテキストである。
音響モデルとは、周波数成分や時間変化を統計的に分析し、入力された音声データがどのような音素で構成されるか(何と言っているか)を判別するためのモデルである。音素とは、アルファベットや仮名などの言語の最小単位を特定するためのラベルであり、例えば、母音や子音等を含む。情報処理装置100は、音素を言語ルールに従って適宜、結合することで抽出対象テキストを得る。
図2に示すように、音素変換の結果、生成した抽出対象テキストが“kyonotenki”である場合、例えば、”k”や”t”は生成した抽出対象テキストに含まれる音素を示すものである。音声認識処理が日本語を前提として行われる場合、抽出対象テキストは、アルファベット表記で表されてもよいし、ひらがな表記またはカタカナ表記で表されてもよい。図2に示す例において、情報処理装置100は、受け付けた音声データに基づいて、“kyonotenki”、“kyonotenkii”、“kyonodenki”を含む抽出対象テキストを生成する。
情報処理装置100の生成する言語モデルは、図2に示す例において、“kyonotenki”、“kyonotenkii”、“kyonodenki”を含む変換候補のそれぞれに対して形態素解析を行う。形態素解析とは、抽出対象テキストを構成する単語の区切りを決定し、区切られたそれぞれの単語の例えば品詞を導出する処理である。形態素解析は、例えば、MeCABなどの形態素解析エンジンを利用して行われる。
言語モデルは、例えば、抽出対象テキスト“kyonotenki”を解析した結果、「今日(kyo)」、「の(no)」、「天気(tenki)」の3つの単語を導出する。同様に、抽出対象テキスト“kyonotenkii”を解析した結果、「今日(kyo)」、「の(no)」、「テンキー(tenkii)」を、抽出対象テキスト“kyonodenki”を解析した結果、「京(kyo)」、「の(no)」、「電気(denki)」を生成する。このように、音声入力をひらがなから漢字変換する場合に、複数パターンの変換候補が生成される可能性がある。
言語モデルは、1以上の抽出対象テキストのそれぞれから生成した解析結果を評価する評価値を生成し、その評価値に基づいて複数パターンの変換候補の中から1つの抽出対象テキストを選択する。より具体的に、情報処理装置100は、抽出対象テキストの解析結果の、既知のタスク音声から得られた特徴量との適合率を評価し、利用者の意図に沿ったものと推定される好適候補を選択する。そして、情報処理装置100は、意図に対応する出力情報を生成するタスクに関する命令を出力する。
[WFST]
図3~図5は、音響モデルおよび言語モデルにより実現される、WFST(Weighted Finite-state Transducer;重みつき有限状態トランスデューサ)について説明するための図である。WFSTとは、入力データを「変換候補」と「その変換候補の確からしさの推定値」に変換する機構の一例である。
WFSTを用いた音声認識が行われる場合、端末装置20が受け付けた音声入力は、音響モデルによりトリフォン(Triphon)などの文脈依存の音素に変換される(図3)。次に、音響モデル(または言語モデル)は、音素から単語に変換する(図4)。次に、言語モデルは、単語から音声入力の変換結果となるテキストを生成する(図5)。言語モデルは、例えば、N-gram言語モデルである。例えば、言語モデルとして3-gramが採用される場合、3単語ごとに区切り、3単語ごとに意味合いが成立するか否かに基づいてテキスト全体の構成を決定する。
情報処理装置100は、上述のような形態素解析や、WFSTを用いた音声認識がより高速に、かつより高い処理精度で行われるように、好適な言語モデルを生成する。
[全体構成]
図6は、情報処理装置100の構成図である。情報処理装置100は、例えば、取得部102と、解析部104と、頻出性計算部106と、希少性計算部108と、W2V(Word2Vec)実行部110と、ベクトル変換部112と、選択部114と、言語モデル演算部116と、指令出力部118と、記憶部120とを備える。これらの構成要素(記憶部120を除く)は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。
また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め情報処理装置100のHDDやフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることで情報処理装置100のHDDやフラッシュメモリにインストールされてもよい。
記憶部120は、例えば、RAM(Random Access Memory)、レジスタ、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)などにより実現される。記憶部120は、例えば、音響モデル120a、言語モデル120b、コーパスの解析結果120c、タスクテキストの解析結果120d、抽出対象テキストの解析結果120e、単語ベクトルリスト120f、ベクトルリスト120g、言語モデル演算用テキスト120hなどの情報を記憶する。ベクトルリスト120gには、例えば、タスクテキストベクトルリスト120iと、抽出対象テキストベクトルリスト120jとが含まれる。
取得部102は、情報処理装置100が音声認識処理を行う上でコーパスとして利用する文字情報(以下、「コーパスI1」と称する)を取得し、解析部104に出力する。コーパスI1には、例えば、ニュース等の記事データや、SNS(Social Networking Service)の投稿データが含まれる。コーパスI1は、「ライブラリ情報」の一例である。
なお、コーパスI1は、口語形式のテキスト(例えば、SNSにおける投稿履歴や、自動応答装置における利用者と装置の会話履歴の書き下し文、現実の会話をテキストに直したもの、端末装置20から取得した音声入力に対する自装置の処理履歴の書き下し文など)であることが望ましい。
また、取得部102は、情報処理装置100の管理者が設定した定型タスクを示す文字情報のデータセット(以下、「タスクテキストI2」と称する)を取得し、解析部104に出力する。タスクテキストI2は「教師文」の一例である。
また、取得部102は、端末装置20の利用者により入力された音声データ(以下、「音声データI3」と称する)を取得し、解析部104に出力する。取得部102が取得した音声データI3に利用者の位置情報を含む場合がある。位置情報とは、例えば、端末装置20に含まれるGNSS(Global Navigation Satellite System)受信装置による処理結果であってもよい。また、端末装置20が主として特定の場所(例えば、利用者のリビング、利用者のオフィスなど)で利用される装置である場合には、その特定の場所に関する情報が位置情報に相当する。
解析部104は、取得部102により取得された情報に対して、解析を行い、テキスト(文字データ)に変換する。解析部104による解析とは、例えば、形態素解析である。
解析部104は、例えば、取得部102により出力されたコーパスI1に対して解析を行う。解析部104は、例えば、取得部102により出力されたコーパスI1を名詞、動詞、助詞等の品詞の単位で分解する。解析部104は、解析結果をコーパスの解析結果120cとして記憶部120に格納する。
また、解析部104は、取得部102より出力されたタスクテキストI2を解析し、解析結果をタスクテキストの解析結果120dとして記憶部120に格納する。
また、解析部104は、取得部102により出力された音声データI3を音響モデル120aに適用して1以上の抽出対象テキストを生成した後に、それぞれの抽出対象テキストに対して形態素解析等の解析処理を行う。また、解析部104は、解析結果を抽出対象テキストの解析結果120eとして記憶部120に格納する。
頻出性計算部106は、抽出対象テキストの解析結果120eから、抽出対象テキストに含まれる一文(以下、「被解析文」と称する)に含まれる複数の単語(以下、「第1ワード」と称する)のそれぞれについて頻出性を示す指標値を計算して、被解析文に対応付ける。頻出性計算部106は、例えば、抽出対象テキストの解析結果120eから、抽出対象テキストに含まれる一文に含まれる複数の単語のそれぞれについて、tf値(Term Frequency Value;頻出性を示す指標値)を計算して被解析文に対応付ける。
なお、頻出性計算部106は、コーパスの解析結果120cに含まれる一文に含まれる単語(以下、「第2ワード」と称する)のそれぞれに対するtf値をあらかじめ計算しておく。頻出性計算部106は、コーパスの解析結果120cに含まれる複数の第2ワードのそれぞれについて、コーパスの解析結果120cに含まれ且つ第2ワードが含まれるコーパスの一文(以下、「着目文」と称する)の中における第2ワードのtf値をあらかじめ計算しておき、着目文に対応付けておく。
希少性計算部108は、抽出対象テキストの解析結果120eから、抽出対象テキストに含まれる被解析文に含まれる第1ワードのそれぞれに対する希少性を示す指標値を計算して、被解析文に対応付ける。希少性計算部108は、例えば、抽出対象テキストの解析結果120eから、抽出対象テキストに含まれる被解析文に含まれる第1ワードのそれぞれに対するidf値(Inversed Document Frequency Value;希少性を示す指標値)を計算して、被解析文に対応付ける。
なお、希少性計算部108は、コーパスの解析結果120cに含まれる一文に含まれる第2ワードのそれぞれに対するidf値をあらかじめ計算しておき、着目文に対応付けておく。
頻出性計算部106および希少性計算部108は、第1ワードに対する指標値の設定と、第2ワードに対する指標値の設定のうち、少なくとも一方を行う。頻出性計算部106および希少性計算部108を併せ持つものは、「指標値導出部」の一例である。抽出対象テキストの解析結果120eに関する頻出性計算部106および希少性計算部108による計算結果は「第1指標値」の一例であり、コーパスの解析結果120cに関する頻出性計算部106および希少性計算部108による計算結果は「第2指標値」の一例である。
W2V実行部110は、解析部104により解析された文に含まれる単語のそれぞれを分散表現によるベクトル値に変換する。W2V実行部110は、例えば、コーパスの解析結果120cをベクトル値に変換し、変換結果を単語ベクトルリスト120fに格納する。
ベクトル変換部112は、解析部104により解析された文を分散表現によるベクトル値に変換する。ベクトル変換部112により生成されるベクトル値は、W2V実行部110により変換されたベクトル値と、頻出性計算部106および希少性計算部108による計算結果のうち、第1ワードに対する指標値または第2ワードに対する指標値のうち少なくとも一方に基づくものである。
ベクトル変換部112は、抽出対象テキストの解析結果120eおよび単語ベクトルリスト120fのベクトル値を用いて、抽出対象テキストの文単位のベクトル値(以下、抽出対象テキストの文ベクトル、または単に「文ベクトル」と称する)を生成する。
文ベクトルは、例えば、抽出対象テキストの解析結果120eがW2V実行部110により変換されたベクトル値と、頻出性計算部106および希少性計算部108による計算結果(以下、「tf-idf値」と称する)とを含むものである。ベクトル変換部112は、抽出対象テキストの文ベクトルを選択部114に出力する。
また、ベクトル変換部112は、タスクテキストの解析結果120dおよび単語ベクトルリスト120fのベクトル値を用いて、タスクテキストの文単位のベクトル値(以下、「タスクテキストの文ベクトル」と称する)を生成する。ベクトル変換部112は、タスクテキストの文ベクトルを選択部114に出力する。
選択部114は、言語モデル120bの生成過程において、抽出対象テキストの文ベクトルおよびタスクテキストの文ベクトルに基づいて、言語モデル120bの元となる(言語モデル120bに反映させる)文ベクトルを選択する。言語モデル120bの元となる文ベクトルの導出元であるテキストは、「選択文」の一例である。選択部114は、選択結果を言語モデル演算部116に出力する。
また、選択部114は、言語モデル120bの使用過程(情報処理装置100による音声認識処理過程)において、ベクトル変換部112による変換結果の一部または全部を言語モデル演算部116に出力する。
選択部114は、例えば、信頼度導出部114aを備える。信頼度導出部114aによる優先度導出処理については後述する。
言語モデル演算部116は、言語モデル120bに関連する処理を行う。
言語モデル演算部116は、例えば、言語モデル生成部116aを備える。言語モデル生成部116aは、言語モデル120bの生成過程において、選択部114により出力された選択結果を適用した言語モデルを生成し、言語モデル120bとして記憶部120に格納する。言語モデル生成部116aは、例えば、情報処理装置100の管理者があらかじめ設定した言語モデル演算用テキスト120h、および選択部114により選択された変換候補に基づいて言語モデル120bを生成する。
言語モデル演算用テキスト120hとは、例えば、情報処理装置100の管理者が想定するタスクテキストの文ベクトルや、過去の情報処理装置100の音声認識処理履歴として保持する文ベクトルである。言語モデル演算用テキスト120hには、コーパスI1やタスクテキストI2、音声データI3などと同一または類似の文から生成された文ベクトルが含まれてもよい。選択部114は、頻出性計算部106および希少性計算部108による第1ワードのtf-idf値または第2ワードのtf-idf値のうち少なくとも一方と、ベクトル変換部112による変換結果とに基づいて、被解析文または着目文から一部の文を選択する。
また、言語モデル演算部116は、言語モデル120bの使用過程(情報処理装置100による音声認識処理過程)において選択部114により出力された選択結果を言語モデル120bに適用し、適用した結果を指令出力部118に出力する。
指令出力部118は、言語モデル120bの使用過程(情報処理装置100による音声認識処理過程)において、ベクトル変換部112により変換されたベクトル値に基づいて、被認識文(選択された被解析文、または着目文)の意味合いを推定し、推定結果に基づく指令に関する情報(または指令そのもの)を出力する。指令出力部118により出力される指令には、端末装置20に行わせたい処理の指示、出力先の制御対象デバイス30を特定する情報、出力先の制御対象デバイス30に対する処理リクエストなどが含まれる。
指令出力部118は、例えば、言語モデル演算部116により出力された、言語モデル120bへの適用結果である好適候補が「今日の天気を教えて」である場合、サービスサーバ40の提供する天気予報のウェブサイトに対してリクエストを送信し、端末装置20に送信するための指令の応答の一部または全部を含む情報を出力情報とする。
また、指令出力部118は、例えば、好適候補が「音楽の音量を下げて」である場合、音楽再生中の制御対象デバイス30を特定し、音量を下げる命令を出力する。なお、指令出力部118は、出力先が制御対象デバイス30の出力情報を生成する場合、端末装置20に制御対象デバイス30に対して出力情報を出力したことを通知する出力情報を併せて生成してもよい。
〔W2Vベクトル変換〕
図7は、W2V実行部110によるベクトル変換処理を説明するための図である。
W2V実行部110は、例えば、コーパスの解析結果120cに含まれる各単語の意味をベクトル表現化(分散表現化)して単語ベクトルを生成する。図7の例では、W2V実行部110は、「ボリューム」の単語ベクトルを生成している。
W2V実行部110は、「音」と「ボリューム」、「ミュージック」と「音楽」のように意味の近い単語同士で単語ベクトル間の距離(コサイン類似度)が近くなるように、単語ベクトルを生成する。W2V実行部110は、生成したベクトル値を記憶部に単語ベクトルリスト120fとして記憶部120に格納する。
また、W2V実行部110は、単語ベクトルリスト120fに記憶されていない単語がタスクテキストまたは抽出対象テキストに含まれる場合、タスクテキストの解析結果120d、または抽出対象テキストの解析結果120eを、例えばコーパスに追加することで同様に解析し、それらのベクトル値を生成してもよい。このベクトル値は、W2V実行部110による処理の都度、単語ベクトルリスト120fに反映されてもよいし、反映されなくてもよい。
[文ベクトル]
図8は、文ベクトルについて説明するための図である。
ベクトル変換部112は、例えば、「ボリュームを下げて」の文ベクトルを生成する場合、「ボリューム」、「を」、および「下げて」の単語ベクトルに所定の演算を行うことで(例えば、それぞれの単語ベクトルを加算することで)、文ベクトルを生成する。
この結果、文を構成する単語の単語ベクトルを合計した文ベクトルについても同様に、「音楽の音を小さくして」と「ボリュームを下げて」のように意味が近い文の文ベクトル同士の距離は近くなる。
また、ベクトル変換部112は、タスクテキストの解析結果120dおよびW2V実行部110により出力された単語ベクトルを用いて、タスクテキストの文ベクトルを生成し、タスクテキストベクトルリスト120iとして記憶部120に格納する。タスクテキストは、利用者の意図を含んでいることが既知のテキストであり、例えば、情報処理装置100の管理者によってあらかじめ設定される。
[候補選択]
選択部114は、言語モデル演算部116により出力された抽出対象テキストを評価値に基づいて評価することで、利用者の入力意図が反映された可能性の高い好適候補を選択する。選択部114は、選択結果である好適候補を言語モデル演算部116に出力する。
図9は、選択部114による好適候補選択を模式的に示す図である。
言語モデルとは、抽出対象テキストから、好適候補を生成するためのモデルである。選択部114は、例えば、候補ベクトルの文ベクトルとタスクテキストの文ベクトルの類似度から、タスクテキストに近いものほど高い評価値を与え、更に、言語モデルを用いて、単語の並びに関するスコアが高いものほど高い評価値を与える、これらの評価値を総合評価することで、好適候補を選択する。なお、言語モデルは、利用者の周辺環境を加味して評価を行うものでもよい。
[タスクテキスト]
以下、タスクテキストについて説明する。情報処理装置100の管理者は、例えば、端末装置20の過去の音声入力履歴や、情報処理装置100の処理履歴に基づいて、言語モデル120bが生成される過程において選択部114が評価基準として参照するタスクテキストI2を抽出する。
図10は、タスクテキストを説明するための図である。
図10の左図は、端末装置20の過去の音声入力履歴の音声認識結果R1~R7を示す。音声認識結果には、端末装置20の利用者の入力意図が反映されたものと、利用者には入力意図はないが音声認識されたものとが含まれる。
情報処理装置100の管理者は、例えば、音声認識結果R4をタスクに近いテキストであると判別した場合、図10の右上図に示すように優先度を高く設定する。「タスクに近い」とは、利用者の入力意図が反映された可能性が高いテキストが含まれることであり、端末装置20または制御対象デバイス30に対する操作の意味合いが高いテキストが含まれることである。
また、情報処理装置100の管理者は、音声認識結果のR6をタスクから遠いテキストであると判別した場合、図10の右下図に示すように優先度を低く設定する。
また、情報処理装置100の管理者は、音声認識結果R1、R2、R3、R5、およびR7についてもタスクから遠いテキストであると判別し、優先度を低く設定する。タスクテキストの優先度は、例えば、タスクテキストの文ベクトル値とともに、タスクテキストベクトルリスト120iに登録される。
タスクテキストベクトルリスト120iは、10個程度のクラスタ構造をとってもよく、その場合タスクの意味内容が類似するタスクテキストをクラスタとして取りまとめる。クラスタは、例えば、k平均法(k-means clustering)等により構成される。意味内容の類似評価については後述する。
また、タスクテキストベクトルリスト120iには、被検索効率を高めることを目的としてクラスタ毎に代表ベクトルが設定され、その代表ベクトルが格納されてもよい。代表ベクトルとは、例えば、クラスタを構成するタスクテキストの文ベクトルの平均でもよいし、タスクテキストの優先度と文ベクトルによる加重平均であってもよい。
なお、選択部114は、抽出対象テキストに位置情報が付与される場合、その位置情報から利用者の入力環境を推定し、抽出対象テキスト利用者のタスクの実行意図を含むものであるか否かを判別し、判別結果に基づいて後続の処理を行ってもよい。
例えば、選択部114は、抽出対象テキストの位置情報から利用者が自宅リビングにいることが推定される場合には、リビングで利用する制御対象デバイス30に関するタスクの適合率を高く設定し、同時にオフィスで利用する制御対象デバイス30に関するタスクの適合率を低く設定することで対応するタスクが選択される確度(適合率の高さ)を変更してよい。
例えば、図10の例においては、音声データI3が利用者の自宅リビングに対応付いた位置情報を持つ場合に、「年休がほしい」よりも「電球がほしい」というタスクの実行意図を含むテキストが認識される可能性が高いため、「電球がほしい」の適合率を高く設定している。一方、音声データI3が利用者のオフィスに対応付いた位置情報を持つ場合に、「電球がほしい」よりも「年休がほしい」というタスクの実行意図を含むテキストが認識される可能性が高い場合(「電球が欲しい」という音声データI3を受け付ける可能性が低い場合)には、図示の例とは異なる適合率(例えば、「電球がほしい」と「年休がほしい」の適合率を逆にするなど)が設定されてもよい。
図11は、代表ベクトルを説明するための図である。
選択部114は、例えば、タスクテキストを選択する際に、まず代表ベクトルと、抽出対象テキストの文ベクトルとを比較してクラスタを選択し、次に選択したクラスタの中から、好適なタスクテキストを選択する。
[抽出対象テキストの指標値]
選択部114は、上述のような「タスクに近い」テキストであるか否かの判定要素として、tf-idf値を用いる。
図12は、抽出対象テキストの指標値を説明するための図である。
抽出対象テキストに含まれる一文S1(以下、「抽出対象テキストS1」と称する)が「来週/の/土曜/温泉/に/行きたい/ん/だけど/いい/温泉/は/ある/の」(/:単語の区切り位置)という14単語である場合、ベクトル変換部112は、頻出性計算部106および希少性計算部108による計算結果に基づいて、単語ごとのテキスト内での「重要度」の判定元情報となる文ベクトルを生成する。
以下の説明において、コーパスI1に200,000文が含まれており、コーパスI1に単語「温泉」という単語を含む文が150文含まれ、コーパスI1に単語「の」を含む文が30,000文含まれるものとして説明する。
なお、図12の例において、抽出対象テキストS1は「被解析文」の一例である。また、抽出対象テキストS1に含まれる二重下線を引いた単語「温泉」は「第1ワード」の一例である。また、抽出対象テキストS1に含まれる下線を引いた単語「の」や、抽出対象テキストS2に含まれる下線を引いた単語「の」は、それぞれ以下の説明において着目する「第1ワード」の一例である。
また、タスクテキストS3およびタスクテキストS4は、図6のタスクテキストI2に含まれるタスクテキストの一例である。タスクテキストS3は、「着目文」の一例であり、タスクテキストS4は「着目文以外の文」の一例である。タスクテキストS3に含まれる二重下線を引いた単語「温泉」は「第2ワード」の一例である。また、タスクテキストS3およびタスクテキストS4に含まれる下線を引いた単語「の」は、「第2ワード」の一例である。
図12の例において、頻出性計算部106は、抽出対象テキストS1に含まれる単語「温泉」のtf値を、2/14(抽出対象テキストS1を構成する14単語のうち2単語を占める)であると計算する。同様に、頻出性計算部106は、抽出対象テキストS1に含まれる単語「の」のtf値を、2/14であると計算する。
希少性計算部108は、抽出対象テキストS1に含まれる単語「温泉」のidf値を、log(200000/150)と計算する。同様に、希少性計算部108は、抽出対象テキストS1に含まれる単語「の」のidf値を、log(200000/30000)であると計算する。
次に、ベクトル変換部112は、抽出対象テキストS1に含まれる単語のそれぞれの頻出性計算部106および希少性計算部108による計算結果を乗算して、抽出対象テキストS1に含まれる単語のそれぞれのtf-idf値を導出する。
例えば、ベクトル変換部112は、抽出対象テキストS1に含まれる単語「温泉」のtf-idf値を、2/14×log(200000/150)≒0.446であると導出する。同様に、ベクトル変換部112は、抽出対象テキストS1に含まれる単語「の」のtf-idf値を、2/14×log(200000/30000)≒0.118であると導出する。
ベクトル変換部112により導出されたtf-idf値がより大きい値となる単語は、抽出対象テキストS1においてより「重要度」の高い単語である。すなわち、図12の抽出対象テキストS1において、ベクトル変換部112により導出されたtf-idf値に基づいて評価すると、単語「温泉」がより重要度の高い単語である。
ベクトル変換部112は、抽出対象テキストに含まれる一文S2「来週/の/天気/の/情報」に対して抽出対象テキストS1と同様にtf-idf値を導出する。
また、ベクトル変換部112は、タスクテキストI2に含まれる一文S3「近く/の/温泉/を/調べて/ほしい」およびタスクテキストI2に含まれる一文S4「明日/の/東京/の/天気」のそれぞれに対して、タスクテキストに含まれる第2ワードのtf値およびidf値を導出して、tf-idf値を導出する。
[文ベクトル(tf-idfベクトル)]
図13は、ベクトル変換部112により導出されたtf-idf値の一例を示す図である。
ベクトル変換部112は、抽出対象テキストが「今日/の/天気/を/教えて」である場合、抽出対象テキストに含まれる単語のそれぞれのtf-idf値を導出する。ベクトル変換部112は、例えば、単語「今日」のtf-idf値は0.5であり、単語「の」のtf-idf値は0.02であると導出したとする。
図14は、文ベクトルのtf-idfベクトルを説明するための図である。
ベクトル変換部112は、図12に示したように抽出対象テキストに含まれる単語のそれぞれのtf-idf値の導出結果を用いて、tf-idfベクトルを生成する。例えば、ベクトル変換部112がテキスト「今日/の/天気/を/教えて/が」からtf-idfベクトルを生成する場合、図14に示すような分散表現によるベクトルで表現することができる。なお、テキストに含まれる単語「が」は、抽出対象テキストに含まれない単語の一例である。抽出対象テキストに含まれない単語のtf-idfベクトル値は0である。
同様に、ベクトル変換部112は、コーパスの解析結果120cに対してもtf-idfベクトル値を導出する処理を行っておく。そのようにすることによって、選択部114による選択処理においてtf-idfベクトル値を参照することが可能になるため、言語モデル120bの生成のために好適な文ベクトルを選択することができ、高精度の言語モデル120bの生成が言語モデル生成部116aにより実現される。
[信頼度]
以下、信頼度導出部114aの信頼度導出処理についてより具体的に説明する。信頼度とは、音声認識結果の信頼性を評価する度合を0から1.0の間の数値で示すものであって、認識結果をどれだけ信頼してよいかを表す尺度である。
信頼度導出部114aは、例えば、テキストの信頼性が高い場合、すなわち、他の競合候補となるテキストが存在しない場合に信頼度を1.0に設定する。信頼度は、例えば、大語彙連続音声認識エンジンの検索結果として得られる単語の事後確率を用いて導出される。なお、信頼度の導出には、p*(tf-idfベクトル値の類似度)が用いられてもよい。
図15は、信頼度導出部114aによる信頼度導出処理を説明するための図である。
信頼度導出部114aは、例えば、抽出対象テキストE1~E4のそれぞれの信頼度を導出する。選択部114は、例えば、信頼度導出部114aが導出した信頼度が閾値(例えば、0.8程度)以上である抽出対象テキストE1およびE4を優先的にタスクテキストとして選択する。なお、選択部114は、複数のタスクテキストが選択可能である場合、信頼度の高いタスクテキストを優先的に選択してもよい。
また、信頼度導出部114aは、信頼度を所定の周期で再設定してもよい。その場合、信頼度導出部114aは、抽出対象テキストE1~E4のうち、誤り(誤変換が含まれたり、タスクテキストに適合するものがなかったりするなどのこと)である可能性の高い抽出対象テキストE2およびE3に対して、より低い信頼度を設定することで、選択部114による処理精度を高めてもよい。
選択部114は、信頼度導出部114aにより導出された信頼度に基づいて、被解析文に対応する文ベクトルを選択する。選択部114は、例えば、信頼度導出部114aにより導出された信頼度が閾値以上である解析結果から得られた被解析文を優先的に選択する。信頼度導出部114aにより信頼度が設定されることによって、誤った被認識文が言語モデル120bに反映されることを避けることができる。
また、選択部114は、信頼度導出部114aにより導出された信頼度が閾値以上である文ベクトルが見つかった場合、選択処理が途中であったとしても、その選択処理を中断することによって、言語モデル120bの生成処理に要する処理時間を短縮してもよい。
[テキストの意味内容の類似評価]
以下、テキストの意味内容の類似評価方法について説明する。
言語モデル演算部116は、例えば、抽出対象テキストの文ベクトル(以下、「ベクトルvi」と称する)と、各クラスタの代表ベクトルVとに対してコサイン類似度を求める数式に適用することで、テキストの意味内容の類似評価を行う。コサイン類似度を求める数式は、例えば、任意の文ベクトルv1と任意の文ベクトルv2の積を、文ベクトルv1の絶対値と文ベクトルv2の絶対値の積で除算する式であり、演算結果が1に近ければ文ベクトルv1と文ベクトルv2が類似していることを示す式である。
言語モデル演算部116は、導出したコサイン類似度が閾値以上であれば、文ベクトルv1と文ベクトルv2とが類似である、すなわち、文ベクトルv1の導出元のテキストと文ベクトルv2の導出元のテキストが同一または類似の意味内容であると判定する。
図16は、類似評価方法について説明するための図である。
言語モデル演算部116は、例えば、抽出対象テキスト「今日の天気はどうかな」のベクトルviを導出する。言語モデル演算部116は、「今日の天気を教えて」、「明日の天気を教えて」、「天気は晴れか教えて」などの文ベクトルを含むクラスタC1の代表ベクトル(以下、「クラスタ代表ベクトルCV1」と称する)や、「音楽の音を小さくして」などの文ベクトルを含むクラスタC2の代表ベクトル(以下、「クラスタ代表ベクトルCV2」と称する)と、ベクトルviとをコサイン類似度を求める数式に適用してテキストの意味内容の類似度を評価する。
なお、クラスタC1に含まれるタスクテキストのそれぞれは、「教師文」の一例である。
例えば、図示のように、ベクトルviとクラスタ代表ベクトルCV1の類似度が0.75であり、ベクトルviとクラスタ代表ベクトルCV2の類似度が0.1である場合、言語モデル演算部116は、より類似度の高いクラスタ代表ベクトルCV1の導出元であるクラスタC1が、抽出対象テキストのベクトルviとの同一または類似の意味内容であると判定する。
言語モデル演算部116は、さらに、クラスタC1に含まれるタスクテキストの中から、抽出対象テキストのベクトルviと同一または類似の意味内容であるタスクテキストを選択する。
言語モデル生成部116aは、言語モデル生成部116aにより選択されたタスク文の意味合いを、抽出対象テキストS1の意味合いとして対応付けたデータを生成するような言語モデル120bを生成する。
図示の例においては、例えば、抽出対象テキスト「今日の天気はどうかな」と、クラスタC1の中でタスクテキスト「今日の天気を教えて」がのベクトル値の類似性が高い(最も意味合いが近い)と判定されたとする。その場合、言語モデル120bは抽出対象テキスト「今日の天気はどうかな」が入力されると、上述のようなベクトルの類似性の評価の結果が推定に反映されて、抽出対象テキストがタスクテキスト「今日の天気を教えて」と同一または類似の意味合いであると推定する。
指令出力部118は、推定結果であるタスクテキスト「今日の天気を教えて」に基づく指令を端末装置20に出力する。これにより、端末装置20は、情報処理装置100の処理結果に基づいて、タスクテキスト「今日の天気を教えて」に基づく指令(例えば、ネットワークNWを介して今日の天気に関する情報を取得することなど)を実行する。
なお、テキストの意味内容の類似評価は、コサイン類似度以外の方法で評価されてもよく、レーベンシュタイン距離によるテキスト比較評価や、ジャロ・ウィンクラー距離によるテキスト比較評価などの評価が行われてもよい。
[言語モデル生成処理フロー]
以下、情報処理装置100による言語モデル120bの生成処理について説明する。情報処理装置100は、例えば、コーパスI1の種別毎に言語モデル120bを生成する。また、情報処理装置100の管理者により、定期的に言語モデル演算用テキスト120hの変更・更新が行われてもよく、例えば、言語モデル演算用テキスト120hの変更・更新のタイミングで言語モデル120bの再生成が行われる。
図17は、情報処理装置100による言語モデル120bの生成処理の流れの一例を示すフローチャートである。
まず、取得部102は、コーパスとして利用する文字情報(コーパスI1)を取得する(S100)。次に、解析部104は、コーパスI1を音響モデル120aに適用するなどにより実現される形態素解析等の解析方法により解析し、解析結果をコーパスの解析結果120cとして記憶部120に格納する(S102)。次に、W2V実行部110は、コーパスの解析結果120cに含まれる文字情報を構成する単語のそれぞれのベクトル値(単語ベクトル)を生成し(S104)、単語ベクトルリスト120fとして記憶部120に格納する(S106)。
次に、取得部102は、タスクテキストI2を取得する(S106)。次に、解析部104は、タスクテキストI2をコーパスI1と同様に解析し(S108)、解析結果をタスクテキストの解析結果120dとして記憶部120に格納する(S110)。
次に、取得部102は、抽出対象テキストの元情報である音声データI3を取得する(S112)。次に、解析部104は、音声データI3をコーパスI1およびタスクテキストI2と同様に解析し、解析結果を抽出対象テキストの解析結果120eとして記憶部120に格納する(S114)。
次に、ベクトル変換部112は、タスクテキストの解析結果120dと単語ベクトルリスト120fを参照して、タスクテキストの文ベクトルを生成し、タスクテキストベクトルリスト120iとして記憶部120に格納する(S114)。次に、ベクトル変換部112は、抽出対象テキストの文ベクトルを生成する(S116)。
次に、選択部114は、抽出対象テキストの文ベクトルおよびタスクテキストの文ベクトルに基づいて、言語モデル120bの元となる(言語モデル120bに反映させる)文ベクトルを選択する(S118)。次に、言語モデル生成部116aは、選択部114による選択結果に基づいて、言語モデル120bを生成する(S120)。以上、本フローチャートの処理の説明を終了する。
[音声認識処理]
図18は、情報処理装置100による音声認識処理の流れの一例を示すフローチャートである。
まず、取得部102は、端末装置20から音声データI2を取得する(S200)。次に、解析部104は、取得部102により出力された音声データI2を音響モデル120aに適用し、抽出対象テキストを生成する(S202)。
次に、言語モデル演算部116は、解析部104により出力された抽出対象テキストを言語モデル120bに適用する(S204)。次に、選択部114は、言語モデル演算部116により出力された適用結果から、好適候補を選択する(S206)。
次に、言語モデル生成部116aは、好適候補に基づいて出力情報を生成する(S208)。次に、指令出力部118は、出力情報を端末装置20等に出力する(S210)。以上、本フローチャートの処理の説明を終了する。
以上、説明した実施形態の情報処理装置100によれば、音声データを取得する取得部102と、取得部102により取得された音声データを解析してテキストに変換する解析部104と、解析部104による解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、テキストに含まれ且つ第1ワードが含まれる被解析文(音声データI3)の中における第1ワードの頻出性と、ライブラリ情報に含まれる文に対する第1ワードの希少性とを評価した第1指標値である、tf値およびidf値(またはtf―idfベクトル)を導出して被解析文に対応付けることと、コーパスI1、タスクテキストI2および言語モデル演算用テキスト120hなどのライブラリ情報に含まれる複数の第2ワードのそれぞれについて、ライブラリ情報に含まれ且つ第2ワードが含まれる着目文の中における第2ワードの頻出性と、ライブラリ情報に含まれる着目文以外の文に対する第2ワードの希少性とを評価した第2指標値であるtf値およびidf値(またはtf―idfベクトル)を導出して、着目文に対応付けることとのうち少なくとも一方を行う頻出性計算部106および希少性計算部108と、解析部104により解析された文を分散表現によるベクトル値に変換するベクトル変換部112と、頻出性計算部106および希少性計算部108により導出された第1指標値または第2指標値のうち少なくとも一方と、ベクトル変換部112によるベクトル変換結果とに基づいて、被解析文または着目文から一部の文を選択する選択部114と、意味合いが既知であり且つ文ベクトルが求められている教師文のうち、選択部114により選択された選択文と文ベクトルが近い教師文の意味合いを、選択文の意味合いとして対応付けたデータを生成する言語モデル生成部116aと、を備えることにより、より効率的且つ高精度に音声認識処理を行うことができる。
〔変形例〕
言語モデル生成部116aの生成する言語モデル120bは、固定の単語に特化した言語モデルであってもよい。「固定の単語に特化」とは、例えば、入力される言語に必ず固定の単語(上述の例における「天気」や「温泉」、「野球」など)、または固定の単語と同一または類似の単語が含まれ、固定の単語に関する処理のみを想定することである。
その場合、頻出性計算部106および希少性計算部108は、抽出対象テキストに基づいて言語モデルを生成する場合、第1ワードを固定して処理を行い、コーパスに基づいて言語モデルを生成する場合、第2ワードを固定して処理を行う。また、頻出性計算部106および希少性計算部108は、コーパスと抽出対象テキストの両方に基づいて言語モデルを生成する場合、第1ワードおよび第2ワードを同じワードに固定して処理を行う。これにより、例えば、単語「温泉」に特化した言語モデル120bや、単語「天気」に特化した言語モデル120bを生成することができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
20…端末装置、30…制御対象デバイス、40…サービスサーバ、100…情報処理装置、102…取得部、104…解析部、106…頻出性計算部、108…希少性計算部、110…W2V実行部、112…ベクトル変換部、114…選択部、114a…信頼度導出部、116…言語モデル演算部、116a…言語モデル生成部、118…指令出力部、120b…言語モデル

Claims (11)

  1. 音声データを取得する取得部と、
    前記音声データを解析してテキストに変換する解析部と、
    前記解析部による解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、前記テキストに含まれ且つ前記第1ワードが含まれる被解析文の中における前記第1ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第1ワードの希少性とを評価した第1指標値を導出して前記被解析文に対応付けることを行う指標値導出部と、
    前記解析部により解析された文を分散表現によるベクトル値に変換するベクトル変換部と、
    前記指標値導出部により導出された前記第1指標値と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文から一部の文を選択する選択部と、
    意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、前記選択部により選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成する生成部と、
    を備え、
    前記指標値導出部は、前記ライブラリ情報に含まれる複数の第2ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第2ワードが含まれる着目文の中における前記第2ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第2ワードの希少性とを評価した第2指標値を導出して前記着目文に対応付けることをさらに行い、
    前記選択部は、前記指標値導出部により導出された前記第1指標値または第2指標値のうち少なくとも一方と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
    前記指標値導出部は、
    前記第1指標値のみ導出する場合、前記第1ワードを固定して処理を行い、
    前記第2指標値のみ導出する場合、前記第2ワードを固定して処理を行い、
    前記第1指標値および前記第2指標値を導出する場合、前記第1ワードおよび前記第2ワードを同じワードに固定して処理を行い、
    前記生成部は、前記固定したワードごとに前記対応付けたデータを生成する、
    情報処理装置。
  2. 音声データを取得する取得部と、
    前記音声データを解析してテキストに変換する解析部と、
    前記解析部による解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、前記テキストに含まれ且つ前記第1ワードが含まれる被解析文の中における前記第1ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第1ワードの希少性とを評価した第1指標値を導出して前記被解析文に対応付けることを行う指標値導出部と、
    前記解析部により解析された文を分散表現によるベクトル値に変換するベクトル変換部と、
    前記指標値導出部により導出された前記第1指標値と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文から一部の文を選択する選択部と、
    意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、前記選択部により選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成する生成部と、
    を備え、
    前記指標値導出部は、前記ライブラリ情報に含まれる複数の第2ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第2ワードが含まれる着目文の中における前記第2ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第2ワードの希少性とを評価した第2指標値を導出して前記着目文に対応付けることをさらに行い、
    前記選択部は、前記指標値導出部により導出された前記第1指標値または第2指標値のうち少なくとも一方と、前記ベクトル変換部による変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
    前記ベクトル変換部により変換されたベクトル値に基づいて、被認識文の意味合いを推定し、推定結果に基づく指令を出力する指令出力部を更に備え、
    前記ベクトル変換部は、前記解析部による解析結果のテキストに含まれる被認識文を分散表現によるベクトル値に変換し、
    前記指令出力部は、前記対応付けたデータに含まれる文とのベクトル値の類似性に基づいて、被認識文の意味合いを推定し、前記推定結果に基づく指令を出力し、
    前記選択部は、前記音声データに付与された位置情報に基づいて、前記音声データが利用者のタスクの実行意図を含むものであるか否かを判別する、
    情報処理装置。
  3. 前記第1指標値と第2指標値とのうち少なくとも一方は、tf-idf値である、
    請求項1または2に記載の情報処理装置。
  4. 前記解析結果の信頼度を導出する、信頼度導出部をさらに備え、
    前記選択部は、前記信頼度に基づいて前記被解析文を選択する、
    請求項1から3のうちいずれか1項に記載の情報処理装置。
  5. 前記選択部は、前記信頼度が閾値以上である前記解析結果から得られた前記被解析文を優先的に選択する、
    請求項に記載の情報処理装置。
  6. 前記選択部は、前記信頼度が閾値以上である解析結果から得られた前記被解析文を選択した場合、選択処理を終了する、
    請求項に記載の情報処理装置。
  7. 前記選択部は、前記位置情報に基づいて推定される前記音声データの入力環境に応じて、対応するタスクが選択される確度を変更する、
    請求項に記載の情報処理装置。
  8. コンピュータが、
    音声データを取得し、
    前記音声データを解析してテキストに変換し、
    解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、前記テキストに含まれ且つ前記第1ワードが含まれる被解析文の中における前記第1ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第1ワードの希少性とを評価した第1指標値を導出して前記被解析文に対応付けることを行い、
    被解析文を分散表現によるベクトル値に変換し、
    前記第1指標値と、ベクトル変換結果とに基づいて、前記被解析文から一部の文を選択し、
    意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成
    前記ライブラリ情報に含まれる複数の第2ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第2ワードが含まれる着目文の中における前記第2ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第2ワードの希少性とを評価した第2指標値を導出して前記着目文に対応付けることをさらに行い、
    前記選択する処理において、前記第1指標値または前記第2指標値のうち少なくとも一方と、前記ベクトル変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
    前記第1指標値または前記第2指標値を導出する際に、
    前記第1指標値のみ導出する場合、前記第1ワードを固定して処理を行い、
    前記第2指標値のみ導出する場合、前記第2ワードを固定して処理を行い、
    前記第1指標値および前記第2指標値を導出する場合、前記第1ワードおよび前記第2ワードを同じワードに固定して処理を行い、
    前記固定したワードごとに前記対応付けたデータを生成する、
    情報処理方法。
  9. コンピュータが、
    音声データを取得し、
    前記音声データを解析してテキストに変換し、
    解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、前記テキストに含まれ且つ前記第1ワードが含まれる被解析文の中における前記第1ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第1ワードの希少性とを評価した第1指標値を導出して前記被解析文に対応付けることを行い、
    被解析文を分散表現によるベクトル値に変換し、
    前記第1指標値と、ベクトル変換結果とに基づいて、前記被解析文から一部の文を選択し、
    意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成
    前記ライブラリ情報に含まれる複数の第2ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第2ワードが含まれる着目文の中における前記第2ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第2ワードの希少性とを評価した第2指標値を導出して前記着目文に対応付けることをさらに行い、
    前記選択する処理において、前記第1指標値または前記第2指標値のうち少なくとも一方と、前記ベクトル変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
    前記変換されたベクトル値に基づいて、被認識文の意味合いを推定し、推定結果に基づく指令を出力し、
    前記解析結果のテキストに含まれる被認識文を分散表現によるベクトル値に変換し、
    前記対応付けたデータに含まれる文とのベクトル値の類似性に基づいて、被認識文の意味合いを推定し、前記推定結果に基づく指令を出力し、
    前記音声データに付与された位置情報に基づいて、前記音声データが利用者のタスクの実行意図を含むものであるか否かを判別する、
    情報処理方法。
  10. コンピュータに、
    音声データを取得し、
    前記音声データを解析してテキストに変換し、
    解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、前記テキストに含まれ且つ前記第1ワードが含まれる被解析文の中における前記第1ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第1ワードの希少性とを評価した第1指標値を導出して前記被解析文に対応付けることを行い、
    被解析文を分散表現によるベクトル値に変換し、
    前記第1指標値と、ベクトル変換結果とに基づいて、前記被解析文から一部の文を選択し、
    意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成
    前記ライブラリ情報に含まれる複数の第2ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第2ワードが含まれる着目文の中における前記第2ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第2ワードの希少性とを評価した第2指標値を導出して前記着目文に対応付けることをさらに行い、
    前記選択する処理において、前記第1指標値または前記第2指標値のうち少なくとも一方と、前記ベクトル変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
    前記第1指標値または前記第2指標値を導出する際に、
    前記第1指標値のみ導出する場合、前記第1ワードを固定して処理を行い、
    前記第2指標値のみ導出する場合、前記第2ワードを固定して処理を行い、
    前記第1指標値および前記第2指標値を導出する場合、前記第1ワードおよび前記第2ワードを同じワードに固定して処理を行い、
    前記固定したワードごとに前記対応付けたデータを生成する、
    ことを行わせるプログラム。
  11. コンピュータに、
    音声データを取得し、
    前記音声データを解析してテキストに変換し、
    解析結果のテキストに含まれる複数の第1ワードのそれぞれについて、前記テキストに含まれ且つ前記第1ワードが含まれる被解析文の中における前記第1ワードの頻出性と、ライブラリ情報に含まれる文に対する前記第1ワードの希少性とを評価した第1指標値を導出して前記被解析文に対応付けることを行い、
    被解析文を分散表現によるベクトル値に変換し、
    前記第1指標値と、ベクトル変換結果とに基づいて、前記被解析文から一部の文を選択し、
    意味合いが既知であり且つ前記ベクトル値が求められている教師文のうち、選択された選択文とベクトル値が近い教師文の意味合いを、前記選択文の意味合いとして対応付けたデータを生成
    前記ライブラリ情報に含まれる複数の第2ワードのそれぞれについて、前記ライブラリ情報に含まれ且つ前記第2ワードが含まれる着目文の中における前記第2ワードの頻出性と、前記ライブラリ情報に含まれる前記着目文以外の文に対する前記第2ワードの希少性とを評価した第2指標値を導出して前記着目文に対応付けることをさらに行い、
    前記選択する処理において、前記第1指標値または前記第2指標値のうち少なくとも一方と、前記ベクトル変換結果とに基づいて、前記被解析文または前記着目文から一部の文を選択し、
    前記変換されたベクトル値に基づいて、被認識文の意味合いを推定し、推定結果に基づく指令を出力し、
    前記解析結果のテキストに含まれる被認識文を分散表現によるベクトル値に変換し、
    前記対応付けたデータに含まれる文とのベクトル値の類似性に基づいて、被認識文の意味合いを推定し、前記推定結果に基づく指令を出力し、
    前記音声データに付与された位置情報に基づいて、前記音声データが利用者のタスクの実行意図を含むものであるか否かを判別する、
    ことを行わせるプログラム。
JP2019092572A 2019-05-16 2019-05-16 情報処理装置、情報処理方法、およびプログラム Active JP7096199B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019092572A JP7096199B2 (ja) 2019-05-16 2019-05-16 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019092572A JP7096199B2 (ja) 2019-05-16 2019-05-16 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020187282A JP2020187282A (ja) 2020-11-19
JP7096199B2 true JP7096199B2 (ja) 2022-07-05

Family

ID=73222494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019092572A Active JP7096199B2 (ja) 2019-05-16 2019-05-16 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7096199B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560505A (zh) * 2020-12-09 2021-03-26 北京百度网讯科技有限公司 一种对话意图的识别方法、装置、电子设备及存储介质
CN112735413B (zh) * 2020-12-25 2024-05-31 浙江大华技术股份有限公司 一种基于摄像装置的指令分析方法、电子设备和存储介质
CN113763951B (zh) * 2021-08-24 2024-01-05 深圳市恒必达电子科技有限公司 一种语音红外控制智能家居的智能手表

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010154397A (ja) 2008-12-26 2010-07-08 Sony Corp データ処理装置、データ処理方法、及び、プログラム
JP2010191223A (ja) 2009-02-18 2010-09-02 Seiko Epson Corp 音声認識方法、携帯端末及びプログラム。
JP2016206487A (ja) 2015-04-24 2016-12-08 日本電信電話株式会社 音声認識結果整形装置、方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2996019B2 (ja) * 1992-07-22 1999-12-27 日本電気株式会社 音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010154397A (ja) 2008-12-26 2010-07-08 Sony Corp データ処理装置、データ処理方法、及び、プログラム
JP2010191223A (ja) 2009-02-18 2010-09-02 Seiko Epson Corp 音声認識方法、携帯端末及びプログラム。
JP2016206487A (ja) 2015-04-24 2016-12-08 日本電信電話株式会社 音声認識結果整形装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2020187282A (ja) 2020-11-19

Similar Documents

Publication Publication Date Title
US10192545B2 (en) Language modeling based on spoken and unspeakable corpuses
KR102596446B1 (ko) 모바일 디바이스들에서의 모달리티 학습
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
EP2863300B1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
US9529898B2 (en) Clustering classes in language modeling
US11797765B2 (en) Language identification for text strings
US11282524B2 (en) Text-to-speech modeling
KR101780760B1 (ko) 가변길이 문맥을 이용한 음성인식
US8374865B1 (en) Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US20200082808A1 (en) Speech recognition error correction method and apparatus
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
JP7058574B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7096199B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2015094848A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2010537321A (ja) 統計的分類のための最適な選択方略の方法及びシステム
JP6370962B1 (ja) 生成装置、生成方法および生成プログラム
CN114840671A (zh) 对话生成方法、模型的训练方法、装置、设备及介质
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
US10049108B2 (en) Identification and translation of idioms
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
JP6563350B2 (ja) データ分類装置、データ分類方法、及びプログラム
US11626107B1 (en) Natural language processing
JP2015001695A (ja) 音声認識装置、音声認識方法及びプログラム
WO2023245869A1 (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220623

R150 Certificate of patent or registration of utility model

Ref document number: 7096199

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350