JP5231484B2

JP5231484B2 - 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置

Info

Publication number: JP5231484B2
Application number: JP2010114848A
Authority: JP
Inventors: 健一磯
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2010-05-19
Filing date: 2010-05-19
Publication date: 2013-07-10
Anticipated expiration: 2030-05-19
Also published as: JP2011242613A

Description

本発明は、入力された音声について、音声認識を行う音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置に関する。

従来、パーソナルコンピュータや、携帯通信端末等の情報処理端末では、変換候補となる単語に基づいて構成された言語モデルを記憶する記憶部を備え、入力された音声に基づく音声波形を認識し、テキストデータへ変換する音声認識装置が広く知られている。このような音声認識装置において、最適なテキストデータへ変換するために、記憶部に記憶され、変換候補となる単語の登録数を増加させた場合、音声認識装置では、音声認識の際の選択肢が過剰に増加し、かえって誤認識が増大する。

そこで、例えば、音声認識を行った後に、テキストデータに変換された認識結果に含まれる認識誤り区間を抽出し、認識誤り区間のテキストデータと、その前後のテキストデータとを、インターネット上で検索することにより、認識誤り区間の新たな候補を検索する音声認識装置が知られている（例えば、特許文献１）。このような音声認識装置によれば、認識誤り区間について、新たな候補を検索することにより、音声認識をした際の選択の幅を広げることができる。

特開２００４−２５８５３１号公報

しかしながら、上述した従来の音声認識装置には、次のような問題があった。すなわち、上述した音声認識装置は、音声認識によりテキストデータに変換した内容に基づいて、検索を行うため、当初のテキストデータに誤りが含まれた場合、必ずしも欲しい結果を得ることができないという問題がある。

そこで、本発明は、このような状況に鑑みてなされたものであり、単語の登録数を増加させた場合においても、認識精度を向上できる音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置を提供することを目的とする。

上述した問題を解決するため、本発明は、次のような特徴を有している。まず、本発明の第１の特徴は、音声認識装置（音声認識装置１００）が、汎用的な単語に基づいて構成された第１言語モデルを記憶する第１記憶手段（第１言語モデルＤＢ１０７ｂ）と、前記第１言語モデルよりも特定の表現に特化した単語に基づいて構成された第２言語モデルを記憶する第２記憶手段（第２言語モデルＤＢ１１９ｂ）と、前記第１言語モデルを用いて、入力された音声に基づく音声波形（音声波形１３１）を音声認識する第１音声認識手段（第１音声認識部１０５）と、前記第１音声認識手段の認識結果に基づいて、特定の表現（特定の表現１３７）を含む音声波形の区間を特定の区間（特定の区間１３９）として、抽出する抽出手段（再認識範囲抽出部１１１）と、前記第２言語モデルを用いて、前記抽出手段により抽出された特定の区間の音声波形を音声認識する第２音声認識手段（第２音声認識部１１７）と、を備えることを要旨とする。

このような、音声認識装置は、第１音声認識手段により、音声波形について、汎用的な単語について音声認識し、特定の表現を含む音声波形を抽出手段により特定の区間として、抽出し、第２音声認識手段により音声認識することができる。

音声認識装置は、音声波形において汎用的な表現と、特定の表現とが混在している場合でも、汎用的な表現については、第１音声認識手段により音声認識するため、第１言語モデルの登録単語を増大する必要が無く、誤認識の増大を防止できる。また、音声認識装置は、特定の区間のみを第２音声認識手段により音声認識を行うため、特定の表現について、認識精度を向上できる。すなわち、音声認識装置は、音声波形において汎用的な表現と、特定の表現とが混在している場合でも、第１音声認識手段と、第２音声認識手段とを組み合わせることにより、単語の登録数を増加させた場合においても、誤認識の増大を防止しつつ、認識精度を向上できる。

本発明の第２の特徴は、本発明の第１の特徴に係り、前記抽出手段は、前記第１音声認識手段の認識結果について、ユーザの指示に基づいて、前記特定の表現を含む前記特定の区間を抽出することを要旨とする。

本発明の第３の特徴は、本発明の第１又は第２の特徴に係り、前記抽出手段は、前記特定の区間の前後に連なるとともに、前記特定の表現に関連する単語を抽出することにより、前記特定の表現を含む前記特定の区間を抽出することを要旨とする。

本発明の第４の特徴は、本発明の第１乃至第３の特徴に係り、前記第２言語モデルは、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語に基づいて、構成されることを要旨とする。

本発明の第５の特徴は、コンピュータが、汎用的な単語に基づいて構成された第１言語モデルを用いて、入力された音声に基づく音声波形を音声認識するステップ（ステップＳ１２０）と、コンピュータが、前記第1言語モデルを用いて認識した認識結果に基づいて、特定の表現を含む音声波形の区間を特定の区間として抽出するステップ（ステップＳ１５０、又は、ステップＳ１３０）と、コンピュータが、前記第１言語モデルよりも特定の表現に特化した単語に基づいて構成された第２言語モデルを用いて、前記特定の区間について、音声認識するステップ（ステップＳ１７０）と、を含む音声認識方法であることを要旨とする。

本発明の第６の特徴は、本発明の第５の特徴に記載の音声認識方法をコンピュータに実行させるためのプログラムであることを要旨とする。

本発明の第７の特徴は、本発明の第６の特徴に記載のプログラムを配信するための情報処理装置であることを要旨とする。

本発明によれば、単語の登録数を増加させた場合においても、認識精度を向上できる音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置を提供できる。

本発明の実施形態に係る音声認識装置１００の機能ブロック図である。本発明の実施形態に係る音声認識装置１００の第１音声認識部１０５の動作を説明するための概念図である。本発明の実施形態に係る音声認識装置１００の再認識範囲抽出部１１１及び限定範囲音声抽出部１１５の動作を説明するための概念図である。本発明の実施形態に係る音声認識装置１００の第２音声認識部１１７の動作を説明するための概念図である。本発明の実施形態に係る音声認識装置１００の音声認識動作を示すフローチャートである。本発明の実施形態に係る音声認識装置１００の音声認識処理動作の詳細を示すフローチャートである。

次に、図面を参照して、本発明の実施形態について説明する。

なお、以下の図面の記載において、同一または類似の部分には、同一または類似の符号を付している。また、図面は模式的なものであり、各寸法の比率などは現実のものとは異なる。

したがって、具体的な寸法などは以下の説明を参酌して判断すればよく、図面相互間においても互いの寸法の関係や比率が異なる部分が含まれている。

以下の実施形態においては、（１）音声認識装置１００の全体構成、（２）音声認識装置１００の動作、（３）作用・効果、及び（４）その他の実施形態について説明する。

（１）音声認識装置１００の全体構成
図１は、本実施形態に係る音声認識装置１００の機能ブロック図である。

音声認識装置１００は、ユーザにより入力された音声に基づいて、音声認識を行い対応する変換候補を出力する。以下の実施形態では、音声認識装置１００は、ユーザにより「かぶしきがいしゃやほのあかださんとかいぎをしました」という音声に基づいて、「株式会社ヤホの赤田さんと会議をしました」というテキストデータを出力することを具体例として記載する。

音声認識装置１００は、ユーザが使用するＰＣ（Personal Computer）や携帯通信端末装置（携帯電話機やスマートフォン）、カーナビゲーションシステム等である。音声認識装置１００は、下記のハードウェア資源に加えて、マイク等の音声入力装置、キーボード、タッチパネル、マウス等の入力装置、液晶ディスプレイ等の出力装置を備える。

音声認識装置１００は、ＣＰＵ等の制御装置、メモリやＨＤＤ等の記憶装置、通信ネットワークと通信する通信Ｉ／Ｆ等の通信装置といったハードウェア資源を有するコンピュータ（単一或いは複数）により構成される。音声認識装置１００が備える下記の各ブロックは、前述したコンピュータの制御装置等のハードウェア資源を用いてコンピュータプログラムを実行することによって実現されるものである。なお、これらの各ブロック、手段は、単一のコンピュータ上に配置される必要はなく、必要に応じて分散される構成を採用しても良い。

図１に示すように、音声認識装置１００は、音声取得部１０１、音声記憶部１０３、第１音声認識部１０５、第１音響モデルＤＢ１０７ａ、第１言語モデルＤＢ１０７ｂ、提示部１０９、再認識範囲抽出部１１１、第３言語モデルＤＢ１１３、限定範囲音声抽出部１１５、第２音声認識部１１７、第２音響モデルＤＢ１１９ａ、第２言語モデルＤＢ１１９ｂ、判定部１２１、出力部１２３を備える。

これらの機能部は、いわゆるコンピュータにより構成され、演算／制御装置としてのＣＰＵ（Central Processing Unit）、記憶媒体としてのＲＡＭ（Random Access Memory）及びＲＯＭ（Read Only Memory）、通信インターフェイス等が関連することで実現される。以下、各機能部について、説明する。

（１．１）音声取得部１０１
音声取得部１０１は、マイク等を介して、入力された音声を取得し、音声を音声波形１３１に変換する。

（１．２）音声記憶部１０３
音声記憶部１０３は、音声取得部１０１により取得された音声波形１３１を記憶する。

（１．３）第１音声認識部１０５
図２は、本実施形態に係る音声認識装置１００の第１音声認識部１０５の動作を説明するための概念図である。具体的には、図２（ａ）は、第１音声認識部１０５で変換される音声波形１３１の概念図である。図２（ｂ）は、第１音声認識部１０５で音声波形１３１に基づいて置き換えられる発音記号１３３の一例を示す図である。図２（ｃ）は、第１音声認識部１０５で音声波形１３１に基づいて置き換えられる第１変換候補１３５の一例を示す図である。

第１音声認識部１０５は、入力された音声に基づく音声波形１３１について、第１言語モデルを用いて、音声認識をする。

図２に示すように、第１音声認識部１０５は、第１言語モデルを用いて、入力された音声に基づく音声波形１３１を音声認識する。第１音声認識部１０５は、第１音響モデルＤＢ１０７ａを用いて音声波形１３１を発音記号１３３に変換し、第１言語モデルを用いて、発音記号１３３を単語列からなる第１変換候補１３５に変換する、いわゆるボトムアップ的な認識手法による音声認識をする。具体的には、図２（ａ）に示すように、第１音声認識部１０５は、音声記憶部１０３に記憶された音声波形１３１を分析して特徴量を抽出する。更に、第１音声認識部１０５は、音声波形１３１を分析して、前後の単語、文節のつながりを示す特徴量を抽出する。

図２（ｂ）に示すように、第１音声認識部１０５は、音声波形１３１と、第１音響モデルＤＢ１０７ａとに基づいて、音声波形１３１を発音記号１３３に置き換える。具体的には、第１音声認識部１０５は、音声波形１３１の特徴量等に基づいて、音声波形１３１を単語又は文節等である音声区間１３１ａに区切る。次に、第１音声認識部１０５は、第１音響モデルＤＢ１０７ａから音声波形１３１に対応する発音記号１３３を抽出することにより、音声波形１３１の所定の音声区間１３１ａを複数の発音記号候補１３３ａに置き換える。第１音声認識部１０５は、複数の発音記号候補１３３ａに対して、第１音響モデルＤＢ１０７ａに基づいた確率を付与して記憶する。

例えば、第１音声認識部１０５は、音声波形１３１の特徴量に基づいて、音声区間１３１ａを「あかだ」、「かかだ」、「さかだ」、「たかだ」等の複数の発音記号候補１３３ａに置き換える。そして、第１音声認識部１０５は、複数の発音記号候補１３３ａに対して、第１音響モデルＤＢ１０７ａに基づいた確率を付与して記憶する。

図２（ｃ）に示すように、第１音声認識部１０５は、発音記号１３３について、第１言語モデルＤＢ１０７ｂに記憶される単語を用いて、確率統計的な手法に基づいて、音声認識し、第１変換候補１３５を作成する。

第１音声認識部１０５は、発音記号候補１３３ａに対応する単語を第１言語モデルから抽出し、第１言語モデルと、発音記号候補１３３ａの確率とに基づいて、第１変換候補１３５を作成する。

これにより、例えば、第１音声認識部１０５は、発音記号１３３について、「株式会社ヤホの垢ださんと会議をしました」という第１変換候補１３５を作成する。

（１．４）第１音響モデルＤＢ１０７ａ
第１音響モデルＤＢ１０７ａは、発音記号と、発音記号に対応する複数の音声波形又は音声波形の統計的な音声波形のモデルである音声波形モデルとを記憶する。例えば、第１音響モデルＤＢ１０７ａは、「あ」から「ん」までの平仮名の発音記号と、各発音記号に対応する複数又は統計的な音声波形モデルとを記憶する。

なお、第２音響モデルＤＢ１１９ａは、第１音響モデルＤＢ１０７ａと同様の発音記号と、発音記号に対応する複数の音声波形又は音声波形の統計的な音声波形のモデルである音声波形モデルとを記憶するため、その詳細の説明を省略する。

（１．５）第１言語モデルＤＢ１０７ｂ
第１言語モデルＤＢ１０７ｂは、汎用的な単語に基づいて構成された第１言語モデルを記憶する。第１言語モデルは、辞書部と、ｎ−ｇｒａｍとからなる。具体的には、第１言語モデルは、辞書部の機能として、汎用的な単語と、単語に対応する発音記号列とが含まれる。例えば、第１言語モデルは、「汎用的な単語」として、５万語程度の単語と、対応する発音記号列とからなる。

なお、「汎用的な単語」は、第１言語モデルＤＢ１０７ｂに事前に登録される単語でもよく、音声認識装置１００が、ユーザからの入力又はネットワークを介して、収集したテキストデータにおける各単語の使用頻度に基づいて、適宜更新されてもよい。また、「汎用的な単語」は、音声認識装置１００の用途によって使い分けてもよい。例えば、音声認識装置１００が、メール文を作成するために用いられる場合、「汎用的な単語」は、メール文に用いられる単語により構成される。

辞書部は、使用頻度に応じて各単語の出現確率をデータ化している。すなわち、辞書部の単語の確率の累積は、１００％になる。例えば、辞書部は、基準となる文章として例えば、複数のメール文などから抽出される１００万語の単語群において、「会社」という単語が２万回登場した場合、出現確率は、２％という確率のデータを有する。

ｎ−ｇｒａｍは、文法記述部の機能として、単語の並び方を規定する。ｎ−ｇｒａｍは、所定の文字列において、Ｎ個の文字列または単語の組み合わせの出現頻度を示したテーブルからなる、いわゆるｎ−ｇｒａｍ文法に基づいて作成される。すなわち、ｎ−ｇｒａｍは、直前のｎ−１単語を指定したときに、ｎ単語目の単語の出現頻度を示すテーブルを有する。これにより、例えば、１−ｇｒａｍでは、「内閣」と「内角」とを、前後のテキストデータに基づいて、直前の単語が、人物名の場合は、「内角」よりも「内閣」である可能性が高いというデータを有し、直前の単語が、「キャッチャーが」である場合は、「内角」の確率が高いというデータを有する。

（１．６）提示部１０９
提示部１０９は、音声波形１３１について、対応する第１変換候補１３５を提示する。また、音声波形１３１について、対応する第２変換候補１４１が第２音声認識部１１７により作成されている場合、提示部１０９は、音声波形１３１について、対応する第１変換候補１３５及び第２変換候補１４１を提示する。すなわち、提示部１０９は、音声波形１３１について、対応する第１変換候補１３５及び第２変換候補１４１により統合された変換候補を提示する。具体的には、提示部１０９は、液晶ディスプレイ等の出力装置を介して、音声波形１３１に対応する第１変換候補１３５及び第２変換候補１４１を提示する。

（１．７）再認識範囲抽出部１１１
図３は、本実施形態に係る音声認識装置１００の再認識範囲抽出部１１１及び限定範囲音声抽出部１１５の動作を説明するための概念図である。具体的には、図３（ａ）は、第１変換候補１３５において、再認識範囲抽出部１１１により抽出される特定の表現１３７の概念図である。図３（ｂ）は、音声波形１３１において、再認識範囲抽出部１１１により抽出される特定の区間１３９の概念図である。

図３（ａ）に示すように、再認識範囲抽出部１１１は、第１音声認識部１０５の認識結果に基づいて、特定の表現１３７を含む音声波形１３１の区間を特定の区間１３９として抽出する。すなわち、再認識範囲抽出部１１１は、第１音声認識部１０５により認識された音声波形１３１、すなわち第１変換候補１３５について、特定の表現１３７を含む音声波形１３１の区間を特定の区間１３９として抽出する。なお、特定の表現１３７とは、単語又は文節からなる文字列である。

具体的には、再認識範囲抽出部１１１は、第１音声認識部１０５の認識結果に基づいて、ユーザの指示に基づいて、特定の表現１３７を抽出する。例えば、再認識範囲抽出部１１１は、第１変換候補１３５について、ユーザのキーボード又はマウス等の入力装置の操作からの指示に基づいて、特定の表現１３７である「垢だ」を抽出する。

或いは、再認識範囲抽出部１１１は、特定の区間１３９の前後に連なるとともに、特定の表現１３７に関連する単語を抽出することにより、特定の表現１３７を含む特定の区間１３９を抽出する。例えば、再認識範囲抽出部１１１は、周知の「固有名詞抽出技術」を用いることにより、特定の表現１３７を含む特定の区間１３９を抽出する。また、再認識範囲抽出部１１１は、第１音声認識部１０５の認識結果に基づいて、第３言語モデルに含まれる単語を抽出することにより、特定の表現１３７を含む特定の区間１３９を抽出することができる。例えば、再認識範囲抽出部１１１は、第１音声認識部１０５の認識結果から抽出された第３言語モデルに含まれる単語が接尾語の場合、接尾語の直前の単語又は文節を特定の表現１３７として抽出する。

再認識範囲抽出部１１１は、第１音声認識部１０５の認識結果から抽出された第３言語モデルに含まれる単語が接頭語の場合、接頭語の直後の単語、又は文節を特定の表現１３７として抽出する。また、再認識範囲抽出部１１１は、第１変換候補１３５について、第３言語モデルに含まれる単語が、接頭語である「株式会社」である場合、「株式会社」の直後の単語である「ヤホ」を特定の表現１３７として抽出する。同様にして、再認識範囲抽出部１１１は、第１変換候補１３５について、第３言語モデルに含まれる単語が接尾語である「さん」である場合、「さん」の直前の単語である「垢だ」を特定の表現１３７として抽出する。以下、本実施形態では、特定の表現１３７として「垢だ」についてのみ、記載し、「ヤホ」についての記載を省略する。

図３（ｂ）に示すように、再認識範囲抽出部１１１は、第１音声認識部１０５の認識結果に基づいて、特定の表現１３７に対応する音声波形の区間を特定の区間１３９として、抽出する。

すなわち、再認識範囲抽出部１１１は、第１音声認識部１０５により認識された音声波形１３１について、特定の表現１３７に対応する音声波形の区間を特定の区間１３９として、抽出する。例えば、再認識範囲抽出部１１１は、音声波形１３１について、特定の表現１３７である「垢だ」に対応する音声波形の区間を特定の区間１３９として、抽出する。

（１．８）第３言語モデルＤＢ１１３
第３言語モデルＤＢ１１３は、接尾語又は接頭語により構成された第３言語モデルを記憶する。第３言語モデルには、辞書部と、ｎ−ｇｒａｍとが含まれる。具体的には、第３言語モデルは、辞書部の機能として、接尾語又は接頭語からなる単語と、単語に対応する発音記号列とが含まれる。例えば、第３言語モデルは、「接尾語からなる単語」として、直前に人名を含む「さん」、「家」、「流」等、直前に地名を含む「行き」、「県」、「発」、「着」、「語」、「弁」、「製」等、直前の単語に専門の人や仕事を含む「屋」、「店」等、直前の単語に数値を含む「回」、「円」、「度」等を含む。また、第３言語モデルは、「接頭語からなる単語」として、直後の単語に企業名を含む「株式会社」等の単語を含む。

第３言語モデルの辞書部は、接尾語又は接頭語からなる単語と、接尾語又は接頭語の種別と、対応する発音記号列とからなってもよい。

また、接尾語又は接頭語は、第３言語モデルＤＢ１１３に事前に登録される単語でもよく、音声認識装置１００が、ユーザからの入力、又はネットワークを介して、収集したテキストデータにおける各単語の使用頻度に基づいて、適宜更新されてもよい。

なお、ｎ−ｇｒａｍは、第１言語モデルＤＢ１０７ｂのｎ−ｇｒａｍと同様であるため、その記載は、省略する。

（１．９）限定範囲音声抽出部１１５
限定範囲音声抽出部１１５は、再認識範囲抽出部１１１により抽出された特定の区間１３９の音声波形を抽出する。具体的には、限定範囲音声抽出部１１５は、音声記憶部１０３に記憶される音声波形１３１を取得し、再認識範囲抽出部１１１により抽出された特定の区間１３９の音声波形を抽出する。

（１．１０）第２音声認識部１１７
図４は、本実施形態に係る音声認識装置１００の第２音声認識部１１７の動作を説明するための概念図である。

図４に示すように、第２音声認識部１１７は、第２言語モデルを用いて、再認識範囲抽出部１１１により抽出された特定の区間１３９の音声波形を音声認識する。第２音声認識部１１７は、第２音響モデルＤＢ１１９ａを用いて特定の区間１３９を発音記号１３３に変換し、第２言語モデルＤＢ１１９ｂに記憶される単語を用いて、発音記号１３３を単語列からなる第２変換候補１４１に変換する、いわゆるボトムアップ的な認識手法による音声認識をする。

具体的には、第２音声認識部１１７は、特定の区間１３９と、第２音響モデルＤＢ１１９ａとに基づいて、特定の区間１３９を発音記号１３３に置き換える。第２音声認識部１１７は、第２音響モデルＤＢ１１９ａから特定の区間１３９に対応する発音記号１３３を抽出する。次に、第２音声認識部１１７は、発音記号１３３について、第２言語モデルＤＢ１１９ｂに記憶される単語を用いて、確率統計的な手法に基づいて、音声認識し、第２変換候補１４１を作成する。

これにより、第２音声認識部１１７は、特定の表現１３７である「垢だ」ではなく、第２変換候補１４１として、「赤田」を作成する。

また、第２音声認識部１１７は、特定の区間１３９の前後の音声波形１３１からテキストデータのテーマを推測し、該テーマに関連する地名、人名、固有名の確率が高いと判定して、対応する第２変換候補１４１を作成してもよい。

また、第２音声認識部１１７は、特定の区間１３９の前後の音声波形について、第３言語モデルに含まれる接尾語又は接頭語からなる単語の有無に基づいて音声認識を行ってもよい。第２音声認識部１１７は、特定の区間１３９の前後に第３言語モデルに含まれる接尾語又は接頭語からなる単語を抽出した場合、第２言語モデルにおいて、接尾語又は接頭語に対応する地名、人名、固有名の確率が高いと判定して、対応する第２変換候補１４１を作成する。

例えば、第２音声認識部１１７は、特定の区間１３９の直後の音声波形から、第３言語モデルに含まれる「さん」を抽出することで、特定の区間１３９が、人名である確率が高いと判定する。この場合、第２音声認識部１１７は、第２変換候補１４１として、「赤田」を作成してもよい。

（１．１１）第２言語モデルＤＢ１１９ｂ
第２言語モデルＤＢ１１９ｂは、第１言語モデルよりも特定の表現に特化した単語に基づいて構成された第２言語モデルを記憶する。第２言語モデルは、辞書部と、ｎ−ｇｒａｍとからなる。第２言語モデルの辞書部は、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語に基づいて、構成される。例えば、固有名詞には、固有の人物を表す人名、会社名、固有の場所を表す地名、住所、駅名、新たに創造された物に対する固有物名等、１００万語以上の単語が含まれる。第２言語モデルは、特定の表現として特定の分野の単語と、該特定の分野の種別と、対応する発音記号列とからなる。

例えば、第２言語モデルは、苗字、名前を構成する単語と、該単語に対応する「人名」という種別と、対応する発音記号列とを含む。

このような特定の表現は、第２言語モデルＤＢ１１９ｂに事前に登録される単語でもよく、音声認識装置１００が、ユーザからの入力、又はネットワークを介して、収集したテキストデータにおける各単語について、分野を判定し、各単語の使用頻度に基づいて、適宜更新されてもよい。

（１．１２）判定部１２１
判定部１２１は、液晶ディスプレイ等の出力装置を介して、提示部１０９により、ユーザに提示された第１変換候補１３５及び第２変換候補１４１の少なくとも何れかが、ユーザの指示等により確定されたか否かを判定する。例えば、判定部１２１は、第１変換候補１３５及び第２変換候補１４１について、ユーザのキーボード又はマウス等の入力装置の操作からの指示に基づいて、「株式会社ヤホの赤田さんと会議をしました」という第１変換候補１３５が確定されたことを判定する。

また、判定部１２１は、第１変換候補１３５及び第２変換候補１４１について、ユーザのキーボード又はマウス等の入力装置の操作からの指示、又は所定時間以上、ユーザの入力が無い場合に、ユーザの要求を満たしていない、すなわち、第１変換候補１３５及び第２変換候補１４１が確定されていないことを判定する。

（１．１３）出力部１２３
出力部１２３は、第１変換候補１３５又は、第２変換候補１４１の少なくとも何れかをユーザに出力する。具体的には、出力部１２３は、液晶ディスプレイ等の出力装置を介して、第１変換候補１３５又は、第２変換候補１４１の少なくとも何れかを出力する。また、出力部１２３は、判定部１２１に基づいて確定したと判定された第１変換候補１３５又は、第２変換候補１４１の少なくとも何れかをユーザに出力してもよい。出力部１２３は、ネットワーク等を介して、確定したと判定された第１変換候補１３５又は、第２変換候補１４１の少なくとも何れかをデータとして出力することもできる。

（２）音声認識装置１００の動作
音声認識装置１００の動作について、（２．１）全体概略動作、（２．２）第１音声認識部１０５の音声認識処理動作の順に説明する。

（２．１）全体概略動作
図５は、実施形態に係る音声認識装置１００の音声認識動作を示すフローチャートである。

図５に示すように、ステップＳ１１０において、音声取得部１０１は、マイク等を介して、入力された音声を取得し、音声を音声波形１３１に変換する。また、音声記憶部１０３は、音声取得部１０１により形成された音声波形１３１を記憶する。

ステップＳ１２０において、第１音声認識部１０５は、入力された音声に基づく音声波形１３１について、第１言語モデルを用いて、音声認識を行い、第１変換候補１３５を作成する。

ステップＳ１３０において、再認識範囲抽出部１１１は、第１変換候補１３５に特定の表現１３７を含むか否かを、第３言語モデルに基づいて、判定する。具体的には、再認識範囲抽出部１１１は、特定の表現１３７を含むと判定した場合、再認識範囲抽出部１１１第１変換候補１３５から第３言語モデルに含まれる単語を抽出することにより、特定の表現１３７を含む音声波形の区間を特定の区間１３９として抽出し、処理をステップＳ１６０へ進める。また、再認識範囲抽出部１１１は、特定の表現１３７を含んでいないと判定した場合、処理をステップＳ１４０へ進める。

ステップＳ１４０において、提示部１０９は、音声波形１３１について、対応する第１変換候補１３５を液晶ディスプレイ等の出力装置を介して、提示する。

ステップＳ１５０において、再認識範囲抽出部１１１は、第１変換候補１３５について、特定の表現１３７を指定するユーザの指示の有無を、判定する。具体的には、特定の表現１３７を指定するユーザの指示が有る場合、再認識範囲抽出部１１１は、ユーザの指示に基づいて、特定の表現１３７を含む音声波形の区間を特定の区間１３９として抽出し、処理をステップＳ１６０へ進める。また、特定の表現１３７を指定するユーザの指示が無い場合、再認識範囲抽出部１１１は、処理をステップＳ２００へ進める。

ステップＳ１６０において、限定範囲音声抽出部１１５は、再認識範囲抽出部１１１により抽出された特定の区間１３９の音声波形を抽出する。

ステップＳ１７０において、第２音声認識部１１７は、再認識範囲抽出部１１１により抽出された特定の区間１３９について、第２言語モデルを用いて音声認識をする。

ステップＳ１８０において、提示部１０９は、音声波形１３１について、対応する第１変換候補１３５及び第２変換候補１４１を提示する。すなわち、提示部１０９は、音声波形１３１について、対応する第１変換候補１３５及び第２変換候補１４１により統合された変換候補を提示する。

ステップＳ１９０において、判定部１２１は、提示部１０９により、ユーザに提示された第１変換候補１３５及び第２変換候補１４１の少なくとも何れかが、ユーザの指示等により確定したか否かを判定する。具体的には、第１変換候補１３５及び第２変換候補１４１の少なくとも何れかを確定するユーザの指示が有る場合、判定部１２１は、処理をステップＳ２００へ進める。また、第１変換候補１３５及び第２変換候補１４１が確定していない場合、判定部１２１は、処理をステップＳ１５０へ戻す。

ステップＳ２００において、出力部１２３は、判定部１２１により確定したと判定された第１変換候補１３５又は、第２変換候補１４１の少なくとも何れかをユーザに出力する。

以上の処理により、音声認識装置１００は、入力された音声を第１変換候補１３５及び第２変換候補１４１に変換し、出力する。

（２．２）第１音声認識部１０５の音声認識処理動作
図６は、実施形態に係る第１音声認識部１０５の音声認識処理動作の詳細を示すフローチャートである。具体的には、図６は、図５のステップＳ１２０における第１音声認識部１０５が、音声認識を行う処理の詳細動作を示す。

ステップＳ１２１において、第１音声認識部１０５は、音声記憶部１０３に記憶された音声波形１３１を分析して特徴量を抽出した情報に変換する。更に、第１音声認識部１０５は、音声波形１３１と、第１音響モデルＤＢ１０７ａとに基づいて、音声波形１３１を発音記号１３３に置き換える。

ステップＳ１２３において、第１音声認識部１０５は、発音記号１３３について、第１言語モデルＤＢ１０７ｂに記憶される単語を用いて音声認識する。具体的には、第１音声認識部１０５は、発音記号１３３について、第１変換候補１３５を作成する。

これにより、第１音声認識部１０５は、音声認識処理動作を終了する。

（３）作用・効果
以上説明したように、本実施形態によれば、音声認識装置１００は、第１音声認識部１０５により、音声波形１３１について、汎用的な単語について音声認識し、特定の表現１３７を含む音声波形１３１を再認識範囲抽出部１１１により特定の区間１３９として、抽出し、第２音声認識部１１７により音声認識することができる。

音声認識装置１００は、音声波形１３１において汎用的な表現と、特定の表現とが混在している場合でも、汎用的な表現については、第１音声認識部１０５により音声認識するため、第１言語モデルの登録単語を増大する必要が無く、誤認識の増大を防止できる。また、音声認識装置１００は、特定の区間１３９のみを第２音声認識部１１７により音声認識を行うため、特定の表現１３７について、認識精度を向上できる。

すなわち、音声認識装置１００は、音声波形１３１において汎用的な表現と、特定の表現とが混在している場合でも、第１音声認識部１０５と、第２音声認識部１１７とを組み合わせることにより、単語の登録数を増加させた場合においても、誤認識の増大を防止しつつ、認識精度を向上できる。

実施形態では、再認識範囲抽出部１１１は、第１音声認識部１０５により認識された音声波形１３１について、ユーザの指示に基づいて、特定の表現１３７を含む特定の区間１３９を抽出する。このため、音声認識装置１００は、特定の区間１３９のみを確実に抽出し、第２音声認識部１１７により特定の区間１３９の音声認識を行うため、認識精度を向上できる。

実施形態では、再認識範囲抽出部１１１は、接尾語又は接頭語により構成された第３言語モデルを記憶する第３言語モデルＤＢ１１３を更に備える。また、再認識範囲抽出部１１１は、第１音声認識部１０５により認識された音声波形１３１について、第３言語モデルに含まれる単語を抽出することにより、特定の表現１３７を含む特定の区間１３９を抽出する。

このため、音声認識装置１００は、第３言語モデルに基づいて、特定の区間１３９を固有表現として、確実に抽出できる。また、音声認識装置１００は、第２音声認識部１１７により特定の区間１３９の音声認識を行うため、固有表現の認識精度を更に向上できる。

実施形態では、第２言語モデルは、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語に基づいて、構成される。このため、音声認識装置１００は、特定の区間１３９を対象に応じて固有表現に変換し、認識精度を更に向上できる。

（４）その他の実施形態
上述した実施形態では、第１音声認識部１０５は、第１音響モデルＤＢ１０７ａを用いて音声波形１３１を発音記号１３３に変換し、第１言語モデルを用いて、発音記号１３３を単語列からなる第１変換候補１３５に変換する、いわゆるボトムアップ的な認識手法による音声認識をする。

本発明は、これに限られず、第１音声認識部１０５は、第１言語モデルを用いて第１音声変換候補１３５を仮定し、第１言語モデルＤＢ１０７ｂの辞書部を用いて発音記号１３３に変換し、第１音響モデルＤＢ１０７ａを用いて、発音記号１３３と、対応する音声波形１３１とを照合する、いわゆるトップダウン的な認識手法による音声認識をしてもよい。この場合、図６に示す音声認識を行う処理では、第１音声認識部１０５は、ステップＳ１２１、Ｓ１２３を同時に行い、音声波形１３１から第１音声変換候補１４０を作成する。

また、上述した実施形態では、第２音声認識部１１７も、第１音声認識部１０５と同様にボトムアップ的な認識手法による音声認識をするが、本発明は、これに限られず、トップタウン的な認識手法による音声認識をしてもよい。

上述した実施形態では、音声認識装置１００は、マイク等の音声入力装置及びキーボタンやタッチパネル等のキー入力情報入力装置を備え、ユーザにより入力された音声に基づいて、変換候補を出力する。

本発明は、これに限られず、音声は、通信ネットワーク等を介して、クライアント端末から音声認識装置１００に入力されてもよい。この場合、音声認識装置１００は、ネットワーク等を介して、元のクライアント端末に変換候補を送信することにより、クライアント端末では、変換候補をユーザに提示することができる。

なお、上記のクライアント端末は、いわゆるＰＣ（Personal Computer）や携帯通信端末装置（携帯電話機やスマートフォン）、カーナビゲーションシステム等である。

上述した実施形態では、音声認識装置１００が備える各ブロックについて記載しているが、本発明これに限られず、例えば、上記の各ブロックの機能を実行することで、音声認識方法をコンピュータに実行させるプログラムとしてもよく、また、このコンピュータプログラムを配信する情報処理装置であってもよい。

上述した実施形態では、第２音声認識部１１７は、特定の区間１３９と、第２音響モデルＤＢ１１９ａとに基づいて、特定の区間１３９を発音記号１３３に置き換える。また、第２音声認識部１１７は、第２音響モデルＤＢ１１９ａから特定の区間１３９に対応する発音記号１３３を抽出する。本発明は、これに限定されず、例えば、第２音声認識部１１７は、特定の区間１３９と、第１音響モデルＤＢ１０７ａとに基づいて、特定の区間１３９を発音記号１３３に置き換えてもよい。すなわち、第２音声認識部１１７は、第１音声認識部１０５の第１音響モデルＤＢ１０７ａと共通する音響モデルを用いてもよい。

上述した実施形態では、音声認識装置１００の音声認識動作を図５を用いて、説明した。本発明は、これに限定されず、例えば、再認識範囲抽出部１１１は、第１変換候補１３５に特定の表現１３７を含むか否かを、第３言語モデル又は特定の表現１３７を指定するユーザの指示の有無の何れかによって判定してもよい。

このように、本発明は、ここでは記載していない様々な実施の形態などを含むことは勿論である。したがって、本発明の技術的範囲は、上述の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。

例えば、各構成図、フローチャート、概念図の図などは例示に過ぎず、各要素の有無、その順序や具体的内容などは適宜変更可能である。また、本発明において、各手段などの要素は、コンピュータの演算制御部に限らず、ワイヤードロジック等に基づく電子回路で実現してもよい。

１００音声認識装置
１０１音声取得部
１０３音声記憶部
１０５第１音声認識部
１０７ａ第１音響モデルＤＢ
１０７ｂ第１言語モデルＤＢ
１０９提示部
１１１再認識範囲抽出部
１１３第３言語モデルＤＢ
１１５限定範囲音声抽出部
１１７第２音声認識部
１１９ａ第２音響モデルＤＢ
１１９ｂ第２言語モデルＤＢ
１２１判定部
１２３出力部
１３１音声波形
１３１ａ音声区間
１３３発音記号
１３３ａ発音記号候補
１３５第１変換候補
１３７特定の表現
１３９特定の区間
１４１第２変換候補

Claims

汎用的な単語に基づいて構成された第１言語モデルを記憶する第１記憶手段と、
前記第１言語モデルよりも特定の表現に特化した、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語に基づいて構成された第２言語モデルを記憶する第２記憶手段と、
前記特定の表現の前後に連なるとともに、前記特定の表現に関連する接頭語または接尾語に基づいて構成された第３言語モデルを記憶する第３記憶手段と、
前記第１言語モデルを用いて、入力された音声に基づく音声波形を音声認識する第１音声認識手段と、
前記第３言語モデルを用いて、前記第１音声認識手段の認識結果から、前記接頭語または前記接尾語を抽出し、該接頭語の直後の区間または該接尾語の直前の区間を、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語含む特定の区間として抽出する抽出手段と、
前記第２言語モデルを用いて、前記抽出手段により抽出された特定の区間の音声波形を音声認識する第２音声認識手段と、
を備えることを特徴とする音声認識装置。
コンピュータが、汎用的な単語に基づいて構成された第１言語モデルを用いて、入力された音声に基づく音声波形を音声認識するステップと、
コンピュータが、前記特定の表現の前後に連なるとともに、前記特定の表現に関連する接頭語または接尾語に基づいて構成された第３言語モデルを用いて、前記第１言語モデルを用いて認識した認識結果から、前記接頭語または前記接尾語を抽出し、該接頭語の直後の区間または該接尾語の直前の区間を、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語含む特定の区間として抽出するステップと、
コンピュータが、前記第１言語モデルよりも特定の表現に特化した、固有名詞、時間表現、数量表現の少なくとも何れかからなる単語に基づいて構成された第２言語モデルを用いて、前記特定の区間について、音声認識するステップと、
を含むことを特徴とする音声認識方法。
請求項２に記載の音声認識方法をコンピュータに実行させるためのプログラム。