JP2013250379A

JP2013250379A - 音声認識装置、音声認識方法およびプログラム

Info

Publication number: JP2013250379A
Application number: JP2012124247A
Authority: JP
Inventors: Shuichi Kawaguchi; 修市川口
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2012-05-31
Filing date: 2012-05-31
Publication date: 2013-12-12

Abstract

【課題】音声中に含まれる固有名詞に対して、その音響的特徴の抽出での誤りを補正してユーザ辞書との対比を行うことによって、その認識精度を改善させる「音声認識装置、音声認識方法およびプログラム」を提供する。
【解決手段】情報端末における音声認識装置１００は、固有名称をその端末に対するユーザの利用状況に基づいて収集して、ユーザ辞書を作成する。入力された音声は、その音声波形に基づいて音声認識によるテキスト化され、そこから固有名詞に係るテキスト部位が抽出される。抽出されたテキスト部位における特定の文字は置き換えられ、１または複数の単語が生成される。これらの単語は前記ユーザ辞書で検索され、該当単語が含まれている場合には、前記固有名詞に係るテキスト部位は当該単語で置き換えられる。
【選択図】図１

Description

本発明は、入力音声に対する認識精度を改善させる音声認識装置、音声認識方法およびプログラムに関する。

キーボードなどによる手入力が困難な環境におけるコンピュータの利用状況、例えば、走行中の車両におけるナビゲーション装置の操作制御、携帯型情報端末での文字入力などにおいて、音声認識による情報入力の活用が増えてきている。音声認識技術では、入力された音声を、その音響的な特徴に対する、音響モデルと呼ばれる音声コーパスを利用したデータとの比較による解析と、その言語的な特徴に対する、言語モデルと呼ばれる音素の並びに対する言語的制約に基づく解析とを通して、テキストデータに変換する、ということが基礎技術として確立されている。

情報機器に入力される音声は、その発話者の声質、入力機器の性能、周囲環境などによって影響を受けるので、音声認識技術における最大の関心はその認識精度を如何に向上させるかといったことにある。一般的に、音響モデルおよび言語モデルにおけるサンプルデータ、すなわち音声コーパスや登録単語を増加させることによって、その認識精度を高めることができるが、一方でデータの増加に伴う処理速度の低下の問題が懸念される。

このような問題を解決しうる技術として特許文献１が存在する。特許文献１に開示の技術は、第１音声認識部で認識された音声に対し、更にその特定の区間を抽出して、その区間に対してより制約的な言語モデルに基づく解析を行なうことによって、認識精度を向上させるといったものである。そして、この特定の区間を抽出する方法として、周知の「固有名詞抽出技術」を用いることにより、固有名詞をその特定の区間として抽出し、これを専用の固有名詞辞書と対比することで精度向上を図ることが開示されている。

また、車載ナビゲーション用の音声認識装置における認識精度を向上させる技術として、特許文献２が存在する。特許文献２に開示の技術は、音声辞書を地域毎にグループ分けし、車両の現在位置に基づいて音声認識の際に利用する辞書を使い分けることで、その認識精度を向上させるといったものである。

特開２０１１‐２４２６１３号公報特開平７‐６４４８０号公報

特許文献１に開示の技術によって、音声中に含まれる特定表現に対する認識精度を一定程度改善することが期待されるものの、次のような理由によりその程度は限定的になるものと考えられる。すなわち、特許文献１の技術は、抽出される特定区間の表現に対して言語モデルを変えて再認識を実施するものであり、従って、もともと音響モデルにおける認識に誤りが含まれていた場合には、たとえその区間に対して再認識を行なったとしても、その認識精度を向上させることは期待できない。

この問題は特許文献２に開示の技術においても同様であり、音響モデルにおける認識に誤りが含まれていた場合には、精度向上は期待できない。

本発明は、これらの問題を解決するためになされたものであり、音声中に含まれる固有名詞に対して、その音響的特徴の抽出での誤りを補正してユーザ辞書との対比を行うことによって、その認識精度を改善させることができるものである。

本発明は、情報端末における音声認識装置であって、固有名称をその端末に対するユーザの利用状況に基づいて収集して、ユーザ辞書を作成する手段と、入力された音声を、その音声波形に基づいて音声認識しテキスト化する手段と、前記テキスト化された音声から固有名詞に係るテキスト部位を抽出する手段と、前記抽出されたテキスト部位における特定の文字を置き換えることにより、１または複数の単語を生成する手段と、前記ユーザ辞書に前記１または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換える手段と、を有する。

好ましくは、前記音声をテキスト化する手段が、音響モデルに基づく確率により音声波形に含まれる各音素を決定する手段を含み、前記抽出されたテキスト部位から１または複数の単語を生成する手段が、その音声波形に対する前記音響モデルに基づく確率データを参照して、前記抽出されたテキスト部位における特定の文字を置き換える。

好ましくは、前記抽出されたテキスト部位から１または複数の単語を生成する手段が、前記音声をテキスト化するときに、各音素の次候補とされた音素を、前記抽出されたテキスト部位における対応音素と置き換える。

好ましくは、前記音声認識装置が、移動体に対するナビゲーション機能を備えた情報端末における音声認識装置であり、前記ユーザ辞書を作成する手段が、前記ナビゲーションに係る固有名称をそのユーザの移動履歴に基づいて収集して、ユーザ辞書を作成するものである。

好ましくは、前記ユーザ辞書を作成する手段が、移動体の現在位置、目的地または現在地から目的値までの経路に基づいて、地図データから取得される地名、施設名を含む固有名称を収集して構成されるものである。

好ましくは、前記ユーザ辞書が、各固有名称に対して、その読み、位置座標、登録日時の各情報を備えるとともに、それらの情報に基づいてその優先順位が与えられたものであり、前記固有名詞に係るテキスト部位を置き換える手段は、その置き換えに係る単語が複数ある場合に、前記ユーザ辞書における優先順位に従って、置き換えに係る単語を決定する。

本発明は、情報端末における音声認識方法であって、固有名称をその端末に対するユーザの利用履歴に基づいて収集して、ユーザ辞書を作成するステップと、入力された音声を、その音声波形に基づいて音声認識しテキスト化するステップと、前記テキスト化された音声から固有名詞に係るテキスト部位を抽出するステップと、前記抽出されたテキスト部位における特定の文字を置き換えることにより、１または複数の単語を生成するステップと、前記ユーザ辞書に前記１または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換えるステップと、を有する。

好ましくは、前記音声をテキスト化するステップが、音響モデルに基づく確率により音声波形に含まれる各音素を決定するステップを含み、前記抽出されたテキスト部位から１または複数の単語を生成するステップが、その音声波形に対する前記音響モデルに基づく確率データを参照して、前記抽出されたテキスト部位における特定の文字を置き換える。

本発明は、情報端末における音声認識プログラムであって、固有名称をその端末に対するユーザの利用履歴に基づいて収集して、ユーザ辞書を作成するステップと、入力された音声を、その音声波形に基づいて音声認識しテキスト化するステップと、前記テキスト化された音声から固有名詞に係るテキスト部位を抽出するステップと、前記抽出されたテキスト部位における特定の文字を置き換えることにより、１または複数の単語を生成するステップと、前記ユーザ辞書に前記１または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換えるステップと、を有する。

本発明によれば、抽出された固有名詞に係るテキスト部位に対し、その文字の組み換えを行った上でユーザ辞書との対比がなされる。これによって当該テキスト部位に対する、音響モデルによる認識での誤りがあった場合でも、その補正がなされる可能性が高まり、結果として認識精度が向上することが期待できるものである。特に、音声をテキスト化するときに、各音素の次候補とされた音素を置き換えの対象とすることで、その置換回数を最小に抑えることができ、認識速度上の影響を最小にできる。

本発明の実施例に係る情報端末における、音声認識装置の構成例を示すブロック図である。音響解析により得られる音素ごとの確からしさを表した図である。置き換え単語生成部における機能を説明するための図である。ユーザ辞書に登録される固有名称のデータ構造の一例である。音声認識装置における音声認識処理のフローチャートである。音声認識装置における各解析における出力テキストの変化を模式的に表した図である。

次に、本発明の実施の形態について図面を参照して詳細に説明する。以下では、移動体に対するナビゲーション機能を備えた情報端末における音声認識装置を例に取って、本発明の詳細を説明する。実施例に係る音声認識装置においては、移動体の現在位置や走行履歴の情報を活用して、音声認識の精度を向上させるものである。この種の情報端末の形態としては、車両のコンソールに設置された車載ナビゲーション装置、または車載ナビゲーション装置に接続してそこから移動体の情報を取得可能な携帯型情報端末、または自身がナビゲーション機能を備えた携帯型情報端末などが考えられる。

図１は、本発明の実施例に係る情報端末における、音声認識装置の構成例を示すブロック図である。同図に示すように、音声認識装置１００は、音声入力部１０２、音声認識部１０４、認識テキスト補正部１０６、生成テキスト出力部１０８、記憶部１１０および制御部１１２を有する。これらの各機能は、ＣＰＵ、メモリ、通信機能などを備えた汎用コンピュータ上で、本音声認識に係るプログラムを実行することによって実現することができる。

音声入力部１０２は、利用者の音声をマイクなどから入力して音声波形に変換する。音声認識部１０４は、入力音声波形を解析してその音声に対応するテキストを出力するもので、音響モデル１１４に基づく解析を実施する音響解析部１１６と、言語モデル１１８に基づく解析を実施する言語解析部１２０との二段階に渡る解析で音声を認識する。音響解析部１１６では、入力音声波形を音素、音節、トライフォン（三つ組音素）などの小単位に分離し、音響モデル１１４に蓄積した大量の音声波形データ（音声コーパス）と対比する。そして、その中から最も近似度の高い音声を認識結果として出力する。例えば、音響解析部１１６では、「小菅（こすげ）」という入力に対して、図２に模式的に示されるような中間出力が得られる。図における縦方向の並びは、各音素に対する対応候補の確からしさの程度を表している。例えば、入力音声の最初の音素に対し、音響モデルとの対比により、「こ」、「ほ」、「か」がその候補として選出され、それらの確からしさの度合いはそれぞれ９０％、８０％、６０％といった具合になる。音響解析部１１６における解析データは記憶部１１０に記録され、認識テキスト補正部１０６においても利用される。

言語解析部１２０では、言語モデル１１８に蓄積した大量の単語データと、単語の並びの制約や品詞を定義した句・文データから、音響解析部１１６で得られたテキストの並びを、言語的に解析する。単語の並びの制約の表現には、Ｎ個の単語の並びにおける出現頻度をテーブル化したｎ.ｇｒａｍ文法などを用いて、並びの確からしさを確率的に表現する。音声認識部１０４では、音響解析部１１６における小単位の音声解析結果に対し、言語解析部１２０における言語的解析によって、入力音声に対する意味的補正がなされ、それが音声認識出力として得られる。

認識テキスト補正部１０６は、音声認識部１０４の出力を取得して、更にその補正を行うもので、固有名詞抽出部１２２、置き換え単語生成部１２４、置き換え判定部１２６、ユーザ辞書生成部１２８、ユーザ辞書１３０およびユーザ辞書管理部１３２を備える。固有名詞抽出部１２２は、音声認識部１０４からの音声に係る出力において、その固有名詞に係るテキスト部位を抽出する。固有名詞の抽出においては、前記言語解析部１２０による品詞解析の結果を利用する。置き換え単語生成部１２４は、固有名詞抽出部１２２で抽出された固有名詞に対し、その単語を構成する文字の置き換えを行なって１または複数の単語を生成する。この際、置き換え単語生成部１２４では、前記音響解析部１１６で得られた音素候補の確率値を利用して、その組合せ数を限定する。例えば、対象音素に対する確率値が８０％以上のもの、対象音素の次候補のみ、などの境界値を設定して対象候補を限定する。図２で示した、入力音声「小菅（こすげ）」に対して次候補の音素のみ、すなわち「ほ」「う」「げ」を対象にした場合、図３に示すように、置き換え単語生成部１２４で生成される単語の組み合わせ数は８組となる。

置き換え判定部１２６は、置き換え単語生成部１２４で生成された各単語につき、それがユーザ辞書１３０に含まれているか検索し、該当単語が辞書内に存在する場合に、これを置換文字列として決定する。例えば、ユーザ辞書１３０内には、「小菅（こすげ）」の単語が登録されていて、一方で音声認識部１０４で認識された「小杉（こすぎ）」の単語が含まれていない場合においては、「小杉（こすぎ）」に変えて「小菅（こすげ）」を認識文字として採択する。後述するようにユーザ辞書１３０における各単語は、所定基準に基づく優先順位を持っており、組合せ単語のうちで複数の単語が辞書内に発見された場合には、その優先順位に従って置き換え単語を決定する。

ユーザ辞書１３０は、ユーザのナビゲーション装置における利用状況に基づいて取得される固有名称を蓄積したデータベースであり、ユーザ辞書生成部１２８は、ナビゲーション装置１３４に接続して、そこからユーザの利用状況を取得し固有名称を抽出する。ここでナビゲーション装置におけるユーザの利用状況を把握するものとして、車両の現在および過去の走行情報が利用される。具体的には、現在位置算出部１３４ａで算出される車両の現在位置の周辺おける地域や施設の情報、誘導経路案内部１３４ｂで構築した誘導経路および目的地の周辺おける地域や施設の情報、並びに施設検索部１３４ｃで検索された施設の情報を、地図データ１３４ｄから取得する。好適な実施例において取得される情報には、その地域または施設の「読み」、「綴り」、「位置座標」、「登録日時」の各情報が含まれる。図４に、ユーザ辞書１３０に登録される固有名称のデータ構造の一例を示した。

登録される固有名称には、所定基準に基づく優先順位が付けられる。例えば、その元データにおける出現頻度、登録日時、現在の車両位置からの距離の何れかまたはそれらの複合的基準に従って、優先順位を決定し、登録時またはその読み出し時にデータの並び替えを行なう。ユーザ辞書管理部１３２は、このようなデータの並び替えに係るデータ管理を行うと共に、古い情報をユーザ辞書１３０から削除する処理を定期的に実行する。

生成テキスト出力部１０８は、音声認識部１０４で認識されたテキストに対し、置き換え判定部１２６で採択された単語の置き換えを行なって、これを音声認識結果として次処理に渡す。例えば、ソーシャルテキスト投稿サービスの利用に際して、本音声認識が利用される場合には、この音声認識結果は、そのようなサービスのアプリケーション・インタフェースプログラムに渡され、情報端末が備える通信機能などを介して投稿可能になる。また、ナビゲーション装置に対する施設検索などの操作に利用される場合には、音声認識結果は、ナビゲーション装置側に入力されその施設案内プログラムの実行を可能にする。

記憶部１１０は、本音声認識装置１００における各処理の段階で生成される一時データを記憶する。そのようなデータには、音声入力部１０２からの音声波形、音響解析部１１６からの抽出音素およびその確率値、言語解析部１２０からの句・文データおよびその品詞などの属性情報、固有名詞抽出部１２２で抽出された固有名詞、置き換え単語生成部１２４で生成された単語群、置き換え判定部１２６で採択された置き換え単語、生成テキスト出力部１０８で出力される生成テキストが含まれる。制御部１１２は、音声認識装置１００の各機能を制御する。

次に、図５のフローチャートに従って、本音声認識装置における音声認識処理の過程を説明する。図において本音声認識処理は、利用者がマイクなどの音声入力機器に対して発話することによって開始される（ステップＳ５０２）。利用者のボタン操作などによる明示的な指示、または一定時間の無音を検出することなどにより、音声入力の終了を検出し（ステップＳ５０４）、音声入力部１０２において入力音声を音声波形データに変換する（ステップＳ５０６）。取得された音声波形は、音声認識部１０４へ入力され、最初に音響モデルに基づく音響解析に掛けられる（ステップＳ５０８）。音響解析部１１６では、音声波形は音素などの小単位に分離され、個々が音声コーパスと対比されて、その確率値に応じて解析テキストが決定される。この解析データは後の利用のために記憶部に保存される。次に、この解析テキストは言語モデルに基づく言語解析に掛けられる（ステップＳ５１０）。言語解析部１２０では、言語モデルにおける単語データと句・文データから、解析テキストの並びを言語的に解析し、並びの確からしさを確率値として表現する。そして確率値の高い並びをその音声テキストとして決定する。

次に、言語解析部１２０からの出力テキストは、固有名詞抽出部１２２に渡され、そのテキストにおける固有名詞に係る単語が抽出される（ステップＳ５１２）。固有名詞の抽出には、言語解析部１２０における品詞解析の結果を利用する。テキスト中に固有名詞が存在しない場合、処理はステップＳ５１４からステップＳ５２４に移り、言語解析部１２０からの出力テキストを最終的な生成テキストとし、次処理に出力する。

ステップＳ５１４においてテキスト中に固有名詞に係る単語が含まれていると判断される場合は、次に、その単語に対する１または複数の置き換え単語を生成する（ステップＳ５１６）。前述のとおり、単語中の各文字の置き換え基準は、音響解析部１１６で得られた各音素に対する確率値を参照することによる。そして、ここで生成された各単語に対して、ユーザ辞書１３０に対する検索を実施し（ステップＳ５１８）、辞書中に該当単語が存在する場合には、これを元のテキストから抽出した固有名詞と置き換え、認識テキストを完成させ、これを最終的な認識テキストとして次処理に出力する（ステップＳ５２０〜５２４）。生成した複数の単語がユーザ辞書１３０に見つかった場合は、前述したその固有名詞の優先順位基準に従い、優先順位が高い単語を置き換え単語として採択する。一方で、生成した複数の単語の何れもがユーザ辞書１３０に存在しない場合、または置換前の固有名詞だけがユーザ辞書１３０に存在する場合には、ステップＳ５２０からステップＳ５２４に処理を移し、言語解析部１２０からの出力テキストを最終的な認識テキストとして出力する。以上のようにして、利用者からの入力音声は、音響モデルによる解析、言語モデルによる解析、およびユーザ辞書を利用した固有名詞の置き換え、の各処理を経て音声認識されテキスト文字として出力されるのである。

図６は、本音声認識装置における各解析における出力テキストの変化を模式的に表している。ここでは、利用者がソーシャルテキスト投稿サービスに対して音声による投稿を行う状況で、「小菅ジャンクション到着」と発話した場合を例とする。この入力に係る音声波形は個々の音素に分離され、音響解析によって各文字単位で音声コーパスとの対比による認識が行われる。この例では、「こすげ」の発話における「げ」の音素がより確率値の高い「ぎ」と認識されたと仮定する。他の文字は発話通りに解析されたものとする。

音響解析により認識された音声波形の各音素「こ」、「す」、「ぎ」、「じゃ」、「ん」...「く」は、言語解析により「小杉（こすぎ）」、「ジャンクション」および「到着（とうちゃく）」と解析されている。このテキストに対して固有名詞である「小杉（こすぎ）」の文字列が抽出され、その文字の組み合わせとして「こすぎ」、「こすげ」、「ほすぎ」...などが生成される。ユーザ辞書にはこれらの候補に対して「小菅（こすげ）」という固有名詞のみがヒットし、置き換え単語として選ばれる。これによって、「小杉（こすぎ）ジャンクション到着」という認識テキストは、「小菅（こすげ）ジャンクション到着」というテキストに変換され、音声認識における最終結果として出力される。

以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形・変更が可能である。前記実施例では、ユーザ辞書で管理する固有名称を、ナビゲーションに係るデータから収集したが、情報端末またはナビゲーション装置において蓄積されている他のデータ、例えば端末に格納した人名、住所などの個人の情報を含むアドレスデータ、視聴のために格納した映像および楽曲の情報その他の、ユーザに係る情報からも収集して良い。

１００：音声認識装置１０２：音声入力部
１０４：音声認識部１０６：認識テキスト補正部
１０８：生成テキスト出力部１１０：記憶部
１１２：制御部１１４：音響モデル
１１６：音響解析部１１８：言語モデル
１２０：言語解析部１２２：固有名詞抽出部
１２４：置き換え単語生成部１２６：置き換え判定部
１２８：ユーザ辞書生成部１３０：ユーザ辞書
１３２：ユーザ辞書管理部

Claims

情報端末における音声認識装置であって、
固有名称をその端末に対するユーザの利用状況に基づいて収集して、ユーザ辞書を作成
する手段と、
入力された音声を、その音声波形に基づいて音声認識しテキスト化する手段と、
前記テキスト化された音声から固有名詞に係るテキスト部位を抽出する手段と、
前記抽出されたテキスト部位における特定の文字を置き換えることにより、１または複
数の単語を生成する手段と、
前記ユーザ辞書に前記１または複数の単語が含まれている場合に、前記固有名詞に係る
テキスト部位を当該単語で置き換える手段と、
を有する音声認識装置。
前記音声をテキスト化する手段が、音響モデルに基づく確率により音
声波形に含まれる各音素を決定する手段を含み、
前記抽出されたテキスト部位から１または複数の単語を生成する手段が、その音声波形に対する前記音響モデルに基づく確率データを参照して、前記抽出されたテキスト部位における特定の文字を置き換える、
請求項１に記載の音声認識装置。
前記抽出されたテキスト部位から１または複数の単語を生成する手段が、前記音声をテキスト化するときに、各音素の次候補とされた音素を、前記抽出されたテキスト部位における対応音素と置き換える、
請求項２に記載の音声認識装置。
前記音声認識装置が、移動体に対するナビゲーション機能を備えた情報端末における音声認識装置であり、
前記ユーザ辞書を作成する手段が、前記ナビゲーションに係る固有名称をそのユーザの移動履歴に基づいて収集して、ユーザ辞書を作成するものである、
請求項１〜３の何れかに記載の音声認識装置。
前記ユーザ辞書を作成する手段が、移動体の現在位置、目的地または現在地から目的値までの経路に基づいて、地図データから取得される地名、施設名を含む固有名称を収集して構成されるものである、
請求項４に記載の音声認識装置。
前記ユーザ辞書が、各固有名称に対して、その読み、位置座標、登録日時の各情報を備えるとともに、それらの情報に基づいてその優先順位が与えられたものであり、
前記固有名詞に係るテキスト部位を置き換える手段は、その置き換えに係る単語が複数ある場合に、前記ユーザ辞書における優先順位に従って、置き換えに係る単語を決定する、
請求項５に記載の音声認識装置。
情報端末における音声認識方法であって、
固有名称をその端末に対するユーザの利用履歴に基づいて収集して、ユーザ辞書を作成するステップと、
入力された音声を、その音声波形に基づいて音声認識しテキスト化するステップと、
前記テキスト化された音声から固有名詞に係るテキスト部位を抽出するステップと、
前記抽出されたテキスト部位における特定の文字を置き換えることにより、１または複数の単語を生成するステップと、
前記ユーザ辞書に前記１または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換えるステップと、
を有する音声認識方法。
前記音声をテキスト化するステップが、音響モデルに基づく確率により音声波形に含まれる各音素を決定するステップを含み、
前記抽出されたテキスト部位から１または複数の単語を生成するステップが、その音声波形に対する前記音響モデルに基づく確率データを参照して、前記抽出されたテキスト部位における特定の文字を置き換える、
請求項７に記載の音声認識方法。
情報端末における音声認識プログラムであって、
固有名称をその端末に対するユーザの利用履歴に基づいて収集して、ユーザ辞書を作成するステップと、
入力された音声を、その音声波形に基づいて音声認識しテキスト化するステップと、
前記テキスト化された音声から固有名詞に係るテキスト部位を抽出するステップと、
前記抽出されたテキスト部位における特定の文字を置き換えることにより、１または複数の単語を生成するステップと、
前記ユーザ辞書に前記１または複数の単語が含まれている場合に、前記固有名詞に係るテキスト部位を当該単語で置き換えるステップと、
を有する音声認識プログラム。