JP2009175630A

JP2009175630A - 音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2009175630A
Application number: JP2008016646A
Authority: JP
Inventors: Tomoji Hirose; 友二廣瀬
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-01-28
Filing date: 2008-01-28
Publication date: 2009-08-06

Abstract

【課題】音声認識の精度が高い音声認識装置を実現する。
【解決手段】本発明の音声認識装置１は、位置を示す位置情報に対応付けられた、音声の特徴量に対応する文字情報を出力するデータベースを選択する使用データベース決定部１８と、使用データベース決定部１８により選択されたデータベースを用いて音声認識を行う音声認識部１２とを備えている。これにより、自装置の現在位置に応じたデータベースを用いた音声認識を行うことができ、精度の高い音声認識を実現できる。
【選択図】図１

Description

本発明は、入力された音声を文字情報に変換する音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラムおよび該プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。

近年、音声で文章を入力することができる音声認識システムが実用化され、様々な分野で実用システムとして利用されている。これは、ユーザから発声された音声の音声信号をデジタルデータに変換し、予め定められたパターンと比較することによって発話内容を認識する音声認識エンジンを利用し、ユーザの音声を認識して文章として受け付けるものである。

そして、この音声認識システムは、技術の進歩により認識性能が年々向上し、機能は多様化（多機能化）している。それとともに、音声認識システムで認識対象となる単語も増加する傾向にある。例えば、音声認識システムがカーナビゲーションシステムに搭載される場合、認識対象となる単語は、操作などの各機能、全国の地名や施設名などが含まれることになる。このため、認識対象となる単語は膨大な数となる。この膨大な数の単語を辞書記憶装置に格納し、辞書記憶装置の中から、ユーザからの発話（音声）を的確かつ効率的に認識することは、非常に難しい。

さらに、音声認識では、周囲の環境の雑音の影響や、ユーザの声質、音量、発声速度等の相違に起因して誤認識が発生しうる。また、方言等が発声された場合、その方言等に対応する単語が単語辞書に登録されていなければ未知語となり、入力された音声を正しく認識することができない。

このように、全ての音声認識システムには、認識対象となる単語を予め登録しておく辞書に登録されていない単語は絶対に正しく認識できないという制約が存在する。

そして、特許文献１には、不特定話者用認識部と特定話者用認識部とを備え、特定の話者の場合には、特定話者用認識部を用い、それ以外の場合には、不特定話者用認識部を用いるというように、上記２つの認識部を選択的に切替えることにより、上記２つの認識部にそれぞれ備えられた辞書を用いるシステムが記載されている。
特開平０３−９３９９号公報（１９９１年１月１７日公開）

しかしながら、上記特許文献１に記載の構成では下記のような問題がある。すなわち、特許文献１に記載の構成では、特定の話者であるか否かによって、特定話者用認識部と不特定話者用認識部とを選択的に切替えるのみなので、話者に対応した辞書が用いられるのみである。

よって、話者が同じであれば、音声認識装置が用いられる状況がどのようなものであっても、用いられる辞書は同じである。したがって、音声認識装置が用いられる状況が変わっても、認識できる単語は変わらず、音声認識装置の精度は向上しない。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、音声認識の精度が高い音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体を実現することにある。

上記課題を解決するために、本発明に係る音声認識装置は、位置を示す位置情報に対応付けられた、音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えていることを特徴としている。

また、本発明に係る音声認識装置の制御方法は、位置を示す位置情報に対応付けられた、音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、上記データベース選択ステップで選択されたデータベースを用いて音声認識を行う音声認識ステップとを含むことを特徴としている。

上記の構成および方法によれば、位置を示す位置情報と対応づけられたデータベースを用いて音声認識を行う。

これにより、位置情報が示す位置に応じたデータベースを用いた音声認識を行うことができる。

よって、音声認識装置に入力する音声を受け付ける装置（マイク等）が、ある場所に存在する場合に、当該場所でよく用いられると考えられる単語や音響・言語モデルを充実させたデータベースを、音声認識で用いることができる。それゆえ、より精度の高い音声認識を実現することができる。

例えば、音声を関西地方で入力する場合、音声が関西弁である可能性が高いと考えられるため、関西弁の音響・言語モデルのデータベースを音声認識に用いるデータベースとして選択すれば、より精度の高い音声認識を行うことが可能となる。また、音声を駅で入力する場合、旅行関連の話題が話された音声である可能性が高いと考えられるため、旅行関連の単語が充実した辞書を音声認識に用いるデータベースとして選択すれば、より精度の高い音声認識を行うことが可能となる。

本発明に係る音声認識装置は、さらに、位置情報を取得する位置情報取得手段を備えているものであってもよい。

上記の構成によれば、位置情報取得手段によって取得された位置情報に対応付けられたデータベースを用いて音声認識を行う。ここで、位置情報取得手段は、自装置の位置を示す位置情報を取得するものであってもよいし、携帯端末等の外部装置から通信路を介して外部装置の位置を示す位置情報を取得するものであってもよい。そして、位置情報が自装置の位置を示す場合には、音声認識を行う音声は自装置または自装置の近傍にて取得する。また、位置情報が外部装置の位置を示す場合には、音声認識を行う音声は当該外部装置または外部装置の近傍にて取得する。

これにより、上記位置情報が、音声を入力した装置の位置を示すものとなるので、音声の入力の位置に対応したデータベースを用いて音声認識を行うことができる。

本発明に係る音声認識装置は、通信路よって接続された携帯端末から、該携帯端末の位置を示す位置情報および該携帯端末に入力された音声の特徴量情報を受信する音声／位置情報受信手段と、上記音声認識手段で音声認識した結果である音声認識結果情報を上記携帯端末へ送信する文字情報送信手段と、を備えているものであってもよい。

上記の構成によれば、通信路によって接続された携帯端末から、受信した位置を示す位置情報と対応づけられたデータベースを用いて音声認識を行う。そして、音声認識の結果が上記携帯端末へ送信される。

これにより、携帯端末の位置に応じたデータベースを用いた音声認識を行うことができる。

本発明に係る音声認識装置では、上記データベース選択手段は、現在使用しているデータベースと異なるデータベースを使用するデータベースとして選択するとき、表示部に、新たなデータベースを選択してよいか確認する確認画面を表示させるものであってもよい。

上記の構成によれば、使用するデータベースが変更される場合、確認画面が表示部表示される。これにより、ユーザは、データベースが変更される前に確認することができる。

上記課題を解決するために、本発明に係る携帯端末は、自装置の位置を示す位置情報を取得する位置情報取得手段と、入力された音声から音声認識に用いる特徴量を抽出する特徴量抽出手段と、上記位置情報取得手段が取得した位置情報と、上記特徴量抽出手段が抽出した特徴量を示す特徴量情報とを音声認識装置に送信する音声／位置情報送信手段と、上記送信手段によって送信した特徴量情報および位置情報に基づいて上記音声認識装置が音声認識した結果である文字情報を、上記音声認識装置から受信する文字情報受信手段と、を備えていることを特徴としている。

上記の構成によれば、自装置に入力された音声と、自装置の位置とを示す情報とを音声認識装置に送信し、自装置の位置に応じたデータベースを用いた音声認識が行われた結果を受信する。

これにより、自装置に音声認識手段、およびデータベースを備えていなくても、位置に応じたデータベースを用いた音声認識を行うことができる。

上記音声認識サーバと上記携帯端末とから構成される音声認識システムであっても、上述した効果を奏することができる。

また、上記課題を解決するために、本発明に係る携帯端末は、複数の機能を有する携帯端末において、自装置で実行中の機能または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得手段と、上記実行機能情報取得手段が取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えていることを特徴としている。

また、本発明に係る携帯端末の制御方法は、複数の機能を有する携帯端末において、自装置で実行中の機能または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得ステップと、上記実行機能情報取得ステップにて取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、上記データベース選択ステップにて選択されたデータベースを用いて音声認識を行う音声認識ステップとを含むことを特徴としている。

上記の構成および方法によれば、自装置で、現在または直近に実行していた機能を示す実行機能情報を取得し、実行機能情報と対応づけられたデータベースを用いて音声認識を行う。

これにより、自装置で現在または直近に実行していた機能に応じたデータベースを用いた音声認識を行うことができる。

よって、例えば、自装置が、音楽プレーヤとしての機能を有し、音楽プレーヤとしての機能を実行している時、音楽関連の単語を充実させたデータベースを選択して音声認識を行うことができ、より精度の高い音声認識を実現することができる。

なお、上記音声認識装置、および携帯端末は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記音声認識装置、携帯端末、音声認識サーバをコンピュータにて実現させる音声認識装置、携帯端末、音声認識サーバの制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

以上のように、本発明に係る音声認識装置は、位置を示す位置情報に対応付けられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えている構成である。

また、本発明に係る音声認識装置の制御方法は、位置を示す位置情報に対応付けられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、上記データベース選択ステップで選択されたデータベースを用いて音声認識を行う音声認識ステップとを含む方法である。

よって、音声認識装置に入力する音声を受け付ける装置（マイク等）が、ある場所に存在する場合に、当該場所で、よく用いられると考えられる単語や音響・言語モデルを充実させたデータベースを用いて音声認識を行うことができ、より精度の高い音声認識を実現することができる。

また、本発明に係る音声認識装置は、複数の機能を有する音声認識装置において、自装置で実行中の機能、または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得手段と、上記実行機能情報取得手段が取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えている構成である。

また、本発明に係る携帯端末は、音声認識装置に音声情報を送信し、送信した音声情報が示す文字情報を該音声認識装置から受信する携帯端末において、位置を示す位置情報を取得する位置情報取得手段と、入力された音声から音声認識に用いる音声の特徴量を抽出する特徴量抽出手段と、上記位置情報取得手段が取得した位置情報と、上記特徴量抽出手段が抽出した特徴量を示す特徴量情報とを、上記音声認識装置に送信する送信手段と、上記送信手段によって送信した特徴量情報と位置情報とによって上記音声認識装置が音声認識した結果である文字情報を取得する情報取得手段と、を備えている構成である。

これにより、自装置に音声認識手段、およびデータベースが備えられていなくても、位置に応じたデータベースを用いた音声認識を行うことができる。

〔実施の形態１〕
本発明の一実施の形態について図１から図３に基づいて説明すれば、以下のとおりである。また、以下に示す音声認識装置１は、携帯電話機に備えることも可能である。

図１は、本実施の形態にかかる音声認識装置１のブロック図である。図１に示すように、音声認識装置１は、音声入力部１０、特徴量算出部（特徴量算出手段）１１、音声認識部（音声認識手段）１２、表示部１３、場所情報取得部（位置情報取得手段）１４、地図情報記憶部１５、ＧＰＳ（Global Positioning System）１６、ＧＰＳアンテナ１７、使用データベース決定部（データベース選択手段）１８、対応テーブル記憶部１９、データベース部２０、および入力部２１を含む構成である。

音声入力部１０は、マイク等から入力された音声を受け付け、受け付けた音声を音声データに変換する。そして、音声データを特徴量算出部１１へ送信する。

特徴量算出部１１は、受信した音声データから、音声認識部１２で音声認識するために必要な特徴量を算出し、特徴量情報として音声認識部１２へ送信する。特徴量の例としては、ＭＦＣＣ（Mel Frequency Cepstrum Coefficient）、ＬＰＣ（Linear Prediction Coefficient）ケプストラムやパワー、それらの一次や二次の回帰係数の他、それらの値を主成分分析や判別分析により次元圧縮したものなどの多次元ベクトルが挙げられるが、本実施形態ではこれに限定されるものではない。

音声認識部１２は、特徴量算出部１１から受信した特徴量情報から、使用データベース決定部１８が決定したデータベースを用いて音声認識を行い、表示データとして表示部１３に送信する。この音声認識については、従来の技術を用いる。

表示部１３は、音声認識部１２から表示データを受信し、表示データが示す内容を表示する。表示部１３としては、文字等が表示できる表示装置であれば何でもよいが、例えば、ＬＣＤ（Liquid Crystal Display）が挙げられる。

場所情報取得部１４は、ＧＰＳ１６から受信した緯度・経度情報（位置情報）と地図情報記憶部１５に記憶されている地図情報とから、地図情報中の、受信した緯度・経度に該当する地点（現在位置）の場所情報（位置情報）を取得する。そして、取得した場所情報を使用データベース決定部１８へ送信する。ここで、場所情報は、音響・言語モデルに対応した音声認識を行う場合は、現在位置に当たる地方（例えば、関西地方、東北地方など）を示す情報であり、施設に対応した音声認識を行う場合は、現在位置に当たる施設の名称（例えば、駅、空港レストランなど）を示す情報である。なお、場所情報は、データベースを特定できるものであれば任意に設定できる。すなわち、地図上での区割りや名称も自由に設定できる。

地図情報記憶部１５は、場所情報取得部１４で使用する地図情報を記憶している。また、地図情報には、その地点がどの地方に属するか、その地点にどのような施設があるかについての情報も含まれる。

ＧＰＳ１６は、ＧＰＳアンテナ１７を用いて受信した電波から、緯度・経度情報を生成する。そして、生成した緯度・経度情報を場所情報取得部１４へ送信する。

使用データベース決定部１８は、対応テーブル記憶部１９に記憶されている対応テーブルに従って、音声認識装置１で使用するデータベースをデータベース部２０の中から決定する。

また、ユーザが場所等を移動し、使用するデータベースが変更される場合に、使用データベース決定部１８は、新たに使用するデータベースを決定してよいかを、表示部１３に表示させるものであってもよい。

対応テーブル記憶部１９は、音声認識部１２で使用するデータベースを使用データベース決定部１８で決定するときに用いる、場所情報と使用データベースとを対応させた対応テーブルを記憶している。図２に対応テーブルの例を示す。図２（ａ）は、音響・言語モデルに対応した音声認識を行う場合の対応テーブル２５を示すものであり、図２（ｂ）は、施設に対応した音声認識を行う場合の対応テーブル２６を示すものである。例えば、図２（a）に示す対応テーブル２５を用いた場合、場所情報が「関西地方」であれば、使用するデータベースは、「関西弁モデル」となる。

データベース部２０は、音声認識装置１で音声認識を行う際に、音声認識部１２で使用するデータベースを記憶している。データベースは、入力された音声の特徴量に対応する文字情報を出力するものである。データベースは、音響・言語モデル対応データベース２０１と施設対応データベース２０２とに別れている。そして、音響・言語モデル対応データベース２０１は、データベースＡＡ、データベースＡＢ、…データベースＡＺを備え、施設対応データベース２０２は、データベースＢＡ、データベースＢＢ、…データベースＢＺを備えている。なお、データベースはこれに限られるものではない。

入力部２１は、音声認識装置１のユーザインタフェースであり、各種操作キーを備え、音声認識装置１に対する様々な指示を受け付ける。また、音響・言語モデルに対応した音声認識を行うか、施設に対応した音声認識を行うかについても受け付け、受け付けた内容を使用データベース決定部１８へ送信する。なお、本実施の形態では、音響・言語モデルに対応した音声認識を行うか、施設に対応した音声認識を行うかについて記載しているが、これに限られるものではない。

なお、本実施の形態では、音響・言語モデルに対応した音声認識を行うか、施設に対応した音声認識を行うかについて、いずれか一方を選択し、一方についてのみ対応するものとしたが、両者をともに実施するものであってもよい。

次に、図３を用いて、音声認識装置１における音声処理の流れについて説明する。図３は、音声認識処理の流れを示すフローチャートである。

まず、音声認識装置１は入力部２１で、ユーザの操作により音声認識の開始を受け付ける。そして、音響・言語モデルに対応した音声認識を行うか、施設に対応した音声認識を行うかについて受け付ける（Ｓ３０１）。そして、ＧＰＳ１６で音声認識装置１の現在の位置を測位する（Ｓ３０１）。次に、場所情報取得部１４は、ＧＰＳ１６から受信した緯度・経度情報を用いて、地図情報記憶部１５に記憶されている地図情報から場所情報を取得する（Ｓ３０２）。そして、使用データベース決定部１８は、場所情報に対応したデータベースを、音声認識装置１で使用するデータベースに決定する（Ｓ３０４）。

例えば、音響・言語モデルに対応した音声認識を行う場合、使用データベース決定部１８は、図２（ａ）の対応テーブル２５を参照し、取得した場所情報が、「関西地方」を示す情報であれば、「関西弁」の音響・言語モデルのデータベースを使用するデータベースとして決定し、「東北地方」を示す情報であれば、「東北弁」の音響・言語モデルのデータベースを使用するデータベースとして決定する。

また、施設に対応した音声認識を行う場合、使用データベース決定部１８は、図２（ｂの）対応テーブル２６を参照し、取得した場所情報が、「空港」であれば、旅行関連の単語が充実している「旅行用辞書」を使用するデータベースとして決定し、「レストラン」であれば、食事関連の単語が充実している「食事用辞書」を使用するデータベースとして決定する。

そして、使用するデータベースが決定すると、音声認識装置１は音声入力を受け付け（Ｓ３０５）、音声認識を行い（Ｓ３０６）、音声認識の結果である文字情報を表示部１３に表示する（Ｓ３０７）。

以上の構成により、次のような効果を奏する。例えば、音響・言語モデルに対応した音声認識を行う場合で、音声認識装置を所持しているユーザが関西地方にいる場合を考える。この場合、音声認識装置１は、取得する場所情報が「関西地方」となるので、「関西弁」の音響・言語モデルのデータベースを選択する（図２（ａ））。そして、ユーザが関西地方にいる場合、ユーザは関西弁を話す可能性が極めて高い。よって、話す可能性の極めて高い関西弁の音響・言語モデルのデータベースを選ぶことができるようになっていることで、より精度の高い音声認識を実現することができる。

また、施設に対応した音声認識を行う場合で、音声認識装置を所持しているユーザが駅にいるときを考える。この場合、音声認識装置１は、取得する場所情報が「空港・駅」となるので、「旅行用辞書」の使用を選択する（図２（ｂ））。そして、ユーザが駅にいる場合、旅行関連の話題を話す可能性が高い。よって、話す可能性の高い話題に関連する単語が充実した辞書を選ぶことができるようになっていることで、より精度の高い音声認識を実現することができる。

〔実施の形態２〕
本発明の他の実施の形態について図４から図６に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記の実施の形態１において示した部材と同一の機能を有する部材には、同一の符号を付し、その説明を省略する。

図４は、本実施の形態に係る音声認識装置２のブロック図である。音声認識装置２において、実施の形態１と異なる点は、使用データベース決定部（データベース選択手段）４２、実行機能送信部（実行機能情報取得手段）４３、実行機能記憶部４４、対応テーブル記憶部４５、およびデータベース部４６を備えている点である。また、音声認識装置２は、音声認識に加え、複数の機能（ＧＰＳや音楽プレーヤ等）を有している。

そして、本実施の形態では、実施の形態１と異なり、音声認識装置２が実行している機能、または直近に実行していた機能に対応して、音声認識に使用するデータベースを決定する。

以下、音声認識装置２の特徴的な構成について、詳細に説明する。

実行機能送信部４３は、音声認識装置２において、現在、実行されている機能を判断し、その機能を示す実行機構情報を使用データベース決定部４２へ送信する。例えば、音声認識装置２が音楽プレーヤとしての機能している場合、音楽プレーヤとして機能しているという内容を使用データベース決定部４２へ送信する。また、現在実行されている機能がなければ、実行機能記憶部４４に記憶されている直近に実行した機能を示す情報（実行機能情報）を使用データベース決定部４２へ送信する。

実行機能記憶部４４は、音声認識装置２で実行された機能を記憶している。

使用データベース決定部４２は、実行機能送信部４３から受信した、実行機能情報から、対応テーブル記憶部４５に記憶されている対応テーブル５１を用いて、音声認識で使用するデータベースを決定する。

対応テーブル記憶部４５は、音声認識部１２で使用するデータベースを使用データベース決定部４２で決定するときに用いる、場所情報と使用データベースとを対応させた対応テーブルを記憶している。図５に対応テーブルの例を示す。図５は、実行機能情報に対応した音声認識を行う場合の対応テーブル５１を示すものである。例えば、図５に示す対応テーブル５１を用いた場合、実行機能情報が「音楽プレーヤ」であれば、使用するデータベースは、「音楽用辞書」となる。

データベース部４６は、音声認識装置２で音声認識を行う際に、音声認識部１２で使用するデータベースを記憶している。データベースは、入力された音声の特徴量に対応する文字情報を出力するものである。データベース４６は、データベースＣＡ、データベースＣＢ、…データベースＣＺを備えている。なお、データベースはこれに限られるものではない。

次に図６を用いて、音声認識装置２における処理の流れを説明する。図６は、音声認識処理の流れを示すフローチャートである。

まず、音声認識装置２は、入力部２１で、ユーザの操作により音声認識を受け付ける（Ｓ６０１）。次に、実行機能送信部４３は、音声認識装置２で実行されている機能、または音声認識装置２が直近に実行していた機能を示す実行機能情報を使用データベース決定部４２へ送信する（Ｓ６０２）。そして、使用データベース決定部４２は、受信した実行機能情報から、対応テーブル５１を用いて、音声認識に使用するデータベースを決定する（Ｓ６０３）。

例えば、受信した情報が「ＧＰＳとしての機能」であれば、旅行用辞書を使用データベースとして決定する。

そして、音声認識装置２は、使用するデータベースを決定すると、音声入力を受け付け（Ｓ６０４）、音声認識を行い（Ｓ６０５）、音声認識の結果である文字情報を表示部１３に表示する（Ｓ６０６）。

以上の構成により、音声認識装置２は、自装置で現在または直近に実行していた機能に応じたデータベースを用いた音声認識を行うことができる。

〔実施の形態３〕
本発明のさらに他の実施の形態について図７に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記の実施の形態１および２において示した部材と同一の機能を有する部材には、同一の符号を付し、その説明を省略する。

図７に、本実施の形態に係る音声認識システム３のブロック図を示す。図３に示すように、本実施の形態では、携帯端末５で音声入力および表示が行われ、音声認識は音声認識サーバ４で行われる。

すなわち、携帯端末５は、音声入力部１０、特徴量算出部（特徴量算出手段）１１、表示部１３、場所情報取得部（位置情報取得手段）１４、地図情報記憶部１５、ＧＰＳ（Global Positioning System）１６、ＧＰＳアンテナ１７に加えて、送信部（音声／位置情報送信手段）７１、受信部（文字情報取得手段）７２を備えて構成されている。また、音声認識サーバ４は、音声認識部（音声認識手段）１２、使用データベース決定部（データベース選択手段）１８、対応テーブル記憶部１９、データベース部２０に加えて、送受信部（文字情報送信手段、音声／位置情報受信手段）７５を備えて構成されている。

そして、図７に示すように、音声認識システム３では、携帯端末５において、音声入力と特徴量の算出、および場所情報の取得が行われ、特徴量情報および場所情報が送信部７１、基地局７３、網７４を介して音声認識サーバ４に送信される。そして、音声認識サーバ４は、送受信部７５で特徴量情報および場所情報を受信し、特徴量情報は音声認識部１２へ、場所情報は使用データベース決定部１８へ送信する。

場所情報を受信した使用データベース決定部１８は、上述した方法で使用データベースを決定し、音声認識部１２へ送信する。音声認識部１２は、上述した方法で音声認識を行い、結果データを、送受信部７５を介して携帯端末５の受信部７２へ送信する。結果データを受信した受信部７２は、該データを表示部１３へ送信し、表示部１３は受信した結果データが示す文字情報を表示する。

なお、本実施の形態では、場所情報を携帯端末５内で取得したが、ＧＰＳ１６で取得した緯度・経度情報を音声認識サーバ４へ送信し、音声認識サーバ４内で場所情報を取得するものであってもよい。

本発明は上述した各実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

最後に、音声認識装置１、２および音声認識システム３の各ブロック、特に音声入力部１０、特徴量算出部１１、音声認識部１２、場所情報取得部１４、使用データベース決定部１８、使用データベース決定部４２、および実行機能送信部４３は、ハードウェアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウェアによって実現してもよい。

すなわち、音声認識装置１、２および音声認識システム３は、各機能を実現する制御プログラムの命令を実行するＣＰＵ、上記プログラムを格納したＲＯＭ（read only memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである音声認識装置１、２および音声認識システム３の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、上記音声認識装置１、２および音声認識システム３に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ（microprocessor unit））が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ（compact disc read-only memory）／ＭＯ（magneto-optical）／ＭＤ（Mini Disc）／ＤＶＤ（digital video disk）／ＣＤ−Ｒ（CD Recordable）等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ（erasable programmable read-only memory）／ＥＥＰＲＯＭ（electrically erasable and programmable read-only memory）／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

また、音声認識装置１、２および音声認識システム３を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ（local area network）、ＩＳＤＮ（integrated services digital network）、ＶＡＮ（value-added network）、ＣＡＴＶ（community antenna television）通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ（institute of electrical and electronic engineers）１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ（asynchronous digital subscriber loop）回線等の有線でも、ＩｒＤＡ（infrared data association）やリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ（high data rate）、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

場所や状況に対応したデータベースを用いた音声認識を行うことができるので、例えば、様々な場所において入力される音声を認識をする場合に好適である。

本発明の実施の形態を示すものであり、音声認識装置の要部構成を示すブロック図である。上記実施の形態における対応テーブルを示すものであり、（ａ）は、音響・言語モデルに対応した音声認識を行う場合の対応テーブルを示すものであり、（ｂ）は、施設に対応した音声認識を行う場合の対応テーブルを示すものである。上記実施の形態における音声認識処理の流れを示すフローチャートである。本発明の他の実施の形態を示すものであり、音声認識装置の要部構成を示すブロック図である。上記他の実施の形態における対応テーブルを示すものである。上記他の実施の形態における音声認識処理の流れを示すフローチャートである。本発明のさらに他の実施の形態を示すものであり、音声認識システムの要部構成を示すブロック図である。

符号の説明

１、２音声認識装置
３音声認識システム
４音声認識サーバ
５携帯端末
１０音声入力部
１１特徴量算出部（特徴量算出手段）
１２音声認識部（音声認識手段）
１３表示部
１４場所情報取得部（位置情報取得手段）
１５地図情報記憶部
１８、４２使用データベース決定部（データベース選択手段）
１９、４５対応テーブル記憶部
２０、４６データベース部
４３実行機能送信部（実行機能情報取得手段）
７１送信部（音声／位置情報送信手段）
７２受信部（文字情報取得手段）
７５送受信部（文字情報送信手段、音声／位置情報受信手段）

Claims

位置を示す位置情報に対応付けられた、音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、
上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えていることを特徴とする音声認識装置。
位置情報を取得する位置情報取得手段を備えていることを特徴とする請求項１に記載の音声認識装置。
通信路よって接続された携帯端末から、該携帯端末の位置を示す位置情報および該携帯端末に入力された音声の特徴量情報を受信する音声／位置情報受信手段と、
上記音声認識手段で音声認識した結果である音声認識結果情報を上記携帯端末へ送信する文字情報送信手段と、を備えていることを特徴とする請求項２に記載の音声認識装置。
上記データベース選択手段は、現在使用しているデータベースと異なるデータベースを使用するデータベースとして選択するとき、表示部に、新たなデータベースを選択してよいか確認する確認画面を表示させることを特徴とする請求項１から３のいずれか１項に記載の音声認識装置。
自装置の位置を示す位置情報を取得する位置情報取得手段と、
入力された音声から音声認識に用いる特徴量を抽出する特徴量抽出手段と、
上記位置情報取得手段が取得した位置情報と、上記特徴量抽出手段が抽出した特徴量を示す特徴量情報とを音声認識装置に送信する音声／位置情報送信手段と、
上記送信手段によって送信した特徴量情報および位置情報に基づいて上記音声認識装置が音声認識した結果である文字情報を、上記音声認識装置から受信する文字情報受信手段と、を備えていることを特徴とする携帯端末。
請求項４に記載の音声認識装置と請求項５に記載の携帯端末とで構成される音声認識システム。
複数の機能を有する携帯端末において、
自装置で実行中の機能または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得手段と、
上記実行機能情報取得手段が取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、
上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えていることを特徴とする携帯端末。
請求項１〜４に記載の音声認識装置、請求項５、７に記載の携帯端末のいずれかを動作させる制御プログラムであって、コンピュータを上記の各手段として機能させるための制御プログラム。
請求項８に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
データベースを用いて音声を認識し、認識結果である文字情報を出力する音声認識装置の制御方法であって、
位置を示す位置情報に対応付けられた、音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、
上記データベース選択ステップにて選択したデータベースを用いて音声認識を行う音声認識ステップとを含むことを特徴とする音声認識装置の制御方法。
複数の機能を有する携帯端末において、
自装置で実行中の機能または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得ステップと、
上記実行機能情報取得ステップにて取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、
上記データベース選択ステップにて選択されたデータベースを用いて音声認識を行う音声認識ステップとを含むことを特徴とする携帯端末の制御方法。