JP2009175630A - 音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2009175630A
JP2009175630A JP2008016646A JP2008016646A JP2009175630A JP 2009175630 A JP2009175630 A JP 2009175630A JP 2008016646 A JP2008016646 A JP 2008016646A JP 2008016646 A JP2008016646 A JP 2008016646A JP 2009175630 A JP2009175630 A JP 2009175630A
Authority
JP
Japan
Prior art keywords
database
speech recognition
voice
voice recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008016646A
Other languages
English (en)
Inventor
Tomoji Hirose
友二 廣瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2008016646A priority Critical patent/JP2009175630A/ja
Publication of JP2009175630A publication Critical patent/JP2009175630A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】音声認識の精度が高い音声認識装置を実現する。
【解決手段】本発明の音声認識装置1は、位置を示す位置情報に対応付けられた、音声の特徴量に対応する文字情報を出力するデータベースを選択する使用データベース決定部18と、使用データベース決定部18により選択されたデータベースを用いて音声認識を行う音声認識部12とを備えている。これにより、自装置の現在位置に応じたデータベースを用いた音声認識を行うことができ、精度の高い音声認識を実現できる。
【選択図】図1

Description

本発明は、入力された音声を文字情報に変換する音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラムおよび該プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。
近年、音声で文章を入力することができる音声認識システムが実用化され、様々な分野で実用システムとして利用されている。これは、ユーザから発声された音声の音声信号をデジタルデータに変換し、予め定められたパターンと比較することによって発話内容を認識する音声認識エンジンを利用し、ユーザの音声を認識して文章として受け付けるものである。
そして、この音声認識システムは、技術の進歩により認識性能が年々向上し、機能は多様化(多機能化)している。それとともに、音声認識システムで認識対象となる単語も増加する傾向にある。例えば、音声認識システムがカーナビゲーションシステムに搭載される場合、認識対象となる単語は、操作などの各機能、全国の地名や施設名などが含まれることになる。このため、認識対象となる単語は膨大な数となる。この膨大な数の単語を辞書記憶装置に格納し、辞書記憶装置の中から、ユーザからの発話(音声)を的確かつ効率的に認識することは、非常に難しい。
さらに、音声認識では、周囲の環境の雑音の影響や、ユーザの声質、音量、発声速度等の相違に起因して誤認識が発生しうる。また、方言等が発声された場合、その方言等に対応する単語が単語辞書に登録されていなければ未知語となり、入力された音声を正しく認識することができない。
このように、全ての音声認識システムには、認識対象となる単語を予め登録しておく辞書に登録されていない単語は絶対に正しく認識できないという制約が存在する。
そして、特許文献1には、不特定話者用認識部と特定話者用認識部とを備え、特定の話者の場合には、特定話者用認識部を用い、それ以外の場合には、不特定話者用認識部を用いるというように、上記2つの認識部を選択的に切替えることにより、上記2つの認識部にそれぞれ備えられた辞書を用いるシステムが記載されている。
特開平03−9399号公報(1991年1月17日公開)
しかしながら、上記特許文献1に記載の構成では下記のような問題がある。すなわち、特許文献1に記載の構成では、特定の話者であるか否かによって、特定話者用認識部と不特定話者用認識部とを選択的に切替えるのみなので、話者に対応した辞書が用いられるのみである。
よって、話者が同じであれば、音声認識装置が用いられる状況がどのようなものであっても、用いられる辞書は同じである。したがって、音声認識装置が用いられる状況が変わっても、認識できる単語は変わらず、音声認識装置の精度は向上しない。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、音声認識の精度が高い音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体を実現することにある。
上記課題を解決するために、本発明に係る音声認識装置は、位置を示す位置情報に対応付けられた、音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えていることを特徴としている。
また、本発明に係る音声認識装置の制御方法は、位置を示す位置情報に対応付けられた、音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、上記データベース選択ステップで選択されたデータベースを用いて音声認識を行う音声認識ステップとを含むことを特徴としている。
上記の構成および方法によれば、位置を示す位置情報と対応づけられたデータベースを用いて音声認識を行う。
これにより、位置情報が示す位置に応じたデータベースを用いた音声認識を行うことができる。
よって、音声認識装置に入力する音声を受け付ける装置(マイク等)が、ある場所に存在する場合に、当該場所でよく用いられると考えられる単語や音響・言語モデルを充実させたデータベースを、音声認識で用いることができる。それゆえ、より精度の高い音声認識を実現することができる。
例えば、音声を関西地方で入力する場合、音声が関西弁である可能性が高いと考えられるため、関西弁の音響・言語モデルのデータベースを音声認識に用いるデータベースとして選択すれば、より精度の高い音声認識を行うことが可能となる。また、音声を駅で入力する場合、旅行関連の話題が話された音声である可能性が高いと考えられるため、旅行関連の単語が充実した辞書を音声認識に用いるデータベースとして選択すれば、より精度の高い音声認識を行うことが可能となる。
本発明に係る音声認識装置は、さらに、位置情報を取得する位置情報取得手段を備えているものであってもよい。
上記の構成によれば、位置情報取得手段によって取得された位置情報に対応付けられたデータベースを用いて音声認識を行う。ここで、位置情報取得手段は、自装置の位置を示す位置情報を取得するものであってもよいし、携帯端末等の外部装置から通信路を介して外部装置の位置を示す位置情報を取得するものであってもよい。そして、位置情報が自装置の位置を示す場合には、音声認識を行う音声は自装置または自装置の近傍にて取得する。また、位置情報が外部装置の位置を示す場合には、音声認識を行う音声は当該外部装置または外部装置の近傍にて取得する。
これにより、上記位置情報が、音声を入力した装置の位置を示すものとなるので、音声の入力の位置に対応したデータベースを用いて音声認識を行うことができる。
本発明に係る音声認識装置は、通信路よって接続された携帯端末から、該携帯端末の位置を示す位置情報および該携帯端末に入力された音声の特徴量情報を受信する音声/位置情報受信手段と、上記音声認識手段で音声認識した結果である音声認識結果情報を上記携帯端末へ送信する文字情報送信手段と、を備えているものであってもよい。
上記の構成によれば、通信路によって接続された携帯端末から、受信した位置を示す位置情報と対応づけられたデータベースを用いて音声認識を行う。そして、音声認識の結果が上記携帯端末へ送信される。
これにより、携帯端末の位置に応じたデータベースを用いた音声認識を行うことができる。
本発明に係る音声認識装置では、上記データベース選択手段は、現在使用しているデータベースと異なるデータベースを使用するデータベースとして選択するとき、表示部に、新たなデータベースを選択してよいか確認する確認画面を表示させるものであってもよい。
上記の構成によれば、使用するデータベースが変更される場合、確認画面が表示部表示される。これにより、ユーザは、データベースが変更される前に確認することができる。
上記課題を解決するために、本発明に係る携帯端末は、自装置の位置を示す位置情報を取得する位置情報取得手段と、入力された音声から音声認識に用いる特徴量を抽出する特徴量抽出手段と、上記位置情報取得手段が取得した位置情報と、上記特徴量抽出手段が抽出した特徴量を示す特徴量情報とを音声認識装置に送信する音声/位置情報送信手段と、上記送信手段によって送信した特徴量情報および位置情報に基づいて上記音声認識装置が音声認識した結果である文字情報を、上記音声認識装置から受信する文字情報受信手段と、を備えていることを特徴としている。
上記の構成によれば、自装置に入力された音声と、自装置の位置とを示す情報とを音声認識装置に送信し、自装置の位置に応じたデータベースを用いた音声認識が行われた結果を受信する。
これにより、自装置に音声認識手段、およびデータベースを備えていなくても、位置に応じたデータベースを用いた音声認識を行うことができる。
上記音声認識サーバと上記携帯端末とから構成される音声認識システムであっても、上述した効果を奏することができる。
また、上記課題を解決するために、本発明に係る携帯端末は、複数の機能を有する携帯端末において、自装置で実行中の機能または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得手段と、上記実行機能情報取得手段が取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えていることを特徴としている。
また、本発明に係る携帯端末の制御方法は、複数の機能を有する携帯端末において、自装置で実行中の機能または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得ステップと、上記実行機能情報取得ステップにて取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、上記データベース選択ステップにて選択されたデータベースを用いて音声認識を行う音声認識ステップとを含むことを特徴としている。
上記の構成および方法によれば、自装置で、現在または直近に実行していた機能を示す実行機能情報を取得し、実行機能情報と対応づけられたデータベースを用いて音声認識を行う。
これにより、自装置で現在または直近に実行していた機能に応じたデータベースを用いた音声認識を行うことができる。
よって、例えば、自装置が、音楽プレーヤとしての機能を有し、音楽プレーヤとしての機能を実行している時、音楽関連の単語を充実させたデータベースを選択して音声認識を行うことができ、より精度の高い音声認識を実現することができる。
なお、上記音声認識装置、および携帯端末は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記音声認識装置、携帯端末、音声認識サーバをコンピュータにて実現させる音声認識装置、携帯端末、音声認識サーバの制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
以上のように、本発明に係る音声認識装置は、位置を示す位置情報に対応付けられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えている構成である。
また、本発明に係る音声認識装置の制御方法は、位置を示す位置情報に対応付けられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、上記データベース選択ステップで選択されたデータベースを用いて音声認識を行う音声認識ステップとを含む方法である。
これにより、位置情報が示す位置に応じたデータベースを用いた音声認識を行うことができる。
よって、音声認識装置に入力する音声を受け付ける装置(マイク等)が、ある場所に存在する場合に、当該場所で、よく用いられると考えられる単語や音響・言語モデルを充実させたデータベースを用いて音声認識を行うことができ、より精度の高い音声認識を実現することができる。
また、本発明に係る音声認識装置は、複数の機能を有する音声認識装置において、自装置で実行中の機能、または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得手段と、上記実行機能情報取得手段が取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えている構成である。
これにより、自装置で現在または直近に実行していた機能に応じたデータベースを用いた音声認識を行うことができる。
また、本発明に係る携帯端末は、音声認識装置に音声情報を送信し、送信した音声情報が示す文字情報を該音声認識装置から受信する携帯端末において、位置を示す位置情報を取得する位置情報取得手段と、入力された音声から音声認識に用いる音声の特徴量を抽出する特徴量抽出手段と、上記位置情報取得手段が取得した位置情報と、上記特徴量抽出手段が抽出した特徴量を示す特徴量情報とを、上記音声認識装置に送信する送信手段と、上記送信手段によって送信した特徴量情報と位置情報とによって上記音声認識装置が音声認識した結果である文字情報を取得する情報取得手段と、を備えている構成である。
これにより、自装置に音声認識手段、およびデータベースが備えられていなくても、位置に応じたデータベースを用いた音声認識を行うことができる。
〔実施の形態1〕
本発明の一実施の形態について図1から図3に基づいて説明すれば、以下のとおりである。また、以下に示す音声認識装置1は、携帯電話機に備えることも可能である。
図1は、本実施の形態にかかる音声認識装置1のブロック図である。図1に示すように、音声認識装置1は、音声入力部10、特徴量算出部(特徴量算出手段)11、音声認識部(音声認識手段)12、表示部13、場所情報取得部(位置情報取得手段)14、地図情報記憶部15、GPS(Global Positioning System)16、GPSアンテナ17、使用データベース決定部(データベース選択手段)18、対応テーブル記憶部19、データベース部20、および入力部21を含む構成である。
音声入力部10は、マイク等から入力された音声を受け付け、受け付けた音声を音声データに変換する。そして、音声データを特徴量算出部11へ送信する。
特徴量算出部11は、受信した音声データから、音声認識部12で音声認識するために必要な特徴量を算出し、特徴量情報として音声認識部12へ送信する。特徴量の例としては、MFCC(Mel Frequency Cepstrum Coefficient)、LPC(Linear Prediction Coefficient)ケプストラムやパワー、それらの一次や二次の回帰係数の他、それらの値を主成分分析や判別分析により次元圧縮したものなどの多次元ベクトルが挙げられるが、本実施形態ではこれに限定されるものではない。
音声認識部12は、特徴量算出部11から受信した特徴量情報から、使用データベース決定部18が決定したデータベースを用いて音声認識を行い、表示データとして表示部13に送信する。この音声認識については、従来の技術を用いる。
表示部13は、音声認識部12から表示データを受信し、表示データが示す内容を表示する。表示部13としては、文字等が表示できる表示装置であれば何でもよいが、例えば、LCD(Liquid Crystal Display)が挙げられる。
場所情報取得部14は、GPS16から受信した緯度・経度情報(位置情報)と地図情報記憶部15に記憶されている地図情報とから、地図情報中の、受信した緯度・経度に該当する地点(現在位置)の場所情報(位置情報)を取得する。そして、取得した場所情報を使用データベース決定部18へ送信する。ここで、場所情報は、音響・言語モデルに対応した音声認識を行う場合は、現在位置に当たる地方(例えば、関西地方、東北地方など)を示す情報であり、施設に対応した音声認識を行う場合は、現在位置に当たる施設の名称(例えば、駅、空港レストランなど)を示す情報である。なお、場所情報は、データベースを特定できるものであれば任意に設定できる。すなわち、地図上での区割りや名称も自由に設定できる。
地図情報記憶部15は、場所情報取得部14で使用する地図情報を記憶している。また、地図情報には、その地点がどの地方に属するか、その地点にどのような施設があるかについての情報も含まれる。
GPS16は、GPSアンテナ17を用いて受信した電波から、緯度・経度情報を生成する。そして、生成した緯度・経度情報を場所情報取得部14へ送信する。
使用データベース決定部18は、対応テーブル記憶部19に記憶されている対応テーブルに従って、音声認識装置1で使用するデータベースをデータベース部20の中から決定する。
また、ユーザが場所等を移動し、使用するデータベースが変更される場合に、使用データベース決定部18は、新たに使用するデータベースを決定してよいかを、表示部13に表示させるものであってもよい。
対応テーブル記憶部19は、音声認識部12で使用するデータベースを使用データベース決定部18で決定するときに用いる、場所情報と使用データベースとを対応させた対応テーブルを記憶している。図2に対応テーブルの例を示す。図2(a)は、音響・言語モデルに対応した音声認識を行う場合の対応テーブル25を示すものであり、図2(b)は、施設に対応した音声認識を行う場合の対応テーブル26を示すものである。例えば、図2(a)に示す対応テーブル25を用いた場合、場所情報が「関西地方」であれば、使用するデータベースは、「関西弁モデル」となる。
データベース部20は、音声認識装置1で音声認識を行う際に、音声認識部12で使用するデータベースを記憶している。データベースは、入力された音声の特徴量に対応する文字情報を出力するものである。データベースは、音響・言語モデル対応データベース201と施設対応データベース202とに別れている。そして、音響・言語モデル対応データベース201は、データベースAA、データベースAB、…データベースAZを備え、施設対応データベース202は、データベースBA、データベースBB、…データベースBZを備えている。なお、データベースはこれに限られるものではない。
入力部21は、音声認識装置1のユーザインタフェースであり、各種操作キーを備え、音声認識装置1に対する様々な指示を受け付ける。また、音響・言語モデルに対応した音声認識を行うか、施設に対応した音声認識を行うかについても受け付け、受け付けた内容を使用データベース決定部18へ送信する。なお、本実施の形態では、音響・言語モデルに対応した音声認識を行うか、施設に対応した音声認識を行うかについて記載しているが、これに限られるものではない。
なお、本実施の形態では、音響・言語モデルに対応した音声認識を行うか、施設に対応した音声認識を行うかについて、いずれか一方を選択し、一方についてのみ対応するものとしたが、両者をともに実施するものであってもよい。
次に、図3を用いて、音声認識装置1における音声処理の流れについて説明する。図3は、音声認識処理の流れを示すフローチャートである。
まず、音声認識装置1は入力部21で、ユーザの操作により音声認識の開始を受け付ける。そして、音響・言語モデルに対応した音声認識を行うか、施設に対応した音声認識を行うかについて受け付ける(S301)。そして、GPS16で音声認識装置1の現在の位置を測位する(S301)。次に、場所情報取得部14は、GPS16から受信した緯度・経度情報を用いて、地図情報記憶部15に記憶されている地図情報から場所情報を取得する(S302)。そして、使用データベース決定部18は、場所情報に対応したデータベースを、音声認識装置1で使用するデータベースに決定する(S304)。
例えば、音響・言語モデルに対応した音声認識を行う場合、使用データベース決定部18は、図2(a)の対応テーブル25を参照し、取得した場所情報が、「関西地方」を示す情報であれば、「関西弁」の音響・言語モデルのデータベースを使用するデータベースとして決定し、「東北地方」を示す情報であれば、「東北弁」の音響・言語モデルのデータベースを使用するデータベースとして決定する。
また、施設に対応した音声認識を行う場合、使用データベース決定部18は、図2(bの)対応テーブル26を参照し、取得した場所情報が、「空港」であれば、旅行関連の単語が充実している「旅行用辞書」を使用するデータベースとして決定し、「レストラン」であれば、食事関連の単語が充実している「食事用辞書」を使用するデータベースとして決定する。
そして、使用するデータベースが決定すると、音声認識装置1は音声入力を受け付け(S305)、音声認識を行い(S306)、音声認識の結果である文字情報を表示部13に表示する(S307)。
以上の構成により、次のような効果を奏する。例えば、音響・言語モデルに対応した音声認識を行う場合で、音声認識装置を所持しているユーザが関西地方にいる場合を考える。この場合、音声認識装置1は、取得する場所情報が「関西地方」となるので、「関西弁」の音響・言語モデルのデータベースを選択する(図2(a))。そして、ユーザが関西地方にいる場合、ユーザは関西弁を話す可能性が極めて高い。よって、話す可能性の極めて高い関西弁の音響・言語モデルのデータベースを選ぶことができるようになっていることで、より精度の高い音声認識を実現することができる。
また、施設に対応した音声認識を行う場合で、音声認識装置を所持しているユーザが駅にいるときを考える。この場合、音声認識装置1は、取得する場所情報が「空港・駅」となるので、「旅行用辞書」の使用を選択する(図2(b))。そして、ユーザが駅にいる場合、旅行関連の話題を話す可能性が高い。よって、話す可能性の高い話題に関連する単語が充実した辞書を選ぶことができるようになっていることで、より精度の高い音声認識を実現することができる。
〔実施の形態2〕
本発明の他の実施の形態について図4から図6に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記の実施の形態1において示した部材と同一の機能を有する部材には、同一の符号を付し、その説明を省略する。
図4は、本実施の形態に係る音声認識装置2のブロック図である。音声認識装置2において、実施の形態1と異なる点は、使用データベース決定部(データベース選択手段)42、実行機能送信部(実行機能情報取得手段)43、実行機能記憶部44、対応テーブル記憶部45、およびデータベース部46を備えている点である。また、音声認識装置2は、音声認識に加え、複数の機能(GPSや音楽プレーヤ等)を有している。
そして、本実施の形態では、実施の形態1と異なり、音声認識装置2が実行している機能、または直近に実行していた機能に対応して、音声認識に使用するデータベースを決定する。
以下、音声認識装置2の特徴的な構成について、詳細に説明する。
実行機能送信部43は、音声認識装置2において、現在、実行されている機能を判断し、その機能を示す実行機構情報を使用データベース決定部42へ送信する。例えば、音声認識装置2が音楽プレーヤとしての機能している場合、音楽プレーヤとして機能しているという内容を使用データベース決定部42へ送信する。また、現在実行されている機能がなければ、実行機能記憶部44に記憶されている直近に実行した機能を示す情報(実行機能情報)を使用データベース決定部42へ送信する。
実行機能記憶部44は、音声認識装置2で実行された機能を記憶している。
使用データベース決定部42は、実行機能送信部43から受信した、実行機能情報から、対応テーブル記憶部45に記憶されている対応テーブル51を用いて、音声認識で使用するデータベースを決定する。
対応テーブル記憶部45は、音声認識部12で使用するデータベースを使用データベース決定部42で決定するときに用いる、場所情報と使用データベースとを対応させた対応テーブルを記憶している。図5に対応テーブルの例を示す。図5は、実行機能情報に対応した音声認識を行う場合の対応テーブル51を示すものである。例えば、図5に示す対応テーブル51を用いた場合、実行機能情報が「音楽プレーヤ」であれば、使用するデータベースは、「音楽用辞書」となる。
データベース部46は、音声認識装置2で音声認識を行う際に、音声認識部12で使用するデータベースを記憶している。データベースは、入力された音声の特徴量に対応する文字情報を出力するものである。データベース46は、データベースCA、データベースCB、…データベースCZを備えている。なお、データベースはこれに限られるものではない。
次に図6を用いて、音声認識装置2における処理の流れを説明する。図6は、音声認識処理の流れを示すフローチャートである。
まず、音声認識装置2は、入力部21で、ユーザの操作により音声認識を受け付ける(S601)。次に、実行機能送信部43は、音声認識装置2で実行されている機能、または音声認識装置2が直近に実行していた機能を示す実行機能情報を使用データベース決定部42へ送信する(S602)。そして、使用データベース決定部42は、受信した実行機能情報から、対応テーブル51を用いて、音声認識に使用するデータベースを決定する(S603)。
例えば、受信した情報が「GPSとしての機能」であれば、旅行用辞書を使用データベースとして決定する。
そして、音声認識装置2は、使用するデータベースを決定すると、音声入力を受け付け(S604)、音声認識を行い(S605)、音声認識の結果である文字情報を表示部13に表示する(S606)。
以上の構成により、音声認識装置2は、自装置で現在または直近に実行していた機能に応じたデータベースを用いた音声認識を行うことができる。
〔実施の形態3〕
本発明のさらに他の実施の形態について図7に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記の実施の形態1および2において示した部材と同一の機能を有する部材には、同一の符号を付し、その説明を省略する。
図7に、本実施の形態に係る音声認識システム3のブロック図を示す。図3に示すように、本実施の形態では、携帯端末5で音声入力および表示が行われ、音声認識は音声認識サーバ4で行われる。
すなわち、携帯端末5は、音声入力部10、特徴量算出部(特徴量算出手段)11、表示部13、場所情報取得部(位置情報取得手段)14、地図情報記憶部15、GPS(Global Positioning System)16、GPSアンテナ17に加えて、送信部(音声/位置情報送信手段)71、受信部(文字情報取得手段)72を備えて構成されている。また、音声認識サーバ4は、音声認識部(音声認識手段)12、使用データベース決定部(データベース選択手段)18、対応テーブル記憶部19、データベース部20に加えて、送受信部(文字情報送信手段、音声/位置情報受信手段)75を備えて構成されている。
そして、図7に示すように、音声認識システム3では、携帯端末5において、音声入力と特徴量の算出、および場所情報の取得が行われ、特徴量情報および場所情報が送信部71、基地局73、網74を介して音声認識サーバ4に送信される。そして、音声認識サーバ4は、送受信部75で特徴量情報および場所情報を受信し、特徴量情報は音声認識部12へ、場所情報は使用データベース決定部18へ送信する。
場所情報を受信した使用データベース決定部18は、上述した方法で使用データベースを決定し、音声認識部12へ送信する。音声認識部12は、上述した方法で音声認識を行い、結果データを、送受信部75を介して携帯端末5の受信部72へ送信する。結果データを受信した受信部72は、該データを表示部13へ送信し、表示部13は受信した結果データが示す文字情報を表示する。
なお、本実施の形態では、場所情報を携帯端末5内で取得したが、GPS16で取得した緯度・経度情報を音声認識サーバ4へ送信し、音声認識サーバ4内で場所情報を取得するものであってもよい。
本発明は上述した各実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
最後に、音声認識装置1、2および音声認識システム3の各ブロック、特に音声入力部10、特徴量算出部11、音声認識部12、場所情報取得部14、使用データベース決定部18、使用データベース決定部42、および実行機能送信部43は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
すなわち、音声認識装置1、2および音声認識システム3は、各機能を実現する制御プログラムの命令を実行するCPU、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである音声認識装置1、2および音声認識システム3の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記音声認識装置1、2および音声認識システム3に供給し、そのコンピュータ(またはCPUやMPU(microprocessor unit))が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM(compact disc read-only memory)/MO(magneto-optical)/MD(Mini Disc)/DVD(digital video disk)/CD−R(CD Recordable)等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM(erasable programmable read-only memory)/EEPROM(electrically erasable and programmable read-only memory)/フラッシュROM等の半導体メモリ系などを用いることができる。
また、音声認識装置1、2および音声認識システム3を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN(local area network)、ISDN(integrated services digital network)、VAN(value-added network)、CATV(community antenna television)通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE(institute of electrical and electronic engineers)1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL(asynchronous digital subscriber loop)回線等の有線でも、IrDA(infrared data association)やリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR(high data rate)、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
場所や状況に対応したデータベースを用いた音声認識を行うことができるので、例えば、様々な場所において入力される音声を認識をする場合に好適である。
本発明の実施の形態を示すものであり、音声認識装置の要部構成を示すブロック図である。 上記実施の形態における対応テーブルを示すものであり、(a)は、音響・言語モデルに対応した音声認識を行う場合の対応テーブルを示すものであり、(b)は、施設に対応した音声認識を行う場合の対応テーブルを示すものである。 上記実施の形態における音声認識処理の流れを示すフローチャートである。 本発明の他の実施の形態を示すものであり、音声認識装置の要部構成を示すブロック図である。 上記他の実施の形態における対応テーブルを示すものである。 上記他の実施の形態における音声認識処理の流れを示すフローチャートである。 本発明のさらに他の実施の形態を示すものであり、音声認識システムの要部構成を示すブロック図である。
符号の説明
1、2 音声認識装置
3 音声認識システム
4 音声認識サーバ
5 携帯端末
10 音声入力部
11 特徴量算出部(特徴量算出手段)
12 音声認識部(音声認識手段)
13 表示部
14 場所情報取得部(位置情報取得手段)
15 地図情報記憶部
18、42 使用データベース決定部(データベース選択手段)
19、45 対応テーブル記憶部
20、46 データベース部
43 実行機能送信部(実行機能情報取得手段)
71 送信部(音声/位置情報送信手段)
72 受信部(文字情報取得手段)
75 送受信部(文字情報送信手段、音声/位置情報受信手段)

Claims (11)

  1. 位置を示す位置情報に対応付けられた、音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、
    上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えていることを特徴とする音声認識装置。
  2. 位置情報を取得する位置情報取得手段を備えていることを特徴とする請求項1に記載の音声認識装置。
  3. 通信路よって接続された携帯端末から、該携帯端末の位置を示す位置情報および該携帯端末に入力された音声の特徴量情報を受信する音声/位置情報受信手段と、
    上記音声認識手段で音声認識した結果である音声認識結果情報を上記携帯端末へ送信する文字情報送信手段と、を備えていることを特徴とする請求項2に記載の音声認識装置。
  4. 上記データベース選択手段は、現在使用しているデータベースと異なるデータベースを使用するデータベースとして選択するとき、表示部に、新たなデータベースを選択してよいか確認する確認画面を表示させることを特徴とする請求項1から3のいずれか1項に記載の音声認識装置。
  5. 自装置の位置を示す位置情報を取得する位置情報取得手段と、
    入力された音声から音声認識に用いる特徴量を抽出する特徴量抽出手段と、
    上記位置情報取得手段が取得した位置情報と、上記特徴量抽出手段が抽出した特徴量を示す特徴量情報とを音声認識装置に送信する音声/位置情報送信手段と、
    上記送信手段によって送信した特徴量情報および位置情報に基づいて上記音声認識装置が音声認識した結果である文字情報を、上記音声認識装置から受信する文字情報受信手段と、を備えていることを特徴とする携帯端末。
  6. 請求項4に記載の音声認識装置と請求項5に記載の携帯端末とで構成される音声認識システム。
  7. 複数の機能を有する携帯端末において、
    自装置で実行中の機能または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得手段と、
    上記実行機能情報取得手段が取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、
    上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えていることを特徴とする携帯端末。
  8. 請求項1〜4に記載の音声認識装置、請求項5、7に記載の携帯端末のいずれかを動作させる制御プログラムであって、コンピュータを上記の各手段として機能させるための制御プログラム。
  9. 請求項8に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
  10. データベースを用いて音声を認識し、認識結果である文字情報を出力する音声認識装置の制御方法であって、
    位置を示す位置情報に対応付けられた、音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、
    上記データベース選択ステップにて選択したデータベースを用いて音声認識を行う音声認識ステップとを含むことを特徴とする音声認識装置の制御方法。
  11. 複数の機能を有する携帯端末において、
    自装置で実行中の機能または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得ステップと、
    上記実行機能情報取得ステップにて取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、
    上記データベース選択ステップにて選択されたデータベースを用いて音声認識を行う音声認識ステップとを含むことを特徴とする携帯端末の制御方法。
JP2008016646A 2008-01-28 2008-01-28 音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体 Pending JP2009175630A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008016646A JP2009175630A (ja) 2008-01-28 2008-01-28 音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008016646A JP2009175630A (ja) 2008-01-28 2008-01-28 音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2009175630A true JP2009175630A (ja) 2009-08-06

Family

ID=41030750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008016646A Pending JP2009175630A (ja) 2008-01-28 2008-01-28 音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2009175630A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112010005918T5 (de) 2010-10-01 2013-07-18 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
KR101397825B1 (ko) * 2012-12-24 2014-05-20 네이버 주식회사 위치 정보에 기초한 음성 인식 시스템 및 방법
CN103889048A (zh) * 2012-12-20 2014-06-25 联想(北京)有限公司 一种设备定位方法与装置
CN103903611A (zh) * 2012-12-24 2014-07-02 联想(北京)有限公司 一种语音信息的识别方法和设备
CN104282302A (zh) * 2013-07-04 2015-01-14 三星电子株式会社 用于识别语音和文本的设备和方法
JP2015025902A (ja) * 2013-07-25 2015-02-05 株式会社Nttドコモ 通信端末、プログラム
CN105788598A (zh) * 2014-12-19 2016-07-20 联想(北京)有限公司 一种语音处理方法和电子设备
JP2017513047A (ja) * 2014-03-04 2017-05-25 アマゾン テクノロジーズ インコーポレイテッド 音声認識における発音予測
KR101753509B1 (ko) 2011-07-01 2017-07-03 퀄컴 인코포레이티드 소셜 그래프들, 스피치 모델들, 및 사용자 콘텍스트를 통해 모바일 디바이스 사용자에 근접한 사람들을 식별하는 것

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9239829B2 (en) 2010-10-01 2016-01-19 Mitsubishi Electric Corporation Speech recognition device
DE112010005918T5 (de) 2010-10-01 2013-07-18 Mitsubishi Electric Corp. Spracherkennungsvorrichtung
KR101753509B1 (ko) 2011-07-01 2017-07-03 퀄컴 인코포레이티드 소셜 그래프들, 스피치 모델들, 및 사용자 콘텍스트를 통해 모바일 디바이스 사용자에 근접한 사람들을 식별하는 것
CN103889048A (zh) * 2012-12-20 2014-06-25 联想(北京)有限公司 一种设备定位方法与装置
CN103889048B (zh) * 2012-12-20 2017-12-29 联想(北京)有限公司 一种设备定位方法与装置
CN103903611A (zh) * 2012-12-24 2014-07-02 联想(北京)有限公司 一种语音信息的识别方法和设备
KR101397825B1 (ko) * 2012-12-24 2014-05-20 네이버 주식회사 위치 정보에 기초한 음성 인식 시스템 및 방법
CN104282302A (zh) * 2013-07-04 2015-01-14 三星电子株式会社 用于识别语音和文本的设备和方法
JP2015025902A (ja) * 2013-07-25 2015-02-05 株式会社Nttドコモ 通信端末、プログラム
JP2017513047A (ja) * 2014-03-04 2017-05-25 アマゾン テクノロジーズ インコーポレイテッド 音声認識における発音予測
US10339920B2 (en) 2014-03-04 2019-07-02 Amazon Technologies, Inc. Predicting pronunciation in speech recognition
CN105788598A (zh) * 2014-12-19 2016-07-20 联想(北京)有限公司 一种语音处理方法和电子设备
CN105788598B (zh) * 2014-12-19 2019-12-24 联想(北京)有限公司 一种语音处理方法和电子设备

Similar Documents

Publication Publication Date Title
JP2009175630A (ja) 音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体
US9430467B2 (en) Mobile speech-to-speech interpretation system
JP5598998B2 (ja) 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
CN103035240B (zh) 用于使用上下文信息的语音识别修复的方法和***
US6385586B1 (en) Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices
US6775651B1 (en) Method of transcribing text from computer voice mail
EP2956939B1 (en) Personalized bandwidth extension
CN110149805A (zh) 双向语音翻译***、双向语音翻译方法和程序
CN105719659A (zh) 基于声纹识别的录音文件分离方法及装置
CN104050966A (zh) 终端设备的语音交互方法和使用该方法的终端设备
CN107710322A (zh) 信息提供***、信息提供方法和计算机可读记录介质
JP2013088477A (ja) 音声認識システム
CN111640434A (zh) 用于控制语音设备的方法和装置
CN110070861A (zh) 信息处理装置和信息处理方法
CN113257218A (zh) 语音合成方法、装置、电子设备和存储介质
EP1899955B1 (en) Speech dialog method and system
US8594640B2 (en) Method and system of providing an audio phone card
US11790913B2 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
KR101429138B1 (ko) 복수의 사용자를 위한 장치에서의 음성 인식 방법
JP5704686B2 (ja) 音声翻訳システム、音声翻訳装置、音声翻訳方法、およびプログラム
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP2003202890A (ja) 音声認識装置及びその方法、プログラム
KR20070093576A (ko) 방송 모니터링을 통한 사용자 선호 방송 서비스 제공시스템 및 방법
JPH11259085A (ja) 音声認識装置及び認識結果提示方法