JP4942860B2

JP4942860B2 - 認識辞書作成装置、音声認識装置及び音声合成装置

Info

Publication number: JP4942860B2
Application number: JP2011550720A
Authority: JP
Inventors: 裕三丸田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-01-22
Filing date: 2010-01-22
Publication date: 2012-05-30
Anticipated expiration: 2030-01-22
Also published as: US9177545B2; WO2011089651A1; US20120203553A1; CN102687197B; DE112010005168B4; JPWO2011089651A1; DE112010005168T5; CN102687197A

Description

この発明は、ユーザが発話した音声によって音声認識用辞書に語彙登録を行う認識辞書作成装置、これを用いた音声認識装置及び音声合成装置に関するものである。

音声認識を適用するアプリケーションによっては、ユーザが発話した音声を登録して認識対象語として使う場合がある。以降では、この動作をユーザ辞書の生成と称する。音声によるユーザ辞書の生成例としては、ラジオの周波数に対応したラジオ局名を音声で登録したり、電話番号に対応した人名や場所名を音声で登録したりする場合がある。

また、カーナビゲーションシステムや携帯端末等、複数の国をまたがって使用され得る機器に搭載される音声認識では、言語の切り替え機能が求められる。
関連する従来技術として、例えば、特許文献１には、電子辞書の使用言語を切り替えるにあたり、ユーザが発話した音声を音声認識して得られた文字データと装置内に記憶されている単語とを照合することにより、ユーザが使いたい言語を決定する使用言語切り替え方法が開示されている。

一般的には、言語ごとに音声データを収集し、収集された音声データを用いて構築した音声認識アルゴリズムや音声標準モデルを使って、ユーザが発話した音声が認識される。このため、言語を切り替えた場合には、音声認識手段そのものや音声標準モデルを切り替える必要がある。
従来では、一般的に知られている音声認識の技術を用いて、言語ごとに、ユーザが発生した音声を最も良く表現する音素のラベル列を生成し、ユーザ辞書として保存することにより、音声認識で使う言語を切り替えても、ユーザが発生した音声を音声認識可能とした音声認識装置も提案されている。

しかしながら、言語変更の度に音素ラベル列を作成する場合には、発話音声をメモリに保存して処理を行うため、発話音声の保存領域を確保できる大容量のメモリが必要であるという課題があった。
また、発生音声をメモリに保存できない場合には、想定される全ての言語について音素ラベル列をそれぞれ作成しておかなければならないが、単一の言語の音素ラベル列を作成する場合であっても多大な時間を要するため、想定される全ての言語について必要な処理時間は膨大なものとなる。この他に、全ての言語分の音素ラベル列を保存可能な大容量のメモリも必要である。

この発明は、上記のような課題を解決するためになされたもので、発話音声を保存する大容量のメモリが不要であり、かつ全ての言語について音素ラベル列を予め作成する必要がなく、言語ごとの音素ラベル列の作成時間を短縮することができる認識辞書作成装置、これを用いた音声認識装置及び音声合成装置を得ることを目的とする。

特開２００１−２８２７８８号公報

この発明に係る認識辞書作成装置は、入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、音響分析部から入力した入力音声の音響特徴の時系列と、音響標準パタン記憶部に記憶された音響標準パタンとを照合して入力音声の音素ラベル列を作成する音響データマッチング部と、音響データマッチング部により作成された入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、ユーザ辞書に登録された音素ラベル列の言語を記憶する言語記憶部と、言語を切り替える言語切り替え部と、言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、ユーザ辞書に登録した音素ラベル列を、言語記憶部に記憶した言語の音素レベル列から、言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部とを備えるものである。

この発明によれば、入力音声の音素ラベル列を登録したユーザ辞書と、言語間の音素ラベルの対応関係が規定されたマッピングテーブルとを備え、マッピングテーブルを参照して、ユーザ辞書に登録した音素ラベル列を、ユーザ辞書を作成したときの言語の音素ラベル列から、切り替え後の言語の音素ラベル列へ変換する。
このように言語が切り替わっても、マッピングテーブルを参照して高速に登録語彙を、切り替え後の言語用に変換することができるため、発話音声を保存する大容量のメモリが不要であり、かつ全ての言語について音素ラベル列を予め作成する必要がなく、言語ごとの音素ラベル列の作成時間を短縮することができるという効果がある。

この発明の実施の形態１による認識辞書作成装置の構成を示すブロック図である。実施の形態１の認識辞書作成装置によるユーザ辞書登録動作の流れを示すフローチャートである。実施の形態１の認識辞書作成装置による言語切り替え後のユーザ辞書登録動作の流れを示すフローチャートである。この発明の実施の形態２による音声認識装置の構成を示すブロック図である。実施の形態２の音声認識装置による動作の流れを示すフローチャートである。この発明の実施の形態３による音声合成装置の構成を示すブロック図である。実施の形態３の音声合成装置による動作の流れを示すフローチャートである。この発明の実施の形態４による認識辞書作成装置の構成を示すブロック図である。実施の形態４の認識辞書作成装置によるユーザ辞書登録動作の流れを示すフローチャートである。実施の形態４の認識辞書作成装置による言語切り替え後のユーザ辞書登録動作の流れを示すフローチャートである。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、この発明の実施の形態１による認識辞書作成装置の構成を示すブロック図である。図１において、実施の形態１の認識辞書作成装置１は、マイク２ａ、音声取り込み部２、音響分析部３、言語ごとの音響標準パタン４、音響データマッチング部５、ユーザ辞書登録部（ユーザ辞書記憶部）６、ユーザ辞書作成時言語記憶部（言語記憶部）７、言語切り替え部８、音素ラベル列変換部９及び言語間音響データマッピングテーブル保存部（マッピングテーブル記憶部）１０を備える。

音声取り込み部２は、マイク２ａで取り込まれた音声をデジタル信号に変換する構成部である。音響分析部３は、音声取り込み部２でデジタル信号化された音声信号を分析して音響特徴の時系列に変換する構成部である。例えば、音声信号を一定の時間間隔で分析して、音声の特徴を表す音響特徴量（音響特徴量ベクトル）を計算する。

音響標準パタン４は、言語Ｘ（Ｘ＝１，２，３，・・・）の各音素ラベル列にそれぞれ対応する標準の音響特徴（音声の断片について音響特徴量の性質を表す標準モデル）であり、例えば音素を単位としてＨＭＭ（隠れマルコフモデル）等によりモデル化したものである。音響データマッチング部５は、音響分析部３によって得られた入力音声の音響特徴の時系列と言語Ｘの音響標準パタン４とを照合して、音響標準パタン４を構成する標準の音響特徴に対応した音素ラベル列から、入力音声に最も類似する音素ラベル列を作成する構成部である。

ユーザ辞書登録部６は、ユーザ辞書を有する構成部であり、音響データマッチング部５によって作成された入力音声の音素ラベル列をユーザ辞書に格納する。ユーザ辞書作成時言語記憶部７は、ユーザ辞書を作成した際に、音声認識の言語として設定されていた設定言語を記憶する記憶部である。言語切り替え部８は、音声認識の言語として使用する設定言語を切り替える構成部である。

音素ラベル列変換部９は、言語間音響データマッピングテーブルを用いて、ユーザ辞書に登録された際の言語で表現された音素ラベル列を、言語切り替え部８により変更された言語の音素ラベル列へ変換する構成部である。言語間音響データマッピングテーブル保存部１０は、互いに異なる言語の対とこれら言語の各音素ラベルとの対応関係を示す言語間音響データマッピングテーブルを記憶する記憶部である。

なお、一方の言語では他方の言語の音素ラベルを表現できない場合、当該他方の言語で表現し得る音素ラベルのうち、類似した音素ラベルを対応付ける。例えば、日本語では、英語の音素ラベル／ｌ／を表現できない。そこで、日本語と英語における言語間音響データマッピングテーブルには、英語の音素ラベル／ｌ／に発音が類似した日本語の音素ラベル／ｒ／を対応させる。

また、音声取り込み部２、音響分析部３、音響標準パタン４、音響データマッチング部５、ユーザ辞書登録部６、ユーザ辞書作成時言語記憶部７、言語切り替え部８、音素ラベル列変換部９及び言語間音響データマッピングテーブル保存部１０は、この発明の趣旨に従う認識辞書作成プログラムをコンピュータに記憶し、ＣＰＵに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として、当該コンピュータ上で実現することができる。さらに、音響標準パタン４、ユーザ辞書登録部６、ユーザ辞書作成時言語記憶部７及び言語間音響データマッピングテーブル保存部１０で用いる記憶領域は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。

次に動作について説明する。
図２は、実施の形態１の認識辞書作成装置によるユーザ辞書登録動作の流れを示すフローチャートである。
ユーザが、入力装置を用いてユーザ辞書作成開始を指示してから（ステップＳＴ１）、登録しようとしている語彙を発話する。例えば、個人名の「Ｍｉｃｈａｅｌ」が発話されたものとする。音声取り込み部２は、マイク２ａを介して、ユーザから発話された音声を取り込み、この入力音声をデジタル信号に変換してから音響分析部３に出力する（ステップＳＴ２）。

続いて、ユーザ辞書作成時言語記憶部７が、音響データマッチング部５に現在設定されている、ユーザ辞書登録時の設定言語を確認し（ステップＳＴ３）、自身に登録する（ステップＳＴ４）。なお、設定言語は、認識辞書作成装置１を用いた音声認識装置や音声合成装置において、音声認識や音声合成の対象となる言語として予め設定されている言語である。図２の例では、英語を設定言語としている。音響分析部３は、ステップＳＴ２で音声取り込み部２から入力した音声信号を音響分析し、この音声信号を音響特徴の時系列に変換する（ステップＳＴ５）。

音響データマッチング部５は、自身に設定されている言語（設定言語）に対応する音響標準パタン４を読み出し、この設定言語の音響標準パタン４と、音響分析部３で得られた入力音声の音響特徴の時系列とを照合して、音響標準パタン４を構成する標準の音響特徴に対応した音素ラベル列から、入力音声の音響特徴の時系列に最も類似した当該入力音声を表す最適な音素ラベル列を作成する（ステップＳＴ６）。例えば、入力音声が「Ｍｉｃｈａｅｌ」であり、設定言語が英語の場合は、図２に示すように「＃，／ｍ／，／ａ／，／ｉ／，／ｋ／，／ｌ／，＃」という音素ラベル列が得られる。

ユーザ辞書登録部６は、音響データマッチング部５により作成された入力音声の音素ラベル列を、ユーザ辞書に登録する（ステップＳＴ７）。これにより、設定言語の登録語彙テキストに対応した音素ラベル列が登録されたユーザ辞書が作成される。

次に設定言語を切り替えた場合における動作について説明する。
図３は、実施の形態１の認識辞書作成装置による言語切り替え後のユーザ辞書登録動作の流れを示すフローチャートであり、図２で示したユーザ辞書登録が実行された後に言語が切り替えられた場合を示している。
例えば、ユーザが、入力装置を用いて言語切り替え部８に新たな言語を指定することにより、言語切り替え部８が、切り替え後の言語を音素ラベル列変換部９に設定する（ステップＳＴ１ａ）。ここでは、日本語に切り替えられたものとする。
音素ラベル列変換部９は、ユーザ辞書作成時言語記憶部７に記憶された言語を読み出して、ユーザ辞書の登録時における設定言語を確認する（ステップＳＴ２ａ）。上述したように、図２では、ユーザ辞書登録時の設定言語は英語である。

続いて、音素ラベル列変換部９は、ステップＳＴ２ａで確認したユーザ辞書の登録時における設定言語と言語切り替え部８から指定された切り替え後の言語とを用いて、言語間音響データマッピングテーブル保存部１０を検索して、ユーザ辞書の登録時における設定言語と切り替え後の言語に対応する言語間音響データマッピングテーブルを読み込む。

言語間音響データマッピングテーブルは、図３に示すように、英語の音素ラベルと日本語の音素ラベルとの対応関係を示すテーブルデータである。例えば、図３において、英語の音素ラベルのうち、符号Ａで示す発音が類似する３つの異なる音素ラベルは、日本語で表現できないものを含んでいる。この場合は、日本語の音素ラベルのうち、符号Ａで示す音素ラベルの発音に類似した１つの音素ラベル（／ａ／）を対応付ける。また、日本語では、英語の音素ラベル／ｌ／を表現できないので、英語の音素ラベル／ｌ／に発音が類似した日本語の音素ラベル／ｒ／を対応付ける。

音素ラベル列変換部９は、言語間音響データマッピングテーブル保存部１０から読み込んだ言語間音響データマッピングテーブルに基づいて、ユーザ辞書に登録されている音素ラベル列を、切り替え後の言語の音素ラベル列に変換する（ステップＳＴ３ａ）。
例えば、図３に示すように、「Ｍｉｃｈａｅｌ」という英語の音素ラベル列である「＃，／ｍ／，／ａ／，／ｉ／，／ｋ／，／ｌ／，＃」が、英語と日本語の言語間音響データマッピングテーブルにおける対応関係に基づいて、日本語の音素ラベル列である「＃，／ｍ／，／ａ／，／ｉ／，／ｋ／，／ｒ／，＃」に変換される。
なお、言語間音響データマッピングテーブルの作成方法に関して、例えば下記の参考文献１に開示されている。
（参考文献１）；特開２００７−１５５８３３号公報

ユーザ辞書登録部６は、ステップＳＴ３ａで音素ラベル列変換部９により変換された音素ラベル列を、ユーザ辞書に再格納する（ステップＳＴ４ａ）。図３では、登録語彙が「Ｍｉｃｈａｅｌ」であって、切り替え後の言語が日本語であるので、日本語の音素ラベル列である「＃，／ｍ／，／ａ／，／ｉ／，／ｋ／，／ｒ／，＃」が１つの登録語として格納される。

以上のように、この実施の形態１によれば、入力音声の音素ラベル列を登録したユーザ辞書と、言語間の音素ラベルの対応関係が規定された言語間音響データマッピングテーブルとを備え、言語間音響データマッピングテーブルを参照して、ユーザ辞書に登録した音素ラベル列を、ユーザ辞書を作成したときの言語の音素ラベル列から、切り替え後の言語の音素ラベル列へ変換する。
このように構成することにより、ユーザ辞書の登録時から設定言語が変更された場合であっても、言語間音響データマッピングテーブルに基づいて音素ラベル列を変換するだけで、変更後の言語のユーザ辞書を作成でき、対応言語の音素ラベル列を作成する処理時間を格段に短縮することが可能である。
また、言語を変更する度に音素ラベル列を作成する場合であっても発話音声を保存する必要がなく、ユーザ辞書登録時の音素ラベル列のみを保存して、想定される全ての言語について音素ラベルを予め作成しておく必要もない。これにより、大容量のメモリも不要である。

実施の形態２．
図４は、この発明の実施の形態２による音声認識装置の構成を示すブロック図であり、上記実施の形態１による認識辞書作成装置を用いた音声認識装置を示している。図４において、実施の形態２による音声認識装置１Ａは、上記実施の形態１で示した認識辞書作成装置１の構成に加え、辞書照合部１１、言語ごとの音響標準パタンで表現される一般辞書１２及び認識結果出力部１３を備える。なお、図４において、図１と同一又は同様に動作する構成部には、同一符号を付して説明を省略する。

辞書照合部１１は、入力音声の音素ラベル列と、設定言語の音響標準パタンで表現される一般辞書１２の語彙と、ユーザ辞書登録部６のユーザ辞書に登録されている語彙を照合して、一般辞書１２及びユーザ辞書の語彙のうちから、入力音声の音素ラベル列に最も類似する語彙を特定する構成部である。一般辞書１２は、言語Ｘ（Ｘ＝１，２，３，・・・）の音響標準パタンで表現される辞書であり、その言語の地名などの大語彙（音素ラベル列）が登録される。認識結果出力部１３は、音声認識結果を出力する構成部であり、辞書照合部１１による照合の結果として得られた入力音声の音素ラベル列に最も類似する語彙を出力する。

また、辞書照合部１１、言語ごとの音響標準パタンで表現される一般辞書１２及び認識結果出力部１３は、この発明の趣旨に従う音声認識プログラムをコンピュータに記憶し、ＣＰＵに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として、当該コンピュータ上で実現することができる。さらに、音響標準パタン４や一般辞書１２に用いる記憶領域は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。

次に動作について説明する。
図５は、実施の形態２の音声認識装置による動作の流れを示すフローチャートである。
ユーザが、入力装置を用いて音声認識開始を指示してから（ステップＳＴ１ｂ）、音声認識の対象となる音声を発話する。例えば、個人名の「Ｍｉｃｈａｅｌ」が発話されたものとする。音声取り込み部２は、マイク２ａを介して、ユーザから発話された音声を取り込み、この入力音声をデジタル信号に変換してから音響分析部３に出力する（ステップＳＴ２ｂ）。音響分析部３は、ステップＳＴ２ｂで音声取り込み部２から入力した音声信号を音響分析し、この音声信号を音響特徴の時系列に変換する。

音響データマッチング部５は、ユーザ辞書作成時言語記憶部７に記憶された言語を読み出して、ユーザ辞書の登録時における設定言語を確認する（ステップＳＴ３ｂ）。図５では、ユーザ辞書登録時の設定言語は日本語であったものとする。
続いて、音響データマッチング部５は、音響分析部３から取り込んだ入力音声の音響特徴の時系列と、設定言語の音響標準パタン４から、当該入力音声について設定言語の音素ラベル列を作成する（ステップＳＴ４ｂ）。例えば、入力音声が「Ｍｉｃｈａｅｌ」であり、設定言語が日本語である場合、日本語の音響標準パタンで表現された音素ラベル列として「＃，／ｍ／，／ａ／，／ｉ／，／ｋ／，／ｒ／，＃」が得られる。

次に、辞書照合部１１は、音響データマッチング部５により作成された入力音声の音素ラベル列と、設定言語の音響標準パタン４で表現される一般辞書１２の語彙と、ユーザ辞書登録部６のユーザ辞書に登録されている語彙を照合し、一般辞書１２及びユーザ辞書の語彙のうちから、入力音声の音素ラベル列に最も類似する語彙を特定する（ステップＳＴ５ｂ）。認識結果出力部１３は、辞書照合部１１による照合の結果として得られた入力音声の音素ラベル列に最も類似する語彙を出力する（ステップＳＴ６ｂ）。

図５に示すように、設定言語（ここでは、日本語）の音響標準パタンで表現される一般辞書１２には、地名等の大語彙が音素ラベル列として登録されている。また、ユーザ辞書には、上記実施の形態１で示したように、ユーザの発話により任意の語彙が音素ラベル列として登録されている。ここで、ユーザ辞書の登録語１として「＃，／ｍ／，／ａ／，／ｉ／，／ｋ／，／ｒ／，＃」が登録されている場合、辞書照合部１１が、入力音声の音素ラベル列に最も類似する語彙として登録語１を特定し、認識結果出力部１３が、登録語１を認識結果として出力する。

以上のように、この実施の形態２によれば、上記実施の形態１の認識辞書作成装置の構成に加え、一般辞書１２を記憶する一般辞書記憶部と、音響データマッチング部５により作成された入力音声の音素ラベル列と、一般辞書１２と、ユーザ辞書とを照合して、一般辞書１２及びユーザ辞書のうちから、入力音声の音素ラベル列に最も類似する語彙を特定する辞書照合部１１と、辞書照合部１１によって特定された語彙を、音声認識結果として出力する認識結果出力部１３とを備えたので、上記実施の形態１の効果に加えて、ユーザ辞書を用いた音声認識を行う音声認識装置１Ａを提供することができる。

実施の形態３．
図６は、この発明の実施の形態３による音声合成装置の構成を示すブロック図であり、上記実施の形態１による認識辞書作成装置を用いた音声合成装置を示している。図６において、実施の形態３による音声合成装置１Ｂは、上記実施の形態１で示した認識辞書作成装置１の構成と、上記実施の形態２で示した言語ごとの音響標準パタンで表現される一般辞書１２に加え、テキスト入力部１４、登録語部分検出部１５、登録語部分音素ラベル列置き換え部（登録語彙置換部）１６、その他の部分の音素ラベル列置き換え部（一般辞書置換部）１７及び音声合成部１８を備える。なお、図６において、図１及び図４と同一又は同様に動作する構成部には、同一符号を付して説明を省略する。

テキスト入力部１４は、音声に変換するテキストを入力する構成部である。登録語部分検出部１５は、テキスト入力部１４から取り込んだ入力テキストから、ユーザ辞書に登録された登録語を検出する構成部である。登録語部分音素ラベル列置き換え部１６は、登録語部分検出部１５により検出された登録語を、ユーザ辞書から取り込んだ音素ラベル列に置き換える構成部である。その他の部分の音素ラベル列置き換え部１７は、登録語部分音素ラベル列置き換え部１６を介して、登録語部分検出部１５により検出された登録語以外の入力テキスト部分を入力する構成部であり、登録語以外の入力テキスト部分の語を、設定言語の音響標準パタンで表現された一般辞書１２から取り込んだ音素ラベル列に置き換える。音声合成部１８は、音素ラベル列置き換え部１６，１７により得られた入力テキストについての音素ラベル列から、当該入力テキストの合成音声を生成する構成部である。

なお、テキスト入力部１４、登録語部分検出部１５、登録語部分音素ラベル列置き換え部１６、その他の部分の音素ラベル列置き換え部１７及び音声合成部１８は、この発明の趣旨に従う音声合成プログラムをコンピュータに記憶し、ＣＰＵに実行させることにより、ハードウエアとソフトウエアが協働した具体的な手段として当該コンピュータ上で実現することができる。さらに、音響標準パタン４や一般辞書１２に用いる記憶領域は、上記コンピュータに搭載された記憶装置、例えばハードディスク装置や外部記憶メディア等に構築される。

次に動作について説明する。
図７は、実施の形態３の音声合成装置による動作の流れを示すフローチャートである。
ユーザが、テキスト入力部１４を用いて、音声に変換したいテキストを入力する（ステップＳＴ１ｃ）。このとき、ユーザ辞書の登録語を識別する識別子を設定する。例えば、図７に示すように、ユーザ辞書の登録語１をテキスト入力する場合、登録語の識別子である二重括弧を登録語１の前後に設定する。

登録語部分検出部１５は、テキスト入力部１４から入力テキストを取り込み、入力テキストに設定された登録語の識別子を用いて登録語を検出する（ステップＳＴ２ｃ）。図７の例では、二重括弧が前後に設定された登録語１が検出される。
次に、登録語部分音素ラベル列置き換え部１６は、登録語部分検出部１５によって検出された登録語を、ユーザ辞書から取り込んだ音素ラベル列に置き換える（ステップＳＴ３ｃ）。これにより、登録語１が、対応する音素ラベル列である「＃，／ｍ／，／ａ／，／ｉ／，／ｋ／，／ｒ／，＃」に置換される。

その他の部分の音素ラベル列置き換え部１７は、登録語部分音素ラベル列置き換え部１６を介して、入力テキストにおける、登録語部分検出部１５により検出された登録語以外の部分を入力し、登録語以外の入力テキスト部分の語を、設定言語の一般辞書１２から取り込んだ音素ラベル列に置き換える（ステップＳＴ４ｃ）。ここでは、設定言語が日本語であるものとし、登録語以外の入力テキスト部分である、助詞の「は」、名詞の「大阪」、助詞の「に」、動詞の「いった」が、図７に示すように、日本語の一般辞書１２に登録されている、対応する音素ラベル列にそれぞれ置き換えられる。

音声合成部１８は、登録語部分音素ラベル列置き換え部１６及びその他の部分の音素ラベル列置き換え部１７によって得られた入力テキストについての音素ラベル列から、当該入力テキストの合成音声を生成する（ステップＳＴ５ｃ）。図７の例では、「マイクルは大阪に行った」という合成音声が出力される。ここで、登録語１以外の部分は、日本語の音素ラベルで発話されるが、登録語１である「マイクル」は、上記実施の形態１で示したようにユーザ辞書に設定時の設定言語が英語であるので、英語的な発話となる。

以上のように、この実施の形態３によれば、上記実施の形態１の認識辞書作成装置の構成に加えて、テキストを入力するテキスト入力部１４と、テキスト入力部１４から入力されたテキストの文字列から、ユーザ辞書に登録した音素ラベル列に相当する語彙部分を検出する登録語部分検出部１５と、登録語部分検出部１５によって検出された語彙部分を、ユーザ辞書から取得した対応する音素ラベル列に置き換える登録語部分音素ラベル列置き換え部１６と、テキストの文字列のうち、登録語部分検出部１５によって検出された語彙部分以外の部分を、一般辞書１２の対応する音素ラベル列に置き換えるその他の部分の音素ラベル列置き換え部１７と、登録語部分音素ラベル列置き換え部１６及びその他の部分の音素ラベル列置き換え部１７によって得られたテキストの音素ラベル列から、当該テキストの合成音声を生成する音声合成部１８を備える。
このように構成することで、上記実施の形態１の効果に加え、ユーザ辞書を用いた音声合成を行う音声合成装置１Ｂを提供することができる。

実施の形態４．
図８は、この発明の実施の形態４による認識辞書作成装置の構成を示すブロック図である。図８において、実施の形態４の認識辞書作成装置１ａは、上記実施の形態１の構成におけるユーザ辞書作成時言語記憶部７がない代わりに、登録時音響パタン設定部１９を備える。登録時音響パタン設定部１９は、認識辞書作成装置１ａを用いた音声認識装置や音声合成装置に設定されている設定言語に関わらず、音響データマッチング部５の処理に用いる音響標準パタン４の言語として、自身に予め登録されている所定の言語を設定する構成部である。この所定の言語は、設定言語に依らず、登録時音響パタン設定部１９に予め登録される。なお、図８において、図１で示した構成部と同一又は同様に動作するものについては、同一符号を付し説明を省略する。

次に動作について説明する。
図９は、実施の形態４の認識辞書作成装置によるユーザ辞書登録動作の流れを示すフローチャートである。
ユーザが、入力装置を用いてユーザ辞書作成開始を指示してから（ステップＳＴ１ｄ）、登録しようとしている語彙を発話する。例えば、個人名の「Ｍｉｃｈａｅｌ」が発話されたものとする。音声取り込み部２は、マイク２ａを介して、ユーザから発話された音声を取り込み、この入力音声をデジタル信号に変換してから音響分析部３に出力する（ステップＳＴ２ｄ）。

続いて、登録時音響パタン設定部１９が、システムの設定言語の代わりに、自身に予め登録されている所定言語を音響データマッチング部５に設定する（ステップＳＴ３ｄ）。図９の例では、英語を所定言語としている。音響分析部３は、ステップＳＴ２ｄで音声取り込み部２から入力した音声信号を音響分析し、この音声信号を音響特徴の時系列に変換する（ステップＳＴ４ｄ）。

音響データマッチング部５は、登録時音響パタン設定部１９から設定された所定言語に対応する音響標準パタン４を読み出し、この設定言語の音響標準パタン４と、音響分析部３で得られた入力音声の音響特徴の時系列とから、入力音声を表す最適な音素ラベル列を作成する（ステップＳＴ５ｄ）。入力音声が「Ｍｉｃｈａｅｌ」であり、所定言語が英語であると、図９に示すように、「＃，／ｍ／，／ａ／，／ｉ／，／ｋ／，／ｌ／，＃」という音素ラベル列が得られる。

ユーザ辞書登録部６は、音響データマッチング部５により作成された入力音声の音素ラベル列を、ユーザ辞書に登録する（ステップＳＴ６ｄ）。
次に、音素ラベル列変換部９が、言語間音響データマッピングテーブル保存部１０から読み込んだ言語間音響データマッピングテーブルに基づいて、上述のようにして得られた入力音声（登録語彙）に対する所定言語の音素ラベル列と、システムに現在設定されている設定言語の音素ラベルとの対応付けを行い、ユーザ辞書に登録した所定言語による登録語彙の音素ラベル列を設定言語の音素ラベル列に変換し、現在のユーザ辞書としてユーザ辞書登録部６に登録する（ステップＳＴ７ｄ）。

次に設定言語を切り替えた場合における動作について説明する。
図１０は、実施の形態４の認識辞書作成装置による言語切り替え後のユーザ辞書登録動作の流れを示すフローチャートであり、図９で示したユーザ辞書登録が実行された後に言語が切り替えられた場合を示している。
ユーザが、入力装置を用いて言語切り替え部８に新たな言語を指定することにより、言語切り替え部８が、切り替え後の言語を音素ラベル列変換部９に設定する（ステップＳＴ１ｅ）。ここでは、日本語に切り替えられたものとする。

音素ラベル列変換部９は、言語切り替え部８から指定された切り替え後の言語と、所定言語とを用いて、言語間音響データマッピングテーブル保存部１０を検索して、ユーザ辞書の登録時における所定言語と切り替え後の言語に対応する言語間音響データマッピングテーブルを読み込み、この言語間音響データマッピングテーブルに基づいて、ユーザ辞書に登録した所定言語の音素ラベル列を、切り替え後の言語の音素ラベル列に変換する（ステップＳＴ２ｅ）。
例えば、所定言語である英語の「Ｍｉｃｈａｅｌ」の音素ラベル列「＃，／ｍ／，／ａ／，／ｉ／，／ｋ／，／ｌ／，＃」が、切り替え後の言語である日本語との言語間音響データマッピングテーブルの対応関係に基づいて、日本語の音素ラベル列である「＃，／ｍ／，／ａ／，／ｉ／，／ｋ／，／ｒ／，＃」に変換される。

ユーザ辞書登録部６は、ステップＳＴ２ｅにおいて音素ラベル列変換部９により変換された音素ラベル列を、ユーザ辞書に追加格納する（ステップＳＴ３ｅ）。図１０では、登録語彙テキストが「Ｍｉｃｈａｅｌ」であって、切り替え後の言語が日本語であるので、日本語の音素ラベル列である「＃，／ｍ／，／ａ／，／ｉ／，／ｋ／，／ｒ／，＃」が、登録語として格納される。

以上のように、この実施の形態４によれば、入力音声の音素ラベル列を登録したユーザ辞書と、言語間の音素ラベルの対応関係が規定された言語間音響データマッピングテーブルと、音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する登録時音響パタン設定部１９とを備え、言語間音響データマッピングテーブルを参照して、ユーザ辞書に登録した音素ラベル列を、登録時音響パタン設定部１９により選択された言語の音素ラベル列から、切り替え後の言語の音素ラベル列へ変換する。
このように構成することで、上記実施の形態１では、ユーザ辞書への登録する語彙の対象言語としてＮ個の言語が設定可能である場合、ユーザ辞書への登録時の言語と設定可能な言語との（Ｎ×（Ｎ−１））／２個分の組み合わせの全てに対応する言語間音響データマッピングテーブルが必要であったところ、登録時音響パタン設定部１９によって設定される１つの所定言語と上記設定可能な言語との（Ｎ−１）個分の組み合わせに対応する言語間音響データマッピングテーブルでよく、言語間音響データマッピングテーブルのデータサイズを低減することが可能である。

なお、上記実施の形態２及び上記実施の形態３では、上記実施の形態１による認識辞書作成装置１を用いて音声認識装置及び音声合成装置を構成する場合を示したが、図４及び図６で示した構成において、上記実施の形態１による認識辞書作成装置の代わりに、図８に示した上記実施の形態４による認識辞書作成装置１ａを組み合わせて音声認識装置及び音声合成装置を構成しても構わない。これにより、上記実施の形態４による効果も併せて得られる音声認識装置及び音声合成装置を提供することができる。

この発明に係る認識辞書作成装置は、発話音声を保存する大容量のメモリが不要で、全ての言語について音素ラベル列を予め作成する必要がなく、言語ごとの音素ラベル列の作成時間を短縮することができることから、車載機器の音声認識装置や音声合成装置に好適である。

Claims

入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響分析部から入力した前記入力音声の音響特徴の時系列と、前記音響標準パタン記憶部に記憶された音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
前記ユーザ辞書に登録された音素ラベル列の言語を記憶する言語記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記言語記憶部に記憶した言語の音素レベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部とを備えた認識辞書作成装置。
入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響分析部から入力した前記入力音声の音響特徴の時系列と、前記音響標準パタン記憶部に記憶された音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
前記ユーザ辞書に登録された音素ラベル列の言語を記憶する言語記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記言語記憶部に記憶した言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
前記音響標準パタンで表現した語彙の一般辞書を記憶する一般辞書記憶部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列と、前記一般辞書と、前記ユーザ辞書とを照合して、前記一般辞書及び前記ユーザ辞書のうちから、前記入力音声の音素ラベル列に最も類似する語彙を特定する辞書照合部と、
前記辞書照合部によって特定された語彙を、音声認識結果として出力する認識結果出力部とを備えた音声認識装置。
入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響分析部から入力した前記入力音声の音響特徴の時系列と、前記音響標準パタン記憶部に記憶された音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
前記ユーザ辞書に登録した音素ラベル列の言語を記憶する言語記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記言語記憶部に記憶した言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
テキストを入力するテキスト入力部と、
前記テキスト入力部から入力されたテキストの文字列から、前記ユーザ辞書に登録した音素ラベル列に相当する語彙部分を検出する登録語部分検出部と、
前記登録語部分検出部に検出された前記語彙部分を、前記ユーザ辞書から取得した当該語彙部分に対応する音素ラベル列に置き換える登録語彙置換部と、
前記テキストの文字列のうち、前記登録語部分検出部に検出された前記語彙部分以外の部分を、前記一般辞書の対応する語彙の音素ラベル列に置き換える一般辞書置換部と、
前記登録語彙置換部及び前記一般辞書置換部によって得られた前記テキストの音素ラベル列から、当該テキストの合成音声を生成する音声合成部とを備えた音声合成装置。
入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響標準パタン記憶部に記憶した音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する音響標準パタン設定部と、
前記音響分析部から入力した入力音声の音響特徴の時系列と、前記音響標準パタン設定部によって選択された言語の音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記音響標準パタン設定部によって選択された言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部とを備えた認識辞書作成装置。
入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響標準パタン記憶部に記憶した音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する音響標準パタン設定部と、
前記音響分析部から入力した入力音声の音響特徴の時系列と、前記音響標準パタン設定部によって選択された言語の音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記音響標準パタン設定部によって選択された言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
前記音響標準パタンで表現した語彙の一般辞書を記憶する一般辞書記憶部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列と、前記一般辞書と、前記ユーザ辞書とを照合して、前記一般辞書及び前記ユーザ辞書のうちから、前記入力音声の音素ラベル列に最も類似する語彙を特定する辞書照合部と、
前記辞書照合部によって特定された語彙を、音声認識結果として出力する認識結果出力部とを備えた音声認識装置。
入力音声の音声信号を音響分析して音響特徴の時系列を出力する音響分析部と、
標準の音響特徴を示す音響標準パタンを言語ごとに記憶する音響標準パタン記憶部と、
前記音響標準パタン記憶部に記憶した音響標準パタンのうちから、予め設定された言語の音響標準パタンを選択する音響標準パタン設定部と、
前記音響分析部から入力した入力音声の音響特徴の時系列と、前記音響標準パタン設定部によって選択された言語の音響標準パタンとを照合して前記入力音声の音素ラベル列を作成する音響データマッチング部と、
前記音響データマッチング部により作成された前記入力音声の音素ラベル列を登録したユーザ辞書を記憶するユーザ辞書記憶部と、
言語を切り替える言語切り替え部と、
言語間の音素ラベルの対応関係が規定されたマッピングテーブルを記憶するマッピングテーブル記憶部と、
前記マッピングテーブル記憶部に記憶されるマッピングテーブルを参照して、前記ユーザ辞書に登録した音素ラベル列を、前記音響標準パタン設定部によって選択された言語の音素ラベル列から、前記言語切り替え部により切り替えた言語の音素ラベル列へ変換する音素ラベル列変換部と、
テキストを入力するテキスト入力部と、
前記テキスト入力部から入力されたテキストの文字列から、前記ユーザ辞書に登録した音素ラベル列に相当する語彙部分を検出する登録語部分検出部と、
前記登録語部分検出部に検出された前記語彙部分を、前記ユーザ辞書から取得した当該語彙部分に対応する音素ラベル列に置き換える登録語彙置換部と、
前記テキストの文字列のうち、前記登録語部分検出部に検出された前記語彙部分以外の部分を、前記一般辞書の対応する語彙の音素ラベル列に置き換える一般辞書置換部と、
前記登録語彙置換部及び前記一般辞書置換部によって得られた前記テキストの音素ラベル列から、当該テキストの合成音声を生成する音声合成部とを備えた音声合成装置。