JP2004021207A

JP2004021207A - 音素認識方法、音素認識装置および音素認識プログラム

Info

Publication number: JP2004021207A
Application number: JP2002180146A
Authority: JP
Inventors: Hiroyuki Segi; 世木　寛之
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2002-06-20
Filing date: 2002-06-20
Publication date: 2004-01-22

Abstract

【課題】音素の境界を示す区間情報を保持するためのメモリー量を増大させることなく、音素認識率を向上することができる音素認識方法、装置およびプログラムを提供する。
【解決手段】音素認識の対象となる音声信号の各音素の特徴が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用して、音素を認識する音素認識装置１であって、連続した音声信号を音声認識する音声認識部５と、音声認識結果を用いて、音声波形と音素との対応付けであるアラインメントを行い、前記音素の境界を示す区間情報と、前記音素毎に付されている音素ラベルとを得るアラインメント部７と、を備えた。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声信号を構成する音素を認識する音素認識方法、音素認識装置および音素認識プログラムに関する。
【０００２】
【従来の技術】
従来、音声信号（音声データ）に含まれている音素を認識する方法として、代表的なものに以下に示す２つの方法がある。
（１）音素ネットワークを使用する方法
この方法は、音素ネットワークを用いて、直接、音素そのものを認識する方法であり、この音素ネットワークで接続が許容された音素のみが接続することができるとして、音声信号（音声データ）に含まれている音素を認識する方法である。なお、音素ネットワークは、発声のバリエーション（無声化、ポーズの挿入位置等）を含んで生成される音素から音素への遷移規則の一種である。
【０００３】
（２）発音辞書を使用する方法
この方法は、発音辞書を用いて、この発音辞書に含まれている単語を認識する方法であり、言語モデルを考慮しないで音素認識を行い、発音辞書で接続が許容された音素のみが接続できるとして、音声信号（音声データ）に含まれている音素を認識する方法である。なお、発音辞書は、記載されている各単語に読み（発音）が付与されてなる辞書の一種である。
【０００４】
【発明が解決しようとする課題】
しかしながら、従来の音素ネットワークを使用する方法では、ニュース等のある程度単語の並び方が拘束されている場合、すなわち、型どおりの文章が連続する場合、連続音声認識で得られた単語認識率と、音素ネットワークを使用した音素認識率とを比較した際に、型どおりの文章の連続であるので単語認識率はよくなるが、音素ネットワークを使用すると、音素列が正確ではなくなる場合が生じ、音素認識率の方がよくないという問題がある。それゆえ、型どおりの文章が連続する場合には、「音素ネットワークを使用する」よりも、連続音声認識を行った結果を音素に変換した方が、音素認識率がよくなる。しかし、連続音声認識を行う際に、音素の境界を示す区間情報を保持する必要が生じ、この区間情報を保持するために確保するメモリー量が膨大になるという問題がある。
【０００５】
また、従来の発音辞書を使用する方法では、連続音声認識で得られた単語認識率と、発音辞書を使用した音素認識率とを比較した際に、言語モデルを考慮していないために、音素認識率がよくないという問題がある。
【０００６】
そこで、本発明の目的は前記した従来の技術が有する課題を解消し、音素の境界を示す区間情報を保持するためのメモリー量を増大させることなく、音素認識率を向上することができる音素認識方法、音素認識装置および音素認識プログラムを提供することにある。
【０００７】
【課題を解決するための手段】
本発明は、前記した目的を達成するため、以下に示す構成とした。
請求項１記載の音素認識方法は、音素認識の対象となる音声信号の各音素の特徴が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用して、音素を認識する音素認識方法であって、前記音響モデル、前記言語モデルおよび前記発音辞書を利用して連続した音声信号を音声認識する連続音声認識ステップと、この連続音声認識ステップにおける認識結果を用いて、音声波形と音素との対応付けであるアラインメントを行い、前記音素の境界を示す区間情報と前記音素毎に付されている音素ラベルとを得るアラインメントステップと、を含むことを特徴とする。
【０００８】
この方法によれば、音声信号から音素認識を直接行うのではなく、まず、連続音声認識ステップにおいて、連続する音声信号が音声認識される。一旦音声認識されることで、はじめから音声信号を用いて音素認識する場合よりも、無意味な音素のつながりまで音素認識する（計算する）おそれが排除される。そして、アラインメントステップにおいて、この音声認識された音声認識結果が用いられ、音声波形と音素との対応付けであるアラインメントが行われ、音素の区間情報と音素ラベルとが得られる。つまり、このアラインメントステップにおいて、音素の境界を示す区間情報が連続音声認識した結果のみ対応付けられるだけなので余分な記憶容量（メモリー量）が抑えられ、音素の区間情報と音素ラベルとが得られる。
【０００９】
請求項２記載の音素認識装置は、音素認識の対象となる音声信号の各音素の特徴が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用して、音素を認識する音素認識装置であって、前記音響モデル、前記言語モデルおよび前記発音辞書を記憶する記憶手段と、この記憶手段に記憶されている前記音響モデル、前記言語モデルおよび前記発音辞書を利用して連続した音声信号を音声認識する連続音声認識手段と、この連続音声認識手段における音声認識結果を用いて、音声波形と音素との対応付けであるアラインメントを行い、前記音素の境界を示す区間情報と、前記音素毎に付されている音素ラベルとを得るアラインメント手段と、を備えることを特徴とする。
【００１０】
かかる構成によれば、連続音声認識手段で記憶手段に記憶されている音響モデル、言語モデル、発音辞書が用いられて、音声信号が音声認識される。一旦音声信号を音声認識することで、直接音声信号に基づいて音素認識する場合と比較した場合、文法上無意味な音素のつながりまで音素認識する無駄が排除される。そして、この音声認識結果が用いられ、アラインメント手段で音声波形と音素との対応付けがなされ、この対応付けた結果に基づいて、音素の境界を示す区間情報と、音素毎に付されている音素ラベルが得られる。
【００１１】
請求項３記載の音素認識プログラムは、音素認識の対象となる音声信号の各音素の特徴が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用して、音素を認識する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、前記音響モデル、前記言語モデルおよび前記発音辞書を記憶する記憶手段、この記憶手段に記憶されている前記音響モデル、前記言語モデルおよび前記発音辞書を利用して連続した音声信号を音声認識する連続音声認識手段、この連続音声認識手段における音声認識結果を用いて、音声波形と音素との対応付けであるアラインメントを行い、前記音素の境界を示す区間情報と、前記音素毎に付されている音素ラベルとを得るアラインメント手段、である。
【００１２】
かかる構成によれば、連続音声認識手段で記憶手段に記憶されている音響モデル、言語モデル、発音辞書が用いられて、音声信号が音声認識される。直接音声信号に基づいて音素認識する場合と比較した場合、一旦音声信号を音声認識することで、文法上無意味な音素のつながりまで音素認識する無駄が排除される。そして、この音声認識結果が用いられ、アラインメント手段で音声波形と音素との対応付けがなされ、この対応付けた結果に基づいて、音素の境界を示す区間情報と、音素毎に付されている音素ラベルが得られる。
【００１３】
【発明の実施の形態】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
（音素認識装置の構成）
図１に示すように、音素認識装置１は、入力部３と、音声認識部５と、アラインメント部７と、出力部９と、記憶部１１とを備えている。なお、この実施の形態では、音素認識装置１は、通常のパーソナルコンピュータで実現されており、図示を省略したＣＲＴや液晶等のディスプレイによって構成される表示部や、キーボード、マウス等の入力部が備えられている。
【００１４】
音素認識装置１は、入力した音声信号（音声データ）を、一旦、音声認識した後で、この音声信号を構成している音素を認識するものである。なお、この音素認識装置１に入力する音声データは、生の音声データでも、生の音声データから抽出された特徴量（以下、音声データ抽出特徴量）でもよく、また、音声認識した後に音声認識結果として、出力単語列が出力される。
【００１５】
入力部３は、入力インターフェースに相当するもので、外部から入力される音声信号（音声データ：生の音声データまたは音声データ抽出特徴量）を、受信し、音声認識部５に出力するものである。この実施の形態では、生の音声データの入力に対処できるように、図示を省略したマイクロホンとＡ／Ｄ変換器とを備えている。そして、これらマイクロホンとＡ／Ｄ変換器によって、入力された生の音声データは、デジタル形態の音声データに変換される。
【００１６】
音声認識部５は、入力部３から出力される音声データが続く限り、繰り返し仮説計算を実行して、出力単語列を出力するものである。繰り返し仮説計算とは、記憶部１１に記憶されている音響モデル、言語モデルを考慮して大語彙連続音声認識を行うのため計算であり、仮説（音声認識結果として最も適切と仮定される単語列）の中で、音響スコア、言語スコアが最大となるもの（最大のスコアを持つ単語履歴を備える単語列）を計算することである。
【００１７】
アラインメント部７は、音声認識部５で出力された出力単語列をアラインメントするものである。この実施の形態において、アラインメントとは、動的計画法を利用したマッチングを行って、音声波形と音素との対応付けを行うことで、このアラインメント部７では、一旦音声認識された出力単語列のみに対して、音声波形と音素との対応付け（マッチング）がなされ、その中でマッチングの度合いが最も高い対応付けが出力とされる。
【００１８】
また、動的計画法とは、ＤＰ（ｄｙｎａｍｉｃ　ｐｒｏｇｒａｍｍｉｎｇ）であり、認識手法の一つで、例えば、音響モデルとして隠れマルコフモデルが用いられ、言語モデル、発音辞書に基づいて、ネットワークが生成され、音声認識（音素認識）する場合において、ビタビ計算を適用するものである。
【００１９】
アラインメント部７では、音素の境界を示す区間情報を保持するための記憶手段（図示せず）が含まれており、このアラインメント部７の記憶手段は、入力部３で入力された音声信号（音声データ）が一旦音声認識された後の音声認識結果である出力単語列をアラインメントするので、文法上無意味な音素のつながり（言語上存在しない音素）に係るデータまで保持しながら計算する必要がなくなり、直接、音素認識する場合に比較して、メモリー量（記憶容量）の少ないメモリー（記憶媒体）で構成することができる。なお、アラインメント部７が請求項に記載したアラインメント手段に相当するものである。
【００２０】
また、音素ラベル（日本語の場合）とは、音素毎に付されている母音を示すローマ字「ａ、ｉ、ｕ、ｅ、ｏ」、子音を示すローマ字「ｋ、ｓ（ｓｈ）、ｔ（ｔｓ）、ｎ、ｈ、ｍ、ｙ、ｒ、ｗ」のことである。区間情報とは、音素の境界を示す情報、すなわち、各音素の存在時間を示しており、この実施の形態では、音素の境界は数ミリ秒単位（例えば、ある音素の存在時間「７０ｍｓ〜１２０ｍｓ」）で与えられている。
【００２１】
出力部９は、アラインメント部７で認識された音素ラベルと区間情報とを外部に出力するものである。この実施の形態では、図示を省略した表示部やプリンタ等の外部出力装置によって、音素ラベルと音素の区間情報は可視出力される（目に見える形式、つまり、表示画面上に、或いは紙として出力される）。また、出力部１１は、フレキシブルディスクや、ＣＤ−Ｒ等の光ディスクや、ＩＣメモリ等の記憶媒体に記憶して出力可能なように構成されている。
【００２２】
記憶部１１は、大容量のハードディスク等によって構成されており、音素認識の対象となる音声信号の各音素の関係が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを記憶するものである。
【００２３】
なお、この実施の形態では、音素認識装置１は、汎用のパーソナルコンピュータに、音声認識処理ブロック、アラインメントブロック等を含んでなる音素認識プログラムを実装することで実現することができる。なお、音声認識処理ブロックは音声認識部５の処理に相当し、アラインメントブロックはアラインメント部７の処理に相当し、各処理を実行するようにコンピュータ言語で記述されたものである。
【００２４】
この音素認識装置１によれば、入力部３で入力された音声データ（生の音声データまたは音声データ抽出特徴量）が音声認識部５で、記憶部１１に記憶されている音響モデル、言語モデルを用い、繰り返し仮説計算で音響スコア、言語スコアを計算し、最もスコアの高いものを出力単語列（音声認識結果）として出力する。つまり、音声信号が音声認識される。一旦音声信号を音声認識することで、直接音声信号に基づいて音素認識する場合と比較した場合、文法上無意味な音素のつながりまで音素認識する無駄が排除される。
【００２５】
そして、この音声認識結果が用いられ、アラインメント部７で動的計画法が利用され、音声波形と音素との対応付けがなされ、音素の境界を示す区間情報と、音素毎に付されている音素ラベルが得られる。その後、出力部９で音素ラベルと区間情報が付与された音素が出力される。このため、アラインメント部７において、音素の境界を示す区間情報を保持するためのメモリー量を増大させることなく、また、従来の音素ネットワーク、発音辞書に基づく音素認識と比較して、音素認識率を向上することができる。
【００２６】
また、この音素認識装置１の応用例として、例えば、ＣＧで作成されるキャラクターの声を声優が読み上げる場合、音素認識装置１に声優の音声信号（生の音声データ）を入力すると、この音声信号（生の音声データ）に応じた音素ラベルと音素の区間情報とが出力される。この音素ラベルと音素の区間情報とをＣＧの作画装置（図示せず）に入力し、この音声信号（生の音声データ）にあわせた口の動きをするＣＧキャラクタの顔面部を作画することができ、あたかも、ＣＧキャラクタが実際に話しているような演出をすることができる。
【００２７】
さらに、音声合成をする際に必要となる音声データベースには、音素ラベルと音素の区間情報とが必要であり、通常、これらの音素ラベルと音素の区間情報は、人手で書き起こした（テキストデータ化した）発声内容データを使ってアラインメントを取る。しかし、人手をかけられないほどの大容量の音声信号（音声データ）に対して、音素ラベルと音素の区間情報とを得たい場合に、音素認識装置１を利用すれば、自動的に、音素ラベル、音素の区間情報を得ることができる。
【００２８】
（音素認識装置の動作）
次に、図２に示すフローチャートを参照して、音素認識装置１の動作を説明する。
まず、音素認識装置１の入力部３で生の音声データまたは音声データ抽出特徴量が入力される（受信される）（Ｓ１）。そして、この入力部３で受信された生の音声データまたは音声データ抽出特徴量が音声認識部５で、記憶部１１に記憶されている音響モデルと、言語モデルと、発音辞書が参照され、繰り返し仮説計算が実行され、音響スコア、言語スコアが計算される。この音響スコア、言語スコアが高いもの（最大のスコアを持つ単語履歴）が音声認識結果として出力単語列として、アラインメント部７に出力される（Ｓ２）。
【００２９】
すると、アラインメント部７で出力単語列が動的計画法によって、アラインメント、すなわち、出力単語列の音声波形と音素との対応付けが行われる。このアラインメント部７で対応付けられた音声波形と音素との対応付け（マッチング）の中でマッチングの度合いが最も高い対応付けが出力とされ、音素ラベルと、音素の区間情報とが付与され、出力部９に送出される（Ｓ３）。出力部９で、音素ラベルと、音素の区間情報とが付与されている音素が出力される（Ｓ４）。
【００３０】
（音素認識の具体的な例）
次に、図３を参照して、音素認識の具体的な例について説明する。この例は、報道番組等で頻繁に使用される少数の単語を記憶部１１に記憶させた場合に、音素認識装置１に音声信号（音声データ）を入力した場合の音素認識結果を示したものである。つまり、この音素認識の具体的な例では、入力する音声信号（音声データ）として、報道番組等で取り上げられる、単語の並び方が拘束されている文章（文法上正確な文章）を当該装置１の使用者が読み上げた際に、当該装置１で音素認識した場合の結果、音素ラベルと音素の区間情報とを示したものである。
【００３１】
すなわち、単語の並び方が拘束されている文章（文法上正確な文章）として、報道番組等の冒頭で取り上げられる文章「次のニュースです」を当該装置１の使用者が読み上げた場合、音素認識結果を示したものである。この具体例において、音素認識装置１の記憶部１１には、報道番組等の最初に発声される確率の高い文章（単語）の中から無作為抽出した単語であって、「次（ｔｓ　ｕ　ｇ　ｉ）、初めに（ｈ　ａ　ｊ　ｉ　ｍ　ｅ　ｎ　ｉ）、以上（ｉ　ｊ　ｏ：）、の（ｎｏ）、が（ｇ　ａ）、に（ｎ　ｉ）、を（ｗ　ｏ［ｏ］）、は（ｗ　ａ）、ニュース（ｎｙ　ｕ：　ｓ　ｕ）、スポーツ（ｓ　ｕ　ｐ　ｏ：　ｔｓ　ｕ）、です（ｄ　ｅ　ｓ　ｕ）、でした（ｄ　ｅ　ｓｈ　ｉ　ｔ　ａ）、ます（ｍ　ａ　ｓ　ｕ）」という単語の音響モデル、言語モデルの情報だけが記憶されている。
【００３２】
つまり、これらを使用して、音素認識装置１で音素認識した場合の結果（「次のニュースです」の音素ラベル、音素の区間情報）を示したものである。なお、発音辞書には、これらの単語に読み（音声波形データを含む）が含まれている。
【００３３】
つまり、この音素認識装置１に対し、当該装置１の利用者が入力部３に備えられているマイクロホン（図示せず）に生の音声データを発し、音声認識部５で音響モデル、言語モデルが参照されて、大語彙連続音声認識が実行される。
【００３４】
すると、まず、音声認識結果として「次　の　ニュース　です」という単語列が出力されたとする。この音声認識結果には、音素列（この場合単語列と同義）がすぐに得られるが音素の区間情報が得られてない。
【００３５】
続いて、音声認識結果である「次（ｔｓ　ｕ　ｇ　ｉ）、の（ｎ　ｏ）、ニュース（ｎｙ　ｕ：　ｓ　ｕ）、です（ｄ　ｅ　ｓ　ｕ）」がアラインメント部７に入力され、アラインメント、音素認識が実行されると、図３に示したような音素認識結果を得ることができる。つまり、従来の音素ネットワークまたは発音辞書を使用して音素認識した場合に比べ、アラインメントを行っているため、一旦音声認識された単語についてのみアラインメントがなされ、音素認識する際の無意味な計算を除去することができ、音素認識率を向上することができる。
【００３６】
また、この図３では、例えば、ニュース（ｎｙ　ｕ：　ｓ　ｕ）の音素ｎｙが何秒から何秒の間発声されたのか（音素の区間情報）を得ることができる。ちなみに、この具体的な例では音素ｎｙの区間情報は、図３より６１０ｍｓ〜９２０ｍｓということになっている。
【００３７】
以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
例えば、音素認識装置１の各構成を一つずつの処理と捉えた音素認識方法とみなすことや、各構成の処理を汎用的なコンピュータ言語で記述した音素認識プログラムとみなすことも可能である。この場合、音素認識装置１と同様の効果が得られる。
【００３８】
【発明の効果】
請求項１、２、３記載の発明によれば、入力された音声信号が、音響モデル、言語モデル、発音辞書が用いられて、音声認識され、この音声認識結果が用いられ、音声波形と音素とのアラインメントがなされる。さらに、この対応付けた結果に基づいて、音素の境界を示す区間情報と、音素毎に付されている音素ラベルが得られる。このため、従来の音素ネットワークや発音辞書のみを用いた音素認識に比べて、単語の並び方が拘束されている文章の場合、一旦音声認識された後アラインメントして音素認識しているので、音素認識率を改善することができる。また、装置として実現した場合、一旦音声認識した後アラインメントしているので、音素の境界を示す区間情報を保持するためのメモリー量を音声認識した単語列の量だけ確保すればよく、増大させることなく、音素認識を実行することができる。
【図面の簡単な説明】
【図１】本発明による一実施の形態である音素認識装置のブロック図である。
【図２】音素認識装置の動作を説明したフローチャートである。
【図３】音素認識装置の具体的な音素認識結果を説明した図である。
【符号の説明】
１　音素認識装置
３　入力部
５　音声認識部
７　アラインメント部
９　出力部
１１　記憶部

Claims

音素認識の対象となる音声信号の各音素の特徴が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用して、音素を認識する音素認識方法であって、
前記音響モデル、前記言語モデルおよび前記発音辞書を利用して連続した音声信号を音声認識する連続音声認識ステップと、
この連続音声認識ステップにおける音声認識結果を用いて、音声波形と音素との対応付けであるアラインメントを行い、前記音素の境界を示す区間情報と、前記音素毎に付されている音素ラベルとを得るアラインメントステップと、
を含むことを特徴とする音素認識方法。
音素認識の対象となる音声信号の各音素の特徴が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用して、音素を認識する音素認識装置であって、
前記音響モデル、前記言語モデルおよび前記発音辞書を記憶する記憶手段と、この記憶手段に記憶されている前記音響モデル、前記言語モデルおよび前記発音辞書を利用して連続した音声信号を音声認識する連続音声認識手段と、
この連続音声認識手段における音声認識結果を用いて、音声波形と音素との対応付けであるアラインメントを行い、前記音素の境界を示す区間情報と、前記音素毎に付されている音素ラベルとを得るアラインメント手段と、
を備えることを特徴とする音素認識装置。
音素認識の対象となる音声信号の各音素の特徴が定義されている音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用して、音素を認識する装置を、
前記音響モデル、前記言語モデルおよび前記発音辞書を記憶する記憶手段、
この記憶手段に記憶されている前記音響モデル、前記言語モデルおよび前記発音辞書を利用して連続した音声信号を音声認識する連続音声認識手段、
この連続音声認識手段における音声認識結果を用いて、音声波形と音素との対応付けであるアラインメントを行い、前記音素の境界を示す区間情報と、前記音素毎に付されている音素ラベルとを得るアラインメント手段、
として機能させることを特徴とする音素認識プログラム。