JP2010197644A

JP2010197644A - 音声認識システム

Info

Publication number: JP2010197644A
Application number: JP2009041794A
Authority: JP
Inventors: Yuzo Takahashi; 優三高橋; Takashi Kato; 隆加藤
Original assignee: Urimina; URIMINA KK; Gifu University NUC
Current assignee: Urimina; URIMINA KK; Gifu University NUC
Priority date: 2009-02-25
Filing date: 2009-02-25
Publication date: 2010-09-09

Abstract

【課題】音声認識前のエンロール機能を活用するための登録作業が必要なく、音声認識に係る認識率を飛躍的に向上させ、誤認識や誤動作を起こすことのない音声認識システムを提供することを課題とする。
【解決手段】認識システム１における認識コンピュータ２は、話者Ｓが発声する音声Ｖを検出し、音声情報１７を取得する音声情報取得手段８と、音声情報１７に基づいて、音声Ｖに係る発音傾向を分析し、特定する発音傾向特定手段９と、標準辞書ＳＤ及び複数の発音傾向辞書Ｘ１等を記憶する辞書群記憶手段１０と、発音傾向に合致等する一の発音傾向辞書Ｘ１等を選定する辞書選定手段１１と、標準辞書ＳＤを利用して語彙を照合する標準照合手段１２と、発音傾向辞書Ｘ１等を利用して語彙を照合する発音傾向照合手段１３と、認識された音声Ｖに係る語彙を出力する語彙出力手段１４とを具備する。
【選択図】図２

Description

本発明は、音声認識システムに関するものであり、特に、医学教育用のシミュレータ等に利用される音声入力に係るマンマシンインターフェイス技術に利用可能に形成され、話者の発した音声の認識率を向上させることの可能な音声認識システムに関するものである。

従来から、話者が発声する音声をマイク等の音声入力機器によって受付け、これを音声情報として取得し、さらに当該音声情報を解析することにより音声を認識する音声認識技術の開発が進められている。この技術によって、キーボードやマウス等の操作入力機器を利用することなく、音声入力のみでコンピュータ等を操作することが可能となり、コンピュータの操作に不慣れな高齢者や手肢の動きが制限される要介護者であっても、コンピュータ等の操作が容易に行えるようになる。また、カーナビゲーションシステム等に音声入力及び音声認識技術を採用することにより、運転者がハンドルから手を離すことなく、目的地の設定や案内の開始を音声によって実行することが可能となり、安全性を高めることができる。このように、音声入力及び音声認識に係る技術は、幅広い分野で使用され、さらに新たな技術分野での使用が期待されている。

音声認識に係る技術において、話者の発声した音声を正確に認識できないと、機器の誤動作やエラー等の不具合に繋がるおそれがある。そのため、音声認識技術において、取得した音声情報を誤認識することなく如何に正確に認識することが可能か否かが実用化の点で特に重要な問題となる。ここで、音声入力による認識を行う場合、音声に含まれる各語彙に対し、音素や周波数特性等が予め登録された認識用の辞書（データベース）が使用されている。このとき、市販されている音声認識用の製品は、幅広い不特定の使用者を対象とするため、標準的な発音傾向（所謂「標準語」、「共通語」）のアクセントや発音で発声される語彙を適切に認識することが可能なように設定されている。

そのため、極端に早口でしゃべったり、或いは逆にゆっくりとしゃべる癖のある話者、極端に声質（高音、低音）が異なる話者、或いは地方等の訛りによってアクセントや発音が標準語と異なる話者は、標準語に設定された音声認識技術（音声認識ソフト）では、上述の認識率が著しく低下するおそれがある。そのため、上記のような話者にとっては、安定した音声認識を行うことができず、キーボード等を利用した入力に比べ、かえって文章作成作業等が煩雑になることがあった。

そこで、標準的な発音傾向以外の有する話者の発声に対しても認識率を向上させるため、予め特定の話者の音声を登録し、これを解析処理し、データベース化することが行われている。具体的に説明すると、話者に対して予め規定の文章を音読させ、これを音声情報として取得し、登録することにより、認識率を飛躍的に向上させる機能（所謂「エンロール機能」）を伴った音声認識ソフトが開発されている。この場合、音声認識ソフトの稼働するコンピュータ等の音声認識装置により、話者の発音傾向に基づく音響モデルを構築し、当該話者が発声した場合には、個々に構築された特定の音響モデルを利用して認識処理が実施される。その結果、上記認識率は一定以上の水準に保たれ、実用上の問題がない程度まで改善されることになる。

しかしながら、上述したエンロール機能を採用した音声認識技術の場合、下記に掲げるような問題点を有することがあった。すなわち、これらの音声認識システムは、認識率を向上させるための前段階の登録作業が非常に煩雑となることがあった。つまり、特定話者の発音傾向を統計的処理に基づいて精細に解析する必要があり、登録時に膨大な量の文章を音読させる作業を強制的にする必要があった。例えば、市販の音声認識ソフトの場合、エンロール機能を使用するための登録時には、当該ソフトウェアが指定する複数の文章を話者がそれぞれ読み上げ、その内容を音声認識ソフトが解析し、データとして登録する作業を繰り返し実行する必要があった。そのため、最終的に登録を完了するまでに、最低でも３０分以上が必要となることもあった。したがって、音声認識技術を利用したシステムを恒常的に使用する専門のオペレータ以外では、上記のような煩雑な登録作業に時間を掛けることが無駄な場合も多くあり、エンロール機能自体が十分に活用されていない場合も多かった。その結果、エンロール機能を活用することなく音声認識処理を行うため、低い認識率で当該ソフトを使用することがあった。

また、音声認識技術によって解析される音声認識は、その話者の発する音声の周波数特性であったり、音の強弱等であり、その発音傾向は常に一定のものではなかった。すなわち、話者の感情（喜怒哀楽）によって通常の発音傾向と異なるアクセント等で音声を発したり、普段は標準語で喋る話者であったとしても、感情の変化により出身地方の訛りを含んだ音声を発声をすることがあった。そのため、エンロール機能の登録時には、平静状態で標準語で登録した話者であっても、実際の音声入力を行う際には感情等により発音傾向が変化し、エンロール機能が十分に発揮できないことがあった。その結果、反って認識率が低下する可能性があった。

そこで、本発明は、上記実情に鑑み、音声認識前のエンロール機能を活用するための登録作業を要することがなく、個々の状況に応じて適切な発音傾向辞書を特定し、音声認識に係る認識率を飛躍的に向上させることが可能な音声認識システムの提供を課題とするものである。

上記の課題を解決するため、本発明の音声認識システムは、「話者の音声を検出し、音声情報を取得する音声情報取得手段と、取得した前記音声情報に基づいて、前記音声の高低、周波数特性、アクセント、及びピッチを含む前記話者の発音傾向を分析し、特定する発音傾向特定手段と、標準化した標準発音傾向に基づいて構築された標準辞書、及び前記標準発音傾向と相違する特定発音傾向に基づいて各々構築された複数の発音傾向辞書を記憶する辞書群記憶手段と、記憶された複数の前記発音傾向辞書の中から、特定された前記音声の前記発音傾向に合致若しくは類似する一の前記発音傾向辞書を選定する辞書選定手段と、前記音声情報及び前記標準辞書を利用して、前記音声に含まれる語彙を照合し、認識する標準照合手段と、前記標準照合手段によって未認識と判定された前記語彙を前記辞書選定手段によって選定された前記発音傾向辞書を利用して照合し、認識する発音傾向照合手段と、前記標準照合手段及び前記発音傾向照合手段の少なくとも一方によって認識された前記音声に係る前記語彙を出力する語彙出力手段と」を具備して主に構成されている。

ここで、発音傾向とは、話者の発声した音声に関し、音声の高低、音響特性の周波数分布、アクセント・イントネーション、及びピッチ等の他者の音声との識別が可能なものである。なお、発音傾向を特定するためには、声質や声のトーン、及び話者の発声時の感情（喜怒哀楽）による区別を含むものであっても構わない。係る発音傾向は、周波数分布などによって数値化されるものであってもよい。

一方、辞書群記憶手段に記憶される標準辞書は、標準発音傾向、すなわち、標準語（共通語）の場合の語彙のアクセントや平均的な声質及びピッチに基づいて規定されている。そのため、話者を特定することなく、幅広い人々を対象として音声の音声認識を行うことが可能となる。これに対し、発音傾向辞書は、標準辞書の標準発音傾向から逸脱し、話者に応じて異なる発音傾向を示すタイプのものが複数構成されている。さらに具体的に示すと、音声の高低、訛り・方言等の地域差によるアクセントの相違、音声の速度の違い、及び年代別等の種々のタイプに応じて個別に設定することができる。すなわち、分類した発音傾向の違いに応じて発音傾向辞書が構築されている。これらの複数の辞書により、辞書群が構成され、辞書群記憶手段に記憶される。

したがって、本発明の音声認識システムによれば、取得した音声情報に基づいて、話者の発音傾向を特定し、特定された発音傾向に合致または類似する発音傾向辞書が辞書群記憶手段の中から選定される。そして、音声認識処理を行う場合、始めに標準発音傾向に基づく標準辞書を利用して語彙を照合し、認識処理を行う。その後、標準辞書で認識されなかった語彙について、選定された発音傾向辞書を用いて照合し、認識を行う。これにより、二つの辞書を用いて照合された結果が語彙出力手段によって出力される。すなわち、本発明の音声認識システムの場合、二つの辞書を利用し、二段階の認識処理を行うため、音声の認識率を向上させることができる。特に、発音傾向に基づいて特定された発音傾向辞書により、話者の発声の癖などを把握した上での認識処理が行われるため、上記認識率を飛躍的に向上させることができる。

さらに、本発明の音声認識システムは、上記構成に加え、「前記発音傾向特定手段は、前記話者が最先のタイミングで発声した前記音声に基づいて前記発音傾向を特定する最先特定手段をさらに有し、前記辞書選定手段は、前記最先特定手段によって特定された前記発音傾向に基づいて、前記話者に対応する前記発音傾向辞書を固定する固定選定手段を」具備するものであっても構わない。

したがって、本発明の音声認識システムによれば、発音傾向が話者が一番最初のタイミングで発声した音声によって特定され、その後は当該話者については発音傾向辞書を固定した状態で認識処理が行われる。すなわち、最初の一文についての認識により、話者の発音傾向を特定することが可能となる。これにより、発音傾向の特定が一回で完了し、その後のシステムに負担を課することがない。

さらに、本発明の音声認識システムは、上記構成に加え、「前記発音傾向特定手段は、前記話者が前記音声を発声する毎に、前記発音傾向を逐次特定する逐次特定手段をさらに有し、前記辞書選定手段は、逐次特定された前記発音傾向に基づいて、前記発音傾向辞書を再選定する辞書再選定手段を」具備して構成されるものであっても構わない。

したがって、本発明の音声認識システムによれば、上記に示したように、話者についての発音傾向辞書を固定するものに対し、発声した音声毎に発音傾向の特定及び発音傾向辞書の選定が行われる。これにより、同じ話者であっても、感情によって早口になったり、声のトーンが異なることがある。係る場合、最初に特定された発音傾向辞書に特定されていると、発音傾向辞書による認識率が低下するおそれがある。そのため、システムに対しては若干の負担を課すことになるものの、適宜発声傾向の特定及び辞書の選定を繰り返すことにより、認識率の低下を防ぐことができる。

さらに、本発明の音声認識システムは、上記構成に加え、「前記音声情報取得手段は、前記話者がそれぞれ発声した複数の前記音声が混在して形成される会話形式の前記音声情報を取得する」ものであっても構わない。

したがって、本発明の音声認識システムは、複数の話者が集い会話を行う会話形式の音声に係る音声情報を取得するものである。これにより、会話に参加するそれぞれ話者について、発音傾向を特定し、これに基づいて、音声の認識処理を行うことができる。

本発明の効果として、音声による認識処理を標準辞書及び発音傾向辞書の二段階で行うことにより、音声認識に係る認識率を向上させることができる。さらに、発音傾向の特定を話者が音声を発する度に特定することにより、話者の感情等に左右されることなく、安定して音声認識処理を行うことができる。

本実施形態の音声認識システムの概略構成を示す説明図である。音声認識システムにおける認識コンピュータの機能的構成を示すブロック図である。認識コンピュータの処理の流れを示すフローチャートである。認識コンピュータの処理の流れを示すフローチャートである。

以下、本発明の一実施形態である音声認識システム１（以下、単に「認識システム１」と称す）について、図１乃至図４に基づいて説明する。ここで、図１は本実施形態の音声認識システム１の概略構成を示す説明図であり、図２は音声認識システム１における認識コンピュータ２の機能的構成を示すブロック図であり、図３及び図４は認識コンピュータの処理の流れを示すフローチャートである。

本実施形態の認識システム１は、図１乃至図４に示されるように、音声認識装置として機能する認識コンピュータ２によって主に構成されている。ここで、認識コンピュータ２は、図１及び図２に示すように、市販のパーソナルコンピュータを利用して主に構築され、話者Ｓが発声した音声Ｖを取得するマイク等の音声入力機器３と、各種データの入力及び操作を行うためのキーボード等の操作入力機器４と、認識結果を文字出力するための出力画面５を有する液晶ディスプレイ６とがそれぞれコンピュータ本体７に接続されて主に構成されている。

また、コンピュータ本体７の内部には、音声Ｖを分析し、認識する音声認識機能ＳＲ及び認識された音声Ｖを各種辞書（標準辞書ＳＤ、発音傾向辞書Ｘ１等）を利用して音声Ｖに含まれる語彙の照合を行う語彙照合機能ＶＣが構築され、各種機能を発揮することができるようになっている。さらに、コンピュータ本体７には、上記に示した機器３，４，６等との信号を送受するためのインターフェイスや制御機構、インターネット等のネットワーク環境への接続を可能とする通信機能、及び認識システム１として機能させるための認識システム用ソフトウェア（図示しない）を内蔵するハードディスク等の記憶手段１９（辞書群記憶手段１０等）、認識システム用ソフトウェアに基づいて各種処理を行うためのＣＰＵを含む演算処理部等を含んで構成されている。これらのパーソナルコンピュータの構成及び機能については、既に周知のものであるため、ここでは説明を省略する。

ここで、認識コンピュータ２は、その機能的構成として、話者Ｓが発声する音声Ｖを音声入力機器３を介して検出し、音声Ｖに係る音声信号を電気信号に変換し、これを音声情報１７として取得する音声情報取得手段８と、取得した音声情報１７に基づいて、音声Ｖに係る発音傾向を分析し、これを特定する発音傾向特定手段９と、標準語等を発音する際に予め規定された標準的な標準発音傾向に基づいて各語彙を登録し、構築された標準辞書ＳＤ、及び標準発音傾向と相違し、声質、アクセント、ピッチ、及び訛り等に従ってそれぞれ各語彙を登録し、構築された複数の発音傾向辞書Ｘ１，Ｘ２，Ｘ３．．．，Ｘｎからなる辞書のグループ（辞書群）を電子データ化し、データベースとして記憶する辞書群記憶手段１０と、辞書群記憶手段１０に記憶された複数の発音傾向辞書Ｘ１等の中から、取得した音声情報１７によって特定された発音傾向と周波数特性等の各種パラメータが合致若しくは最も類似する一の発音傾向辞書Ｘ１等を選定する辞書選定手段１１と、取得した音声情報１７及び辞書群記憶手段１１の中の標準辞書ＳＤを利用して、音声Ｖに含まれる語彙を照合し、認識する標準照合手段１２と、標準照合手段１２によって認識されなかった語彙（未認識語彙）を、発音傾向に基づいて選定された発音傾向辞書Ｘ１等を利用して照合し、認識する発音傾向照合手段１３と、標準辞書ＳＤ及び発音傾向辞書Ｘ１等で認識された音声Ｖに係る語彙をそれぞれ出力する語彙出力手段１４とを主に具備して構成されている。

ここで、本実施形態の認識システム１において、発音傾向の特定及びその後の発音傾向辞書Ｘ１等の選定において二つの方式を採用することが可能であり、話者Ｓの選択によって指定することが可能となっている。具体的に説明すると、発音傾向特定手段９の一部機能として、話者Ｓが本実施形態の認識システム１において、最初のタイミングで発声した音声Ｖに基づいて発音傾向を特定する最先特定手段、及び辞書選定手段１１の一部機能として、最先特定手段１５によって特定された発音傾向に基づいて、話者Ｓに対応する発音傾向辞書Ｘ１等を固定し、以後の音声Ｖに対しても同一の発音傾向辞書Ｘ１を利用して音声Ｖの認識処理を行う固定選定手段１６を利用した選定辞書固定方式と、発音傾向特定手段９の一部機能として、話者が音声Ｖを発声する度に、上述の発音傾向を逐次特定する逐次特定手段１７と、辞書選定手段１１の一機能として、逐次特定手段１７によって逐次特定される発音傾向に基づいて、発音傾向辞書Ｘ１等の再選定を実施する辞書再選定手段１８とを具備する選定辞書変動方式との二つの方式である。

選定辞書固定方式の場合、話者Ｓについての最先の音声Ｖに基づいて発音傾向の特定及び発音傾向辞書Ｘ１等の選定がなされ、認識システム１における音声認識処理の過程は、当該発音傾向辞書Ｘ１等が常に固定されることになる。そのため、発音傾向の特定及び発音傾向辞書Ｘ１の選定に係る処理が一度で完了するため、以後の音声認識処理を速やかに行うことができる。そのため、音声認識中の認識システム１に過度な負担を強いることがない、優れた利点を有している。しかしながら、話者Ｓの感情が変化し、早口になったり、声量が大きくなる等により、同じ話者Ｓでも発音傾向が偏向する場合がある。その場合、一度固定された発音傾向辞書Ｘ１では、誤認識や語彙の照合が不能となる場合があり、認識率が低下するおそれがある。

一方、選定辞書変動方式の場合、各発言毎に発音傾向を特定し、発音傾向辞書Ｘ１等の選定を繰り返し実施する処理が行われるため、上記のような発言中の発音傾向の変更にすぐに対応することができる。さらに、複数の話者Ｓが集合し、一度に会話を行う会議形式等の音声Ｖを認識する場合であっても、個々の話者Ｓを特定する必要がなく、音声Ｖ自体の発音傾向に基づいて認識処理をすればよいため、選定辞書固定方式に比べて係る点において利点を有している。しかしながら、各発言毎に発音傾向の特定及び発音傾向辞書Ｘ１等の選定を行うため、認識システム１に過度の負担を課す可能性がある。特に、複数の話者Ｓが一斉に発言をした場合、各発言（音声Ｖ）毎に選定等の処理を実施する必要があるため、最終的に語彙の出力が遅延する可能性があった。そのため、話者Ｓは音声認識を行う周囲の状況に応じて、いずれかの方式を使用するかを任意に選択することができるようになっている。

次に、本実施形態の認識システム１による音声認識に係る処理の流れの一例について、図３及び図４に基づいて説明する。まず、音声認識を行う前に、前述の発音傾向辞書Ｘ１等の選定方式に係る選択指示の入力を受付ける（ステップＳ１）。この選択指示の入力は、前述したメリット及びデメリットを勘案の上、話者Ｓによって決定される。そして、話者Ｓによる選定方式の選択が決定され、係る選択指示の入力を受付けると（ステップＳ１）、それぞれの選定方式に対して処理が識別できるようにフラグＦを立てる（ステップＳ２）。具体的に説明すると、本実施形態の認識システム１では、選定辞書固定方式が選択指示された場合には、Ｆ＝１を与え、選定辞書変動方式が選択指示された場合には、Ｆ≠１を与える処理が行われる（ステップＳ２）。係るフラグＦは、後のステップによる判別のために使用することができる。

その後、話者Ｓにより、音声認識の対象となる音声Ｖが発せられているか否かの検出処理を実行する（ステップＳ３）。このとき、音声認識を行う音声Ｖが話者Ｓの発言によって、音声入力機器３を介して検出される場合（ステップＳ３においてＹＥＳ）、認識システム１の認識コンピュータ２は音声入力機器３を介してこれを入力し、音声Ｖの音声信号を周波数特性や波形情報等に基づく電気信号に変換し、これを音声情報１７として取得する（ステップＳ４）。ここで、音声Ｖを電気信号に変換し、電子データとして音声情報１７を取得する処理は周知の技術であるため、ここでは説明を省略する。これにより、認識コンピュータ２の記憶手段１９には、音声情報１７が記憶されることになる。一方、音声入力機器３によって音声Ｖが検出されない場合（ステップＳ３においてＮＯ）、ステップＳ３の処理を繰り返し継続し、音声Ｖを検出し、音声情報１７が取得されるまで待機する。

そして、取得した音声情報１７から、音声Ｖ（話者Ｓ）の発音傾向を分析し、特定する（ステップＳ５）。ここで、発音傾向の特定は、音声情報１７を分析することによって得られる音声Ｖの特性（話者Ｓの声質、音声Ｖの高低、音声Ｖの周波数特性・周波数分布・声紋、発音・アクセント・イントネーション、音声Ｖのピッチ・発声速度）に基づいて決定される。すなわち、個々の話者Ｓに応じて、発音傾向は種々異なるものである。そのため、音声Ｖの波形の違い（所謂「声紋」）によって話者Ｓをそれぞれ個別に識別することができる。さらに、発音傾向は、話者Ｓの発声時の感情等によって異なることもある。ここで、記憶手段１９には、話者Ｓの発音傾向を特定するための音響モデルＳＭが予め記憶され、これを利用して検出された音声Ｖの特性の対比が実施され、発音傾向が特定されることとなる。なお、特定された発音傾向は、電子データとして記憶手段１９に記憶されるものであっても構わない（図示しない）。また、後述する発音傾向辞書Ｘ１等の選定後は、基本的に不要なものとなるため、メモリ等の一時的に記憶し、選定後に消去するものであっても構わない。

その後、記憶手段１９の辞書群記憶手段１０に、電子データとして各語彙がデータベース化して記憶された複数の発音傾向の異なる発音傾向辞書Ｘ１等の中から、前述の音響モデルＳＭによって特定された発音傾向に合致する、若しくは最も類似する一つの発音傾向辞書Ｘ１等を選定する（ステップＳ６）。この場合、発音傾向の近似度を数値化して示し、当該近似度の値によって最も類似するものを選定する処理が行われる。

次に、辞書群記憶手段１０の標準辞書ＳＤを利用し、取得された音声情報１７に含まれる語彙を照合し、音声認識処理を行う（ステップＳ７）。ここで、音声情報１７の音声Ｖは、複数の語彙によって構成されるものであり、個々の語彙を標準辞書ＳＤに予め登録された語彙と音声認識技術を利用して照合することにより、音声Ｖを構成する語彙を認識することができる。標準辞書ＳＤによって音声Ｖを構成する全ての語彙の認識が完了した場合（ステップＳ８においてＹＥＳ）、すなわち、話者Ｓの発声した音声Ｖがいずれも標準的な発音傾向で発音され、標準辞書ＳＤによって認識される場合、認識された語彙を文字情報として液晶ディスプレイ６の出力画面５に出力する（ステップＳ９）。これにより、音声Ｖが音声認識され、文字情報に変換される。係る文字情報は記憶手段１９に記憶されるものであってもよい（図示しない）。

ここで、標準辞書ＳＤによって全ての語彙の認識が完了していない場合（ステップＳ８においてＮＯ）、すなわち、標準辞書ＳＤによって一部（または全部）が照合されず、認識できなかった場合、先に選定された発音傾向辞書Ｘ１等を利用して、標準辞書ＳＤで認識されなかった音声Ｖの語彙の照合を行う（ステップＳ１０）。そして、選定された発音傾向辞書Ｘ１等によって音声Ｖを構成する全ての語彙の認識が完了した場合（この場合、先に用いた標準辞書ＳＤによる照合及び認識の結果を含む）（ステップＳ１１においてＹＥＳ）、ステップＳ９の処理に移行し、認識された語彙を文字情報として出力する。一方、全ての語彙の認識が完了していない場合（ステップＳ１１においてＮＯ）、未認識の部位を含んだ文字情報を出力画面５に出力する（ステップＳ１２）。同様に係る文字情報を記憶手段１９に記憶するものであってもよい。

その後、認識コンピュータ２は、話者Ｓから新たな音声Ｖが発せられているかを検出する（ステップＳ１３）。ここで、音声入力機器３を介して音声Ｖの検出がある場合（ステップＳ１３においてＹＥＳ）、先に指定されたフラグＦの値を判定する（ステップＳ１４）。すなわち、Ｆ＝１の場合（ステップＳ１４においてＹＥＳ）、すなわち、先に選定された発音傾向辞書Ｘ１等を利用して、新たな音声Ｖについても音声認識処理をする選定辞書固定方式の場合、新たな音声Ｖについての音声情報１７を取得し（ステップＳ１５）、ステップ７の処理に移行する。これにより、当該音声情報１７に対し、標準辞書ＳＤ及び固定された発音傾向辞書Ｘ１等を利用した音声認識処理が実施され、ステップＳ７からステップＳ１３までの処理が繰り返される。

一方、Ｆ≠１の場合（ステップＳ１４においてＮＯ）、すなわち、検出された音声Ｖ毎に発音傾向辞書Ｘ１等の選定を行う場合、ステップＳ４の処理に移行し、当該音声Ｖに基づく発音傾向の特定、発音傾向辞書Ｘ１等の選定、標準辞書ＳＤ及び再選定された発音傾向辞書Ｘ１等を利用した音声認識処理が実施され、ステップＳ４からステップＳ１３までの処理が繰り返される。

これにより、話者Ｓによる発言が継続的に行われる場合、認識コンピュータ２は、それぞれの音声Ｖを検出し、二種類の辞書ＳＤ，Ｘ１等を用い、二段階の語彙照合処理により、音声Ｖを文字情報に変換して出力することができる。さらに、認識開始前に、発音傾向辞書Ｘ１等の選定方式を選択することができるため、音声認識の対象となる音声Ｖに応じて最適なものを選択し、認識率を向上させることができる。

ここで、話者Ｓから新たな音声Ｖが発せられず、音声入力機器３による検出がされない場合（ステップＳ１３においてＮＯ）、ステップＳ１４及びステップＳ１５の処理をキャンセルする。その後、システム終了の指示の有無を検出し（ステップＳ１６）、当該指示が検出される場合（ステップＳ１６においてＹＥＳ）、システムを終了する（ステップＳ１７）。一方、当該指示が検出されない場合（ステップＳ１６においてＮＯ）、ステップＳ１の処理に戻り、音声認識処理を継続することとなる。

本実施形態の認識システム１により、予め複数の発音傾向に従って構築された発音傾向辞書Ｘ１等を記憶し、話者Ｓの発音傾向に基づいて最適の辞書が選定される。さらに、第一番目の処理として標準的な発音傾向に従って構築された標準辞書ＳＤによる照合処理を行うことにより、発音傾向辞書Ｘ１等による語彙の照合処理を軽減することができる。すなわち、標準辞書ＳＤは、一般的な発話に係る音声を認識する上で共通化されたものであり、相違する発音傾向を有する音声であったとしても、その大部分については適用可能であり、語彙の認識が可能なように形成されている。そのため、始めに、標準辞書ＳＤによる処理により、音声Ｖ中の大部分の語彙を認識し、標準辞書ＳＤで認識できなかった残りの語彙（未認識語彙）についてのみ発音傾向辞書Ｘ１等を使用することが行われる。これにより、音声Ｖの音声認識に係る認識率が安定したものとなる。なお、標準辞書ＳＤを利用せず、発音傾向辞書Ｘ１等をいきなり適用することも可能ではあるものの、標準的な発音傾向を有する部分の認識が劣る可能性があり、音声Ｖを完全に転換し、文字情報として出力することが困難となるおそれもある。

以上、本発明について好適な実施形態を挙げて説明したが、本発明はこれらの実施形態に限定されるものではなく、以下に示すように、本発明の要旨を逸脱しない範囲において、種々の改良及び設計の変更が可能である。

すなわち、本実施形態の認識システム１において、一人の話者Ｓの音声Ｖを認識するものを示したが、これに限定されるものではなく、会議形式等の複数の話者Ｓが会話（発話）を行うものを対象とするものであっても構わない。この場合、個々の話者Ｓの発音傾向が予め特定され、話者Ｓの特定を行うことができるものであれば、上述の発音傾向辞書Ｘ１等を固定する選定辞書固定方式を採用することができる。しかしながら、一度に多くの話者Ｓが発声する可能性があるため、発話同士が重なる場合があり、誤認識する可能性が高くなる。そのため、個々の発言毎に発音傾向を特定し、発音傾向辞書Ｘ１等をそれに応じて変動させる選定辞書変動方式を採用するものが好適と思われる。

さらに、本実施形態の認識システム１において、発音傾向辞書Ｘ１等の選定に係る方式を選択する処理を有するものを示したがこれに限定されるものではなく、いずれか一方の方式に限定したものであってももちろん構わない。すなわち、音声認識する対象が固定され、話者Ｓの発音傾向の変動が想定されない場合には、選定辞書固定方式を採用し、迅速かつ安定した音声認識を行うものであって構わない。

１認識システム（音声認識システム）
２認識コンピュータ
３音声入力機器
５出力画面
６液晶ディスプレイ
７コンピュータ本体
８音声情報取得手段
９発音傾向特定手段
１０辞書群記憶手段
１１辞書選定手段
１２標準照合手段
１３発音傾向照合手段
１４語彙出力手段
１５最先特定手段
１６固定選定手段
１７逐次特定手段
１８辞書再選定手段
Ｓ話者
ＳＤ標準辞書
Ｖ音声
Ｘ１，Ｘ２，Ｘ３．．．Ｘｎ発音傾向辞書

Claims

話者の音声を検出し、音声情報を取得する音声情報取得手段と、
取得した前記音声情報に基づいて、前記音声の高低、周波数特性、アクセント、及びピッチを含む前記話者の発音傾向を分析し、特定する発音傾向特定手段と、
標準化した標準発音傾向に基づいて構築された標準辞書、及び前記標準発音傾向と相違する特定発音傾向に基づいて各々構築された複数の発音傾向辞書を記憶する辞書群記憶手段と、
記憶された複数の前記発音傾向辞書の中から、特定された前記音声の前記発音傾向に合致若しくは類似する一の前記発音傾向辞書を選定する辞書選定手段と、
前記音声情報及び前記標準辞書を利用して、前記音声に含まれる語彙を照合し、認識する標準照合手段と、
前記標準照合手段によって未認識と判定された前記語彙を前記辞書選定手段によって選定された前記発音傾向辞書を利用して照合し、認識する発音傾向照合手段と、
前記標準照合手段及び前記発音傾向照合手段の少なくとも一方によって認識された前記音声に係る前記語彙を出力する語彙出力手段と
を具備することを特徴とする音声認識システム。
前記発音傾向特定手段は、
前記話者が最先のタイミングで発声した前記音声に基づいて前記発音傾向を特定する最先特定手段をさらに有し、
前記辞書選定手段は、
前記最先特定手段によって特定された前記発音傾向に基づいて、前記話者に対応する前記発音傾向辞書を固定する固定選定手段をさらに具備することを特徴とする請求項１に記載の音声認識システム。
前記発音傾向特定手段は、
前記話者が前記音声を発声する毎に、前記発音傾向を逐次特定する逐次特定手段をさらに有し、
前記辞書選定手段は、
逐次特定された前記発音傾向に基づいて、前記発音傾向辞書を再選定する辞書再選定手段をさらに具備することを特徴とする請求項１に記載の音声認識システム。
前記音声情報取得手段は、
前記話者がそれぞれ発声した複数の前記音声が混在して形成される会話形式の前記音声情報を取得することを特徴とする請求項１乃至請求項３のいずれか一つに記載の音声認識システム。