JP2010197644A - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP2010197644A
JP2010197644A JP2009041794A JP2009041794A JP2010197644A JP 2010197644 A JP2010197644 A JP 2010197644A JP 2009041794 A JP2009041794 A JP 2009041794A JP 2009041794 A JP2009041794 A JP 2009041794A JP 2010197644 A JP2010197644 A JP 2010197644A
Authority
JP
Japan
Prior art keywords
dictionary
voice
tendency
pronunciation tendency
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009041794A
Other languages
English (en)
Inventor
Yuzo Takahashi
優三 高橋
Takashi Kato
隆 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Urimina
URIMINA KK
Gifu University NUC
Original Assignee
Urimina
URIMINA KK
Gifu University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Urimina, URIMINA KK, Gifu University NUC filed Critical Urimina
Priority to JP2009041794A priority Critical patent/JP2010197644A/ja
Publication of JP2010197644A publication Critical patent/JP2010197644A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識前のエンロール機能を活用するための登録作業が必要なく、音声認識に係る認識率を飛躍的に向上させ、誤認識や誤動作を起こすことのない音声認識システムを提供することを課題とする。
【解決手段】認識システム1における認識コンピュータ2は、話者Sが発声する音声Vを検出し、音声情報17を取得する音声情報取得手段8と、音声情報17に基づいて、音声Vに係る発音傾向を分析し、特定する発音傾向特定手段9と、標準辞書SD及び複数の発音傾向辞書X1等を記憶する辞書群記憶手段10と、発音傾向に合致等する一の発音傾向辞書X1等を選定する辞書選定手段11と、標準辞書SDを利用して語彙を照合する標準照合手段12と、発音傾向辞書X1等を利用して語彙を照合する発音傾向照合手段13と、認識された音声Vに係る語彙を出力する語彙出力手段14とを具備する。
【選択図】図2

Description

本発明は、音声認識システムに関するものであり、特に、医学教育用のシミュレータ等に利用される音声入力に係るマンマシンインターフェイス技術に利用可能に形成され、話者の発した音声の認識率を向上させることの可能な音声認識システムに関するものである。
従来から、話者が発声する音声をマイク等の音声入力機器によって受付け、これを音声情報として取得し、さらに当該音声情報を解析することにより音声を認識する音声認識技術の開発が進められている。この技術によって、キーボードやマウス等の操作入力機器を利用することなく、音声入力のみでコンピュータ等を操作することが可能となり、コンピュータの操作に不慣れな高齢者や手肢の動きが制限される要介護者であっても、コンピュータ等の操作が容易に行えるようになる。また、カーナビゲーションシステム等に音声入力及び音声認識技術を採用することにより、運転者がハンドルから手を離すことなく、目的地の設定や案内の開始を音声によって実行することが可能となり、安全性を高めることができる。このように、音声入力及び音声認識に係る技術は、幅広い分野で使用され、さらに新たな技術分野での使用が期待されている。
音声認識に係る技術において、話者の発声した音声を正確に認識できないと、機器の誤動作やエラー等の不具合に繋がるおそれがある。そのため、音声認識技術において、取得した音声情報を誤認識することなく如何に正確に認識することが可能か否かが実用化の点で特に重要な問題となる。ここで、音声入力による認識を行う場合、音声に含まれる各語彙に対し、音素や周波数特性等が予め登録された認識用の辞書(データベース)が使用されている。このとき、市販されている音声認識用の製品は、幅広い不特定の使用者を対象とするため、標準的な発音傾向(所謂「標準語」、「共通語」)のアクセントや発音で発声される語彙を適切に認識することが可能なように設定されている。
そのため、極端に早口でしゃべったり、或いは逆にゆっくりとしゃべる癖のある話者、極端に声質(高音、低音)が異なる話者、或いは地方等の訛りによってアクセントや発音が標準語と異なる話者は、標準語に設定された音声認識技術(音声認識ソフト)では、上述の認識率が著しく低下するおそれがある。そのため、上記のような話者にとっては、安定した音声認識を行うことができず、キーボード等を利用した入力に比べ、かえって文章作成作業等が煩雑になることがあった。
そこで、標準的な発音傾向以外の有する話者の発声に対しても認識率を向上させるため、予め特定の話者の音声を登録し、これを解析処理し、データベース化することが行われている。具体的に説明すると、話者に対して予め規定の文章を音読させ、これを音声情報として取得し、登録することにより、認識率を飛躍的に向上させる機能(所謂「エンロール機能」)を伴った音声認識ソフトが開発されている。この場合、音声認識ソフトの稼働するコンピュータ等の音声認識装置により、話者の発音傾向に基づく音響モデルを構築し、当該話者が発声した場合には、個々に構築された特定の音響モデルを利用して認識処理が実施される。その結果、上記認識率は一定以上の水準に保たれ、実用上の問題がない程度まで改善されることになる。
しかしながら、上述したエンロール機能を採用した音声認識技術の場合、下記に掲げるような問題点を有することがあった。すなわち、これらの音声認識システムは、認識率を向上させるための前段階の登録作業が非常に煩雑となることがあった。つまり、特定話者の発音傾向を統計的処理に基づいて精細に解析する必要があり、登録時に膨大な量の文章を音読させる作業を強制的にする必要があった。例えば、市販の音声認識ソフトの場合、エンロール機能を使用するための登録時には、当該ソフトウェアが指定する複数の文章を話者がそれぞれ読み上げ、その内容を音声認識ソフトが解析し、データとして登録する作業を繰り返し実行する必要があった。そのため、最終的に登録を完了するまでに、最低でも30分以上が必要となることもあった。したがって、音声認識技術を利用したシステムを恒常的に使用する専門のオペレータ以外では、上記のような煩雑な登録作業に時間を掛けることが無駄な場合も多くあり、エンロール機能自体が十分に活用されていない場合も多かった。その結果、エンロール機能を活用することなく音声認識処理を行うため、低い認識率で当該ソフトを使用することがあった。
また、音声認識技術によって解析される音声認識は、その話者の発する音声の周波数特性であったり、音の強弱等であり、その発音傾向は常に一定のものではなかった。すなわち、話者の感情(喜怒哀楽)によって通常の発音傾向と異なるアクセント等で音声を発したり、普段は標準語で喋る話者であったとしても、感情の変化により出身地方の訛りを含んだ音声を発声をすることがあった。そのため、エンロール機能の登録時には、平静状態で標準語で登録した話者であっても、実際の音声入力を行う際には感情等により発音傾向が変化し、エンロール機能が十分に発揮できないことがあった。その結果、反って認識率が低下する可能性があった。
そこで、本発明は、上記実情に鑑み、音声認識前のエンロール機能を活用するための登録作業を要することがなく、個々の状況に応じて適切な発音傾向辞書を特定し、音声認識に係る認識率を飛躍的に向上させることが可能な音声認識システムの提供を課題とするものである。
上記の課題を解決するため、本発明の音声認識システムは、「話者の音声を検出し、音声情報を取得する音声情報取得手段と、取得した前記音声情報に基づいて、前記音声の高低、周波数特性、アクセント、及びピッチを含む前記話者の発音傾向を分析し、特定する発音傾向特定手段と、標準化した標準発音傾向に基づいて構築された標準辞書、及び前記標準発音傾向と相違する特定発音傾向に基づいて各々構築された複数の発音傾向辞書を記憶する辞書群記憶手段と、記憶された複数の前記発音傾向辞書の中から、特定された前記音声の前記発音傾向に合致若しくは類似する一の前記発音傾向辞書を選定する辞書選定手段と、前記音声情報及び前記標準辞書を利用して、前記音声に含まれる語彙を照合し、認識する標準照合手段と、前記標準照合手段によって未認識と判定された前記語彙を前記辞書選定手段によって選定された前記発音傾向辞書を利用して照合し、認識する発音傾向照合手段と、前記標準照合手段及び前記発音傾向照合手段の少なくとも一方によって認識された前記音声に係る前記語彙を出力する語彙出力手段と」を具備して主に構成されている。
ここで、発音傾向とは、話者の発声した音声に関し、音声の高低、音響特性の周波数分布、アクセント・イントネーション、及びピッチ等の他者の音声との識別が可能なものである。なお、発音傾向を特定するためには、声質や声のトーン、及び話者の発声時の感情(喜怒哀楽)による区別を含むものであっても構わない。係る発音傾向は、周波数分布などによって数値化されるものであってもよい。
一方、辞書群記憶手段に記憶される標準辞書は、標準発音傾向、すなわち、標準語(共通語)の場合の語彙のアクセントや平均的な声質及びピッチに基づいて規定されている。そのため、話者を特定することなく、幅広い人々を対象として音声の音声認識を行うことが可能となる。これに対し、発音傾向辞書は、標準辞書の標準発音傾向から逸脱し、話者に応じて異なる発音傾向を示すタイプのものが複数構成されている。さらに具体的に示すと、音声の高低、訛り・方言等の地域差によるアクセントの相違、音声の速度の違い、及び年代別等の種々のタイプに応じて個別に設定することができる。すなわち、分類した発音傾向の違いに応じて発音傾向辞書が構築されている。これらの複数の辞書により、辞書群が構成され、辞書群記憶手段に記憶される。
したがって、本発明の音声認識システムによれば、取得した音声情報に基づいて、話者の発音傾向を特定し、特定された発音傾向に合致または類似する発音傾向辞書が辞書群記憶手段の中から選定される。そして、音声認識処理を行う場合、始めに標準発音傾向に基づく標準辞書を利用して語彙を照合し、認識処理を行う。その後、標準辞書で認識されなかった語彙について、選定された発音傾向辞書を用いて照合し、認識を行う。これにより、二つの辞書を用いて照合された結果が語彙出力手段によって出力される。すなわち、本発明の音声認識システムの場合、二つの辞書を利用し、二段階の認識処理を行うため、音声の認識率を向上させることができる。特に、発音傾向に基づいて特定された発音傾向辞書により、話者の発声の癖などを把握した上での認識処理が行われるため、上記認識率を飛躍的に向上させることができる。
さらに、本発明の音声認識システムは、上記構成に加え、「前記発音傾向特定手段は、前記話者が最先のタイミングで発声した前記音声に基づいて前記発音傾向を特定する最先特定手段をさらに有し、前記辞書選定手段は、前記最先特定手段によって特定された前記発音傾向に基づいて、前記話者に対応する前記発音傾向辞書を固定する固定選定手段を」具備するものであっても構わない。
したがって、本発明の音声認識システムによれば、発音傾向が話者が一番最初のタイミングで発声した音声によって特定され、その後は当該話者については発音傾向辞書を固定した状態で認識処理が行われる。すなわち、最初の一文についての認識により、話者の発音傾向を特定することが可能となる。これにより、発音傾向の特定が一回で完了し、その後のシステムに負担を課することがない。
さらに、本発明の音声認識システムは、上記構成に加え、「前記発音傾向特定手段は、前記話者が前記音声を発声する毎に、前記発音傾向を逐次特定する逐次特定手段をさらに有し、前記辞書選定手段は、逐次特定された前記発音傾向に基づいて、前記発音傾向辞書を再選定する辞書再選定手段を」具備して構成されるものであっても構わない。
したがって、本発明の音声認識システムによれば、上記に示したように、話者についての発音傾向辞書を固定するものに対し、発声した音声毎に発音傾向の特定及び発音傾向辞書の選定が行われる。これにより、同じ話者であっても、感情によって早口になったり、声のトーンが異なることがある。係る場合、最初に特定された発音傾向辞書に特定されていると、発音傾向辞書による認識率が低下するおそれがある。そのため、システムに対しては若干の負担を課すことになるものの、適宜発声傾向の特定及び辞書の選定を繰り返すことにより、認識率の低下を防ぐことができる。
さらに、本発明の音声認識システムは、上記構成に加え、「前記音声情報取得手段は、前記話者がそれぞれ発声した複数の前記音声が混在して形成される会話形式の前記音声情報を取得する」ものであっても構わない。
したがって、本発明の音声認識システムは、複数の話者が集い会話を行う会話形式の音声に係る音声情報を取得するものである。これにより、会話に参加するそれぞれ話者について、発音傾向を特定し、これに基づいて、音声の認識処理を行うことができる。
本発明の効果として、音声による認識処理を標準辞書及び発音傾向辞書の二段階で行うことにより、音声認識に係る認識率を向上させることができる。さらに、発音傾向の特定を話者が音声を発する度に特定することにより、話者の感情等に左右されることなく、安定して音声認識処理を行うことができる。
本実施形態の音声認識システムの概略構成を示す説明図である。 音声認識システムにおける認識コンピュータの機能的構成を示すブロック図である。 認識コンピュータの処理の流れを示すフローチャートである。 認識コンピュータの処理の流れを示すフローチャートである。
以下、本発明の一実施形態である音声認識システム1(以下、単に「認識システム1」と称す)について、図1乃至図4に基づいて説明する。ここで、図1は本実施形態の音声認識システム1の概略構成を示す説明図であり、図2は音声認識システム1における認識コンピュータ2の機能的構成を示すブロック図であり、図3及び図4は認識コンピュータの処理の流れを示すフローチャートである。
本実施形態の認識システム1は、図1乃至図4に示されるように、音声認識装置として機能する認識コンピュータ2によって主に構成されている。ここで、認識コンピュータ2は、図1及び図2に示すように、市販のパーソナルコンピュータを利用して主に構築され、話者Sが発声した音声Vを取得するマイク等の音声入力機器3と、各種データの入力及び操作を行うためのキーボード等の操作入力機器4と、認識結果を文字出力するための出力画面5を有する液晶ディスプレイ6とがそれぞれコンピュータ本体7に接続されて主に構成されている。
また、コンピュータ本体7の内部には、音声Vを分析し、認識する音声認識機能SR及び認識された音声Vを各種辞書(標準辞書SD、発音傾向辞書X1等)を利用して音声Vに含まれる語彙の照合を行う語彙照合機能VCが構築され、各種機能を発揮することができるようになっている。さらに、コンピュータ本体7には、上記に示した機器3,4,6等との信号を送受するためのインターフェイスや制御機構、インターネット等のネットワーク環境への接続を可能とする通信機能、及び認識システム1として機能させるための認識システム用ソフトウェア(図示しない)を内蔵するハードディスク等の記憶手段19(辞書群記憶手段10等)、認識システム用ソフトウェアに基づいて各種処理を行うためのCPUを含む演算処理部等を含んで構成されている。これらのパーソナルコンピュータの構成及び機能については、既に周知のものであるため、ここでは説明を省略する。
ここで、認識コンピュータ2は、その機能的構成として、話者Sが発声する音声Vを音声入力機器3を介して検出し、音声Vに係る音声信号を電気信号に変換し、これを音声情報17として取得する音声情報取得手段8と、取得した音声情報17に基づいて、音声Vに係る発音傾向を分析し、これを特定する発音傾向特定手段9と、標準語等を発音する際に予め規定された標準的な標準発音傾向に基づいて各語彙を登録し、構築された標準辞書SD、及び標準発音傾向と相違し、声質、アクセント、ピッチ、及び訛り等に従ってそれぞれ各語彙を登録し、構築された複数の発音傾向辞書X1,X2,X3...,Xnからなる辞書のグループ(辞書群)を電子データ化し、データベースとして記憶する辞書群記憶手段10と、辞書群記憶手段10に記憶された複数の発音傾向辞書X1等の中から、取得した音声情報17によって特定された発音傾向と周波数特性等の各種パラメータが合致若しくは最も類似する一の発音傾向辞書X1等を選定する辞書選定手段11と、取得した音声情報17及び辞書群記憶手段11の中の標準辞書SDを利用して、音声Vに含まれる語彙を照合し、認識する標準照合手段12と、標準照合手段12によって認識されなかった語彙(未認識語彙)を、発音傾向に基づいて選定された発音傾向辞書X1等を利用して照合し、認識する発音傾向照合手段13と、標準辞書SD及び発音傾向辞書X1等で認識された音声Vに係る語彙をそれぞれ出力する語彙出力手段14とを主に具備して構成されている。
ここで、本実施形態の認識システム1において、発音傾向の特定及びその後の発音傾向辞書X1等の選定において二つの方式を採用することが可能であり、話者Sの選択によって指定することが可能となっている。具体的に説明すると、発音傾向特定手段9の一部機能として、話者Sが本実施形態の認識システム1において、最初のタイミングで発声した音声Vに基づいて発音傾向を特定する最先特定手段、及び辞書選定手段11の一部機能として、最先特定手段15によって特定された発音傾向に基づいて、話者Sに対応する発音傾向辞書X1等を固定し、以後の音声Vに対しても同一の発音傾向辞書X1を利用して音声Vの認識処理を行う固定選定手段16を利用した選定辞書固定方式と、発音傾向特定手段9の一部機能として、話者が音声Vを発声する度に、上述の発音傾向を逐次特定する逐次特定手段17と、辞書選定手段11の一機能として、逐次特定手段17によって逐次特定される発音傾向に基づいて、発音傾向辞書X1等の再選定を実施する辞書再選定手段18とを具備する選定辞書変動方式との二つの方式である。
選定辞書固定方式の場合、話者Sについての最先の音声Vに基づいて発音傾向の特定及び発音傾向辞書X1等の選定がなされ、認識システム1における音声認識処理の過程は、当該発音傾向辞書X1等が常に固定されることになる。そのため、発音傾向の特定及び発音傾向辞書X1の選定に係る処理が一度で完了するため、以後の音声認識処理を速やかに行うことができる。そのため、音声認識中の認識システム1に過度な負担を強いることがない、優れた利点を有している。しかしながら、話者Sの感情が変化し、早口になったり、声量が大きくなる等により、同じ話者Sでも発音傾向が偏向する場合がある。その場合、一度固定された発音傾向辞書X1では、誤認識や語彙の照合が不能となる場合があり、認識率が低下するおそれがある。
一方、選定辞書変動方式の場合、各発言毎に発音傾向を特定し、発音傾向辞書X1等の選定を繰り返し実施する処理が行われるため、上記のような発言中の発音傾向の変更にすぐに対応することができる。さらに、複数の話者Sが集合し、一度に会話を行う会議形式等の音声Vを認識する場合であっても、個々の話者Sを特定する必要がなく、音声V自体の発音傾向に基づいて認識処理をすればよいため、選定辞書固定方式に比べて係る点において利点を有している。しかしながら、各発言毎に発音傾向の特定及び発音傾向辞書X1等の選定を行うため、認識システム1に過度の負担を課す可能性がある。特に、複数の話者Sが一斉に発言をした場合、各発言(音声V)毎に選定等の処理を実施する必要があるため、最終的に語彙の出力が遅延する可能性があった。そのため、話者Sは音声認識を行う周囲の状況に応じて、いずれかの方式を使用するかを任意に選択することができるようになっている。
次に、本実施形態の認識システム1による音声認識に係る処理の流れの一例について、図3及び図4に基づいて説明する。まず、音声認識を行う前に、前述の発音傾向辞書X1等の選定方式に係る選択指示の入力を受付ける(ステップS1)。この選択指示の入力は、前述したメリット及びデメリットを勘案の上、話者Sによって決定される。そして、話者Sによる選定方式の選択が決定され、係る選択指示の入力を受付けると(ステップS1)、それぞれの選定方式に対して処理が識別できるようにフラグFを立てる(ステップS2)。具体的に説明すると、本実施形態の認識システム1では、選定辞書固定方式が選択指示された場合には、F=1を与え、選定辞書変動方式が選択指示された場合には、F≠1を与える処理が行われる(ステップS2)。係るフラグFは、後のステップによる判別のために使用することができる。
その後、話者Sにより、音声認識の対象となる音声Vが発せられているか否かの検出処理を実行する(ステップS3)。このとき、音声認識を行う音声Vが話者Sの発言によって、音声入力機器3を介して検出される場合(ステップS3においてYES)、認識システム1の認識コンピュータ2は音声入力機器3を介してこれを入力し、音声Vの音声信号を周波数特性や波形情報等に基づく電気信号に変換し、これを音声情報17として取得する(ステップS4)。ここで、音声Vを電気信号に変換し、電子データとして音声情報17を取得する処理は周知の技術であるため、ここでは説明を省略する。これにより、認識コンピュータ2の記憶手段19には、音声情報17が記憶されることになる。一方、音声入力機器3によって音声Vが検出されない場合(ステップS3においてNO)、ステップS3の処理を繰り返し継続し、音声Vを検出し、音声情報17が取得されるまで待機する。
そして、取得した音声情報17から、音声V(話者S)の発音傾向を分析し、特定する(ステップS5)。ここで、発音傾向の特定は、音声情報17を分析することによって得られる音声Vの特性(話者Sの声質、音声Vの高低、音声Vの周波数特性・周波数分布・声紋、発音・アクセント・イントネーション、音声Vのピッチ・発声速度)に基づいて決定される。すなわち、個々の話者Sに応じて、発音傾向は種々異なるものである。そのため、音声Vの波形の違い(所謂「声紋」)によって話者Sをそれぞれ個別に識別することができる。さらに、発音傾向は、話者Sの発声時の感情等によって異なることもある。ここで、記憶手段19には、話者Sの発音傾向を特定するための音響モデルSMが予め記憶され、これを利用して検出された音声Vの特性の対比が実施され、発音傾向が特定されることとなる。なお、特定された発音傾向は、電子データとして記憶手段19に記憶されるものであっても構わない(図示しない)。また、後述する発音傾向辞書X1等の選定後は、基本的に不要なものとなるため、メモリ等の一時的に記憶し、選定後に消去するものであっても構わない。
その後、記憶手段19の辞書群記憶手段10に、電子データとして各語彙がデータベース化して記憶された複数の発音傾向の異なる発音傾向辞書X1等の中から、前述の音響モデルSMによって特定された発音傾向に合致する、若しくは最も類似する一つの発音傾向辞書X1等を選定する(ステップS6)。この場合、発音傾向の近似度を数値化して示し、当該近似度の値によって最も類似するものを選定する処理が行われる。
次に、辞書群記憶手段10の標準辞書SDを利用し、取得された音声情報17に含まれる語彙を照合し、音声認識処理を行う(ステップS7)。ここで、音声情報17の音声Vは、複数の語彙によって構成されるものであり、個々の語彙を標準辞書SDに予め登録された語彙と音声認識技術を利用して照合することにより、音声Vを構成する語彙を認識することができる。標準辞書SDによって音声Vを構成する全ての語彙の認識が完了した場合(ステップS8においてYES)、すなわち、話者Sの発声した音声Vがいずれも標準的な発音傾向で発音され、標準辞書SDによって認識される場合、認識された語彙を文字情報として液晶ディスプレイ6の出力画面5に出力する(ステップS9)。これにより、音声Vが音声認識され、文字情報に変換される。係る文字情報は記憶手段19に記憶されるものであってもよい(図示しない)。
ここで、標準辞書SDによって全ての語彙の認識が完了していない場合(ステップS8においてNO)、すなわち、標準辞書SDによって一部(または全部)が照合されず、認識できなかった場合、先に選定された発音傾向辞書X1等を利用して、標準辞書SDで認識されなかった音声Vの語彙の照合を行う(ステップS10)。そして、選定された発音傾向辞書X1等によって音声Vを構成する全ての語彙の認識が完了した場合(この場合、先に用いた標準辞書SDによる照合及び認識の結果を含む)(ステップS11においてYES)、ステップS9の処理に移行し、認識された語彙を文字情報として出力する。一方、全ての語彙の認識が完了していない場合(ステップS11においてNO)、未認識の部位を含んだ文字情報を出力画面5に出力する(ステップS12)。同様に係る文字情報を記憶手段19に記憶するものであってもよい。
その後、認識コンピュータ2は、話者Sから新たな音声Vが発せられているかを検出する(ステップS13)。ここで、音声入力機器3を介して音声Vの検出がある場合(ステップS13においてYES)、先に指定されたフラグFの値を判定する(ステップS14)。すなわち、F=1の場合(ステップS14においてYES)、すなわち、先に選定された発音傾向辞書X1等を利用して、新たな音声Vについても音声認識処理をする選定辞書固定方式の場合、新たな音声Vについての音声情報17を取得し(ステップS15)、ステップ7の処理に移行する。これにより、当該音声情報17に対し、標準辞書SD及び固定された発音傾向辞書X1等を利用した音声認識処理が実施され、ステップS7からステップS13までの処理が繰り返される。
一方、F≠1の場合(ステップS14においてNO)、すなわち、検出された音声V毎に発音傾向辞書X1等の選定を行う場合、ステップS4の処理に移行し、当該音声Vに基づく発音傾向の特定、発音傾向辞書X1等の選定、標準辞書SD及び再選定された発音傾向辞書X1等を利用した音声認識処理が実施され、ステップS4からステップS13までの処理が繰り返される。
これにより、話者Sによる発言が継続的に行われる場合、認識コンピュータ2は、それぞれの音声Vを検出し、二種類の辞書SD,X1等を用い、二段階の語彙照合処理により、音声Vを文字情報に変換して出力することができる。さらに、認識開始前に、発音傾向辞書X1等の選定方式を選択することができるため、音声認識の対象となる音声Vに応じて最適なものを選択し、認識率を向上させることができる。
ここで、話者Sから新たな音声Vが発せられず、音声入力機器3による検出がされない場合(ステップS13においてNO)、ステップS14及びステップS15の処理をキャンセルする。その後、システム終了の指示の有無を検出し(ステップS16)、当該指示が検出される場合(ステップS16においてYES)、システムを終了する(ステップS17)。一方、当該指示が検出されない場合(ステップS16においてNO)、ステップS1の処理に戻り、音声認識処理を継続することとなる。
本実施形態の認識システム1により、予め複数の発音傾向に従って構築された発音傾向辞書X1等を記憶し、話者Sの発音傾向に基づいて最適の辞書が選定される。さらに、第一番目の処理として標準的な発音傾向に従って構築された標準辞書SDによる照合処理を行うことにより、発音傾向辞書X1等による語彙の照合処理を軽減することができる。すなわち、標準辞書SDは、一般的な発話に係る音声を認識する上で共通化されたものであり、相違する発音傾向を有する音声であったとしても、その大部分については適用可能であり、語彙の認識が可能なように形成されている。そのため、始めに、標準辞書SDによる処理により、音声V中の大部分の語彙を認識し、標準辞書SDで認識できなかった残りの語彙(未認識語彙)についてのみ発音傾向辞書X1等を使用することが行われる。これにより、音声Vの音声認識に係る認識率が安定したものとなる。なお、標準辞書SDを利用せず、発音傾向辞書X1等をいきなり適用することも可能ではあるものの、標準的な発音傾向を有する部分の認識が劣る可能性があり、音声Vを完全に転換し、文字情報として出力することが困難となるおそれもある。
以上、本発明について好適な実施形態を挙げて説明したが、本発明はこれらの実施形態に限定されるものではなく、以下に示すように、本発明の要旨を逸脱しない範囲において、種々の改良及び設計の変更が可能である。
すなわち、本実施形態の認識システム1において、一人の話者Sの音声Vを認識するものを示したが、これに限定されるものではなく、会議形式等の複数の話者Sが会話(発話)を行うものを対象とするものであっても構わない。この場合、個々の話者Sの発音傾向が予め特定され、話者Sの特定を行うことができるものであれば、上述の発音傾向辞書X1等を固定する選定辞書固定方式を採用することができる。しかしながら、一度に多くの話者Sが発声する可能性があるため、発話同士が重なる場合があり、誤認識する可能性が高くなる。そのため、個々の発言毎に発音傾向を特定し、発音傾向辞書X1等をそれに応じて変動させる選定辞書変動方式を採用するものが好適と思われる。
さらに、本実施形態の認識システム1において、発音傾向辞書X1等の選定に係る方式を選択する処理を有するものを示したがこれに限定されるものではなく、いずれか一方の方式に限定したものであってももちろん構わない。すなわち、音声認識する対象が固定され、話者Sの発音傾向の変動が想定されない場合には、選定辞書固定方式を採用し、迅速かつ安定した音声認識を行うものであって構わない。
1 認識システム(音声認識システム)
2 認識コンピュータ
3 音声入力機器
5 出力画面
6 液晶ディスプレイ
7 コンピュータ本体
8 音声情報取得手段
9 発音傾向特定手段
10 辞書群記憶手段
11 辞書選定手段
12 標準照合手段
13 発音傾向照合手段
14 語彙出力手段
15 最先特定手段
16 固定選定手段
17 逐次特定手段
18 辞書再選定手段
S 話者
SD 標準辞書
V 音声
X1,X2,X3... Xn 発音傾向辞書

Claims (4)

  1. 話者の音声を検出し、音声情報を取得する音声情報取得手段と、
    取得した前記音声情報に基づいて、前記音声の高低、周波数特性、アクセント、及びピッチを含む前記話者の発音傾向を分析し、特定する発音傾向特定手段と、
    標準化した標準発音傾向に基づいて構築された標準辞書、及び前記標準発音傾向と相違する特定発音傾向に基づいて各々構築された複数の発音傾向辞書を記憶する辞書群記憶手段と、
    記憶された複数の前記発音傾向辞書の中から、特定された前記音声の前記発音傾向に合致若しくは類似する一の前記発音傾向辞書を選定する辞書選定手段と、
    前記音声情報及び前記標準辞書を利用して、前記音声に含まれる語彙を照合し、認識する標準照合手段と、
    前記標準照合手段によって未認識と判定された前記語彙を前記辞書選定手段によって選定された前記発音傾向辞書を利用して照合し、認識する発音傾向照合手段と、
    前記標準照合手段及び前記発音傾向照合手段の少なくとも一方によって認識された前記音声に係る前記語彙を出力する語彙出力手段と
    を具備することを特徴とする音声認識システム。
  2. 前記発音傾向特定手段は、
    前記話者が最先のタイミングで発声した前記音声に基づいて前記発音傾向を特定する最先特定手段をさらに有し、
    前記辞書選定手段は、
    前記最先特定手段によって特定された前記発音傾向に基づいて、前記話者に対応する前記発音傾向辞書を固定する固定選定手段をさらに具備することを特徴とする請求項1に記載の音声認識システム。
  3. 前記発音傾向特定手段は、
    前記話者が前記音声を発声する毎に、前記発音傾向を逐次特定する逐次特定手段をさらに有し、
    前記辞書選定手段は、
    逐次特定された前記発音傾向に基づいて、前記発音傾向辞書を再選定する辞書再選定手段をさらに具備することを特徴とする請求項1に記載の音声認識システム。
  4. 前記音声情報取得手段は、
    前記話者がそれぞれ発声した複数の前記音声が混在して形成される会話形式の前記音声情報を取得することを特徴とする請求項1乃至請求項3のいずれか一つに記載の音声認識システム。

JP2009041794A 2009-02-25 2009-02-25 音声認識システム Pending JP2010197644A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009041794A JP2010197644A (ja) 2009-02-25 2009-02-25 音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009041794A JP2010197644A (ja) 2009-02-25 2009-02-25 音声認識システム

Publications (1)

Publication Number Publication Date
JP2010197644A true JP2010197644A (ja) 2010-09-09

Family

ID=42822432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009041794A Pending JP2010197644A (ja) 2009-02-25 2009-02-25 音声認識システム

Country Status (1)

Country Link
JP (1) JP2010197644A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014035012A1 (ko) * 2012-09-03 2014-03-06 경희대학교 산학협력단 감정 음성 인식장치 및 방법
CN104008091A (zh) * 2014-05-26 2014-08-27 上海大学 一种基于情感值的网络文本情感分析方法
JPWO2016157352A1 (ja) * 2015-03-30 2017-09-21 富士通株式会社 音声認識装置、音声認識システム、及び、プログラム
US9911409B2 (en) 2015-07-23 2018-03-06 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
US10134390B2 (en) 2015-09-23 2018-11-20 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof
JP2018200452A (ja) * 2017-05-30 2018-12-20 アルパイン株式会社 音声認識装置および音声認識方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014035012A1 (ko) * 2012-09-03 2014-03-06 경희대학교 산학협력단 감정 음성 인식장치 및 방법
CN104008091A (zh) * 2014-05-26 2014-08-27 上海大学 一种基于情感值的网络文本情感分析方法
CN104008091B (zh) * 2014-05-26 2017-03-15 上海大学 一种基于情感值的网络文本情感分析方法
JPWO2016157352A1 (ja) * 2015-03-30 2017-09-21 富士通株式会社 音声認識装置、音声認識システム、及び、プログラム
US9911409B2 (en) 2015-07-23 2018-03-06 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
US10134390B2 (en) 2015-09-23 2018-11-20 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof
JP2018200452A (ja) * 2017-05-30 2018-12-20 アルパイン株式会社 音声認識装置および音声認識方法

Similar Documents

Publication Publication Date Title
KR102199050B1 (ko) 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6424935B1 (en) Two-way speech recognition and dialect system
US9202466B2 (en) Spoken dialog system using prominence
US20090182559A1 (en) Context sensitive multi-stage speech recognition
US11145222B2 (en) Language learning system, language learning support server, and computer program product
JP2017513047A (ja) 音声認識における発音予測
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
KR102062524B1 (ko) 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버
JP5105943B2 (ja) 発話評価装置及び発話評価プログラム
JP2010197644A (ja) 音声認識システム
KR20210036169A (ko) 대화 시스템, 대화 처리 방법, 번역 장치 및 번역 방법
KR20210034276A (ko) 대화 시스템, 대화 처리 방법 및 전자 장치
US20230360633A1 (en) Speech processing techniques
JP2010197859A (ja) 発話差音声認識システム
JP2003162524A (ja) 言語処理装置
JP2001188556A (ja) 音声認識方法及び装置
KR102405547B1 (ko) 딥러닝 기반의 발음 평가 시스템
JP6517417B1 (ja) 評価システム、音声認識装置、評価プログラム、及び音声認識プログラム
EP4261822A1 (en) Setting up of speech processing engines