JP4808764B2 - 音声認識システムおよび方法 - Google Patents

音声認識システムおよび方法 Download PDF

Info

Publication number
JP4808764B2
JP4808764B2 JP2008318403A JP2008318403A JP4808764B2 JP 4808764 B2 JP4808764 B2 JP 4808764B2 JP 2008318403 A JP2008318403 A JP 2008318403A JP 2008318403 A JP2008318403 A JP 2008318403A JP 4808764 B2 JP4808764 B2 JP 4808764B2
Authority
JP
Japan
Prior art keywords
word
recognition
language model
recognition graph
phoneme string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008318403A
Other languages
English (en)
Other versions
JP2010139963A (ja
Inventor
岳人 倉田
伸泰 伊東
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2008318403A priority Critical patent/JP4808764B2/ja
Priority to KR1020090077752A priority patent/KR20100069555A/ko
Publication of JP2010139963A publication Critical patent/JP2010139963A/ja
Application granted granted Critical
Publication of JP4808764B2 publication Critical patent/JP4808764B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、発音の変動に対応して音声を認識するシステムおよび方法に関する。
今日、コンピュータを用いた音声認識は、各種の解析等に広く利用されている。ここで、処理対象の音声が会話等の自由発話である場合、発音の変動が大きい。そのため、この種の音声認識においては、発音変動に対応するか否かは、認識性能に大きく影響する。そこで、従来から、発音変動を考慮して音声認識を行う技術が提案されている(例えば、非特許文献1、2参照)。
非特許文献1に記載された従来技術は、単語の標準的な読みに基づく音素列から、変動の発生する音素列パターンと変動確率を考慮した音素列を得、発音辞書に反映させる技術である。また、非特許文献2に記載された従来技術は、実際の発音に即して発音が異なるものは別単語として扱って言語モデルの学習を行い、発音変動を考慮した精密なモデリングを行う技術である。
秋田祐哉、河原達也、"話し言葉音声認識のための汎用的な統計的発音変動モデル"、電子情報通信学会論文誌、Vol. J88-D-2、No.9、pp.1780-1789 堤怜介、加藤正治、小坂哲夫、好田正紀、"発音変形依存モデルを用いた講演音声認識"、電子情報通信学会論文誌、Vol. J89-D-2、No.2、pp.305-313
上記のように、発音変動を考慮して音声認識を行うことは従来から提案されているが、様々な発音変動を単純に適用して発音辞書や言語モデルを構築した場合、変動した発音が他の単語の発音にマッチしてしまい、誤認識が発生する可能性が大きくなるという問題があった。上記の非特許文献2では、発音変動が生じ易い文脈を考慮することが示されているが、この方法を実装するためには、大量の音素レベルでの書き起こしコーパスが必要となるため、実用的とは言い難かった。
本発明は、このような課題に鑑みて成されたものであり、発音変動を考慮し、かつ実用的な音声認識処理を行うための認識グラフを作成するシステム等を提供することを目的とする。
上記の目的を達成するため、本発明は、次のようなシステムとして実現される。このシステムは、音声認識処理に用いられる認識グラフを作成するシステムであって、言語モデルを推定する推定部と、単語と当該単語の表記通りの音素列および発音変動を表現した音素列の情報との対応情報を保持する辞書部と、推定部により推定された言語モデルと当該言語モデルに含まれる単語に関する辞書部に保持された対応情報とに基づいて、認識グラフを作成する認識グラフ作成部とを備える。そして、認識グラフ作成部は、一定以上の単語数から構成される単語列に含まれる単語に対して当該単語に関する発音変動を表現した音素列を適用して、認識グラフを作成する。
より詳細には、認識グラフ作成部は、一定以上の次数nによるn−gramで予測される単語に対して、この単語に関する発音変動を表現した音素列を適用して、認識グラフを作成する。
または、認識グラフ作成部は、言語モデルを推定するために参照されるコーパス内での出現頻度が一定以上の単語列に含まれる単語であって、かつ一定以上の次数nによるn−gramで予測される単語に対して、発音変動を表現した音素列を適用して、認識グラフを作成する。
または、認識グラフ作成部は、対象単語の直前に無音区間が許容されない場合において、一定以上の次数nによるn−gramで予測される単語に対して、発音変動を表現した音素列を適用して、認識グラフを作成する。
または、認識グラフ作成部は、予め定められた条件に基づき、一定以上の次数nによるn−gramで予測される単語に対して、この単語の表記通りの音素列および発音変動を表現した音素列の双方を適用し、その他の単語に対して、発音変動を表現した音素列を適用せずに、認識グラフを作成する。
また、本発明は、音声認識処理に用いられる認識グラフを作成する方法としても実現される。この方法は、学習用コーパスに基づき言語モデルを推定するステップと、推定された言語モデルに含まれる単語に対して、この単語と単語の表記通りの音素列を適用し、かつ推定された言語モデルに含まれる単語のうち一定以上の単語数から構成される単語列に含まれる単語に対して、この単語に関する発音変動を表現した音素列を適用して、認識グラフを作成するステップと、作成された前記認識グラフを、音声認識装置がアクセス可能な記憶装置に格納するステップと、を含む。
さらに本発明は、コンピュータを制御して上記の音声認識システムの各機能を実現させるプログラム、あるいはコンピュータに上記の方法における各ステップに対応する処理を実行させるプログラムとしても実現される。このプログラムは、光ディスクや磁気ディスク、半導体メモリ、その他の記憶媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。
以上のように構成された本発明によれば、発音変動を考慮し、かつ実用的な音声認識処理を行うための認識グラフを作成するシステム等を提供することができる。
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。
自由発話において、発音変動は、よく使われる表現や言い慣れた表現で特に生じ易いと考えられる。このような表現は、音声認識のための言語モデルの構築に用いられる学習用コーパスにも多く出現すると考えられる。単語n−gramモデルでは、高次のモデルで予測される表現、ということができる。そこで、本実施形態では、一定以上の高次のn−gramで予測される表現に対して、限定的に、発音変動を表現した音声認識を行う。
<システム構成>
図1は、本実施形態による音声認識システムの構成例を示す図である。
図1に示す本実施形態の音声認識システムは、音声認識に用いられる認識グラフを作成するための前処理装置100と、音声認識を行う音声認識装置200と、学習用のデータ(テキスト・データ)を格納した学習用コーパス300とを備える。
図1に示す本実施形態の前処理装置100は、学習用のデータに基づいて言語モデルを推定する言語モデル推定部110と、言語モデル推定部110により推定された言語モデルを格納する言語モデル格納部120と、認識単語辞書部(発音辞書)130とを備える。また、この前処理装置100は、音声認識処理に用いられる認識グラフを作成する認識グラフ作成部140と、作成された認識グラフを格納する認識グラフ格納部150とを備える。
音声認識装置200は、処理対象の音声データに対する音声認識処理を実行する。詳しくは後述するが、前処理装置100により作成される認識グラフのデータ構造は既存のものであるので、音声認識の処理の内容は既存の音声認識技術における処理と同様である。すなわち、音声認識装置200の音声認識エンジンとしては、既存のエンジンを適用することができる。
学習用コーパス300には、音声認識に用いられる言語モデルを構築するために用いられる学習用のデータが蓄積されている。この学習用のデータは、音声認識適用対象分野のテキストデータである。
図2は、図1の音声認識システムにおける前処理装置100および音声認識装置200を実現するコンピュータのハードウェア構成例を示す図である。
図2に示すコンピュータ10は、演算手段であるCPU(Central Processing Unit)10aと、記憶手段であるメイン・メモリ10cおよび磁気ディスク装置(HDD:Hard Disk Drive)10gを備える。また、ネットワークを介して外部装置に接続するためのネットワーク・インタフェース・カード10fと、表示出力を行うためのビデオ・カード10dおよび表示装置10jと、音声出力を行うための音声機構10hとを備える。さらに、キーボードやマウス等の入力デバイス10iを備える。
図2に示すように、メイン・メモリ10cおよびビデオ・カード10dは、システム・コントローラ10bを介してCPU10aに接続されている。また、ネットワーク・インタフェース・カード10f、磁気ディスク装置10g、音声機構10hおよび入力デバイス10iは、I/Oコントローラ10eを介してシステム・コントローラ10bと接続されている。各構成要素は、システム・バスや入出力バス等の各種のバスによって接続される。例えば、CPU10aとメイン・メモリ10cの間は、システム・バスやメモリ・バスにより接続される。また、CPU10aと磁気ディスク装置10g、ネットワーク・インタフェース・カード10f、ビデオ・カード10d、音声機構10h、入力デバイス10i等との間は、PCI(Peripheral Components Interconnect)、PCI Express、シリアルATA(AT Attachment)、USB(Universal Serial Bus)、AGP(Accelerated Graphics Port)等の入出力バスにより接続される。
なお、図2は、本実施形態が適用されるのに好適なコンピュータのハードウェア構成を例示するに過ぎず、実際の各サーバが図示の構成に限定されないことは言うまでもない。例えば、ビデオ・カード10dを設ける代わりに、ビデオメモリのみを搭載し、CPU10aにてイメージ・データを処理する構成としても良い。また、音声機構10hを独立した構成とせず、システム・コントローラ10bやI/Oコントローラ10eを構成するチップセットの機能として備えるようにしても良い。また、補助記憶装置として磁気ディスク装置10gの他に、各種の光学ディスクやフレキシブル・ディスクをメディアとするドライブを設けても良い。表示装置10jとしては、主として液晶ディスプレイが用いられるが、その他、CRTディスプレイやプラズマ・ディスプレイ等、任意の方式のディスプレイを用いて良い。
図1に示した前処理装置100が図2のコンピュータで実現される場合、言語モデル推定部110および認識グラフ作成部140は、例えばメイン・メモリ10cに読み込まれたプログラムをCPU10aが実行することにより実現される。また、言語モデル格納部120、認識単語辞書部130、認識グラフ格納部150は、メイン・メモリ10cや磁気ディスク装置10g等の記憶手段により実現される。
言語モデル推定部110は、学習用コーパスに蓄積された学習用のデータに基づき、言語モデルを推定する。言語モデルとは、単語(形態素)のつながり方を、確率等を用いて示した、言語の数学的モデルである。学習用のデータに対応する言語モデルを推定する手法としては、最尤推定法やEMアルゴリズム等による既存の手法を用いることができる。
言語モデル格納部120は、言語モデル推定部110により推定された言語モデルを格納する。格納される言語モデルのデータ構造としては、既存の任意のデータ構造を用いて良い。以下、本実施形態では、言語モデルとしてWFST(Weighted Finite State Transducer)を用いた場合を例として説明する。
図3は、WFSTを用いた言語モデルのデータ構成例を示す図である。
図3に示すように、WFSTは、単語履歴を表すノードと、出現する単語とその出現確率を表すアークからなる。図示の例では、2個の単語履歴がノードに記録されるものとする。具体的には、左端のノードから順に、単語w1の出現により単語履歴が「w1」となり、次いで単語w2の出現により単語履歴が「w1,w2」となり、次いで単語w3の出現により単語履歴が「w2,w3」となる様子が示されている。なお、図示してはいないが、各アークには、直前のノードに記録された単語履歴において現在の単語が出現する出現確率の情報(例えば、図の左から2番目のノードと3番目のノードの間のアークについては、確率p(w2|w1))が付与されている。
認識単語辞書部130は、単語(形態素)とその読みの音声(音素列)との対応情報を保持している。本実施形態では、認識単語辞書部130は、音素列を受理して単語列を出力するWFSTを用いて実現されるものとする。認識単語辞書部130における単語の読みとしては、表記通りの音素列に加えて、発音変動を表現した音素列が登録される。発音変動を表現した音素列を含む認識単語辞書部130の作成方法については、既存の技術を用いて良い。
図4は、認識単語辞書部130に保持される単語と音素列の対応情報の例を示す。
図4に示す例では、単語「ございます」に対して、4種類の音素列が対応付けられている。これらの音素列のうち、最上段の「gozaimasu」が表記通りの音素列であり、2段目以降の3種類が発音変動を表現した音素列である。以下、図4に示すように、表記通りの音素列を音素列pnとし、発音変動を表現した音素列を音素列pvとする。なお、図4では、3つの音素列pvにそれぞれ添え字を付し、「音素列pv(1)」、「音素列pv(2)」、「音素列pv(3)」と記載している。
一般に、ある単語において発音変動が発生するか否かは、単語の種類や、他の単語と連続しているか否か、どのような単語とどのように連続しているかといった、単語の用いられ方等によって様々である。また、発音変動の仕方は、図4に例示したような音素の脱落の他、促音化、濁音化、撥音化、長音化、短音化等、様々である。したがって、認識単語辞書部130において、どの単語に対し、どのような音素列pvを登録するかは、既存の種々のルールベースを適用することで任意に選択できる。実際には、個々のシステムに要求される精度や処理能力に応じて、ルールベースを適用し、音素列pvを含む認識単語辞書部130を作成すれば良い。なお、図4においては、3種類の音素列pvが示されているが、音素列pvとして登録される音素列の種類は図に示す3種類に限定されないことは言うまでもない。
認識グラフ作成部140は、言語モデルと認識単語辞書部130の対応情報とを合成して、音声認識処理に用いられる認識グラフを作成する。認識グラフとは、言語モデルを音素レベルで記述したものであり、言語モデルに、この言語モデルに含まれる単語に関する認識単語辞書部130の対応情報を適用して作成される。認識グラフの作成手法は、既存の手法を用いて良い。すなわち、作成される認識グラフのデータ構造自体は、既存の音声認識技術において作成される認識グラフと同様である。ただし、本実施形態では、予め定められた条件に基づき、一定以上の単語数から構成される単語列に含まれる単語、より詳しくは、一定以上の次数nによるn−gramで予測される表現における単語に対して、音素列pnと発音変動を表現した音素列pvとを適用して認識グラフを作成する。そして、その他の単語に対しては、音素列pnのみを適用して認識グラフを作成する。
図5は、図3に示した言語モデルに基づいて、認識グラフを作成する様子を示す図である。
図5に示す例では、3−gramで予測される単語に対してのみ発音変動を許すものとする。すなわち、言語モデルの各ノードが単語履歴を表すことを利用して、2個の単語履歴を持つノードからのアークについてのみ、認識単語辞書部130のpn:wとpv:wの両方の変換を行う。そして、その他のアークについては、pn:wの変換のみを行う。また、図5において、単語wi(i=1、2、3)の表記通りの音素列をpinと表記し、発音変動を表現した音素列をpivと表記している。
したがって、図5の認識グラフを参照すると、左端のノードと2番目のノードの間にはp1n:w1というアークが張られ、2番目のノードと3番目のノードの間にはp2n:w2というアークが張られている。そして、3番目のノードと右端のノードとの間には、p3n:w3というアークとp3v:w3というアークの2本のアークが張られている。この認識グラフを用いることより、1−gramで予測される単語では、音素列p1nからのみ単語w1が認識され、2−gramで予測される単語では、音素列p2nからのみ単語w2が認識され、3−gramで予測される単語では、音素列p3nとp3vのどちらからも単語w3が認識されることとなる。
認識グラフ格納部150は、上記のようにして認識グラフ作成部140により作成された認識グラフを格納する。音声認識装置200が音声認識を行う際には、この認識グラフが利用される。これにより、一定以上の次数nによるn−gramで予測される表現における単語に関しては、発音変動が考慮された音声認識が行われることとなる。上記のように、認識グラフのデータ構成自体は、既存の認識グラフと同様なので、音声認識装置200は、既存の装置をそのまま用いることができる。
<音声認識システムの動作>
図6は、前処理装置100の動作を示すフローチャートである。
図6に示すように、前処理装置100の言語モデル推定部110が学習用コーパスから音声データを取得し(ステップ601)、言語モデルを推定する(ステップ602)。そして、認識グラフ作成部140が、言語モデル推定部110により推定された言語モデルを言語モデル格納部120から取得し(ステップ603)、認識単語辞書部130を参照して認識グラフ作成処理を行う(ステップ604)。認識グラフ作成処理により作成された認識グラフは、認識グラフ格納部150に格納される(ステップ605)。
以上のようにして、前処理装置100により認識グラフが用意される。この後、音声認識装置200により音声認識処理が行われる際には、認識グラフ格納部150に格納されている認識グラフが用いられる。
図7は、図6のステップ604に示す認識グラフ作成処理の詳細を示すフローチャートである。
図7に示すように、認識グラフ作成部140は、言語モデルに含まれる個々の単語に順次着目し、単語履歴(WFSTにおけるノードに記録された情報)に基づいて、着目した単語(以下、対象単語)に先行する単語(先行単語)を調べる(ステップ701)。そして、対象単語が予め定めた次数nによるn−gramで予測された単語か否かを判断する(ステップ702)。図7に示す例では、n=3としている。したがって、認識グラフ作成部140は、認識グラフを作成するため、1gramまたは2gramで予測された対象単語については(ステップ702でNo)、単語の表記通りの音素列pnを適用する(ステップ703)。一方、3gramで予測された対象単語については(ステップ702でYes)、単語の表記通りの音素列pnおよび発音変動を表現した音素列pvを適用する(ステップ704)。以上の処理を言語モデルに含まれる各単語に対して実行し、未処理の単語がなくなったならば、作成した認識グラフを認識グラフ格納部150に格納して処理を終了する(ステップ705)。
以上、本実施形態では、予め定めた規則にしたがって、一定以上の高次のn−gram(上記の例では、3gram)で予測される単語に対して、発音変動を考慮して認識グラフを作成することにより、発音変動を考慮する対象を制限している。実際のシステムにおいて、何gram以上で予測される単語に対して発音変動を考慮するかは、個々のシステム要求される精度や処理能力に応じて、適宜設定すれば良い。また、発音変動を表現した音素列pvを適用する条件として、さらに追加条件を与えることもできる。追加条件としては、例えば、
・音素列pvを作成するために用いられた学習用コーパスでの出現頻度に応じてn−gramの次数nを決定する、
・対象単語の直前に無音区間が許容されない場合にのみ適用する、
等が考えられる。
図8は、認識グラフ作成処理の他の例を示すフローチャートである。
図8に示す処理では、発音変動を表現した音素列pvを適用するための条件として、学習用コーパスでの出現頻度を追加している。具体的には、認識グラフ作成部140は、まず、言語モデルに含まれる個々の単語に順次着目し、単語履歴に基づいて、着目した対象単語の先行単語を調べる(ステップ801)。次に、対象単語と先行単語とからなる単語列の学習用コーパスにおける出現頻度を調べる(ステップ802)。出現頻度が予め定めた閾値s未満である場合(ステップ803でYes)、認識グラフ作成部140は、発音変動を表現した音素列pvを適用するn−gramの次数nをn=3とする。すなわち、1gramまたは2gramで予測された単語について音素列pnを適用し、3gramで予測された単語について音素列pnおよび音素列pvを適用して認識グラフを作成する(ステップ804、805、806)。
一方、出現頻度が予め定めた閾値s以上である場合(ステップ803でNo)、認識グラフ作成部140は、発音変動を表現した音素列pvを適用するn−gramの次数nをn=2とする。すなわち、1gramで予測された単語について音素列pnを適用し、2gramおよび3gramで予測された単語について音素列pnおよび音素列pvを適用して認識グラフを作成する(ステップ807、808、809)。このように、対象単語を含む単語列の学習用コーパスにおける出現頻度に応じて音素列pvを適用するn−gramの次数nを変更するのは、出現頻度の大きい単語列は発話において多用される言い回しであり、より発音変動を生じやすいという考えに基づく。
認識グラフ作成部140は、以上の処理を言語モデルに含まれる各単語に対して実行し、未処理の単語がなくなったならば、作成した認識グラフを認識グラフ格納部150に格納して処理を終了する(ステップ810)。
図9は、認識グラフ作成処理のさらに他の例を示すフローチャートである。
図9に示す処理では、発音変動を表現した音素列pvを適用するための条件として、無音区間の有無を追加している。具体的には、認識グラフ作成部140は、まず、言語モデルに含まれる個々の単語に順次着目し、単語履歴に基づいて、着目した対象単語の先行単語を調べる(ステップ901)。そして、対象単語が3gramで予測された単語か否かを判断し(ステップ902)、1gramまたは2gramで予測された単語について(ステップ902でNo)、単語の表記通りの音素列pnを適用して認識グラフを作成する(ステップ903)。
一方、3gramで予測された単語について(ステップ902でYes)、認識グラフ作成部140は、対象単語の直前に無音区間の存在が許容されるか調べる。そして、無音区間の存在が許容されないならば(ステップ904でNo)、単語の表記通りの音素列pnおよび発音変動を表現した音素列pvを適用して認識グラフを作成する(ステップ905)。これに対し、無音区間の存在が許容されるならば(ステップ904でYes)、単語の表記通りの音素列pnを適用して認識グラフを作成する(ステップ906)。このように、発音変動を表現した音素列pvの適用条件として発話に無音区間が存在するか否かを判断するのは、無音区間は発話の切れ目であり、その直後の単語では発音変動が生じにくいという考えに基づく。
認識グラフ作成部140は、以上の処理を言語モデルに含まれる各単語に対して実行し、未処理の単語がなくなったならば、作成した認識グラフを認識グラフ格納部150に格納して処理を終了する(ステップ907)。
<具体例>
次に、具体的な言語モデルに対する本実施形態の適用例について説明する。
図10は、学習用コーパスに含まれる単語列の例を示す。図11は、この単語列に対応する言語モデルの例、図12は、この単語列に含まれる単語に関する認識単語辞書部130に登録された対応情報の例を示す。図13は、図11の言語モデルおよび図12の対応情報等を用いて作成される認識グラフの例を示す。
なお、図10の単語列は、単語列を構成する各単語を空白で区切って示している。また、図11の言語モデル、図12の対応情報、図13の認識グラフは、何れもWFSTではなく、表形式で示している。また、この適用例では、図7に示した認識グラフ作成処理により認識グラフが作成されたものとする。
図11の言語モデルにおいて、先行単語の項目における「*」と記載された欄は、先行単語を条件付けない場合を示す。すなわち、先行2単語が共に「*」である予測単語(着目した単語)の出現確率は1gram確率を表し、先行1単語が「*」である予測単語の出現確率は2gram確率を表す。例えば、図10の3番目の単語列「お電話 ありがとう ございます」に対する言語モデルは、予測単語「お電話」が1gramで予測され、出現確率が0.003である。また、予測単語「ありがとう」が2gramで予測され、出現確率が0.2である。また、予測単語「ございます」が3gramで予測され、出現確率が0.5である。
図12に示す対応情報は、認識単語辞書部130に登録された対応情報の一部であり、「ございます」、「IBM」、「おはよう」という3単語について、音素列(図12では「発音」と記載)との対応情報が例示されている。図12の対応情報を参照すると、単語「ございます」、単語「IBM」、単語「おはよう」に、それぞれ3種類の音素列pvが登録されている。なお、図12には例示として、上記の3語についてのみ対応情報が記載されているが、実際には、認識単語辞書部130の各単語に関して同様の対応情報(音素列pvに対する対応情報を含む)が登録されている。
図13の認識グラフには、図11の言語モデルに認識単語辞書部130から取得された音素列(発音)が付加されている。単語列「お電話 ありがとう ございます」に対する認識グラフを参照すると、1gramで予測された「お電話」および2gramで予測された「ありがとう」については、表記通りの音素列pnのみが付加されている。一方、3gramで予測された「ございます」では、音素列pnである「gozaimasu」と共に、発音変動を表現した3種類の音素列pvが付加されている。したがって、音声認識装置200による認識処理においては、単語列「お電話 ありがとう ございます」に対応する音声データにおいて、単語「ございます」に対応する部分の発音が変動していた場合(例えば「ozaimasu」)でも、正しく「ございます」と認識することができる。
以上、本実施形態について説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。例えば、上記実施形態では、認識単語辞書部130に発音変動を表現した音素列pvを登録するために、その音素列pvが発生する確率p(pv|w)を考慮していないが、この確率を考慮して登録するか否かを制御しても良い。また、本実施形態は、上記のように処理対象の音声データに対する音声認識において利用される他、音響モデルの学習においても利用可能である。音響モデル構築時には、音声データ、単語レベルでの書き起こしデータ、および単語と音素列の対応を利用して、音声データに対して音素レベルでのアライメントを行う。ここで、単語レベルでの書き起こしデータに対して、本実施形態を適用することにより、高次の単語n−gramで予測できるコンテキストで出現する単語を選択することができる。アライメント実行時に、高次の単語n−gramで予測できるコンテキストで出現する単語については、表記通りの音素列pnと発音変動を表現した音素列pvの両方を利用し、それ以外の単語については、音素列pnのみを利用することにより、より正確な音素アライメントを得ることができる。この結果として、より精緻な音響モデルの構築が期待できる。その他、上記実施形態に、種々の変更または改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。
本実施形態による音声認識システムの構成例を示す図である。 図1の音声認識システムを実現するコンピュータのハードウェア構成例を示す図である。 WFSTを用いた言語モデルのデータ構成例を示す図である。 本実施形態の認識単語辞書部に保持される単語と音素列の対応情報の例を示す図である。 図3に示した言語モデルに基づいて、本実施形態により認識グラフを作成する様子を示す図である。 本実施形態の音声認識システムの動作を示すフローチャートである。 図6のステップ604に示す認識グラフ作成処理の詳細を示すフローチャートである。 図6のステップ604に示す認識グラフ作成処理の他の例を示すフローチャートである。 図6のステップ604に示す認識グラフ作成処理のさらに他の例を示すフローチャートである。 学習用コーパスに含まれる単語列の例を示す図である。 図10の単語列に対応する言語モデルの例を示す図である。 図10の単語列に含まれる単語に関する認識単語辞書部に登録された対応情報の例を示す図である。 図11の言語モデルおよび図12の対応情報等を用いて作成される認識グラフの例を示す図である。
符号の説明
10a…CPU、10c…メイン・メモリ、10g…磁気ディスク装置、100…前処理装置、110…言語モデル推定部、120…言語モデル格納部、130…認識単語辞書部、140…認識グラフ作成部、150…認識グラフ格納部、200…音声認識装置、300…学習用コーパス

Claims (10)

  1. 音声認識処理に用いられる認識グラフを作成するシステムであって、
    言語モデルを推定する推定部と、
    単語と当該単語の表記通りの音素列および発音変動を表現した音素列の情報との対応情報を保持する辞書部と、
    前記推定部により推定された前記言語モデルと当該言語モデルに含まれる単語に関する前記辞書部に保持された前記対応情報とに基づいて、認識グラフを作成する認識グラフ作成部とを備え、
    前記認識グラフ作成部は、前記対応情報に基づき、前記言語モデルに含まれる単語の前記表記通りの音素列を適用して前記認識グラフを作成し、当該言語モデルが2以上の予め定められた個数以上の単語数で構成される単語列に対するモデルである場合、当該単語列に含まれる単語に関して、当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、システム。
  2. 前記認識グラフ作成部は、前記言語モデルを対象としてn−gramで予測される単語に対し、当該n−gramの次数nが2以上の予め定められた次数よりも小さい場合は前記対応情報に基づき前記表記通りの音素列を適用し、当該n−gramの次数nが当該予め定められた次数以上の場合は当該対応情報に基づき当該表記通りの音素列および前記発音変動を表現した音素列を適用して、前記認識グラフを作成する、請求項1に記載のシステム。
  3. 前記認識グラフ作成部は、前記言語モデルを対象としてn−gramで予測される単語に対し、前記対応情報に基づき前記表記通りの音素列を適用して前記認識グラフを作成し、当該単語が、2以上の予め定められた次数以上の次数nによるn−gramで予測される単語であって、かつ、当該言語モデルを推定するために参照されるコーパスでの出現頻度が一定以上の単語列に含まれる単語である場合は、当該対応情報に基づき当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、請求項1に記載のシステム。
  4. 前記認識グラフ作成部は、前記言語モデルを対象としてn−gramで予測される単語に対し、前記対応情報に基づき前記表記通りの音素列を適用して前記認識グラフを作成し、当該単語が、2以上の予め定められた次数以上の次数nによるn−gramで予測される単語であって、かつ、当該単語の直前に無音区間が許容されない場合は、当該対応情報に基づき当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、請求項1に記載のシステム。
  5. 音声認識処理に用いられる認識グラフを作成するシステムであって、
    言語モデルを推定する推定部と、
    単語と当該単語の表記通りの音素列および発音変動を表現した音素列の情報との対応情報を保持する辞書部と、
    前記推定部により推定された前記言語モデルと当該言語モデルに含まれる単語に関する前記辞書部に保持された前記対応情報とに基づいて、認識グラフを作成する認識グラフ作成部とを備え、
    前記認識グラフ作成部は、前記言語モデルを対象としてn−gramで予測される単語に対し、前記対応情報に基づき前記表記通りの音素列を適用して前記認識グラフを作成し、当該単語が、2以上の予め定められた次数以上の次数nによるn−gramで予測される単語である場合は、当該対応情報に基づき当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、システム。
  6. 音声データを取得して音声認識処理を行うシステムであって、
    音声認識処理に用いられる認識グラフを作成する前処理装置と、
    前記前処理装置により作成された前記認識グラフを用いて音声認識処理を行う音声認識装置とを備え、
    前記前処理装置は、
    言語モデルを推定する推定部と、
    単語と当該単語の表記通りの音素列および発音変動を表現した音素列の情報との対応情報を保持する辞書部と、
    前記推定部により推定された前記言語モデルと当該言語モデルに含まれる単語に関する前記辞書部に保持された前記対応情報とに基づいて、認識グラフを作成する認識グラフ作成部とを備え、
    前記認識グラフ作成部は、前記言語モデルを対象としてn−gramで予測される単語に対し、前記対応情報に基づき前記表記通りの音素列を適用して前記認識グラフを作成し、当該単語が、2以上の予め定められた次数以上の次数nによるn−gramで予測される単語である場合は、当該対応情報に基づき当該表記通りの音素列に加えて前記発音変動を表現した音素列を適用して前記認識グラフを作成する、システム。
  7. コンピュータが音声認識処理に用いられる認識グラフを作成する方法であって、
    学習用コーパスに基づき言語モデルを推定するステップと、
    推定された前記言語モデルに含まれる単語に対して、当該単語と当該単語の表記通りの音素列を適用し、かつ当該言語モデルに含まれる単語のうち2以上の予め定められた個数以上の単語数で構成される単語列に含まれる単語に対して、当該表記通りの音素列に加えて当該単語に関する発音変動を表現した音素列を適用して、認識グラフを作成するステップと、
    作成された前記認識グラフを、音声認識装置がアクセス可能な記憶装置に格納するステップと、
    を含む、方法。
  8. 前記認識グラフを作成するステップでは、前記言語モデルを対象としてn−gramで予測される単語に対し、当該n−gramの次数nが2以上の予め定められた次数よりも小さい場合は前記表記通りの音素列を適用し、当該n−gramの次数nが当該予め定められた次数以上の場合は当該表記通りの音素列および前記発音変動を表現した音素列を適用して、前記認識グラフを作成する、請求項7に記載の方法。
  9. コンピュータに、
    学習用コーパスに基づき言語モデルを推定する処理と、
    推定された前記言語モデルに含まれる単語に対して、当該単語と当該単語の表記通りの音素列を適用し、かつ当該言語モデルに含まれる単語のうち2以上の予め定められた個数以上の単語数で構成される単語列に含まれる単語に対して、当該表記通りの音素列に加えて当該単語に関する発音変動を表現した音素列を適用して、認識グラフを作成する処理と、
    作成された前記認識グラフを、音声認識装置がアクセス可能な記憶装置に格納する処理と、を実行させる、プログラム。
  10. 前記認識グラフを作成する処理では、前記言語モデルを対象としてn−gramで予測される単語に対し、当該n−gramの次数nが2以上の予め定められた次数よりも小さい場合は前記表記通りの音素列を適用し、当該n−gramの次数nが当該予め定められた次数以上の場合は当該表記通りの音素列および前記発音変動を表現した音素列を適用して、前記認識グラフを前記コンピュータに作成させる、請求項9に記載のプログラム。
JP2008318403A 2008-12-15 2008-12-15 音声認識システムおよび方法 Expired - Fee Related JP4808764B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008318403A JP4808764B2 (ja) 2008-12-15 2008-12-15 音声認識システムおよび方法
KR1020090077752A KR20100069555A (ko) 2008-12-15 2009-08-21 음성 인식 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008318403A JP4808764B2 (ja) 2008-12-15 2008-12-15 音声認識システムおよび方法

Publications (2)

Publication Number Publication Date
JP2010139963A JP2010139963A (ja) 2010-06-24
JP4808764B2 true JP4808764B2 (ja) 2011-11-02

Family

ID=42350134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008318403A Expired - Fee Related JP4808764B2 (ja) 2008-12-15 2008-12-15 音声認識システムおよび方法

Country Status (2)

Country Link
JP (1) JP4808764B2 (ja)
KR (1) KR20100069555A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101738641B1 (ko) 2010-12-17 2017-05-23 삼성전자주식회사 멀티 코어 시스템의 프로그램 컴파일 장치 및 방법
CN105869637B (zh) * 2016-05-26 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
JP2018013590A (ja) 2016-07-20 2018-01-25 株式会社東芝 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JP5180800B2 (ja) * 2008-12-11 2013-04-10 独立行政法人情報通信研究機構 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2010139963A (ja) 2010-06-24
KR20100069555A (ko) 2010-06-24

Similar Documents

Publication Publication Date Title
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
AU2010346493B2 (en) Speech correction for typed input
JP4818683B2 (ja) 言語モデルを作成する方法
US20020156627A1 (en) Speech recognition apparatus and computer system therefor, speech recognition method and program and recording medium therefor
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
US20220122622A1 (en) Cascaded Encoders for Simplified Streaming and Non-Streaming ASR
JP7351018B2 (ja) エンド・ツー・エンド音声認識における固有名詞認識
US11715458B2 (en) Efficient streaming non-recurrent on-device end-to-end model
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
US12014729B2 (en) Mixture model attention for flexible streaming and non-streaming automatic speech recognition
JP2024512579A (ja) ルックアップテーブルリカレント言語モデル
JP4808764B2 (ja) 音声認識システムおよび方法
CN113160820A (zh) 语音识别的方法、语音识别模型的训练方法、装置及设备
US20220310097A1 (en) Reducing Streaming ASR Model Delay With Self Alignment
US20220310071A1 (en) Tied and Reduced RNN-T
US20220310061A1 (en) Regularizing Word Segmentation
JP3969079B2 (ja) 音声認識装置および方法、記録媒体、並びにプログラム
JP4981076B2 (ja) 発音辞書修正装置、音声認識装置、およびコンピュータプログラム
WO2024086265A1 (en) Context-aware end-to-end asr fusion of context, acoustic and text representations
CN118176537A (zh) 用于长形式语音识别的训练
KR20240068723A (ko) Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합
JP2024512071A (ja) 自動音声認識のための多言語再スコアリングモデル
KR20220059759A (ko) 종단형 음성 인식 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110817

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees