JP3841342B2 - 音声認識装置および音声認識プログラム - Google Patents

音声認識装置および音声認識プログラム Download PDF

Info

Publication number
JP3841342B2
JP3841342B2 JP2002071638A JP2002071638A JP3841342B2 JP 3841342 B2 JP3841342 B2 JP 3841342B2 JP 2002071638 A JP2002071638 A JP 2002071638A JP 2002071638 A JP2002071638 A JP 2002071638A JP 3841342 B2 JP3841342 B2 JP 3841342B2
Authority
JP
Japan
Prior art keywords
speaker
speech
voice
recognition
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002071638A
Other languages
English (en)
Other versions
JP2003271179A (ja
Inventor
寛之 世木
庄衛 佐藤
和穂 尾上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2002071638A priority Critical patent/JP3841342B2/ja
Publication of JP2003271179A publication Critical patent/JP2003271179A/ja
Application granted granted Critical
Publication of JP3841342B2 publication Critical patent/JP3841342B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識の対象となる音声を発する話者に適応させて音声認識する音声認識装置および音声認識プログラムに関する。
【0002】
【従来の技術】
従来、音声を発する話者の口調(話し方の癖)、よく使用する語彙等に適応させて音声認識する、いわゆる話者適応化による音声認識を行う方法として、例えば、次に記すようなものがある。
【0003】
MAP推定法を利用する方法(「音声言語処理」、北研二 他、65−68)であり、この方法は音声認識の話者適応を行う際にMAP推定法(最大事後確率推定法)を適用するものである。この方法では、不特定話者の音響モデルのパラメータを適応化したい話者(特定話者)の発声(発声データ)で推定したパラメータに近づける方法である。この方法を使用することにより、不特定話者の音響モデルを特定話者の音響モデルに適応化することができる。
【0004】
【発明が解決しようとする課題】
しかしながら、従来の「MAP推定法を利用する方法」では、適応化したい話者(特定話者)毎に特定話者の音響モデルを準備する必要があり、特定話者が複数の場合に、特定話者数の増加に伴って、不特定話者の音響モデルから適応化する特定話者の音響モデルの数が増加する。このため、この特定話者の音響モデルを記憶させるハードディスク等の記憶媒体の容量を大量に確保しなければならないという問題がある。
【0005】
また、この特定話者毎の発声データを使用する場合には、予め、特定話者が誰であるのか特定話者を判別しなければならず、話者の判別を間違う可能性があり、その結果、音声認識率が低下するという問題がある。
【0006】
そこで、本発明の目的は前記した従来の技術が有する課題を解消し、特定話者の音響モデル等を記憶させる大容量の記憶媒体を必要とすることなく、特定話者毎の発声データを使用する際に特定話者を判別することなく話者適応化による音声認識を行うことができる音声認識装置および音声認識プログラムを提供することにある。
【0007】
【課題を解決するための手段】
本発明は、前記した目的を達成するため、以下に示す構成とした。
請求項1に記載の音声認識装置は、音声認識の対象となる音声信号の各音素の各状態が複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する音声認識装置であって、適応化したい話者が発した音声を予め音声認識した際の当該音声の音声データまたは音声特徴量において、出力確率が高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段と、前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段と、を備えることを特徴とする。
【0012】
かかる構成によれば、音声認識装置は、統計分布特定手段によって、適応化したい話者が発した音声予め音声認識結果した際の当該音声の音声データまたは音声特徴量において、出力確率が高かった正規分布を、音響モデルの複数の正規分布の中から特定する。この場合、話者が発する音声は話者の意志により、自由に発声されたものである。そして、音声認識装置は、音声認識手段によって、特定された正規分布に基づいて認識対象音声認識する
【0013】
請求項2に記載の音声認識装置は、音声認識の対象となる音声信号の各音素の各状態が複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する音声認識装置であって、予め、内容が既知である発声内容とこの発声内容を適応化したい話者が発した音声とを対応付けた際の音素列若しくは単語列を成す各音素の音響的特徴パターンにおいて、出力確率の高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段と、前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段と、を備えることを特徴とする。
【0014】
かかる構成によれば、音声認識装置は、統計分布特定手段によって、内容が既知である発声内容とこの発声内容を適応化したい話者が発した音声とを対応付けた際の音素列若しくは単語列を成す各音素の音響的特徴パターンにおいて、出力確率の高かった正規分布を、音響モデルの複数の正規分布の中から特定する。そして、音声認識装置は、音声認識手段によって、特定された正規分布に基づいて認識対象音声認識する
【0015】
請求項3に記載の音声認識プログラムは、音声認識の対象となる音声信号の各音素の各状態が複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、適応化したい話者が発した音声を予め音声認識した際の当該音声の音声データまたは音声特徴量において、出力確率が高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段、前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段、である。
【0016】
かかる構成によれば、音声認識プログラムは、統計分布特定手段によって、適応化したい話者が発した音声を予め音声認識した際の当該音声の音声データまたは音声特徴量において、出力確率が高かった正規分布を、音響モデルの複数の正規分布の中から特定する。この場合、話者が発する音声は話者の意志により、自由に発声されたものである。そして、音声認識プログラムは、音声認識手段によって、特定された正規分布に基づいて認識対象音声認識する
【0017】
請求項4に記載の音声認識プログラムは、音声認識の対象となる音声信号の各音素の各要素が複数の統計分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、予め、内容が既知である発声内容とこの発声内容を適応化したい話者が発した音声とを対応付けた際の音素列若しくは単語列を成す各音素の音響的特徴パターンにおいて、出力確率の高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段、前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段、である。
【0018】
かかる構成によれば、音声認識プログラムは、統計分布特定手段によって、内容が既知である発声内容とこの発声内容を適応化したい話者が発した音声とを対応付けた際の音素列若しくは単語列を成す各音素の音響的特徴パターンにおいて、出力確率の高かった正規分布を、音響モデルの複数の正規分布の中から特する。そして、音声認識プログラムは、音声認識手段によって、特定された正規分布に基づいて認識対象音声認識する
【0019】
【発明の実施の形態】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
この実施の形態の説明では、まず音声認識装置の構成を説明し、ついでこの音声認識装置の動作を説明する。そして、音声認識時の波形データと音響スコアとに関して補足的に説明する。
【0020】
(音声認識装置の構成)
図1は音声認識装置のブロック図である。この図1に示すように、音声認識装置1は、主制御部3と、記憶部5と、テキスト入力部7と、音声入力部9と、表示出力部11とを備えている。
音声認識装置1は、予め、話者が発した音声の音声認識結果に基づいて、音響モデルの正規分布の中から、出力確率の値が高かった正規分布のインデックスを記録しておき、その後、記録しておいた正規分布のインデックスを利用して当該話者が発した音声を認識するものである。なお、この実施の形態では、音声認識装置1は一般的なパーソナルコンピュータによって構成されている。
【0021】
主制御部3は、CPU、メインメモリ等から構成され、音声認識装置1の制御を司るもので、話者適応化手段3aと、音声認識手段3bと、単語列出力手段3cとを備えている。
話者適応化手段3aは、音声入力部9から入力される生の音声データ(発声データ)または生の音声データから抽出された音声特徴量に基づいて、記憶部5に記憶されている音響モデルデータ5a、言語モデルデータ5bおよび発音辞書5cを使用して音声認識を行い、利用音響モデル正規分布インデックス5a1を生成するものである。
【0022】
つまり、この話者適応化手段3aでは、音声認識対象となる音声を発する話者(適応化したい話者)に応じた音響モデルの正規分布インデックスが生成され、この利用音響モデル正規分布インデックス5a1は、入力された生の音声データまたは音声特徴量において出力確率が高かった正規分布を記録したものである。
【0023】
また、この話者適応化手段3aは、発声内容が既知の場合(例えば、予めテキストデータ化されている場合)には、この発声内容と、音声入力部9から入力される生の音声データ(発声データ)または生の音声データから抽出された音声特徴量とを対応付けした対応結果に基づいて、出力確率が高いものについて、利用音響モデル正規分布インデックス5a1を生成するものである。なお、この話者適応化手段3aが請求項に記載した統計分布特定手段に相当するものである。
【0024】
音声認識手段3bは、話者適応化手段3aで生成された利用音響モデル正規分布インデックス5a1を利用して、音声入力部9から入力された音声認識する対象となる認識対象音声の音響スコア、言語スコア(言語モデルデータ5bを利用)を算出するものである。なお、音響スコアとは、音声入力部9から入力された認識対象音声の波形パターンの比較結果に基づいた隠れマルコフモデルにおける音響モデルから計算された数値である。言語スコアとは、単語間のつながりを算出した言語モデルの数値である。これら音響スコアおよび言語スコアのより高いものが音声認識結果となる。
【0025】
単語列出力手段3cは、音声認識手段3bで算出された音響モデルのスコアおよび言語モデルのスコアに基づいて、音声認識結果である出力単語列を送出するものである。
記憶部5は、大容量のハードディスク等によって構成され、音響モデルデータ5aと、言語モデルデータ5bと、発音辞書5cと、適応化音声データ5dと、認識音声データ5eと、テキストデータ5fとを記憶するものである。
【0026】
音響モデルデータ5aは、複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルのデータを集めたものである。言語モデルデータ5bはn−gramで表されるような統計分布である。発音辞書5cは単語に対して、この単語の読みが記されているものである。適応化音声データ5dは、音声入力部9から入力された適応化したい話者の発した音声データである。認識音声データ5eは、音声入力部9から入力された音声認識の対象となる音声データである。テキストデータ5fは、適応化音声データ5dから入力される音声データの発声内容が既知の場合に、テキスト入力部7から入力された当該発声内容のテキストデータである。なお、音響モデルデータ5aが請求項に記載した音響モデルに、言語モデルデータ5bが請求項に記載した言語モデルに相当するものである。
【0027】
これらのうち、適応化音声データ5d、認識音声データ5e、テキストデータ5fは、厳密には記憶部5における記憶領域を指し示すもので、適応時、つまり適応化したい話者が音声を発するまで適応化音声データ5d或いはテキストデータ5fには、何も記憶されておらず、また、認識時、つまり適応化した話者が認識対象音声を発するまでは認識音声データ5eには何も記憶されていない。ただし、リアルタイムの音声認識の場合には、認識音声データ5eの記憶領域にはデータが記憶される必要はない。
【0028】
テキスト入力部7は、キーボード、マウス等によって構成され、記憶部5の適応化音声データ5dに記憶させる音声データの発声内容が既知の場合に発声内容のテキストデータとして入力するものであり、当該音声認識装置1の操作に供されるのものである。
【0029】
音声入力部9は、スピーカ等によって構成され、適応化したい話者が発した音声(音声データ)および音声認識時に話者が発した音声を入力するものである。
表示出力部11は、ディスプレイ等によって構成され、主制御部3の単語列出力手段3cで生成される音声認識結果である出力単語列を表示するものである。
【0030】
(音声認識装置の動作)
次に、図2を参照して、音声認識装置1の動作を説明する。この音声認識装置1の動作では、話者適応時と音声認識時とを一連の動作として説明している。
まず、記憶部5のテキストデータ5fに適応化したい話者が発する音声のテキストデータが記憶されているかどうかが判断される(S1)。テキストデータが記憶されていると判断されない場合(S1、No)、この音声認識装置1における動作は、適応化したい話者の発した発声内容が不明の場合の動作に該当する(後記するS2〜S6)。また、テキストデータが記憶されていると判断された場合(S1、Yes)、適応化したい話者の発した発声内容が既知の場合の動作に該当する(後記するS7、S3〜S6)
【0031】
発声内容が不明の場合の適応時の動作として、適応化したい話者の音声(音声データ)が音声入力部9から入力され、記憶部5の適応化音声データ5dに記憶される(S2)。そして、入力された適応化したい話者の音声(音声データ)は音響モデルデータ5a、言語モデルデータ5b、発音辞書5cが利用され、音声認識される。音声認識された音声認識結果(適応時の音声認識結果)に基づいて、主制御部3の話者適応化手段3aで記憶部5に記憶されている音響モデル正規分布データ5aから利用音響モデル正規分布インデックス5a1が生成される(S3)。なお、この適応時の動作において入力された音声(音声データ)が極端に少ない場合には、認識時の動作において、音響モデルデータ5aがそのまま利用される。
【0032】
次に、認識時の動作として、適応化した話者が発した認識対象音声(認識対象音声データ)が音声入力部9から入力され、記憶部5の認識音声データ5eに記憶される(S4)。そして、主制御部3の音声認識手段3bで利用音響モデル正規分布インデックス5a1、音響モデルデータ5a、言語モデルデータ5bおよび発音辞書5cが利用され、これらに基づいて認識対象音声の音響スコアおよび言語スコアが算出される。これらの音響スコアおよび言語スコアの最も高いもの(音声認識結果となる)が単語列出力手段3cに出力される(S5)。そして、単語列出力手段3cで音声認識結果である出力単語列が表示出力部11を送出される(S6)。
【0033】
この音声認識装置1の動作によれば、話者適応化手段3aで、適応化したい話者が発した音声の適応時音声認識結果に基づいて、音響モデルデータ5aの複数の正規分布の中から出力確率の高い利用音響モデル正規分布インデックス5a1が記憶部5に記憶される。そして、音声認識手段3bで、この利用音響モデル正規分布インデックス5a1、音響モデルデータ5a、言語モデルデータ5bおよび発音辞書5cが利用されて音声入力部9から入力される認識対象音声が認識される。
【0034】
このため、適応化したい話者毎に音響モデルデータ5aの中から利用音響モデル正規分布インデックス5a1が生成されるので、適応化したい話者毎に音響モデルを用意して記憶しておく必要がなく記憶部5の記憶容量を抑えることができる。
【0035】
また、通常の適応化の際において、話者が複数である場合、話者の発声は話者毎にまとめておく必要がある。しかしながら、この音声認識装置1では、複数の話者により発声された文章をまとめて適応化データとして扱い、利用音響モデル正規分布インデックス5a1を作成でき、さらに音声認識時も話者の判定をすることなく、利用音響モデル正規分布インデックス5a1を利用して、音声認識することができる。
【0036】
さて、ここで記憶部5のテキストデータ5fに適応化した話者が発する音声のテキストデータが記憶されていると判断された場合(S1、YES)、つまり、適応化したい話者の発した発声内容が既知の場合の動作について説明する。
【0037】
適応時の動作として、適応化したい話者の発した音声データ(音声の波形データ)が音声入力部9から入力され、記憶部5の適応化音声データ5dに記憶される(S7)。そして記憶された適応化音声データ5dと発声内容(テキストデータ5f)とが話者適応化手段3aにより対応付けられた対応結果が得られる。この対応結果に基づいて、主制御部3の話者適応化手段3aで記憶部5に記憶されている音響モデルデータ5aから利用音響モデル正規分布インデックス5a1が生成される(S8)。その後、認識時の動作S4〜S6が実行される。
【0038】
この音声認識装置1の動作によれば、話者適応化手段3aで、適応化したい話者が発した音声の波形データとテキストデータ5fとを対応付けした対応結果に基づいて、音響モデルデータ5aの複数の正規分布の中から出力確率の高いものが利用音響モデル正規分布インデックス5a1として記憶部5に記憶される。そして、音声認識手段3bで、この利用音響モデル正規分布インデックス5a1、音響モデルデータ5a、言語モデルデータ5bおよび発音辞書5cが利用されて音声入力部9から入力される認識対象音声が認識される。
【0039】
このため、適応化したい話者毎に音響モデルデータ5aの中から利用音響モデル正規分布インデックス5a1が生成されるので、適応化したい話者毎に音響モデルを用意して記憶しておく必要がなく記憶部5の記憶容量を抑えることができる。
【0040】
また、通常の適応化の際において、話者が複数である場合、話者の発声は話者毎にまとめておく必要がある。しかしながら、この音声認識装置1では、複数の話者により発声された文章をまとめて適応化データとして扱い、利用音響モデル正規分布インデックス5a1を作成でき、さらに音声認識時も話者の判定をすることなく、利用音響モデル正規分布インデックス5a1を利用して、音声認識することができる。
【0041】
(音声認識時における音声波形と音素スコアの計算とに関して)
次に、図3を参照して音声認識時における音声波形と音素スコアの計算とに関して説明する(適宜、図1参照)。図3は、適応化したい話者が音声認識時に「次」(つぎ)と発した音声波形データ(音声認識時に音声入力部9から入力された音声波形データ)と、適応時に適応化された(優先順位が付された)利用音響モデル正規分布インデックス5a1との関係を示したものである。
【0042】
図3(a)は、適応時に適応化したい話者が発した音声の発声内容が不明な場合の関係を示しており、図3(b)は、適応時に適応化したい話者が発した音声の発声内容が既知の場合の関係を示している。つまり、図3(a)の場合、音声認識時に入力された音声波形データと比較されるものは、適応時に音声認識した結果(適応時音声認識結果)の音素列を成す各音素の音響的特徴パターンであり、図3(b)の場合、音声認識時に入力された音声波形データと比較されるものは、予め与えられた音素列(若しくは単語列)を成す各音素の音響的特徴パターンである。
【0043】
すなわち、適応時において、これらの音素列にどの音響的特徴パターンが使用されたかが利用音響モデル正規分布インデックス5a1(図中▲1▼▲2▼▲3▼▲4▼・・・▲8▼)に記憶されており、音声認識時において、音響的特徴パターンが音声波形データの各音素に該当するところと比較され、音声認識される。
【0044】
以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
音声認識装置1の各構成を一つずつの処理(ステップ)とみなした音声認識方法と捉えることもでき、この場合、音声認識装置1と同様の効果が得られる。また、音声認識装置1の各構成の処理を汎用的なコンピュータ言語で記述した音声認識プログラムと捉えることもでき、この場合も、音声認識装置1と同様の効果が得られる。
【0045】
請求項1、3に記載の発明によれば、統計分布特定手段で、適応化したい話者が発した音声を予め音声認識した際の当該音声の音声データまたは音声特徴量において、出力確率が高かった正規分布が、音響モデルの複数の正規分布の中から特定され、音声認識手段で、音声認識されるので、適応化したい話者毎に音響モデルを用意して記憶しておく必要がなく記憶媒体の記憶容量を抑えることができる。
【0046】
請求項2、4に記載の発明によれば、統計分布特定手段で、適応化したい話者が発した音声とテキストデータとを対応付けた際の音素列若しくは単語列を成す各音素の音響的特徴パターンにおいて、出力確率が高かった正規分布が、音響モデルの複数の正規分布の中から特定され、音声認識手段で、音声認識されるので、適応化したい話者毎に音響モデルを用意して記憶しておく必要がなく記憶媒体の記憶容量を抑えることができる。
【図面の簡単な説明】
【図1】本発明による一実施の形態を示す音声認識装置のブロック図である。
【図2】図1に示した音声認識装置の動作である。
【図3】音声認識時における音声波形と音素スコアの計算とを説明した説明図である。
【符号の説明】
1 音声認識装置
3 主制御部
3a 話者適応化手段(統計分布特定手段)
3b 音声認識手段
3c 単語列出力手段
5 記憶部
5a 音響モデルデータ
5b 言語モデルデータ
5c 発音辞書
7 テキスト入力部
9 音声入力部
11 表示出力部

Claims (4)

  1. 音声認識の対象となる音声信号の各音素の各状態が複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する音声認識装置であって、
    適応化したい話者が発した音声を予め音声認識した際の当該音声の音声データまたは音声特徴量において、出力確率が高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段と、
    前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段と、
    を備えることを特徴とする音声認識装置。
  2. 音声認識の対象となる音声信号の各音素の各状態が複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する音声認識装置であって、
    予め、内容が既知である発声内容とこの発声内容を適応化したい話者が発した音声とを対応付けた際の音素列若しくは単語列を成す各音素の音響的特徴パターンにおいて、出力確率の高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段と、
    前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段と、
    を備えることを特徴とする音声認識装置。
  3. 音声認識の対象となる音声信号の各音素の各状態が複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する装置を、
    適応化したい話者が発した音声を予め音声認識した際の当該音声の音声データまたは音声特徴量において、出力確率が高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段、
    前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段、
    として機能させることを特徴とする音声認識プログラム。
  4. 音声認識の対象となる音声信号の各音素の各状態が複数の正規分布で構成される不特定の話者の隠れマルコフモデルにおける音響モデルと、各単語間の関係が確率で表現されている言語モデルと、単語と音素との関係を示す単語の発音辞書とを使用する装置を、
    予め、内容が既知である発声内容とこの発声内容を適応化したい話者が発した音声とを対応付けた際の音素列若しくは単語列を成す各音素の音響的特徴パターンにおいて、出力確率の高かった正規分布を、前記音響モデルの複数の正規分布の中から特定する統計分布特定手段、
    前記話者が発声する場合、前記統計分布特定手段で特定された正規分布に基づいて、認識対象となる認識対象音声を認識する音声認識手段、
    として機能させることを特徴とする音声認識プログラム。
JP2002071638A 2002-03-15 2002-03-15 音声認識装置および音声認識プログラム Expired - Fee Related JP3841342B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002071638A JP3841342B2 (ja) 2002-03-15 2002-03-15 音声認識装置および音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002071638A JP3841342B2 (ja) 2002-03-15 2002-03-15 音声認識装置および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2003271179A JP2003271179A (ja) 2003-09-25
JP3841342B2 true JP3841342B2 (ja) 2006-11-01

Family

ID=29201861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002071638A Expired - Fee Related JP3841342B2 (ja) 2002-03-15 2002-03-15 音声認識装置および音声認識プログラム

Country Status (1)

Country Link
JP (1) JP3841342B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101587866B1 (ko) 2009-06-03 2016-01-25 삼성전자주식회사 음성 인식용 발음사전 확장 장치 및 방법

Also Published As

Publication number Publication date
JP2003271179A (ja) 2003-09-25

Similar Documents

Publication Publication Date Title
CN106463113B (zh) 在语音辨识中预测发音
US10157610B2 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
US8019602B2 (en) Automatic speech recognition learning using user corrections
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US20160086599A1 (en) Speech Recognition Model Construction Method, Speech Recognition Method, Computer System, Speech Recognition Apparatus, Program, and Recording Medium
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JPH1097276A (ja) 音声認識方法及び装置並びに記憶媒体
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
JP2015520410A (ja) 音声認識に対する負例(アンチワード)に基づく性能改善
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
US7133827B1 (en) Training speech recognition word models from word samples synthesized by Monte Carlo techniques
JP5376341B2 (ja) モデル適応装置、その方法及びそのプログラム
US20040006469A1 (en) Apparatus and method for updating lexicon
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
Wester et al. A comparison of data-derived and knowledge-based modeling of pronunciation variation
JP3444108B2 (ja) 音声認識装置
JPH11184491A (ja) 音声認識装置
JP2974621B2 (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP2004139033A (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP3841342B2 (ja) 音声認識装置および音声認識プログラム
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040409

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060804

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100818

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110818

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees