JPH117292A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH117292A
JPH117292A JP9158804A JP15880497A JPH117292A JP H117292 A JPH117292 A JP H117292A JP 9158804 A JP9158804 A JP 9158804A JP 15880497 A JP15880497 A JP 15880497A JP H117292 A JPH117292 A JP H117292A
Authority
JP
Japan
Prior art keywords
model
additional word
speech
word
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9158804A
Other languages
English (en)
Other versions
JP3039634B2 (ja
Inventor
優 ▲高▼野
Masaru Takano
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9158804A priority Critical patent/JP3039634B2/ja
Publication of JPH117292A publication Critical patent/JPH117292A/ja
Application granted granted Critical
Publication of JP3039634B2 publication Critical patent/JP3039634B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 種々の付加語のある発声に対応し、認識率の
高い音声認識装置を提供する。 【解決手段】 認識対象となる連続文法の前後に付加語
を認識するモデルを接続したモデルを用いて認識する。
付加語を認識するモデルは、事前に想定した付加語を受
理するモデル、任意の連続音節を受理するモデル、背景
雑音及び任意の音声を受理するモデルの3者の組合せに
より生成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、単語を認識し、付
加語に対応できる音声認識装置に関するものである。
【0002】
【従来の技術】不特定話者の利用を考慮した音声認識装
置を提供しようとする場合、付加語の問題が生じる。例
えば、「東京駅」という発声が求められている局面で
「えーと、東京駅まで」というような付加語のある入力
が与えられるような問題である。音声認識装置に不慣れ
な話者の存在が想定される限り、このような付加語の問
題は常につきまとう。
【0003】従来、付加語に対応できる単語認識法とし
てOne Pass DP等の連続単語認識により、認
識対象語の前後に付加語を吸収するガーベージモデルを
付加する方法が行なわれ、一定の成果を上げている。
【0004】
【発明が解決しようとする課題】しかしながら、この方
法は連続認識を利用するため大きい計算量を必要とす
る。
【0005】また、性能的にも誤認識が多いという点で
まだ不十分である。
【0006】それ故に本発明の課題は、付加語のある発
声に対しても高い認識性能を有し、かつ計算量の小さ
い、あるいはより高性能な音声認識装置を提供すること
にある。
【0007】
【課題を解決するための手段】本発明は、入力音声と標
準パタンのパタンマッチングを行ない単語系列を出力す
る連続単語音声認識装置を元にした付加語のある入力音
声を認識する装置である。
【0008】本発明の一態様によれば、入力された音声
の一定時間(以下、フレームという)ごとの特徴量を抽
出する音声分析部と、認識対象となる単語または単語列
の前または後または前後に付加語モデルを接続した標準
パタンと、前記標準パタンと前記特徴量とのパタンマッ
チングを前記フレームごとに行ない、前記単語または単
語列中で最適な単語系列(以下、最適列という)を選択
し、その尤度を算出する尤度計算部と、前記最適列と前
記尤度より最適認識結果を決定し出力する出力部とを備
え、前記付加語モデルが背景雑音と任意音声の両者を受
理するモデルであることを特徴とする音声認識装置が得
られる。
【0009】また本発明の他の態様によれば、入力され
た音声の一定時間(以下、フレームという)ごとの特徴
量を抽出する音声分析部と、認識対象となる単語または
単語列の前または後または前後に付加語モデルを接続し
た標準パタンと、前記標準パタンと前記特徴量とのパタ
ンマッチングを前記フレームごとに行ない、前記単語ま
たは単語列中で最適な単語系列(以下、最適列という)
を選択し、その尤度を算出する尤度計算部と、前記最適
列と前記尤度より最適認識結果を決定し出力する出力部
とを備え、前記付加語モデルの尤度に一定値のペナルテ
ィを課すことを特徴とする音声認識装置が得られる。
【0010】
【発明の実施の形態】
(発明の実施の第1の形態)図1を参照して、本発明の
実施の第1の形態による音声認識装置の構成を説明す
る。
【0011】第1の形態による音声認識装置は入力音声
より一定時間(以後、フレームという)ごとの特徴量を
抽出する音声分析部101と、入力として想定している
候補文法を記憶している文法辞書102と、文法辞書中
の候補文法より標準パタンを生成するモデル生成部10
3と、各フレームにおいて前記標準パタンに当てはまる
最適な単語系列(以後、最適列とする)及びその尤度を
求める尤度計算部104と、入力音声のパワー情報等を
利用して入力音声の終端を検知する音声終端検出部10
5と、尤度計算部104からの出力及び音声終端検出部
105からの出力を入力として前記最適列より入力中の
候補文法に対応する部分の出力を行なう出力部106よ
りなる。
【0012】音声分析部101では、入力音声のフレー
ムごとの周波数分析を行ない、フレームごとの特徴量ベ
クトル(以後、特徴量とする)を生成する。特徴量の要
素としては、パワー、パワー変化量、メルケプストラ
ム、メルケプストラム変化量、メルケプストラム2次変
化量等を用いる。特徴量は毎フレーム、尤度計算部10
4へ出力される。
【0013】また、フレームごとに入力音声のパワー情
報を音声終端検出部105へ出力する。文法辞書102
は、認識対象となる単語を単位音響モデルのネットワー
クの形、例えば、許される文法を表す単語ネットワーク
及びその各単語を、該当単語を構成する単位音響モデル
の連鎖(「大阪」(おおさか)の場合には「お」−
「お」−「さ」−「か」)で表した形で記憶している。
【0014】モデル生成部103では、単語辞書102
内の各単語モデルの前後に背景雑音と任意音声の両者を
受理する付加語モデルを接続した認識モデルを作成し、
尤度計算部104へ出力する。尤度計算部104では、
モデル生成部103で生成された標準パタンと音声分析
部101の出力である各フレームにおける特徴量より各
フレームの最適列及びその尤度を算出し、出力部106
へ出力する。音声終端検出部105では、音声分析部1
01から出力されたパワー情報より各フレームにおいて
音声終端の判定を行なう。出力部106では、尤度計算
部104から各フレームの最適列及びその尤度を受けと
り、また、音声終端検出部105から各フレームの音声
終端判定の結果を受けとる。この両者の情報から最適な
認識結果を作成し、必要ならば出力する。
【0015】この第1の形態による音声認識装置は請求
項1、18、20に対応する音声認識装置である。
【0016】(第1の形態の動作の説明)図2は、第1
の形態の音声認識装置の動作を表す図である。
【0017】この音声認識装置は各フレームにおいて、
以下の動作を行なう。
【0018】音声分析部101においては、入力音声の
フレームごとの周波数分析を行ない、特徴量を生成し、
毎フレーム、尤度計算部104へ出力する(ステップ
1)。
【0019】尤度計算部104では、文献1に示されて
いるオートマトン制御One Pass DP法の手法
を用いて、モデル生成部103で生成された標準パタン
と音声分析部101の出力である各フレームにおける特
徴量のパタンマッチングを行なうことにより、各フレー
ムの最適列及び、その尤度を算出し、最適列及びその尤
度を出力部106へ出力する(ステップ2)。
【0020】音声終端検出部105では、各フレームご
とに音声終端判定を行ない、その結果を出力部106へ
出力する(ステップ3)。
【0021】出力部106では、各フレームごとに音声
終端検出部105の音声終端判定結果を受けとり、終端
であれば、尤度計算部104の出力である前記最適列及
びモデル生成部103での標準パタン生成情報から、付
加語を除いた認識結果を出力する(ステップ4)。
【0022】終端でなければ、該当フレームは何もしな
い。
【0023】上述した第1の形態の音声認識装置による
と、言語音声による任意の付加語の影響を取り除くこと
ができる。
【0024】(第1の形態の実施例)次に第1の形態の
一実施例の動作を詳細に説明する。本実施例では、認識
される候補文法として図3に示すモデルを用いる。文法
辞書102の内容は図3のように、「上野」(うえの)
「上野原」(うえのはら)「高尾」(たかお)とナル単
語または「駅」よりなる。
【0025】図4のモデルは、前方付加語モデル、候補
文法、後方付加語モデルの3個のモデルの連接の形で構
成され、各モデルをこの順で経由した発声すなわち候補
文法の前後に無音または任意の日本語を付加した発声を
すべて受理する。前方及び後方の付加語モデル部は、無
音モデル及び日本語の音節を表すモデルのあらゆる途中
状態を混合したモデルである。例えば図中の「あ
(1)」は音節「あ」のモデルの第1状態である。各モ
デルはそれぞれ対応する日本語音声によって学習したも
のをそのまま用いる。この付加語モデルは混合ガウス分
布等の形式を用いることにより、形式的に1状態で表す
ことができる。すなわちこの付加語モデルを無音モデル
の代わりに使用することにより、本形態による認識は認
識文法のみの認識と同一のアルゴリズムで実現できる。
モデル生成部103は文法辞書102の各候補文法より
図4のモデルを予め作成し、記憶しているものとする。
尤度計算部104では、文献1に示されている方法によ
り毎フレーム、先頭フレームより該当フレームまでの特
徴量列と図4のモデルのパタンマッチングを行ない、該
当パタン上での最適列及び尤度を計算する。ただし、尤
度は該当標準パタンの最終状態における確率値の自然対
数値を用いる。
【0026】図5のように、「上野駅から」(うえのえ
きから)という発声がなされたとする。音声終端検出部
105による終端は図5のa点であるとすると、出力部
106は、第0フレームから第a−1フレームまでは音
声終端検出部105からの出力が「非終端」であるた
め、出力を行なわない。第aフレームで初めて音声終端
検出部105の出力が「終端」となり、第aフレームに
おける尤度計算部104の出力である「上野」「駅」
「(付加語モデル)」より、候補文法である「上野」
「駅」を認識結果として出力する。
【0027】同一の「上野駅から」発声を候補文法(図
3)だけで認識すると、語の類似性から、「上野原」−
ナル単語という認識結果になることが考えられる。本例
は、発声中の「から」の部分を付加語部で吸収すること
により、このような付加語のある発声にも対応できる。
また、前述のように、形式的には無音モデルの置き換え
によってこの効果が得られるため、認識方法自体は候補
文法のみの認識と同じ方法で実現でき、図6に示したガ
ーベージ付加文法を使用する従来の方法に比して、文法
ネットワークを拡張する操作の必要がないという利点が
ある。これが、本実施例における効果である。
【0028】(第1の形態の変形例)実施の第1の形態
の第1の変形例として、実施例における付加語モデル
を、既存のモデルの混合モデルでなく、無音及び任意の
音声で学習した単一のモデルに置き換える方法が考えら
れる。実際の付加語にはうなりや咳等の非言語音声も多
く見られ、これらに対応するために、付加語モデルを実
際の付加音声で学習する手法は有効である。この方法を
用いることで、請求項1、18、19に対応する音声認
識装置を実現できる。
【0029】また、実施の第1の形態の第2の変形例と
して、第1の実施例における1状態の付加語モデルを、
図7に示すような複数状態のエルゴディックモデルに置
き換える方法が考えられる。このモデルを用いること
で、日本語の音節のような、時間的構造を持った音響を
表現することができる。また、これも連続ネットワーク
の拡張を伴わず、1単語として扱うことができ、第1の
実施例の持つ、候補文法のみによる認識と同一のアルゴ
リズムで付加語対応ができる利点を保持している。この
ような付加語モデルを用いることで、請求項1、17に
対応する音声認識装置を実現できる。
【0030】(発明の実施の第2の形態)再び図1を参
照して、本発明の実施の第2の形態による音声認識装置
の構成を説明する。
【0031】第2の形態による音声認識装置は入力音声
より一定時間(以後、フレームという)ごとの特徴量を
抽出する音声分析部101と、入力として想定している
候補文法を記憶している文法辞書102と、文法辞書中
の候補文法より標準パタンを生成するモデル生成部10
3と、各フレームにおいて前記標準パタンに当てはまる
最適な単語系列(以後、最適列とする)及びその尤度を
求める尤度計算部104と、入力音声のパワー情報等を
利用して入力音声の終端を検知する音声終端検出部10
5と、尤度計算部104からの出力及び音声終端検出部
105からの出力を入力として前記最適列より入力中の
候補文法に対応する部分の出力を行なう出力部106よ
りなる。
【0032】音声分析部101では、入力音声のフレー
ムごとの周波数分析を行ない、フレームごとの特徴量ベ
クトル(以後、特徴量という)を生成する。特徴量の要
素としては、パワー、パワー変化量、メルケプストラ
ム、メルケプストラム変化量、メルケプストラム2次変
化量等を用いる。特徴量は毎フレーム、尤度計算部10
4へ出力される。
【0033】また、フレームごとに入力音声のパワー情
報を音声終端検出部105へ出力する。文法辞書102
は、認識対象となる単語を単位音響モデルのネットワー
クの形、例えば、許される文法を表す単語ネットワーク
及びその各単語を、該当単語を構成する単位音響モデル
の連鎖(「大阪」(おおさか)の場合には「お」−
「お」−「さ」−「か」)で表した形で記憶している。
【0034】モデル生成部103では、単語辞書102
内の各単語モデルの前後に付加語モデルとして任意の音
節列を受理するモデルを付加した認識モデルを作成し、
尤度計算部104へ出力する。ただし、付加語モデル中
のすべての音節モデルは、単語モデルとして作成する。
【0035】尤度計算部104では、モデル生成部10
3で生成された標準パタンと音声分析部101の出力で
ある各フレームにおける特徴量より各フレームの最適列
及びその尤度を算出し、出力部106へ出力する。
【0036】音声終端検出部105では、音声分析部1
01から出力されたパワー情報より各フレームにおいて
音声終端の判定を行なう。
【0037】出力部106では、尤度計算部104から
各フレームの最適列及びその尤度を受けとり、また、音
声終端検出部105から各フレームの音声終端判定の結
果を受けとる。
【0038】この両者の情報から最適な認識結果を作成
し、必要ならば出力する。
【0039】第2の形態による音声認識装置は請求項
2、3に対応する音声認識装置である。
【0040】(第2の形態の動作の説明)第2の形態の
音声認識装置の動作は、第1の形態の音声認識装置の動
作と同一である。
【0041】第2の形態の音声認識装置によると、言語
音声による任意の付加語の影響を取り除くことができ、
かついわゆる部分マッチングの問題に対応可能である。
【0042】(第2の形態の実施例)次に、第2の形態
の一実施例の動作を詳細に説明する。
【0043】本実施例では、認識される候補文法として
図3に示すモデルを用いる。文法辞書102の内容は図
3のように、「上野」(うえの)「上野原」(うえのは
ら)「高尾」(たかお)とナル単語または「駅」よりな
る。図6のモデルは、前方付加語モデル、候補文法、後
方付加語モデルの3個のモデルの連接の形で構成され、
各モデルをこの順で経由した発声すなわち候補文法の前
後に任意の音節列を付加した発声をすべて受理する。た
だし、前方及び後方の付加語モデルに一定値のペナルテ
ィを付与する。本実施例ではペナルティ値を1.0とす
る。ペナルティ付与によって、同一音声に対する同一モ
デルの尤度が付加語と認識文法で異なるようになる。
【0044】モデル生成部103は文法辞書102の各
候補文法より図6のモデルを予め作成し、記憶している
ものとする。尤度計算部104では、文献1に示されて
いる方法により毎フレーム、先頭フレームより該当フレ
ームまでの特徴量列と第3の標準パタンのパタンマッチ
ングを行ない、該当パタン上での最適列及び尤度を計算
する。ただし、尤度は該当標準パタンの最終状態におけ
る確率値の自然対数値を用いる。
【0045】図9のように、「上野原」(うえのはら)
という発声がなされたとする。音声終端検出部105に
よる終端は図9のa点であるとすると、出力部106
は、第0フレームから第a−1フレームまでは音声終端
検出部105からの出力が「非終端」であるため、出力
を行なわない。第aフレームで初めて音声終端検出部1
05の出力が「終端」となり、第aフレームにおける尤
度計算部104の出力である「上野原」より、候補文法
である「上野原」を認識結果として出力する。
【0046】次にペナルティ付与の効果について説明す
る。
【0047】図8は、発声「うえのはら」の一部に対す
るマッチング例である。例えば、図8において、「上野
原」発声をペナルティ値0すなわちペナルティなしで認
識した場合、「上野原」及び「上野」−「は」「ら」は
同一の音節列であるため、上記発声の両モデルに対する
尤度が同一になってしまうという不都合(部分マッチン
グ)が生ずる。候補文法のみの認識に比べ、付加語モデ
ルの存在により部分マッチングのおそれが生ずるが、ペ
ナルティを付与することによってこれを防ぐ効果が得ら
れる。例えば図8の丸で囲んだ部分において、両モデル
とも入力音声の一部「はら」に対しモデル「はら」が対
応しているが、付加語モデルの「はら」の尤度は、同一
フレームにおける候補文法「はら」の尤度より1.0低
くなっている。このように、付加語モデルの尤度が低い
ことから、例えば図8において発声「うえのはら」の一
部「うえの」が認識文法全体に対応するというような部
分マッチングが回避される。
【0048】(第2の形態の変形例)第2の形態の第1
の変形例として、実施例における付加語モデルを、事前
に想定した付加語あるいは事前に想定した付加語列を受
理するモデルに置き換える方法が考えられる。例えば図
10に示すように、前方の付加語を「えーと」等既知の
付加語モデルに置き換える、後方の付加語を「まで」等
既知の付加語に置き換える方法である。連続音節認識は
特に、不特定話者を対象とする場合に認識性能が低いと
いう欠点があり、連続音節を付加語モデルとして用いる
場合には誤認識のおそれが多分にある。しかしながら本
変形例のような付加語モデルを用いた場合、語彙を限定
することによる制約から、誤認識の大幅な削減が見込め
る。
【0049】本変形例は、請求項2、4に対応する音声
認識装置を実現する。
【0050】第2の形態の第2の変形例として、第1の
形態の実施例で用いた背景雑音と任意音声の両者を受理
する付加語モデルを用いる方法が考えられる。第1の形
態における、非言語音声へ対応できる利点や同一アルゴ
リズムが利用できるという利点は継承され、なおかつ第
2の形態の実施例で述べたように部分マッチングが回避
できるという特性がある。
【0051】本変形例は、請求項1、2に対応する音声
認識装置を実現する。
【0052】第2の形態の第3の変形例として、連続音
節モデル及び事前に想定した付加語モデルの2種類の付
加語モデルを組み合わせて、図11に示すように、新た
な付加語モデルを構築する方法が考えられる。事前に想
定した付加語モデルは想定外の付加語に対応できず、連
続音節モデルは精度に難があるという弱点を持つが、例
えば図11に示したような組み合わせモデルを用いるこ
とで、いかなる付加語にも対応でき、なおかつ想定の範
囲の付加語には高精度な認識が可能な認識装置を構成す
ることができる。ただしこの場合、付加語部分に部分マ
ッチングが生ずるおそれがある。例えば、事前に想定し
た付加語「あのー」と連続音節「あ」「「の」「お」の
尤度が同一になってしまうことである。この場合、事前
に想定した付加語が利用されなくなるため、両付加語モ
デルのペナルティ値に格差をつける方法が必要である。
例えば、連続音節には一律2.0、事前に想定した付加
語には一律1.0のペナルティをそれぞれ課すという方
法である。これにより、付加語部の部分マッチングを除
き、付加語認識の精度が高く想定外付加語にも対応でき
る音声認識装置を実現できる。
【0053】本変形例は、請求項2、5、6、7、1
0、12、16に対応する音声認識装置を実現する。
【0054】第2の形態の第4の変形例として、第3の
変形例における連続音節モデルを、第1の形態の実施例
で用いた付加語モデルで代用する方法が考えられる。第
3の変形例で挙げた利点はそのままで、言語外音声にも
対応できる利点がある。これに関しても両付加語モデル
のペナルティ値に格差をつける方法が有効である。
【0055】本変形例は、請求項2、5、6、7、1
0、11に対応する音声認識装置を実現する。
【0056】第2の形態の第5の変形例として、第4の
変形例における事前に想定した付加語モデルを連続音節
モデルに変更する方法も考えられる。
【0057】本変形例は、請求項2、5、6、7、1
1、14に対応する音声認識装置を実現する。
【0058】第2の形態の第6の変形例として、連続音
節モデル、事前に想定した付加語モデル及び第1の形態
の実施例で用いた付加語モデルの3者を組み合わせる方
法が考えられる。例えば図12に示したような付加語モ
デルを用いる。これは、想定済み付加語、想定外付加
語、言語外付加音声のすべてに対応するための方法であ
る。これも第3の変形例のように、ペナルティ値に格差
をつける方法が考えられる。例えば、第1の形態の実施
例で用いた付加語モデルには一律3.0、連続音節には
一律2.0、事前に想定した付加語には一律1.0のペ
ナルティをそれぞれ課すというようになる。
【0059】本変形例は、請求項2、5、8、9、1
3、15に対応する音声認識装置を実現する。
【0060】
【発明の効果】以上のように、本発明を用いれば、種々
の形態の付加語に対し高い認識性能を保持する音声認識
装置を実現できる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の音声認識装置の構
成図である。
【図2】本発明の第1の実施の形態の音声認識装置の動
作を表す流れ図である。
【図3】本発明の第1の実施の形態の音声認識装置で用
いる候補文法を表すネットワークである。
【図4】本発明の第1の実施の形態の音声認識装置の実
施例においてモデル生成部が作成し、記憶している標準
パタンを表すネットワークである。
【図5】本発明の第1の実施の形態の音声認識装置の実
施例における発声内容と音声終端検出点を表す図であ
る。
【図6】候補文法の前後に任意の音節列を受理するモデ
ルを付加したモデルを表すネットワークである。
【図7】本発明の第1の実施の形態の第2の変形例にお
いてモデル生成部が作成し、記憶している標準パタンを
表すネットワークである。
【図8】本発明の第2の実施の形態の音声認識装置の実
施例における発声内容の一部とそれに対応するモデルの
一部の間の尤度を表す図である。
【図9】本発明の第1の実施の形態の音声認識装置の実
施例における発声内容と音声終端検出点を表す図であ
る。
【図10】本発明の第2の実施の形態の第1の変形例に
おいてモデル生成部が作成し、記憶している標準パタン
を表すネットワークである。
【図11】本発明の第2の実施の形態の第3の変形例に
おいてモデル生成部が作成し、記憶している標準パタン
を表すネットワークである。
【図12】本発明の第2の実施の形態の第6の変形例に
おいてモデル生成部が作成し、記憶している標準パタン
を表すネットワークである。
【符号の説明】
101 音声分析部 102 文法辞書 103 モデル生成部 104 尤度計算部 105 音声終端検出部 106 出力部

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声の一定時間(以下、フレ
    ームという)ごとの特徴量を抽出する音声分析部と、認
    識対象となる単語または単語列の前または後または前後
    に付加語モデルを接続した標準パタンと、前記標準パタ
    ンと前記特徴量とのパタンマッチングを前記フレームご
    とに行ない、前記単語または単語列中で最適な単語系列
    (以下、最適列という)を選択し、その尤度を算出する
    尤度計算部と、前記最適列と前記尤度より最適認識結果
    を決定し出力する出力部とを備え、前記付加語モデルが
    背景雑音と任意音声の両者を受理するモデルであること
    を特徴とする音声認識装置。
  2. 【請求項2】 入力された音声の一定時間(以下、フレ
    ームという)ごとの特徴量を抽出する音声分析部と、認
    識対象となる単語または単語列の前または後または前後
    に付加語モデルを接続した標準パタンと、前記標準パタ
    ンと前記特徴量とのパタンマッチングを前記フレームご
    とに行ない、前記単語または単語列中で最適な単語系列
    (以下、最適列という)を選択し、その尤度を算出する
    尤度計算部と、前記最適列と前記尤度より最適認識結果
    を決定し出力する出力部とを備え、前記付加語モデルの
    尤度に一定値のペナルティを課すことを特徴とする音声
    認識装置。
  3. 【請求項3】 前記付加語モデルが、任意の音節列を受
    理するモデルであることを特徴とする請求項2記載の音
    声認識装置。
  4. 【請求項4】 前記付加語モデルが、事前に定めた付加
    語及び付加語列の集合の任意の要素を受理するモデルで
    あることを特徴とする請求項2記載の音声認識装置。
  5. 【請求項5】 前記付加語モデルが、複数の部分付加語
    モデルより構成されることを特徴とする請求項4記載の
    音声認識装置。
  6. 【請求項6】 前記複数の部分付加語モデルが、第1の
    部分付加語モデルと、第1の部分付加語モデルで受理さ
    れる音声をすべて受理する第2の部分付加語モデルの2
    種のモデルであることを特徴とする請求項5記載の音声
    認識装置。
  7. 【請求項7】 同一の前記特徴量に対して、前記第1の
    部分付加語モデルの前記ペナルティは前記第2の部分付
    加語モデルの前記ペナルティより低いことを特徴とする
    請求項6記載の音声認識装置。
  8. 【請求項8】 前記複数の部分付加語モデルが、第1の
    部分付加語モデルと、第1の部分付加語モデルとで受理
    される音声をすべて受理する第2の部分付加語モデル
    と、第2の部分付加語モデルで受理される音声をすべて
    受理する第3の部分付加語モデルの3種のモデルである
    ことを特徴とする請求項5記載の音声認識装置。
  9. 【請求項9】 同一の前記フレームにおける前記特徴量
    に対して、前記第1の部分付加語モデルのペナルティが
    前記第2の部分付加語モデルの前記ペナルティより低
    く、かつ前記第2の部分付加語モデルの前記ペナルティ
    が前記第3の部分付加語モデルの前記ペナルティより低
    いことを特徴とする請求項8記載の音声認識装置。
  10. 【請求項10】 前記第1の部分付加語モデルが、事前
    に定めた付加語及び付加語列の集合の任意の要求を受理
    するモデルであることを特徴とする請求項6〜9のいず
    れかに記載の音声認識装置。
  11. 【請求項11】 前記第2の部分付加語モデルが、背景
    雑音と任意音声の両者を表現するモデルであることを特
    徴とする請求項6〜9のいずれかに記載の音声認識装
    置。
  12. 【請求項12】 前記第2の部分付加語モデルが、任意
    の音節列を受理するモデルであることを特徴とする請求
    項10記載の音声認識装置。
  13. 【請求項13】 前記第2の部分付加語モデルが、背景
    雑音と任意音声の両者を表現するモデルと、任意の音節
    列を受理するモデルを並列にしたモデルであることを特
    徴とする請求項6又は7記載の音声認識装置。
  14. 【請求項14】 前記第1の部分付加語モデルが、任意
    の音節列を受理するモデルであることを特徴とする請求
    項11記載の音声認識装置。
  15. 【請求項15】 前記第1の部分付加語モデルが、事前
    に定めた付加語及び付加語列の集合の任意の要求を受理
    するモデルであり、かつ前記第2の部分付加語モデル
    が、任意の音節列を受理するモデルであり、かつ前記第
    3の部分付加語モデルが、背景雑音と任意音声の両者を
    表現するモデルであることを特徴とする請求項8又は9
    記載の音声認識装置。
  16. 【請求項16】 前記付加語モデルが、第2の部分付加
    語モデル−第1の部分付加語モデル−第2の部分付加語
    モデルの順番による各部分付加語モデルの連接であるこ
    とを特徴とする請求項6又は7記載の音声認識装置。
  17. 【請求項17】 前記背景雑音と任意音声の両者を表現
    するモデルが、有限個の状態からなるエルゴディックモ
    デルであることを特徴とする請求項1又は11又は13
    又は15記載の音声認識装置。
  18. 【請求項18】 前記背景雑音と任意音声の両者を表現
    するモデルが、単一の状態からなるエルゴディックモデ
    ルであることを特徴とする請求項17記載の音声認識装
    置。
  19. 【請求項19】 前記背景雑音と任意音声の両者を表現
    するモデルが、背景雑音と学習音声の両者によって学習
    されたものであることを特徴とする請求項1又は11又
    は13又は15又は17又は18記載の音声認識装置。
  20. 【請求項20】 前記背景雑音と任意音声の両者を表現
    するモデルが、背景雑音によって学習されたモデルと学
    習音声によって学習されたモデルの混合によって生成さ
    れていることを特徴とする請求項1又は11又は13又
    は15又は17又は18記載の音声認識装置。
JP9158804A 1997-06-16 1997-06-16 音声認識装置 Expired - Fee Related JP3039634B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9158804A JP3039634B2 (ja) 1997-06-16 1997-06-16 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9158804A JP3039634B2 (ja) 1997-06-16 1997-06-16 音声認識装置

Publications (2)

Publication Number Publication Date
JPH117292A true JPH117292A (ja) 1999-01-12
JP3039634B2 JP3039634B2 (ja) 2000-05-08

Family

ID=15679728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9158804A Expired - Fee Related JP3039634B2 (ja) 1997-06-16 1997-06-16 音声認識装置

Country Status (1)

Country Link
JP (1) JP3039634B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003096324A1 (fr) * 2002-05-10 2003-11-20 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance vocale
JP2004272251A (ja) * 2003-03-04 2004-09-30 Microsoft Corp ブロック同期復号
JP2006171096A (ja) * 2004-12-13 2006-06-29 Ntt Docomo Inc 連続入力音声認識装置および連続入力音声認識方法
JP2007226117A (ja) * 2006-02-27 2007-09-06 Mitsubishi Electric Corp 音声認識装置、音声認識プログラム、及び音声認識方法
JP2009003205A (ja) * 2007-06-22 2009-01-08 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2010277036A (ja) * 2009-06-01 2010-12-09 Mitsubishi Electric Corp 音声データ検索装置
US8271280B2 (en) 2007-12-10 2012-09-18 Fujitsu Limited Voice recognition apparatus and memory product

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009081895A1 (ja) 2007-12-25 2009-07-02 Nec Corporation 音声認識システム、音声認識方法、および音声認識用プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003096324A1 (fr) * 2002-05-10 2003-11-20 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance vocale
US7487091B2 (en) 2002-05-10 2009-02-03 Asahi Kasei Kabushiki Kaisha Speech recognition device for recognizing a word sequence using a switching speech model network
JP2004272251A (ja) * 2003-03-04 2004-09-30 Microsoft Corp ブロック同期復号
JP2006171096A (ja) * 2004-12-13 2006-06-29 Ntt Docomo Inc 連続入力音声認識装置および連続入力音声認識方法
JP2007226117A (ja) * 2006-02-27 2007-09-06 Mitsubishi Electric Corp 音声認識装置、音声認識プログラム、及び音声認識方法
JP2009003205A (ja) * 2007-06-22 2009-01-08 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
US8271280B2 (en) 2007-12-10 2012-09-18 Fujitsu Limited Voice recognition apparatus and memory product
JP2010277036A (ja) * 2009-06-01 2010-12-09 Mitsubishi Electric Corp 音声データ検索装置

Also Published As

Publication number Publication date
JP3039634B2 (ja) 2000-05-08

Similar Documents

Publication Publication Date Title
US20060041429A1 (en) Text-to-speech system and method
JP2000029495A (ja) ニュ―ラルネットワ―クとマルコフモデル認識技術を用いた音声認識の方法及び装置
JP5195414B2 (ja) 応答生成装置及びプログラム
JP2010020102A (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
US5706397A (en) Speech recognition system with multi-level pruning for acoustic matching
JPH09127978A (ja) 音声認識方法及び装置及びコンピュータ制御装置
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
JP3039634B2 (ja) 音声認識装置
KR20010087328A (ko) 문법적 제한사항을 갖는 라벨러를 이용한 구두 발언 거절
JP2000172294A (ja) 音声認識方法、その装置及びプログラム記録媒体
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
RU2597498C1 (ru) Способ распознавания речи на основе двухуровневого морфофонемного префиксного графа
JP7291099B2 (ja) 音声認識方法及び装置
JP4048473B2 (ja) 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
JP2006010739A (ja) 音声認識装置
JPH07230293A (ja) 音声認識装置
JP3299170B2 (ja) 音声登録認識装置
JP2976795B2 (ja) 話者適応化方式
KR20140051519A (ko) 연속어 음성인식 방법 및 연속어 음성인식 장치
JP2014095851A (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP2005091758A (ja) 話者認識システム及び方法
JPH06337700A (ja) 音声合成装置
KR100560916B1 (ko) 인식 후 거리를 이용한 음성인식 방법
JPH1097270A (ja) 音声認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000202

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080303

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090303

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090303

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100303

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100303

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110303

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120303

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120303

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130303

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130303

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140303

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees