JP2004325635A - 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 - Google Patents

音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 Download PDF

Info

Publication number
JP2004325635A
JP2004325635A JP2003118305A JP2003118305A JP2004325635A JP 2004325635 A JP2004325635 A JP 2004325635A JP 2003118305 A JP2003118305 A JP 2003118305A JP 2003118305 A JP2003118305 A JP 2003118305A JP 2004325635 A JP2004325635 A JP 2004325635A
Authority
JP
Japan
Prior art keywords
factor
degree
deviation
input
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003118305A
Other languages
English (en)
Other versions
JP4074543B2 (ja
Inventor
Kenichi Kumagai
建一 熊谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2003118305A priority Critical patent/JP4074543B2/ja
Publication of JP2004325635A publication Critical patent/JP2004325635A/ja
Application granted granted Critical
Publication of JP4074543B2 publication Critical patent/JP4074543B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】誤認識となる要因を判定して利用者に通知する。
【解決手段】セグメント分割部14は、特徴抽出部13で抽出された入力音声の特徴量を、標準モデル格納部18に格納された標準モデルとの比較によって音素毎のセグメントに分割する。要因分析部15は、各セグメント毎の特徴量に基づいて複数の誤認識の要因に関する特徴量を求め、各要因の特徴量の標準モデルからのずれの度合いを算出し、最もずれの大きい要因を検出する。メッセージ作成部16およびメッセージ提示部17は、上記最もずれの大きい要因をメッセージによって使用者に提示する。こうして、利用者に、誤認識となる要因を、人間が直感的に理解し易い要因によって知らせることができ、利用者の不快感を減らすことができる。
【選択図】 図2

Description

【0001】
【発明の属する技術分野】
この発明は、音声認識システム等に利用される音声処理装置,音声処理方法,音声処理プログラムおよびプログラム記録媒体に関する。
【0002】
【従来の技術】
現在、音声認識システムの認識性能は、書き起こし文を読み上げた朗読音声であれば、不特定話者タスクであっても高い単語認識性能を有している。これは、多数話者データベースの利用が可能であり、殆どの話者の音響特性を学習できるためである。また、Maximum a posteriori(以下、MAPと略称する)やMaximum Likelihood Linear Regression(以下、MLLRと略称する)等の話者適応技術によって、少ない音声サンプルから話者の音響特性を学習することも可能である。
【0003】
ここで、上記話者の音響特性とは、話者の発声器官の違い等、発声器官の物理特性の違いによって起こる音響特性のことである。例えば、声道長の違い等によって、音声のスペクトルが話者毎に異なる。尚、上述したMAPやMLLRは、S.Young他著“The HTKBOOK”に詳しく述べられている。
【0004】
しかしながら、自然に且つ自由に発声された音声(以下、自然音声と言う)に対する認識性能は不十分である(篠崎他、音講論、pp17−18、Mar.2002)。自然音声認識が難しい理由は、発話スタイルの要因が大きいといわれている(山本他、信学論pp2438−2447、Nov.2000)。また、自然音声と朗読音とを使ってモデルを学習した場合でも、自然音声の認識率はかなり低下する。この原因は、総ての発話速度に対応したモデルを作成することが難しいことと、自然音声においては特に母音をはっきりと発音しない(なまける)傾向があるためであると考えられる。
【0005】
前者の原因に対しては、発話速度毎に遷移パスを分離するマルチパス隠れマルコフモデル(以下、HMMと略称する)(李他、音講文, pp.89−90, Mar.2002)等が提案されている。しかしながら、計算コストに見合った認識精度は得られていない。また、後者の問題に対しては、自然音声を上記MAPやMLLR等の話者適応技術によって音響モデルを学習することが考えられる。しかしながら、そうすると、逆に母音モデルの特徴空間が大きくなってしまい、結果として自然音声の認識率が向上しても、朗読音声の認識精度が悪くなり兼ねない。
【0006】
ここで、上記発話スタイルとは、上記「話者の音響特性」のような発声器官の物理特性の違いではなく、話者の環境や文化等によって起こる音響特性のことである。例えば、方言,早口,ゆっくりしゃべる,はっきりと発音しない等である。
【0007】
さらに、あらゆる騒音環境下において高性能な認識性能を保証することはできない。予め収録した騒音を学習音声に重畳した音声をモデル(マッチドモデル)化する方法によって良い認識性能が得られるが、全環境の騒音を収録するのは不可能である。そのために、騒音環境の場合も、上記話者適応の場合と同様に少数の騒音データから上記MAPやMLLR等によって適応処理を行う方法がなされている。しかしながら、その場合であっても上記マッチドモデル化する方法と比較すると認識性能は劣る。また、利用者が手当たり次第に環境適応を行うと、音響モデルがどのようになるか予測がつかないために好ましくない。
【0008】
利用者にとって、利用者自身の音声の音響特性は如何にもならないが、周りの騒音や発話スタイルに対しては対応が簡単である。例えば、騒音に対しては静かな場所に移動できるし、発話スタイルに対しては標準的な話し方をすればよい。したがって、誤認識の原因が、話者の音響特性によるものか発話スタイルによるものか騒音によるものかを判定して、判定結果を利用者に知らせることができれば、誤認識による不快感を少なくすることができることになる。また、発話スタイルへの適応を行わないことで、認識性能が向上しない無駄な適応処理を回避することができる。同様に、対応していない環境を通知してやることによって、無駄な環境適応処理を回避することができる。
【0009】
しかしながら、多くの音声認識システムにおいては、利用者に誤認識理由すら通知してはいない。その理由は、誤認識の原因を一般の人が理解できるように説明するのが難しいためである。具体的には、上記HMMを用いた音声認識システムにおいては、入力音声の音韻性以外の情報を含んだ「Mel−frequency cepstral coefficients(以下、MFCCと略称する)」等の特徴ベクトルと標準モデルとの確率統計距離を基準としたマッチングスコアの大小によって認識結果が判定されるので、誤認識の原因を音声学の知見に完全に(1対1の対応で)結び付けることができないからである。
【0010】
入力音声と標準音声との物理的な距離尺度を基準とした認識システムにおいては、上述したような誤認識理由を教示する装置ではないが、標準的な発話を利用者に学習させる音声認識装置が提案されている(例えば、特許文献1参照)。
【0011】
その他、上記誤認識理由通知を行うものとしては、以下のような音声認識方法及び装置がある(特許文献2参照)。この音声認識方法及び装置においては、音声が入力されると、音声認識タスクによって入力音声を分析し、予め登録されている音声データと比較して一致するものを検出する。その際に、認識結果が「NG」である場合には、NGであった旨の表示と理由コードとを表示するようにしている。
【0012】
また、従来の話者適応可能な音声認識システムにおいては、話者の音響特性と発話スタイルの違いが明確化されていないため、発話スタイルや周辺環境も話者の音響特性と同様に学習してしまうことになる。例えば、話者適応技術を用いて信頼性の高いサブワードだけに話者適応を行う音声認識装置及び自動音声認識装置がある(特許文献3参照)。この音声認識装置及び自動音声認識装置では、認識結果の尤度尺度が閾値以上になる信頼性の高いサブワードにのみモデル適応を行うことによって、適応による認識性能劣化を小さくするようにしている。
【0013】
【特許文献1】
特開平01‐285998号公報
【特許文献2】
特開2000‐112497号公報
【特許文献3】
特開2000‐181482号公報
【0014】
【発明が解決しようとする課題】
しかしながら、上記従来の音声認識装置や音声認識方法においては、以下のような問題がある。
【0015】
すなわち、先ず、上記特許文献1に開示された音声認識装置においては、上記のような発話スタイルと話者の音響特性とを区別することはできないし、周辺環境に適応することもできない。さらに、認識を行う認識モードと、指定単語の発話者による音節特徴パターンを作成して登録する登録モードとを有している。そして、上記登録モードでは、発声単語を指示すると共に、正しく認識されるための発声方法(つまり、誤認識され易い理由)を指示するようになっている。ところが、上記登録モードは認識モードと分離しているため、認識モードにおいて誤認識が発生した場合に誤認識の理由を発話者に通知することができず、任意文の音声入力時において誤り原因を知らせることができないという問題がある。
【0016】
また、上記特許文献2に開示された音声認識方法及び装置においては、入力音声の認識に失敗した場合にその理由情報を通知するのであるが、その通知内容は精々「比較すべき音声登録データなし」や「入力音量過多」等の程度である。また、誤認識理由を取得する手段や方法が開示されておらず、複数の要因が重なり合って発生する誤認識の理由をどのように取得するのかは不明である。したがって、十分な誤認識理由を利用者に通知することができないという問題がある。
【0017】
また、上記特許文献3に開示された音声認識装置及び自動音声認識装置においては、信頼尺度が閾値以上になるサブワードにモデル適応を行うのであるが、実際に信頼度の定義や信頼度の閾値を決めるのは非常に難しい。例えば、信頼度の閾値を低くし過ぎると適応による認識性能劣化は防げるのではあるが、適応を行う確率が低くなるために適応効果があまり得られない。したがって、そのようなトレードオフの関係を見極めるのは非常に難しいのである。
【0018】
さらに、誤認識の原因が音響特性と発話スタイルと周辺環境との何れであるかを、区別することはできない。したがって、尤度尺度が閾値以上であって認識の信頼度が高い場合には、発話スタイルおよび周辺環境にも適応しようとすることになる。ところが、上述したように、発話スタイルは、自然音声を用いて学習した場合であっても認識率は劣化するものであるから同様に認識率の劣化を招き、結果的に無駄な計算をすることになる。また、誤認識した理由や信頼度が低い理由等を利用者に通知する理由取得・通知手段が存在しないために、利用者に不快感を与える可能性もある。
【0019】
そこで、この発明の目的は、誤認識となる要因を判定して利用者に通知することが可能な音声処理装置,音声処理方法,音声処理プログラムおよびプログラム記録媒体を提供することにある。
【0020】
【課題を解決するための手段】
上記目的を達成するため、この発明の音声処理装置は、入力された音声の特徴量と標準モデルとの比較を行うに際して、上記入力された音声の特徴量に基づいて複数の誤認識の要因に関する特徴量を求め,各要因毎に上記特徴量の上記標準モデルからのずれの度合いを算出する要因別ずれ算出手段と、上記算出されたずれの度合いが許容範囲を表す閾値内にあるか否かを判定すると共に,上記閾値内にある場合には,上記ずれの度合いを上記許容範囲内にあることを表す所定値に変換するずれ度合変換手段と、上記算出されたずれの度合いと上記変換されたずれの度合いとに基づいて最もずれの度合いが大きい要因を検出する要因検出手段と、上記検出された最もずれの大きい要因を誤認識となる要因として出力する誤認識要因出力手段を備えている。
【0021】
上記構成によれば、入力音声波形の特徴量に基づいて、例えば人間が直感的に理解し易い誤認識の要因に関する特徴量が求められる。そして、上記特徴量と標準モデルとのずれの度合が最も大きな要因が誤認識となる原因として検出され、ユーザに対して出力される。こうして、利用者に、誤認識となる原因を知らせることによって、結果的に誤認識に至った場合における利用者の不快感が減少される。
【0022】
また、1実施例の音声処理装置では、上記誤認識要因出力手段は、上記検出された最もずれの大きい要因が複数存在する場合には、誤認識要因を出力せずに、音声の入力を再度行うことを促すメッセージを出力するようになっている。
【0023】
上記最もずれの大きい要因が複数存在する場合には、突発的な雑音が発生した場合に多い。この実施例によれば、このような場合には、再入力を促すことによって、突発的な雑音に対して頑健に上記要因の分析が行われる。
【0024】
また、1実施例の音声処理装置では、上記誤認識要因出力手段による上記メッセージの出力に従って音声が再度入力された場合には、上記許容範囲を表す閾値を上記許容範囲が狭くなるように変更する閾値変更手段を備えている。
【0025】
この実施例によれば、上記許容範囲を表す閾値が上記許容範囲を狭くするように変更されるため、ずれの度合いが強調されることになる。したがって、誤認識の要因分析結果がより得易くなり、何度も利用者に音声入力させる手間が不要になる。
【0026】
また、1実施例の音声処理装置では、上記誤認識要因出力手段は、上記検出された最もずれの大きい要因が前回の音声入力時と同じ要因である場合は、2番目にずれが大きい要因を上記誤認識となる要因として出力するようになっている。
【0027】
この実施例によれば、利用者に対して何度も同じ指示を出さないようにして、利用者の不快感が減らされる。
【0028】
また、1実施例の音声処理装置では、上記標準モデルは確率関数で表されており、上記要因別ずれ算出手段は、上記誤認識の要因に関する特徴量としてパワー,話速,話者性および周辺環境雑音の特徴量を求め、各要因毎に、上記標準モデルを表す確率関数における当該要因の特徴量に基づく確率値を用いて、当該標準モデルとのずれの度合いを算出するようになっている。
【0029】
この実施例によれば、入力音声波形の特徴量に基づいて、人間が直感的に理解し易い誤認識の要因に関する特徴量が求められる。さらに、上記ずれの度合いを累積確率値によって表すことによって、異なる要因間のずれの度合いを確率値で比較することが可能になる。したがって、ずれの度合いの値に特別な正規化を施すことなく、最もずれの大きな要因を検出することが可能になる。
【0030】
また、この発明の音声処理方法は、入力された音声の特徴量と標準モデルとの比較を行うに際して、上記入力された音声の特徴量に基づいて複数の誤認識の要因に関する特徴量を求め,各要因毎に上記特徴量の上記標準モデルからのずれの度合いを算出し、上記算出されたずれの度合いが許容範囲を表す閾値内にあるか否かを判定すると共に,上記閾値内にある場合には,上記ずれの度合いを上記許容範囲内にあることを表す所定値に変換し、上記算出されたずれの度合いと上記変換されたずれの度合いとに基づいて最もずれの度合いが大きい要因を検出し、上記検出された最もずれの大きい要因を誤認識となる要因として出力する。
【0031】
上記構成によれば、利用者に、誤認識となる原因を、例えば人間が直感的に理解し易い要因によって知らせることによって、結果的に誤認識に至った場合における利用者の不快感が減少される。
【0032】
また、この発明の音声処理プログラムは、コンピュータを、この発明の音声処理装置における要因別ずれ算出手段,ずれ度合変換手段,要因検出手段および誤認識要因出力手段として機能させる。
【0033】
上記構成によれば、利用者に、誤認識となる原因を、例えば人間が直感的に理解し易い要因によって知らせることによって、結果的に誤認識に至った場合における利用者の不快感が減少される。
【0034】
また、この発明のプログラム記録媒体は、この発明の音声処理プログラムが記録されている。
【0035】
上記構成によれば、コンピュータで読み出して実行することによって、利用者に、誤認識となる原因が、例えば人間が直感的に理解し易い要因によって提示される。こうして、結果的に誤認識に至った場合における利用者の不快感が減少される。
【0036】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。図1は、本実施の形態の音声処理装置におけるハードウェア構成を示す図である。
【0037】
図1において、1は数値演算・制御等の処理を行う中央演算処理装置であり、本実施の形態において説明する処理手順に従って演算・処理を行う。2はRAM(ランダム・アクセス・メモリ)やROM(リード・オンリ・メモリ)等で構成される記憶装置であり、中央演算処理装置1によって実行される処理手順(音声処理プログラム)やその処理に必要な一時データが格納される。3はハードディスク等で構成される外部記憶装置であり、音声処理用の標準パターン(テンプレート)や標準モデル等が格納される。4はマイクロホンやキーボード等で構成される入力装置であり、ユーザが発声した音声やキー入力された文字列を入力する。5はディスプレイやスピーカ等で構成される出力装置であり、分析結果あるいはこの分析結果を処理することによって得られた情報を出力する。6はバスであり、中央演算処理装置1〜入力装置5の各種装置を相互に接続する。尚、本音声処理装置のハードウェア構成は、図1に示す構成に加えて、インターネット等の通信ネットワークと接続する通信I/Fを備えていても構わない。
【0038】
但し、本実施の形態においては、音声処理装置および音声処理プログラムは独立しているが、他の装置の一部として組み込んだり、他のプログラムの一部として組み込むことも可能である。そして、その場合における入力は、上記他の装置やプログラムを介して間接的に行われることになる。
【0039】
以下、上記ハードウェア構成を踏まえて、本実施の形態において実行される処理について説明する。
【0040】
図2は、本実施の形態における音声処理装置の機能的構成を示すブロック図である。入力部11から、利用者の音声とそのラベル(発話内容のテキスト表記)とが入力される。そして、入力された音声は、A/D変換部12においてデジタル化される。このとき上記入力されたテキストはそのままである。
【0041】
デジタル化された信号は、特徴抽出部13によって、ある時間区間(フレーム)毎にMFCCベクトルに変換される。尚、上記MFCCを求める詳細な方法は、上述した「S.Young他著“The HTKBOOK”」を参考されたい。また、MFCCは特徴分析方法の1つであって、Linear prediction filter coefficients(線形予測フィルタ係数)等を用いても同じことである。
【0042】
尚、上記特徴抽出部13は、上述したように、本音声処理装置および音声処理プログラムを他の装置やプログラムに容易に組み込むことが可能なように、外部装置から特徴抽出されたパラメータが直接入力されることが可能なようになっている。その場合には、外部装置から入力されるパラメータと後に述べる標準モデルとの特徴分析方法を同じにする必要がある。例えば、上記標準モデルのパターンがMFCCで表現されている場合には、入力パラメータの特徴量もMFCC表現にする必要がある。このとき上記入力されたテキストはそのままである。
【0043】
上記特徴抽出部13によって抽出されたMFCCベクトル列は、セグメント分割部14によって、標準モデル格納部18に格納された標準モデルの集合を用いて音素毎のセグメントに分割される。この音素毎のセグメントへの分割は、以下のようにして行われる。
【0044】
すなわち、上記標準モデルがHMMである場合、HMMの状態iから状態jに遷移する確率をa_ijとし、HMMの状態jにおいてフレームtにおける特徴ベクトルOtを観測する確率をb_j(Ot)とすると、最終フレームTにおいてHMMの最終状態Nに至る対数尤度L_N(T)は、 次式
Figure 2004325635
に従って、ビタビアルゴリズムによって求められる。そして、L_N(T)が求められた際の(つまり、最終フレームTの最終状態Nに到達した際の)フレームに対する状態番号を総て記憶しておき、記憶した状態番号を特徴ベクトル(MFCCベクトル)に割り当てることによって、特徴ベクトル列を音素単位に分割する。
【0045】
尚、上述した本方法が難解だと思われる場合には、上述の「S.Young他著“The HTKBOOK”」を参考にして行っても差し支えない。
【0046】
こうして、音素毎のセグメントに分割された特徴ベクトル列は、上記テキスト表記されたラベルが付加されて要因分析部15に入力される。そして、要因分析部15によって、誤認識となる要因が調べられる。メッセージ作成部16は、要因分析部15による分析結果に従って、利用者へ提示するメッセージの文字列を作成する。最後に、メッセージ提示部17によって、上記作成された文字列に基づいて、出力装置5を構成する上記ディスプレイにメッセージを表示したり、内蔵するテキスト音声合成手段で合成音声に変換してスピーカから音声出力したりすることによって、利用者に通知される。
【0047】
但し、本音声処理装置および音声処理プログラムが、他の装置や他のプログラムの一部として組み込まれている場合には、メッセージ提示部17は、上記作成された文字列を上記他の装置に返すことになる。
【0048】
すなわち、上記A/D変換部12,特徴抽出部13,セグメント分割部14,要因分析部15およびメッセージ作成部16とメッセージ提示部17の一部とは上記中央演算処理装置1で構成され、入力部11は上記入力装置4で構成され、メッセージ提示部17の上記一部の残りは上記出力装置5で構成され、標準モデル格納部18は上記外部記憶装置3で構成されるのである。また、中央演算処理装置1は、上述した各部12〜17による本実施の形態に係る処理動作の他に、演算・判断処理,計時処理および入出力処理等の各種の処理動作をも行うようになっている。
【0049】
以下、上記要因分析部15による誤認識要因の分析と、メッセージ作成部16によるメッセージの作成とについて、詳細に説明する。図3および図4は、要因分析部15およびメッセージ作成部16によって実行される要因分析・メッセージ作成処理動作のフローチャートである。尚、ステップS20およびステップS22はメッセージ作成部16による処理であり、その他のステップは要因分析部15による処理である。
【0050】
上記セグメント分割部14によるセグメントへの分割が終了すると要因分析・メッセージ作成処理動作がスタートする。そして、先ず、ステップS1で、セグメント分割部14からの入力があるか否かが判別される。そして、入力があればステップS2に進む。ステップS2で、セグメント分割部14からの上記セグメント毎に分割されてラベルが付けられた特徴ベクトルが取り込まれる。ステップS3で、セグメント分割部14からの連続した入力回数を計時・記憶しているカウンタの値に基づいて、初回の入力であるか否かが判別される。その結果、初回の入力であればステップS5に進み、そうでなければステップS4に進む。
【0051】
ステップS4で、後に実行される上記特徴ベクトルと標準モデルとの離れの度合が許容範囲内であるかを判定する際に用いる閾値が、初回入力時に用いる標準閾値から入力回数に応じた閾値に変更される。ここで、上記閾値は、入力回数が増加するに従って標準閾値から段階的に減少するように設定されている。また、上記閾値は、上記特徴ベクトルと標準モデルとの「ずれ(離れ)の度合い」が許容範囲内である場合に上記ずれ度合を所定値にするためにも用いられ、ずれの要因毎に予め設定されて外部記憶装置3等に記憶されている。尚、上記閾値は、音声認識システムの認識性能に依存するので、予め認識率95%以上の話者の発話から求めた特徴ベクトルに基づいて実験的に決めておく。
【0052】
ステップS5で、発話入力前における非音声区間のセグメントと雑音モデルとの離れ度合が算出される。尚、上記雑音モデルは、予め収録された雑音から学習によって求められて、標準モデル格納部18に格納されている。また、上記非音声区間のセグメント(特徴ベクトル列)と雑音モデルとの離れ度合は、上記雑音モデルが与えられた際に非音声区間の特徴ベクトル列を観測する対数尤度の累積確率値として求められる。
【0053】
具体的には、上記雑音モデルをMnとし、雑音の特徴ベクトル列をXとする。その場合、雑音モデルMnが与えられた際に入力特徴ベクトル列Xを観測する対数尤度をL(X|Mn)とし、雑音特徴ベクトル列のフレーム数(継続長)をTとすると、継続長Tで正規化した対数尤度x(=L(X|Mn)/T)(以下、正規化対数尤度と言う)の累積確率値Snは、次式で表される。
Figure 2004325635
ここで、Nn(x;μn,σn)は、確率変数xについて平均値μnと分散値σnとを有する単一ガウス分布であり、学習データから予め推定しておく。また、式中の積分の範囲は、入力雑音の正規化対数尤度<μnである場合は、「a」が学習データ中の正規化対数尤度の最小値であり、「b」が入力雑音の正規化対数尤度である。また、入力雑音の正規化対数尤度>μnである場合は、「a」が入力雑音の正規化対数尤度であり、「b」が学習データ中の正規化対数尤度の最大値である。但し、確率密度関数を単一ガウス分布として表すのは計算量を削減するためであり、混合ガウス分布等を用いても差し支えない。
【0054】
上記累積確率値Snは、その値が小さい程、入力雑音の正規化対数尤度が学習データの正規化対数尤度xの単一ガウス分布の平均μnから離れていることを意味し、入力雑音の特徴が学習した雑音モデルから大きくずれていることを示す。
【0055】
ステップS6で、上記算出された非音声区間のセグメント(入力雑音)と雑音モデルとの離れ度合(累積確率値Sn)は、上記ステップS4において設定された閾値あるいは上記標準閾値よりも小さいか否か、つまり、入力雑音の特徴が雑音モデルから大きくずれているか否かが判別される。その結果、大きくずれている場合は、ビタビアルゴリズムによって求められる最尤状態経路が信頼できないので、ステップS20に進む。一方、ずれていない場合にはステップS7に進む。
【0056】
ステップS7で、入力音声のパワーの標準分布からの離れ度合が算出される。この場合の離れ度合は、上記ステップS5の場合と同様に、特徴ベクトルのパワーの平均値の累積確率値として求められる。
【0057】
具体的には、先ず、入力音声の特徴ベクトルのパワーが、HMMの各状態毎に平均化される。次に、音素のパワーの累積確率値Spが、次式によって表される各状態inの累積確率値の中央値で近似することによって求められる。
Figure 2004325635
ここで、Np_in(p_in;μp_in,σp_in)は、HMMの状態inに割り当てられたパワーの平均値p_inである確率変数について平均値μp_inと分散値σp_inとを有する単一ガウス分布であり、学習データから予め推定しておく。また、式中の積分範囲は、入力音声における状態inに割り当てられたパワーの平均値<μp_inである場合には、「a」が学習データのパワーの最小値であり、「b」が入力音声のパワーの平均値である。また、入力音声における状態inに割り当てられたパワーの平均値>μp_inである場合には、「a」が入力音声のパワーの平均値であり、「b」が学習データのパワーの最大値である。但し、確率密度関数を単一ガウス分布として表すのは計算量を削減するためであり、例えば混合ガウス分布等を用いても差し支えない。
【0058】
上述したように、各状態毎に確率過程を独立と見なして各状態の累積確率値の中央値で音素のパワーの累積確率値Spの近似を行うことによって、音素の各状態のパワーを確率変数とした結合確率密度関数Prob(i1,i2,…,in)の複雑な推定や積分をすることが必要ないのである。
【0059】
上記累積確率値Spは、その値が大きい程、標準的な発話スタイルに近いことを示している。また、積分の範囲から、標準的な発話スタイルよりもパワーが小さいのか(入力パワーの平均値<μp_in)あるいは大きいのか(入力パワーの平均値>μp_in)が判別可能となるのである。
【0060】
ステップS8で、上記算出され入力音声のパワーと標準分布との離れ度合(累積確率値Sp)は、上記ステップS4において設定された閾値または上記標準閾値よりも大きい場合には、累積確率値Spの値は定数「1」に変換されて出力される。この処理によって、入力音声のパワーと標準モデルとのずれが小さい場合には、ずれの度合いを無視できるようになる。
【0061】
ステップS9で、入力音声の話速の標準分布からの離れ度合が算出される。この場合の離れ度合は、上記ステップS5の場合と同様に、継続長の累積確率値として求められる。
【0062】
具体的には、先ず、入力音素のセグメントに属する特徴ベクトルの総フレーム数から継続長Tが計算される。この継続長Tは、音素を発声するのに掛った時間であり、その逆数は話速を表す。次に、継続長の累積確率値STが次式によって求められる。
Figure 2004325635
ここで、P(x;λ)は、確率変数xについて平均値λを有するポアソン分布であり、学習データから予め推定しておく。また、式中の積分の範囲は、入力音声の音素の継続長T<λである場合には、「a」が学習データの最小値であり、「b」がTである。また、入力音声の音素の継続長T>λである場合には、「a」がTであり、「b」が学習データの最大値である。
【0063】
上記累積確率値STは、その値が大きい程、継続長Tが標準分布に近いことを示す。また、積分の範囲から、標準的な発話スタイルより話速が速いのか(継続長T<λ)あるいは遅いのか(継続長T>λ)が判別可能となるのである。
【0064】
ステップS10で、上記算出された入力音声の話速と標準分布との離れ度合(累積確率値ST)は、上記ステップS4において設定された閾値または上記標準閾値よりも大きい場合は、累積確率値STの値は定数「1」に変換されて出力される。この処理によって、入力音声の話速と標準モデルとのずれが小さい場合には、ずれの度合いを無視できるようになる。
【0065】
ステップS11で、入力話者における音響特性(話者性)の標準分布からの離れ度合が算出される。この場合の離れ度合は、上記ステップS5の場合と同様に、標準モデルが与えられた際に入力特徴ベクトル列を観測する対数尤度の累積確率値として求められる。
【0066】
具体的には、上記標準モデルをMsとし、入力特徴ベクトル列をXとする。その場合、標準モデルMsが与えられた際に入力特徴ベクトル列Xを観測する対数尤度をL(X|Ms)とし、入力特徴ベクトル列Xのフレーム数(継続長)をTとすると、継続長Tで正規化した正規化対数尤度y(=L(X|Ms)/T)の累積確率値Ssは、次式で表される。
Figure 2004325635
ここで、Ns(y;μs,σs)は、確率変数yについて平均値μsと分散値σsとを有する単一ガウス分布であり、学習データから予め推定しておく。また、式中の積分値の範囲は、入力特徴ベクトルの正規化対数尤度<μsである場合は、「a」が学習データ中の正規化対数尤度の最小値であり、「b」が入力特徴ベクトルの正規化対数尤度である。また、入力特徴ベクトルの正規化対数尤度>μsである場合には、「a」が入力特徴ベクトルの正規化対数尤度であり、「b」が学習データ中の正規化対数尤度の最大値である。但し、確率密度関数を単一ガウス分布として表すのは計算量を削減するためであり、混合ガウス分布等を用いても構わない。
【0067】
上記累積確率値Ssは、その値が大きい程、入力話者の音響特性は標準話者の音響特性に近いことを示す。但し、上記発話スタイルである入力音声のパワーや話速度の場合と異なって、積分の範囲は意味をなさない。
【0068】
ステップS12で、上記算出された入力話者における音響特性と標準分布との離れ度合(累積確率値Ss)は、上記ステップS4において設定された閾値あるいは上記標準閾値よりも大きい場合には、累積確率値Ssの値は定数「1」に変換されて出力される。この処理によって、入力話者の音響特性と標準モデルとのずれが小さい場合には、ずれの度合いを無視できるようになる。
【0069】
ステップS13で、上記ステップS8,ステップS10およびステップS12において設定された各累積確率値Sp,ST,Ssを直接比較することによって、最も小さい値を有して標準モデルから一番離れている要因が、認識誤りの要因であると判定される。その際に、上記ステップS8,ステップS10およびステップS12において総ての要因の累積確率値が1に変換されている場合には、本ステップの処理は行われない。ステップS14で、上記ステップS13による判定結果に基づいて当該セグメントの分析メッセージが作成され、当該セグメントのラベル名および各要因の累積確率値Sp,ST,Ssと対応付けられて、記憶装置2のRAM等に保存される。その場合における分析メッセージの作成は、図5の<詳細情報>に示すように、定型キーワードに、上記ステップS13における判定結果を埋め込むことによって行われる。但し、判定結果がない場合には分析メッセージは作成されない。
【0070】
ステップS15で、全セグメントの入力が終了したか否かが判別される。その結果終了した場合にはステップS16に進み、そうでなければ上記ステップS7に戻って次のセグメントの処理に移行する。
【0071】
ステップS16で、上記ステップS14において記憶装置2のRAM等に保存された全セグメントの累積確率値Sp,ST,Ssに基づいて、各々の要因iについて発話全体のスコアSi_total(同時確率)が次式によって求められる。
Figure 2004325635
そして、こうして求められ発話全体のスコアSi_totalが最小値を呈する要因をバッファに保存しておく。
【0072】
ステップS17で、上記ステップS16における発話全体のスコア算出の結果に基づいて、総ての要因が同スコアであるか否かが判別される。その結果、総ての要因が同スコアである場合にはステップS21に進み、そうでない場合にはステップS18に進む。ステップS18で、上記ステップS16において求められた要因と前の入力において求められた誤認識の要因とが同じか否かが判別される。その結果、同じ場合にはステップS19に進み、異なる場合にはステップS20に進む。但し、初回入力の場合には、総てのバッファが初期化されている本ステップにおける判別結果は偽(NO)となる。ステップS19で、発話全体の誤認識の要因が次に(2番目に)小さいスコアの要因に変更される。こうすることによって、利用者に対して同じ要因が提示されることが防止される。
【0073】
ステップS20で、ユーザに対して誤認識の要因、つまり最小スコアを有する要因が、図5の上側半分に示すごとくメッセージの形式で提示される。その際に、必要に応じて、図5の<詳細情報>に示すごとく、上記ステップS14において作成された分析メッセージも合せて提示される。但し、上記ステップS6から本ステップに分岐した場合には、誤り原因が雑音であることが提示される。そうした後、入力回数を0に初期化して、今回の入力音声に対する要因分析・メッセージ作成処理動作を終了する。
【0074】
ステップS21で、上記ステップS8,ステップS10およびステップS12において総ての要因における累積確率値の値が定数「1」に変換された場合等には総ての要因のスコアが同一になり、総ての要因が特に標準モデルからずれてはいないことになる。ところが、このようなことは、突発的な雑音が発生した場合に起きることが多い。そのために、本ステップでは、誤認識の要因が突発ノイズと推定される。ステップS22で、ユーザに対して突発的な雑音があったか否かを確認し、もう一度入力を促すメッセージが提示される。そうした後、入力回数がインクリメントされて、上記ステップS1に戻って同じ音声の再入力待ちの状態となる。
【0075】
このように、入力回数をカウントしておき、その入力回数に応じて上記標準閾値(つまり、標準的な範囲)を狭くすることによって、総ての要因のスコアが同一になることを防ぎ、連続して誤り原因が分らなくなることを防ぐのである。つまり、誤認識の要因に関して何らかの結果を出して、利用者に対する不快感を少なくすることができるのである。
【0076】
上記構成を有して上述のごとく動作する音声処理装置は、例えば音声認識システムに組み込まれることによって、次のように利用される。すなわち、音声認識システムのシステム本体側の特徴抽出部から、入力音声の特徴ベクトル列とそのラベルが特徴抽出部13に入力される。そして、セグメント分割部14および要因分析部15によって上述のようにして誤認識となる要因が分析され、メッセージ作成部16によって上記誤認識となる要因を提示するためのメッセージが作成される。そうすると、このメッセージが、メッセージ提示部17によって、システム本体側に返送されるのである。こうすることによって、上記システム本体側では、入力音声の認識に失敗した場合には、本音声処理装置側から返送されてきた当該誤認識音声に関する上記メッセージをシステム本体側の出力装置に表示するのである。さらに、上記誤認識となる要因が発話スタイルおよび周辺雑音である場合には、無駄な適応を避けることも可能になるのである。
【0077】
こうすることによって、利用者は、誤認識や信頼度低下の原因をより具体的に知ることができ、その原因が発話スタイルに関するものであれば即座に対応することができる。さらに、誤認識や信頼度低下の原因が分らないことに起因する不快感を無くすことができるのである。
【0078】
上述した本音声処理装置が組み込まれた音声認識システムの機能は、本音声処理プログラムを音声認識装置の音声認識プログラム中に組み込んでも達成することができる。勿論、本音声処理装置を音声認識装置とは独立して用い、音声認識装置の使用者に、本音声処理装置を用いることによって、音声認識時に起るであろう誤認識の要因を予め知らせることもできる。この場合には、音声認識装置の使用者が自分の発話スタイルに標準との差があることを予め知ることによって、後の音声認識を効率良く行うことができることになる。
【0079】
以上のごとく、上記実施の形態においては、上記セグメント分割部14によって、入力音声の特徴ベクトル列を標準モデルとの比較によって音素毎のセグメントに分割する。そして、要因分析部15によって、各セグメント毎の特徴ベクトル列に基づいて複数の要因に関する特徴量を求め、各要因毎に特徴量と標準モデルとのずれの度合いを算出し、その算出されたずれの度合が許容範囲内に在るか否かを入力回数に応じて狭く設定される閾値に基づいて判定する。そして、許容範囲内に在る場合には、そのずれの度合を「1」に変換する。そうした後、上記各要因の判定結果から最もずれの大きい要因を検出する。そして、メッセージ提示部17によって、上記検出結果に基づいて、最もずれの大きい要因を提示するようにしている。
【0080】
したがって、音声波形の特徴ベクトルから例えば人間が直感的に理解し易い誤認識の要因を抽出して、最もずれの大きな要因を検出することによって、何が誤認識の原因となり得るかを推定することができる。したがって、利用者に、誤認識となる原因を知らせることができ、利用者の不快感を減らすことができるのである。
【0081】
その際における上記誤認識の主な原因として、次の4項目
(A)音声パワーの標準モデルからのずれ
(B)音声話速の標準モデルとのずれ
(C)話者の音響特性
(D)周辺雑音
を用いている。そのうちの要因(A),(B)は上記発話スタイルである。したがって、本実施の形態によれば、誤認識となる原因を、話者の音響特性と発話スタイルと周辺雑音とに区別して利用者に知らせることができる。そのために、利用者は、誤認識となる要因が要因(A),(B),(D)である場合には、音声認識時に的確に対応することが可能になる。
【0082】
また、上記要因のうちの要因(A)〜要因(C)と要因(D)との検出方法は少し異なっている。すなわち、利用者の発話区間内に埋もれた雑音の検出は非常に難しい。そのため、図6に示すように、利用者の発声前における無音区間によって周辺雑音の検出を行うのである。周辺雑音は略定常であると考えられ、このような検出方法でも問題はないと考えられる。
【0083】
但し、利用者の発声区間内に、警笛や駅アナウンス等の突発ノイズが発生した場合には誤認識の要因となる。そして、このような突発ノイズは、要因(A)〜要因(C)の総てのずれに同様に作用するため、突発ノイズを要因として特定することが困難である。そこで、本実施の形態においては、利用者の発話区間内において検出された要因(A)〜要因(C)のずれが略同じである場合に、誤認識要因は突発的な雑音であると推定するのである。但し、その場合には、誤認識要因を提示せずに、メッセージ提示部17によって再入力を促すメッセージを出力するようにしている。そして、音声の再入力があった場合には、上記閾値を更に小さく設定するようにしている。こうすることによって、突発的な雑音に対して頑健に誤り分析を行うことができ、ずれの度合いを強調することによって誤り分析結果が得易くなり、何度も利用者に発声させる手間が不要になるのである。
【0084】
ところで、上記実施の形態における上記中央演算処理装置1による上記要因別ずれ算出手段,ずれ度合変換手段,要因検出手段および誤認識要因出力手段としての機能は、プログラム記録媒体に記録された音声処理プログラムによって実現される。上記実施の形態におけるプログラム記録媒体は、上記ROMでなるプログラムメディアである。または、上記外部補助記憶装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、プログラムメディアから音声処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、上記RAMに設けられたプログラム記憶エリア(図示せず)にダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアから上記RAMのプログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【0085】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD(コンパクトディスク)‐ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタル多用途ディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【0086】
また、上記実施の形態における音声処理置は、インターネット等の通信ネットワークと通信I/Fを介して接続可能な構成を有している場合には、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【0087】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【0088】
【発明の効果】
以上より明らかなように、この発明は、入力された音声の特徴量に基づいて複数の誤認識の要因に関する特徴量を求め、各要因毎に上記特徴量の上記標準モデルからのずれの度合いを算出し、最もずれの度合いが大きい要因を検出して誤認識となる要因として出力するので、利用者に、誤認識となる原因を、例えば人間が直感的に理解し易い要因によって知らせることができる。したがって、音声認識の際に誤認識に至った場合に、利用者は何故誤認識となったのかを明確に知ることができる。したがって、利用者が、誤認識となった原因が分らずに不快な気分になることを回避することができるのである。
【0089】
さらに、上記誤認識の要因に関する特徴量としてパワー,話速,話者性および周辺環境雑音の特徴量を求めるようにすれば、誤認識となる原因を、話者の音響特性と発話スタイルと周辺雑音とに区別して利用者に知らせることができる。したがって、利用者は、誤認識となる要因がパワー,話速および周辺環境雑音である場合には、音声認識時に的確に対応することが可能になる。
【0090】
また、音声認識装置とは独立した構成となっているため、状況によっては、音声認識装置と組み合せて音声認識システムを構成することによって、音声認識の効率と認識率とを高めることができる。
【図面の簡単な説明】
【図1】この発明の音声処理装置におけるハードウェア構成を示す図である。
【図2】図1に示す音声処理装置の機能的構成を示すブロック図である。
【図3】図2における要因分析部およびメッセージ作成部によって実行される要因分析・メッセージ作成処理動作のフローチャートである。
【図4】図3に続く要因分析・メッセージ作成処理動作のフローチャートである。
【図5】図2におけるメッセージ提示部によって提示されるメッセージの一例を示す図である。
【図6】図2におけるセグメント分割部への入力音声の一例を示す図である。
【符号の説明】
1…中央演算処理装置、
2…記憶装置、
3…外部記憶装置、
4…入力装置、
5…出力装置、
11…入力部、
12…A/D変換部、
13…特徴抽出部、
14…セグメント分割部、
15…要因分析部、
16…メッセージ作成部、
17…メッセージ提示部、
18…標準モデル格納部。

Claims (8)

  1. 入力された音声の特徴量と標準モデルとの比較を行う音声処理装置であって、
    上記入力された音声の特徴量に基づいて複数の誤認識の要因に関する特徴量を求め、各要因毎に上記特徴量の上記標準モデルからのずれの度合いを算出する要因別ずれ算出手段と、
    上記算出されたずれの度合いが許容範囲を表す閾値内にあるか否かを判定すると共に、上記閾値内にある場合には、上記ずれの度合いを上記許容範囲内にあることを表す所定値に変換するずれ度合変換手段と、
    上記算出されたずれの度合いと上記変換されたずれの度合いとに基づいて、最もずれの度合いが大きい要因を検出する要因検出手段と、
    上記検出された最もずれの大きい要因を誤認識となる要因として出力する誤認識要因出力手段
    を備えたことを特徴とする音声処理装置。
  2. 請求項1に記載の音声処理装置において、
    上記誤認識要因出力手段は、上記検出された最もずれの大きい要因が複数存在する場合には、誤認識要因を出力せずに、音声の入力を再度行うことを促すメッセージを出力するようになっていることを特徴とする音声処理装置。
  3. 請求項2に記載の音声処理装置において、
    上記誤認識要因出力手段による上記メッセージの出力に従って音声が再度入力された場合には、上記許容範囲を表す閾値を上記許容範囲が狭くなるように変更する閾値変更手段を備えたことを特徴とする音声処理装置。
  4. 請求項1記載の音声処理装置において、
    上記検出された最もずれの大きい要因が前回の音声入力時と同じ要因であるか否かを判定する要因判定手段を備えて、
    上記誤認識要因出力手段は、上記検出された最もずれの大きい要因が前回の音声入力時と同じ要因である場合には、2番目にずれが大きい要因を上記誤認識となる要因として出力するようになっていることを特徴とする音声処理装置。
  5. 請求項1記載の音声処理装置において、
    上記標準モデルは、確率関数で表されており、
    上記要因別ずれ算出手段は、上記誤認識の要因に関する特徴量としてパワー,話速,話者性および周辺環境雑音の特徴量を求め、各要因毎に、上記標準モデルを表す確率関数における当該要因の特徴量に基づく確率値を用いて、当該標準モデルとのずれの度合いを算出するようになっている
    ことを特徴とする音声処理装置。
  6. 入力された音声の特徴量と標準モデルとの比較を行う音声処理方法であって、
    上記入力された音声の特徴量に基づいて複数の誤認識の要因に関する特徴量を求め、各要因毎に上記特徴量の上記標準モデルからのずれの度合いを算出し、
    上記算出されたずれの度合いが許容範囲を表す閾値内にあるか否かを判定すると共に、上記閾値内にある場合には、上記ずれの度合いを上記許容範囲内にあることを表す所定値に変換し、
    上記算出されたずれの度合いと上記変換されたずれの度合いとに基づいて、最もずれの度合いが大きい要因を検出し、
    上記検出された最もずれの大きい要因を誤認識となる要因として出力する
    ことを特徴とする音声処理方法。
  7. コンピュータを、
    請求項1における要因別ずれ算出手段,ずれ度合変換手段,要因検出手段および誤認識要因出力手段
    として機能させることを特徴とする音声処理プログラム。
  8. 請求項7に記載の音声処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
JP2003118305A 2003-04-23 2003-04-23 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 Expired - Fee Related JP4074543B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003118305A JP4074543B2 (ja) 2003-04-23 2003-04-23 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003118305A JP4074543B2 (ja) 2003-04-23 2003-04-23 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2004325635A true JP2004325635A (ja) 2004-11-18
JP4074543B2 JP4074543B2 (ja) 2008-04-09

Family

ID=33497882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003118305A Expired - Fee Related JP4074543B2 (ja) 2003-04-23 2003-04-23 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP4074543B2 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251800A (ja) * 2005-03-07 2006-09-21 Samsung Electronics Co Ltd ユーザ適応型の音声認識方法及び音声認識装置
JP2007264126A (ja) * 2006-03-27 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2008122483A (ja) * 2006-11-08 2008-05-29 Canon Inc 情報処理装置及び方法並びにプログラム
JP2008256802A (ja) * 2007-04-02 2008-10-23 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2010186126A (ja) * 2009-02-13 2010-08-26 Nec Corp 入力音声評価装置、入力音声の評価方法および評価プログラム
JP2010210816A (ja) * 2009-03-09 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP2012047820A (ja) * 2010-08-24 2012-03-08 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法とプログラム
JP2017037176A (ja) * 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
JP2017097092A (ja) * 2015-11-20 2017-06-01 株式会社Jvcケンウッド 端末装置、通信方法
JP2017097233A (ja) * 2015-11-26 2017-06-01 日本電信電話株式会社 異常音検出装置、方法及びプログラム
JP2017161581A (ja) * 2016-03-07 2017-09-14 株式会社デンソー 音声認識装置、音声認識プログラム
WO2018016139A1 (ja) * 2016-07-19 2018-01-25 ソニー株式会社 情報処理装置、および情報処理方法
JP2018072697A (ja) * 2016-11-02 2018-05-10 日本電信電話株式会社 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251800A (ja) * 2005-03-07 2006-09-21 Samsung Electronics Co Ltd ユーザ適応型の音声認識方法及び音声認識装置
JP4709663B2 (ja) * 2005-03-07 2011-06-22 三星電子株式会社 ユーザ適応型の音声認識方法及び音声認識装置
US7996218B2 (en) 2005-03-07 2011-08-09 Samsung Electronics Co., Ltd. User adaptive speech recognition method and apparatus
JP2007264126A (ja) * 2006-03-27 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
US7949523B2 (en) 2006-03-27 2011-05-24 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for processing voice in speech
JP2008122483A (ja) * 2006-11-08 2008-05-29 Canon Inc 情報処理装置及び方法並びにプログラム
JP2008256802A (ja) * 2007-04-02 2008-10-23 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2010186126A (ja) * 2009-02-13 2010-08-26 Nec Corp 入力音声評価装置、入力音声の評価方法および評価プログラム
JP2010210816A (ja) * 2009-03-09 2010-09-24 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP2012047820A (ja) * 2010-08-24 2012-03-08 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法とプログラム
JP2017037176A (ja) * 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
WO2017026239A1 (ja) * 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
US10540969B2 (en) 2015-08-10 2020-01-21 Clarion Co., Ltd. Voice operating system, server device, on-vehicle device, and voice operating method
JP2017097092A (ja) * 2015-11-20 2017-06-01 株式会社Jvcケンウッド 端末装置、通信方法
JP2017097233A (ja) * 2015-11-26 2017-06-01 日本電信電話株式会社 異常音検出装置、方法及びプログラム
JP2017161581A (ja) * 2016-03-07 2017-09-14 株式会社デンソー 音声認識装置、音声認識プログラム
WO2017154358A1 (ja) * 2016-03-07 2017-09-14 株式会社デンソー 音声認識装置、音声認識プログラム
WO2018016139A1 (ja) * 2016-07-19 2018-01-25 ソニー株式会社 情報処理装置、および情報処理方法
JPWO2018016139A1 (ja) * 2016-07-19 2019-05-09 ソニー株式会社 情報処理装置、および情報処理方法
JP7014163B2 (ja) 2016-07-19 2022-02-01 ソニーグループ株式会社 情報処理装置、および情報処理方法
JP2018072697A (ja) * 2016-11-02 2018-05-10 日本電信電話株式会社 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム

Also Published As

Publication number Publication date
JP4074543B2 (ja) 2008-04-09

Similar Documents

Publication Publication Date Title
US11062694B2 (en) Text-to-speech processing with emphasized output audio
JP6705008B2 (ja) 話者照合方法及びシステム
US10276149B1 (en) Dynamic text-to-speech output
US9484030B1 (en) Audio triggered commands
EP1936606B1 (en) Multi-stage speech recognition
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US20160379638A1 (en) Input speech quality matching
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2017513047A (ja) 音声認識における発音予測
KR20060050361A (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP4074543B2 (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
WO2020044543A1 (ja) 情報処理装置、情報処理方法及びプログラム
US20180012602A1 (en) System and methods for pronunciation analysis-based speaker verification
JP3919475B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
WO2021118793A1 (en) Speech processing
JP5296455B2 (ja) 話者識別装置、及びコンピュータプログラム
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP4226273B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP3457578B2 (ja) 音声合成を用いた音声認識装置および音声認識方法
JP3277522B2 (ja) 音声認識方法
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110201

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120201

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130201

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees