JP2012234204A - 基準変換手段を伴なう音声認識装置及び方法 - Google Patents

基準変換手段を伴なう音声認識装置及び方法 Download PDF

Info

Publication number
JP2012234204A
JP2012234204A JP2012175359A JP2012175359A JP2012234204A JP 2012234204 A JP2012234204 A JP 2012234204A JP 2012175359 A JP2012175359 A JP 2012175359A JP 2012175359 A JP2012175359 A JP 2012175359A JP 2012234204 A JP2012234204 A JP 2012234204A
Authority
JP
Japan
Prior art keywords
reference information
channel
speech recognition
recognition device
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012175359A
Other languages
English (en)
Other versions
JP5425280B2 (ja
Inventor
F Bartosik Heinrich
エフ バールトシック,ヘンリッヒ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Austria GmbH
Original Assignee
Nuance Communications Austria GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Austria GmbH filed Critical Nuance Communications Austria GmbH
Publication of JP2012234204A publication Critical patent/JP2012234204A/ja
Application granted granted Critical
Publication of JP5425280B2 publication Critical patent/JP5425280B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Navigation (AREA)
  • Machine Translation (AREA)

Abstract

【課題】基準変換手段を伴なう音声認識装置及び方法を提供する。
【解決手段】第1の受信チャネル21と第2の受信チャネル25とを含む複数の受信チャネルを介して受信可能な音声を認識するための音声認識装置8であって、音声認識装置は複数の基準話者による単語の発音を特徴とする話者に独立の基準情報を蓄積するための蓄積手段41〜43であって、前記蓄積手段は、前記第1の受信チャネルに対応する基準情報を、前記第2の受信チャネルに対応する基準情報に変換して第1の変換を更に蓄積する蓄積手段と、第1の適応された基準情報を取得するように、前記第1の受信チャネルを介して話すユーザの音声の特徴に従って、話者に独立した基準情報に適応するために第1の受信チャネルを介して前記ユーザから得られた音声情報を用い、前記第1の変換を用いて前記第1の適応された基準情報を、前記第2の受信チャネルに適応するためのユーザ適応手段37とを有する。
【選択図】図2

Description

本発明は、音声認識装置、音声認識方法、基準決定方法、及びコンピュータプログラムに関連する。
音声認識装置、音声認識方法、基準決定方法、及び、コンピュータプログラム製品は、例えば、US−A5,890,113により既知である。既知の音声認識装置は、基準情報を蓄積する基準蓄積手段を有する。基準情報は、複数の基準話者による単語の発音の形式の分析を介して、基準決定方法中に音声認識装置の製造者により決定される。各規準話者は特定の単語をマイクロフォンに発音し、そして、分析手段がマイクロフォンに入力された音声情報からいわゆる特徴ベクトルを分析し、その特徴ベクトルは基準話者の音声情報の周波数成分の時間パターンを記述する。テキストの単語の各音素の発音に対する全ての基準話者の特徴ベクトルの平均値を構成することにより、個々の基準話者の特異性が平均化されそして、このように決定された基準情報は話者に依存する音声認識システムに適する。基準話者の音声情報の特徴ベクトルは、受信チャネルを構成する入力装置(マイクロフォン、電話等...)の歪にも依存するので、基準決定方法と共に、基準話者は音声情報の特徴ベクトルの最小な歪を可能とするマイクロフォンを使用する。基準蓄積装置に蓄積された既知の音声認識装置のこの基準情報は、音声認識装置の認識率を改善するために、ユーザにより使用される入力装置に、ユーザにより適応される。この目的のために、基準蓄積手段内に蓄積された基準情報を入力装置により発生されたひずみに適応させるために、既知の音声認識装置は、チャネル適応手段を受ける。この歪は、音声情報の周波数ベクトル内で作られ、このベクトルは、音声認識装置の分析手段により発生される。
基準蓄積手段内に蓄積された既知の音声認識装置の基準情報は、このユーザの音声認識装置の認識率を更に改善するために、音声認識装置のユーザにより、単語の発音の形式に適応される。この目的のために、既知の音声認識装置は、基準蓄積手段内に蓄積され且つ既にユーザにより使用される受信チャネルに適応される基準情報を、単語の発音のユーザの形式に適応させるためのユーザ適応手段を有する。受信チャネルとユーザに適応される基準情報は、音声情報又は音声情報から決定される特徴ベクトルの1つにそれぞれ割り当てられるテキスト情報を決定するために、音声認識装置の音声認識手段により使用される。
既知の音声認識装置、音声認識方法、基準決定方法及びコンピュータプログラム製品と共に、異なる入力装置を使用するときに、ユーザはこれらの入力装置の各々に基準情報を適応させるという欠点があることがわかった。これは、例えば、習慣的にコンピュータに接続されたマイクロフォンでテキストを口述するがしかし、時々、電話によりコンピュータに命令を与えそして、時々、コンピュータにより構成された音声認識装置により後に認識されるテキストを、途中で口述するためにディジタル口述装置を使用するユーザに関係する。そのようにするときには、ユーザは、基準情報をユーザ及び入力装置に適応させ且つ異なる入力装置が使用されるときに比較的よい認識結果が得られるようにするために、ユーザの入力装置の各々に対するそれぞれの入力装置で予め定義されたテキストを入力する。
本発明の目的は、上述の問題を除去し且つ、前文に定義された形式の、ユーザはもはや基準情報を異なる入力チャネルに適応させる必要のない、音声認識装置、音声認識方法、基準決定方法及び、コンピュータプログラム製品を提供することである。この目的は、請求項1の特徴的な部分の手段に従った音声認識装置、請求項4の特徴的な部分の手段に従った音声認識方法、請求項7の特徴的な部分の手段に従った基準決定方法、及び、請求項9の特徴的な部分の手段に従ったコンピュータプログラム製品により達成される。
これは、典型的な受信チャネルに適応された典型的な基準情報に加えて、基準を決定する方法と共に、決定された基準情報を他の典型的な基準チャネルに適応させるために、変換マトリクスが各々の更なる典型的な受信チャネルに対して決定される。これは、音声認識装置が、全ての入力装置で、実際的な均一で良好な認識率に達するために、これらの典型的な入力装置の1つのみで、基準情報を単語の発音のユーザの形式に適応させることを必要とするという優位点を提供する。そして、基準変換手段は、ユーザ及び典型的な受信装置基準情報に適応された基準情報から、ユーザにより使用され得るそれぞれの更なる典型的な受信装置又は典型的な受信チャネルに対して、決定する。例えば、以下の典型的な受信チャネルに対して、音声情報が、マイクロフォン、アナログ又はディジタル電話ネットワークを介した電話、移動電話又は、ディジタル口述装置により受信される、変換マトリクスと適応基準情報が決定される。
請求項2又は請求項5に従った手段により、ユーザとこれらの典型的な受信チャネルの1つに適応された基準情報は、ユーザによる更なる動作なしに、自動的に他の全ての典型的な受信チャネルに適応される。
請求項3又は請求項6に従った手段により、音声情報の周波数サブレンジは、特徴ベクトルがそれぞれの受信チャネルから受信される周波数スペクトルの最も可能な画像を与えるようにするために、これらの周波数サブレンジを特徴とする特徴ベクトル内で表現される。例えば、4kHzまでの周波数スペクトルを有する音声情報信号が典型的な受信チャネルからチャネルから受信される場合には、受信された音声情報を記述するために、4kHzよりも高い周波数サブレンジ内の音声情報を記述する特徴ベクトルは決定されない。
請求項8に記載された手段は、決定された基準情報又は決定された変換マトリクスが典型的な受信チャネルの特性を記述し且つ個々の特殊性がフィルタ除去されるという優位性を提供する。例えば、20の異なるディジタル口述装置が、典型的なディジタル口述装置の受信チャネルをコピーするために基準決定方法に関して使用される。
基準決定ソフトウェアが実行され且つ変換マトリクスを発生する変換マトリクス発生器を構成するコンピュータのブロック図である。 コンピュータとそれにより音声認識ソフトウェアが実行され且つ基準変換手段を有する音声認識装置を構成するブロック図である。
本発明は、変換マトリクス発生器の図1に示す実施例と、基準変換手段を含む音声認識装置の図2に示す実施例を参照して以下に詳細に説明し、一方、本発明は、これらの実施例には限定されない。
図1は、主メモリに、ソフトウェアコード部分を有し且つ基準決定ソフトウェアにより構成される第1のコンピュータプログラムをロードできるコンピュータを示す。コンピュータが基準決定ソフトウェアを実行するときには、コンピュータは変換マトリクス発生器1を構成し且つ、基準決定方法に従って動作する。基準決定方法で、一方では、3つの異なる形式の受信チャネルに対する基準情報RIと、他方では、典型的な受信チャネルの1つの決定された基準情報RIを、典型的な受信チャネルの他の1つの決定された受信情報RIへ変換するための変換マトリクスT1−2,T1−3及びT2−3、が決定される。
第1の基準情報RI1は、10の異なるマイクロフォン3−1から3−10によりコピーされた、第1の典型的な受信チャネル2に対して決定される。更に、第2の基準情報RI2は、10の異なる電話線5−1から5−10によりコピーされた、第2の典型的な受信チャネル4に対して決定される。更に、第3の基準情報RI3は、10の異なるディジタル口述装置7−1から7−10によりコピーされた、第3の典型的な受信チャネル6に対して決定される。これらの典型的な受信チャネル2,4及び、6の各々は、マイクロフォン3の1つに、電話5の1つに、ディジタル口述装置6の1つに、ユーザにより話された音声情報SIに対する異なる伝送特性を有し、この結果、変換マトリクス発生器1に与えられる音声情報は、使用されるそれぞれの受信チャネル2,4、又は、6により色が付される。
それぞれの受信チャネル2,4又は6による音声情報SIの色付けは、音声情報SIの8kHzまでの周波数は第1の受信チャネル2を介して伝送され、3.7kHzまでは第2の受信チャネル4を介して伝送され、そして、4kHz以上は第3の受信チャネル6を介してそして、音声情報SIのそれより高い周波数部分は伝送されないということにより発生される。更に、伝送された音声情報SIの個々の周波数部分は、それぞれの受信チャネルにより、それぞれ強く減衰されるので、音声情報SIは、それぞれの受信チャネル2,4又は、6により色が付される。
第1の典型的な受信チャネル2の且つ変換マトリクス発生器1により発生された第1の基準情報RI1、及び、決定された変換マトリクスT1−2、T1−3及び、T2−3は、第2のコンピュータ製品を構成し且つ図2に示されたコンピュータにより実行される音声認識ソフトウェアの一部を構成する。コンピュータが音声認識ソフトウェアを実行するときには、コンピュータは音声認識装置8を構成し且つ音声認識装置8に与えられる音声情報SIに割り当てることができる認識するテキスト情報TIに対する音声認識方法に従って動作する。この処理中に、音声認識装置8は第1、第2又は、第3の基準情報RIを評価する。
ユーザにより話され且つ音響情報を含む音声情報SIは、長い時間知られてきたように、約40の音素で記述できる。音声認識装置8は、40のどの音素がどの順序で音声情報SI内に含まれているかを決定されるということから、他のものの中で、受信された音声情報信号SIに割り当てられるべきテキスト情報TIを認識する。しかし、音声情報SIを入力するためにユーザにより選択される入力装置又は、受信チャネル2,4又は、6により、音声情報SI内に含まれる各音素の音響情報は、色が付される。音声認識装置8の高認識率を得るために、音声認識装置8は、音声認識方法が実行されながら、それぞれの受信チャネル2,4、又は、6による音声情報SIの色付けを考慮するために、ユーザにより選択される受信チャネル2,4,又は、6に対して決定される第1、第2又は、第3の基準情報RIをそれぞれ評価する。
音声情報内SI内に含まれる各音素の音響情報は、音声認識装置8の実際のユーザにも依存するので、各ユーザは単語とその音素を僅かに異なって発音する。従って、以下に更に説明するように、音声認識装置8の非常に高い認識率を達成するために、第1、第2又は、第3の基準情報RIは、それぞれのユーザ毎の適応手段に適応される。
変換マトリクス発生器1は、第1のオーディオ端子9、第2のオーディオ端子10及び、第3のオーディオ端子11を有する。変換マトリクス発生器1の第1のオーディオ端子9と第2のオーディオ端子10へは、音声情報SIを含む、アナログオーディオ信号ASを与えることが可能である。変換マトリクス発生器1の第3のオーディオ端子11には、音声情報SI内にも含まれるディジタルオーディオデータADを与えられることが可能である。
変換マトリクス発生器1は、第1のオーディオ端子9と第2のオーディオ端子10へ送られるオーディオ信号ASをディジタル化するための第1のA/D変換器12と第2のA/D変換器13を含む。アナログオーディオ信号AS内に含まれている音声情報SIは、第1のA/D変換器12と第2のA/D変換器13から、ディジタルオーディオデータADとして出力される。
変換マトリクス発生器1は、更に、第1と第2のA/D変換器12と13によりそれぞれ送られるオーディオデータADと第3のオーディオ端子11からのオーディオデータADが与えられる分析手段14を有する。分析手段14は、与えられるオーディオデータAD内に含まれる音声情報SIを分析し、且つ、それぞれの受信チャネル2,4又は、6による40の音素の各々の色付けを特徴とする基準情報RIを決定するために使用される。
この目的のために、分析手段14は、10ミリ秒毎に、32の成分を含む特徴ベクトルを決定する。特徴ベクトルの32の成分のうちの16は、それぞれの受信チャネルにより伝送される全体の周波数範囲の16の周波数範囲内の音声情報SIの振幅値を記述する。特徴ベクトルの32の成分の内の残りの16は、16の振幅値の時間にわたる変化を記述する。40の音素の各々は、32の成分を含む1つのそのような特徴ベクトルにより記述される。異なる周囲(隣接音素)内の音素の音響情報の差を考慮するために、40の音素の各々は、32の成分を有する音素特徴ベクトルの400の典型的なサンプルにより記述される。
分析手段14は、このように、第1の受信チャネルを介して変換マトリクス発生器1に与えられる多数のオーディオデータADの分析の結果として、40の音素の各々に対する第1の基準情報RI1として32の成分を含む特徴ベクトルの2,400の典型的なサンプルを決定する。このように、全体で400x32x40=512,000の数値は、第1の受信チャネル2により色が付される40の音素を特徴とする第1の基準情報RI1として、分析手段14により決定される。同様に多くの数値は、第2の受信チャネル4により色が付される40の音素を特徴とする第2の基準情報RI2として、そして、第3の受信チャネル6により色が付される40の音素を特徴とする第3の基準情報RI3として、分析手段14により決定される。
個々の話者による単語の発音の形式に大きく独立し且つ話者独立基準情報RIとも呼ばれる、基準情報RIは、変換マトリクス発生器1により決定される。この目的のために、複数のユーザは、一般的に知られているように、個々の話者の差を満足に平均する、基準決定方法に従って、入力装置3,5及び7に向かって予め定義されたテキストを話す。これを以下に、変換マトリクス1のアプリケーションの例として説明する。
変換マトリクス発生器1は、更に、第1の基準情報RI1を蓄積する第1の基準蓄積手段15、第2の基準情報RI2を蓄積する第2の基準蓄積手段16、及び、第3の基準情報RI3を蓄積する第3の基準蓄積手段17を有する。変換マトリクス発生器1更に、変換マトリクス発生手段18を有し、それは、基準蓄積手段15,16及び17内に蓄積された基準情報をRIを読出し且つ、32−成分特徴ベクトルを比較するのに使用される。変換マトリクス発生手段18の比較の結果として、それらは、32−成分特徴ベクトルを示すための32のローと32のコラムを有する変換マトリクスT1−2、T1−3及び、T2−3を決定できる。
変換マトリクス発生手段18により決定される変換マトリクスT1−2、T1−3及び、T2−3は、基準蓄積手段15,16及び17内に蓄積された基準情報RI1、RI2及びRI3から、これらの3つの変換マトリクスT1−2、T1−3及び、T2−3の2つと共に、常に基準蓄積手段内に蓄積された他の2つの基準情報信号RI1、RI2及び、RI3を決定できる、特性を有する。例えば、変換マトリクスT1−2を第1の基準蓄積手段15内に蓄積された第1の基準情報信号RI1に適用することにより、第2の基準蓄積手段16内に蓄積された第2の基準情報信号RI2を計算できる。専門家に対して、変換マトリクスT1−2の特性のこの記述は、変換マトリクス発生手段18により決定される変換マトリクスT1−2を十分に開示する。変換マトリクス発生手段18により決定される変換マトリクスT1−2,T1−3及びT2−3を、変換マトリクス発生器1の基準変換手段19内に蓄積することが可能である。
以下に、変換マトリクスT1−2,T1−3及びT2−3の発生を、図1に示す変換マトリクス発生器1のアプリケーションの例を参照して更に説明する。基準決定方法は、音声認識装置8に関する音声認識ソフトウェアを開発する会社のコンピュータにより実行される。この会社は、音声認識装置8に関する典型的な入力装置に、マイクロフォン3に、電話5に、そして、ディジタル口述装置7に、既に適合されている基準情報RIを決定したい。更に、基準情報RIと変換マトリクスT1−2,T1−3及びT2−3は、ドイツ語に対して決定されることが意図されている。
この目的のために、会社は、数週間内に、1時間の間テキストを声を出して読む、いわゆる基準話者と呼ばれる、合計で100人のドイツ語の話者を集める。そして、最初の10人の話者により発生された音声情報SIがマイクロフォン3−1、電話5−1及び、ディジタル口述装置7−1に与えられ、次の10人の話者により発生された音声情報SIがマイクロフォン3−2、電話5−2及び、ディジタル口述装置7−2に与えられ、そして、それぞれの更に10人の話者により発生された音声情報SIが、それぞれ、更なるマイクロフォン3−3から3−10、電話5−3から5−10及び、ディジタル口述装置7−3から7−10に与えられる。
受信チャネル2,4及び6のこれらの10の入力装置の各々は、僅かに異なる伝送特性を有しているので、分析手段14には、受信チャネル2,4,及び、6の典型であるオーディオデータADが供給される。これは、変換マトリクス発生器1が典型的な入力装置に対して基準情報RIを決定できるという優位点を有する。分析手段14に与えられる、オーディオデータADに関する多数の話者と多量のデータの結果、分析手段14は、それぞれの受信チャネル2,4,又は6に適応される独立の基準情報RI1,RI2及び、RI3を決定する。
このために、分析手段14は、上述のように、異なる受信チャネル2,4,及び6により供給されるオーディオデータADに対する32−成分特徴ベクトルの時間パターンを決定する。分析手段14は、そして、受信チャネル2,4及び6に対する特徴ベクトルの16の周波数サブレンジを固定し、それにより、それぞれの受信チャネル内で伝送される周波数レンジは特徴ベクトルにより最適に記述される。例えば、第1の受信チャネル2内で伝送される8kHzまでの周波数レンジは、8000Hz/16=500Hzの周波数サブレンジ(0から500Hz,500Hzから1000Hz,...7500Hzから8000Hz)により記述され、そして、第3の受信チャネル6内で伝送される4kHzまでの周波数レンジは、4000Hz/16=250Hzの周波数サブレンジ(0から250Hz,250Hzから500Hz,...3750Hzから4000Hz)により記述される。
これは、32−成分特徴ベクトルの各々が、実際にオーディオデータADがそれぞれの受信チャネル2,4又は6から受信される周波数サブレンジを記述するという優位点を提供する。優位に、例えば、4kHzまでの周波数レンジ内に音声情報SIを含む第3の受信チャネル6を渡って受信されたオーディオデータADは、音声情報SIの全くない、4kHzから8kHzの周波数サブレンジ内の特徴ベクトルの8つの成分により記述されるということが避けられる。
分析手段14が3つの受信チャネル2,4及び6に対して決定する基準情報RI1、RI2及び、RI3は、それぞれ、基準蓄積手段15,16及び17内に蓄積される。変換マトリクス発生手段18は、上述のように、変換マトリクスT1−2,T1−3及び、T2−3を計算する。さらに加えて、基準情報信号RI1,RI2の1つの音素の特徴ベクトルの複数の成分は、変換マトリクスT1−2,T1−3及びT2−3の1つでの変換中に、変換された基準情報RI1,RI2及び、RI3のこの音素の特徴ベクトルの成分の結果に影響を及ぼし、その結果変換マトリクスT1−2,T1−3及びT2−3も、変換マトリクスT1−2,T1−3及びT2−3の対角の外側に数値を含むということを指摘するべきである。例えば、変換マトリクスT1−3での変換中に、その成分が0から250Hzと250Hzから500Hzの周波数サブレンジを記述する第3の基準情報信号RI3の音素の特徴ベクトルの400サンプルの2つの成分は、周波数サブレンジ0Hzから500Hzを記述する、第1の基準情報信号RI1のこの御その特徴ベクトル成分に影響する。
32ローと32コラム−合計1024数値−を有する変換マトリクスT1−2,T1−3及び、T2−3を決定することにより、音声認識方法を実行するために音声認識装置8に対して3つの受信チャネル2,4及び6の各々に対して基準情報RIを使用できるようにするために、音声認識ソフトウェア内で、512,000の数値のみを有する受信チャネル基準情報RIと、各々バ1024の数値のみを有する変換マトリクスT1−2,T1−3及び、T2−3のみを、蓄積すればよいという優位点が得られる。従って、この音声認識ソフトウェアは、優位に、コンピュータ内で比較的少ないメモリ空間を有することを必要とする。
更に加えて、変換マトリクスT1−2、T1−3及び、T2−3共に、音声認識装置8のユーザに既に適応された受信チャネル2,4又は6の基準情報RIは、他の受信チャネル2,3又は6の1つに対して直接的に使用でき、これは非常に優位である。音声認識装置の以下の説明では、これに更に注目する。
マトリクス発生器の分析手段は、第1の受信チャネル2に対してのみ基準情報RI1を決定することができ、そして、第1の基準蓄積手段15内に蓄積する。これらの分析手段は、蓄積された第1の基準情報RI1からの差を排他的に特徴とする、非常に少ない量の基準情報RIを発生するために、同じテキスト部分のしかしそれは異なる受信チャネルを介して受信されたオーディオデータADを比較できる。この変換マトリクス発生器の変換マトリクス発生手段は、この基準情報RIから直接的に、対応する変換マトリクスT1−2,T1−3及びT2−3を決定できる。これは、第2の基準情報RI2の全ての512,000の数値を決定すること及び第3の基準情報RI3の全ての512,000の数値を決定することが免除されるという優位点を導く。
特徴ベクトルの他の幾つかの成分も、オーディオデータAD内に含まれる音声情報SIの音素を記述するのに分析手段14により規定することができると認められる。例えば、8又は64の周波数サブレンジに副分割もされたそれぞれの受信チャネル2,4又は6を介して伝送された周波数レンジ内の音声情報SIも、周波数サブレンジ当り特徴ベクトルの1つ又は2つの成分によっても記述されうる。
受信チャネルを介して伝送される周波数レンジは上述のように、周波数サブレンジに均一に副分割される必要がないと認められる。人間の聴覚システムも低い周波数に更に敏感であるので、小さな周波数幅を設けるのには、周波数サブレンジに対して、周波数レンジの低い中心周波数を有するのが優位である。例えば、以下の中心周波数は、次の周波数サブレンジの中心周波数=周波数サブレンジの中心周波数x1.5という規則に従って周波数サブレンジに対して規定されうる。例えば、100Hzの中心周波数で始まる以下の中心周波数、100Hz、150Hz、225Hz、338Hz、506Hz...(第1の周波数サブレンジ:75Hzから125Hz=50Hz周波数幅;第4の周波数サブレンジ:282Hzから422Hz=140Hz周波数幅)が決定される。
音声認識装置8の構造と動作方法をいかに更に詳細に説明する。第1のオーディオ端子22を介して、音声認識装置8は、第1の受信チャネル21を構成するマイクロフォン20を介してユーザにより話された音声情報SIが供給される。更に、第2のオーディオ端子23を介して、音声認識装置8は、第2のオーディオ端子23に関しては電話ネットワークの電話線と共に、第2の受信チャネル25を構成する電話24に、ユーザが、話した音声情報SIが供給される。最後に、第3のオーディオ端子26を介して、音声認識装置8には、ユーザがディジタル口述装置27に話し且つそれを記録したユーザの音声情報SIが供給される。記録されたときの音声情報SIの色付けと、ディジタル口述装置27による後の再生は、第3の受信チャネル28の伝送特性を構成する。
音声認識装置8は、分析手段30と認識手段31を含む音声認識手段29を含む。音声認識手段29は、与えられた音声情報SIに割り当てられるべきテキスト情報TIを認識するように構成される。音声認識手段27により決定されたテキスト情報TIは、モニタ端子32を介してモニタ33に送られそして、モニタ33に表示される。
音声認識装置8の第1のオーディオ端子22にオーディオ信号ASとして与えられる音声情報信号SIは、第1のA/D変換器24を介して分析手段30へ、ディジタルオーディオデータADとして与えられる。同様に、音声認識装置8の第2のオーディオ端子23へオーディオ信号ASとして送られた音声情報信号SIは、第2のA/D変換器35を介して分析手段30へ、ディジタルオーディオデータADとして与えられる。更に、音声認識装置8の第3のオーディオ端子26に与えられるオーディオデータADは、直接的に、分析手段30に送られる。
分析手段30は、音声情報SIが検出される、3つのオーディオ端子22,23又は26のオーディオデータから検出し、そして、チャネル検出手段を構成する。ユーザがマイクロフォン20、電話24又は、ディジタル口述装置27を介して音声認識装置8へ音声情報を与えたか否かを特徴とするチャネル検出情報KDIは、分析手段30により発生されることが可能である。
これは、音声認識装置8は音声認識方法の実行のために基準情報RIを使用するという優位点を提供し、その基準情報RIは、ユーザにより選択れる受信チャネル21,25又は、28に対して適している。これは、更に音声認識装置8のアプリケーションの例を参照して以下に説明する。
分析手段30は、送られたオーディオデータADを分析し且つ各10ミリ秒ごとの32の成分を含む、オーディオデータAD内に含まれる音声情報SIを記述する、特徴ベクトルFVを発生するために、更に変換マトリクス発生器1の前述した分析手段14のように構成される。優位に、分析手段30は、決定されたチャネル識別示情報KDIに依存して、特徴ベクトルFVの16の周波数サブレンジを決定する。このように、例えば、第3の受信チャネル28を介して受信されたオーディオデータADに対して、特徴ベクトルの32の成分が、前述のように、各250Hzの周波数レンジを有する16の周波数サブレンジから決定される。分析手段30により決定される特徴ベクトルFVは、認識手段31に与えられる。
認識手段31は、例えば、文書WO99/35640から知られている音声認識方法を実行する。音声認識方法が実行されるときには、認識手段31は音声認識装置8の基準蓄積手段内に蓄積され、且つ実際のユーザに及び実際に使用される受信チャネル21、25又は、28に適応された基準情報RIを評価する。音声認識装置8によるトレーニング方法の実行中に、典型的な受信チャネルに適応された蓄積された基準情報は、音声認識装置8の実際のユーザに適応される。
基準蓄積手段36内に蓄積され且つ変換マトリクス発生器1により決定された第1の典型的な受信チャネル2の第1の基準情報RI1を適応させるために、音声認識装置8はユーザ適応手段37を含む。ユーザ適応手段37は、第1の基準情報RI1を第2の基準情報RI2に変換するために変換マトリクス発生器1により発生された第1の変換マトリクスT1−2及び、第1の基準情報RI1を第3の基準情報RI3に変換するための第2の変換マトリクスT1−3を含む。
第1のスイッチ38に対して、基準蓄積手段36から第1の基準情報RI1、第1の変換マトリクスT1−2で決定された第2の基準情報RI2、そして、第2の変換マトリクスT1−3で決定された第3の基準情報RI3が与えられる。第1のスイッチ38に対して、分析手段30によりチャネル検出情報KDIがさらに与えられる。3つの基準情報信号RI1,RI2又は、RI3のうちの1つは、第1のスイッチ38により、そこに与えられるチャネル検出情報KDIに従って、ユーザ適応手段37の比較手段39に与えられる。分析手段30と第1のスイッチ38は、蓄積された基準情報RIをユーザにより選択された受信チャネル21,25又は28へ適応させるための受信チャネル適応手段を構成する。
分析手段30は、オーディオデータADの特徴ベクトルFVを、各10ミリ秒毎に、比較手段39に供給し、そのオーディオデータはトレーニング方法の実行中に音声認識装置8に与えられ、そして、分析手段30により分析される。トレーニング方法の実行中に、比較手段39は、そこに与えられる個々の音素の特徴ベクトルFVと、そこに与えられる規準情報RIの音素の特徴ベクトルの400の典型的なサンプルとを比較するように構成される。特徴ベクトルFVの比較の結果は、基準情報RIを音声認識装置8の実際のユーザの発音のそれぞれの特異性適応させるために評価される。
ユーザ適応手段37によりユーザに適応された基準情報ARIは、基準情報RIをユーザに適応させるために、ユーザにより選択された受信チャネル21,25又は、28に依存して、第1の適応された基準蓄積手段41、第2の適応された基準蓄積手段42、又は、第3の適応された基準蓄積手段43内の内の第2のスイッチ40を介して蓄積される。適応された基準蓄積手段41,42及び43は共に、音声認識装置8の実際のユーザにそしてそれぞれの受信チャネル21,25及び28の1つに適応された基準情報ARIを蓄積するための基準蓄積手段を構成する。基準蓄積手段41,42又は、43にそれぞれ適応された、ユーザと受信チャネル21,25及び28の1つにに適応された基準情報ARIを伝達するために、チャネル識別情報KDIが分析手段30により第2のスイッチ40に与えられる。
受信チャネル21,25又は、28の1つ及びユーザに対するトレーニング方法の実行中に適応された、適応された基準蓄積手段41,42又は、43の1つに蓄積された、適応された基準情報ARI1、ARI2又は、ARI3は、変換マトリクス発生器1により変換マトリクスT1−2、T1−3及び、T2−3を用いて変換され、そして、ユーザに適応された他の基準情報ARI1、ARI2及び、ARI3へ、そして、他の適応された基準蓄積手段41、42又は、43内に蓄積される。変換マトリクスT1−2、T1−3及び、T2−3は、適応された基準情報ARIを変換する基準変換手段を構成する。
音声認識装置8は、チャネル検出情報KDIも与えられる第3のスイッチ44を含みそして、それを介して、ユーザとユーザにより使用される受信チャネル21,25又は、28に適応される基準情報ARIが、認識手段31が音声認識方法を実行するときに認識手段31に与えられる。分析手段30と第3のスイッチ44は、蓄積された基準情報ARIをユーザにより選択された受信チャネル21,25又は、28に適応させるための受信チャネル適応手段を構成する。
以下に、変換マトリクス発生器1により決定される話者に独立の基準情報RIが、どのように、音声認識装置8の実際のユーザに適応された基準情報ARIに適応されるかを、音声認識装置8を伴なうトレーニング方法の実施例を参照して更に詳細に説明する。アプリケーションの例に従って、スミス氏は、音声認識装置8を最初にテキストの口述に使用したいとする。音声認識装置8の認識率を改善するために、音声認識装置8のマニュアルは、装置8をユーザに適応させるようにアドバイスする。
スミス氏は、音声認識装置8のトレーニング方法を活性化し、そして、マイクロフォン20に、マニュアルに示された所定のトレーニングテキストを話し、このテキストは比較手段39内に蓄積される。口頭のトレーニングテキストの音声情報SIは、第1のオーディオ端子22と第1のA/D変換器34を介して分析手段30に達し、この分析手段は比較手段39へ、それぞれの特徴ベクトルFVを与える。分析手段30は、更に、第1の受信チャネル21を特徴化するチャネル検出情報KDIを第1のスイッチ38に与え、その後に、第1のスイッチ38は比較手段39を第1の基準蓄積手段36へ接続する。
第1の基準蓄積手段36には、典型的なマイクロフォン受信チャネル−第1の受信チャネル2に対して、変換マトリクス発生器1により適合される第1の基準情報RI1が蓄積されている。比較手段39は、分析手段30と比較手段に既知のトレーニングテキストにより決定される特徴ベクトルFVに基づいて、スミス氏による各音素の発音の形式を決定し、そして、スミス氏に従って第1の基準情報RIを適応させる。スミス氏と第1の受信チャネル21に適応され且つ比較手段39により決定された第1の適応された基準情報ARI1は、第2のスイッチ40を介して第1の適応された基準蓄積手段41に蓄積される。
トレーニング方法の最後で、第1の適応された基準情報ARI1は、第1の変換マトリクスT1−2で、第2の受信チャネル25とスミス氏に適応された第2の適応された基準情報ARI2に変換されそして、第2の適応された基準蓄積手段42に蓄積される。同様に、第3の受信チャネル28とスミス氏に適応された第3の適応された基準情報ARI3は、第2の変換マトリクスT1−3で決定され、そして、第3の適応された基準蓄積手段43に蓄積される。
上述のトレーニング方法は、音声認識装置8のユーザは、可能な受信チャネル21,25又は、28の1つを介してこのユーザの発音に音声認識装置8を適合させることができそして、他の受信チャネル21,25又は、28に対する基準情報RIも自動的に適応され、そして、音声認識方法の良好な認識率が、これらの受信チャネルに対しても得られるという優位点を提供する。
スミス氏は他の場所から電話24によりこのトレーニング方法を実行させることも可能であると認められる。この場合には、第1の変換マトリクスT1−2で第1の基準情報RI1から変換された第2の基準情報RI2は、比較手段39により適応されそして、第2の適応された基準蓄積手段42内に第2の基準情報ARI2として蓄積される。第1の変換マトリクスT1−2で変換された第1の適応された基準情報ARI1は、第1の適応された基準蓄積手段41に蓄積され、そして、第3の変換マトリクスT2−3で変換された第3の適応された基準情報ARI3は、第3の適応された基準蓄積手段43に蓄積される。
これから、音声認識装置8は、受信チャネル21、25及び、28の任意の1つに学習され、そして、全ての受信チャネルに対して、ユーザに適応されるという優位点は明らかである。
以下に、音声認識装置8による音声認識方法の実行の実施例によって、音声認識装置8に優位点を更に説明する。実施例に従って、スミス氏は、旅行中に、ディジタル口述装置27で口述を行うとする。家に帰ると、スミス氏は、口述装置27を第3のオーディオ端子26に接続し、口述装置27のキーを作動させ、そして、音声認識装置8の音声認識方法を活性化させる。
分析手段30は、それぞれ及び、の特徴ベクトルFVを認識手段31に与えそして、第3の重鎮チャネル28を特超過するチャネル検出情報KDIを第3のスイッチ44に与える。そして、第3のスイッチ44は、第3の適応された基準蓄積手段43を認識手段31へ接続する。音声認識方法の実行中に、認識手段31は、スミス氏と口述装置の典型的な受信チャネルに適応された基準情報ARI3を評価し、そして、音声情報SIに対応するテキスト情報TIをモニタ端子32を介してモニタ33に送る。
これは、トレーニング方法を実行している間に、音声認識装置8はマイクロフォン20によるスミス氏に適応されたが、口述装置27を介してスミス氏により入力された音声情報SIを用いる音声認識方法の認識率はかなり高いということを優位に達成する。同様に、音声認識方法は、電話24によりスミス氏によってコンピュータに与えられたコマンドに対する高認識率を有する。
比較的高い認識率は、全ての他の組合せで達成されることも可能であることがが認められる。例えば、音声認識装置8が第2の受信チャネル25で学習されそして、後に第1の受信チャネル21により受信され且つ音声情報SIに割り当てられるべきテキスト情報TIを認識するために使用される。しかしながら、大部分のマイクロフォンで、音声情報SIは、比較的高い周波数レンジ(8kHzまで)で伝送されるので、音声認識装置8がマイクロフォン20でトレーニングするのはかなり有利である。ユーザ適応手段37から、第1の変換マトリクスT1−2と第2の変換マトリクスT1−3を省略することが可能でありそして、トレーニング方法が実行されるときに、マイクロフォン20を介して、ユーザによるテキストの音声情報SIの入力を要求することも可能である。その場合には、第3の変換マトリクスT2−3は、第2の適応された基準情報ARI2から第3の適応された基準情報ARI3への変換に関して省略され及び、その逆である。
変換マトリクス発生器1は、移動電話の又は、ディジタル又はアナログネットワークを介して第2のオーディオ端子10に接続された電話5の典型的な受信チャネルに対する基準情報も決定できると認められる。専門家は、多数の更なる可能性のある典型的な受信チャネルを知っている。
変換マトリクスT1−2、T1−3及び、T2−3から、逆変換マトリクスも決定でき、それによって、分析手段30に送られたオーディオデータADは、上述のように分析手段30により分析される前に前処理され得ると認められる。
基準決定方法は、音声認識ソフトウェアの製造者のコンピュータにより実行される必要はないが、しかし、音声認識ソフトウェアの一部を構成しても良く、そして、音声認識装置のユーザのコンピュータ上で実行されることが可能であると認められる。音声認識方法の実行中に、認識手段により決定される、実際に使用される受信チャネルに関する情報は、基準情報を適応させ活変換マトリクス又は逆変換マトリクスを決定するために使用することができる。

Claims (22)

  1. 第1の受信チャネルと第2の受信チャネルとを含む複数の受信チャネルを介して受信可能な音声を認識するための音声認識装置であって、当該音声認識装置は:
    複数の基準話者による単語の発音を特徴とする、話者に独立の基準情報を蓄積するための蓄積手段であって、前記蓄積手段は、前記第1の受信チャネルに対応する基準情報を、前記第2の受信チャネルに対応する基準情報に変換するよう構成された第1の変換を更に蓄積する、蓄積手段と;
    第1の適応された基準情報を取得するように、前記第1の受信チャネルを介して話すユーザの音声の特徴に従って、話者に独立した基準情報に適応するために第1の受信チャネルを介して前記ユーザから得られた音声情報を用い、かつ、前記ユーザの音声の特徴に適応し、かつ前記第2の受信チャネルに適応する、第2の適応された基準情報を取得するように、前記第1の変換を用いて前記第1の適応された基準情報を、前記第2の受信チャネルに適応するためのユーザ適応手段と;
    を有する音声認識装置。
  2. 前記第1の受信チャネルは、マイクロフォンを含み、前記第2の受信チャネルは、電話及びデジタルディクテーティングマシンのうちの1つを含む、請求項1記載の音声認識装置。
  3. 前記第1の受信チャネルは、電話を含み、前記第2の受信チャネルは、マイクロフォン及びデジタルディクテーティングマシンのうちの1つを含む、請求項1記載の音声認識装置。
  4. 前記第1の受信チャネルは、デジタルディクテーティングマシンを含み、前記第2の受信チャネルは、マイクロフォン及び電話のうちの1つを含む、請求項1記載の音声認識装置。
  5. 前記電話は、携帯電話である、請求項2記載の音声認識装置。
  6. 前記複数の受信チャネルは、第3の受信チャネルを含み、かつ前記蓄積手段は、前記第1の受信チャネルに対応した基準情報を、前記第3の受信チャネルに対応した基準情報に変換するよう構成された第2の変換を蓄積する、請求項1記載の音声認識装置。
  7. 前記ユーザ適応手段は、前記第1の適応された基準情報を、前記ユーザの音声特徴に適応し、かつ前記第3の受信チャネルに適応する第3の適応された基準情報に変換するように、前記第2の変換を用いるよう構成された、請求項6記載の音声認識装置。
  8. 前記蓄積手段は、前記第2の受信チャネルに対応する基準情報を、前記第3の受信チャネルに対応する基準情報に変換するよう構成された、第3の変換を蓄積する、請求項6記載の音声認識装置。
  9. 前記ユーザ適応手段は、前記第2の適応された基準情報を、前記ユーザの音声特徴に適応し、かつ前記第3の受信チャネルに適応する第3の適応された基準情報に変換するように、前記第3の変換を用いるよう構成された、請求項8記載の音声認識装置。
  10. 前記第1の変換は、前記第1の受信チャネルと同じ形式の少なくとも1つのチャネルを介して得られた、話者に独立の基準情報と、前記第2の受信チャネルと同じ形式の少なくとも1つのチェネルを介して得られた話者に独立の基準情報とに基づいて決定される、請求項1記載の音声認識装置。
  11. 前記第2の変換は、前記第1の受信チャネルと同じ形式の少なくとも1つのチャネルを介して得られた、話者に独立の基準情報と、前記第3の受信チャネルと同じ形式の少なくとも1つのチェネルを介して得られた話者に独立の基準情報とに基づいて決定される、請求項6記載の音声認識装置。
  12. 複数の基準話者による単語の発音を特徴とする、話者に独立の基準情報を変換することによって、第1の受信チャネル及び第2の受信チャネルを含む複数の受信チャネルを介して受信可能な音声を認識するよう構成された、音声認識装置を適応させるための方法であって:
    前記第1の受信チャネルに対応する基準情報を、前記第2の受信チャネルに対応する基準情報に変換するように構成された第1の変換を得るステップと;
    前記第1の受信チャネルを介して得られたユーザからの音声情報を受信するステップと;
    第1の適応された基準情報を得るように、前記得られた音声情報を用いて、前記第1の受信チャネルを介して話す前記ユーザの音声特徴に従って、話者に独立な基準情報を適応させるステップと;
    前記ユーザの音声特徴に適応し、かつ前記第2の受信チャネルに適応する、第2の適応された基準情報を得るように、前記第1の変換を用いて、前記第1の適応された基準情報を、前記第2の受信チャネルに適応させるステップと;
    を有する方法。
  13. 前記第1の受信チャネルは、マイクロフォンを含み、前記第2の受信チャネルは、電話及びデジタルディクテーティングマシンのうちの1つを含む、請求項12記載の音声認識装置。
  14. 前記第1の受信チャネルは、電話を含み、前記第2の受信チャネルは、マイクロフォン及びデジタルディクテーティングマシンのうちの1つを含む、請求項12記載の音声認識装置。
  15. 前記第1の受信チャネルは、デジタルディクテーティングマシンを含み、前記第2の受信チャネルは、マイクロフォン及び電話のうちの1つを含む、請求項12記載の音声認識装置。
  16. 前記電話は、携帯電話である、請求項13記載の音声認識装置。
  17. 前記複数の受信チャネルは、第3の受信チャネルを含み、当該方法は、前記第1の受信チャネルに対応した基準情報を、前記第3の受信チャネルに対応した基準情報に変換するよう構成された第2の変換を得るステップ、を更に有する請求項12記載の方法。
  18. 前記ユーザの音声特徴に適応し、かつ前記第3の受信チャネルに適応する第3の適応された基準情報を得るように、前記第2の変換を用いて、前記第1の適応された基準情報を前記第3の受信チャネルに適応させるステップ、を更に有する請求項17記載の方法。
  19. 前記第2の受信チャネルに対応する基準情報を、前記第3の受信チャネルに対応する基準情報に変換するよう構成された、第3の変換を得るステップ、を有する請求項17記載の方法。
  20. 前記ユーザの音声特徴に適応し、かつ前記第3の受信チャネルに適応する、第3の適応した基準情報を得るように、前記第3の変換を用いて、前記第2の適応された基準情報を前記第3の受信チャネルに適応させるステップ、を有する請求項19記載の方法。
  21. 前記第1の変換は、前記第1の受信チャネルと同じ形式の少なくとも1つのチャネルを介して得られた、話者に独立の基準情報と、前記第2の受信チャネルと同じ形式の少なくとも1つのチェネルを介して得られた話者に独立の基準情報とに基づいて決定される、請求項12記載の方法。
  22. 前記第2の変換は、前記第1の受信チャネルと同じ形式の少なくとも1つのチャネルを介して得られた、話者に独立の基準情報と、前記第3の受信チャネルと同じ形式の少なくとも1つのチェネルを介して得られた話者に独立の基準情報とに基づいて決定される、請求項17記載の方法。
JP2012175359A 2000-02-25 2012-08-07 基準変換手段を伴なう音声認識装置及び方法 Expired - Fee Related JP5425280B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00890057.3 2000-02-25
EP00890057 2000-02-25

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001562482A Division JP5105682B2 (ja) 2000-02-25 2001-02-12 基準変換手段を伴なう音声認識装置

Publications (2)

Publication Number Publication Date
JP2012234204A true JP2012234204A (ja) 2012-11-29
JP5425280B2 JP5425280B2 (ja) 2014-02-26

Family

ID=8175909

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2001562482A Expired - Lifetime JP5105682B2 (ja) 2000-02-25 2001-02-12 基準変換手段を伴なう音声認識装置
JP2012175359A Expired - Fee Related JP5425280B2 (ja) 2000-02-25 2012-08-07 基準変換手段を伴なう音声認識装置及び方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2001562482A Expired - Lifetime JP5105682B2 (ja) 2000-02-25 2001-02-12 基準変換手段を伴なう音声認識装置

Country Status (6)

Country Link
US (1) US7146317B2 (ja)
EP (1) EP1185976B1 (ja)
JP (2) JP5105682B2 (ja)
AT (1) ATE336776T1 (ja)
DE (1) DE60122257T2 (ja)
WO (1) WO2001063597A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE336776T1 (de) * 2000-02-25 2006-09-15 Koninkl Philips Electronics Nv Vorrichtung zur spracherkennung mit referenztransformationsmitteln
US20040024598A1 (en) * 2002-07-03 2004-02-05 Amit Srivastava Thematic segmentation of speech
US20040163034A1 (en) 2002-10-17 2004-08-19 Sean Colbath Systems and methods for labeling clusters of documents
AU2003278431A1 (en) * 2002-11-22 2004-06-18 Koninklijke Philips Electronics N.V. Speech recognition device and method
US7533023B2 (en) * 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
US7369652B1 (en) * 2003-05-13 2008-05-06 Cisco Technology, Inc. Combining signals at a conference bridge
US20050010411A1 (en) * 2003-07-09 2005-01-13 Luca Rigazio Speech data mining for call center management
US20080147692A1 (en) * 2006-12-14 2008-06-19 General Motors Corporation Method for manipulating the contents of an xml-based message
CN108831437B (zh) * 2018-06-15 2020-09-01 百度在线网络技术(北京)有限公司 一种歌声生成方法、装置、终端和存储介质
CN111755008B (zh) * 2020-06-11 2022-05-27 北京字节跳动网络技术有限公司 信息处理方法、装置、电子设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07261780A (ja) * 1994-03-22 1995-10-13 Mitsubishi Electric Corp 発声変形音声認識装置
JPH10105191A (ja) * 1996-09-30 1998-04-24 Toshiba Corp 音声認識装置及びマイクロホン周波数特性変換方法
JPH10149191A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> モデル適応方法、装置およびその記憶媒体
JPH11219193A (ja) * 1998-02-03 1999-08-10 Fujitsu Ten Ltd 車載用音声認識装置
JP2001086239A (ja) * 1999-09-14 2001-03-30 Canon Inc 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
JP2003524217A (ja) * 2000-02-25 2003-08-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 基準変換手段を伴なう音声認識装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3001037B2 (ja) * 1995-12-13 2000-01-17 日本電気株式会社 音声認識装置
US6038528A (en) * 1996-07-17 2000-03-14 T-Netix, Inc. Robust speech processing with affine transform replicated data
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
US6151573A (en) * 1997-09-17 2000-11-21 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
JP4827274B2 (ja) 1997-12-30 2011-11-30 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー コマンド辞書を使用する音声認識方法
JP3412496B2 (ja) * 1998-02-25 2003-06-03 三菱電機株式会社 話者適応化装置と音声認識装置
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6529872B1 (en) * 2000-04-18 2003-03-04 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07261780A (ja) * 1994-03-22 1995-10-13 Mitsubishi Electric Corp 発声変形音声認識装置
JPH10149191A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> モデル適応方法、装置およびその記憶媒体
JPH10105191A (ja) * 1996-09-30 1998-04-24 Toshiba Corp 音声認識装置及びマイクロホン周波数特性変換方法
JPH11219193A (ja) * 1998-02-03 1999-08-10 Fujitsu Ten Ltd 車載用音声認識装置
JP2001086239A (ja) * 1999-09-14 2001-03-30 Canon Inc 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
JP2003524217A (ja) * 2000-02-25 2003-08-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 基準変換手段を伴なう音声認識装置
JP5105682B2 (ja) * 2000-02-25 2012-12-26 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 基準変換手段を伴なう音声認識装置

Also Published As

Publication number Publication date
EP1185976A1 (en) 2002-03-13
DE60122257D1 (de) 2006-09-28
US20010025240A1 (en) 2001-09-27
EP1185976B1 (en) 2006-08-16
DE60122257T2 (de) 2007-06-28
JP5425280B2 (ja) 2014-02-26
JP2003524217A (ja) 2003-08-12
ATE336776T1 (de) 2006-09-15
US7146317B2 (en) 2006-12-05
JP5105682B2 (ja) 2012-12-26
WO2001063597A1 (en) 2001-08-30

Similar Documents

Publication Publication Date Title
JP5425280B2 (ja) 基準変換手段を伴なう音声認識装置及び方法
US6233556B1 (en) Voice processing and verification system
JP4546555B2 (ja) 話し手に暗黙的に順応する技術を用いた音声認識システム
JP5419361B2 (ja) 音声制御システムおよび音声制御方法
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JPH07502834A (ja) 音声制御通信装置および処理方法
US6243677B1 (en) Method of out of vocabulary word rejection
JPH096388A (ja) 音声認識装置
US20070047708A1 (en) Voice call reply using voice recognition and text to speech
JP2019184809A (ja) 音声認識装置、音声認識方法
EP2247082B1 (en) Telecommunication device, telecommunication system and method for telecommunicating voice signals
EP1151431B1 (en) Method and apparatus for testing user interface integrity of speech-enabled devices
CN113168841B (zh) 经编码的音频的回放期间的声学回声消除
JP2001520764A (ja) スピーチ分析システム
WO2007091462A1 (ja) 音声認識装置、音声認識方法、及び音声認識用プログラム
JP2005338454A (ja) 音声対話装置
KR101516589B1 (ko) 이동통신단말기 및 그의 음성신호 처리 방법
CN108962273A (zh) 一种麦克风的音频输出方法和装置
US20040156510A1 (en) Speaker verifying apparatus
JP2010164992A (ja) 音声対話装置
US6044147A (en) Telecommunications system
JP6822540B2 (ja) 端末装置、通信方法及び通信プログラム
EP0883959B1 (en) Apparatus and method of improving the qulality of speech signals transmitted over a telecommunications system
CA2242248C (en) Telecommunications system
JPH05316186A (ja) 音声認識電話機

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130528

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130827

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131126

R150 Certificate of patent or registration of utility model

Ref document number: 5425280

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees