JP5325176B2 - 2チャネル音声の音声認識方法とその装置とプログラム - Google Patents

2チャネル音声の音声認識方法とその装置とプログラム Download PDF

Info

Publication number
JP5325176B2
JP5325176B2 JP2010162629A JP2010162629A JP5325176B2 JP 5325176 B2 JP5325176 B2 JP 5325176B2 JP 2010162629 A JP2010162629 A JP 2010162629A JP 2010162629 A JP2010162629 A JP 2010162629A JP 5325176 B2 JP5325176 B2 JP 5325176B2
Authority
JP
Japan
Prior art keywords
speech recognition
speech
word
channel
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010162629A
Other languages
English (en)
Other versions
JP2012027065A (ja
Inventor
太一 浅見
済央 野本
哲 小橋川
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010162629A priority Critical patent/JP5325176B2/ja
Publication of JP2012027065A publication Critical patent/JP2012027065A/ja
Application granted granted Critical
Publication of JP5325176B2 publication Critical patent/JP5325176B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、例えばコールセンター等で行われる顧客側の音声とオペレータ側の音声とから成る2チャネルの音声を、音声認識する音声認識方法とその装置と、プログラムに関する。
従来、顧客側の音声(以降、送話側音声)とオペレータ側の音声(以降、受話側音声)の2チャネルの音声を音声認識する場合、それぞれのチャネルを別々に音声認識していた。そして、それぞれの音声認識結果に、音声認識結果の確からしさを表す認識信頼度を付与していた。
その認識信頼度を算出するための従来技術として、例えば特許文献1に、音声認識処理の探索結果の上位N位までのNベスト候補のスコア1位の単語w1の認識信頼度を、単語w1のスコアとスコア2位以下でw1と異なる単語w2とのスコア差を単語w1の継続時間長で正規化した値とする考えが示されている。
また、認識信頼度を算出するための別の方法として、音声認識結果中の各単語間の関連の強さを計測して周囲の単語と関連の強い単語に、高い認識信頼度を付与し、関連の弱い単語に低い認識信頼度を付与する方法がある(非特許文献1)。この方法は、単語w及び単語wの直前k個の単語と直後の1単語とのn個の単語集合N(w)を音声認識結果から取得する。そして、その単語集合N(w)に含まれる全ての2単語の組み合わせ(wi,wj)に対して、事前に学習コーパス上で算出した相互情報量MI(wi,wj)を用いて単語間の関連の強さS(wi,wj)を計算する。また、単語集合N(w)中の全ての単語tについての関連の強さS(t,wi)の平均値を文脈一貫性尺度SC(t)として計算する。
特開2005−148342号公報
D. Inkpen, A. Desilets, "Semantic Similarity for Detecting Recognition Errors in Automatic Speech Transcripts,"Proceedings of HLT/EMNLP, pp.49-56, October 2005.
一般的に送話側の音声は、様々な音響的環境で送話されるので、音声品質のバラツキが大きい。逆に、受話側の音声は比較的静かなオフィスにおける会話であるので音声品質が良好である。このように、音声品質に差のある音声をそれぞれ別々に音声認識して認識信頼度を付与すると、送話側の音声の認識信頼度を実際の信頼度よりも悪く評価してしまう場合がある。
この発明は、このような課題に鑑みてなされたものであり、送話側の音声認識信頼度を適切に付与することが出来る2チャネル音声の音声認識方法と、その装置とプログラムを提供することを目的とする。
この発明の2チャネル音声の音声認識方法は、音声認識過程と、認識信頼度計算過程と、を含む。音声認識過程は、送話側音声と受話側音声を入力としてそれぞれの音声を音声認識処理した単語毎に単語認識信頼度を付与した送話側音声認識結果と受話側音声認識結果を出力する。認識信頼度計算過程は、送話側音声認識結果と受話側音声認識結果を入力として音声認識結果の全ての単語間の組み合わせの2単語間の関連度を示す単語関連度テーブルを参照してそれぞれの音声認識結果のチャネル内文脈一貫性尺度と、送話側音声認識結果と受話側音声認識結果との間のチャネル間文脈一貫性尺度とを求め、送話側チャネル内文脈一貫性尺度とチャネル間文脈一貫性尺度の重み付き和を送話側認識信頼度として計算して出力する。
例えばコールセンター等で交わされる応対音声においては、送話側音声と受話側音声に共通する単語や、関連する単語が含まれる場合が多い。送話側音声と受話側音声との間の単語共起に着目したこの発明のチャネル間文脈一貫性尺度は、二つの音声の間の関連性が強い場合に大きな値を示すものである。よって、そのチャネル間文脈一貫性尺度と送話側チャネル内文脈一貫性尺度の重み付け和を送話側認識信頼度として計算するこの発明の2チャネル音声の音声認識方法は、送話側の認識信頼度を適切に付与することができる。
この発明の音声認識装置100の機能構成例を示す図。 音声認識装置100の動作フローを示す図。 Nベスト候補と単語認識信頼度について説明する図。 単語関連度テーブル作成装置150の機能構成例を示す図。 単語集合を概念的に示す図。 単語関連度テーブルの一例を示す図。 認識信頼度計算部30の機能構成例を示す図。 この発明の音声認識装置200の機能構成例を示す図。 重み計算部80の機能構成例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1に、この発明の音声認識装置100の機能構成例を示す。その動作フローを図2に示す。音声認識装置100は、音声認識部20と、認識信頼度計算部30と、単語関連度テーブル40と、を具備する。音声認識装置100の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
音声認識部20は、例えばコールセンター等で顧客とオペレータとの間で交わされる送話側音声と受話側音声とからなる応対音声を、音声認識処理した単語毎に単語認識信頼度を付与した送話側音声認識結果と受話側音声認識結果を出力する(ステップS20)。音声認識部20は、図示しない内部の音響分析部によって、送話側音声と受話側音声を、数十msecのフレームと呼ばれる単位でLPCケプストラム、MFCC、その他の音響特徴パラメータ系列に分析する。そして、辞書と言語モデルを用いて入力音声に対する認識結果候補の探索を、音響特徴パラメータ系列について行う。探索の結果、上位N位までのNベスト候補が、単語認識信頼度と共に音声認識結果として出力される。なお、応対音声が送話側音声と受話側音声とが一体化したものである場合は、その応対音声を送話側音声と受話側音声の2チャネルに分割する音声チャネル分割部10を設ける。
ここで、図3を参照してNベスト候補と単語認識信頼度について説明する。なお、Nベスト候補と単語認識信頼度については従来技術である。単語認識信頼度については、例えば特許文献1に記載されている。
図3の横軸は、経過時間でありフレームで表す。縦軸は、フレーム単位で探索された単語列候補を、スコアの高い順番に並べたNベスト候補である。スコアとは探索時の尤度のことである。
単語認識信頼度は、フレームt*において単語w**(*は任意の整数)と異なる単語がNベスト候補中に存在する場合、単語w**のフレームt*におけるスコアと対立候補単語のフレームt*における次の順位のスコアとの間のスコア差によって与えられる。図3に示す例では、フレームt1〜t4の音響特徴パラメータ系列で探索された第1位候補の単語w11(11は第1候補の1番目の単語であることを表す)の単語認識信頼度は、対向する単語が第3位候補の単語w31と第2位候補の単語w21であるので、それぞれのスコア差(●)の合計をフレーム数で除した値が単語認識信頼度となる。対立候補が存在しない単語w13については、予め決められた固定値(○)が用いられて単語認識信頼度となる。この単語認識信頼度が候補毎に累積されて単語列の認識信頼度となる。
認識信頼度計算部30は、送話側音声認識結果と受話側音声認識結果を入力として音声認識結果の全ての単語間の組み合わせの2単語間の関連度を示す単語関連度テーブル40を参照して送話側音声認識結果と受話側音声認識結果のチャネル内文脈一貫性尺度と、送話側音声認識結果と受話側音声認識結果との間のチャネル間文脈一貫性尺度とを求め、送話側チャネル内文脈一貫性尺度とチャネル間文脈一貫性尺度の重み付き和を送話側認識信頼度として計算して出力する(ステップS30)。
応対音声は、顧客とオペレータとの対話であるため、顧客の発話はオペレータの発話内容と関連することが多い。よって、顧客側の音声認識結果に、オペレータ側の音声認識結果と関連する単語が含まれるとき、その認識結果は正しいと考えて良い。この発明の2チャネル音声の音声認識方法は、2つの発話の関連性が強い場合に見られる単語共起の関係を利用するもので送話側認識信頼度の精度を高める効果を奏する。
ここで、単語関連度テーブルを作成する単語関連度テーブル作成装置150を説明する。
〔単語関連度テーブル作成装置〕
図4に単語関連度テーブル作成装置150の機能構成例を示す。単語関連度テーブル作成装置150は、学習コーパス151と、形態素解析部152と、学習コーパス単語集合取得部153と、単語リスト154と、単語カウント部155と、単語関連度計算部156と、テーブル配列部157と、を具備する。
学習コーパス151は音声文書を大規模に集積したものである。形態素解析部152は、学習コーパス151から音声文書を読み出して単語に分割する周知の形態素解析処理を行い、各単語の前後に単語境界を表す記号、例えば「\n」を付与した単語境界付き学習コーパスを出力する。形態素解析処理は周知であり、例えば参考文献「特許第3379643号」に記載されている。
学習コーパス単語集合取得部153は、形態素解析部152が出力する単語境界付き学習コーパスの先頭から末尾まで、窓幅n単語、窓シフト量m単語で窓かけを行い、各窓に含まれる単語リスト154に記載された単語をまとめて単語集合とし、窓ごとの単語集合を出力する。単語リスト154は、音声認識結果に出現し得る全ての単語が記載されたものであり、事前に作成しておく。図5に、単語集合を概念的に示す。横方向は時間経過であり、単語集合をN1〜Nで示す。mは窓シフト量であり、nは窓幅である。隣り合う単語集合は、n-m個の単語を共有する関係にある。
単語カウント部155は、学習コーパス単語集合取得部153が出力する単語集合を入力として、単語集合内の各単語の単独生起回数C(w)、各単語ペアの生起回数C(wi,wj)、単語集合の総数をカウントして出力する。単語wの生起回数C(w)とは、単語wを含む単語集合の個数である。単語ペア(wi,wj)の生起回数C(wi,wj)とは、wiとwjを共に含む単語集合の個数である。
単語関連度計算部86は、各単語ペア(wi,wj)の関連度S(wi,wj)を例えば式(1)で計算する。
Figure 0005325176
Nは単語集合の総数、C(w)は単語wの単独生起回数、C(wi,wj)は単語wiとwjの共起回数である。関連度S(wi,wj)の値が大きいと、それらの単語同士の関連性が高いことを意味する。関連度S(wi,wj)には、式(1)の他に、例えばJaccard係数(式(2))を用いても良い。
Figure 0005325176
また、Dice係数(式3)やSimpson係数(式4)を用いることもできる。
Figure 0005325176
Figure 0005325176
テーブル配列部157は、単語wiとwjから計算した関連度S(wi,wj)を参照できるテーブルの形式に配列する。図6に単語関連度テーブル40の一例を示す。最上列と最左列は単語w1〜wNであり、各行と各列の交差する欄にそれぞれの単語の関連度S(wi,wj)が配列される。
図7に、認識信頼度計算部30のより具体的な機能構成例を示して更に詳しく説明する。認識信頼度計算部30は、受話認識結果単語集合取得手段31と、送話認識結果単語集合取得手段32と、チャネル内文脈一貫性尺度計算手段33と、チャネル間文脈一貫性尺度計算手段34と、受話側文脈一貫性統合手段35と、送話側文脈一貫性統合手段36と、単語リスト154と、を備える。
受話認識結果単語集合取得手段31は、単語関連度テーブル作成装置150の学習コーパス単語集合取得手段153と同じように、受話側音声認識結果の先頭から末尾まで、窓幅n単語、窓シフト量m単語で窓かけを行い、各窓に含まれる単語リスト154に記載された単語をまとめて単語集合とし、窓ごとに時間情報付き単語集合を出力する。単語リスト154は単語関連度テーブル作成装置150と同じものである。送話側認識結果単語集合取得手段32も、送話側音声認識結果を入力として窓ごとに時間情報付き単語集合を出力する。
チャネル内文脈一貫性尺度計算手段33は、送話側と受話側の時間情報付き単語集合NUi,NOiを入力として、各単語集合それぞれの文脈一貫性尺度をチャネル内文脈一貫性尺度として計算する。チャネル内文脈一貫性尺度は、単語集合に含まれる全ての単語ペア(wi,wj)に対して(但し、wi≠wj)単語関連度テーブル40を参照して求めた関連度S(wi,wj)の平均値である。
チャネル内文脈一貫性尺度計算手段33は、上記した計算を送話側と受話側の時間情報付き単語集合NUi,NOiのそれぞれについて行い、送話側のチャネル内文脈一貫性尺度SCin(NUi)と受話側のチャネル内文脈一貫性尺度SCin(NOi)を計算する。単語集合単位の関連性の強さを表すチャネル内文脈一貫性尺度SCin(NUi),SCin(NOi)は、送話側及び受話側の発話単位での文脈の一貫性を表す指標である。
チャネル間文脈一貫性尺度計算手段34は、送話側と受話側の時間情報付き単語集合NUi,NOiを入力として、チャネル間文脈一貫性尺度SCinter(NUi)を計算する。チャネル間文脈一貫性尺度SCinter(NUi)は次の手順で計算する。
先ず、送話側単語集合NUiに付与された時刻TUiの直前の時刻が付与された受話側単語集合NOiを取得する。時刻TUiの直前の時刻の受話側単語集合NOiが無い場合は、最も早い時刻が付与された受話側単語集合とする。
次に、時刻TUiの直前の時刻の受話側単語集合NOiに含まれる単語と、着目している送話側単語集合に含まれる単語との組み合わせの関連度の平均値を、チャネル間文脈一貫性尺度SCinter(NUi)として計算する。チャネル間文脈一貫性尺度SCinter(NUi)は、送話側の単語集合毎に、その直前の受話側の単語集合との間の単語間の関連性の強さを表し、送話側と発話側との間の発話の関連性の強さを表す指標である。
送話側文脈一貫性統合手段36は、チャネル内文脈一貫性尺度計算手段33が出力する送話側のチャネル内文脈一貫性尺度SCin(NUi)と、チャネル間文脈一貫性尺度計算手段34が出力するチャネル間文脈一貫性尺度SCinter(NUi)を入力として送話側認識信頼度CUを式(5)で計算して出力する。
Figure 0005325176
hは単語集合の個数、αは重みである。重みαは、例えば、実際の応対音声と人手で作成した書き起こしテキストをペアにした開発セットに基づいて求めた送話側認識信頼度と受話側認識信頼度とを重み付け加算した認識信頼度と、音声認識精度との相関係数の値が最も高くなる様に事前に設定される任意の値(0<α<1)である。通常、受話側の音声認識精度の方が高いので、重みαは大きな値にした方が良い。その方が、より正確に送話側の認識信頼度を評価することになると考えられる。
このように、送話側文脈一貫性統合手段36は、送話側音声認識結果の単語集合単位の関連性の強さと、送話側音声認識結果の単語集合とその直前の受話側音声認識結果の単語集合との関連性の強さとの重み付け和を、送話側音声認識結果の単語集合の数で平均した送話側認識信頼度として計算する。送話側認識信頼度CUは、送話側発話と受話側発話との間の関連性が強い場合に大きな値となる。
受話側文脈一貫性統合手段35は、チャネル内文脈一貫性尺度計算手段33が出力する受話側のチャネル内文脈一貫性尺度SCin(NOi)を、単語集合NOiの数で平均した受話側認識信頼度COを計算(式(6))して出力する。
Figure 0005325176
また、重みαは単語認識信頼度から計算で求めても良い。
図8に、重みαを単語認識信頼度から求める重み計算部80を備えた音声認識装置200の機能構成例を示す。音声認識装置200は、音声認識装置100に対して重み計算部80を備える点のみが異なる。重み計算部80は、音声認識部20が出力する送話側音声認識結果と受話側音声認識結果を入力として重みαを計算して認識信頼度計算部30の送話側文脈一貫性統合手段36に重みαを与えるものである。
図9に重み計算部80の機能構成例を示す。重み計算部80は、受話側認識スコア算出手段81と、送話側認識スコア算出手段82と、シグモイド関数演算手段83と、を備える。受話側認識スコア算出手段81は、音声認識部20が出力する受話側音声認識結果を入力として、音声認識結果の各単語に付与された単語認識信頼度の総和を、各単語の継続時間長の総和で除した受話側音声認識スコアPOを出力する。
送話側認識スコア算出手段82は、音声認識部20が出力する送話側音声認識結果の各単語に付与された単語認識信頼度の総和を、各単語の継続時間長の総和で除した受話側音声認識スコアPUを出力する。シグモイド関数演算手段83は、受話側音声認識スコアPOと受話側音声認識スコアPUを入力として式(7)で重みαを計算する。
Figure 0005325176
gは重みαのゲイン定数、dはシフト定数であり、予め設定される値であり、例えばシフト定数dは0<50000の範囲、ゲイン定数は1000〜5000の範囲に設定される。
重み計算部80は、送話側チャネルに比べて受話側チャネルの音声認識精度が高いほど、受話側音声認識スコアPOと受話側音声認識スコアPUの差が大きくなることを利用し、認識スコアの差をシグモイド関数によって0〜1の範囲の値に変換した値を重みαとして出力する。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 送話側音声と受話側音声を入力としてそれぞれの音声を音声認識処理した単語毎に単語認識信頼度を付与した送話側音声認識結果と受話側音声認識結果を出力する音声認識過程と、
    上記送話側音声認識結果と受話側音声認識結果を入力として音声認識結果の全ての単語間の組み合わせの2単語間の関連度を示す単語関連度テーブルを参照して上記それぞれの音声認識結果のチャネル内文脈一貫性尺度と、上記送話側音声認識結果と上記受話側音声認識結果との間のチャネル間文脈一貫性尺度とを求め、送話側チャネル内文脈一貫性尺度と上記チャネル間文脈一貫性尺度の重み付き和を送話側認識信頼度として計算して出力する認識信頼度計算過程と、
    を含む2チャネル音声の音声認識方法。
  2. 請求項1に記載した音声認識方法において、
    上記認識信頼度計算過程は、
    更に、受話側チャネル内文脈一貫性尺度の平均値を受話側認識信頼度として計算して出力する過程であることを特徴とする2チャネル音声の音声認識方法。
  3. 請求項2に記載した2チャネル音声の音声認識方法において、
    上記重み付き和の重みは、上記送話側音声認識結果と上記受話側音声認識結果の各単語に付与された単語認識信頼度の総和を、各単語の継続時間長の総和で除した受話側音声認識スコアと送話側音声認識スコアの差をゲインとするシグモイド関数で求められた値であることを特徴とする2チャネル音声の音声認識方法。
  4. 送話側音声と受話側音声を入力としてそれぞれの音声を音声認識処理した単語毎に単語認識信頼度を付与した送話側音声認識結果と受話側音声認識結果を出力する音声認識部と、
    上記送話側音声認識結果と受話側音声認識結果を入力として音声認識結果の全ての単語間の組み合わせの2単語間の関連度を示す単語関連度テーブルを参照して上記それぞれの音声認識結果のチャネル内文脈一貫性尺度と、上記送話側音声認識結果と上記受話側音声認識結果との間のチャネル間文脈一貫性尺度とを求め、送話側チャネル内文脈一貫性尺度と上記チャネル間文脈一貫性尺度の重み付き和を送話側認識信頼度として計算して出力する認識信頼度計算部と、
    を具備する2チャネル音声の音声認識装置。
  5. 請求項4に記載した音声認識装置において、
    上記認識信頼度計算部は、
    更に、受話側チャネル内文脈一貫性尺度の平均値を受話側認識信頼度として計算して出力するものであることを特徴とする2チャネル音声の音声認識装置。
  6. 請求項1乃至3の何れかに記載した2チャネル音声の音声認識方法を、コンピュータに実行させるための2チャネル音声の音声認識方法プログラム。
JP2010162629A 2010-07-20 2010-07-20 2チャネル音声の音声認識方法とその装置とプログラム Expired - Fee Related JP5325176B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010162629A JP5325176B2 (ja) 2010-07-20 2010-07-20 2チャネル音声の音声認識方法とその装置とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010162629A JP5325176B2 (ja) 2010-07-20 2010-07-20 2チャネル音声の音声認識方法とその装置とプログラム

Publications (2)

Publication Number Publication Date
JP2012027065A JP2012027065A (ja) 2012-02-09
JP5325176B2 true JP5325176B2 (ja) 2013-10-23

Family

ID=45780100

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010162629A Expired - Fee Related JP5325176B2 (ja) 2010-07-20 2010-07-20 2チャネル音声の音声認識方法とその装置とプログラム

Country Status (1)

Country Link
JP (1) JP5325176B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9870765B2 (en) 2016-06-03 2018-01-16 International Business Machines Corporation Detecting customers with low speech recognition accuracy by investigating consistency of conversation in call-center

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3621922B2 (ja) * 2001-02-01 2005-02-23 松下電器産業株式会社 文認識装置、文認識方法、プログラム、および媒体
JP4128342B2 (ja) * 2001-07-19 2008-07-30 三菱電機株式会社 対話処理装置及び対話処理方法並びにプログラム
EP1450350A1 (en) * 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
JP2005010691A (ja) * 2003-06-20 2005-01-13 P To Pa:Kk 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
JP5044783B2 (ja) * 2007-01-23 2012-10-10 国立大学法人九州工業大学 自動回答装置および方法

Also Published As

Publication number Publication date
JP2012027065A (ja) 2012-02-09

Similar Documents

Publication Publication Date Title
US11037553B2 (en) Learning-type interactive device
JP5024154B2 (ja) 関連付け装置、関連付け方法及びコンピュータプログラム
JP6066354B2 (ja) 信頼度計算の方法及び装置
US9047866B2 (en) System and method for identification of a speaker by phonograms of spontaneous oral speech and by using formant equalization using one vowel phoneme type
US20040162730A1 (en) Method and apparatus for predicting word error rates from text
WO2018192186A1 (zh) 语音识别方法及装置
JP6246636B2 (ja) パターン識別装置、パターン識別方法およびプログラム
Le et al. Automatic Paraphasia Detection from Aphasic Speech: A Preliminary Study.
US20230070000A1 (en) Speech recognition method and apparatus, device, storage medium, and program product
Lakomkin et al. KT-speech-crawler: Automatic dataset construction for speech recognition from YouTube videos
US20100324897A1 (en) Audio recognition device and audio recognition method
Park et al. Towards understanding speaker discrimination abilities in humans and machines for text-independent short utterances of different speech styles
Tobin et al. Assessing asr model quality on disordered speech using bertscore
JP3819896B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP5325176B2 (ja) 2チャネル音声の音声認識方法とその装置とプログラム
JP6468584B2 (ja) 外国語の難易度判定装置
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
Lindh Forensic comparison of voices, speech and speakers–Tools and Methods in Forensic Phonetics
JP5149941B2 (ja) 音声認識方法とその装置とプログラム
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP5406797B2 (ja) 音声認識方法とその装置とプログラム
JP5513439B2 (ja) 単語関連度テーブル作成装置とその方法と音声認識装置とプログラム
KR20090006903A (ko) 음성 인식을 이용한 자동 번역 방법 및 장치
JP5066668B2 (ja) 音声認識装置、およびプログラム
JPWO2014155652A1 (ja) 話者検索システム、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121101

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130719

R150 Certificate of patent or registration of utility model

Ref document number: 5325176

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130829

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees