JP6695830B2 - 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム - Google Patents

音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム Download PDF

Info

Publication number
JP6695830B2
JP6695830B2 JP2017111576A JP2017111576A JP6695830B2 JP 6695830 B2 JP6695830 B2 JP 6695830B2 JP 2017111576 A JP2017111576 A JP 2017111576A JP 2017111576 A JP2017111576 A JP 2017111576A JP 6695830 B2 JP6695830 B2 JP 6695830B2
Authority
JP
Japan
Prior art keywords
deterioration factor
frame
speech recognition
recognition accuracy
posterior probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017111576A
Other languages
English (en)
Other versions
JP2018205562A (ja
Inventor
中村 孝
孝 中村
隆朗 福冨
隆朗 福冨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017111576A priority Critical patent/JP6695830B2/ja
Publication of JP2018205562A publication Critical patent/JP2018205562A/ja
Application granted granted Critical
Publication of JP6695830B2 publication Critical patent/JP6695830B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声の特徴から音声認識精度の劣化要因を推定する音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラムに関する。
未知語や同音異義語等の音声認識誤り原因を検出、訂正する方法が提案されている(非特許文献1、2)。
Taichi Asami, Ryo Masumura, Yushi Aono, Koichi Shinoda, "Recurrent Out-of-Vocabulary Word Detection Using Distribution of Features", [online], 平成 28 年9 月、ISCA, [平成 29 年 5 月 18 日検索]、インターネット〈URL:http://t2r2.star.titech.ac.jp/rrws/file/CTT100716848/ATD100000413/ 〉 垣智、隅田英一郎、飯田仁、"文字連鎖の統計的特徴を利用した音声認識誤り訂正手法"、[online]、平成10 年 3 月、言語処理学会、[平成 29 年 5 月 18 日検索]、インターネット〈 URL:http://www.anlp.jp/proceedings/annual_meeting/1998/pdf_dir/Q1-5.pdf 〉 Srikanth R Madikeri, Hema A Murthy, "Mel filter bank energy-based slope feature and its application to speaker recognition", [online], 平成23 年 1 月、ISCA, [平成 29 年 5 月 18 日検索]、インターネット〈URL:http://ieeexplore.ieee.org/abstract/document/5734713/ 〉
非特許文献1では音素認識と単語認識を並列で実行し、単語認識において生成されるコンフュージョンネットワークの遷移毎の特徴量を用いて未知語を検出するが、必ず音声認識を行う必要があり、かつ検出できるのは未知語に限られる。非特許文献2では、音声認識誤りパターンを類型化し、パターンに当てはまる部分を訂正するが、言語的な誤りパターンのみにしか対応できない。
そこで、本発明では、音声の特徴から音声認識精度の劣化要因を推定することができる音声認識精度劣化要因推定装置を提供することを目的とする。
本発明の音声認識精度劣化要因推定装置は、音声特徴量抽出部と、事後確率計算部と、フィルタリング部と、劣化要因出力部を含む。
音声特徴量抽出部は、入力された音声からフレーム毎の音声特徴量を抽出する。事後確率計算部は、劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の音声特徴量の音響イベント毎の事後確率を計算する。フィルタリング部は、音響イベント毎の事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とする。劣化要因出力部は、劣化要因クラスに分類されている音響イベントのうち、各フレームにおいて補正事後確率が最大となる音響イベントが所定時間区間内において連続して同一であった場合に、該当する音響イベントを劣化要因として出力する。
本発明の音声認識精度劣化要因推定装置によれば、音声の特徴から音声認識精度の劣化要因を推定することができる。
実施例1の音声認識精度劣化要因推定装置の構成を示すブロック図。 実施例1の音声認識精度劣化要因推定装置の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図1を参照して実施例1の音声認識精度劣化要因推定装置の構成を説明する。同図に示すように本実施例の音声認識精度劣化要因推定装置1は、音声特徴量抽出部11と、事後確率計算部12と、フィルタリング部13と、劣化要因出力部14と、モデル記憶部15を含む。以下、図2を参照しながら各構成要件の動作について詳細に説明する。
<音声特徴量抽出部11>
入力:音声
出力:各フレームの音声特徴量
処理:音声特徴量抽出部11は、入力された音声からフレーム毎の音声特徴量を抽出する(S11)。音声特徴量抽出部11は、例えば非特許文献3に記載の公知の技術により、各フレームの音声特徴量を抽出する。
≪用語の定義:フレーム≫
入力音声を音響分析する際、分析対象の波形は一定の性質を持つという前提、すなわち分析対象の始めと終わりでその性質が変わらないものであるという前提を置く場合が多い。そのため、分析対象の音声波形を非常に短い時間幅で切り出すことにより、そのごく短い時間幅では音声は同じ特性を持つと言えるようにする。ここでいう時間幅としては、20〜30ミリ秒と言った値が採用されることが多い。
上記のように音声を短い時間幅で切り出す際、音響分析結果の急激な変化を避け、音響分析結果を連続的に変化させることを目的に、切り出し位置を時間幅より短い幅でずらすことにより、切り出された音声波形を一部オーバーラップさせ、オーバーラップさせた部分においては共通の音声波形が含まれるようにする。このとき、ずらす時間幅をフレームシフトと呼ぶことが多い。フレームシフトとして、10〜15ミリ秒といった値が採用されることが多い。非特許文献3のFig.1を参照のこと。
<事後確率計算部12>
入力:入力された音声における発話全体の、各フレームの音声特徴量
出力:各フレームの、音響イベント毎の事後確率
処理:事後確率計算部12は、劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の音声特徴量の音響イベント毎の事後確率を計算する(S12)。事後確率計算部12は、事前に学習済みのモデルであって、モデル記憶部15に記憶済みの音響イベント推定モデルに各フレームの音声特徴量を入力し、フレーム毎に音響イベント毎の事後確率を計算して出力する。
音響イベントの例として、例えば下表がある。
Figure 0006695830
音響イベントは、音声認識に悪影響を及ぼす(認識精度が劣化する)要因と考えられるクラスである劣化要因クラスと、音声認識に悪影響を及ぼさないと考えられるクラスである非劣化要因クラスの何れかのクラスに予め分類されているものとする。
上表に示した音響イベントの例において、各音響イベントは以下のように分類される。
Figure 0006695830
音響イベント推定モデルとして、例えば深層ニューラルネットワーク(DNN:Deep Neural Netword)や畳込みニューラルネットワーク(CNN:Convolutional Neural Network)、混合正規分布(Gaussian Mixture Model)などを用いてもよい。
<フィルタリング部13>
入力:各フレームの、音響イベント毎の事後確率
出力:各フレームの、音響イベント毎の補正事後確率
処理:フィルタリング部13は、音響イベント毎の事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とし、これを出力する(S13)。フィルタリング部13は、事後確率計算部12で計算された音響イベント毎の事後確率について、イベント毎に時系列フィルタリング処理を行う。
フィルタリング部13の具体的手順として、以下のような方法が挙げられる。まず、フィルタリング部13は、発話区間全体(入力された音声全体)に対し、フィルタ窓を設定する。フィルタ窓は発話区間全体よりも短い時間幅(例えばフレームシフト長の10倍など)を設定する。次に、フィルタリング部13は、フィルタ窓に包含されるフレーム毎の事後確率を取得する。上記の例に当てはめれば、10フレーム分の事後確率=10個の事後確率の数値である。フィルタリング部13は、取得した音響イベント毎の事後確率に対して、時系列フィルタを掛ける。ここで時系列フィルタは、時間方向に重みづけ係数が展開されたフィルタであって、例えば、移動平均フィルタ、メディアンフィルタなどでよい。
上記方法では、発話区間の最初と最後にフィルタ窓長に満たないフレームが生じる場合がある。その場合はフィルタリング部13が下記のような処理を実行することにより、フィルタリングができない状態を回避する。
発話の最初:最初のフレームの事後確率をコピーし、フィルタ窓長に満たない分はそのコピーした値を使用する。
発話の最後:最後のフレームの事後確率をコピーし、フィルタ窓長に満たない分はそのコピーした値を使用する。
<劣化要因出力部14>
入力:各フレームの、音響イベント毎の補正事後確率
出力:劣化要因、劣化要因指標(支配的である/でない)
処理:劣化要因出力部14は、劣化要因クラスに分類されている音響イベントのうち、各フレームにおいて補正事後確率が最大となる音響イベントが所定時間区間内において連続して同一であった場合に、該当する音響イベントを劣化要因として出力する(S14−1)。所定時間区間を発話区間全体の時間長より短い任意の時間幅とする。例えば所定時間区間を10フレームシフト長とする。この場合、劣化要因クラスに属するある音響イベントが10フレーム連続して最も事後確率が高かった場合、劣化要因出力部14は当該音響イベントを劣化要因として出力する。
また、劣化要因出力部14は、劣化要因クラスに分類されている音響イベントの各フレームにおける補正事後確率をフレーム内で合計した値をフレーム内合計値とし、フレーム内合計値をフレーム間で、発話区間全体に渡り、合計した値をフレーム間合計値とし、フレーム間合計値をフレーム数に基づいて正規化した値を正規化確率値とした場合に、正規化確率値が所定の閾値を超える場合に、劣化要因が支配的である旨を示す劣化要因指標を出力する(S14−2)。一方、劣化要因出力部14は、正規化確率値が所定の閾値を超えない場合には、劣化要因が支配的でない旨を示す劣化要因指標を出力する(S14−2)。
<効果>
本実施例の音声認識精度劣化要因推定装置1は、音声認識精度が劣化する要因を音声の特徴から推定したため、次のような効果を期待できる。1)劣化要因をユーザに呈示できるため、ユーザは収録環境を調整しようとする。従って再度音声を収録した場合の音声認識精度の向上に寄与する。2)劣化要因が支配的であるとされた音声認識結果を除外することにより、音声認識精度の向上に寄与する。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (5)

  1. 入力された音声からフレーム毎の音声特徴量を抽出する音声特徴量抽出部と、
    劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の前記音声特徴量の前記音響イベント毎の事後確率を計算する事後確率計算部と、
    前記音響イベント毎の前記事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とするフィルタリング部と、
    前記劣化要因クラスに分類されている前記音響イベントのうち、各フレームにおいて前記補正事後確率が最大となる前記音響イベントが所定時間区間内において連続して同一であった場合に、該当する前記音響イベントを劣化要因として出力する劣化要因出力部
    を含む音声認識精度劣化要因推定装置。
  2. 請求項1に記載の音声認識精度劣化要因推定装置であって、
    前記劣化要因出力部は、
    前記劣化要因クラスに分類されている前記音響イベントの各フレームにおける前記補正事後確率をフレーム内で合計した値をフレーム内合計値とし、前記フレーム内合計値をフレーム間で合計した値をフレーム間合計値とし、前記フレーム間合計値をフレーム数に基づいて正規化した値を正規化確率値とした場合に、前記正規化確率値が所定の閾値を超える場合に、劣化要因が支配的である旨を示す劣化要因指標を出力する
    音声認識精度劣化要因推定装置。
  3. 音声認識精度劣化要因推定装置が実行する音声認識精度劣化要因推定方法であって、
    入力された音声からフレーム毎の音声特徴量を抽出するステップと、
    劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の前記音声特徴量の前記音響イベント毎の事後確率を計算するステップと、
    前記音響イベント毎の前記事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とするステップと、
    前記劣化要因クラスに分類されている前記音響イベントのうち、各フレームにおいて前記補正事後確率が最大となる前記音響イベントが所定時間区間内において連続して同一であった場合に、該当する前記音響イベントを劣化要因として出力するステップ
    を含む音声認識精度劣化要因推定方法。
  4. 請求項3に記載の音声認識精度劣化要因推定方法であって、
    前記劣化要因クラスに分類されている前記音響イベントの各フレームにおける前記補正事後確率をフレーム内で合計した値をフレーム内合計値とし、前記フレーム内合計値をフレーム間で合計した値をフレーム間合計値とし、前記フレーム間合計値をフレーム数に基づいて正規化した値を正規化確率値とした場合に、前記正規化確率値が所定の閾値を超える場合に、劣化要因が支配的である旨を示す劣化要因指標を出力するステップを含む
    音声認識精度劣化要因推定方法。
  5. コンピュータを請求項1または2に記載の音声認識精度劣化要因推定装置として機能させるプログラム。
JP2017111576A 2017-06-06 2017-06-06 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム Active JP6695830B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017111576A JP6695830B2 (ja) 2017-06-06 2017-06-06 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017111576A JP6695830B2 (ja) 2017-06-06 2017-06-06 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム

Publications (2)

Publication Number Publication Date
JP2018205562A JP2018205562A (ja) 2018-12-27
JP6695830B2 true JP6695830B2 (ja) 2020-05-20

Family

ID=64957032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017111576A Active JP6695830B2 (ja) 2017-06-06 2017-06-06 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム

Country Status (1)

Country Link
JP (1) JP6695830B2 (ja)

Also Published As

Publication number Publication date
JP2018205562A (ja) 2018-12-27

Similar Documents

Publication Publication Date Title
JP6812381B2 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
US10891944B2 (en) Adaptive and compensatory speech recognition methods and devices
JP6306528B2 (ja) 音響モデル学習支援装置、音響モデル学習支援方法
US11942074B2 (en) Learning data acquisition apparatus, model learning apparatus, methods and programs for the same
US11553085B2 (en) Method and apparatus for predicting customer satisfaction from a conversation
JP5790646B2 (ja) パープレキシティ算出装置
JP7409381B2 (ja) 発話区間検出装置、発話区間検出方法、プログラム
US9053087B2 (en) Automatic semantic evaluation of speech recognition results
JP6563874B2 (ja) 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム
JP2019008367A (ja) 質問単語重み算出装置、質問回答検索装置、質問単語重み算出方法、質問回答検索方法、プログラム、及び記憶媒体
US20200075042A1 (en) Detection of music segment in audio signal
JP6695830B2 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
Yadava et al. Performance evaluation of spectral subtraction with VAD and time–frequency filtering for speech enhancement
US20220130137A1 (en) Method and apparatus for searching neural network architecture
JP6353408B2 (ja) 言語モデル適応装置、言語モデル適応方法、プログラム
US11886824B2 (en) Sentiment progression analysis
JP6486789B2 (ja) 音声認識装置、音声認識方法、プログラム
JP5786717B2 (ja) データ処理装置、そのコンピュータプログラムおよびデータ処理方法
JP4981850B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP2010039671A (ja) テキストマイニング装置、方法、プログラム及びその記録媒体
JP6802145B2 (ja) Snr推定装置、snr推定方法、プログラム
JP6554916B2 (ja) 情報処理装置及び情報処理方法
JP5980143B2 (ja) ポーズ付与モデル生成装置、ポーズ付与モデル生成方法、ポーズ付与装置、ポーズ付与方法、プログラム
JP2019144355A (ja) 決定装置、決定方法、決定プログラム及びモデル
JP7293826B2 (ja) 問題検出装置、問題検出方法および問題検出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200422

R150 Certificate of patent or registration of utility model

Ref document number: 6695830

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150