JP6695830B2

JP6695830B2 - 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム

Info

Publication number: JP6695830B2
Application number: JP2017111576A
Authority: JP
Inventors: 中村　孝; 孝中村; 隆朗福冨
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-06-06
Filing date: 2017-06-06
Publication date: 2020-05-20
Anticipated expiration: 2037-06-06
Also published as: JP2018205562A

Description

本発明は、音声の特徴から音声認識精度の劣化要因を推定する音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラムに関する。

未知語や同音異義語等の音声認識誤り原因を検出、訂正する方法が提案されている（非特許文献１、２）。

Taichi Asami, Ryo Masumura, Yushi Aono, Koichi Shinoda, "Recurrent Out-of-Vocabulary Word Detection Using Distribution of Features", [online], 平成 28 年9 月、ISCA, ［平成 29 年 5 月 18 日検索］、インターネット〈URL：http://t2r2.star.titech.ac.jp/rrws/file/CTT100716848/ATD100000413/ 〉垣智、隅田英一郎、飯田仁、"文字連鎖の統計的特徴を利用した音声認識誤り訂正手法"、[online]、平成10 年 3 月、言語処理学会、［平成 29 年 5 月 18 日検索］、インターネット〈 URL：http://www.anlp.jp/proceedings/annual_meeting/1998/pdf_dir/Q1-5.pdf 〉 Srikanth R Madikeri, Hema A Murthy, "Mel filter bank energy-based slope feature and its application to speaker recognition", [online], 平成23 年 1 月、ISCA, ［平成 29 年 5 月 18 日検索］、インターネット〈URL：http://ieeexplore.ieee.org/abstract/document/5734713/ 〉

非特許文献１では音素認識と単語認識を並列で実行し、単語認識において生成されるコンフュージョンネットワークの遷移毎の特徴量を用いて未知語を検出するが、必ず音声認識を行う必要があり、かつ検出できるのは未知語に限られる。非特許文献２では、音声認識誤りパターンを類型化し、パターンに当てはまる部分を訂正するが、言語的な誤りパターンのみにしか対応できない。

そこで、本発明では、音声の特徴から音声認識精度の劣化要因を推定することができる音声認識精度劣化要因推定装置を提供することを目的とする。

本発明の音声認識精度劣化要因推定装置は、音声特徴量抽出部と、事後確率計算部と、フィルタリング部と、劣化要因出力部を含む。

音声特徴量抽出部は、入力された音声からフレーム毎の音声特徴量を抽出する。事後確率計算部は、劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の音声特徴量の音響イベント毎の事後確率を計算する。フィルタリング部は、音響イベント毎の事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とする。劣化要因出力部は、劣化要因クラスに分類されている音響イベントのうち、各フレームにおいて補正事後確率が最大となる音響イベントが所定時間区間内において連続して同一であった場合に、該当する音響イベントを劣化要因として出力する。

本発明の音声認識精度劣化要因推定装置によれば、音声の特徴から音声認識精度の劣化要因を推定することができる。

実施例１の音声認識精度劣化要因推定装置の構成を示すブロック図。実施例１の音声認識精度劣化要因推定装置の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図１を参照して実施例１の音声認識精度劣化要因推定装置の構成を説明する。同図に示すように本実施例の音声認識精度劣化要因推定装置１は、音声特徴量抽出部１１と、事後確率計算部１２と、フィルタリング部１３と、劣化要因出力部１４と、モデル記憶部１５を含む。以下、図２を参照しながら各構成要件の動作について詳細に説明する。

＜音声特徴量抽出部１１＞
入力：音声
出力：各フレームの音声特徴量
処理：音声特徴量抽出部１１は、入力された音声からフレーム毎の音声特徴量を抽出する（Ｓ１１）。音声特徴量抽出部１１は、例えば非特許文献３に記載の公知の技術により、各フレームの音声特徴量を抽出する。

≪用語の定義：フレーム≫
入力音声を音響分析する際、分析対象の波形は一定の性質を持つという前提、すなわち分析対象の始めと終わりでその性質が変わらないものであるという前提を置く場合が多い。そのため、分析対象の音声波形を非常に短い時間幅で切り出すことにより、そのごく短い時間幅では音声は同じ特性を持つと言えるようにする。ここでいう時間幅としては、２０〜３０ミリ秒と言った値が採用されることが多い。

上記のように音声を短い時間幅で切り出す際、音響分析結果の急激な変化を避け、音響分析結果を連続的に変化させることを目的に、切り出し位置を時間幅より短い幅でずらすことにより、切り出された音声波形を一部オーバーラップさせ、オーバーラップさせた部分においては共通の音声波形が含まれるようにする。このとき、ずらす時間幅をフレームシフトと呼ぶことが多い。フレームシフトとして、１０〜１５ミリ秒といった値が採用されることが多い。非特許文献３のＦｉｇ．１を参照のこと。

＜事後確率計算部１２＞
入力：入力された音声における発話全体の、各フレームの音声特徴量
出力：各フレームの、音響イベント毎の事後確率
処理：事後確率計算部１２は、劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の音声特徴量の音響イベント毎の事後確率を計算する（Ｓ１２）。事後確率計算部１２は、事前に学習済みのモデルであって、モデル記憶部１５に記憶済みの音響イベント推定モデルに各フレームの音声特徴量を入力し、フレーム毎に音響イベント毎の事後確率を計算して出力する。

音響イベントの例として、例えば下表がある。

音響イベントは、音声認識に悪影響を及ぼす（認識精度が劣化する）要因と考えられるクラスである劣化要因クラスと、音声認識に悪影響を及ぼさないと考えられるクラスである非劣化要因クラスの何れかのクラスに予め分類されているものとする。

上表に示した音響イベントの例において、各音響イベントは以下のように分類される。

音響イベント推定モデルとして、例えば深層ニューラルネットワーク（DNN:Deep Neural Netword）や畳込みニューラルネットワーク（CNN:Convolutional Neural Network）、混合正規分布（Gaussian Mixture Model）などを用いてもよい。

＜フィルタリング部１３＞
入力：各フレームの、音響イベント毎の事後確率
出力：各フレームの、音響イベント毎の補正事後確率
処理：フィルタリング部１３は、音響イベント毎の事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とし、これを出力する（Ｓ１３）。フィルタリング部１３は、事後確率計算部１２で計算された音響イベント毎の事後確率について、イベント毎に時系列フィルタリング処理を行う。

フィルタリング部１３の具体的手順として、以下のような方法が挙げられる。まず、フィルタリング部１３は、発話区間全体（入力された音声全体）に対し、フィルタ窓を設定する。フィルタ窓は発話区間全体よりも短い時間幅（例えばフレームシフト長の１０倍など）を設定する。次に、フィルタリング部１３は、フィルタ窓に包含されるフレーム毎の事後確率を取得する。上記の例に当てはめれば、１０フレーム分の事後確率＝１０個の事後確率の数値である。フィルタリング部１３は、取得した音響イベント毎の事後確率に対して、時系列フィルタを掛ける。ここで時系列フィルタは、時間方向に重みづけ係数が展開されたフィルタであって、例えば、移動平均フィルタ、メディアンフィルタなどでよい。

上記方法では、発話区間の最初と最後にフィルタ窓長に満たないフレームが生じる場合がある。その場合はフィルタリング部１３が下記のような処理を実行することにより、フィルタリングができない状態を回避する。
発話の最初：最初のフレームの事後確率をコピーし、フィルタ窓長に満たない分はそのコピーした値を使用する。
発話の最後：最後のフレームの事後確率をコピーし、フィルタ窓長に満たない分はそのコピーした値を使用する。

＜劣化要因出力部１４＞
入力：各フレームの、音響イベント毎の補正事後確率
出力：劣化要因、劣化要因指標（支配的である／でない）
処理：劣化要因出力部１４は、劣化要因クラスに分類されている音響イベントのうち、各フレームにおいて補正事後確率が最大となる音響イベントが所定時間区間内において連続して同一であった場合に、該当する音響イベントを劣化要因として出力する（Ｓ１４−１）。所定時間区間を発話区間全体の時間長より短い任意の時間幅とする。例えば所定時間区間を１０フレームシフト長とする。この場合、劣化要因クラスに属するある音響イベントが１０フレーム連続して最も事後確率が高かった場合、劣化要因出力部１４は当該音響イベントを劣化要因として出力する。

また、劣化要因出力部１４は、劣化要因クラスに分類されている音響イベントの各フレームにおける補正事後確率をフレーム内で合計した値をフレーム内合計値とし、フレーム内合計値をフレーム間で、発話区間全体に渡り、合計した値をフレーム間合計値とし、フレーム間合計値をフレーム数に基づいて正規化した値を正規化確率値とした場合に、正規化確率値が所定の閾値を超える場合に、劣化要因が支配的である旨を示す劣化要因指標を出力する（Ｓ１４−２）。一方、劣化要因出力部１４は、正規化確率値が所定の閾値を超えない場合には、劣化要因が支配的でない旨を示す劣化要因指標を出力する（Ｓ１４−２）。

＜効果＞
本実施例の音声認識精度劣化要因推定装置１は、音声認識精度が劣化する要因を音声の特徴から推定したため、次のような効果を期待できる。１）劣化要因をユーザに呈示できるため、ユーザは収録環境を調整しようとする。従って再度音声を収録した場合の音声認識精度の向上に寄与する。２）劣化要因が支配的であるとされた音声認識結果を除外することにより、音声認識精度の向上に寄与する。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力された音声からフレーム毎の音声特徴量を抽出する音声特徴量抽出部と、
劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の前記音声特徴量の前記音響イベント毎の事後確率を計算する事後確率計算部と、
前記音響イベント毎の前記事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とするフィルタリング部と、
前記劣化要因クラスに分類されている前記音響イベントのうち、各フレームにおいて前記補正事後確率が最大となる前記音響イベントが所定時間区間内において連続して同一であった場合に、該当する前記音響イベントを劣化要因として出力する劣化要因出力部
を含む音声認識精度劣化要因推定装置。
請求項１に記載の音声認識精度劣化要因推定装置であって、
前記劣化要因出力部は、
前記劣化要因クラスに分類されている前記音響イベントの各フレームにおける前記補正事後確率をフレーム内で合計した値をフレーム内合計値とし、前記フレーム内合計値をフレーム間で合計した値をフレーム間合計値とし、前記フレーム間合計値をフレーム数に基づいて正規化した値を正規化確率値とした場合に、前記正規化確率値が所定の閾値を超える場合に、劣化要因が支配的である旨を示す劣化要因指標を出力する
音声認識精度劣化要因推定装置。
音声認識精度劣化要因推定装置が実行する音声認識精度劣化要因推定方法であって、
入力された音声からフレーム毎の音声特徴量を抽出するステップと、
劣化要因クラスと非劣化要因クラスの何れかに予め分類されている複数の音響イベントに基づいて、フレーム毎の前記音声特徴量の前記音響イベント毎の事後確率を計算するステップと、
前記音響イベント毎の前記事後確率に時間方向に重みづけ係数が展開されたフィルタである時系列フィルタによるフィルタリングを行って補正事後確率とするステップと、
前記劣化要因クラスに分類されている前記音響イベントのうち、各フレームにおいて前記補正事後確率が最大となる前記音響イベントが所定時間区間内において連続して同一であった場合に、該当する前記音響イベントを劣化要因として出力するステップ
を含む音声認識精度劣化要因推定方法。
請求項３に記載の音声認識精度劣化要因推定方法であって、
前記劣化要因クラスに分類されている前記音響イベントの各フレームにおける前記補正事後確率をフレーム内で合計した値をフレーム内合計値とし、前記フレーム内合計値をフレーム間で合計した値をフレーム間合計値とし、前記フレーム間合計値をフレーム数に基づいて正規化した値を正規化確率値とした場合に、前記正規化確率値が所定の閾値を超える場合に、劣化要因が支配的である旨を示す劣化要因指標を出力するステップを含む
音声認識精度劣化要因推定方法。
コンピュータを請求項１または２に記載の音声認識精度劣化要因推定装置として機能させるプログラム。