JP7168080B2

JP7168080B2 - 音声認識制御装置、音声認識制御方法、およびプログラム

Info

Publication number: JP7168080B2
Application number: JP2021524541A
Authority: JP
Inventors: 隆朗福冨; 義和山口; 雄介篠原; 清彰松井; 崇史森谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2022-11-09
Anticipated expiration: 2039-06-04
Also published as: JPWO2020245912A1; WO2020245912A1; US20220328047A1

Description

この発明は、音声認識技術に関し、特に、ネットワークを介して複数の音声認識器の出力を制御する技術に関する。

音声認識を提供するシステムにおいて、ユーザ端末側とクラウド側の双方に音声認識器を配備し、音声認識結果の信頼尺度を用いた閾値処理や認識結果が得られるまでの所要時間のタイムアウト処理によって、認識結果を高精度にレスポンスよく返却する方式がある。例えば、ユーザ端末側とクラウド側の認識結果のうち先に得られた音声認識結果の信頼尺度が閾値を超えている場合は、他方の認識結果取得を待たず、得られた認識結果のみ返却する方法がある。また、ユーザ端末側とクラウド側の認識結果を指定したタイムアウト時間まで待ち合わせ、双方の結果が得られた場合は、例えば、非特許文献１に開示された技術などにより認識結果を統合して返却し、一方の結果しか得られなかった場合には、得られた結果のみを返却する方法がある。

Fiscus, J. G., "A Post-Processing System to Yield Reduced Word Error Rates; Recognizer Output Voting Error Reduction (ROVER)", Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding, pp.347-354, 1997.

しかしながら、従来技術では、認識結果を待ち合わせるタイムアウト時間が固定的に設定されており、ネットワーク輻輳時など他方の結果がタイムアウト時間内に明らかに得られない場合でもタイムアウト時間が満了するまで待つ必要がある。

この発明の目的は、上記のような技術的課題に鑑みて、ネットワーク通信状態に影響されずレスポンスよく認識結果が得られる音声認識技術を提供することである。

上記の課題を解決するために、この発明の一態様の音声認識制御装置は、ネットワークを介して通信を行う少なくとも１つの音声認識器を含む複数の音声認識器から認識結果を得る音声認識制御装置であって、ネットワークの通信状態を測定する通信状態測定部と、ネットワークの直前の通信状態に応じてタイムアウト時間を設定して音声認識器それぞれへ音声認識処理のリクエストを送信する音声認識要求部と、少なくとも１つの音声認識器から受信した認識結果に基づいて認識結果を出力する認識結果出力部と、を含む。

この発明によれば、時々刻々変化するネットワーク通信状態に応じた認識結果の待ち合わせタイムアウト処理が可能となるため、認識結果取得までのレスポンスが改善する。

図１は、音声認識制御装置の機能構成を例示する図である。図２は、音声認識制御方法の処理手順を例示する図である。図３は、コンピュータの機能構成を例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態］
第一実施形態の音声認識制御装置１は、図１に示すように、例えば、通信状態測定部１１、音声認識要求部１２、音声認識部１３、および認識結果出力部１４を備える。音声認識制御装置１は、少なくとも１台の音声認識装置２と通信可能となるようにネットワーク３に接続される。ネットワーク３は、接続される各装置が相互に通信可能なように構成された回線交換方式もしくはパケット交換方式の通信網であり、例えばインターネットやLAN（Local Area Network）、WAN（Wide Area Network）などを用いることができる。図１では、ネットワーク３を介さず利用できる音声認識部１３とネットワーク３を介して通信する音声認識装置２との２つの音声認識器を用いる構成としているが、音声認識部１３と２台以上の音声認識装置２を含む３つ以上の音声認識器を用いる構成や、音声認識部１３を備えず２台以上の音声認識装置２を含む２つ以上の音声認識器を用いる構成としてもよい。すなわち、複数の音声認識器のうち少なくとも１つがネットワーク３を介して利用できれば音声認識器の数や位置は限定されない。この音声認識制御装置１が後述する各ステップの処理を行うことにより第一実施形態の音声認識制御方法が実現される。

音声認識制御装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声認識制御装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声認識制御装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声認識制御装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

図２を参照して、第一実施形態の音声認識制御装置１が実行する音声認識制御方法の処理手続きを説明する。

ステップＳ１１において、音声認識制御装置１の通信状態測定部１１は、音声認識処理が開始されるまで、ネットワーク３の通信状態を測定する。測定する通信状態は、例えば、ラウンドトリップタイム（RTT）などの尺度を用いる。例えば、音声認識処理が開始される直前N秒間のラウンドトリップタイムの平均値を用いる。例えば、Nは3秒程度とすればよい。

ステップＳ１２において、音声認識制御装置１の音声認識要求部１２は、音声認識部１３および音声認識装置２それぞれへ音声認識処理のリクエストを送信する。このとき双方の認識結果が得られるまでの（言い換えると、双方の認識結果を待ち合わせる）タイムアウト時間を、通信状態測定部１１が測定した直前の通信状態に応じて設定する。音声認識処理が実行されるまでの直前のラウンドトリップタイムをRTT_bとし、ネットワーク非輻輳時のラウンドトリップタイムの平均値をRTT_aveとし、ネットワーク非輻輳時のラウンドトリップタイムの標準偏差をRTT_sdとしたとき、RTT_b > RTT_ave + 2 * RTT_sdであるようなネットワーク輻輳時には、音声認識要求部１２は待ち合わせ処理自体を行わない制御を行う。また、RTT_b <= RTT_ave + 2 * RTT_sdであるような通常時には、音声認識要求部１２は規定のタイムアウト時間T_thをそのまま利用し、認識結果の待ち合わせ処理を行う制御を行う。

ステップＳ１３において、音声認識制御装置１の音声認識部１３および音声認識装置２は、音声認識要求部１２から受信した音声認識処理のリクエストに応じて音声認識処理を実行し、認識結果を音声認識制御装置１の認識結果出力部１４へ送信する。

ステップＳ１４において、音声認識制御装置１の認識結果出力部１４は、音声認識部１３および音声認識装置２から得られた認識結果に基づいて音声認識処理の認識結果を決定して出力する。音声認識要求部１２が待ち合わせ処理を行わない制御を行った場合、認識結果出力部１４は最初に得られた認識結果を音声認識処理の認識結果として決定する。音声認識要求部１２がタイムアウト時間T_thを設定して待ち合わせ処理を行った場合、認識結果出力部１４はタイムアウト時間T_th以内に得られた１以上の認識結果に基づいて音声認識処理の認識結果を決定する。例えば、タイムアウト時間T_th以内に得られた認識結果が１つであれば、得られた認識結果を音声認識処理の認識結果として決定し、得られた認識結果が複数であれば、例えば非特許文献１の公知技術などを用いてそれらを統合した認識結果を音声認識処理の認識結果として決定する。

［第二実施形態］
第一実施形態の音声認識制御装置は、認識結果を待ち合わせるタイムアウト時間の制御を行ったが、第二実施形態の音声認識制御装置は、それに加えて音声認識の探索処理パラメータの制御も行う。

第二実施形態の音声認識要求部１２は、音声認識部１３および音声認識装置２それぞれへ音声認識処理のリクエストを送信するとき、直前の通信状態に応じて音声認識の探索処理パラメータの制御も行う。例えば、RTT_b > RTT_ave + 2 * RTT_sdのように遅延時間が大きい場合には、音声認識の探索処理パラメータを制限する。これにより、音声認識に要する時間が低減し、認識結果取得までの時間を抑えることができる。探索処理パラメータは、例えば、探索時のビーム幅を絞るなどをすると処理時間の低減につながる。一方で、RTT_b <= RTT_ave - 2 * RTT_sdのように十分な通信速度が期待される場合には、認識精度を上げる方向に探索処理パラメータを調整してもよい。探索処理パラメータは、例えば、探索時のビーム幅を広げるなどをすると認識精度の向上につながる。

［第三実施形態］
第一実施形態および第二実施形態の音声認識制御装置は、認識結果が得られるまでの所要時間のタイムアウト処理を対象として制御を行ったが、第三実施形態の音声認識制御装置は、信頼尺度を用いた閾値処理を対象とした制御を行う。

第三実施形態の音声認識要求部１２は、音声認識部１３および音声認識装置２それぞれへ音声認識処理のリクエストを送信するとき、信頼尺度の閾値を直前の通信状態に応じて設定する。第三実施形態の認識結果出力部１４は、音声認識部１３または音声認識装置２から先に得られた認識結果の信頼尺度が設定した閾値よりも高い場合、十分に信頼できる認識結果であると考えられるため、他方の認識結果を待たずに認識結果を返却する。一方、得られた認識結果の信頼尺度が閾値よりも低い場合、他方の認識結果を待つ処理を行う。ここで、遅延時間が大きい場合は他方の認識結果がタイムアウト時間内に返却される見込みが低いことから信頼尺度の閾値を低く設定し、一方、遅延時間が小さい場合は信頼尺度の閾値を高く設定する。例えば、RTT_b > RTT_ave + 2 * RTT_sdのように遅延時間が大きい場合には、信頼尺度の閾値を0.5などに設定し、RTT_b <= RTT_ave - 2 * RTT_sdのように遅延時間が小さい場合には、信頼尺度の閾値を0.8などに設定すればよい。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図３に示すコンピュータの記憶部１０２０に読み込ませ、制御部１０１０、入力部１０３０、出力部１０４０などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

ネットワークを介して通信を行う少なくとも１つの音声認識器を含む複数の音声認識器から認識結果を得る音声認識制御装置であって、
上記ネットワークの通信状態を測定する通信状態測定部と、
上記ネットワークの直前の通信状態に応じて上記音声認識器それぞれの認識結果を待ち合わせるタイムアウト時間を設定して上記音声認識器それぞれへ音声認識処理のリクエストを送信する音声認識要求部と、
少なくとも１つの上記音声認識器から受信した認識結果に基づいて認識結果を出力する認識結果出力部と、
を含み、
上記音声認識要求部は、上記ネットワークの通信状態の通常時には、設定された上記タイムアウト時間を利用して上記音声認識器それぞれの認識結果の待ち合わせを行い、上記ネットワークの通信状態の輻輳時には、上記音声認識器それぞれの認識結果の待ち合わせを行わない制御を行い、
上記認識結果出力部は、上記音声認識要求部が上記待ち合わせを行わない制御を行った場合には、最初に得られた認識結果を音声認識処理の認識結果として出力する、
音声認識制御装置。
請求項１に記載の音声認識制御装置であって、
上記音声認識要求部は、上記ネットワークの直前の通信状態に応じて探索パラメータを設定して上記音声認識処理のリクエストを送信するものである、
音声認識制御装置。
請求項１または２に記載の音声認識制御装置であって、
上記音声認識要求部は、上記ネットワークの直前の通信状態に応じて信頼尺度の閾値を設定して上記音声認識処理のリクエストを送信するものであり、
上記認識結果出力部は、ある音声認識器から受信した認識結果の信頼尺度が上記閾値を超える場合、他の音声認識器の認識結果を待たずに上記受信した認識結果を出力するものである、
音声認識制御装置。
ネットワークを介して通信を行う少なくとも１つの音声認識器を含む複数の音声認識器から認識結果を得る音声認識制御方法であって、
通信状態測定部が、上記ネットワークの通信状態を測定し、
音声認識要求部が、上記ネットワークの直前の通信状態に応じて上記音声認識器それぞれの認識結果を待ち合わせるタイムアウト時間を設定して上記音声認識器それぞれへ音声認識処理のリクエストを送信し、
認識結果出力部が、少なくとも１つの上記音声認識器から受信した認識結果に基づいて認識結果を出力し、
上記音声認識要求部は、上記ネットワークの通信状態の通常時には、設定された上記タイムアウト時間を利用して上記音声認識器それぞれの認識結果の待ち合わせを行い、上記ネットワークの通信状態の輻輳時には、上記音声認識器それぞれの認識結果の待ち合わせを行わない制御を行い、
上記認識結果出力部は、上記音声認識要求部が上記待ち合わせを行わない制御を行った場合には、最初に得られた認識結果を音声認識処理の認識結果として出力する、
音声認識制御方法。
請求項１から３のいずれかに記載の音声認識制御装置としてコンピュータを機能させるためのプログラム。