JP7400364B2

JP7400364B2 - 音声認識システム及び情報処理方法

Info

Publication number: JP7400364B2
Application number: JP2019203340A
Authority: JP
Inventors: 将樹能勢
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2023-12-19
Anticipated expiration: 2039-11-08
Also published as: JP2021076715A

Description

本発明は、音声認識システム及び情報処理方法に関する。

音声認識を用いたスマートスピーカ、多言語翻訳システムなどが注目を集めている。スマートスピーカは、音声コマンドにより、室内器具の操作や、天気予報などの情報の提供を実現する装置である。多言語翻訳システムはスマートフォン、専用端末などを用いた翻訳装置である。多言語翻訳システムでは、例えば、人の音声が音声検出部であるマイクに入力され、入力された音声が音声認識により文字化された後、翻訳処理によって所望の言語に翻訳され、スピーカから出力される。さらに、コールセンタでの顧客との対話録を生成するシステム、会議録を自動生成するシステムなどの実用化が進み、これらのシステムも音声認識の技術を活用している。

特許文献１には、人の音声以外の雑音による音声誤認識を低減して、音声認識の認識率を高める技術が開示されている。特許文献１に開示される技術は、カメラによる撮像中に発生する音をマイクで取得し、カメラで撮像された画像の情報に基づいて、人が発話している発話区間を検出し、当該発話区間で人の音声認識の感度を上げるように構成されている。

しかしながら、例えばテーブルの中心に１つのマイクが設置され、当該テーブルの周囲に人が存在する状況では、人の口元からマイクまでの距離が相対的に遠くなる。従って、S/N比の低い不明瞭な音声が入力されると共に、文法から逸脱したインフォーマルな発話が頻繁に発声される。特許文献１に開示される従来技術は、このような状況での音声認識を想定していないため、音声認識精度を高める上で改善の余地がある。

本発明は、上記課題に鑑み、口元からマイクまでの距離が遠い状況でも音声認識精度を高めることができる。

上記課題に鑑み、本発明に係る音声認識システムは、音声取得装置と、サーバと、を備える音声認識システムであって、前記音声取得装置は、複数の音声を検出する音声検出部と、複数の前記音声の内容を示すデータである音声データを同期させる制御を行う同期制御部と、を備え、前記サーバは、同期された複数の前記音声データに対して、教師ラベルを共用して音声認識エンジンの機械学習を行い、音声を認識する。

本発明によれば、口元からマイクまでの距離が遠い状況でも音声認識精度を高めることができるという効果を奏する。

本発明の実施の形態に係る音声認識システムの構成例を示す図音声取得装置の外観図音声取得装置のハードウェア構成図音声取得装置の機能ブロック図クラウドサーバのハードウェア構成図クラウドサーバの機能ブロック図音声認識器、機械読唇器及び統合器の動作を説明するための図機械読唇に用いる画像特徴量を説明するための図カメラの第１構成例を示す図カメラの第２構成例を示す図音声認識システムの動作を説明するためのフローチャートミュートボタンを備えた筐体の外観図ミュートボタンが押される前後の画像の例を示す図複数のマイクが配置された状態を模式的に示す図複数のマイクのそれぞれで取得された音声データの一例を示す図教師ラベルの一例を示す図統合器の動作を説明するための図

以下、本発明を実施するための形態について図面を用いて説明する。図１は本発明の実施の形態に係る音声認識システムの構成例を示す図である。図１には、会議室１００に設置されるテーブル１１０と、テーブル１１０の周囲に存在する複数の人（会議出席者３１～３６）と、音声認識システム３００とが示される。

音声認識システム３００は、１又は複数の会議出席者３１～３６の音声をマイクで取得し、取得した音声の内容を示すデータである音声データを機械学習に利用することにより、音声認識精度を高めるように構成されている。また、音声認識システム３００は、１又は複数の会議出席者３１～３６をカメラで撮像し、撮像した画像の内容を示すデータである撮像データを機械学習に利用することにより、音声認識精度を高めるように構成されている。なお、音声認識システム３００は、音声データのみを収集して音声認識精度を向上させる構成でもよい。ただし音声データに加えて撮像データを収集することにより、音声認識精度をより一層高めることができる。以下では、音声データと撮像データの双方を収集して音声認識精度を向上させる構成例について説明する。

音声認識システム３００は、テーブル１１０の中央に設置される音声取得装置１と、会議室１００の壁とテーブル１１０の間に設置されるホワイトボード１２０と、クラウドサーバ２００とを備える。音声取得装置１で取得された音声データは、ホワイトボード１２０を介してクラウドサーバ２００に送信され、クラウドサーバ２００に実装されている音声認識エンジンなどで音声認識の処理が行われる。音声認識の結果得られたテキストデータがホワイトボード１２０に送られ、そこで字幕表示が行われる。あるいは、当該テキストデータを利用して議事録として発話内容がまとめられる。なお、音声認識の処理により、会議、講演会、インタビューなどの発言を自動でテキスト化する技術、議事録作成する技術は非特許文献１に開示される通り公知であるため、詳細な説明は省略する。

音声取得装置１は、テーブル１１０の周囲に存在する複数の会議出席者３１～３６の音声を取得する装置である。なお、音声取得装置１は、音声以外にも、複数の会議出席者３１～３６の画像を取得するように構成される。図２Ａ～図２Ｃを参照して音声取得装置１の構成例について説明する。

図２Ａは音声取得装置の外観図である。図２Ａには音声取得装置１の外観と共に、音声取得装置１で撮像される会議室１００の風景が示される。音声取得装置１は、筐体部２と、音声検出部であるマイク５０と、撮像部であるカメラ５１とを備える。マイク５０には複数チャンネルの音声を取得可能なマルチマイクが利用される。カメラ５１には複数チャンネルの画像を取得可能なマルチカメラが利用される。マルチカメラは、例えばそれぞれの画角が９０°以上の撮像部を複数組み合わせたものである。

筐体部２は、テーブル１１０に設置される円盤状の台座部１ａと、台座部１ａから鉛直方向に伸び複数のマイク５０などをテーブル１１０から離れた位置に配置する柱状の延伸部１ｂとを備える、また筐体部２は、延伸部１ｂの上部に設けられ複数のマルチマイク及びマルチカメラが配置される円盤状のユニット設置部１ｃを備える。なお、筐体部２の形状は、少なくとも１以上のカメラ５１及びマイク５０を設けることができる構造であればよく、図示例に限定されるものではない。

複数のマイク５０の内、１つのマイク５０は、ユニット設置部１ｃの上部に設けられる。残りのマイク５０は、ユニット設置部１ｃの上部以外の場所、例えばユニット設置部１ｃの側面部に設けられる。側面部は、ユニット設置部１ｃの外周部全体の内、例えば、鉛直方向と直交する水平面に平行な仮想面を含む部分である。ユニット設置部１ｃの側面部には、周方向に互いに離れるようにして複数のマイク５０が設置される。このように複数のマイク５０が設置されることにより、複数の会議出席者３１～３６がテーブル１１０を囲むように存在する場合でも、それぞれの会議出席者と向き合うように個々のマイク５０が配置される形となるため、マイク５０からそれぞれの会議出席者までの距離を短くでき、S/N比の高い明瞭な音声が入力できる。

図２Ｂは音声取得装置のハードウェア構成図である。音声取得装置１は、ＣＰＵ（Central Processing Unit）１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３、入力装置１０４、通信インタフェース１０５、及びバス１０６を備える。

ＣＰＵ１０１は、プログラムを実行することにより、音声取得装置１の全体を制御し、後述する各機能を実現する。ＲＯＭ１０２は、ＣＰＵ１０１が実行するプログラムを含む各種のデータを記憶する。ＲＡＭ１０３は、ＣＰＵ１０１に作業領域を提供する。入力装置は、前述したマイク５０及びカメラ５１の他、人の操作に応じた情報を入力するタッチパネル、マウスなどを含む。通信インタフェース１０５は、音声取得装置１を、例えば外部機器の一例であるホワイトボード１２０を介して、通信ネットワーク３０１に接続するためのインタフェースである。通信ネットワーク３０１は、ＬＡＮ（Local Area Network）、インターネット、携帯端末用ネットワークなどである。バス１０６は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、入力装置１０４、及び通信インタフェース１０５を相互に接続する。

図２Ｃは音声取得装置の機能ブロック図である。音声取得装置１は、開始／終了制御部１０、同期制御部１１、記録制御部１２、記録部１３、ミュート制御部１４、及び通信制御部１５を備える。

開始／終了制御部１０は、例えば、複数のマイク５０－１～５０－ｎ（ｎは１以上の整数）による録音開始及び録音終了を制御すると共に、複数のカメラ５１－１～５１－ｎ（ｎは１以上の整数）による撮像開始及び撮像終了を制御する。

同期制御部１１は、１又は複数のマイク５０－１～５０－ｎで取得された複数の音声データを同期させる制御を行うと共に、１又は複数のカメラ５１で撮像された１又は複数の撮像データを同期させる制御を行う。同期制御部１１による制御の詳細は後述する。

記録制御部１２は、マイク５０とカメラ５１で取得した音声データ及び撮像データの記録部１３への記録制御を行う。通信制御部１５は、ホワイトボード１２０、クラウドサーバ２００などの外部機器との通信制御を行う。通信制御は、例えば、同期制御部で制御された複数の音声データ及び撮像データを、ホワイトボード１２０を介してクラウドサーバ２００へ送信し、又は直接クラウドサーバ２００へ送信する制御である。

次に図３Ａ及び図３Ｂを参照してクラウドサーバ２００の構成について説明する。図３Ａはクラウドサーバのハードウェア構成図である。クラウドサーバ２００は、プロセッサ２１０、メモリ２２０、及び入出力インタフェース２３０を備える。

プロセッサ２１０は、マイクロコンピュータ、ＧＰＵ（General Purpose Graphics Processing Unit）、システムＬＳＩ（Large Scale Integration）などで構成される演算手段である。メモリ２２０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）などで構成される記憶手段である。入出力インタフェース２３０は、プロセッサ２１０が音声取得装置１との間で情報の入出力を行うための情報入出力手段である。プロセッサ２１０、メモリ２２０及び入出力インタフェース２３０は、バス２４０に接続され、バス２４０を介して、情報の受け渡しを相互に行うことが可能である。バス２４０は図１に示す通信ネットワーク３０１に接続される。

クラウドサーバ２００は、例えば、プロセッサ２１０がメモリ２２０に記憶された仮想マシンソフトウェア（仮想化アプリケーション）をインストールすることによって、仮想マシンを稼働させる。仮想マシンソフトウェアは、ホストＯＳ（Operating System）上で個別のハードウェアをエミュレーションすることで、個別のＯＳをインストールする。これにより、単一のシステム上で、複数の仮想マシンを互いに独立して実行することが可能になる。このクラウド環境において、音声取得装置１からのデータを収集するソフトウェア（データ収集ソフト）、当該データを解析するソフトウェア（解析ソフト）などが構築される。この仮想化技術を利用することで、リソースの効率的な活用、ハードウェアの初期投資コストの抑制、省電力及び省スペースなどが実現できる。

図３Ｂはクラウドサーバの機能ブロック図である。クラウドサーバ２００は、音声認識エンジン２０１、読唇処理部２０２、及び統合器２０３を備える。

音声認識エンジン２０１は、音声特徴量抽出部２０１ａ及び音声認識器２０１ｂを備える。読唇処理部２０２は、画像特徴量抽出部２０２ａ及び機械読唇器２０２ｂを備える。

次に図４及び図５を参照して音声認識器２０１ｂ、機械読唇器２０２ｂ、統合器２０３などの動作を説明する。

図４は音声認識器、機械読唇器及び統合器の動作を説明するための図である。音声特徴量抽出部２０１ａでは、音声取得装置１からの音声データの中から機械学習用の入力値としての特徴量である音声特徴量が抽出される。音声特徴量抽出部２０１ａは、例えば、音声取得装置１で取得された複数の音声データを入力して、それぞれの音声データを単位時間ごと（フレームごと）に切り出して、例えば、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients：メル周波数ケプストラム係数）やメルケプストラム特徴量などのフレームごとの音声信号のスペクトル特徴量を計算し、これを正規化する。

音声認識器２０１ｂは、音声特徴量抽出部２０１ａで抽出された特徴量を用いて機械学習を行うと共に音声を認識する。音声認識器２０１ｂは、音声の特徴量を識別する識別器であり、当該識別器には、ＤＮＮ（Deep Neural Network）を例示できる。ＤＮＮは、入力層と、隠れ層と呼ばれる中間層と、出力層とを有する。ＤＮＮでは、中間層の数を増やして重層構造にする構成が採られる。ＤＮＮを用いて音声を認識するためには、ＤＮＮに対して、教師ラベル又は訓練データと呼ばれる情報を利用して、教師あり学習を行うのが最も有効である。なお、ＤＮＮを実現するためには、高い演算能力が必要なため、ＤＮＮは、クラウドサーバ２００で実現することが望ましいが、音声取得装置１が高い演算能力を有するＧＰＵなどを搭載する場合、音声取得装置１で実現してもよい。なお、当該識別器には、ＤＮＮのほか、例えば、ＳＶＭ(Support Vector Machine)、ＳＩＦＴ（Scale-Invariant Feature Transform）などの手法を用いてもよい。

音声認識に用いるＤＮＮは様々あり、近年頭角を現しているものとしてＥｎｄｔｏＥｎｄモデルがある。ＥｎｄｔｏＥｎｄモデルとは、非特許文献２に開示される従来手法のように、音響モデル、言語モデル、辞書などの複数の機能へ分割せずに、１つのニューラルネットワークを介して、入力された音声を文字に直接変換するモデルであり、一気通貫モデルとも称される。ＥｎｄｔｏＥｎｄモデルは、構造がシンプルなため、実装が容易、応答速度が速いなどのメリットがある一方、大量の学習データを要する。

画像特徴量抽出部２０２ａでは、例えば、音声取得装置１からの撮像データの中から機械学習用の入力値としての特徴量である画像特徴量を抽出する。機械読唇に用いる画像特徴量の例を図５に示す。

図５は機械読唇に用いる画像特徴量を説明するための図である。まず、画像特徴量抽出部２０２ａは、カメラ５１で撮影された画像全体の中から、例えば会議出席者の顔を認識する。顔認識は一般的なアルゴリズムを使用してもよい。次に、画像特徴量抽出部２０２ａは、認識した顔の中から***を抽出する。そして、画像特徴量抽出部２０２ａは、抽出した***の画像から、図５に示すようにプロットされた複数の点のそれぞれの時系列な動きを、特徴量して抽出する。当該特徴量は、機械読唇を行うためにカメラ５１で撮像された会議参加者の口元（***）の特徴量である。機械読唇器２０２ｂは、当該特徴量を用いて機械学習を行う。例えば、雑音が多い会議の場合、機械読唇器２０２ｂは、複数の会議出席者のそれぞれの口元の特徴量を利用して機械学習を行う。なお、当該特徴量の抽出方法は、非特許文献３に開示される通り公知であるため、詳細な説明は省略する。

統合器２０３は、音声認識器２０１ｂによる音声認識結果に、機械読唇器２０２ｂによる機械読唇の結果を融合させる。音声認識器２０１ｂによる音声認識結果だけでなく、発声時の***の動画像を用いる手法は、マルチモーダル音声認識に呼ばれる。マルチモーダル音声認識では、入力動画像を時系列の画像特徴量に変換し、この画像特徴量と音声特徴量とを融合させて音響画像特徴量を生成する。そして、この音響画像特徴量を用いることにより、音声認識を行う。マルチモーダル音声認識は、会議での音声認識精度を高める有益な手段である。

次に図６Ａ及び図６Ｂを参照して、機械読唇による認識精度を向上させための構成例について説明する。図６Ａはカメラの第１構成例を示す図である。音声取得装置１が、例えば、筐体部２から着脱可能なカメラ５１を備える場合、図６Ａに示すように、筐体部２から取り外されたカメラ５１を、例えばホワイトボード１２０などに設置することができる。設置方法は、例えばカメラ５１に把持手段を設けておき、この把持手段をホワイトボード１２０を挟み込み構成でもよいし、ホワイトボード１２０とカメラ５１のそれぞれに嵌め合い構造の器具を設けておき、それらを嵌め合わせることでホワイトボード１２０へカメラ５１を固定してもよい。この構成により、テーブル１１０以外の場所から、会議室１００内を撮像できる。これにより、会議出席者の顔の向きが変わっても、その人の口元を撮像でき、機械読唇できる確率が高まる。

図６Ｂはカメラの第２構成例を示す図である。図６Ｂでは、マルチカメラを構成するカメラ５１－１、カメラ５１－２、及びカメラ５１－２がユニット設置部１ｃに設けられている。この場合、カメラ５１－１、カメラ５１－２、及びカメラ５１－２のそれぞれでは、異なる方角の画像が撮像される。そのため、マイク５０の周囲に複数の会議出席者が存在する状況で、特定の人が発声したときに、その音声がマイク５０で検出されると共に、発話している人の画像をマルチカメラで撮像することができる。従って、その音声を発する人物の画像を当該音声に組み合わせて機械学習させることができる。

なお、音声取得装置１はその高さを調整可能に構成してもよい。例えば、音声取得装置１のユニット設置部１ｃが直径の異なる２つのパイプで構成され、一方の太いパイプである外管の内側に、他方の細いパイプである内管が挿入され、内管に対して外管が上下方向に移動可能に構成される。例えばテーブル１１０の面積が小さい場合、音声取得装置１から会議出席者までの距離が近くなる傾向があるため、会議出席者の顔及び***がカメラ５１の画角に収まらないことがある。その場合、会議出席者の顔及び***をカメラ５１の画角内に収まるように、ユニット設置部１ｃの高さを調整することで、その音声を発する人物の画像を正確に捉えことができるため、音声に組み合わせて機械学習させることができる。

次に図７～図１０を参照して、音声認識システム３００が機械学習する動作を説明する。図７は音声認識システムの動作を説明するためのフローチャートである。図８Ａはミュートボタンを備えた筐体の外観図である。図８Ｂはミュートボタンが押される前後の画像の例を示す図である。図９Ａは複数のマイクが配置された状態を模式的に示す図である。図９Ｂは複数のマイクのそれぞれで取得された音声データの一例を示す図である。図１０は教師ラベルの一例を示す図である。

音声取得装置１が起動し、マイク５０の録音とカメラ５１の録画が開始されると（ステップＳ１）、図８Ａに示すミュートボタン２０が押されるまで録音及び録画が継続される（ステップＳ２，Ｎｏ）。

ミュートボタン２０は、例えば、機密情報を含む発話内容の録音を一時停止させ、又は一時的に録音された機密情報を含む発話内容を一定時間遡って消去させるためのボタンである。ミュートボタン２０は、録音を一時停止させ、又は発話内容を一定時間遡って消去させるだけでなく、録画を一時停止させ、又は録画された画像を一定時間遡って消去させるものでもよい。

ミュートボタン２０は、例えば音声取得装置１にケーブルを介して接続される筐体に設けられているが、音声取得装置１に設けられていてもよい。ミュートボタン２０は、人が操作し易く、又は録音停止状態か否かを識別しやすい形状のものであればよく、押しボタン式のものでもよいし、ダイヤル式のものでもよい。ここでは、押しボタン式の例について説明する。また、ミュートボタン２０の横にはＬＥＤが具備され、録音・録画している間はＬＥＤが点灯、録音・録画していない間はＬＥＤが消灯するようにして、データ取得状況を分かりやすくしてもよい。

ミュートボタン２０が押された場合（ステップＳ２，Ｙｅｓ）、録音及び録画が一時停止（オプトアウト）される（ステップＳ３）。例えば、会議出席者が機密情報を話し始めるときにミュートボタン２０が押されることにより、ミュート制御部１４は、録音停止指令を生成して、開始／終了制御部１０に入力する。録音停止指令を入力した開始／終了制御部１０は、マイク５０からの音声データの記録制御部１２への送信を停止することで、機密情報の録音を停止する。これにより、機密性の高い音声データが記録されず、機密情報の漏洩を効果的に防止できる。

なお、開始／終了制御部１０は、録音停止指令を入力したとき、音声データと共に、撮像データの記録制御部１２への送信を停止してもよい。この構成により、機密性の高い撮像データも記録されず、機密情報の漏洩をより一層効果的に防止できる。

ミュート制御部１４は、以下のように構成してもよい。例えば、会議出席者が機密情報を話し始めた後に、ミュートボタン２０が押されることにより、ミュート制御部１４は、ミュートボタン２０が押された時点から、予め設定された所定時間（例えば数秒～数十秒）遡った時点までに、録音された音声データを消去する消去指令を生成して、記録制御部１２に入力する。

当該消去指令を入力した記録制御部１２は、記録部１３に時系列順に記録された音声データの内、上記所定時間に対応する音声データを消去する。またミュート制御部１４は、消去指令を生成すると同時に、録音停止指令を生成して、開始／終了制御部１０に入力することで、音声データの記録制御部１２への送信を停止させる。これにより、例えば、機密性の高い音声データが一時的に記録された場合でも、その場で機密情報を消去できる。また、機密情報以外の音声が録音されている場合でも、自動議事録作成などに不要な録音内容であるときには、その部分を消去できるため、クラウドサーバ２００の処理負担を軽減できる。

なお、記録制御部１２は、消去指令を入力したときに、音声データだけでなく、上記所定時間に対応する撮像データを記録制御部１２から消去してもよい。この構成により、機密性の高い音声データ及び撮像データが一時的に記録された場合でも、その場で機密情報を消去でき、機密情報の漏洩をより一層効果的に防止できる。また記録部１３のリソースを有効に利用できる。また、機密性を確保しながら、音声認識エンジン２０１の性能向上に最も寄与する機械学習のための音声データと撮像データを大量に取得できる。

なお、ミュート制御部１４は、ミュートボタン２０が押された場合、例えば、図８Ｂに示すように、テレビ会議システムの表示器に表示されていた会議中の画像を、非表示状態にさせるように構成してもよい。この構成により、機密情報が話されていても、外部にその内容が漏洩することを防止できる。なお、ミュートボタン２０が再び押されることにより、録音及び録画が再開されるため、テレビ会議システムの表示器には、会議中の画像を再び表示状態される。

ミュート制御部１４は、音声データ及び撮像データの一部を消去する機能を、有効にするか無効にするかを選択できるように構成してもよい（ステップＳ４）。例えば、当該機能が無効となるように選択された場合（ステップＳ４，Ｎｏ）、ステップＳ６の処理が実行される。当該機能が有効となるように選択された場合（ステップＳ４，Ｙｅｓ）、ステップＳ５の処理、すなわちデータ削除（データ消去）が実行される。

ステップＳ６において、同期制御部１１は、複数の音声検出部のそれぞれで検出される音声データを同期させる制御を行う。なお、ステップＳ６の処理はステップＳ１とステップＳ２の間に実行されてもよい。図９Ａ及び図９Ｂを参照して、同期制御部１１における同期制御方法を具体的に説明する。

図９Ａは複数のマイクが配置された状態を模式的に示す図である。図９Ａに示す（１）～（６）の符号は、第１マイク（１）、第２マイク（２）、第３マイク（３）、第４マイク（４）、第５マイク（５）及び第６マイク（６）を表す。これらの各マイクは、配置位置と向きが互いに異なる。また、これらの各マイクは、会議室のテーブルを中心に配置されるため、テーブルの周囲に存在する会議出席者から各マイクまでの距離が比較的遠くなる。

図９Ｂは複数のマイクのそれぞれで取得された音声データの一例を示す図である。図９Ｂには、図９Ａに示す複数のマイクの内、第２マイク（２）、第３マイク（３）、及び第４マイク（４）のそれぞれで検出された、特定の人の発話内容を表す音声データが示される。これらの音声データは、特定の人の発話内容を表すが、互いの波形が僅かに異なる。第１の原因は、各マイクの配置位置と向きが異なることである。第２の原因は、会議出席者から各マイクまでの距離が比較的遠いため、特定の人から発せられた声が、会議室１００の壁に反射してからマイクに届く場合と直接マイクに届く場合があり、マイクへの音声の残響に差が生じることである。

従って、例えば、第２マイク（２）で取得される当該特徴点の音圧レベルは、第３マイク（３）で取得される音声の当該特徴点の音圧レベルと異なることもある。

そのため、同一の人が発した音声であっても、図９Ｂに示すように、各マイクで検出される音声データの波形は僅かに相違する。同期制御部１１は、このように波形が僅かに相違する複数の音声データの取得のタイミングを一致させる。

また、同期制御部１１は、第３マイク（３）と第４マイク（４）との間でも同様の処理を行う。この結果、特定の特徴点のタイミングを各マイクで相互に合わせることができ、音声の特徴点が抽出されたタイミングを合わせてクラウドサーバ２００に入力することができる。その結果、音声認識の精度を効率的に向上できる。

なお、同期制御部１１は、複数のマイク５０で取得される音声を同期させるだけでなく、１又は複数のカメラ５１での撮像も、同様の方法で同期させてもよい。これにより、機械読唇における機械学習の教師ラベルを音声認識と共通化でき、低コストで効率的に音声認識と機械読唇の機械学習を進めることができる。

次に図１０を参照して、教師ラベルについて説明する。前述したように、複数のマイク５０の配置位置や向きが異なる場合、特定の人の発話内容に対応する音声データの波形、及び音声の特徴量は、相互に相違する。このように、音声データの波形や音声の特徴量が相違する場合でも、それに対する発話の内容は同じである。そこで、特定の発話内容に対応する複数の音声データに対して、図１０に示すような、１つの教師ラベルを共用して機械学習（ステップＳ７）を行うことによって、１つのマイク５０と１つの教師ラベルで機械学習を行う場合に比べて、音声認識の精度を効率的に向上できる。

教師ラベルは、例えば図１０に示す「発話Ｎｏ」が「０００１」の「あらゆる現実をすべて自分のほうへねじ曲げたのだ。」という発話内容（ラベル）である。図１０には、これ以外にも、複数の教師ラベルの例が示される。「カメラＩＤ」は、複数のカメラ５１のそれぞれを識別する番号である。「話者ＩＤ」は、発話する人と個別に特定する番号である。その他、「性別ＩＤ」、発話が開始された時間を表す「開始時間」、発話が終了した時間を表す「終了時間」などが対応付けられている。図１０に示す複数の教示ラベルは「発話Ｎｏ」、「カメラＩＤ」、「話者ＩＤ」などに対応付けられて、クラウドサーバ２００のメモリに記憶されている。なお教師ラベルの内容は図示例に限定されるものではない。

なお、教師ラベルは、音声データを聴いて人手で書き起こしやタイムスタンプを行い、それを学習に用いるか、あるいは既存の音声認識エンジン２０１から出力されたテキスト（音声認識の出力）のうち、確信度の高い出力結果を教師ラベルとして抽出する方法がある。前者の人手によって全ての教師ラベルを作成し、機械学習を行う方法は教師あり学習と称され、後者の人手を介さず、確信度の高い出力結果を教師ラベルとして利用する方法は半教師あり学習と称される。本実施の形態に係る音声認識システム３００において、半教師あり学習を行う場合、複数のマイク５０で取得した音声データによる認識結果がいずれも同じ内容だった場合、確信度が高いと見なし、それを教師ラベルとして用いることが考えられる。

図１１は統合器の動作を説明するための図である。図１１の縦軸は確信度、横軸は時間である。統合器２０３における結合方法は様々あるが、その一例を説明する。音声認識器２０１ｂの出力（例えば音声に対応する文字情報）について、図中の符号（１）及び（２）で示す区間のように、確信度が閾値よりも僅かに低いため、又は確信度が閾値よりも大幅に低いために、音声を認識できていない場合、これらの区間で統合器２０３は、機械読唇器２０２ｂの出力を採用する。一方、音声認識の確信度が閾値以上の場合、統合器２０３は、音声認識器２０１ｂの出力を採用し、機械読唇器の出力は採用しない。これは、本質的に、現状の機械読唇の精度は音声認識よりも劣るためである。

以上に説明したように本実施の形態に係る音声認識装置は、複数の音声を検出する音声検出部と、複数の音声の内容を示すデータである音声データを同期させる制御を行う同期制御部と、を備え、同期された複数の音声データを音声認識エンジンの機械学習に用いるように構成されている。この構成により、口元からマイクまでの距離が遠いため音声認識が難しい会議などにおいても、音声認識エンジン２０１の性能向上に最も寄与する機械学習のための音声データを同期させた上で取得できる。

なお、音声認識用にマイクアレイとして、発話者を検出し、その発話者の音声を強調するビームフォーミングが知られている。このビームフォーミングで会議音声をクリアに変換するには、煩雑な信号処理を必要とするため、音声認識装置が非常に高価になるほか、その会議の素の収音環境とは異なるように加工されてしまうため、素の収音環境に近い本質的な機械学習を行うことができない。

これに対し本実施の形態に係る音声認識装置によれば、ビームフォーミングを利用せずに複数の音声データを同期させて機械学習に利用でるため、煩雑な信号処理が不要になる。従って、音声取得装置の製造コストの上昇を抑制しながら音声認識精度を大幅に向上できる。

また会議での高い音声認識精度を優先し、複数の会議出席者のそれぞれにヘッドセット、ピンマイクなどを装着させる手段もある。しかしながら、特に女性は、ヘッドセットやピンマイクの使い回しによる不衛生さを嫌がる場合がある。

これに対し本実施の形態に係る音声認識装置によれば、ヘッドセットなどを利用しなくとも、会議での高い音声認識精度を確保できるため、ヘッドセットなどを装着する煩わしさを軽減できる。また、ヘッドセットなどを装着することによる不快な体験を感じさせることもない。

また特許文献１に開示される従来技術は、人型ロボットの筐体が利用されているため、その態様によって会議参加者は会議に集中できなくなり、特に小さな会議室では、圧迫感を与え得る。

これに対し本実施の形態に係る音声認識装置によれば、図２Ａに示すように卓上照明スタンドに似たシンプルな外観形状であるため、会議参加者に圧迫感を与え得ることがなく、会議への集中が阻害されることを防止できる。

また本実施の形態に係る音声認識装置は、複数の音声データを記録する記録部を備えるように構成してもよい。この構成により、通信障害などでクラウドサーバがリアルタイムに音声データなどを受信できない場合についても、記録部に記憶された音声データをクラウドサーバにアップロードすることで、音声データを利用した機械学習を継続できる。

また本実施の形態に係る音声認識装置は、外部機器との間で複数の音声データの通信を行う通信制御部を備えるように構成してもよい。この構成により、通信制御部を通じてホワイトボードやクラウドサーバなどの外部機器へ複数の音声データを送信できるため、ＧＰＵのように高価のプロセッサを音声認識装置に搭載しなくとも、外部機器において音声データを利用した機械学習を実現できる。従って、音声認識装置の生産台数が増えても、システム全体でのコストの上昇を抑制できると共に、クラウドサーバなどの外部機器で大量のデータを活用して機械学習を行うことにより、音声認識精度を大幅に向上できる。

また本実施の形態に係る音声認識装置は、録音を一時停止するミュート制御部を備えるように構成してもよい。会議で発言される内容には機密性の高い情報を多く含むため、録音できない場合が生じるが、ミュート制御部を備えることにより、録音を停止できる。従って、発言をためらうことなく会議に参加でき、結果的に有効な音声データを大量に集めることができる。従って、文法から逸脱したインフォーマルな発話に対する訓練が進み、音声認識精度を高めることができる。

また本実施の形態に係る音声認識装置は、複数の音声検出部のそれぞれの配置位置が互いに異なり、又は複数の音声検出部のそれぞれの向きが互いに異なるように構成してもよい。この構成により、複数チャンネルの音声を同時に取得できると共に、複数の会議出席者がテーブルを囲むように存在する場合でも、それぞれの会議出席者と向き合うように個々の音声検出部が配置される形となるため、音声検出部からそれぞれの会議出席者までの距離を短くでき、S/N比の高い明瞭な音声が入力できる。

また本実施の形態に係る音声認識装置は、撮像部を備え、撮像部で撮像されたデータである撮像データを、機械読唇器の機械学習に用いるように構成してもよい。この構成により、音声認識エンジンの機械学習結果に、機械読唇の機械学習結果を利用できるため、会議での音声認識精度をより一層高めることができる。

また本実施の形態に係る音声認識装置は、音声認識エンジンの機械学習の結果に応じて、機械読唇の機械学習の結果を採用し又は採用しない統合器を備えるように構成してもよい。この構成により、正しく音声認識できている場合には音声認識エンジンの機械学習の結果を優先させ、正しく音声を認識できていない場合には機械読唇器の出力を採用できるため、より精度の高い音声認識が実現できる。

また本実施の形態に係る情報処理方法では、音声認識装置が、音声検出部で取得された複数の音声の内容を示すデータである音声データを同期させる制御を行い、サーバが、同期された複数の音声データを音声認識エンジンの機械学習に用いる。

また本実施の形態に係る情報処理プログラムは、音声認識装置に、音声検出部で取得された複数の音声の内容を示すデータである音声データを同期させる制御を行わせ、サーバに、同期された複数の音声データを用いて音声認識エンジンの機械学習を行わせる。

１：音声取得装置
１ａ：台座部
１ｂ：延伸部
１ｃ：ユニット設置部
２：筐体部
１０：終了制御部
１１：同期制御部
１２：記録制御部
１３：記録部
１４：ミュート制御部
１５：通信制御部
２０：ミュートボタン
３１，３２，３３，３４，３５，３６：会議出席者
５０，５０－１，５０－ｎ：マイク
５１，５１－１，５１－２，５０－ｎ：カメラ
１００：会議室
１０１：ＣＰＵ
１０２：ＲＯＭ
１０３：ＲＡＭ
１０４：入力装置
１０５：通信インタフェース
１０６：バス
１１０：テーブル
１２０：ホワイトボード
２００：クラウドサーバ
２０１：音声認識エンジン
２０１ａ：音声特徴量抽出部
２０１ｂ：音声認識器
２０２：読唇処理部
２０２ａ：画像特徴量抽出部
２０２ｂ：機械読唇器
２０３：統合器
２１０：プロセッサ
２２０：メモリ
２３０：入出力インタフェース
２４０：バス
３００：音声認識システム
３０１：通信ネットワーク

特許５７９７００９号公報

「議事録作成支援システム」［令和１年１０月９日検索］インターネット＜URL: https://www.advanced-media.co.jp/products/service/private-enterprise-proceedings-preparation-support-system＞「音声認識の基礎」［令和１年１０月９日検索］インターネット＜URL: https://www.slideshare.net/akinoriito549/ss-23821600＞「認識に使用する顔領域の違いによる読唇性能の比較」［令和１年１０月９日検索］インターネット＜URL: http://www.ii.is.kit.ac.jp/hai2011/proceedings/pdf/II-2B-6.pdf＞

Claims

音声取得装置と、サーバと、を備える音声認識システムであって、
前記音声取得装置は、
複数の音声を検出する音声検出部と、
複数の前記音声の内容を示すデータである音声データを同期させる制御を行う同期制御部と、
を備え、
前記サーバは、
同期された複数の前記音声データに対して、教師ラベルを共用して音声認識エンジンの機械学習を行い、音声を認識する
音声認識システム。
前記音声取得装置は、
複数の前記音声データを記録する記録部を備える請求項１に記載の音声認識システム。
前記音声取得装置は、
外部機器との間で複数の前記音声データの通信を行う通信制御部を備える請求項１又は２に記載の音声認識システム。
前記音声取得装置は、
複数の前記音声の録音を一時停止するミュート制御部を備える請求項１から３の何れか一項に記載の音声認識システム。
前記ミュート制御部は、記録された複数の前記音声データを一定時間遡った時点まで消去する請求項４に記載の音声認識システム。
複数の前記音声検出部は、それぞれの配置位置が互いに異なり、又はそれぞれの向きが互いに異なる請求項１から５の何れか一項に記載の音声認識システム。
前記音声取得装置は、
撮像部を備え、
前記撮像部で撮像されたデータである撮像データを、機械読唇の機械学習に用いる請求項１から６の何れか一項に記載の音声認識システム。
前記サーバは、
前記音声認識エンジンの機械学習の結果に応じて、前記機械読唇の機械学習の結果を採用し又は採用しない統合器を備える請求項７に記載の音声認識システム。
前記音声取得装置の筐体部から着脱可能な撮像部を備える請求項１から８の何れか一項に記載の音声認識システム。
前記音声取得装置は、
撮像部を備え、
前記同期制御部は、前記音声データに前記撮像部で撮像された画像の内容を示すデータである撮像データを同期させる制御を行い、
前記サーバは、
同期された複数の前記音声データ及び前記撮像データに対して、教師ラベルを共用して音声認識エンジンの機械学習を行い、音声を認識する請求項１から９の何れか一項に記載の音声認識システム。
前記音声取得装置は、
撮像部を備え
前記音声データ及び前記撮像部で撮像されたデータである撮像データに対して、同一の教師ラベルを用いて機械学習を行い、音声を認識する請求項１から１０の何れか一項に記載の音声認識システム。
音声取得装置と、サーバと、を備える音声認識システムが行う情報処理方法であって、
前記音声取得装置が、音声検出部で複数の音声を検出し、
前記音声取得装置が、前記音声検出部で取得された複数の音声の内容を示すデータである音声データを同期させる制御を行い、
前記サーバが、同期された複数の前記音声データに対して教師ラベルを共用して音声認識エンジンの機械学習を行い、音声を認識する情報処理方法。