JP7222828B2

JP7222828B2 - 音声認識装置、音声認識方法及び記憶媒体

Info

Publication number: JP7222828B2
Application number: JP2019116065A
Authority: JP
Inventors: 直之神田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2023-02-15
Anticipated expiration: 2039-06-24
Also published as: JP2021001988A

Description

本発明は、複数の話者の音声が混合された音声データについて、個々の音声を認識し、同時に各音声の話者同定をするための音声認識装置及び音声認識方法に関する。

複数の話者の音声が混合された音声データについて音声認識を行う際には、話者毎に音声（音源）を分離することが考えられる。音源を分離する技術としては、非特許文献１、２が知られている。これらは「音源分離」と呼ばれる。

分離された音声に対しては音声認識処理を実施することができる。音声認識については広く手段が知られている。代表的な非特許文献として非特許文献３が知られる。

さらに、分離された音声の話者性を表す特徴量を抽出し、各音声の話者性に応じてクラスタリングすることにより、どの発話者が発話したのかを同定する技術が知られている。これは「話者同定」と呼ばれる。話者同定の技術については広く知られている。話者同定の代表的な非特許文献として非特許文献４が知られる。

一方で、事前に発話者のサンプルを得ておき、その発話者のサンプルに近い音声を除去する技術としては特許文献１が知られている。また、発話者のサンプルの声質に近い音声だけを認識する技術として非特許文献５、非特許文献６が知られている。これらは「目標話者音声認識」と呼ばれる。

特開２０１６－０４２１５２号公報

Chao Weng 他著、"Deep Neural Networks for Single-Channel Multi-Talker Speech Recognition"、IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 23, NO. 10, OCTOBER 2015 John R. Hershey、Zhuo Chen、Jonathan Le Roux、Shinji Watanabe著、"Deep clustering: Discriminative embeddings for segmentation and separation" Rabiner, Lawrence R., Biing-Hwang Juang, and Janet C. Rutledge. Fundamentals of speech recognition. Vol. 14. Englewood Cliffs: PTR Prentice Hall, 1993. Anguera, Xavier, et al. "Speaker diarization: A review of recent research." IEEE Transactions on Audio, Speech, and Language Processing 20.2 (2012): 356-370. Zmolikova, Katerina, et al. "Speaker-Aware Neural Network Based Beamformer for Speaker Extraction in Speech Mixtures." Interspeech. 2017. Delcroix, Marc, et al. "Single channel target speaker extraction and recognition with speaker beam." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.

複数の話者の音声が混合された音声データについて音声認識と話者同定を行う場合、まず音源分離技術を適用した後に、分離された個々の音声に対して音声認識処理と話者同定処理を実施する方法がある。しかし、この技術では音源分離と音声認識及び話者同定処理が個別に最適化されており、各処理を組み合わせた際の音声認識精度や話者同定精度が悪いという問題がある。

一方で、上述の目標話者音声認識を利用すると、目標話者を同定しつつ音声認識を精度よく実行できるが、事前に目標話者のサンプルが必要となるという問題がある。

このように、複数の話者の音声が混合された音声データについて、音声認識と話者同定を、精度よく、事前の目標話者サンプルも要さずに実施することができる方法が存在しなかった。

本発明は、プロセッサとメモリを有する音声認識装置であって、複数の話者の音声が混合された音声データを受け付けて、前記音声データから話者サンプルの初期値として初期話者サンプルを抽出する話者サンプル初期値算出部と、前記話者サンプル初期値算出部が抽出した前記初期話者サンプルに基づいて目標話者音声認識を実施する目標話者音声認識部と、前記目標話者音声認識の実行結果に基づいて再度話者サンプルを抽出して前記初期話者サンプルを更新する話者サンプル更新部と、を有し、前記目標話者音声認識部は、前記話者サンプル更新部で更新された前記話者サンプルに基づいて前記目標話者音声認識を再度実施する。

したがって、本発明によれば、事前に話者サンプルを必要とせずに、複数の話者の音声データから音声認識と話者同定を、精度よく実施することが可能となる。

本明細書において開示される主題の、少なくとも一つの実施の詳細は、添付されている図面と以下の記述の中で述べられる。開示される主題のその他の特徴、態様、効果は、以下の開示、図面、請求項により明らかにされる。

本発明の実施例１を示し、音声認識装置の一例を示すブロック図である。本発明の実施例１を示し、音声認識装置で行われる音声認識と話者同定の一例を示す図である。本発明の実施例１を示し、目標話者音声認識部の一例を示す図である。本発明の実施例１を示し、目標話者音声認識部の処理の一例を示すフローチャートである。本発明の実施例１を示し、話者サンプル初期値算出部の処理の一例を示すフローチャートである。本発明の実施例１を示し、話者サンプル更新部の処理の一例を示すフローチャートである。本発明の実施例２を示し、音声認識装置で行われる音声認識と話者同定の一例を示す図である。本発明の実施例２を示し、補助出力を有する目標話者音声認識部の一例を示す図である。本発明の実施例３を示し、音声認識装置で行われる音声認識と話者同定の一例を示す図である。本発明の実施例１を示し、話者サンプル初期値算出部で行われる音声認識と話者同定のパラメータを受け付けるＧＵＩの一例を示す図である。

以下、本発明の実施形態を添付図面に基づいて説明する。

図１は、本発明の実施例１を示し、音声認識装置１００の一例を示すブロック図である。音声認識装置１００は、プロセッサ１と、メモリ２と、ストレージ装置３と、入力装置４と、出力装置５と、ネットワークインタフェース６を含む計算機で構成される。

メモリ２には、話者サンプル初期値算出部４０と、話者サンプル更新部４１と目標話者音声認識部４２及び収束判定部４３がプログラムとしてロードされ、プロセッサ１によって実行される。ストレージ装置３には、各プログラムが利用するデータ等が格納され、本実施例１では、認識用音声データ３２と、音響モデル３３と、言語モデル３４と、話者特徴量抽出用モデル３５が格納される。

入力装置４は、マウスやキーボードあるいはタッチパネルなどで構成される。出力装置５は、ディスプレイなどで構成される。ネットワークインタフェース６は、図示しないネットワークに接続される。

プロセッサ１は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、プロセッサ１は、目標話者音声認識プログラムに従って処理することで目標話者音声認識部４２として機能する。他のプログラムについても同様である。さらに、プロセッサ１は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。

音声認識装置１００の各機能を実現するプログラム、テーブル等の情報は、ストレージ装置３や不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶デバイス、又は、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。

図２は音声認識装置１００の処理の一例を示す図である。本実施例では、予め認識用音声データ３２がストレージ装置３に格納されている例を示す。ここで認識用音声データ３２は、複数の話者の音声が混在する音声データである。

まず、話者サンプル初期値算出部４０が、認識用音声データ３２を受け取り、当該音声に含まれる話者を含むと期待される話者サンプル（音声サンプル）の初期値（以下、初期話者サンプル２０３）を生成する（ステップ２０２）。話者サンプル初期値算出部４０では、当該音声に含まれる話者数に応じた初期話者サンプル２０３が生成される。

認識用音声データ３２に含まれる話者数は、当該音声認識装置１００のユーザが入力してもよいし、自動で推定することもできる。話者サンプル初期値算出部４０の処理の詳細については図５に後述する。

続いて、目標話者音声認識部４２が、初期話者サンプル２０３と同一の話者の音声のみが認識されるように、前記認識用音声データ３２の音声認識を行う（ステップ２０４）。これにより、初期話者サンプル２０３に対応する音声認識結果２０６が得られる。

ここで目標話者音声認識部４２が出力する音声認識結果２０６には、音声の発話内容をテキストに書き起こした情報と、各音声の始端（開始）時刻及び終端（終了）時刻が含まれる。目標話者音声認識部４２の構成や処理の詳細については図３及び図４に後述する。

続いて、収束判定部４３が、処理を終了するか否かについて、所定の収束条件に基づいて判定する（ステップ２０７）。この処理は、初回では必ずＮｏと判定される。

収束判定部４３は、２回目以降の判定では、例えば、ひとつ前の繰り返しにおける音声認識結果２０６と、最新の音声認識結果２０６の文字列の一致度が所定の閾値以上であれば収束判定の結果がＹｅｓであると判定することができる。もしくは、収束判定部４３が所定の回数呼び出された場合にはＹｅｓと判定するような処理を導入してもよい。

収束判定部４３の判定結果がＮｏであった場合、話者サンプル更新部４１が実行され、更新された話者サンプル２０９が生成される（ステップ２０８）。話者サンプル更新部４１における処理の詳細について図６で後述する。

更新された各話者サンプル２０９は目標話者音声認識部４２へ入力され、再び目標話者音声認識処理が実行される（２０４）。以下、収束判定部４３がＹｅｓと判定するまで上記の処理が繰り返され、Ｙｅｓと判定された場合に、各話者ごとの音声認識結果２１１が出力される。

なお、上記では収束判定部４３を独立した処理部として説明したが、これに限定されるものではなく、目標話者音声認識部４２の一部として実装してもよい。

図３は、目標話者音声認識部４２の構成要素の一例を示している。目標話者音声認識部４２は音声特徴量算出部１０と、話者特徴量算出部２０と、デコード部３１６からなり、音響モデル３３と言語モデル３４が演算に利用される。

音響モデル３３は、ニューラルネットワークで算出された音素の出力確率分布を含む数学モデルである。音響モデル３３は、例えばニューラルネットワークで構成されており、音声特徴量３０３を受け取る入力層３０４と、話者特徴量３１５を受け取る入力層３０９を有する。

また、音響モデル３３の出力層３０８からは、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）の各状態の出力確率分布が算出される。目標話者音声認識の場合、話者サンプル２０９（又は初期話者サンプル２０３）と同一話者の音素確率が出力されるようにネットワークパラメータが学習されている。この学習方法については前記非特許文献６などに開示された方法を利用することができる。

言語モデル３４は、音素や単語等のシンボル系列で構成される。デコード部３１６は音響モデル３３から出力された音素の確率と、言語モデル３４から算出される言語スコアを用いて、最も確率の高い単語列を認識結果のテキストとして出力する。

音響モデル３３で利用されるネットワークとしては、例えば、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）やＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ）を用いることができる。もしくは、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ：ディープニューラルネットワーク）であってもよい。

なお、図３では隠れ層として、ブロック３０５、ブロック３０６、ブロック３０７、ブロック３１０、ブロック３１１を設定しているが、この構成に限定するものではなく、所望の構成のネットワークを利用することができる。

なお、音響モデル３３と言語モデル３４を一体化し、音声データから文字列を予測するひとつのニューラルネットワークを用いることもできる。この場合、ニューラルネットワークの出力は音素確率ではなく文字列となる。音声特徴量３０３を受け取る入力層３０４と、話者特徴量３１５を受け取る入力層３０９については同一である。

図４は、目標話者音声認識部４２で行われる処理の一例を示す。この処理は、図２のステップ２０２で行われる処理である。

まず、目標話者音声認識部４２は、認識用音声データ３２を受け付け（ステップ４０１）、音声特徴量算出部１０が認識用音声データ３２の音声特徴量３０３を算出する（ステップ４０２）。

音声特徴量算出部１０が出力する音声特徴量３０３は、例えば、入力された認識用音声データ３２をＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）で処理し、ＦＦＴの処理結果に基づいてＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ：メル周波数ケプストラム係数）を計算する。そして、音声特徴量算出部１０は所定の時間区間（例えば、１０msec）の単位（フレーム）でＭＦＣＣの差分を算出して音声特徴量３０３とすることができる。なお、認識用音声データ３２の音声特徴量３０３については、上記に限定されるものではなく周知又は公知の手法を適用すればよい。

また、目標話者音声認識部４２は、ステップ４０１と並列的に目標話者の話者サンプル２０９（又は初期話者サンプル２０３）を受け付け（ステップ４０３）、話者特徴量算出部２０が、当該話者サンプル２０９（又は初期話者サンプル２０３）から話者特徴量３１５を算出する（ステップ４０４）。

なお、目標話者音声認識部４２が受け付ける話者サンプルは、新たな話者の場合には話者サンプル初期値算出部４０が算出した初期話者サンプル２０３を受け付け、既出の話者の場合には話者サンプル更新部４１で更新された話者サンプル２０９を受け付ける。

話者特徴量算出部２０が出力する話者特徴量３１５は、例えば、入力された前記話者サンプル２０９をＦＦＴで処理し、ＦＦＴの処理結果に基づいてＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ：メル周波数ケプストラム係数）を計算し、所定の時間区間（例えば、１０msec）の単位（フレーム）で差分を算出する。そして、話者特徴量算出部２０は、さらに当該ＭＦＣＣと事前に計算されたＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌを用いてｉ－ｖｅｃｔｏｒを計算することで話者特徴量３１５を算出することができる。

ｉ－ｖｅｃｔｏｒの算出方法としては、公知又は周知の手法を適用すればよく、例えば、"Front-end factor analysis for speaker verification."（Dehak, Najim, et al. IEEE Transactions on Audio, Speech, and Language Processing 19.4 (2010): 788-798.）に記載があり、広く知られている。なお、話者特徴量３１５については、上記に限定されるものではなく他の周知又は公知の手法を適用してもよい。

最後に、デコード部３１６が、音声特徴量３０３と話者特徴量３１５に基づいて音響モデル３３から出力された音素の確率と、言語モデル３４から算出される言語スコアを用いて、最も確率の高い単語列を認識結果のテキストとして出力する（ステップ４０５）。

これにより、認識用音声データ３２に含まれる複数の音声のうち、話者サンプル２０９（又は初期話者サンプル２０３）の話者と同一の話者の音声のみがテキストに書き起こされる。書き起こしには発話ごとの始端時刻と終端時刻が含まれる。

なお、上記ではステップ４０１、４０２とステップ４０３、４０４を並列して実行する例を示したが、これに限定されるものではなく、シーケンシャルに実行するようにしてもよい。

図５は話者サンプル初期値算出部４０で行われる処理の一例を示すフローチャートである。この処理は、図２のステップ２０２で行われる。

まず、話者サンプル初期値算出部４０は、認識用音声データ３２を受け取り（ステップ５０１）、続いて認識用音声データ３２を複数の音声区間に分割する（ステップ５０２）。

本実施例では、規定の音声長（例えば２秒など）に自動分割する方法や、音量が小さいところを無音と仮定し、音量が小さいところで分割する方法などを利用することができる。

続いて、話者サンプル初期値算出部４０は、分割された各音声データから話者特徴量３１５を算出する（ステップ５０３）。本実施例の話者特徴量３１５は、目標話者音声認識部４２で利用されている話者特徴量算出部２０（図３参照）と同一のものを利用してもよいし、異なるものを利用しても構わない。

最後に、話者サンプル初期値算出部４０は、分割された各音声区間ごとに算出された話者特徴量３１５をクラスタリングする（ステップ５０４）。話者サンプル初期値算出部４０は、同一クラスと判定された話者特徴量３１５に対応する音声の全てもしくは所定の一部を初期話者サンプル２０３として出力する。本実施例で利用するクラスタリング処理は、例えば、Ｋ－ｍｅａｎｓ法や凝集的クラスタリング法など公知又は周知の手法を利用することができる。

また、話者サンプル初期値算出部４０では、認識用音声データ３２の全てを用いるのではなく、一部分のみを用いることが可能である。例えば、認識用音声データ３２の前半１０％を利用する、もしくは冒頭１分のみを利用することなどが考えられる。このようにすることにより、発話全体を用いるより処理を軽量化できる。

さらには、利用する音声データの設定を、図１０のようなＧＵＩでユーザに指定させることもできる。図１０は、話者サンプル初期値算出部４０で行われる音声認識と話者同定のパラメータを受け付けるＧＵＩの一例を示す図である。

図１０に示すＧＵＩではデータ入力部１００１により、音声認識装置１００のユーザは、初期話者検出を認識用音声データ３２のうち全体の何パーセントを用いて実施するのかを指定することができる。

上記処理によって、話者サンプル初期値算出部４０は、新たな話者の音声データを初期話者サンプル２０３として出力し、目標話者音声認識部４２へ入力する。

図６は、話者サンプル更新部４１で行われる処理の一例を示すフローチャートである。この処理は、図２のステップ２０８で行われる。

話者サンプル更新部４１は、認識用音声データ３２を受け取る（ステップ６０１）。同時に、目標話者音声認識部４２の認識結果を受け取り（ステップ６０２）、話者ごとに、他の話者と発話の重複がない認識用音声データ３２の区間を算出する（ステップ６０３）。

ステップ６０３は、音声認識結果に含まれる発話ごとの始端時刻及び終端時刻の情報を用いれば容易に算出できる。最後に、ステップ６０３で得られた区間情報に基づいて認識用音声データ３２を分割したものの全て、もしくは一部を、更新された話者サンプル２０９として出力する（６０４）。上記処理は、話者の数まで繰り返して実行される。なお、上記では、ステップ６０１とステップ６０２、６０３の処理を並列的に実行する例を示したがこれに限定されるものではなく、シーケンシャルに実行してもよい。

なお、話者サンプル更新部４１において、認識用音声データ３２から発話の重複のない区間を算出する代わりに、目標話者音声認識部４２の出力結果に含まれる信頼度を用いることもできる。

この場合、話者サンプル更新部４１は、ある音声区間に対し、話者サンプル２０９を生成する対象話者を目標とした目標話者音声認識部４２で算出された信頼度をｘ_ｔｇｔとし、それ以外の話者を目標として目標話者音声認識部４２で算出された信頼度を話者ｉに対してｘ_ｉとすると、当該区間の重み係数を次式で算出する。

上記重み係数は、信頼度が０～１の場合、話者ｉの信頼度ｘ_ｉを１から差し引いた値と、信頼度ｘ_ｔｇｔとのうち小さい値が設定される。

話者サンプル更新部４１は、上記式から算出した重み係数を付加した話者サンプル２０９を生成することもできる。この場合、目標話者音声認識部４２では、話者特徴量３１５を当該重み係数に従った重み付き平均などにより算出することにより、当該重み係数に従った目標話者音声認識を実行することができる。

なお、話者サンプル更新部４１が算出する信頼度ｘ_ｔｇｔは、対象とする話者の確からしさを示す値であり、例えば、「Finding consensus in speech recognition: word error minimization and other applications of confusion networks」（L. Mangu, E. Brill, A. Stolcke、Computer Speech & Language、Volume 14, Issue 4, October 2000, Pages 373-400）等の周知又は公知の手法を適用することができる。

また、上記式において、対象以外の話者を目標として目標話者音声認識部４２で算出された信頼度ｘ_ｉから１－ｍａｘ（ｘ_ｉ）を、話者の単一性を示す値（単一話者度）として算出して利用することができる。この単一話者度を、上記重み係数として話者サンプル２０９に付加するようにしてもよい。

以上の一連の処理により、音声認識装置１００は、認識用音声データ３２に含まれる発話から、初期話者サンプル２０３を抽出して目標話者音声認識部４２を実行し、さらに目標話者音声認識の結果に基づいて初期話者サンプル２０３を更新する話者サンプル２０９を生成し、更新後の話者サンプル２０９で目標話者音声認識部４２を実行する。

これにより、事前に初期話者サンプル２０３を必要とせずに、複数の話者の音声から音声認識と話者同定を、高精度で実現することが可能となる。

図７は、本発明の実施例２を示し、補助出力を有する目標話者音声認識部４２を利用する処理の一例を示す。図８は、補助出力を有する目標話者音声認識部４２の構成を示す。

まず、補助出力を有する目標話者音声認識部４２について図８に基づいて説明する。実施例２の目標話者音声認識部４２の構成は、前記実施例１の図３で示した目標話者音声認識部４２とほぼ同じであるが、音響モデル３３のネットワークに補助出力を算出するための隠れ層８０１と出力層８０２が追加された点が異なる。

出力層８０２からは目標話者の話者サンプル（音声サンプル）の話者以外の話者に対する音素確率が算出される。この音素確率と、言語モデル３４から得られる言語スコアの組み合わせが最も高くなる単語列を出力することで、話者サンプルの話者以外の音声認識結果を得ることができる（ブロック８０３）。なお、補助出力に関わるネットワーク構成は、図示した以外にも所望の構成をとることができる。

続いて、図７に従って処理の流れを説明する。まず、話者サンプル初期値算出部４０が、認識用音声データ３２を受け取り、当該音声に含まれる話者を含むと期待される初期話者サンプル７０２を生成する。

話者サンプル初期値算出部４０の処理の流れは実施例１と同一であるが、本実施例では、話者１名の初期話者サンプル７０２だけ生成すればよい。例えば、話者サンプル初期値算出部４０で算出された初期話者サンプル７０２のうち、音声長が最も長い話者だけを選ぶことなどが可能である。

続いて、補助出力を有する目標話者音声認識部４２が、初期話者サンプル７０２と同一の話者の音声（図における話者Ａ）と、それ以外の話者の音声（図における補助出力）についてそれぞれ音声認識結果７０５を出力する。ここで認識結果は発話ごとの始端時刻及び終端時刻の情報を含む。

続いて、収束判定部４３は、処理の終了について所定の収束条件を満足したか否かを判定する（ステップ７０６）。この処理は初回では必ずＮｏと判定される。２回目以降は、例えば、ひとつ前の繰り返しにおける音声認識結果７０５と、最新の音声認識結果７０５の文字列の一致度が所定の閾値以上であれば収束判定の結果がＹｅｓであると判定することができる。もしくは、収束判定処理が所定の回数呼び出された場合にはＹｅｓと判定するような処理を導入してもよい。

収束判定部４３の判定結果がＮｏであった場合、話者サンプル更新部４１が実行され、更新された話者サンプル７０８が生成される。話者サンプル更新部４１における処理は図６と同一であるが、補助出力から得られる始端時刻及び終端情報を用いて話者が重複していない区間を算出する点が異なる。換言すれば、当該区間は、単一の話者が発話している区間となる。

更新された各話者サンプル７０８に基づいて、再び目標話者音声認識７０３が実行される。以下、収束判定処理（７０６）でＹｅｓと判定するまで処理が繰り返され、Ｙｅｓと判定された場合に、各話者ごとの音声認識結果が出力される。

以上の処理により、音声認識装置１００は、認識用音声データ３２に含まれる発話から、話者サンプルと同一の話者の音声と、話者サンプルの話者以外の音声を精度よく認識することができる。これにより、事前に話者サンプルを必要とせずに、複数の話者の音声から音声認識と話者同定を、高精度で実現することが可能となる。

図９は、実施例３を示し、音声認識装置１００で行われる音声認識と話者同定の一例を示す図である。

実施例３の音声認識装置１００は、実施例２と同様に補助出力を有する目標話者音声認識部４２を用いているが、認識用音声データ３２の全体を利用するのではなく、所定のブロック単位で認識用音声データ３２の処理を行うことで、逐次的に認識結果を出力する例を示す。

まず、話者サンプル初期値算出部４０が、認識用音声データ３２を受け取り（９０１）、当該音声に含まれる話者を含むと期待される初期話者サンプル９０２を生成する。この処理は基本的に実施例２と同一であるが、認識用音声データ３２の全てを用いるのではなく、冒頭から所定の区間のみを用いる点が異なる。

本実施例で所定の区間とは、例えば認識用音声データ３２の始端時刻から、音声のパワー（例えば、ｄＢ）が所定の閾値を超えた後（音声が発せられたと想定される）、所定の閾値以下であった時間が一定値以上となるまで（無音と想定される）の区間を利用することができる。もしくは、認識用音声データ３２の冒頭から、事前に設定された長さ（時間）の区間を用いてもよい。

続いて、補助出力を有する目標話者音声認識部４２が、初期話者サンプル９０２と同一の話者の音声（図中話者Ａ）と、それ以外の話者の音声（図における補助出力）について、冒頭から所定の区間のみ認識結果９０４を出力する（９０３）。ここで認識結果は発話ごとの始端時刻及び終端時刻の情報を含む。

続いて、話者サンプル更新部４１が実行され（９０５）、更新された話者サンプル９０６が生成される。この処理は実施例２と同一であるが、認識用音声データ３２の全てを用いるのではなく、上述のように冒頭から所定の区間のみを用いる点が異なる。

更新された各話者サンプル９０６に基づいて、再び目標話者音声認識部４２が稼働する（９０７）。ここでは、認識用音声データ３２のうち、一つ前のステップで処理された時刻から所定の区間のみに対して音声認識が実行される（９０８）。すなわち、目標話者音声認識部４２は、音声認識の対象区間のうち、未認識区間の先頭から所定の区間について目標話者音声認識を実行する。

以下、認識用音声データ３２の終端時刻に達するまで、話者サンプル９０６の更新と、目標話者音声認識が繰り返される。

以上の一連の処理により、認識用音声データ３２の始端から逐次的に音声認識と話者同定を実施することが可能となる。これにより、事前に話者サンプルを必要とせずに、複数の話者の音声から音声認識と話者同定を、高精度で実現することが可能となる。

なお、実施例２と実施例３において、認識用音声データ３２の冒頭から所定の区間を前記実施例１の図１０に示したようなＧＵＩでユーザに指定させることもできる。本実施例は方式指定部１００２により、認識用音声データ３２の全体を用いる実施例２と、認識用音声データ３２を逐次的に認識する実施例３を選択することが可能となる。

＜結び＞
以上のように、上記実施例１～３の音声認識装置は、以下のような構成とすることができる。

（１）プロセッサ（１）とメモリ（２）を有する音声認識装置（１００）であって、複数の話者の音声が混合された音声データ（３２）を受け付けて、前記音声データ（３２）から話者サンプルの初期値を初期話者サンプル（２０３）として抽出する話者サンプル初期値算出部（４０）と、前記話者サンプル初期値算出部（４０）が抽出した初期話者サンプル（２０３）に基づいて目標話者音声認識を実施する目標話者音声認識部（４２）と、前記目標話者音声認識の実行結果に基づいて再度話者サンプル（２０９）を抽出して前記初期話者サンプル（２０３）を更新する話者サンプル更新部（４１）と、を有し、前記目標話者音声認識部（４２）は、前記話者サンプル更新部（４１）が更新した話者サンプル（２０９）に基づいて前記目標話者音声認識を再度実施する。

上記構成により、音声認識装置１００は、認識用音声データ３２に含まれる発話から、初期話者サンプル２０３が抽出されて目標話者音声認識部４２を実行し、さらに目標話者音声認識の結果に基づいて初期話者サンプル２０３を更新する話者サンプル２０９を生成し、更新後の話者サンプル２０９で目標話者音声認識部４２を実行する。

これにより、音声認識装置１００は、事前に初期話者サンプル２０３を必要とせずに、複数の話者の音声から音声認識と話者同定を、高精度で実現することが可能となる。

（２）上記（１）に記載の音声認識装置（１００）であって、前記目標話者音声認識部（４２）と前記話者サンプル更新部（４１）は、所定の収束条件を満たすまで繰り返し実行される。

上記構成により、話者サンプル更新部４１は、収束判定部４３で所定の条件が満たされるまで話者サンプル２０９の更新が繰り返され、更新された話者サンプル２０９で目標話者音声認識を実行することで、音声認識と話者同定を高精度で実現することが可能となる。

（３）上記（１）に記載の音声認識装置（１００）であって、前記話者サンプル更新部（４１）は、前記目標話者音声認識の実行結果から単一の話者が発話している区間を抽出して前記話者サンプル（２０９）を更新する。

上記構成により、他の話者の発話がない区間から対象の話者サンプルを抽出することで、高精度の話者サンプル２０９を生成することができる、

（４）上記（１）に記載の音声認識装置（１００）であって、前記話者サンプル更新部（４１）は、目標話者音声認識の信頼度を算出し、当該信頼度に基づく重み係数を算出し、当該重み係数を前記話者サンプル（２０９）に付加する。

上記構成により、目標話者音声認識部４２では、話者特徴量３１５を当該重み係数に従った重み付き平均などにより算出することにより、当該重み係数に従った目標話者音声認識を実行することができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。

また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、又は、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１プロセッサ
２メモリ
３ストレージ装置
４入力装置
５出力装置
１０音声特徴量算出部
２０話者特徴量抽出部
３２認識用音声データ
３３音響モデル
３４言語モデル
３５話者特徴量抽出用モデル
４０話者サンプル初期値算出部
４１話者サンプル更新部
４２目標話者音声認識部

Claims

プロセッサとメモリを有する音声認識装置であって、
複数の話者の音声が混合された音声データを受け付けて、前記音声データから話者サンプルの初期値として初期話者サンプルを抽出する話者サンプル初期値算出部と、
前記話者サンプル初期値算出部が抽出した初期話者サンプルに基づいて目標話者音声認識を実施する目標話者音声認識部と、
前記目標話者音声認識の実行結果に基づいて再度話者サンプルを抽出して前記初期話者サンプルを更新する話者サンプル更新部と、を有し、
前記目標話者音声認識部は、
前記話者サンプル更新部で更新された前記話者サンプルに基づいて前記目標話者音声認識を再度実施することを特徴とする音声認識装置。
請求項１に記載の音声認識装置であって、
前記目標話者音声認識部と前記話者サンプル更新部は、所定の収束条件を満たすまで繰り返し実行されることを特徴とする音声認識装置。
請求項１に記載の音声認識装置であって、
前記話者サンプル更新部は、
前記目標話者音声認識の実行結果から単一の話者が発話している区間を抽出して前記話者サンプルを更新することを特徴とする音声認識装置。
請求項１に記載の音声認識装置であって、
前記話者サンプル更新部は、
目標話者音声認識の信頼度を算出し、当該信頼度に基づく重み係数を算出し、当該重み係数を前記話者サンプルに付加することを特徴とする音声認識装置。
プロセッサとメモリを有する音声認識装置の音声認識方法であって、
前記音声認識装置が、複数の話者の音声が混合された音声データを受け付けて、前記音声データから話者サンプルの初期値を初期話者サンプルとして抽出する話者サンプル初期値算出ステップと、
前記音声認識装置が、抽出された前記初期話者サンプルに基づいて目標話者音声認識を実施する目標話者音声認識ステップと、
前記音声認識装置が、前記目標話者音声認識の実行結果に基づき再度話者サンプルを抽出して前記初期話者サンプルを更新する話者サンプル更新ステップと、を含み、
前記目標話者音声認識ステップは、
前記話者サンプル更新ステップで更新された前記話者サンプルに基づいて前記目標話者音声認識を再度実施することを特徴とする音声認識方法。
請求項５に記載の音声認識方法であって、
前記目標話者音声認識ステップと前記話者サンプル更新ステップは、所定の収束条件を満たすまで繰り返し実行されることを特徴とする音声認識方法。
請求項５に記載の音声認識方法であって、
前記話者サンプル更新ステップは、
前記目標話者音声認識の実行結果から単一の話者が発話している区間を抽出して前記話者サンプルを更新することを特徴とする音声認識方法。
請求項５に記載の音声認識方法であって、
前記話者サンプル更新ステップは、
前記目標話者音声認識の信頼度を算出し、当該信頼度に基づく重み係数を算出し、当該重み係数を前記話者サンプルに付加することを特徴とする音声認識方法。
プロセッサとメモリを有する計算機で、音声認識を実行させるためのプログラムを格納した記憶媒体であって、
複数の話者の音声が混合された音声データを受け付けて、前記音声データから話者サンプルの初期値を初期話者サンプルとして抽出する話者サンプル初期値算出ステップと、
抽出された前記初期話者サンプルに基づいて目標話者音声認識を実施する目標話者音声認識ステップと、
前記目標話者音声認識の実行結果に基づき再度話者サンプルを抽出して前記初期話者サンプルを更新する話者サンプル更新ステップと、を含み、
前記目標話者音声認識ステップは、
前記話者サンプル更新ステップで更新された前記話者サンプルに基づいて前記目標話者音声認識を再度前記計算機に実行させるためのプログラムを格納した非一時的な計算機読み取り可能な記憶媒体。