JP6789455B2

JP6789455B2 - 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム

Info

Publication number: JP6789455B2
Application number: JP2020537984A
Authority: JP
Inventors: 龍相原; 利行花澤; 岡登　洋平; 洋平岡登; ウィヘルン、ゴードン・ピー; ル・ルー、ジョナサン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2020-11-25
Anticipated expiration: 2038-08-24
Also published as: US11798574B2; WO2020039571A1; US20210233550A1; CN112567459A; JPWO2020039571A1; CN112567459B; DE112018007846T5; DE112018007846B4

Description

本発明は、複数の話者の音声を含む混合音声の混合音声データから複数の話者の各々の音声の音声データを分離するための音声分離装置、音声分離方法、及び音声分離プログラム、並びに音声分離装置を含む音声分離システムに関する。

一般に、音声認識処理は、１人の話者から発話された音声に対して行われる。複数の話者から同時に発話された複数の音声を含む混合音声に対して音声認識処理を行うと、音声認識の精度が大きく低下する。そこで、複数の話者の混合音声をこれら複数の話者のうちのいずれかの話者（以下「各話者」又は「元話者」ともいう。）の音声に分離すること、すなわち、混合音声データを各話者の音声データに分離することが必要になる。

非特許文献１は、複数の話者の混合音声を分離する音声分離方法を提案している。この方法では、ＢｉｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ（ＢＬＳＴＭ）を用いて、複数の話者の混合音声のパワースペクトルから、各話者のマスクと、教師無しクラスタリングで話者を分離可能にする埋め込みベクトルとを推定している。推定された各話者のマスクを複数の話者の混合音声に適用することで、混合音声から各話者の音声が分離される。ＢＬＳＴＭから構成されるニューラルネットワークは、ＢＬＳＴＭニューラルネットワークという。

マスクは、複数の話者の混合音声の音声特徴量が入力され、各話者の音声の音声特徴量を出力するためのフィルタである。マスクは、ソフトマスクとバイナリマスクの２種類に大別される。ソフトマスクは、周波数−時間のビンごとに、複数の話者の混合音声の音声特徴量に含まれる、各話者の音声の音声特徴量の成分を割合で示すことができる。バイナリマスクは、周波数−時間のビンごとに、支配的な話者をバイナリ表現で示すことができる。

時間−周波数のビンは、一定の時間幅及び一定の周波数幅ごとに分析された音声情報を表すスカラー値又はベクトルである。例えば、時間−周波数のビンは、サンプリング周波数８ｋＨｚで録音された音声を、時間方向に３２ｍｓの窓幅で８ｍｓの間隔で区分し、且つ周波数方向に０Ｈｚから４ｋＨｚまでの周波数を１０２４個に等間隔に区分した範囲についての、パワー及び位相を表す複素数値である。

埋め込みベクトルは、音声特徴量の時間−周波数のビンごとに推定されるベクトルである。ＢＬＳＴＭニューラルネットワークを学習することにより、同一の話者の埋め込みベクトルは互いに類似するようになり、異なる話者の埋め込みベクトルは互いに類似しないようになる。このようにＢＬＳＴＭニューラルネットワークを学習することにより、推定された埋め込みベクトルをクラスタリングする度に、複数の話者の混合音声から各話者の音声を分離することが可能になる。

Ｚ．−Ｑ．Ｗａｎｇ、外２名、 "ＡｌｔｅｒｎａｔｉｖｅＯｂｊｅｃｔｉｖｅＦｕｎｃｔｉｏｎｓｆｏｒＤｅｅｐＣｌｕｓｔｅｒｉｎｇ"、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）、２０１８

しかしながら、ＢＬＳＴＭニューラルネットワークを用いる音声分離方法は、音声信号の過去から未来への再帰と未来から過去への再帰とを組み合わせて利用する方法である。このため、ＢＬＳＴＭニューラルネットワークを用いる音声分離方法では、全ての音声信号の入力が完了した後でなければ各話者の音声を分離して出力することができない。つまり、入力された音声信号の音声長に対応する時間以上の処理遅延が発生するという課題がある。

また、ＢＬＳＴＭの代わりに、音声信号の過去から未来への再帰のみを用いるＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ（ＬＳＴＭ）を用いることも可能であるが、各話者の音声の分離精度が低下するという課題がある。なお、ＬＳＴＭから構成されるニューラルネットワークは、ＬＳＴＭニューラルネットワークという。

本発明は、上記課題を解決するためになされたものであり、音声分離における処理遅延を減少させながら、音声の分離精度の低下を軽減することができる音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システムを提供することを目的とする。

本発明の一態様に係る音声分離装置は、複数の話者の音声を含む混合音声の混合音声データから前記複数の話者の各々の音声の音声データを分離する音声分離装置であって、前記混合音声データから前記混合音声の音声特徴量の時系列データを抽出する特徴量抽出部と、前記音声特徴量の時系列データを一定の時間幅を持つブロックに分割することによって、ブロック化された音声特徴量の時系列データを生成するブロック分割部と、時間軸方向に順方向のＬＳＴＭニューラルネットワークと前記時間軸方向に逆方向のＬＳＴＭニューラルネットワークとの組み合わせによって構成され、前記ブロック化された前記音声特徴量の時系列データから前記複数の話者の各々のマスクの時系列データを作成する音声分離ニューラルネットワークと、前記マスクの時系列データと前記混合音声の前記音声特徴量の時系列データとから前記複数の話者の各々の音声の前記音声データを復元する音声復元部と、を備え、前記音声分離ニューラルネットワークは、前記複数の話者の各々のマスクの時系列データの作成において、前記順方向のＬＳＴＭニューラルネットワークでは現在よりも時間的に前のブロックの時系列データを用い、前記逆方向のＬＳＴＭニューラルネットワークでは前記現在よりも時間的に後の予め決められた数のフレームで構成されるブロックの時系列データを用いることを特徴とする。

本発明の他の態様に係る音声分離システムは、前記音声分離装置と、前記音声分離ニューラルネットワークを学習する音声分離モデル学習装置と、を備えたシステムであって、前記音声分離モデル学習装置は、複数の話者の各々が発話した単独音声の音声データを含む学習データから前記複数の話者の音声を含む混合音声の音声データを作成する混合音声作成部と、前記混合音声の音声データから前記混合音声の音声特徴量の時系列データを抽出し、前記単独音声の音声データから前記単独音声の音声特徴量の時系列データを抽出する学習用の特徴量抽出部と、前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データとから、前記複数の話者の各々のマスクの時系列データを作成するマスク作成部と、前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データと、前記マスク作成部で作成された前記マスクの時系列データとから、前記音声分離ニューラルネットワークを学習するモデル学習部と、を備えたことを特徴とする。

本発明の他の態様に係る音声分離方法は、複数の話者の音声を含む混合音声の混合音声データから前記複数の話者の各々の音声の音声データを分離する方法であって、前記混合音声データから前記混合音声の音声特徴量の時系列データを抽出する特徴量抽出ステップと、前記音声特徴量の時系列データを一定の時間幅を持つブロックに分割することによって、ブロック化された音声特徴量の時系列データを生成するブロック分割ステップと、時間軸方向に順方向のＬＳＴＭニューラルネットワークと前記時間軸方向に逆方向のＬＳＴＭニューラルネットワークとの組み合わせによって構成された音声分離ニューラルネットワークが、前記ブロック化された前記音声特徴量の時系列データから前記複数の話者の各々のマスクの時系列データを作成するマスク作成ステップと、前記マスクの時系列データと前記混合音声の前記音声特徴量の時系列データとから前記複数の話者の各々の音声の前記音声データを復元する音声復元ステップとを有し、前記音声分離ニューラルネットワークは、前記複数の話者の各々のマスクの時系列データの作成において、前記順方向のＬＳＴＭニューラルネットワークでは現在よりも時間的に前のブロックの時系列データを用い、前記逆方向のＬＳＴＭニューラルネットワークでは前記現在よりも時間的に後の予め決められた数のフレームで構成されるブロックの時系列データを用いることを特徴とする。

本発明によれば、音声分離における処理遅延を減少させながら、音声の分離精度の低下を軽減することができる。

本発明の実施の形態１に係る音声分離システムの構成を概略的に示す機能ブロック図である。実施の形態１に係る音声分離システムのハードウエア構成の例を示す図である。実施の形態１に係る音声分離システムの音声分離モデル学習装置の構成を概略的に示す機能ブロック図である。実施の形態１に係る音声分離システムの音声分離装置の構成を概略的に示す機能ブロック図である。実施の形態１に係る音声分離システムの音声分離ニューラルネットワークの構造の例を示す図である。図３に示される音声分離モデル学習装置の動作を示すフローチャートである。音声分離モデル学習装置のブロック分割部及び音声分離装置のブロック分割部が行うブロック化の例を概念的に示す図である。図４に示される音声分離装置の動作を示すフローチャートである。ＢＬＳＴＭニューラルネットワークの概略構造を示す図である。実施の形態１における音声分離ニューラルネットワークを構成するＬＣ−ＢＬＳＴＭニューラルネットワークの概略構造を示す図である。本発明の実施の形態２に係る音声分離システムの音声分離装置の構成を概略的に示す機能ブロック図である。図１１に示される音声分離装置の動作を示すフローチャートである。本発明の実施の形態３に係る音声分離システムの音声分離モデル学習装置の構成を概略的に示す機能ブロック図である。図１３に示される音声分離モデル学習装置の動作を示すフローチャートである。図１３に示される音声分離モデル学習装置の生徒ニューラルネットワーク学習部による学習の態様を示す図である。本発明の実施の形態４に係る音声分離システムの音声分離モデル学習装置の生徒ニューラルネットワーク学習部による学習の態様を示す図である。本発明の実施の形態５に係る音声分離システムの音声分離モデル学習装置の生徒ニューラルネットワーク学習部による学習の態様を示す図である。

以下に、本発明の実施の形態に係る音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システムを、図面を参照しながら説明する。以下の実施の形態は、例にすぎず、本発明の範囲内で種々の変更が可能である。

《１》実施の形態１
《１−１》構成
図１は、実施の形態１に係る音声分離システム１の構成を概略的に示す機能ブロック図である。図１に示されるように、音声分離システム１は、音声分離モデル学習装置１１と、音声分離装置１２とを備えている。

音声分離モデル学習装置１１には、学習データ１ａが入力される。学習データ１ａは、複数の話者によって発話された音声の音声データである。学習データ１ａは、複数の話者の各々の音声、すなわち、１人の話者によって発話された音声、の音声データを含む。１人の話者によって発話された音声は、単独音声ともいう。学習データ１ａは、例えば、予め記憶装置に記憶されている音声データである。音声分離モデル学習装置１１は、入力された学習データ１ａに基づいて音声分離ニューラルネットワーク（以下「音声分離ＮＮ」ともいう。）１ｂを作成する。音声分離ＮＮ１ｂは、例えば、音声分離装置１２の記憶装置に記憶される。

音声分離装置１２は、音声分離ＮＮ１ｂを用いて、複数の話者の複数の音声を含む混合音声のデータ、すなわち、混合音声データから、各話者の音声の音声データを分離する音声分離部１２ａを備えている。音声分離部１２ａには複数の話者によって発話された複数の音声を含む混合音声の混合音声データが入力される。混合音声は、複数の話者の音声が混ざり合った音声である。音声分離部１２ａは、音声分離ＮＮ１ｂを用いて、入力された混合音声データを、これら複数の話者の各々の音声データに分離する。すなわち、音声分離装置１２は、音声分離ＮＮ１ｂを用いて、複数の話者の混合音声データを各話者の音声データに分離する。

図２は、実施の形態１に係る音声分離システム１のハードウエア構成の例を示す図である。図２に示される音声分離システム１は、ソフトウェアとしてのプログラムを格納する記憶部としてのメモリ９２と、メモリ９２に格納されたプログラムを実行するプロセッサであるＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９１と、半導体記憶装置又はハードディスクドライブ（ＨＤＤ）などのような記憶装置９３とを備えている。メモリ９２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの半導体メモリである。

音声分離システム１は、例えば、コンピュータにより実現することができる。図１における学習データ１ａ及び音声分離ＮＮ１ｂは、記憶装置９３に格納されることができる。ただし、学習データ１ａ及び音声分離ＮＮ１ｂは、音声分離システム１と通信できるように接続された外部の機器に備えられてもよい。

音声分離モデル学習装置１１は、メモリ９２に記憶されているソフトウェアプログラムである音声分離モデル学習プログラムを実行するＣＰＵ９１によって実現されることができる。ただし、音声分離モデル学習装置１１は、半導体集積回路からなる処理回路によって構成されてもよい。また、音声分離モデル学習装置１１は、半導体集積回路からなる処理回路と、プログラムを実行するプロセッサとの組み合わせによって構成されてもよい。

音声分離部１２ａは、メモリ９２に記憶されているソフトウェアプログラムである音声分離プログラムを実行するＣＰＵ９１によって実現されることができる。ただし、音声分離部１２ａは、半導体集積回路からなる処理回路によって構成されてもよい。また、音声分離部１２ａは、半導体集積回路からなる処理回路と、プログラムを実行するプロセッサとの組み合わせによって構成されてもよい。

図２には、１つのＣＰＵ９１が示されているが、音声分離モデルを学習するための処理と、音声を分離するための処理とは、互いに別個のＣＰＵによって実行されてもよい。

図３は、実施の形態１に係る音声分離システム１の音声分離モデル学習装置１１の構成を概略的に示す機能ブロック図である。図３に示されるように、音声分離モデル学習装置１１は、混合音声作成部１１１と、特徴量抽出部（学習用の特徴量抽出部）１１２と、マスク作成部１１３と、ブロック分割部（学習用のブロック分割部）１１４と、モデル学習部１１５とを備えている。

混合音声作成部１１１には、学習データ１ａが入力される。混合音声作成部１１１は、学習データ１ａに基づいて複数の話者によって発話された複数の音声の音声データを混合することによって、複数の話者の混合音声の混合音声データを作成する。すなわち、混合音声作成部１１１は、学習データ１ａに基づく複数の音声データから混合音声データを作成する。

特徴量抽出部１１２には、学習データ１ａが入力される。また、特徴量抽出部１１２には、混合音声作成部１１１で作成された混合音声データが入力される。特徴量抽出部１１２は、学習データ１ａに基づいて、各話者の音声データから各話者の音声特徴量を抽出、すなわち、各話者の音声特徴量を作成する。また、特徴量抽出部１１２は、混合音声作成部１１１で作成された混合音声データから混合音声の音声特徴量を抽出、すなわち、混合音声の音声特徴量を作成する。音声特徴量は、例えば、音声信号にＦＦＴ（高速フーリエ変換）の処理を施すことによって得られるパワースペクトルの時系列データである。

マスク作成部１１３は、複数の話者の混合音声データと、これら複数の話者の各々の音声データと、からマスクを作成する。「マスク」は、混合音声の音声特徴量から各話者の音声特徴量を出力するために用いられるフィルタである。マスクは、ソフトマスクとバイナリマスクとの２種類に大別できる。ソフトマスクは、周波数−時間のビンごとに、複数の話者の混合音声の音声特徴量に含まれる、各話者の音声の音声特徴量の成分を割合で示すことができる。バイナリマスクは、周波数−時間のビンごとに、支配的な話者をバイナリ表現で示すことができる。マスクは、音声特徴量の時系列データのそれぞれの時刻ごとに作成される。つまり、音声特徴量は時系列データであり、マスクも時系列データである。

ブロック分割部１１４は、特徴量抽出部１１２によって抽出された音声特徴量の時系列データとマスク作成部１１３によって作成されたマスクの時系列データの各々を、時間軸方向のブロックに分割する。「ブロック」は、時系列データを時間軸方向に一定の時間幅で切り出すことで得られる時系列データである。１つのブロックの時間幅は、ブロック長という。

モデル学習部１１５は、ブロックに分割されたマスクの時系列データとブロックに分割された音声特徴量の時系列データとを用いて、ブロック単位で音声分離ＮＮ１ｂを学習する。ブロックに分割されたマスクの時系列データは、ブロック化されたマスクの時系列データともいう。ブロックに分割された音声特徴量の時系列データは、ブロック化された音声特徴量の時系列データともいう。

なお、音声分離モデル学習装置１１は、ブロック分割部１１４を備えないことができる。ブロック分割部１１４が備えられていない場合には、モデル学習部１１５は、音声分離モデルの学習時に、発話された音声の全体で音声分離モデルを学習し、一方で、音声分離装置１２は、音声分離時に、音声特徴量の時系列データとマスクの時系列データの各々を、時間軸方向のブロックに分割するブロック化の処理を行う。

図４は、実施の形態１に係る音声分離システム１の音声分離装置１２の構成を概略的に示す機能ブロック図である。図４に示されるように、音声分離装置１２は、特徴量抽出部１２１と、ブロック分割部（音声分離用のブロック分割部）１２２と、音声分離ＮＮ１ｂと、音声復元部１２３とを備えている。特徴量抽出部１２１、ブロック分割部１２２、及び音声復元部１２３は、図１に示される音声分離部１２ａを構成する。

特徴量抽出部１２１には、混合音声データが入力される。特徴量抽出部１２１は、入力される混合音声データから混合音声の音声特徴量を抽出、すなわち、混合音声の音声特徴量を作成する。音声特徴量は、例えば、音声信号にＦＦＴの処理を施すことによって得られるパワースペクトルの時系列データである。特徴量抽出部１２１は、図３に示される音声分離モデル学習装置１１の特徴量抽出部１１２と同様の構成を有する。

ブロック分割部１２２は、特徴量抽出部１２１で抽出された音声特徴量の時系列データを時間軸方向のブロックに分割する。ブロックに分割された音声特徴量は、スペクトル特徴量ともいう。ブロック分割部１２２は、スペクトル特徴量を音声分離ＮＮ１ｂに入力することで、マスクの時系列データを推定する。すなわち、ブロック分割部１２２は、音声分離ＮＮ１ｂを利用して、スペクトル特徴量からマスクの時系列データを作成する。ブロック分割部１２２は、図３に示される音声分離モデル学習装置１１のブロック分割部１１４と同様の構成を有する。

音声復元部１２３は、求められたマスクの時系列データを混合音声のスペクトル特徴量の時系列データに適用する。音声復元部１２３は、例えば、スペクトル特徴量の時系列データに逆ＦＦＴ（逆高速フーリエ変換）の処理を施すことによって、混合音声データから１人の話者の音声データを復元する。

図５は、実施の形態１に係る音声分離システム１の音声分離ＮＮ１ｂの構造を示す図である。音声分離ＮＮ１ｂには、混合音声の音声特徴量の時系列データが入力される。音声分離ＮＮ１ｂは、混合音声データに含まれる、各話者のマスクと各話者の埋め込みベクトルとを推定することができる。音声分離ＮＮ１ｂは、音声分離装置１２において音声分離を実施する際は、各話者のマスクを使用し、各話者の埋め込みベクトルを使用しない。ただし、音声分離ＮＮ１ｂは、各話者のマスクと各話者の埋め込みベクトルの両方を推定するように学習してもよい。この場合には、マスクによる各話者の音声の推定精度は向上する。埋め込みベクトルを使用する技術自体は、公知であり、例えば、非特許文献１に記載されている。

図５に示されるように、音声分離ＮＮ１ｂは、入力層１ｂ１と、中間層１ｂ２と、マスク出力層１ｂ３と、埋め込みベクトル出力層１ｂ４とを持つ。マスク出力層１ｂ３と埋め込みベクトル出力層１ｂ４、すなわち、２つの出力層を持つニューラルネットワークの構造は、Ｃｈｉｍｅｒａ構造と呼ばれる。入力層１ｂ１、中間層１ｂ２、マスク出力層１ｂ３、及び埋め込みベクトル出力層１ｂ４の各々は、複数のユニットで構成される。例えば、各ユニットは、閾値を計算するための部分であり、この閾値は、ユニットの入力に結合荷重の重みをかけた総和がしきい値を超えたかどうか判断するために使用される。例えば、前記総和が閾値を超えた場合には、ユニットは１を出力し、超えない場合には０を出力する。入力層１ｂ１は、入力される混合音声の音声特徴量となるスペクトル特徴量である混合音声スペクトル特徴量の次元数と等しい数のユニットを有する。中間層１ｂ２のユニットの数及び層の数は、任意に設定可能である。マスク出力層１ｂ３は、入力層１ｂ１のユニットの数と等しい数のユニットを有する。埋め込みベクトル出力層１ｂ４は、入力層１ｂ１のユニットの数と、任意に設定可能な埋め込みベクトルの次元数とを掛け合わせた数のユニットを有する。

《１−２》音声分離モデル学習装置１１の動作
以下に、音声分離モデル学習装置１１による音声分離モデルの学習について説明する。図６は、音声分離モデル学習装置１１の動作を示すフローチャートである。

まず、混合音声作成部１１１は、学習データ１ａを用いて、互いに異なる複数の話者の音声データを加算することにより、混合音声データを作成する（ステップＳ１１０１）。

次に、特徴量抽出部１１２は、複数の話者の混合音声データとその混合前の各話者の音声データとから音声特徴量の時系列データを抽出する（ステップＳ１１０２）。この音声特徴量は、例えば、音声信号にＦＦＴの処理を施すことによって得られたパワースペクトルである。

次に、マスク作成部１１３は、混合前の音声の音声特徴量と混合後の音声の音声特徴量とから、マスクを作成する（ステップＳ１１０３）。マスク作成部１１３によって作成されるマスクは、例えば、ソフトマスクである。ソフトマスクは、公知であり、ソフトマスクとして、例えば、非特許文献１に記載されるマスクを用いることができる。マスク作成部１１３によって作成されるマスクは、音声特徴量の時系列データの時刻ごとに作成される。すなわち、マスク作成部１１３によって作成されるマスクは時系列データである。

次に、ブロック分割部１１４は、混合音声データの音声特徴量の時系列データとマスク作成部１１３によって作成されたマスクの時系列データとを、時間軸方向のブロックに分割する（ステップＳ１１０４）。

図７は、実施の形態１に係る音声分離システム１の音声分離モデル学習装置１１におけるブロック分割部１１４が行う音声特徴量のブロック化の態様を示す図である。図７には、太線で示される５個のフレームで構成される主要ブロックと、細線で示される３個のフレームで構成される補助ブロックが、音声特徴量の時系列データから、順次、分割される態様が示されている。主要ブロックは、時間軸方向に互いに連続している。補助ブロックは、時間軸方向に互いに連続してもよい。１つの主要ブロックは、予め決められた数のフレームで構成される。１つの補助ブロックは、予め決められた数のフレームで構成される。補助ブロックは、主要ブロックに後続している。ある主要ブロックの次に分割された主要ブロックは、直前の主要ブロックに、時間的に連続している。つまり、ある主要ブロックの後端のフレームに、次の主要ブロックの先端のフレームが連続している。

図６の説明に戻る。モデル学習部１１５は、混合音声の音声特徴量とマスクとから音声分離モデルとして音声分離ＮＮを学習する（ステップＳ１１０５）。「ニューラルネットワークを学習する」とは、ニューラルネットワークのパラメータである入力重み係数を決定する処理を行うことを意味する。混合音声の音声特徴量は、図５の音声分離ＮＮ１ｂの入力層１ｂ１に入力され、中間層１ｂ２を通り、マスク出力層１ｂ３と埋め込みベクトル出力層１ｂ４へと伝播する。

中間層１ｂ２の最終層、すなわち、図５における中間層１ｂ２のうちの最も上の層から、マスク出力層１ｂ３及び埋め込みベクトル出力層１ｂ４へ伝播される値は、例えば、以下のように算出される。図５における中間層１ｂ２のうちの最も上の層は、図５における中間層１ｂ２のうちの上から２番目の層における複数のユニットのそれぞれの出力値に対して入力重み係数を乗じ、入力重み係数を乗じて得られた複数の値を加算して加算値を取得し、この加算値を非線形関数で変換した値を、マスク出力層１ｂ３と埋め込みベクトル出力層１ｂ４へ出力する。この非線形関数としては、例えば、ロジスティックシグモイド関数が用いられる。

中間層１ｂ２のうちの最も上の層以外の層間における音声分離ＮＮ１ｂの伝播は、ＬＳＴＭに類する方法で行われることができる。

マスク出力層１ｂ３で推定されたマスクと埋め込みベクトル出力層１ｂ４で推定された埋め込みベクトルは、非特許文献１に示されるロス関数に入力される。これによって、マスク作成部１１３によって作成されたマスクに基づいて誤差が計算される。そして、マスク出力層１ｂ３は、例えば、Ａｄａｍ（ＡｄａｐｔｉｖｅＭｏｍｅｎｔＥｓｔｉｍａｔｉｏｎ）などの最適化方法を使って、例えば、逆誤差伝播法（ＢＰ）に基づいて、音声分離ＮＮ１ｂの入力層１ｂ１、中間層１ｂ２、マスク出力層１ｂ３、及び埋め込みベクトル出力層１ｂ４の各々の入力の重み係数を学習する。

《１−３》音声分離装置１２の動作
次に、音声分離装置１２の動作について説明する。図８は、実施の形態１に係る音声分離装置１２の動作を示すフローチャートである。

まず、特徴量抽出部１２１は、混合音声から音声特徴量の時系列データを出力する（ステップＳ１２０１）。ここで、音声特徴量とは、例えば、音声信号にＦＦＴの処理を施すことによって得られたパワースペクトルである。

次に、ブロック分割部１２２は、混合音声から得られた音声特徴量の時系列データを時間軸方向のブロックに分割する（ステップＳ１２０２）。

ブロックに分割された音声特徴量は、音声分離ＮＮ１ｂに入力される。音声分離ＮＮ１ｂは、マスクを推定、すなわち、作成する（ステップＳ１２０３）。音声分離ＮＮ１ｂは、図５に示されるようなＣｈｉｍｅｒａ構造を持つ。入力層１ｂ１から中間層１ｂ２の最終層へのブロックに分割された音声特徴量の伝播は、ＢＬＳＴＭニューラルネットワークのブロック処理方法に類似するＬａｔｅｎｃｙＣｏｎｔｒｏｌｌｅｄ−ＢｉｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔＴｉｍｅＭｅｍｏｒｙ（ＬＣ−ＢＬＳＴＭ）から構成されるニューラルネットワークを用いて行われる。ＬＣ−ＢＬＳＴＭから構成されるニューラルネットワークは、ＬＣ−ＢＬＳＴＭニューラルネットワークともいう。他の層間の音声特徴量の伝播は、図６を用いて説明された伝播と同様である。図８に示される音声分離処理では、図５に示される音声分離ＮＮ１ｂの出力のうち、マスク出力層１ｂ３の出力のみを用いることができる。

図９は、ＢＬＳＴＭニューラルネットワークの概略構造を示す図である。現在のフレームをｔ（ｔは正の整数）番目のフレームとしたときに、ｔ番目のフレームのｎ（ｎは正の整数）番目の層の出力を、以下の（１）のように表記する。

ＢＬＳＴＭニューラルネットワークは、順方向のＬＳＴＭニューラルネットワークと逆方向のＬＳＴＭニューラルネットワークとの組み合わせで構成される。ｔ番目のフレームのｎ番目の層における順方向のＬＳＴＭニューラルネットワークの出力を、以下の（２）のように表記する。

また、ｔ番目のフレームのｎ番目の層における逆方向のＬＳＴＭニューラルネットワークの出力を、以下の（３）のように表記する。

図９に示されるように、ｔ番目のフレームのｎ番目の層の出力は、ｔ番目のフレームのｎ番目の層における順方向のＬＳＴＭニューラルネットワークの出力とｔ番目のフレームのｎ番目の層における逆のＬＳＴＭニューラルネットワークの出力とを連結したものである。

図９に示されるように、順方向のＬＳＴＭニューラルネットワークの入力（Ｉｎｐｕｔｓ）と、出力（Ｏｕｔｐｕｔ）とは、以下の（４）及び（５）のとおりである。

また、図９に示されるように、逆方向のＬＳＴＭニューラルネットワークの入力（Ｉｎｐｕｔｓ）と、出力（Ｏｕｔｐｕｔ）とは、以下の（６）及び（７）のとおりである。

図９に示されるように、双方のＬＳＴＭニューラルネットワークの出力を連結すると、ｔ番目のフレームのｎ番目の層の出力として、以下の（８）の出力が得られる。

このように、ＢＬＳＴＭニューラルネットワークでは、ｔ番目のフレームのｎ番目の層の出力を得るために、ｔ−１番目のフレームの出力とｔ＋１番目のフレームの出力の両方を、順方向のＬＳＴＭニューラルネットワークの入力と逆方向のＬＳＴＭニューラルネットワークの入力として使用する。つまり、ＢＬＳＴＭニューラルネットワークでは、以下の（９）の２つの出力が使用される。

このため、図９に示されるＢＬＳＴＭニューラルネットワークでは、発話された音声の全体が入力された後でなければ、音声の分離処理を行うことができない。つまり、音声の分離処理に遅延が発生する。

図１０は、実施の形態１に係る音声分離システム１の音声分離ＮＮ１ｂを構成するＬＣ−ＢＬＳＴＭニューラルネットワークの概略構造を示す図である。図１０において、補助ブロックの出力は、例えば、ハット記号（ｃｉｒｃｕｍｆｌｅｘ）「＾」を用いて表記される。例えば、ｎ番目の層のｔ＋２番目のフレームの補助ブロックの出力と、ｎ番目の層のｔ＋３番目のフレームの補助ブロックの出力とは、以下の（１０）のように表記される。

順方向のＬＳＴＭニューラルネットワークにおいては、最初のフレームであるｔ−１番目のフレームの主要ブロックは、先行するｔ−２番目のフレームの主要ブロック（図示せず）の出力を受け取る。最後のフレームであるｔ＋１番目のフレームの主要ブロックの出力は、後続の主要ブロック、すなわち、ｔ＋２番目のフレームの主要ブロック（図示せず）に入力される。

図１０において、先行するｔ−２番目のフレームの主要ブロック（図示せず）の出力は、以下の（１１）のように表記される。

この出力は、現在の主要ブロック、すなわち、ｔ−１番目のフレームの主要ブロックの先端のフレームに入力される。

図１０において、後続の主要ブロックの最初のフレーム、すなわち、ｔ＋２番目のフレーム（図示せず）に入力される出力は、以下の（１２）の出力である。

図１０に示されるように、逆方向のＬＳＴＭニューラルネットワークにおいては、補助ブロックの最後のフレーム、すなわち、ｔ＋２番目のフレームに入力される出力は、主要ブロックの最初のフレームの入力として引き継がれる。図１０において、補助ブロックの最後のフレーム、すなわち、ｔ＋２番目のフレームの出力は、以下の（１３）の出力である。

図１０に示されるように、音声分離ＮＮ１ｂとしてＬＣ−ＢＬＳＴＭニューラルネットワークを用いて処理することで、音声分離ＮＮ１ｂとして図９に示されるＢＬＳＴＭニューラルネットワークを用いて処理する場合に比べ、処理遅延を削減することができる。図１０に示されるように、音声分離ＮＮ１ｂとしてＬＣ−ＢＬＳＴＭニューラルネットワークを用いて処理することで、処理遅延時間を、図１０に示される主要ブロックのブロック長と補助ブロックのブロック長との合計の時間にすることができる。

ここで、補助ブロックの役割について説明する。逆方向のＬＳＴＭニューラルネットワークに着目する。図１０において、仮に補助ブロックがない場合には、主要ブロックは、図１０におけるｎ番目の層のｔ＋２番目のフレームの情報、すなわち、未来のフレームの情報を受け取ることができない。すなわち、主要ブロックは、以下の補助ブロックの（１４）の出力を受け取ることができない。

この場合には、ｔ＋１番目以前のフレームについても、逆方向のＬＳＴＭニューラルネットワークは、補助ブロックがある場合に比べて受け取る情報量が少なくなる。図１０に示される例では、補助ブロックの効果により、逆方向のＬＳＴＭニューラルネットワークは、未来のフレームの情報を含むので、多くの情報を受け取ることができる。

図８の説明に戻る。音声復元部１２３は、混合音声の音声特徴量の各要素に対して、対応するマスクの各要素を掛け合わせることで、分離後の音声特徴量へと変換する。この後、音声復元部１２３は、例えば、逆ＦＦＴの処理を施すことで音声特徴量を音声信号へと復元する（ステップＳ１２０４）。

なお、音声分離モデル学習装置１１がブロック分割部１１４を備えていない場合には、モデル学習部１１５は、ブロックに分割されていない混合音声の音声特徴量の時系列データの全体とマスクの時系列データの全体とを入力としてニューラルネットワークを学習する。一方、音声分離装置１２においては、特徴量抽出部１２１によってブロック分割を行うため、音声分離モデルの学習時と音声分離時のデータ構造が異なる。したがって、音声分離モデル学習装置１１がブロック分割部１１４を備えていない場合は、音声分離モデル学習装置１１がブロック分割部１１４を備えている場合に比べて、音声の分離精度が低下する場合がある。このため、音声分離モデル学習装置１１は、ブロック分割部１１４を備えることが望ましい。

《１−４》効果
以上に説明したように、実施の形態１においては、音声分離モデル学習装置１１は音声分離ＮＮ１ｂを学習する。また、音声分離装置１２は、抽出した音声特徴量の時系列データを時間軸方向のブロックに分割する。音声特徴量のブロックは、ＬＣ−ＢＬＳＴＭニューラルネットワークである音声分離ＮＮ１ｂを伝播してマスクの時系列データに変換される。音声分離装置１２は、このようにして得られたマスクの時系列データを用いて、各話者の音声データを復元する。音声分離ＮＮ１ｂは、時間軸方向のブロック単位で処理を行うので、音声分離装置１２は、全ての音声データの入力後に処理を行うＢＬＳＴＭニューラルネットワークを用いる装置に比べて、処理遅延を減らすことができる。つまり、実施の形態１によれば、音声分離に必要な各話者のマスクと埋め込みベクトルを、処理遅延を短縮したＬＣ−ＢＬＳＴＭニューラルネットワークで構成された音声分離ＮＮ１ｂで推定するため、処理遅延を減らすことができる。

また、音声分離装置１２は、ＬＣ−ＢＬＳＴＭニューラルネットワークで構成された音声分離ＮＮ１ｂを用いるので、音声の分離精度の低下を減らすことができる。つまり、ＬＣ−ＢＬＳＴＭニューラルネットワークは、主要ブロックと補助ブロックを持つことで逆方向のＬＳＴＭニューラルネットワークに補助ブロックから得られた情報を伝えることができる。このため、音声の分離精度の低下を減らすことができる。

《２》実施の形態２
実施の形態１に係る音声分離システム１においては、音声分離装置１２は、音声分離時にＬＣ−ＢＬＳＴＭニューラルネットワークで構成された音声分離ＮＮ１ｂを用いている。ＬＣ−ＢＬＳＴＭニューラルネットワークを用いる場合、音声の分離精度は、ＬＣ−ＢＬＳＴＭニューラルネットワークのブロック長に応じて変化する。実施の形態２に係る音声分離システムにおいては、音声分離装置は、入力された音声特徴量に適したブロック長のＬＣ−ＢＬＳＴＭニューラルネットワークを選択する機能を備えている。

図１１は、実施の形態２に係る音声分離システムの音声分離装置２２の構成を概略的に示す機能ブロック図である。図１１において、図４に示される構成要素と同一又は対応する構成要素には、図４に示される符号と同じ符号が付される。実施の形態２に係る音声分離装置２２は、ブロック長選択部１２４を備えている点、及び複数の音声分離ＮＮ２ｂ，２ｃ，２ｄを備えている点で、実施の形態１に係る音声分離装置１２と相違する。

図１２は、実施の形態２に係る音声分離システムの音声分離装置２２の動作を示すフローチャートである。図１２において、図８に示される処理ステップと同一又は対応する処理ステップには、図８に示されるステップ番号と同じステップ番号が付される。実施の形態２に係る音声分離装置２２の動作は、ブロック長を選択する処理（ステップＳ１２０５）を有する点において、実施の形態１に係る音声分離装置１２の動作と相違する。

ブロック長選択部１２４は、混合音声の音声特徴量の時系列データに含まれる雑音又は残響に応じて、予め実験的に求められた最適なブロック長を選択する。選択にあたっては、例えば、雑音のＳ／Ｎ比又は残響時間と、ブロック長との対応関係を示す情報を予め実験的に求めておき、ブロック長選択部１２４は、予め実験的に求められた対応関係を示す情報にしたがって、使用する音声分離ＮＮを音声分離ＮＮ２ｂ，２ｃ，２ｄの中から選択する。この対応関係を示す情報は、例えば、テーブルとして記憶装置に記憶される。ブロック分割部１２２は、選択されたブロック長にしたがって音声特徴量の時系列データを、時間幅を持つブロックに分割し、音声分離ＮＮ２ｂ，２ｃ，２ｄのうちの、選択されたブロック長と一致した音声分離ＮＮを用いてマスクを推定する。

以上に説明したように、実施の形態２に係る音声分離装置２２において、ブロック長選択部１２４が混合音声の音声特徴量に応じてブロック長を選択し、そのブロック長と一致した音声分離ＮＮを用いる。音声特徴量に応じて適切なブロック長を選択することで、ブロック長を一定にした場合に比べて、音声の分離精度を向上させることができる。例えば、ブロック長を長くすることで、音声の分離精度を向上させることができる。また、ブロック長を短くすることで、処理遅延を減らすことができる。

なお、上記以外の点については、実施の形態２は、実施の形態１と同じである。

《３》実施の形態３
《３ー１》構成
ＬＳＴＭニューラルネットワーク及びＬＣ−ＢＬＳＴＭニューラルネットワークによって取得することができる情報の量は、ＢＳＬＴＭニューラルネットワークによって取得することができる情報の量より少ない。このため、ＬＣ−ＢＬＳＴＭニューラルネットワークによって構成された音声分離ＮＮを用いた音声分離装置では、音声の分離精度が低下するおそれがある。

そこで、実施の形態３に係る音声分離システムの音声分離モデル学習装置３１は、音声分離ＮＮの作成に際し、教師ニューラルネットワーク（以下「教師ＮＮ」ともいう。）を生徒ニューラルネットワーク（以下「生徒ＮＮ」ともいう。）に学習させるＴｅａｃｈｅｒ−ｓｔｕｄｅｎｔ学習を用いる。Ｔｅａｃｈｅｒ−ｓｔｕｄｅｎｔ学習は、教師ＮＮの出力又は中間層の重みを、生徒ＮＮに模倣させる学習方法である。Ｔｅａｃｈｅｒ−ｓｔｕｄｅｎｔ学習は生徒ＮＮを用いるので、Ｔｅａｃｈｅｒ−ｓｔｕｄｅｎｔ学習を用いることでパラメータ数を削減することができる。例えば、ＢＬＳＴＭニューラルネットワークを教師ＮＮとし、ＬＳＴＭニューラルネットワーク又はＬＣ−ＢＬＳＴＭニューラルネットワークを生徒ＮＮとして学習させることができる。この場合、ＢＬＳＴＭニューラルネットワークの情報をＬＳＴＭニューラルネットワークに反映させることができる。この場合は、Ｔｅａｃｈｅｒ−ｓｔｕｄｅｎｔ学習を使わなかった場合に比べて、音声の分離精度を向上させることができる。

図１３は、実施の形態３に係る音声分離システムの音声分離モデル学習装置３１の構成を概略的に示す機能ブロック図である。図１３において、図３に示される構成要素と同一又は対応する構成要素には、図３に示される符号と同じ符号が付される。実施の形態３に係る音声分離モデル学習装置３１は、生徒ＮＮ学習部１１６を備えている点、及び複数の音声分離ＮＮを生成する点で、実施の形態１に係る音声分離モデル学習装置１１と相違する。図１３において、複数の音声分離ＮＮは、教師音声分離ニューラルネットワーク（以下「教師音声分離ＮＮ」ともいう。）１ｃと生徒音声分離ニューラルネットワーク（以下「生徒音声分離ＮＮ」ともいう。）１ｄである。

実施の形態３では、モデル学習部１１５によって、音声分離モデルとして教師音声分離ＮＮ１ｃが学習される。教師音声分離ＮＮ１ｃは、混合音声の音声特徴量の時系列データとマスクの時系列データとを作成する。教師音声分離ＮＮ１ｃが作成するマスクは、教師マスクともいう。

生徒ＮＮ学習部１１６は、教師音声分離ＮＮ１ｃの出力とブロック分割部１１４で分割された混合音声の音声特徴量の時系列データと教師マスクの時系列データに基づいて、音声分離モデルとして生徒音声分離ＮＮ１ｄを学習する。生徒音声分離ＮＮ１ｄは、混合音声の音声特徴量の時系列データとマスクの時系列データとを作成する。

《３ー２》動作
図１４は、実施の形態３に係る音声分離システムの音声分離モデル学習装置３１の動作を示すフローチャートである。図１４において、図６に示される処理ステップと同一又は対応する処理ステップには、図６に示されるステップ番号と同じステップ番号が付される。図１４において、ステップＳ１１０１〜Ｓ１１０３の処理は、図６における対応する処理と同じである。

次に、モデル学習部１１５は、混合音声の音声特徴量と教師マスクから教師音声分離ＮＮ１ｃを学習する（ステップＳ１１０６）。教師音声分離ＮＮ１ｃは、例えば、Ｃｈｉｍｅｒａ構造を持つＢＬＳＴＭニューラルネットワークである。

ブロック分割部１１４は、混合音声の音声特徴量の時系列データ、教師マスクの時系列データ、及び教師音声分離ＮＮ１ｃから得られる教師データを、ブロックに分割する（ステップＳ１１０７）。教師音声分離ＮＮ１ｃから得られる教師データの詳細については、後述する。

生徒ＮＮ学習部１１６は、ブロック分割部１１４によってブロックに分割された、混合音声の音声特徴量、教師マスク、及び教師音声分離ＮＮ１ｃから得られる教師データを用いて、音声分離モデルとして生徒音声分離ＮＮ１ｄを学習する（ステップＳ１１０８）。なお、生徒音声分離ＮＮ１ｄにブロック処理を必要としないニューラルネットワーク、例えば、ＬＳＴＭニューラルネットワークを用いる場合は、ブロック分割部１１４によるブロック処理を行わないことができる。ブロック分割部１１４によるブロック処理を行わない場合には、生徒音声分離ＮＮ１ｄは、混合音声の音声特徴量の時系列データと、単独音声の音声特徴量の時系列データと、教師音声分離ＮＮ１ｃで作成された教師マスクの時系列データとから、生徒音声分離ＮＮを学習する。

図１５は、実施の形態３の音声分離システムの生徒ＮＮ学習部１１６による学習の態様を示す図である。教師音声分離ＮＮ１ｃから得られる教師データとして、教師音声分離ＮＮ１ｃの中間層の出力、すなわち、図５の中間層１ｂ２から得られる中間層の出力を用いる。生徒音声分離ＮＮ１ｄは、教師音声分離ＮＮ１ｃの学習で使用したロス関数に加えて、教師音声分離ＮＮ１ｃの中間層１ｂ２の出力と生徒音声分離ＮＮ１ｄの中間層１ｂ２の出力との差をロス関数とし、以下の（１５）の式で示す２つのロス関数の重みつき和Ｌを最小化するように学習する。

ここで、Ｌ_ｃｈｉは、ロス関数である。ロス関数Ｌ_ｃｈｉは、例えば、非特許文献１に示されている。Ｌ_ｄｉｆｆは、教師音声分離ＮＮ１ｃの中間層１ｂ２の出力と生徒音声分離ＮＮ１ｄの中間層１ｂ２の出力との距離である。距離としては、例えば、各出力の間のＬ２ノルム又はクロスエントロピーを用いることができる。βは、重み係数である。βは、例えば、実験的に決定された値である。生徒音声分離ＮＮ１ｄが模倣する層は、生徒音声分離ＮＮ１ｄと教師音声分離ＮＮ１ｃとの間で次元数が一致していれば、いずれの層を模倣してもよい。生徒音声分離ＮＮ１ｄは、次元数が一致していない層を模倣する場合は、教師音声分離ＮＮ１ｃの次元数を生徒音声分離ＮＮ１ｄの次元数に変換するようなニューラルネットワークを学習する。

《３ー３》効果
以上に説明したように、実施の形態３に係る音声分離システムの音声分離モデル学習装置３１では、モデル学習部１１５が教師音声分離ＮＮ１ｃを学習し、生徒ＮＮ学習部１１６が、教師音声分離ＮＮ１ｃの中間層１ｂ２の出力を模倣するようＴｅａｃｈｅｒ−ｓｔｕｄｅｎｔ学習で生徒音声分離ＮＮ１ｄを学習する。実施の形態３においては、教師音声分離ＮＮ１ｃの情報が生徒音声分離ＮＮ１ｄに模倣されることから、実施の形態１で学習した音声分離ＮＮ１ｂに比べて、音声の分離精度が向上する。

なお、上記以外の点について、実施の形態３は、実施の形態１又は２と同じである。

《４》実施の形態４
実施の形態４に係る音声分離システムは、実施の形態３に係る音声分離システムの音声分離モデル学習装置３１の教師音声分離ＮＮ１ｃから得られる教師データを、教師音声分離ＮＮ１ｃから得られる埋め込みベクトルに変更し、それに伴い生徒ＮＮ学習部１１６のロス関数を変更したものである。実施の形態４の説明に際しては、図１３及び図１４をも参照する。

教師音声分離ＮＮ１ｃと生徒音声分離ＮＮ１ｄの両方にＣｈｉｍｅｒａ構造を持つＮＮを用いた場合、教師音声分離ＮＮ１ｃの出力する埋め込みベクトルを教師として、生徒音声分離ＮＮ１ｄを学習させることができる。この場合、教師音声分離ＮＮ１ｃから得られる学習データは、教師音声分離ＮＮ１ｃから出力された埋め込みベクトルである。

図１６は、実施の形態４に係る音声分離システムの生徒ＮＮ学習部１１６による学習の態様を示す図である。生徒音声分離ＮＮ１ｄは、教師音声分離ＮＮ１ｃの学習で使用したロス関数に加えて、教師音声分離ＮＮ１ｃが出力した埋め込みベクトルと、自身が出力する埋め込みベクトルとの差をロス関数とし、（１６）の式で示す２つのロス関数の重みつき和Ｌを最小化するように学習する。

ここで、Ｌ_ｃｈｉは、ロス関数である。Ｌ_{ｄｉｆｆＤＣ}は、教師音声分離ＮＮ１ｃが出力した埋め込みベクトルと自身が出力する埋め込みベクトルとの距離を表す。Ｌ_{ｄｉｆｆＤＣ}は、例えば、各出力の間のＬ２ノルム又はクロスエントロピーである。γは、重み係数である。γは、例えば、実験的に決定される値である。

以上に説明したように、実施の形態４に係る音声分離システムの音声分離モデル学習装置３１において、モデル学習部１１５が教師音声分離ＮＮ１ｃを学習し、生徒ＮＮ学習部１１６が教師音声分離ＮＮ１ｃの出力する埋め込みベクトルを模倣するようＴｅａｃｈｅｒ−ｓｔｕｄｅｎｔ学習で生徒音声分離ＮＮ１ｄを学習する。実施の形態４に係る音声分離システムでは、教師音声分離ＮＮ１ｃの情報が埋め込みベクトルによって生徒音声分離ＮＮ１ｄに模倣されているので、実施の形態１に係る音声分離システムに比べて、音声の分離精度が向上する。

なお、上記以外の点について、実施の形態４は、実施の形態３と同じである。

《５》実施の形態５
実施の形態５に係る音声分離システムは、実施の形態３に係る音声分離システムの音声分離モデル学習装置３１が用いる教師音声分離ＮＮ１ｃから得られる教師データを、教師音声分離ＮＮ１ｃの中間層の出力と教師音声分離ＮＮ１ｃから得られる埋め込みベクトルの両方に変更し、それに伴い生徒ＮＮ学習部１１６のロス関数を変更したものである。実施の形態５の説明に際しては、図１３から図１６をも参照する。

教師音声分離ＮＮ１ｃと生徒音声分離ＮＮ１ｄの両方にＣｈｉｍｅｒａ構造を持つＮＮを用いた場合、図１５と図１６を組み合わせ、教師音声分離ＮＮ１ｃの出力する埋め込みベクトルと教師音声分離ＮＮ１ｃの中間層１ｂ２の出力を教師として、生徒音声分離ＮＮ１ｄを学習させることができる。

図１７は、実施の形態５に係る音声分離システムの音声分離モデル学習装置による学習の態様を示す図である。生徒音声分離ＮＮ１ｄは、教師音声分離ＮＮ１ｃの学習で使用したロス関数Ｌ_ｃｈｉに加えて、教師音声分離ＮＮ１ｃの中間層１ｂ２の出力と生徒音声分離ＮＮ１ｄの中間層１ｂ２の出力との間の距離のロス関数Ｌ_ｄｉｆｆ、さらに教師音声分離ＮＮ１ｃが出力した埋め込みベクトルと自身が出力する埋め込みベクトルとの距離のロス関数Ｌ_{ｄｉｆｆＤＣ}を、（１７）の式で示す３つのロス関数の重みつき和Ｌを最小化するように学習する。

ここで、Ｌ_ｃｈｉは、ロス関数である。Ｌ_ｄｉｆｆは、教師音声分離ＮＮ１ｃの中間層１ｂ２の出力と生徒音声分離ＮＮ１ｄの中間層１ｂ２の出力との距離である。Ｌ_{ｄｉｆｆＤＣ}は、教師音声分離ＮＮ１ｃが出力した埋め込みベクトルと自身が出力する埋め込みベクトルとの距離である。βは、ロス関数Ｌ_ｄｉｆｆの重み係数である。γは、ロス関数Ｌ_{ｄｉｆｆＤＣ}の重み係数である。

以上に説明したように、実施の形態５に係る音声分離システムの音声分離モデル学習装置３１において、モデル学習部１１５が教師音声分離ＮＮ１ｃを学習し、生徒ＮＮ学習部１１６が、教師音声分離ＮＮ１ｃの中間層１ｂ２の出力と埋め込みベクトルを模倣するようＴｅａｃｈｅｒ−ｓｔｕｄｅｎｔ学習で音声分離ＮＮ１ｄを学習する。実施の形態５に係る音声分離システムは、教師音声分離ＮＮの情報が、中間層の出力と埋め込みベクトルによって生徒音声分離ＮＮに模倣されるので、実施の形態１に係る音声分離システムに比べて、音声の分離精度が向上する。

なお、上記以外の点について、実施の形態５は、実施の形態３又は４と同じである。

実施の形態１から５に係る音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システムは、複数の話者の混合音声を少ない遅延処理時間で分離できる。このため、実施の形態１から５に係る音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システムは、音声の分離が必要な装置、例えば、音声認識装置に利用可能である。

１音声分離システム、１ａ学習データ、１ｂ，２ｂ，２ｃ，２ｄ音声分離ＮＮ、１ｃ教師音声分離ＮＮ、１ｄ生徒音声分離ＮＮ、１１，３１音声分離モデル学習装置、１２，２２音声分離装置、１２ａ音声分離部、１１１混合音声作成部、１１２特徴量抽出部（学習用の特徴量抽出部）、１１３マスク作成部、１１４ブロック分割部（学習用のブロック分割部）、１１５モデル学習部、１１６生徒ＮＮ学習部、１２１特徴量抽出部、１２２ブロック分割部（音声分離用用のブロック分割部）、１２３音声復元部、１２４ブロック長選択部。

Claims

複数の話者の音声を含む混合音声の混合音声データから前記複数の話者の各々の音声の音声データを分離する音声分離装置であって、
前記混合音声データから前記混合音声の音声特徴量の時系列データを抽出する特徴量抽出部と、
前記音声特徴量の時系列データを一定の時間幅を持つブロックに分割することによって、ブロック化された音声特徴量の時系列データを生成するブロック分割部と、
時間軸方向に順方向のＬＳＴＭニューラルネットワークと前記時間軸方向に逆方向のＬＳＴＭニューラルネットワークとの組み合わせによって構成され、前記ブロック化された前記音声特徴量の時系列データから前記複数の話者の各々のマスクの時系列データを作成する音声分離ニューラルネットワークと、
前記マスクの時系列データと前記混合音声の前記音声特徴量の時系列データとから前記複数の話者の各々の音声の前記音声データを復元する音声復元部と
を備え、
前記音声分離ニューラルネットワークは、前記複数の話者の各々のマスクの時系列データの作成において、前記順方向のＬＳＴＭニューラルネットワークでは現在よりも時間的に前のブロックの時系列データを用い、前記逆方向のＬＳＴＭニューラルネットワークでは前記現在よりも時間的に後の予め決められた数のフレームで構成されるブロックの時系列データを用いる
ことを特徴とする音声分離装置。
前記音声特徴量の時系列データを時間軸方向に１個以上の前記ブロックに分割するにあたり、前記音声特徴量に応じて前記ブロックの前記時間幅を指定するブロック長を選択するブロック長選択部をさらに備え、
前記音声分離ニューラルネットワークとして、複数の音声分離ニューラルネットワークが備えられ、
前記複数の音声分離ニューラルネットワークのうちの、前記ブロック長に対応した音声分離ニューラルネットワークを用いて、前記複数の話者の各々の前記マスクの時系列データが作成される
ことを特徴とする請求項１に記載の音声分離装置。
請求項１又は２に記載の音声分離装置と、
前記音声分離ニューラルネットワークを学習する音声分離モデル学習装置と、
を備えた音声分離システムであって、
前記音声分離モデル学習装置は、
複数の話者の各々が発話した単独音声の音声データを含む学習データから前記複数の話者の音声を含む混合音声の音声データを作成する混合音声作成部と、
前記混合音声の音声データから前記混合音声の音声特徴量の時系列データを抽出し、前記単独音声の音声データから前記単独音声の音声特徴量の時系列データを抽出する学習用の特徴量抽出部と、
前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データとから、前記複数の話者の各々のマスクの時系列データを作成するマスク作成部と、
前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データと、前記マスク作成部で作成された前記マスクの時系列データとから、前記音声分離ニューラルネットワークを学習するモデル学習部と、
を備えたことを特徴とする音声分離システム。
前記音声分離モデル学習装置は、前記混合音声作成部で作成された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データと、前記マスク作成部で作成された前記マスクの時系列データとを、時間軸方向に１個以上のブロックに分割する学習用のブロック分割部をさらに備え、
前記モデル学習部は、前記学習用のブロック分割部でブロック化された混合音声の音声特徴量の時系列データと、前記学習用のブロック分割部でブロック化された前記単独音声の音声特徴量の時系列データと、前記学習用のブロック分割部でブロック化された前記マスクの時系列データとから、前記音声分離ニューラルネットワークを学習する
ことを特徴とする請求項３に記載の音声分離システム。
請求項１又は２に記載の音声分離装置と、
前記音声分離ニューラルネットワークを学習する音声分離モデル学習装置と、
を備えた音声分離システムであって、
前記音声分離モデル学習装置は、
複数の話者の各々が発話した単独音声の音声データを含む学習データから前記複数の話者の音声を含む混合音声の音声データを作成する混合音声作成部と、
前記混合音声の音声データから前記混合音声の音声特徴量の時系列データを抽出し、前記単独音声の音声データから前記単独音声の音声特徴量の時系列データを抽出する学習用の特徴量抽出部と、
前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データとから、前記複数の話者の各々のマスクの時系列データを作成するマスク作成部と、
前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データと、前記マスク作成部で作成された前記マスクの時系列データとから、教師音声分離ニューラルネットワークを学習するモデル学習部と、
生徒音声分離ニューラルネットワークである前記音声分離ニューラルネットワークを学習する生徒ニューラルネットワーク学習部と、
を備え、
前記混合音声の音声特徴量の時系列データと、前記単独音声の音声特徴量の時系列データと、前記教師音声分離ニューラルネットワークで作成された前記マスクの時系列データとから、前記生徒音声分離ニューラルネットワークを学習する
ことを特徴とする音声分離システム。
前記音声分離モデル学習装置は、前記混合音声作成部で作成された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データと、前記マスク作成部で作成された前記マスクの時系列データとを、時間軸方向に１個以上のブロックに分割する学習用のブロック分割部をさらに備え、
前記生徒ニューラルネットワーク学習部は、前記学習用のブロック分割部でブロック化された混合音声の音声特徴量の時系列データと、前記学習用のブロック分割部でブロック化された前記単独音声の音声特徴量の時系列データと、前記学習用のブロック分割部でブロック化された前記マスクの時系列データとから、前記生徒音声分離ニューラルネットワークを学習する
ことを特徴とする請求項５に記載の音声分離システム。
前記音声分離ニューラルネットワークは、
前記混合音声の音声特徴量が入力される入力層と、
前記マスク及び前記混合音声の音声特徴量の埋め込みベクトルの少なくとも一方を作成する中間層と、
前記中間層で作成されたマスクを出力するマスク出力層と、
前記埋め込みベクトルを出力する埋め込みベクトル出力層と
を有することを特徴とする請求項３から６のいずれか１項に記載の音声分離システム。
複数の話者の音声を含む混合音声の混合音声データから前記複数の話者の各々の音声の音声データを分離する音声分離方法であって、
前記混合音声データから前記混合音声の音声特徴量の時系列データを抽出する特徴量抽出ステップと、
前記音声特徴量の時系列データを一定の時間幅を持つブロックに分割することによって、ブロック化された音声特徴量の時系列データを生成するブロック分割ステップと、
時間軸方向に順方向のＬＳＴＭニューラルネットワークと前記時間軸方向に逆方向のＬＳＴＭニューラルネットワークとの組み合わせによって構成された音声分離ニューラルネットワークが、前記ブロック化された前記音声特徴量の時系列データから前記複数の話者の各々のマスクの時系列データを作成するマスク作成ステップと、
前記マスクの時系列データと前記混合音声の前記音声特徴量の時系列データとから前記複数の話者の各々の音声の前記音声データを復元する音声復元ステップと
を有し、
前記音声分離ニューラルネットワークは、前記複数の話者の各々のマスクの時系列データの作成において、前記順方向のＬＳＴＭニューラルネットワークでは現在よりも時間的に前のブロックの時系列データを用い、前記逆方向のＬＳＴＭニューラルネットワークでは前記現在よりも時間的に後の予め決められた数のフレームで構成されるブロックの時系列データを用いる
ことを特徴とする音声分離方法。
コンピュータに、複数の話者の音声を含む混合音声の混合音声データから前記複数の話者の各々の音声の音声データを分離する処理を実行させる音声分離プログラムであって、
前記混合音声データから前記混合音声の音声特徴量の時系列データを抽出する特徴量抽出処理と、
前記音声特徴量の時系列データを一定の時間幅を持つブロックに分割することによって、ブロック化された音声特徴量の時系列データを生成するブロック分割処理と、
時間軸方向に順方向のＬＳＴＭニューラルネットワークと前記時間軸方向に逆方向のＬＳＴＭニューラルネットワークとの組み合わせによって構成された音声分離ニューラルネットワークによって、前記ブロック化された前記音声特徴量の時系列データから前記複数の話者の各々のマスクの時系列データが作成されるマスク作成処理であって、前記音声分離ニューラルネットワークは、前記複数の話者の各々のマスクの時系列データの作成において、前記順方向のＬＳＴＭニューラルネットワークでは現在よりも時間的に前のブロックの時系列データを用い、前記逆方向のＬＳＴＭニューラルネットワークでは前記現在よりも時間的に後の予め決められた数のフレームで構成されるブロックの時系列データを用いる処理と、
前記マスクの時系列データと前記混合音声の前記音声特徴量の時系列データとから前記複数の話者の各々の音声の前記音声データを復元する音声復元処理と、
をコンピュータに実行させる音声分離プログラム。