JP6789455B2 - 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム - Google Patents

音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム Download PDF

Info

Publication number
JP6789455B2
JP6789455B2 JP2020537984A JP2020537984A JP6789455B2 JP 6789455 B2 JP6789455 B2 JP 6789455B2 JP 2020537984 A JP2020537984 A JP 2020537984A JP 2020537984 A JP2020537984 A JP 2020537984A JP 6789455 B2 JP6789455 B2 JP 6789455B2
Authority
JP
Japan
Prior art keywords
voice
time
series data
separation
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020537984A
Other languages
English (en)
Other versions
JPWO2020039571A1 (ja
Inventor
龍 相原
龍 相原
利行 花澤
利行 花澤
岡登 洋平
洋平 岡登
ウィヘルン、ゴードン・ピー
ル・ルー、ジョナサン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6789455B2 publication Critical patent/JP6789455B2/ja
Publication of JPWO2020039571A1 publication Critical patent/JPWO2020039571A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Description

本発明は、複数の話者の音声を含む混合音声の混合音声データから複数の話者の各々の音声の音声データを分離するための音声分離装置、音声分離方法、及び音声分離プログラム、並びに音声分離装置を含む音声分離システムに関する。
一般に、音声認識処理は、1人の話者から発話された音声に対して行われる。複数の話者から同時に発話された複数の音声を含む混合音声に対して音声認識処理を行うと、音声認識の精度が大きく低下する。そこで、複数の話者の混合音声をこれら複数の話者のうちのいずれかの話者(以下「各話者」又は「元話者」ともいう。)の音声に分離すること、すなわち、混合音声データを各話者の音声データに分離することが必要になる。
非特許文献1は、複数の話者の混合音声を分離する音声分離方法を提案している。この方法では、Bidirectional Long Short−Term Memory(BLSTM)を用いて、複数の話者の混合音声のパワースペクトルから、各話者のマスクと、教師無しクラスタリングで話者を分離可能にする埋め込みベクトルとを推定している。推定された各話者のマスクを複数の話者の混合音声に適用することで、混合音声から各話者の音声が分離される。BLSTMから構成されるニューラルネットワークは、BLSTMニューラルネットワークという。
マスクは、複数の話者の混合音声の音声特徴量が入力され、各話者の音声の音声特徴量を出力するためのフィルタである。マスクは、ソフトマスクとバイナリマスクの2種類に大別される。ソフトマスクは、周波数−時間のビンごとに、複数の話者の混合音声の音声特徴量に含まれる、各話者の音声の音声特徴量の成分を割合で示すことができる。バイナリマスクは、周波数−時間のビンごとに、支配的な話者をバイナリ表現で示すことができる。
時間−周波数のビンは、一定の時間幅及び一定の周波数幅ごとに分析された音声情報を表すスカラー値又はベクトルである。例えば、時間−周波数のビンは、サンプリング周波数8kHzで録音された音声を、時間方向に32msの窓幅で8msの間隔で区分し、且つ周波数方向に0Hzから4kHzまでの周波数を1024個に等間隔に区分した範囲についての、パワー及び位相を表す複素数値である。
埋め込みベクトルは、音声特徴量の時間−周波数のビンごとに推定されるベクトルである。BLSTMニューラルネットワークを学習することにより、同一の話者の埋め込みベクトルは互いに類似するようになり、異なる話者の埋め込みベクトルは互いに類似しないようになる。このようにBLSTMニューラルネットワークを学習することにより、推定された埋め込みベクトルをクラスタリングする度に、複数の話者の混合音声から各話者の音声を分離することが可能になる。
Z.−Q.Wang、外2名、 "Alternative Objective Functions for Deep Clustering"、 IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP)、 2018
しかしながら、BLSTMニューラルネットワークを用いる音声分離方法は、音声信号の過去から未来への再帰と未来から過去への再帰とを組み合わせて利用する方法である。このため、BLSTMニューラルネットワークを用いる音声分離方法では、全ての音声信号の入力が完了した後でなければ各話者の音声を分離して出力することができない。つまり、入力された音声信号の音声長に対応する時間以上の処理遅延が発生するという課題がある。
また、BLSTMの代わりに、音声信号の過去から未来への再帰のみを用いるLong Short−Term Memory(LSTM)を用いることも可能であるが、各話者の音声の分離精度が低下するという課題がある。なお、LSTMから構成されるニューラルネットワークは、LSTMニューラルネットワークという。
本発明は、上記課題を解決するためになされたものであり、音声分離における処理遅延を減少させながら、音声の分離精度の低下を軽減することができる音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システムを提供することを目的とする。
本発明の一態様に係る音声分離装置は、複数の話者の音声を含む混合音声の混合音声データから前記複数の話者の各々の音声の音声データを分離する音声分離装置であって、前記混合音声データから前記混合音声の音声特徴量の時系列データを抽出する特徴量抽出部と、前記音声特徴量の時系列データを一定の時間幅を持つブロックに分割することによって、ブロック化された音声特徴量の時系列データを生成するブロック分割部と、時間軸方向に順方向のLSTMニューラルネットワークと前記時間軸方向に逆方向のLSTMニューラルネットワークとの組み合わせによって構成され、前記ブロック化された前記音声特徴量の時系列データから前記複数の話者の各々のマスクの時系列データを作成する音声分離ニューラルネットワークと、前記マスクの時系列データと前記混合音声の前記音声特徴量の時系列データとから前記複数の話者の各々の音声の前記音声データを復元する音声復元部と、を備え、前記音声分離ニューラルネットワークは、前記複数の話者の各々のマスクの時系列データの作成において、前記順方向のLSTMニューラルネットワークでは現在よりも時間的に前のブロックの時系列データを用い、前記逆方向のLSTMニューラルネットワークでは前記現在よりも時間的に後の予め決められた数のフレームで構成されるブロックの時系列データを用いることを特徴とする。
本発明の他の態様に係る音声分離システムは、前記音声分離装置と、前記音声分離ニューラルネットワークを学習する音声分離モデル学習装置と、を備えたシステムであって、前記音声分離モデル学習装置は、複数の話者の各々が発話した単独音声の音声データを含む学習データから前記複数の話者の音声を含む混合音声の音声データを作成する混合音声作成部と、前記混合音声の音声データから前記混合音声の音声特徴量の時系列データを抽出し、前記単独音声の音声データから前記単独音声の音声特徴量の時系列データを抽出する学習用の特徴量抽出部と、前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データとから、前記複数の話者の各々のマスクの時系列データを作成するマスク作成部と、前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データと、前記マスク作成部で作成された前記マスクの時系列データとから、前記音声分離ニューラルネットワークを学習するモデル学習部と、を備えたことを特徴とする。
本発明の他の態様に係る音声分離方法は、複数の話者の音声を含む混合音声の混合音声データから前記複数の話者の各々の音声の音声データを分離する方法であって、前記混合音声データから前記混合音声の音声特徴量の時系列データを抽出する特徴量抽出ステップと、前記音声特徴量の時系列データを一定の時間幅を持つブロックに分割することによって、ブロック化された音声特徴量の時系列データを生成するブロック分割ステップと、時間軸方向に順方向のLSTMニューラルネットワークと前記時間軸方向に逆方向のLSTMニューラルネットワークとの組み合わせによって構成された音声分離ニューラルネットワークが、前記ブロック化された前記音声特徴量の時系列データから前記複数の話者の各々のマスクの時系列データを作成するマスク作成ステップと、前記マスクの時系列データと前記混合音声の前記音声特徴量の時系列データとから前記複数の話者の各々の音声の前記音声データを復元する音声復元ステップとを有し、前記音声分離ニューラルネットワークは、前記複数の話者の各々のマスクの時系列データの作成において、前記順方向のLSTMニューラルネットワークでは現在よりも時間的に前のブロックの時系列データを用い、前記逆方向のLSTMニューラルネットワークでは前記現在よりも時間的に後の予め決められた数のフレームで構成されるブロックの時系列データを用いることを特徴とする。
本発明によれば、音声分離における処理遅延を減少させながら、音声の分離精度の低下を軽減することができる。
本発明の実施の形態1に係る音声分離システムの構成を概略的に示す機能ブロック図である。 実施の形態1に係る音声分離システムのハードウエア構成の例を示す図である。 実施の形態1に係る音声分離システムの音声分離モデル学習装置の構成を概略的に示す機能ブロック図である。 実施の形態1に係る音声分離システムの音声分離装置の構成を概略的に示す機能ブロック図である。 実施の形態1に係る音声分離システムの音声分離ニューラルネットワークの構造の例を示す図である。 図3に示される音声分離モデル学習装置の動作を示すフローチャートである。 音声分離モデル学習装置のブロック分割部及び音声分離装置のブロック分割部が行うブロック化の例を概念的に示す図である。 図4に示される音声分離装置の動作を示すフローチャートである。 BLSTMニューラルネットワークの概略構造を示す図である。 実施の形態1における音声分離ニューラルネットワークを構成するLC−BLSTMニューラルネットワークの概略構造を示す図である。 本発明の実施の形態2に係る音声分離システムの音声分離装置の構成を概略的に示す機能ブロック図である。 図11に示される音声分離装置の動作を示すフローチャートである。 本発明の実施の形態3に係る音声分離システムの音声分離モデル学習装置の構成を概略的に示す機能ブロック図である。 図13に示される音声分離モデル学習装置の動作を示すフローチャートである。 図13に示される音声分離モデル学習装置の生徒ニューラルネットワーク学習部による学習の態様を示す図である。 本発明の実施の形態4に係る音声分離システムの音声分離モデル学習装置の生徒ニューラルネットワーク学習部による学習の態様を示す図である。 本発明の実施の形態5に係る音声分離システムの音声分離モデル学習装置の生徒ニューラルネットワーク学習部による学習の態様を示す図である。
以下に、本発明の実施の形態に係る音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システムを、図面を参照しながら説明する。以下の実施の形態は、例にすぎず、本発明の範囲内で種々の変更が可能である。
《1》実施の形態1
《1−1》構成
図1は、実施の形態1に係る音声分離システム1の構成を概略的に示す機能ブロック図である。図1に示されるように、音声分離システム1は、音声分離モデル学習装置11と、音声分離装置12とを備えている。
音声分離モデル学習装置11には、学習データ1aが入力される。学習データ1aは、複数の話者によって発話された音声の音声データである。学習データ1aは、複数の話者の各々の音声、すなわち、1人の話者によって発話された音声、の音声データを含む。1人の話者によって発話された音声は、単独音声ともいう。学習データ1aは、例えば、予め記憶装置に記憶されている音声データである。音声分離モデル学習装置11は、入力された学習データ1aに基づいて音声分離ニューラルネットワーク(以下「音声分離NN」ともいう。)1bを作成する。音声分離NN1bは、例えば、音声分離装置12の記憶装置に記憶される。
音声分離装置12は、音声分離NN1bを用いて、複数の話者の複数の音声を含む混合音声のデータ、すなわち、混合音声データから、各話者の音声の音声データを分離する音声分離部12aを備えている。音声分離部12aには複数の話者によって発話された複数の音声を含む混合音声の混合音声データが入力される。混合音声は、複数の話者の音声が混ざり合った音声である。音声分離部12aは、音声分離NN1bを用いて、入力された混合音声データを、これら複数の話者の各々の音声データに分離する。すなわち、音声分離装置12は、音声分離NN1bを用いて、複数の話者の混合音声データを各話者の音声データに分離する。
図2は、実施の形態1に係る音声分離システム1のハードウエア構成の例を示す図である。図2に示される音声分離システム1は、ソフトウェアとしてのプログラムを格納する記憶部としてのメモリ92と、メモリ92に格納されたプログラムを実行するプロセッサであるCPU(Central Processing Unit)91と、半導体記憶装置又はハードディスクドライブ(HDD)などのような記憶装置93とを備えている。メモリ92は、例えば、ROM(Read Only Memory)及びRAM(Random Access Memory)などの半導体メモリである。
音声分離システム1は、例えば、コンピュータにより実現することができる。図1における学習データ1a及び音声分離NN1bは、記憶装置93に格納されることができる。ただし、学習データ1a及び音声分離NN1bは、音声分離システム1と通信できるように接続された外部の機器に備えられてもよい。
音声分離モデル学習装置11は、メモリ92に記憶されているソフトウェアプログラムである音声分離モデル学習プログラムを実行するCPU91によって実現されることができる。ただし、音声分離モデル学習装置11は、半導体集積回路からなる処理回路によって構成されてもよい。また、音声分離モデル学習装置11は、半導体集積回路からなる処理回路と、プログラムを実行するプロセッサとの組み合わせによって構成されてもよい。
音声分離部12aは、メモリ92に記憶されているソフトウェアプログラムである音声分離プログラムを実行するCPU91によって実現されることができる。ただし、音声分離部12aは、半導体集積回路からなる処理回路によって構成されてもよい。また、音声分離部12aは、半導体集積回路からなる処理回路と、プログラムを実行するプロセッサとの組み合わせによって構成されてもよい。
図2には、1つのCPU91が示されているが、音声分離モデルを学習するための処理と、音声を分離するための処理とは、互いに別個のCPUによって実行されてもよい。
図3は、実施の形態1に係る音声分離システム1の音声分離モデル学習装置11の構成を概略的に示す機能ブロック図である。図3に示されるように、音声分離モデル学習装置11は、混合音声作成部111と、特徴量抽出部(学習用の特徴量抽出部)112と、マスク作成部113と、ブロック分割部(学習用のブロック分割部)114と、モデル学習部115とを備えている。
混合音声作成部111には、学習データ1aが入力される。混合音声作成部111は、学習データ1aに基づいて複数の話者によって発話された複数の音声の音声データを混合することによって、複数の話者の混合音声の混合音声データを作成する。すなわち、混合音声作成部111は、学習データ1aに基づく複数の音声データから混合音声データを作成する。
特徴量抽出部112には、学習データ1aが入力される。また、特徴量抽出部112には、混合音声作成部111で作成された混合音声データが入力される。特徴量抽出部112は、学習データ1aに基づいて、各話者の音声データから各話者の音声特徴量を抽出、すなわち、各話者の音声特徴量を作成する。また、特徴量抽出部112は、混合音声作成部111で作成された混合音声データから混合音声の音声特徴量を抽出、すなわち、混合音声の音声特徴量を作成する。音声特徴量は、例えば、音声信号にFFT(高速フーリエ変換)の処理を施すことによって得られるパワースペクトルの時系列データである。
マスク作成部113は、複数の話者の混合音声データと、これら複数の話者の各々の音声データと、からマスクを作成する。「マスク」は、混合音声の音声特徴量から各話者の音声特徴量を出力するために用いられるフィルタである。マスクは、ソフトマスクとバイナリマスクとの2種類に大別できる。ソフトマスクは、周波数−時間のビンごとに、複数の話者の混合音声の音声特徴量に含まれる、各話者の音声の音声特徴量の成分を割合で示すことができる。バイナリマスクは、周波数−時間のビンごとに、支配的な話者をバイナリ表現で示すことができる。マスクは、音声特徴量の時系列データのそれぞれの時刻ごとに作成される。つまり、音声特徴量は時系列データであり、マスクも時系列データである。
ブロック分割部114は、特徴量抽出部112によって抽出された音声特徴量の時系列データとマスク作成部113によって作成されたマスクの時系列データの各々を、時間軸方向のブロックに分割する。「ブロック」は、時系列データを時間軸方向に一定の時間幅で切り出すことで得られる時系列データである。1つのブロックの時間幅は、ブロック長という。
モデル学習部115は、ブロックに分割されたマスクの時系列データとブロックに分割された音声特徴量の時系列データとを用いて、ブロック単位で音声分離NN1bを学習する。ブロックに分割されたマスクの時系列データは、ブロック化されたマスクの時系列データともいう。ブロックに分割された音声特徴量の時系列データは、ブロック化された音声特徴量の時系列データともいう。
なお、音声分離モデル学習装置11は、ブロック分割部114を備えないことができる。ブロック分割部114が備えられていない場合には、モデル学習部115は、音声分離モデルの学習時に、発話された音声の全体で音声分離モデルを学習し、一方で、音声分離装置12は、音声分離時に、音声特徴量の時系列データとマスクの時系列データの各々を、時間軸方向のブロックに分割するブロック化の処理を行う。
図4は、実施の形態1に係る音声分離システム1の音声分離装置12の構成を概略的に示す機能ブロック図である。図4に示されるように、音声分離装置12は、特徴量抽出部121と、ブロック分割部(音声分離用のブロック分割部)122と、音声分離NN1bと、音声復元部123とを備えている。特徴量抽出部121、ブロック分割部122、及び音声復元部123は、図1に示される音声分離部12aを構成する。
特徴量抽出部121には、混合音声データが入力される。特徴量抽出部121は、入力される混合音声データから混合音声の音声特徴量を抽出、すなわち、混合音声の音声特徴量を作成する。音声特徴量は、例えば、音声信号にFFTの処理を施すことによって得られるパワースペクトルの時系列データである。特徴量抽出部121は、図3に示される音声分離モデル学習装置11の特徴量抽出部112と同様の構成を有する。
ブロック分割部122は、特徴量抽出部121で抽出された音声特徴量の時系列データを時間軸方向のブロックに分割する。ブロックに分割された音声特徴量は、スペクトル特徴量ともいう。ブロック分割部122は、スペクトル特徴量を音声分離NN1bに入力することで、マスクの時系列データを推定する。すなわち、ブロック分割部122は、音声分離NN1bを利用して、スペクトル特徴量からマスクの時系列データを作成する。ブロック分割部122は、図3に示される音声分離モデル学習装置11のブロック分割部114と同様の構成を有する。
音声復元部123は、求められたマスクの時系列データを混合音声のスペクトル特徴量の時系列データに適用する。音声復元部123は、例えば、スペクトル特徴量の時系列データに逆FFT(逆高速フーリエ変換)の処理を施すことによって、混合音声データから1人の話者の音声データを復元する。
図5は、実施の形態1に係る音声分離システム1の音声分離NN1bの構造を示す図である。音声分離NN1bには、混合音声の音声特徴量の時系列データが入力される。音声分離NN1bは、混合音声データに含まれる、各話者のマスクと各話者の埋め込みベクトルとを推定することができる。音声分離NN1bは、音声分離装置12において音声分離を実施する際は、各話者のマスクを使用し、各話者の埋め込みベクトルを使用しない。ただし、音声分離NN1bは、各話者のマスクと各話者の埋め込みベクトルの両方を推定するように学習してもよい。この場合には、マスクによる各話者の音声の推定精度は向上する。埋め込みベクトルを使用する技術自体は、公知であり、例えば、非特許文献1に記載されている。
図5に示されるように、音声分離NN1bは、入力層1b1と、中間層1b2と、マスク出力層1b3と、埋め込みベクトル出力層1b4とを持つ。マスク出力層1b3と埋め込みベクトル出力層1b4、すなわち、2つの出力層を持つニューラルネットワークの構造は、Chimera構造と呼ばれる。入力層1b1、中間層1b2、マスク出力層1b3、及び埋め込みベクトル出力層1b4の各々は、複数のユニットで構成される。例えば、各ユニットは、閾値を計算するための部分であり、この閾値は、ユニットの入力に結合荷重の重みをかけた総和がしきい値を超えたかどうか判断するために使用される。例えば、前記総和が閾値を超えた場合には、ユニットは1を出力し、超えない場合には0を出力する。入力層1b1は、入力される混合音声の音声特徴量となるスペクトル特徴量である混合音声スペクトル特徴量の次元数と等しい数のユニットを有する。中間層1b2のユニットの数及び層の数は、任意に設定可能である。マスク出力層1b3は、入力層1b1のユニットの数と等しい数のユニットを有する。埋め込みベクトル出力層1b4は、入力層1b1のユニットの数と、任意に設定可能な埋め込みベクトルの次元数とを掛け合わせた数のユニットを有する。
《1−2》音声分離モデル学習装置11の動作
以下に、音声分離モデル学習装置11による音声分離モデルの学習について説明する。図6は、音声分離モデル学習装置11の動作を示すフローチャートである。
まず、混合音声作成部111は、学習データ1aを用いて、互いに異なる複数の話者の音声データを加算することにより、混合音声データを作成する(ステップS1101)。
次に、特徴量抽出部112は、複数の話者の混合音声データとその混合前の各話者の音声データとから音声特徴量の時系列データを抽出する(ステップS1102)。この音声特徴量は、例えば、音声信号にFFTの処理を施すことによって得られたパワースペクトルである。
次に、マスク作成部113は、混合前の音声の音声特徴量と混合後の音声の音声特徴量とから、マスクを作成する(ステップS1103)。マスク作成部113によって作成されるマスクは、例えば、ソフトマスクである。ソフトマスクは、公知であり、ソフトマスクとして、例えば、非特許文献1に記載されるマスクを用いることができる。マスク作成部113によって作成されるマスクは、音声特徴量の時系列データの時刻ごとに作成される。すなわち、マスク作成部113によって作成されるマスクは時系列データである。
次に、ブロック分割部114は、混合音声データの音声特徴量の時系列データとマスク作成部113によって作成されたマスクの時系列データとを、時間軸方向のブロックに分割する(ステップS1104)。
図7は、実施の形態1に係る音声分離システム1の音声分離モデル学習装置11におけるブロック分割部114が行う音声特徴量のブロック化の態様を示す図である。図7には、太線で示される5個のフレームで構成される主要ブロックと、細線で示される3個のフレームで構成される補助ブロックが、音声特徴量の時系列データから、順次、分割される態様が示されている。主要ブロックは、時間軸方向に互いに連続している。補助ブロックは、時間軸方向に互いに連続してもよい。1つの主要ブロックは、予め決められた数のフレームで構成される。1つの補助ブロックは、予め決められた数のフレームで構成される。補助ブロックは、主要ブロックに後続している。ある主要ブロックの次に分割された主要ブロックは、直前の主要ブロックに、時間的に連続している。つまり、ある主要ブロックの後端のフレームに、次の主要ブロックの先端のフレームが連続している。
図6の説明に戻る。モデル学習部115は、混合音声の音声特徴量とマスクとから音声分離モデルとして音声分離NNを学習する(ステップS1105)。「ニューラルネットワークを学習する」とは、ニューラルネットワークのパラメータである入力重み係数を決定する処理を行うことを意味する。混合音声の音声特徴量は、図5の音声分離NN1bの入力層1b1に入力され、中間層1b2を通り、マスク出力層1b3と埋め込みベクトル出力層1b4へと伝播する。
中間層1b2の最終層、すなわち、図5における中間層1b2のうちの最も上の層から、マスク出力層1b3及び埋め込みベクトル出力層1b4へ伝播される値は、例えば、以下のように算出される。図5における中間層1b2のうちの最も上の層は、図5における中間層1b2のうちの上から2番目の層における複数のユニットのそれぞれの出力値に対して入力重み係数を乗じ、入力重み係数を乗じて得られた複数の値を加算して加算値を取得し、この加算値を非線形関数で変換した値を、マスク出力層1b3と埋め込みベクトル出力層1b4へ出力する。この非線形関数としては、例えば、ロジスティックシグモイド関数が用いられる。
中間層1b2のうちの最も上の層以外の層間における音声分離NN1bの伝播は、LSTMに類する方法で行われることができる。
マスク出力層1b3で推定されたマスクと埋め込みベクトル出力層1b4で推定された埋め込みベクトルは、非特許文献1に示されるロス関数に入力される。これによって、マスク作成部113によって作成されたマスクに基づいて誤差が計算される。そして、マスク出力層1b3は、例えば、Adam(Adaptive Moment Estimation)などの最適化方法を使って、例えば、逆誤差伝播法(BP)に基づいて、音声分離NN1bの入力層1b1、中間層1b2、マスク出力層1b3、及び埋め込みベクトル出力層1b4の各々の入力の重み係数を学習する。
《1−3》音声分離装置12の動作
次に、音声分離装置12の動作について説明する。図8は、実施の形態1に係る音声分離装置12の動作を示すフローチャートである。
まず、特徴量抽出部121は、混合音声から音声特徴量の時系列データを出力する(ステップS1201)。ここで、音声特徴量とは、例えば、音声信号にFFTの処理を施すことによって得られたパワースペクトルである。
次に、ブロック分割部122は、混合音声から得られた音声特徴量の時系列データを時間軸方向のブロックに分割する(ステップS1202)。
ブロックに分割された音声特徴量は、音声分離NN1bに入力される。音声分離NN1bは、マスクを推定、すなわち、作成する(ステップS1203)。音声分離NN1bは、図5に示されるようなChimera構造を持つ。入力層1b1から中間層1b2の最終層へのブロックに分割された音声特徴量の伝播は、BLSTMニューラルネットワークのブロック処理方法に類似するLatency Controlled−Bidirectional Long Short Time Memory(LC−BLSTM)から構成されるニューラルネットワークを用いて行われる。LC−BLSTMから構成されるニューラルネットワークは、LC−BLSTMニューラルネットワークともいう。他の層間の音声特徴量の伝播は、図6を用いて説明された伝播と同様である。図8に示される音声分離処理では、図5に示される音声分離NN1bの出力のうち、マスク出力層1b3の出力のみを用いることができる。
図9は、BLSTMニューラルネットワークの概略構造を示す図である。現在のフレームをt(tは正の整数)番目のフレームとしたときに、t番目のフレームのn(nは正の整数)番目の層の出力を、以下の(1)のように表記する。
Figure 0006789455
BLSTMニューラルネットワークは、順方向のLSTMニューラルネットワークと逆方向のLSTMニューラルネットワークとの組み合わせで構成される。t番目のフレームのn番目の層における順方向のLSTMニューラルネットワークの出力を、以下の(2)のように表記する。
Figure 0006789455
また、t番目のフレームのn番目の層における逆方向のLSTMニューラルネットワークの出力を、以下の(3)のように表記する。
Figure 0006789455
図9に示されるように、t番目のフレームのn番目の層の出力は、t番目のフレームのn番目の層における順方向のLSTMニューラルネットワークの出力とt番目のフレームのn番目の層における逆のLSTMニューラルネットワークの出力とを連結したものである。
図9に示されるように、順方向のLSTMニューラルネットワークの入力(Inputs)と、出力(Output)とは、以下の(4)及び(5)のとおりである。
Figure 0006789455
また、図9に示されるように、逆方向のLSTMニューラルネットワークの入力(Inputs)と、出力(Output)とは、以下の(6)及び(7)のとおりである。
Figure 0006789455
図9に示されるように、双方のLSTMニューラルネットワークの出力を連結すると、t番目のフレームのn番目の層の出力として、以下の(8)の出力が得られる。
Figure 0006789455
このように、BLSTMニューラルネットワークでは、t番目のフレームのn番目の層の出力を得るために、t−1番目のフレームの出力とt+1番目のフレームの出力の両方を、順方向のLSTMニューラルネットワークの入力と逆方向のLSTMニューラルネットワークの入力として使用する。つまり、BLSTMニューラルネットワークでは、以下の(9)の2つの出力が使用される。
Figure 0006789455
このため、図9に示されるBLSTMニューラルネットワークでは、発話された音声の全体が入力された後でなければ、音声の分離処理を行うことができない。つまり、音声の分離処理に遅延が発生する。
図10は、実施の形態1に係る音声分離システム1の音声分離NN1bを構成するLC−BLSTMニューラルネットワークの概略構造を示す図である。図10において、補助ブロックの出力は、例えば、ハット記号(circumflex)「^」を用いて表記される。例えば、n番目の層のt+2番目のフレームの補助ブロックの出力と、n番目の層のt+3番目のフレームの補助ブロックの出力とは、以下の(10)のように表記される。
Figure 0006789455
順方向のLSTMニューラルネットワークにおいては、最初のフレームであるt−1番目のフレームの主要ブロックは、先行するt−2番目のフレームの主要ブロック(図示せず)の出力を受け取る。最後のフレームであるt+1番目のフレームの主要ブロックの出力は、後続の主要ブロック、すなわち、t+2番目のフレームの主要ブロック(図示せず)に入力される。
図10において、先行するt−2番目のフレームの主要ブロック(図示せず)の出力は、以下の(11)のように表記される。
Figure 0006789455
この出力は、現在の主要ブロック、すなわち、t−1番目のフレームの主要ブロックの先端のフレームに入力される。
図10において、後続の主要ブロックの最初のフレーム、すなわち、t+2番目のフレーム(図示せず)に入力される出力は、以下の(12)の出力である。
Figure 0006789455
図10に示されるように、逆方向のLSTMニューラルネットワークにおいては、補助ブロックの最後のフレーム、すなわち、t+2番目のフレームに入力される出力は、主要ブロックの最初のフレームの入力として引き継がれる。図10において、補助ブロックの最後のフレーム、すなわち、t+2番目のフレームの出力は、以下の(13)の出力である。
Figure 0006789455
図10に示されるように、音声分離NN1bとしてLC−BLSTMニューラルネットワークを用いて処理することで、音声分離NN1bとして図9に示されるBLSTMニューラルネットワークを用いて処理する場合に比べ、処理遅延を削減することができる。図10に示されるように、音声分離NN1bとしてLC−BLSTMニューラルネットワークを用いて処理することで、処理遅延時間を、図10に示される主要ブロックのブロック長と補助ブロックのブロック長との合計の時間にすることができる。
ここで、補助ブロックの役割について説明する。逆方向のLSTMニューラルネットワークに着目する。図10において、仮に補助ブロックがない場合には、主要ブロックは、図10におけるn番目の層のt+2番目のフレームの情報、すなわち、未来のフレームの情報を受け取ることができない。すなわち、主要ブロックは、以下の補助ブロックの(14)の出力を受け取ることができない。
Figure 0006789455
この場合には、t+1番目以前のフレームについても、逆方向のLSTMニューラルネットワークは、補助ブロックがある場合に比べて受け取る情報量が少なくなる。図10に示される例では、補助ブロックの効果により、逆方向のLSTMニューラルネットワークは、未来のフレームの情報を含むので、多くの情報を受け取ることができる。
図8の説明に戻る。音声復元部123は、混合音声の音声特徴量の各要素に対して、対応するマスクの各要素を掛け合わせることで、分離後の音声特徴量へと変換する。この後、音声復元部123は、例えば、逆FFTの処理を施すことで音声特徴量を音声信号へと復元する(ステップS1204)。
なお、音声分離モデル学習装置11がブロック分割部114を備えていない場合には、モデル学習部115は、ブロックに分割されていない混合音声の音声特徴量の時系列データの全体とマスクの時系列データの全体とを入力としてニューラルネットワークを学習する。一方、音声分離装置12においては、特徴量抽出部121によってブロック分割を行うため、音声分離モデルの学習時と音声分離時のデータ構造が異なる。したがって、音声分離モデル学習装置11がブロック分割部114を備えていない場合は、音声分離モデル学習装置11がブロック分割部114を備えている場合に比べて、音声の分離精度が低下する場合がある。このため、音声分離モデル学習装置11は、ブロック分割部114を備えることが望ましい。
《1−4》効果
以上に説明したように、実施の形態1においては、音声分離モデル学習装置11は音声分離NN1bを学習する。また、音声分離装置12は、抽出した音声特徴量の時系列データを時間軸方向のブロックに分割する。音声特徴量のブロックは、LC−BLSTMニューラルネットワークである音声分離NN1bを伝播してマスクの時系列データに変換される。音声分離装置12は、このようにして得られたマスクの時系列データを用いて、各話者の音声データを復元する。音声分離NN1bは、時間軸方向のブロック単位で処理を行うので、音声分離装置12は、全ての音声データの入力後に処理を行うBLSTMニューラルネットワークを用いる装置に比べて、処理遅延を減らすことができる。つまり、実施の形態1によれば、音声分離に必要な各話者のマスクと埋め込みベクトルを、処理遅延を短縮したLC−BLSTMニューラルネットワークで構成された音声分離NN1bで推定するため、処理遅延を減らすことができる。
また、音声分離装置12は、LC−BLSTMニューラルネットワークで構成された音声分離NN1bを用いるので、音声の分離精度の低下を減らすことができる。つまり、LC−BLSTMニューラルネットワークは、主要ブロックと補助ブロックを持つことで逆方向のLSTMニューラルネットワークに補助ブロックから得られた情報を伝えることができる。このため、音声の分離精度の低下を減らすことができる。
《2》実施の形態2
実施の形態1に係る音声分離システム1においては、音声分離装置12は、音声分離時にLC−BLSTMニューラルネットワークで構成された音声分離NN1bを用いている。LC−BLSTMニューラルネットワークを用いる場合、音声の分離精度は、LC−BLSTMニューラルネットワークのブロック長に応じて変化する。実施の形態2に係る音声分離システムにおいては、音声分離装置は、入力された音声特徴量に適したブロック長のLC−BLSTMニューラルネットワークを選択する機能を備えている。
図11は、実施の形態2に係る音声分離システムの音声分離装置22の構成を概略的に示す機能ブロック図である。図11において、図4に示される構成要素と同一又は対応する構成要素には、図4に示される符号と同じ符号が付される。実施の形態2に係る音声分離装置22は、ブロック長選択部124を備えている点、及び複数の音声分離NN2b,2c,2dを備えている点で、実施の形態1に係る音声分離装置12と相違する。
図12は、実施の形態2に係る音声分離システムの音声分離装置22の動作を示すフローチャートである。図12において、図8に示される処理ステップと同一又は対応する処理ステップには、図8に示されるステップ番号と同じステップ番号が付される。実施の形態2に係る音声分離装置22の動作は、ブロック長を選択する処理(ステップS1205)を有する点において、実施の形態1に係る音声分離装置12の動作と相違する。
ブロック長選択部124は、混合音声の音声特徴量の時系列データに含まれる雑音又は残響に応じて、予め実験的に求められた最適なブロック長を選択する。選択にあたっては、例えば、雑音のS/N比又は残響時間と、ブロック長との対応関係を示す情報を予め実験的に求めておき、ブロック長選択部124は、予め実験的に求められた対応関係を示す情報にしたがって、使用する音声分離NNを音声分離NN2b,2c,2dの中から選択する。この対応関係を示す情報は、例えば、テーブルとして記憶装置に記憶される。ブロック分割部122は、選択されたブロック長にしたがって音声特徴量の時系列データを、時間幅を持つブロックに分割し、音声分離NN2b,2c,2dのうちの、選択されたブロック長と一致した音声分離NNを用いてマスクを推定する。
以上に説明したように、実施の形態2に係る音声分離装置22において、ブロック長選択部124が混合音声の音声特徴量に応じてブロック長を選択し、そのブロック長と一致した音声分離NNを用いる。音声特徴量に応じて適切なブロック長を選択することで、ブロック長を一定にした場合に比べて、音声の分離精度を向上させることができる。例えば、ブロック長を長くすることで、音声の分離精度を向上させることができる。また、ブロック長を短くすることで、処理遅延を減らすことができる。
なお、上記以外の点については、実施の形態2は、実施の形態1と同じである。
《3》実施の形態3
《3ー1》構成
LSTMニューラルネットワーク及びLC−BLSTMニューラルネットワークによって取得することができる情報の量は、BSLTMニューラルネットワークによって取得することができる情報の量より少ない。このため、LC−BLSTMニューラルネットワークによって構成された音声分離NNを用いた音声分離装置では、音声の分離精度が低下するおそれがある。
そこで、実施の形態3に係る音声分離システムの音声分離モデル学習装置31は、音声分離NNの作成に際し、教師ニューラルネットワーク(以下「教師NN」ともいう。)を生徒ニューラルネットワーク(以下「生徒NN」ともいう。)に学習させるTeacher−student学習を用いる。Teacher−student学習は、教師NNの出力又は中間層の重みを、生徒NNに模倣させる学習方法である。Teacher−student学習は生徒NNを用いるので、Teacher−student学習を用いることでパラメータ数を削減することができる。例えば、BLSTMニューラルネットワークを教師NNとし、LSTMニューラルネットワーク又はLC−BLSTMニューラルネットワークを生徒NNとして学習させることができる。この場合、BLSTMニューラルネットワークの情報をLSTMニューラルネットワークに反映させることができる。この場合は、Teacher−student学習を使わなかった場合に比べて、音声の分離精度を向上させることができる。
図13は、実施の形態3に係る音声分離システムの音声分離モデル学習装置31の構成を概略的に示す機能ブロック図である。図13において、図3に示される構成要素と同一又は対応する構成要素には、図3に示される符号と同じ符号が付される。実施の形態3に係る音声分離モデル学習装置31は、生徒NN学習部116を備えている点、及び複数の音声分離NNを生成する点で、実施の形態1に係る音声分離モデル学習装置11と相違する。図13において、複数の音声分離NNは、教師音声分離ニューラルネットワーク(以下「教師音声分離NN」ともいう。)1cと生徒音声分離ニューラルネットワーク(以下「生徒音声分離NN」ともいう。)1dである。
実施の形態3では、モデル学習部115によって、音声分離モデルとして教師音声分離NN1cが学習される。教師音声分離NN1cは、混合音声の音声特徴量の時系列データとマスクの時系列データとを作成する。教師音声分離NN1cが作成するマスクは、教師マスクともいう。
生徒NN学習部116は、教師音声分離NN1cの出力とブロック分割部114で分割された混合音声の音声特徴量の時系列データと教師マスクの時系列データに基づいて、音声分離モデルとして生徒音声分離NN1dを学習する。生徒音声分離NN1dは、混合音声の音声特徴量の時系列データとマスクの時系列データとを作成する。
《3ー2》動作
図14は、実施の形態3に係る音声分離システムの音声分離モデル学習装置31の動作を示すフローチャートである。図14において、図6に示される処理ステップと同一又は対応する処理ステップには、図6に示されるステップ番号と同じステップ番号が付される。図14において、ステップS1101〜S1103の処理は、図6における対応する処理と同じである。
次に、モデル学習部115は、混合音声の音声特徴量と教師マスクから教師音声分離NN1cを学習する(ステップS1106)。教師音声分離NN1cは、例えば、Chimera構造を持つBLSTMニューラルネットワークである。
ブロック分割部114は、混合音声の音声特徴量の時系列データ、教師マスクの時系列データ、及び教師音声分離NN1cから得られる教師データを、ブロックに分割する(ステップS1107)。教師音声分離NN1cから得られる教師データの詳細については、後述する。
生徒NN学習部116は、ブロック分割部114によってブロックに分割された、混合音声の音声特徴量、教師マスク、及び教師音声分離NN1cから得られる教師データを用いて、音声分離モデルとして生徒音声分離NN1dを学習する(ステップS1108)。なお、生徒音声分離NN1dにブロック処理を必要としないニューラルネットワーク、例えば、LSTMニューラルネットワークを用いる場合は、ブロック分割部114によるブロック処理を行わないことができる。ブロック分割部114によるブロック処理を行わない場合には、生徒音声分離NN1dは、混合音声の音声特徴量の時系列データと、単独音声の音声特徴量の時系列データと、教師音声分離NN1cで作成された教師マスクの時系列データとから、生徒音声分離NNを学習する。
図15は、実施の形態3の音声分離システムの生徒NN学習部116による学習の態様を示す図である。教師音声分離NN1cから得られる教師データとして、教師音声分離NN1cの中間層の出力、すなわち、図5の中間層1b2から得られる中間層の出力を用いる。生徒音声分離NN1dは、教師音声分離NN1cの学習で使用したロス関数に加えて、教師音声分離NN1cの中間層1b2の出力と生徒音声分離NN1dの中間層1b2の出力との差をロス関数とし、以下の(15)の式で示す2つのロス関数の重みつき和Lを最小化するように学習する。
Figure 0006789455
ここで、Lchiは、ロス関数である。ロス関数Lchiは、例えば、非特許文献1に示されている。Ldiffは、教師音声分離NN1cの中間層1b2の出力と生徒音声分離NN1dの中間層1b2の出力との距離である。距離としては、例えば、各出力の間のL2ノルム又はクロスエントロピーを用いることができる。βは、重み係数である。βは、例えば、実験的に決定された値である。生徒音声分離NN1dが模倣する層は、生徒音声分離NN1dと教師音声分離NN1cとの間で次元数が一致していれば、いずれの層を模倣してもよい。生徒音声分離NN1dは、次元数が一致していない層を模倣する場合は、教師音声分離NN1cの次元数を生徒音声分離NN1dの次元数に変換するようなニューラルネットワークを学習する。
《3ー3》効果
以上に説明したように、実施の形態3に係る音声分離システムの音声分離モデル学習装置31では、モデル学習部115が教師音声分離NN1cを学習し、生徒NN学習部116が、教師音声分離NN1cの中間層1b2の出力を模倣するようTeacher−student学習で生徒音声分離NN1dを学習する。実施の形態3においては、教師音声分離NN1cの情報が生徒音声分離NN1dに模倣されることから、実施の形態1で学習した音声分離NN1bに比べて、音声の分離精度が向上する。
なお、上記以外の点について、実施の形態3は、実施の形態1又は2と同じである。
《4》実施の形態4
実施の形態4に係る音声分離システムは、実施の形態3に係る音声分離システムの音声分離モデル学習装置31の教師音声分離NN1cから得られる教師データを、教師音声分離NN1cから得られる埋め込みベクトルに変更し、それに伴い生徒NN学習部116のロス関数を変更したものである。実施の形態4の説明に際しては、図13及び図14をも参照する。
教師音声分離NN1cと生徒音声分離NN1dの両方にChimera構造を持つNNを用いた場合、教師音声分離NN1cの出力する埋め込みベクトルを教師として、生徒音声分離NN1dを学習させることができる。この場合、教師音声分離NN1cから得られる学習データは、教師音声分離NN1cから出力された埋め込みベクトルである。
図16は、実施の形態4に係る音声分離システムの生徒NN学習部116による学習の態様を示す図である。生徒音声分離NN1dは、教師音声分離NN1cの学習で使用したロス関数に加えて、教師音声分離NN1cが出力した埋め込みベクトルと、自身が出力する埋め込みベクトルとの差をロス関数とし、(16)の式で示す2つのロス関数の重みつき和Lを最小化するように学習する。
Figure 0006789455
ここで、Lchiは、ロス関数である。LdiffDCは、教師音声分離NN1cが出力した埋め込みベクトルと自身が出力する埋め込みベクトルとの距離を表す。LdiffDCは、例えば、各出力の間のL2ノルム又はクロスエントロピーである。γは、重み係数である。γは、例えば、実験的に決定される値である。
以上に説明したように、実施の形態4に係る音声分離システムの音声分離モデル学習装置31において、モデル学習部115が教師音声分離NN1cを学習し、生徒NN学習部116が教師音声分離NN1cの出力する埋め込みベクトルを模倣するようTeacher−student学習で生徒音声分離NN1dを学習する。実施の形態4に係る音声分離システムでは、教師音声分離NN1cの情報が埋め込みベクトルによって生徒音声分離NN1dに模倣されているので、実施の形態1に係る音声分離システムに比べて、音声の分離精度が向上する。
なお、上記以外の点について、実施の形態4は、実施の形態3と同じである。
《5》実施の形態5
実施の形態5に係る音声分離システムは、実施の形態3に係る音声分離システムの音声分離モデル学習装置31が用いる教師音声分離NN1cから得られる教師データを、教師音声分離NN1cの中間層の出力と教師音声分離NN1cから得られる埋め込みベクトルの両方に変更し、それに伴い生徒NN学習部116のロス関数を変更したものである。実施の形態5の説明に際しては、図13から図16をも参照する。
教師音声分離NN1cと生徒音声分離NN1dの両方にChimera構造を持つNNを用いた場合、図15と図16を組み合わせ、教師音声分離NN1cの出力する埋め込みベクトルと教師音声分離NN1cの中間層1b2の出力を教師として、生徒音声分離NN1dを学習させることができる。
図17は、実施の形態5に係る音声分離システムの音声分離モデル学習装置による学習の態様を示す図である。生徒音声分離NN1dは、教師音声分離NN1cの学習で使用したロス関数Lchiに加えて、教師音声分離NN1cの中間層1b2の出力と生徒音声分離NN1dの中間層1b2の出力との間の距離のロス関数Ldiff、さらに教師音声分離NN1cが出力した埋め込みベクトルと自身が出力する埋め込みベクトルとの距離のロス関数LdiffDCを、(17)の式で示す3つのロス関数の重みつき和Lを最小化するように学習する。
Figure 0006789455
ここで、Lchiは、ロス関数である。Ldiffは、教師音声分離NN1cの中間層1b2の出力と生徒音声分離NN1dの中間層1b2の出力との距離である。LdiffDCは、教師音声分離NN1cが出力した埋め込みベクトルと自身が出力する埋め込みベクトルとの距離である。βは、ロス関数Ldiffの重み係数である。γは、ロス関数LdiffDCの重み係数である。
以上に説明したように、実施の形態5に係る音声分離システムの音声分離モデル学習装置31において、モデル学習部115が教師音声分離NN1cを学習し、生徒NN学習部116が、教師音声分離NN1cの中間層1b2の出力と埋め込みベクトルを模倣するようTeacher−student学習で音声分離NN1dを学習する。実施の形態5に係る音声分離システムは、教師音声分離NNの情報が、中間層の出力と埋め込みベクトルによって生徒音声分離NNに模倣されるので、実施の形態1に係る音声分離システムに比べて、音声の分離精度が向上する。
なお、上記以外の点について、実施の形態5は、実施の形態3又は4と同じである。
実施の形態1から5に係る音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システムは、複数の話者の混合音声を少ない遅延処理時間で分離できる。このため、実施の形態1から5に係る音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システムは、音声の分離が必要な装置、例えば、音声認識装置に利用可能である。
1 音声分離システム、 1a 学習データ、 1b,2b,2c,2d 音声分離NN、 1c 教師音声分離NN、 1d 生徒音声分離NN、 11,31 音声分離モデル学習装置、 12,22 音声分離装置、 12a 音声分離部、 111 混合音声作成部、 112 特徴量抽出部(学習用の特徴量抽出部)、 113 マスク作成部、 114 ブロック分割部(学習用のブロック分割部)、 115 モデル学習部、 116 生徒NN学習部、 121 特徴量抽出部、 122 ブロック分割部(音声分離用用のブロック分割部)、 123 音声復元部、 124 ブロック長選択部。

Claims (9)

  1. 複数の話者の音声を含む混合音声の混合音声データから前記複数の話者の各々の音声の音声データを分離する音声分離装置であって、
    前記混合音声データから前記混合音声の音声特徴量の時系列データを抽出する特徴量抽出部と、
    前記音声特徴量の時系列データを一定の時間幅を持つブロックに分割することによって、ブロック化された音声特徴量の時系列データを生成するブロック分割部と、
    時間軸方向に順方向のLSTMニューラルネットワークと前記時間軸方向に逆方向のLSTMニューラルネットワークとの組み合わせによって構成され、前記ブロック化された前記音声特徴量の時系列データから前記複数の話者の各々のマスクの時系列データを作成する音声分離ニューラルネットワークと、
    前記マスクの時系列データと前記混合音声の前記音声特徴量の時系列データとから前記複数の話者の各々の音声の前記音声データを復元する音声復元部と
    を備え、
    前記音声分離ニューラルネットワークは、前記複数の話者の各々のマスクの時系列データの作成において、前記順方向のLSTMニューラルネットワークでは現在よりも時間的に前のブロックの時系列データを用い、前記逆方向のLSTMニューラルネットワークでは前記現在よりも時間的に後の予め決められた数のフレームで構成されるブロックの時系列データを用いる
    ことを特徴とする音声分離装置。
  2. 前記音声特徴量の時系列データを時間軸方向に1個以上の前記ブロックに分割するにあたり、前記音声特徴量に応じて前記ブロックの前記時間幅を指定するブロック長を選択するブロック長選択部をさらに備え、
    前記音声分離ニューラルネットワークとして、複数の音声分離ニューラルネットワークが備えられ、
    前記複数の音声分離ニューラルネットワークのうちの、前記ブロック長に対応した音声分離ニューラルネットワークを用いて、前記複数の話者の各々の前記マスクの時系列データが作成される
    ことを特徴とする請求項1に記載の音声分離装置。
  3. 請求項1又は2に記載の音声分離装置と、
    前記音声分離ニューラルネットワークを学習する音声分離モデル学習装置と、
    を備えた音声分離システムであって、
    前記音声分離モデル学習装置は、
    複数の話者の各々が発話した単独音声の音声データを含む学習データから前記複数の話者の音声を含む混合音声の音声データを作成する混合音声作成部と、
    前記混合音声の音声データから前記混合音声の音声特徴量の時系列データを抽出し、前記単独音声の音声データから前記単独音声の音声特徴量の時系列データを抽出する学習用の特徴量抽出部と、
    前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データとから、前記複数の話者の各々のマスクの時系列データを作成するマスク作成部と、
    前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データと、前記マスク作成部で作成された前記マスクの時系列データとから、前記音声分離ニューラルネットワークを学習するモデル学習部と、
    を備えたことを特徴とする音声分離システム。
  4. 前記音声分離モデル学習装置は、前記混合音声作成部で作成された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データと、前記マスク作成部で作成された前記マスクの時系列データとを、時間軸方向に1個以上のブロックに分割する学習用のブロック分割部をさらに備え、
    前記モデル学習部は、前記学習用のブロック分割部でブロック化された混合音声の音声特徴量の時系列データと、前記学習用のブロック分割部でブロック化された前記単独音声の音声特徴量の時系列データと、前記学習用のブロック分割部でブロック化された前記マスクの時系列データとから、前記音声分離ニューラルネットワークを学習する
    ことを特徴とする請求項3に記載の音声分離システム。
  5. 請求項1又は2に記載の音声分離装置と、
    前記音声分離ニューラルネットワークを学習する音声分離モデル学習装置と、
    を備えた音声分離システムであって、
    前記音声分離モデル学習装置は、
    複数の話者の各々が発話した単独音声の音声データを含む学習データから前記複数の話者の音声を含む混合音声の音声データを作成する混合音声作成部と、
    前記混合音声の音声データから前記混合音声の音声特徴量の時系列データを抽出し、前記単独音声の音声データから前記単独音声の音声特徴量の時系列データを抽出する学習用の特徴量抽出部と、
    前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データとから、前記複数の話者の各々のマスクの時系列データを作成するマスク作成部と、
    前記学習用の特徴量抽出部で抽出された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データと、前記マスク作成部で作成された前記マスクの時系列データとから、教師音声分離ニューラルネットワークを学習するモデル学習部と、
    生徒音声分離ニューラルネットワークである前記音声分離ニューラルネットワークを学習する生徒ニューラルネットワーク学習部と、
    を備え、
    前記混合音声の音声特徴量の時系列データと、前記単独音声の音声特徴量の時系列データと、前記教師音声分離ニューラルネットワークで作成された前記マスクの時系列データとから、前記生徒音声分離ニューラルネットワークを学習する
    ことを特徴とする音声分離システム。
  6. 前記音声分離モデル学習装置は、前記混合音声作成部で作成された前記混合音声の音声特徴量の時系列データ及び前記単独音声の音声特徴量の時系列データと、前記マスク作成部で作成された前記マスクの時系列データとを、時間軸方向に1個以上のブロックに分割する学習用のブロック分割部をさらに備え、
    前記生徒ニューラルネットワーク学習部は、前記学習用のブロック分割部でブロック化された混合音声の音声特徴量の時系列データと、前記学習用のブロック分割部でブロック化された前記単独音声の音声特徴量の時系列データと、前記学習用のブロック分割部でブロック化された前記マスクの時系列データとから、前記生徒音声分離ニューラルネットワークを学習する
    ことを特徴とする請求項5に記載の音声分離システム。
  7. 前記音声分離ニューラルネットワークは、
    前記混合音声の音声特徴量が入力される入力層と、
    前記マスク及び前記混合音声の音声特徴量の埋め込みベクトルの少なくとも一方を作成する中間層と、
    前記中間層で作成されたマスクを出力するマスク出力層と、
    前記埋め込みベクトルを出力する埋め込みベクトル出力層と
    を有することを特徴とする請求項3から6のいずれか1項に記載の音声分離システム。
  8. 複数の話者の音声を含む混合音声の混合音声データから前記複数の話者の各々の音声の音声データを分離する音声分離方法であって、
    前記混合音声データから前記混合音声の音声特徴量の時系列データを抽出する特徴量抽出ステップと、
    前記音声特徴量の時系列データを一定の時間幅を持つブロックに分割することによって、ブロック化された音声特徴量の時系列データを生成するブロック分割ステップと、
    時間軸方向に順方向のLSTMニューラルネットワークと前記時間軸方向に逆方向のLSTMニューラルネットワークとの組み合わせによって構成された音声分離ニューラルネットワークが、前記ブロック化された前記音声特徴量の時系列データから前記複数の話者の各々のマスクの時系列データを作成するマスク作成ステップと、
    前記マスクの時系列データと前記混合音声の前記音声特徴量の時系列データとから前記複数の話者の各々の音声の前記音声データを復元する音声復元ステップと
    を有し、
    前記音声分離ニューラルネットワークは、前記複数の話者の各々のマスクの時系列データの作成において、前記順方向のLSTMニューラルネットワークでは現在よりも時間的に前のブロックの時系列データを用い、前記逆方向のLSTMニューラルネットワークでは前記現在よりも時間的に後の予め決められた数のフレームで構成されるブロックの時系列データを用いる
    ことを特徴とする音声分離方法。
  9. コンピュータに、複数の話者の音声を含む混合音声の混合音声データから前記複数の話者の各々の音声の音声データを分離する処理を実行させる音声分離プログラムであって、
    前記混合音声データから前記混合音声の音声特徴量の時系列データを抽出する特徴量抽出処理と、
    前記音声特徴量の時系列データを一定の時間幅を持つブロックに分割することによって、ブロック化された音声特徴量の時系列データを生成するブロック分割処理と、
    時間軸方向に順方向のLSTMニューラルネットワークと前記時間軸方向に逆方向のLSTMニューラルネットワークとの組み合わせによって構成された音声分離ニューラルネットワークによって、前記ブロック化された前記音声特徴量の時系列データから前記複数の話者の各々のマスクの時系列データが作成されるマスク作成処理であって、前記音声分離ニューラルネットワークは、前記複数の話者の各々のマスクの時系列データの作成において、前記順方向のLSTMニューラルネットワークでは現在よりも時間的に前のブロックの時系列データを用い、前記逆方向のLSTMニューラルネットワークでは前記現在よりも時間的に後の予め決められた数のフレームで構成されるブロックの時系列データを用いる処理と、
    前記マスクの時系列データと前記混合音声の前記音声特徴量の時系列データとから前記複数の話者の各々の音声の前記音声データを復元する音声復元処理と、
    をコンピュータに実行させる音声分離プログラム。
JP2020537984A 2018-08-24 2018-08-24 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム Active JP6789455B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/031294 WO2020039571A1 (ja) 2018-08-24 2018-08-24 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム

Publications (2)

Publication Number Publication Date
JP6789455B2 true JP6789455B2 (ja) 2020-11-25
JPWO2020039571A1 JPWO2020039571A1 (ja) 2020-12-17

Family

ID=69592003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020537984A Active JP6789455B2 (ja) 2018-08-24 2018-08-24 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム

Country Status (5)

Country Link
US (1) US11798574B2 (ja)
JP (1) JP6789455B2 (ja)
CN (1) CN112567459B (ja)
DE (1) DE112018007846B4 (ja)
WO (1) WO2020039571A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7392259B2 (ja) * 2018-12-04 2023-12-06 日本電気株式会社 学習支援装置、学習支援方法およびプログラム
US11551083B2 (en) 2019-12-17 2023-01-10 Soundhound, Inc. Neural network training from private data
CN111640422A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 语音人声分离方法、装置、终端及存储介质
KR20220061467A (ko) * 2020-11-06 2022-05-13 삼성전자주식회사 전자 장치 및 이의 오디오 신호 처리 방법
JPWO2022145015A1 (ja) * 2020-12-28 2022-07-07
US20220406324A1 (en) * 2021-06-18 2022-12-22 Samsung Electronics Co., Ltd. Electronic device and personalized audio processing method of the electronic device
WO2023276235A1 (ja) * 2021-06-29 2023-01-05 ソニーグループ株式会社 プログラム、情報処理方法、記録媒体および情報処理装置
WO2023047620A1 (ja) * 2021-09-24 2023-03-30 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム
CN117133294B (zh) * 2023-10-26 2024-01-05 中铁四局集团有限公司 基于lstm模型的语音特征单元提取的改进型智慧工单***

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119791A (ja) * 1991-10-29 1993-05-18 Sekisui Chem Co Ltd 話者認識方式
US20160111107A1 (en) * 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
JP6614639B2 (ja) * 2015-05-22 2019-12-04 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
US9368110B1 (en) * 2015-07-07 2016-06-14 Mitsubishi Electric Research Laboratories, Inc. Method for distinguishing components of an acoustic signal
CN105141987B (zh) 2015-08-14 2019-04-05 京东方科技集团股份有限公司 广告植入方法和广告植入***
KR102313028B1 (ko) * 2015-10-29 2021-10-13 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
US10249305B2 (en) 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
CN107452389B (zh) * 2017-07-20 2020-09-01 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法

Also Published As

Publication number Publication date
US11798574B2 (en) 2023-10-24
WO2020039571A1 (ja) 2020-02-27
US20210233550A1 (en) 2021-07-29
CN112567459A (zh) 2021-03-26
JPWO2020039571A1 (ja) 2020-12-17
CN112567459B (zh) 2023-12-12
DE112018007846T5 (de) 2021-04-08
DE112018007846B4 (de) 2022-06-02

Similar Documents

Publication Publication Date Title
JP6789455B2 (ja) 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
CN110709924B (zh) 视听语音分离
JP7258182B2 (ja) 音声処理方法、装置、電子機器及びコンピュータプログラム
JP6480644B1 (ja) マルチチャネル音声認識のための適応的オーディオ強化
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
JP2021036297A (ja) 信号処理装置、信号処理方法、及びプログラム
CN112289342A (zh) 使用神经网络生成音频
JP5227393B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
JP7018659B2 (ja) 声質変換装置、声質変換方法およびプログラム
JP3836815B2 (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
JP2014041308A (ja) 信号処理装置、方法及びプログラム
JPWO2020121590A1 (ja) 信号処理装置、信号処理方法、およびプログラム
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
JP6987509B2 (ja) コードブックベースのアプローチを利用したカルマンフィルタリングに基づく音声強調法
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
JP2019008206A (ja) 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム
JP5669036B2 (ja) 信号分離のためのパラメータ推定装置、信号分離装置、信号分離のためのパラメータ推定方法、信号分離方法、および、プログラム
JP7348812B2 (ja) 雑音抑制装置、雑音抑制方法及び音声入力機器
KR20170088165A (ko) 심층 신경망 기반 음성인식 방법 및 그 장치
KR20230124266A (ko) 적대적 학습 기법을 이용한 음성 합성 방법 및 장치
JPH10133688A (ja) 音声認識装置
Roma et al. Remixing musical audio on the web using source separation
Mousavi et al. Blind speech dereverberation using sparse decomposition and multi-channel linear prediction
KR102505653B1 (ko) 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200824

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200824

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201102

R150 Certificate of patent or registration of utility model

Ref document number: 6789455

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250