JP7274184B2

JP7274184B2 - 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法

Info

Publication number: JP7274184B2
Application number: JP2021540067A
Authority: JP
Inventors: ソン，ウンウー; キム，ジンソプ; ビョン，キョングン; カン，ホング
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2019-01-11
Filing date: 2019-08-16
Publication date: 2023-05-16
Anticipated expiration: 2039-08-16
Also published as: JP2023089256A; WO2020145472A1; JP2022516784A

Description

特許法第３０条第２項適用２０１８年８月１６日に大韓民国ソウル市の延世大学校で開催された２０１８年度韓国音響学会第３５回音声通信及び信号処理学術大会にて「ＤＥＥＰＬＥＡＲＮＩＮＧ－ＢＡＳＥＤＳＰＥＥＣＨＳＹＮＴＨＥＳＩＳＳＹＳＴＥＭ」として公開。

特許法第３０条第２項適用２０１８年１１月８日にウェブサイト（ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１８１１．０３３１１）上にて「ＳＰＥＡＫＥＲ－ＡＤＡＰＴＩＶＥＮＥＵＲＡＬＶＯＤＯＤＥＲＳＦＯＲＳＴＡＴＩＳＴＩＣＡＬＰＡＲＡＭＥＴＲＩＣＳＰＥＥＣＨＳＹＮＴＨＥＳＩＳＳＹＳＴＥＭＳ」として公開。

以下の説明は、ニューラルボコーダを使用する合成音声信号生成方法とニューラルボコーダ、およびニューラルボコーダの訓練方法に関する。

また、以下の説明は、話者適応型モデルを利用してターゲット話者の合成音声信号を生成するニューラルボコーダ、および話者適応型モデルを実現するためのニューラルボコーダの訓練方法に関する。

音声合成技術とは、入力されたデータに基づいて人間の音声と類似の合成音を作り出す技術である。一例として、ＴＴＳ（Ｔｅｘｔｔｏｓｐｅｅｃｈ）は、入力されたテキストを人間の音声に変換して提供する。

このような合成音声は、入力された音響パラメータに基づいて音声信号を生成するボコーダによって生成される。近年は、人工知能およびディープラーニング技術の発展に伴い、合成音声の生成にニューラルネットワークを活用するニューラルボコーダが提案されるようになった。ニューラルボコーダは、話者からの音声データによって話者独立的または話者従属的に訓練され、訓練の結果を使用することにより、入力された音響パラメータに対する合成音声信号を生成する。

ニューラルボコーダが特定のターゲット話者に対応する合成音声信号を生成するためには、該当のターゲット話者の音声データを利用してニューラルボコーダを訓練しなければならない。一定以上の品質をもつ合成音声信号を生成するためには、一般的には、ターゲット話者の音声録音を含んだ、数時間以上の音声データが必要となる。音声データが足りない場合には、生成される合成音声信号の品質が低下したり歪曲が発生したりするようになる。ターゲット話者が一般人ではなく、芸能人や有名人などのようなセレブリティ（ｃｅｌｅｂｒｉｔｙ）の場合には、数時間以上の音声録音を訓練データとして確保するのが困難なことが多い。したがって、訓練に使用するためのターゲット話者の音声データの量を最小に抑えながらも合成音声信号の品質を高めることができるニューラルボコーダシステムが求められている。

一方、音声信号に基づく合成音声信号の生成において、音声信号はダイナミックな特性を有するため、ニューラルネットワーク（例えば、ＣＮＮ）がこのような特性を完全に捕捉するには困難がある。特に、音声信号の高周波数領域ではスペクトル歪曲が発生しやすく、これは合成音声信号の品質の低下にも繋がりかねない。したがって、高周波数領域のスペクトル歪曲を低めて合成音声信号の品質を高めることができ、さらに音声データを訓練する過程を簡略化することのできるニューラルボコーダシステムも求められている。

特許文献１（韓国特許出願公開第１０－２０１８－０１１３３２５号公報（公開日２０１８年１０月１６日））は、音声合成装置が音声波形を合成するにあたり、開発者や利用者の意図したとおりに合成音の音声が変調されるように音声合成器の音声モデルを符号化し、音声モデルコードを変換し、音声モデルを復号化することにより、変調された音声波形を合成する機能を提供する音声合成装置および方法について説明している。

上述した情報は、本発明の理解を助けるためのものに過ぎず、従来技術の一部を形成しない内容を含むこともあるし、従来技術が通常の技術者に提示することのできる内容を含まないこともある。

韓国特許出願公開第１０－２０１８－０１１３３２５号

スペクトル関連パラメータおよび励起関連パラメータを含む複数の音響パラメータを取得し、複数の音響パラメータに基づいて励起信号を推定し、推定された励起信号に対してスペクトル関連パラメータのうちの少なくとも１つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する、ニューラルボコーダによる音声信号生成方法を提供することを目的とする。

複数の話者からの音声データセットに対して話者独立的に訓練されたソースモデルからの加重値を初期値として設定し、該当の初期値に対してターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成する、ニューラルボコーダの訓練方法を提供することを他の目的とする。

一側面において、コンピュータによって実現されるニューラルボコーダ（ｎｅｕｒａｌｖｏｃｏｄｅｒ）が実行する音声信号生成方法であって、スペクトル関連パラメータ（ｓｐｅｃｔｒａｌｐａｒａｍｅｔｅｒ）および励起（ｅｘｃｉｔａｔｉｏｎ）の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得する段階、前記複数の音響パラメータに基づいて励起信号（ｅｘｃｉｔａｔｉｏｎｓｉｇｎａｌ）を推定する段階、および前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも１つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する段階を含む、音声信号生成方法を提供する。

前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第１励起パラメータ、および前記カットオフ周波数を超過する励起を示す第２励起パラメータを含んでよい。

前記第１励起パラメータは、前記励起の高調波スペクトル（ｈａｒｍｏｎｉｃｓｐｅｃｔｒｕｍ）を示し、前記第２励起パラメータは、前記励起のその他の部分を示してよい。

前記スペクトル関連パラメータは、音声信号のピッチを示す周波数パラメータ、音声信号のエネルギーを示すエネルギーパラメータ、音声信号が有声音（ｖｏｉｃｅ）であるか無声音（ｕｎｖｏｉｃｅ）であるかを示すパラメータ、および音声信号の線スペクトル周波数（ＬｉｎｅＳｐｅｃｔｒａｌＦｒｅｑｕｅｎｃｙ：ＬＳＦ）を示すパラメータを含んでよい。

前記ターゲット音声信号を生成する段階は、前記ＬＳＦを示すパラメータを線形予測符号（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ：ＬＰＣ）に変換する段階、および前記推定された励起信号に対し、前記変換されたＬＰＣに基づく前記線形合成フィルタを適用する段階を含んでよい。

前記複数の音響パラメータは、入力されたテキストまたは入力された音声信号に基づいて音響モデル（ａｃｏｕｓｔｉｃｍｏｄｅｌ）によって生成されたものであってよい。

前記ニューラルボコーダは、訓練のために入力された音声信号に基づいて訓練されたものであり、前記訓練は、前記入力された音声信号に対して線形予測分析フィルタ（Ｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎａｎａｌｙｓｉｓｆｉｌｔｅｒ）を適用することによって前記入力された音声信号から励起信号を分離する段階、および前記分離した励起信号の確率分布をモデリングする段階を含み、前記励起信号を推定する段階は、前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定してよい。

前記励起信号を分離する段階は、前記入力された音声信号のＬＳＦを示すパラメータを線形予測符号（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ：ＬＰＣ）に変換する段階、および前記入力された音声信号に対し、前記入力された音声信号の変換されたＬＰＣに基づく前記線形予測分析フィルタを適用する段階を含んでよい。

前記分離された励起信号は、前記入力された音声信号の残渣成分（ｒｅｓｉｄｕａｌｃｏｍｐｏｎｅｎｔ）であってよい。

他の側面において、コンピュータによって実現されるニューラルボコーダの訓練方法であって、音声信号の入力を受ける段階、前記入力された音声信号から、スペクトル関連パラメータおよび励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを抽出する段階、前記入力された音声信号に対して前記スペクトル関連パラメータのうちの少なくとも１つに基づく線形予測分析フィルタを適用することによって前記入力された音声信号から励起信号を分離する段階、および前記分離した励起信号の確率分布をモデリングする段階を含む、ニューラルボコーダの訓練方法を提供する。

前記励起信号を分離する段階は、前記スペクトル関連パラメータのうちで前記入力された音声信号のＬＳＦを示すパラメータをＬＰＣに変換する段階、および前記入力された音声信号に対し、前記入力された音声信号の変換されたＬＰＣに基づく前記線形予測分析フィルタを適用する段階を含んでよい。

また他の側面において、ニューラルボコーダであって、スペクトル関連パラメータ（ｓｐｅｃｔｒａｌｐａｒａｍｅｔｅｒ）、および励起（ｅｘｃｉｔａｔｉｏｎ）の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得するパラメータ取得部、前記複数の音響パラメータに基づいて励起信号（ｅｘｃｉｔａｔｉｏｎｓｉｇｎａｌ）を推定する励起信号推定部、および前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも１つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する音声信号生成部を含む、ニューラルボコーダを提供する。

前記音声信号生成部は、前記スペクトル関連パラメータのうちで音声信号のＬＳＦを示すパラメータを線形予測符号（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ：ＬＰＣ）に変換する変換部を含み、前記推定された励起信号に対し、前記変換されたＬＰＣに基づく前記線形合成フィルタを適用してよい。

前記ニューラルボコーダは、訓練のために入力された音声信号に基づいて訓練されたものであり、前記ニューラルボコーダは、前記入力された音声信号に対して線形予測分析フィルタ（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎａｎａｌｙｓｉｓｆｉｌｔｅｒ）を適用することによって前記入力された音声信号から励起信号を分離する励起信号分離部、および前記分離した励起信号の確率分布をモデリングするモデリング部をさらに含んでよく、前記励起信号推定部は、前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定してよい。

前記励起信号分離部は、前記入力された音声信号のＬＳＦを示すパラメータを線形予測符号（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ：ＬＰＣ）に変換する変換部を含み、前記入力された音声信号に対し、前記入力された音声信号の変換されたＬＰＣに基づく前記線形予測分析フィルタを適用してよい。

また他の側面において、コンピュータによって実現されるニューラルボコーダの訓練方法であって、複数の話者からの音声データセットに対して訓練されたソースモデルからの加重値（ｗｅｉｇｈｔ）を初期値として設定する段階、および前記初期値に対し、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成する段階を含み、前記アップデートされた加重値は、前記ターゲット話者に対応する合成音声信号を生成するために使用される、ニューラルボコーダの訓練方法が提供される。

前記ソースモデルからの加重値（ｗｅｉｇｈｔ）は、前記音声データセットに含まれた話者ごとに区分されないグローバル特性を示す値であり、前記アップデートされた加重値を生成する段階は、前記ソースモデルからの加重値を、前記ターゲット話者からの音声データセットが含む前記ターゲット話者の固有の特性が反映されるように調整することによって前記アップデートされた加重値を生成してよい。

前記複数の話者からの音声データセットのそれぞれの大きさは、前記ターゲット話者からの音声データセットよりも大きくてよい。

前記ニューラルボコーダの訓練方法は、前記複数の話者からの音声データセットを話者独立的に訓練するソースモデルを構築する段階、および前記ソースモデルから前記加重値を取得する段階をさらに含み、前記ソースモデルは、前記ターゲット話者からの音声データセットを訓練するためのモデルの初期化子（ｉｎｉｔｉａｌｉｚｅｒ）として使用されてよい。

前記訓練方法によって訓練されたニューラルボコーダが実行する音声信号生成方法であって、入力されたテキストまたは入力された音声信号に基づき、音響モデル（ａｃｏｕｓｔｉｃｍｏｄｅｌ）によって生成されたスペクトル関連パラメータ（ｓｐｅｃｔｒａｌｐａｒａｍｅｔｅｒ）および励起（ｅｘｃｉｔａｔｉｏｎ）の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得する段階、前記複数の音響パラメータに基づいて励起信号（ｅｘｃｉｔａｔｉｏｎｓｉｇｎａｌ）を推定する段階、および前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも１つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する段階を含み、前記ターゲット音声信号は、前記ターゲット話者に対応する合成音声である、音声信号生成方法が提供される。

前記ターゲット音声信号を生成する段階は、前記スペクトル関連パラメータのうちで音声信号のＬＳＦを示すパラメータを線形予測符号（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ：ＬＰＣ）に変換する段階、および前記推定された励起信号に対し、前記変換されたＬＰＣに基づく前記線形合成フィルタを適用する段階を含んでよい。

前記励起信号を推定する段階は、モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定し、前記励起信号の確率分布のモデリングは、訓練のために入力された音声信号に対して線形予測分析フィルタ（Ｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎａｎａｌｙｓｉｓｆｉｌｔｅｒ）を適用することによって前記入力された音声信号から励起信号を分離する段階、および前記分離した励起信号の確率分布をモデリングする段階を含む方法によって実行されてよい。

また他の側面において、ニューラルボコーダであって、複数の話者からの音声データセットに対して話者独立的に訓練されたソースモデルからの加重値（ｗｅｉｇｈｔ）を初期値として設定し、前記初期値に対し、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成する話者適応型モデルを構築する話者適応型モデル構築部を含み、前記話者適応型モデルによって生成された、前記アップデートされた加重値は、前記ターゲット話者に対応する合成音声を生成するために使用される、ニューラルボコーダを提供する。

前記ニューラルボコーダは、前記複数の話者からの音声データセットを話者独立的に訓練するソースモデルを構築するソースモデル構築部をさらに含み、前記ソースモデルは、前記ターゲット話者からの音声データセットを訓練するためのモデルの初期化子（ｉｎｉｔｉａｌｉｚｅｒ）として動作してよい。

前記ニューラルボコーダは、入力されたテキストまたは入力された音声信号に基づき、音響モデル（ａｃｏｕｓｔｉｃｍｏｄｅｌ）によって生成されたスペクトル関連パラメータ（ｓｐｅｃｔｒａｌｐａｒａｍｅｔｅｒ）および励起（ｅｘｃｉｔａｔｉｏｎ）の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得するパラメータ取得部、前記複数の音響パラメータに基づいて励起信号（ｅｘｃｉｔａｔｉｏｎｓｉｇｎａｌ）を推定する励起信号推定部、および前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも１つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する音声信号生成部をさらに含み、前記ターゲット音声信号は、前記ターゲット話者に対応する合成音声であってよい。

前記ニューラルボコーダは、訓練のために入力された音声信号に対して線形予測分析フィルタ（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎａｎａｌｙｓｉｓｆｉｌｔｅｒ）を適用することによって前記入力された音声信号から励起信号を分離する励起信号分離部、および前記分離された励起信号の確率分布をモデリングするモデリング部をさらに含み、前記励起信号推定部は、前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定してよい。

ニューラルボコーダが励起信号をターゲットにして推定を実行し、推定された励起信号に対して線形予測フィルタを適用することによってターゲット音声信号が生成されることにより、生成されたターゲット音声信号の品質を高めることができ、特に、音声信号の高周波数領域のスペクトル歪曲を減らすことができる。

ランダム値ではない話者独立的に訓練されたソースモデルからの加重値を初期値として使用してターゲット話者からの音声データセットを訓練することにより、相対的に小さい（すなわち、短時間の）音声データセットを訓練するだけでも高品質のターゲット話者の合成音声（合成音声信号）を生成することができる。

一実施形態における、入力されたテキストまたは音声信号に基づいて合成音声信号を生成する方法を示した図である。一実施形態における、ニューラルボコーダシステムの構造を示したブロック図である。一実施形態における、ニューラルボコーダシステムのプロセッサの構造を示したブロック図である。一実施形態における、音声信号生成方法を示したフローチャートである。一実施形態における、ニューラルボコーダを訓練させる方法を示したフローチャートである。一実施形態における、話者適応型モデルを構築してターゲット話者の合成音声を生成する方法を示した図である。一実施形態における、ニューラルボコーダのプロセッサの構造を示したブロック図である。一実施形態における、話者適応型モデルを構築するためのニューラルボコーダの訓練方法を示したフローチャートである。一例における、音声信号および励起信号とその関係を示した図である。それぞれ異なる種類のボコーダを使用した、合成音声信号生成のための統計的パラメトリック音声合成（ＳｔａｔｉｓｔｉｃａｌＰａｒａｍｅｔｒｉｃＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ：ＳＰＳＳ）システムを示した図である。それぞれ異なる種類のボコーダを使用した、合成音声信号生成のための統計的パラメトリック音声合成（ＳｔａｔｉｓｔｉｃａｌＰａｒａｍｅｔｒｉｃＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ：ＳＰＳＳ）システムを示した図である。それぞれ異なる種類のボコーダを使用した、合成音声信号生成のための統計的パラメトリック音声合成（ＳｔａｔｉｓｔｉｃａｌＰａｒａｍｅｔｒｉｃＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ：ＳＰＳＳ）システムを示した図である。一実施形態における、訓練のために入力された音声信号から励起信号を分離することによってニューラルボコーダを訓練させる方法を示した図である。一実施形態における、入力テキストに基づいて音響モデルによって生成された音響パラメータから励起信号を推定して合成音声信号を生成する方法を示した図である。一実施形態における、訓練のために入力された音声信号から励起信号を分離することによってニューラルボコーダを訓練させる方法を示した図である。一実施形態における、入力テキストに基づいて音響モデルによって生成された音響パラメータから励起信号を推定して合成音声信号を生成する方法を示した図である。一例における、訓練過程／合成音声信号の生成過程で取得した負の対数尤度（ＮｅｇａｔｉｖｅＬｏｇ－Ｌｉｋｅｌｉｈｏｏｄ：ＮＬＬ）の音響パラメータとして励起の周期性によって区分されるパラメータの使用の可否による差を示したグラフである。一例における、複数の話者からの音声信号に対し、音声信号の話者従属的な特徴と話者独立的な特徴を示した図式である。一例における、複数の話者からの音声データセットを訓練させることによって構築されたソースモデルと、ターゲット話者からの音声データセットを訓練させることによって構築された話者適応型モデルを使用してターゲット話者の合成音声を生成する方法を示した図である。一例における、話者適応（ｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎ）アルゴリズムの適用の可否によって生成された合成音声信号の品質を比較評価した結果を示した図である。一例における、話者適応（ｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎ）アルゴリズムの適用の可否によって生成された合成音声信号の品質を比較評価した結果を示した図である。一例における、ＥｘｃｉｔＮｅｔボコーダと他のボコーダとのＭＯＳ（ＭｅａｎＯｐｉｎｉｏｎＳｃｏｒｅ）評価の結果を示した図である。一例における、Ｆ０スケーリングファクタ（ｓｃａｌｉｎｇｆａｃｔｏｒ）を相違させる場合において、話者適応型モデルを構築するニューラルボコーダの性能の変化を示した図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。

図１は、一実施形態における、入力されたテキストまたは音声信号に基づいて合成音声信号を生成する方法を示した図である。

音声信号とは音声を示すものであるが、以下の詳細な説明では、説明の便宜上、「音声信号」と「音声」が混用されることもある。

音響モデル（ａｃｏｕｓｔｉｃｍｏｄｅｌ）１１０は、合成音声信号の生成のために入力されたテキストまたは音声信号から音響パラメータ（複数可）を生成してよい。音響モデル１１０は、ディープラーニングに基づく統計的パラメトリック音声合成（ＳｔａｔｉｓｔｉｃａｌＰａｒａｍｅｔｒｉｃＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ：ＳＰＳＳ）システムで設計されたものであってよい。音響モデル１１０は、言語入力と音響出力パラメータとの間の非線形マッピング関数を示すために訓練された、マルチフィードフォワードおよび長短期記憶層で構成されてよい。音響モデル１１０は、例えば、ＤＮＮＴＴＳモジュールであってよい。音響パラメータは、合成音声信号を生成するために使用されるフィーチャーであるか、フィーチャーを構成するために使用されるパラメータであってよい。

ボコーダ１２０は、音響モデル１１０で生成された音響パラメータを音声信号に変換することによって合成音声信号を生成してよい。ボコーダ１２０は、ニューラルボコーダであってよい。ニューラルボコーダは、ディープラーニングモデルによって訓練されたものであってよい。ニューラルボコーダは、例えば、ＷａｖｅＮｅｔ、ＳａｍｐｌｅＲＮＮ、またはＷａｖｅＲＮＮであってよい。また、ニューラルボコーダは、これらに制限されない、一般的な生成モデル（ｇｅｎｅｒａｔｉｖｅｍｏｄｅｌ）であってもよい。

「ニューラルボコーダ」は、（合成）音声信号の生成のために訓練されたモデル（例えば、ＷａｖｅＮｅｔ、ＳａｍｐｌｅＲＮＮ、ＷａｖｅＲＮＮ、または一般的なモデル）、および各種フィルタを含む装置を示すために使用されてよい。

ボコーダ１２０は、音響モデル１１０から取得した音響パラメータに基づいて音声信号の励起（ｅｘｃｉｔａｔｉｏｎ）信号を推定してよい。すなわち、音声信号の励起信号がボコーダ１２０のターゲットとなってよい。

励起信号は、音声信号のうちで音声の震えを示す成分であって、発話者の口の形状によって変化する音声信号の変化を示す成分（スペクトル成分（ｓｐｅｃｔｒａｌｃｏｍｐｏｎｅｎｔ））とは区分されてよい。励起信号の変化は、発話者の声帯の動き（ｖｏｃａｌｃｏｒｄｍｏｖｅｍｅｎｔ）によってのみ制限されてよい。励起信号は、音声信号の残渣信号（ｒｅｓｉｄｕａｌｓｉｇｎａｌ）であってよい。

ボコーダ１２０によって推定された励起信号に対し、音声信号のスペクトル成分を示す音響パラメータに基づいて生成された線形予測（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）フィルタが適用されることにより、ターゲット音声信号（すなわち、合成音声信号）が生成されてよい。

ボコーダ１２０が音声信号ではない励起信号をターゲットとし、推定された励起信号に対して線形予測フィルタを適用することによってターゲット音声信号が生成されることにより、生成されたターゲット音声信号の品質を高めることができ、特に、音声信号の高周波数領域のスペクトル歪曲を減らすことができる。

励起信号を推定することによってターゲット音声信号を生成するより具体的な方法と、励起信号を推定するためにニューラルボコーダを訓練させるより具体的な方法については、図２～５を参照しながらさらに詳しく説明する。

図２は、一実施形態における、ニューラルボコーダシステムの構造を示したブロック図である。

図２を参照しながら、ニューラルボコーダシステム２００のより詳細な構成について説明する。図に示したニューラルボコーダシステム２００は、ニューラルボコーダを含んで構成されるコンピュータ（コンピュータシステム）を示してよい。

ニューラルボコーダシステム２００は、コンピュータシステムによって実現される固定端末や移動端末であってよい。例えば、ニューラルボコーダシステム２００は、ＡＩスピーカ、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレット、ゲームコンソール、ウェアラブルデバイス、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）デバイス、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ）デバイス、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）デバイスなどによって実現されてよい。また、ニューラルボコーダシステム２００は、上述したような端末とネットワークを介して通信するサーバまたはその他のコンピューティング装置によって実現されてよい。

ニューラルボコーダシステム２００は、メモリ２１０、プロセッサ２２０、通信モジュール２３０、および入力／出力インタフェースを含んでよい。メモリ２１０は、非一時的なコンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ディスクドライブ、ＳＳＤ（ｓｏｌｉｄｓｔａｔｅｄｒｉｖｅ）、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）などのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭ、ＳＳＤ、フラッシュメモリ、ディスクドライブのような永続的大容量記録装置は、メモリ２１０とは区分される別の永続的記録装置としてニューラルボコーダシステム２００に含まれてもよい。また、メモリ２１０には、オペレーティングシステムと、少なくとも１つのプログラムコード（一例として、ニューラルボコーダシステム２００においてインストールされて実行されるブラウザや、特定のサービスの提供のためにニューラルボコーダシステム２００にインストールされたアプリケーションなどのためのコード）が記録されてよい。このようなソフトウェア構成要素は、メモリ２１０とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール２３０を通じてメモリ２１０にロードされてもよい。例えば、少なくとも１つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム（一例として、外部サーバ）を経て提供するファイルによってインストールされるコンピュータプログラムに基づいてメモリ２１０にロードされてよい。

プロセッサ２２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１０または通信モジュール２３０によって、プロセッサ２２０に提供されてよい。例えば、プロセッサ２２０は、メモリ２１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信モジュール２３０は、ネットワークを介してニューラルボコーダシステム２００が他の電子機器または他のサーバと互いに通信するための機能を提供してよい。通信モジュール２３０は、ニューラルボコーダシステム２００のネットワークインタフェースカード、ネットワークインタフェースチップ、およびネットワーキングインタフェースポートなどのようなハードウェアモジュール、またはネットワークデバイスドライバまたはネットワーキングプログラムのようなソフトウェアモジュールであってよい。

入力／出力インタフェース２４０は、入力／出力装置（図示せず）とのインタフェースのための手段であってよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、カメラなどの装置を、出力装置は、ディスプレイ、話者、触覚フィードバックデバイスなどのような装置を含んでよい。他の例として、入力／出力インタフェース２４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２１５は、ニューラルボコーダシステム２００の構成であってよい。ニューラルボコーダシステム２００がサーバとして実現される場合、ニューラルボコーダシステム２００は、入力／出力装置および入力／出力インタフェースを含まなくてもよい。

また、他の実施形態において、ニューラルボコーダシステム２００は、図に示した構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術の構成要素を明確に図に示す必要はないため、これについては省略する。

図３を参照しながら、プロセッサ２２０のより詳細な構成を中心に、励起信号を推定することによってターゲット音声信号を生成する方法と、励起信号を推定するためにニューラルボコーダを訓練させる方法について説明する。

以上、図１を参照しながら説明した技術的特徴についての説明は、図２に対してもそのまま適用可能であるため、重複する説明は省略する。

図３は、一実施形態における、ニューラルボコーダシステムのプロセッサの構造を示したブロック図である。

以下で説明するプロセッサ２２０の構成３１０～３４０のそれぞれは、１つ以上のソフトウェアモジュールおよび／またはハードウェアモジュールによって実現されてよい。実施形態によって、プロセッサ２２０の構成要素は、選択的にプロセッサ２２０に含まれても除外されてもよい。また、実施形態によって、プロセッサ２２０の構成要素は、プロセッサ２２０の機能の表現のために分離されても併合されてもよい。

プロセッサ２２０の構成要素は、ニューラルボコーダシステム２００に記録されたプログラムコードが提供する命令にしたがってプロセッサ２２０によって実行される、プロセッサ２２０の互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。

プロセッサ２２０のパラメータ取得部３１０は、スペクトル関連パラメータ（ｓｐｅｃｔｒａｌｐａｒａｍｅｔｅｒ）、および励起（ｅｘｃｉｔａｔｉｏｎ）の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得してよい。パラメータ取得部３１０が取得する複数の音響パラメータは、利用者から入力されたテキスト、または話者から入力された音声信号に基づいて音響モデル（ａｃｏｕｓｔｉｃｍｏｄｅｌ）によって生成されたものであってよい。

プロセッサ２２０の励起信号推定部３２０は、複数の音響パラメータに基づいて励起信号（ｅｘｃｉｔａｔｉｏｎｓｉｇｎａｌ）を推定してよい。励起信号推定部３２０（ニューラルボコーダ）は、訓練のために入力された音声信号に基づいて訓練されたものであってよい。励起信号推定部３２０は、訓練によってモデリングされた励起信号の確率分布を使用して複数の音響パラメータに対する励起信号を推定してよい。

プロセッサ２２０は、ニューラルボコーダの訓練を実行するための構成３４０を含んでよい。プロセッサ２２０の励起信号分離部３４２は、訓練のために入力された音声信号に対して線形予測分析フィルタ（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎａｎａｌｙｓｉｓｆｉｌｔｅｒ）を適用することにより、訓練のために入力された音声信号から励起信号を分離してよい。励起信号分離部３４２は、訓練のために入力された音声信号の線スペクトル周波数（ＬｉｎｅＳｐｅｃｔｒａｌＦｒｅｑｕｅｎｃｙ：ＬＳＦ）を示すパラメータを線形予測符号（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ：ＬＰＣ）に変換する変換部３４３を含んでよい。前記線形予測分析フィルタは、ＬＳＦを示すパラメータに基づくものであり、前記変換されたＬＰＣに基づいて生成されるものであってよい。プロセッサ２２０のモデリング部３４４は、分離した励起信号の確率分布をモデリングしてよい。

プロセッサ２２０の音声信号生成部３３０は、励起信号推定部３２０によって推定された励起信号に対してスペクトル関連パラメータのうちの少なくとも１つに基づく線形（予測）合成フィルタを適用することによってターゲット音声信号を生成してよい。ターゲット音声信号は、合成された音声信号であってよい。

音声信号生成部３３０は、取得したスペクトル関連パラメータのうちで音声信号のＬＳＦを示すパラメータを線形予測符号（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ：ＬＰＣ）に変換する変換部３３２を含んでよい。前記線形予測合成フィルタは、取得したスペクトル関連パラメータのうちで音声信号のＬＳＦを示すパラメータに基づくものであり、前記変換されたＬＰＣに基づいて生成されるものであってよい。言い換えれば、音声信号生成部３３０は、推定された励起信号に対して変換されたＬＰＣに基づく線形予測合成フィルタを適用することによってターゲット音声信号を生成してよい。

励起信号を推定することによってターゲット音声信号を生成するより具体的な方法については、図４を参照しながらさらに詳しく説明するし、励起信号を推定するためにニューラルボコーダを訓練させるより具体的な方法については、図５を参照しながらさらに詳しく説明する。

以上、図１および図２を参照しながら説明した技術的特徴ついての説明は、図３に対してもそのまま適用可能であるため、重複する説明は省略する。

図４は、一実施形態における、音声信号生成方法を示したフローチャートである。

段階４１０で、パラメータ取得部３１０は、スペクトル関連パラメータおよび励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得してよい。パラメータ取得部３１０が取得する複数の音響パラメータは、利用者が入力したテキストまたは話者が入力した音声信号に基づいて音響モデルによって生成されたものであってよい。すなわち、パラメータ取得部３１０は、音響モデルから前記複数の音響パラメータを受信してよい。

スペクトル関連パラメータは、音声信号を構成するスペクトル成分（ｓｐｅｃｔｒａｌｃｏｍｐｏｎｅｎｔ）を示すパラメータであってよい。励起関連パラメータは、音声信号からスペクトル成分を除いた残渣信号（励起信号）に該当する成分を示すパラメータであってよい。スペクトル成分の信号は、発話者の口の形状に応じて変化する音声信号の部分を示してよい。励起信号は、音声信号のうちで音声の震えを示す音声信号の部分を示してよい。励起信号の変化は、発話者の声帯の動きによってのみ制限されてよい。

スペクトル関連パラメータは、例えば、音声信号のピッチを示す周波数パラメータ（Ｆ０）、音声信号のエネルギーを示すエネルギーパラメータ（一例として、利得（ｇａｉｎ）を示すパラメータ）、音声信号が有声音（ｖｏｉｃｅ）であるか無声音（ｕｎｖｏｉｃｅ）であるかを示すパラメータ（ｖ／ｕｖ）、および音声信号の線スペクトル周波数（ＬｉｎｅＳｐｅｃｔｒａｌＦｒｅｑｕｅｎｃｙ：ＬＳＦ）を示すパラメータを含んでよい。

励起関連パラメータは、励起の周期性によって区分されるパラメータを含んでよい。励起関連パラメータは、例えば、ＴＦＴＥ（Ｔｉｍｅ－ＦｒｅｑｕｅｎｃｙＴｒａｊｅｃｔｏｒｙＥｘｃｉｔａｔｉｏｎ）パラメータであってよい。ＴＦＴＥは、周波数軸に沿った励起のスペクトル形状と時間軸に沿ったこのような形状の展開（ｅｖｏｌｕｔｉｏｎ）を示してよい。励起関連パラメータは、励起信号のうちで時間－周波数軸でよりゆっくり変化する成分を示す第１励起パラメータ（ＳＥＷ（ＳｌｏｗｌｙＥｖｏｌｖｉｎｇＷａｖｅｆｏｒｍ）パラメータ）、および励起信号のうちで時間－周波数軸でより迅速に変化する成分を示す第２励起パラメータ（ＲＥＷ（ＲａｐｉｄｌｙＥｖｏｌｖｉｎｇＷａｖｅｆｏｒｍ）パラメータ）を含んでよい。

第１励起パラメータは、所定のカットオフ周波数以下の励起を示してよく、第２励起パラメータは、カットオフ周波数を超過する励起を示してよい。第１励起パラメータは、励起の高調波スペクトル（ｈａｒｍｏｎｉｃｓｐｅｃｔｒｕｍ）を示してよく、第２励起パラメータは、励起のその他の部分を示してよい。例えば、高調波励起スペクトル（ｈａｒｍｏｎｉｃｅｘｃｉｔａｔｉｏｎｓｐｅｃｔｒｕｍ）に該当する第１励起パラメータ（ＳＥＷパラメータ）は、ＴＦＴＥの各周波数成分を時間領域軸に沿って（所定のカットオフ周波数で）ローパスフィルタリングすることによって取得されてよい。所定のカットオフ周波数を超過する残留雑音スペクトルは、第２励起パラメータ（ＲＥＷパラメータ）として、ＴＦＴＥからＳＥＷを減算することによって取得されてよい。第１励起パラメータ（ＳＥＷパラメータ）および第２励起パラメータが使用されることにより、励起の周期性がより効果的に表現されるようになる。第１励起パラメータおよび第２励起パラメータは、ＩＴＦＴＥ（ＩｍｐｒｏｖｅｄＴｉｍｅ－ＦｒｅｑｕｅｎｃｙＴｒａｊｅｃｔｏｒｙＥｘｃｉｔａｔｉｏｎ）パラメータに該当してよい。

段階４２０で、励起信号推定部３２０は、複数の音響パラメータに基づいて励起信号（ｅｘｃｉｔａｔｉｏｎｓｉｇｎａｌ）を推定してよい。すなわち、励起信号推定部３２０は、スペクトル関連パラメータおよび励起関連パラメータを入力として励起信号を推定してよい。推定される励起信号は、励起信号の時間シーケンス（ｔｉｍｅｓｅｑｕｅｎｃｅ）であってよい。

励起信号推定部３２０は、訓練のために入力された音声信号に基づいて訓練されたものであって、励起信号推定部３２０は、訓練によってモデリングされた励起信号の確率分布を使用することで、取得した複数の音響パラメータに対する励起信号を推定してよい。励起信号推定部３２０を含むニューラルボコーダの訓練方法については、図５を参照しながらより詳しく説明する。

励起信号推定部３２０は、例えば、ＷａｖｅＮｅｔ、ＳａｍｐｌｅＲＮＮ、またはＷａｖｅＲＮＮによって実現されてよい。また、励起信号推定部３２０は、これらに制限されない、一般的な生成モデル（ｇｅｎｅｒａｔｉｖｅｍｏｄｅｌ）によって実現されてもよい。

段階４３０で、音声信号生成部３３０は、励起信号推定部３２０によって推定された励起信号に対してスペクトル関連パラメータのうちの少なくとも１つに基づく線形（予測）合成フィルタを適用することによってターゲット音声信号を生成してよい。ターゲット音声信号は、合成された音声信号であってよい。段階４３２および４３４を参照しながら、段階４３０についてより詳しく説明する。

段階４３２で、変換部３３２は、取得したスペクトル関連パラメータのうちで音声信号のＬＳＦを示すパラメータを線形予測符号（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ：ＬＰＣ）に変換してよい。線形予測合成フィルタは、取得したスペクトル関連パラメータのうちで音声信号のＬＳＦを示すパラメータに基づくものであり、変換されたＬＰＣに基づいて生成されてよい。

段階４３４で、音声信号生成部３３０は、推定された励起信号に対して段階４３２で変換されたＬＰＣに基づく線形予測合成フィルタを適用することによってターゲット音声信号を生成してよい。

段階４１０～４３０によって生成されたターゲット音声信号は、励起信号をターゲットとして推定せず、音声信号を直ぐに推定して生成された音声信号に比べて品質が優れ、特に、音声信号の高周波数領域のスペクトル歪曲を減らすことができる。

以上、図１～３を参照しながら説明した技術的特徴についての説明は、図４に対してもそのまま適用可能であるため、重複する説明は省略する。

図５は、一実施形態における、ニューラルボコーダを訓練させる方法を示したフローチャートである。

図５を参照しながら、取得した音響パラメータに基づいて励起信号を推定することができる励起信号の確率分布をモデリングする方法について詳しく説明する。

段階５１０で、ニューラルボコーダシステム２００は、訓練のための音声信号を受信してよい。訓練のための音声信号は、話者からニューラルボコーダシステム２００に直接に入力されるか、音声信号を含むデータが音声信号を受信した電子機器から送信されることによってニューラルボコーダシステム２００に入力されてよい。

段階５２０で、ニューラルボコーダシステム２００は、入力された音声信号から、スペクトル関連パラメータおよび励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを抽出してよい。ニューラルボコーダシステム２００は、音声分析（ｓｐｅｅｃｈａｎａｌｙｓｉｓ）によって音声信号から複数の音響パラメータを抽出してよい。例えば、ニューラルボコーダシステム２００は、その内部または外部に存在するパラメトリックボコーダを使用して音声信号から複数の音響パラメータを抽出してよい。

スペクトル関連パラメータは、例えば、音声信号のピッチを示す周波数パラメータ（Ｆ０）、音声信号のエネルギーを示すエネルギーパラメータ（一例として、利得（ｇａｉｎ）を示すパラメータ）、音声信号が有声音（ｖｏｉｃｅ）であるか無声音（ｕｎｖｏｉｃｅ）であるかを示すパラメータ（ｖ／ｕｖ）、および音声信号の線スペクトル周波数（ＬｉｎｅＳｐｅｃｔｒａｌＦｒｅｑｕｅｎｃｙ：ＬＳＦ）を示すパラメータを含んでよい。励起関連パラメータは、励起の周期性によって区分されるパラメータを含んでよい。励起関連パラメータは、例えば、ＴＦＴＥ（Ｔｉｍｅ－ＦｒｅｑｕｅｎｃｙＴｒａｊｅｃｔｏｒｙＥｘｃｉｔａｔｉｏｎ）パラメータであってよい。ＴＦＴＥは、周波数軸に沿った励起のスペクトル形状と時間軸に沿ったこのような形状の展開（ｅｖｏｌｕｔｉｏｎ）を示してよい。励起関連パラメータは、励起信号のうちで時間－周波数軸でよりゆっくり変化する成分を示すＳＥＷパラメータ、および励起信号のうちで時間－周波数軸でより迅速に変化する成分を示すＲＥＷパラメータを含んでよい。ＳＥＷパラメータは、所定のカットオフ周波数以下の励起を示してよく、ＲＥＷパラメータは、カットオフ周波数を超過する励起を示してよい。ＳＥＷパラメータは、励起の高調波スペクトル（ｈａｒｍｏｎｉｃｓｐｅｃｔｒｕｍ）を示してよく、ＲＥＷパラメータは、励起のその他の部分を示してよい。例えば、高調波励起スペクトル（ｈａｒｍｏｎｉｃｅｘｃｉｔａｔｉｏｎｓｐｅｃｔｒｕｍ）に該当するＳＥＷパラメータは、ＴＦＴＥの各周波数成分を時間領域軸に沿って（所定のカットオフ周波数で）ローパスフィルタリングすることによって取得されてよい。所定のカットオフ周波数を超過する残留雑音スペクトルは、ＲＥＷパラメータとして、ＴＦＴＥからＳＥＷを減算することによって取得されてよい。

上述した段階５１０および５２０は、以下で説明する段階５３０および５４０と同じように、ニューラルボコーダシステム２００のプロセッサ２２０によって実行されてよい。

段階５３０で、励起信号分離部３４２は、入力された音声信号に対してスペクトル関連パラメータのうちの少なくとも１つに基づく線形予測分析フィルタ（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎａｎａｌｙｓｉｓｆｉｌｔｅｒ）を適用することにより、入力された音声信号から励起信号を分離してよい。線形予測分析フィルタは、音声信号からスペクトルフォルマント（ｓｐｅｃｔｒａｌｆｏｒｍａｎｔ）構造を分離するフィルタであってよい。分離した励起信号は、入力された音声信号の残渣成分（ｒｅｓｉｄｕａｌｃｏｍｐｏｎｅｎｔ）（すなわち、残渣信号）であってよい。励起信号は、情報量を減らすために残渣信号をパルスまたは雑音（ＰｏＮ）、帯域非周期性（ＢＡＰ）、声門励起（ｇｌｏｔｔａｌｅｘｃｉｔａｔｉｏｎ）、および時間－周波数軌跡励起（ＴＦＴＥ）モデルなどのような多様な類型の励起モデルのうちの少なくとも１つによって近似化したものであってよい。

段階５３２および５３４を参照しながら、音声信号から励起信号を分離する方法についてより詳しく説明する。

段階５３２で、励起信号分離部３４２の変換部３４３は、スペクトル関連パラメータのうちで入力された音声信号のＬＳＦを示すパラメータをＬＰＣに変換してよい。線形予測分析フィルタは、取得したスペクトル関連パラメータのうちで音声信号のＬＳＦを示すパラメータに基づくものであり、変換されたＬＰＣに基づいて生成されてよい。

段階５３４で、励起信号分離部３４２は、入力された音声信号に対して前記ＬＰＣに基づく線形予測分析フィルタを適用することにより、音声信号から励起信号を分離してよい。

段階５４０で、モデリング部３４４は、分離した励起信号の確率分布をモデリングしてよい。モデリング部３４４は、例えば、ＷａｖｅＮｅｔ、ＳａｍｐｌｅＲＮＮ、またはＷａｖｅＲＮＮによって実現されてよい。また、モデリング部３４４は、これらに制限されない、一般的な生成モデル（ｇｅｎｅｒａｔｉｖｅｍｏｄｅｌ）によって実現されてもよい。

励起信号推定部３２０は、モデリング部３４４によってモデリングされた励起信号の確率分布を使用することで、上述した段階４２０の励起信号の推定を実行してよい。

図１～４を参照しながら説明した実施形態のニューラルボコーダは、励起信号を訓練し、励起信号を推定して合成音声信号を生成するという点において、ＥｘｃｉｔＮｅｔボコーダと命名されてよい。

励起信号の変化は、発話者の声帯の動きによってのみ制限されるようになるため、励起信号を訓練する過程は、（音声信号を訓練することに比べて）遥かに簡単に実行することができる。また、励起信号の周期性の程度を効果的に示す条件付き特徴としてＩＴＦＴＥパラメータが使用されることにより、励起信号の確率分布モデリングの正確度を大きく向上させることができる。

以上、図１～４を参照しながら説明した技術的特徴についての説明は、図５に対してもそのまま適用可能であるため、重複する説明は省略する。

以下では、図６～８を参照しながら、ターゲット話者からの少量の（すなわち、短時間の）音声データだけで高品質のターゲット話者の合成音声を生成する話者適応型モデルを構築してターゲット話者の合成音声を生成する方法について説明する。

図６は、一実施形態における、話者適応型モデルを構築してターゲット話者の合成音声を生成する方法を示した図である。

以下の詳細な説明において、音声データセットは、音声信号または音声信号を含むデータを示してよい。例えば、音声データセットは、話者から一定の時間にわたって録音された音声信号を示してよい。

ソースモデル６１０は、複数の話者からの音声データセットに対して訓練された音響モデルであってよい。ソースモデル６１０は、複数の話者に対して話者独立的に訓練された音響モデルであってよい。例えば、ソースモデル６１０は、１０人の話者それぞれからの１時間の音声データセットを使用して話者独立的に訓練された音響モデルであってよい。ソースモデル６１０は、ディープラーニングに基づく統計的パラメトリック音声合成（ＳｔａｔｉｓｔｉｃａｌＰａｒａｍｅｔｒｉｃＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ：ＳＰＳＳ）システムで設計されたものであってよい。音響モデル１１０は、例えば、ＤＮＮＴＴＳモジュールであってよい。

複数の話者からの音声データセットによって話者独立的に訓練されたソースモデル６１０は、話者適応型モデル６２０の初期化子（ｉｎｉｔｉａｌｉｚｅｒ）として使用されてよい。言い換えれば、ソースモデル６１０からの加重値（ｗｅｉｇｈｔ）は、話者適応型モデル６２０のターゲット話者からの音声データセットに対する訓練において初期値として設定されてよい。ソースモデル６１０からの加重値は、例えば、上述した音響パラメータに対応してよい。

話者適応型モデル６２０は、ニューラルボコーダによって実現されてよい。ニューラルボコーダは、ディープラーニングモデルに基づいて訓練されたものであってよい。ニューラルボコーダは、例えば、ＷａｖｅＮｅｔ、ＳａｍｐｌｅＲＮＮ、ＥｘｃｉｔＮｅｔ、またはＷａｖｅＲＮＮであってよい。また、ニューラルボコーダは、これらに制限されない、一般的な生成モデル（ｇｅｎｅｒａｔｉｖｅｍｏｄｅｌ）であってもよい。

話者適応型モデル６２０は、話者適応（ｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎ）アルゴリズムを適用することにより、特定の話者に対して従属的に（ｓｐｅａｋｅｒ－ｄｅｐｅｎｄｅｎｔ）訓練されてよい。例えば、話者適応型モデル６２０は、特定のターゲット話者（例えば、芸能人や有名人などのようなセレブリティ）に対して話者従属的に訓練されてよい。話者適応型モデル６２０は、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値（複数可）を生成してよい。

話者適応型モデル６２０は、ランダム値でない、話者独立的に訓練されたソースモデル６１０からの加重値を初期値として使用してターゲット話者からの音声データセットを訓練することにより、相対的に小さい（すなわち、短時間）音声データセットを訓練するだけでも高品質のターゲット話者の合成音声（合成音声信号）を生成することができる。例えば、話者適応型モデル６２０は、１０分前後のターゲット話者の音声データセットを訓練するだけでも高品質のターゲット話者の合成音声を生成することができる。

実施形態によっては、数時間～数十時間以上の音声データセットの確保が困難なセレブリティに対して１０分前後の音声データセットを確保し、これを訓練データとして使用するだけでも、高品質のターゲット話者の合成音声を生成する話者適応型モデル６２０を構築することができる。

以上、図１～５を参照しながら説明した技術的特徴の説明は、図６に対してもそのまま適用可能であるため、重複する説明は省略する。

図７は、一実施形態における、ニューラルボコーダのプロセッサの構造を示したブロック図である。

図７を参照しながら説明するプロセッサ２２０は、図３を参照しながら説明したプロセッサ２２０に対応してよい。以下で説明するプロセッサ２２０の構成７１０～７２０のそれぞれは、１つ以上のソフトウェアモジュールおよび／またはハードウェアモジュールによって実現されてよい。実施形態によって、プロセッサ２２０の構成要素は、選択的にプロセッサ２２０に含まれても除外されてもよい。また、実施形態によって、プロセッサ２２０の構成要素は、プロセッサ２２０の機能の表現のために分離されても併合されてもよい。構成７１０～７２０は、ニューラルボコーダシステム２００に記録されたプログラムコードが提供する命令にしたがってプロセッサ２２０によって実行される、プロセッサ２２０の互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。

プロセッサ２２０は、話者適応型モデル構築部７２０を含んでよい。話者適応型モデル構築部７２０は、複数の話者からの音声データセットに対して話者独立的に訓練されたソースモデル６１０からの加重値（ｗｅｉｇｈｔ）を初期値として設定してよく、設定された初期値に対し、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成する話者適応型モデル６２０を構築してよい。話者適応型モデル６２０によって生成されたアップデートされた加重値は、ターゲット話者に対応する合成音声を生成するために使用されてよい。

プロセッサ２２０は、ソースモデル構築部７１０をさらに含んでよい。ソースモデル構築部７１０は、複数の話者からの音声データセットを話者独立的に訓練するソースモデル６１０を構築してよい。構築されたソースモデル６１０は、ターゲット話者からの音声データセットを訓練するためのモデルの初期化子（ｉｎｉｔｉａｌｉｚｅｒ）として動作してよい。

ソースモデル構築部７１０は、プロセッサ２２０に含まれず、ニューラルボコーダシステム２００とは個別の装置内に実現されてもよい。話者適応型モデル構築部７２０は、このような個別の装置内に実現されたソースモデル構築部７１０によって構築されたソースモデル６１０から加重値を取得し、話者適応型モデル６２０を構築するためのターゲット話者の音声データセットを訓練してよい。

以上、図１～６を参照しながら説明した技術的特徴についての説明は、図７に対してもそのまま適用可能であるため、重複する説明は省略する。

図８は、一実施形態における、話者適応型モデルを構築するためのニューラルボコーダの訓練方法を示したフローチャートである。

段階８１０で、ソースモデル構築部７１０は、複数の話者からの音声データセットを話者独立的に訓練するソースモデル６１０を構築してよい。複数の話者は、ソースモデル６１０を訓練させるための音声データセットを提供する任意の利用者であってよい。

段階８２０で、話者適応型モデル構築部７２０は、ソースモデル６１０から加重値を取得してよい。ソースモデル６１０からの加重値は、複数の話者からの音声データセットに含まれた、話者ごとに区分されないグローバル特性を示す値を示してよい。グローバル特性とは、例えば、特定の発音（一例として、「あ（ａｈ）」または「い（ｅｅ）」など）に対するフォルマント（ｆｏｒｍａｎｔ）特性、または振幅－周波数特性（パターン）を示してよい。言い換えれば、ソースモデル６１０は、複数の話者からの音声データセットを使用してこのような音声の話者独立的なグローバル特性を訓練してよい。

段階８３０で、話者適応型モデル構築部７２０は、ソースモデル６１０から取得された加重値を初期値として設定してよい。言い換えれば、ソースモデル６１０は、話者適応型モデル構築部７２０によって構築される話者適応型モデル６２０の初期化子として使用されてよい。

段階８４０で、話者適応型モデル構築部７２０は、取得された初期値に対し、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成してよい。言い換えれば、話者適応型モデル構築部７２０は、ソースモデル６１０からの初期値に対してターゲット話者からの音声データセットを訓練することにより、ターゲット話者に適応する（すなわち、ターゲット話者に従属的な）話者適応型モデル６２０を構築してよい。

話者適応型モデル構築部７２０は、ソースモデル６１０からの加重値を、ターゲット話者からの音声データセットが含むターゲット話者の固有の特性が反映されるように調整することによってアップデートされた加重値を生成してよい。例えば、話者適応型モデル構築部７２０は、ターゲット話者からの音声データセットを訓練することにより、ソースモデル６１０からの話者ごとに区分されないグローバル特性を示す値をターゲット話者の固有の特性を含むように微調整することによってアップデートされた加重値を生成してよい。

生成された、アップデートされた加重値は、ターゲット話者に対応する合成音声信号を生成するために使用されてよい。ターゲット話者に対応する合成音声信号は、例えば、ターゲット話者に対応するセレブリティの合成音声であってよい。

ソースモデル６１０を訓練させるための複数の話者からの音声データセットのそれぞれの大きさ（すなわち、録音された音声信号の長さ、例えば、１時間以上）は、ターゲット話者からの音声データセットの大きさ（すなわち、録音された音声信号の長さ、例えば、１０分）よりも大きくてよい。

段階８３０で説明したような適応プロセスの微調整（ｆｉｎｅ－ｔｕｎｉｎｇ）メカニズムによっては、ターゲット話者からの音声データセットからターゲット話者の固有の特性がキャプチャされてよい。したがって、説明した実施形態の方法によっては、ターゲット話者からの訓練のための音声データセットが不十分であっても、ボコーディング性能を向上させることができる。

図６～８を参照しながら説明したニューラルボコーダの訓練方法は、図１～４を参照しながら説明した実施形態のニューラルボコーダの訓練方法と合成音声信号の生成方法と組み合わされてよい。例えば、上述したＥｘｃｉｔＮｅｔボコーダは、図６～８を参照しながら説明した実施形態と組み合わされてよい。

一例として、段階８１０～８４０を実行することによって訓練されたニューラルボコーダは、図１～４を参照しながら説明したニューラルボコーダシステム２００に対応してよい。段階４３０で生成されたターゲット音声信号は、話者適応型モデル６２０が訓練したターゲット話者に対応する合成音声信号であってよい。

図６～８を参照しながら説明したニューラルボコーダの訓練方法と図１～４を参照しながら説明したＥｘｃｉｔＮｅｔモデルの技術的特徴とを組み合わせることにより、ターゲット話者に対応する合成音声の品質を高めることができる。

以上、図１～７を参照しながら説明した技術的特徴についての説明は、図８に対してもそのまま適用可能であるため、重複する説明は省略する。

図９は、一例における、音声信号および励起信号とその関係を示した図である。

図に示すように、音声信号をＳ（ｎ）と仮定し、Ｓ（ｎ）が含む励起信号をｅ（ｎ）と仮定するとき、Ｓ（ｎ）とｅ（ｎ）との関係は、以下の数式（１）のように表現されてよい。

ｈ（ｎ）は、線形予測合成フィルタを示してよい。ｈ（ｎ）は、Ｓ（ｎ）のｅ（ｎ）成分を除いた残りの成分（すなわち、スペクトル成分）を示してよい。ｈ（ｎ）は、Ｓ（ｎ）のＬＳＦを示すパラメータに基づいて生成されてよい。

数式（１）の関係により、図４の段階４２０によって推定された励起信号（すなわち、ｅ（ｎ））に対して線形予測合成フィルタ（すなわち、ｈ（ｎ））を適用することによってターゲット音声信号（Ｓ（ｎ））が生成されてよい。線形予測合成フィルタの具体的な例については、図１４を参照しながらさらに詳しく説明する。

数式（１）の関係は、図５の段階５３０の励起信号（すなわち、ｅ（ｎ））の分離に対しても類似に適用されてよい。言い換えれば、訓練のために入力された音声信号（Ｓ（ｎ））に対して線形予測分析フィルタが適用されることにより、音声信号（Ｓ（ｎ））から励起信号（ｅ（ｎ））が分離されてよい。線形予測分析フィルタの具体的な例については、図１３を参照しながらさらに詳しく説明する。

以上、図１～８を参照しながら説明した技術的特徴についての説明は、図９に対してもそのまま適用可能であるため、重複する説明は省略する。

図１０ａ～１０ｃは、それぞれ異なる種類のボコーダを使用する合成音声信号生成のための統計的パラメトリック音声合成（ＳｔａｔｉｓｔｉｃａｌＰａｒａｍｅｔｒｉｃＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ：ＳＰＳＳ）システムを示した図である。

図１０ａは、音響モデル１０１０と音響モデル１０１０からの音響フィーチャー（音響パラメータ）をＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）合成することによって音声信号を生成する、ＬＰＣ合成モジュール１０２０を含む音声合成のためのフレームワークを示している。ＬＰＣ合成モジュール１０２０は、ＬＰＣボコーダであり、例えば、上述した線形予測合成フィルタに対応してよい。

図１０ｂは、音響モデル１０１０と音響モデル１０１０からの音響フィーチャー（音響パラメータ）に基づいて音声信号を推定するニューラルボコーダであり、ＷａｖｅＮｅｔボコーダ１０２２を含む音声合成のためのフレームワークを示した図である。

図１０ｃは、図１～５で説明したような、ＥｘｃｉｔＮｅｔボコーダ１０２４を使用する音声合成のためのフレームワークを示している。図１０ｃに示した構造は、図１０ａのＬＰＣコーダ１０２０と図１０ｂのＷａｖｅＮｅｔボコーダ１０２２が組み合わされたものであってよい。

図１０ｃの構造において、ＥｘｃｉｔＮｅｔボコーダ１０２４は、音響モデル１０１０からの音響フィーチャー（音響パラメータ）に基づいて励起信号を推定してよい。推定された励起信号は、線形予測合成フィルタ１０３０によるＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）合成によってターゲット音声信号に変換されてよい。

図１０ｃの構造のより詳細な例については、図１２および図１４を参照しながらさらに詳しく説明する。

以上、図１～９を参照しながら説明した技術的特徴についての説明は、図１０ａ～図１０ｃに対してもそのまま適用可能であるため、重複する説明は省略する。

図１１および図１３は、一実施形態における、訓練のために入力された音声信号から励起信号を分離することによってニューラルボコーダを訓練させる方法を示した図である。

図１１に示すように、訓練のために入力された音声信号に対し、パラメトリックボコーダ１１１０は、音響パラメータを抽出してよい。入力された音声信号に対しては、抽出された音響パラメータのうちでスペクトル関連パラメータに基づいて生成された線形予測分析フィルタ１１４０が適用されることにより、入力された音声信号から励起信号が分離されてよい。

ＷａｖｅＮｅｔボコーダ１１３０は、抽出された音響パラメータを補助
フィーチャー（ａｕｘｉｌｉａｒｙｆｅａｔｕｒｅ）として構成１１２０して受信してよい。補助フィーチャーは、上述したスペクトル関連パラメータおよび励起関連パラメータを含んでよい。ＷａｖｅＮｅｔボコーダ１１３０は、補助フィーチャーおよび分離した励起信号に基づいて励起信号の確率分布をモデリングしてよい。ＷａｖｅＮｅｔボコーダ１１３０は、ＥｘｃｉｔＮｅｔボコーダまたはその他の一般的な生成モデル（ｇｅｎｅｒａｔｉｖｅｍｏｄｅｌ）のニューラルボコーダによって実現されてよい。

図１３を参照しながら、図１１の構造についてより詳しく説明する。訓練のために入力された音声信号は、音声分析１３１０によって音響フィーチャー（音響パラメータ）が抽出されてよい。音響パラメータのうちでＬＳＦを示すパラメータは、ＬＰＣに変換１３２０されてよい。変換されたＬＰＣに基づき、線形予測分析フィルタ１３４０が実現されてよい。入力された音声信号に対して線形予測分析フィルタ１３４０が適用されることにより、入力された音声信号から励起信号が分離されてよい。分離した励起信号は、ＥｘｃｉｔＮｅｔモデル（すなわち、ＥｘｃｉｔＮｅｔボコーダ）１３５０に入力されてよい。一方、音響パラメータは補助フィーチャー（ａｕｘｉｌｉａｒｙｆｅａｔｕｒｅ）として構成１３３０されてよく、補助フィーチャーはＥｘｃｉｔＮｅｔモデル１３５０に入力されてよい。ＥｘｃｉｔＮｅｔモデル１３５０は、入力された補助フィーチャー（すなわち、音響パラメータ）と分離した励起信号に基づいて励起信号の確率分布をモデリングしてよい。図に示した例において、ｅ_ｎは、分離した励起信号に対応してよい。

図１２および図１４は、一実施形態における、入力テキストに基づいて音響モデルによって生成された音響パラメータから励起信号を推定して合成音声信号を生成する方法を示した図である。

図１２に示すように、音響モデル１１５０は、受信した言語パラメータに基づいて音響パラメータを生成してよい。ＷａｖｅＮｅｔボコーダ１１７０は、音響パラメータを補助フィーチャーとして構成１１６０して受信してよい。補助フィーチャーは、上述したスペクトル関連パラメータおよび励起関連パラメータを含んでよい。ＷａｖｅＮｅｔボコーダ１１７０は、音響パラメータに基づいて励起信号を推定してよい。ＷａｖｅＮｅｔボコーダ１１７０は、ＥｘｃｉｔＮｅｔボコーダまたはその他の一般的な生成モデル（ｇｅｎｅｒａｔｉｖｅｍｏｄｅｌ）のニューラルボコーダによって実現されてよい。推定された励起信号に対しては、抽出された音響パラメータのうちでスペクトル関連パラメータに基づいて生成された線形予測合成フィルタ１１８０が適用されることにより、ターゲット合成音声が生成されてよい。

図１４を参照しながら、図１２の構造についてより詳しく説明する。合成音声信号の生成のために入力されたテキストに対してテキスト分析１４１０を実行することにより、（上述した言語パラメータに対応する）言語フィーチャーが抽出されてよい。言語フィーチャーの抽出においては、図に示すように、音素デュレーション（ｐｈｏｎｅｍｅｄｕｒａｔｉｏｎ）を推定するデュレーションモデル１４２０がさらに使用されてよい。音響モデル１４３０は、抽出された言語フィーチャーから音響フィーチャー（音響パラメータ）を生成してよい。音響パラメータのうちでＬＳＦを示すパラメータは、ＬＰＣに変換１４４０されてよい。変換されたＬＰＣに基づいて線形予測合成フィルタ１４７０が実現されてよい。音響パラメータは補助フィーチャー（ａｕｘｉｌｉａｒｙｆｅａｔｕｒｅ）として構成１４５０されてよく、補助フィーチャーはＥｘｃｉｔＮｅｔモデル（すなわち、ＥｘｃｉｔＮｅｔボコーダ）１４６０に入力されてよい。ＥｘｃｉｔＮｅｔモデル１４６０は、入力された補助フィーチャー（すなわち、音響パラメータ）に基づいて励起信号を推定してよい。推定された励起信号に対して変換されたＬＰＣに基づく線形予測合成フィルタ１４７０が適用されることにより、ターゲット音声信号が生成されてよい。図に示した例において、

は生成されたターゲット音声信号に対応してよく、

は推定された励起信号に対応してよい。

以上、図１～１０ｃを参照しながら説明した技術的特徴についての説明は、図１１～１４に対してもそのまま適用可能であるため、重複する説明は省略する。

図１５は、一例における、訓練過程／合成音声信号の生成過程で取得した負の対数尤度（ＮｅｇａｔｉｖｅＬｏｇ－Ｌｉｋｅｌｉｈｏｏｄ：ＮＬＬ）の音響パラメータとして、励起の周期性によって区分されるパラメータの使用の可否による差を示したグラフである。

訓練（ｔｒａｉｎｉｎｇ）過程において、ＮＬＬが低いほどモデリングの正確度が高いと見ることができる。図に示したグラフでは、上述したＳＥＷパラメータおよびＲＥＷパラメータのようなＩＴＦＴＥパラメータを使用した場合のＮＬＬは、そうでない場合よりも低くなることを確認することができる。

また、合成音声信号の検証（ｖａｌｉｄａｔｉｏｎ）過程においても、ＮＬＬが低いほど生成される合成音声の品質が優れると見なすことができる。図に示したグラフでは、ＳＥＷパラメータおよびＲＥＷパラメータのようなＩＴＦＴＥパラメータを使用した場合のＮＬＬが、そうでない場合よりも低くなることを確認することができる。

言い換えれば、図に示したグラフから、ニューラルボコーダの訓練においてＩＴＦＴＥパラメータを使用することによって励起信号の確率分布のモデリングのエラーを大きく減らすことができ、合成音声の生成のための励起信号の推定でＩＴＦＴＥパラメータを使用することによって合成音声信号の生成におけるエラーを大きく減らすことができるという事実を確認することができる。

以上、図１～１４を参照しながら説明した技術的特徴についての説明は、図１５に対してもそのまま適用可能であるため、重複する説明は省略する。

図１６は、一例における、複数の話者からの音声信号に対し、音声信号の話者従属的な特徴と話者独立的な特徴を示した図である。図１７は、一例における、複数の話者からの音声データセットを訓練させることによって構築されたソースモデルと、ターゲット話者からの音声データセットを訓練させることによって構築された話者適応型モデルを使用してターゲット話者の合成音声を生成する方法を示している。

図１６に示すように、話者独立的な特徴は、話者（話者１～３）の音声で共通する特徴であってよい。言い換えれば、話者独立的な特徴は、話者ごとに区分されない、グローバル特性を示してよい。話者従属的な特徴は、話者ごとの固有の特性を示してよい。

図１７に示すように、複数の話者からの音声データセットを話者独立的に訓練することによってソースモデル６１０が構築されてよく、このようなソースモデル６１０からの加重値に基づいてターゲット話者からの音声データセットを訓練することにより、ターゲット話者に従属的な話者適応型モデル６２０が構築されてよい。ソースモデル６１０からの加重値は、話者適応型モデル６２０でターゲット話者からの音声データセットが訓練されるにより、ターゲット話者の固有の特性を反映するように微調整されてよい。図に示すように、ソースモデル６１０および話者適応型モデル６２０は、ＥｘｃｉｔＮｅｔモデルを使用して実現されてよい。図に示すように、実施形態によっては、ニューラルボコーダに対して話者適応（ｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎ）アルゴリズムを適用してよい。図には示してはいないが、ソースモデル６１０に対応する音響モデル（例えば、ＤＮＮＴＴＳ）に対しても同じように話者適応アルゴリズムが適用されてよい。

以上、図１～１５を参照しながら説明した技術的特徴についての説明は、図１６および図１７に対してもそのまま適用可能であるため、重複する説明は省略する。

図１８および図１９は、一例における、話者適応（ｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎ）アルゴリズムの適用の可否によって生成された合成音声信号の品質を比較評価した結果を示した図である。

図１８および図１９のＳｃｏｒｅは、評価者が音声信号を聞き取って評価したスコアの平均を示している。ここで、ＲＡＷは、原本音声信号に該当してよい。

図１８を参照すると、ＷａｖｅＮｅｔモデルおよびＥｘｃｉｔＮｅｔモデルの両方で話者適応アルゴリズムを適用した場合の合成音声信号の品質が高く評価されたことを確認することができる。言い換えれば、図６～８を参照しながら説明したように、話者適応型モデル６２０を構築して合成音声信号を生成する場合（ｗ／ｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎ）が、そうでない場合（ｗ／ｏｓｐｅａｋｅｒａｄａｐｔａｔｉｏｎ）に比べて優れた性能を示すことを確認することができる。

図１９は、合成音声信号の品質を比較評価した、より詳細な結果を示した図である。図１９については、以下でさらに詳しく説明する。

以上、図１～１７を参照しながら説明した技術的特徴についての説明は、図１８および図１９に対してもそのまま適用可能であるため、重複する説明は省略する。

以下では、図１～５を参照しながら説明したＥｘｃｉｔＮｅｔモデルについてより詳しく説明し、他のモデルとの比較実験結果についてさらに説明する。

ＥｘｃｉｔＮｅｔモデル（ＥｘｃｉｔＮｅｔボコーダ）は、統計的パラメトリック音声合成（ＳＰＳＳ）システムのためのＷａｖｅＮｅｔに基づくニューラル励起モデルであってよい。ＷａｖｅＮｅｔに基づくニューラルボコーダシステムは、合成音声信号の認識品質を大きく向上させるが、音声信号の複雑な時変特性を捕捉できない場合があるためノイズを出力する場合がある。ＥｘｃｉｔＮｅｔに基づくニューラルボコーダシステムは、音声信号からスペクトル成分を分離する適応的エンボスフィルタを使用して（例えば、ＷａｖｅＮｅｔフレームワーク内で）残渣成分（すなわち、励起信号）を分離して訓練することができ、合成音声信号を生成するにあたり励起信号をターゲットとして推定することができる。このような方式により、ディープラーニングフレームワークによって音声信号のスペクトル成分がより適切に表現されるようになり、残渣成分はＷａｖｅＮｅｔフレームワークによって効率的に生成されるため、合成された音声信号の品質を向上することができる。

以下の実験でも、（話者従属的および話者独立的に訓練された）ＥｘｃｉｔＮｅｔに基づくニューラルボコーダシステムが、従来の線形予測ボコーダおよびＷａｖｅＮｅｔボコーダよりも優れた性能を発揮するという結果を示した。

試験のためには、音響モデルと話者従属的（ＳＤ）ＥｘｃｉｔＮｅｔボコーダを訓練させるために音声的に韻律的に豊かな３つのスピーチコーパスを利用した。各コーパスは、専門の韓国人女性（ＫＲＦ）と韓国人男性（ＫＲＭ）が録音したものである。音声信号は２４ｋＨｚでサンプリングされ、各サンプルは１６ビットで量子化された。以下の表１は、各集合の発話数を示したものである。話者独立的（ＳＩ）ＥｘｃｉｔＮｅｔボコーダを訓練させるために、韓国人女性５人と韓国人男性５人が録音した音声コーパスを使用した。合計６，４２２件（１０時間）および１，０８０件（１．７時間）の発話がそれぞれ訓練および検証（ｖａｌｉｄａｔｉｏｎ）に使用された。ＳＩデータセットに含まれない、同じＫＲＦおよびＫＲＭ話者によって録音された音声サンプルが試験のために使用された。

以下の表２および表３は、客観的な試験の結果であって、原本音声と生成された音声との間の歪曲をＬＳＤ（Ｌｏｇ－ＳｐｅｃｔｒａｌＤｉｓｔａｎｃｅ）（ｄＢ）とＦ０ＲＭＳＥ（ＲｏｏｔＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）（Ｈｚ）によってそれぞれ示したものである。ＷＮはＷａｖｅＮｅｔボコーダを示し、ＷＮ－ＮＳはＷａｖｅＮｅｔボコーダにノイズシェーピング方法を適用したものを示し、ＥｘｃｉｔＮｅｔはＥｘｃｉｔＮｅｔボコーダを示す。最も低いエラーが現れた部分は太字で表示した。表２および表３は、有声音に対して測定された結果であってよい。

表２および表３に表示したように、ＳＤおよびＳＩの殆どの場合において、ＥｘｃｉｔＮｅｔボコーダの場合が、原本音声と生成された音声の間の歪曲が最も低く現われることを確認することができる。

以下の表４は、無声音およびトランジション領域（ｔｒａｎｓｉｔｉｏｎｒｅｇｉｏｎｓ）に対して測定されたＬＳＤ（ｄＢ）を示している。

表４に表示したように、ＳＤおよびＳＩのすべての場合において、ＥｘｃｉｔＮｅｔボコーダの場合が、原本音声と生成された音声の間の歪曲が最も低く現われることを確認することができる。

以下の表５および表６は、主観的な試験の結果であって、選好度テストの結果（％）を示している。聞き取り者から高い選好度が示された部分は太字で表示した。残りのものに比べ、ＥｘｃｉｔＮｅｔボコーダの場合、合成音声の認識品質が著しく優れることを確認することができる。評価者は１２人の韓国語を母国語として使用する聞き取り者であり、２０件のランダムに選択された発話に対して試験が行われた。

図２０は、一例における、ＥｘｃｉｔＮｅｔボコーダと他のボコーダとの間のＭＯＳ（ＭｅａｎＯｐｉｎｉｏｎＳｃｏｒｅ）（ＭＯＳ）の評価結果を示している。

録音された音声から音響フィーチャーが抽出される場合である分析／合成（Ａ／Ｓ）の結果に対する評価、および音響モデルから音響フィーチャーが生成される場合であるＳＰＳＳにおける結果が評価された。

Ｓ／Ａにおいて、ＳＩ－ＥｘｃｉｔＮｅｔボコーダは、ＩＴＦＴＥボコーダと類似の性能を示したが、ＷＯＲＬＤシステムよりも遥かに優れたものとして現われた。すべての場合において、ＳＤ－ＥｘｃｉｔＮｅｔボコーダは、最高の認識品質（ＫＲＦおよびＫＲＭ話者に対してそれぞれ４．３５および４．４７ＭＯＳ）を示した。高音の女性の音声を表現するのは難しいため、ＫＲＦ話者に対するＭＯＳ結果は、ＳＩボコーダ（ＷＯＲＬＤ、ＩＴＦＴＥ、およびＳＩ－ＥｘｃｉｔＮｅｔ）においてＫＲＭ話者の場合よりも良くない結果が出た。この反面、ＳＤ－ＥｘｃｉｔＮｅｔのＫＲＦ話者に対する結果は、ＫＲＭ話者に対する結果と類似するという点において、高音の声を効果的に表現するためには各話者の特性がモデリングされなければならないことを示す。ＳＰＳＳの側面では、ＳＤもＳＩ－ＥｘｃｉｔＮｅｔボコーダも、パラメトリックＩＴＦＴＥボコーダよりも遥かに優れた認識品質を示した。音響モデルが過度に平坦な音声媒介変数を生成したが、ＥｘｃｉｔＮｅｔボコーダは時間領域励起信号を直接に推定することによって平滑化効果を緩和することができた。結果的に、ＳＤ－ＥｘｃｉｔＮｅｔボコーダを使用するＳＰＳＳシステムは、それぞれＫＲＦおよびＫＲＭ話者に対して３．７８および３．８５ＭＯＳを達成した。ＳＩ－ＥｘｃｉｔＮｅｔボコーダは、ＫＲＦおよびＫＲＭ話者に対してそれぞれ２．９１および２．８９ＭＯＳを達成した。

以下では、図６～８を参照しながら説明した話者適応型モデル６２０を構築するニューラルボコーダについてより詳細に説明し、他のモデルとの比較試験結果についてさらに説明する。実施形態のニューラルボコーダは、たった１０分の音声データセットのようにターゲット話者からの訓練データが不十分な場合であっても、高品質の音声合成システムを構築することができる。

実施形態のニューラルボコーダは、ターゲット話者に対する制限された訓練データによって発生するターゲット話者関連情報の不足問題を解決するために、複数の話者に対して普遍的な特性を抽出する、話者独立的に訓練されたソースモデル６１０からの加重値を活用する。このようなソースモデル６１０からの加重値は、話者適応型モデル６２０の訓練を初期化するために使用され、ターゲット話者の固有の特性を示すために微調整されてよい。このような適応過程によってディープニューラルネットワークがターゲット話者の特性を捕捉することができるため、話者独立的なモデルで発生する不連続性の問題を減らすことができる。以下で説明する実験結果も、実施形態のニューラルボコーダが、従来の方法に比べて合成された音声の認識品質を著しく向上させることを示す。

ＳＤは（ソースモデル６１０からの加重値を初期値にせず）話者従属的に訓練されたモデルを示し、ＳＩは話者独立的に訓練されたモデルを示し、ＳＡは図６～８を参照しながら説明したような話者適応型に訓練されたモデル（すなわち、ソースモデル６１０からの加重値を初期値にして話者従属的に訓練されたモデル）を示す。

ＳＤおよびＳＡモデルにおいて、韓国人女性の話者が録音した音声コーパスが使用された。音声信号は２４ｋＨｚでサンプリングされ、各サンプルは１６ビットで量子化された。訓練、検証、および試験には合計９０件（１０分）、４０件（５分）、１３０件（１５分）の発話が使用された。ＳＩモデルを訓練させるために、ＳＤとＳＡモデル訓練には含まれない５人の韓国人男性の話者および５人の韓国人女性の話者が録音した音声データが使用された。このために、訓練および検証にそれぞれ６，４２２件（１０時間）および１，０８０件（１．７時間）の発話が使用された。ＳＤおよびＳＡモデルのテストセットは、ＳＩモデルを評価するためにも使用された。

以下の表７および表８は、客観的な試験の結果であって、原本音声と生成された音声の間の歪曲をＬＳＤ（Ｌｏｇ－ＳｐｅｃｔｒａｌＤｉｓｔａｎｃｅ）（ｄＢ）とＦ０ＲＭＳＥ（ＲｏｏｔＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）（Ｈｚ）によってそれぞれ示したものである。表７は、録音された音声から抽出された音響フィーチャーが補助フィーチャーを構成するために直接的に使用される場合の分析／合成の結果に対する評価（Ａ／Ｓ）を示している。表８は、ＳＰＳＳにおける結果の評価を示している。最も低いエラーが現れた部分は太字で表示した。

表７および表８において、ＷａｖｅＮｅｔボコーダおよびＥｘｃｉｔＮｅｔボコーダの両方において、ＳＡの場合が、原本音声と生成された音声の間の歪曲が最も低く現われることを確認することができる。

図２１は、一例における、Ｆ０スケーリングファクタ（ｓｃａｌｉｎｇｆａｃｔｏｒ）を相違させる場合において、話者適応型モデルを構築するニューラルボコーダの性能変化を示した図である。

実施形態のＳＡを適用した訓練方法の有効性を検証するために、Ｆ０を手動で変更したときのニューラルボコーダの性能変化を調査した。ＳＩモデルは、ピッチを修正した合成音声の生成に効果的であることが明らかになっている。ＳＡモデルもＳＩモデルを活用するものであるため、ＳＤ接近法に比べて高い性能を示すことが期待される。

試験において、Ｆ０軌跡は、ＳＰＳＳフレームワークによって生成された後、補助フィーチャーベクトルを修正するためにスケーリングファクタ（０：６、０：８、１：０、および１：２）が乗算された。音声信号は、ニューラルボコーダシステムによって合成された。

図２１は、相違するＦ０スケーリングファクタに対するＦ０ＲＭＳＥ（Ｈｚ）試験結果を示している。図２１により、ＳＡモデルが、従来のＳＤモデルに比べて遥かに低い修正エラー（ｍｏｄｉｆｉｃａｔｉｏｎｅｒｒｏｒ）を含んでいることを確認することができる。ＳＩモデルに比べ、ＳＡ－ＥｘｃｉｔＮｅｔボコーダは、すべての加重値がターゲット話者の特性に合うように最適化されているにも関わらず、同等な品質が維持されていることを確認することができる。

また、ＥｘｃｉｔＮｅｔボコーダは、ＷａｖｅＮｅｔボコーダよりも遥かに優れた性能を発揮することを確認することができる。ＥｘｃｉｔＮｅｔボコーダは、声帯の動きの変化（励起信号の変化）を訓練するため、ＷａｖｅＮｅｔに基づく接近方式よりも柔軟にＦ０修正された音声セグメントを再構成できるものと見なされる。

図１９は、主観的な試験結果であって、ＳＤ、ＳＩ、およびＳＡのボコーダ間のＭＯＳ評価結果を示した図である。録音された音声から音響フィーチャーが抽出される場合である分析／合成（Ａ／Ｓ）の結果に対する評価、および音響モデルから音響フィーチャーが生成される場合であるＳＰＳＳにおける結果の評価がなされた。

Ａ／Ｓの結果において、ＳＤ－ＷａｖｅＮｅｔボコーダは、制限的な訓練データではターゲット話者の特性を訓練することが不可能であるため、最も良くない結果が現れた。ＳＩ－ＷａｖｅＮｅｔボコーダは、ＩＴＦＴＥボコーダと類似の性能を示し、ＷＯＲＬＤシステムよりは優れた性能を示した。すべてのＷａｖｅＮｅｔボコーダにおけるＳＡの活用は、優れた性能を示すということが確認された。ＥｘｃｉｔＮｅｔボコーダに対する結果は、ＷａｖｅＮｅｔボコーダの場合と類似の傾向を示したが、ＥｘｃｉｔＮｅｔボコーダは、ＬＰインバスフィルタによって音声信号のフォルマント構成要素を分離することによって残りの信号のモデリング正確度を向上させるため、全体的に遥かに優れた性能を示した。結果的に、ＳＡ－ＥｘｃｉｔＮｅｔボコーダは、Ａ／Ｓ結果において４．４０ＭＯＳを達成した。

ＳＰＳＳの結果において、ＳＩ－ＷａｖｅＮｅｔボコーダとＳＩ－ＥｘｃｉｔＮｅｔボコーダは、パラメトリックＩＴＦＴＥボコーダよりも優れた認識品質を提供した。結果的に、実施形態のＳＡ訓練モデルは、従来の話者依存的な方法と話者独立的な方法に比べ、合成音声信号の品質を大きく向上させることを確認することができた。Ａ／Ｓ結果と同じように、ＥｘｃｉｔＮｅｔボコーダは、ＳＰＳＳ結果においてＷａｖｅＮｅｔボコーダよりも優れた性能を示した。音響モデルが過度に平坦な音声媒介変数を生成したが、ＥｘｃｉｔＮｅｔボコーダは、時間領域励起信号を直接に推定することによって平滑化効果を緩和することができた。結果的に、ＳＡ－ＥｘｃｉｔＮｅｔボコーダがあるＳＰＳＳシステムは３．７７ＭＯＳを達成した。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

Claims

コンピュータによって実現されるニューラルボコーダが実行する音声信号生成方法であって、
入力されたテキストまたは音声信号に基づいて、スペクトル関連パラメータ、および励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得する段階、
前記複数の音響パラメータに基づいて励起信号を推定する段階、および
前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも１つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する段階
を含み、
前記ニューラルボコーダは、前記ニューラルボコーダの訓練のための訓練用音声信号を利用して励起信号を推定するようにあらかじめ訓練されたものであり、
前記励起信号を推定する段階は、あらかじめ訓練された前記ニューラルボコーダを利用して前記複数の音響パラメータに基づいて励起信号を推定し、
前記ニューラルボコーダは、
前記訓練用音声信号に対して線形予測分析フィルタを適用することにより、前記訓練用音声信号から前記励起信号を分離する段階、および
前記分離された励起信号の確率分布をモデリングする段階
を含む段階によって訓練されたものであり、
前記励起信号を推定する段階は、
前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定する、
音声信号生成方法。
前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第１励起パラメータ、および前記カットオフ周波数を超過する励起を示す第２励起パラメータを含む、
請求項１に記載の音声信号生成方法。
前記第１励起パラメータは、前記励起の高調波スペクトルを示し、前記第２励起パラメータは、前記励起のその他の部分を示す、
請求項２に記載の音声信号生成方法。
前記スペクトル関連パラメータは、
音声信号のピッチを示す周波数パラメータ、音声信号のエネルギーを示すエネルギーパラメータ、音声信号が有声音であるか無声音であるかを示すパラメータ、および音声信号の線スペクトル周波数（ＬＳＦ）を示すパラメータを含む、
請求項１に記載の音声信号生成方法。
前記ターゲット音声信号を生成する段階は、
前記ＬＳＦを示すパラメータを線形予測符号（ＬＰＣ）に変換する段階、および
前記推定された励起信号に対し、前記変換されたＬＰＣに基づく前記線形合成フィルタを適用する段階
を含む、
請求項４に記載の音声信号生成方法。
前記複数の音響パラメータは、入力されたテキストまたは入力された音声信号に基づいて音響モデルによって生成されたものである、
請求項１に記載の音声信号生成方法。
前記励起信号を分離する段階は、
前記入力された音声信号の線スペクトル周波数（ＬＳＦ）を示すパラメータを線形予測符号（ＬＰＣ）に変換する段階、および
前記入力された音声信号に対して前記入力された音声信号の変換されたＬＰＣに基づく前記線形予測分析フィルタを適用する段階
を含む、
請求項１に記載の音声信号生成方法。
前記分離された励起信号は、前記入力された音声信号の残渣成分である、
請求項１に記載の音声信号生成方法。
コンピュータによって実現されるニューラルボコーダの訓練方法であって、
前記ニューラルボコーダの訓練のための訓練用音声信号の入力を受ける段階、
前記訓練用音声信号から、スペクトル関連パラメータ、および励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを抽出する段階、
前記訓練用音声信号に対して前記スペクトル関連パラメータのうちの少なくとも１つに基づく線形予測分析フィルタを適用することにより、前記訓練用音声信号から励起信号を分離する段階、および
前記分離された励起信号の確率分布をモデリングする段階
を含み、
前記ニューラルボコーダは、前記段階によって訓練されることによって、入力されたテキストまたは音声信号に基づいて取得される、他のスペクトル関連パラメータ及び他の励起関連パラメータを含む他の音響パラメータに基づいて励起信号を推定し、
前記ニューラルボコーダは、前記モデリングされた励起信号の確率分布を利用して、前記他の音響パラメータに対する励起信号を推定する、
ニューラルボコーダの訓練方法。
前記励起信号を分離する段階は、
前記スペクトル関連パラメータのうちで前記入力された音声信号の線スペクトル周波数（ＬＳＦ）を示すパラメータを線形予測符号（ＬＰＣ）に変換する段階、および
前記入力された音声信号に対し、前記入力された音声信号の変換されたＬＰＣに基づく前記線形予測分析フィルタを適用する段階
を含む、
請求項９に記載のニューラルボコーダの訓練方法。
前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第１励起パラメータ、および前記カットオフ周波数を超過する励起を示す第２励起パラメータを含む、
請求項９に記載のニューラルボコーダの訓練方法。
ニューラルボコーダであって、
入力されたテキストまたは音声信号に基づいて、スペクトル関連パラメータ、および励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得するパラメータ取得部、
前記複数の音響パラメータに基づいて励起信号を推定する励起信号推定部、および
前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも１つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する音声信号生成部
を含み、
前記ニューラルボコーダは、前記ニューラルボコーダの訓練のための訓練用音声信号を利用して励起信号を推定するようにあらかじめ訓練されたものであり、
あらかじめ訓練された前記ニューラルボコーダの励起信号分離部が、前記複数の音響パラメータに基づいて励起信号を推定し、
前記ニューラルボコーダは、
前記訓練用音声信号に対して線形予測分析フィルタを適用することにより、前記訓練用音声信号から励起信号を分離する前記励起信号分離部、および
前記分離された励起信号の確率分布をモデリングするモデリング部
をさらに含み、
前記励起信号推定部は、前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定する、
ニューラルボコーダ。
前記音声信号生成部は、前記スペクトル関連パラメータのうちで音声信号の線スペクトル周波数（ＬＳＦ）を示すパラメータを線形予測符号（ＬＰＣ）に変換する変換部を含み、
前記推定された励起信号に対し、前記変換されたＬＰＣに基づく前記線形合成フィルタを適用する、
請求項１２に記載のニューラルボコーダ。