JP7334942B2

JP7334942B2 - 音声変換装置、音声変換方法及び音声変換プログラム

Info

Publication number: JP7334942B2
Application number: JP2019149939A
Authority: JP
Inventors: 慎之介高道; 佑樹齋藤; 高明佐伯; 洋猿渡
Original assignee: University of Tokyo NUC
Current assignee: University of Tokyo NUC
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2023-08-29
Anticipated expiration: 2039-08-19
Also published as: WO2021033685A1; JP2021032940A; US20230360631A1

Description

本発明は、音声変換装置、音声変換方法及び音声変換プログラムに関する。

従来、対象者の音声を変換し、異なる人物が話しているような合成音声を生成する研究が行われている。例えば、下記非特許文献１及び２には、変換元となる対象者の包絡スペクトル成分と、変換先の話者の包絡スペクトル成分との差に相当するフィルタを推定し、対象者の音声に当該フィルタを適用することで変換先の合成音声を生成する技術が記載されている。

非特許文献１及び２によれば、フィルタの設計に関して、従来から用いられているＭＬＳＡ（Mel-Log Spectrum Approximation）よりも、最小位相フィルタを用いる方が高い音声品質を達成することができる。

Kazuhiro Kobayashi, Tomoki Toda and Satoshi Nakamura, "Intra-gender statistical singing voice conversion with direct waveform modification using log-spectral differential," Speech Communication, Volume 99, May 2018, Pages 211-220. Hitoshi Suda, Gaku Kotani, Shinnosuke Takamichi, and Daisuke Saito, "A Revisit to Feature Handling for High-quality Voice Conversion Based on Gaussian Mixture Model," Proceedings, APSIPA Annual Summit and Conference 2018.

しかしながら、最小位相フィルタは、フィルタの算出に必要となる計算量が比較的多いため、リアルタイム音声変換には適用が難しかった。ここで、フィルタの一部をカットして計算量を減らすことが考えられるが、フィルタの精度が低下してしまうため、合成音声の品質が劣化してしまうことが多い。

そこで、本発明は、高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換装置、音声変換方法及び音声変換プログラムを提供する。

本発明の一態様に係る音声変換装置は、対象者の音声の信号を取得する取得部と、音声の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出するフィルタ算出部と、フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する短縮フィルタ算出部と、短縮フィルタをフーリエ変換したスペクトルを信号のスペクトルに掛けて、逆フーリエ変換することで、合成音声を生成する生成部と、を備える。

この態様によれば、学習済みの変換モデルによって特徴量を変換するだけでなく、学習済みのリフタを用いて短縮フィルタを算出することで、高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換が実現される。

上記態様において、短縮フィルタをフーリエ変換したスペクトルを信号のスペクトルに掛けて、合成音声の声色を表す特徴量を算出し、当該特徴量とターゲット音声の声色を表す特徴量との誤差が小さくなるように、変換モデル及びリフタのパラメータを更新し、学習済みの変換モデル及び学習済みのリフタを生成する学習部をさらに備えてもよい。

この態様によれば、学習済みの変換モデル及び学習済みのリフタを生成することで、フィルタをカットして短縮フィルタとした影響が抑えられ、より短い長さのフィルタでも高品質な音声変換が可能になる。

上記態様において、変換モデルは、ニューラルネットワークで構成され、学習部は、誤差逆伝播法によってパラメータを更新し、学習済みの変換モデル及び学習済みのリフタを生成してもよい。

上記態様において、特徴量は、音声のメル周波数ケプストラムであってもよい。

この態様によれば、対象者の音声の声色を適切に捉えることができる。

本発明の他の態様に係る音声変換方法は、対象者の音声の信号を取得することと、音声の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出することと、フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出することと、短縮フィルタをフーリエ変換したスペクトルを信号のスペクトルに掛けて、逆フーリエ変換することで、合成音声を生成することと、を含む。

本発明の他の態様に係る音声変換プログラムは、音声変換装置に備えられたコンピュータを、対象者の音声の信号を取得する取得部、音声の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出するフィルタ算出部、フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する短縮フィルタ算出部、及び短縮フィルタをフーリエ変換したスペクトルを信号のスペクトルに掛けて、逆フーリエ変換することで、合成音声を生成する生成部、として機能させる。

本発明によれば、高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換装置、音声変換方法及び音声変換プログラムを提供することができる。

本発明の実施形態に係る音声変換装置の機能ブロックを示す図である。本実施形態に係る音声変換装置の物理的構成を示す図である。本実施形態に係る音声変換装置によって実行される処理の概要を示す図である。本実施形態に係る音声変換装置及び従来例に係る装置によってそれぞれ生成された合成音声の誤差とフィルタの長さの関係を示す図である。本実施形態に係る音声変換装置及び従来例に係る装置によってそれぞれ生成された合成音声の話者類似性に関する主観評価の結果を示す図である。本実施形態に係る音声変換装置及び従来例に係る装置によってそれぞれ生成された合成音声の音声品質に関する主観評価の結果を示す図である。本実施形態に係る音声変換装置によって生成された合成音声の話者類似性とフィルタの長さの関係に関する主観評価の結果を示す図である。本実施形態に係る音声変換装置によって生成された合成音声の音声品質とフィルタの長さの関係に関する主観評価の結果を示す図である。本実施形態に係る音声変換装置によって実行される音声変換処理のフローチャートである。本実施形態に係る音声変換装置によって実行される学習処理のフローチャートである。

添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。

図１は、本発明の実施形態に係る音声変換装置１０の機能ブロックを示す図である。音声変換装置１０は、取得部１１、フィルタ算出部１２、短縮フィルタ算出部１３、生成部１４及び学習部１５を備える。

取得部１１は、対象者の音声の信号を取得する。取得部１１は、マイク２０により電気信号に変換された対象者の音声を、所定期間にわたって取得する。以下では、対象者の音声の信号をフーリエ変換した複素スペクトル系列を、Ｆ^(X)＝［Ｆ₁ ^(X)，…，Ｆ_T ^(X)］と表す。ここで、Ｔは、所定期間のフレーム数である。

フィルタ算出部１２は、音声の声色を表す特徴量を学習済みの変換モデル１２ａによって変換し、変換後の特徴量に学習済みのリフタ１２ｂを掛けて、フィルタのスペクトルを算出する。ここで、音声の声色を表す特徴量は、音声のメル周波数ケプストラムであってよい。メル周波数ケプストラムを特徴量として用いることで、対象者の音声の声色を適切に捉えることができる。

フィルタ算出部１２は、対象者の音声の信号をフーリエ変換した複素スペクトル系列Ｆ^(X)から低次（例えば１０～１００次）の実ケプストラム系列Ｃ^(X)＝［Ｃ₁ ^(X)，…，Ｃ_T ^(X)］を算出する。そして、フィルタ算出部１２は、実ケプストラム系列Ｃ^(X)を学習済みの変換モデル１２ａによって変換し、変換後の特徴量Ｃ^(D)＝［Ｃ₁ ^(D)，…，Ｃ_T ^(D)］を算出する。

さらに、フィルタ算出部１２は、変換後の特徴量Ｃ^(D)＝［Ｃ₁ ^(D)，…，Ｃ_T ^(D)］に学習済みのリフタ１２ｂを掛けて、フィルタのスペクトルを算出する。より具体的には、学習済みのリフタ１２ｂを［ｕ₁，…，ｕ_T］と表すとき、フィルタ算出部１２は、［ｕ₁Ｃ₁ ^(D)，…，ｕ_TＣ_T ^(D)］という積を算出し、フーリエ変換することで、フィルタの複素スペクトル系列Ｆ^(D)＝［Ｆ₁ ^(D)，…，Ｆ_T ^(D)］を算出する。

最小位相フィルタを生成する場合、リフタとして以下の数式（１）で表されるものを用いる。ここで、Ｎは周波数ビン数である。

一方、本実施形態に係る音声変換装置１０で用いる学習済みのリフタ１２ｂの値は、数式（１）で表されるものと異なり、後述する学習処理によって定められる値である。学習処理において、リフタ１２ｂの値は、変換モデル１２ａのパラメータとともに更新され、合成音声によってターゲット音声がより良く再現されるように決定される。

短縮フィルタ算出部１３は、フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する。より具体的には、短縮フィルタ算出部１３は、フィルタのスペクトルＦ^(D)を逆フーリエ変換して時間領域の値として、時刻ｔ以前について１、時刻ｔより後について０となる窓関数を適用することでカットし、フーリエ変換することで、短縮フィルタの複素スペクトル系列Ｆ^(l)＝［Ｆ₁ ^(l)，…，Ｆ_T ^(l)］を算出する。

生成部１４は、短縮フィルタをフーリエ変換したスペクトルを信号のスペクトルに掛けて、逆フーリエ変換することで、合成音声を生成する。生成部１４は、短縮フィルタをフーリエ変換したスペクトルＦ^(l)＝［Ｆ₁ ^(l)，…，Ｆ_T ^(l)］と、対象者の音声の信号のスペクトルＦ^(X)＝［Ｆ₁ ^(X)，…，Ｆ_T ^(X)］との積Ｆ^(Y)＝［Ｆ₁ ^(X)Ｆ₁ ^(l)，…，Ｆ_T ^(X)Ｆ_T ^(l)］を算出し、スペクトルＦ^(Y)を逆フーリエ変換することで合成音声を生成する。

学習部１５は、短縮フィルタをフーリエ変換したスペクトルを、対象者の音声の信号のスペクトルに掛けて、合成音声の声色を表す特徴量を算出し、当該特徴量とターゲット音声の声色を表す特徴量との誤差が小さくなるように、変換モデル及びリフタのパラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成する。本実施形態において、変換モデル１２ａは、ニューラルネットワークで構成される。変換モデル１２ａは、例えばＭＬＰ（Multi-Layer Perceptron）で構成されてよく、隠れ層の活性化関数としてGated Linear Unitを用い、各活性化関数の前にBatch Normalizationを適用してよい。

学習部１５は、パラメータが未定の変換モデル１２ａ及びリフタ１２ｂによって、短縮フィルタをフーリエ変換したスペクトルＦ^(l)を算出し、対象者の音声の信号のスペクトルＦ^(X)に掛けてスペクトルＦ^(Y)を算出して、特徴量としてメル周波数ケプストラムＣ^(Y)＝［Ｃ₁ ^(Y)，…，Ｃ_T ^(Y)］を算出する。そして、算出したケプストラムＣ^(Y)＝［Ｃ₁ ^(Y)，…，Ｃ_T ^(Y)］と、学習データであるターゲット音声のケプストラムＣ^(T)＝［Ｃ₁ ^(T)，…，Ｃ_T ^(T)］との誤差を、Ｌ＝（Ｃ^(T)－Ｃ^(Y)）^T（Ｃ^(T)－Ｃ^(Y)）／Ｔによって算出する。以降、√Ｌの値をＲＭＳＥ（Rooted Mean Squared Error）と呼ぶ。

学習部１５は、誤差Ｌ＝（Ｃ^(T)－Ｃ^(Y)）^T（Ｃ^(T)－Ｃ^(Y)）／Ｔを変換モデル及びリフタのパラメータで偏微分し、誤差逆伝播法によって変換モデル及びリフタのパラメータを更新する。なお、学習処理は、例えばＡｄａｍ（Adaptive moment estimation）を用いて行ってよい。このようにして学習済みの変換モデル１２ａ及び学習済みのリフタ１２ｂを生成することで、フィルタをカットして短縮フィルタとした影響が抑えられ、より短い長さのフィルタでも高品質な音声変換が可能になる。

本実施形態に係る音声変換装置１０によれば、学習済みの変換モデル１２ａによって特徴量を変換するだけでなく、学習済みのリフタ１２ｂを用いて短縮フィルタを算出することで、高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換が実現される。

本実施形態に係る音声変換装置１０によれば、例えば短縮フィルタの長さを従来の１／８として、フィルタ処理の計算量を従来の１％程度まで削減することができる。これにより、例えば４４．１ｋＨｚ程度のサンプリングレートで取得した音声信号を５０ｍｓ以下の処理時間でターゲット音声に変換することができるようになる。

図２は、本実施形態に係る音声変換装置１０の物理的構成を示す図である。音声変換装置１０は、演算部に相当するＣＰＵ（Central Processing Unit）１０ａと、記憶部に相当するＲＡＭ（Random Access Memory）１０ｂと、記憶部に相当するＲＯＭ（Read only Memory）１０ｃと、通信部１０ｄと、入力部１０ｅと、表示部１０ｆと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では音声変換装置１０が一台のコンピュータで構成される場合について説明するが、音声変換装置１０は、複数のコンピュータが組み合わされて実現されてもよい。また、図２で示す構成は一例であり、音声変換装置１０はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。

ＣＰＵ１０ａは、ＲＡＭ１０ｂ又はＲＯＭ１０ｃに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。ＣＰＵ１０ａは、対象者の音声に関する複数の特徴量を算出し、当該複数の特徴量をターゲットの音声に対応する複数の変換特徴量に変換して、複数の変換特徴量に基づいて合成音声を生成するプログラム（音声変換プログラム）を実行する演算部である。ＣＰＵ１０ａは、入力部１０ｅや通信部１０ｄから種々のデータを受け取り、データの演算結果を表示部１０ｆに表示したり、ＲＡＭ１０ｂに格納したりする。

ＲＡＭ１０ｂは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＡＭ１０ｂは、ＣＰＵ１０ａが実行するプログラム、対象者の音声、ターゲットの音声といったデータを記憶してよい。なお、これらは例示であって、ＲＡＭ１０ｂには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。

ＲＯＭ１０ｃは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ＲＯＭ１０ｃは、例えば音声変換プログラムや、書き換えが行われないデータを記憶してよい。

通信部１０ｄは、音声変換装置１０を他の機器に接続するインターフェースである。通信部１０ｄは、インターネット等の通信ネットワークに接続されてよい。

入力部１０ｅは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。

表示部１０ｆは、ＣＰＵ１０ａによる演算結果を視覚的に表示するものであり、例えば、ＬＣＤ（Liquid Crystal Display）により構成されてよい。表示部１０ｆは、対象者の音声の波形を表示したり、合成音声の波形を表示したりしてよい。

音声変換プログラムは、ＲＡＭ１０ｂやＲＯＭ１０ｃ等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部１０ｄにより接続される通信ネットワークを介して提供されてもよい。音声変換装置１０では、ＣＰＵ１０ａが音声変換プログラムを実行することにより、図１を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、音声変換装置１０は、ＣＰＵ１０ａとＲＡＭ１０ｂやＲＯＭ１０ｃが一体化したＬＳＩ（Large-Scale Integration）を備えていてもよい。

図３は、本実施形態に係る音声変換装置１０によって実行される処理の概要を示す図である。音声変換装置１０は、対象者の音声の信号を取得し、フーリエ変換した複素スペクトル系列Ｆ^(X)＝［Ｆ₁ ^(X)，…，Ｆ_T ^(X)］を算出する。そして、複素スペクトル系列Ｆ^(X)から実ケプストラム系列Ｃ^(X)＝［Ｃ₁ ^(X)，…，Ｃ_T ^(X)］を算出して学習済みの変換モデル１２ａに入力する。同図において、変換モデル１２ａはニューラルネットワークの模式図によって表されている。

音声変換装置１０は、変換後の特徴量Ｃ^(D)＝［Ｃ₁ ^(D)，…，Ｃ_T ^(D)］に学習済みのリフタ１２ｂ［ｕ₁，…，ｕ_T］を掛けて、フーリエ変換することで、フィルタの複素スペクトル系列Ｆ^(D)＝［Ｆ₁ ^(D)，…，Ｆ_T ^(D)］を算出する。

その後、音声変換装置１０は、フィルタの複素スペクトル系列Ｆ^(D)＝［Ｆ₁ ^(D)，…，Ｆ_T ^(D)］を逆フーリエ変換して時間領域の値として、時刻ｔ以前について１、時刻ｔより後について０となる窓関数を適用することでカットし、フーリエ変換することで、短縮フィルタの複素スペクトル系列Ｆ^(l)＝［Ｆ₁ ^(l)，…，Ｆ_T ^(l)］を算出する。

音声変換装置１０は、このようにして算出した短縮フィルタの複素スペクトル系列Ｆ^(l)＝［Ｆ₁ ^(l)，…，Ｆ_T ^(l)］を対象者の音声の信号のスペクトルＦ^(X)＝［Ｆ₁ ^(X)，…，Ｆ_T ^(X)］に掛けて、合成音声のスペクトルＦ^(Y)＝［Ｆ₁ ^(X)Ｆ₁ ^(l)，…，Ｆ_T ^(X)Ｆ_T ^(l)］を算出する。音声変換装置１０は、合成音声のスペクトルＦ^(Y)を逆フーリエ変換することで、合成音声を生成する。

変換モデル１２ａ及びリフタ１２ｂの学習処理を行う場合、合成音声のスペクトルＦ^(Y)から実ケプストラム系列Ｃ^(Y)＝［Ｃ₁ ^(Y)，…，Ｃ_T ^(Y)］を算出し、学習データであるターゲット音声のケプストラムＣ^(T)＝［Ｃ₁ ^(T)，…，Ｃ_T ^(T)］との誤差を、Ｌ＝（Ｃ^(T)－Ｃ^(Y)）^T（Ｃ^(T)－Ｃ^(Y)）／Ｔによって算出する。そして、誤差逆伝播法によって、変換モデル１２ａ及びリフタ１２ｂのパラメータを更新する。

図４は、本実施形態に係る音声変換装置１０及び従来例に係る装置によってそれぞれ生成された合成音声の誤差とフィルタの長さの関係を示す図である。同図では、本実施形態に係る音声変換装置１０によって生成した合成音声のＲＭＳＥ（√Ｌの値）とフィルタの長さ（Tap length）の関係を表す第１グラフＰを実線で示し、従来例に係る装置によって生成した合成音声のＲＭＳＥとフィルタの長さの関係を表す第２グラフＣを破線で示している。

ここで、フィルタの長さは、最大（全ての時刻について１となる窓関数を用いた場合）で５１２である。同図では、フィルタの長さが５１２、２５６、１２８及び６４の場合についてＲＭＳＥの値をプロットしている。

第１グラフＰ及び第２グラフＣによると、フィルタの長さの全ての範囲にわたって、本実施形態に係る音声変換装置１０によって生成した合成音声のＲＭＳＥは、従来例の装置によって生成した合成音声のＲＭＳＥよりも小さくなっている。改善の度合いは、特にフィルタの長さが短い場合に著しい。このように、本実施形態に係る音声変換装置１０によれば、フィルタの長さを短くすることが音声品質に与える影響を低減することができる。

図５は、本実施形態に係る音声変換装置１０及び従来例に係る装置によってそれぞれ生成された合成音声の話者類似性に関する主観評価の結果を示す図である。話者類似性に関する主観評価の結果は、本実施形態に係る音声変換装置１０により生成された合成音声、従来例に係る装置により生成された合成音声及びターゲット音声（正解となる音声）を複数人の試験者に聴き比べてもらい、本実施形態と従来例のどちらがターゲット音声に類似しているか評価してもらった結果である。同図では、縦軸にフィルタの長さ（Tap length）を示し、横軸にターゲット音声に類似していると評価した割合（Preference score）を示している。グラフでは、左側に本実施形態に係る音声変換装置１０のPreference scoreを示し、右側に従来例に係る装置のPreference scoreを示している。

Tap lengthが２５６の場合、すなわちフィルタの長さを半分にした場合、本実施形態のPreference scoreは０．５０８であり、従来例のPreference scoreは０．９４２である。また、Tap lengthが１２８の場合、すなわちフィルタの長さを１／４にした場合、本実施形態のPreference scoreは０．５５６であり、従来例のPreference scoreは０．４４４である。また、Tap lengthが６４の場合、すなわちフィルタの長さを１／８にした場合、本実施形態のPreference scoreは０．６１６であり、従来例のPreference scoreは０．３８４である。

このように、本実施形態に係る音声変換装置１０により生成される合成音声は、フィルタの長さを短くするほど、従来例に係る装置により生成される合成音声よりもターゲット音声に類似すると評価されている。なお、本評価に関するｐ値は１．５５×１０^-7だった。

図６は、本実施形態に係る音声変換装置１０及び従来例に係る装置によってそれぞれ生成された合成音声の音声品質に関する主観評価の結果を示す図である。音声品質に関する主観評価の結果は、本実施形態に係る音声変換装置１０により生成された合成音声及び従来例に係る装置により生成された合成音声を複数人の試験者に聴き比べてもらい、本実施形態と従来例のどちらが自然な音声に聞こえるか評価してもらった結果である。同図では、縦軸にフィルタの長さ（Tap length）を示し、横軸に音質が優れていると評価した割合（Preference score）を示している。グラフでは、左側に本実施形態に係る音声変換装置１０のPreference scoreを示し、右側に従来例に係る装置のPreference scoreを示している。

Tap lengthが２５６の場合、すなわちフィルタの長さを半分にした場合、本実施形態のPreference scoreは０．５５４であり、従来例のPreference scoreは０．４４６である。また、Tap lengthが１２８の場合、すなわちフィルタの長さを１／４にした場合、本実施形態のPreference scoreは０．５００であり、従来例のPreference scoreは０．５００である。また、Tap lengthが６４の場合、すなわちフィルタの長さを１／８にした場合、本実施形態のPreference scoreは０．６２７であり、従来例のPreference scoreは０．３７３である。

このように、本実施形態に係る音声変換装置１０により生成される合成音声は、フィルタの長さを短くするほど、従来例に係る装置により生成される合成音声よりもターゲット音声に類似すると評価されている。なお、本評価に関するｐ値は４．３３×１０^-9だった。

図７は、本実施形態に係る音声変換装置１０によって生成された合成音声の話者類似性とフィルタの長さの関係に関する主観評価の結果を示す図である。本評価の結果は、本実施形態に係る音声変換装置１０によってフィルタの長さを短縮せずに（Tap lengthを５１２として）生成した合成音声と、本実施形態に係る音声変換装置１０によってフィルタの長さを短縮して（Tap lengthを２５６，１２８，６４として）生成した合成音声を複数人の試験者に聴き比べてもらい、どちらがターゲット音声に類似しているか評価してもらった結果である。同図では、縦軸にフィルタの長さ（Tap length）を示し、横軸にターゲット音声に類似していると評価した割合（Preference score）を示している。グラフでは、左側にフィルタの長さを短縮した場合のPreference scoreを示し、右側にフィルタの長さを短縮しない場合のPreference scoreを示している。

Tap lengthが２５６の場合と、Tap lengthが５１２の場合とを比較すると、Tap lengthが２５６の場合のPreference scoreは０．４７１であり、Tap lengthが５１２の場合のPreference scoreは０．５２９である。また、Tap lengthが１２８の場合と、Tap lengthが５１２の場合とを比較すると、Tap lengthが１２８の場合のPreference scoreは０．５５９であり、Tap lengthが５１２の場合のPreference scoreは０．４４１である。また、Tap lengthが６４の場合と、Tap lengthが５１２の場合とを比較すると、Tap lengthが６４の場合のPreference scoreは０．５１５であり、Tap lengthが５１２の場合のPreference scoreは０．４８５である。

このように、本実施形態に係る音声変換装置１０により生成される合成音声は、フィルタの長さを短くしても、フィルタの長さを短縮しない場合と同程度にターゲット音声に類似すると評価されている。なお、本評価に関するｐ値は０．０５以上だった。

図８は、本実施形態に係る音声変換装置１０によって生成された合成音声の音声品質とフィルタの長さの関係に関する主観評価の結果を示す図である。本評価の結果は、本実施形態に係る音声変換装置１０によってフィルタの長さを短縮せずに（Tap lengthを５１２として）生成した合成音声と、本実施形態に係る音声変換装置１０によってフィルタの長さを短縮して（Tap lengthを２５６，１２８，６４として）生成した合成音声を複数人の試験者に聴き比べてもらい、どちらが自然な音声に聞こえるか評価してもらった結果である。同図では、縦軸にフィルタの長さ（Tap length）を示し、横軸にターゲット音声に類似していると評価した割合（Preference score）を示している。グラフでは、左側にフィルタの長さを短縮した場合のPreference scoreを示し、右側にフィルタの長さを短縮しない場合のPreference scoreを示している。

Tap lengthが２５６の場合と、Tap lengthが５１２の場合とを比較すると、Tap lengthが２５６の場合のPreference scoreは０．５０４であり、Tap lengthが５１２の場合のPreference scoreは０．４９６である。また、Tap lengthが１２８の場合と、Tap lengthが５１２の場合とを比較すると、Tap lengthが１２８の場合のPreference scoreは０．５２７であり、Tap lengthが５１２の場合のPreference scoreは０．４７３である。また、Tap lengthが６４の場合と、Tap lengthが５１２の場合とを比較すると、Tap lengthが６４の場合のPreference scoreは０．４９６であり、Tap lengthが５１２の場合のPreference scoreは０．５０４である。

このように、本実施形態に係る音声変換装置１０により生成される合成音声は、フィルタの長さを短くしても、フィルタの長さを短縮しない場合と同程度に自然に聞こえると評価されている。なお、本評価に関するｐ値は０．０５以上だった。

図９は、本実施形態に係る音声変換装置１０によって実行される音声変換処理のフローチャートである。はじめに、音声変換装置１０は、マイク２０によって、対象者の音声を取得する（Ｓ１０）。

その後、音声変換装置１０は、対象者の音声の信号をフーリエ変換し、メル周波数ケプストラム（特徴量）を算出し（Ｓ１１）、特徴量を学習済みの変換モデル１２ａで変換する（Ｓ１２）。

さらに、音声変換装置１０は、変換後の特徴量に学習済みのリフタ１２ｂを掛けて、フィルタのスペクトルを算出し（Ｓ１３）、フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する（Ｓ１４）。

そして、音声変換装置１０は、短縮フィルタをフーリエ変換したスペクトルを対象者の音声の信号のスペクトルに掛けて、逆フーリエ変換し、合成音声を生成する（Ｓ１５）。音声変換装置１０は、生成した合成音声をスピーカーから出力する（Ｓ１６）。

音声変換処理を終了しない場合（Ｓ１７：ＮＯ）、音声変換装置１０は、処理Ｓ１０～Ｓ１６を再び実行する。一方、音声変換処理を終了する場合（Ｓ１７：ＹＥＳ）、音声変換装置１０は、処理を終了する。

図１０は、本実施形態に係る音声変換装置１０によって実行される学習処理のフローチャートである。はじめに、音声変換装置１０は、マイク２０によって、対象者の音声を取得する（Ｓ２０）。なお、音声変換装置１０は、予め録音した音声の信号を取得してもよい。

その後、音声変換装置１０は、対象者の音声の信号をフーリエ変換し、メル周波数ケプストラム（特徴量）を算出し（Ｓ２１）、特徴量を学習中の変換モデル１２ａで変換する（Ｓ２２）。

さらに、音声変換装置１０は、変換後の特徴量に学習中のリフタ１２ｂを掛けて、フィルタのスペクトルを算出し（Ｓ２３）、フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する（Ｓ２４）。

そして、音声変換装置１０は、短縮フィルタをフーリエ変換したスペクトルを対象者の音声の信号のスペクトルに掛けて、逆フーリエ変換し、合成音声を生成する（Ｓ２５）。

その後、音声変換装置１０は、合成音声のメル周波数ケプストラム（特徴量）を算出し（Ｓ２６）、合成音声の特徴量と、ターゲット音声の特徴量の誤差を算出する（Ｓ２７）。そして、音声変換装置１０は、誤差逆伝播法によって、変換モデル１２ａとリフタ１２ｂのパラメータを更新する（Ｓ２８）。

学習終了条件を満たさない場合（Ｓ２９：ＮＯ）、音声変換装置１０は、処理Ｓ２０～Ｓ２８を再び実行する。一方、学習終了条件を満たす場合（Ｓ２９：ＹＥＳ）、音声変換装置１０は、処理を終了する。なお、学習終了条件は、合成音声の特徴量とターゲット音声の特徴量の誤差が所定値以下になることであったり、学習処理のエポック数が所定回数に達することであったりしてよい。

以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。

１０…音声変換装置、１０ａ…ＣＰＵ、１０ｂ…ＲＡＭ、１０ｃ…ＲＯＭ、１０ｄ…通信部、１０ｅ…入力部、１０ｆ…表示部、１１…取得部、１２…フィルタ算出部、１２ａ…変換モデル、１２ｂ…リフタ、１３…短縮フィルタ算出部、１４…生成部、１５…学習部、２０…マイク、３０…スピーカー

Claims

対象者の音声の信号を取得する取得部と、
前記音声の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出するフィルタ算出部と、
前記フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する短縮フィルタ算出部と、
前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、逆フーリエ変換することで、合成音声を生成する生成部と、
を備える音声変換装置。
前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、前記合成音声の声色を表す特徴量を算出し、当該特徴量とターゲット音声の声色を表す特徴量との誤差が小さくなるように、前記変換モデル及び前記リフタのパラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成する学習部をさらに備える、
請求項１に記載の音声変換装置。
前記変換モデルは、ニューラルネットワークで構成され、
前記学習部は、誤差逆伝播法によって前記パラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成する、
請求項２に記載の音声変換装置。
対象者の音声の信号を取得することと、
前記音声の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出することと、
前記フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出することと、
前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、逆フーリエ変換することで、合成音声を生成することと、
を含む音声変換方法。
音声変換装置に備えられたコンピュータを、
対象者の音声の信号を取得する取得部、
前記音声の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出するフィルタ算出部、
前記フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する短縮フィルタ算出部、及び
前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、逆フーリエ変換することで、合成音声を生成する生成部、
として機能させる音声変換プログラム。