JP7421827B2 - 音声変換装置、音声変換方法及び音声変換プログラム - Google Patents

音声変換装置、音声変換方法及び音声変換プログラム Download PDF

Info

Publication number
JP7421827B2
JP7421827B2 JP2022500378A JP2022500378A JP7421827B2 JP 7421827 B2 JP7421827 B2 JP 7421827B2 JP 2022500378 A JP2022500378 A JP 2022500378A JP 2022500378 A JP2022500378 A JP 2022500378A JP 7421827 B2 JP7421827 B2 JP 7421827B2
Authority
JP
Japan
Prior art keywords
subband signals
voice
conversion
spectrum
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022500378A
Other languages
English (en)
Other versions
JPWO2021161924A1 (ja
Inventor
慎之介 高道
佑樹 齋藤
高明 佐伯
洋 猿渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Publication of JPWO2021161924A1 publication Critical patent/JPWO2021161924A1/ja
Application granted granted Critical
Publication of JP7421827B2 publication Critical patent/JP7421827B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

関連出願の相互参照
本出願は、2020年2月13日に出願された日本特許出願2020-022334号に基づくもので、ここにその記載内容を援用する。
本発明は、音声変換装置、音声変換方法及び音声変換プログラムに関する。
従来、対象者の音声を変換し、異なる人物が話しているような合成音声を生成する研究が行われている。例えば、下記非特許文献1には、変換元となる対象者の包絡スペクトル成分と、変換先の話者の包絡スペクトル成分との差に相当するフィルタを推定し、対象者の音声に当該フィルタを適用することで変換先の合成音声を生成する技術(差分スペクトル法等ともいう)が記載されている。
差分スペクトル法に基づく声質変換では、下記非特許文献2に記載されるように、最小位相フィルタを用いることによって、従来から用いられているMLSA(Mel-Log Spectrum Approximation)よりも高品質な変換音声が得られることが知られている。
また、差分スペクトル法に基づく声質変換において、フィルタの算出に必要となる計算量を抑制しながら合成音声の品質の劣化を防止する手法が下記非特許文献3に記載されている。具体的には、下記非特許文献3では、フィルタが固定タップ長で打ち切られることを条件とし、その条件下で実ケプストラムの推定誤差が最小となるように、実ケプストラムに施すヒルベルト変換のリフタを音声データから学習することが記載されている。
Kazuhiro Kobayashi, Tomoki Toda and Satoshi Nakamura, "Intra-gender statistical singing voice conversion with direct waveform modification using log-spectral differential," Speech Communication, Volume 99, May 2018, Pages 211-220. Hitoshi Suda, Gaku Kotani, Shinnosuke Takamichi, and Daisuke Saito, "A Revisit to Feature Handling for High-quality Voice Conversion," Proceedings, APSIPA Annual Summit and Conference Nov 2018, Pages 816-822. 佐伯高明、齋藤佑樹、高道慎之介及び猿渡洋,"差分スペクトル法に基づくDNN声質変換の計算量削減に向けたフィルタ推定",音講論(秋),number 2-4-1,滋賀,September 2019
一般に、音声品質を向上させるためには、声質変換の対象となる帯域を拡大させることが望ましい。しかしながら、広帯域(例えば、48kHz等)のサンプリング音声の変換に上記差分スペクトル法をそのまま適用すると、高域のランダム変動によりモデル化性能が低下し得るため、声質変換の対象となる帯域を拡張したにも関わらず、変換音声の品質が大きく向上しない恐れがある。また、当該帯域の拡張に伴いフィルタリングに要する計算量が増加し、リアルタイム性に影響を与える恐れがあった。
そこで、本発明は、広帯域の声質変換において高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換装置、音声変換方法及び音声変換プログラムを提供する。
本発明の一つの態様に係る音声変換装置は、対象者の音声の信号を取得する取得部と、前記信号を、複数の周波数帯に関するサブバンド信号に分割する分割部と、前記複数の周波数帯に関するサブバンド信号のうち、低域の1又は複数のサブバンド信号を変換する変換部と、変換後の前記1又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成する合成部と、を備える。
この態様によれば、対象者の音声を分割した複数のサブバンド信号のうちで、低域の一つ又は複数のサブバンド信号のみを変換することで、高域のランダム変動による影響を低減でき、かつ、変換による計算量を削減できる。よって、広帯域においても、高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換が実現される。
上記態様において、前記信号のサンプリング周波数は、44.1kHz以上であり、前記低域の1又は複数のサブバンド信号は、少なくとも2kHzから4kHzの周波数帯に関するサブバンド信号を含んでもよい。
この態様によれば、一般に、声質変換における個人性が現れる2~4kHzを考慮できるので、音声品質を向上できる。
上記態様において、前記変換部は、前記低域の一つ又は複数のサブバンド信号の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出するフィルタ算出部と、前記フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する短縮フィルタ算出部と、前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、逆フーリエ変換することで、前記低域の一つ又は複数のサブバンド信号の変換音声を生成する生成部と、を含んでもよい。
この態様によれば、学習済みの変換モデルによって特徴量を変換するだけでなく、学習済みのリフタを用いて短縮フィルタを算出することで、高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換が実現される。
上記態様において、前記短縮フィルタをフーリエ変換したスペクトルを前記低域の一つ又は複数のサブバンド信号のスペクトルに掛けて、前記変換音声の声色を表す特徴量を算出し、当該特徴量とターゲット音声の声色を表す特徴量との誤差が小さくなるように、前記変換モデル及び前記リフタのパラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成する学習部をさらに備えてもよい。
この態様によれば、学習済みの変換モデル及び学習済みのリフタを生成することで、フィルタをカットして短縮フィルタとした影響が抑えられ、より短い長さのフィルタでも高品質な音声変換が可能になる。
前記変換モデルは、ニューラルネットワークで構成され、前記学習部は、誤差逆伝播法によって前記パラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成してもよい。
本発明の一つの態様に係る音声変換方法は、音声変換装置に備えられたプロセッサによって、対象者の音声の信号を取得することと、前記信号を、複数の周波数帯に関するサブバンド信号に分割することと、前記複数の周波数帯に関するサブバンド信号のうち、低域の1又は複数のサブバンド信号を変換することと、変換後の前記1又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成することと、を実行する。
本発明の一つの態様に係る音声変換プログラムは、音声変換装置に備えられたプロセッサを、対象者の音声の信号を取得する取得部、前記信号を、複数の周波数帯に関するサブバンド信号に分割する分割部、前記複数の周波数帯に関するサブバンド信号のうち、低域の1又は複数のサブバンド信号を変換する変換部、及び、変換後の前記1又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成する合成部、として機能させる。
本発明によれば、広帯域の声質変換において高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換装置、音声変換方法及び音声変換プログラムを提供することができる。
本発明の実施形態に係る音声変換装置の機能ブロックを示す図である。 本実施形態に係る音声変換装置の物理的構成を示す図である。 本実施形態に係る音声変換装置によって実行されるサブバンド信号を用いた声質変換の概念図である。 本実施形態に係る音声変換装置10によって実行される低域サブバンド信号の変換及び学習処理の概要を示す図である。 本実施形態に係る音声変換装置及び従来例に係る装置によってそれぞれ生成された合成音声の話者類似性に関する主観評価の結果を示す図である。 本実施形態に係る音声変換装置及び従来例に係る装置によってそれぞれ生成された合成音声の音声品質に関する主観評価の結果を示す図である。 本実施形態に係る音声変換装置によって実行される音声変換処理のフローチャートである。 本実施形態に係る音声変換装置によって実行される学習処理のフローチャートである。
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
図1は、本発明の実施形態に係る音声変換装置10の機能ブロックを示す図である。音声変換装置10は、取得部11、分割部12、フィルタ算出部13、短縮フィルタ算出部14、生成部15、合成部16及び学習部17を備える。
取得部11は、対象者の音声の信号を取得する。取得部11は、マイク20により電気信号に変換された対象者の音声を、所定期間にわたって取得する。
分割部12は、取得部11によって取得された単一の周波数帯の音声の信号(フルバンド信号、ワイドバンド信号等ともいう)を、複数の周波数帯に関するサブバンド信号に分割する。具体的には、分割部12は、サブバンドマルチレート処理によって変換元話者の音声を帯域分割する。
分割部12は、対象者の音声をN個のサブバンド信号に帯域分割し、N個のサブバンド信号の各々を変調して、N個のサブバンドのベースバンド信号を生成して、周波数シフトする。例えば、分割部12は、以下の式(1)に示すように、所定期間内の総フレーム数Tの中のt(1≦t≦T)番目のフレームにおける対象者の音声の信号x(t)から、n番目のサブバンドのベースバンド信号x(t)を生成してもよい。
Figure 0007421827000001



ここで、n=1,2,…,Nであり、W=exp(j2π/2N)であってもよい。
また、分割部12は、上記n番目のサブバンドのベースバンド信号x(t)に対して、全帯域で共通(すなわち、N個のサブバンドで共通)のローパスフィルタf(t)を適用することにより、当該ベースバンド信号x(t)を所定の帯域(例えば、[-π/2N,π/2N])に制限してもよい。例えば、n番目のサブバンドのベースバンド信号x(t)が所定の帯域に帯域制限された信号は、下記式(2)で示される。
式(2)
n,pp(t)=f(t)*x(t)
ここで、*は、畳み込みの演算子である。当該信号xn,pp(t)は、複素数値として得られる。
また、分割部12は、複素数値として得られる上記信号xn,pp(t)を実数値xn,SSB(t)に変換する。例えば、分割部12は、Single Sideband(SSB)変調法を用いて、下記式(3)により、実数値xn,SSB(t)を取得してもよい。
Figure 0007421827000002



ここで、・は、複素共役を表す。
また、分割部12は、上記実数値xn,SSB(t)を間引率Mで間引く(decimate)ことにより、n番目のサブバンド信号x(k)を生成する。当該n番目のサブバンド信号x(k)は、例えば、下記式(4)により示される。
式(4)
(k)=xn,SSB(kM)
以下、分割部12によって生成されたN個のサブバンド信号のうち、低域の1又は複数のサブバンド信号を「低域サブバンド信号」と呼び、低域サブバンド信号以外の高域の一つ又は複数のサブバンド信号を「高域サブバンド信号」と呼ぶ。なお、低域サブバンド信号は、低周波数帯域のサブバンド信号、低帯域サブバンド信号、低周波数サブバンド信号等と呼ばれてもよい。同様に、高域サブバンド信号は、高周波数帯域のサブバンド信号、高帯域サブバンド信号、高周波数サブバンド信号等と呼ばれてもよい。
フィルタ算出部13は、低域サブバンド信号について、音声の声色を表す特徴量を学習済みの変換モデル13aによって変換し、変換後の特徴量に学習済みのリフタ(lifter)13bを掛けて、フィルタ(差分フィルタとも呼ばれる)のスペクトルを算出する。ここで、音声の声色を表す特徴量は、音声のメル周波数ケプストラムであってよい。メル周波数ケプストラムを特徴量として用いることで、対象者の音声の声色を適切に捉えることができる。
フィルタ算出部13は、所定期間内のt(1≦t≦T)番目のフレームの低域サブバンド信号をフーリエ変換した複素スペクトル系列F (X)から低次(例えば10~100次)の実ケプストラム系列C (X)を算出する。そして、フィルタ算出部13は、実ケプストラム系列C (X)を学習済みの変換モデル13aによって変換し、変換後の特徴量C (D)を算出する。
さらに、フィルタ算出部13は、変換後の特徴量C (D)に学習済みのリフタ13bを掛けて、フィルタのスペクトルを算出する。より具体的には、学習済みのリフタ13bをuと表すとき、フィルタ算出部13は、uC (D)という積を算出し、逆フーリエ変換して指数関数(exp)を取ることで、フィルタの複素スペクトル系列F (D)を算出する。
本実施形態に係る音声変換装置10で用いる学習済みのリフタ13bの値は、後述する学習処理によって定められる値である。学習処理において、リフタ13bの値は、変換モデル13aのパラメータとともに更新され、合成音声によってターゲット音声がより良く再現されるように決定される。
短縮フィルタ算出部14は、フィルタの複素スペクトル系列F (D)を逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する。より具体的には、短縮フィルタ算出部14は、フィルタの複素スペクトル系列F (D)を逆フーリエ変換して時間領域の値f (D)(時間領域の差分フィルタとも呼ばれる)とする。例えば、短縮フィルタ算出部14は、式(5)に示すように、当該値f (D)に対して、時刻l以前について1、時刻lより後について0となる窓関数wを適用することでカットし、フーリエ変換することで、タップ長lの短縮フィルタの複素スペクトル系列F (l)を算出する。
Figure 0007421827000003



なお、式(5)におけるNは、周波数ビン数であり、Tは所定期間内の総フレーム数であり、lは、タップ長(l番目のフレーム)である。
生成部15は、短縮フィルタをフーリエ変換したスペクトルを低域サブバンド信号のスペクトルに掛けて、逆フーリエ変換することで、変換音声を生成する。生成部15は、短縮フィルタをフーリエ変換したスペクトルF (l)と、低域サブバンド信号のスペクトルF (X)との積F (Y)を算出し、スペクトルF (Y)を逆フーリエ変換することで、低域サブバンド信号の変換音声を生成する。なお、フィルタ算出部13、短縮フィルタ算出部14及び生成部15は、「変換部」と総称されてもよい。
合成部16は、生成部15によって生成された低域サブバンド信号の変換音声の信号(すなわち、変換後の一つ又は複数のサブバンド信号)と、分割部12によって分離された高域サブバンド信号(すなわち、変換していない残りのサブバンド信号)と、を合成する。
合成部16は、例えば、式(6)に示すように、n(1≦n≦N)番目のサブバンド信号X(t)を間引率Mでアップサンプリングして、変換音声の信号の実数値Xn,SSB(t)を取得する。なお、n番目のサブバンド信号X(t)は、分割部12によって生成した低域サブバンド信号x(k)を変換した後の変換音声の信号、又は、分割部12によって生成した高域サブバンド信号x(k)と同一の信号(未変換の信号)である。例えば、フルバンド内の複数のサブバンドに低域から先にインデックスnを昇順に付与する場合、n=1から所定数(例えば、1)のサブバンドのサブバンド信号X(t)は、低域サブバンド信号x(k)を変換した後の変換音声の信号である。一方、n=2,3,…,Nのサブバンド信号X(t),X(t),…,X(t)は、高域サブバンド信号x(k),x(k),…,x(k)と同一の信号(未変換の信号)であってもよい。
Figure 0007421827000004


また、合成部16は、例えば、式(7)に示すように、エイリアシングを避けるために、上記実数値Xn,SSB(t)をベースバンドに周波数シフトし、ローパスフィルタg(t)によって帯域制限して、複素数値Xn,pp(t)を得る。
Figure 0007421827000005


また、合成部16は、例えば、式(8)に示すように、フルバンドの変換音声X(t)を取得する。
Figure 0007421827000006



学習部17は、短縮フィルタをフーリエ変換したスペクトルを、低域サブバンド信号のスペクトルに掛けて、変換音声の声色を表す特徴量を算出し、当該特徴量とターゲット音声の声色を表す特徴量との誤差が小さくなるように、変換モデル及びリフタのパラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成する。本実施形態において、変換モデル13aは、ニューラルネットワークで構成される。変換モデル13aは、例えば、MLP(Multi-Layer Perceptron)、Feedforward Neural Networkで構成されてよく、隠れ層の活性化関数としてSigmoid関数、tanh関数からなるGated Linear Unitを用い、各活性化関数の前にBatch Normalizationを適用してよい。
学習部17は、パラメータが未定の変換モデル13a及びリフタ13bによって、短縮フィルタをフーリエ変換したスペクトルF (l)を算出し、低域サブバンド信号のスペクトルF (X)に掛けてスペクトルF (Y)を算出して、特徴量としてメル周波数ケプストラムC (Y)を算出する。そして、算出したケプストラムC (Y)と、学習データであるターゲット音声のケプストラムC (T)との誤差を、L=(C (T)-C (Y)(C (T)-C (Y))/Tによって算出する。以降、√Lの値をRMSE(Rooted Mean Squared Error)と呼ぶ。
学習部17は、誤差L=(C (T)-C (Y)(C (T)-C (Y))/Tを変換モデル及びリフタのパラメータで偏微分し、誤差逆伝播法によって変換モデル及びリフタのパラメータを更新する。なお、学習処理は、例えばAdam(Adaptive moment estimation)を用いて行ってよい。このようにして学習済みの変換モデル13a及び学習済みのリフタ13bを生成することで、フィルタをカットして短縮フィルタとした影響が抑えられ、より短い長さのフィルタでも高品質な音声変換が可能になる。
本実施形態に係る音声変換装置10によれば、対象者の音声の信号を複数のサブバンド信号に分割して構成される一つ又は複数の低域サブバンド信号について、学習済みの変換モデル13aを用いて特徴量を変換し、学習済みのリフタ13bを用いて短縮フィルタを算出する。このため、広帯域の声質変換においても、高域のランダムな変動によるモデル化性能の低下を防止でき、帯域拡張による変換音声の品質の向上効果を適切に得ることができる。また、低域サブバンド信号に対してのみリフタ13bを学習することで、当該帯域拡張による計算量の増加を緩和できる。したがって、広帯域の声質変換において高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換が実現される。
図2は、本実施形態に係る音声変換装置10の物理的構成を示す図である。音声変換装置10は、演算部に相当するCPU(Central Processing Unit)10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、表示部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では音声変換装置10が一台のコンピュータで構成される場合について説明するが、音声変換装置10は、複数のコンピュータが組み合わされて実現されてもよい。また、図2で示す構成は一例であり、音声変換装置10はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。
CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、対象者の音声に関する複数の特徴量を算出し、当該複数の特徴量をターゲットの音声に対応する複数の変換特徴量に変換して、複数の変換特徴量に基づいて合成音声を生成するプログラム(音声変換プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10fに表示したり、RAM10bに格納したりする。
RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行するプログラム、対象者の音声、ターゲットの音声といったデータを記憶してよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば音声変換プログラムや、書き換えが行われないデータを記憶してよい。
通信部10dは、音声変換装置10を他の機器に接続するインターフェースである。通信部10dは、インターネット等の通信ネットワークに接続されてよい。
入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。
表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えば、LCD(Liquid Crystal Display)により構成されてよい。表示部10fは、対象者の音声の波形を表示したり、合成音声の波形を表示したりしてよい。
音声変換プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。音声変換装置10では、CPU10aが音声変換プログラムを実行することにより、図1を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、音声変換装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。
図3は、本実施形態に係る音声変換装置10によって実行されるサブバンド信号を用いた声質変換の概念図である。図3では、一例として、声質変換の対象となる帯域(サンプリング周波数等ともいう)が48kHz、サブバンド数N=3、間引率M=3とするが、これに限られないの。
図3に示すように、音声変換装置10の分割部12は、対象者の音声のフルバンド信号(ここでは、48kHzの音声の信号)から、0~8kHz、8~16kHz、16~24kHzの3つのサブバンド信号を生成する(サブバンド符号化)。
音声変換装置10の生成部15は、分割部12によって生成された3つのサブバンド信号のうち、0~8kHzの低域サブバンド信号のスペクトルに、短縮フィルタ算出部14によって算出される短縮フィルタを適用して、変換音声を生成する。一方、音声変換装置10は、8~16kHz、16~24kHzの2つの高域サブバンド信号には、上記短縮フィルタを適用せずに、未変換のままとする。
音声変換装置10の合成部16は、0~8kHzの低域サブバンド信号の変換音声と、未変換の8~16kHz、16~24kHzの2つの高域サブバンド信号とを再合成して、フルバンドの合成音声を生成する。合成部16は、生成した合成音声を出力する(サブバンド復号)。
図4は、本実施形態に係る音声変換装置10によって実行される低域サブバンド信号の変換及び学習処理の概要を示す図である。音声変換装置10は、対象者の音声のフルバンド信号を複数のサブバンド信号に分割し、当該複数のサブバンド信号の中から低域サブバンド信号(例えば、図3の0~8kHzのサブバンド信号)を取得し、フーリエ変換した複素スペクトル系列F (X)を算出する。そして、複素スペクトル系列F (X)から実ケプストラム系列C (X)を算出して学習済みの変換モデル13aに入力する。同図において、変換モデル13aはニューラルネットワークの模式図によって表されている。
音声変換装置10は、変換後の特徴量C (D)に学習済みのリフタ13b(u)を掛けて、フーリエ変換することで、フィルタの複素スペクトル系列F (D)を算出する。
その後、音声変換装置10は、フィルタの複素スペクトル系列F (D)を逆フーリエ変換して時間領域の値f (D)として、時刻l以前について1、時刻lより後について0となる窓関数を適用することでカットした(truncation、打ち切り等ともいう)f (l)をフーリエ変換することで、短縮フィルタの複素スペクトル系列F (l)を算出する。
音声変換装置10は、このようにして算出した短縮フィルタの複素スペクトル系列F (l)を低域サブバンド信号のスペクトルF (X)に掛けて、変換音声のスペクトルF (Y)を算出する。音声変換装置10は、変換音声のスペクトルF (Y)を逆フーリエ変換することで、変換音声C (Y)を生成する。
変換モデル13a及びリフタ13bの学習処理を行う場合、変換音声のスペクトルF (Y)から実ケプストラム系列C (Y)を算出し、学習データであるターゲット音声のケプストラムC (T)との誤差を、L=(C (T)-C (Y)(C (T)-C (Y))/Tによって算出する。そして、誤差逆伝播法によって、変換モデル13a及びリフタ13bのパラメータを更新する。
図5Aは、本実施形態に係る音声変換装置10及び従来例に係る装置によってそれぞれ生成された合成音声の話者類似性に関する主観評価の結果を示す図である。話者類似性に関する主観評価の結果は、本実施形態に係る音声変換装置10により生成された合成音声、従来例に係る装置により生成された合成音声及びターゲット音声(正解となる音声)を複数人の試験者に聴き比べてもらい、本実施形態と従来例のどちらがターゲット音声に類似しているか評価してもらった結果である。
図5Aでは、本実施形態のタップ長l=32、従来法におけるタップ長l=2048を用いる場合の評価値(スコア)が「本実施形態のスコアvs従来法のスコア」の形式で示される。従来法では、最小位相フィルタが用いられ、本実施形態では、上記低域サブバンド信号を用いて学習された変換モデル13a及びリフタ13bにより算出される短縮フィルタが用いられるものとする。また、男性話者から男性話者(m2m)、女性話者から女性話者(f2f)2種類の変換について、48kHzサンプリング音声を用いている。
図5Aに示すように、本実施形態のタップ長lが32であり、従来法のタップ長lが2048である場合、m2mにおける本実施形態の話者類似性のスコアは0.537である一方、従来法の話者類似性のスコアは0.463である。同様に、f2fにおける本実施形態の話者類似性のスコアは0.516である一方、従来法の話者類似性のスコアは0.484である。
図5Aにおける本実施形態のタップ長l(=32)は、従来法のタップ長l(=2048)の1/64倍であるので、フィルタの短縮により音声変換装置10の計算量を削減できる。また、上記の通り、話者類似性のスコアも従来法よりも向上できる。
図5Bは、本実施形態に係る音声変換装置10及び従来例に係る装置によってそれぞれ生成された合成音声の音声品質に関する主観評価の結果を示す図である。音声品質に関する主観評価の結果は、本実施形態に係る音声変換装置10により生成された合成音声及び従来例に係る装置により生成された合成音声を複数人の試験者に聴き比べてもらい、本実施形態と従来例のどちらが自然な音声に聞こえるか評価してもらった結果である。図5Bにおける前提条件は、図5Aと同様である。
図5Bに示すように、本実施形態のタップ長lが32であり、従来法のタップ長lが2048である場合、m2mにおける本実施形態の話者類似性のスコアは0.840である一方、従来法の話者類似性のスコアは0.160である。同様に、f2fにおける本実施形態の話者類似性のスコアは0.810である一方、従来法の話者類似性のスコアは0.190である。
このように、本実施形態に係る音声変換装置10により生成される合成音声は、従来例に係る装置により生成される合成音声よりも自然に聞こえると評価されている。なお、本評価に関するp値は10のー10乗よりも小さかった。
図6は、本実施形態に係る音声変換装置10によって実行される音声変換処理のフローチャートである。はじめに、音声変換装置10は、マイク20によって、対象者の音声を取得する(S101)。
音声変換装置10は、S101で取得された対象者の音声の信号(フルバンド信号)を、複数のサブバンド信号の分割する(S102)。また、音声変換装置10は、サブバンドのインデックスnを所定値(例えば、1)に初期化する。
音声変換装置10は、サブバンド#nのサブバンド信号(サブバンド信号#n)が低域サブバンド信号であるか否かを判定する(S103)。サブバンド信号#nが低域サブバンド信号ではない場合(高域サブバンド信号である場合)(S103:No)、本動作は、S103~S108をスキップして、S109に進む。
サブバンド信号#nが低域サブバンド信号である場合(S103:Yes)、音声変換装置10は、当該サブバンド信号#nをフーリエ変換し、メル周波数ケプストラム(特徴量)を算出し(S104)、特徴量を学習済みの変換モデル13aで変換する(S105)。
さらに、音声変換装置10は、変換後の特徴量に学習済みのリフタ13bを掛けて、フィルタのスペクトルを算出し(S106)、フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する(S107)。
そして、音声変換装置10は、短縮フィルタをフーリエ変換したスペクトルをサブバンド信号#nのスペクトルに掛けて、逆フーリエ変換し、サブバンド信号#nの変換音声を生成する(S108)。
音声変換装置10は、サブバンドのインデックスnをカウントアップし(S109)、カウントアップされたnがサブバンドの総数Nより大きいか否かを判定する(S110)。カウントアップされたnがサブバンドの総数N以下である場合(S110:No)、本動作は、S103に戻る。
S109でカウントアップされたnがサブバンドの総数Nより大きい場合(S110;Yes)、音声変換装置10は、N個のサブバンド信号を合成してフルバンド変換音声を生成し、生成されたフルバンド変換音声をスピーカーから出力する(S111)。
音声変換処理を終了しない場合(S112:NO)、音声変換装置10は、処理S101~S111を再び実行する。一方、音声変換処理を終了する場合(S112:YES)、音声変換装置10は、処理を終了する。
図7は、本実施形態に係る音声変換装置10によって実行される学習処理のフローチャートである。はじめに、音声変換装置10は、マイク20によって、対象者の音声を取得する(S201)。なお、音声変換装置10は、予め録音した音声の信号を取得してもよい。
音声変換装置10は、S201で取得された対象者の音声の信号(フルバンド信号)を、複数のサブバンド信号の分割する(S202)。また、音声変換装置10は、サブバンドのインデックスnを所定値(例えば、1)に初期化する。
音声変換装置10は、サブバンド#nのサブバンド信号(サブバンド信号#n)が低域サブバンド信号であるか否かを判定する(S203)。サブバンド信号#nが低域サブバンド信号ではない場合(高域サブバンド信号である場合)(S203:No)、本動作は、S204~S111をスキップして、S212に進む。
サブバンド信号#nが低域サブバンド信号である場合(S203:Yes)、音声変換装置10は、対象者の音声の信号をフーリエ変換し、メル周波数ケプストラム(特徴量)を算出し(S204)、特徴量を学習中の変換モデル13aで変換する(S205)。
さらに、音声変換装置10は、変換後の特徴量に学習中のリフタ13bを掛けて、フィルタのスペクトルを算出し(S206)、フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する(S207)。
そして、音声変換装置10は、短縮フィルタをフーリエ変換したスペクトルをサブバンド信号#nのスペクトルに掛けて、逆フーリエ変換し、サブバンド信号#nの変換音声を生成する(S208)。
その後、音声変換装置10は、サブバンド信号#nの変換音声のメル周波数ケプストラム(特徴量)を算出し(S209)、合成音声の特徴量と、ターゲット音声の特徴量の誤差を算出する(S210)。そして、音声変換装置10は、誤差逆伝播法によって、変換モデル13aとリフタ13bのパラメータを更新する(S211)。
音声変換装置10は、サブバンドのインデックスnをカウントアップし(S212)、カウントアップされたnがサブバンドの総数Nより大きいか否かを判定する(S213)。カウントアップされたnがサブバンドの総数N以下である場合(S213:No)、本動作は、S203に戻る。S212でカウントアップされたnがサブバンドの総数Nより大きい場合(S213;Yes)、音声変換装置10は、学習終了要件を満たすか否かを判定する(S214)。
学習終了条件を満たさない場合(S214:NO)、音声変換装置10は、処理S201~S213を再び実行する。一方、学習終了条件を満たす場合(S214:YES)、音声変換装置10は、処理を終了する。なお、学習終了条件は、合成音声の特徴量とターゲット音声の特徴量の誤差が所定値以下になることであったり、学習処理のエポック数が所定回数に達することであったりしてよい。
以上のように、本実施形態に係る音声変換装置10によれば、対象者の音声のフルバンド信号を分割した複数のサブバンド信号のうちで、低域の一つ又は複数のサブバンド信号のみを変換することで、高域のランダム変動による影響を低減でき、かつ、変換による計算量を削減できる。よって、広帯域においても、高い音声品質とリアルタイム性を両立させることのできる差分スペクトル法を用いた音声変換が実現される。
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
10…音声変換装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、11…取得部、12…分割部、13…フィルタ算出部、13a…変換モデル、13b…リフタ、14…短縮フィルタ算出部、15…生成部、16…合成部、17…学習部、20…マイク、30…スピーカー

Claims (6)

  1. 対象者の音声の信号を取得する取得部と、
    前記信号を、複数の周波数帯に関するサブバンド信号に分割する分割部と、
    前記複数の周波数帯に関するサブバンド信号のうち、低域の1又は複数のサブバンド信号を変換する変換部と、
    変換後の前記1又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成する合成部と、
    を備え
    前記変換部は、
    前記低域の一つ又は複数のサブバンド信号の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出するフィルタ算出部と、
    前記フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する短縮フィルタ算出部と、
    前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、逆フーリエ変換することで、前記低域の一つ又は複数のサブバンド信号の変換音声を生成する生成部と、を含む、
    声変換装置。
  2. 前記信号のサンプリング周波数は、44.1kHz以上であり、
    前記低域の1又は複数のサブバンド信号は、少なくとも2kHzから4kHzの周波数帯に関するサブバンド信号を含む、
    請求項1に記載の音声変換装置。
  3. 前記短縮フィルタをフーリエ変換したスペクトルを前記低域の一つ又は複数のサブバンド信号のスペクトルに掛けて、前記変換音声の声色を表す特徴量を算出し、当該特徴量とターゲット音声の声色を表す特徴量との誤差が小さくなるように、前記変換モデル及び前記リフタのパラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成する学習部をさらに備える、
    請求項1又は請求項2に記載の音声変換装置。
  4. 前記変換モデルは、ニューラルネットワークで構成され、
    前記学習部は、誤差逆伝播法によって前記パラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成する、
    請求項3に記載の音声変換装置。
  5. 音声変換装置に備えられたプロセッサによって、
    対象者の音声の信号を取得することと、
    前記信号を、複数の周波数帯に関するサブバンド信号に分割することと、
    前記複数の周波数帯に関するサブバンド信号のうち、低域の1又は複数のサブバンド信号を変換することと、
    変換後の前記1又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成することと、
    を実行し、
    前記低域の一つ又は複数のサブバンド信号を変換することを実行することは、
    前記低域の一つ又は複数のサブバンド信号の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出し、
    前記フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出し、
    前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、逆フーリエ変換することで、前記低域の一つ又は複数のサブバンド信号の変換音声を生成することと、を含む、
    声変換方法。
  6. 音声変換装置に備えられたプロセッサを、
    対象者の音声の信号を取得する取得部、
    前記信号を、複数の周波数帯に関するサブバンド信号に分割する分割部、
    前記複数の周波数帯に関するサブバンド信号のうち、低域の1又は複数のサブバンド信号を変換する変換部、及び
    変換後の前記1又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成する合成部、
    として機能させ
    前記変換部は、
    前記低域の一つ又は複数のサブバンド信号の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出するフィルタ算出部と、
    前記フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する短縮フィルタ算出部と、
    前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、逆フーリエ変換することで、前記低域の一つ又は複数のサブバンド信号の変換音声を生成する生成部と、を含む、
    声変換プログラム。
JP2022500378A 2020-02-13 2021-02-05 音声変換装置、音声変換方法及び音声変換プログラム Active JP7421827B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020022334 2020-02-13
JP2020022334 2020-02-13
PCT/JP2021/004367 WO2021161924A1 (ja) 2020-02-13 2021-02-05 音声変換装置、音声変換方法及び音声変換プログラム

Publications (2)

Publication Number Publication Date
JPWO2021161924A1 JPWO2021161924A1 (ja) 2021-08-19
JP7421827B2 true JP7421827B2 (ja) 2024-01-25

Family

ID=77292174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022500378A Active JP7421827B2 (ja) 2020-02-13 2021-02-05 音声変換装置、音声変換方法及び音声変換プログラム

Country Status (3)

Country Link
US (1) US20230086642A1 (ja)
JP (1) JP7421827B2 (ja)
WO (1) WO2021161924A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113555007B (zh) * 2021-09-23 2021-12-14 中国科学院自动化研究所 语音拼接点检测方法及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004029587A (ja) 2002-06-28 2004-01-29 Nippon Telegr & Teleph Corp <Ntt> 音声信号処理方法、装置及び音声信号処理プログラム
JP2010049196A (ja) 2008-08-25 2010-03-04 Toshiba Corp 声質変換装置及び方法、音声合成装置及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004029587A (ja) 2002-06-28 2004-01-29 Nippon Telegr & Teleph Corp <Ntt> 音声信号処理方法、装置及び音声信号処理プログラム
JP2010049196A (ja) 2008-08-25 2010-03-04 Toshiba Corp 声質変換装置及び方法、音声合成装置及び方法

Also Published As

Publication number Publication date
JPWO2021161924A1 (ja) 2021-08-19
WO2021161924A1 (ja) 2021-08-19
US20230086642A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
Caillon et al. RAVE: A variational autoencoder for fast and high-quality neural audio synthesis
JP3266819B2 (ja) 周期信号変換方法、音変換方法および信号分析方法
US20130024191A1 (en) Audio communication device, method for outputting an audio signal, and communication system
US10957303B2 (en) Training apparatus, speech synthesis system, and speech synthesis method
US20070192100A1 (en) Method and system for the quick conversion of a voice signal
Kontio et al. Neural network-based artificial bandwidth expansion of speech
JP2010176090A (ja) 信号帯域拡張装置
US20180040336A1 (en) Blind Bandwidth Extension using K-Means and a Support Vector Machine
US20230282202A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
WO2022161475A1 (zh) 音频处理方法、装置及电子设备
WO2018003849A1 (ja) 音声合成装置および音声合成方法
JP2013242410A (ja) 音声処理装置
JP7421827B2 (ja) 音声変換装置、音声変換方法及び音声変換プログラム
Gupta et al. High‐band feature extraction for artificial bandwidth extension using deep neural network and H∞ optimisation
CN117546237A (zh) 解码器
Guido et al. A neural-wavelet architecture for voice conversion
WO2021033685A1 (ja) 音声変換装置、音声変換方法及び音声変換プログラム
US20190066657A1 (en) Audio data learning method, audio data inference method and recording medium
JP7103390B2 (ja) 音響信号生成方法、音響信号生成装置およびプログラム
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
JP6902759B2 (ja) 音響モデル学習装置、音声合成装置、方法およびプログラム
Gupta et al. Artificial bandwidth extension using H∞ sampled-data control theory
Wang et al. Combined Generative and Predictive Modeling for Speech Super-resolution
RU2823015C1 (ru) Генератор аудиоданных и способы формирования аудиосигнала и обучения генератора аудиоданных
Nirmal et al. Voice conversion system using salient sub-bands and radial basis function

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240105

R150 Certificate of patent or registration of utility model

Ref document number: 7421827

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150