JP5159279B2 - 音声処理装置及びそれを用いた音声合成装置。 - Google Patents

音声処理装置及びそれを用いた音声合成装置。 Download PDF

Info

Publication number
JP5159279B2
JP5159279B2 JP2007312336A JP2007312336A JP5159279B2 JP 5159279 B2 JP5159279 B2 JP 5159279B2 JP 2007312336 A JP2007312336 A JP 2007312336A JP 2007312336 A JP2007312336 A JP 2007312336A JP 5159279 B2 JP5159279 B2 JP 5159279B2
Authority
JP
Japan
Prior art keywords
speech
unit
spectrum
parameter
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007312336A
Other languages
English (en)
Other versions
JP2009139406A (ja
Inventor
正統 田村
勝美 土谷
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007312336A priority Critical patent/JP5159279B2/ja
Priority to US12/327,399 priority patent/US8321208B2/en
Publication of JP2009139406A publication Critical patent/JP2009139406A/ja
Application granted granted Critical
Publication of JP5159279B2 publication Critical patent/JP5159279B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声の対数スペクトルなどからスペクトル包絡パラメータを生成する音声処理装置及びそれを用いた音声合成装置に関するものである。
任意の文章を入力し、入力文章から得られる音韻・韻律系列にしたがって音声波形を合成する装置を、テキスト音声合成装置という。テキスト音声合成装置は、一般的に言語処理部、韻律処理部及び音声合成部から構成される。言語処理部においては、入力テキストを解析し、読み・アクセント・ポーズ位置等の言語情報を求める。韻律処理部においては、得られたアクセント及びポーズ位置等の情報から、音の高さや抑揚の変化を表す基本周波数パターン、各音韻の長さを表す音韻継続長の情報が韻律情報として生成される。音声合成部では、音韻系列及び韻律情報を入力し、音声波形を生成する。
音声合成部の方式の一つとして、素片選択に基づく音声合成が広く用いられている。素片選択に基づく音声合成は、入力テキストを合成単位に区切って得られるセグメントそれぞれに対して、大量の音声素片を含む音声素片データベースから、目標コストと接続コストからなるコスト関数を用いて音声素片を選択し、選択された音声素片を接続することにより音声波形を生成し、肉声間の高い合成音声を得る。
また、素片選択に基づく音声合成において生じる不連続感等を解消し、安定感を高めた方式として、複数素片選択・融合に基づく音声合成装置が開示されている(特許文献1参照)。
複数素片選択・融合に基づく音声合成装置は、入力テキストを合成単位に区切って得られるセグメントそれぞれに対して、大量の音声素片を含む音声素片データベースから、複数の音声素片を選択し、得られた音声素片を融合し、融合された音声素片を接続することにより音声波形を生成する。
融合方法としては例えばピッチ波形を平均化する方法が用いられ、肉声間と安定感とを両立した、高品質な合成音声を得る。
音声データのスペクトル包絡情報を用いて音声処理を行うために、スペクトル包絡情報をパラメータとして表す、様々なスペクトルパラメータが提案されている。線形予測係数をはじめ、ケプストラム、メルケプストラム、LSP(Line Spectrum Pair:線スペクトル対)、MFCC(Mel Frequency Cepstrum Coefficient)、PSE(Power Spectrum Envelope)分析によるパラメータ(特許文献2参照)、また、HNM(Harmonics plus noise model)等の正弦波合成に用いられるハーモニクスの振幅のパラメータ、メルフィルタバンクによるパラメータ(非特許文献1参照)や、離散フーリエ変換により得られたスペクトル、STRAIGHT分析によるスペクトルなども含め、これまでにさまざまなスペクトルパラメータが提案されている。
スペクトル情報をパラメータで表す場合、用途によって必要とされる特性は異なるものの、一般的にはハーモニクスの影響によるスペクトルの微細な変動に大きく左右されず、また統計処理等を行うために、音声波形から切り出した音声フレームのスペクトル情報を固定の少ない次元数で高品質・効率的に表現できるものが望ましい。そのため、線形予測係数やケプストラム係数のように、ソースフィルタモデルを仮定し、音源特性と声道特性を分離した声道フィルタの係数をスペクトルパラメータとして用いる方法が広く用いられている。さらにベクトル量子化した場合のフィルタの安定性の問題を解決するパラメータとして、LSPなどが用いられる。また、パラメータによる情報量の削減行うため、メルケプストラムやMFCCのように、メルスケールやバークスケールなどの、聴覚特性を考慮した非直線周波数スケールに対応したパラメータもよく用いられている。
ここでは、音声合成に用いることを考慮した場合のスペクトルパラメータに対して望ましい特性として、高品質、効率的、かつ帯域に応じた処理を容易に行うことができるという3点を兼ね合わせたものであると考える。
「高品質」とは、音声をスペクトルパラメータで表現し、得られたパラメータから音声波形を再合成したときに聴覚的な音質劣化が少ないこと、及びスペクトルの微細な変動に左右されず安定してパラメータが抽出できることを表す。
「効率的」とは、少ない次数や情報量でスペクトル包絡を表現することができることである。統計処理の操作等を行った場合に少ない処理量で処理を行うことができ、またハードディスクやメモリなどのストレージに保存した場合に少ない容量で保持できることを表す。
「帯域に応じた処理を容易に行うことができる」という点は、パラメータの各次元が、固定の局所的な周波数帯域の情報を表し、パラメータの各次元をプロットすることによりスペクトル包絡の概形を表すことができることを示す。これにより、パラメータの各次元の値を零にすること等の単純な操作によりバンドパスフィルタの処理が可能になり、またパラメータの平均化の処理等を行う場合に、周波数軸上のパラメータの対応付け等の特別な操作を不要とするため、そのまま各次元の値に対して平均化処理等を適用することによってスペクトル包絡の平均化等の処理が容易に実現できる。また、所定の周波数より高い帯域と低い帯域において異なる処理を行うことが容易に実現できるため、上記した複数素片選択・融合方式に基づく音声合成において、音声素片の融合処理を行う際に、低域は安定感を重視し、高域は肉声感を重視するといった処理を行うことが可能になる。
これらの観点で、上記した従来のスペクトルパラメータをそれぞれ見ていく。
「線形予測係数」は、音声波形の自己回帰係数をパラメータして用いるため、周波数領域のパラメータではなく、帯域に応じた処理を容易に行うことはできない。
「ケプストラム及びメルケプストラム」は、直線周波数スケール、または非直線のメルスケールにおいて対数スペクトルを正弦波の基底の係数として表現するが、これも各基底は全ての周波数帯域に広がるために各次元の値はスペクトルの局所的な特徴を表すものではなく、帯域に応じた処理を容易に行うことはできない。
「LSP係数」は、線形予測係数から離散的な周波数に変換したパラメータであり、音声スペクトルを周波数の配置の密度として表すため、フォルマント周波数と類似の値になる。このため、LSPのある次数の値が近い周波数を与えるとは限らず、LSPの平均化により、適切に平均的なスペクトル包絡が求まるとは限らないため、帯域に応じた処理を容易に行うことはできない。
「MFCC」は、メルフィルタバンクをDCT(離散コサイン変換)することによって求めるケプストラム領域のパラメータであり、ケプストラムと同様に、各基底は全ての周波数帯域に広がるために各次元の値はスペクトルの局所的な特徴を表すものではなく、帯域に応じた処理を容易に行うことはできない。
特許文献2には、示されているPSEモデルによる特徴パラメータは、対数パワースペクトルを、基本周波数の整数倍の各位置で標本化し、得られた標本化データ列をM項余弦級数に対する係数として、聴覚特性による重み付けをして求めたものである。
特許文献2に示されているPSEモデルによる特徴パラメータも、ケプストラム領域のパラメータになる。そのため、帯域に応じた処理を容易に行うことはできない。また、上記標本化データ列や、正弦波合成のためのハーモニクスの振幅のパラメータなどの対数スペクトルを、基本周波数の整数倍の位置で標本化したパラメータは、パラメータの各次元の値は固定の周波数帯域の情報をあらわさないため、複数のパラメータを平均化する際に、各次元に対応する周波数帯域が異なるため、そのまま平均化することによってスペクトル包絡を平均化することはできない。
このため、PSE分析のパラメータや、上記標本化列、またHNM等の正弦波合成に用いるハーモニクスの振幅パラメータも、同様に帯域に応じた処理を容易に行うことができない。
非特許文献1においては、MFCCを求める際に得られるメルフィルタバンクによって得られた値を、DCTを適用せずにそのまま特徴パラメータとして用い、音声認識に適用する方法が提案されている。
メルフィルタバンクによる特徴パラメータは、パワースペクトルに固定のメルスケール上で等間隔になるように作成された三角のフィルタバンクをかけて得られた各帯域のパワーの対数値をパラメータとしている。
このメルフィルタバンクの係数は、各次元の値が固定の周波数帯域のパワーの対数値をあらわしており、上記した帯域に応じた処理を容易に行うことは可能になる。しかし、パラメータからスペクトルを再合成し音声データのスペクトルを再現することは考慮されていない。したがって、基底と係数の線形結合として対数スペクトル包絡をモデル化することを仮定したパラメータではないため、高品質なパラメータにはならない。実際、メルフィルタバンクの係数は、特に対数スペクトルの谷の部分に対して十分なフィッティング性能が得られない場合があり、メルフィルタバンク係数からスペクトルを求めて再合成することを考えた場合に、音質劣化が生じる可能性がある。離散フーリエ変換によって得られたスペクトル及び、STRAIGHT分析によって得られたスペクトルは、帯域に応じた処理を容易に行うことができるものの、音声データを分析する際の分析窓長より大きい次元数のスペクトル情報となるため、効率的ではない。
また、離散フーリエ変換によって得られたスペクトルは、微細なスペクトルの変動を含む場合があり、高品質なパラメータであるとは限らない。
上記したように、これまでに、様々なスペクトル包絡パラメータが提案されているが、高品質、効率的、かつ帯域に応じた処理を容易に行うことができるという音声合成に用いるために望ましい3点を兼ね合わせたスペクトル包絡パラメータは存在しない。
特開2005−164749公報 特開平11‐202883公報 西村義隆,篠崎隆宏,岩野公司,古井貞熙:「周波数帯域毎の重みつき尤度を用いた雑音に頑健な音声認識」,信学技法,SP2003−116,pp.19−24,12月,2003.
特許文献1等に示される音声合成装置は、より自然で高品質な合成音声を効率的に生成するという課題がある。この課題を解決するために、音声合成に利用可能な従来の様々なスペクトル包絡パラメータをみると、上記したように従来技術は、高品質、効率的、かつ帯域に応じた処理を容易に行うことができるという、音声合成に望ましい3つの特性を兼ね合わせたスペクトル包絡パラメータは存在しない。
そこで、本発明は、上記問題点を解決するためになされたものであって、局所的な基底の線形結合として対数スペクトル包絡をモデル化することにより、高品質、効率的、かつ帯域に応じた処理を容易に行うことのできる音声処理装置及び及びそれを用いた音声合成装置を提供することを目的とする。
本発明は、音声信号をフレーム単位に分割するフレーム抽出部と、前記フレームから、スペクトルの微細構造成分を除いたスペクトルであるL次のスペクトル包絡情報を抽出する情報抽出部と、(1)前記L次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、(2)前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、(3)前記ピーク周波数が隣接する前記2つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、(4)前記基底をN個(L>N>1)格納する基底保持部と、前記各基底と前記各基底にそれぞれ対応する基底係数の線形結合と、前記スペクトル包絡情報との歪み量を、前記基底係数を変化させて最小化させ、この最小化したときの前記基底係数の集まりを、前記スペクトル包絡情報のスペクトル包絡パラメータとするパラメータ算出部と、を備えた音声処理装置である。
また、本願発明は、複数の音声素片のピッチ波形に対応したLのスペクトル包絡パラメータを保持するパラメータ保持部と、前記複数の音声素片の属性情報を保持する属性情報保持部と、入力されたテキストから得られる音韻系列を合成単位に区切る分割部と、前記属性情報を用いて、前記各合成単位に対応する一または複数の音声素片を選択する選択部と、前記選択された音声素片のピッチ波形に対応する前記スペクトル包絡パラメータを前記スペクトル包絡パラメータ保持部から取得する取得部と、(1)Lのスペクトル包絡情報によって形成される空間の部分空間の基底であって、(2)前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、(3)前記ピーク周波数が隣接する前記2つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、(4)前記基底をN個(L>N>1)格納する基底保持部と、前記基底と前記スペクトル包絡パラメータとの線形結合によりスペクトル包絡情報を生成する包絡生成部と、前記スペクトル包絡情報から求めたスペクトルを逆フーリエ変換することによりピッチ波形を生成するピッチ生成部と、前記ピッチ波形を重畳することにより音声素片を生成し、前記生成した音声素片を接続することにより音声波形を生成する音声生成部と、を備えた音声合成装置である。
本発明によれば、基底の線形結合としてスペクトル包絡情報をモデル化することにより、高品質、効率的、かつ、帯域に応じた処理を容易に行うことのできるスペクトル包絡パラメータを生成することができる。
以下、本発明の実施形態について図面に基づいて説明する。
(第1の実施形態)
本発明の第1の実施形態に係わる音声処理装置であるスペクトル包絡パラメータ生成装置(以下、単に生成装置という)について図1〜図22に基づいて説明する。
本実施形態に係わる生成装置は、音声データを入力して、音声データから切り出した各音声フレームのスペクトル包絡パラメータを出力する装置である。
なお、「スペクトル包絡」とは、音声の短時間スペクトルから音源の周期性などによるスペクトルの微細構造成分を除いたスペクトル情報であり、声道特性や放射特性などのスペクトル特性を表す。本実施形態においては、スペクトル包絡情報として、対数スペクトル包絡を用いる。但し、これに限定するものではなく、例えば、振幅スペクトルもしくはパワースペクトルによるスペクトル包絡情報など、スペクトル包絡を表す周波数領域の情報を用いることができる。
(1)生成装置の構成
図1は、本実施形態に係わる生成装置(以下、単に生成装置という)を示すブロック図である。
生成装置は、音声データを音声フレームに分割する音声フレーム抽出部11と、得られた音声フレームから対数スペクトル包絡を抽出する対数スペクトル包絡抽出部(以下、「包絡抽出部」という)12と、局所的な基底を作成する局所基底作成部14と、局所基底作成部14によって作成された局所基底を保持する局所基底保持部15と、局所基底保持部15に保持されている局所基底を用いて前記対数スペクトル包絡からスペクトル包絡パラメータを求めるスペクトル包絡パラメータ算出部(以下、単に「パラメータ算出部」という)13と、を備えている。
各部11〜15の各機能は、コンピュータに格納されたプログラムによっても実現できる。
(2)音声フレーム抽出部11
音声フレーム抽出部11の動作を図2に示す。
音声フレーム抽出部11は、音声データを入力する音声データ入力ステップS21と、入力された音声データにピッチマーク情報を付与するピッチマーク付与ステップS22と、ピッチマークにしたがってピッチ波形を切り出し音声フレームとする音声フレーム抽出ステップS23と、得られた音声フレームを出力する音声フレーム出力ステップS24の処理を行う。
「ピッチマーク」とは、音声データのピッチ周期に同期して付与されたマークであり、音声波形の1周期分の波形の中心の時刻を表す。
ピッチマークの付与は、例えば1周期分の音声波形内のピークを抽出する方法などにより行われる。
ピッチ波形とは、ピッチマーク位置に対応する音声波形であり、そのピッチ波形のスペクトルが音声のスペクトル包絡を表す。ピッチ波形は、ピッチマーク位置を中心として、ピッチの2倍の長さのハニング窓を音声波形に掛けることにより抽出することができる。
音声フレームは、スペクトル分析を行う単位に対応して音声データから抽出した音声波形を示し、ピッチ波形を音声フレームとして用いる。
(3)包絡抽出部12
包絡抽出部12は、得られた音声フレームから対数スペクトル包絡を抽出する。
図3に示すように、包絡抽出部12は、音声フレームを入力する音声フレーム入力ステップS31と、音声フレームにフーリエ変換を行うフーリエ変換ステップS32と、得られたスペクトルから対数スペクトル包絡を得る対数スペクトル包絡算出ステップS33と、対数スペクトル包絡を出力する対数スペクトル包絡出力ステップS34の処理を行う。
「対数スペクトル包絡」は、所定の点数で表された対数スペクトル領域のスペクトル情報である。ピッチ波形をフーリエ変換し対数パワースペクトルを求めることにより、対数スペクトル包絡が得られる。
なお、対数スペクトル包絡抽出は、ピッチの2倍の窓幅のハニング窓掛けによるピッチ波形のフーリエ変換によるものに限定するものではなく、ケプストラム法、線形予測法、STRAIGHT法など他のスペクトル包絡抽出手法を用いて抽出してもよい。
(4)局所基底作成部14
局所基底作成部14は、局所的な基底を作成する。
(4−1)局所基底の定義
「局所基底」とは、複数の対数スペクトル包絡によって形成される空間の部分空間の基底であり、ここでは以下の3つの条件を備えたものである。
条件1:音声のスペクトル領域、すなわち、周波数軸上で単一の最大値を与えるピーク周波数を含む所定の周波数帯域に値が存在し、前記周波数帯域の外側は値を零とする。これは、周波数軸上のある範囲の中にのみ値が存在し、範囲外は零とし、また、単一の最大値のみを持つという内容であり、帯域が制限されているということと、周期的な基底のように同じ最大値を複数持つものではないということを表す。すなわち、ケプストラム分析に用いる基底との違いである。
条件2:前記対数スペクトル包絡の点数より少ない個数の基底からなる。それぞれの基底は上記条件1に示したものになるが、基底の個数は、対数スペクトル包絡の点数より少ない個数になる。
条件3:ピーク周波数位置が隣りあう基底間に重なりを持つ。複数の基底を持ち、それぞれの基底はピーク周波数を持つ。このピーク周波数が隣あう基底は、値が存在する周波数の範囲が重なる。
この条件1、2、3の3つをそろえ、歪み量を最小化することにより求めるため、「高品質」、「効率的」、「帯域に応じた処理を容易に行うことができる」の3点の効果を兼ねたパラメータになる。
第1の効果(高品質)は、基底の線形結合とスペクトル包絡との歪み量を最小化している点と、上記条件3に示したように基底に重なりを持つため滑らかに遷移する包絡が再現される点から高品質になる。
第2の効果(効率的)とは、条件2に示したように、基底の個数がスペクトル包絡の点数より少なくなるので、効率的である。
第3の効果は、条件1に示したように各局所基底に対応する係数の値は、ある周波数帯域のスペクトルを表現するので、帯域に応じた処理を容易に行うことができる。
(4−2)動作
図4に示すように、周波数軸上の各局所基底のピーク周波数を決定する周波数スケール決定ステップS41と、得られた周波数スケールにしたがって局所基底を作成する局所基底作成ステップS42と、得られた局所基底を出力して局所基底保持部15に保存する局所基底出力ステップS43の処理を行う。
周波数スケール決定ステップS41において、周波数軸上に所定の次数のピーク周波数の位置である周波数スケールを定める。
局所基底作成ステップS42において、隣り合うピーク周波数の幅を長さとするハニング窓関数により作成する。ハニング窓関数を用いることにより基底の総和が1となるため、フラットなスペクトルを表すことが可能になるという特性を持つ。
なお、局所基底の作成は、ハニング窓関数に限定するものではなく、その他、単峰性の窓関数であるハミング窓、ブラックマン窓、三角窓、ガウス窓等を用いてもよい。
単峰性の関数の場合、各ピーク周波数の間のスペクトルは単調増加または単調減少になり自然なスペクトルが再合成できる。
しかし、単峰性の窓関数に限定するものではなく、SINC関数のようにいくつかの極値を持ってもよい。
学習データから基底を作成した場合、このように極値を複数持つ場合があるが、所定の周波数帯域の外側が零となる局所的な基底を持つ基底のセットであればよい。但し、パラメータからスペクトルを再合成した際に、隣り合うピーク周波数の間のスペクトルを滑らかにするため、隣り合うピーク周波数に対応する基底には重なりを持つ必要がある。このため、基底は直交基底にはならず、単純な内積演算によりパラメータを求めることはできない。また、効率よくスペクトルを表すため、前記対数スペクトル包絡の点数より基底の個数すなわちパラメータの次数は少量になるように設定する。
この局所基底を作成するため、周波数スケール決定ステップS41では、まず周波数スケールを決定する。周波数スケールは周波数軸上のピーク位置であり、所定の基底の個数にしたがって、周波数軸上に設定する。ここでは、π/2の周波数まではメルスケール上で等間隔になるように、それ以上の周波数は直線スケール上で等間隔になるように周波数スケールを作成する。
周波数スケールの作成は、メルスケール、バークスケール等の非直線周波数スケール上で等間隔になるように決定してもよい。また、直線周波数スケール上で等間隔になるように決定してもよい。
このように周波数スケールを決定し、局所基底作成ステップS42では、上記したようにハニング窓関数によって局所基底を作成する。このように作成された局所基底は局所基底出力ステップS43によって、局所基底保持部15に保存される。
(5)パラメータ算出部13
パラメータ算出部13は、図5に示すように、対数スペクトル包絡入力ステップS51と、スペクトル包絡パラメータ算出ステップS52と、スペクトル包絡パラメータ出力ステップS53の処理を行う。
(5−1)ステップS52
スペクトル包絡パラメータ算出ステップS52は、対数スペクトル包絡入力ステップS51において入力された対数スペクトル包絡と、局所基底保持部15に保持されている局所基底と係数の線形結合との歪み量を最小化するように各基底に対する係数を求める。
(5−2)ステップS53
スペクトル包絡パラメータ出力ステップS53は、得られた各局所基底に対する係数をスペクトル包絡パラメータとして出力する。
歪み量は、スペクトル包絡パラメータから再合成したスペクトルと、対数スペクトル包絡との歪みを表す尺度であり、歪み量として二乗誤差を用いる場合は最小二乗法によってスペクトル包絡パラメータを求めることになる。
歪み量としては、二乗誤差に限定するものではなく、重み付けした誤差や、二乗誤差にスペクトル包絡パラメータが滑らかになるような正則化項を加えた誤差尺度等であってもよい。
また、スペクトル包絡パラメータが非負になるように制約を持つた非負の最小二乗法を用いてもよい。局所基底の形によっては、負の方向のフィッティングと正の方向のフィッティングの和としてスペクトルの谷が表現される可能性があるが、スペクトル包絡パラメータが対数スペクトル包絡の概形を表すためには負の係数によるフィッティングは望ましくない。
この問題を解決するために、非負の制約を持つた最小二乗法を用いることができる。このように、スペクトル包絡パラメータ算出ステップS52は、歪み量を最小化するように係数を求めて、スペクトル包絡パラメータを算出し、スペクトル包絡パラメータ出力ステップS53によって得られたスペクトル包絡パラメータを出力する。
スペクトル包絡パラメータ出力ステップS53においては、スペクトル包絡パラメータの量子化を行い、情報量を削減して出力してもよい。
(6)スペクトル包絡パラメータの算出
以下、図6に示す音声データに対して、スペクトル包絡パラメータを算出する例を示し、各処理の詳細を説明する。図6は「あまりに」という発声の音声データである。
(6−1)音声フレーム抽出部11
音声フレーム抽出部11の音声データ入力ステップS21において、音声データが入力され、ピッチマーク付与ステップS22において、ピッチマークが付与される。
図7は、「ま」の部分の波形を拡大した音声波形である。
図7に示すように、ピッチマーク付与ステップS22では、周期的な波形の各周期に対応した位置にピッチマークを付与する。
音声フレーム抽出ステップS23では、各ピッチマーク位置に対応するピッチ波形を抽出する。ピッチマークを中心とし、ピッチの2倍のハニング窓をかけることにより抽出し音声フレームとしている。
(6−2)包絡抽出部12
包絡抽出部12では、各音声フレームをフーリエ変換し、対数スペクトル包絡を求める。離散フーリエ変換を適用し、対数パワースペクトルを計算して対数スペクトル包絡を得る。
Figure 0005159279
但し、x(l)は音声フレームを表し、S(k)は対数スペクトルであり、Lは対数スペクトル包絡の点数(なお、Lは離散フーリエ変換の点数もしくはその正の成分である半分の点数である)、jは虚数単位を表す。
スペクトル包絡パラメータは以下に示すように局所的基底と係数との線形結合で対数スペクトル包絡をモデル化する。
Figure 0005159279
但し、Nは局所基底の個数、すなわちスペクトル包絡パラメータの次元数であり、X(k)は、スペクトル包絡パラメータから生成したL次元の対数スペクトル包絡、φ(k)はL次元の局所基底ベクトルであり、このc(0<=i<=N−1)がスペクトル包絡パラメータになる。
(6−3)局所基底作成部14
局所基底作成部14では、局所基底φを作成する。
(6−3−1)ステップS41
まず、周波数スケール決定ステップS41において、周波数スケールを決定する。図8に周波数スケールを示す。ここではN=50とし、0〜π/2まではメルスケール上で等間隔な点、
Figure 0005159279
とし、π/2〜πは直線スケール上で等間隔な点
Figure 0005159279
としている。Ω(i)はi番目のピーク周波数を示す。Nwarpはメルスケールの帯域から等間隔な帯域に、間隔が滑らかに変化するように求めており、22.05Khzの信号を、N=50、α=0.35として求める場合、Nwarp=34となる。αは周波数伸縮パラメータである。このように周波数スケールを作成すると、図8に示すように、0〜π/2は低域の周波数解像度が高くなり、徐々に間隔が広がってπ/2以上は等間隔になる。Lは式(1)で表される離散フーリエ変換の点数であり、音声フレームの長さより長い固定の値を用いることができる。FFTを用いるためには2のべき乗であればよく、例えば1024点とすることができる。この場合、1024点で表される対数スペクトル包絡をスペクトル包絡パラメータにより512点で表すことになり、効率的になる。
(6−3−2)ステップS4
局所基底作成ステップS42では、周波数スケール決定ステップにおいて作成した周波数スケールにしたがって、ハニング窓を用いて局所基底を作成する。
基底ベクトルφ(k)は、1<=i<=N−1に対しては、
Figure 0005159279
とし、i=0に対しては、
Figure 0005159279
とする。但し、Ω(0)=0,Ω(N)=πとする。
このように作成した局所基底を図9に示す。
図9の上段は全ての基底をプロットしたもの、中段はいくつか抜粋して拡大したもの、下段には全ての局所基底を並べたものを示しており、上にφ,φなど、いくつかの基底を抜粋して示している。ピーク周波数に隣接した周波数スケールの幅を長さとするハニング窓関数により作成している様子がわかる。
このように各基底は、ピーク周波数がΩ(i)となり、帯域幅はΩ(i−1)〜Ω(i+1)で表されるものになり、その外側は零である局所的な基底になる。ハニング窓で作成しているため、その和は1となり、フラットなスペクトルを表現することも可能になる。
このように局所基底作成ステップS42では、周波数スケール作成ステップS41において作成された周波数スケールにしたがって局所的な基底を作成し、局所基底保持部15に保存する。
(6−4)パラメータ算出部13
パラメータ算出部13では、包絡抽出部12で得られた対数スペクトルと、局所基底保持部15に保持された局所基底を用いてスペクトル包絡パラメータを求める。
対数スペクトル包絡S(k)と基底の線形結合であるX(k)との歪みの尺度としては二乗誤差を用い、最小二乗法で求める場合、次式の様に誤差eを定める。
Figure 0005159279
但し、S,XはS(k)及びS(X)をベクトル表記したものであり、Φ=(φ1,φ,・・・,φ)であり、基底ベクトルを並べた行列である。
式(8)に示す連立方程式を解いて極値を求めることによりスペクトル包絡パラメータを得る。連立方程式はガウスの消去法、コレスキー分解法などにより解くことができる。
Figure 0005159279
これによりスペクトル包絡パラメータが求められ、スペクトル包絡パラメータ出力ステップS53において、得られたスペクトル包絡パラメータcを出力する。
(6−5)算出例
図7の各ピッチ波形に対して、スペクトルパラメータを求めた例を、図10に示す。
図10は上から、ピッチ波形、式(1)によって求めた対数スペクトル包絡、スペクトル包絡パラメータの各次元の値をピーク周波数位置にプロットしたもの、及び、式(2)によって再生成したスペクトル包絡を示している。
図10より、スペクトル包絡パラメータは対数スペクトル包絡の概形を表していることがわかる。再生成したスペクトル包絡は、分析元の対数スペクトル包絡に近いスペクトルが得られ、また、中域から高域にかけて現れるスペクトルの急な谷の影響をうけずに、なめらかなスペクトル包絡が得られていることがわかる。
すなわち、高品質・効率的・かつ帯域に応じた処理を容易に行うことのできる、音声合成に好適なパラメータが得られていることがわかる。
(7)非負最小二乗法
上記したスペクトル包絡パラメータ算出ステップS52では、スペクトル包絡パラメータに対し制約を設けずに二乗誤差を最小化しているが、係数が非負になる制約のもとで二乗誤差を最小化してもよい。
非直交基底を用いて係数を最適化した場合、負の係数と正の係数の和として、対数スペクトルの谷を表現することが可能になる。
その場合、係数は対数スペクトルの概形を表すものではなくなるため、スペクトル包絡パラメータが負になることは望ましくない。
また、対数スペクトルが負になるスペクトルはリニアな振幅領域では1より小さい値となり、時間領域では0に近い振幅の正弦波になるため、対数スペクトルが0より小さい場合も0として差し支えない。
そこで、得られる係数がスペクトルの概形を表すパラメータとするために、非負の最小二乗法を用いて係数を求める。非負の最小二乗法は非特許文献2に記述されている方法で行うことができ、非負の制約の元で、最適な係数を求めることができる。
なお、非特許文献2とは、文献(C. L. Lawson,R. J. Hanson, 「Solving Least Squares Problems,」 SIAM classics in applied mathematics, 1995 (first published by 1974))である。
この場合、式(7)にc=>0の制約が加わり、式(9)によって定められる誤差eを最小化することにより求められる。
Figure 0005159279
非負最小二乗法は、インデックス集合P及びZを用いて解を求める。
インデックス集合Zに含まれるインデックスに対する解の値は0になり、集合Pに含まれるインデックスに対する値は0以外になる。その値が非負になった場合、値を正にするか、または値を0として前記当するインデックスを集合Zに移す。終了時には、cに解が求まる。
非負最小二乗法を用いる場合のスペクトル包絡パラメータ算出ステップS52の処理を図11に示す。まず、初期化ステップS111において、P={},Z=(0,…,N−1),c=0とし、次に勾配ベクトル算出ステップS112において、勾配ベクトル
Figure 0005159279
を求める。
終了判定ステップS113では、集合Zが空集合もしくは、Zに含まれるインデクスiについてw(i)<0ならば終了する。次にインデクス集合更新ステップS114では、Zに含まれるインデクス中でw(i)が最大になるiを求め、集合Zから集合Pに移動する。最小二乗ベクトル算出ステップS115ではPに含まれるインデックスに対して最小二乗法で解を求める。すなわち、L×Nの行列Φpを定義し、
Figure 0005159279
Φpを用いた場合の二乗誤差
Figure 0005159279
を最小化するN次元ベクトルyを求める。この処理では。y,i∈Pのみ値が求まるので、i∈Zに対しては、y=0とする。
非負判定ステップS115では、Pに含まれるインデクスiに対してy>0ならば、c=yとして勾配ベクトル算出ステップS112に戻る。そうでな場合は、解更新ステップS117に進む。解更新ステップS117では、
Figure 0005159279
となるインデクスjを求め、α=c/(c−y),c=c+α(y−c)とし、c=0となる全てのインデクスi∈Pを集合Zに移動して最小二乗ベクトル算出ステップS115に戻る。すなわち、式(9)を最小化した結果、解が負になったインデックスを集合Zに写して再度最小二乗ベクトル算出ステップに戻る。
以上のアルゴリズムにより、c=>0(i∈P),c=0(i∈Z)として式(9)の最小二乗解が求まる。これにより、最適な非負のスペクトル包絡パラメータcを求めることができる。また、より容易にスペクトル包絡パラメータを非負にするため、式(8)により求める最小二乗法で求めたスペクトル包絡パラメータに対して負の値となった係数を零としてもよい。これにより、非負のスペクトルパラメータを求めることができ、スペクトル包絡の概形を適切に表すスペクトル包絡パラメータを求めることが可能になる。
(8)位相情報
上記したスペクトル包絡パラメータと同様に位相情報も同様にパラメータとしてもよい。
この場合、生成装置は、図12に示すように、位相スペクトル抽出部121と、位相スペクトルパラメータ算出部122がさらに加わる。
(8−1)位相スペクトル抽出部121
位相スペクトル抽出部121の処理は、包絡抽出部12の離散フーリエ変換ステップS32において得られたスペクトル情報を入力し、アンラップした位相情報を出力する。
位相スペクトルパラメータ抽出部121は、図13に示すように、音声フレームを離散フーリエ変換して得られたスペクトルを入力するスペクトル入力ステップS131と、スペクトル情報から位相スペクトルを算出する位相スペクトル算出ステップS132と、位相をアンラップする位相アンラップステップS133と、得られた位相スペクトルを出力する位相スペクトル出力ステップS134から構成される。
位相スペクトル算出ステップS132では、
Figure 0005159279
である位相スペクトルを求める。
実際には、位相スペクトルはフーリエ変換の虚部と実部の比のアークタンジェントを求めることにより生成する。
位相スペクトル算出ステップS132では、位相の主値が求まるが、位相の主値は不連続性を示すため、位相アンラップステップS133において、不連続性がなくなるように位相をアンラップする。位相のアンラップは、隣り合う位相がπ以上ずれた場合2πの整数倍を加算、もしくは減算することにより行う。なお、Lは離散フーリエ変換の点数もしくはその正の成分である半分の点数である。
(8−2)位相スペクトルパラメータ算出部122
次に、位相スペクトルパラメータ算出部122では、位相スペクトル抽出部121において得られた位相スペクトルに対し、位相スペクトルパラメータを求める。
位相スペクトルパラメータも式(2)と同様に局所基底保持部15に保持されている基底とパラメータとの線形結合として位相スペクトルを表現する。
Figure 0005159279
Nは、位相スペクトルパラメータの次元数であり、Y(k)は、位相スペクトルパラメータから生成したL次元の位相スペクトル、φ(k)はL次元の局所基底ベクトルでありスペクトル包絡パラメータの際の基底と同様に作成する。
(0<=i<=N−1)が位相スペクトルパラメータになる。
位相スペクトルパラメータ算出部122は、位相スペクトルを入力する位相スペクトル入力ステップS141と、位相スペクトルパラメータを算出する位相スペクトルパラメータ算出ステップS142と、得られた位相スペクトルパラメータを出力する位相スペクトルパラメータ出力ステップS143の処理を行う。
位相スペクトルパラメータ算出ステップS142では式(8)に示される最小二乗法によるスペクトル包絡パラメータ算出と同様に行う。位相スペクトルパラメータをdとし、位相スペクトルの歪みを二乗誤差eとすると、
Figure 0005159279
但し、PはP(k)をベクトル表記したものであり、Φは局所基底をならべた行列である。式(17)に示す連立方程式をガウスの消去法、コレスキー分解などにより解いて極値を求めることにより位相スペクトルパラメータを得る。
Figure 0005159279
図7のピッチ波形に対して位相スペクトルパラメータを求めた例を図15に示す。
上からアンラップした位相スペクトルであり、位相スペクトルパラメータは位相スペクトルの概形を現していることがわかる。また、式(15)により位相スペクトルパラメータから再合成した位相スペクトルは分析元の位相スペクトルに近く、高品質なパラメータが得られることがわかる。
(9)スパースコーディング法
上記した生成装置は、ハニング窓で作成した局所基底を用いているがこれに限定するものではない。学習データとして用意した対数スペクトル包絡から、非特許文献3に示されるスパースコーディング法によって基底を作成してもよい。
なお、非特許文献3とは、文献(Bruno A. Olshausen and David J. Field, 「Emergence of simple-cell receptive field properties by learning a sparse code for natural images,」 Nature, vol. 381, 13 June, 1996)である。
(9−1)スパースコーディング法の内容
スパースコーディング法とは、画像処理分野で用いられる手法であり、画像を基底の線形結合で表現するものである。
二乗誤差を表す項に係数が疎であることを表す正則化項を加えて作成された評価関数を用い、前記評価関数を最小化するように基底を作成することにより、学習データとして与えた画像データから局所的な基底が自動的に得られる。
スパースコーディング法を音声の対数スペクトルに適用し、局所的な基底を求めることにより、局所基底保持部15に保持される基底を作成することができる。
これにより、音声データに対して、スパースコーディング法の評価関数を最小化する最適な基底が得られる。
(9−2)スパースコーディング法による処理
スパースコーディング法によって基底を作成する場合の局所基底作成部14の処理を、図16に示す。
局所基底作成部14は、学習データとして用意した音声データから求めた対数スペクトルを入力する対数スペクトル包絡入力ステップS161と、一つの初期規定を作成する初期規定作成ステップS162と、現在の基底に対して係数を算出する係数算出ステップS163と、得られた係数に基づいて基底を更新する基底更新ステップS164と、基底の更新が収束したかどうかを判定する収束判定ステップS165と、基底の数が予め定めた個数かどうかを判定する終了判定ステップS166と、基底の数が予め定めた個数に達していない場合に新たな基底を追加し初期基底を作成する基底追加ステップS167と、基底の数が予め定めた個数であった場合に局所基底を出力して終了する局所基底出力ステップとの処理を行う。
(9−2−1)ステップS161
対数スペクトル包絡入力ステップS161は、学習データとして用いる音声データの各ピッチ波形から求めた対数スペクトル包絡を入力する。音声データからの対数スペクトルの抽出は、音声フレーム抽出部11及び包絡抽出部12と同様に行うことができる。
(9−2−2)ステップS162
初期基底作成ステップS162は、まず基底の個数Nを1とし、φ(k)=1(0<=k<L)として初期規定を作成する。
(9−2−3)ステップS163
係数算出ステップS163は、現在の基底と学習データの各対数スペクトル包絡から各対数スペクトル包絡に対応する係数を算出する。スパースコーディングの評価関数とて、以下の式を用いる。
Figure 0005159279
式(18)のEが評価関数を表し、rは学習データの番号、Xは対数スペクトル包絡、Φは基底ベクトルを並べた行列、cは係数を表す。S(c)は係数の疎性を表す関数であり、S(c)はcが零に近いほど値が小さくなる関数を用いる。ここでは、S(c)=log(1+c)を用いる。また、νは基底φの重心を表す。λ及びμはそれぞれの正則化項に対する重み係数である。
式(18)の第一項は、対数スペクトル包絡と局所基底の線形結合との間の歪み量の和を表す誤差項であり、二乗誤差を誤差項としたもの、第2項は、係数を零に近づけるほど値が小さくなる係数の疎性を表す正則化項、第3項は、基底の重心からの距離の大きい点における値が大きくなるほど値が大きくなる基底の重心への集中度を表す正則化項である。
但し、第3項を含まない評価関数を用いても構わない。
係数算出ステップ163では、式(18)を最小化する係数cを全ての学習データXについて求める。式(18)は非線形な方程式になるが、共役勾配法を用いて求めることができる。
(9−2−4)ステップS164
基底更新ステップ164では、勾配法により基底を更新する。
基底φの勾配は、式(18)をφについて微分して得られる勾配の期待値から、
Figure 0005159279
として求めることができる。
ΦをΦ+ΔΦに置き換えることにより基底を更新する。ηは勾配法による学習に用いる微小な量である。
(9−2−5)ステップS165
次に、収束判定ステップS165では、勾配法による基底の更新の収束を判定する。
評価関数の値の差が所定の閾値より大きい場合は再度ステップS163に戻る。
評価関数の値が所定の閾値より大きい場合は、勾配法による繰り返しが収束したと判断し、終了判定ステップS166に進む。
(9−2−6)ステップS166
終了判定ステップS166は、得られた基底の個数が所定の値に到達したかどうかを判断する。
所定の値より少ない場合は、新たに基底を追加し、NをN+1として係数算出ステップS163に戻る。
追加する基底は初期値としてφN−1(k)=1(0<=k<L)として作成する。
以上の処理により、学習データから自動的に基底を作成することができる。
(9−2−7)ステップS168
局所基底出力ステップS168は最終的に得られた基底を出力する。
この際、窓関数をかけることにより基底の主な値を取る範囲外は0とする。以上の処理により作成した基底の例を図17に示す。
基底の個数はNは32とし、メルスケールに変換した対数スペクトルをXとして与え、上記した処理により学習した基底である。一つ全帯域にわたる基底も含まれるものの、周波数軸上で局所的な基底を持つ基底のセットが自動的に作成されていることがわかる。スパースコーディングにより学習した基底を用いてスペクトル包絡パラメータを求める際には、パラメータ算出部13においては、局所基底作成部14と同様に、式(18)による評価関数を用いてスペクトル包絡パラメータを算出することによりスペクトル包絡パラメータを生成する。
この処理によりデータから自動的に作成した局所基底を用いてスペクトル包絡パラメータを生成するため、高品質なスペクトルパラメータが得られる。
(10)固定のフレーム周期、フレーム長の音声フレームからの算出
上記した生成装置は、ピッチ同期分析にもとづいているが、これに限定するものではない。固定のフレーム周期、フレーム長の音声フレームからスペクトル包絡パラメータを算出してもよい。
この場合、音声フレーム11は、図18に示すように、音声データを入力する音声データ入力ステップS181と、固定のフレームレートによってフレーム中心の時刻を設定する音声フレーム設定ステップS182と、固定のフレーム長の窓関数によって音声フレームを抽出する音声フレーム抽出ステップS183と、得られた音声フレームを出力する音声フレーム出力ステップS184の処理を行う。包絡抽出部12は、前記音声フレームを入力し、対数スペクトル包絡を出力する。
(10−1)分析例
図7の音声データに対し、窓長23.2ms(512点)、10msシフト、ブラックマン窓を用いて分析する例を図19に示す。
音声フレーム設定ステップS181では、10msの固定周期で分析窓の中心を定める。図7とは異なり、分析窓の中心はピッチに同期したものではなくなる。図19は上から音声フレームとフレーム中心時刻を示しており、固定長のブラックマン窓を掛けて切り出した音声フレームを下段に示している。
(10−1−1)スペクトル包絡の算出
図20は、図10と同様にスペクトル分析をし、パラメータを求めた例を示している。固定フレームの場合、各音声フレームは複数のピッチを含み、そのスペクトルは滑らかなスペクトル包絡にならずに、ハーモニクスの影響による微細な変動を持つ。図20の2段目にフーリエ変換によって得られた対数スペクトルを示す。このような微細な変動を含むスペクトルに対して局所基底の係数としてスペクトル包絡パラメータを求めると、周波数領域における解像度の高い低域部分において、微細な変動にそのままフィッティングし、滑らかなスペクトル包絡にはならない。
そこで、固定フレーム周期、フレーム長による分析の場合は、包絡抽出部12の対数スペクトル包絡算出ステップS33において、音声フレームから対数スペクトル包絡を求め、得られた対数スペクトル包絡に対して、パラメータ算出部13において、局所基底の係数をフィッティングさせることによりスペクトル包絡パラメータを得る。スペクトル包絡抽出は線形予測分析による方法、メルケプストラムの不偏推定による方法、STRAIGHTによる方法などにより求めることができる。図20の3段目に示した対数スペクトル包絡は、STRAIGHT法によって求めたものである。STRAIGHT法では、相補的時間窓による時間方向の変動の除去と、調波位置の値を保つ平滑化関数による周波数方向平滑化によってスペクトル包絡を求める。
(10−1−2)スペクトル包絡パラメータの算出
このように求めたスペクトル包絡に対して、スペクトルパラメータ算出部13では、局所的基底の線形結合によるスペクトル包絡パラメータを求める。
スペクトルパラメータ算出部13の処理はピッチ同期分析の場合と同様に行うことができる。
(10−2)分析結果
得られたスペクトル包絡パラメータと、再生成したスペクトルを4段、5段に示す。入力した対数スペクトル包絡に近いスペクトルが再生成されている様子がわかる。
また、ここでは一度スペクトル包絡を求めてからスペクトル包絡パラメータを求めたが、評価関数として、対数スペクトルとスペクトル包絡パラメータから再生成したスペクトルとの歪みと係数が滑らかになる正則化項との和を用い、対数スペクトルから直接スペクトル包絡パラメータを求めてもよい。
以上の処理により、固定のフレーム周期、固定のフレーム長の場合においても局所基底の線形結合によるスペクトル包絡パラメータを生成することができる。
(11)量子化
上記したスペクトル包絡出力ステップS52では、そのままスペクトル包絡パラメータを出力しているが、スペクトル包絡パラメータに対して帯域に応じた量子化を行って情報量を削減して出力してもよい。
この場合には、スペクトル包絡パラメータ出力ステップS53は、図21に示すように、スペクトル包絡パラメータの各次元に対する量子化ビット数を決定するビット割り当て決定ステップS211と、量子化幅を決定する量子化幅決定ステップS212と、実際にスペクトル包絡パラメータを量子化するスペクトル包絡パラメータ量子化ステップS213と、得られたパラメータを出力する量子化スペクトルパラメータ出力ステップとの処理を行う。
(11−1)ステップS211
ビット割り当て決定ステップS211では、帯域分割符号化の際の適応情報割り当てと同様に、次元毎の可変のビットレートで最適な情報割り当てを行う。平均情報量をBとし、各次元の係数の平均をμ、標準偏差をσとしたとき、最適情報割り当てbは、
Figure 0005159279
により求めることができる。
(11−2)ステップS212
量子化幅決定ステップS212では、式(20)により決定されたビット数とσに基づいて、量子化幅を決定する。均一量子化を行う場合は、各次元の最大値c maxと最小値c minから
Figure 0005159279
として求めることができる。均一量子化でなく、量子化ひずみを最小化する最適量子化を行ってもよい。
(11−3)ステップS213
スペクトル包絡パラメータ量子化ステップS213では、上記したビット割り当てと量子化幅を用いてスペクトル包絡パラメータの各係数を量子化する。cを量子化した結果をqとしQをビット列を決定する関数としたとき、
Figure 0005159279
として量子化を行う。
(11−4)ステップS214
量子化スペクトルパラメータ出力ステップS214では、μ、Δc、及び各スペクトル包絡パラメータを量子化したqを出力する。
(11−5)量子化の変更例
上記した処理は、最適ビットレートを求めているが、固定のビットレートで量子化してもよい。
また、上記した処理では、σはスペクトル包絡パラメータの標準偏差としているが、sqrt(exp(c))としてリニアな振幅に変換したパラメータから標準偏差を求めてもよい。
また、位相スペクトルパラメータも同様に量子化することができる。位相スペクトルパラメータは−πからπの間の位相の主値を求めて量子化する。
(11−6)量子化の結果
これらの処理により、スペクトル包絡パラメータは平均4.75ビット、位相スペクトルパラメータは平均3.25ビットで量子化し、再生成した例を図22示す。
図22はスペクトル包絡と量子化スペクトル包絡、及び位相スペクトル、位相スペクトルの主値、量子化位相スペクトルを示している。
それぞれスペクトル包絡パラメータから再生成したものである。量子化誤差を含むものの、量子化前のスペクトルに近い結果が得られていることがわかる。このように、スペクトルパラメータを量子化することにより、さらに効率よくスペクトルを表現することが可能になる。
(12)効果
以上により、本実施形態に関わる生成装置は、音声データを入力して、対数スペクトル包絡と局所的基底の線形結合との歪み量に基づいてパラメータを算出することにより、高品質、効率的、かつ帯域に応じた処理を容易に行うことのできるスペクトル包絡パラメータを得ることができる。
(第2の実施形態)
本発明の第2の実施形態に係わる音声合成装置について図23〜図26に基づいて説明する。
(1)音声合成装置の構成
図23は、本実施形態に係わる音声合成装置を示すブロック図である。
音声合成装置は、スペクトル包絡生成部231、ピッチ波形生成部232、波形重畳部233とを備えていて、ピッチマーク系列と、第1の実施形態に関わる生成装置により生成した各ピッチマーク時刻に対応するスペクトル包絡パラメータを入力し、合成音声を生成する。
(2)スペクトル包絡生成部231
スペクトル包絡生成部231は、入力したスペクトル包絡パラメータからスペクトル包絡を生成する。
スペクトル包絡の生成は、式(2)によって、局所基底保持部234に保持されている基底とパラメータとの線形結合によって行う。
位相スペクトルパラメータを入力した場合、ここで位相スペクトルも同様に生成する。
スペクトル包絡生成部231の処理は、図24に示すように、スペクトル包絡パラメータ入力ステップS241と、位相スペクトルパラメータ入力部S242と、スペクトル包絡生成ステップS243と、位相スペクトル生成ステップS244と、スペクトル包絡出力ステップS245と、位相スペクトル出力ステップS246の処理を行う。
スペクトル包絡生成ステップS243では、式(2)によって対数スペクトルX(k)を得て、位相スペクトル生成ステップS244では、式(15)によって位相スペクトルY(k)を得る。
(3)ピッチ波形生成部232
ピッチ波形生成部232は、図25に示すように、スペクトル包絡入力ステップS251と、位相スペクトル入力ステップS252と、ピッチ波形生成ステップS253と、ピッチ波形出力ステップS254の処理を行う。
ピッチ波形生成ステップS253では、離散逆フーリエ変換によってピッチ波形を生成する。
Figure 0005159279
対数スペクトル包絡を振幅スペクトルに変換し、位相スペクトルと振幅スペクトルから逆FFTし、端に短い窓をかけることによってピッチ波形を生成する。
このように得られたピッチ波形を、波形重畳部233において、入力したピッチマーク系列にしたがって重畳することにより、合成音声が得られる。
(4)処理例
図26は、図7において示した音声波形の分析合成を行った場合の処理の例を示している。
スペクトルパラメータから再生成したスペクトル包絡、位相スペクトルを用いて逆FFTによりピッチ波形を生成する。
入力したピッチマーク系列の各波形に対応した時刻を中心にピッチ波形を重畳して、音声波形を生成している。
図7に示した分析元の音声波形、ピッチ波形に近い音声波形が得られていることがわかる。すなわち、第1の実施形態における生成装置によって生成されたスペクトル包絡パラメータ及び、位相パラメータは高品質なパラメータであり、分析合成したときに元の音声に近い音声を生成することができる。
(5)効果
以上により本実施形態によれば、第1の実施形態に係る生成装置によって生成されたスペクトル包絡パラメータと、ピッチマーク系列を入力し、ピッチ波形の生成及び重畳を行うことにより高品質な音声を合成することができる。
(第3の実施形態)
本発明の第3の実施形態に係わる音声合成装置について図27〜図41に基づいて説明する。
(1)音声合成装置の構成
図27は、本実施形態に係わる音声合成装置を示すブロック図である。
音声合成装置は、テキスト入力部271と、言語処理部272と、韻律処理部273と、音声合成部274と、音声波形出力部275を備えていて、テキストを入力し、入力したテキストに対応する音声を合成する。
言語処理部272は、テキスト入力部271から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部273へ送る。
韻律処理部273は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列(音韻記号列)及び韻律情報を生成し、音声合成部274へ送る。
音声合成部274は、音韻系列及び韻律情報から音声波形を生成する。こうして生成された音声波形は音声波形出力部275で出力される。
(2)音声合成部274の構成
図28は、図27の音声合成部274の構成例を示すブロック図である。
図28において、音声合成器274は、音声素片記憶部281、音素環境記憶部282、音韻系列・韻律情報入力部283、複数音声素片選択部284、融合音声素片作成部285、融合音声素片編集・接続部286により構成される。
(3)音声素片記憶部281、音素環境記憶部282
音声素片記憶部281には、音声素片が蓄積されており、それらの音素環境の情報(音素環境情報)が音素環境記憶部282に蓄積されている。
音声素片の情報としては、第1の実施形態に係る生成装置287によって音声波形から生成されたスペクトル包絡パラメータを記憶している。
音声素片記憶部281には、合成音声を生成する際に用いる音声の単位(合成単位)の音声素片が記憶されている。
合成単位は、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素(C、V)、ダイフォン(CV、VC、VV)、トライフォン(CVC、VCV)、音節(CV、V)、などであり(Vは母音、Cは子音を表す)、これらが混在しているなど可変長であってもよい。
音声素片の音素環境とは、当前記音声素片にとっての環境となる要因に対応する情報である。要因としては、例えば、当前記音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度などがある。
(4)音韻系列・韻律情報入力部283
音韻系列・韻律情報入力部283には、韻律処理部273から出力された入力テキストに対応する音韻系列及び韻律情報が入力される。
音韻系列・韻律情報入力部283に入力される韻律情報としては、基本周波数、音韻継続時間長などがある。
以下、音韻系列・韻律情報入力部283に入力される音韻系列と韻律情報を、それぞれ入力音韻系列、入力韻律情報と呼ぶ。「入力音韻系列」は、例えば音韻記号の系列である。
(5)複数音声素片選択部284
複数音声素片選択部284は、入力音韻系列の各合成単位に対し、入力韻律情報と、融合音声素片の音素環境に含まれる韻律情報とに基づいて合成音声の歪み量を推定する。そして、前記合成音声の歪み量に基づいて音声素片記憶部281に記憶されている音声素片の中から、複数の音声素片を選択する。
ここで、「合成音声の歪み量」は、音素素片記憶部281に記憶されている音声素片の音素環境と音韻系列・韻律情報入力部283から送られる目標音素環境との違いに基づく歪みである目標コストと、接続する音声素片間の音素環境の違いに基づく歪みである接続コストの重み付け和として求められる。
「目標コスト」とは、音声素片記憶部281に記憶されている音声素片を入力されたテキストの目標素片環境のもとで使用することによって生じる歪みである。
「接続コスト」とは、接続する音声素変換の素片環境が不連続であることによって生じる歪みである。
本実施形態においては、合成音声の歪み量として、後述するコスト関数を用いる。
(6)融合音声素片系列作成部285
次に、融合音声素片系列作成部285において、選択された複数の素片を融合することにより、融合音声素片を生成する。
本実施形態では、音声素片の融合処理は音声素片記憶部281に記憶されているスペクトル包絡パラメータを用いて行う。
融合音声素片の系列は、融合音声素片編集・接続部286において、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される。
接続部における素片境界の平滑化も融合されたスペクトル包絡パラメータを平滑化することにより行う。
得られたスペクトル包絡パラメータと、入力した韻律情報から得られるピッチマークを用いて、第2の実施形態に基づく音声合成装置による音声波形生成処理によって合成音声が得られる。
こうして生成された音声波形は音声波形出力部275で出力される。
(7)音声合成部274の各処理
以下、音声合成部274の各処理について詳しく説明する。
ここでは、合成単位の音声素片は半音素であるとする。
(8)生成装置287
生成装置287は、図29に示すように、音声素片の音声波形からスペクトル包絡パラメータ及び、位相スペクトルパラメータを生成する。
図29は上から音声素片とそのピッチ波形、スペクトル包絡パラッメータ、位相スペクトルパラメータを表している。スペクトル包絡パラメータの図中の数字は素片番号とピッチマーク番号を示している。
(9)音声素片記憶部281、音素環境記憶部282
音声素片記憶部281は、図30に示すように、得られたスペクトル包絡パラメータ及び位相スペクトルパラメータを、音声素片番号と共に記憶している。
音素環境記憶部282には、図31に示すように、音声素片記憶部281に記憶されている各音声素片の音素環境情報が、当前記音素の素片番号に対応付けて記憶されている。ここでは、音素環境として、半音素記号(音素名及び左右)、基本周波数、音韻継続長、接続境界ケプストラムが記憶されている。
なお、ここでは音声素片は半音素単位としているが、音素、ダイフォン、トライフォン、音節あるいはこれらの組み合わせや可変長であっても上記同様である。
音声素片記憶部281に記憶されている各音声素片は、別途収集された多数の音声データ対して音素毎にラベリングを行い、半音素毎に音声波形を切り出したものからスペクトル包絡パラメータを生成し、音声素片として蓄積したものである。
例えば、図32には、音声データ321に対し、音素毎にラベリングを行った結果を示している。図32では、ラベル境界322により区切られた各音素の音声データ(音声波形)について、ラベルデータ323として音素記号を付与している。
なお、この音声データから、各音素についての音素環境の情報(例えば、音韻(この場合、音素名(音素記号))、基本周波数、音韻継続時間長など)も抽出する。
このようにして音声データ321から求めた各音声波形に対応するスペクトル包絡パラメータと、当前記音声波形に対応する音素環境の情報には、同じ素片番号が与えられて、図30及び図31に示すように、音声素片記憶部281と音素環境記憶部282にそれぞれ記憶される。
(10)複数音声素片選択部284
次に、複数音声素片選択部284において素片系列を求める際に用いられるコスト関数について説明する。
まず、音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因毎にサブコスト関数C(u、ui−1、t)(n:1、…、N、Nはサブコスト関数の数)を定める。
ここで、tは、入力音韻系列及び入力韻律情報に対応する目標とする音声(目標音声)をt=(t、…、t)としたときのi番目のセグメントに対応する部分の音声素片の目標とする音素環境情報を表す。
は音声素片記憶部281に記憶されている音声素片のうち、tと同じ音韻の音声素片を表す。
(10−1)サブコスト関数
サブコスト関数は、音声素片記憶部281に記憶されている音声素片を用いて合成音声を生成したときに生ずる当前記合成音声の目標音声に対する歪み量を推定するためのコストを算出するためのものである。当前記コストを算出するために、当前記音声素片を使用することによって生じる合成音声の目標音声に対する歪み量を推定する目標コストと、当前記音声素片を他の音声素片と接続したときに生じる当前記合成音声の目標音声に対する歪み量を推定する接続コストという2種類のサブコストがある。
(10−2)目標コスト
目標コストとしては、音声素片記憶部281に記憶されている音声素片の基本周波数と目標の基本周波数との違い(差)を表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い(差)を表す音韻継続時間長コストを用いる。
(10−3)接続コスト
接続コストとしては、接続境界でのスペクトルの違い(差)を表すスペクトル接続コストを用いる。
(10−4)各コストの具体例
具体的には、基本周波数コストは、
Figure 0005159279
から算出する。ここで、vは音声素片記憶部281に記憶されている音声素片uの音素環境を、fは音素環境vから平均基本周波数を取り出す関数を表す。
また、音韻継続時間長コストは、
Figure 0005159279
から算出する。ここで、gは音素環境vから音韻継続時間長を取り出す関数を表す。
スペクトル接続コストは、2つの音声素片間のケプストラム距離:
Figure 0005159279
から算出する。ここで、hは音声素片uの接続境界のケプストラム係数をベクトルとして取り出す関数を表す。
(10−5)合成単位コスト関数
これらのサブコスト関数の重み付き和を合成単位コスト関数と定義する。
Figure 0005159279
ここで、wはサブコスト関数の重みを表す。
本実施形態では、簡単のため、wは全て「1」とする。上記式(4)は、ある合成単位に、ある音声素片を当てはめた場合の当前記音声素片の合成単位コストである。
入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式(4)から合成単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当前記コストを算出するためのコスト関数を次式(5)に示すように定義する。
Figure 0005159279
複数音声素片選択部284では、上記(1)〜(5)に示したコスト関数を使って2段階で1セグメント当たり(すなわち、1合成単位当たり)複数の音声素片を選択する。
(10−6)素片選択処理
図33は、素片選択処理を説明するためのフローチャートである。
(10−6−1)ステップS331
まず、目標情報、素片情報入力ステップS331で、目標とする音声の音韻・韻律情報等素片選択の目標を表す目標情報と、音素環境記憶部282に記憶されている音声素片の音素環境情報を入力する。
(10−6−2)ステップS332
そして、1段階目の素片選択として、最適素片系列探索ステップS332では、音声素片記憶部281に記憶されている音声素片の中から、上記式(28)で算出されるコストの値が最小の音声素片の系列を求める。
このコストが最小となる音声素片の組み合わせを最適素片系列と呼ぶ。すなわち、最適音声素片系列中の各音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適音声素片系列中の各音声素片から算出された上記合成単位コストと式(28)より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。
なお、最適素片系列の探索には、動的計画法(DP:dynamic programming)を用いることでより効率的に行うことができる。
(10−6−3)ステップS333,334
次に、素片順位付けステップS333及び上位N個の素片選択ステップS334により、最適素片系列を用いて1セグメント当たり複数の音声素片を選ぶ。
素片順位付けステップS333及び複数素片選択ステップS334では、セグメントの中の1つを注目セグメントとする。
素片順位付けステップS333及び複数素片選択ステップS334の処理は繰り返され、全てセグメントが1回ずつ注目セグメントとなるように処理を行う。
まず、注目セグメント以外のセグメントには、それぞれ最適素片系列の音声素片を固定する。この状態で、注目セグメントに対して音声素片記憶部281に記憶されている音声素片を式(28)のコストの値に応じて順位付けを行う。
素片順位付けステップS333の処理は、音声素片記憶部281に記憶されている音声素片のうち、注目セグメントの半音素と同じ音素名(音素記号)を持つ音声素片のそれぞれについて、式(28)を用いてコストを算出する。
但し、それぞれの音声素片に対してコストを求める際に、値が変わるのは、注目セグメントの目標コスト、注目セグメントとその一つ前のセグメントとの接続コスト、注目セグメントとその一つ後のセグメントとの接続コストであるので、これらのコストのみを考慮すればよい。すなわち、次のような手順となる。
(手順1) 音声素片記憶部281に記憶されている音声素片のうち、注目セグメントの半音素と同じ半音素名(音素記号)を持つ音声素片のうちの1つを音声素片uとする。音声素片uの基本周波数f(v)と、目標の基本周波数f(t)とから、式(24)を用いて、基本周波数コストを算出する。
(手順2) 音声素片uの音韻継続時間長g(v)と、目標の音韻継続時間長g(t)とから、式(25)を用いて、音韻継続時間長コストを算出する。
(手順3) 音声素片uのケプストラム係数h(u)と、一つ前の音声素片(u)のケプストラム係数h(u)とから、式(26)を用いて、第1のスペクトル接続コストを算出する。また、音声素片uのケプストラム係数h(u)と、一つ後の音声素片(u)のケプストラム係数h(u)とから、式(26)を用いて、第2のスペクトル接続コストを算出する。
(手順4) 上記(手順1)〜(手順3)で各サブコスト関数を用いて算出された基本周波数コストと音韻継続時間長コストと第1及び第2のスペクトル接続コストの重み付け和を算出して、音声素片uのコストを算出する。
(手順5) 音声素片記憶部281に記憶されている音声素片のうち、注目セグメントの半音素と同じ半音素名(音素記号)を持つ各音声素片について、上記(手順1)〜(手順4)にしたがって、コストを算出したら、その値の最も小さい音声素片ほど高い順位となるように順位付けを行う。その後、ステップS334において、上位N個の複数の音声素片を選択する。
以上の(手順1)〜(手順5)をそれぞれのセグメントに対して行う。その結果、それぞれのセグメントについて、複数のN個の音声素片が得られる。
なお、上記したコスト関数では、スペクトル接続コストとして、ケプストラム距離を用いているが音声素片記憶部271に記憶されている端点のスペクトル包絡パラメータからスペクトル距離を求め、スペクトル接続コスト(26)として用いてもよい。これによりケプストラムを保持する必要がなくなり、音素環境記憶部のサイズが小さくなる。
(11)融合音声素片作成部285
次に、融合音声素片作成部285について説明する。
融合音声素片作成部285では、複数音声素片選択部284において選択された複数の音声素片を融合し、融合音声素片を作成する。
音声素片の融合は、複数の音声素片からそれらを代表する音声素片を作成する処理である。本実施形態では、第1の実施形態に基づく生成装置によって得られたスペクトル包絡パラメータを用いて融合処理を行う。
ここでは融合の方法として、低域部分はスペクトル包絡パラメータを平均化し、高域部分は選択したスペクトル包絡パラメータを用いることによって融合スペクトル包絡パラメータを生成する。これにより全帯域を平均化した場合に生じる主に高域の音質劣化やバジー感を抑えることができる。
また、ピッチ波形の平均化等、時間領域で融合する場合は、位相の不一致の影響を受けるが、スペクトル包絡パラメータを用いて融合するため位相の影響を受けずに融合することができ、バジー感を抑えることができる。
位相スペクトルパラメータも同様に融合し、融合スペクトル包絡パラメータ及び融合位相スペクトルパラメータを、融合音声素片として出力する。
(11−1)融合音声素片作成部285の処理
図34に融合音声素片作成部285の処理を示す。
(11−1−1)ステップS341
まず、複数音声素片入力ステップS341で、複数音声素片選択部284で選択した複数の音声素片のスペクトル包絡パラメータ及び位相スペクトルパラメータを入力する。
(11−1−2)ステップS342
次に、ピッチ波形対応付けステップS342で、合成する目標の継続長にあわせるためにピッチ波形の数を揃える。
ピッチ波形の数は予め生成した目標ピッチマークの数に揃える。目標ピッチマークは、入力した基本周波数及び継続長から作成したものであり、合成音声のピッチ波形の中心時刻の系列である。
図35にピッチ波形対応付けの処理を示す。図35は、「あ」の左側の音声を合成する例であり、複数素片素片選択の結果として素片番号1,2,3の3つの素片が選択されたものとする。
目標のピッチマーク数は、9個であり、3つの素片はそれぞれ9個、6個、及び10個のピッチ波形を含んでいる。このとき、ピッチ波形対応付けステップS342では、各音声素片のピッチ波形の数を目標とするピッチマーク数に揃えるために、ピッチ波形のコピーまたは削除を行う。音声素片1は同数のためそのまま用い、音声素片2は、4番目及び5番目のピッチ波形をコピーすることにより9個に揃えている。また音声素片3は、9番目のピッチ波形を削除することにより揃えている。
このようにピッチ波形の個数を揃え、各スペクトルパラメータの融合処理を行う。すなわち、ピッチ波形の対応づけを行ったスペクトルパラメータから、A−1からA−9までの融合音声素片Aの各スペクトルパラメータを生成する。
(11−1−2)ステップS343
次に、スペクトル包絡パラメータ平均化ステップS343で、スペクトル包絡パラメータの平均化を行う。
図36はこの様子を示している。スペクトル包絡パラメータ1から3までの各次元の値の平均値を求めて、平均スペクトル包絡パラメータA’を求めている。
Figure 0005159279
c’(t)は平均スペクトル包絡パラメータであり、c(t)はi番目の音声素片のスペクトル包絡パラメータである。Nは融合音声素片の個数である。
なお、ここでは各次元の値をそのまま平均化したが、n乗して平均化しn乗根を求めたり、指数を求めて平均化して対数を計算することなどにより求めてもよい。また所定の重みづけした平均化を行ってもよい。
このように、スペクトル包絡パラメータ平均化ステップS343では各音声素片のスペクトル包絡パラメータから平均スペクトル包絡パラメータを求める。
(11−1−4)ステップS344
次に、高域音声素片選択ステップS344では、平均スペクトル包絡パラメータに最も近い音声素片を、選択された複数の音声素片のなかから選択する。
平均スペクトル包絡パラメータと、各音声素片のスペクトル包絡パラメータとの歪みを計算し、歪みの最も小さい音声素片を選択する。
歪みとしては、パラメータの二乗誤差を用いることができる。音声素片全体の平均歪みを計算し、平均歪みを最小化する音声素片を選択する。
上記した例では、音声素片1が平均スペクトル包絡パラメータからの二乗誤差最小の素片として選択される。
(11−1−5)ステップS345
高域置換ステップS345では、平均スペクトル包絡パラメータの高域部分を広域音声素片選択ステップS344で選択した音声素片のパラメータに置き換える。
置き換え処理として、まず境界周波数(境界次数)の抽出を行う。境界周波数は、ここでは低域からの振幅の累積値に基づいて決定する。
この場合、まず、振幅スペクトルの累積値cum(t)を求める。
Figure 0005159279
(t)はスペクトル包絡パラメータであり、対数スペクトル領域から振幅スペクトル領域に変換した値を用いている。tはピッチマーク番号であり、jは素片番号、pは次元であり、Nはスペクトル包絡パラメータの次元数である。
このように全次数の累積値を求め、予め定めた比率λを用いて、低域からの累積値がλ・cum(t)より小さくなる最大の次数qを求める。
Figure 0005159279
これにより、振幅に基づいた境界の抽出を行うことができる。ここではλ=0.97としている。λは例えば有声摩擦音では小さい値に設定し、低域よりの境界周波数が得られるようにしてもよい。上記した例では境界次数として、(27,27,31,32,35,31,31,28,38)の次元が選ばれている。
次に、実際に高域の置換を行って、融合スペクトル包絡パラメータを生成する。
混合の際は、10点程度の幅で滑らかに変化するように重みを定め、重みづけ和を求めることにより混合する。
高域置換の例を図37に示す。
平均スペクトルパラメータA’の低域部分と、選択された音声素片(音声素片1)のスペクトルパラメータの高域部分を混合し、融合スペクトル包絡パラメータを得ている。高域の置換処理により、平均スペクトルパラメータA’では高域部分が滑らかになっているのに対し、高域のスペクトルの山や谷を持つ、自然なスペクトル包絡パラメータが生成されている。以上の処理によって、融合スペクトル包絡パラメータが得られる。
これにより、低域は平均化されるために安定し、広域は選択された素片の情報を用いるために肉声間を保持したスペクトル包絡パラメータが得られる。
(11−1−6)ステップS346
次に、位相スペクトルパラメータ融合ステップS346では、スペクトル包絡パラメータと同様に、選択された複数の位相スペクトルパラメータから融合位相スペクトルパラメータを作成する。
スペクトル包絡パラメータと同様に、平均化及び高域の置換によって位相スペクトルパラメータの融合を行う。
位相スペクトルパラメータの融合の際は、適宣位相のアンラップ処理を行い、アンラップした位相スペクトルパラメータから平均位相スペクトルパラメータを求め、高域の置換を行って、生成することができる。
位相スペクトルパラメータを融合した例を図38に示す。スペクトル包絡パラメータの融合と同様にピッチ波形数を揃え、各ピッチマークに対応した位相スペクトルパラメータに対し、平均化と高域置換の処理により生成している。
位相スペクトルパラメータの生成は、平均化と高域混合に限定するものはなく、他の生成方法を用いてもよい。例えば、音素中心の複数の音声素片の位相スペクトルパラメータから音素中心の融合位相スペクトルパラメータを作成し、音素間は融合位相スペクトルパラメータを補間することにより生成してもよい。さらに、補間して生成した位相スペクトルパラメータの高域部分を各ピッチマーク位置において選択された位相スペクトルパラメータの高域部分に置換してもよい。
これにより、低域部は不連続感の少ない滑らかな位相スペクトルパラメータを生成することができ、高域部分は肉声間の高いパラメータを得ることができる。
(11−1−7)ステップS347
融合音声素片出力ステップS347において、上記のようにして得られた融合スペクトル包絡パラメータ、及び、融合位相スペクトルパラメータを、出力することにより、融合音声素片が作成される。
このように、第1の実施形態の生成装置によって得られるスペクトル包絡パラメータは、帯域に応じた高域置換のような処理を容易に行うことができるため、複数音声素片選択・融合型音声合成に好適なスペクトルパラメータになる。
(12)融合音声素片編集・接続部286
次に、融合音声素片編集・接続部286では、上記したスペクトルパラメータに対し、素片境界における平滑化を行い、得られたスペクトルパラメータから、第2の実施形態に基づく音声合成装置の処理と同様に、ピッチ波形を生成し、入力したピッチマーク位置を中心としてピッチ波形の重畳処理を行い、音声波形を生成する。
融合音声素片編集・接続部286の処理は、図39に示すようになる。
融合音声素片作成部285において生成された融合音声素片を入力する融合音声素片入力ステップS391と、音声素片の接続境界において、融合音声素片を平滑化する融合音声素片平滑化ステップS392と、得られた融合音声素片のスペクトルパラメータからピッチ波形を生成するピッチ波形生成ステップS393と、ピッチマークにあわせて波形を重畳する波形重畳ステップS394と、得られた音声波形を出力する音声波形出力ステップS395の処理を行う。
(12−1)ステップS392
融合音声素片平滑化ステップS392では、素片の境界におけるスムージングを行う。
融合スペクトル包絡パラメータのスムージングは隣の素片の端に対応する融合スペクトル包絡パラメータとの重みづけ和により行うことができる。
平滑化に用いるピッチ波形数lenを定め、以下のように直線の補間でスムージングを行うことができる。
Figure 0005159279
但し、c’(t)は平滑化した融合スペクトル包絡パラメータ、c(t)は融合スペクトル包絡パラメータ、cadj(t)は隣接する素片の端点における融合スペクトル包絡パラメータであり、wは平滑化重み、tは接続境界からの距離を表している。
位相スペクトルパラメータの平滑化も同様に行うことができるが、位相は時間方向にアンラップしてから平滑化してもよい。
また、直線の重みづけによる平滑化ではなく、スプライン平滑化など他の平滑化手法により平滑化してもよい。
第1の実施形態におけるスペクトル包絡パラメータは、各次元が同一の周波数帯域の情報を表しているため、パラメータの対応づけ等の処理を行わずに各次数の値に対してそのまま平滑化処理を行うことができる。
(12−1)ステップS393
次に、ピッチ波形生成ステップS393では、平滑化して得られたスペクトル包絡パラメータ及び位相スペクトルパラメータからピッチ波形を生成し、波形重畳ステップでは、目標のピッチマークに合わせて波形重畳を行う。
これらの処理は、本発明の第2の実施形態における音声合成装置の処理により行うことができる。
実際、融合及び平滑化したスペクトル包絡パラメータと位相スペクトルパラメータからスペクトルを再生し、式(23)により逆フーリエ変換によりピッチ波形を生成する。不連続を避けるために逆フーリエ変換した後に端に短い窓をかけてもよい。
これによりピッチ波形が生成される。生成されたピッチ波形は、目標とするピッチマークに合わせ重畳され、音声波形が得られる。
図40にこれらの処理を示す。
上から平滑化融合スペクトル包絡パラメータから、式(2)により生成した対数スペクトル、平滑化融合位相スペクトルパラメータから式(15)により生成した位相スペクトル、それらを式(23)により逆フーリエ変換して求めたピッチ波形を表し、さらにピッチマーク位置に波形重畳することにより得られた音声波形を示している。
(13)出力
以上の処理により、複数音声素片選択・融合型の音声合成において、第1の実施形態に基づくスペクトル包絡パラメータ及び位相スペクトルパラメータを用いて任意の文章に対応する音声波形を生成することができる。
なお、上記した処理は有声音の波形に対する合成処理を示しているが、無声音のセグメントは、無声音の波形をそのまま継続長変形して接続して合成してもよい。
以上の処理により生成した音声波形は、音声波形出力部275において、出力される。
(14)変更例
次に、第3の実施形態の音声合成装置の変更例について図41に基づいて説明する。
上記した音声合成装置は、複数素片選択・融合方式に基づく音声合成装置を示しているが、これに限定するものではない。すなわち、本変更例では、最適音声素片を選択し、韻律変形及び接続を行うことにより音声を合成する素片選択に基づく音声合成装置である。
図41に示すように、本変更例に基づく音声合成装置は、図28の音声合成装置の複数素片選択部285が、音声素片選択部411になり、融合音声素片作成部285の処理がなくなり、融合音声素片編集接続部286が、音声素片編集接続部412になる。
音声素片選択部411では、各セグメントに対して、最適な素片を選択し、選択した素片を音声素片編集・接続部にわたす。最適素片は、複数音声素片選択部284のステップS332と同様に、最適素片系列を求めることにより得られる。
音声素片編集接続部412では、音声素片の平滑化・ピッチ波形生成及び重畳を行うことで音声を合成する。このとき、平滑化の処理に第1の実施形態に基づく生成装置により得られたスペクトル包絡パラメータを用い、融合音声素片編集・接続部286のステップS392の処理と同様に行う。
これにより、高品質な平滑化を行うことができる。
また、平滑化したスペクトル包絡パラメータを用いて、ステップS393からステップS395の処理と同様に、ピッチ波形を生成し、波形重畳を行うことにより音声が合成される。
これにより、素片選択型の音声合成装置において、適切に平滑化された音声を合成することが可能になる。
(15)効果
以上により、本実施形態に基づく音声合成装置は、第1の実施形態に基づく生成装置により得られたスペクトル包絡パラメータを用いて、スペクトルパラメータの平均化と高域の置換、及びスペクトルパラメータによる平滑化を適切に行うことができる。また、帯域に応じた処理を容易に行うことのできる特徴を利用して、高品質な合成音声を効率的に生成することが可能となる。
(変更例)
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
例えば、上記実施形態においては、スペクトル包絡情報として、対数スペクトル包絡を用いているが、これに限定するものではなく、振幅スペクトルもしくはパワースペクトルによるスペクトル包絡情報を用いることができる。
本発明の第1の実施形態に係わる生成装置の構成を示すブロック図である。 音声フレーム抽出部の動作を示すフローチャートである。 包絡抽出部の動作を示すフローチャートである。 局所基底作成部の動作を示すフローチャートである。 パラメータ算出部の動作を示すフローチャートである。 生成装置の処理を説明するための音声データの例を示す図である。 音声フレーム抽出部の処理を説明するための図である。 周波数スケールの例を示す図である。 局所基底の例を示す図である。 スペクトル包絡パラメータの生成例を示す図である。 非負最小二乗法を用いる場合のパラメータ算出部の動作を示すフローチャートである。 位相スペクトルパラメータ算出部を含む場合の生成装置の構成を示すブロック図である。 位相スペクトル抽出部の動作を示すフローチャート 位相スペクトル算出部の動作を示すフローチャート 位相スペクトルパラメータの生成例を示す図である。 スパースコーディングによって局所基底を作成する場合の局所基底作成部の動作を示すフローチャートである。 スパースコーディングによって作成した局所基底の例を示す図である。 固定フレームレート、固定窓長によって分析を行う場合の音声フレーム抽出部の動作を示すフローチャートである。 固定フレームレート、固定窓長によって分析を行う場合の音声フレーム抽出部の処理を説明をするための図である。 固定フレームレート、固定窓長によって分析を行う場合のスペクトル包絡パラメータの生成例を示す図である。 スペクトル包絡パラメータの量子化を行う場合のスペクトル包絡パラメータ出力ステップS53の動作を示すフローチャートである。 量子化スペクトル包絡及び量子化位相スペクトルの例を示す図である。 第2の実施形態に係わる音声合成装置の構成を示すブロック図である。 スペクト包絡生成部の動作を示すフローチャートである。 ピッチ波形生成部の動作を示すフローチャートである。 音声合成装置の処理の例を示す図である。 第3の実施形態に係わる音声合成装置の構成を示すブロック図である。 音声合成部の構成を示すブロック図である。 生成装置におけるスペクトル包絡パラメータ生成の例を示す図である。 音声素片記憶部の例を示す図である。 音素環境記憶部の例を示す図である。 音声データから音声素片を得るための手順を説明するための図である。 複数音声素片選択部の動作を示すフローチャートである。 融合音声素片作成部の動作を示すフローチャートである。 ピッチ波形対応付けステップS342の処理の例を示す図である。 スペクトル包絡パラメータ平均化ステップS343の処理の例を示す図である。 高域置換ステップS345の処理の例を示す図である。 位相スペクトルパラメータ融合ステップS346の処理の例を示す図である。 融合音声素片編集・接続部の動作を示すフローチャートである。 融合音声素片編集・接続部の処理の例を示す図である。 第3の実施形態に係わる音声合成装置の構成の変更例を示すブロック図である。
符号の説明
11 音声フレーム抽出部
12 対数スペクトル包絡抽出部
13 スペクトル包絡パラメータ算出部
14 局所基底作成部
15 局所基底保持部

Claims (15)

  1. 音声信号をフレーム単位に分割するフレーム抽出部と、
    前記フレームから、スペクトルの微細構造成分を除いたスペクトルであるL次のスペクトル包絡情報を抽出する情報抽出部と、
    (1)前記L次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、(2)前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、(3)前記ピーク周波数が隣接する前記2つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、(4)前記基底をN個(L>N>1)格納する基底保持部と、
    前記各基底と前記各基底にそれぞれ対応する基底係数の線形結合と、前記スペクトル包絡情報との歪み量を、前記基底係数を変化させて最小化させ、この最小化したときの前記基底係数の集まりを、前記スペクトル包絡情報のスペクトル包絡パラメータとするパラメータ算出部と、
    を備えた音声処理装置。
  2. 前記基底保持部に格納する前記基底を作成する基底作成部を備え、
    前記基底作成部は、
    前記スペクトル領域内で前記ピーク周波数を複数決定するピーク決定部と、
    隣接する前記ピーク周波数の外側は値を零とし、隣接する前記ピーク周波数の幅を長さとする単峰性の窓関数を作成する関数作成部と、
    前記窓関数の形状を前記基底に設定する基底設定部と、
    を備えた請求項1記載の音声処理装置。
  3. 前記ピーク決定部は、
    (1)高い周波数になるほど広い間隔になるように前記ピーク周波数を決定するか、または、
    (2)前記スペクトル領域内の任意の境界周波数より低い周波数帯域は、高い周波数になるほど広い間隔になるように前記ピーク周波数を決定し、前記境界周波数より高い周波数帯域は、等間隔になるように前記ピーク周波数を決定する、
    請求項2記載の音声処理装置。
  4. 前記基底保持部に格納する前記基底を作成する基底作成部を備え、
    前記基底作成部は、
    前記基底作成用の音声信号から前記スペクトル包絡情報を抽出する作成情報抽出部と、
    (1)前記スペクトル包絡情報に対応する前記スペクトル包絡パラメータと前記基底の線形結合との間の歪み量の和を表す誤差項と、前記基底の各基底係数を零に近づけるほど値が小さくなるものであって、前記基底係数の疎性を表す第1正則化項との和による第1評価関数、または、(2)前記誤差項と、前記第1正則化項と、前記基底の重心からの距離の大きい位置における値が大きくなるほど値が大きくなるものであって、前記基底の重心への集中度を表す第2正則化項とを加えた第2の評価関数のどちらか一方の評価関数の値を、前記スペクトル包絡パラメータと前記基底を変えることによって最小化する最小化部と、
    前記評価関数の値が最小になっときの前記基底を、前記作成する基底に設定する基底設定部と、
    を備えた請求項1記載の音声処理装置。
  5. 前記パラメータ算出部は、
    前記歪み量が、前記各基底と前記各基底にそれぞれ対応する前記基底係数の線形結合と、前記スペクトル包絡情報との二乗誤差である、
    請求項1記載の音声処理装置。
  6. 前記パラメータ算出部は、
    前記基底係数の値が非負になる制約の下で、前記歪み量を最小化する、
    請求項1記載の音声処理装置。
  7. 前記パラメータ算出部は、
    前記スペクトル包絡パラメータの各次元に対し、量子化ビット数を割り当てる数決定部と、
    前記スペクトル包絡パラメータの各次元に対し、量子化幅を決定する幅決定部と、
    前記量子化ビット数と前記量子化幅に基づいて、前記スペクトル包絡パラメータの量子化を行う量子化部と、
    を備えた請求項1記載の音声処理装置。
  8. 前記スペクトル包絡情報が、対数スペクトル包絡、位相スペクトル、振幅スペクトル包絡、または、パワースペクトル包絡である、
    請求項1記載の音声処理装置。
  9. 複数の音声素片のピッチ波形に対応したL次のスペクトル包絡パラメータを保持するパラメータ保持部と、
    前記複数の音声素片の属性情報を保持する属性情報保持部と、
    入力されたテキストから得られる音韻系列を合成単位に区切る分割部と、
    前記属性情報を用いて、前記各合成単位に対応する一または複数の音声素片を選択する選択部と、
    前記選択された音声素片のピッチ波形に対応する前記スペクトル包絡パラメータを前記スペクトル包絡パラメータ保持部から取得する取得部と、
    (1)L次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、(2)前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、(3)前記ピーク周波数が隣接する前記2つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、(4)前記基底をN個(L>N>1)格納する基底保持部と、
    前記基底と前記スペクトル包絡パラメータとの線形結合によりスペクトル包絡情報を生成する包絡生成部と、
    前記スペクトル包絡情報から求めたスペクトルを逆フーリエ変換することによりピッチ波形を生成するピッチ生成部と、
    前記ピッチ波形を重畳することにより音声素片を生成し、前記生成した音声素片を接続することにより音声波形を生成する音声生成部と、
    を備えた音声合成装置。
  10. 前記取得部は、選択された前記音声素片が複数の場合には、前記各音声素片のスペクトル包絡パラメータをそれぞれ取得し、前記取得した複数のスペクトル包絡パラメータを、一つのスペクトル包絡パラメータに融合する融合部を、
    を備えた請求項9記載の音声合成装置。
  11. 前記融合部は、
    前記各音声素片のスペクトル包絡パラメータを時間方向に対応付ける対応付け部と、
    前記対応付けられた各スペクトル包絡パラメータを平均化して平均化スペクトル包絡パラメータを求める平均化部と、
    前記各音声素片から一つの代表音声素片を選択し、前記代表音声素片のスペクトル包絡パラメータを代表スペクトル包絡パラメータとして設定する代表選択部と、
    前記代表スペクトル包絡パラメータ、または、前記平均スペクトル包絡パラメータから境界次数を決定する境界次数決定部と、
    前記境界次数より低次のスペクトル包絡パラメータは平均スペクトル包絡パラメータを用い、前記境界次数より高次のスペクトル包絡パラメータは、前記代表スペクトル包絡パラメータを用いて、前記複数のスペクトル包絡パラメータを混合する混合部と、
    を備えた請求項10記載の音声合成装置。
  12. 音声信号をフレーム単位に分割するフレーム抽出ステップと、
    前記フレームから、スペクトルの微細構造成分を除いたスペクトルであるL次のスペクトル包絡情報を抽出する情報抽出ステップと、
    (1)前記L次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、(2)前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、(3)前記ピーク周波数が隣接する前記2つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、(4)前記基底をN個(L>N>1)格納する基底保持ステップと、
    前記各基底と前記各基底にそれぞれ対応する基底係数の線形結合と、前記スペクトル包絡情報との歪み量を、前記基底係数を変化させて最小化させ、この最小化したときの前記基底係数の集まりを、前記スペクトル包絡情報のスペクトル包絡パラメータとするパラメータ算出ステップと、
    を備えた音声処理方法。
  13. 複数の音声素片のピッチ波形に対応したLのスペクトル包絡パラメータを保持するパラメータ保持ステップと、
    前記複数の音声素片の属性情報を保持する属性情報保持ステップと、
    入力されたテキストから得られる音韻系列を合成単位に区切る分割ステップと、
    前記属性情報を用いて、前記各合成単位に対応する一または複数の音声素片を選択する選択ステップと、
    前記選択された音声素片のピッチ波形に対応する前記スペクトル包絡パラメータを前記スペクトル包絡パラメータ保持部から取得する取得ステップと、
    (1)Lのスペクトル包絡情報によって形成される空間の部分空間の基底であって、(2)前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、(3)前記ピーク周波数が隣接する前記2つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、(4)前記基底をN個(L>N>1)格納する基底保持ステップと、
    前記基底と前記スペクトル包絡パラメータとの線形結合によりスペクトル包絡情報を生成する包絡生成ステップと、
    前記スペクトル包絡情報から求めたスペクトルを逆フーリエ変換することによりピッチ波形を生成するピッチ生成ステップと、
    前記ピッチ波形を重畳することにより音声素片を生成し、前記生成した音声素片を接続することにより音声波形を生成する音声生成ステップと、
    を備えた音声合成方法。
  14. 音声信号をフレーム単位に分割するフレーム抽出機能と、
    前記フレームから、スペクトルの微細構造成分を除いたスペクトルであるL次のスペクトル包絡情報を抽出する情報抽出機能と、
    (1)前記L次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、(2)前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、(3)前記ピーク周波数が隣接する前記2つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、(4)前記基底をN個(L>N>1)格納する基底保持機能と、
    前記各基底と前記各基底にそれぞれ対応する基底係数の線形結合と、前記スペクトル包絡情報との歪み量を、前記基底係数を変化させて最小化させ、この最小化したときの前記基底係数の集まりを、前記スペクトル包絡情報のスペクトル包絡パラメータとするパラメータ算出機能と、
    をコンピュータによって実現する音声処理プログラム。
  15. 複数の音声素片のピッチ波形に対応したLのスペクトル包絡パラメータを保持するパラメータ保持機能と、
    前記複数の音声素片の属性情報を保持する属性情報保持機能と、
    入力されたテキストから得られる音韻系列を合成単位に区切る分割機能と、
    前記属性情報を用いて、前記各合成単位に対応する一または複数の音声素片を選択する選択機能と、
    前記選択された音声素片のピッチ波形に対応する前記スペクトル包絡パラメータを前記スペクトル包絡パラメータ保持部から取得する取得機能と、
    (1)Lのスペクトル包絡情報によって形成される空間の部分空間の基底であって、(2)前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、(3)前記ピーク周波数が隣接する前記2つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、(4)前記基底をN個(L>N>1)格納する基底保持機能と、
    前記基底と前記スペクトル包絡パラメータとの線形結合によりスペクトル包絡情報を生成する包絡生成機能と、
    前記スペクトル包絡情報から求めたスペクトルを逆フーリエ変換することによりピッチ波形を生成するピッチ生成機能と、
    前記ピッチ波形を重畳することにより音声素片を生成し、前記生成した音声素片を接続することにより音声波形を生成する音声生成機能と、
    をコンピュータによって実現する音声合成プログラム。
JP2007312336A 2007-12-03 2007-12-03 音声処理装置及びそれを用いた音声合成装置。 Active JP5159279B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007312336A JP5159279B2 (ja) 2007-12-03 2007-12-03 音声処理装置及びそれを用いた音声合成装置。
US12/327,399 US8321208B2 (en) 2007-12-03 2008-12-03 Speech processing and speech synthesis using a linear combination of bases at peak frequencies for spectral envelope information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007312336A JP5159279B2 (ja) 2007-12-03 2007-12-03 音声処理装置及びそれを用いた音声合成装置。

Publications (2)

Publication Number Publication Date
JP2009139406A JP2009139406A (ja) 2009-06-25
JP5159279B2 true JP5159279B2 (ja) 2013-03-06

Family

ID=40676650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007312336A Active JP5159279B2 (ja) 2007-12-03 2007-12-03 音声処理装置及びそれを用いた音声合成装置。

Country Status (2)

Country Link
US (1) US8321208B2 (ja)
JP (1) JP5159279B2 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
US7924212B2 (en) * 2009-08-10 2011-04-12 Robert Bosch Gmbh Method for human only activity detection based on radar signals
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
TWI390466B (zh) * 2009-09-21 2013-03-21 Pixart Imaging Inc 影像雜訊濾除方法
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
JP5085700B2 (ja) * 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US8942975B2 (en) * 2010-11-10 2015-01-27 Broadcom Corporation Noise suppression in a Mel-filtered spectral domain
JP5979146B2 (ja) * 2011-07-11 2016-08-24 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
KR102060208B1 (ko) * 2011-07-29 2019-12-27 디티에스 엘엘씨 적응적 음성 명료도 처리기
US8682821B2 (en) * 2011-08-08 2014-03-25 Robert Bosch Gmbh Method for detection of movement of a specific type of object or animal based on radar signals
EP2562751B1 (en) 2011-08-22 2014-06-11 Svox AG Temporal interpolation of adjacent spectra
JP5631915B2 (ja) 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
US9368104B2 (en) 2012-04-30 2016-06-14 Src, Inc. System and method for synthesizing human speech using multiple speakers and context
US8843367B2 (en) * 2012-05-04 2014-09-23 8758271 Canada Inc. Adaptive equalization system
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
TWI471854B (zh) * 2012-10-19 2015-02-01 Ind Tech Res Inst 引導式語者調適語音合成的系統與方法及電腦程式產品
US9536540B2 (en) * 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9704478B1 (en) * 2013-12-02 2017-07-11 Amazon Technologies, Inc. Audio output masking for improved automatic speech recognition
AU2015271665B2 (en) 2014-06-05 2020-09-10 Interdev Technologies Systems and methods of interpreting speech data
CN106797512B (zh) 2014-08-28 2019-10-25 美商楼氏电子有限公司 多源噪声抑制的方法、***和非瞬时计算机可读存储介质
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
JP6507579B2 (ja) * 2014-11-10 2019-05-08 ヤマハ株式会社 音声合成方法
US9564140B2 (en) * 2015-04-07 2017-02-07 Nuance Communications, Inc. Systems and methods for encoding audio signals
CN114464208A (zh) * 2015-09-16 2022-05-10 株式会社东芝 语音处理装置、语音处理方法以及存储介质
CN107924678B (zh) * 2015-09-16 2021-12-17 株式会社东芝 语音合成装置、语音合成方法及存储介质
JP6420781B2 (ja) * 2016-02-23 2018-11-07 日本電信電話株式会社 声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
JP6821970B2 (ja) * 2016-06-30 2021-01-27 ヤマハ株式会社 音声合成装置および音声合成方法
CN107527611A (zh) * 2017-08-23 2017-12-29 武汉斗鱼网络科技有限公司 Mfcc语音识别方法、存储介质、电子设备及***
JP2020191578A (ja) * 2019-05-23 2020-11-26 日本電気株式会社 受信機、受信方法、及び、受信プログラム
KR102637341B1 (ko) * 2019-10-15 2024-02-16 삼성전자주식회사 음성 생성 방법 및 장치
CN111341351B (zh) * 2020-02-25 2023-05-23 厦门亿联网络技术股份有限公司 基于自注意力机制的语音活动检测方法、装置及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384891A (en) * 1988-09-28 1995-01-24 Hitachi, Ltd. Vector quantizing apparatus and speech analysis-synthesis system using the apparatus
JPH0451200A (ja) * 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化方式
US5195137A (en) * 1991-01-28 1993-03-16 At&T Bell Laboratories Method of and apparatus for generating auxiliary information for expediting sparse codebook search
FR2678103B1 (fr) * 1991-06-18 1996-10-25 Sextant Avionique Procede de synthese vocale.
JP3278900B2 (ja) * 1992-05-07 2002-04-30 ソニー株式会社 データ符号化装置及び方法
JP3082625B2 (ja) * 1995-07-15 2000-08-28 日本電気株式会社 音声信号処理回路
US6081781A (en) * 1996-09-11 2000-06-27 Nippon Telegragh And Telephone Corporation Method and apparatus for speech synthesis and program recorded medium
KR100198476B1 (ko) * 1997-04-23 1999-06-15 윤종용 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법
JPH11202883A (ja) 1998-01-14 1999-07-30 Oki Electric Ind Co Ltd パワースペクトル包絡生成方法および音声合成装置
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
JP2002268698A (ja) * 2001-03-08 2002-09-20 Nec Corp 音声認識装置と標準パターン作成装置及び方法並びにプログラム
US7010488B2 (en) * 2002-05-09 2006-03-07 Oregon Health & Science University System and method for compressing concatenative acoustic inventories for speech synthesis
SG135920A1 (en) * 2003-03-07 2007-10-29 St Microelectronics Asia Device and process for use in encoding audio data
DE10313875B3 (de) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
US7305339B2 (en) * 2003-04-01 2007-12-04 International Business Machines Corporation Restoration of high-order Mel Frequency Cepstral Coefficients
JP4080989B2 (ja) 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
JP2005202354A (ja) * 2003-12-19 2005-07-28 Toudai Tlo Ltd 信号解析方法
US7415392B2 (en) * 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
JP2006251712A (ja) * 2005-03-14 2006-09-21 Univ Of Tokyo 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法
JP4551803B2 (ja) * 2005-03-29 2010-09-29 株式会社東芝 音声合成装置及びそのプログラム
US7853539B2 (en) * 2005-09-28 2010-12-14 Honda Motor Co., Ltd. Discriminating speech and non-speech with regularized least squares
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
JP4672611B2 (ja) * 2006-07-28 2011-04-20 株式会社神戸製鋼所 音源分離装置、音源分離方法及び音源分離プログラム
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
TWI351683B (en) * 2008-01-16 2011-11-01 Mstar Semiconductor Inc Speech enhancement device and method for the same
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法

Also Published As

Publication number Publication date
JP2009139406A (ja) 2009-06-25
US8321208B2 (en) 2012-11-27
US20090144053A1 (en) 2009-06-04

Similar Documents

Publication Publication Date Title
JP5159279B2 (ja) 音声処理装置及びそれを用いた音声合成装置。
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
US11170756B2 (en) Speech processing device, speech processing method, and computer program product
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
WO2017046887A1 (ja) 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
EP1811497A2 (en) Apparatus and method for voice conversion
JP5025550B2 (ja) 音声処理装置、音声処理方法及びプログラム
Al-Radhi et al. Time-Domain Envelope Modulating the Noise Component of Excitation in a Continuous Residual-Based Vocoder for Statistical Parametric Speech Synthesis.
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
Yu et al. Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis
Tamura et al. One sentence voice adaptation using GMM-based frequency-warping and shift with a sub-band basis spectrum model
JP6142401B2 (ja) 音声合成モデル学習装置、方法、及びプログラム
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP2009175345A (ja) 音声情報処理装置及びその方法
JP2013117638A (ja) 音声合成装置および音声合成プログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
d ‘Alessandro et al. Ramcess 2. x framework—expressive voice analysis for realtime and accurate synthesis of singing
Jayasinghe Machine Singing Generation Through Deep Learning
Rodet Sound analysis, processing and synthesis tools for music research and production
Espic Calderón In search of the optimal acoustic features for statistical parametric speech synthesis
Kaur et al. Designing and creating Punjabi Speech Synthesis System Using Hidden Markov Model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121211

R151 Written notification of patent or utility model registration

Ref document number: 5159279

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350