JP5159279B2 - 音声処理装置及びそれを用いた音声合成装置。 - Google Patents
音声処理装置及びそれを用いた音声合成装置。 Download PDFInfo
- Publication number
- JP5159279B2 JP5159279B2 JP2007312336A JP2007312336A JP5159279B2 JP 5159279 B2 JP5159279 B2 JP 5159279B2 JP 2007312336 A JP2007312336 A JP 2007312336A JP 2007312336 A JP2007312336 A JP 2007312336A JP 5159279 B2 JP5159279 B2 JP 5159279B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- spectrum
- parameter
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 83
- 230000003595 spectral effect Effects 0.000 claims abstract description 151
- 238000004364 calculation method Methods 0.000 claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000001228 spectrum Methods 0.000 claims description 412
- 230000006870 function Effects 0.000 claims description 63
- 230000004927 fusion Effects 0.000 claims description 47
- 230000015572 biosynthetic process Effects 0.000 claims description 45
- 238000003786 synthesis reaction Methods 0.000 claims description 44
- 238000013139 quantization Methods 0.000 claims description 27
- 238000012935 Averaging Methods 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 14
- 230000005484 gravity Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims 1
- 238000001308 synthesis method Methods 0.000 claims 1
- 238000003860 storage Methods 0.000 abstract description 36
- 239000011295 pitch Substances 0.000 description 102
- 238000000034 method Methods 0.000 description 96
- 230000008569 process Effects 0.000 description 41
- 238000009499 grossing Methods 0.000 description 23
- 238000004458 analytical method Methods 0.000 description 21
- 239000013598 vector Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 238000004519 manufacturing process Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000007500 overflow downdraw method Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000002939 conjugate gradient method Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本発明の第1の実施形態に係わる音声処理装置であるスペクトル包絡パラメータ生成装置(以下、単に生成装置という)について図1〜図22に基づいて説明する。
図1は、本実施形態に係わる生成装置(以下、単に生成装置という)を示すブロック図である。
音声フレーム抽出部11の動作を図2に示す。
包絡抽出部12は、得られた音声フレームから対数スペクトル包絡を抽出する。
局所基底作成部14は、局所的な基底を作成する。
「局所基底」とは、複数の対数スペクトル包絡によって形成される空間の部分空間の基底であり、ここでは以下の3つの条件を備えたものである。
図4に示すように、周波数軸上の各局所基底のピーク周波数を決定する周波数スケール決定ステップS41と、得られた周波数スケールにしたがって局所基底を作成する局所基底作成ステップS42と、得られた局所基底を出力して局所基底保持部15に保存する局所基底出力ステップS43の処理を行う。
パラメータ算出部13は、図5に示すように、対数スペクトル包絡入力ステップS51と、スペクトル包絡パラメータ算出ステップS52と、スペクトル包絡パラメータ出力ステップS53の処理を行う。
スペクトル包絡パラメータ算出ステップS52は、対数スペクトル包絡入力ステップS51において入力された対数スペクトル包絡と、局所基底保持部15に保持されている局所基底と係数の線形結合との歪み量を最小化するように各基底に対する係数を求める。
スペクトル包絡パラメータ出力ステップS53は、得られた各局所基底に対する係数をスペクトル包絡パラメータとして出力する。
以下、図6に示す音声データに対して、スペクトル包絡パラメータを算出する例を示し、各処理の詳細を説明する。図6は「あまりに」という発声の音声データである。
音声フレーム抽出部11の音声データ入力ステップS21において、音声データが入力され、ピッチマーク付与ステップS22において、ピッチマークが付与される。
局所基底作成部14では、局所基底φを作成する。
局所基底作成ステップS42では、周波数スケール決定ステップにおいて作成した周波数スケールにしたがって、ハニング窓を用いて局所基底を作成する。
パラメータ算出部13では、包絡抽出部12で得られた対数スペクトルと、局所基底保持部15に保持された局所基底を用いてスペクトル包絡パラメータを求める。
図7の各ピッチ波形に対して、スペクトルパラメータを求めた例を、図10に示す。
上記したスペクトル包絡パラメータ算出ステップS52では、スペクトル包絡パラメータに対し制約を設けずに二乗誤差を最小化しているが、係数が非負になる制約のもとで二乗誤差を最小化してもよい。
上記したスペクトル包絡パラメータと同様に位相情報も同様にパラメータとしてもよい。
位相スペクトル抽出部121の処理は、包絡抽出部12の離散フーリエ変換ステップS32において得られたスペクトル情報を入力し、アンラップした位相情報を出力する。
次に、位相スペクトルパラメータ算出部122では、位相スペクトル抽出部121において得られた位相スペクトルに対し、位相スペクトルパラメータを求める。
上記した生成装置は、ハニング窓で作成した局所基底を用いているがこれに限定するものではない。学習データとして用意した対数スペクトル包絡から、非特許文献3に示されるスパースコーディング法によって基底を作成してもよい。
スパースコーディング法とは、画像処理分野で用いられる手法であり、画像を基底の線形結合で表現するものである。
スパースコーディング法によって基底を作成する場合の局所基底作成部14の処理を、図16に示す。
対数スペクトル包絡入力ステップS161は、学習データとして用いる音声データの各ピッチ波形から求めた対数スペクトル包絡を入力する。音声データからの対数スペクトルの抽出は、音声フレーム抽出部11及び包絡抽出部12と同様に行うことができる。
初期基底作成ステップS162は、まず基底の個数Nを1とし、φ0(k)=1(0<=k<L)として初期規定を作成する。
係数算出ステップS163は、現在の基底と学習データの各対数スペクトル包絡から各対数スペクトル包絡に対応する係数を算出する。スパースコーディングの評価関数とて、以下の式を用いる。
基底更新ステップ164では、勾配法により基底を更新する。
次に、収束判定ステップS165では、勾配法による基底の更新の収束を判定する。
終了判定ステップS166は、得られた基底の個数が所定の値に到達したかどうかを判断する。
局所基底出力ステップS168は最終的に得られた基底を出力する。
上記した生成装置は、ピッチ同期分析にもとづいているが、これに限定するものではない。固定のフレーム周期、フレーム長の音声フレームからスペクトル包絡パラメータを算出してもよい。
図7の音声データに対し、窓長23.2ms(512点)、10msシフト、ブラックマン窓を用いて分析する例を図19に示す。
図20は、図10と同様にスペクトル分析をし、パラメータを求めた例を示している。固定フレームの場合、各音声フレームは複数のピッチを含み、そのスペクトルは滑らかなスペクトル包絡にならずに、ハーモニクスの影響による微細な変動を持つ。図20の2段目にフーリエ変換によって得られた対数スペクトルを示す。このような微細な変動を含むスペクトルに対して局所基底の係数としてスペクトル包絡パラメータを求めると、周波数領域における解像度の高い低域部分において、微細な変動にそのままフィッティングし、滑らかなスペクトル包絡にはならない。
このように求めたスペクトル包絡に対して、スペクトルパラメータ算出部13では、局所的基底の線形結合によるスペクトル包絡パラメータを求める。
得られたスペクトル包絡パラメータと、再生成したスペクトルを4段、5段に示す。入力した対数スペクトル包絡に近いスペクトルが再生成されている様子がわかる。
上記したスペクトル包絡出力ステップS52では、そのままスペクトル包絡パラメータを出力しているが、スペクトル包絡パラメータに対して帯域に応じた量子化を行って情報量を削減して出力してもよい。
ビット割り当て決定ステップS211では、帯域分割符号化の際の適応情報割り当てと同様に、次元毎の可変のビットレートで最適な情報割り当てを行う。平均情報量をBとし、各次元の係数の平均をμi、標準偏差をσiとしたとき、最適情報割り当てbiは、
量子化幅決定ステップS212では、式(20)により決定されたビット数とσiに基づいて、量子化幅を決定する。均一量子化を行う場合は、各次元の最大値ci maxと最小値ci minから
スペクトル包絡パラメータ量子化ステップS213では、上記したビット割り当てと量子化幅を用いてスペクトル包絡パラメータの各係数を量子化する。ciを量子化した結果をqiとしQをビット列を決定する関数としたとき、
量子化スペクトルパラメータ出力ステップS214では、μi、Δci、及び各スペクトル包絡パラメータを量子化したqiを出力する。
上記した処理は、最適ビットレートを求めているが、固定のビットレートで量子化してもよい。
これらの処理により、スペクトル包絡パラメータは平均4.75ビット、位相スペクトルパラメータは平均3.25ビットで量子化し、再生成した例を図22示す。
以上により、本実施形態に関わる生成装置は、音声データを入力して、対数スペクトル包絡と局所的基底の線形結合との歪み量に基づいてパラメータを算出することにより、高品質、効率的、かつ帯域に応じた処理を容易に行うことのできるスペクトル包絡パラメータを得ることができる。
本発明の第2の実施形態に係わる音声合成装置について図23〜図26に基づいて説明する。
図23は、本実施形態に係わる音声合成装置を示すブロック図である。
スペクトル包絡生成部231は、入力したスペクトル包絡パラメータからスペクトル包絡を生成する。
ピッチ波形生成部232は、図25に示すように、スペクトル包絡入力ステップS251と、位相スペクトル入力ステップS252と、ピッチ波形生成ステップS253と、ピッチ波形出力ステップS254の処理を行う。
図26は、図7において示した音声波形の分析合成を行った場合の処理の例を示している。
以上により本実施形態によれば、第1の実施形態に係る生成装置によって生成されたスペクトル包絡パラメータと、ピッチマーク系列を入力し、ピッチ波形の生成及び重畳を行うことにより高品質な音声を合成することができる。
本発明の第3の実施形態に係わる音声合成装置について図27〜図41に基づいて説明する。
図27は、本実施形態に係わる音声合成装置を示すブロック図である。
図28は、図27の音声合成部274の構成例を示すブロック図である。
音声素片記憶部281には、音声素片が蓄積されており、それらの音素環境の情報(音素環境情報)が音素環境記憶部282に蓄積されている。
音韻系列・韻律情報入力部283には、韻律処理部273から出力された入力テキストに対応する音韻系列及び韻律情報が入力される。
複数音声素片選択部284は、入力音韻系列の各合成単位に対し、入力韻律情報と、融合音声素片の音素環境に含まれる韻律情報とに基づいて合成音声の歪み量を推定する。そして、前記合成音声の歪み量に基づいて音声素片記憶部281に記憶されている音声素片の中から、複数の音声素片を選択する。
次に、融合音声素片系列作成部285において、選択された複数の素片を融合することにより、融合音声素片を生成する。
以下、音声合成部274の各処理について詳しく説明する。
生成装置287は、図29に示すように、音声素片の音声波形からスペクトル包絡パラメータ及び、位相スペクトルパラメータを生成する。
音声素片記憶部281は、図30に示すように、得られたスペクトル包絡パラメータ及び位相スペクトルパラメータを、音声素片番号と共に記憶している。
次に、複数音声素片選択部284において素片系列を求める際に用いられるコスト関数について説明する。
サブコスト関数は、音声素片記憶部281に記憶されている音声素片を用いて合成音声を生成したときに生ずる当前記合成音声の目標音声に対する歪み量を推定するためのコストを算出するためのものである。当前記コストを算出するために、当前記音声素片を使用することによって生じる合成音声の目標音声に対する歪み量を推定する目標コストと、当前記音声素片を他の音声素片と接続したときに生じる当前記合成音声の目標音声に対する歪み量を推定する接続コストという2種類のサブコストがある。
目標コストとしては、音声素片記憶部281に記憶されている音声素片の基本周波数と目標の基本周波数との違い(差)を表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い(差)を表す音韻継続時間長コストを用いる。
接続コストとしては、接続境界でのスペクトルの違い(差)を表すスペクトル接続コストを用いる。
図33は、素片選択処理を説明するためのフローチャートである。
まず、目標情報、素片情報入力ステップS331で、目標とする音声の音韻・韻律情報等素片選択の目標を表す目標情報と、音素環境記憶部282に記憶されている音声素片の音素環境情報を入力する。
そして、1段階目の素片選択として、最適素片系列探索ステップS332では、音声素片記憶部281に記憶されている音声素片の中から、上記式(28)で算出されるコストの値が最小の音声素片の系列を求める。
次に、素片順位付けステップS333及び上位NF個の素片選択ステップS334により、最適素片系列を用いて1セグメント当たり複数の音声素片を選ぶ。
次に、融合音声素片作成部285について説明する。
図34に融合音声素片作成部285の処理を示す。
まず、複数音声素片入力ステップS341で、複数音声素片選択部284で選択した複数の音声素片のスペクトル包絡パラメータ及び位相スペクトルパラメータを入力する。
次に、ピッチ波形対応付けステップS342で、合成する目標の継続長にあわせるためにピッチ波形の数を揃える。
次に、スペクトル包絡パラメータ平均化ステップS343で、スペクトル包絡パラメータの平均化を行う。
次に、高域音声素片選択ステップS344では、平均スペクトル包絡パラメータに最も近い音声素片を、選択された複数の音声素片のなかから選択する。
高域置換ステップS345では、平均スペクトル包絡パラメータの高域部分を広域音声素片選択ステップS344で選択した音声素片のパラメータに置き換える。
次に、位相スペクトルパラメータ融合ステップS346では、スペクトル包絡パラメータと同様に、選択された複数の位相スペクトルパラメータから融合位相スペクトルパラメータを作成する。
融合音声素片出力ステップS347において、上記のようにして得られた融合スペクトル包絡パラメータ、及び、融合位相スペクトルパラメータを、出力することにより、融合音声素片が作成される。
次に、融合音声素片編集・接続部286では、上記したスペクトルパラメータに対し、素片境界における平滑化を行い、得られたスペクトルパラメータから、第2の実施形態に基づく音声合成装置の処理と同様に、ピッチ波形を生成し、入力したピッチマーク位置を中心としてピッチ波形の重畳処理を行い、音声波形を生成する。
融合音声素片平滑化ステップS392では、素片の境界におけるスムージングを行う。
次に、ピッチ波形生成ステップS393では、平滑化して得られたスペクトル包絡パラメータ及び位相スペクトルパラメータからピッチ波形を生成し、波形重畳ステップでは、目標のピッチマークに合わせて波形重畳を行う。
以上の処理により、複数音声素片選択・融合型の音声合成において、第1の実施形態に基づくスペクトル包絡パラメータ及び位相スペクトルパラメータを用いて任意の文章に対応する音声波形を生成することができる。
次に、第3の実施形態の音声合成装置の変更例について図41に基づいて説明する。
以上により、本実施形態に基づく音声合成装置は、第1の実施形態に基づく生成装置により得られたスペクトル包絡パラメータを用いて、スペクトルパラメータの平均化と高域の置換、及びスペクトルパラメータによる平滑化を適切に行うことができる。また、帯域に応じた処理を容易に行うことのできる特徴を利用して、高品質な合成音声を効率的に生成することが可能となる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
12 対数スペクトル包絡抽出部
13 スペクトル包絡パラメータ算出部
14 局所基底作成部
15 局所基底保持部
Claims (15)
- 音声信号をフレーム単位に分割するフレーム抽出部と、
前記フレームから、スペクトルの微細構造成分を除いたスペクトルであるL次のスペクトル包絡情報を抽出する情報抽出部と、
(1)前記L次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、(2)前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、(3)前記ピーク周波数が隣接する前記2つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、(4)前記基底をN個(L>N>1)格納する基底保持部と、
前記各基底と前記各基底にそれぞれ対応する基底係数の線形結合と、前記スペクトル包絡情報との歪み量を、前記基底係数を変化させて最小化させ、この最小化したときの前記基底係数の集まりを、前記スペクトル包絡情報のスペクトル包絡パラメータとするパラメータ算出部と、
を備えた音声処理装置。 - 前記基底保持部に格納する前記基底を作成する基底作成部を備え、
前記基底作成部は、
前記スペクトル領域内で前記ピーク周波数を複数決定するピーク決定部と、
隣接する前記ピーク周波数の外側は値を零とし、隣接する前記ピーク周波数の幅を長さとする単峰性の窓関数を作成する関数作成部と、
前記窓関数の形状を前記基底に設定する基底設定部と、
を備えた請求項1記載の音声処理装置。 - 前記ピーク決定部は、
(1)高い周波数になるほど広い間隔になるように前記ピーク周波数を決定するか、または、
(2)前記スペクトル領域内の任意の境界周波数より低い周波数帯域は、高い周波数になるほど広い間隔になるように前記ピーク周波数を決定し、前記境界周波数より高い周波数帯域は、等間隔になるように前記ピーク周波数を決定する、
請求項2記載の音声処理装置。 - 前記基底保持部に格納する前記基底を作成する基底作成部を備え、
前記基底作成部は、
前記基底作成用の音声信号から前記スペクトル包絡情報を抽出する作成情報抽出部と、
(1)前記スペクトル包絡情報に対応する前記スペクトル包絡パラメータと前記基底の線形結合との間の歪み量の和を表す誤差項と、前記基底の各基底係数を零に近づけるほど値が小さくなるものであって、前記基底係数の疎性を表す第1正則化項との和による第1評価関数、または、(2)前記誤差項と、前記第1正則化項と、前記基底の重心からの距離の大きい位置における値が大きくなるほど値が大きくなるものであって、前記基底の重心への集中度を表す第2正則化項とを加えた第2の評価関数のどちらか一方の評価関数の値を、前記スペクトル包絡パラメータと前記基底を変えることによって最小化する最小化部と、
前記評価関数の値が最小になっときの前記基底を、前記作成する基底に設定する基底設定部と、
を備えた請求項1記載の音声処理装置。 - 前記パラメータ算出部は、
前記歪み量が、前記各基底と前記各基底にそれぞれ対応する前記基底係数の線形結合と、前記スペクトル包絡情報との二乗誤差である、
請求項1記載の音声処理装置。 - 前記パラメータ算出部は、
前記基底係数の値が非負になる制約の下で、前記歪み量を最小化する、
請求項1記載の音声処理装置。 - 前記パラメータ算出部は、
前記スペクトル包絡パラメータの各次元に対し、量子化ビット数を割り当てる数決定部と、
前記スペクトル包絡パラメータの各次元に対し、量子化幅を決定する幅決定部と、
前記量子化ビット数と前記量子化幅に基づいて、前記スペクトル包絡パラメータの量子化を行う量子化部と、
を備えた請求項1記載の音声処理装置。 - 前記スペクトル包絡情報が、対数スペクトル包絡、位相スペクトル、振幅スペクトル包絡、または、パワースペクトル包絡である、
請求項1記載の音声処理装置。 - 複数の音声素片のピッチ波形に対応したL次のスペクトル包絡パラメータを保持するパラメータ保持部と、
前記複数の音声素片の属性情報を保持する属性情報保持部と、
入力されたテキストから得られる音韻系列を合成単位に区切る分割部と、
前記属性情報を用いて、前記各合成単位に対応する一または複数の音声素片を選択する選択部と、
前記選択された音声素片のピッチ波形に対応する前記スペクトル包絡パラメータを前記スペクトル包絡パラメータ保持部から取得する取得部と、
(1)L次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、(2)前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、(3)前記ピーク周波数が隣接する前記2つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、(4)前記基底をN個(L>N>1)格納する基底保持部と、
前記基底と前記スペクトル包絡パラメータとの線形結合によりスペクトル包絡情報を生成する包絡生成部と、
前記スペクトル包絡情報から求めたスペクトルを逆フーリエ変換することによりピッチ波形を生成するピッチ生成部と、
前記ピッチ波形を重畳することにより音声素片を生成し、前記生成した音声素片を接続することにより音声波形を生成する音声生成部と、
を備えた音声合成装置。 - 前記取得部は、選択された前記音声素片が複数の場合には、前記各音声素片のスペクトル包絡パラメータをそれぞれ取得し、前記取得した複数のスペクトル包絡パラメータを、一つのスペクトル包絡パラメータに融合する融合部を、
を備えた請求項9記載の音声合成装置。 - 前記融合部は、
前記各音声素片のスペクトル包絡パラメータを時間方向に対応付ける対応付け部と、
前記対応付けられた各スペクトル包絡パラメータを平均化して平均化スペクトル包絡パラメータを求める平均化部と、
前記各音声素片から一つの代表音声素片を選択し、前記代表音声素片のスペクトル包絡パラメータを代表スペクトル包絡パラメータとして設定する代表選択部と、
前記代表スペクトル包絡パラメータ、または、前記平均スペクトル包絡パラメータから境界次数を決定する境界次数決定部と、
前記境界次数より低次のスペクトル包絡パラメータは平均スペクトル包絡パラメータを用い、前記境界次数より高次のスペクトル包絡パラメータは、前記代表スペクトル包絡パラメータを用いて、前記複数のスペクトル包絡パラメータを混合する混合部と、
を備えた請求項10記載の音声合成装置。 - 音声信号をフレーム単位に分割するフレーム抽出ステップと、
前記フレームから、スペクトルの微細構造成分を除いたスペクトルであるL次のスペクトル包絡情報を抽出する情報抽出ステップと、
(1)前記L次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、(2)前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、(3)前記ピーク周波数が隣接する前記2つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、(4)前記基底をN個(L>N>1)格納する基底保持ステップと、
前記各基底と前記各基底にそれぞれ対応する基底係数の線形結合と、前記スペクトル包絡情報との歪み量を、前記基底係数を変化させて最小化させ、この最小化したときの前記基底係数の集まりを、前記スペクトル包絡情報のスペクトル包絡パラメータとするパラメータ算出ステップと、
を備えた音声処理方法。 - 複数の音声素片のピッチ波形に対応したL次のスペクトル包絡パラメータを保持するパラメータ保持ステップと、
前記複数の音声素片の属性情報を保持する属性情報保持ステップと、
入力されたテキストから得られる音韻系列を合成単位に区切る分割ステップと、
前記属性情報を用いて、前記各合成単位に対応する一または複数の音声素片を選択する選択ステップと、
前記選択された音声素片のピッチ波形に対応する前記スペクトル包絡パラメータを前記スペクトル包絡パラメータ保持部から取得する取得ステップと、
(1)L次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、(2)前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、(3)前記ピーク周波数が隣接する前記2つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、(4)前記基底をN個(L>N>1)格納する基底保持ステップと、
前記基底と前記スペクトル包絡パラメータとの線形結合によりスペクトル包絡情報を生成する包絡生成ステップと、
前記スペクトル包絡情報から求めたスペクトルを逆フーリエ変換することによりピッチ波形を生成するピッチ生成ステップと、
前記ピッチ波形を重畳することにより音声素片を生成し、前記生成した音声素片を接続することにより音声波形を生成する音声生成ステップと、
を備えた音声合成方法。 - 音声信号をフレーム単位に分割するフレーム抽出機能と、
前記フレームから、スペクトルの微細構造成分を除いたスペクトルであるL次のスペクトル包絡情報を抽出する情報抽出機能と、
(1)前記L次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、(2)前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、(3)前記ピーク周波数が隣接する前記2つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、(4)前記基底をN個(L>N>1)格納する基底保持機能と、
前記各基底と前記各基底にそれぞれ対応する基底係数の線形結合と、前記スペクトル包絡情報との歪み量を、前記基底係数を変化させて最小化させ、この最小化したときの前記基底係数の集まりを、前記スペクトル包絡情報のスペクトル包絡パラメータとするパラメータ算出機能と、
をコンピュータによって実現する音声処理プログラム。 - 複数の音声素片のピッチ波形に対応したL次のスペクトル包絡パラメータを保持するパラメータ保持機能と、
前記複数の音声素片の属性情報を保持する属性情報保持機能と、
入力されたテキストから得られる音韻系列を合成単位に区切る分割機能と、
前記属性情報を用いて、前記各合成単位に対応する一または複数の音声素片を選択する選択機能と、
前記選択された音声素片のピッチ波形に対応する前記スペクトル包絡パラメータを前記スペクトル包絡パラメータ保持部から取得する取得機能と、
(1)L次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、(2)前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、(3)前記ピーク周波数が隣接する前記2つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、(4)前記基底をN個(L>N>1)格納する基底保持機能と、
前記基底と前記スペクトル包絡パラメータとの線形結合によりスペクトル包絡情報を生成する包絡生成機能と、
前記スペクトル包絡情報から求めたスペクトルを逆フーリエ変換することによりピッチ波形を生成するピッチ生成機能と、
前記ピッチ波形を重畳することにより音声素片を生成し、前記生成した音声素片を接続することにより音声波形を生成する音声生成機能と、
をコンピュータによって実現する音声合成プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007312336A JP5159279B2 (ja) | 2007-12-03 | 2007-12-03 | 音声処理装置及びそれを用いた音声合成装置。 |
US12/327,399 US8321208B2 (en) | 2007-12-03 | 2008-12-03 | Speech processing and speech synthesis using a linear combination of bases at peak frequencies for spectral envelope information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007312336A JP5159279B2 (ja) | 2007-12-03 | 2007-12-03 | 音声処理装置及びそれを用いた音声合成装置。 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009139406A JP2009139406A (ja) | 2009-06-25 |
JP5159279B2 true JP5159279B2 (ja) | 2013-03-06 |
Family
ID=40676650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007312336A Active JP5159279B2 (ja) | 2007-12-03 | 2007-12-03 | 音声処理装置及びそれを用いた音声合成装置。 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8321208B2 (ja) |
JP (1) | JP5159279B2 (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
JP5038995B2 (ja) * | 2008-08-25 | 2012-10-03 | 株式会社東芝 | 声質変換装置及び方法、音声合成装置及び方法 |
US7924212B2 (en) * | 2009-08-10 | 2011-04-12 | Robert Bosch Gmbh | Method for human only activity detection based on radar signals |
WO2011026247A1 (en) * | 2009-09-04 | 2011-03-10 | Svox Ag | Speech enhancement techniques on the power spectrum |
TWI390466B (zh) * | 2009-09-21 | 2013-03-21 | Pixart Imaging Inc | 影像雜訊濾除方法 |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
JP5085700B2 (ja) * | 2010-08-30 | 2012-11-28 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US8942975B2 (en) * | 2010-11-10 | 2015-01-27 | Broadcom Corporation | Noise suppression in a Mel-filtered spectral domain |
JP5979146B2 (ja) * | 2011-07-11 | 2016-08-24 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
KR102060208B1 (ko) * | 2011-07-29 | 2019-12-27 | 디티에스 엘엘씨 | 적응적 음성 명료도 처리기 |
US8682821B2 (en) * | 2011-08-08 | 2014-03-25 | Robert Bosch Gmbh | Method for detection of movement of a specific type of object or animal based on radar signals |
EP2562751B1 (en) | 2011-08-22 | 2014-06-11 | Svox AG | Temporal interpolation of adjacent spectra |
JP5631915B2 (ja) | 2012-03-29 | 2014-11-26 | 株式会社東芝 | 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置 |
US9368104B2 (en) | 2012-04-30 | 2016-06-14 | Src, Inc. | System and method for synthesizing human speech using multiple speakers and context |
US8843367B2 (en) * | 2012-05-04 | 2014-09-23 | 8758271 Canada Inc. | Adaptive equalization system |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
TWI471854B (zh) * | 2012-10-19 | 2015-02-01 | Ind Tech Res Inst | 引導式語者調適語音合成的系統與方法及電腦程式產品 |
US9536540B2 (en) * | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
US9704478B1 (en) * | 2013-12-02 | 2017-07-11 | Amazon Technologies, Inc. | Audio output masking for improved automatic speech recognition |
AU2015271665B2 (en) | 2014-06-05 | 2020-09-10 | Interdev Technologies | Systems and methods of interpreting speech data |
CN106797512B (zh) | 2014-08-28 | 2019-10-25 | 美商楼氏电子有限公司 | 多源噪声抑制的方法、***和非瞬时计算机可读存储介质 |
DE112015004185T5 (de) | 2014-09-12 | 2017-06-01 | Knowles Electronics, Llc | Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten |
JP6507579B2 (ja) * | 2014-11-10 | 2019-05-08 | ヤマハ株式会社 | 音声合成方法 |
US9564140B2 (en) * | 2015-04-07 | 2017-02-07 | Nuance Communications, Inc. | Systems and methods for encoding audio signals |
CN114464208A (zh) * | 2015-09-16 | 2022-05-10 | 株式会社东芝 | 语音处理装置、语音处理方法以及存储介质 |
CN107924678B (zh) * | 2015-09-16 | 2021-12-17 | 株式会社东芝 | 语音合成装置、语音合成方法及存储介质 |
JP6420781B2 (ja) * | 2016-02-23 | 2018-11-07 | 日本電信電話株式会社 | 声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
JP6821970B2 (ja) * | 2016-06-30 | 2021-01-27 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
CN107527611A (zh) * | 2017-08-23 | 2017-12-29 | 武汉斗鱼网络科技有限公司 | Mfcc语音识别方法、存储介质、电子设备及*** |
JP2020191578A (ja) * | 2019-05-23 | 2020-11-26 | 日本電気株式会社 | 受信機、受信方法、及び、受信プログラム |
KR102637341B1 (ko) * | 2019-10-15 | 2024-02-16 | 삼성전자주식회사 | 음성 생성 방법 및 장치 |
CN111341351B (zh) * | 2020-02-25 | 2023-05-23 | 厦门亿联网络技术股份有限公司 | 基于自注意力机制的语音活动检测方法、装置及存储介质 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5384891A (en) * | 1988-09-28 | 1995-01-24 | Hitachi, Ltd. | Vector quantizing apparatus and speech analysis-synthesis system using the apparatus |
JPH0451200A (ja) * | 1990-06-18 | 1992-02-19 | Fujitsu Ltd | 音声符号化方式 |
US5195137A (en) * | 1991-01-28 | 1993-03-16 | At&T Bell Laboratories | Method of and apparatus for generating auxiliary information for expediting sparse codebook search |
FR2678103B1 (fr) * | 1991-06-18 | 1996-10-25 | Sextant Avionique | Procede de synthese vocale. |
JP3278900B2 (ja) * | 1992-05-07 | 2002-04-30 | ソニー株式会社 | データ符号化装置及び方法 |
JP3082625B2 (ja) * | 1995-07-15 | 2000-08-28 | 日本電気株式会社 | 音声信号処理回路 |
US6081781A (en) * | 1996-09-11 | 2000-06-27 | Nippon Telegragh And Telephone Corporation | Method and apparatus for speech synthesis and program recorded medium |
KR100198476B1 (ko) * | 1997-04-23 | 1999-06-15 | 윤종용 | 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법 |
JPH11202883A (ja) | 1998-01-14 | 1999-07-30 | Oki Electric Ind Co Ltd | パワースペクトル包絡生成方法および音声合成装置 |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
JP2002268698A (ja) * | 2001-03-08 | 2002-09-20 | Nec Corp | 音声認識装置と標準パターン作成装置及び方法並びにプログラム |
US7010488B2 (en) * | 2002-05-09 | 2006-03-07 | Oregon Health & Science University | System and method for compressing concatenative acoustic inventories for speech synthesis |
SG135920A1 (en) * | 2003-03-07 | 2007-10-29 | St Microelectronics Asia | Device and process for use in encoding audio data |
DE10313875B3 (de) * | 2003-03-21 | 2004-10-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Analysieren eines Informationssignals |
US7305339B2 (en) * | 2003-04-01 | 2007-12-04 | International Business Machines Corporation | Restoration of high-order Mel Frequency Cepstral Coefficients |
JP4080989B2 (ja) | 2003-11-28 | 2008-04-23 | 株式会社東芝 | 音声合成方法、音声合成装置および音声合成プログラム |
JP2005202354A (ja) * | 2003-12-19 | 2005-07-28 | Toudai Tlo Ltd | 信号解析方法 |
US7415392B2 (en) * | 2004-03-12 | 2008-08-19 | Mitsubishi Electric Research Laboratories, Inc. | System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution |
JP2006251712A (ja) * | 2005-03-14 | 2006-09-21 | Univ Of Tokyo | 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法 |
JP4551803B2 (ja) * | 2005-03-29 | 2010-09-29 | 株式会社東芝 | 音声合成装置及びそのプログラム |
US7853539B2 (en) * | 2005-09-28 | 2010-12-14 | Honda Motor Co., Ltd. | Discriminating speech and non-speech with regularized least squares |
JP4241736B2 (ja) * | 2006-01-19 | 2009-03-18 | 株式会社東芝 | 音声処理装置及びその方法 |
JP4672611B2 (ja) * | 2006-07-28 | 2011-04-20 | 株式会社神戸製鋼所 | 音源分離装置、音源分離方法及び音源分離プログラム |
JP4966048B2 (ja) * | 2007-02-20 | 2012-07-04 | 株式会社東芝 | 声質変換装置及び音声合成装置 |
TWI351683B (en) * | 2008-01-16 | 2011-11-01 | Mstar Semiconductor Inc | Speech enhancement device and method for the same |
JP5038995B2 (ja) * | 2008-08-25 | 2012-10-03 | 株式会社東芝 | 声質変換装置及び方法、音声合成装置及び方法 |
-
2007
- 2007-12-03 JP JP2007312336A patent/JP5159279B2/ja active Active
-
2008
- 2008-12-03 US US12/327,399 patent/US8321208B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009139406A (ja) | 2009-06-25 |
US8321208B2 (en) | 2012-11-27 |
US20090144053A1 (en) | 2009-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5159279B2 (ja) | 音声処理装置及びそれを用いた音声合成装置。 | |
JP5038995B2 (ja) | 声質変換装置及び方法、音声合成装置及び方法 | |
US11170756B2 (en) | Speech processing device, speech processing method, and computer program product | |
US9368103B2 (en) | Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
JP4738057B2 (ja) | ピッチパターン生成方法及びその装置 | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
WO2017046887A1 (ja) | 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム | |
EP1811497A2 (en) | Apparatus and method for voice conversion | |
JP5025550B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
Al-Radhi et al. | Time-Domain Envelope Modulating the Noise Component of Excitation in a Continuous Residual-Based Vocoder for Statistical Parametric Speech Synthesis. | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
Yu et al. | Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis | |
Tamura et al. | One sentence voice adaptation using GMM-based frequency-warping and shift with a sub-band basis spectrum model | |
JP6142401B2 (ja) | 音声合成モデル学習装置、方法、及びプログラム | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP2009175345A (ja) | 音声情報処理装置及びその方法 | |
JP2013117638A (ja) | 音声合成装置および音声合成プログラム | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
d ‘Alessandro et al. | Ramcess 2. x framework—expressive voice analysis for realtime and accurate synthesis of singing | |
Jayasinghe | Machine Singing Generation Through Deep Learning | |
Rodet | Sound analysis, processing and synthesis tools for music research and production | |
Espic Calderón | In search of the optimal acoustic features for statistical parametric speech synthesis | |
Kaur et al. | Designing and creating Punjabi Speech Synthesis System Using Hidden Markov Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120313 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120416 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121211 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5159279 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151221 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |