JP5159325B2 - 音声処理装置及びそのプログラム - Google Patents

音声処理装置及びそのプログラム Download PDF

Info

Publication number
JP5159325B2
JP5159325B2 JP2008002305A JP2008002305A JP5159325B2 JP 5159325 B2 JP5159325 B2 JP 5159325B2 JP 2008002305 A JP2008002305 A JP 2008002305A JP 2008002305 A JP2008002305 A JP 2008002305A JP 5159325 B2 JP5159325 B2 JP 5159325B2
Authority
JP
Japan
Prior art keywords
speech
unit
segments
fusion
periodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008002305A
Other languages
English (en)
Other versions
JP2009163121A (ja
Inventor
眞弘 森田
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008002305A priority Critical patent/JP5159325B2/ja
Priority to US12/212,759 priority patent/US8195464B2/en
Publication of JP2009163121A publication Critical patent/JP2009163121A/ja
Application granted granted Critical
Publication of JP5159325B2 publication Critical patent/JP5159325B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、テキスト音声合成を行う音声処理装置及びそのプログラムと、テキスト音声合成のときに用いる複数の音声素片を記憶する記憶部を作成する音声処理装置及びそのプログラムに関する。
任意の文章から人工的に音声信号を作り出すことを「テキスト音声合成」という。テキスト音声合成は、一般的に入力されたテキストの形態素解析や構文解析を行う言語処理部、アクセントやイントネーションの処理を行い、音韻系列・韻律情報(基本周波数、音韻継続時間長、パワーなど)を出力する韻律処理部及び音韻系列・韻律情報から音声信号を合成する音声合成部の3つによって行われる。この中の音声合成部で行われる音声合成方法は、韻律処理部で生成される任意の音韻系列を任意の韻律で音声合成する必要がある。
このような音声合成方法として、入力の音韻系列を分割して得られる複数の合成単位(合成単位列)のそれぞれに対し、入力された音韻系列・韻律情報を目標にして、予め記憶された大量の音声素片の中から音声素片を選択し、合成単位間で音声素片を接続することによって音声を合成する素片選択型の音声合成方法が知られている(例えば、特許文献1参照)。
特許文献1に記載される音声合成方法では、音声を合成することで生じる音声合成の劣化の度合いを表すコストをコスト関数として定義して、このコストが小さくなるように音声素片を選択する。例えば、音声素片を編集・接続することで生じる変形歪み及び接続歪みをコストを用いて数値化し、このコストに基づいて音声合成に使用する音声素片系列を選択し、選択した音声素片系列に基づいて合成音声を生成する。
特許文献1に記載される音声合成方法のように、音声を合成することで生じる音声合成の劣化の度合いを考慮して、大量の音声素片の中から適切な音声素片系列を選択することによって、素片の編集及び接続による音質の劣化を抑えた合成音声を生成することができる。
しかしながら、特許文献1に記載される素片選択型の音声合成方法には、部分的に合成音の音質が劣化する問題点がある。
この理由は次のようなものである。
第1の理由は、予め記憶された音声素片が非常に多い場合であっても、様々な音韻・韻律環境に対して適切な音声素片が存在するとは限らないことである。
第2の理由は、人が実際に感じる合成音声の劣化の度合いをコスト関数が完全に表現できないため、必ずしも最適な素片系列が選ばれない場合があるからである。
第3の理由は、音声素片が非常に多いために予め不良な音声素片を排除しておくことが困難であり、また不良な音声素片を取り除くためのコスト関数の設計も難しいため、選択された音声素片系列中に、突発的に不良な音声素片が混入する場合があるからである。
そこで、合成単位当たり1つずつの音声素片を選ぶのではなく、合成単位当たり複数個の音声素片を選択し、これを融合することによって新たな音声素片を生成し、こうして生成された音声素片を使って音声を合成する方法が開示されている(特許文献2参照。)。以下、この方法を「複数素片選択融合型の音声合成方法」と呼ぶ。
特許文献2に記載される複数素片選択融合型の音声合成方法では、合成単位毎に複数の音声素片を融合することによって、目標とする音韻・韻律環境に合う適切な音声素片が存在しない場合や、最適な音声素片が選択されない場合、不良素片が選択されてしまった場合でも、高品質な音声素片を新たに生成することができ、さらにこの新たに生成した音声素片を使用して音声合成を行うことで、前述した素片選択型の音声合成方法の問題点を改善することができ、より安定性を増した高音質の音声合成を実現することができる。
特開2001−282278公報 特開2005−164749公報
しかしながら、特許文献2に記載されている音声素片の融合方法は、有声音中の特に周期的な成分(周期成分)に注目し、この成分を適切に平均化することを狙った方法である。
有声音は主に声帯振動による周期的なパルスが音源となって生成されるため、主な構成要素は周期成分であるが、実際には、声道中の狭い箇所や声門の隙間を呼気が通過する際に発生する乱気流が音源となって生成される非周期的な成分(非周期成分)や、声帯振動の周期性の揺らぎによって生じる非周期成分も混じっている。特に、有声摩擦音においては、非周期成分は音韻性を決める非常に重要な要素である。また、母音などにおいても、ハスキーな声や吐息を乗せた話し方をする人の声には比較的大きな非周期成分が含まれており、音韻性には直接影響しないものの話者性を決める重要な要素でもある。
このように周期成分と非周期的な成分(非周期成分)が混じった実際の有声音の音声素片を融合すると、素片間で相関のない非周期成分は打ち消されて減衰してしまったり、ランダムであるべき非周期成分の位相が部分的に揃ってしまうことによって、肉声感が損なわれたり、ノイズが生じるという問題点がある。
また、融合した音声素片を重畳して合成波形を生成する際に、合成したい継続時間長が音声素片の継続時間長よりも長い場合には、音声素片中のピッチ波形を繰り返すことによって音声素片を引き伸ばす必要があるが、このときに、ピッチ波形の中に含まれる非周期成分が繰り返されて不自然な周期性が生じることによってバジー感が生じ、音質の自然性が下がってしまう問題点がある。
そこで本発明は、上記従来技術の問題点を解決するためになされたものであって、複数素片選択融合方式による安定感を保持したまま、肉声感の高い合成音声を生成できる音声合成装置及びそのプログラムの提供を目的とする。
本発明は、テキスト音声合成を行う音声処理装置において、目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力部と、前記複数のセグメントのそれぞれに対し、前記各韻律情報に基づいて音声素片群から複数の第1の音声素片を選択する素片選択部と、前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片のそれぞれを周期成分と非周期成分に分離する分離部と、前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の周期成分を融合することによって、第2の音声素片を生成する周期成分融合部と、前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分を融合することによって、第3の音声素片を生成する非周期成分融合部と、前記複数のセグメントのそれぞれに対して生成された前記第2の音声素片と第3の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成部と、を備え、前記非周期成分融合部は、前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第1の生成部と、前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第2の生成部と、前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第3の音声素片として出力する出力部と、備え、前記生成部は、前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第3の音声素片の前記音声波形を生成して、前記第2の音声素片から得られる前記音声波形と加算する、音声処理装置である。
また、本発明は、テキスト音声合成を行う音声処理装置において、目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力部と、複数の音声素片の素片環境を記憶する環境記憶部と、前記各音声素片の波形データを周期成分と非周期成分とに分けてそれぞれ保持する素片記憶部と、前記複数のセグメントのそれぞれに対し、前記各韻律情報を基に、前記環境記憶部から複数の第1の音声素片の素片環境を選択する環境選択部と、前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の素片環境から前記第1の音声素片の周期成分を前記素片記憶部から取り出し、これらの各周期成分を融合することによって、第2の音声素片を生成する周期成分融合部と、前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の素片環境から前記第1の音声素片の非周期成分を前記素片記憶部から取り出し、これらの各非周期成分を融合することによって、第3の音声素片を生成する非周期成分融合部と、前記複数のセグメントの前記第2の音声素片と前記第3の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成部と、を備え、前記非周期成分融合部は、前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第1の生成部と、前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第2の生成部と、前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第3の音声素片として出力する出力部と、備え、前記生成部は、前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第3の音声素片の前記音声波形を生成して、前記第2の音声素片から得られる前記音声波形と加算する、音声処理装置である。
本発明によれば、融合による非周期成分の減衰やノイズの発生、及び非周期成分が周期的に繰り返されることによって生じるバジー感を改善でき、複数素片選択融合方式による安定感を保持したまま肉声感の高い合成音声を生成できる。
以下、本発明の実施形態のテキスト音声合成装置(以下、単に「合成装置」という)を、図面を参照して説明する。
(第1の実施形態)
本発明の第1の実施形態に係る合成装置について図1〜図13に基づいて説明する。
(1)合成装置の構成
合成装置の構成について図1に基づいて説明する。
合成装置は、テキスト入力部1と、テキスト入力部1から入力されるテキストの形態素解析・構文解析を行い、これらの言語解析結果を韻律処理部3へ出力する言語処理部2と、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列・及び韻律情報を生成し、音声合成部へ出力する韻律制御部3と、音韻系列及び韻律情報から音声波形を生成して出力する音声合成部4を備えている。
次に、本実施形態の最も特徴とする音声合成部4を中心にその構成及び動作について詳細に説明する。
(2)音声合成部4の構成
図2は、音声合成部4の構成を示すブロック図である。
音声合成部4は、以下の各部41〜49を備えている。
音韻系列・韻律情報入力部(以下、単に「情報入力部」という)41は、韻律制御部3から音韻系列・韻律情報が入力される
音声素片記憶部(以下、「素片記憶部」という)42は、大量の音声素片が蓄積されている。
音声素片環境記憶部(以下、「環境記憶部」という)43は、素片記憶部42に蓄積された音声素片に対応する音韻・韻律環境が蓄積されている。
素片選択部44は、素片記憶部42に蓄積された音声素片の中から複数の音声素片を選択する。
周期・非周期成分分離部(以下、単に「分離部」という)45は、素片選択部44が選択した複数の音声素片のそれぞれを周期成分と非周期成分に分離する。
周期成分融合部46は、分離部45から得られた複数の音声素片の周期成分を融合して新たな周期成分の音声素片を生成する。
非周期成分融合部47は、分離部45から得られた複数の音声素片の非周期成分を融合して新たな非周期成分の音声素片を生成する。
素片加算・編集・接続部(以下、単に「加算部」という)48は、周期成分融合部46及び非周期成分融合部47で生成された周期成分の音声素片及び非周期成分の音声波形を加算、変形及び接続して、合成音声の音声波形を生成する。
音声波形出力部49は、加算部48で生成した音声波形を出力する。
なお、各部41〜49の機能は、コンピュータに格納されたプログラムに実現できる。
次に、図2の各ブロックについて詳しく説明する。
(3)情報入力部41
まず、情報入力部41は、韻律制御部3から入力された音韻系列・韻律情報を素片選択部44へ出力する。
ここで、音韻系列は、例えば音韻記号の系列である。また、韻律情報は、例えば基本周波数、音韻継続時間長、パワーなどである。
以下、情報入力部41に入力される音韻系列と韻律情報を、それぞれ入力音韻系列と入力韻律情報と呼ぶ。
(4)素片記憶部42
次に、素片記憶部42は、合成音声を生成するときに用いる音声の単位(以下、「合成単位」という)の音声素片が大量に蓄積されている。
ここで、「合成単位」とは、音素あるいは音素を分割したもの(例えば、半音素など)の組み合わせ、例えば半音素、音素(C、V)、ダイフォン(CV、VC、VV)、トライフォン(CVC、VCV)、音節(CV、V)、などであり(Vは母音、Cは子音を表す)、これらが混在しているなど可変長であってもよい。
また、音声素片は、合成単位に対応する音声信号の波形もしくはその特徴を表すパラメータ系列などを表すものとする。
図3に、素片記憶部42に蓄積される音声素片の例を示す。図3に示すように、素片記憶部42には、各音素の音声信号の波形である音声素片が、この音声素片を識別するための素片番号と共に記憶されている。これらの音声素片は、別途収録された多数の音声データに対して音素毎にラベル付けし、ラベルにしたがって音素毎に音声波形を切り出したものである。
(5)環境記憶部43
環境記憶部43には、素片記憶部42に記憶されている各音声素片に対応した音韻・韻律環境が蓄積されている。
ここで、「音韻・韻律環境」とは、対応する音声素片にとって環境となる要因の組み合わせである。
要因としては、例えば前記音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などがある。
また、環境記憶部43には、音声素片の始端・終端でのケプストラム係数など、音声素片の音響特徴のうち音声素片の選択に用いる情報も蓄積されている。
環境記憶部43に蓄積される音声素片の音韻・韻律環境及び音響特徴量を総称して、以下では「素片環境」と呼ぶ。
図4に、環境記憶部43に蓄積される素片環境の例を示す。図4に示す環境記憶部43には、素片記憶部42に蓄積される各音声素片の素片番号に対応して素片環境が記憶されている。ここでは、音韻・韻律環境として、音声素片に対応した音韻(音素名)、隣接音韻(ここでは前記音韻の前後それぞれ2音素ずつ)、基本周波数、音韻継続時間長が、音響特徴量として音声素片始終端のケプストラム係数が記憶されている。
なお、これらの素片環境は、音声素片を切り出す元になった音声データを分析して抽出することによって得られる。
また、図4では、音声素片の合成単位が音素である場合を示しているが、半音素、ダイフォン、トライフォン、音節、あるいはこれらの組み合わせや可変長であってもよい。
(6)非周期成分融合部47
非周期成分融合部47について図5に基づいて説明する。図5は、非周期成分融合部47の構成の一例を示すブロック図である。
非周期成分融合部47は、以下の各部471〜476を備えている。
複数素片非周期成分入力部471は、複数の音声素片の非周期成分が入力される。
線形予測分析部472は、入力された複数の非周期成分のそれぞれに対して線形予測分析を行い、複数の非周期成分のそれぞれについて線形予測係数及び線形予測残差を出力する。
線形予測係数融合部473は、線形予測分析部472から出力された複数の線形予測係数を融合して新たな線形予測係数を生成する。
残差パワー包絡抽出部474は、線形予測分析部472から出力された複数の線形予測残差のそれぞれから線形予測残差のパワー包絡を抽出する。
残差パワー包絡融合部475は、残差パワー包絡抽出部474で抽出された複数の残差パワー包絡を融合して新たな残差パワー包絡を生成する。
融合非周期成分素片出力部476は、線形予測係数融合部473及び残差パワー包絡融合部475で生成された融合線形予測係数と融合残差パワー包絡をセットにして融合非周期成分素片として出力する。
非周期成分融合部47に含まれる各構成要素の具体的な動作については後述する。
(7)加算部48
加算部48について図6に基づいて説明する。図6は、加算部48の構成の一例を示すブロック図である。
加算部48は、以下の各部481〜487を備えている。
融合周期成分素片入力部481は、複数の音声素片の周期成分が融合されてできた融合周期成分素片が入力される。
融合非周期成分素片入力部482は、複数の音声素片の非周期成分が融合されてできた融合非周期成分素片が入力される。
白色雑音発生部483は、呼ばれる毎に異なった白色雑音を発生する。
音源波形生成部484は、白色雑音発生部483で生成された白色雑音を、融合非周期成分素片入力部482から入力された融合残差パワー包絡に従って振幅変調することによって非周期成分の音源波形を生成する。
線形予測フィルタ485は、融合非周期成分素片入力部482から入力された融合線形予測係数を用いて音源波形生成部484で生成された音源波形を線形予測フィルタリングすることによって融合非周期成分素片の音声波形を生成する。
素片加算部486は、融合周期成分素片入力部481から入力された融合周期成分素片の音声波形と線形予測フィルタ485から入力された融合非周期成分素片の音声波形を加算して新たな融合音声素片を生成する。
素片編集・接続部487は、素片加算部486で生成された融合音声素片を、韻律等を編集しながら接続して合成音声の音声波形を生成する。
加算部48に含まれる各構成要素の具体的な動作については後述する。
次に、図2を用いて、音声合成部4の詳細な動作を説明する。
(8)素片選択部44の動作
図2に示す情報入力部41を介して素片選択部44に入力された音韻系列は、合成単位毎に区切られる。以下、この区切られた合成単位を「セグメント」という。
素片選択部44は、環境記憶部43を参照し、各セグメントに対して融合する複数個の音声素片の組み合わせを選択する。
このときに素片選択部44は、一般の素片選択型音声合成方法や従来の複数素片選択融合型音声合成方法と同様に、音声素片の選択の尺度として、各音声素片候補を用いて音声を合成した場合の合成音声と目標音声との歪みの大きさを間接的に表すコストを用い、このコストができるだけ小さくなるように融合する音声素片の組み合わせを選択する。
「目標音声」とは、音声を合成する際の目標となる(仮想的な)音声、すなわち、入力された音韻の並びと韻律を実現し、かつ、理想的に自然な音声をいう。
(8−1)コスト
コストは、大きく二種類のコストがある。
第1のコストは、対象の音声素片を目標の音韻・韻律環境で使用することによって生じる合成音声の目標音声に対する歪みの度合いを表す目標コストである。
第2のコストは、対象素片を隣接する音声素片と接続したときに生じる合成音声の目標音声に対する歪みの度合いを表す接続コストである。
具体的には、次の通りである。
目標コストとしては、音声素片が持つ基本周波数と目標の基本周波数の違い(差)によって生じる歪み(基本周波数コスト)、音声素片の音韻継続時間長と目標の音韻継続時間長の違い(差)によって生じる歪み(継続時間長コスト)、音声素片が属していた音韻環境と目標の音韻環境の違いによって生じる歪み(音韻環境コスト)などがある。 接続コストとしては、音声素片境界でのスペクトルの違い(差)によって生じる歪み(スペクトル接続コスト)や、音声素片境界での基本周波数の違い(差)によって生じる歪み(基本周波数接続コスト)などがある。
(8−2)音声素片を選択する方法
コストを用いてセグメント当たり複数個の音声素片を選択する方法については特許文献2にその一例が記載されている。この選択方法の概要について図7のフローチャートを用いて、セグメント当たりM個の音声素片を選ぶ場合について説明する。
まず、ステップS101において、素片選択部44は、入力された音韻系列を合成単位毎のセグメントに分割する。ここで、分割されたセグメントの数をNとする。
次に、ステップS102において、素片記憶部42に記憶されている音声素片群の中から、各セグメント1つずつの音声素片の系列を選択する。このときの選択においては、入力された目標の音韻系列・韻律情報と、環境記憶部43の音声素片環境の情報を基に、系列としてのコストの総和(トータルコスト)が最小となるような音声素片の系列(最適素片系列)を求める。この最適素片系列の探索には、動的計画法(DP:dynamic programming)を用いることで効率的に行うことができる。
次に、ステップS103において、セグメント番号を表すカウンターiに初期値「1」をセットする。
次に、ステップS104において、セグメントiに対する各音声素片候補に対してコストを算出する。このときに用いるコストには、前記音声素片候補での目標コストと、前後のセグメントの最適音声素片(最適素片系列に含まれる音声素片)と前記音声素片候補との接続コストとの和を用いる。
次に、ステップS105において、ステップS104で算出したコストを用いて、コストの小さい上位M個の音声素片を選択する。
次に、ステップS106において、カウンターiがN以下かどうかを判定する。N以下の場合(ステップS106のYES)にはステップS107に進み、否の場合(ステップS106のNO)には素片選択の処理を終了する。
次に、ステップS107において、カウンターiの値を1つ増やして、ステップS104に進む。
(8−3)まとめ
このように、素片選択部44は、各セグメントに対してM個ずつの音声素片を選択し、選択した音声素片を分離部45に出力する。
素片選択部44においてセグメント当たり複数個の音声素片を選択する方法は、上記した方法に限定する必要はなく、コストなどの何らかの評価尺度の下で適切な音声素片の組を選べる方法であれば、いかなる方法を用いても良い。
(9)分離部45の動作
分離部45は、素片選択部44で各セグメントに対して選択された複数個の音声素片のそれぞれを素片記憶部42から取り出し、各音声素片を周期成分と非周期成分に分離する。
ここで、本実施形態においては、「周期成分」とは基本周期毎にほぼ周期的に繰り返される波形成分で、周波数領域においては基本周波数の倍音成分(基本周波数の整数倍の位置にある成分)を構成する成分のことを指す。
一方、「非周期成分」とは、周期成分以外の波形成分を指すものとする。
(9−1)PSHF
音声波形を周期成分と非周期成分に分離する1つの方法として、PSHF(pitch-scaled harmonic filter)という方法が非特許文献1(P Jackson, 「Pitch-Scaled Estimation of Simultaneous Voiced and Turbulence-Noise Components in Speech」, IEEE Trans. Speech and Audio Processing, vol. 9, pp. 713-726, Oct. 2001)に開示されている。
このPSHFでは、周期的な波形から基本周期のN倍(通常N=4あるいは3を用いる)の窓幅で窓かけ(通常、Hanning窓を用いる)して取り出した波形を、その長さを分析長として離散フーリエ変換(DFT)すると、Nの整数倍番目(N=4の場合、4、8、12、...)の周波数ビンに倍音成分の大部分が現れることを利用して周期成分と非周期成分を分離する。具体的には、次のように行う。
まず、入力された音声波形中の各サンプル点において、基本周期のN倍の窓幅、かつ、その点を窓中心としたHanning窓で窓かけして波形を取り出して、窓幅と同じ分析長でDFTし、Nの整数倍番目の周波数ビンの成分を周期成分、残りの成分を非周期成分として分離する。
ここで分離された非周期成分は、Nの整数倍番目の周波数ビンのパワーが0で、その結果スペクトル包絡が不連続になっているため、非周期成分のスペクトル包絡が周波数方向に滑らかに変化するという前提の下で、周期成分の一部を非周期成分に再配分する(パワー補間)。
このようにして各サンプル点で取り出した周期成分と非周期成分を、それぞれ逆DFTして時間領域の波形にし、全サンプル点の周期成分波形と非周期成分波形をそれぞれ時間軸上で重畳(Overlap and Add)することによって、周期成分と非周期成分を再構成する。
(9−2)図8の説明
図8に、このPSHFを用いて実際の音声波形を周期成分と非周期成分に分離した例を示す。
符号50は、元の音声波形で、実際には「は」と発声されている部分の一部である。一方、符号51は、分離された周期成分の波形、符号52は分離された非周期成分の波形である。
実際には、基本周波数やパワーの変化が激しい箇所において、周期成分の一部が非周期成分として分離されてしまう(すなわち周期成分の一部が非周期成分にリークする)問題があるものの、図8の例に示すように、この方法を用いることによって、周期成分と非周期成分への分離がおおむね良好に行えるため、本実施形態ではこの方法を用いることとする。
なお、無声音の内部など、周期性がなく基本周期が得られない部分については、PSHFが適用できないため全ての成分を非周期成分に配分する。
(9−3)他の方法
但し、周期成分と非周期成分に分離する方法はこの方法に限定する必要はなく、Yegnanarayanaらの非特許文献2(B. Yagnanarayana, etc., 「An iterative algorithm for decomposition of speech signals into periodic and aperiodic components」, IEEE Trans. Speech Audio Processing, vol.6, pp. 1-11, Feb. 1998)によって開示されているPARD法(Periodic-Aperiodic Decomposition algorithm)など、高精度で周期成分と非周期成分に分離できる方法であれば、いかなる方法を用いてもよい。
また、一般的な有声音では、ある周波数より低い周波数帯域では周期成分が支配的であるのに対し、ある周波数より高い周波数帯域では逆に非周期成分が支配的であることが多いため、簡易的に、音声素片の波形をローパスフィルターなどによって、ある周波数より低い周波数成分(低域成分)と高い周波数成分(高域成分)に分け、低域成分を周期成分、高域成分を非周期成分としてもよい。
(9−4)まとめ
分離部45は、上記のような方法を用いて、各セグメントに対して選択された複数個の音声素片のそれぞれを周期成分と非周期成分に分離し、得られた周期成分を周期成分融合部46に出力し、非周期成分を非周期成分融合部47に出力する。
(10)周期成分融合部46の動作
周期成分融合部46は、それぞれのセグメント毎に、分離部45から入力された複数個の音声素片の周期成分を融合して新たな音声素片(以下、「融合周期成分素片」という)を生成する。有声音の周期成分を融合する方法については、特許文献2に詳細が記載されている。その方法を図9及び図10を用いて説明する。
図9は、有声音の周期成分波形を融合して新たな音声波形を生成する方法のフローチャートである。図10は、あるセグメントに対して選択された3つの音声素片からなる素片組み合わせ候補60を融合して新たな音声素片63を生成する例を示す図である。
(10−1)ステップS201
まず、ステップS201において、選択されたそれぞれの音声素片からピッチ波形を切り出す。
「ピッチ波形」とは、その長さが音声の基本周期の数倍程度で、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すものである。
このようなピッチ波形を抽出する1つの方法として、基本周期同期窓を用いる方法があり、ここではこの方法を用いることとする。
具体的には、それぞれの音声素片の音声波形に対して基本周期間隔毎にマーク(ピッチマーク)を付し、このピッチマークを中心にして、窓長が基本周期の2倍のハニング窓で窓掛けすることによって、ピッチ波形を切り出す。図13のピッチ波形系列61は、素片組み合わせ候補60の各音声素片から切り出して得られたピッチ波形の系列の例を示している。
(10−2)ステップS202
次に、ステップS202において、それぞれの音声素片に対するピッチ波形の個数が、音声素片間で同一になるようにピッチ波形の数を揃える。
このときに、揃える対象となるピッチ波形の数は、目標の音韻継続時間長の合成音声を生成するために必要なピッチ波形数とするが、例えば最もピッチ波形数の多いものに揃えてもよい。
ピッチ波形の少ない系列は、系列に含まれるいくつかのピッチ波形を複製することによってピッチ波形数を増やし、ピッチ波形の多い系列は、系列中のいくつかのピッチ波形を間引くことによってピッチ波形数を減らす。図13のピッチ波形系列62は、ピッチ波形の数を6つに揃えた例を示している。
(10−3)ステップS203
次に、ステップS203において、ピッチ波形数を揃えた後、それぞれの音声素片に対応するピッチ波形系列中のピッチ波形をその位置毎に融合することによって、新たなピッチ波形系列を生成する。
例えば、図13で生成された新たなピッチ波形63に含まれるピッチ波形63aは、ピッチ波形系列62のうち、6番目のピッチ波形62a,62b,62cを融合することによって得られる。このようにして生成された新たなピッチ波形系列63を、融合された音声素片とする。
ここで、ピッチ波形を融合する方法としては、次のような方法がある。
第1の方法は、単純にピッチ波形の平均を計算する方法である。
第2の方法は、ピッチ波形間の相関が最大になるよう時間方向に各ピッチ波形の位置を補正してから平均化する方法である。
第3の方法は、ピッチ波形を帯域分割して、帯域毎にピッチ波形間の相関が最大になるようピッチ波形の位置を補正して平均化した結果を、帯域間で足し合わせる方法である。
いずれの方法を用いても良いが、本実施形態では、最後に説明した第3の方法を用いる。
(10−4)まとめ
周期成分融合部46は、上記した方法を用いて、各セグメントについて、複数の音声素片の周期成分を融合して融合周期成分素片を生成し、加算部48に出力する。
(11)非周期成分融合部47の動作
非周期成分融合部47は、それぞれのセグメント毎に、分離部45から入力された複数個の音声素片の非周期成分を融合して新たな音声素片(以下、「融合非周期成分素片」という)を生成する。
非周期成分の音声波形は、基本的に異なる音声素片間で相関が無いため、上記の周期成分の融合方法のように波形間で平均化すると振幅が減衰するだけでほとんど意味がない。そこで、本実施形態においては、音声生成モデルを用いることによって、非周期成分の音声波形を声道フィルタの特徴を表すパラメータと音源波形の特徴を表すパラメータに分離し、それぞれのパラメータについて融合を行うこととする。
ここでは音声生成モデルのシステム関数が全極型であると仮定し、線形予測分析を用いてこれらのパラメータを得ることとする。すなわち、線形予測分析によって得られる線形予測係数が声道フィルタの特徴を表し、線形予測残差が音源波形の特徴を表す。具体的に非周期成分を融合する方法については、図5を用いて説明する。
(11−1)複数素片非周期成分入力部471
まず、複数素片非周期成分入力部471に入力された、セグメント当たり複数個の音声素片の非周期成分のそれぞれを、線形予測分析を行う単位に分割する。
線形予測分析を行う単位としては、固定長のフレーム単位でもよいが、本実施形態においては、非周期成分が取り出される元となった音声素片の音声波形に、基本周期間隔毎にマーク(ピッチマーク)付与されているので、この単位で分析する。
具体的には、ピッチマーク毎に、ピッチマーク位置を中心としたピッチ周期の2倍の窓幅のHanning窓をかけて分析対象の波形を取り出す。
さらに、セグメントに対する複数の音声素片のそれぞれに対し、分析対象の単位を複製したり間引いたりすることによって、目標の音韻継続時間長の合成音声を生成するために必要なピッチ波形数になるように、複数の音声素片間で数を揃える。
無声音の内部など、周期性が無くピッチマークが付与されていない部分については、固定のフレーム単位で分析を行うこととする。
(11−2)線形予測分析部472
次に、線形予測分析部472において、各音声素片の分析単位毎に線形予測分析するここで分析対象の音声波形をs(n)、線形予測係数をα(k=1,...,p、pは分析次数)、線形予測残差をe(n)とすると、これらの関係は以下の式(1)のように表される。
Figure 0005159325
線形予測分析においては、式(1)において、線形予測残差e(n)の二乗平均を最小にするよう線形予測係数を求める。
この方法として、自己相関法、共分散法などいくつかの方法がよく知られているが、いずれの方法を用いてもよい。本実施形態では、分析次数pとしては、元の音声波形が22kHzサンプリングの場合、20程度の値を用いるものとする。
線形予測分析部472は、上記のように、線形予測分析によって、それぞれの非周期成分の各分析単位に対して線形予測係数と線形予測残差を算出し、線形予測係数を線形予測係数融合部473に、線形予測残差を残差パワー包絡抽出部474に出力する。
(11−3)線形予測係数融合部473
次に、線形予測係数融合部473においては、線形予測分析部472から入力された複数の非周期成分の線形予測係数を、分析単位毎に融合することによって、これらの線形予測係数で表されるスペクトル特徴を平均的に表すような、新たな線形予測係数を生成する。
線形予測係数自体を複数の非周期成分間で単純に平均化しても、これらの係数が表すスペクトル特徴を平均化することになるとは限らないため、本実施形態においては、複数の線形予測係数を線スペクトル対(LSP)領域で平均化することによって融合することにする。
具体的には、次のようにする。
第1に、それぞれの線形予測係数をいったん線スペクトル対に変換する。
第2に、得られた複数の線スペクトル対をi番目の係数毎に平均化する。
第3に、平均化した線スペクトル対を線形予測係数に戻すことによって、平均的な線形予測係数を得る。
線スペクトル対は一般に、ホルマント周波数と対応が優れているため、線スペクトル対領域で平均化することによって、複数の線形予測係数に共通するスペクトル特徴を、比較的良好に得ることができる。
但し、線形予測係数の融合方法は、この方法に限定する必要はない。例えば、線形予測係数から線形予測極を算出した後、複数の線形予測極を補間して平均的な線形予測極を得る方法など、他の方法を用いてもよい。
線形予測係数融合部473は、上記のようにして、融合によって新たな線形予測係数を生成し、融合非周期成分素片出力部476に出力する。
(11−4)残差パワー包絡抽出部474
残差パワー包絡抽出部474は、線形予測分析部472から入力された複数の非周期成分の各分析単位での線形予測残差のそれぞれについて、残差のパワー包絡を抽出する。
本実施形態においては、残差のパワー包絡として短時間平均振幅の時間変化パターンを求める。図11は、線形予測残差波形e(n)から、短時間平均振幅の時間変化パターンを求める方法を説明するためのフローチャートである。
ステップS301において、残差パワー包絡抽出部474は、まず残差波形e(n)の絶対値|e(n)|を算出する。
ステップS302において、|e(n)|に対してローパスフィルター(LPF)を適用することによって、短時間平均振幅の時間変化パターンM(n)を得ることができる。
本実施形態においては、ローパスフィルターには、窓関数を用いたFIRフィルタを用い、窓関数w(n)には窓幅11点の矩形窓を用いることとする。すなわち、本実施形態での短時間平均振幅は、|e(n)|の11点での移動平均に相当する。
但し、残差のパワー包絡を求める方法は、上記した方法に限定する必要はない。例えば、ヒルベルト変換を用いた方法など、時間方向のパワー変化パターンが求められる方法であればいかなる方法を用いてもよい。
残差パワー包絡抽出部474は、上記のような方法で求められた、複数の非周期成分のそれぞれに対する線形予測残差のパワー包絡を、残差パワー包絡融合部475に出力する。
(11−5)残差パワー包絡融合部475
残差パワー包絡融合部475では、残差パワー包絡抽出部474から入力された、複数の非周期成分のそれぞれに対する線形予測残差のパワー包絡を、分析単位毎に融合して、新たな残差のパワー包絡を生成する。
ここでのパワー包絡の融合は、パワー包絡間での相関が最大になるよう時間方向でのアラインメントを取りつつ平均化することによって行う。具体的には、図12を用いて説明する。
図12は、線形予測残差のパワー包絡を融合する方法を説明するフローチャートである。
このフローチャートでは、M個の残差パワー包絡を融合する方法を示しており、P(n)がm番目の残差パワー包絡、Pfused(n)は融合した残差パワー包絡を表している。
まず、ステップS401において、カウンターmの値を「1」に初期化する。
次に、ステップS402において、融合残差パワー包絡Pfused(n)の全ての振幅を「0」に初期化する。
次に、ステップS403において、変数sumShiftの値を「0」に初期化する。
次に、ステップS404において、m番目の残差パワー包絡P(n)と1番目の残差パワー包絡P(n)の相関を計算し、相関が最大になるよう時間方向にシフトする。
次に、ステップS405において、融合残差パワー包絡Pfused(n)にm番目の残差パワー包絡P(n)を加算する。
次に、ステップS404において、シフト量を変数sumShiftに加算する。
次に、ステップS407において、カウンターmの値がM以下かどうかを判定し、M以下の場合(ステップS407のYESの場合)はステップS408に進み、否の場合(ステップS407のNOの場合)はステップS409に進む。
次に、ステップS408において、カウンターmの値を1つインクリメントして、ステップS404に戻る。すなわち、ステップS404からステップS407の処理を、M個の残差パワー包絡の全てについて行う。
次に、ステップS409において、融合残差パワー包絡Pfused(n)の振幅をMで除算する。
次に、ステップS410において、融合残差パワー包絡Pfused(n)を、−sumShift/Mだけ時間方向にシフトして、全ての処理を終了する。
残差パワー包絡融合部475は、上記のように融合して得られた新たな残差パワー包絡を融合非周期成分素片出力部476に出力する。
但し、残差パワー包絡の融合の方法は、上記の方法に限定する必要はない。例えば、複数の残差パワー包絡を平均的に表すような残差パワー包絡が得られる方法であれば、いかなる方法を用いてもよい。
(11−6)融合非周期成分素片出力部476
融合非周期成分素片出力部476は、線形予測係数融合部473から入力された融合線形予測係数と、残差パワー包絡融合部475から入力された融合残差パワー包絡の組を、融合非周期成分素片として、加算部48に出力する。
(12)加算部48
次に、加算部48の具体的な動作を、図6に基づいて説明する。
(12−1)入力部481,482
加算部48には、周期成分融合部46からセグメント毎の融合周期成分素片が融合周期成分素片入力部481を介して入力される。
非周期成分融合部47からセグメント毎の融合非周期成分素片が融合非周期成分素片入力部482を介して入力される。
(12−2)音源波形生成部484
まず、融合非周期成分素片の融合残差パワー包絡を音源波形生成部484に入力する。
音源波形生成部484は、白色雑音発生部483で発生させた白色雑音波形を、入力された融合残差パワー包絡で振幅変調することによって、融合非周期成分素片の音源波形を生成する。
本実施形態においては、融合残差パワー包絡は、各セグメントに対する融合非周期成分素片中のピッチマーク毎(無声音の場合は固定長のフレーム毎)に持っているため、音源波形の生成も実際にはピッチマーク毎に行う。
具体的には、白色雑音波形の振幅変調は、あるピッチマーク用に発生した白色雑音波形に、融合残差パワー包絡を掛けることによって行う。白色雑音波形は、白色雑音発生部483において、ピッチマーク毎に異なるように生成される。その結果、音源波形生成部484で結果的に生成される融合非周期成分素片の音源波形は、異なるピッチマーク間で相関の無いものになる。
このようにして生成された融合非周期成分素片の音源波形は、線形予測フィルタ部485に出力される。
(12−3)線形予測フィルタ部485
線形予測フィルタ部485は、音源波形生成部484で生成された融合非周期成分素片の音源波形を、融合非周期成分素片入力部482から入力された融合線形予測係数を用いて線形予測フィルタリングすることによって、融合非周期成分素片の音声波形を生成する。
(12−3−1)パワーの補償
ここで、上記のように生成された融合非周期成分素片の音声波形のパワーは、融合元の非周期成分波形の平均的なパワーよりも小さくなってしまう場合がある。融合残差パワー包絡が、融合元のそれぞれの非周期成分で線形予測分析して得られた残差から求められているため、融合線形予測係数を用いて線形予測分析した場合の残差のパワーよりも小さくなっている可能性が高いためである。
そこで、線形予測フィルタ部485において、融合から合成の過程で非周期成分波形に起こる上記のようなパワー変化を補償するような後処理を行ってもよい。
パワーの補償は、非周期成分融合部47において融合元の非周期成分波形の平均パワーを予め求めておき、線形予測フィルタ部485では、融合非周期成分素片の音声波形を生成した後で、その波形のパワーを算出し、パワーが上記の平均パワーになるように、生成された音声波形全体に一律のゲインをかけることによって実現できる。
(12−3−2)ホルマント強調
また、上記のように生成された融合非周期成分素片の音声波形は、非周期成分の融合の影響によって、融合元の非周期成分波形よりもスペクトル包絡がなまってしまい、いくつかのホルマントが弱められてしまった結果、明瞭感が下がってしまう場合がある。
そこで、非周期成分融合部47において、ホルマント強調などの後処理を行ってもよい。例えば、J. Chenらの非特許文献3(J. Chen, etc., 「Adaptive Postfiltering for Quality Enhancement of Coded Speech」, IEEE Trans. Speech and Audio Processing, vol. 3, Jan 1995)によって開示されている、ホルマント強調を行うためのポストフィルタを用いて、生成された音声波形をフィルタリングすることによって、スペクトル包絡中のホルマントを強調し、融合による明瞭性の低下を補償することができる。
(12−3−3)まとめ
上記のように線形予測フィルタ部485で生成された融合非周期成分素片の音声波形は、素片加算部486に出力される。
(12−4)素片加算部486
素片加算部486は、融合周期成分素片入力部481から入力された融合周期成分素片の音声波形と、線形予測フィルタ部485から入力された融合非周期成分素片の音声波形を加算して、新たな音声素片を生成する。
このときに本実施形態においては、融合周期成分素片の音声波形と融合非周期成分素片の音声波形を、ピッチ波形毎に単純に加算する。
しかし、素片加算部486に両成分を加算する際の比率を何らかの値に基づいて変えてもよい。例えば、素片加算部486の外部から「気息性(breathiness、声門での息漏れ)の度合い」を「普通」、「強め」、「弱め」などで指定できるようになっている場合、指定された「気息性の度合い」に応じて、「普通」の場合は単純に加算するが、「強め」の場合は融合非周期成分素片の音声波形に1.3倍のゲインを掛けてから加算する。この場合、ややハスキーな声などを容易に作ることができ、合成音声の音質の可制御性を高めることができる。素片加算部486は、上記のようにして生成した新たな音声素片を素片編集・接続部487に出力する。
(12−5)素片編集・接続部487
素片編集・接続部487は、素片加算部486から渡されたセグメント毎の音声素片を、入力韻律情報に従って変形して接続することによって、合成音声の音声波形を生成する。
図13は、素片編集・接続部487での処理を説明するための図である。図13には、素片加算部486で生成された、音素「a」「N」「s」「a」「a」の各合成単位に対する音声素片を、変形・接続して、「aNsaa」という音声波形を生成する場合を示している。
この例では、有声音の音声素片はピッチ波形の系列で表現されている。一方、無声音の音声素片は、フレーム毎の波形として表現されている。
図13の点線は、目標の音韻継続時間長に従って分割した音素毎のセグメントの境界を表し、白い三角は、目標の基本周波数に従って配置した各ピッチ波形を重畳する位置(ピッチマーク)を示している。
図13のように、有声音については音声素片のそれぞれのピッチ波形を対応するピッチマーク上の重畳し、無声音については各フレームの波形をセグメント中の各フレームに対応する部分に貼り付ける(フレームの長さは音源波形生成部484において所望の音韻継続時間調に合わせて伸縮されている)ことによって、所望の韻律(ここでは、基本周波数、音韻継続時間長)を持った音声波形を生成する。
(12−6)まとめ
上記のようにして加算部48で生成された合成音声の音声波形は、音声波形出力部49から出力される。
(13)効果
以上のように本実施形態によれば、合成単位辺り複数個選択された音声素片を周期成分と非周期成分とに分けてそれぞれの成分に適した方法で融合して両成分を足し合わせることによって、融合による非周期成分の減衰やノイズの発生を防ぐことができる。
また、本実施形態によると、非周期成分の各ピッチ波形に対して異なる音源信号を用いることによって、非周期成分が周期的に繰り返されることによって生じるバジー感を改善でき、結果として、複数素片選択融合方式による安定感を保持したまま、肉声感の高い合成音声を生成できる。
(第2の実施形態)
本発明の第2の実施形態に係る音声合成部4について図14に基づいて説明する。
(1)本実施形態の概要
第1の実施形態の音声合成部4は、分離部45を内部に備えていて、周期・非周期成分の分離は音声素片の選択の後にオンラインで行われる。しかし、この周期・非周期成分の分離には非常に大きな計算量を要し、第1の実施形態は、実時間で合成波形を生成するような応用にはあまり適していない。
例えば、第1の実施形態において、周期成分と非周期成分に分離する手段として説明したPSHFでは、DFTを基本周期のN倍の分析長で行う必要があるため、高速フーリエ変換(FFT)は使えず、現時点では大きく高速化できる手段がない。
そこで、本実施形態では、音声素片の音声波形を予めオフラインで周期成分と非周期成分に分離しておき、分離した周期成分と非周期成分を融合に用いる。
(2)音声合成部4の構成
図14は、本実施形態の音声合成部4の構成を示すブロック図である。図14を用いて、本実施形態について、第1の実施形態との違いを中心に説明する。
音声合成部4は、第1の実施形態の分離部45は具備せず、素片記憶部42の代わりに音声素片周期成分記憶部421と音声素片非周期成分記憶部422を備えている。
音声素片周期成分記憶部421には、各音声素片の周期成分のみが記憶されている。
音声素片非周期成分記憶部422には、各音声素片の非周期成分のみが記憶されている。
音声素片周期成分記憶部421及び音声素片非周期成分記憶部422に記憶されている各音声素片の周期成分及び非周期成分は、第1の実施形態の分離部45で用いているのと同様の方法を用いて、予めオフラインで各音声素片の音声波形を周期成分と非周期成分に分離したものである。
(3)音声合成部4の動作
本実施形態における音声合成部4の動作について説明する。この音声合成部4の動作は、周期成分分離部46と非周期成分47の動作が若干違うのを除けば、第1の実施形態と同様である。以下、周期成分分離部46と非周期成分分離部47の動作の、第1の実施形態との違いについて説明する。
周期成分融合部46は、素片選択部44で各セグメントに対して選択された複数個の音声素片のそれぞれの周期成分を音声素片周期成分記憶部421から取り出して、音声素片の周期成分を融合する。周期成分の融合方法は、第1の実施形態で説明したのと同様である。
非周期成分融合部47は、素片選択部44で各セグメントに対して選択された複数個の音声素片のそれぞれの非周期成分を音声素片非周期成分記憶部422から取り出して、音声素片の非周期成分を融合する。非周期成分の融合方法についても、第1の実施形態で説明したのと同様である。
(4)効果
以上のように、本実施形態によれば、非常に計算量の大きい周期・非周期成分の分離を予めオフラインで行うので、第1の実施形態とほぼ同様の音質向上効果を、第1の実施形態よりもはるかに低い計算量で実現でき、実時間で合成波形を生成するような応用にも適用可能である。
(第3の実施形態)
本発明の第3の実施形態に係る音声合成部4について図15に基づいて説明する。
第1、第2の実施形態においては、周期成分と非周期成分で共通の音声素片を選択するが、必ずしも両成分で共通の音声素片を選択する必要はない。
そこで、本実施形態では、それぞれの成分に適した音声素片を別々に選択する。
(1)音声合成部4の構成
図15は、第3の実施形態の構成を示すブロック図である。図15を用いて、本実施形態について、第2の実施形態との違いを中心に説明する。
本実施形態の音声合成部4は、素片選択部44の代わりに、周期成分用素片選択部441と非周期成分用素片選択部442を備えている。
周期成分用素片選択部441は、各セグメントに対して周期成分の融合に適した音声素片を複数ずつ選択する。
非周期成分用素片選択部442は、各セグメントに対して非周期成分の融合に適した音声素片を複数個ずつ選択する。
(2)音声合成部4の動作
周期成分用素片選択部441と非周期成分用素片選択部442での音声素片の選択方法は、両選択部441,442で共通の方法を用いてもよいし、双方で全く異なる方法を用いてもよいが、共通の方法を用いる場合には、両選択部間でパラメータ設定などが異なることによって、両選択部で結果的に選択される音声素片が少なくとも一部のセグメントにおいて異なるものとする。
一例として、周期成分用素片選択部441と非周期成分用素片選択部442での音声素片の選択方法には、両選択部441,442とも第1の実施形態で説明したのと同様の方法を用いる。
しかし、音声素片の選択での評価尺度であるコストについて、周期成分用素片選択部441と非周期成分用素片選択部442との間でサブコストの重み付けの仕方を変えるという方法が考えられる。
例えば、周期成分については元の音声素片と合成時での基本周波数の違いや、素片間でのスペクトルの違いが最終的な合成音の音質に大きく影響するが、非周期成分では元の音声素片と合成時の音韻環境の違いが音質に大きく影響すると考えられるため、周期成分については基本周波数コストやスペクトル接続コストの重みを重めに設定するのに対し、非周期成分については音韻環境コストの重みを重めに設定するなどが考えられる。
(3)効果
以上のように本実施形態によれば、周期成分と非周期成分の音声素片をそれぞれの成分に合った方法で選択するので、第1、第2の実施形態よりも高い音質が実現できる。
(第4の実施形態)
本発明の第4の実施形態に係る音声合成部4について図16と図19に基づいて説明する。
(1)本実施形態の概要
第2の実施形態は比較的低い計算量で実現できるものの、そもそも音声素片の融合処理に比較的大きな計算量を要するため、CPUスペックが非常に低いローエンドのミドルウェア向けには、第2の実施形態でもまだ適用は困難である。
そこで、本実施形態では、音声素片の融合処理も予めオフラインで行っておき、融合された音声素片から適切なものを選択する。
(2)音声合成部4の構成
図16は、本実施形態の音声合成部4の構成を示すブロック図である。図16を用いて、本実施形態について、第2の実施形態との違いを中心に説明する。
本実施形態においては、音声合成部4は、第2の実施形態の音声合成部4が備えていた周期成分融合部46と非周期成分融合部47は具備しない。また、素片記憶部42としては、融合済み周期成分素片記憶部423と融合済み非周期成分素片記憶部424を備えている。
融合済み周期成分素片記憶部423には、第1、2の実施形態の周期成分融合部46において複数の音声素片の周期成分を融合することによって生成された融合済み周期成分素片が格納されている。
融合済み非周期成分素片記憶部424には、第1、2の実施形態の非周期成分融合部47において複数の音声素片の非周期成分を融合することによって生成された融合済み非周期成分素片が格納されている。
融合済み周期成分素片記憶部423と融合済み非周期成分素片記憶部424に格納される融合済み周期成分素片及び融合済み非周期成分素片は、大量の文を第1、第2の実施形態の合成装置に入力したときに、周期成分融合部46及び非周期成分融合部47で実際に生成された融合済み周期成分素片及び融合済み非周期成分素片の中から、出現頻度の高い音声素片を抽出したものである。
(3)学習方法
次に、融合済み周期成分素片記憶部423と融合済み非周期成分素片記憶部424(まとめて、「両素片記憶部423,424」という)で融合済み周期成分素片と融合済み非周期成分素片を学習する方法について図19に基づいて説明する。
図19は、両素片記憶部423,424に格納する融合済み周期成分素片と融合済み非周期成分素片を抽出する方法を示すフローチャートである。
まず、ステップS501において、第1、2の実施形態の合成装置に対して、大量の文を入力する。なお、この合成装置には、周期成分融合部46で生成される融合済み周期成分素片と非周期成分融合部47で生成される融合済み非周期成分素片をそれぞれ出力する出力部が追加されている。
次に、ステップS502において、入力された各文の各セグメントに対して生成された融合済み周期成分素片と融合済み非周期成分素片が各融合部46,47から出力される。
次に、ステップS503において、外部から指定された両素片記憶部423,424に格納する音声素片の総数を、それぞれの素片種別に対していくつずつ配分するかを決める。ここで、素片種別とは、素片の音韻環境などで分類された種別を指す。例えば、素片種別/a/は、音素/a/に対応する素片のこととする。各素片種別に何個ずつ素片を配分するかは、各素片種別の素片の出現頻度などに応じて決める。例えば、素片種別/a/の素片が素片種別/u/の素片よりも出現頻度が高い場合は、素片種別/a/に多めの素片を配分することとする。素片種別iに配分する素片の個数をNとする。
次に、ステップS504において、素片種別番号iに初期値1をセットする。
次に、ステップS505において、素片種別iの融合済み周期成分素片及び融合済み非周期成分素片を、ステップS502で出力された素片種別iの素片の中から、出現頻度が上位のものをNずつ抽出する。
次に、ステップS506において、iと素片種別数を比較する。
iが素片種別数以下ならステップS507に進んで(ステップS506のYES)iをインクリメントし(ステップS507)、ステップS505〜ステップS506を繰り返す。
iが素片種別数を超えていれば(すなわち全ての素片種別に対する処理が完了していれば)、ENDに進んで処理を終了する。
(4)学習のまとめ
上記のようにして抽出した融合済み周期成分素片と融合済み非周期成分素片を、融合済み周期成分素片記憶部423と融合済み非周期成分素片記憶部424にそれぞれ格納する。
ここで、融合済み周期成分素片記憶部423と融合済み非周期成分素片記憶部424に格納するために選択する音声素片の個数は、トータルでの音声素片サイズと合成音声の音質とのトレードオフで、任意に決めることができる。より多くの音声素片を選択して格納すれば、サイズは大きくなるが、合成音声の音質を高くすることができ、音声素片の数を減らせば、合成音声の音質は犠牲になるが、サイズを小さくすることができる。
(5)変更例
また、ここでは出現頻度の高い素片を抽出する方法を説明したが、素片の両端で算出したメルケプストラムなどの素片の特徴量を用いて抽出しても良い。
この場合、各素片種別に対して出力された融合済み周期成分素片及び融合済み非周期成分素片をそれぞれ、素片の特徴量を用いてクラスタリングし、分割された各クラスタの中心(セントロイド)に最も近い素片を抽出する。クラスタリングにおけるクラスタ数は、各素片種別に配分する素片数に応じて決める。
出現頻度に基づいて素片を抽出する場合は、出現頻度が低いコンテキストに対して適切な素片が抽出されない可能性があり、入力テキストによっては音質が大きく劣化してしまう可能性があるが、本方法によって素片を抽出した場合、特徴量空間をできるだけ広く覆うような素片のセットが抽出できるため、出現頻度に基づいて抽出した場合より安定した合成音が生成できる。
(6)素片選択部44
第2の実施形態での素片選択部44が各セグメントに対して複数個ずつの音声素片を選択するのに対し、本実施形態の素片選択部44は、各セグメントに対して1つずつの融合済み音声素片の最適系列を選択する。
すなわち、素片選択部44の動作としては、図7のフローチャートのうち、ステップS101とステップS102だけを実行する。
さらに、選択した音声素片に対応した融合済み周期成分素片を融合済み周期成分素片記憶部423から、融合済み非周期成分素片を融合済み非周期成分素片記憶部424からそれぞれ取り出し、加算部48に出力する。加算部48の構成及び動作は、第2の実施形態のものと同様である。
(9)効果
以上のように本実施形態によれば、複数の音声素片の周期成分及び非周期成分の融合処理を予めオフラインで行うので、第2の実施形態よりも少ない計算量で実現でき、CPUスペックが非常に低いローエンドのミドルウェア向けにも応用可能である。
また、合成音声の音質とのトレードオフで、格納する素片のトータルのサイズもスケーラブルに決めることができる。
(第5の実施形態)
本発明の第5の実施形態に係る加算部48について図17に基づいて説明する。
(1)加算部48の概要
第1の実施形態においては、加算部48は融合された音声素片の周期成分と非周期成分をセグメント毎に加算して新たな音声素片を生成してから音声素片間を接続する方法を説明したが、この方法では、異なる非周期成分の重畳が音声素片間あるいはピッチ波形間で起きてしまい、重畳した箇所で、非周期成分のパワーが減衰したり不自然な周期性が生じてしまったりして、音質が劣化する可能性がある。
そこで、本実施形態では、周期成分と非周期成分のそれぞれで音声素片の接続を行った後、生成された周期成分波形と非周期成分波形を加算する。
(2)加算部48の構成
図17は、本実施形態に関わる加算部48の構成を示すブロック図である。図17を用いて、本実施形態での加算部48の構成について、第1の実施形態との違いを中心に説明する。
融合周期成分素片入力部481は、複数の音声素片の周期成分が融合されてできた融合周期成分素片が入力される。
融合非周期成分素片入力部482は、複数の音声素片の非周期成分が融合されてできた融合非周期成分素片が入力される。
素片編集・接続部487は、融合周期成分素片入力部481から入力された融合周期成分素片を、韻律等を編集しながら接続して、合成音声の周期成分波形を生成する。
非周期成分パワー包絡接続部488は、融合非周期成分素片入力部から入力された融合残差パワー包絡をピッチ波形間及び素片間で接続して、一続きの残差パワー包絡を生成する。
白色雑音発生部483は、白色雑音を発生する。
音源波形生成部484は、白色雑音発生部483で生成された白色雑音を、非周期成分パワー包絡接続部488で生成された残差パワー包絡に従って振幅変調することによって非周期成分の音源波形を生成する。
線形予測フィルタ485は、融合非周期成分素片入力部482から入力された融合線形予測係数を用いて音源波形生成部484で生成された音源波形を線形予測フィルタリングすることによって合成音声の非周期成分波形を生成する。
波形加算部489は、素片編集・接続部487で生成された合成音声の周期成分波形と、線形予測フィルタ485で生成された合成音声の非周期成分波形を加算することによって、合成音声を生成する。
(2)加算部48の動作
図17を用いて、本実施形態での加算部48の動作について、第1の実施形態との違いを中心に説明する。
非周期成分パワー包絡接続部488では、融合非周期成分素片入力部482から入力された各セグメントのピッチ波形毎の融合残差パワー包絡を、目標の基本周波数に従って配置した各ピッチ波形を重畳する位置(ピッチマーク)の上に重畳することによって、1文あるいは1呼気段落分の残差パワー包絡を生成する。
音源波形生成部484は、非周期成分パワー包絡接続部488で生成された残差パワー包絡に従って、白色雑音発生部483で生成された白色雑音を振幅変調することによって、1文あるいは1呼気段落分の音源波形を生成する。
線形予測フィルタ部485では、融合非周期成分素片入力部482から入力された各セグメントのピッチ波形毎の融合線形予測係数を1サンプル毎に補間することによって、各サンプル点での線形予測係数を算出し、この線形予測係数を用いて、音源波形生成部484で生成された音源波形をフィルタリングすることによって、1文あるいは1呼気段落分の非周期成分波形を生成する。
(3)効果
以上のように本実施形態によれば、異なる非周期成分を素片間あるいはピッチ波形間で不適切に重畳することがないため、非周期成分のパワーの減衰や不自然な周期性の出現による音質劣化を防ぐことができる。
また、線形予測係数を1サンプル毎に補間することによって、非周期成分の周波数特性を滑らかに変化させることができるため、第1の実施形態よりも高い音質が実現できる。
(第6の実施形態)
本発明の第6の実施形態に係る非周期成分融合部47について図17に基づいて説明する。
(1)非周期成分融合部47の概要
第1の実施形態の非周期成分融合部47では、線形予測係数の融合は、複数個の音声素片の非周期成分のそれぞれに対して得られた線形予測係数を、線スペクトル対領域などで平均化する方法で行うと説明した。
この方法では、複数個の音声素片の非周期成分の間で、線形予測係数で表されるスペクトル特徴が比較的似ている場合には良好な結果が得られるものの、融合しようとする非周期成分間でスペクトル特徴が大きく異なる場合には、i番目の線スペクトル対係数の意味が非周期成分間で異なってしまうため、平均化した結果、スペクトル特徴が失われてしまい、融合によってかえって不自然になる場合がある。
そこで、本実施形態の非周期成分融合部47での線形予測係数の融合は、複数の非周期成分波形をつなげて作った波形を線形予測分析することによって、複数の非周期成分波形に共通するスペクトル特徴を持った線形予測係数を得ることによって行う。
(2)非周期成分融合部47
図18は、本実施形態に関わる非周期成分融合部47の構成を示すブロック図である。図18を用いて、本実施形態に関わる非周期成分融合部47の構成と動作について、第1の実施形態との違いを中心に説明する。
本実施形態に関わる非周期成分融合部47を構成する要素は、第1の実施形態の非周期成分融合部47を構成する要素と同様であるが、主に、線形予測係数融合部473の動作、及びこの処理部と複数素片非周期成分入力部471、線形予測分析部472の間の関係が異なっている。
複数素片非周期成分入力部471は、まず、入力されたセグメント当たり複数個の音声素片の非周期成分のそれぞれについて線形予測分析を行う単位に分割して分析単位数を複数の非周期成分間で揃えた後、得られた複数の非周期成分それぞれの各分析単位の波形を線形予測係数融合部473及び線形予測分析部472に出力する。
線形予測分析部472は、入力された複数の非周期成分のそれぞれについて分析単位毎に線形予測分析を行い、得られた分析単位毎の線形予測残差を残差パワー包絡抽出部474に出力する。
残差パワー包絡抽出部474及び残差パワー包絡融合部475において融合残差パワー包絡を得る方法については、第1の実施形態と同様である。
一方で、線形予測分析部472と並行して複数の非周期成分それぞれの各分析単位の波形が入力された線形予測係数融合部473は、分析単位毎に、複数の非周期成分からの波形をつないで1つの波形を作り、この波形を線形予測分析部472に入力して線形予測分析をさせることによって線形予測係数を得る。すなわち、複数の非周期成分波形に共通するスペクトル特徴を持った線形予測係数を、分析単位毎に得ることによって、線形予測係数の融合を行う。
(3)効果
以上のように本実施形態によれば、融合しようとする非周期成分間でスペクトル特徴が大きく異なる場合でも、比較的良好な線形予測係数の融合を行うことができ、第1の実施形態よりも高い音質が実現できる。
(第7の実施形態)
(1)本実施形態の概要
第6の実施形態における非周期成分の融合方法においては、非周期成分が主に声道や声門での呼気の摩擦によって生じるノイズ的な音源によって生成されることを想定していたが、実際には、破裂音のように不規則なパルス的な音源によって生成される場合がある。
また、現状では、音声波形を周期成分・非周期成分に分離する手法の精度は十分でなく、分離された非周期成分に周期的な成分が混入する場合がある。
そのため、非周期成分波形から抽出した線形予測残差中にパルス的な成分が含まれる場合があり、このまま残差パワー包絡の抽出を行って残差パワー包絡の融合を行い、こうして得られた融合残差パワー包絡を用いて非周期成分を生成すると、パルス的な成分が含まれていた時刻周辺の非周期成分が大きくなりすぎてノイズっぽくなったり、パルス的な音源によって生成される非周期成分が合成時に再現できず破裂音の了解性が悪くなる場合がある。
そこで、本実施形態では、次のような内容で上記問題点を解決する。
非周期成分融合部47においては、非周期成分を融合するときには、線形予測残差中のパルス的な成分を取り除いてから融合を行う。
加算部48においては、非周期成分を生成するときは、白色雑音を融合残差パワー包絡で振幅変形して音源波形を生成した後、破裂音の場合に限り、非周期成分融合部47で取り除いたパルス的な成分を音源波形に再配置する。
(2)非周期成分融合部47
具体的には、非周期成分融合部47での線形予測残差中のパルス的な成分の除去は、残差パワー包絡抽出部474での前処理として行う。
ここで、パルス的な成分の検出は、与えられた線形予測残差の振幅分布を得た後、この分布から外れる大きな振幅を持ったサンプルをパルス的な成分とみなすことによって行う。
例えば、各分析単位の線形予測残差について、分析窓の影響を除いた窓中心周辺の残差の振幅から平均値及び標準偏差を算出し、「(平均値±3x標準偏差)x分析窓の振幅」を外れる振幅を持つサンプルをパルス的な成分として検出する。パルス的な成分として検出された線形予測残差中のサンプルの振幅を0あるいは平均値に置き換えてから、残差パワー包絡の抽出を行う。また、検出されたパルス的な成分の位置と振幅は、破裂音の場合など、必要に応じて保持する。
(3)加算部48
加算部48におけるパルス的な成分の音源波形への再配置は、音源波形生成部484の後処理として行う。
具体的には、白色雑音を融合残差パワー包絡で振幅変形して音源波形を生成した後で、破裂音の場合に限り、残差パワー包絡抽出部474で保持しているパルス的な成分のそれぞれについて、音源波形中の対応する位置の振幅を、パルス的な成分の振幅に置き換える。
(4)効果
以上のように本実施形態によれば、パルス的な成分の影響で非周期成分が部分的に大きくなりすぎてノイズっぽくなったり、パルス的な音源によって生成される非周期成分が合成時に再現できず破裂音の了解性が悪くなったりする問題点を改善できる。
(変更例)
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に係る合成装置の構成を示すブロック図である。 音声合成部の構成を示すブロック図である。 素片記憶部に蓄積される音声素片の例を示す図である。 音声素片属性情報記憶部に蓄積される素片属性情報の例を示す図である。 非周期成分融合部の構成を示すブロック図である。 加算部の構成を示すブロック図である。 音声素片の選択方法の一例を示すフローチャートである。 PSHFを用いて、音声波形を周期成分波形と非周期成分波形に分離した例を示す図である。 有声音の音声波形を融合して新たな音声波形を生成する方法の一例を示すフローチャートである。 選択された3つの音声素片からなる素片組み合わせ候補を融合して新たな音声素片を生成する例を示す図である。 線形予測残差のパワー包絡を抽出する方法の一例を示すフローチャート 残差のパワー包絡を融合する方法の一例を示すフローチャートである。 素片編集・接続部475での処理を説明するための図である。 第2の実施形態に係る音声合成部の構成を示すブロック図である。 第3の実施形態に係る音声合成部の構成を示すブロック図である。 第4の実施形態に係る音声合成部の構成を示すブロック図である。 第5の実施形態に係る加算部の構成を示すブロック図である。 第6の実施形態に係る非周期成分融合部の構成を示すブロック図である。 第4の実施形態に係る融合済み周期成分素片記憶部と融合済み非周期成分素片記憶部に格納する素片の抽出方法を示すフローチャートである。
符号の説明
4 音声合成部
41 情報入力部
42 素片記憶部
43 環境記憶部
44 素片選択部
45 分離部
46 周期成分融合部
47 非周期成分融合部
48 加算部
49 音声波形出力部

Claims (6)

  1. テキスト音声合成を行う音声処理装置において、
    目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力部と、
    前記複数のセグメントのそれぞれに対し、前記各韻律情報に基づいて音声素片群から複数の第1の音声素片を選択する素片選択部と、
    前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片のそれぞれを周期成分と非周期成分に分離する分離部と、
    前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の周期成分を融合することによって、第2の音声素片を生成する周期成分融合部と、
    前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分を融合することによって、第3の音声素片を生成する非周期成分融合部と、
    前記複数のセグメントのそれぞれに対して生成された前記第2の音声素片と第3の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成部と、
    を備え
    前記非周期成分融合部は、
    前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第1の生成部と、
    前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第2の生成部と、
    前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第3の音声素片として出力する出力部と、
    備え、
    前記生成部は、
    前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第3の音声素片の前記音声波形を生成して、前記第2の音声素片から得られる前記音声波形と加算する、
    音声処理装置。
  2. テキスト音声合成を行う音声処理装置において、
    目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力部と、
    複数の音声素片の素片環境を記憶する環境記憶部と、
    前記各音声素片の波形データを周期成分と非周期成分とに分けてそれぞれ保持する素片記憶部と、
    前記複数のセグメントのそれぞれに対し、前記各韻律情報を基に、前記環境記憶部から複数の第1の音声素片の素片環境を選択する環境選択部と、
    前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の素片環境から前記第1の音声素片の周期成分を前記素片記憶部から取り出し、これらの各周期成分を融合することによって、第2の音声素片を生成する周期成分融合部と、
    前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の素片環境から前記第1の音声素片の非周期成分を前記素片記憶部から取り出し、これらの各非周期成分を融合することによって、第3の音声素片を生成する非周期成分融合部と、
    前記複数のセグメントの前記第2の音声素片と前記第3の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成部と、
    を備え
    前記非周期成分融合部は、
    前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第1の生成部と、
    前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第2の生成部と、
    前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第3の音声素片として出力する出力部と、
    備え、
    前記生成部は、
    前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第3の音声素片の前記音声波形を生成して、前記第2の音声素片から得られる前記音声波形と加算する、
    音声処理装置。
  3. 前記環境記憶部が選択する前記第1の音声素片の素片環境が、前記周期成分と前記非周期成分とにおいて同一、または、異なる、
    請求項2記載の音声処理装置。
  4. 前記生成部は、
    前記複数のセグメントのそれぞれに対し、前記第2の音声素片と前記第3の音声素片を加算することによって、第4の音声素片を生成する加算部と、
    前記複数のセグメントのそれぞれに対し、前記第4の音声素片から得られる音声波形を、前記セグメント間で接続することによって前記合成音声を生成する接続部と、
    を備える請求項1または2記載の音声処理装置。
  5. テキスト音声合成を行う音声処理プログラムにおいて、
    目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力機能と、
    前記複数のセグメントのそれぞれに対し、前記各韻律情報に基づいて音声素片群から複数の第1の音声素片を選択する素片選択機能と、
    前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片のそれぞれを周期成分と非周期成分に分離する分離機能と、
    前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の周期成分を融合することによって、第2の音声素片を生成する周期成分融合機能と、
    前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分を融合することによって、第3の音声素片を生成する非周期成分融合機能と、
    前記複数のセグメントのそれぞれに対して生成された前記第2の音声素片と第3の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成機能と、
    を実現させ、
    前記非周期成分融合機能は、
    前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第1の生成機能と、
    前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第2の生成機能と、
    前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第3の音声素片として出力する出力機能と、
    を実現させ、
    前記生成機能は、
    前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第3の音声素片の前記音声波形を生成して、前記第2の音声素片から得られる前記音声波形と加算する、
    ことをコンピュータに実現させるための音声処理プログラム。
  6. テキスト音声合成を行う音声処理プログラムにおいて、
    複数の音声素片の素片環境を記憶する環境記憶部と、
    前記各音声素片の波形データを周期成分と非周期成分とに分けてそれぞれ保持する素片記憶部と、
    を有し、
    目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力機能と、
    前記複数のセグメントのそれぞれに対し、前記各韻律情報を基に、前記環境記憶部から複数の第1の音声素片の素片環境を選択する環境選択機能と、
    前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の素片環境から前記第1の音声素片の周期成分を前記素片記憶部から取り出し、これらの各周期成分を融合することによって、第2の音声素片を生成する周期成分融合機能と、
    前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の素片環境から前記第1の音声素片の非周期成分を前記素片記憶部から取り出し、これらの各非周期成分を融合することによって、第3の音声素片を生成する非周期成分融合機能と、
    前記複数のセグメントの前記第2の音声素片と前記第3の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成機能と、
    を実現させ、
    前記非周期成分融合機能は、
    前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第1の生成機能と、
    前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第2の生成機能と、
    前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第3の音声素片として出力する出力機能と、
    を実現させ、
    前記生成機能は、
    前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第3の音声素片の前記音声波形を生成して、前記第2の音声素片から得られる前記音声波形と加算する、
    ことをコンピュータに実現させるための音声処理プログラム。
JP2008002305A 2008-01-09 2008-01-09 音声処理装置及びそのプログラム Expired - Fee Related JP5159325B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008002305A JP5159325B2 (ja) 2008-01-09 2008-01-09 音声処理装置及びそのプログラム
US12/212,759 US8195464B2 (en) 2008-01-09 2008-09-18 Speech processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008002305A JP5159325B2 (ja) 2008-01-09 2008-01-09 音声処理装置及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2009163121A JP2009163121A (ja) 2009-07-23
JP5159325B2 true JP5159325B2 (ja) 2013-03-06

Family

ID=40845287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008002305A Expired - Fee Related JP5159325B2 (ja) 2008-01-09 2008-01-09 音声処理装置及びそのプログラム

Country Status (2)

Country Link
US (1) US8195464B2 (ja)
JP (1) JP5159325B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP5038995B2 (ja) * 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
JP5275102B2 (ja) * 2009-03-25 2013-08-28 株式会社東芝 音声合成装置及び音声合成方法
JP5433696B2 (ja) * 2009-07-31 2014-03-05 株式会社東芝 音声処理装置
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置
US20120316881A1 (en) * 2010-03-25 2012-12-13 Nec Corporation Speech synthesizer, speech synthesis method, and speech synthesis program
JP5085700B2 (ja) 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
JP5782799B2 (ja) * 2011-04-14 2015-09-24 ヤマハ株式会社 音声合成装置
JPWO2013014876A1 (ja) * 2011-07-28 2015-02-23 日本電気株式会社 素片処理装置、素片処理方法および素片処理プログラム
US9368104B2 (en) 2012-04-30 2016-06-14 Src, Inc. System and method for synthesizing human speech using multiple speakers and context
US20140012533A1 (en) * 2012-07-03 2014-01-09 Tokitae Llc Interpolating a portion of a signal in response to multiple components of the signal
KR20150068609A (ko) * 2013-12-12 2015-06-22 삼성전자주식회사 이미지 정보 표시 방법 및 장치
US9824681B2 (en) * 2014-09-11 2017-11-21 Microsoft Technology Licensing, Llc Text-to-speech with emotional content
US11017763B1 (en) * 2019-12-12 2021-05-25 Amazon Technologies, Inc. Synthetic speech processing
CN111599339B (zh) * 2020-05-19 2023-08-22 苏州奇梦者网络科技有限公司 具有高自然度的语音拼接合成方法、***、设备及介质
CN111681639B (zh) * 2020-05-28 2023-05-30 上海墨百意信息科技有限公司 一种多说话人语音合成方法、装置及计算设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0644713B2 (ja) * 1984-10-22 1994-06-08 ヤマハ株式会社 音記録方法
NL8902463A (nl) * 1989-10-04 1991-05-01 Philips Nv Inrichting voor geluidsynthese.
JP3278863B2 (ja) * 1991-06-05 2002-04-30 株式会社日立製作所 音声合成装置
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JP3832051B2 (ja) * 1997-10-16 2006-10-11 松下電器産業株式会社 楽音合成装置及び楽音合成方法
US6697780B1 (en) * 1999-04-30 2004-02-24 At&T Corp. Method and apparatus for rapid acoustic unit selection from a large speech corpus
JP2001282278A (ja) 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
US6912495B2 (en) * 2001-11-20 2005-06-28 Digital Voice Systems, Inc. Speech model and analysis, synthesis, and quantization methods
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
US7702502B2 (en) * 2005-02-23 2010-04-20 Digital Intelligence, L.L.C. Apparatus for signal decomposition, analysis and reconstruction

Also Published As

Publication number Publication date
US20090177474A1 (en) 2009-07-09
US8195464B2 (en) 2012-06-05
JP2009163121A (ja) 2009-07-23

Similar Documents

Publication Publication Date Title
JP5159325B2 (ja) 音声処理装置及びそのプログラム
JP5958866B2 (ja) 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP4469883B2 (ja) 音声合成方法及びその装置
WO2018084305A1 (ja) 音声合成方法
JP2005164749A (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
US20110046957A1 (en) System and method for speech synthesis using frequency splicing
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2002358090A (ja) 音声合成方法、音声合成装置及び記録媒体
JP2009133890A (ja) 音声合成装置及びその方法
JP3281266B2 (ja) 音声合成方法及び装置
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
Pfitzinger Unsupervised speech morphing between utterances of any speakers
JP5075865B2 (ja) 音声処理装置、方法、及びプログラム
JPH0247700A (ja) 音声合成方法および装置
JP6578544B1 (ja) 音声処理装置、および音声処理方法
JP3727885B2 (ja) 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置
JP2008058379A (ja) 音声合成システム及びフィルタ装置
JP3394281B2 (ja) 音声合成方式および規則合成装置
Anil et al. Expressive speech synthesis using prosodic modification for Marathi language
JPH09179576A (ja) 音声合成方法
JP2013195928A (ja) 音声素片切出装置
Kain et al. Spectral control in concatenative speech synthesis
Mohanty et al. An Approach to Proper Speech Segmentation for Quality Improvement in Concatenative Text-To-Speech System for Indian Languages

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121211

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees