JP5159325B2 - 音声処理装置及びそのプログラム - Google Patents
音声処理装置及びそのプログラム Download PDFInfo
- Publication number
- JP5159325B2 JP5159325B2 JP2008002305A JP2008002305A JP5159325B2 JP 5159325 B2 JP5159325 B2 JP 5159325B2 JP 2008002305 A JP2008002305 A JP 2008002305A JP 2008002305 A JP2008002305 A JP 2008002305A JP 5159325 B2 JP5159325 B2 JP 5159325B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- segments
- fusion
- periodic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 26
- 230000000737 periodic effect Effects 0.000 claims abstract description 279
- 230000004927 fusion Effects 0.000 claims description 128
- 230000015572 biosynthetic process Effects 0.000 claims description 55
- 238000003786 synthesis reaction Methods 0.000 claims description 55
- 238000001228 spectrum Methods 0.000 claims description 35
- 238000000926 separation method Methods 0.000 claims description 21
- 230000003595 spectral effect Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 13
- 230000002123 temporal effect Effects 0.000 claims description 7
- 238000012905 input function Methods 0.000 claims 2
- 238000000034 method Methods 0.000 description 94
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 13
- 238000000605 extraction Methods 0.000 description 12
- 238000001308 synthesis method Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000012935 Averaging Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000002194 synthesizing effect Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 238000007500 overflow downdraw method Methods 0.000 description 5
- 238000010187 selection method Methods 0.000 description 5
- 230000002238 attenuated effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 210000004704 glottis Anatomy 0.000 description 3
- 239000004615 ingredient Substances 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000029058 respiratory gaseous exchange Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
- Electrophonic Musical Instruments (AREA)
Description
本発明の第1の実施形態に係る合成装置について図1〜図13に基づいて説明する。
合成装置の構成について図1に基づいて説明する。
図2は、音声合成部4の構成を示すブロック図である。
音声素片記憶部(以下、「素片記憶部」という)42は、大量の音声素片が蓄積されている。
まず、情報入力部41は、韻律制御部3から入力された音韻系列・韻律情報を素片選択部44へ出力する。
次に、素片記憶部42は、合成音声を生成するときに用いる音声の単位(以下、「合成単位」という)の音声素片が大量に蓄積されている。
環境記憶部43には、素片記憶部42に記憶されている各音声素片に対応した音韻・韻律環境が蓄積されている。
非周期成分融合部47について図5に基づいて説明する。図5は、非周期成分融合部47の構成の一例を示すブロック図である。
加算部48について図6に基づいて説明する。図6は、加算部48の構成の一例を示すブロック図である。
図2に示す情報入力部41を介して素片選択部44に入力された音韻系列は、合成単位毎に区切られる。以下、この区切られた合成単位を「セグメント」という。
コストは、大きく二種類のコストがある。
コストを用いてセグメント当たり複数個の音声素片を選択する方法については特許文献2にその一例が記載されている。この選択方法の概要について図7のフローチャートを用いて、セグメント当たりM個の音声素片を選ぶ場合について説明する。
このように、素片選択部44は、各セグメントに対してM個ずつの音声素片を選択し、選択した音声素片を分離部45に出力する。
分離部45は、素片選択部44で各セグメントに対して選択された複数個の音声素片のそれぞれを素片記憶部42から取り出し、各音声素片を周期成分と非周期成分に分離する。
音声波形を周期成分と非周期成分に分離する1つの方法として、PSHF(pitch-scaled harmonic filter)という方法が非特許文献1(P Jackson, 「Pitch-Scaled Estimation of Simultaneous Voiced and Turbulence-Noise Components in Speech」, IEEE Trans. Speech and Audio Processing, vol. 9, pp. 713-726, Oct. 2001)に開示されている。
図8に、このPSHFを用いて実際の音声波形を周期成分と非周期成分に分離した例を示す。
但し、周期成分と非周期成分に分離する方法はこの方法に限定する必要はなく、Yegnanarayanaらの非特許文献2(B. Yagnanarayana, etc., 「An iterative algorithm for decomposition of speech signals into periodic and aperiodic components」, IEEE Trans. Speech Audio Processing, vol.6, pp. 1-11, Feb. 1998)によって開示されているPARD法(Periodic-Aperiodic Decomposition algorithm)など、高精度で周期成分と非周期成分に分離できる方法であれば、いかなる方法を用いてもよい。
分離部45は、上記のような方法を用いて、各セグメントに対して選択された複数個の音声素片のそれぞれを周期成分と非周期成分に分離し、得られた周期成分を周期成分融合部46に出力し、非周期成分を非周期成分融合部47に出力する。
周期成分融合部46は、それぞれのセグメント毎に、分離部45から入力された複数個の音声素片の周期成分を融合して新たな音声素片(以下、「融合周期成分素片」という)を生成する。有声音の周期成分を融合する方法については、特許文献2に詳細が記載されている。その方法を図9及び図10を用いて説明する。
まず、ステップS201において、選択されたそれぞれの音声素片からピッチ波形を切り出す。
次に、ステップS202において、それぞれの音声素片に対するピッチ波形の個数が、音声素片間で同一になるようにピッチ波形の数を揃える。
次に、ステップS203において、ピッチ波形数を揃えた後、それぞれの音声素片に対応するピッチ波形系列中のピッチ波形をその位置毎に融合することによって、新たなピッチ波形系列を生成する。
周期成分融合部46は、上記した方法を用いて、各セグメントについて、複数の音声素片の周期成分を融合して融合周期成分素片を生成し、加算部48に出力する。
非周期成分融合部47は、それぞれのセグメント毎に、分離部45から入力された複数個の音声素片の非周期成分を融合して新たな音声素片(以下、「融合非周期成分素片」という)を生成する。
まず、複数素片非周期成分入力部471に入力された、セグメント当たり複数個の音声素片の非周期成分のそれぞれを、線形予測分析を行う単位に分割する。
次に、線形予測分析部472において、各音声素片の分析単位毎に線形予測分析するここで分析対象の音声波形をs(n)、線形予測係数をαk(k=1,...,p、pは分析次数)、線形予測残差をe(n)とすると、これらの関係は以下の式(1)のように表される。
次に、線形予測係数融合部473においては、線形予測分析部472から入力された複数の非周期成分の線形予測係数を、分析単位毎に融合することによって、これらの線形予測係数で表されるスペクトル特徴を平均的に表すような、新たな線形予測係数を生成する。
残差パワー包絡抽出部474は、線形予測分析部472から入力された複数の非周期成分の各分析単位での線形予測残差のそれぞれについて、残差のパワー包絡を抽出する。
残差パワー包絡融合部475では、残差パワー包絡抽出部474から入力された、複数の非周期成分のそれぞれに対する線形予測残差のパワー包絡を、分析単位毎に融合して、新たな残差のパワー包絡を生成する。
融合非周期成分素片出力部476は、線形予測係数融合部473から入力された融合線形予測係数と、残差パワー包絡融合部475から入力された融合残差パワー包絡の組を、融合非周期成分素片として、加算部48に出力する。
次に、加算部48の具体的な動作を、図6に基づいて説明する。
加算部48には、周期成分融合部46からセグメント毎の融合周期成分素片が融合周期成分素片入力部481を介して入力される。
まず、融合非周期成分素片の融合残差パワー包絡を音源波形生成部484に入力する。
線形予測フィルタ部485は、音源波形生成部484で生成された融合非周期成分素片の音源波形を、融合非周期成分素片入力部482から入力された融合線形予測係数を用いて線形予測フィルタリングすることによって、融合非周期成分素片の音声波形を生成する。
ここで、上記のように生成された融合非周期成分素片の音声波形のパワーは、融合元の非周期成分波形の平均的なパワーよりも小さくなってしまう場合がある。融合残差パワー包絡が、融合元のそれぞれの非周期成分で線形予測分析して得られた残差から求められているため、融合線形予測係数を用いて線形予測分析した場合の残差のパワーよりも小さくなっている可能性が高いためである。
また、上記のように生成された融合非周期成分素片の音声波形は、非周期成分の融合の影響によって、融合元の非周期成分波形よりもスペクトル包絡がなまってしまい、いくつかのホルマントが弱められてしまった結果、明瞭感が下がってしまう場合がある。
上記のように線形予測フィルタ部485で生成された融合非周期成分素片の音声波形は、素片加算部486に出力される。
素片加算部486は、融合周期成分素片入力部481から入力された融合周期成分素片の音声波形と、線形予測フィルタ部485から入力された融合非周期成分素片の音声波形を加算して、新たな音声素片を生成する。
素片編集・接続部487は、素片加算部486から渡されたセグメント毎の音声素片を、入力韻律情報に従って変形して接続することによって、合成音声の音声波形を生成する。
上記のようにして加算部48で生成された合成音声の音声波形は、音声波形出力部49から出力される。
以上のように本実施形態によれば、合成単位辺り複数個選択された音声素片を周期成分と非周期成分とに分けてそれぞれの成分に適した方法で融合して両成分を足し合わせることによって、融合による非周期成分の減衰やノイズの発生を防ぐことができる。
本発明の第2の実施形態に係る音声合成部4について図14に基づいて説明する。
第1の実施形態の音声合成部4は、分離部45を内部に備えていて、周期・非周期成分の分離は音声素片の選択の後にオンラインで行われる。しかし、この周期・非周期成分の分離には非常に大きな計算量を要し、第1の実施形態は、実時間で合成波形を生成するような応用にはあまり適していない。
図14は、本実施形態の音声合成部4の構成を示すブロック図である。図14を用いて、本実施形態について、第1の実施形態との違いを中心に説明する。
本実施形態における音声合成部4の動作について説明する。この音声合成部4の動作は、周期成分分離部46と非周期成分47の動作が若干違うのを除けば、第1の実施形態と同様である。以下、周期成分分離部46と非周期成分分離部47の動作の、第1の実施形態との違いについて説明する。
以上のように、本実施形態によれば、非常に計算量の大きい周期・非周期成分の分離を予めオフラインで行うので、第1の実施形態とほぼ同様の音質向上効果を、第1の実施形態よりもはるかに低い計算量で実現でき、実時間で合成波形を生成するような応用にも適用可能である。
本発明の第3の実施形態に係る音声合成部4について図15に基づいて説明する。
図15は、第3の実施形態の構成を示すブロック図である。図15を用いて、本実施形態について、第2の実施形態との違いを中心に説明する。
周期成分用素片選択部441と非周期成分用素片選択部442での音声素片の選択方法は、両選択部441,442で共通の方法を用いてもよいし、双方で全く異なる方法を用いてもよいが、共通の方法を用いる場合には、両選択部間でパラメータ設定などが異なることによって、両選択部で結果的に選択される音声素片が少なくとも一部のセグメントにおいて異なるものとする。
以上のように本実施形態によれば、周期成分と非周期成分の音声素片をそれぞれの成分に合った方法で選択するので、第1、第2の実施形態よりも高い音質が実現できる。
本発明の第4の実施形態に係る音声合成部4について図16と図19に基づいて説明する。
第2の実施形態は比較的低い計算量で実現できるものの、そもそも音声素片の融合処理に比較的大きな計算量を要するため、CPUスペックが非常に低いローエンドのミドルウェア向けには、第2の実施形態でもまだ適用は困難である。
図16は、本実施形態の音声合成部4の構成を示すブロック図である。図16を用いて、本実施形態について、第2の実施形態との違いを中心に説明する。
次に、融合済み周期成分素片記憶部423と融合済み非周期成分素片記憶部424(まとめて、「両素片記憶部423,424」という)で融合済み周期成分素片と融合済み非周期成分素片を学習する方法について図19に基づいて説明する。
上記のようにして抽出した融合済み周期成分素片と融合済み非周期成分素片を、融合済み周期成分素片記憶部423と融合済み非周期成分素片記憶部424にそれぞれ格納する。
また、ここでは出現頻度の高い素片を抽出する方法を説明したが、素片の両端で算出したメルケプストラムなどの素片の特徴量を用いて抽出しても良い。
第2の実施形態での素片選択部44が各セグメントに対して複数個ずつの音声素片を選択するのに対し、本実施形態の素片選択部44は、各セグメントに対して1つずつの融合済み音声素片の最適系列を選択する。
以上のように本実施形態によれば、複数の音声素片の周期成分及び非周期成分の融合処理を予めオフラインで行うので、第2の実施形態よりも少ない計算量で実現でき、CPUスペックが非常に低いローエンドのミドルウェア向けにも応用可能である。
本発明の第5の実施形態に係る加算部48について図17に基づいて説明する。
第1の実施形態においては、加算部48は融合された音声素片の周期成分と非周期成分をセグメント毎に加算して新たな音声素片を生成してから音声素片間を接続する方法を説明したが、この方法では、異なる非周期成分の重畳が音声素片間あるいはピッチ波形間で起きてしまい、重畳した箇所で、非周期成分のパワーが減衰したり不自然な周期性が生じてしまったりして、音質が劣化する可能性がある。
図17は、本実施形態に関わる加算部48の構成を示すブロック図である。図17を用いて、本実施形態での加算部48の構成について、第1の実施形態との違いを中心に説明する。
図17を用いて、本実施形態での加算部48の動作について、第1の実施形態との違いを中心に説明する。
以上のように本実施形態によれば、異なる非周期成分を素片間あるいはピッチ波形間で不適切に重畳することがないため、非周期成分のパワーの減衰や不自然な周期性の出現による音質劣化を防ぐことができる。
本発明の第6の実施形態に係る非周期成分融合部47について図17に基づいて説明する。
第1の実施形態の非周期成分融合部47では、線形予測係数の融合は、複数個の音声素片の非周期成分のそれぞれに対して得られた線形予測係数を、線スペクトル対領域などで平均化する方法で行うと説明した。
図18は、本実施形態に関わる非周期成分融合部47の構成を示すブロック図である。図18を用いて、本実施形態に関わる非周期成分融合部47の構成と動作について、第1の実施形態との違いを中心に説明する。
以上のように本実施形態によれば、融合しようとする非周期成分間でスペクトル特徴が大きく異なる場合でも、比較的良好な線形予測係数の融合を行うことができ、第1の実施形態よりも高い音質が実現できる。
(1)本実施形態の概要
第6の実施形態における非周期成分の融合方法においては、非周期成分が主に声道や声門での呼気の摩擦によって生じるノイズ的な音源によって生成されることを想定していたが、実際には、破裂音のように不規則なパルス的な音源によって生成される場合がある。
具体的には、非周期成分融合部47での線形予測残差中のパルス的な成分の除去は、残差パワー包絡抽出部474での前処理として行う。
加算部48におけるパルス的な成分の音源波形への再配置は、音源波形生成部484の後処理として行う。
以上のように本実施形態によれば、パルス的な成分の影響で非周期成分が部分的に大きくなりすぎてノイズっぽくなったり、パルス的な音源によって生成される非周期成分が合成時に再現できず破裂音の了解性が悪くなったりする問題点を改善できる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
41 情報入力部
42 素片記憶部
43 環境記憶部
44 素片選択部
45 分離部
46 周期成分融合部
47 非周期成分融合部
48 加算部
49 音声波形出力部
Claims (6)
- テキスト音声合成を行う音声処理装置において、
目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力部と、
前記複数のセグメントのそれぞれに対し、前記各韻律情報に基づいて音声素片群から複数の第1の音声素片を選択する素片選択部と、
前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片のそれぞれを周期成分と非周期成分に分離する分離部と、
前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の周期成分を融合することによって、第2の音声素片を生成する周期成分融合部と、
前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分を融合することによって、第3の音声素片を生成する非周期成分融合部と、
前記複数のセグメントのそれぞれに対して生成された前記第2の音声素片と第3の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成部と、
を備え、
前記非周期成分融合部は、
前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第1の生成部と、
前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第2の生成部と、
前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第3の音声素片として出力する出力部と、
備え、
前記生成部は、
前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第3の音声素片の前記音声波形を生成して、前記第2の音声素片から得られる前記音声波形と加算する、
音声処理装置。 - テキスト音声合成を行う音声処理装置において、
目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力部と、
複数の音声素片の素片環境を記憶する環境記憶部と、
前記各音声素片の波形データを周期成分と非周期成分とに分けてそれぞれ保持する素片記憶部と、
前記複数のセグメントのそれぞれに対し、前記各韻律情報を基に、前記環境記憶部から複数の第1の音声素片の素片環境を選択する環境選択部と、
前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の素片環境から前記第1の音声素片の周期成分を前記素片記憶部から取り出し、これらの各周期成分を融合することによって、第2の音声素片を生成する周期成分融合部と、
前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の素片環境から前記第1の音声素片の非周期成分を前記素片記憶部から取り出し、これらの各非周期成分を融合することによって、第3の音声素片を生成する非周期成分融合部と、
前記複数のセグメントの前記第2の音声素片と前記第3の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成部と、
を備え、
前記非周期成分融合部は、
前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第1の生成部と、
前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第2の生成部と、
前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第3の音声素片として出力する出力部と、
備え、
前記生成部は、
前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第3の音声素片の前記音声波形を生成して、前記第2の音声素片から得られる前記音声波形と加算する、
音声処理装置。 - 前記環境記憶部が選択する前記第1の音声素片の素片環境が、前記周期成分と前記非周期成分とにおいて同一、または、異なる、
請求項2記載の音声処理装置。 - 前記生成部は、
前記複数のセグメントのそれぞれに対し、前記第2の音声素片と前記第3の音声素片を加算することによって、第4の音声素片を生成する加算部と、
前記複数のセグメントのそれぞれに対し、前記第4の音声素片から得られる音声波形を、前記セグメント間で接続することによって前記合成音声を生成する接続部と、
を備える請求項1または2記載の音声処理装置。 - テキスト音声合成を行う音声処理プログラムにおいて、
目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力機能と、
前記複数のセグメントのそれぞれに対し、前記各韻律情報に基づいて音声素片群から複数の第1の音声素片を選択する素片選択機能と、
前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片のそれぞれを周期成分と非周期成分に分離する分離機能と、
前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の周期成分を融合することによって、第2の音声素片を生成する周期成分融合機能と、
前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分を融合することによって、第3の音声素片を生成する非周期成分融合機能と、
前記複数のセグメントのそれぞれに対して生成された前記第2の音声素片と第3の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成機能と、
を実現させ、
前記非周期成分融合機能は、
前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第1の生成機能と、
前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第2の生成機能と、
前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第3の音声素片として出力する出力機能と、
を実現させ、
前記生成機能は、
前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第3の音声素片の前記音声波形を生成して、前記第2の音声素片から得られる前記音声波形と加算する、
ことをコンピュータに実現させるための音声処理プログラム。 - テキスト音声合成を行う音声処理プログラムにおいて、
複数の音声素片の素片環境を記憶する環境記憶部と、
前記各音声素片の波形データを周期成分と非周期成分とに分けてそれぞれ保持する素片記憶部と、
を有し、
目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力機能と、
前記複数のセグメントのそれぞれに対し、前記各韻律情報を基に、前記環境記憶部から複数の第1の音声素片の素片環境を選択する環境選択機能と、
前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の素片環境から前記第1の音声素片の周期成分を前記素片記憶部から取り出し、これらの各周期成分を融合することによって、第2の音声素片を生成する周期成分融合機能と、
前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の素片環境から前記第1の音声素片の非周期成分を前記素片記憶部から取り出し、これらの各非周期成分を融合することによって、第3の音声素片を生成する非周期成分融合機能と、
前記複数のセグメントの前記第2の音声素片と前記第3の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成機能と、
を実現させ、
前記非周期成分融合機能は、
前記複数のセグメントのそれぞれに対し、前記複数の第1の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第1の生成機能と、
前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第2の生成機能と、
前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第3の音声素片として出力する出力機能と、
を実現させ、
前記生成機能は、
前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第3の音声素片の前記音声波形を生成して、前記第2の音声素片から得られる前記音声波形と加算する、
ことをコンピュータに実現させるための音声処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008002305A JP5159325B2 (ja) | 2008-01-09 | 2008-01-09 | 音声処理装置及びそのプログラム |
US12/212,759 US8195464B2 (en) | 2008-01-09 | 2008-09-18 | Speech processing apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008002305A JP5159325B2 (ja) | 2008-01-09 | 2008-01-09 | 音声処理装置及びそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009163121A JP2009163121A (ja) | 2009-07-23 |
JP5159325B2 true JP5159325B2 (ja) | 2013-03-06 |
Family
ID=40845287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008002305A Expired - Fee Related JP5159325B2 (ja) | 2008-01-09 | 2008-01-09 | 音声処理装置及びそのプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8195464B2 (ja) |
JP (1) | JP5159325B2 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
JP5038995B2 (ja) * | 2008-08-25 | 2012-10-03 | 株式会社東芝 | 声質変換装置及び方法、音声合成装置及び方法 |
JP5275102B2 (ja) * | 2009-03-25 | 2013-08-28 | 株式会社東芝 | 音声合成装置及び音声合成方法 |
JP5433696B2 (ja) * | 2009-07-31 | 2014-03-05 | 株式会社東芝 | 音声処理装置 |
CN101996628A (zh) * | 2009-08-21 | 2011-03-30 | 索尼株式会社 | 提取语音信号的韵律特征的方法和装置 |
US20120316881A1 (en) * | 2010-03-25 | 2012-12-13 | Nec Corporation | Speech synthesizer, speech synthesis method, and speech synthesis program |
JP5085700B2 (ja) | 2010-08-30 | 2012-11-28 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
EP2458586A1 (en) * | 2010-11-24 | 2012-05-30 | Koninklijke Philips Electronics N.V. | System and method for producing an audio signal |
JP5782799B2 (ja) * | 2011-04-14 | 2015-09-24 | ヤマハ株式会社 | 音声合成装置 |
JPWO2013014876A1 (ja) * | 2011-07-28 | 2015-02-23 | 日本電気株式会社 | 素片処理装置、素片処理方法および素片処理プログラム |
US9368104B2 (en) | 2012-04-30 | 2016-06-14 | Src, Inc. | System and method for synthesizing human speech using multiple speakers and context |
US20140012533A1 (en) * | 2012-07-03 | 2014-01-09 | Tokitae Llc | Interpolating a portion of a signal in response to multiple components of the signal |
KR20150068609A (ko) * | 2013-12-12 | 2015-06-22 | 삼성전자주식회사 | 이미지 정보 표시 방법 및 장치 |
US9824681B2 (en) * | 2014-09-11 | 2017-11-21 | Microsoft Technology Licensing, Llc | Text-to-speech with emotional content |
US11017763B1 (en) * | 2019-12-12 | 2021-05-25 | Amazon Technologies, Inc. | Synthetic speech processing |
CN111599339B (zh) * | 2020-05-19 | 2023-08-22 | 苏州奇梦者网络科技有限公司 | 具有高自然度的语音拼接合成方法、***、设备及介质 |
CN111681639B (zh) * | 2020-05-28 | 2023-05-30 | 上海墨百意信息科技有限公司 | 一种多说话人语音合成方法、装置及计算设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0644713B2 (ja) * | 1984-10-22 | 1994-06-08 | ヤマハ株式会社 | 音記録方法 |
NL8902463A (nl) * | 1989-10-04 | 1991-05-01 | Philips Nv | Inrichting voor geluidsynthese. |
JP3278863B2 (ja) * | 1991-06-05 | 2002-04-30 | 株式会社日立製作所 | 音声合成装置 |
US6240384B1 (en) * | 1995-12-04 | 2001-05-29 | Kabushiki Kaisha Toshiba | Speech synthesis method |
JP3832051B2 (ja) * | 1997-10-16 | 2006-10-11 | 松下電器産業株式会社 | 楽音合成装置及び楽音合成方法 |
US6697780B1 (en) * | 1999-04-30 | 2004-02-24 | At&T Corp. | Method and apparatus for rapid acoustic unit selection from a large speech corpus |
JP2001282278A (ja) | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理装置及びその方法と記憶媒体 |
JP4067762B2 (ja) * | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | 歌唱合成装置 |
US6912495B2 (en) * | 2001-11-20 | 2005-06-28 | Digital Voice Systems, Inc. | Speech model and analysis, synthesis, and quantization methods |
JP4080989B2 (ja) * | 2003-11-28 | 2008-04-23 | 株式会社東芝 | 音声合成方法、音声合成装置および音声合成プログラム |
US7702502B2 (en) * | 2005-02-23 | 2010-04-20 | Digital Intelligence, L.L.C. | Apparatus for signal decomposition, analysis and reconstruction |
-
2008
- 2008-01-09 JP JP2008002305A patent/JP5159325B2/ja not_active Expired - Fee Related
- 2008-09-18 US US12/212,759 patent/US8195464B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20090177474A1 (en) | 2009-07-09 |
US8195464B2 (en) | 2012-06-05 |
JP2009163121A (ja) | 2009-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5159325B2 (ja) | 音声処理装置及びそのプログラム | |
JP5958866B2 (ja) | 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム | |
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
JP4469883B2 (ja) | 音声合成方法及びその装置 | |
WO2018084305A1 (ja) | 音声合成方法 | |
JP2005164749A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP2008033133A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
US20110046957A1 (en) | System and method for speech synthesis using frequency splicing | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP2002358090A (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JP3281266B2 (ja) | 音声合成方法及び装置 | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
Pfitzinger | Unsupervised speech morphing between utterances of any speakers | |
JP5075865B2 (ja) | 音声処理装置、方法、及びプログラム | |
JPH0247700A (ja) | 音声合成方法および装置 | |
JP6578544B1 (ja) | 音声処理装置、および音声処理方法 | |
JP3727885B2 (ja) | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
JP3394281B2 (ja) | 音声合成方式および規則合成装置 | |
Anil et al. | Expressive speech synthesis using prosodic modification for Marathi language | |
JPH09179576A (ja) | 音声合成方法 | |
JP2013195928A (ja) | 音声素片切出装置 | |
Kain et al. | Spectral control in concatenative speech synthesis | |
Mohanty et al. | An Approach to Proper Speech Segmentation for Quality Improvement in Concatenative Text-To-Speech System for Indian Languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120403 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121211 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151221 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |