JP6011039B2 - Speech synthesis apparatus and speech synthesis method - Google Patents
Speech synthesis apparatus and speech synthesis method Download PDFInfo
- Publication number
- JP6011039B2 JP6011039B2 JP2012129798A JP2012129798A JP6011039B2 JP 6011039 B2 JP6011039 B2 JP 6011039B2 JP 2012129798 A JP2012129798 A JP 2012129798A JP 2012129798 A JP2012129798 A JP 2012129798A JP 6011039 B2 JP6011039 B2 JP 6011039B2
- Authority
- JP
- Japan
- Prior art keywords
- phase
- spectrum
- unit
- speech
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本発明は、複数の音声素片の連結で発話音や歌唱音等の音声を合成する技術に関する。 The present invention relates to a technique for synthesizing speech sounds, singing sounds, and the like by connecting a plurality of speech segments.
複数の音声素片を相互に連結することで所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。例えば特許文献1の技術では、音声素片の各フレームの振幅スペクトルおよび位相スペクトルが記憶装置に格納され、振幅スペクトルおよび位相スペクトルの各々を個別に処理したうえで時間領域の信号に変換して相互に連結することで音声信号が生成される。 Conventionally, a unit connection type speech synthesis technique for synthesizing a desired speech by connecting a plurality of speech units to each other has been proposed. For example, in the technique of Patent Document 1, the amplitude spectrum and the phase spectrum of each frame of a speech unit are stored in a storage device, and each of the amplitude spectrum and the phase spectrum is individually processed and converted into a time domain signal. An audio signal is generated by connecting to.
しかし、特許文献1の技術では、各音声素片のフレーム毎に振幅スペクトルおよび位相スペクトルの双方を記憶し得る大容量の記憶装置が必要になるという問題がある。また、振幅スペクトルおよび位相スペクトルを時間領域の信号に変換する段階で両者が時間的にずれている場合には合成音の受聴者が位相ズレ感を知覚する原因となるから、各フレームの振幅スペクトルと各フレームの位相スペクトルとを時間的に対応させるための特別な処理が必要である。以上の事情を考慮して、本発明は、振幅スペクトルと位相スペクトルとの時間的な対応を容易に維持するとともに音声素片の保持に必要な記憶容量を削減することを目的とする。 However, the technique of Patent Document 1 has a problem that a large-capacity storage device capable of storing both the amplitude spectrum and the phase spectrum for each frame of each speech unit is required. In addition, if the amplitude spectrum and the phase spectrum are shifted in time at the stage of converting them into a time domain signal, it will cause the listener of the synthesized sound to perceive a phase shift. And a special process for temporally matching the phase spectrum of each frame. In view of the above circumstances, an object of the present invention is to easily maintain a temporal correspondence between an amplitude spectrum and a phase spectrum and reduce a storage capacity necessary for holding speech segments.
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。 Means employed by the present invention to solve the above problems will be described. In order to facilitate the understanding of the present invention, in the following description, the correspondence between the elements of the present invention and the elements of the embodiments described later will be indicated in parentheses, but the scope of the present invention will be exemplified in the embodiments. It is not intended to be limited.
本発明の音声合成装置は、音声素片データが音声素片の各フレームについて示す振幅スペクトルに対応する位相スペクトルをフレーム毎に算定する位相算定手段(例えば位相算定部32)と、音声素片データが示す各フレームの振幅スペクトルと位相算定手段による算定後の各フレームの位相スペクトルとを利用して音声信号を生成する音声合成手段(例えば音声合成部34)とを具備する。以上の構成では、音声素片データが示す振幅スペクトルを利用して位相スペクトルが算定されるから、振幅スペクトルおよび位相スペクトルの双方を保持する構成と比較して素片記憶手段に必要な記憶容量が削減されるという利点がある。また、振幅スペクトルから位相スペクトルが算定されるから、各フレームの振幅スペクトルと位相スペクトルとの時間的な対応を容易に維持できる(ひいては振幅スペクトルと位相スペクトルとの時間差に起因した合成音の位相ズレ感を抑制できる)という利点もある。 The speech synthesizer according to the present invention includes a phase calculation unit (for example, a phase calculation unit 32) that calculates, for each frame, a phase spectrum corresponding to the amplitude spectrum that the speech unit data indicates for each frame of the speech unit; Includes a voice synthesis unit (for example, a voice synthesis unit 34) that generates a voice signal using the amplitude spectrum of each frame indicated by and the phase spectrum of each frame calculated by the phase calculation unit. In the above configuration, since the phase spectrum is calculated using the amplitude spectrum indicated by the speech segment data, the storage capacity required for the segment storage means is smaller than that in the configuration that holds both the amplitude spectrum and the phase spectrum. There is an advantage that it is reduced. In addition, since the phase spectrum is calculated from the amplitude spectrum, the temporal correspondence between the amplitude spectrum and the phase spectrum of each frame can be easily maintained (as a result, the phase shift of the synthesized sound due to the time difference between the amplitude spectrum and the phase spectrum). There is also an advantage that the feeling can be suppressed.
本発明の好適な態様において、位相算定手段は、音声素片データが示す振幅スペクトルに対応する最小位相または最大位相を位相スペクトルとして算定する。また、本発明の他の態様(例えば後述の第4実施形態)において、位相算定手段は、音声素片データが示す振幅スペクトルにおいて周波数軸上で相隣接する各周波数間の振幅値の差分を周波数軸の方向に平滑化することで位相スペクトルを算定する。 In a preferred aspect of the present invention, the phase calculating means calculates the minimum phase or the maximum phase corresponding to the amplitude spectrum indicated by the speech segment data as the phase spectrum. In another aspect of the present invention (for example, a fourth embodiment to be described later), the phase calculating means calculates the difference in amplitude value between frequencies adjacent to each other on the frequency axis in the amplitude spectrum indicated by the speech segment data. The phase spectrum is calculated by smoothing in the direction of the axis.
なお、音声素片データが示す各フレームの振幅スペクトルを調整する素片調整手段(例えば素片調整部26)を具備する構成では、位相算定手段による位相スペクトルの算定後に素片調整手段が振幅スペクトルを調整する構成(態様A)も採用され得る。ただし、振幅スペクトルと位相スペクトルとの時間差を低減するという観点からすると、素片調整手段による調整後の振幅スペクトルから位相算定手段が位相スペクトルを算定する構成が格別に好適である。 Note that, in a configuration including a unit adjustment unit (for example, unit adjustment unit 26) that adjusts the amplitude spectrum of each frame indicated by the speech unit data, the unit adjustment unit performs the amplitude spectrum after calculating the phase spectrum by the phase calculation unit. A configuration (aspect A) for adjusting the angle may be employed. However, from the viewpoint of reducing the time difference between the amplitude spectrum and the phase spectrum, a configuration in which the phase calculation means calculates the phase spectrum from the amplitude spectrum after adjustment by the segment adjustment means is particularly suitable.
本発明の好適な態様に係る音声合成装置は、位相算定手段が算定した各フレームの位相スペクトルのうち所定の帯域内の各位相値を乱数的に変化させる第1位相補正手段(例えば第1位相補正部41)を具備する。以上の態様では、振幅スペクトルから算定された位相スペクトルのうち所定の帯域(例えば4kHz以上の高域側の帯域)内の各位相値が乱数的に変化する(すなわち複数の位相値の系列に揺らぎが付与される)から、位相算定手段が算定した位相スペクトルをそのまま音声合成手段による音声信号の合成に適用する構成と比較して、聴感的に自然な印象の合成音を生成できるという利点がある。なお、以上の態様の具体例は例えば第2実施形態として後述される。 The speech synthesizer according to a preferred aspect of the present invention includes first phase correction means (for example, first phase) that randomly changes each phase value in a predetermined band of the phase spectrum of each frame calculated by the phase calculation means. A correction unit 41). In the above aspect, each phase value in a predetermined band (for example, a higher frequency band of 4 kHz or higher) in the phase spectrum calculated from the amplitude spectrum changes randomly (that is, fluctuates in a sequence of a plurality of phase values). Therefore, compared with the configuration in which the phase spectrum calculated by the phase calculation means is directly applied to the synthesis of the voice signal by the voice synthesis means, there is an advantage that a synthetic sound with an audibly natural impression can be generated. . In addition, the specific example of the above aspect is later mentioned as 2nd Embodiment, for example.
本発明の好適な態様に係る音声合成装置は、音声素片内での有声度(有声/無声の度合)の時間変化を特定し、位相算定手段が算定した各フレームの位相スペクトルの各位相値を、そのフレームの有声度に応じた変動範囲(例えば変動範囲α2)内で乱数的に変化させる第2位相補正手段(例えば第2位相補正部42)とを具備する。例えば、有声度が低い(無声度が高い)ほど変動範囲を拡大する構成が好適である。以上の態様では、振幅スペクトルから算定された位相スペクトルの各位相値が乱数的に変化するから、位相算定手段が算定した位相スペクトルをそのまま音声合成手段による音声信号の合成に適用する構成と比較して、聴感的に自然な印象の合成音を生成できるという利点がある。しかも、第2位相補正手段の補正による位相値の変動範囲が各フレームの有声度に応じて可変に制御されるから、聴感的に自然な印象の合成音を生成できるという効果は格別に顕著となる。なお、以上の態様の具体例は例えば第3実施形態として後述される。 The speech synthesizer according to a preferred aspect of the present invention specifies a temporal change of voicedness (degree of voiced / unvoiced) in a speech unit, and each phase value of the phase spectrum of each frame calculated by the phase calculating means And second phase correction means (for example, the second phase correction unit 42) that randomly changes within a variation range (for example, the variation range α2) according to the voicing degree of the frame. For example, a configuration in which the range of fluctuation is expanded as the voicing degree is lower (the unvoiced degree is higher) is preferable. In the above aspect, since each phase value of the phase spectrum calculated from the amplitude spectrum changes randomly, the phase spectrum calculated by the phase calculation means is compared with a configuration in which it is directly applied to the synthesis of the voice signal by the voice synthesis means. Thus, there is an advantage that a synthetic sound having a natural impression can be generated. Moreover, since the variation range of the phase value due to the correction of the second phase correction means is variably controlled according to the voicing degree of each frame, the effect of being able to generate a synthetic sound with an audibly natural impression is particularly remarkable. Become. In addition, the specific example of the above aspect is later mentioned as 3rd Embodiment, for example.
本発明の好適な態様に係る音声合成装置は、位相算定手段が各フレームについて算定した位相スペクトルを補正する手段であって、位相算定手段が一のフレームについて算定した位相スペクトルの各位相値に、一のフレームの直前のフレームから予測される位相値の予測誤差を付加する第3位相補正手段を具備する。以上の構成によれば、聴感的に自然な印象の合成音を生成できるという利点がある。なお、以上の態様の具体例は例えば第5実施形態として後述される。 The speech synthesizer according to a preferred aspect of the present invention is a means for correcting the phase spectrum calculated for each frame by the phase calculation means, and for each phase value of the phase spectrum calculated by the phase calculation means for one frame, Third phase correcting means for adding a prediction error of a phase value predicted from a frame immediately before one frame is provided. According to the above structure, there exists an advantage that the synthetic sound of a natural impression can be produced | generated. In addition, the specific example of the above aspect is later mentioned as 5th Embodiment, for example.
以上の各態様に係る音声合成装置は、音声合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム(例えばプログラムPGM)は、音声素片データが音声素片の各フレームについて示す振幅スペクトルに対応する位相スペクトルをフレーム毎に算定する位相算定処理と、音声素片データが示す各フレームの振幅スペクトルと位相算定処理後の各フレームの位相スペクトルとを利用して音声信号を生成する音声合成処理とを実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。 The speech synthesizer according to each aspect described above is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to speech synthesis, and a general-purpose arithmetic processing device such as a CPU (Central Processing Unit). And collaboration with the program. The program of the present invention (for example, the program PGM) includes a phase calculation process for calculating, for each frame, a phase spectrum corresponding to an amplitude spectrum indicated by the speech unit data for each frame of the speech unit, and each frame indicated by the speech unit data. And a speech synthesis process for generating a speech signal using the phase spectrum of each frame after the phase calculation process. According to the above program, the same operation and effect as the speech synthesizer of the present invention are realized. The program of the present invention is provided to a user in a form stored in a computer-readable recording medium and installed in the computer, or provided from a server device in a form of distribution via a communication network and installed in the computer. Is done.
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図1に示すように、演算処理装置(CPU)12と記憶装置14と放音装置16とを具備するコンピュータシステムで実現される。
<A: First Embodiment>
FIG. 1 is a block diagram of a
演算処理装置12は、記憶装置14に格納されたプログラムの実行で、合成音の波形を表す音声信号VOUTを生成するための複数の機能(素片選択部22,振幅算定部24,素片調整部26,位相算定部32,音声合成部34)を実現する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が一部の機能を実行する構成も採用され得る。放音装置16(例えばヘッドホンやスピーカ)は、演算処理装置12が生成する音声信号VOUTに応じた音波を放射する。
The
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(素片群GA,合成情報GB)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に採用され得る。なお、音声合成装置100とは別個の外部装置(例えばサーバ装置)に記憶装置14を設置し、音声合成装置100が通信網(例えばインターネット)を介して記憶装置14から情報を取得する構成も採用され得る。すなわち、記憶装置14は音声合成装置100の必須の要件ではない。
The
記憶装置14に記憶される素片群GAは、図2に示すように、相異なる音声素片に対応する複数の音声素片データDの集合(音声合成ライブラリ)である。音声素片は、音声の言語的な最小単位に相当する1個の音素、または、複数の音素を相互に連結した音素連鎖(例えば2個の音素で構成されるダイフォン)である。
The unit group GA stored in the
図2に示すように、音声素片データDは、音声素片を時間軸上で区分した各フレームに対応する複数の単位データU(UA,UB)の時系列を含んで構成される。各単位データUは、音声素片の各フレームにおける周波数領域でのスペクトルを規定する情報であり、音声素片のうち有声音の音素の各フレームに対応する単位データUAと、無声音の音素の各フレームに対応する単位データUBとに区別される。無声音の単位データUBは、音声のスペクトル(複素スペクトル)を規定するデータであり、具体的には各フレームの振幅スペクトルSMと位相スペクトルSPとを指定する。 As shown in FIG. 2, the speech unit data D includes a time series of a plurality of unit data U (UA, UB) corresponding to each frame obtained by dividing the speech unit on the time axis. Each unit data U is information that defines a spectrum in the frequency domain in each frame of the speech unit, and each unit data UA corresponding to each frame of the voiced phoneme in the speech unit and each of the unvoiced phoneme. It is distinguished from unit data UB corresponding to a frame. The unvoiced sound unit data UB is data defining the spectrum of the speech (complex spectrum), and specifically specifies the amplitude spectrum SM and phase spectrum SP of each frame.
第1実施形態における有声音の単位データUAは、振幅特性データRを含んで構成される。振幅特性データRは、有声音の振幅スペクトルSM(包絡線)の形状的な特徴を示す複数の変数の集合である。具体的には、振幅特性データRは、励起波形エンベロープr1と胸部レゾナンスr2と声道レゾナンスr3と差分スペクトルr4とを含むEpR(Excitation plus Resonance)パラメータであり、公知のSMS(Spectral Modeling Synthesis)分析で生成される。なお、EpRパラメータやSMS分析については、例えば特許第3711880号公報や特開2007−226174号公報にも開示されている。 The voiced sound unit data UA in the first embodiment includes amplitude characteristic data R. The amplitude characteristic data R is a set of a plurality of variables indicating the shape characteristics of the amplitude spectrum SM (envelope) of the voiced sound. Specifically, the amplitude characteristic data R is an EpR (Excitation plus Resonance) parameter including an excitation waveform envelope r1, a chest resonance r2, a vocal tract resonance r3, and a difference spectrum r4, and is a known SMS (Spectral Modeling Synthesis) analysis. Is generated. EpR parameters and SMS analysis are also disclosed in, for example, Japanese Patent No. 3711880 and Japanese Patent Application Laid-Open No. 2007-226174.
励起波形エンベロープ(Excitation Curve)r1は、声帯振動のスペクトルの包絡線を近似する変数である。胸部レゾナンス(Chest Resonance)r2は、胸部共鳴特性を近似する所定個のレゾナンス(帯域通過フィルタ)の帯域幅と中心周波数と振幅値とを指定する。声道レゾナンス(Vocal Tract Resonance)r3は、声道共鳴特性を近似する複数のレゾナンスの各々について帯域幅と中心周波数と振幅値とを指定する。差分スペクトルr4は、励起波形エンベロープr1と胸部レゾナンスr2と声道レゾナンスr3とで近似されるスペクトルと音声の振幅スペクトルとの差分(誤差)を意味する。 The excitation waveform envelope (excitation curve) r1 is a variable that approximates the envelope of the vocal fold vibration spectrum. Chest resonance r2 designates the bandwidth, center frequency, and amplitude value of a predetermined number of resonances (bandpass filters) that approximate the chest resonance characteristics. Vocal Tract Resonance r3 designates a bandwidth, a center frequency, and an amplitude value for each of a plurality of resonances that approximate the vocal tract resonance characteristics. The difference spectrum r4 means the difference (error) between the spectrum approximated by the excitation waveform envelope r1, the chest resonance r2 and the vocal tract resonance r3 and the amplitude spectrum of the speech.
図1に示すように、記憶装置14には、合成音を時系列に指定する合成情報(スコアデータ)GBが記憶される。合成情報GBは、合成音の発音文字X1と発音期間X2と音高X3とを例えば音符毎に時系列に指定する。発音文字X1は、例えば歌唱音を合成する場合の歌詞の文字列であり、発音期間X2は、例えば発音の開始時刻と継続長とで指定される。合成情報GBは、例えば各種の入力機器(図示略)に対する利用者からの指示に応じて生成されて記憶装置14に格納される。なお、他の通信端末から通信網を介して受信された合成情報GBや可搬型の記録媒体から転送された合成情報GBを音声信号VOUTの生成に使用することも可能である。
As shown in FIG. 1, the
図1の素片選択部22は、合成情報GBが時系列に指定する発音文字X1に対応する音声素片の音声素片データDを素片群GAから順次に選択する。例えば「sakura」という発音文字X1が指定された場合、素片選択部22は、[Sil-s](Sil:無音),[s-a],[a-k],[k-u],[u-r],[r-a],[a-Sil]という7個の音声素片の音声素片データDを順番に選択する。素片選択部22が順次に選択する音声素片データDのうち有声音の各単位データUAは振幅算定部24に供給され、無声音の各単位データUBは素片調整部26に供給される。
The
振幅算定部24は、素片選択部22から供給される各単位データUAが指定する振幅特性データR(r1〜r4)を利用して有声音の各フレームの振幅スペクトル(包絡線)SMを生成する。なお、振幅特性データRから振幅スペクトルSMを生成する方法については前述の特許第3711880号公報や特開2007−226174号公報に開示されている。
The
素片調整部26は、振幅算定部24が生成した有声音の各フレームの振幅スペクトルSMと素片選択部22から供給される単位データUB(振幅スペクトルSMおよび位相スペクトルSP)とを調整する。具体的には、素片選択部22が選択した各音声素片データDに対応する音声素片の各音素が、合成情報GBの発音期間X2に応じた時間長および音高X3に応じたピッチとなり、かつ、各音声素片の先頭部および末尾部が前後の音声素片と円滑に接続される(すなわち先頭部にて音量が経時的に増加するとともに末尾部にて音量が経時的に減少する)ように、有声音の振幅スペクトルSMと無声音の単位データUBとを調整する。また、例えば音声素片が利用者の所望の音響特性(例えば音色や明瞭度)となるように有声音の振幅スペクトルSMと無声音の単位データUBとを調整することも可能である。素片調整部26による調整後の有声音の振幅スペクトルSMは位相算定部32に供給され、素片調整部26による調整後の無声音の単位データUBは音声合成部34に供給される。
The
図1の位相算定部32は、素片調整部26による調整後の有声音の振幅スペクトルSMから各フレームの位相スペクトルSPを生成する。第1実施形態の位相算定部32は、有声音の各フレームの振幅スペクトルSMから一意に算定される最小位相をそのフレームの位相スペクトルSPとして生成する。なお、例えば男性の低音の音声のスペクトルを逆フーリエ変換した時間領域の信号では、時間軸上の始点付近にエネルギーが集中するという傾向が観察される。振幅スペクトルSMが共通する信号のうちエネルギーが始点付近に集中する最小位相(群遅延特性が最小)は、このような音声の傾向に整合するということもできる。
The
振幅スペクトルの最小位相は一般的に、振幅スペクトルの対数のヒルベルト変換により算定される。そこで、第1実施形態の位相算定部32は、振幅スペクトルSMの対数log(SM)をヒルベルト変換することで位相スペクトルSPを生成する。具体的には、位相算定部32は、第1に、振幅スペクトルSMの対数log(SM)に対して逆フーリエ変換(逆高速フーリエ変換)を実行することで時間領域のサンプル系列を算定し、このサンプル系列のうち時間軸上で負の時刻に相当する部分(後半分)を0に設定したうえでフーリエ変換(例えば高速フーリエ変換)を実行する。そして、位相算定部32は、フーリエ変換の結果のうちの虚数部(最小位相)を位相スペクトルSPとして算定する。位相算定部32は、振幅スペクトルSMとその振幅スペクトルSMから生成した位相スペクトルSPとを含む単位データUCをフレーム毎に順次に音声合成部34に供給する。
The minimum phase of the amplitude spectrum is generally calculated by the log Hilbert transform of the amplitude spectrum. Therefore, the
音声合成部34は、位相算定部32から順次に供給される有声音の単位データUCと素片調整部26から順次に供給される無声音の単位データUBとを利用して音声信号VOUTを生成する。具体的には、音声合成部34は、単位データUCおよび単位データUBの各々の振幅スペクトルSMと位相スペクトルSPとに対する逆フーリエ変換で各フレームの音声の時間波形を算定し、相前後するフレーム間で時間波形を相互に重複させて連結(加算)することで音声信号VOUTを生成する。
The
以上に説明した第1実施形態では、有声音の各フレームの振幅スペクトルSMを利用して位相スペクトルSPが算定されるから、有声音の各フレームについて位相スペクトルSPを記憶装置14に事前に格納する必要はない。したがって、有声音について振幅スペクトルSMおよび位相スペクトルSPの双方を事前に用意して保持する必要がある特許文献1と比較して、音声素片の記憶に必要な記憶容量を削減することが可能である。
In the first embodiment described above, since the phase spectrum SP is calculated using the amplitude spectrum SM of each frame of voiced sound, the phase spectrum SP is stored in advance in the
また、第1実施形態では、有声音の各フレームの振幅スペクトルSMから位相スペクトルSPが算定されるため、振幅スペクトルSMと位相スペクトルSPとの時間的な対応を容易に維持することが可能である。したがって、各フレームの振幅スペクトルSMと各フレームの位相スペクトルSPとを時間的に整合させる特別な仕組を必要とせずに、振幅スペクトルSMと位相スペクトルSPとの時間差に起因した合成音の位相ズレ感を抑制できるという利点がある。 In the first embodiment, since the phase spectrum SP is calculated from the amplitude spectrum SM of each frame of voiced sound, the temporal correspondence between the amplitude spectrum SM and the phase spectrum SP can be easily maintained. . Therefore, the phase shift of the synthesized sound caused by the time difference between the amplitude spectrum SM and the phase spectrum SP without requiring a special mechanism for temporally matching the amplitude spectrum SM of each frame and the phase spectrum SP of each frame. There is an advantage that can be suppressed.
なお、振幅スペクトルSMを素片調整部26が調整する構成としては、位相スペクトルSPの算定後に振幅スペクトルSMを調整する構成(以下「態様A」という)も想定され得る。しかし、態様Aでは、例えば調整後に音声合成部34に供給される振幅スペクトルが位相スペクトルSPに対して遅延し、合成音の受聴者が位相ズレ感を知覚する可能性がある。第1実施形態では、素片調整部26による調整後の振幅スペクトルSMを利用して位相スペクトルSPが算定されるから、振幅スペクトルSMと位相スペクトルSPとの時間的な対応を容易かつ確実に維持することで位相ズレ感を抑制できるという効果は、態様Aと比較して各格別に顕著となる。ただし、態様Aも本発明の範囲には包含される。
As a configuration in which the
また、態様Aでは、素片調整部26による調整後の振幅スペクトルSMと調整前の振幅スペクトルSMから生成された位相スペクトルSPとで特性が相互に乖離して合成音が不自然な音声となる可能性がある。素片調整部26による調整で振幅スペクトルSMの特性が大きく変化するほど以上の問題は顕著となる。第1実施形態では、素片調整部26による調整後の振幅スペクトルSMの特性に整合した位相スペクトルSPが算定されるから、態様Aと比較して自然な印象の合成音を生成できるという利点がある。
In the aspect A, the characteristics of the amplitude spectrum SM after the adjustment by the
<B:第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
<B: Second Embodiment>
A second embodiment of the present invention will be described below. In addition, about the element which an effect | action and a function are equivalent to 1st Embodiment in each aspect illustrated below, each reference detailed in the above description is diverted and each detailed description is abbreviate | omitted suitably.
図3は、実際の音声の振幅スペクトルWM(包絡線)と位相スペクトルWPとの関係を示すグラフである。図3に例示した音声では、振幅スペクトルWMにて第1フォルマントF1から第4フォルマントF4が存在する各周波数において位相スペクトルWPの位相値が大きく変化するという関連が、振幅スペクトルWMと位相スペクトルWPとの間で確認される。他方、第4フォルマントF4を上回る帯域内では、振幅スペクトルWMと位相スペクトルWPとの明確な関連性は観測されない。他方、振幅スペクトルWMと位相スペクトルWPとの関連性が高域側の帯域内でも過度に維持される音声は聴覚的に不自然な印象になるという傾向がある。すなわち、周波数の高域側にて振幅スペクトルWMと位相スペクトルWPとの関連性が低下するという傾向は、音声の聴感的な自然さに寄与すると推察される。そこで、第2実施形態では、位相算定部32が算定した位相スペクトルSPのうち高域側に位置する所定の帯域(例えば4kHz以上の帯域)内の各周波数の位相値を変動させる。
FIG. 3 is a graph showing the relationship between the amplitude spectrum WM (envelope) of actual speech and the phase spectrum WP. In the voice illustrated in FIG. 3, the relationship that the phase value of the phase spectrum WP changes greatly at each frequency where the first formant F1 to the fourth formant F4 exist in the amplitude spectrum WM is related to the amplitude spectrum WM and the phase spectrum WP. Be confirmed between. On the other hand, a clear relationship between the amplitude spectrum WM and the phase spectrum WP is not observed within the band exceeding the fourth formant F4. On the other hand, there is a tendency that a sound in which the relationship between the amplitude spectrum WM and the phase spectrum WP is excessively maintained even in the high frequency band has an unnatural impression. That is, it is presumed that the tendency for the relevance between the amplitude spectrum WM and the phase spectrum WP to decrease on the high frequency side contributes to the perceptual nature of speech. Therefore, in the second embodiment, the phase value of each frequency in a predetermined band (for example, a band of 4 kHz or higher) located on the high frequency side of the phase spectrum SP calculated by the
図4は、第2実施形態の音声合成装置100のブロック図である。図4に示すように、第2実施形態の演算処理装置12は、第1実施形態と同様の各要素(素片選択部22,振幅算定部24,素片調整部26,位相算定部32,音声合成部34)に加えて第1位相補正部41として機能する。第1位相補正部41は、位相算定部32が算定した各フレームの位相スペクトルSPの周波数毎の位相値を変化させる。素片調整部26による調整後の振幅スペクトルSMと第1位相補正部41による補正後の位相スペクトルSPとを含む単位データUCがフレーム毎に音声合成部34に供給される。
FIG. 4 is a block diagram of the
図5の部分(A)は、有声音の単位データUAが示す振幅スペクトルSMである。また、図5の部分(B)は、位相算定部32が算定した位相スペクトル(第1位相補正部41による補正前の位相スペクトル)SPであり、図5の部分(C)は、第1位相補正部41による補正後の位相スペクトルSPである。図5の部分(C)には、図5の部分(B)に例示された補正前の位相スペクトルSPが破線で併記されている。図5の部分(C)に示すように、第1位相補正部41は、位相算定部32が算定した位相スペクトルSP(図5の部分(B))のうち帯域B(例えば4kHz以上の帯域)内の各周波数の位相値を乱数的に変化させる。すなわち、帯域B内の各位相値の系列に揺らぎが付与される。
Part (A) of FIG. 5 is an amplitude spectrum SM indicated by the unit data UA of voiced sound. 5B is a phase spectrum (phase spectrum before correction by the first phase correction unit 41) SP calculated by the
具体的には、第1位相補正部41は、帯域B内の周波数毎に乱数を発生し、位相スペクトルSPのうち帯域B内の各周波数の位相値にその周波数の乱数を加算または減算することで補正後の位相値を算定する。したがって、図6の部分(A)に示すように、補正後の位相スペクトルSPのうち帯域B内の各周波数の位相値は、補正前の位相値を中心値とする所定の変動範囲α1内の任意の数値に設定される。すなわち、第1位相補正部41による補正の結果、図3に例示した音声と同様に、位相スペクトルSPと振幅スペクトルSMとの帯域B内での関連性は低下する。なお、各位相値に適用される乱数は例えばフレーム毎に更新される。
Specifically, the first
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、位相スペクトルSPのうち帯域B内の位相値を変動させることで帯域B内における振幅スペクトルSMと位相スペクトルSPとの関連性が低下するから、第1実施形態と比較して聴感的に自然な印象の合成音を生成できるという利点がある。 In the second embodiment, the same effect as in the first embodiment is realized. Further, in the second embodiment, since the relationship between the amplitude spectrum SM and the phase spectrum SP in the band B is reduced by changing the phase value in the band B of the phase spectrum SP, the comparison with the first embodiment is made. Thus, there is an advantage that a synthetic sound with a natural impression can be generated.
<C:第3実施形態>
図7は、第3実施形態の音声合成装置100のブロック図である。図7に示すように、第3実施形態における素片群GAの各音声素片データDは、複数の単位データU(UA,UB)の時系列に加えて種別情報Cを含んで構成される。種別情報Cは、音声素片内の各音素の種別を指定する。例えば母音(/a/,/i/,/u/),無声破裂音(/t/,/k/,/p/),有声破裂音(/b/,/d/,/g/),無声破擦音(/ts/),有声破擦音(/j/),無声摩擦音(/s/,/f/),有声摩擦音(/z/),半母音(/w/,/y/)等の種別が種別情報Cで指定される。
<C: Third Embodiment>
FIG. 7 is a block diagram of the
また、記憶装置14には、音素内の有声/無声の度合(以下「有声度」という)Vの時間的な推移を指定する有声度情報DVが、有声音の音素の種別(母音,有声破裂音,有声破擦音,有声摩擦音)毎に事前に格納される。図8は、有声度情報DVが示す有声度Vの時間変化の模式図である。図8の部分(A)は、有声摩擦音/j/と母音/a/とを連結した音声素片[j-a]の有声度Vであり、図8の部分(B)は、有声破裂音/b/と母音/a/とを連結した音声素片[b-a]の有声度Vである。
In the
有声度Vは、有声を意味する数値0と無声を意味する数値1との間で音素の始点から終点にかけて推移する。図8の部分(A)に示すように、有声摩擦音/j/の有声度Vは、音素の始点tsから時点t1までの所定長の区間(例えばフレームの3個分)内で0から1に直線的に変化し、時点t1から時点t2まで1を維持するとともに、時点t2から終点teまでの所定長の区間(例えばフレームの3個分)内で1から0に直線的に変化する。また、図8の部分(B)に示すように、有声破裂音/b/の有声度Vは、音素の始点tsから時点t1までの区間(例えばフレームの4個分)内で0から0.5に変化し、時点t1から時点t2まで0.5を維持するとともに、時点t2から終点teまでの区間(例えばフレームの4個分)内で0.5から0に変化する。他方、母音/a/の有声度Vは、全区間にわたって0(有声)に維持される。
The voicing degree V changes from the starting point of the phoneme to the ending point between a
図7に示すように、第3実施形態の演算処理装置12は、第1実施形態と同様の各要素(素片選択部22,振幅算定部24,素片調整部26,位相算定部32,音声合成部34)に加えて第2位相補正部42として機能する。第2位相補正部42は、図6の部分(B)に示すように、位相算定部32が算定した位相スペクトルSPの周波数毎の位相値を、その位相値を中心値とする変動範囲α2内で乱数的に変化させる。具体的には、第2位相補正部42は、周波数軸上の全帯域にわたる周波数毎に乱数を発生し、位相スペクトルSPの各周波数の位相値にその周波数の乱数を加算または減算することで補正後の位相値を算定する。各周波数の位相値の補正に適用される乱数はフレーム毎に更新される。
As shown in FIG. 7, the
ところで、実際の音声では、音声が無声に近いほど振幅スペクトルWMと位相スペクトルWPとの関連性が低下するという傾向がある。したがって、音声が無声に近いフレームでも振幅スペクトルSMと位相スペクトルSPとの関連性が高い場合には、合成音が人工的な音声と知覚される可能性がある。以上の傾向を考慮して、第3実施形態の第2位相補正部42は、各フレームの位相スペクトルSPの各位相値を変化させる変動範囲α2を、有声度情報DVがそのフレームについて指定する有声度Vに応じて可変に制御する。
By the way, in an actual voice, there is a tendency that the closer the voice is to unvoiced, the lower the relationship between the amplitude spectrum WM and the phase spectrum WP. Therefore, even if the voice is almost silent, the synthesized sound may be perceived as an artificial voice if the relationship between the amplitude spectrum SM and the phase spectrum SP is high. In consideration of the above tendency, the second
すなわち、第2位相補正部42は、素片選択部22が選択した音声素片データDの種別情報Cに対応する有声度情報DV(すなわち、合成対象の音素に対応する有声度情報DV)を記憶装置14から取得し、各フレームの位相スペクトルSPの位相値を、記憶装置14から取得した有声度情報DVがそのフレームについて指定する有声度Vに応じた変動範囲α2内で乱数的に変動させる。具体的には、有声度Vが無声の数値1に近いフレームほど変動範囲α2が広い範囲となる(すなわち振幅スペクトルSMと補正後の位相スペクトルSPとの関連性が低下する)ように周波数毎の乱数が設定される。
That is, the second
例えば図8の部分(A)の有声摩摩擦音/j/や図8の部分(B)の有声破裂音/b/の音素の各フレームにおける位相値の変動範囲α2は、音素の始点tsから時点t1にかけて拡大し、時点t1から時点t2まで一定に維持されるとともに、時点t2から終点teにかけて縮小する。他方、母音/a/の音素の各フレームにおける変動範囲α2は、音素の全区間にわたって一定の狭い範囲に維持される。 For example, the phase value fluctuation range α2 in each frame of the voiced frictional sound / j / in the part (A) of FIG. 8 and the voiced plosive / b / in the part (B) of FIG. 8 is the time point from the start point ts of the phoneme. The image is enlarged from t1 to be kept constant from time t1 to time t2, and is reduced from time t2 to end point te. On the other hand, the variation range α2 in each frame of the vowel / a / phoneme is maintained in a constant narrow range over the entire phoneme section.
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、有声音の各フレームの位相スペクトルSPの位相値を第2位相補正部42により変化させる変動範囲α2がそのフレームの有声度Vに応じて制御される。したがって、第1実施形態や第2実施形態と比較して、有声音の音素のうち特に無声に近い区間について人工的な印象を低減した自然な合成音を生成することが可能である。
In the third embodiment, the same effect as in the first embodiment is realized. In the third embodiment, the variation range α2 in which the phase value of the phase spectrum SP of each frame of voiced sound is changed by the second
<D:第4実施形態>
第1実施形態では、振幅スペクトルSMに対応する最小位相を位相スペクトルSPとして算定した。第4実施形態では、振幅スペクトルSMに対応する位相スペクトルSPを算定する方法が第1実施形態とは相違する。図9は、第4実施形態の位相算定部32が振幅スペクトルSMに対応する位相スペクトルSPを算定する動作の説明図である。図9の部分(A)には、素片調整部26による調整後の振幅スペクトルSMが図示されている。振幅スペクトルSMは、周波数軸上の相異なる周波数f[k]に対応する複数の振幅値A[k]の系列として表現される。記号kは、周波数軸上の任意の1個の周波数(周波数ビン)を意味する。振幅特性データRから特定される振幅スペクトルSMは包絡線であるから、記号kは調波成分(基音成分および複数の倍音成分)の次数に相当する。すなわち、振幅値A[k]は、振幅スペクトルSMにおける第k次の調波成分の振幅を意味する。第4実施形態の位相算定部32は、以下に例示する処理をフレーム毎に順次に実行する。
<D: Fourth Embodiment>
In the first embodiment, the minimum phase corresponding to the amplitude spectrum SM is calculated as the phase spectrum SP. In the fourth embodiment, the method for calculating the phase spectrum SP corresponding to the amplitude spectrum SM is different from that in the first embodiment. FIG. 9 is an explanatory diagram of an operation in which the
第1に、位相算定部32は、周波数軸上の周波数f[k]毎に、周波数f[k]の振幅値A[k]と周波数軸上で周波数f[k]に隣接する周波数f[k-1]の振幅値A[k-1]との差分(以下「振幅差」という)δA[k]をフレーム毎に算定する(δA[k]=A[k]−A[k-1])。図9の部分(B)には、周波数軸上の各振幅差δA[k]が図示されている。
First, the
第2に、位相算定部32は、周波数軸上の各振幅差δA[k]を周波数軸の方向に平滑化することで周波数f[k]毎の振幅差δB[k]を算定する。振幅差δA[k]の平滑化には公知の技術が任意に採用されるが、例えば、各周波数f[k]の振幅差δA[k]を含む複数個の数値の移動平均を平滑化後の振幅差δB[k]として算定する構成が好適である。第3に、位相算定部32は、平滑化後の各振幅差δB[k]の数値を−π以上かつ+π以下の範囲内の数値に変換し、変換後の各数値を周波数f[k]毎の位相値とする位相スペクトルSPを生成する。すなわち、位相算定部32は、振幅スペクトルSMにおいて周波数軸上で相隣接する各周波数(f[k],f[k-1])間の振幅差δA[k]を周波数軸の方向に平滑化することで位相スペクトルSPを算定する要素として機能する。
Second, the
図9の部分(C)には、第4実施形態の位相算定部32が図9の部分(A)の振幅スペクトルSMから算定した位相スペクトルSPが図示されている。また、図9の部分(D)には、第1実施形態の位相算定部32が図9の部分(A)の振幅スペクトルSMから算定した位相スペクトルSP(振幅スペクトルSMに対応する最小位相)が図示されている。図9の部分(C)と部分(D)との対比から、第4実施形態でも第1実施形態と同様の形状(振幅スペクトルSMとの関係が同等)の位相スペクトルSPをフレーム毎に生成できることが理解される。すなわち、第4実施形態においても第1実施形態と同様の効果が実現される。
Part (C) of FIG. 9 shows a phase spectrum SP calculated by the
なお、以上の例示では第1実施形態を基礎として第4実施形態を説明したが、第4実施形態の位相算定部32が算定した位相スペクトルSPを第2実施形態の第1位相補正部41および第3実施形態の第2位相補正部42の一方または双方が補正する構成も採用され得る。
In the above example, the fourth embodiment has been described based on the first embodiment. However, the phase spectrum SP calculated by the
<E:第5実施形態>
図10は、第5実施形態の音声合成装置100のブロック図である。図10に示すように、第5実施形態の演算処理装置12は、第1実施形態と同様の各要素(素片選択部22,振幅算定部24,素片調整部26,位相算定部32,音声合成部34)に加えて第3位相補正部43として機能する。第3位相補正部43は、位相算定部32がフレーム毎に算定する位相スペクトルSPの各位相値φA[m]を補正することで位相値φB[m]をフレーム毎に算定する。記号mは、時間軸上の任意の1個のフレーム(例えばフレームの番号)を意味する。位相値φB[m]は、振幅スペクトル(包絡線)SMの調波成分毎(周波数ビン毎)に算定される。第3位相補正部43による補正後の各位相値φB[m]の系列が第m番目のフレームの位相スペクトルSPとして音声合成部34の処理に利用される。
<E: Fifth Embodiment>
FIG. 10 is a block diagram of the
具体的には、第3位相補正部43は、以下の数式(1)で表現されるように、第m番目のフレームについて位相算定部32が算定した位相スペクトルSPの各位相値φA[m]に予測誤差Δφ[m]を付加することで、補正後の位相スペクトルSPの位相値φB[m]を調波成分毎に算定する。
数式(1)における第m番目のフレームの予測誤差Δφ[m]は、以下の数式(2)で表現されるように、第m番目のフレームについて予測される位相値(以下「予測位相」という)φE[m]と音声素片の第m番目のフレームの実際の位相値φ[m]との差分(誤差)に相当する。第m番目のフレームの予測位相φE[m]は、直前(第(m-1)番目)のフレームの実際の位相値φ[m-1]から推定される予測値であり、位相値φ[m]は、音声素片データDが表現する音声素片における実際の位相値(実測値)である。
数式(2)の予測位相φE[m]は、以下の数式(3)の演算により調波成分毎に算定される。
第5実施形態では、収録済の音声素片から調波成分毎の位相値φ[m]が各フレームについて事前に算定され、各位相値φ[m]から数式(2)および数式(3)の演算で算定された予測誤差Δφ[m]が音声素片データDの各単位データU内に設定される。すなわち、音声素片の各フレームの予測誤差Δφ[m]が音声素片毎に記憶装置14に事前に記憶される。第3位相補正部43は、位相算定部32が第m番目のフレームについて算定した位相スペクトルSPの各位相値φA[m]に対し、記憶装置14に記憶された第m番目のフレームの予測誤差Δφ[m]を付加することで(数式(1))、補正後の位相値φB[m]を算定する。
In the fifth embodiment, the phase value φ [m] for each harmonic component is calculated in advance for each frame from the recorded speech segment, and the equations (2) and (3) are calculated from each phase value φ [m]. The prediction error Δφ [m] calculated by the above calculation is set in each unit data U of the speech segment data D. That is, the prediction error Δφ [m] of each frame of the speech unit is stored in advance in the
第5実施形態においても第1実施形態と同様の効果が実現される。また、第5実施形態では、位相算定部32が算定した位相スペクトルSPに予測誤差Δφ[m]が付加されるから、実際の音声における位相の変動に近似した傾向の位相スペクトルSPを算定できる(したがって聴感的に自然な印象の合成音を生成できる)という利点がある。なお、以上の説明では第1実施形態の構成に第3位相補正部43を追加した構成を例示したが、例えば第4実施形態の構成に第3位相補正部43を追加することも可能である。
In the fifth embodiment, the same effect as in the first embodiment is realized. In the fifth embodiment, since the prediction error Δφ [m] is added to the phase spectrum SP calculated by the
なお、第5実施形態で1個のフレームについて用意される予測誤差Δφ[m]の総数は、音声素片データDの生成に利用された音声素片(以下「原素片」という)における調波成分の総数と同数である。したがって、合成音の音高X3が原素片の音高を上回る場合(予測誤差Δφ[m]の総数が過剰となる場合)には、複数の予測誤差Δφ[m]を適宜に間引いたうえで各位相値φA[m]の補正に適用し、合成音の音高X3が原素片の音高を下回る場合(予測誤差Δφ[m]の総数が不足する場合)には、各予測誤差Δφ[m]を複数の周波数について適宜に重複させたうえで各位相値φA[m]の補正に適用する構成が好適である。なお、1個のフレーム内で複数の周波数にわたる予測誤差Δφ[m]が相等しい場合には合成音が聴感的に不自然な印象になり得るという傾向がある。したがって、1個の予測誤差Δφ[m]を複数の周波数にわたり重複して利用する場合には、予測誤差Δφ[m]を周波数毎に相違させる(例えば各予測誤差Δφ[m]に乱数を付加する)構成が好適である。 Note that the total number of prediction errors Δφ [m] prepared for one frame in the fifth embodiment is the adjustment in the speech unit (hereinafter referred to as “original unit”) used for generating speech unit data D. It is the same number as the total number of wave components. Therefore, when the pitch X3 of the synthesized sound exceeds the pitch of the original segment (when the total number of prediction errors Δφ [m] is excessive), a plurality of prediction errors Δφ [m] are appropriately thinned out. Applied to the correction of each phase value φA [m], and when the pitch X3 of the synthesized sound is lower than the pitch of the original piece (when the total number of prediction errors Δφ [m] is insufficient), each prediction error A configuration in which Δφ [m] is appropriately overlapped for a plurality of frequencies and then applied to the correction of each phase value φA [m] is preferable. Note that if the prediction errors Δφ [m] across a plurality of frequencies are equal in one frame, the synthesized sound tends to be audibly unnatural. Therefore, when one prediction error Δφ [m] is used overlappingly over a plurality of frequencies, the prediction error Δφ [m] is made different for each frequency (for example, a random number is added to each prediction error Δφ [m]). The configuration is suitable.
なお、以上の説明では、各音声素片のフレーム毎の予測誤差Δφ[m]を事前に算定して記憶装置14に格納した構成(以下「構成1」という)を例示したが、第3位相補正部43が位相スペクトルSPの補正に適用する予測誤差Δφ[m]を取得する方法は適宜に変更される。
In the above description, the configuration in which the prediction error Δφ [m] for each frame of each speech unit is calculated in advance and stored in the storage device 14 (hereinafter referred to as “configuration 1”) is exemplified. The method of acquiring the prediction error Δφ [m] that the
例えば、各音声素片の時間波形を音声素片データDに含ませ、音声信号VOUTの合成時に、第3位相補正部43が、音声素片データD内の時間波形から各フレームの位相値(実測値)φ[m]を算定するとともに、数式(2)および数式(3)の演算で各位相値φ[m]から各フレームの予測誤差Δφ[m]を算定して位相スペクトルSPの各位相値φA[m]の補正に適用する構成(以下「構成2」という)も採用され得る。なお、前述の構成1によれば、音声素片の時間波形を記憶する必要がないから、構成2と比較して記憶装置14に必要な記憶容量が削減されるという利点がある。また、構成1によれば、音声信号VOUTの合成時に時間波形から各位相値φ[m]を算定する必要がないから、第3位相補正部43の処理負荷が構成2と比較して軽減されるという利点もある。
For example, the time waveform of each speech unit is included in the speech unit data D, and at the time of synthesis of the speech signal VOUT, the third
また、音声素片の各フレームについて算定された予測誤差Δφ[m]の代表値(例えば平均値)を各調波成分の予測誤差Δφとして音声素片毎に記憶装置14に事前に記憶する構成(以下「構成3」という)も採用され得る。第3位相補正部43は、位相算定部32が各フレームについて算定した位相スペクトルSPの各位相値φA[m]に記憶装置14内の予測誤差Δφを共通に付加することで位相値φB[m]を算定する。なお、複数のフレームにわたり予測誤差Δφが共通する場合には合成音が聴感的に不自然な印象になり得るという傾向がある。したがって、構成3では、予測誤差Δφをフレーム毎に相違させる(例えば各フレームの予測誤差Δφに乱数を付加する)構成が好適である。なお、構成3では、音声素片のフレーム毎の予測誤差Δφ[m]や音声素片の音声波形を保持する必要がないから、構成1や構成2と比較して記憶装置14に必要な記憶容量が削減されるという利点がある。
Further, a representative value (for example, an average value) of the prediction error Δφ [m] calculated for each frame of the speech unit is stored in advance in the
<F:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
<F: Modification>
Each of the above forms can be variously modified. Specific modifications are exemplified below. Two or more modes arbitrarily selected from the following examples can be appropriately combined.
(1)第1実施形態では振幅スペクトルSMに対応する最小位相を位相スペクトルSPとして算定し、第4実施形態では周波数f[k]毎の振幅差δA[k]を平滑化した振幅差δB[k]の系列を位相スペクトルSPとして算定したが、振幅スペクトルSMに対応する位相スペクトルSPをフレーム毎に算定する方法は以上の例示に限定されない。例えば、最小位相と同様に振幅スペクトルSMから一意に決定される最大位相を、位相スペクトルSPとして算定することも可能である。なお、最大位相を位相スペクトルSPとして生成される合成音は、1波長内の後方の時点にエネルギーが集中するという傾向がある。したがって、振幅スペクトルSMの最大位相を位相スペクトルSPとして生成する構成は、例えば、音声信号VOUTを逆転再生する場合や、音声素片データDが示す各音素の順序を逆転させた音声素片の音声素片データDを生成する場合に好適である。後者の場合としては、例えば、音声素片[Sil-a]のフレーム毎に振幅スペクトルSMと位相スペクトルSP(振幅スペクトルSMの最大位相)とを算定し、各フレームの順番を逆転させることで音声素片[a-Sil]の音声素片データDを生成する場合が例示される。なお、振幅スペクトルSMの最小位相や最大位相を算定する方法は以上の例示には限定されない。以上の例示から理解されるように、前述の各形態における位相算定部32は、音声素片の各フレームの振幅スペクトルSMに対応する位相スペクトルSPをフレーム毎に算定する要素(位相算定手段)として包括される。
(1) In the first embodiment, the minimum phase corresponding to the amplitude spectrum SM is calculated as the phase spectrum SP, and in the fourth embodiment, the amplitude difference δB [obtained by smoothing the amplitude difference δA [k] for each frequency f [k]. The k] series is calculated as the phase spectrum SP, but the method of calculating the phase spectrum SP corresponding to the amplitude spectrum SM for each frame is not limited to the above example. For example, the maximum phase uniquely determined from the amplitude spectrum SM similarly to the minimum phase can be calculated as the phase spectrum SP. Note that the synthesized sound generated with the maximum phase as the phase spectrum SP tends to concentrate energy at a later time point within one wavelength. Therefore, the configuration in which the maximum phase of the amplitude spectrum SM is generated as the phase spectrum SP is, for example, when the audio signal VOUT is reproduced in reverse, or the audio of the speech unit in which the order of each phoneme indicated by the speech unit data D is reversed. This is suitable for generating the segment data D. In the latter case, for example, the amplitude spectrum SM and the phase spectrum SP (maximum phase of the amplitude spectrum SM) are calculated for each frame of the speech unit [Sil-a], and the order of each frame is reversed to thereby calculate the speech. The case where the speech unit data D of the unit [a-Sil] is generated is illustrated. The method for calculating the minimum phase and the maximum phase of the amplitude spectrum SM is not limited to the above examples. As understood from the above examples, the
(2)第2実施形態の第1位相補正部41と第3実施形態の第2位相補正部42との双方を具備する構成も採用され得る。第1位相補正部41と第2位相補正部42とを具備する構成では、図6の部分(A)および部分(B)に示す通り、第1位相補正部41の補正による各位相値(帯域B内)の変動範囲α1が、第2位相補正部42の補正による各位相値の変動範囲α2と比較して広い範囲に設定される。
(2) A configuration including both the first
(3)第3実施形態では、第2位相補正部42が周波数軸上の全帯域の位相値を補正したが、特定の帯域内の位相値のみを第2位相補正部42による補正の対象とすることも可能である。例えば、低域側の所定個(例えば5個)の周波数を除外した帯域内の各位相値を第2位相補正部42が補正する構成が採用され得る。
(3) In the third embodiment, the second
(4)第3実施形態では、有声度Vの時間変化を示す有声度情報DVを記憶装置14に事前に記憶させたが、音声素片内での有声度Vの時間変化を特定する方法は任意である。例えば、音声素片データDから特定される音声の特徴(例えばスペクトルの傾き,フォルマントの位置や強度,ゼロクロス数)を利用して有声度Vの時間変化を算定する構成や、これらの特徴を記憶装置14に事前に格納しておいて有声度Vの時間変化の算定に利用する構成も採用され得る。以上の説明から理解される通り、第2位相補正部42は、音声素片内での有声度Vの時間変化を特定(例えば記憶装置14から取得または所定の方法で算定)し、各フレームの位相スペクトルSPの位相値を、そのフレームについて特定した有声度Vに応じた変動範囲α2内で乱数的に変動させる要素として包括され、有声度Vの時間変化を特定する方法の如何は不問である。
(4) In the third embodiment, the voicing degree information DV indicating the temporal change of the voicing degree V is stored in the
(5)音声素片データDの形式は任意である。例えば、前述の各形態では各フレームの振幅特性データRを含む音声素片データDを例示したが、音声素片データDがフレーム毎の振幅スペクトルSM(すなわち周波数毎の振幅値の系列)を直接的に指定する構成も採用される。音声素片データDが振幅スペクトルSMを含む構成では振幅算定部24が算定される。以上の例示から理解される通り、音声素片データDは、音声素片の各フレームの振幅スペクトルSMを示すデータとして包括される。
(5) The format of the speech segment data D is arbitrary. For example, in the above-described embodiments, the speech unit data D including the amplitude characteristic data R of each frame is exemplified. A designating system is also adopted. In the configuration in which the speech element data D includes the amplitude spectrum SM, the
(6)前述の各形態では、位相算定部32が算定した位相スペクトルSPを利用して音声信号VOUTを生成する音声合成装置100を例示したが、音声(音声素片)の各フレームの振幅スペクトルSMに対応する位相スペクトルSPをフレーム毎に算定する音声処理装置(位相算定装置)としても本発明は実施され得る。すなわち、音声合成部34(音声合成手段)は省略され得る。
(6) In each of the above-described embodiments, the
100……音声合成装置、12……演算処理装置、14……記憶装置、16……放音装置、22……素片選択部、24……振幅算定部、26……素片調整部、32……位相算定部、34……音声合成部、41……第1位相補正部、42……第2位相補正部、43……第3位相補正部。
DESCRIPTION OF
Claims (2)
前記音声素片データが示す各フレームの振幅スペクトルと前記位相算定手段による算定後の各フレームの位相スペクトルとを利用して音声信号を生成する音声合成手段と
を具備する音声合成装置。 The phase spectrum is calculated for each frame by smoothing the difference in the amplitude value between the frequencies adjacent to each other on the frequency axis in the amplitude spectrum indicated by the speech unit data for each frame of the speech unit. Phase calculation means;
A speech synthesizer comprising: a speech synthesizer that generates a speech signal using the amplitude spectrum of each frame indicated by the speech segment data and the phase spectrum of each frame calculated by the phase calculator.
音声素片データが音声素片の各フレームについて示す振幅スペクトルにおいて周波数軸上で相隣接する各周波数間の振幅値の差分を周波数軸の方向に平滑化することで位相スペクトルをフレーム毎に算定し、 The phase spectrum is calculated for each frame by smoothing the difference of the amplitude value between adjacent frequencies on the frequency axis in the amplitude spectrum that the speech unit data shows for each frame of the speech unit. ,
前記音声素片データが示す各フレームの振幅スペクトルと前記算定後の各フレームの位相スペクトルとを利用して音声信号を生成する A speech signal is generated using the amplitude spectrum of each frame indicated by the speech unit data and the phase spectrum of each frame after the calculation.
音声合成方法。 Speech synthesis method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012129798A JP6011039B2 (en) | 2011-06-07 | 2012-06-07 | Speech synthesis apparatus and speech synthesis method |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011127124 | 2011-06-07 | ||
JP2011127124 | 2011-06-07 | ||
JP2012129798A JP6011039B2 (en) | 2011-06-07 | 2012-06-07 | Speech synthesis apparatus and speech synthesis method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013015829A JP2013015829A (en) | 2013-01-24 |
JP6011039B2 true JP6011039B2 (en) | 2016-10-19 |
Family
ID=47688525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012129798A Expired - Fee Related JP6011039B2 (en) | 2011-06-07 | 2012-06-07 | Speech synthesis apparatus and speech synthesis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6011039B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017046904A1 (en) | 2015-09-16 | 2017-03-23 | 株式会社東芝 | Speech processing device, speech processing method, and speech processing program |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5536902A (en) * | 1993-04-14 | 1996-07-16 | Yamaha Corporation | Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter |
JP3622990B2 (en) * | 1993-08-19 | 2005-02-23 | ソニー株式会社 | Speech synthesis apparatus and method |
US6219637B1 (en) * | 1996-07-30 | 2001-04-17 | Bristish Telecommunications Public Limited Company | Speech coding/decoding using phase spectrum corresponding to a transfer function having at least one pole outside the unit circle |
JP4067762B2 (en) * | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | Singing synthesis device |
JP3756864B2 (en) * | 2002-09-30 | 2006-03-15 | 株式会社東芝 | Speech synthesis method and apparatus and speech synthesis program |
WO2004049304A1 (en) * | 2002-11-25 | 2004-06-10 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis method and speech synthesis device |
JP4349316B2 (en) * | 2005-04-28 | 2009-10-21 | ヤマハ株式会社 | Speech analysis and synthesis apparatus, method and program |
-
2012
- 2012-06-07 JP JP2012129798A patent/JP6011039B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013015829A (en) | 2013-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6024191B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP5961950B2 (en) | Audio processing device | |
US10176797B2 (en) | Voice synthesis method, voice synthesis device, medium for storing voice synthesis program | |
US11289066B2 (en) | Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning | |
WO2019172397A1 (en) | Voice processing method, voice processing device, and recording medium | |
JP2018077283A (en) | Speech synthesis method | |
US20110132179A1 (en) | Audio processing apparatus and method | |
JP6011039B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP2005004104A (en) | Ruled voice synthesizer and ruled voice synthesizing method | |
JP6747236B2 (en) | Acoustic analysis method and acoustic analysis device | |
JP4963345B2 (en) | Speech synthesis method and speech synthesis program | |
JP5573529B2 (en) | Voice processing apparatus and program | |
US9640172B2 (en) | Sound synthesizing apparatus and method, sound processing apparatus, by arranging plural waveforms on two successive processing periods | |
JP6834370B2 (en) | Speech synthesis method | |
JP2007226174A (en) | Singing synthesizer, singing synthesizing method, and program for singing synthesis | |
JP2004061753A (en) | Method and device for synthesizing singing voice | |
JP6234134B2 (en) | Speech synthesizer | |
JP2018077280A (en) | Speech synthesis method | |
JP7106897B2 (en) | Speech processing method, speech processing device and program | |
JP7200483B2 (en) | Speech processing method, speech processing device and program | |
JP6784137B2 (en) | Acoustic analysis method and acoustic analyzer | |
JP2003288095A (en) | Sound synthesizer, sound synthetic method, program for sound synthesis and computer readable recording medium having the same program recorded thereon | |
JP6047952B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP2001312300A (en) | Voice synthesizing device | |
JP5782751B2 (en) | Speech synthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150421 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160801 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160905 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6011039 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |