JP2012252303A - Voice synthesizer - Google Patents

Voice synthesizer Download PDF

Info

Publication number
JP2012252303A
JP2012252303A JP2011127123A JP2011127123A JP2012252303A JP 2012252303 A JP2012252303 A JP 2012252303A JP 2011127123 A JP2011127123 A JP 2011127123A JP 2011127123 A JP2011127123 A JP 2011127123A JP 2012252303 A JP2012252303 A JP 2012252303A
Authority
JP
Japan
Prior art keywords
phoneme
section
speech
type
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011127123A
Other languages
Japanese (ja)
Other versions
JP5914996B2 (en
Inventor
Keijiro Saino
慶二郎 才野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2011127123A priority Critical patent/JP5914996B2/en
Publication of JP2012252303A publication Critical patent/JP2012252303A/en
Application granted granted Critical
Publication of JP5914996B2 publication Critical patent/JP5914996B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

PROBLEM TO BE SOLVED: To produce a synthesized natural voice having a high sound emitting speed.SOLUTION: A storage device 14 stores a plurality of voice fragment data DA indicating a voice fragment V which contains a plurality of phoneme sections S corresponding to different phonemes. A fragment selecting part 22 sequentially selects the voice fragment V. A phoneme length setting part 24 adjustably sets a synthesis time length T for each phoneme section S of the voice fragment V selected by the fragment selecting part 22. A voice synthesis part 26 mutually links voice waveforms indicated by the voice fragment data DA for a target section W of the synthesis time length T set by the phoneme length setting part 24 out of each phoneme section S of the phoneme fragment V selected by the fragment selecting part 22, to generate a voice signal VOUT. A position (front/rear) of the target section W in the phoneme section S is determined according to a phoneme kind.

Description

本発明は、複数の音声素片の連結で発話音や歌唱音等の音声を合成する技術に関する。   The present invention relates to a technique for synthesizing speech sounds, singing sounds, and the like by connecting a plurality of speech segments.

複数の音声素片を相互に連結することで所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。例えば特許文献1には、利用者が指定した発音期間の時間長に応じて各音声素片(韻律小素片)を時間軸方向に伸縮して相互に連結することで所望の継続長の音声を合成する技術が開示されている。   Conventionally, a unit connection type speech synthesis technique for synthesizing a desired speech by connecting a plurality of speech units to each other has been proposed. For example, Patent Document 1 discloses a speech having a desired duration by expanding and concatenating each speech unit (prosodic segment) in the time axis direction according to the duration of a pronunciation period specified by the user. A technique for synthesizing is disclosed.

特開2003−108176号公報JP 2003-108176 A

しかし、特許文献1の技術では、発音速度(単位時間あたりの音素数)が高い合成音を生成するために各音声素片を時間軸方向に過度に収縮した場合に、実際に人間が発音時に口を変形させ得る速度を上回る速度で発音されたような不自然な音声が合成される可能性がある。また、人間が実際に早口で発音する場合には1個の音素の明瞭な発音が完了する以前に直後の音素の発音が開始される(すなわち音素の一部が省略される)という傾向がある。しかし、特許文献1の技術では、音声素片を収縮した場合でも各音素は始点から終点までの全体にわたり発音されるから、合成音は聴覚的に不自然な音声となる。例えば、1個の音素の発音を短い周期で反復する場合(例えば「わわわわ……」と発音する場合)、実際には各回の発音で口が完全に開く以前に次の発音が開始するが、特許文献1の技術では発音毎に口を完全に開いたような不自然な音声が生成される。以上の事情を考慮して、本発明は、発音速度が高い自然な音声を合成することを目的とする。   However, in the technique of Patent Document 1, when each speech segment is excessively contracted in the time axis direction in order to generate a synthesized sound having a high sounding speed (number of phonemes per unit time), when a human actually speaks, There is a possibility that an unnatural voice that is pronounced at a speed exceeding the speed at which the mouth can be deformed is synthesized. Further, when a person actually pronounces quickly, the pronunciation of the next phoneme is started (that is, a part of the phoneme is omitted) before the clear pronunciation of one phoneme is completed. . However, in the technique of Patent Document 1, even when the speech segment is contracted, each phoneme is pronounced over the entire point from the start point to the end point, and thus the synthesized sound becomes aurally unnatural speech. For example, if you repeat the pronunciation of one phoneme in a short cycle (for example, when you pronounce “Wawawa ...”), the next pronunciation starts before the mouth is completely opened in each pronunciation. However, with the technique of Patent Document 1, an unnatural voice is generated such that the mouth is completely opened for each pronunciation. In view of the above circumstances, an object of the present invention is to synthesize natural speech with a high sounding speed.

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。   Means employed by the present invention to solve the above problems will be described. In order to facilitate the understanding of the present invention, in the following description, the correspondence between the elements of the present invention and the elements of the embodiments described later will be indicated in parentheses, but the scope of the present invention will be exemplified in the embodiments. It is not intended to be limited.

本発明の音声合成装置は、相異なる音素に対応する複数の音素区間(例えば音素区間S)を含む音声素片を示す複数の音声素片データ(例えば音声素片データDA)を記憶する素片記憶手段(例えば記憶装置14)と、音声素片を順次に選択する素片選択手段(例えば素片選択部22)と、素片選択手段が選択した音声素片の各音素区間について合成時間長(例えば合成時間長T)を可変に設定する音素長設定手段(例えば音素長設定部24)と、素片選択手段が選択した音声素片の各音素区間のうち音素長設定手段が設定した合成時間長の対象区間(例えば対象区間W)について音声素片データが示す音声波形を相互に連結して音声信号を生成する音声合成手段(例えば音声合成部26)とを具備する。以上の構成では、各音声素片の音素区間のうち音素長設定手段が設定した合成時間長にわたる対象区間の音声波形を相互に連結して音声信号が生成される。音声素片を伸縮して音声信号の合成に適用する構成と比較して自然な音声を合成することが可能である。また、音声素片の音素区間毎に対象区間が選定されるから、音声素片の全体として音声信号の生成に適用される区間を選定する構成と比較すると、例えば各音素のなかで重要な区間(例えば受聴者が音素を識別するうえで重要な区間)を音素区間毎に個別に対象区間として選定して自然な音声を合成できるという利点がある。   The speech synthesizer of the present invention stores a plurality of speech unit data (for example, speech unit data DA) indicating a speech unit including a plurality of phoneme segments (for example, phoneme segment S) corresponding to different phonemes. The synthesis time length for each phoneme section of the speech unit selected by the storage unit (for example, the storage device 14), the unit selection unit (for example, the unit selection unit 22) for sequentially selecting speech units, and the speech unit selected by the unit selection unit A phoneme length setting unit (for example, phoneme length setting unit 24) that variably sets (for example, a synthesis time length T) and a synthesis set by the phoneme length setting unit in each phoneme segment of the speech unit selected by the unit selection unit. Voice synthesizing means (for example, a voice synthesizing unit 26) for generating a voice signal by interconnecting voice waveforms indicated by voice segment data for a target section of time length (for example, the target section W). In the above configuration, a speech signal is generated by mutually connecting speech waveforms of a target section over the synthesis time length set by the phoneme length setting means among the phoneme sections of each speech unit. It is possible to synthesize a natural voice as compared with a configuration in which a voice element is expanded and contracted and applied to synthesis of a voice signal. In addition, since the target section is selected for each phoneme section of the speech unit, compared with the configuration in which the section applied to the generation of the speech signal is selected as the entire speech unit, for example, an important section in each phoneme There is an advantage that a natural speech can be synthesized by selecting (for example, a section important for the listener to identify phonemes) as a target section individually for each phoneme section.

本発明の好適な態様において、音声素片の先頭に位置するとともに声道の閉鎖後の一時的な変形により発音される第1種別の音素に対応する音素区間(例えば第1種別C1の音素に対応する音素区間S1)は、第1種別の音素が発音される過程(例えば後方部pB)を含み、音声素片の末尾に位置するとともに第1種別の音素に対応する音素区間(例えば第1種別C1の音素に対応する音素区間S2)は、第1種別の音素が発音される直前の準備過程(例えば前方部pAの準備過程pA2)を含み、音声合成手段は、音声素片の先頭の音素区間が第1種別の音素に対応する場合に、その音素区間のうち始点から後方の合成時間長にわたる区間を対象区間として選定し(例えば図9の部分(A))、音声素片の末尾の音素区間が第1種別の音素に対応する場合に、その音素区間のうち始点から後方の合成時間長にわたる区間を対象区間として選定する(例えば図9の部分(C))。以上の態様では、第1種別の音素が発音される過程のうち前方側の区間が対象区間に優先的に包含され、第1種別の音素の準備過程のうち前方の区間(直前の音素の影響が顕著となる区間)が対象区間に優先的に包含される。したがって、第1種別の音素のうち例えば受聴者がその音素を認識するうえで重要な箇所を維持しながら音声信号を生成できるという利点がある。第1種別の音素は、典型的には発音が時間的に持続され難い音素である。例えば破裂音や破擦音等の音素が第1種別に区分される。   In a preferred embodiment of the present invention, a phoneme segment (for example, a phoneme of the first type C1) corresponding to the first type of phoneme located at the head of the speech unit and pronounced by temporary deformation after the vocal tract is closed. The corresponding phoneme segment S1) includes a process (for example, the rear part pB) in which the first type of phoneme is generated, and is located at the end of the speech segment and corresponds to the first type of phoneme (for example, the first segment). The phoneme section S2) corresponding to the type C1 phoneme includes a preparation process (for example, the preparation process pA2 of the front part pA) immediately before the first type phoneme is generated, and the speech synthesis means When the phoneme section corresponds to the first type phoneme, the section from the start point to the synthesis time length behind is selected as the target section (for example, part (A) in FIG. 9), and the end of the speech unit When the phoneme segment of the first corresponds to the first type of phoneme It selects a section across synthesis time length of the back from the start point of the phoneme segment as the target segment (e.g. the portion of FIG. 9 (C)). In the above aspect, the front section of the process of generating the first type of phonemes is preferentially included in the target section, and the front section of the first type of phoneme preparation process (the influence of the previous phoneme). Is markedly included in the target section. Therefore, there is an advantage that, for example, a voice signal can be generated while maintaining an important place for the listener to recognize the phoneme among the first type of phonemes. The first type of phoneme is typically a phoneme whose pronunciation is difficult to sustain in time. For example, phonemes such as plosives and rubbing sounds are classified into the first type.

本発明の好適な態様において、音声素片の先頭に位置するとともに第1種別とは相違する第2種別の音素に対応する音素区間(例えば第2種別C2の音素に対応する音素区間S1)は、当該第2種別の音素が後続の音素に変化する過程(例えば後方部qB)を含み、音声素片の末尾に位置するとともに第2種別の音素に対応する音素区間(例えば第2種別C2の音素に対応する音素区間S2)は、直前の音素が当該第2種別の音素に変化する過程(例えば前方部qA)を含み、音声合成手段は、音声素片の先頭の音素区間が第2種別の音素に対応する場合に、その音素区間のうち終点から前方の合成時間長にわたる区間を対象区間として選定し、音声素片の末尾の音素区間が第2種別の音素に対応する場合に、その音素区間のうち始点から後方の合成時間長にわたる区間を対象区間として選定する。以上の態様では、第2種別の音素が後続の音素に変化する過程のうち後方側の区間が対象区間に優先的に包含され、直前の音素が第2種別の音素に変化する過程のうち前方側の区間が対象区間に優先的に包含される。したがって、第2種別の音素のうち例えば受聴者がその音素の前後の遷移を認識するうえで重要な箇所を維持しながら音声信号を生成できるという利点がある。なお、第2種別の音素は、典型的には発音が持続され得る音素である。例えば、声道の形状が定常的に維持された状態で発音される母音,半母音および摩擦音等の音素や、口腔の一部や鼻腔を介した通気により発音を維持したまま声道を部分的に閉鎖した準備状態から声道を一時的かつ急速に変形させることで発音される流音や鼻音等の音素が第2種別に区分される。   In a preferred aspect of the present invention, a phoneme segment (for example, a phoneme segment S1 corresponding to a second type C2 phoneme) corresponding to a second type of phoneme that is located at the head of a speech unit and is different from the first type is , Including a process in which the second type of phoneme changes to a subsequent phoneme (for example, the rear part qB), and is located at the end of the speech unit and corresponds to the second type of phoneme (for example, of the second type C2 The phoneme section S2) corresponding to the phoneme includes a process in which the immediately preceding phoneme changes to the second type of phoneme (for example, the front part qA). Of the phoneme segment, the segment extending from the end point to the front synthesis time length is selected as the target segment, and when the phoneme segment at the end of the speech segment corresponds to the second type phoneme, Compositing from the start point in the phoneme section Selecting a segment extending between lengths as target section. In the above aspect, among the processes in which the second type phoneme changes to the subsequent phoneme, the rear section is preferentially included in the target section, and the immediately preceding phoneme changes to the second type phoneme. The side section is preferentially included in the target section. Therefore, for example, there is an advantage that a voice signal can be generated while maintaining an important part when the listener recognizes the transition before and after the phoneme of the second type. Note that the second type of phoneme is typically a phoneme whose sound can be sustained. For example, vowels, semi-vowels, and frictional sounds that are pronounced while the shape of the vocal tract is constantly maintained, and the vocal tract partially while maintaining pronunciation by aeration through part of the oral cavity or nasal cavity A phoneme such as a flowing sound or a nasal sound produced by temporarily and rapidly deforming the vocal tract from the closed preparation state is classified into a second type.

以上の各態様に係る音声合成装置は、音声合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラム(例えばプログラムPGM)は、相異なる音素に対応する複数の音素区間を含む音声素片を示す複数の音声素片データを記憶する素片記憶手段を具備するコンピュータに、音声素片を順次に選択する素片選択処理と、素片選択処理で選択した音声素片の各音素区間について合成時間長を可変に設定する音素長設定処理と、素片選択処理で選択した音声素片の各音素区間のうち音素長設定処理で設定した合成時間長の対象区間について音声素片データが示す音声波形を相互に連結して音声信号を生成する音声合成処理とを実行させる。以上のプログラムによれば、本発明の音声合成装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。   The speech synthesizer according to each aspect described above is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to speech synthesis, and a general-purpose arithmetic processing device such as a CPU (Central Processing Unit). And collaboration with the program. The program of the present invention (for example, the program PGM) is stored in a computer having speech storage units that store a plurality of speech segment data indicating speech segments including a plurality of speech segments corresponding to different phonemes. Unit selection processing for sequentially selecting, phoneme length setting processing for variably setting the synthesis time length for each phoneme section of the speech unit selected by the unit selection processing, and speech unit selected by the unit selection processing Among the phoneme sections, a speech synthesis process for generating a speech signal by interconnecting speech waveforms indicated by speech unit data for a target section having a synthesis time length set by the phoneme length setting process is executed. According to the above program, the same operation and effect as the speech synthesizer of the present invention are realized. The program of the present invention is provided to a user in a form stored in a computer-readable recording medium and installed in the computer, or provided from a server device in a form of distribution via a communication network and installed in the computer. Is done.

本発明の第1実施形態に係る音声合成装置のブロック図である。1 is a block diagram of a speech synthesizer according to a first embodiment of the present invention. 記憶装置に格納された素片群の模式図である。It is a schematic diagram of the segment group stored in the storage device. 音声素片の模式図である。It is a schematic diagram of a speech element. 音素分類および音素種別の関係を示す図表である。It is a graph which shows the relationship between phoneme classification and phoneme classification. 第1種別の音素の説明図である。It is explanatory drawing of the 1st type phoneme. 第2種別の音素の説明図である。It is explanatory drawing of the 2nd type phoneme. 音声素片の選択および合成時間長の設定の説明図である。It is explanatory drawing of the selection of a speech unit, and the setting of the synthetic | combination time length. 対象区間の単位データを抽出する処理のフローチャートである。It is a flowchart of the process which extracts the unit data of an object area. 対象区間を選定する動作の説明図である。It is explanatory drawing of the operation | movement which selects an object area. 音声素片を連結する動作の具体例の説明図である。It is explanatory drawing of the specific example of the operation | movement which connects an audio | voice element.

図1は、本発明のひとつの実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図1に示すように、演算処理装置12と記憶装置14と放音装置16とを具備するコンピュータシステムで実現される。   FIG. 1 is a block diagram of a speech synthesizer 100 according to one embodiment of the present invention. The speech synthesizer 100 is a signal processing device that generates speech such as speech and singing sound by segment-connected speech synthesis processing. As shown in FIG. 1, the arithmetic processing unit 12, the storage device 14, and the sound emission are produced. This is realized by a computer system including the device 16.

演算処理装置12(CPU)は、記憶装置14に格納されたプログラムPGMの実行で、合成音の波形を表す音声信号VOUTを生成するための複数の機能(素片選択部22,音素長設定部24,音声合成部26)を実現する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が一部の機能を実現する構成も採用され得る。放音装置16(例えばヘッドホンやスピーカ)は、演算処理装置12が生成した音声信号VOUTに応じた音波を放射する。記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(素片群GA,合成情報GB)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として採用される。   The arithmetic processing unit 12 (CPU) has a plurality of functions (unit selection unit 22, phoneme length setting unit) for generating a voice signal VOUT representing a waveform of a synthesized sound by executing the program PGM stored in the storage device 14. 24, the speech synthesis unit 26) is realized. A configuration in which each function of the arithmetic processing unit 12 is distributed over a plurality of integrated circuits, or a configuration in which a dedicated electronic circuit (DSP) realizes a part of the functions may be employed. The sound emitting device 16 (for example, a headphone or a speaker) emits a sound wave corresponding to the audio signal VOUT generated by the arithmetic processing device 12. The storage device 14 stores a program PGM executed by the arithmetic processing device 12 and various data (segment group GA, composite information GB) used by the arithmetic processing device 12. A known recording medium such as a semiconductor recording medium or a magnetic recording medium or a combination of a plurality of types of recording media is employed as the storage device 14.

記憶装置14に格納される素片群GAは、図2に示すように、複数の音声素片Vの各々に対応する音声素片データDAおよび音素分類データDBの集合(音声合成ライブラリ)である。図3に示すように、1個の音声素片Vは、相異なる音素に対応する2個の音素区間S(S1,S2)を連結したダイフォン(音素連鎖)である。音素区間S1は、音声素片Vの始点を含む時間長L1の区間であり、音素区間S2は、音声素片Vの終点を含む時間長L2の区間である。音素区間S2は音素区間S1に後続する。音素区間S1の時間長L1や音素区間S2の時間長L2は音声素片V毎に個別に決定される。なお、以下では便宜的に、無音を1個の音素として説明する。   The unit group GA stored in the storage device 14 is a set (speech synthesis library) of speech unit data DA and phoneme classification data DB corresponding to each of a plurality of speech units V, as shown in FIG. . As shown in FIG. 3, one speech element V is a diphone (phoneme chain) in which two phoneme sections S (S1, S2) corresponding to different phonemes are connected. The phoneme section S1 is a section of the time length L1 including the start point of the speech unit V, and the phoneme section S2 is a section of the time length L2 including the end point of the speech unit V. The phoneme segment S2 follows the phoneme segment S1. The time length L1 of the phoneme section S1 and the time length L2 of the phoneme section S2 are individually determined for each speech unit V. In the following description, silence is described as one phoneme for convenience.

図2の音声素片データDAは、音声素片Vの時間波形を指定するデータである。図2に示すように、1個の音声素片Vに対応する音声素片データDAは、その音声素片V(音素区間S1および音素区間S2)を時間軸上で区分した各フレームに対応する複数の単位データUの時系列で構成される。各単位データUは、1個のフレーム内の音声のスペクトルを規定する。例えば音声のスペクトルの形状の特徴を示す複数の変数(励起波形エンベロープ,胸部レゾナンス,声道レゾナンス,差分スペクトル)を含むEpR(Excitation plus Resonance)パラメータが単位データUとして好適である。なお、EpRパラメータについては例えば特許第3711880号公報に開示されている。また、周波数毎の強度(すなわちスペクトル)を示すスペクトルデータを単位データUとして採用することも可能である。図2に示すように、音声素片Vのうち音素区間S1に対応する複数の単位データUの時系列を音素区間データQ1と表記し、音声素片Vのうち音素区間S2に対応する複数の単位データUの時系列を音素区間データQ2と表記する。   The speech unit data DA in FIG. 2 is data for designating the time waveform of the speech unit V. As shown in FIG. 2, the speech unit data DA corresponding to one speech unit V corresponds to each frame obtained by dividing the speech unit V (phoneme segment S1 and phoneme segment S2) on the time axis. It consists of a time series of a plurality of unit data U. Each unit data U defines a spectrum of speech within one frame. For example, an EpR (Excitation plus Resonance) parameter including a plurality of variables (excitation waveform envelope, chest resonance, vocal tract resonance, difference spectrum) indicating features of the shape of a speech spectrum is suitable as the unit data U. The EpR parameter is disclosed in, for example, Japanese Patent No. 3711880. Moreover, it is also possible to employ | adopt as the unit data U the spectrum data which shows the intensity | strength (namely, spectrum) for every frequency. As shown in FIG. 2, a time series of a plurality of unit data U corresponding to the phoneme section S1 in the speech unit V is denoted as phoneme section data Q1, and a plurality of unit data U corresponding to the phoneme section S2 in the speech unit V is represented. The time series of the unit data U is expressed as phoneme segment data Q2.

図2の音素分類データDBは、音声素片Vのうち音素区間S1および音素区間S2の各々に対応する音素の分類を指定する。音素分類データDBが示す音素分類は、音素の調音方法に応じた分類である。例えば、日本語の音素を想定すると、図4に示すように、母音(/a/,/i/,/u/),半母音(/w/),摩擦音(/s/,/f/),流音(/r/),鼻音(/m/,/n/),破裂音(/t/,/k/,/p/),破擦音(/ts/)等の音素分類を音素分類データDBは指定する。ただし、音声素片Vが示す音声の言語は日本語に限定されない。   The phoneme classification data DB in FIG. 2 designates the phoneme classification corresponding to each of the phoneme segment S1 and the phoneme segment S2 in the speech segment V. The phoneme classification indicated by the phoneme classification data DB is a classification according to the phoneme articulation method. For example, assuming Japanese phonemes, as shown in FIG. 4, vowels (/ a /, / i /, / u /), semi-vowels (/ w /), friction sounds (/ s /, / f /), Phoneme classification such as streaming sound (/ r /), nasal sound (/ m /, / n /), plosive sound (/ t /, / k /, / p /), rubbing sound (/ ts /) Data DB is specified. However, the language of the speech indicated by the speech segment V is not limited to Japanese.

図4に示すように、各音素分類に属する音素は、調音方法に応じて第1種別C1と第2種別C2とに区分される。第1種別C1の音素は、発音が時間的に持続され難い音素であり、典型的には、声道が完全に閉鎖された初期的な準備状態から声道を一時的かつ急速に変形させることで発音される。具体的には、音素分類データDBが示す複数の音素分類のうち、破裂音および破擦音等が第1種別C1に区分される。他方、第2種別C2の音素は、発音が持続され得る音素である。具体的には、音素分類データDBが示す複数の音素分類のうち、声道の形状が定常的に維持された状態で発音される母音,半母音および摩擦音等の音素と、口腔の一部や鼻腔を介した通気により発音を維持したまま声道を部分的に閉鎖した準備状態から声道を一時的かつ急速に変形させることで発音される流音や鼻音等の音素とが、第2種別C2に区分される。   As shown in FIG. 4, phonemes belonging to each phoneme classification are classified into a first type C1 and a second type C2 according to the articulation method. The first type C1 phoneme is a phoneme whose pronunciation is difficult to be sustained in time, and typically deforms the vocal tract temporarily and rapidly from the initial preparation state where the vocal tract is completely closed. Is pronounced. Specifically, among the plurality of phoneme classifications indicated by the phoneme classification data DB, a plosive sound, a rubbing sound, and the like are classified into the first type C1. On the other hand, the phoneme of the second type C2 is a phoneme whose pronunciation can be sustained. Specifically, among a plurality of phoneme classifications indicated by the phoneme classification data DB, phonemes such as vowels, semi-vowels, and friction sounds that are generated in a state in which the shape of the vocal tract is constantly maintained, a part of the oral cavity, and the nasal cavity The second type C2 is a phoneme such as a flowing sound or a nasal sound that is generated by temporarily and rapidly deforming the vocal tract from a ready state in which the vocal tract is partially closed while maintaining the pronunciation by aeration through the air. It is divided into.

1個の音声素片Vの音素区間S1および音素区間S2の各々は、第1種別C1および第2種別C2の何れかの音素に対応する。例えば図5の部分(A)には、音素区間S1が第1種別C1の音素(破裂音/t/)に対応する音声素片Vが例示され、図5の部分(B)には、音素区間S2が第1種別C1の音素に対応する音声素片Vが例示されている。なお、図5の部分(A)の音素区間S2および図5の部分(B)の音素区間S1の音素は任意である。また、図6の部分(A)には、音素区間S1が第2種別C2の音素(母音/a/)に対応する音声素片Vが例示され、図6の部分(B)には、音素区間S2が第2種別C2の音素に対応する音声素片Vが例示されている。図6の部分(A)の音素区間S2および図6の部分(B)の音素区間S1の音素は任意である。なお、図5および図6では、音声素片Vの各音素の波形の一例が便宜的に図示されているが、実際の各音素の波形は前後の音素に応じて多様に変化する。   Each of the phoneme section S1 and the phoneme section S2 of one speech element V corresponds to one of the first type C1 and the second type C2. For example, the part (A) of FIG. 5 illustrates a speech unit V in which the phoneme section S1 corresponds to the phoneme of the first type C1 (plosive sound / t /), and the part (B) of FIG. The speech segment V in which the section S2 corresponds to the phoneme of the first type C1 is illustrated. Note that the phonemes in the part (A) in FIG. 5 and the phonemes in the part (B) in FIG. 5 are arbitrary. Further, the part (A) in FIG. 6 illustrates a speech unit V in which the phoneme section S1 corresponds to the phoneme of the second type C2 (vowel / a /), and the part (B) in FIG. The speech segment V in which the section S2 corresponds to the phoneme of the second type C2 is illustrated. The phonemes in the part (A) in FIG. 6 and the phonemes in the part (B) in FIG. 6 are arbitrary. In FIGS. 5 and 6, an example of the waveform of each phoneme of the speech segment V is shown for convenience, but the actual waveform of each phoneme varies in various ways depending on the preceding and following phonemes.

図5の部分(C)に示すように、第1種別C1の音素(例えば破裂音/t/)は、時間軸上で前方部pAと後方部pBとに区分される。前方部pAは、その音素の直前に発音された他の音素が減衰していく余韻過程pA1と、実際に音素(破裂音/t/)が発音される直前の準備過程pA2とを含む。準備過程pA2は、音素の発音が可能な状態に声道を準備する過程(例えば声道を舌で閉鎖または収縮する過程)である。なお、余韻過程pA1が存在しない場合もある。他方、後方部pBは、準備過程pA2から声道を一時的かつ急速に変形させることで音素が実際に発音される過程(例えば準備過程pA2で声道の上流側に圧縮された空気を一気に解放する過程)である。   As shown in part (C) of FIG. 5, the first type C1 phoneme (for example, plosive sound / t /) is divided into a front part pA and a rear part pB on the time axis. The front part pA includes a reverberation process pA1 in which other phonemes sounded immediately before the phoneme are attenuated, and a preparation process pA2 immediately before a phoneme (plosive sound / t /) is actually sounded. The preparation process pA2 is a process of preparing the vocal tract in a state where phonemes can be pronounced (for example, a process of closing or contracting the vocal tract with a tongue). In some cases, the reverberation process pA1 does not exist. On the other hand, the rear part pB releases the compressed air at the upstream side of the vocal tract in the preparation process pA2 by temporarily and rapidly deforming the vocal tract from the preparation process pA2 so that the phoneme is actually pronounced. Process).

図5の部分(A)に示すように、音声素片Vのうち第1種別C1の音素に対応する音素区間S1は、その音素の後方部pBを含む。他方、図5の部分(B)に示すように、音声素片Vのうち第1種別C1の音素に対応する音素区間S2は、その音素の前方部pAを含む。すなわち、図5の部分(B)に例示された音声素片Vの末尾側の音素区間S2に図5の部分(A)の音素区間S1を後続させることで第1種別C1の音素(破裂音/t/)が再現される。   As shown in part (A) of FIG. 5, the phoneme segment S1 corresponding to the phoneme of the first type C1 in the phoneme segment V includes the rear part pB of the phoneme. On the other hand, as shown in part (B) of FIG. 5, the phoneme segment S2 corresponding to the phoneme of the first type C1 in the phoneme segment V includes the front part pA of the phoneme. That is, the phoneme segment S1 of the first type C1 (plosive sound) is obtained by following the phoneme segment S1 of the portion (A) of FIG. 5 to the phoneme segment S2 on the tail side of the speech segment V illustrated in the portion (B) of FIG. / t /) is reproduced.

他方、図6の部分(C)に示すように、第2種別C2の音素(例えば母音/a/)は、前方部qAと後方部qBとを含む。前方部qAは、直前の他の音素からその音素に変化していく過程(例えば口を開けていく過程)であり、後方部qBは、その音素が後続の他の音素に変化していく過程(例えば口を閉じていく過程)である。なお、第2種別C2の音素のうち流音/r/や鼻音/m/等の音素については、声道が部分的に閉鎖された準備状態から声道を一時的かつ急速に変形させる過程(例えば舌先で上顎を弾く過程)が前方部qAの始点側に含まれる。   On the other hand, as shown in part (C) of FIG. 6, the second type C2 phoneme (for example, vowel / a /) includes a front part qA and a rear part qB. The front part qA is a process in which the previous phoneme changes to the phoneme (for example, a process of opening the mouth), and the rear part qB is a process in which the phoneme changes to another phoneme that follows. (For example, the process of closing the mouth). Of the second type C2 phonemes, for phonemes such as stream sounds / r / and nasal sounds / m /, the vocal tract is temporarily and rapidly deformed from a ready state in which the vocal tract is partially closed ( For example, the process of flipping the upper jaw with the tip of the tongue) is included on the start point side of the front part qA.

図6の部分(A)に示すように、音声素片Vのうち第2種別C2の音素に対応する音素区間S1は、その音素の後方部qBを含む。他方、図6の部分(B)に示すように、音声素片Vのうち第2種別C2の音素に対応する音素区間S2は、その音素の前方部qAを含む。特定の発声者による発声音から以上の条件を満たすように各音声素片Vが抽出されて各音素区間Sが画定されたうえで音声素片V毎の音声素片データDA(音素区間データQ1および音素区間データQ2)が作成される。   As shown in part (A) of FIG. 6, the phoneme segment S1 corresponding to the phoneme of the second type C2 in the phoneme segment V includes the rear part qB of the phoneme. On the other hand, as shown in part (B) of FIG. 6, the phoneme segment S2 corresponding to the second type C2 phoneme in the phoneme segment V includes the front part qA of the phoneme. Each speech segment V is extracted so as to satisfy the above conditions from the sound produced by a specific speaker, and each speech segment S is defined. Then, speech segment data DA (phoneme segment data Q1) for each speech segment V is defined. And phoneme segment data Q2).

図1に示すように、記憶装置14には、合成音を時系列に指定する合成情報(スコアデータ)GBが記憶される。合成情報GBは、合成音の発音文字X1と発音期間X2とピッチX3とを例えば音符毎に時系列に指定する。発音文字X1は、例えば歌唱音を合成する場合の歌詞の文字列であり、発音期間X2は、例えば発音の開始時刻と継続長とで指定される。合成情報GBは、例えば各種の入力機器に対する利用者からの指示に応じて生成されて記憶装置14に格納される。なお、他の通信端末から通信網を介して受信された合成情報GBや可搬型の記録媒体から転送された合成情報GBを音声信号VOUTの生成に使用することも可能である。   As shown in FIG. 1, the storage device 14 stores synthesis information (score data) GB for designating synthesized sounds in time series. The synthesis information GB designates the pronunciation character X1, the pronunciation period X2, and the pitch X3 of the synthesized sound, for example, in time series for each note. The pronunciation character X1 is a character string of lyrics when, for example, a singing sound is synthesized, and the pronunciation period X2 is specified by, for example, the start time and duration of the pronunciation. The composite information GB is generated in accordance with, for example, instructions from the user for various input devices and stored in the storage device 14. Note that the synthesized information GB received from another communication terminal via the communication network or the synthesized information GB transferred from the portable recording medium can be used for generating the audio signal VOUT.

図1の素片選択部22は、合成情報GBが時系列に指定する各発音文字X1に対応する音声素片Vを素片群GAから順次に選択する。例えば図7に示すように、「go straight」という発音文字X1が指定された場合、素片選択部22は、[Sil-gh],[gh-@U],[@U-s],[s-t],[t-r],[r-eI],[eI-t],[t-Sil]という音声素片Vを選択する。なお、各音素の記号は、SAMPA(Speech Assessment Methods Phonetic Alphabet)に準拠している。なお、記号「Sil」は無音(Silence)を意味する。   The segment selection unit 22 in FIG. 1 sequentially selects the speech segment V corresponding to each phonetic character X1 specified in time series by the synthesis information GB from the segment group GA. For example, as shown in FIG. 7, when the pronunciation character X1 “go straight” is designated, the segment selection unit 22 selects [Sil-gh], [gh- @ U], [@Us], [st]. , [Tr], [r-eI], [eI-t], and [t-Sil] are selected. Each phoneme symbol conforms to SAMPA (Speech Assessment Methods Phonetic Alphabet). The symbol “Sil” means silence.

図1の音素長設定部24は、素片選択部22が順次に選択する音声素片Vの各音素区間S(S1,S2)について、音声信号VOUTの合成に適用される場合の時間長(以下「合成時間長」という)Tを可変に設定する。各音素区間Sの合成時間長Tは、合成情報GBが時系列に指定する発音期間X2に応じて選定される。具体的には、音素長設定部24は、図7に示すように、発音文字X1を構成する主要な母音の音素(図7の斜体字の音素)の始点がその発音文字X1の発音期間X2の始点に合致し、かつ、相前後する音素区間Sが時間軸上に隙間なく配列するように、各音素区間Sの合成時間長T(T(Sil),T(gh),T(@U),……)を設定する。   The phoneme length setting unit 24 in FIG. 1 applies the time length (when applied to the synthesis of the speech signal VOUT for each phoneme section S (S1, S2) of the speech unit V sequentially selected by the segment selection unit 22 ( T is hereinafter set to be variable. The synthesis time length T of each phoneme section S is selected according to the sound generation period X2 specified by the synthesis information GB in time series. Specifically, as shown in FIG. 7, the phoneme length setting unit 24 sets the starting point of the main vowel phoneme (the italic phoneme in FIG. 7) constituting the pronunciation character X1 as the pronunciation period X2 of the pronunciation character X1. So that the adjacent phoneme segments S are arranged on the time axis without any gaps, the synthesis time length T (T (Sil), T (gh), T (@U ), ...) are set.

図1の音声合成部26は、素片選択部22が順次に選択する音声素片Vを相互に連結することで音声信号VOUTを生成する。具体的には、音声合成部26は、素片選択部22が選択した音声素片Vの各音素区間S(S1,S2)の音素区間データQ(Q1,Q2)から、その音素区間Sについて音素長設定部24が設定した合成時間長Tにわたる単位データUの時系列を生成し、各単位データUが示すスペクトルを時間波形に変換したうえで相互に連結するとともに合成情報GBのピッチX3に調整することで音声信号VOUTを生成する。   The speech synthesis unit 26 in FIG. 1 generates a speech signal VOUT by connecting speech units V sequentially selected by the unit selection unit 22 to each other. Specifically, the speech synthesizer 26 determines the phoneme segment S from the phoneme segment data Q (Q1, Q2) of each phoneme segment S (S1, S2) of the speech segment V selected by the segment selector 22. A time series of unit data U over the synthesis time length T set by the phoneme length setting unit 24 is generated, and the spectrum indicated by each unit data U is converted into a time waveform and connected to each other, and the pitch X3 of the synthesis information GB is connected. The audio signal VOUT is generated by adjusting.

例えば、各音素区間Sについて設定された合成時間長Tがその音素区間Sの初期的な時間長L(L1,L2)と比較して長い場合(すなわち音声素片Vの収録時と比較して発音速度を低下させる場合)、その音素区間Sに対応する音素区間データQが合成時間長Tに伸長されたうえで音声信号VOUTの生成に適用される。音素区間データQの伸長には公知の方法(例えば合成時間長T内の各時点の単位データUを周囲の単位データUから補間する方法)が任意に採用される。   For example, when the synthesis time length T set for each phoneme section S is longer than the initial time length L (L1, L2) of the phoneme section S (that is, compared with the recording of the speech unit V). When the pronunciation speed is reduced), the phoneme segment data Q corresponding to the phoneme segment S is expanded to the synthesis time length T and applied to the generation of the audio signal VOUT. A known method (for example, a method of interpolating the unit data U at each time point within the synthesis time length T from the surrounding unit data U) is arbitrarily adopted for expanding the phoneme section data Q.

他方、各音素区間Sについて設定された合成時間長Tがその音素区間Sの初期的な時間長L(L1,L2)と比較して短い場合(すなわち音声素片Vの収録時と比較して発音速度を上昇させる場合)、素片選択部22が選択した音声素片Vの各音素区間S(S1,S2)のうち音素長設定部24がその音素区間Sに設定した合成時間長Tの区間(以下「対象区間」という)Wについて音声素片データDAが示す音声を相互に連結することで音声信号VOUTが生成される。具体的には、音声合成部26は、各音素区間Sの音素区間データQ(Q1,Q2)から合成時間長Tにわたる対象区間W内の単位データUの時系列を抽出し、各単位データUから特定される時間波形を相互に連結することで音声信号VOUTを生成する。すなわち、音素区間データQのうち合成時間長Tにわたる対象区間W内の単位データUの時系列が内容や順番が変更されることなく抽出されて音声信号VOUTの生成に利用される。   On the other hand, when the synthesis time length T set for each phoneme segment S is shorter than the initial time length L (L1, L2) of the phoneme segment S (that is, compared with the recording of the speech segment V). Of the synthesis time length T set by the phoneme length setting unit 24 in the phoneme segment S of the phoneme segments S (S1, S2) of the speech segment V selected by the segment selection unit 22 The voice signal VOUT is generated by connecting the voices indicated by the voice element data DA for the section (hereinafter referred to as “target section”) W to each other. Specifically, the speech synthesizer 26 extracts a time series of the unit data U in the target section W over the synthesis time length T from the phoneme section data Q (Q1, Q2) of each phoneme section S, and each unit data U The audio signal VOUT is generated by interconnecting the time waveforms specified from the above. That is, the time series of the unit data U in the target section W over the synthesis time length T in the phoneme section data Q is extracted without changing the content and order, and is used to generate the audio signal VOUT.

図8は、発音速度を上昇させる場合に音声合成部26が音素区間データQから対象区間W内の単位データUを抽出する動作のフローチャートである。図8の処理は、音素長設定部24により設定された合成時間長Tが初期的な時間長L(L1,L2)を下回る音素区間S毎に順次に実行される。   FIG. 8 is a flowchart of the operation in which the speech synthesizer 26 extracts the unit data U in the target section W from the phoneme section data Q when increasing the sound generation speed. The process of FIG. 8 is sequentially executed for each phoneme section S in which the synthesis time length T set by the phoneme length setting unit 24 is less than the initial time length L (L1, L2).

図8の処理を開始すると、音声合成部26は、処理対象となる1個の音素区間(以下「注目音素区間」という)Sが音声素片Vの先頭側の音素区間S1に該当するか否かを判定する(SA1)。処理SA1の判定結果が肯定である場合、音声合成部26は、注目音素区間Sの音素が第1種別C1に属するか否かを判定する(SA2)。具体的には、注目音素区間Sに対応する音素分類データDBで指定される音素分類が、第1種別C1に属する所定の分類(破裂音,破擦音等)に該当するか否かに応じて、音声合成部26は処理SA2の判定を実行する。   When the processing of FIG. 8 is started, the speech synthesizer 26 determines whether one phoneme segment (hereinafter referred to as “target phoneme segment”) S to be processed corresponds to the phoneme segment S1 on the head side of the speech segment V. (SA1). If the determination result of the process SA1 is affirmative, the speech synthesizer 26 determines whether or not the phoneme in the phoneme segment S of interest belongs to the first type C1 (SA2). Specifically, depending on whether or not the phoneme classification specified by the phoneme classification data DB corresponding to the target phoneme section S corresponds to a predetermined classification (plosive sound, rubbing sound, etc.) belonging to the first type C1. Then, the speech synthesizer 26 performs the determination of the process SA2.

図5の部分(A)を参照して説明した通り、音声素片Vのうち第1種別C1の音素に対応する音素区間S1にはその音素の後方部pBが含まれる。第1種別C1の音素の後方部pBのうち音素の発音が実際に発音される時点を含む前方の区間は、その音素の特徴が受聴者に顕著に認識される区間(すなわち受聴者が音素を識別するうえで重要な区間)である。そこで、注目音素区間Sが音声素片Vの先頭の音素区間S1であり(SA1:YES)、かつ、第1種別C1の音素に対応する場合(SA2:YES)、音声合成部26は、図9の部分(A)に示すように、注目音素区間S(後方部pB)のうちの前方の区間を優先的に対象区間Wとして選定する(SA3)。具体的には、注目音素区間Sの始点を起点として後方の合成時間長Tにわたる区間が対象区間Wとして選定される。   As described with reference to part (A) of FIG. 5, the phoneme segment S1 corresponding to the phoneme of the first type C1 in the phoneme segment V includes the rear part pB of the phoneme. The forward section of the rear part pB of the first type C1 phoneme including the time when the pronunciation of the phoneme is actually pronounced is the section in which the characteristics of the phoneme are remarkably recognized by the listener (that is, the listener selects the phoneme). It is an important section for identification). Therefore, when the phoneme segment S is the first phoneme segment S1 of the speech segment V (SA1: YES) and corresponds to the first type C1 phoneme (SA2: YES), the speech synthesis unit 26 As shown in part (A) of FIG. 9, the front section of the target phoneme section S (rear part pB) is preferentially selected as the target section W (SA3). Specifically, a section spanning the synthesis time length T starting from the starting point of the phoneme section S of interest is selected as the target section W.

また、図6の部分(A)を参照して説明した通り、音声素片Vのうち第2種別C2の音素に対応する音素区間S1にはその音素の後方部qBが含まれる。第2種別C2の音素の後方部qBのうち直後の音素の影響が顕著となる後方の区間は、受聴者が音素の遷移を知覚するうえで特に重要な区間である。そこで、注目音素区間Sが音声素片Vの先頭の音素区間S1であり(SA1:YES)、かつ、第2種別C2の音素に対応する場合(SA2:NO)、音声合成部26は、図9の部分(B)に示すように、注目音素区間S(後方部qB)のうちの後方の区間を優先的に対象区間Wとして選定する(SA4)。具体的には、注目音素区間Sの終点を起点として前方(手前側)の合計時間長Tにわたる区間が対象区間Wとして選定される。   Further, as described with reference to part (A) of FIG. 6, the phoneme segment S1 corresponding to the second type C2 phoneme in the phoneme segment V includes the rear part qB of the phoneme. Of the rear part qB of the second type C2 phoneme, the rear section where the effect of the immediately following phoneme becomes significant is a section that is particularly important for the listener to perceive the transition of the phoneme. Therefore, when the phoneme segment S is the first phoneme segment S1 of the speech segment V (SA1: YES) and corresponds to the second type C2 phoneme (SA2: NO), the speech synthesizer 26 As shown in part (B) of FIG. 9, the rear section of the target phoneme section S (rear part qB) is preferentially selected as the target section W (SA4). Specifically, a section extending over the total time length T ahead (front side) starting from the end point of the phoneme section S of interest is selected as the target section W.

他方、注目音素区間Sが音声素片Vの末尾の音素区間S2に該当する場合(SA1:NO)、音声合成部26は、以下に詳述する通り、注目音素区間Sの音素種別(C1,C2)に関わらず、その注目音素区間Sのうちの前方の区間を優先的に対象区間Wとして選定する(SA3)。   On the other hand, when the target phoneme section S corresponds to the last phoneme section S2 of the speech unit V (SA1: NO), the speech synthesizer 26 determines the phoneme type (C1, Regardless of C2), the front section of the target phoneme section S is preferentially selected as the target section W (SA3).

図5の部分(B)を参照して説明した通り、音声素片Vのうち第1種別C1の音素に対応する音素区間S2にはその音素の前方部pAが含まれる。第1種別C1の音素の前方部pAのうち後方に位置する準備過程pA2は、大部分が無音であり、受聴者による音素の識別には殆ど影響しない。そこで、注目音素区間Sが音声素片Vの末尾の音素区間S2であり(SA1:NO)、かつ、第1種別C1の音素に対応する場合、音声合成部26は、図9の部分(C)に示すように、注目音素区間S(前方部pA)のうち始点を起点として後方の合成時間長Tにわたる区間を対象区間Wとして選定する(SA3)。すなわち、第1種別C1の音素のうち直前の音素の影響が顕著となる余韻過程pA1は優先的に対象区間Wに包含される。   As described with reference to part (B) of FIG. 5, the phoneme segment S2 corresponding to the phoneme of the first type C1 in the speech unit V includes the front part pA of the phoneme. The preparation process pA2 located behind the front part pA of the first type C1 phoneme is mostly silent, and has little influence on the identification of the phoneme by the listener. Therefore, when the target phoneme section S is the last phoneme section S2 of the speech unit V (SA1: NO) and corresponds to the first type C1 phoneme, the speech synthesizer 26 performs the part (C ), A section spanning the synthesis time length T from the start point of the attention phoneme section S (front part pA) is selected as the target section W (SA3). That is, the reverberation process pA1 in which the influence of the immediately preceding phoneme becomes significant among the first type C1 phonemes is preferentially included in the target section W.

また、図6の部分(B)を参照して説明した通り、音声素片Vのうち第2種別C2の音素に対応する音素区間S2にはその音素の前方部qAが含まれる。第2種別C2の音素のうち母音や半母音や摩擦音等の音素の前方部qAのなかでは、直前の音素の影響が顕著となる前方の区間が、音素の遷移を聴覚的に識別するうえで特に重要である。また、第2種別C2の音素のうち流音や鼻音等の音素の前方部qAのなかでは、準備状態から声道が変形する過程を含む前方の区間が聴覚的な識別のうえで特に重要である。以上の傾向を考慮して、注目音素区間Sが音声素片Vの末尾の音素区間S2であり(SA1:NO)、かつ、第2種別C2の音素に対応する場合、音声合成部26は、図9の部分(D)に示すように、注目音素区間S(前方部qA)のうち始点を起点として後方の合成時間長Tにわたる区間を対象区間Wとして選定する(SA3)。   Further, as described with reference to part (B) of FIG. 6, the phoneme segment S2 corresponding to the phoneme of the second type C2 in the phoneme segment V includes the front part qA of the phoneme. Among the second type C2 phonemes, in the front part qA of phonemes such as vowels, semi-vowels, friction sounds, etc., the front section where the effect of the immediately preceding phoneme becomes remarkable is particularly useful for identifying phoneme transitions. is important. Of the second type C2 phonemes, the front section including the process of deforming the vocal tract from the prepared state is particularly important for auditory identification among the front parts qA of phonemes such as stream sounds and nasal sounds. is there. Considering the above trend, when the phoneme segment S is the last phoneme segment S2 of the speech segment V (SA1: NO) and corresponds to the second type C2 phoneme, the speech synthesizer 26 As shown in part (D) of FIG. 9, a section spanning the synthesis time length T starting from the start point in the phoneme section S (front part qA) is selected as the target section W (SA3).

以上の手順で注目音素区間Sの対象区間Wを選定すると、音声合成部26は、注目音素区間Sの音素区間データQ(Q1,Q2)から対象区間W内の単位データUの時系列を抽出する(SA5)。前述の通り、処理SA5で抽出された各単位データUが音声信号VOUTの生成に適用される。他方、注目音素区間Sの音素区間データQのうち対象区間Wの外側の各単位データUは、音声信号VOUTの生成に使用されることなく破棄される。   When the target section W of the target phoneme section S is selected by the above procedure, the speech synthesizer 26 extracts the time series of the unit data U in the target section W from the phoneme section data Q (Q1, Q2) of the target phoneme section S. (SA5). As described above, each unit data U extracted in the process SA5 is applied to the generation of the audio signal VOUT. On the other hand, the unit data U outside the target section W in the phoneme section data Q of the phoneme section S of interest is discarded without being used to generate the audio signal VOUT.

図10は、図9の処理で音素区間Sの対象区間W毎に抽出された単位データUから音声信号VOUTを生成する動作の説明図である。「saka」という発音文字X1に対応する3個の音声素片V([s-a],[a-k],[k-a])を素片選択部22が選択した場合が図10では例示されている。   FIG. 10 is an explanatory diagram of an operation for generating the audio signal VOUT from the unit data U extracted for each target section W of the phoneme section S in the process of FIG. FIG. 10 illustrates the case where the segment selection unit 22 selects three speech segments V ([s-a], [a-k], [k-a]) corresponding to the pronunciation character X1 “saka”.

図10に示すように、第1番目の音声素片V[s-a]のうち第2種別C2の音素/a/に対応する末尾の音素区間S2については(SA1:NO)、その音素区間S2の始点を含む合成時間長T(a1)の対象区間Wが選定される(SA3)。また、第2番目の音声素片V[a-k]のうち第2種別C2の音素/a/に対応する先頭の音素区間S1(SA1:YES,SA2:NO)についてはその音素区間S1の終点を含む合成時間長T(a2)の対象区間Wが選定され(SA4)、音声素片V[a-k]のうち第1種別C1の音素/k/に対応する末尾の音素区間S2(SA1:NO)については、その音素区間S2の始点を含む合成時間長T(k1)の対象区間Wが選定される(SA3)。第3番目の音声素片V[k-a]のうち第1種別C1の音素/k/に対応する先頭の音素区間S1(SA1:YES,SA2:YES)については、その音素区間S1の始点を含む合成時間長T(k2)の対象区間Wが選定される(SA3)。以上のように選定された対象区間W内の各単位データUが時間軸上で相互に直接的に連結されることで音声信号VOUTが生成される。   As shown in FIG. 10, in the first phoneme segment V [sa], the last phoneme segment S2 corresponding to the second type C2 phoneme / a / (SA1: NO), the phoneme segment S2 The target section W having the combined time length T (a1) including the start point is selected (SA3). Also, for the first phoneme segment S1 (SA1: YES, SA2: NO) corresponding to the second type C2 phoneme / a / in the second speech segment V [ak], the end point of the phoneme segment S1 is set. The target interval W of the synthesis time length T (a2) including is selected (SA4), and the last phoneme segment S2 (SA1: NO) corresponding to the first type C1 phoneme / k / of the speech segment V [ak]. For, the target section W of the synthesis time length T (k1) including the start point of the phoneme section S2 is selected (SA3). The first phoneme segment S1 (SA1: YES, SA2: YES) corresponding to the first type C1 phoneme / k / in the third speech segment V [ka] includes the start point of the phoneme segment S1. The target section W with the combined time length T (k2) is selected (SA3). The unit signal U in the target section W selected as described above is directly connected to each other on the time axis, thereby generating the audio signal VOUT.

以上に説明したように、本実施形態では、音素区間Sの音素区間データQのうち対象区間W内の単位データが抽出されて音声信号VOUTの生成に利用され、対象区間W以外の単位データは音声信号VOUTの生成に利用されずに削除される。音声信号VOUTの生成に利用される各単位データUの内容や配列は抽出元の音素区間データQの単位データUと同様であるから、本実施形態によれば、合成情報GBで高い発音速度が指定された場合でも自然な音声を合成することが可能である。具体的には、実際の発音時に人間が口を変形させ得る速度を上回る速度で発音されたような音声や、発音速度が高いにも関わらず発音毎に口を完全に開いたような音声が生成される可能性を低減して、自然な音声を合成することができる。   As described above, in this embodiment, unit data in the target section W is extracted from the phoneme section data Q of the phoneme section S and used to generate the audio signal VOUT, and unit data other than the target section W is It is deleted without being used to generate the audio signal VOUT. Since the contents and arrangement of each unit data U used to generate the audio signal VOUT are the same as the unit data U of the phoneme segment data Q as the extraction source, according to the present embodiment, the synthesized information GB has a high sounding speed. Even when specified, it is possible to synthesize natural speech. Specifically, there is a voice that is pronounced at a speed that exceeds the speed at which a human can deform his / her mouth during actual pronunciation, or a voice that opens his / her mouth completely for each pronunciation even though the pronunciation speed is high. Natural speech can be synthesized by reducing the possibility of being generated.

また、本実施形態では、音声素片Vの音素区間S毎に対象区間Wが選定されるから、例えば音声素片Vの全体のうち例えば始点から後方の所定長にわたる区間を合成に適用する構成や、音声素片Vの全体のうち例えば終点から前方の所定長にわたる区間を合成に適用する構成と比較すると、各音素のなかで重要な区間(例えば受聴者が音素を識別するうえで重要な区間)を音素区間S毎に個別に選定して自然な音声を合成できるという利点がある。   Further, in the present embodiment, since the target section W is selected for each phoneme section S of the speech unit V, for example, a configuration in which, for example, a section extending from a starting point to a predetermined length behind the entire speech unit V is applied to synthesis. Compared with the configuration in which, for example, a section extending over a predetermined length ahead from the end point in the entire speech segment V is applied to synthesis, an important section (for example, important for the listener to identify a phoneme) in each phoneme. There is an advantage that natural speech can be synthesized by individually selecting a section) for each phoneme section S.

例えば本実施形態では、音声素片Vの先頭に位置するとともに第1種別C1の音素に対応する音素区間S1(後方部pB)については、図9の部分(A)のように、その音素が実際に発音される時点を含む先頭側の区間が対象区間Wとして選定される。他方、音声素片Vの末尾に位置するとともに第1種別C1の音素に対応する音素区間S2(前方部pA)については、図9の部分(C)のように、準備過程pA2の部分的な削除で対象区間Wが選定される。したがって、第1種別C1の音素のうち受聴者がその音素を認識するうえで重要な箇所を維持しながら各音声素片Vを短縮できるという利点がある。   For example, in the present embodiment, the phoneme segment S1 (rear part pB) located at the head of the speech unit V and corresponding to the phoneme of the first type C1 is the phoneme as shown in part (A) of FIG. The first section including the time when the sound is actually generated is selected as the target section W. On the other hand, as for the phoneme section S2 (front part pA) located at the end of the speech unit V and corresponding to the phoneme of the first type C1, as shown in part (C) of FIG. The target section W is selected by deletion. Therefore, there is an advantage that each speech segment V can be shortened while maintaining an important place for the listener to recognize the phoneme among the first type C1 phonemes.

第2種別C2の音素についても同様であり、音素区間S1(後方部qB)については図9の部分(B)のように末尾側の区間が対象区間Wとして選定され、音素区間S2(前方部qA)については図9の部分(D)のように先頭側の区間が対象区間Wとして選定される。したがって、第2種別C2の音素のうち受聴者がその音素を認識するうえで重要な箇所を維持しながら各音声素片Vを短縮できるという利点がある。   The same applies to the phoneme of the second type C2, and for the phoneme segment S1 (rear part qB), the last segment is selected as the target segment W as shown in part (B) of FIG. For qA), the section on the head side is selected as the target section W as shown in part (D) of FIG. Therefore, there is an advantage that each speech segment V can be shortened while maintaining an important place for the listener to recognize the phoneme of the second type C2.

<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
<Modification>
Each of the above forms can be variously modified. Specific modifications are exemplified below. Two or more modes arbitrarily selected from the following examples can be appropriately combined.

(1)前述の実施形態では、注目音素区間Sが音素区間S1に該当するか否かの判定(SA1)と、注目音素区間Sが第1種別C1の音素に対応するか否かの判定(SA2)との結果に応じて、注目音素区間Sにおける対象区間Wの位置(先頭側/末尾側)を決定したが、音素区間Sの先頭側の区間および末尾側の区間の何れを対象区間Wとして選定すべきかを示す情報を音声素片データDAに付加し、この情報に基づいて対象区間Wの位置(先頭側/末尾側)を決定することも可能である。 (1) In the above-described embodiment, whether or not the phoneme segment S corresponds to the phoneme segment S1 (SA1) and whether or not the phoneme segment S corresponds to the first type C1 phoneme ( The position (start / end) of the target section W in the phoneme section S is determined according to the result of (SA2), and either the head section or the end section of the phoneme section S is selected as the target section W. It is also possible to add information indicating whether or not to be selected to the speech segment data DA, and to determine the position (start side / end side) of the target section W based on this information.

(2)音声素片データDAの形式は任意である。例えば、前述の実施形態では、音声素片Vの各フレームのスペクトルを示す単位データUの時系列を音声素片データDAとして使用したが、例えば音声素片Vの時間軸上のサンプル系列を音声素片データDAとして使用することも可能である。音声素片Vのサンプル系列を音声素片データDAとした場合、音声素片データDAのうち対象区間W内の各サンプルが音声信号VOUTの生成に適用され、残余のサンプルは破棄される。 (2) The format of the speech unit data DA is arbitrary. For example, in the above-described embodiment, the time series of the unit data U indicating the spectrum of each frame of the speech unit V is used as the speech unit data DA. It can also be used as the segment data DA. If the sample sequence of the speech unit V is the speech unit data DA, each sample in the target section W of the speech unit data DA is applied to generate the speech signal VOUT, and the remaining samples are discarded.

(3)各音素区間Sの合成時間長Tを設定する方法は適宜に変更される。例えば、合成時間長Tの設定に適用する伸縮率(伸縮前の各音素区間Sの時間長Lに対する倍率)を母音の音素と子音の音素とで相違させることも可能である。例えば、母音の音素の伸縮率が子音の音素の伸縮率よりも高い数値に設定される。また、第1種別C1の音素のうち前方部pAに対応する音素区間S2と後方部pBに対応する音素区間S1とで伸縮率を相違させた構成も好適である。具体的には、前方部pAに対応する音素区間S2の伸縮率が後方部pBに対応する音素区間S1の伸縮率よりも高い数値(より大きく伸縮させる数値)に設定される。 (3) The method for setting the synthesis time length T of each phoneme section S is appropriately changed. For example, the expansion / contraction rate (magnification for the time length L of each phoneme section S before expansion / contraction) applied to the setting of the synthesis time length T can be made different between the vowel phoneme and the consonant phoneme. For example, the expansion rate of the vowel phoneme is set to a higher numerical value than the expansion rate of the consonant phoneme. A configuration in which the expansion / contraction rate is different between the phoneme section S2 corresponding to the front part pA and the phoneme section S1 corresponding to the rear part pB among the phonemes of the first type C1 is also preferable. Specifically, the expansion / contraction rate of the phoneme section S2 corresponding to the front portion pA is set to a numerical value (a numerical value for expanding / contracting larger) than the expansion / contraction rate of the phoneme section S1 corresponding to the rear portion pB.

(4)以上の説明ではダイフォンを例示したが、音声素片を構成する音素(音素区間S)の個数は任意である。例えば3個の音素区間Sを含むトライフォンを音声素片として利用する構成でも、前述の実施形態と同様に、素片選択部22が選択した音声素片の3個の音素区間Sの各々について、音素の種別(C1/C2)に応じた位置に対象区間Wを選定することが可能である。なお、2個のダイフォンを連結して1個のトライフォンを構成する場合(例えば2個のダイフォン[a-s]および[s-e]の連結で1個のトライフォン[a-s-e]を形成する場合)、前方のダイフォンの2個の音素区間Sと後方のダイフォンの2個の音素区間Sとの合計4個の音素区間Sが1個のトライフォンに含まれる。 (4) Although the diphone is exemplified in the above description, the number of phonemes (phoneme section S) constituting the speech segment is arbitrary. For example, even in a configuration in which a triphone including three phoneme sections S is used as a speech unit, for each of the three phoneme sections S of the speech unit selected by the unit selection unit 22 as in the above-described embodiment. The target section W can be selected at a position corresponding to the phoneme type (C1 / C2). When two diphones are connected to form one triphone (for example, two triphones [as] and [se] are connected to one triphone [as-e]. ], A total of four phoneme sections S including two phoneme sections S of the front diphone and two phoneme sections S of the rear diphone are included in one triphone.

100……音声合成装置、12……演算処理装置、14……記憶装置、16……放音装置、22……素片選択部、24……音素長設定部、26……音声合成部。
DESCRIPTION OF SYMBOLS 100 ... Speech synthesis device, 12 ... Arithmetic processing device, 14 ... Memory | storage device, 16 ... Sound emission device, 22 ... Segment selection part, 24 ... Phoneme length setting part, 26 ... Speech synthesis part.

Claims (3)

相異なる音素に対応する複数の音素区間を含む音声素片を示す複数の音声素片データを記憶する素片記憶手段と、
音声素片を順次に選択する素片選択手段と、
前記素片選択手段が選択した音声素片の各音素区間について合成時間長を可変に設定する音素長設定手段と、
前記素片選択手段が選択した音声素片の各音素区間のうち前記音素長設定手段が設定した合成時間長の対象区間について音声素片データが示す音声波形を相互に連結して音声信号を生成する音声合成手段と
を具備する音声合成装置。
Unit storage means for storing a plurality of speech unit data indicating speech units including a plurality of phoneme sections corresponding to different phonemes;
A segment selection means for sequentially selecting speech segments;
Phoneme length setting means for variably setting a synthesis time length for each phoneme section of the speech unit selected by the unit selection means;
A speech signal is generated by interconnecting speech waveforms indicated by speech unit data for a target segment of a synthesis time length set by the phoneme length setting unit among the phoneme segments of the speech unit selected by the unit selection unit. A speech synthesizer.
音声素片の先頭に位置するとともに声道の閉鎖後の一時的な変形により発音される第1種別の音素に対応する音素区間は、前記第1種別の音素が発音される過程を含み、音声素片の末尾に位置するとともに前記第1種別の音素に対応する音素区間は、前記第1種別の音素が発音される直前の準備過程を含み、
前記音声合成手段は、音声素片の先頭の音素区間が前記第1種別の音素に対応する場合に、その音素区間のうち始点から後方の前記合成時間長にわたる区間を前記対象区間として選定し、音声素片の末尾の音素区間が前記第1種別の音素に対応する場合に、その音素区間のうち始点から後方の前記合成時間長にわたる区間を前記対象区間として選定する
請求項1の音声合成装置。
The phoneme segment corresponding to the first type of phoneme that is located at the beginning of the speech unit and that is pronounced by temporary deformation after the vocal tract is closed includes a process in which the first type of phoneme is pronounced. The phoneme segment located at the end of the segment and corresponding to the first type of phoneme includes a preparation process immediately before the first type of phoneme is pronounced,
The speech synthesizing means, when the first phoneme section of the speech unit corresponds to the first type of phoneme, the section over the synthesis time length from the start point to the back of the phoneme section is selected as the target section, The speech synthesizer according to claim 1, wherein when a phoneme section at the end of a speech unit corresponds to the first type of phoneme, a section over the synthesis time length from the start point to the back is selected as the target section. .
音声素片の先頭に位置するとともに前記第1種別とは相違する第2種別の音素に対応する音素区間は、当該第2種別の音素が後続の音素に変化する過程を含み、音声素片の末尾に位置するとともに前記第2種別の音素に対応する音素区間は、直前の音素が当該第2種別の音素に変化する過程を含み、
前記音声合成手段は、音声素片の先頭の音素区間が前記第2種別の音素に対応する場合に、その音素区間のうち終点から前方の前記合成時間長にわたる区間を前記対象区間として選定し、音声素片の末尾の音素区間が前記第2種別の音素に対応する場合に、その音素区間のうち始点から後方の前記合成時間長にわたる区間を前記対象区間として選定する
請求項1または請求項2の音声合成装置。
A phoneme segment corresponding to a second type of phoneme that is located at the beginning of a speech unit and is different from the first type includes a process in which the second type of phoneme changes to a subsequent phoneme. The phoneme section located at the end and corresponding to the second type of phoneme includes a process in which the immediately preceding phoneme changes to the second type of phoneme,
The speech synthesis means, when the first phoneme section of the speech unit corresponds to the second type of phoneme, selects the section spanning the synthesis time length ahead from the end point among the phoneme sections as the target section, 3. When a phoneme section at the end of a speech unit corresponds to the second type of phoneme, a section extending from the start point to the back synthesis time length is selected as the target section among the phoneme sections. Voice synthesizer.
JP2011127123A 2011-06-07 2011-06-07 Speech synthesis apparatus and program Expired - Fee Related JP5914996B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011127123A JP5914996B2 (en) 2011-06-07 2011-06-07 Speech synthesis apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011127123A JP5914996B2 (en) 2011-06-07 2011-06-07 Speech synthesis apparatus and program

Publications (2)

Publication Number Publication Date
JP2012252303A true JP2012252303A (en) 2012-12-20
JP5914996B2 JP5914996B2 (en) 2016-05-11

Family

ID=47525144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011127123A Expired - Fee Related JP5914996B2 (en) 2011-06-07 2011-06-07 Speech synthesis apparatus and program

Country Status (1)

Country Link
JP (1) JP5914996B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420015A (en) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 Audio synthesis method, device, equipment and computer readable storage medium

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63199399A (en) * 1987-02-16 1988-08-17 キヤノン株式会社 Voice synthesizer
JPH0619496A (en) * 1992-07-06 1994-01-28 Fujitsu Ltd Device and method for speech synthesis
JPH08166798A (en) * 1994-12-15 1996-06-25 Fujitsu Ltd Phoneme dictionary forming device and its method
US6308156B1 (en) * 1996-03-14 2001-10-23 G Data Software Gmbh Microsegment-based speech-synthesis process
JP2006030575A (en) * 2004-07-15 2006-02-02 Yamaha Corp Speech synthesizing device and program
JP2007310176A (en) * 2006-05-18 2007-11-29 Toshiba Corp Voice synthesizer and its method, and program
JP2009003395A (en) * 2007-06-25 2009-01-08 Fujitsu Ltd Device for reading out in voice, and program and method therefor

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63199399A (en) * 1987-02-16 1988-08-17 キヤノン株式会社 Voice synthesizer
JPH0619496A (en) * 1992-07-06 1994-01-28 Fujitsu Ltd Device and method for speech synthesis
JPH08166798A (en) * 1994-12-15 1996-06-25 Fujitsu Ltd Phoneme dictionary forming device and its method
US6308156B1 (en) * 1996-03-14 2001-10-23 G Data Software Gmbh Microsegment-based speech-synthesis process
JP2006030575A (en) * 2004-07-15 2006-02-02 Yamaha Corp Speech synthesizing device and program
JP2007310176A (en) * 2006-05-18 2007-11-29 Toshiba Corp Voice synthesizer and its method, and program
JP2009003395A (en) * 2007-06-25 2009-01-08 Fujitsu Ltd Device for reading out in voice, and program and method therefor

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420015A (en) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 Audio synthesis method, device, equipment and computer readable storage medium

Also Published As

Publication number Publication date
JP5914996B2 (en) 2016-05-11

Similar Documents

Publication Publication Date Title
JP3361066B2 (en) Voice synthesis method and apparatus
JP4265501B2 (en) Speech synthesis apparatus and program
JP6047922B2 (en) Speech synthesis apparatus and speech synthesis method
JP5648347B2 (en) Speech synthesizer
JP6060520B2 (en) Speech synthesizer
JP5914996B2 (en) Speech synthesis apparatus and program
JP6413220B2 (en) Composite information management device
JP5360489B2 (en) Phoneme code converter and speech synthesizer
JP5935545B2 (en) Speech synthesizer
US7912708B2 (en) Method for controlling duration in speech synthesis
JP5560769B2 (en) Phoneme code converter and speech synthesizer
JP5471138B2 (en) Phoneme code converter and speech synthesizer
JP6047952B2 (en) Speech synthesis apparatus and speech synthesis method
JP2987089B2 (en) Speech unit creation method, speech synthesis method and apparatus therefor
JP5982942B2 (en) Speech synthesizer
JP6331470B2 (en) Breath sound setting device and breath sound setting method
JP4305022B2 (en) Data creation device, program, and tone synthesis device
JP2013238664A (en) Speech fragment segmentation device
JPH0836397A (en) Voice synthesizer
JP5481957B2 (en) Speech synthesizer
JP5481958B2 (en) Phoneme code converter and speech synthesizer
Singh et al. Removal of spectral discontinuity in concatenated speech waveform
JP2015079063A (en) Synthetic information management device
JPH03296100A (en) Voice synthesizing device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150305

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160321

R151 Written notification of patent or utility model registration

Ref document number: 5914996

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees