JP6497065B2 - 音声合成用ライブラリ生成装置および音声合成装置 - Google Patents

音声合成用ライブラリ生成装置および音声合成装置 Download PDF

Info

Publication number
JP6497065B2
JP6497065B2 JP2014259287A JP2014259287A JP6497065B2 JP 6497065 B2 JP6497065 B2 JP 6497065B2 JP 2014259287 A JP2014259287 A JP 2014259287A JP 2014259287 A JP2014259287 A JP 2014259287A JP 6497065 B2 JP6497065 B2 JP 6497065B2
Authority
JP
Japan
Prior art keywords
unit
speech
library
data
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014259287A
Other languages
English (en)
Other versions
JP2016118712A (ja
Inventor
誠 橘
橘  誠
雅史 吉田
雅史 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2014259287A priority Critical patent/JP6497065B2/ja
Publication of JP2016118712A publication Critical patent/JP2016118712A/ja
Application granted granted Critical
Publication of JP6497065B2 publication Critical patent/JP6497065B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声素片の接続で音声を合成する技術に関する。
収録音声から採取された複数の音声素片を相互に接続して所望の音色の合成音声を合成する素片接続型の音声合成技術が知られている。例えば、特許文献1には、複数の定常音データを音声素片毎に事前に収録し、目標ピッチに応じて複数の定常音データ(音声素片)を選択して相互に補間することで目標ピッチの定常音データを生成する構成が開示されている。
特開2013−11863号公報
ところで、多様な声質の音声を合成するためには、声質毎に音声素片のライブラリを別個に用意する必要がある。例えば、音韻(発音内容)の明瞭度が相違する2種類の音声の合成を想定すると、発声者が曖昧に発音した音声を収録して曖昧な音声のライブラリを作成する一方、発声者が明瞭に発音した音声を収録して明瞭な音声のライブラリを生成する必要があり、ライブラリの作成の負担が大きいという問題がある。特に、曖昧性または明瞭性の度合を一定に維持しながら音声を継続して発音することは容易ではないから、発声者に過大な負担を強いる結果となる。以上の事情を考慮して、本発明は、音声合成用のライブラリを作成する負担を軽減しながら、受聴者に曖昧と知覚される程度が高い合成音声を生成することを目的とする。
以上の課題を解決するために、本発明の第1態様に係る音声合成用ライブラリ生成装置は、音声素片毎に素片データを含む音声合成用の第1ライブラリから第2ライブラリを生成する要素であって、複数の音声素片のうち特定母音以外の母音を含む音声素片について、前記第1ライブラリのうち当該母音を前記特定母音に置換した音声素片の素片データを含む第2ライブラリを生成する生成部を具備する。以上の構成によれば、既存の第1ライブラリから第2ライブラリが生成されるから、第1ライブラリと第2ライブラリとを相異なる収録音から別個に用意する場合と比較して、音声合成用のライブラリを作成する負担を軽減することが可能である。また、特定母音以外の母音を含む音声素片について、第1ライブラリのうち当該母音を特定母音に置換した音声素片の素片データが第2ライブラリに含まれるから、受聴者に曖昧と知覚される合成音声を第2ライブラリの素片データから生成することが可能である。例えば「う」の音声は、口の開き具合が他の母音(「あ」「い」「え」「お」)と比較して小さく、音韻が曖昧であると受聴者に知覚され易いという傾向がある。以上の傾向を考慮すると、「う」を特定母音とした構成が好適である。
第1態様に係る音声合成用ライブラリ生成装置の好適例において、前記生成部は、前記特定母音に音響特性が近似する特定子音と母音とを含む音声素片について、前記第1ライブラリにおける当該音声素片の素片データのうち前記特定子音の区間を示す素片データを含む第2ライブラリを生成する。以上の態様では、特定子音と母音とを含む音声素片について、第1ライブラリにおける当該音声素片の素片データのうち特定子音の区間を示す素片データを含む第2ライブラリが生成されるから、特定母音を含む音声素片に対応する素片データが第1ライブラリに存在しない場合でも、特定子音の区間を示す素片データを利用して受聴者に曖昧と知覚される合成音声を生成することが可能である。
第1態様に係る音声合成用ライブラリ生成装置の好適例において、前記生成部は、第1子音と母音とを含む音声素片について、前記第1ライブラリのうち前記第1子音とは相違する第2子音と前記特定母音とを含む音声素片の素片データを含む第2ライブラリを生成する。以上の態様では、第1子音と母音とを含む音声素片について、第1ライブラリのうち第1子音とは相違する第2子音と特定母音とを含む音声素片の素片データを含む第2ライブラリが生成されるから、第1子音と特定母音を含む素片データが第1ライブラリに存在しない場合でも、第2子音と特定母音とを含む音声素片の素片データを利用して受聴者に曖昧と知覚される合成音声を生成することが可能である。
以上の課題を解決するために、本発明の第2態様に係る音声合成装置は、音声素片毎に素片データを含む音声合成用の第1ライブラリから第2ライブラリを生成する要素であって、複数の音声素片のうち特定母音以外の母音を含む音声素片について、前記第1ライブラリのうち当該母音を前記特定母音に置換した音声素片の素片データを含む第2ライブラリを生成する生成部と、前記第1ライブラリのうち合成対象の発音文字に対応する音声素片の第1素片データと、前記第2ライブラリのうち当該音声素片の第2素片データとを選択する素片選択部と、前記第1素片データと前記第2素片データとを混合する素片混合部と、前記素片混合部による混合後の素片データを利用して合成音声を生成する合成処理部とを具備する。第2態様では、特定母音以外の母音を含む音声素片について、第1ライブラリのうち当該母音を特定母音に置換した音声素片の素片データが第2ライブラリに含まれるから、第1態様と同様に、音声合成用のライブラリを作成する負担を軽減することが可能である。また、第1素片データと第2素片データとの混合後の素片データを利用して合成音声が生成されるから、混合の度合に応じて受聴者に曖昧(または明瞭)と知覚される合成音声を生成することが可能である。
以上の課題を解決するために、本発明の第3態様に係る音声合成装置は、音声素片毎に素片データを含む音声合成用のライブラリから合成対象の発音文字に対応する音声素片の素片データを選択する要素であって、特定母音以外の母音を含む音声素片については、当該母音を前記特定母音に置換した音声素片の素片データを選択する素片選択部と、前記素片選択部が選択した音声素片を利用して合成音声を生成する合成処理部とを具備する。第3態様では、特定母音以外の母音を含む音声素片については、当該母音を特定母音に置換した音声素片の素片データが既存の音声合成用のライブラリから選択されるから、相異なる声質に対応する複数のライブラリを事前に用意する構成と比較して、音声合成用のライブラリを作成する負担を軽減しながら、受聴者に曖昧と知覚される合成音声を生成することが可能である。また、第1ライブラリから生成された第2ライブラリを記憶する必要がある第1態様と比較すると、第3態様では第2ライブラリの記憶が不要であるという利点もある。
第3態様に係る音声合成装置の好適例において、前記素片選択部は、前記特定母音に音響特性が近似する特定子音と母音とを含む音声素片について、当該音声素片の素片データのうち前記特定子音の区間を示す素片データを選択する。以上の態様では、特定母音に音響特性が近似する特定子音と母音とを含む音声素片について、当該音声素片の素片データのうち特定子音の区間を示す素片データが選択されるから、特定母音を含む音声素片に対応する素片データが音声合成用のライブラリに存在しない場合でも、特定子音の区間を示す素片データを利用して受聴者に曖昧と知覚される合成音声を生成することが可能になる、という効果が実現される。
第3態様に係る音声合成装置の好適例において、前記素片選択部は、第1子音と母音とを含む音声素片について、前記第1子音とは相違する第2子音と前記特定母音とを含む音声素片のデータを選択する。以上の態様では、第1子音と母音とを含む音声素片について、第1子音とは相違する第2子音と特定母音とを含む音声素片のデータが選択されるから、第1子音と特定母音を含む素片データが音声合成用のライブラリに存在しない場合でも、第2子音と特定母音とを含む音声素片の素片データを利用して受聴者に曖昧と知覚される合成音声を生成することが可能になる、という効果が実現される。
第3態様に係る音声合成装置の好適例において、前記素片選択部は、前記特定母音以外の母音を含む音声素片について、当該音声素片の第1素片データと、当該母音を前記特定母音に置換した音声素片の第2素片データとを選択し、前記第1素片データと前記第2素片データとを混合する素片混合部を具備し、前記合成処理部は、前記素片混合部による混合後の素片データを利用して合成音声を生成する。以上の態様では、第1素片データと第2素片データとが混合されるから、第2素片データのみを利用して合成音声を生成する構成と比較して、多様な声質の音声を生成できるという利点がある。
第2態様および第3態様に係る音声合成装置の好適例において、合成対象の特徴量に応じた混合比を設定する変数設定部を具備し、前記素片混合部は、前記変数設定部が設定した混合比で前記第1素片データと前記第2素片データとを混合する。以上の構成では、合成対象の特徴量に応じて第1素片データと第2素片データとの混合比が設定されるから、例えば利用者が混合比を指示する構成と比較して利用者の負担を軽減することが可能である。特徴量の好例は音高である。例えば、高音域の音声ほど音韻が曖昧と知覚され易いという傾向を前提とすれば、合成対象の音高が高いほど前記第2素片データの比率が高くなるように変数設定部が前記混合比を設定する構成が好適である。
以上の各態様に係るライブラリ生成装置および音声合成装置は、専用のハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音声合成用ライブラリ生成装置の動作方法(ライブラリ生成方法)や音声合成装置の動作方法(音声合成方法)としても特定される。
第1実施形態に係る音声合成装置のブロック図である。 編集画面40の説明図である。 生成部32による素片データQの置換処理の説明図である。 音声素片Pに対応する素片データQの説明図である。 第1実施形態のライブラリ生成処理の動作のフローチャートである。 第2実施形態に係る音声合成装置のブロック図である。 第2実施形態の素片選択の処理の動作のフローチャートである。 第3実施形態に係る音声合成装置のブロック図である。 第3実施形態における混合比Kの設定の説明図である。 第4実施形態における音声合成装置のブロック図である。 変形例に係る音声合成装置における補間処理についての説明図である。 変形例に係る音声合成装置における補間処理についての説明図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。第1実施形態の音声合成装置100は、複数の音声素片を連結する素片接続型の音声合成で任意の楽曲(以下「合成楽曲」という)の歌唱音声の音声信号Vを生成する信号処理装置である。
図1に例示される通り、音声合成装置100は、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステム(例えば携帯電話機やパーソナルコンピュータ等の情報処理装置)で実現される。表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置16は、音声合成装置100に対する各種の指示のために利用者が操作する操作機器(例えばマウス等のポインティングデバイスやキーボード)であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置14と一体に構成されたタッチパネルを入力装置16として採用することも可能である。放音装置18(例えばスピーカやヘッドホン)は、音声信号Vに応じた音響を再生する。
記憶装置12は、演算処理装置10が実行するプログラムPGMや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。第1実施形態の記憶装置12は、以下に例示する通り、第1ライブラリL1と合成情報Sとを記憶する。
第1ライブラリL1は、相異なる音声素片Pに対応する複数の素片データQの集合(音声合成用ライブラリ)である。第1実施形態における1個の音声素片Pは、2個の音素を連結した音素連鎖(ダイフォン)である。第1ライブラリL1の1個の音声素片Pの素片データQは、特定の発声者の収録音声のうち当該音声素片Pに対応する区間の音声波形を表すデータである。具体的には、各素片データQは、時間領域の音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列で表現され得る。本実施形態の第1ライブラリL1の各素片データQは、受聴者が音韻を明確に知覚し得る音声を表す。
合成情報Sは、合成楽曲の歌唱音声を指定する時系列データであり、合成楽曲を構成する音符毎に発音文字X1と発音期間X2と音高(例えばノートナンバー)X3とを時系列に指定する。発音文字X1は、合成対象の音声の発音内容(すなわち合成楽曲の歌詞)を指定する。発音期間X2は、例えば発音の開始時刻と継続長(または終了時刻)とで規定される。
図1の演算処理装置10(CPU)は、記憶装置12に格納されたプログラムPGMを実行することで、合成情報Sの編集や音声信号Vの生成のための複数の機能(生成部32,表示制御部33,素片選択部34,指示受付部35,合成処理部36)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を実現する構成も採用され得る。
指示受付部35は、入力装置16に対する操作に応じた利用者からの指示を受付ける。表示制御部33は、各種の画像を表示装置14に表示させる。具体的には、第1実施形態の表示制御部33は、合成情報Sが指定する合成楽曲の内容を利用者が確認するための図2の編集画面40を表示装置14に表示させる。図2に例示される通り、編集画面40の音符列画像42は、相互に交差する時間軸(横軸)および音高軸(縦軸)が設定されたピアノロール型の座標平面である。
表示制御部33は、合成情報Sが指定する音符毎に音符図像54と発音文字X1とを編集画面40に配置する。音符図像54は、合成楽曲の各音符を表象する画像である。具体的には、音高軸の方向における音符図像54の位置は、合成情報Sが指定する音高X3に応じて設定され、時間軸の方向における音符図像54の位置および表示長は、合成情報Sが指定する発音期間X2に応じて設定される。発音文字X1は音符図像54の先頭の近傍に配置される。
利用者は、図2の編集画面40の音符列画像42を確認しながら入力装置16を適宜に操作することで、音符図像54の追加または移動や発音文字X1の追加または変更を指示することが可能である。表示制御部33は、指示受付部35が利用者から受付けた指示に応じて編集画面40(音符図像54や発音文字X1)を更新する。
図1の素片選択部34は、合成情報Sが指定する音符毎の発音文字X1に対応する音声素片Pの素片データQを第1ライブラリL1から順次に選択する。合成処理部36は、素片選択部34によって第1ライブラリL1から選択された素片データQと合成情報Sとを利用して音声信号Vを生成する。具体的には、合成処理部36は、素片選択部34が選択した素片データQが示す音声波形を、合成情報Sが指定する音高X3および発音期間X2に調整したうえで相互に連結することで音声信号Vを生成する。合成処理部36が生成した音声信号Vが放音装置18に供給されることで合成楽曲の歌唱音声が再生される。前述の通り、各素片データQは明瞭な発音の音声を表すから、第1ライブラリL1を利用して生成された音声信号Vの再生音は、受聴者により明瞭と知覚される。
図1の生成部32は、第1ライブラリL1を利用して生成される音声信号Vと比較して音韻が曖昧と知覚される合成音声を生成するための第2ライブラリL2を既存の第1ライブラリL1から生成する。第2ライブラリL2は、第1ライブラリL1と同様に、相異なる音声素片Pに対応する複数の素片データQの集合である。生成部32が生成した第2ライブラリL2は、図1に例示される通り、第1ライブラリL1とともに記憶装置12に格納されて合成処理部36による音声信号Vの生成に利用される。
具体的には、生成部32は、受聴者が曖昧と知覚する傾向がある特定の母音(以下「特定母音」という)以外の母音を含む音声素片Pについて、第1ライブラリL1のうち当該母音を特定母音に置換した音声素片Pの素片データQを含む第2ライブラリL2を生成する。母音[M](う)は、発音時の口の開き度合が小さいこともあり、他の母音([a],[i],[e],[o])と比較して曖昧と知覚され易いという傾向がある。以上の傾向を考慮して、第1実施形態では、母音[M]を特定母音として例示する。なお、各音素の表記は、X-SAMPA(Extended Speech Assessment Method Phonetic Alphabet)に準拠している。符号「Sil」は無音(Silence)を意味する。また、以下の説明における符号「V」は母音(Vowel)を意味し、符号「C」は子音(Consonant)を意味する。
図3は、生成部32による置換処理について具体的に説明するための図である。図3には、第1ライブラリL1および第2ライブラリL2について共通の音声素片Pに対応する素片データQの内容が図示されている。第1ライブラリL1における1個の音声素片Pは、2つの音素を連結した音素連鎖であるから、特定母音以外の母音を含む音声素片Pとしては、2個の母音を配列した音声素片と、母音および子音を含む音声素片との2種類が想定される。
(1)母音+母音:[V-V]
図3(a)は、第2ライブラリL2のうち2個の母音を配列した音声素片P[V-V]の素片データQの説明図である。図3(a)に例示される通り、第1ライブラリL1には、5種類の母音(あ,い,う,え,お)に対応する音声素片P([a-a],[i-i],[M-M],[e-e],[o-o])について、当該音声素片Pの音声波形を表す素片データQ([a-a],[i-i],[M-M],[e-e],[o-o])が記憶される。生成部32は、各音声素片P[V-V]([a-a],[i-i],[M-M],[e-e],[o-o])のうち特定母音以外の母音([a],[i],[e],[o])を特定母音[M]に置換した音声素片P[M-M]について第1ライブラリL1に記憶された素片データQ[M-M]を複製し、第2ライブラリL2における当該音声素片P[V-V]の素片データQとして記憶する。例えば、第2ライブラリL2の音声素片[a-a]については、音素[a]を特定母音[M]に置換した音声素片[M-M]について第1ライブラリL1に記憶された素片データQ[M-M]が複製される。なお、以上の説明では、同じ母音同士の組み合わせで構成される音声素片Pを例示したが、相異なる母音同士の組み合わせにより構成される音声素片P([a-i],[a-M],[a-e],[a-o],[i-a],[i-M],[i-e],[i-o],[M-a],[M-i],[M-e],[M-o],[o-a],[o-i],[o-M],[o-e])についても同様に、特定母音以外の母音([a],[i],[e],[o])を特定母音[M]に置換した音声素片P[M-M]について第1ライブラリL1に記憶された素片データQ[M-M]を複製し、第2ライブラリL2における当該音声素片P[V-V]の素片データQとして記憶する。
なお、特定母音のみで構成される音声素片P[M-M]については、第1ライブラリL1のうち当該音声素片[M-M]の素片データQ[M-M]が第2ライブラリL2に複製される。
(2)母音+子音または子音+母音:[C,V]([C-V],[V-C])
図3(b)は、第2ライブラリL2のうち母音と子音とを配列した音声素片P[C,V]の素片データQの説明図である。図3(b)に例示される通り、生成部32は、各音声素片P[C,V]のうち特定母音以外の母音を特定母音[M]に置換した音声素片[C,M]について第1ライブラリL1に記憶された素片データQ[C,M]を複製し、第2ライブラリL2における当該音声素片[C,V]の素片データQとして記憶する。例えば、第2ライブラリL2の音声素片P[s-a]については、母音[a]を特定母音[M]に置換した音声素片[s-M]について第1ライブラリL1に記憶された素片データQ[s-M]が第2ライブラリL2に複製される。
以上に説明した通り、図3(a)および図3(b)では、特定母音[M]を包含する音声素片Pの素片データQが第1ライブラリL1に存在する場合の処理を例示したが、特定母音[M]を含む特定の音声素片Pの素片データQが第1ライブラリL1に存在しない場合がある。以上の場合に実行される例外処理について説明する。
(3)例外処理1
図3(c)に例示される通り、特定母音[M]に音響特性(例えば受聴者が知覚する音韻)が近似する子音(以下「特定子音」という)[w]に特定母音[M]以外の各母音が後続する音声素片P([w-a],[w-i],[w-e],[w-o])および素片データQ([w-a],[w-i],[w-e],[w-o])については第1ライブラリL1に記憶されている。他方、特定子音[w]に特定母音[M]以外の各母音が後続する音声素片P[w-M]よび素片データQ[w-M]については、第1ライブラリL1に記憶されない場合を想定する。
生成部32は、第1ライブラリL1において特定子音[w]と母音[V](図3(c)の例では[a])とを含む音声素片Pの素片データQ[w-V]のうち、特定子音[w]の区間を示す素片データQ[w]を当該音声素片P[w-V]について含む第2ライブラリL2を生成する。具体的には、図3(c)に例示されるように、第1ライブラリL1における音声素片P[w-a]の素片データQ[w-a]のうち特定子音[w]の区間を表す素片データQ[w]が、第2ライブラリL2における音声素片P[w-V]の素片データQとして複製される。
以上の説明から理解される通り、第1実施形態では、特定子音[w]と母音[V]とを含む音声素片P[w-V]について、第1ライブラリL1における音声素片Pの素片データQのうち特定子音[w]の区間の素片データQを含む第2ライブラリL2が生成される。したがって、特定母音[M]を含む音声素片Pの素片データQが第1ライブラリL1に存在しない場合でも、特定子音[w]の区間を示す素片データQ[w]を利用して、曖昧な発音に対応する合成音声を生成することが可能である。
(4)例外処理2
図3(d)に例示される通り、第1ライブラリL1には、子音(以下「第1子音」という)[h]と母音[a],[e],[o]とを含む音声素片P([h-a],[h-e],[h-o])については素片データQ([h-a],[h-e],[h-o])が記憶されるが、第1子音[h]とそれ以外の母音[i],[M]とを含む音声素片P([h-i],[h-M])については素片データQが記憶されない場合が想定される。他方、第1ライブラリL1には、第1子音[h]とは相違する子音(以下「第2子音」という)[p\]と母音[a],[M],[e],[o]とを含む音声素片P([p\-a],[p\-M],[p\-e],[p\-o])についての素片データQ([p\-a],[p\-M],[p\-e],[p\-o])が記憶される。
生成部32は、第1ライブラリL1のうち第2子音[p\]と、特定母音[M]とを含む素片データQ[p\-M]を含む第2ライブラリL2を生成する。具体的には、図3(d)に例示されるように、第1ライブラリL1の素片データQ(例えば[p\-a])のうち第2子音[p\]と特定母音[M]とを含む音声素片P[p\-M]の素片データQ[p\-M]が、第2ライブラリL2の音声素片P[h-V]の素片データQとして複製される。
以上の説明から理解される通り、第1実施形態では、第1子音[h]と母音[V]とを含む音声素片Pについて、第1子音[h]とは相違する第2子音[p\]と特定母音[M]とを含む音声素片Pの素片データQを含む第2ライブラリL2が生成されるから、第1子音[h]と特定母音[M]とを含む素片データQが第1ライブラリL1に存在しない場合でも、第2子音[p\]と特定母音[M]とを含む音声素片Pの素片データQを利用して、曖昧な発音の合成音声を生成することが可能である。
図3(a)から図3(d)では、母音[V]を含む音声素片Pについて説明した。子音[C]と無音[sil]とを配列した音声素片Pのように母音[V]を含まない音声素片P(例えば[Sil-k],[k-Sil]等)については、第1ライブラリL1のうち当該音声素片Pに対応する素片データQが第2ライブラリL2に複製される。
以上の説明から理解される通り、第1ライブラリL1と第2ライブラリL2とでは、素片データQが用意される音声素片Pの種類は共通する一方、各音声素片Pについて用意される素片データQが表す音声波形は相違し得る。以上の手順で生成された第2ライブラリL2は、第1ライブラリL1と同様に音声信号Vの生成に利用される。すなわち、発音文字X1に対応する音声素片Pの素片データQを素片選択部34が第2ライブラリL2から順次に選択し、素片選択部34が選択した各素片データQを合成処理部36が調整および連結することで、受聴者に曖昧と知覚される音声の音声信号Vが生成される。第1実施形態では、第1ライブラリL1を利用した明瞭な音声の合成と、第2ライブラリL2を利用した曖昧な音声の合成とが、例えば入力装置16に対する利用者からの指示に応じて択一的に実行される。
図4は、第1ライブラリL1を利用した音声合成と第2ライブラリL2を利用した音声合成との説明図である。図4(a)には、合成情報Sで指定された発音文字X1「まや」に対応して選択される音声素片Pの時系列が例示され、図4(b)には、第1ライブラリL1を利用した音声合成時に第1ライブラリL1から読み出される素片データQの時系列が例示され、図4(c)には、第2ライブラリL2を利用した音声合成時に第2ライブラリL2から読み出される素片データQの時系列が例示されている。
第1ライブラリL1を利用した音声合成(明瞭な音声の合成)が指示された場合、素片選択部34は、図4(b)に例示された素片データQ([Sil-m],[m-a],[a-a],[a-j],[j-a],[a-a],[a-Sil])を第1ライブラリL1から順次に選択する。合成処理部36は、素片選択部34によって選択された素片データQを利用して、「まや(maya)」という発音文字X1が受聴者に明瞭に知覚される合成音声を生成する。
他方、第2ライブラリL2を利用した音声合成(曖昧な音声の合成)が指示された場合、素片選択部34は、図4(c)の素片データQ([Sil-m],[m-M],[M-M],[M-j],[j-M],[M-M],[M-Sil])を第2ライブラリL2から順次に選択する。合成処理部36は、素片選択部34によって選択された素片データQを利用して、発音文字X1「まや(maya)」の発音を曖昧にしたと利用者に知覚され得る「むゆ(muyu)」という合成音声を生成する。
図5は、第1実施形態の生成部32が第2ライブラリL2を生成する処理のフローチャートである。例えば、第2ライブラリL2の生成が利用者から指定された場合に図5の処理が開始される。
生成部32は、任意の1個の音声素片(以下「対象素片」という)Pを選択し(SA1)、対象素片Pが母音を含むか否かを判定する(SA2)。対象素片Pが母音を含まない場合(SA2:NO)、生成部32は、対象素片Pについて第1ライブラリL1に記憶された素片データQを第2ライブラリL2の対象素片Pの素片データQとして複製する(SA3)。他方、対象素片Pが母音を含む場合(SA2:YES)、生成部32は、対象素片Pの母音を特定母音[M]に置換した音声素片Pの素片データQが第1ライブラリL1に存在するか否かを判定する(SA4)。判定結果が肯定である場合(SA4:YES)、生成部32は、対象素片Pの母音を特定母音[M]に置換した音声素片Pの素片データQを第1ライブラリL1から取得し、第2ライブラリL2における対象素片Pの素片データQとして記憶する(SA5)。他方、対象素片Pの母音を特定母音[M]に置換した音声素片Pの素片データQが第1ライブラリL1に存在しない場合(SA4:NO)、生成部32は、前述の例外処理1または例外処理2を実行することで、第2ライブラリL2のうち対象素片Pの素片データQを用意する(SA6)。以上の処理が、全種類の音声素片Pについて順次に反復されることで(SA7:NO)、音声素片P毎に素片データQを含む第2ライブラリL2が生成される。
以上に説明した通り、第1実施形態では、第1ライブラリL1の複数の音声素片Pのうち、特定母音[M]以外の母音([a],[i],[e],[o])を含む音声素片Pについて、当該母音を特定母音[M]に置換した音声素片Pの素片データQが第2ライブラリL2に複製される。すなわち、既存の第1ライブラリL1の音声素片Pの素片データQを利用して、曖昧な発音の合成音声に利用される第2ライブラリL2が生成される。したがって、明瞭な音声に対応する第1ライブラリL1と曖昧な音声に対応する第2ライブラリL2とを実際の収録音から個別に生成する場合と比較して、音声合成用のライブラリを作成する負担を軽減しながら、受聴者に曖昧と知覚される合成音声を生成することが可能である。
<第2実施形態>
第1実施形態では、第2ライブラリL2を既存の第1ライブラリL1から事前に生成して音声合成に利用した。第2実施形態では、合成情報Sに応じた音声信号Vを生成する場面において、第1実施形態で第1ライブラリL1から第2ライブラリL2を生成したのと同様の規則のもとで、素片選択部34が既存のライブラリLから素片データQを動的に選択することで、第2ライブラリL2を生成することなく曖昧な音声の音声信号Vを生成する。なお、以下に例示する各態様において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図6は、第2実施形態における音声合成装置100のブロック図である。第2実施形態では、第1実施形態の生成部32および第2ライブラリL2が省略される。図6のライブラリLは、第1実施形態の第1ライブラリL1に相当し、明瞭な音声の素片データQを音声素片P毎に包含する。利用者から明瞭な発音の合成音声の生成が指示された場合、第2実施形態の素片選択部34は、第1実施形態(図4(b)の例示)と同様に、発音文字X1に対応する各音声素片Pの素片データQをライブラリLから順次に選択する。他方、利用者から曖昧な発音の合成音声の生成が指示された場合、素片選択部34は、図3(a)から図3(d)を参照して前述した置換処理と実質的に同様の規則に則って、図4(c)に例示される素片データQをライブラリLから順次に選択する。素片選択部34による素片選択について具体的に説明する。
(1)母音+母音:[V-V]
素片選択部34は、発音文字X1に対応する音声素片Pが特定母音[M]以外の母音([a],[i],[e],[o])を含む場合、当該母音を特定母音[M]に置換した音声素片Pの素片データQをライブラリLから選択する。
(2)母音+子音または子音+母音:[C,V]([V-C],[C-V])
素片選択部34は、発音文字X1に対応する音声素片Pが特定母音[M]以外の母音([a],[i],[e],[o])と子音とを含む場合、特定母音[M]以外の母音を特定母音[M]に置換した音声素片Pの素片データQをライブラリLから選択する。
(3)例外処理1
発音文字X1に対応する音声素片Pが、特定子音[w]と特定母音[M]以外の母音[V]とを含む音声素片P[w-V]である場合、素片選択部34は、特定子音[w]と特定母音[M]以外の母音[V]とを含む音声素片P[w-V]の素片データQ[w-V]をライブラリLから選択し、当該素片データQ[w-V]のうち特定子音[w]の区間を示す素片データQ[w]を生成する。
(4)例外処理2
発音文字X1に対応する音声素片Pが、第1子音[h]と特定母音[M]以外の母音[V]とを含む音声素片P[h-V]である場合、素片選択部34は、第1子音[h]とは相違する第2子音[p\]と特定母音[M]とを含む音声素片Pの素片データQをライブラリLから選択する。
合成処理部36は、素片選択部34によって選択された音声素片Pの素片データQを利用して合成音声を生成する。第2実施形態では、第1実施形態と同様の規則のもとで素片データQが選択されるから、第1実施形態と同様に、発音が明瞭な合成音声と発音が曖昧な合成音声との双方を生成することが可能である。
図7は、第2実施形態の素片選択部34が素片データQを選択する処理のフローチャートである。例えば音声合成の開始が利用者から指示された場合に、合成情報Sで指定される各発音文字X1に対応する音声素片(対象素片)P毎に図7の処理が順次に実行される。
素片選択部34は、対象素片Pが特定母音[M]以外の母音を含むか否かを判定する(SB1)。対象素片Pが特定母音[M]以外の母音を含まない場合(SB1:NO)、素片選択部34は、当該対象素片Pの素片データQをライブラリLから選択する(SB2)。他方、対象素片Pが特定母音[M]以外の母音を含む場合(SB1:YES)、素片選択部34は、当該母音を特定母音[M]に置換した音声素片Pの素片データQがライブラリLに存在するか否かを判定する(SB3)。判定結果が肯定である場合(SB3:YES)、素片選択部34は、対象素片Pの母音を特定母音[M]に置換した音声素片Pの素片データQをライブラリLから選択する(SB4)。他方、該当する素片データQがライブラリLに存在しない場合(SB3:No)、素片選択部34は、前述の例外処理1または例外処理2により素片データQを用意する(SB5)。以降については第1実施形態と同様であるので詳細な説明を省略する。
以上の説明から理解される通り、第2実施形態では、素片選択部34は、特定母音[M]以外の母音([a],[i],[e],[o])を含まない音声素片Pについて当該音声素片Pの素片データQを選択し、特定母音[M]以外の母音([a],[i],[e],[o])を含む音声素片Pについては、当該母音を特定母音[M]に置換した音声素片Pの素片データQを選択する。すなわち、明瞭な音声と曖昧な音声との各々に対応するライブラリを別個に用意する必要がない。したがって、第2実施形態においても第1実施形態と同様に、音声合成用のライブラリを作成する負担を軽減しながら、曖昧な発音の合成音声を生成することが可能である。また、第2実施形態では第2ライブラリL2の生成および記憶が不要であるから、第1ライブラリL1と第2ライブラリL2との双方を記憶装置12に記憶する必要がある第1実施形態と比較して、記憶装置12に必要な容量が削減されるという利点もある。
<第3実施形態>
第2実施形態では、発音文字X1に対応する音声素片Pの各素片データQを相互に連結することで明瞭な音声の音声信号Vを生成する動作と、発音文字X1に対応する音声素片の母音を特定母音[M]に置換した音声素片の各素片データQを相互に連結することで曖昧な音声の音声信号Vを生成する動作とを選択的に実行した。第3実施形態では、発音文字X1に対応する各音声素片Pについて、前者の素片データQ(以下「第1素片データQ1」という)と後者の素片データQ(以下「第2素片データQ2」という)とが混合される。
図8は、第3実施形態の音声合成装置100のブロック図である。第3実施形態では、第2実施形態の構成に対して変数設定部37と素片混合部38とが付加される。第3実施形態の素片選択部34は、合成情報Sが指定する発音文字X1に対応する各音声素片Pについて、第1素片データQ1と第2素片データQ2とをライブラリLから選択する。前述の通り、第1素片データQ1は、発音文字X1に対応する各音声素片PについてライブラリLに記憶された素片データQであり、第2素片データQ2は、図7と同様の処理により、例えば発音文字X1に対応する音声素片Pの母音を特定母音[M]に置換した音声素片Pの素片データQである。第1素片データQ1は明瞭に発音された音声素片Pの音声波形を表し、第2素片データQ2は当該音声素片Pを曖昧に発音した場合の音声波形を表す、とも換言され得る。
素片混合部38は、素片選択部34が1個の音声素片Pについて選択した第1素片データQ1と第2素片データQ2とを混合比Kに応じて混合することで素片データQを生成する。具体的には、素片混合部38は、以下の数式(1)で表現される通り、混合比Kに応じた加重値を適用した第1素片データQ1と第2素片データQ2との加重和を素片データQとして生成する。
Figure 0006497065
数式(1)の記号αは所定の定数である。数式(1)から理解される通り、混合比Kが大きいほど、素片データQにおける第2素片データQ2の比率が増加し、結果的に音声信号Vの音声の音韻が聴感的に曖昧になる。合成処理部36は、素片混合部38による混合後の各素片データQを、第1実施形態と同様の方法で調整および連結することで音声信号Vを生成する。
図8の変数設定部37は、合成対象の音声の特徴量に応じて第1素片データQ1と第2素片データQ2との混合比Kを設定する。ここで、高音域の音声ほど、受聴者が知覚する音韻が曖昧になる、という傾向を想定する。以上の傾向を考慮して、第3実施形態の変数設定部37は、合成対象の音符に指定された音高X3を特徴量として、当該音高Xに応じた混合比Kを設定する。具体的には、音符の音高X3が高いほど混合比Kが増加する(すなわち音声信号Vの音声が曖昧になる)ように混合比Kが制御される。
図9は、変数設定部37による混合比Kの設定についての説明図である。図9に例示される編集画面40のうち音符列画像42では、利用者に指定された“あさやけの(asayakeno)”という発音文字X1が5個の音符に割当てられた場合が例示されている。第3実施形態では、時間軸上の特定の区間t内の音符毎に、第1素片データQ1と第2素片データQ2との混合比Kが設定される。区間tは、混合比Kの設定対象となる区間であり、例えば入力装置16に対する操作で利用者が選択した区間や合成楽曲の全区間等の任意の区間である。
図9の記号Rは、区間t内の音高X3の最大値NHと最小値NLとの差異(すなわち区間t内の音高X3の分布幅)を意味する(R=NH−NL)。変数設定部37は、以下の数式(2)の演算により、音符の音高X3に応じた混合比Kを区間t内の音符毎に算定する。
Figure 0006497065

数式(2)の記号βは所定の定数(典型的には正数)である。数式(2)から理解される通り、音高X3が区間t内の最小値NLである音符(X3=NL)の混合比Kは最小値0となり、音高X3が区間t内の最大値NHである音符(X3=NH)の混合比Kは最大値βとなる。すなわち、混合比Kは、音高X3が高いほど増加するように最小値0と最大値βとの間の範囲内で音高X3に応じて変化する。図9に例示される通り、編集画面40の変数領域44には、音符毎の混合比Kが表示(グラフ表示)される。
以上の説明から理解される通り、第3実施形態では、発音文字X1に対応する音声素片Pについて、ライブラリLのうち当該音声素片の第1素片データQ1と、ライブラリLのうち母音を特定母音[M]に置換した音声素片Pの第2素片データQ2とが混合される。したがって、第1実施形態や第2実施形態と同様に、音声合成用のライブラリを作成する負担を軽減しながら、曖昧な発音の合成音声を生成することが可能である。
ところで、第1素片データQ1と第2素片データQ2とを混合する構成としては、例えば、利用者からの指示に応じた混合比Kで混合を実行する構成(以下「対比例」という)も採用され得る。しかし、対比例では、混合比Kを指示する利用者の負担が大きいという問題が発生し得る。第3実施形態では、合成対象の特徴量(具体的には各音符の音高X3)に応じて混合比Kが可変に設定されるから、対比例と比較して利用者の負担を軽減することが可能である。第1実施形態では特に、各音符の音高X3が高いほど第2素片データQ2の比率が増加するように混合比Kが設定されるから、高音域の音声ほど音韻が曖昧になるという傾向を再現した自然な合成音声を生成できるという利点がある。
<第4実施形態>
第4実施形態では、第1ライブラリL1から第2ライブラリL2を事前に生成する第1実施形態の構成を前提として、第1ライブラリL1から選択された第1素片データQ1と、第2ライブラリL2から選択された音声素片Pの第2素片データQ2とを、第3実施形態と同様に混合して合成音声を生成する。
図10は、第4実施形態の音声合成装置100のブロック図である。図10の生成部32は、第1実施形態と同様の方法で既存の第1ライブラリL1から第2ライブラリL2を生成する。したがって、第4実施形態によれば第1実施形態と同様の効果が実現される。他方、素片選択部34は、合成対象の発音文字X1に対応する音声素片P毎に、第1ライブラリL1の第1素片データQ1と第2ライブラリL2の第2素片データQ2とを順次に選択する。
図10に例示されるように、第4実施形態では、第1実施形態の音声合成装置100に対して、第3実施形態と同様の変数設定部37と素片混合部38が追加される。変数設定部37は、第3実施形態と同様に、音符毎の特徴量である音高X3に応じて混合比Kを音符毎に設定する。具体的には、音高X3が高いほど混合比Kが増加するように、例えば数式(2)の演算で混合比Kが算定される。素片混合部38は、第3実施形態と同様に、素片選択部34が選択した第1素片データQ1と第2素片データQ2とを、変数設定部37が設定した混合比Kに応じて混合することで素片データQを生成する。したがって、第4実施形態によれば、第3実施形態と同様に、混合比Kを利用者が指示する対比例と比較して利用者の負担を軽減することが可能である。
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)第3実施形態のように第1素片データQ1と第2素片データQ2との混合比Kを音符毎に設定する構成では混合比Kが音符毎に段階的(不連続)に変動し得る。そこで、各音符の混合比Kを補間することで混合比Kを時間的に連続に変化させる構成も好適である。例えば図11に例示されるように、各音符の発音期間X2の中間地点において当該音符の音高X3に応じた数値(数式(2)の演算値)となるように各音符の混合比Kを直線補間することで、複数の音符に亘って混合比Kを連続的に変化させてもよい。
また、例えば図12に例示される通り、音符の発音期間X2のうち一部の期間(以下「定常期間」という)σにおいて当該音符の音高X3に応じた混合比Kを維持し、各発音期間X2内の定常期間σの終点と直後の発音期間X2内の定常期間σの始点との間で混合比Kを補間(図12の例示では直線補間)することも可能である。定常期間σは、例えば発音期間X2の始点から所定長(例えば継続長の1/4)だけ経過した時点を始点とし、発音期間X2の終点から所定長だけ手前の時点を終点とする期間である。なお、図11や図12の例示では直線補間を例示したが、補間の具体的な方法は任意であり、例えば公知の曲線補間を利用してもよい。
(2)第3実施形態では、混合比Kの最大値βを所定の定数としたが、入力装置16に対する利用者からの指示に応じて最大値βを可変に設定することも可能である。また、第3実施形態では、音高X3が高いほど混合比Kが増加する構成を例示したが、音高X3の高低と混合比Kの大小との関係は以上の例示に限定されない。例えば、音高X3が高いほど混合比Kが減少する(合成音声が明瞭になる)ように混合比Kを算定することも可能である。
(3)混合比Kの算定に適用される特徴量は、第3実施形態で例示した音高X3に限定されない。例えば、各音符の音量に応じて混合比Kを設定する構成も採用され得る。例えば、音量が小さいほど、受聴者が知覚する音韻が曖昧になる、という傾向を想定すると、音量が小さいほど混合比Kが増加するように変数設定部37が混合比Kを設定する構成が好適である。
(4)合成対象の特徴量に応じて混合比Kを設定する第3実施形態や第4実施形態の構成にとって、生成部32が第1ライブラリL1から第2ライブラリL2を生成する第1実施形態の構成や、母音を特定母音[M]に置換した音声素片の素片データL2を素片選択部34が選択する第2実施形態の構成は必須ではない。例えば、相異なる声質の収録音から第1ライブラリL1および第2ライブラリL2が事前に用意された構成において、第1ライブラリL1から選択された第1素片データQ1と第2ライブラリL2から選択された第2素片データQ2とを例えば音高X3に応じた混合比Kで混合することも可能である。
(5)第1実施形態では、生成部32が生成した第2ライブラリL2を利用して音声信号Vを生成する音声合成装置100を例示したが、既存の第1ライブラリL1から第1実施形態に例示した方法で第2ライブラリL2を生成する装置(音声合成用ライブラリ生成装置)としても本発明は実現され得る。音声合成用ライブラリ生成装置において、音声合成のための機能(素片選択部34,合成処理部36)の有無は不問である。
100……音声合成装置、10……演算処理装置、12……記憶装置、14……表示装置、16……入力装置、18……放音装置、32……生成部、33……表示制御部、34……素片選択部、35……指示受付部、36……合成処理部、37……変数設定部、38……素片混合部、40……編集画面、42……音符列画像、44……変数領域、54……音符図像。

Claims (5)

  1. 音声素片毎に素片データを含む音声合成用の第1ライブラリから第2ライブラリを生成する要素であって、複数の音声素片のうち特定母音以外の母音を含む音声素片について、前記第1ライブラリのうち当該母音を前記特定母音に置換した音声素片の素片データを含む第2ライブラリを生成する生成部
    を具備する音声合成用ライブラリ生成装置。
  2. 音声素片毎に素片データを含む音声合成用の第1ライブラリから第2ライブラリを生成する要素であって、複数の音声素片のうち特定母音以外の母音を含む音声素片について、前記第1ライブラリのうち当該母音を前記特定母音に置換した音声素片の素片データを含む第2ライブラリを生成する生成部と、
    前記第1ライブラリのうち合成対象の発音文字に対応する音声素片の第1素片データと、前記第2ライブラリのうち当該音声素片の第2素片データとを選択する素片選択部と、
    前記第1素片データと前記第2素片データとを混合する素片混合部と、
    前記素片混合部による混合後の素片データを利用して合成音声を生成する合成処理部と
    を具備する音声合成装置。
  3. 音声素片毎に素片データを含む音声合成用のライブラリから合成対象の発音文字に対応する音声素片の素片データを選択する要素であって、受聴者が曖昧と知覚する傾向がある特定母音以外の母音を含む音声素片については、当該母音を前記特定母音に置換した音声素片の素片データを選択し、前記特定母音を含む音声素片については、当該特定母音を置換せずに音声素片の素片データを選択する素片選択部と、
    前記素片選択部が選択した音声素片を利用して合成音声を生成する合成処理部と
    を具備する音声合成装置。
  4. 前記素片選択部は、前記特定母音以外の母音を含む音声素片について、当該音声素片の第1素片データと、当該母音を前記特定母音に置換した音声素片の第2素片データとを選択し、
    前記第1素片データと前記第2素片データとを混合する素片混合部を具備し、
    前記合成処理部は、前記素片混合部による混合後の素片データを利用して合成音声を生成する
    請求項3の音声合成装置。
  5. 合成対象の特徴量に応じた混合比を設定する変数設定部を具備し、
    前記素片混合部は、前記変数設定部が設定した混合比で前記第1素片データと前記第2素片データとを混合する
    請求項2または請求項4の音声合成装置。
JP2014259287A 2014-12-22 2014-12-22 音声合成用ライブラリ生成装置および音声合成装置 Active JP6497065B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014259287A JP6497065B2 (ja) 2014-12-22 2014-12-22 音声合成用ライブラリ生成装置および音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014259287A JP6497065B2 (ja) 2014-12-22 2014-12-22 音声合成用ライブラリ生成装置および音声合成装置

Publications (2)

Publication Number Publication Date
JP2016118712A JP2016118712A (ja) 2016-06-30
JP6497065B2 true JP6497065B2 (ja) 2019-04-10

Family

ID=56244244

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014259287A Active JP6497065B2 (ja) 2014-12-22 2014-12-22 音声合成用ライブラリ生成装置および音声合成装置

Country Status (1)

Country Link
JP (1) JP6497065B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005071664A (ja) * 2003-08-20 2005-03-17 Sumitomo Wiring Syst Ltd 端子金具
US8510112B1 (en) * 2006-08-31 2013-08-13 At&T Intellectual Property Ii, L.P. Method and system for enhancing a speech database
JP5176981B2 (ja) * 2009-01-22 2013-04-03 ヤマハ株式会社 音声合成装置、およびプログラム

Also Published As

Publication number Publication date
JP2016118712A (ja) 2016-06-30

Similar Documents

Publication Publication Date Title
JP6620462B2 (ja) 合成音声編集装置、合成音声編集方法およびプログラム
JP6791258B2 (ja) 音声合成方法、音声合成装置およびプログラム
TWI471855B (zh) 語音合成資訊編輯裝置、儲存媒體及方法
JP2013137520A (ja) 音楽データ編集装置
JP2013011863A (ja) 音声合成装置
JP2017040867A (ja) 情報処理装置
JP5625321B2 (ja) 音声合成装置およびプログラム
JP5423375B2 (ja) 音声合成装置
JP2018077283A (ja) 音声合成方法
JP6497065B2 (ja) 音声合成用ライブラリ生成装置および音声合成装置
JP5092905B2 (ja) 歌唱合成装置およびプログラム
JP4433734B2 (ja) 音声分析合成装置、音声分析装置、及びプログラム
EP2634769B1 (en) Sound synthesizing apparatus and sound synthesizing method
JP5102939B2 (ja) 音声合成装置および音声合成プログラム
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP2013050705A (ja) 音声合成装置
JP5790860B2 (ja) 音声合成装置
JP2010066636A (ja) 音処理装置およびプログラム
JP5782751B2 (ja) 音声合成装置
JP6286946B2 (ja) 音声合成装置および音声合成方法
JP5310801B2 (ja) 音声合成装置および音声合成プログラム
JP2005195968A (ja) ピッチ変換装置
JP2014170251A (ja) 音声合成装置、音声合成方法およびプログラム
JP5782799B2 (ja) 音声合成装置
JP6822075B2 (ja) 音声合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181002

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190225

R151 Written notification of patent or utility model registration

Ref document number: 6497065

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151