JP2023139557A - 音声合成装置、音声合成方法及びプログラム - Google Patents

音声合成装置、音声合成方法及びプログラム Download PDF

Info

Publication number
JP2023139557A
JP2023139557A JP2022045139A JP2022045139A JP2023139557A JP 2023139557 A JP2023139557 A JP 2023139557A JP 2022045139 A JP2022045139 A JP 2022045139A JP 2022045139 A JP2022045139 A JP 2022045139A JP 2023139557 A JP2023139557 A JP 2023139557A
Authority
JP
Japan
Prior art keywords
feature
speech
generates
waveform
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022045139A
Other languages
English (en)
Inventor
宜樹 蛭田
Nobuki Hiruta
正統 田村
Masanori Tamura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2022045139A priority Critical patent/JP2023139557A/ja
Priority to PCT/JP2023/010951 priority patent/WO2023182291A1/ja
Publication of JP2023139557A publication Critical patent/JP2023139557A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】波形生成までの応答時間を改善するとともに、入力全体に基づく韻律特徴量に対する詳細な加工を波形生成前に行うことを可能にする。【解決手段】実施形態の音声合成装置は、解析部と第1処理部と第2処理部とを備える。解析部は、入力テキストを解析し、言語特徴量を示す1つ以上のベクトルを含む言語特徴量系列を生成する。前記第1処理部は、前記言語特徴量系列を、第1のニューラルネットワークによって、潜在変数を示す1つ以上のベクトルを含む中間表現系列に変換するエンコーダと、前記中間表現系列から第2のニューラルネットワークによって韻律特徴量を生成する韻律特徴量デコーダと、を備える。前記第2処理部は、前記中間表現系列と前記韻律特徴量とから第3のニューラルネットワークによって音声波形を逐次的に生成する音声波形デコーダを備える。【選択図】図1

Description

本発明の実施形態は音声合成装置、音声合成方法及びプログラムに関する。
近年、深層ニューラルネットワーク(DNN:Deep Neural Network)を利用する音声合成装置が知られている。その中でも、特にエンコーダ・デコーダ構造によるDNN音声合成が複数提案されている。
例えば、特許文献1では自然言語の文字のシーケンスを入力とし口頭発話のスペクトログラムを出力するシーケンスツーシーケンスリカレントニューラルネットワークが提案されている。また例えば、非特許文献1では自然言語の音素表記を入力とし、その各々の継続長、およびピッチとエネルギーを介してメルスペクトログラムまたは音声波形を出力する、自己注意機構を用いたエンコーダ・デコーダ構造によるDNN音声合成技術が提案されている。
特表2020-515899号公報
Yi Ren,Chenxu Hu,Xu Tan,Tao Qin,Sheng Zhao,Zhou Zhao,Tie-Yan Liu,"FastSpeech2:Fast and High-Quality End-to-End Text to Speech," in Proc.ICLR,2021 A van den Oord,et al,"WAVENET: A GENERATIVE MODEL FOR RAW AUDIO",in arxiv preprint,2016. Z. Wu et al,"A study of speaker adaptation for DNN-based speech synthesis",in Proc. Interspeech 2015, 2015. Y. Wang,et al.,"Style Tokens:Unsupervised Style Modeling,Control and Transfer in End-to-End Speech Synthesis",in Proceedings of the 35th International Conference on Machine Learning,PMLR 80:5180-5189,2018
本発明は、波形生成までの応答時間を改善するとともに、入力全体に基づく韻律特徴量に対する詳細な加工を波形生成前に行うことを可能にする音声合成装置、音声合成方法及びプログラムを提供することを目的とする。
実施形態の音声合成装置は、解析部と第1処理部と第2処理部とを備える。解析部は、入力テキストを解析し、言語特徴量を示す1つ以上のベクトルを含む言語特徴量系列を生成する。前記第1処理部は、前記言語特徴量系列を、第1のニューラルネットワークによって、潜在変数を示す1つ以上のベクトルを含む中間表現系列に変換するエンコーダと、前記中間表現系列から第2のニューラルネットワークによって韻律特徴量を生成する韻律特徴量デコーダと、を備える。前記第2処理部は、前記中間表現系列と前記韻律特徴量とから第3のニューラルネットワークによって音声波形を逐次的に生成する音声波形デコーダを備える。
図1は、第1実施形態の音声合成装置の機能構成の例を示す図である。 図2は、第1実施形態のコンテキスト情報のベクトル表現の例を示す図である。 図3は、第1実施形態の音声合成方法の例を示すフローチャートである。 図4は、第1実施形態の韻律特徴量デコーダの機能構成の例を示す図である。 図5は、第1実施形態の韻律特徴量の生成方法の例を示すフローチャートである。 図6は、第2実施形態の音声合成装置の機能構成の例を示す図である。 図7は、第2実施形態の音声合成方法の例を示すフローチャートである。 図8は、第2実施形態の加工部の処理例を説明するための図である。 図9は、第3実施形態の音声合成装置の機能構成の例を示す図である。 図10は、第3実施形態の継続音声フレーム数生成部の機能構成の例を示す図である。 図11は、第3実施形態のピッチ波形の例を示す図である。 図12は、第3実施形態の音声合成方法の例を示すフローチャートである。 図13は、第3実施形態の継続音声フレーム数生成部の処理例を説明するための図である。 図14は、第4実施形態の音声合成装置の機能構成の例を示す図である。 図15は、第4実施形態の音声合成方法の例を示すフローチャートである。 図16は、第4実施形態の第1処理部の処理例を説明するための図である。 図17は、第1乃至第4実施形態の音声合成装置のハードウェア構成の例を示す図である。
エンコーダ・デコーダ構造によるDNN音声合成では、エンコーダとデコーダという2種類のニューラルネットワークを用いる。エンコーダは入力系列を潜在変数へ変換する。潜在変数は外部から直接観測できない値であり、音声合成では各入力の変換結果である中間表現の系列が用いられる。デコーダは得られた潜在変数(つまり中間表現系列)を、音響特徴量及び音声波形等へ変換する。中間表現系列とデコーダの出力する音響特徴量の系列長とが異なる場合、特許文献1のように注意機構を用いることや、非特許文献1のように各中間表現に対応する音響特徴量のフレーム数を別途求めることなどで対応が取られる。
しかしながら、従来の技術では、注意機構に基づくデコーダを用いるため、合成時に入力全体を処理する必要があり、応答時間が長くなるという問題があった。また、その改善手段としてすべての音響特徴量および音声波形を逐次的に出力することも考えられるが、音素の時間長、及び、音の高さ・抑揚などの韻律に関わる特徴量(韻律特徴量)に対する詳細な加工が入力全体を処理するまで行えなくなるという問題が生じていた。
以下に添付図面を参照して、上記問題を解決する音声合成装置、音声合成方法及びプログラムの実施形態を詳細に説明する。
(第1実施形態)
はじめに、第1実施形態の音声合成装置の機能構成の例について説明する。
[機能構成の例]
図1は、第1実施形態の音声合成装置10の機能構成の例を示す図である。音声合成装置10はエンコーダ・デコーダ構造によるDNN音声合成において、予め中間表現系列と韻律特徴量とを出力し、その後音声波形を逐次的に出力する。これにより、従来のエンコーダ・デコーダ構造によるDNN音声合成処理よりも応答時間を改善する。
第1実施形態の音声合成装置10は、解析部1、第1処理部2及び第2処理部3を備える。
解析部1は、入力テキストを解析し、言語特徴量系列101を生成する。言語特徴量系列101は、入力テキストを解析することによって得られた発話情報(言語特徴量)を、時系列順に並べた情報である。発話情報(言語特徴量)としては、例えば、音素・半音素・音節などの音声を分類する単位として用いられるコンテキスト情報が用いられる。
図2は、第1実施形態のコンテキスト情報のベクトル表現の例を示す図である。図2は、音声単位として音素を用いた場合のコンテキスト情報のベクトル表現の一例であり、このベクトル表現の系列が、言語特徴量系列101として用いられる。
図2のベクトル表現は、音素、音素種別情報、アクセント型、アクセント句内位置、語尾情報及び品詞情報を含む。音素は、当該音素がいずれの音素なのかを示すone-hotベクトルである。音素種別情報は、当該音素の種別を示すフラグ情報である。種別は、当該音素の有声音・無声音による分類、及び、さらに詳細化された音素種別の属性等を示す。
アクセント型は、当該音素のアクセント型を示す数値である。アクセント句内位置は、当該音素のアクセント句内位置を示す数値である。語尾情報は、当該音素の語尾情報を示すone-hotベクトルである。品詞情報は、当該音素の品詞情報を示すone-hotベクトルである。
なお、言語特徴量系列101として、図2のベクトル表現の系列以外の情報が用いられてもよい。例えば、入力テキストをJEITA規格IT-4006で定められている日本語テキスト音声合成用記号などの記号列へ変換し、各記号を発話情報としてone-hotベクトル化し、当該one-hotベクトルを、時系列順に並べた系列を言語特徴量系列101としてもよい。
図1に戻り、第1処理部2は、エンコーダ21及び韻律特徴量デコーダ22を備える。エンコーダ21は、言語特徴量系列101を中間表現系列102に変換する。
中間表現系列102は、上述したように音声合成装置10における潜在変数であり、後続の韻律特徴量デコーダ22及び第2処理部3等において韻律特徴量103及び音声波形104等を得るための情報を含む。中間表現系列102に含まれる各々のベクトルが、中間表現を示す。中間表現系列102の系列長は、言語特徴量系列101の系列長により定まるが、言語特徴量系列101の系列長と一致する必要はない。例えば1つの言語特徴量に、複数の中間表現が対応してもよい。
韻律特徴量デコーダ22は、中間表現系列102から韻律特徴量103を生成する。
韻律特徴量103は、話速、音の高さ及び抑揚などの韻律に関わる特徴量であり、中間表現系列102に含まれる各々のベクトルの継続音声フレーム数と、各音声フレームにおけるピッチ特徴量とを含む。ここで、音声フレームとは、音声波形を解析して音響特徴量を得る際の波形切り出し単位であり、合成時には音声フレーム毎に生成された音響特徴量から音声波形104を合成する。第1実施形態においては、各音声フレームの間隔は、固定の時間長とする。そして、継続音声フレーム数は、中間表現系列102に含まれる各々のベクトルに対応する音声区間に含まれる音声フレームの数を表す。また、ピッチ特徴量としては、例えば基本周波数、及び、基本周波数の対数等が挙げられる。
なお、韻律特徴量103は、上記例のほか、各音声フレームにおけるゲイン、及び、中間表現系列102に含まれる各々のベクトルの継続時間などが含まれていてもよい。
第2処理部3は、中間表現系列102と韻律特徴量103とから音声波形104を逐次的に生成し、当該音声波形104を逐次的に出力する音声波形デコーダ31を備える。ここで、逐次的な生成・出力処理とは、中間表現系列102を先頭から順に、少量ずつ区切った各区間に対する波形生成処理のみを行うことにより、当該区間の音声波形104を出力する処理である。例えば、逐次的な生成・出力処理は、ユーザにより任意に決定された所定のサンプル数(所定のデータの長さ)ずつ音声波形104を生成・出力する処理である。逐次的な生成・出力処理により、波形生成に関わる演算処理を区間ごとに分割することができ、入力テキスト全体に対する音声波形104の生成処理を待たずに、各区間の音声の出力および再生が可能になる。
具体的には、音声波形デコーダ31は、スペクトル特徴量生成部311及び波形生成部312を備える。スペクトル特徴量生成部311は、中間表現系列102及び韻律特徴量103からスペクトル特徴量を生成する。
スペクトル特徴量とは、各音声フレームの音声波形のスペクトル特性を表す特徴量である。音声合成に必要な音響特徴量は、韻律特徴量103とスペクトル特徴量とで構成される。スペクトル特徴量には、音声のフォルマント構造などの声道特性を表すスペクトル包絡、及び、呼吸音などに励起される雑音成分と声帯の振動により励起される倍音成分の混合比率を表す非周期性指標に関する情報などが含まれる。例えば、スペクトル包絡情報としては、メルケプストラム及びメル線形スペクトル対などが挙げられる。非周期性指標としては、例えば帯域非周期性指標が挙げられる。このほか、位相スペクトルに関する特徴量もスペクトル特徴量に含めることで波形の再現性を向上させてもよい。
例えば、スペクトル特徴量生成部311は、中間表現系列102と韻律特徴量103とから、所定のサンプル数に対応する音声フレーム数のスペクトル特徴量を、時系列順に生成する。
波形生成部312は、スペクトル特徴量を用いた音声合成処理を行うことによって、合成波形(音声波形104)を生成する。例えば、波形生成部312は、スペクトル特徴量を用いて、所定のサンプル数ずつ音声波形104を時系列順に生成することによって、音声波形104を逐次的に生成する。これにより、例えばユーザにより定められた所定の音声波形サンプル数ずつ時系列順に音声波形104を合成することが可能となり、音声波形104の生成までの応答時間を改善することができる。なお、波形生成部312は必要に応じて韻律特徴量103も用いて音声波形104を合成してもよい。
[音声合成方法の例]
図3は、第1実施形態の音声合成方法の例を示すフローチャートである。はじめに、解析部1が、入力テキストを解析し、言語特徴量を示す1つ以上のベクトルを含む言語特徴量系列101を出力する(ステップS1)。例えば、解析部1は、入力テキストに形態素解析を行い、読み情報及びアクセント情報などの音声合成に必要な言語情報を求め、得られた読み情報および言語情報から、言語特徴量系列101を出力する。また例えば、解析部1は、入力テキストに対して、予め別途作成された修正済みの読み・アクセント情報から言語特徴量系列101を作成してもよい。
次に、第1処理部2が、ステップS2及びS3の処理を行うことによって、中間表現系列102と韻律特徴量103とを出力する。具体的には、まず、エンコーダ21が、言語特徴量系列101を中間表現系列102へ変換する(ステップS2)。続いて、韻律特徴量デコーダ22が、中間表現系列102から韻律特徴量103を生成する(ステップS3)。
次に、第2処理部3の音声波形デコーダ31が、ステップS4~S6の処理を行う。まず、スペクトル特徴量生成部311が、中間表現系列102と、処理対象の中間表現系列102に含まれる各々のベクトルの継続音声フレーム数などの必要な韻律特徴量103とから、スペクトル特徴量を必要量、生成する(ステップS4)。続いて、波形生成部312が、スペクトル特徴量を用いて音声波形104を必要量、生成する(ステップS5)。ステップS5の処理によって生成された音声波形104に対しユーザが第2処理部3とは非同期的に再生及び保存などの処理を行うことで、波形生成による再生開始までの遅延を抑えることができる。
すべての音声波形104の合成が完了していない場合(ステップS6,No)、ステップS4の処理に戻る。繰り返しステップS4及びS5を実行することで全体の音声波形104を生成できる。すべての音声波形104の合成が完了した場合(ステップS6,Yes)、処理を終了する。
次に、第1実施形態の音声合成装置10の各部の詳細について説明する。
[各部の詳細]
図1の音声合成装置10において、エンコーダ21は第1のニューラルネットワークにより言語特徴量系列101を中間表現系列102へ変換する。ニューラルネットワークとして、例えば時系列を処理できるリカレント構造、畳み込み構造、及び、自己注意機構などの構造を用いることで中間表現系列102に前後の情報を与えることができる。
図4は、第1実施形態の韻律特徴量デコーダ22の機能構成の例を示す図である。第1実施形態の韻律特徴量デコーダ22は、継続音声フレーム数生成部221及びピッチ特徴量生成部222を備える。
継続音声フレーム数生成部221は、中間表現系列102に含まれる各々のベクトルの継続音声フレーム数を生成する。
ピッチ特徴量生成部222は、中間表現系列102から、その各々のベクトルの継続音声フレーム数に基づき、各音声フレームにおけるピッチ特徴量を生成する。この他、韻律特徴量デコーダ22は、例えば各音声フレームにおけるゲインを生成してもよい。
継続音声フレーム数生成部221及びピッチ特徴量生成部222の処理では、第2のニューラルネットワークに含まれるニューラルネットワークを用いる。ピッチ特徴量デコーダ222の処理で用いるニューラルネットワークとして、例えば時系列を処理できるリカレント構造、畳み込み構造、及び、自己注意機構などの構造を用いる。これにより前後の情報を考慮した各音声フレームにおけるピッチ特徴量を得ることができ、合成音声の滑らかさが増す。
[韻律特徴量の生成方法の例]
図5は、第1実施形態の韻律特徴量103の生成方法の例を示すフローチャートである。まず、継続音声フレーム数生成部221が、中間表現系列102に含まれる各々のベクトルの継続音声フレーム数を生成する(ステップS11)。次に、ピッチ特徴量生成部222が、各音声フレームにおけるピッチ特徴量を生成する(ステップS12)。
また、図1の音声合成装置10において、第2処理部3の音声波形デコーダ31が備えるスペクトル特徴量生成部311は、中間表現系列102と韻律特徴量103とから第3のニューラルネットワークに含まれるニューラルネットワークを用いて、音声波形104の逐次生成に必要な量のスペクトル特徴量を生成する。ニューラルネットワークとして、例えば、リカレント構造及び畳み込み構造の少なくとも一方を有するニューラルネットワークを用いる。具体的には、ニューラルネットワークとして、単方向ゲート付きリカレント構造(GRU Gated Recurrent Unit)、及び、因果的畳み込み構造等を用いることで、全ての音声フレームについての処理を行わずに滑らかなスペクトル特徴量を生成できる。また、時系列構造を反映したスペクトル特徴量を得ることができ、滑らかな合成音を合成できる。
第2処理部3の波形生成部312は信号処理または第3のニューラルネットワークに含まれるニューラルネットワークによるボコーダを用いて、逐次生成に必要な量の音声波形104を合成する。ニューラルネットワークを用いる場合、例えば、非特許文献2で提案されているWaveNetなどのニューラルボコーダにより波形を生成できる。
以上、説明したように、第1実施形態の音声合成装置10は、解析部1と第1処理部2と第2処理部3とを備える。解析部1は、入力テキストを解析し、言語特徴量を示す1つ以上のベクトルを含む言語特徴量系列101を生成する。第1処理部2では、エンコーダ21が、言語特徴量系列101を、第1のニューラルネットワークによって、潜在変数を示す1つ以上のベクトルを含む中間表現系列102に変換する。また、韻律特徴量デコーダ22が、中間表現系列102から韻律特徴量103を生成する。第2処理部3では、音声波形デコーダ31が、中間表現系列102と韻律特徴量103とから音声波形104を逐次的に生成する。
これにより、第1実施形態の音声合成装置10によれば、波形生成までの応答時間を改善することができる。具体的には、第1実施形態の音声合成装置10では、第1処理部2と第2処理部3とに処理が分かれ、予め第1処理部2が、中間表現系列102と韻律特徴量103とを出力し、第2処理部3が音声波形104を逐次的に出力する。これにより、ある音声波形104を再生している間に次の音声波形104を出力することが可能になる。したがって、第1実施形態の音声合成装置10によれば、応答時間が冒頭の音声波形104を再生するまでとなるため、全ての音響特徴量及び音声波形104等を一度に得る従来の技術と比べ応答時間が改善する。
(第2実施形態)
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
[機能構成の例]
図6は、第2実施形態の音声合成装置10-2の機能構成の例を示す図である。第2実施形態の音声合成装置10-2では、第1処理部2-2が、さらに加工部23を備える。これにより、音声波形104を得る第2処理部3の処理前に、入力テキスト全体の韻律特徴量103に対する詳細な加工が可能になる。
加工部23は韻律特徴量103に対する加工指示を受け付けると、その加工指示を韻律特徴量103に反映する。加工指示は、例えばユーザからの入力により受け付ける。
加工指示は、各韻律特徴量103に対する値の変更指示である。例えば、加工指示は、ある区間の各音声フレームにおけるピッチ特徴量の値を変更する指示である。具体的には、加工指示は、例えば2フレーム目から10フレーム目のピッチを300Hzに変更する指示である。また例えば、加工指示は、中間表現系列102に含まれる各々のベクトルの継続音声フレーム数を変更する指示である。また例えば、加工指示は、中間表現系列102に含まれる17番目の中間表現の継続音声フレーム数を30に変更する指示である。
また上記例のほか、加工指示は、入力テキストの発話音声の韻律特徴量103に対し射影する指示でもよい。具体的には、加工部23が、予め用意された入力テキストの発話音声を使用する。そして、加工部23が、入力テキストから解析部1、エンコーダ21および韻律特徴量デコーダ22により生成された韻律特徴量103を、その発話音声の韻律特徴量に揃える様に射影する指示を受け付ける。この場合、入力テキストから生成された韻律特徴量103の値を直接操作することなく、所望の加工結果を得ることができる。
第2処理部3は、韻律特徴量デコーダ22により生成された韻律特徴量103、または加工部23により加工された韻律特徴量103を受け付ける。
[音声合成方法の例]
図7は、第2実施形態の音声合成方法の例を示すフローチャートである。はじめに、解析部1が、入力テキストを解析し、言語特徴量を示す1つ以上のベクトルを含む言語特徴量系列101を出力する(ステップS21)。次に、第1処理部2-2が、言語特徴量系列101から、中間表現系列102及び韻律特徴量103を得る(ステップS22)。
次に、加工部23が、韻律特徴量103の加工をするか否かを判定する(ステップS23)。韻律特徴量103の加工をするか否かの判定は、例えば、韻律特徴量103に対する、未処理の加工指示の有無に基づき判定される。加工指示は、例えば韻律特徴量103に基づき生成されたピッチ特徴量及び各音素の継続時間長等の値を表示装置に表示し、ユーザによるマウス操作等によって値を編集することにより行う。
韻律特徴量103を加工しない場合(ステップS23、No)、処理はステップS25に進む。
韻律特徴量103を加工する場合(ステップS23、Yes)、加工部23が、加工指示を韻律特徴量103へ反映する(ステップS24)。中間表現系列102に含まれる各々のベクトルの継続音声フレーム数を変更する場合など、韻律特徴量103の再生成が必要な場合、韻律特徴量デコーダ22が、韻律特徴量103を再生成する。韻律特徴量103の加工は、ユーザから加工指示の入力を受け付ける限り、繰り返し行われる。
次に、第2処理部3(音声波形デコーダ31)が、逐次的に音声波形104を出力する(ステップS25)。ステップS25の処理の詳細は、第1実施形態と同様なので説明を省略する。
次に、波形生成部312が、音声波形104を再度合成するため、韻律特徴量103を加工しなおすか否かを判定する(ステップS26)。韻律特徴量103を加工しなおす場合(ステップS26,Yes)、処理はステップS24に戻る。例えば、所望の音声波形104が得られなかった場合、ユーザからの加工指示を更に受け付け、ステップS24の処理に戻る。
韻律特徴量103を加工しなおさない場合(ステップS26,No)、処理は終了する。
[加工処理の詳細]
加工処理が韻律射影の場合の処理の詳細について説明する。加工部23が入力テキストの発話音声の韻律特徴量103に対する射影指示を受け付けた場合、ステップS24では次のような処理を行う。まず、加工部23は、発話音声を解析し、韻律特徴量103を求める。韻律特徴量103のうち、各音素の継続長は、発話音声の発話内容に従って音素アラインメントを行い、音素境界抽出を行う事により求められる。また、各音声フレームにおけるピッチ特徴量は、発話音声の音響特徴量抽出を行う事によって得られる。続いて、加工部23は、中間表現系列102に含まれる各々のベクトルの継続音声フレーム数を発話音声から求めた音素継続長に基づいて変更する。そして、加工部23は、各音声フレームにおけるピッチ特徴量を、発話音声から抽出したピッチ特徴量に合わせる様に変更する。韻律特徴量103に含まれるその他の特徴量についても、同様に発話音声を解析して求めた特徴量に合わせる様に変更する。
図8は、第2実施形態の加工部23の処理例を説明するための図である。図8の例は、加工部23が、入力テキストの発話音声のピッチ特徴量に対する射影指示を受け付けた場合の処理例である。ピッチ特徴量105は、韻律特徴量デコーダ22により生成されたピッチ特徴量を示す。ピッチ特徴量106は、入力テキストの発話音声(例えばユーザの発話音声)のピッチ特徴量を示す。ピッチ特徴量107は、加工部23により生成されたピッチ特徴量を示す。例えば、加工部23は、ピッチ特徴量106の最大値及び最小値(または平均及び分散)が、ピッチ特徴量105の最大値及び最小値(または平均及び分散)に一致するように加工することによって、ピッチ特徴量107を生成する。
以上、説明したように、第2実施形態の音声合成装置10-2では、第1処理部2-2が、韻律特徴量103を出力し、加工部23がユーザの加工指示を反映する。すなわち、入力テキスト全体に対する韻律特徴量103が、音声波形104の生成前に出力されるので、入力テキスト全体に対する詳細な加工を波形生成前に行うことが可能になる。従来の技術では、応答時間の改善手段としてすべての音響特徴量および音声波形104を逐次的に出力する場合、入力テキスト全体の韻律特徴量103に対する詳細な加工が困難だった。
第2実施形態の音声合成装置10-2では、入力テキスト全体の音声フレーム単位のピッチに対する詳細な加工が音声波形104を得る第2処理部3の処理の前に可能になる。これにより、第2処理部3は、ユーザによる韻律特徴量103への詳細な加工指示を反映した音声波形104を合成できる。
(第3実施形態)
次に第3実施形態について説明する。第3実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
[機能構成の例]
図9は、第3実施形態の音声合成装置10-3の機能構成の例を示す図である。第3実施形態の音声合成装置10-3では、音声フレームをピッチに基づいて定める。具体的には、音声フレームの間隔をピッチ周期に変更する。これにより、第3実施形態では、ピッチ同期分析による精密な音声分析を適用することが可能となる。
第3実施形態の音声合成装置10-3は、解析部1、第1処理部2-3及び第2処理部3を備える。第1処理部2-3は、エンコーダ21及び韻律特徴量デコーダ22を備える。韻律特徴量デコーダ22は、継続音声フレーム数生成部221及びピッチ特徴量生成部222を備える。
図10は、第3実施形態の継続音声フレーム数生成部221の機能構成の例を示す図である。第3実施形態の継続音声フレーム数生成部221は、粗ピッチ生成部2211、継続時間生成部2212及び計算部2213を備える。
粗ピッチ生成部2211は、中間表現系列102に含まれる各々のベクトルの平均ピッチ特徴量を生成する。継続時間生成部2212は、中間表現系列102に含まれる各々のベクトルの継続時間を生成する。平均ピッチ特徴量及び継続時間は、各々のベクトルに対応する音声区間に含まれる各音声フレームにおけるピッチ特徴量の平均、及び音声区間が継続する時間を表す。
計算部2213は、中間表現系列102に含まれる各々のベクトルの平均ピッチ特徴量と継続時間とから、ピッチ波形の数を示すピッチ波形数を計算する。
ピッチ波形とは、ピッチ同期分析法における音声フレームの波形切り出し単位である。
図11は、第3実施形態のピッチ波形の例を示す図である。ピッチ波形は次のように求められる。まず、波形生成部312は、韻律特徴量103に含まれる、各音声フレームにおけるピッチ特徴量から、周期的な音声波形104の各周期の中心時刻を表すピッチマーク情報108を作成する。
続いて、波形生成部312は、ピッチマーク情報108の位置を中心位置として定め、ピッチ周期に基づき音声波形104を合成する。適切に付与されたピッチマーク情報108の位置を中心時刻として合成することにより、音声波形104の局所的な変化にも対応した適切な合成が可能となるため、音質劣化が低減される。
しかし、同じ時間長の区間でも、ピッチの高い区間ほどピッチ波形数が多く、ピッチの低い区間ほどピッチ波形数は少ないため、それぞれの区間に含まれる音声フレーム数が異なる場合が生じる。そのため、計算部2213は、中間表現系列102に含まれる各々のベクトルの継続音声フレーム数(ピッチ波形数)を、直接、算出せずに、そのベクトルの継続時間と平均ピッチ特徴量とから算出する。
[音声合成方法の例]
図12は、第3実施形態の音声合成方法の例を示すフローチャートである。はじめに、解析部1が、入力テキストを解析し、言語特徴量を示す1つ以上のベクトルを含む言語特徴量系列101を出力する(ステップS31)。次に、エンコーダ21が、言語特徴量系列101を中間表現系列102へ変換する(ステップS32)。
次に、継続音声フレーム数生成部221が、中間表現系列102に含まれる各々のベクトルの継続音声フレーム数を生成する(ステップS33)。次に、ピッチ特徴量生成部222が、各音声フレームにおけるピッチ特徴量を生成する(ステップS34)。
次に、第2処理部3(音声波形デコーダ31)が、中間表現系列102と、韻律特徴量103とから、音声波形104を逐次的に出力する(ステップS35)。
[継続音声フレーム数生成処理の詳細]
図13は、第3実施形態の継続音声フレーム数生成部221の処理例を説明するための図である。まず、粗ピッチ生成部2211が、中間表現系列102に含まれる各々のベクトルの平均ピッチ特徴量を生成する(ステップS41)。続いて、継続時間生成部2212が、中間表現系列102に含まれる各々のベクトルの継続時間を生成する(ステップS42)。なお、ステップS41及びS42の実行順序は逆でもよい。
次に、計算部2213が、中間表現系列102に含まれる各々のベクトルの平均ピッチ特徴量と、継続時間とから、各々のベクトルのピッチ波形数を計算する(ステップS43)。ステップS43で得られたピッチ波形数が、継続音声フレーム数として出力される。
[各部の詳細]
粗ピッチ生成部2211及び継続時間生成部2212は、それぞれ第2のニューラルネットワークに含まれるニューラルネットワークを用いて、中間表現系列102から、中間表現系列102に含まれる各々のベクトルの平均ピッチ特徴量及び継続時間等を生成する。ニューラルネットワークの構造として、例えば多層パーセプトロン、畳み込み構造及びリカレント構造などが挙げられる。特に畳み込み構造及びリカレント構造を用いることで、平均ピッチ特徴量及び継続時間に時系列情報を反映できる。
計算部2213は、中間表現系列102に含まれる各々のベクトルの平均ピッチ特徴量と継続時間とから、各々のベクトルのピッチ波形数を計算する。例えば、中間表現系列102内のあるベクトル(中間表現)の平均ピッチ特徴量が、基本周波数の平均f(Hz)であり、継続時間がd(秒)であるとき、このベクトル(中間表現)のピッチ波形数nはn=f×dで計算される。
ピッチ特徴量生成部222は、中間表現系列102に加え、中間表現系列102に含まれる各々のベクトルの平均ピッチ特徴量を用いて各音声フレームにおけるピッチを求めてもよい。このようにすることで、粗ピッチ生成部2211により生成された平均ピッチ特徴量と、実際に生成されたピッチとの差異が小さくなり、継続時間生成部2212で生成された継続時間に近い合成音声(音声波形104)を得ることが期待できる。
以上、説明したように、第3実施形態の音声合成装置10-3では、韻律特徴量103を生成する第1処理部2-3と、スペクトル特徴量及び音声波形104等を生成する第2処理部3とに処理が分かれている。また、音声フレームをピッチに基づき定める。これにより、第3実施形態の音声合成装置10-3によれば、ピッチ同期分析による精密な音声分析を利用できるようになり、合成音声(音声波形104)の品質が向上する。
(第4実施形態)
次に第4実施形態について説明する。第4実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
[機能構成の例]
図14は、第4実施形態の音声合成装置10-4の機能構成の例を示す図である。第4実施形態の音声合成装置10-4は、解析部1、第1処理部2-4、第2処理部3、話者特定情報変換部4及びスタイル特定情報変換部5を備える。第1処理部2-4は、エンコーダ21、韻律特徴量デコーダ22及び付与部24を備える。
第4実施形態の音声合成装置10-4では、話者特定情報変換部4、スタイル特定情報変換部5及び付与部24によって、話者特定情報及びスタイル特定情報を合成音声(音声波形104)に反映する。これにより、第4実施形態の音声合成装置10-4は、複数の話者及びスタイル等の合成音声を得ることができる。
話者特定情報は、入力された話者を特定する。例えば、話者特定情報は、「2番の話者(番号により識別される話者)」及び「この音声の話者(発話音声により提示される話者)」等により示される。
スタイル特定情報は、話し方のスタイル(例えば感情等)を特定する。例えば、スタイル特定情報は、「1番のスタイル(番号により識別されるスタイル)」及び「この音声のスタイル(発話音声により提示されるスタイル)」等により示される。
話者特定情報変換部4は、話者特定情報を話者の特徴情報を示す話者ベクトルに変換する。話者ベクトルは、話者特定情報を音声合成装置10-4で利用するためのベクトルである。例えば話者特定情報が音声合成装置10-4で合成可能な話者の指定を含む場合、話者ベクトルは、その話者に対応する埋め込み表現のベクトルとなる。また話者特定情報が別途用意されたある話者による発話音声の場合、話者ベクトルは、例えば非特許文献3で提案されているように、i-vectorなどのような発話音声の音響特徴量と話者識別に用いる統計モデルと、から得られるベクトルとなる。
スタイル特定情報変換部5は、話し方のスタイルを特定するスタイル特定情報をスタイルの特徴情報を示すスタイルベクトルに変換する。スタイルベクトルは、話者ベクトルと同様に、スタイル特定情報を音声合成装置10-4で利用するためのベクトルである。例えばスタイル特定情報が音声合成装置10-4で合成可能なスタイルの指定を含む場合、スタイルベクトルはそのスタイルに対応する埋め込み表現のベクトルとなる。またスタイル特定情報が別途用意されたあるスタイルによる発話音声の場合、スタイルベクトルは、例えば非特許文献4で提案されているGlobal Style Tokens(GST)などのように、発話音声の音響特徴量をニューラルネットワークなどにより変換して得られるベクトルとなる。
付与部24は、エンコーダ21により得られる中間表現系列102に話者ベクトル及びスタイルベクトル等が示す特徴情報を付与する。
[音声合成方法の例]
図15は、第4実施形態の音声合成方法の例を示すフローチャートである。はじめに、解析部1が、入力テキストを解析し、言語特徴量を示す1つ以上のベクトルを含む言語特徴量系列101を出力する(ステップS51)。次に、話者特定情報変換部4が、話者特定情報を上述の方法で話者ベクトルに変換する(ステップS52)。次に、スタイル特定情報変換部5が、スタイル特定情報を上述の方法でスタイルベクトルに変換する(ステップS53)。なお、ステップS52及びS53の実行順序は逆でもよい。
次に、付与部24が、中間表現系列102に話者ベクトル及びスタイルベクトル等の情報を付与し、韻律特徴量デコーダ22が、当該中間表現系列102から韻律特徴量103を生成する(ステップS54)。そして、第2処理部3(音声波形デコーダ31)が、中間表現系列102と、韻律特徴量103とから、音声波形104を逐次的に出力する(ステップS55)。
[第1処理部の処理の詳細]
図16は、第4実施形態の第1処理部2-4の処理例を説明するための図である。はじめに、エンコーダ21が、言語特徴量系列101を中間表現系列102に変換する(ステップS61)。
続いて、付与部24が、中間表現系列102に話者ベクトル及びスタイルベクトル等の情報を付与する(ステップS62)。
ステップS62の付与方法はいくつか考えられる。例えば、中間表現系列102に含まれる各ベクトル(中間表現)に話者ベクトルとスタイルベクトルとを足すことによって、中間表現系列102に情報を付与してもよい。
また例えば、中間表現系列102に含まれる各ベクトル(中間表現)に話者ベクトルとスタイルベクトルとを結合することによって、中間表現系列102に情報を付与してもよい。具体的には、n次元のベクトル(中間表現)の成分に、m次元の話者ベクトルの成分と、m次元のスタイルベクトルの成分とを合わせて、n+m+m次元のベクトルを形成することにより、中間表現系列102に情報を付与してもよい。
また例えば、話者ベクトルとスタイルベクトルとが結合された中間表現系列102を、更に線形変換することによって、話者ベクトルとスタイルベクトルとが結合された中間表現系列102をより適切なベクトル表現に変換してもよい。
次に、韻律特徴量デコーダ22が、ステップS62で得られた中間表現系列102から、韻律特徴量103を生成する(ステップS63)。
ステップS62で得られた中間表現系列102、及び、ステップS63で生成された韻律特徴量103には、話者・スタイル情報が反映されているので、続く第2処理部3により得られる音声波形104は、その話者の特徴及びスタイルの特徴を有する。
なお、第2処理部3の音声波形デコーダ31が備える波形生成部312が、第3のニューラルネットワークに含まれるニューラルネットワークを用いて波形を生成する場合、そのニューラルネットワークが話者ベクトルとスタイルベクトルとを利用してもよい。このようにすることで、合成音声(音声波形104)の話者及びスタイル等の再現度が向上することが期待できる。
以上、説明したように、第4実施形態の音声合成装置10-4では、話者特定情報及びスタイル特定情報を受け付け、音声波形104に反映することで、複数の話者及びスタイルの合成音声(音声波形104)を得ることができる。
(変形例)
第1乃至第4実施形態の音声合成装置10(10-2、10-3、10-4)の解析部1は、入力テキストを複数の部分テキストに分割し、それぞれの部分テキストに対して言語特徴量系列101を出力してもよい。例えば、入力テキストが複数の文で構成されている場合、文を基準として部分テキストに分割し、それぞれの部分テキストに対して言語特徴量系列101を求めても良い。複数の言語特徴量系列101が出力された場合は、それぞれの言語特徴量系列101に対して後段の処理が実行される。例えば、各言語特徴量系列101は、時系列順に順番に処理されてもよい。また例えば、複数の言語特徴量系列101が、並行して処理されてもよい。
なお、第1乃至第4実施形態の音声合成装置10(10-2、10-3、10-4)で用いられるニューラルネットワークは、いずれも統計的手法により学習される。この際、いくつかのニューラルネットワークを同時に学習することで、全体最適なパラメータを得ることができる。
例えば、第1実施形態の音声合成装置10では、第1処理部2で用いられるニューラルネットワークと、スペクトル特徴量生成部311で用いられるニューラルネットワークとが同時に最適化されてもよい。これにより、音声合成装置10が、韻律特徴量103及びスペクトル特徴量の両方の生成にとって、最適なニューラルネットワークを利用できる。
最後に、第1乃至第4実施形態の音声合成装置10(10-2、10-3、10-4)のハードウェア構成の例について説明する。第1乃至第4実施形態の音声合成装置10(10-2、10-3、10-4)は、例えば、任意のコンピュータ装置を基本ハードウェアとして用いることで実現できる。
[ハードウェア構成の例]
図17は、第1乃至第4実施形態の音声合成装置10(10-2、10-3、10-4)のハードウェア構成の例を示す図である。第1乃至第4実施形態の音声合成装置10(10-2、10-3、10-4)は、プロセッサ201、主記憶装置202、補助記憶装置203、表示装置204、入力装置205及び通信装置206を備える。プロセッサ201、主記憶装置202、補助記憶装置203、表示装置204、入力装置205及び通信装置206は、バス210を介して接続されている。
なお、音声合成装置10(10-2、10-3、10-4)は、上記構成の一部が備えられていなくてもよい。例えば、音声合成装置10(10-2、10-3、10-4)が、外部の装置の入力機能及び表示機能を利用可能な場合、音声合成装置10(10-2、10-3、10-4)に表示装置204及び入力装置205が備えられていなくてもよい。
プロセッサ201は、補助記憶装置203から主記憶装置202に読み出されたプログラムを実行する。主記憶装置202は、ROM及びRAM等のメモリである。補助記憶装置203は、HDD(Hard Disk Drive)及びメモリカード等である。
表示装置204は、例えば液晶ディスプレイ等である。入力装置205は、情報処理装置100を操作するためのインターフェースである。なお、表示装置204及び入力装置205は、表示機能と入力機能とを有するタッチパネル等により実現されていてもよい。通信装置206は、他の装置と通信するためのインターフェースである。
例えば、音声合成装置10(10-2、10-3、10-4)で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルで、メモリカード、ハードディスク、CD-RW、CD-ROM、CD-R、DVD-RAM及びDVD-R等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。
また例えば、音声合成装置10(10-2、10-3、10-4)で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
また例えば、音声合成装置10(10-2、10-3、10-4)で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。具体的には、サーバコンピュータから、プログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、音声合成処理を実行する構成としてもよい。
また例えば、音声合成装置10(10-2、10-3、10-4)のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
音声合成装置10(10-2、10-3、10-4)で実行されるプログラムは、上述の機能構成のうち、プログラムによっても実現可能な機能を含むモジュール構成となっている。当該各機能は、実際のハードウェアとしては、プロセッサ201が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置202上にロードされる。すなわち上記各機能ブロックは主記憶装置202上に生成される。
なお上述した各機能の一部又は全部をソフトウェアにより実現せずに、IC等のハードウェアにより実現してもよい。
また複数のプロセッサ201を用いて各機能を実現してもよく、その場合、各プロセッサ201は、各機能のうち1つを実現してもよいし、各機能のうち2以上を実現してもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 解析部
2 第1処理部
3 第2処理部
4 話者特定情報変換部
5 スタイル特定情報変換部
10 音声合成装置
21 エンコーダ
22 韻律特徴量デコーダ
23 加工部
24 付与部
31 音声波形デコーダ
311 スペクトル特徴量生成部
312 波形生成部
201 プロセッサ
202 主記憶装置
203 補助記憶装置
204 表示装置
205 入力装置
206 通信装置
210 バス
221 継続音声フレーム数生成部
222 ピッチ特徴量生成部
2211 粗ピッチ生成部
2212 継続時間生成部
2213 計算部

Claims (11)

  1. 入力テキストを解析し、言語特徴量を示す1つ以上のベクトルを含む言語特徴量系列を生成する解析部と、
    第1処理部と、第2処理部とを備え、
    前記第1処理部は、
    前記言語特徴量系列を、第1のニューラルネットワークによって、潜在変数を示す1つ以上のベクトルを含む中間表現系列に変換するエンコーダと、
    前記中間表現系列から第2のニューラルネットワークによって韻律特徴量を生成する韻律特徴量デコーダと、を備え、
    前記第2処理部は、前記中間表現系列と前記韻律特徴量とから第3のニューラルネットワークによって音声波形を逐次的に生成する音声波形デコーダを、備える、
    音声合成装置。
  2. 前記第2処理部の音声波形デコーダは、
    前記中間表現系列と前記韻律特徴量とから、所定のサンプル数に対応する音声フレーム数のスペクトル特徴量を、時系列順に生成するスペクトル特徴量生成部と、
    前記スペクトル特徴量から、所定のサンプル数ずつ前記音声波形を時系列順に生成することによって、前記音声波形を逐次的に生成する波形生成部と、
    を備える、請求項1に記載の音声合成装置。
  3. 前記スペクトル特徴量生成部は、第3のニューラルネットワークに含まれるリカレント構造及び畳み込み構造の少なくとも一方を有するニューラルネットワークによって、前記中間表現系列と前記韻律特徴量とから、前記スペクトル特徴量を時系列順に生成する、
    請求項2に記載の音声合成装置。
  4. 前記韻律特徴量デコーダは、
    前記中間表現系列に含まれる各々のベクトルの継続音声フレーム数を生成する継続音声フレーム数生成部と、
    前記継続音声フレーム数に基づき、各音声フレームにおけるピッチ特徴量を前記第2のニューラルネットワークに含まれるニューラルネットワークによって生成するピッチ特徴量生成部と、
    を備える請求項1乃至3のいずれか1項に記載の音声合成装置。
  5. 音声フレームがピッチに基づいて定まり、
    前記継続音声フレーム数生成部は、
    前記中間表現系列に含まれる各々のベクトルの平均ピッチ特徴量を生成する粗ピッチ生成部と、
    前記中間表現系列に含まれる各々のベクトルの継続時間を生成する継続時間生成部と、
    前記平均ピッチ特徴量と前記継続時間とから、ピッチ波形数を計算する計算部と、
    を備える請求項4に記載の音声合成装置。
  6. 前記第1処理部は、
    前記韻律特徴量を加工する加工部を更に備え、
    前記第2処理部は、前記韻律特徴量デコーダにより生成された韻律特徴量、または前記加工部により加工された韻律特徴量を受け付ける、
    請求項1乃至5のいずれか1項に記載の音声合成装置。
  7. 前記加工部は、前記韻律特徴量に対するユーザの加工指示を受け付け、前記ユーザの加工指示に基づき前記韻律特徴量を加工し、
    前記ユーザの加工指示は、前記韻律特徴量に対する値の変更指示、または、前記入力テキストの発話音声の音声解析により得られた韻律特徴量への射影指示、
    を含む請求項6に記載の音声合成装置。
  8. 話者を特定する話者特定情報を、前記話者の特徴情報を示す話者ベクトルに変換する話者特定情報変換部を更に備え、
    前記第1処理部は、
    前記中間表現系列に前記話者ベクトルの特徴情報を付与する付与部、
    を更に備える請求項1乃至7のいずれか1項に記載の音声合成装置。
  9. 話し方のスタイルを特定するスタイル特定情報を、前記スタイルの特徴情報を示すスタイルベクトルに変換するスタイル特定情報変換部を更に備え、
    前記第1処理部は、
    前記中間表現系列に前記スタイルベクトルの特徴情報を付与する付与部、
    を更に備える請求項1乃至8のいずれか1項に記載の音声合成装置。
  10. 解析部が、入力テキストを解析し、言語特徴量を示す1つ以上のベクトルを含む言語特徴量系列を生成するステップと、
    第1処理部が、前記言語特徴量系列を、第1のニューラルネットワークによって、潜在変数を示す1つ以上のベクトルを含む中間表現系列に変換するステップと、
    前記第1処理部が、前記中間表現系列から第2のニューラルネットワークによって韻律特徴量を生成するステップと、
    第2処理部が、前記中間表現系列と前記韻律特徴量とから第3のニューラルネットワークによって音声波形を逐次的に生成するステップと、
    を含む音声合成方法。
  11. コンピュータを、
    入力テキストを解析し、言語特徴量を示す1つ以上のベクトルを含む言語特徴量系列を生成する解析部と、
    第1処理部と、第2処理部、として機能させ、
    前記第1処理部は、
    前記言語特徴量系列を、第1のニューラルネットワークによって、潜在変数を示す1つ以上のベクトルを含む中間表現系列に変換するエンコーダと、
    前記中間表現系列から第2のニューラルネットワークによって韻律特徴量を生成する韻律特徴量デコーダ、の機能を有し、
    前記第2処理部は、前記中間表現系列と前記韻律特徴量とから第3のニューラルネットワークによって音声波形を逐次的に生成する音声波形デコーダの機能を有する、
    プログラム。
JP2022045139A 2022-03-22 2022-03-22 音声合成装置、音声合成方法及びプログラム Pending JP2023139557A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022045139A JP2023139557A (ja) 2022-03-22 2022-03-22 音声合成装置、音声合成方法及びプログラム
PCT/JP2023/010951 WO2023182291A1 (ja) 2022-03-22 2023-03-20 音声合成装置、音声合成方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022045139A JP2023139557A (ja) 2022-03-22 2022-03-22 音声合成装置、音声合成方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2023139557A true JP2023139557A (ja) 2023-10-04

Family

ID=88101021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022045139A Pending JP2023139557A (ja) 2022-03-22 2022-03-22 音声合成装置、音声合成方法及びプログラム

Country Status (2)

Country Link
JP (1) JP2023139557A (ja)
WO (1) WO2023182291A1 (ja)

Also Published As

Publication number Publication date
WO2023182291A1 (ja) 2023-09-28

Similar Documents

Publication Publication Date Title
US12033611B2 (en) Generating expressive speech audio from text data
JP3408477B2 (ja) フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ
US7979274B2 (en) Method and system for preventing speech comprehension by interactive voice response systems
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
US11763797B2 (en) Text-to-speech (TTS) processing
Wouters et al. Control of spectral dynamics in concatenative speech synthesis
JP5148026B1 (ja) 音声合成装置および音声合成方法
CN114203147A (zh) 用于文本到语音的跨说话者样式传递以及用于训练数据生成的***和方法
JP5039865B2 (ja) 声質変換装置及びその方法
Astrinaki et al. Reactive and continuous control of HMM-based speech synthesis
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
JP3109778B2 (ja) 音声規則合成装置
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
JP2008015424A (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP6578544B1 (ja) 音声処理装置、および音声処理方法
JP2021148942A (ja) 声質変換システムおよび声質変換方法
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JP2020204755A (ja) 音声処理装置、および音声処理方法
JP6587308B1 (ja) 音声処理装置、および音声処理方法
Astrinaki et al. sHTS: A streaming architecture for statistical parametric speech synthesis
JP2703253B2 (ja) 音声合成装置
JPH11161297A (ja) 音声合成方法及び装置
D’Souza et al. Comparative Analysis of Kannada Formant Synthesized Utterances and their Quality
Сатыбалдиыева et al. Analysis of methods and models for automatic processing systems of speech synthesis