JP5722295B2 - 音響モデル生成方法と音声合成方法とそれらの装置とプログラム - Google Patents
音響モデル生成方法と音声合成方法とそれらの装置とプログラム Download PDFInfo
- Publication number
- JP5722295B2 JP5722295B2 JP2012248151A JP2012248151A JP5722295B2 JP 5722295 B2 JP5722295 B2 JP 5722295B2 JP 2012248151 A JP2012248151 A JP 2012248151A JP 2012248151 A JP2012248151 A JP 2012248151A JP 5722295 B2 JP5722295 B2 JP 5722295B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- tone
- information
- learning
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Description
音調結合型抽出手段202は、音声パラメータ生成手段201で生成した音声パラメータ系列と、外部から入力される学習用音声データとを用いて、アクセント句間の音調結合型を抽出する。図7に、アクセント句間の概念を示す。例えば「今日は打ち合わせです。」の一文は、「今日は」、「打ち合わせ」、「です」の3つのアクセント句で構成される。このアクセント句の位置(時間)は、発話情報を参照することで得られる。
アクセント句の境界の前後t[ms]のF0の平均値から音調結合型を求める例を説明したが、j番目とj+1番目のアクセント句を構成する全ての発話のF0の平均値の差分で音調結合型を判別しても良い。音声パラメータ系列のi番目の発話のj番目、j+1番目のアクセント句の平均値をfsij,fsij+1、学習用音声データの同じアクセント句の平均値をfoij,foij+1として求め、音声パラメータ系列の差分をds=fsij−fsij+1、学習用音声データの差分do=foij−foij+1とした時のdsとdoとの差分(do−ds)が閾値αより大の場合を弱結合、小の場合を強結合として判別しても良い。
音調結合型として弱結合と強結合の2種類のみを抽出する例で説明をしたが、任意のN種類の音調結合型を抽出することも可能である。図9に、N種類の音調結合型を抽出するようにした音調結合型抽出部20の動作フローを示す。
図10に、この発明の音声合成装置200の機能構成例を示す。その動作フローを図11に示す。音声合成装置200は、テキスト解析部210と、音声パラメータ生成部220と、音調結合型音響モデル230と、音声合成フィルタ部250と、制御部240と、を具備する。音声合成装置200は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
Claims (7)
- 音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報とを含む発話情報と、を入力として音声合成用HMMを学習して生成するモデル学習過程と、
上記音声合成用HMMから、上記発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと上記学習用音声データのパラメータとを用いて各アクセント句間のピッチパタン形状に影響を与える音調結合型を抽出する音調結合型抽出過程と、
上記学習用音声データと上記発話情報と上記音調結合型とを入力として、上記音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する音調結合型モデル学習過程と、
を備える音響モデル生成方法。 - 請求項1に記載した音響モデル生成方法において、
上記音調結合型抽出過程は、
上記モデル学習過程で生成された音声合成用HMMと上記発話情報を入力として、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータ系列を生成する音声パラメータ生成ステップと、
上記音声パラメータ系列と上記学習用音声データのパラメータを用いて、アクセント句間の上記音調結合型を抽出する音調結合型抽出ステップと、
を含むことを特徴とする音響モデル生成方法。 - 請求項1又は2に記載した音響モデル生成方法で生成した音調結合型音響モデルと、
音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析して読みとアクセントと音調結合型とから成るテキスト情報を出力するテキスト解析過程と、
上記音調結合型音響モデルと上記テキスト情報とを用いて、音声パラメータを生成する音声パラメータ生成過程と、
上記音声パラメータを用いて音声波形を生成する音声合成フィルタ過程と、
を備える音声合成方法。 - 音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報とを含む発話情報と、を入力として音声合成用HMMを学習して生成するモデル学習部と、
上記音声合成用HMMから、上記発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと上記学習用音声データのパラメータとを用いて各アクセント句間のピッチパタン形状に影響を与える音調結合型を抽出する音調結合型抽出部と、
上記学習用音声データと上記発話情報と上記音調結合型とを入力として、上記音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する音調結合型モデル学習部と、
を具備する音響モデル生成装置。 - 請求項4に記載した音響モデル生成装置において、
上記音調結合型抽出部は、
上記モデル学習部で生成された音声合成用HMMと上記発話情報を入力として、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータ系列を生成する音声パラメータ生成手段と、
上記音声パラメータ系列と上記学習用音声データのパラメータを用いて、アクセント句間の上記音調結合型を抽出する音調結合型抽出手段と、
を備えることを特徴とする音響モデル生成装置。 - 請求項4又は5に記載した音響モデル生成装置で生成した音調結合型音響モデルと、
音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析して読みとアクセントと音調結合型とから成るテキスト情報を出力するテキスト解析部と、
上記音調結合型音響モデルと上記テキスト情報とを用いて、音声パラメータを生成する音声パラメータ生成部と、
上記音声パラメータを用いて音声波形を生成する音声合成フィルタ部と、
を具備する音声合成装置。 - 請求項4又は5に記載した音響モデル生成装置、又は請求項6に記載した音声合成装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012248151A JP5722295B2 (ja) | 2012-11-12 | 2012-11-12 | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012248151A JP5722295B2 (ja) | 2012-11-12 | 2012-11-12 | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014095851A JP2014095851A (ja) | 2014-05-22 |
JP5722295B2 true JP5722295B2 (ja) | 2015-05-20 |
Family
ID=50938934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012248151A Active JP5722295B2 (ja) | 2012-11-12 | 2012-11-12 | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5722295B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105719641B (zh) * | 2016-01-19 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 用于波形拼接语音合成的选音方法和装置 |
CN110534089B (zh) * | 2019-07-10 | 2022-04-22 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3334471B2 (ja) * | 1995-09-25 | 2002-10-15 | 三菱電機株式会社 | ピッチパタン生成装置,ピッチパタン生成方法,ピッチパタン生成装置における学習装置およびピッチパタン生成方法における学習方法。 |
JP3583929B2 (ja) * | 1998-09-01 | 2004-11-04 | 日本電信電話株式会社 | ピッチパタン変形方法及びその記録媒体 |
US7136816B1 (en) * | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
JP4559950B2 (ja) * | 2005-10-20 | 2010-10-13 | 株式会社東芝 | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム |
JP4829912B2 (ja) * | 2008-02-27 | 2011-12-07 | 日本電信電話株式会社 | 基本周波数推定装置、基本周波数推定方法、基本周波数推定プログラム、記憶媒体 |
JP6036682B2 (ja) * | 2011-02-22 | 2016-11-30 | 日本電気株式会社 | 音声合成システム、音声合成方法、および音声合成プログラム |
-
2012
- 2012-11-12 JP JP2012248151A patent/JP5722295B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014095851A (ja) | 2014-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6622505B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
US10529314B2 (en) | Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
JP6342428B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US10497362B2 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
US11335324B2 (en) | Synthesized data augmentation using voice conversion and speech recognition models | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP5411845B2 (ja) | 音声合成方法、音声合成装置及び音声合成プログラム | |
EP4266306A1 (en) | A speech processing system and a method of processing a speech signal | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
KR20200138993A (ko) | 감정 토큰을 이용한 감정 음성 합성 방법 및 장치 | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
Chen et al. | Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP5320341B2 (ja) | 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム | |
JP6000326B2 (ja) | 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
JP2001255887A (ja) | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 | |
JP2009300716A (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP6370732B2 (ja) | 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム | |
JP5155836B2 (ja) | 収録テキスト生成装置、その方法、そのプログラム | |
Piqueras et al. | Statistical text-to-speech synthesis of Spanish subtitles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140902 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141007 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150317 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5722295 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |