JP2001350491A - 音声処理方法および装置 - Google Patents

音声処理方法および装置

Info

Publication number
JP2001350491A
JP2001350491A JP2000170708A JP2000170708A JP2001350491A JP 2001350491 A JP2001350491 A JP 2001350491A JP 2000170708 A JP2000170708 A JP 2000170708A JP 2000170708 A JP2000170708 A JP 2000170708A JP 2001350491 A JP2001350491 A JP 2001350491A
Authority
JP
Japan
Prior art keywords
information
prosody
unit
speech
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000170708A
Other languages
English (en)
Other versions
JP2001350491A5 (ja
Inventor
Masaaki Yamada
雅章 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000170708A priority Critical patent/JP2001350491A/ja
Publication of JP2001350491A publication Critical patent/JP2001350491A/ja
Publication of JP2001350491A5 publication Critical patent/JP2001350491A5/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】発声環境の変動を考慮した韻律推定モデルを学
習することが可能となる。 【解決手段】学習データを入力する毎に、学習データの
韻律情報を取得し(S3)、学習データの推定要因を取
得し(S4)、学習データの発声日時情報を取得する
(S5)。そして、各学習データの韻律情報、推定要因
および発声日時情報を用いて、所定の韻律情報を推定す
るための韻律推定モデルを学習する(S8)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声処理方法およ
び装置に関し、特に、合成音声の品質を向上させるため
の技術に関わる。
【0002】
【従来の技術】音声規則合成の過程は、入力テキストか
ら継続時間長、基本周波数(F0)、パワー等の韻律情
報を推定する韻律生成工程と、生成された韻律情報によ
り音声波形を生成する波形生成工程とに大別される。
【0003】韻律生成工程に於いては、近年、コーパス
に基づく手法が用いられている。これは、大量の学習デ
ータをもとに、テキストと韻律情報との関係を統計的に
学習する手法である。この手法を用いて、所定の推定要
因を入力として所定の韻律情報を出力とするモデル(韻
律推定モデル)を仮定することによって、所定の韻律情
報の推定が可能となる。
【0004】
【発明が解決しようとする課題】しかしながら、上記手
法には以下の問題がある。
【0005】継続時間長、基本周波数、パワー等の韻律
情報は発声環境の影響を受けて変動するため、上記手法
を用いて精度の良い韻律推定モデルを作成するために
は、発声環境の安定した学習データを大量に用意する必
要がある。ところが、大量の学習データを用意するため
には学習データの収録に長時間を要することとなり、長
時間に渡って安定した発声環境を維持しなければ、精度
の良い韻律推定モデルを生成することができないという
問題がある。長時間に渡って安定した発声環境を維持す
るのは大変困難であり、同じ発声者であっても、その日
の体調、慣れ、疲労等によって発声環境は変動してしま
う。このような変動の影響を受けた韻律推定モデルを用
いて生成された合成音声は、不自然で違和感のあるもの
となってしまう。
【0006】本発明は上記の問題に鑑みてなされたもの
であり、発声環境の変動を考慮した韻律推定モデルを学
習することを可能とし、自然で違和感のない合成音声の
生成を可能とすることを目的とする。
【0007】
【課題を解決するための手段】上記の目的を達成するた
めの本発明の一態様による音声処理方法は、音声情報を
入力する入力工程と、前記音声情報から韻律情報を取得
する第1取得工程と、前記音声情報の発声環境の変化を
示す情報を推定要因の一つとして取得する第2取得工程
と、前記韻律情報と前記推定要因とを用いて前記韻律情
報を推定のための韻律推定モデルを学習する学習工程と
を備える。
【0008】上記の目的を達成するための本発明の他の
態様による音声処理方法は、文字情報を解析する解析工
程と、前記文字情報に対応する音声素片を取得する取得
工程と、発声環境の変化を示す情報を推定要因の一つと
して設定する設定工程と、前記推定要因と所定の韻律情
報を推定する韻律推定モデルとを用いて前記音声素片の
韻律情報を推定する推定工程とを備える。
【0009】上記の目的を達成するための本発明の他の
態様による音声処理装置は、音声情報を入力する入力手
段と、前記音声情報から韻律情報を取得する第1取得手
段と、前記音声情報の発声環境の変化を示す情報を推定
要因の一つとして取得する第2取得手段と、前記韻律情
報と前記推定要因とを用いて前記韻律情報を推定のため
の韻律推定モデルを学習する学習手段とを備える。
【0010】上記の目的を達成するための本発明の更に
他の態様による音声処理装置は、文字情報を解析する解
析手段と、前記文字情報に対応する音声素片を取得する
取得手段と、発声環境の変化を示す情報を推定要因の一
つとして設定する設定手段と、前記推定要因と所定の韻
律情報を推定する韻律推定モデルとを用いて前記音声素
片の韻律情報を推定する推定手段とを備える。
【0011】
【発明の実施の形態】以下、添付の図面を参照して本発
明の好適な実施形態を説明する。
【0012】[第1の実施形態]図1は、本実施形態に
おける音声合成装置のハードウェア構成を示すブロック
図である。図1において、11は数値演算、制御等の処
理を行う中央処理装置であり、各種の制御プログラムを
用いて図2及び図4のフローチャートで説明する処理手
順を制御する。12は学習ユニットであり、大量の学習
データを用いて所定の韻律情報を推定する韻律推定モデ
ルを学習する。学習ユニット12は、学習した韻律推定
モデルを管理するモデル管理部19を具備する。学習ユ
ニット12は、ハードウェアで構成することもソフトウ
ェアで構成することも可能である。ソフトウェアで構成
する場合には、このソフトウェアを実現するための制御
プログラムを記録装置13に格納する。そして、中央処
理装置11がこの制御プログラムを基づいてモデル学習
ユニット12の機能を実現する。
【0013】13は半導体メモリやハードディスク等か
らなる記憶装置であり、図2及び図4のフローチャート
で説明する処理手順を実現するための制御プログラム、
学習データの入力や音声合成するテキストの入力を支援
するためのグラフィカルユーザインタフェースを制御す
る制御プログラムを格納する。記憶装置13は、大量の
学習データを蓄積する学習データ蓄積部18を具備す
る。
【0014】14は表示器、スピーカ等からなる出力装
置であり、スピーカは合成された音声を出力し、表示器
は上述のグラフィカルユーザインタフェースを表示す
る。15はキーボードやマイクロフォン等からなる入力
装置であり、キーボードは音声合成したいテキスト(日
本語や他の言語からなる)を入力或いは指定し、マイク
ロフォンは学習データを入力する。16は内部バスであ
る。
【0015】17は音声合成ユニットであり、図4で説
明する処理手順に従って入力テキストから合成音声を生
成する。音声合成ユニット17は、ハードウェアで構成
することもソフトウェアで構成することも可能である。
ソフトウェアで構成する場合には、このソフトウェアを
実現するための制御プログラムを記録装置13に格納す
る。そして、中央処理装置11がこの制御プログラムを
基づいて音声合成ユニット17の機能を実現する。
【0016】次に、以上の構成を備えた本実施形態の音
声合成装置の処理動作について説明する。
【0017】図2は、本実施形態における韻律推定モデ
ルの学習手順を説明するフローチャートである。図2で
は、韻律情報の一つである継続時間長を推定する韻律推
定モデルを学習する手順について説明する。
【0018】まず、ステップS1において、学習ユニッ
ト12は、ループカウンタiを0に初期化する。
【0019】ステップS2において、入力装置15の有
するマイクロフォンは、単語或いは文章を単位とする学
習テキストの音声波形を入力し、この音声波形をi番目
の学習データとして学習ユニット12に供給するととも
に、この音声波形を学習データ蓄積部18に格納する。
【0020】ステップS3において、学習ユニット12
は、i番目の学習データをリアルタイムに音響分析し、
音素を音韻単位とする音韻系列と各音素の韻律情報とを
取得し、これらを学習データ蓄積部18に蓄積する。例
えば、学習テキスト「あらし」の音声波形を音響分析し
た場合には、この音声波形から音韻系列「/a/,/r
/,/a/,/sh/,/i/」を取得する。また、韻
律情報としては、各音素の継続時間長(音韻の長さ)、
基本周波数(音韻の高さ)、パワー(音韻の大きさ)等
を取得する。各音素の継続時間長を韻律情報として蓄積
する例を図3に示す。
【0021】ステップS4において、学習ユニット12
は、i番目の学習データから推定要因を取得し、これら
を学習データ蓄積部18に蓄積する。本実施形態では、
アクセント核の有無、モーラ位置等を推定要因として取
得する。アクセント核の有無、モーラ位置等を推定要因
として蓄積する例を図3に示す。
【0022】ステップS5において、学習ユニット12
は、i番目の学習データの発声日時情報を取得し、これ
を学習データ蓄積部18に蓄積する。この発声日時情報
には、例えば、ステップS2で学習データを学習データ
蓄積部18に蓄積した日時を用いる。この発声日時情報
は、学習データの発声環境の時間的な変動を考慮するた
めの推定要因である。各音素の発声日時情報を推定要因
の一つとして蓄積する例を図3に示す。
【0023】ステップS6において、学習ユニット12
は、ループカウンタiの値に1を加える。そして、ステ
ップS7において、ループカウンタiの値が予め設定さ
れた学習データの総数に等しいか否かを判定する。両者
が等しくない場合には、未入力の学習データがあると判
断し、ステップS2に戻り、上述の処理を繰り返す。こ
うして、学習ユニット12は、大量の学習データの音声
波形、韻律情報、推定要因、発声日時情報を図3のごと
く学習データ蓄積部18に蓄積する。
【0024】ステップS8において、学習ユニット12
は、学習データ蓄積部18に蓄積されたデータを用い
て、韻律情報の一つである継続時間長を推定する韻律推
定モデルを学習する。韻律推定モデルの学習には、数量
化I類や回帰木等の統計的手法を用いる。学習した韻律
推定モデルは、学習ユニット12のモデル管理部19に
格納される。
【0025】以上説明したように本実施形態によれば、
アクセント核の有無、モーラ位置、発声日時情報等の推
定要因を用いて、韻律情報の一つである継続時間長を推
定する韻律推定モデルを学習することができる。特に、
発声日時情報を推定要因の一つとすることにより、学習
データの発声環境の時間的な変動を考慮した韻律推定モ
デルを学習することができる。
【0026】上記実施形態では、アクセント核の有無、
モーラ位置、発声日時情報等の推定要因を用いて、韻律
情報の一つである継続時間長を推定する韻律推定モデル
を学習する例について説明したが、本実施形態はそれに
限るものではない。上述の推定要因を用いることによっ
て、基本周波数、パワー等の韻律情報に対しても、学習
データの発声環境の時間的な変動を考慮した韻律推定モ
デルを学習することが可能である。
【0027】図4は、本実施形態における音声合成処理
の手順を説明するフローチャートである。図4では、韻
律情報の一つである継続時間長を推定する韻律推定モデ
ルを用いて、入力テキストを音声合成する手順を説明す
る。
【0028】まず、ステップS11において、音声合成
ユニット17は、入力されたテキスト(単語、文節、文
等の単位からなる文字列)を解析する。
【0029】ステップS12において、音声合成ユニッ
ト17は、ステップS11での解析結果に基づいて、ア
クセント核の有無、モーラ位置等の推定要因を設定す
る。
【0030】ステップS13において、音声合成ユニッ
ト17は、学習データ蓄積部18を検索し、入力テキス
トの音韻系列に対応する複数個の音声素片と各音声素片
の韻律情報とを取得する。ここで取得する韻律情報は、
継続時間長、基本周波数、パワー等である。
【0031】ステップS14において、音声合成ユニッ
ト17は、ステップS13で取得した所定の音声素片の
発声日時情報を設定する。本実施形態では、例えばステ
ップS13で取得した最初の音声素片の発声日時情報を
設定する。
【0032】ステップS15において、音声合成ユニッ
ト17は、ステップS12で取得した推定要因と、ステ
ップS14で設定した発声日時情報と、学習ユニット1
2のモデル管理部19が保持する韻律推定モデルとを用
いて、韻律情報の一つである継続時間長を推定する。
【0033】ステップS16において、音声合成ユニッ
ト17は、ステップS13で取得した継続時間長をステ
ップS15で推定した継続時間長に置き換え、置き換え
た継続時間長と他の韻律情報とに基づいてステップS1
3で取得した音声素片を波形編集して接続する。本実施
形態では、PSOLA(Pitch-Synchronous Overlap Add meth
od「ピッチ同期波形重畳法」)を用いて各音声素片を波
形編集する。
【0034】ステップS17において、音声合成ユニッ
ト17は、ステップS16で生成した合成音声を出力装
置14に供給する。この合成音声は、出力装置14の具
備するスピーカから出力される。
【0035】以上説明したように本実施形態によれば、
発声環境の時間的な変動を考慮して学習した韻律推定モ
デルを用いて、韻律情報の一つである継続時間長を推定
することができる。これにより、入力テキストから発声
環境の変動による影響を抑制した自然で違和感のない合
成音声を生成することが可能となる。
【0036】上記実施形態では、発声環境の時間的な変
動を考慮して学習した韻律推定モデルを用いて入力テキ
ストの継続時間長を推定する例について説明したが、本
実施形態はそれに限るものではない。継続時間長だけで
なく、基本周波数、パワー等の韻律情報を推定すること
も可能である。
【0037】上記実施形態では、学習データを実際に入
力した日時を、推定要因の一つである発声日時情報とし
て用いる例について説明したが、本実施例はそれに限る
ものではない。例えば、図6に示すように、所定の期間
(時間、日にち等の単位)を表わすラベルを発声日時情
報として用いてもよい。図6は、韻律情報の一つである
継続時間長を推定する韻律推定モデルを学習するための
学習データの一例を示す図である。図6のアクセント核
の有無、モーラ位置、発声日時情報等は、この韻律推定
モデルの推定要因である。各学習データの発声日時情報
には、例えば、所定の時間毎に異なるラベル(セット1
〜7)を付与する。
【0038】また、上記実施形態では、推定要因として
アクセント核の有無、モーラ位置、発声日時情報等を用
いる例について説明したが、本実施形態はそれに限るも
のではない。学習データの発声環境の変動による影響を
考慮することのできる推定要因であれば、発声日時情報
に加えて更に、話者の性別、単語を発声することにより
得た学習データなのか文を発声することにより得た学習
データなのか、読み上げ文から得た学習データなのか対
話文から得た学習データなのか等を推定要因として用い
ることも可能である。このような推定要因の種類を増や
すことによって、より高精度な韻律推定モデルを生成す
ることが可能となる。また、このような韻律推定モデル
を用いることにより、極めて自然で違和感のない合成音
声を生成することもできる。また、アクセント型、モー
ラ数を推定要因として用いることも可能である。
【0039】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体(または記録媒体)を、システムあるい
は装置に供給し、そのシステムあるいは装置のコンピュ
ータ(またはCPUやMPU)が記憶媒体に格納された
プログラムコードを読み出し実行することによっても、
達成されることは言うまでもない。この場合、記憶媒体
から読み出されたプログラムコード自体が前述した実施
形態の機能を実現することになり、そのプログラムコー
ドを記憶した記憶媒体は本発明を構成することになる。
また、コンピュータが読み出したプログラムコードを実
行することにより、前述した実施形態の機能が実現され
るだけでなく、そのプログラムコードの指示に基づき、
コンピュータ上で稼働しているオペレーティングシステ
ム(OS)などが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることは言うまでもない。
【0040】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、
その処理によって前述した実施形態の機能が実現される
場合も含まれることは言うまでもない。
【0041】
【発明の効果】以上説明したように、本発明によれば、
発声環境の変動を考慮した韻律推定モデルを学習するこ
とが可能となる。
【0042】また、本発明によれば、発声環境の変動に
よる影響を抑制した自然で違和感のない合成音声を生成
することが可能とできる。
【図面の簡単な説明】
【図1】本実施形態における音声合成装置のハードウェ
ア構成を示すブロック図である。
【図2】本実施形態における韻律推定モデルの学習手順
を説明するフローチャートである。
【図3】本実施形態における韻律情報、推定要因、発声
日時情報の例を示す図である。
【図4】本実施形態における音声合成処理の手順を説明
するフローチャートである。
【図5】他の実施形態における韻律情報、推定要因、発
声日時情報の例を示す図である。

Claims (25)

    【特許請求の範囲】
  1. 【請求項1】 音声情報を入力する入力工程と、 前記音声情報から韻律情報を取得する第1取得工程と、 前記音声情報の発声環境の変化を示す情報を推定要因の
    一つとして取得する第2取得工程と、 前記韻律情報と前記推定要因とを用いて前記韻律情報を
    推定のための韻律推定モデルを学習する学習工程とを備
    えることを特徴とする音声処理方法。
  2. 【請求項2】 前記第1取得工程は、音素毎に前記韻律
    情報を取得することを特徴とする請求項1に記載の音声
    処理方法。
  3. 【請求項3】 前記第1取得工程は、継続時間長、基本
    周波数、パワーの何れかを前記韻律情報として取得する
    ことを特徴とする請求項1又は2に記載の音声処理方
    法。
  4. 【請求項4】 前記音声情報の発声環境の変化を示す情
    報は、前記音声情報の発声日時を示す情報であることを
    特徴とする請求項1及至3のいずれかに記載の音声処理
    方法。
  5. 【請求項5】 前記第2取得工程は、前記学習データの
    アクセント情報を推定要因の一つとして取得することを
    特徴とする請求項1及至4のいずれかに記載の音声処理
    方法。
  6. 【請求項6】 前記第2取得工程は、前記学習データの
    モーラ情報を推定要因の一つとして取得することを特徴
    とする請求項1及至5のいずれかに記載の音声処理方
    法。
  7. 【請求項7】 文字情報を解析する解析工程と、 前記文字情報に対応する音声素片を取得する取得工程
    と、 発声環境の変化を示す情報を推定要因の一つとして設定
    する設定工程と、 前記推定要因と所定の韻律情報を推定する韻律推定モデ
    ルとを用いて前記音声素片の韻律情報を推定する推定工
    程とを備えることを特徴とする音声処理方法。
  8. 【請求項8】 前記韻律推定モデルは、継続時間長、基
    本周波数、パワーの何れかを推定することを特徴とする
    請求項7に記載の音声処理方法。
  9. 【請求項9】 前記発声環境の変化を示す情報は、前記
    音声素片の発声日時を示す情報であることを特徴とする
    請求項7又は8に記載の音声処理方法。
  10. 【請求項10】 前記設定工程は、前記文字情報のアク
    セント情報を推定要因の一つとして設定することを特徴
    とする請求項7及至9のいずれかに記載の音声処理方
    法。
  11. 【請求項11】 前記設定工程は、前記文字情報のモー
    ラ情報を推定要因の一つとして設定することを特徴とす
    る請求項7及至10のいずれかに記載の音声処理方法。
  12. 【請求項12】 更に、前記取得工程で取得した音声素
    片と前記推定工程で推定した韻律情報とを用いて前記文
    字情報に対応する音声を合成する合成工程を含むことを
    特徴とする請求項7及至11のいずれかに記載の音声処
    理方法。
  13. 【請求項13】 音声情報を入力する入力手段と、 前記音声情報から韻律情報を取得する第1取得手段と、 前記音声情報の発声環境の変化を示す情報を推定要因の
    一つとして取得する第2取得手段と、 前記韻律情報と前記推定要因とを用いて前記韻律情報を
    推定のための韻律推定モデルを学習する学習手段とを備
    えることを特徴とする音声処理装置。
  14. 【請求項14】 前記第1取得手段は、音素毎に前記韻
    律情報を取得することを特徴とする請求項13に記載の
    音声処理装置。
  15. 【請求項15】 前記第1取得手段は、継続時間長、基
    本周波数、パワーの何れかを前記韻律情報として取得す
    ることを特徴とする請求項13又は14に記載の音声処
    理装置。
  16. 【請求項16】 前記音声情報の発声環境の変化を示す
    情報は、前記音声情報の発声日時を示す情報であること
    を特徴とする請求項13及至15のいずれかに記載の音
    声処理装置。
  17. 【請求項17】 前記第2取得手段は、前記学習データ
    のアクセント情報を推定要因の一つとして取得すること
    を特徴とする請求項13及至16のいずれかに記載の音
    声処理装置。
  18. 【請求項18】 前記第2取得手段は、前記学習データ
    のモーラ情報を推定要因の一つとして取得することを特
    徴とする請求項13及至17のいずれかに記載の音声処
    理装置。
  19. 【請求項19】 文字情報を解析する解析手段と、 前記文字情報に対応する音声素片を取得する取得手段
    と、 発声環境の変化を示す情報を推定要因の一つとして設定
    する設定手段と、 前記推定要因と所定の韻律情報を推定する韻律推定モデ
    ルとを用いて前記音声素片の韻律情報を推定する推定手
    段とを備えることを特徴とする音声処理装置。
  20. 【請求項20】 前記韻律推定モデルは、継続時間長、
    基本周波数、パワーの何れかを推定することを特徴とす
    る請求項19に記載の音声処理装置。
  21. 【請求項21】 前記発声環境の変化を示す情報は、前
    記音声素片の発声日時を示す情報であることを特徴とす
    る請求項19又は20に記載の音声処理装置。
  22. 【請求項22】 前記設定手段は、前記文字情報のアク
    セント情報を推定要因の一つとして設定することを特徴
    とする請求項19及至21のいずれかに記載の音声処理
    装置。
  23. 【請求項23】 前記設定手段は、前記文字情報のモー
    ラ情報を推定要因の一つとして設定することを特徴とす
    る請求項19及至22のいずれかに記載の音声処理装
    置。
  24. 【請求項24】 更に、前記取得手段で取得した音声素
    片と前記推定手段で推定した韻律情報とを用いて前記文
    字情報に対応する音声を合成する合成手段を含むことを
    特徴とする請求項19及至22のいずれかに記載の音声
    処理装置。
  25. 【請求項25】 請求項1乃至12のいずれかに記載の
    音声処理方法をコンピュータによって実現するための制
    御プログラムを格納したことを特徴とする記憶媒体。
JP2000170708A 2000-06-07 2000-06-07 音声処理方法および装置 Withdrawn JP2001350491A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000170708A JP2001350491A (ja) 2000-06-07 2000-06-07 音声処理方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000170708A JP2001350491A (ja) 2000-06-07 2000-06-07 音声処理方法および装置

Publications (2)

Publication Number Publication Date
JP2001350491A true JP2001350491A (ja) 2001-12-21
JP2001350491A5 JP2001350491A5 (ja) 2007-07-26

Family

ID=18673382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000170708A Withdrawn JP2001350491A (ja) 2000-06-07 2000-06-07 音声処理方法および装置

Country Status (1)

Country Link
JP (1) JP2001350491A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006084967A (ja) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International 予測モデルの作成方法およびコンピュータプログラム
JP2019211748A (ja) * 2018-06-04 2019-12-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声合成方法及び装置、コンピュータ設備及び読取り可能な媒体
WO2020166359A1 (ja) * 2019-02-12 2020-08-20 日本電信電話株式会社 推定装置、推定方法、及びプログラム
JP2021012315A (ja) * 2019-07-08 2021-02-04 日本電信電話株式会社 学習装置、推定装置、推定方法、およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006084967A (ja) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International 予測モデルの作成方法およびコンピュータプログラム
JP2019211748A (ja) * 2018-06-04 2019-12-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声合成方法及び装置、コンピュータ設備及び読取り可能な媒体
US10825444B2 (en) 2018-06-04 2020-11-03 Baidu Online Network Technology (Beijing) Co., Ltd. Speech synthesis method and apparatus, computer device and readable medium
WO2020166359A1 (ja) * 2019-02-12 2020-08-20 日本電信電話株式会社 推定装置、推定方法、及びプログラム
JP2020129099A (ja) * 2019-02-12 2020-08-27 日本電信電話株式会社 推定装置、推定方法、及びプログラム
JP7197786B2 (ja) 2019-02-12 2022-12-28 日本電信電話株式会社 推定装置、推定方法、及びプログラム
JP2021012315A (ja) * 2019-07-08 2021-02-04 日本電信電話株式会社 学習装置、推定装置、推定方法、およびプログラム
JP7093081B2 (ja) 2019-07-08 2022-06-29 日本電信電話株式会社 学習装置、推定装置、推定方法、およびプログラム

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
US9424833B2 (en) Method and apparatus for providing speech output for speech-enabled applications
JP5293460B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP4455610B2 (ja) 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
JP5471858B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
US20070192105A1 (en) Multi-unit approach to text-to-speech synthesis
US20050071163A1 (en) Systems and methods for text-to-speech synthesis using spoken example
US20060259303A1 (en) Systems and methods for pitch smoothing for text-to-speech synthesis
Khan et al. Concatenative speech synthesis: A review
US20100066742A1 (en) Stylized prosody for speech synthesis-based applications
JPH11259095A (ja) 音声合成方法および装置および記憶媒体
JP4632384B2 (ja) 音声情報処理装置及びその方法と記憶媒体
JPWO2006123539A1 (ja) 音声合成装置
JP5148026B1 (ja) 音声合成装置および音声合成方法
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP2001350491A (ja) 音声処理方法および装置
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
Öhlin et al. Data-driven formant synthesis
JP3742206B2 (ja) 音声合成方法及び装置
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
Bunnell et al. Advances in computer speech synthesis and implications for assistive technology
Mishra Decomposition of fundamental frequency contours in the general superpositional intonation model
Georgila 19 Speech Synthesis: State of the Art and Challenges for the Future

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070607

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070607

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070607

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20071205