JPH0272399A - 音声規則合成方式 - Google Patents

音声規則合成方式

Info

Publication number
JPH0272399A
JPH0272399A JP22230888A JP22230888A JPH0272399A JP H0272399 A JPH0272399 A JP H0272399A JP 22230888 A JP22230888 A JP 22230888A JP 22230888 A JP22230888 A JP 22230888A JP H0272399 A JPH0272399 A JP H0272399A
Authority
JP
Japan
Prior art keywords
speech
layer
output
neural network
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP22230888A
Other languages
English (en)
Inventor
Hiroshi Ichikawa
市川 熹
Shunichi Yajima
矢島 俊一
Akio Amano
天野 明雄
Nobuo Hataoka
畑岡 信夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP22230888A priority Critical patent/JPH0272399A/ja
Publication of JPH0272399A publication Critical patent/JPH0272399A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、任意の文字列を音声に変換・合成する音声規
則合成方式、特にその音声を構成する各音韻の時間配分
を自動的に決定する方法に関する。
〔従来の技術〕
音声を合成するためには、先ず、その音声を構成する各
音韻(以下音韻の他、音節9拍、モーラなと音声を構成
する単位を代表して音韻と呼ぶ)を各々どのような時間
配分で列べて行くかを決定し、その時間構造に従って、
各音韻を実現するスペクトル情報や、抑揚を制御する情
報を順次生成して合成器を制御し、音声を合成して行く
。従って、この時間配分をどのように決定して行くかは
、合成音声の品質に極めて大きな影響を与えている。
従来、この時間構造の決定には、たとえば、昭和49年
6月の日本音響学会講演論文集3−2−16「単語音声
を構成する音節持続時間の規則化」(中島他)では、音
声を構成する音節数N、音節の種類j、アクセントのレ
ベルQ、音声中の位置iにおける変化係数PJ、アクセ
ント・しネルQによる変化係数q、音声を構成する音節
数Nによる変化係数に、母音の無声化が生じる場合の変
化量α、音WJjの基準時間長Si とすると、T J
 (l lα)=PJ(i)・qa(1+ Q)・k(
N)・α・SJ・・・(1) のように、各要因の積の形式を用いている。
また、昭62年3月の日本音響学会講演論文集3−6−
5r数量化工類を用いた文韻律制御」(酒寄他)では、
各種の関因をS+(j、k)として、時間長Y+ を j=1  k=1 のように1重み係数alkを介して、要因の線形和の形
式を用いている。
〔発明が解決しようとする課題〕
上記従来技術は、各要因毎のパラメトリックなモデルを
用いているため、相当に大量な学習データを用いても、
各要因毎のデータ数は少なく、全体として均質なモデル
を得ることが困難であり、この質の不均質性が合成音声
の品質を劣化させていた。また、前述のごとく、モデル
の記述形式はパラメトリックな形式で天下り的に与えら
れていながら、いずれの形式でもある程度の精度で時間
構造が予測出来ている反面、逆に一定以上の品質向上に
は限界があった。また、任意のナレータの音色で音声を
合成したい場合の規則の変更手続が与えられていないた
め、改めて、そのナレータによる音声を用いて全面的に
学習しなおす必要があった。
本発明は、モデルの形式も含め自動的に学習され、共通
要因を効率良く活用でき、ナレータを変更した場合の規
則の適応性も有する。音声規則合成用の時間構造決定規
則の方式及びその作成方法を与えることにある。
〔課題を解決するための手段〕
上記の目的を達成するために、本方式ではニューラル・
ネットの柔軟な適応特性に注目し、新しい方式を考案し
たものである。ここでニューラルネットワークとは1等
価的に並列プロセッシング・エレメントからなり、各プ
ロセッシング・エレメント間の結合はダイナミカルな自
己プログラミングによる教師の有無にかかわらず自己学
習口より行なわれるもの、及び、予め学習され、固定化
された結合によりなされるものの双方を含むものとする
。最近のニューラルネットワークに関して広く知られる
ようになった知見によれば(D、E。
Run+elhart et sl;“Paralle
l DistributedProcessing”M
IT Prass、Ca+Ilbridgc(1986
)など)、多層化型のニューラル・ネットークにより入
力と出力の任意の対応付けが可能となる。すなわち、本
発明においては、N個の音韻からなる音声の第1番目の
音声韻の時間長T、を、先行する音韻や後続する音韻の
種類などj種類の要因のに番目のカテゴリに該当するか
どうかで1またはOとなる変数x+(j k)のベクト
ルxt=(xt(1−+ t)。
xt(2+ 1)r −xt(J+ KJ))(Jとk
Jは各各要因種類数と各要因jのカテゴリ数を示す)と
ニューラルネットにより対応付は上記目的を達しようと
するものである。
第2層の第9番目のニューロン素子の出力をOpq+P
−1層のr番目の素子称筒を○P−1+ rとし、入力
又と出力yの間の特性を y=fpq(x)           ・・・(3)
とすると(以下簡単のためfpqをfと略記する)、T
2.=ΣωF−1.q1r−0r−tar      
・”(4)0pq= f  (I p、q)     
         ・・・(5)と記述することが出来
る。ωp、q、rは重みである。
ニューラル・ネットは(3)式の特性を持つニューロン
素子を多数階層的に接続したもので、入力となるその第
1層は少なくともベクトルX、の要素数の数の素子から
なり、出力層はTIを出力する少なくとも1個の素子か
らなる。中間層は1ないし2層から構成する。素子数や
階層数は多いiが性能が高くなる。
〔作用〕
第−層に合成すべき音声の第1番目の音韻に対する要素
ベクトルX、を入力すると、出力層の素子に、その音韻
に割り当てられるべき時間長T。
が出力される。
各層の重み係数ωp、q、rは、バック・プロパゲーシ
ョン法により学習することにより得ることができる。こ
の方法は前述のり、E、Rumelhartの文献の第
8章に詳しく記述されている。実際の音声データを多数
観測し、各要因データに分解して、第−層に入力し、そ
れに対応するT1の観測値を出力側に与え、上記文献の
方法によって学習すれば良い。学習時に出来るだけ多様
な人の音声データにより学習しておくと、ナレータを変
えたときの学習は、そのナレータによる比較的小数の音
声データで修正することが可能となる。
ニューラル・ネットの構成どしては、多層型のものを用
いて説明するが、ボルツマン・マシン型のものなど、他
の型式のものでも良い。
〔実施例〕
以下、本発明の実施例を図を用いて説明する。
第1図は本発明のポイントとなる時間構造生成部を構成
するニューラル・ネットワークを説明するための図であ
り、第2図は本発明を用いる音声規則合成装置の構成図
、第3図は、音声規則合成の規則生成の手続を説明する
図であり、時間構造生成部はこの一部を構成する。
第2図において、音声に変換したい文字列(カナ文字列
や発音記号列、ローマ文など)とアクセントの位置を示
す記号や、区切り記号(カンマやフルストップ、スペー
スなど)からなるコード列入力201が入力部202(
通常ハR8232Cナトツインターフエースが用いられ
る)を経て、マイクロコンピュータからなる制御部20
3を経てメモリ部204の所定の領域に取り込まれる。
入力コード中に、その入力文字列が表現する文の構造(
単語や文節の相互の掛受は関係や、強調の有無などの情
報が与えられると1合成される音質がより高くなる。取
り込まれたコード列は、制御部203内にストアされた
手順(第3図で後述)に従って、音声合成部206を制
御する制御信号列し7変換され、二面バッファ205を
経て5合成部206に送られる。二面バッファ205は
合成音声が途切れることなく出力できるよう連続的に制
御信号が合成部に与えられるために設けられている。合
成部206で音声波形に合成・変換されマイクロフォン
207を経て音声208として出力される。
第3図において、入力コード列201は合成部206を
制御する信号を規則により生成するのに必要な要因に分
解するために、要因解析部301に送られる。
音声合成の手法は様々な方式が提案、実現されているが
、ここでは最も一般的に広く用いられている線形予測に
よるものを用いて説明する。なお合成手法にいかなる手
法を用いるかは本発明には本質的に関係せず、他の手法
でも良いことは言うまでもない。線形予測による音声の
合成法は、Markel、J、D、and Gray 
Jr、、 A、H,”LinearPredictio
n of 5peech ; (1976)Sprin
ger−Verlogなど多くの文献に詳述されている
ように、音声の周波数スペクトル特性を与える予測係数
ベクトル〔α1〕と、声の抑揚や強さ、有声音か無声音
かなどを示す音源情報順次を与えることにより簡単に音
声を生成・合成することができる。線形予測法による音
声の合成は当業者には容易に実施できる。
すなわち、入力コード列201から、これらスペクトル
に情報と音源情報をどういうタイミングで出力すべきか
を決める時間構造を先ず生成し、このタイミングに従っ
て、これらの情報を順次生成し、合成部206に与える
必要がある。本発明は、この時間構造を生成する新しい
方式を与えるものである。
要因解析部301は、これら時間構造、スペク1−ル情
報、音源情報を生成する上で必要な要因を入力コードよ
り抽出・変換(解析あるいは分解する場合を含む)する
機能を有する。先ず、入力が文字列の場合は、入って来
た文字コートから、実際に発声される発声記号列に変換
しなければならない。日本語の場合は、入力が仮名の場
合は、この差異は比較的小さい。主な変換は、助詞の「
ハ」を「ワ」に、「ヲ」を「オ」に、撥音の「ン」を後
に続く音韻の種類により幾つかの音韻に(たとえば後の
音がパ行の場合はmになど、これらの変形は服部四部「
音声学」岩波書店など音声学の文献に記述されている)
変換するなどの処理を行なう。また、掛受けの関係を見
て、一つの発声単位とすべきグループ(日本語ではアク
セント節などと呼ばれる)分けを行ない(日本語では、
文献単位が基本となる。)、各グループを構成する音韻
の数N(日本語ではモーラの数でも良い)及び、各グル
ープ内での音韻の位置i (又はモーラの位置、グルー
プの先頭か、中間か、最後かなど)、文中の位置Q (
文頭か、文中か、文末かなど)、文中での前後の掛受け
の深さの程度m(たとえば、太平・小松[V4律情報を
用いた音声会話文の文構造推定」日本音響学会講演予稿
集、3−5−21゜昭和62年10月に示されている分
割点コードなどが利用できる)などを解析する。
要因解析結果101は、時間構造生成部302゜スペク
トル情報主成部304.音韻情報生成部306に与えら
れる。
時間構造生成部302の機能的構成図を第1図に示す。
以下本実施例では階層型のニューラル・ネットワークを
用いて時間構造生成部を説明するが、ボルツマン・マシ
ン型のニューラル・ネットワークを用いても良いことは
洲うまでもない。
第1図において、要因解析結果101が人力層102に
加えられる。入力層102は2次元配列となっており、
一方の軸は要因の種類j  (J種)。
他方の軸は各要因毎のカテゴリーkj (カテゴリ毎K
tカテゴリ、要因毎にカテゴリー数は異なる)となって
いる。入力層102の各素子をxIノと記す。第4図に
要因と要因毎のカテゴリーの例を示す。要因の種類とし
ては、今時間長を求めようとしている音韻(以下、日本
語では音韻をモーラで置き換えても良い)の種類(カテ
ゴリとしては、母音a、i、u、”’、子音p+ t+
 k+l)+”’等)、一つ前の音韻(先行音韻)の種
類(カテゴリーは同じ)、一つ後の音韻(後続音韻)の
種類(カテゴリーは同じ)、発音単位グループ内の音韻
の数N、今時間長を求めようとしている音韻のグループ
内での位置i、同じくその音韻のアクセントの状態(日
本語では高又は低)、先行グループとの掛受けの関係、
後続グループとの掛受けの関係、文中でキーワードある
いは重要法であるかどうかなどである。
入力層102の各素子XIJ103の出力104は第2
層105の各索子106と結合され、第2M105の各
素子106の出力107は第3層108の各索子109
に結合されている。第3層108の各索子109の出力
110は出力層111の索子112に結合されている。
各素子の入力と出力の関係は式(3) (4) (5)
のような1重み係数ω1Jと素子特性fによって関係付
けられるよう構成されている。入力101として各音韻
の要因が順次入力されると、出力層111の素子112
の出力として、入力の音韻に対して配分された時間長T
+ が順次出力113される。
次に、第3図において、音声合成部206の波形合成部
308に与えるスペクトル情報は、スペクトル情報生成
部304により作成される。要因解析部301の出力に
従って、合成すべき音韻コードを順次取り込み、その音
韻に対応するスペクトル情報を音韻合成パラメータ辞書
305より取り出し、時間構造生成部302の出力11
3の時間配分に従って配置し、前後の音韻のスペクトル
情報との間を内挿によりスムーズに接続した後、一定時
間間隔で波形合成部308へスペクトル情報を送り出す
音声合成に必要な音源波形は音源波形形式部307にて
作られる。音源波形は無音声では白色雑音で、有声音で
は抑揚に相当するピッチ周期間隔のパルス列であり、声
の大きさに比例して振幅が制御される。有声音か無声音
かの情報は音韻の種類により定まり音韻合成パラメータ
辞書305より与えられる。抑揚はピッチ周期で定まり
、ピッチ周期は、文中での位置、音声合成1)1−位で
あるグループ中での位置、アクセントのレベル強調の有
無等で定まる。これらの情報を時間構造生成部302で
作られた時間配分情報113に従い用いて抑揚バタンで
あるピッチパタンを生成する。ピッチ周期のパタンの生
成手順はたとえば、広瀬他″統語構造を利用した日本語
文音声の基本周波数バタンの合成″、日本語音響学会音
声研究会資料583−70 (S59−1)などに詳し
く当業者には容易に実現でき、本発明のポインI一部分
ではないので詳述を省略する。音波波形の大きさは、音
韻毎に音韻合成パラメータ辞書305から取り出し、音
韻間を簡単な直線内挿して作成すれば良い、これらのス
ペクトル情報と音波情報より合成部206で音声を合成
する手順は重連の通りMarkel等の文献他に詳しく
述入られている。
次に、時間構造生成部302を構成するニューラルネッ
トワークの学習手順を説明する。
学習は基本的には、良く知られているパックプロパゲー
ション法を用いることが出来る。パックプロパゲーショ
ン法については1例えば公知の文献阿IT Press
、”Parallel Distributed Pr
ocessing”Vo Q 、1(1986)、Ch
ap8. pp、318−312)に詳しく記述されて
いる。
第1図を用いて説明しよう。まず説明の簡単のために、
幾つかの記号を導入する。出力層111の素子112の
出力値113を04.O,第3層108の第0番目の素
子の出力値をOs、x、第2層105の第m番目の素子
の出力値を02 g m + また学習入力としての出
力層111の素子112に与える目標出力値を84とす
る6また、パックプロパゲーションの過程で各素子毎に
求まる誤差信号値についても、第4層111の素子11
2に対してδ番、o、第3層108の第0番目の素子に
対してδ3.直、第2層105の第m番目の素子に対し
てS291、と記すことにする。また、説明の簡単を考
慮して、第2層、第3層、第4層の各素子の特性は背量
−とし、第(3)式に述べた関係で記述されるものとす
る。また、関数fを微分したものをf′と記すことにす
る。出力層111の素子112と第3層108の第0番
目の素子の結合係数をωM、O+* +第3層108の
第0番目の素子と第2層105の第m番目の素子の結合
係数をω2IIIllと記す・ 各素子の出力値が求まると出力層から下の層に向って順
に誤差信号を求めて行く。第2層と第p+1層との間の
結合係数の修正は第δ+1層における誤差信号と第2層
における出力値を用いて行なう。ここでは簡単のため前
記結合係数ωB、0.tとω2,1、の修正過程につい
てのみ説明する。
結合係数ω11,0.a、ω2HIH,の修正において
、第2層105の第m番目の素子の出力値0291、第
3層108の第α番目の素子の出力値03mおよび第3
層108の第0番目の素子の誤差信号δ8.處第4層1
11の素子112の誤差信号6番0が必要となる。02
1m、 08.直には第1層102へ特定の入力が与え
られるとフォーワードな計算で求めることが出来る。一
方δ4,0、δ8.直は次式に従って算出する。
δ1o=(S4+O−○+、o)f’(Σ(113,0
,t ’08.處)℃ ・・・(5) δs、t=f’(Σω21i111′021J6410
 ’ (kl 3I011・・・(6) 次に、ω8.O,tと021m1mの修正量を、各々Δ
ω3.0.a、Δωl g l Hmと記すと、この修
正量は次式で算出することが出来る。
Δ(il 11.Olm = (E ”δ4,0 + 
Os、*     ・・(7)Δω2.露、ll=α0
δδ、凰+02.lI     山(8)αは実験的に
収束速度を調べながら設定してやれば良い。(7) (
8)式を用いれば、出方層と第3層。
第3層と第2Mの間の全ての結合係数の修正が出来る。
第2層と入力層の間の結合係数に関しても、第3層と第
2層の間の結合係数の場合と同じ様にすれば良い。
以上により、全ての結合係数が1回修正されたことにな
る。他の入力データと対応する学習入力を与えて以上の
結合係数の修正の過程を行なうということを繰り返えす
。この繰り返えし毎に次式%式% を求め、これをすべての学習サンプルについて平均する
。その値が予め与えられた閾値より小さくなった段階で
学習が完了したものとして結合係数の修正をすれば良い
6 学習に行なうには、第2図のようにアナログ−デジタル
変換器210に学習音声を入力し、入力部202に対応
する文字等のコード列を入力201する。これらの音声
とコードデータは一旦メモリ部204に格納された後、
マイクロコンピュータからなる制御部203中に用意さ
れている手続きにより学習が行なわれる。
第5図は、制御部203中に用意される学習手順を説明
する図である。第5図において要因解析部301′は第
3図の要因解析部と同一の機能を有する。セグメンテー
ション部501は入力音声を音韻区間に自動分割し、各
音韻の継続時間長を求め出力504する。この出力50
4が学習の際用いられる学習入力Sa、oとなる。要因
解析部301′の出力101′は学習時の入力101と
して用いられる。セグメンテーション部501の構成は
、たとえば、畑岡他:″定常部に番目したセグメンテー
ションと連続音韻認識″電子通信学会音声研究会資料5
P86−75(1986,12゜19)に記載されてい
る方法を用いることが出来る。また、学習には、この他
に、予め音声を分析し人手にてセグメンテーションを行
ない、音声データ・ベースとして用意したものを直接用
いても良いことは言うまでもない。
さて、一般にニューラル・ネットワークの重み係数を学
習するには大量のデータを用い、相当の時間をかけて処
理を行なう必要がある。これは、重み係数の初期値をど
う設定すべきか不明であり、一定値や乱散を設定し、学
習を開始せざるを得ないためである。
一方、合成音声を利用する立場からは、ある特定のナレ
ータの音声で音声を出力したい場合が非常に多い。しか
し、上述のように、ナレータ毎に学習をしていては、学
習時間が長くなり、コスト的にも実用的でなくなる。ま
た従来方式では、規則そのものを作ること自体困難とな
る。また、ある用途では文章を出力するのが一般的であ
るが、また別の用途では単語音声のみを自然な音質で出
力したい場合もあり、その音声の条件を構成する要因の
ウエートが異なる。これも、その用途毎に学習していて
はコスト的に実用的でない。
本発明では、様々な話者による、様々な要因による大量
の学習音声により予め平均的な条件の時間構造生成部を
構成しておき、ナレータや、発声条件を変えたい場合は
、この平均的条件の重みを学習の初期条件とすることに
より、比較的小数の学習データで重すを修正し、高品質
の合成音声を得ることも可能となる。
次に、学習の処理量を低減する第2の実施例を示す。時
間構造生成部のニューラル・ネットワークの構成方法以
外は、第一の実施例と同じであるため、相異点のみを説
明する。
第6図は第2の実施例を説明するための図である。第二
の実施例においては、ニューラルネットワークを二段(
一般には多段にしても良い)とし、第一段でより基本的
な要因に対する処理を行なわせ、第二段で補助的な効果
のある要因の処理を行なわせるよう構成したものである
。ニューラルネットワークの学習は、一般に素子の数が
多いと、素子間の結合の組み合せが幾何級数的に増大し
、学習処理量が大幅に増加する。入力要因種類とカテゴ
リー数が多いと、第−層の素子数が増加し、この問題が
生じる。本実施例では、入力要因を多段階に配分するこ
とにより、この問題を解決しようというものである。
第6図において、601と602は基本的構成は第1図
のニューラルネットワークと同様のものであるが、入力
素子数、従って第2.第3層の素子数も、それに合せて
少なくしたニューラルネツトワークである。第一段への
入力603は主要因である当刻音韻の種類、グループ内
での位置、グループを構成する音韻数程度の要因を入力
とし、その入力要因のみで定まる時間長を出力604と
する。
第2段のニューラルネットワーク602への入力605
は、第1段の出力と、残りの要因であるアクセント・レ
ベル、掛受は関係の情報、先行音韻と従続音韻の種類等
を入力とし、出力に時間配分情報607(第1図の出力
113に相当)を出力する。これにより素子の組み合せ
の数が大幅に減らすことが可能となる。
なお、ニューラルネットワークの素子に確率的要素を入
れることにより、同一人力に対しても確率的変動を持っ
た出力を得ることができる。人間が音声を発声する場合
、同一内容でも全く同一に発声することは不可能であり
、また、そのことが自然で聞きやすい1機械的でない音
声となっている。このような性質を実現することが可能
となる。
確率的な性格を持つニューラル・ネットワークとしては
、ボルツマン・マシン型のものや、カオスニューラル・
ネットワークが知られている、ボルツマン・マシン型の
ものについてはり、)1.Ackley他:^Lear
ming Algor : thn for Bolt
zmannMachine;Cognitive 5c
ience 9,147−169(1985)に詳しい
。またカオス・ニューラル・ネットワークについては、
たとえばWj、Freeman:Simulation
ofChaotic EEG Patterns wi
th a Dynamic Model ofthe 
01factory System Biol、Cyh
ern、56.159−150(1!187)に記述さ
れている6 〔発明の効果〕 以上説明したように、本発明によれば、パラメトリック
なモデルを用いていないので、機械的な不自然さのない
良好な音質の合成音声を得ることができる。
また、学習機能を有しているので、異なったナレータの
音色による音声の合成や、異なった発声条件下での音声
の合成にも能率良く対応することが可能となる。
【図面の簡単な説明】
第1図は本発明の一実施例の構成を説明する図5第2図
は、本発明を用いたシステムを説明する図、第3図は本
発明の一実施例の動作を説明する図、第4図は本発明の
一実施例の情報要因の構成を説明する図、第5図は、本
発明の一実施例を実施するための学習手順を説明する図
、第6図は、本発明の第二の実施例を説明する図である
。 猶 図 /63 偶4声 不 2 1丁アクセント!訝 図 第 3 口 文1 アクセント1ひ1(2θ1) 第 苓 図 千 図 ニエークル不ット 申芹テ゛−ノ

Claims (1)

  1. 【特許請求の範囲】 1、音声を構成する単位への時間配分の決定をニューラ
    ル・ネットワークにより実行することを特徴とする音声
    規則合成方式。 2、上記音声を構成する単位の時間配分を支配する主要
    因を入力記号列から解析又は分解する手段を有し、前記
    主要因をニューラル・ネツトワークへの入力とすること
    を特徴とする音声規則合成方式。 3、上記、音声を構成する単位の時間配分を支配する主
    要因を、影響力の強い方から複数のグループに分けると
    ともに、ニューラル・ネットワークを多段階構成とし、
    各段は前段のニューラル・ネットワークほど影響力の強
    い要因グループの要因と、前段のニューラル・ネットワ
    ークの出力とを入力とするよう構成されたニューラル・
    ネットワークであることを特徴とする特許請求の範囲第
    1項又は第2項の音声規則合成方式。 4、前記ニューラル・ネットワークが階層型であること
    を特徴とする特許請求の範囲第1項又は第2項の音声規
    則合成方式。 5、前記ニューラル・ネットワークがボルツコンマシン
    型であることを特徴とする特許請求の範囲第1項、第2
    項又は第3項の音声規則合成方式。 6、確率的にゆらぎを持つ出力を出す機能を有する素子
    を少なくとも1つ有するニユーラル・ネットワークより
    なる特許請求の範囲第1項、第2項、第3項、第4項又
    は第5項の音声規則合成方式。
JP22230888A 1988-09-07 1988-09-07 音声規則合成方式 Pending JPH0272399A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22230888A JPH0272399A (ja) 1988-09-07 1988-09-07 音声規則合成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22230888A JPH0272399A (ja) 1988-09-07 1988-09-07 音声規則合成方式

Publications (1)

Publication Number Publication Date
JPH0272399A true JPH0272399A (ja) 1990-03-12

Family

ID=16780324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22230888A Pending JPH0272399A (ja) 1988-09-07 1988-09-07 音声規則合成方式

Country Status (1)

Country Link
JP (1) JPH0272399A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108084A (ja) * 1991-10-17 1993-04-30 Ricoh Co Ltd 音声合成装置
JPH09146576A (ja) * 1995-10-31 1997-06-06 Natl Sci Council 原文対音声の人工的神経回路網にもとづく韻律の合成装置
JP2018146803A (ja) * 2017-03-06 2018-09-20 日本放送協会 音声合成装置及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05108084A (ja) * 1991-10-17 1993-04-30 Ricoh Co Ltd 音声合成装置
JPH09146576A (ja) * 1995-10-31 1997-06-06 Natl Sci Council 原文対音声の人工的神経回路網にもとづく韻律の合成装置
JP2018146803A (ja) * 2017-03-06 2018-09-20 日本放送協会 音声合成装置及びプログラム

Similar Documents

Publication Publication Date Title
Delić et al. Speech technology progress based on new machine learning paradigm
KR102677459B1 (ko) 2-레벨 스피치 운율 전송
Shechtman et al. Sequence to sequence neural speech synthesis with prosody modification capabilities
JP2000504849A (ja) 音響学および電磁波を用いた音声の符号化、再構成および認識
KR20200092505A (ko) 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법
JP2002023775A (ja) 音声合成における表現力の改善
Zhao et al. Using phonetic posteriorgram based frame pairing for segmental accent conversion
KR102137523B1 (ko) 텍스트-음성 변환 방법 및 시스템
JPH0772900A (ja) 音声合成の感情付与方法
Matsumoto et al. Controlling the Strength of Emotions in Speech-Like Emotional Sound Generated by WaveNet.
Yang et al. Electrolaryngeal speech enhancement based on a two stage framework with bottleneck feature refinement and voice conversion
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
CN117678013A (zh) 使用合成的训练数据的两级文本到语音***
JPH0272399A (ja) 音声規則合成方式
Matsumoto et al. Speech-like emotional sound generator by WaveNet
Högberg Data driven formant synthesis.
JPH0580791A (ja) 音声規則合成装置および方法
Alastalo Finnish end-to-end speech synthesis with Tacotron 2 and WaveNet
Kondratiuk et al. Deep Learning Models for Ukrainian Text to Speech Synthesis.
JP2002123280A (ja) 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体
KR102116014B1 (ko) 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템
Sairanen Deep learning text-to-speech synthesis with Flowtron and WaveGlow
JP2755478B2 (ja) テキスト音声合成装置
Khudoyberdiev The Algorithms of Tajik Speech Synthesis by Syllable
JPS5914752B2 (ja) 音声合成方式