JP3685648B2 - 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機 - Google Patents
音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機 Download PDFInfo
- Publication number
- JP3685648B2 JP3685648B2 JP12044299A JP12044299A JP3685648B2 JP 3685648 B2 JP3685648 B2 JP 3685648B2 JP 12044299 A JP12044299 A JP 12044299A JP 12044299 A JP12044299 A JP 12044299A JP 3685648 B2 JP3685648 B2 JP 3685648B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- speech
- unit
- phoneme
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声素片を接続することによって入力されたテキストに対する音声を生成する音声合成方法において、音程情報の単純化によって処理量を低減しながら、かつ適切な音程情報に従ってテキスト情報を正確に読み上げることができる韻律生成方法に関するものである。
【0002】
【従来の技術】
従来、合成音声の基本周波数パターン生成モデルとして、電子情報通信学会論文誌Vol.J72-A,No.1,pp32-40(1989年1月)「基本周波数パターン生成過程モデルに基づく文章音声の合成」にも開示されているように、句頭から句末に向かう緩やかな下降のフレーズ成分と局所的な起伏のアクセント成分との和で表現する生成モデルが代表的なものとして知られており、これは下記のような関数で生成される。
【0003】
【数4】
【0004】
ここで、Api,Aajは、フレーズ成分、アクセント成分の指令の大きさであり、T0iはフレーズ成分の指令の時点、T1j,T2jはアクセント指令の始点と終点である。また、基本周波数パターン生成過程モデルを用いて基本周波数パターンを合成するためには、前記式(A)〜(C)のパラメータを与える必要があるが、自然音声の分析結果から、αi=3.0(rad/sec), βj=20.0(rad/sec),θ=0.9で固定し得ることが判明している。
【0005】
【発明が解決しようとする課題】
然し乍ら、テキストから合成音声を生成するテキスト音声変換において上記の基本周波数パターン生成モデルを用いる場合、フレーズ指令やアクセント指令の時点や大きさを、形態素解析などの言語処理によって推定する必要があった。
【0006】
従って、単語などの短いテキストのみを読ませるといった、言語処理や基本周波数パターン生成処理を簡素化しても合成音声の自然性劣化を抑えることができるようなテキスト音声変換処理においても、複雑な処理を行う必要があるという問題があった。
【0007】
【課題を解決するための手段】
本発明の音声合成方法は、予め蓄積されている音声素片より所望の音声素片を取り出し、取り出した音声素片を韻律情報に基づいて接続することによって合成音声を生成する音声合成方法において、前記韻律情報としての基本周波数パターン情報を、位置情報と音程情報に基づいて求める。
【0008】
また、本発明の音声合成装置は、音声素片が蓄積された音声素片蓄積手段と、文字情報を解析して各文字に対応した音素情報を求める音素情報生成手段と、文字情報を解析して各文字に対応する音程情報を求める音程情報生成手段と、前記音素情報生成手段で求めた音素情報及び前記音程情報生成手段で求めた音程情報とに基づいて韻律情報を求める韻律情報生成手段と、前記音素情報生成手段で求めた音素情報に基づいて前記音声素片蓄積手段より所望の音声素片を取り出す音声素片取り出し手段と、前記音声素片取り出し手段で取り出された音声素片を前記韻律情報に基づいて接続して合成音声情報を生成する音声素片接続手段とを備える。
【0009】
さらに、本発明の音声合成装置を備えた電話機は、電話番号情報と該電話番号情報と関連付けられた文字情報とが記憶された記憶手段と、音声信号及び電話番号情報を受信する受信手段と、該受信手段で受信した電話番号情報を抽出する電話番号情報抽出手段と、前記記憶手段の中から前記電話番号情報抽出手段で抽出した電話番号情報を検索して前記電話番号情報と関連付けられた文字情報を検索して出力する検索手段と、該検索手段が出力する文字情報を解析して各文字に対応した音素情報を求める音素情報生成手段と、前記検索手段が出力する文字情報を解析して各文字に対応する音程情報を求める音程情報生成手段と、前記音素情報生成手段で求めた音素情報及び前記音程情報生成手段で求めた音程情報とに基づいて韻律情報を求める韻律情報生成手段と、前記恩師情報生成手段で求めた音素情報に基づいて前記音声素片蓄積手段より所望の音声素片を取り出す音声素片取り出し手段と、前記音声素片取り出し手段で取り出された音声素片を前記韻律情報に基づいて接続して合成音声情報を生成する音声素片接続手段と、該音声素片接続手段からの合成音声情報を音声として放音する放音手段とを備えたことを特徴とする音声合成装置を備える。
【0010】
【発明の実施の形態】
以下、図面を参照しつつ本発明の一実施形態について詳述する。
【0011】
先ず、図1は本発明の音声合成方法を適用した音声合成装置の構成を示す概略ブロック図である。同図において、6は文字情報を入力する文字情報入力部、1は文字情報入力部6から入力された文字情報を解析して音素情報及び音程情報を出力する文字情報解析部、2は文字情報解析部1からの音素情報及び音程情報に基づいて基本周波数パターン情報及び音素継続時間長情報を生成する韻律生成部、3は音声素片情報が蓄積された音声データベース、4は韻律生成部2で生成された基本周波数パターン情報及び音素継続時間長情報に基づいて合成させるべき音素列に合致するように音声データベース3から音声素片を取り出す音声素片取り出し部、5は音声素片取り出し部4で取り出された音声素片を接続して所望の合成音声データを出力する音声素片接続部である。
【0012】
続いて、前記図1に示す音声合成装置の動作について詳述する。
【0013】
先ず、文字情報入力部6より入力された文字情報は、文字情報解析部1により解析され、韻律生成の区切りが検出されると共に、音素情報決定部1aで、入力された文字に対応する音素記号が求められる。具体的には、例えば入力された文字情報が”ひらかた”であれば、/hirakata/という音素情報を求める。
【0014】
次に、音程情報決定部1bでは、入力された文字列の音程情報が決定される。前記と同様に、入力された文字情報が”ひらかた”であれば、各文字に対応して[低高高高]という音程情報が決定される。
【0015】
本発明では、音程情報は発声すべき文字情報と共に予め与えられている。例えば図4(b)に示すように、文字列中にアクセント記号(図の例では#や*が相当する)を付与しておき、該アクセント記号によって音程情報が判定できるようにしているが、詳細は後述する。
【0016】
然し乍ら、上記のようなアクセント記号をつけずに、文字列とアクセント情報とが蓄積された単語辞書を参照する方法もある。即ち、入力された文字情報が”ひらかた”であれば、単語辞書より”ひらかた”を検索し、アクセント情報を取得する。
【0017】
このようにして前記音素情報決定部1aで決定された音素情報、及び音程情報決定部1bで決定された音程情報は、後段の韻律生成部2に送られる。
【0018】
次に韻律生成部2は、前記文字情報解析部1で決定された音素情報と音程情報に基づいて、以下に示す生成式によって、基本周波数情報[F0(M)]を生成すると共に、音素継続時間長情報を決定する。
【0019】
尚、音素継続時間長情報については、音素や音声素片などの単位毎の時間長をテーブル化しておくことで計算量を減らすことができる。
【0020】
【数5】
【0021】
本実施例では、上記の式(1)〜(4)において、Fh=310Hz、Fl=250Hz、w=0.375、Fmin=150Hzとしている。
【0022】
尚、前記セグメントの単位は、「呼気段落」,「アクセント句」,「フレーズ」,「ポーズ」,「基本周波数生成の区切り」のいずれかで区切られた区間とすることができる。
【0023】
補足すると、
[呼気段落]
音声を発声する過程で、呼気の切れ目によって生じるひとまとまりの音声区間をいう。
[アクセント句]
ほぼ文節程度の長さで1つのアクセント型を担う単位である。
[フレーズ]
自然な区切りで区切られる旋律のあるまとまりをいう。
[ポーズ]
音声発声中に生じる間。音のない短い区間である。
[基本周波数生成の区切り]
上記以外の区切りで区切られるひとまとまりの音声区間をいう。
【0024】
また、位置情報Mは、着目しているデータの時間的な位置(何番目の音素であるか、何番目のモーラであるか、何フレーム目であるか、など)を表す情報であり、モーラ位置,音節位置,音素位置,音声素片位置,フレーム位置などが利用できる。
【0025】
補足すると、
[モーラ]
日本語のかな1字(拗音なら2字)に相当する単位である。
[モーラ位置]
文字列中の何番目のモーラであるかを表す情報である。
(例:文字列「ひらかた」の「ら」のモーラ位置は2[=2モーラ目]である。)
[音節]
前述のモーラとほぼ同じ単位であるが、長音「−」、撥音「ん」、促音「っ」は1モーラとして扱うのに対して、1音節としては扱わない。
(例:「うんどーかい」のモーラ数は6であるが、音節数は4となる。)
[音節位置]
文字列中の何番目の音節であるかを表す情報である。
(例:「うんどーかい」の「どー」の音節位置は2)
[音素]
言葉の意味の区別を表すのに用いられる音の単位である。
(例:「ひらかた」を音素表記すると /hirakata/となる。)
[音素位置]
文字列中の何番目の音素であるかを表す情報である。
(例:/hirakata/の /r/の音素位置は3である。)
[音声素片]
音声合成用データベースに蓄えておく音声データの最小単位のデータをいう。(例:/hirakata/を合成するときは、/hir/, /rak/, /kat/, /ta/ のような素片を接続する。素片の種類は、CVC[子音+母音+子音]、CV[子音+母音]、VC[母音+子音]、VV[母音+母音]など様々である。)
[音声素片位置]
文字列中の音声素片単位で数えて何番目であるかを表す情報である。
【0026】
[フレーム]
音声を分析してスペクトルやピッチ情報を求める際、短時間毎に分析するのが一般的であり、このときの音声区間をフレームという。(より具体的にいうと、元波形に窓関数を乗じて切り出した音声区間をフレームという。)
[フレーム位置]
文字列中の何番目のフレームであるかを表す情報である。
【0027】
上記の式(1)〜(4)によって求められた基本周波数情報[F0(M)]は、文字列情報が”ひらかた”の場合、例えば図2のようになる。
【0028】
即ち、与えられた文字列情報(図の例では”ひらかた”)に対する音程情報は[低高高高]であり、そして各モーラについて各基本周波数情報[F0(M)]を求め、その間を直線補間することで基本周波数パターン情報が生成される。この例では、各モーラ位置において、前記式(1)〜(4)及び前記のFh=310Hz、Fl=250Hz、w=0.375、Fmin=150Hzという条件に基づいて、
F0(1)=(250×1)-(1×1×0.375)=249.625Hz
F0(2)=(310×1)-(2×2×0.375)=308.5Hz
F0(3)=(310×1)-(3×3×0.375)=306.625Hz
F0(4)=(310×1)-(4×4×0.375)=304Hz
という各基本周波数情報が求められ、各点の間を直線補間して基本周波数パターンが得られる。
【0029】
尚、図の例では、”ひらかた”という1つのセグメントから成る文字情報についての処理なので、前記式(3)及び(4)においてs=1が適用されるが、”ひらかたこうえん”という文字列の場合、”ひらかた”という第1のセグメントと、”こうえん”という第2のセグメントの2つで構成されるので、前者の文字情報”ひらかた”について各基本周波数情報を求めるときはs=1だが、後者の文字情報”こうえん”について各基本周波数情報を求めるときはs=2となる。
【0030】
このようにして求めた基本周波数パターン情報に基づいて、音声素片取り出し部4にて、合成すべき音素列に合致するように音声素片を音声データベース3から取り出し、音声素片接続部5に送る。
【0031】
音声素片接続部5では、音声素片取り出し部4で取り出された音声素片を接続し、韻律生成部2で生成された韻律情報に基づいて、音声素片を加工し、所望の合成音声データを音声信号の形態で出力する。音声素片接続部5から出力された合成音声信号は図示されない増幅器を経て同じく図示されないスピーカから合成音声として出力される。
【0032】
続いて、上記の音声合成装置をナンバーディスプレイ機能付電話機に適用した例について詳述する。
【0033】
図3は本発明が適用されたナンバーディスプレイ機能付電話機の構成を示す概略ブロック図である。同図において、公衆電話回線に接続された受信部200は、その回線を介して音声信号及び電話番号情報を取得する。このうち、電話番号情報は送信元番号抽出部201で抽出されて表示部202に送られて表示される。
【0034】
前記送信元番号抽出部201で抽出された電話番号情報は、登録データ検索部203に送られる。登録データベース204には、図4(a)に示すように、「登録番号」、「電話番号」、「名前情報」及び「アクセント情報」が使用者によって予め登録されている。そして登録データ検索部203が、送信元番号抽出部201から送信されてきた電話番号情報が登録データベース204に登録されているか否かを検索し、登録されている場合、名前情報を文字情報解析部1に送るように構成されている。
【0035】
ここで、前記図4に示した「アクセント情報」について補足すると、「0型」とはアクセント核が無いものをいい、「1型」とは1モーラ目にアクセント核があるものをいう。また音程情報は、0型に対しては[低高高高高…]、1型に対しては[高低低低低…]となり、アクセント型とモーラ数から音程情報を決定する。
【0036】
補足すると、例えば文字列情報が”すずき”の場合、図5に示すように0〜3の型が考えられる。即ち、型のバリエーションはモーラ数をnとすると、0〜n通りあるということである。
【0037】
尚、文字情報解析部1、音声素片取り出し部4、及び音声素片接続部5の動作は前述した通りであるので、ここでは割愛する。
【0038】
次に、図6は公衆電話回線を介して受信した番号情報を、予め登録データベース204に登録しておいた送信相手側の名前を読み出した後、音声合成によって読み上げる際の動作を説明するためのフローチャートである。
【0039】
図6において、先ず、電話が着信状態となったか否かを判断し(ステップS101)、着信状態であれば、送信元番号抽出部201によって抽出された電話番号の表示が許可されているかどうかを判断し(ステップS102)、電話番号の表示が許可されていれば送信元の電話番号情報を表示部202に表示する(ステップS103)。
【0040】
次に、登録データ検索部203によって、送信元番号抽出部201から送られた電話番号情報に対応する名前情報が、登録データベース204に登録されているかどうかを調べ(ステップS104)、電話番号情報に対応する名前情報が登録されていれば登録データベース204から名前情報の取得を行い(ステップS105)、取得された名前情報を表示部202に表示する(ステップS106)。これにより、表示部202には前記ステップS103で処理された電話番号情報及びステップS106で処理された名前情報が表示されることになる。
【0041】
次にステップ107〜ステップ111において名前情報を解析する。具体的には、音素情報決定部1aにより名前情報を音素列に変換し(ステップS107)、そして音程情報決定部1bにより登録データベース204から取得したデータに基づいて音程情報を決定する(ステップS108)。
【0042】
さらに、取得された名前情報及び音程情報に基づいて、韻律生成部2により、基本周波数パターン情報と音素継続時間長情報を決定し(ステップS109)、音声素片取り出し部4により、音声データベース3から音声素片を選択し、それらの素片を接続し(ステップS110)、合成音声情報(例えば、「鈴木さんからお電話です」など)を出力する(ステップ111)。
【0043】
そして使用者が、通常の電話機能処理、即ち受話器を上げる(オフフック)ことにより、送信元と通話をすることができるが(ステップ112)、通常の電話機としての動作についてはその詳細な説明を割愛する。
【0044】
次に、登録データベース204への名前情報の登録フォーマットについて詳述する。登録データベース204に登録された情報のフォーマットは、前記図4(a)に示すように、アクセント型を記述しておく構成以外に、例えば図4(b)に示すように、アクセント記号を直接書き込むように構成してもよい。
【0045】
図4(b)の場合は、使用者が直接アクセント情報を入力する。即ち、図4(b)中の例において、「ニ*シダ」の中にある記号「*」は、音程が[高]から[低]に落ちる位置を示しており、「ス#ズキ」の中にある記号[#]は、音程が[低]から[高]に上がる位置を示している。
【0046】
上記の実施の形態では、基本周波数パターン情報を閾値まで徐々に下降する線で表現しているが、閾値に近づくほど、下降の度合いを緩めるようなパターンにすれば、さほど処理量を増やすことなく、さらに人間の発声に近づけることができる。
【0047】
尚、ここでいう閾値とは、前記式(2)におけるFminに相当する。これを設けないと、音程がどんどん下降していく現象が生じるため、自然な発声ができなくなる。本発明では、基本周波数パターン情報が閾値に達したあとは閾値を保持するように構成されている。ただ、このままでは閾値のところで折れ線的なパターンになりかねないため、閾値に近づくにつれて下降の度合いを緩めることで回避するように成されている。
【0048】
また、前記音声データベース3に記憶しておくデータは、単音節、音素、モーラなどの単位のうちいずれでもよいし、CV(子音+母音)、VC(母音+子音)、VV(母音+母音)、CVC(子音+母音+子音)などのように音素環境を考慮したものにしてもよいし、複数の文章をそのまま記憶させておいてもよい。
【0049】
さらに、音声データベース3に各音声素片毎に複数種類の音声素片が蓄積されている場合には、音声データベースから音声素片を取り出すときに、韻律情報を利用して適切な音声素片を取り出すようにしてもよいことは言うまでもない。
【0050】
そして、上記のナンバーディスプレー機能付電話機に適用した例では、カナ情報を登録情報として記憶しておくことを想定しているが、登録された時点で音素列に変換し、音素列を記憶しておくようにしてもよい。そして、登録する情報を名前ではなく会社名等にしてもよいことは言うまでもない。
【0051】
【発明の効果】
以上の説明から明らかなように、本発明によれば、音声合成処理の際の処理量の低減が必要な場合でも、正しいアクセントで文字情報を読み上げることができる効果を奏する。
【図面の簡単な説明】
【図1】本発明の音声合成装置の構成を示すブロック図である。
【図2】基本周波数パターン情報と文字列情報との関係を示す図である。
【図3】本発明の電話機の構成を示すブロック図である。
【図4】登録データベース204に登録されている登録情報の一例を示す図である。
【図5】アクセント型を示す図である。
【図6】本発明の電話機の動作を説明するためのフローチャートである。
【符号の説明】
1 文字情報解析部
1a 音素情報決定部
1b 音程情報決定部
2 韻律生成部
3 音声データベース
4 音声素片取り出し部
5 音声素片接続部
6 文字情報入力部
200 受信部
201 送信元番号抽出部
202 表示部
203 登録データ検索部
204 登録データベース
Claims (48)
- 音声素片が蓄積された音声素片蓄積手段より所望の音声素片を取り出し、取り出した音声素片を韻律情報に基づいて接続することによって合成音声を生成する音声合成方法であって、
文字情報を解析して各文字に対応した音素情報を求める音素情報生成ステップと、
文字情報を解析して各文字に対応する音程情報を求める音程情報生成ステップと、
前記音素情報生成ステップで求めた音素情報及び前記音程情報生成ステップで求めた音程情報とに基づいて韻律情報を求める韻律情報生成ステップと、
前記音素情報生成ステップで求めた音素情報に基づいて前記音声素片蓄積手段より所望の音声素片を取り出す音声素片取り出しステップと、
前記韻律情報に基づいて前記音声素片取り出しステップで取り出された音声素片を接続して合成音声情報を生成する音声素片接続ステップとを具え、
前記韻律情報生成ステップは、前記音素情報に基づく位置情報及び前記音程情報に基づいて、次式(1)〜(4)によって基本周波数情報[F0(M)]を算出し、該基本周波数情報[F0(M)]に基づいて韻律情報である基本周波数パターン情報を求めることを特徴とする音声合成方法。
- 前記位置情報は、セグメント開始点からの時間的な位置で表されることを特徴とする請求項1記載の音声合成方法。
- 前記位置情報は、セグメント開始点からのモーラ位置で表されることを特徴とする請求項1記載の音声合成方法。
- 前記位置情報は、セグメント開始点からの音節位置で表されることを特徴とする請求項1記載の音声合成方法。
- 前記位置情報は、セグメント開始点からの音素表記された音素位置で表されることを特徴とする請求項1記載の音声合成方法。
- 前記位置情報は、セグメント開始点からの音声素片位置で表されることを特徴とする請求項1記載の音声合成方法。
- 前記位置情報は、セグメント開始点からのフレーム数で表され
ることを特徴とする請求項1記載の音声合成方法。 - 前記音程情報は、前記位置情報で表される位置ごとの高低を表
す情報で構成され、前記韻律情報生成ステップは、該高低を表す情報に基づいた周波数値 から、各モーラ位置ごとの基本周波数情報[F0(M)]を算出することを特徴とする請求項1乃至請求項7記載の音声合成方法。 - 前記音程情報は、前記位置情報Mで表される位置ごとの高低を表す情報で構成され、前記韻律情報生成ステップは、該高低を表す情報に基づいた周波数値から、各音節位置ごとの基本周波数情報[F0(M)]を算出することを特徴とする請求項1乃至請求項7記載の音声合成方法。
- 前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、前記韻律情報生成ステップは、該高低を表す情報に基づいた周波数値から、各素片位置ごとの基本周波数情報[F0(M)]を算出することを特徴とする請求項1乃至請求項7記載の音声合成方法。
- 前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、前記韻律情報生成ステップは、該高低を表す情報に基づいた周波数値から、前記位置情報で表される位置ごとの基本周波数情報[F0(M)]を算出することを特徴とする請求項1乃至請求項7記載の音声合成方法。
- 前記セグメントの単位は呼気段落で区切られた区間とすることを特徴とする請求項1乃至請求項11記載の音声合成方法。
- 前記セグメントの単位はアクセント句で区切られた区間とすることを特徴とする請求項1乃至請求項11の音声合成方法。
- 前記セグメントの単位はフレーズで区切られた区間とすることを特徴とする請求項1乃至請求項11記載の音声合成方法。
- 前記セグメントの単位はポーズで区切られた区間とすることを特徴とする請求項1乃至請求項11記載の音声合成方法。
- 前記セグメントの単位は基本周波数生成の区切りで区切られた区間とすることを特徴とする請求項1乃至請求項11記載の音声合成方法。
- 音声素片が蓄積された音声素片蓄積手段と、
文字情報を解析して各文字に対応した音素情報を求める音素情報生成手段と、文字情報を解析して各文字に対応する音程情報を求める音程情報生成手段と、
前記音素情報生成手段で求めた音素情報及び前記音程情報生成手段で求めた音程情報とに基づいて韻律情報を求める韻律情報生成手段と、
前記音素情報生成手段で求めた音素情報に基づいて前記音声素片蓄積手段より所望の音声素片を取り出す音声素片取り出し手段と、
前記韻律情報に基づいて前記音声素片取り出し手段で取り出された音声素片を接続して合成音声情報を生成する音声素片接続手段とを備え、
前記韻律情報生成手段は、前記音素情報に基づく位置情報及び前記音程情報に基づいて、次式(1)〜(4)によって基本周波数情報[F0(M)]を算出し、該基本周波数情報[F0(M)]に基づいて韻律情報である基本周波数パターン情報を求めることを特徴とする音声合成装置。
- 前記位置情報は、セグメント開始点からの時間的な位置で表されることを特徴とする請求項17記載の音声合成装置。
- 前記位置情報は、セグメント開始点からのモーラ位置で表されることを特徴とする請求項17記載の音声合成装置。
- 前記位置情報は、セグメント開始点からの音節位置で表されることを特徴とする請求項17記載の音声合成装置。
- 前記位置情報は、セグメント開始点からの音素表記された音素位置で表されることを特徴とする請求項17記載の音声合成装置。
- 前記位置情報は、セグメント開始点からの音声素片位置で表されることを特徴とする請求項17記載の音声合成装置。
- 前記位置情報は、セグメント開始点からのフレーム数で表されることを特徴とする請求項17記載の音声合成装置。
- 前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、前記韻律情報生成手段は、該高低を表す情報に基づいた周波数値から、各モーラ位置ごとの基本周波数情報[F0(M)]を算出することを特徴とする請求項17乃至請求項23記載の音声合成装置。
- 前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、前記韻律情報生成手段は、該高低を表す情報に基づいた周波数値から、各音節位置ごとの基本周波数情報[F0(M)]を算出することを特徴とする請求項17乃至請求項23記載の音声合成装置。
- 前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、前記韻律情報生成手段は、該高低を表す情報に基づいた周波数値から、各素片位置ごとの基本周波数情報[F0(M)]を算出することを特徴とする請求項17乃至請求項23記載の音声合成装置。
- 前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、前記韻律情報生成手段は、該高低を表す情報に基づいた周波数値から、前記位置情報で表される位置ごとの基本周波数情報[F0(M)]を算出することを特徴とする請求項17乃至請求項23記載の音声合成装置。
- 前記セグメントの単位は呼気段落で区切られた区間とすることを特徴とする請求項17乃至請求項27記載の音声合成装置。
- 前記セグメントの単位はアクセント句で区切られた区間とすることを特徴とする請求項17乃至請求項27記載の音声合成装置。
- 前記セグメントの単位はフレーズで区切られた区間とすることを特徴とする請求項17乃至請求項27記載の音声合成装置。
- 前記セグメントの単位はポーズで区切られた区間とすることを特徴とする請求項17乃至請求項27記載の音声合成装置。
- 前記セグメントの単位は基本周波数生成の区切りで区切られた区間とすることを特徴とする請求項17乃至請求項27記載の音声合成装置。
- 電話番号情報と該電話番号情報と関連付けられた文字情報とが記憶された記憶手段と、
音声信号及び電話番号情報を受信する受信手段と、
該受信手段で受信した電話番号情報を抽出する電話番号情報抽出手段と、
前記記憶手段の中から前記電話番号情報抽出手段で抽出した電話番号情報を検索して前記電話番号情報と関連付けられた文字情報を検索して出力する検索手段と、
該検索手段が出力する文字情報を解析して各文字に対応した音素情報を求める音素情報生成手段と、
前記検索手段が出力する文字情報を解析して各文字に対応する音程情報を求める音程情報生成手段と、
前記音素情報生成手段で求めた音素情報及び前記音程情報生成手段で求めた音程情報とに基づいて韻律情報を求める韻律情報生成手段と、
前記音素情報生成手段で求めた音素情報に基づいて前記音声素片蓄積手段より所望の音声素片を取り出す音声素片取り出し手段と、
前記韻律情報に基づいて前記音声素片取り出し手段で取り出された音声素片を接続して合成音声情報を生成する音声素片接続手段と、
該音声素片接続手段からの合成音声情報を音声として放音する放音手段とを備えたことを特徴とする音声合成装置を備え、
前記韻律情報生成手段は、前記音素情報に基づく位置情報及び前記音程情報に基づいて、次式(1)〜(4)によって基本周波数情報[F0(M)]を算出し、該基本周波数情報[F0(M)]に基づいて韻律情報である基本周波数パターン情報を求めることを特徴とする音声合成装置を備えた電話機。
- 前記位置情報は、セグメント開始点からの時間的な位置で表されることを特徴とする請求項33記載の音声合成装置を備えた電話機。
- 前記位置情報は、セグメント開始点からのモーラ位置で表されることを特徴とする請求項33記載の音声合成装置を備えた電話機。
- 前記位置情報は、セグメント開始点からの音節位置で表されることを特徴とする請求項33記載の音声合成装置を備えた電話機。
- 前記位置情報は、セグメント開始点からの音素表記された音素位置で表されることを特徴とする請求項33記載の音声合成装置を備えた電話機。
- 前記位置情報は、セグメント開始点からの音声素片位置で表されることを特徴とする請求項33記載の音声合成装置を備えた電話機。
- 前記位置情報は、セグメント開始点からのフレーム数で表されることを特徴とする請求項33記載の音声合成装置を備えた電話機。
- 前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、該高低を表す情報に基づいた周波数値から、各モーラ位置ごとの基本周波数情報[F0(M)]を算出することを特徴とする請求項33乃至請求項39記載の音声合成装置を備えた電話機。
- 前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、該高低を表す情報に基づいた周波数値から、各音節位置ごとの基本周波数情報[F0(M)]を算出することを特徴とする請求項33乃至請求項39記載の音声合成装置を備えた電話機。
- 前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、該高低を表す情報に基づいた周波数値から、各素片位置ごとの基本周波数情報[F0(M)]を算出することを特徴とする請求項33乃至請求項39記載の音声合成装置を備えた電話機。
- 前記音程情報は、前記位置情報で表される位置ごとの高低を表す情報で構成され、該高低を表す情報に基づいた周波数値から、前記位置情報で表される位置ごとの基本周波数情報[F0(M)]を算出することを特徴とする請求項33乃至請求項39記載の音声合成装置を備えた電話機。
- 前記セグメントの単位は呼気段落で区切られた区間とすることを特徴とする請求項33乃至請求項43記載の音声合成装置を備えた電話機。
- 前記セグメントの単位はアクセント句で区切られた区間とすることを特徴とする請求項33乃至請求項43記載の音声合成装置を備えた電話機。
- 前記セグメントの単位はフレーズで区切られた区間とすることを特徴とする請求項33乃至請求項43記載の音声合成装置を備えた電話機。
- 前記セグメントの単位はポーズで区切られた区間とすることを特徴とする請求項33乃至請求項43記載の音声合成装置を備えた電話機。
- 前記セグメントの単位は基本周波数生成の区切りで区切られた区間とすることを特徴とする請求項33乃至請求項43記載の音声合成装置を備えた電話機。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12044299A JP3685648B2 (ja) | 1999-04-27 | 1999-04-27 | 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12044299A JP3685648B2 (ja) | 1999-04-27 | 1999-04-27 | 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000310995A JP2000310995A (ja) | 2000-11-07 |
JP3685648B2 true JP3685648B2 (ja) | 2005-08-24 |
Family
ID=14786317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP12044299A Expired - Fee Related JP3685648B2 (ja) | 1999-04-27 | 1999-04-27 | 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3685648B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6845358B2 (en) * | 2001-01-05 | 2005-01-18 | Matsushita Electric Industrial Co., Ltd. | Prosody template matching for text-to-speech systems |
JP3997278B2 (ja) * | 2001-04-27 | 2007-10-24 | 株式会社ケンウッド | 電話装置、音声合成システム、音素情報登録装置、音素情報登録・音声合成装置 |
JP5012444B2 (ja) * | 2007-11-14 | 2012-08-29 | 富士通株式会社 | 韻律生成装置、韻律生成方法、および、韻律生成プログラム |
CN110992927B (zh) * | 2019-12-11 | 2024-02-20 | 广州酷狗计算机科技有限公司 | 音频生成方法、装置、计算机可读存储介质及计算设备 |
-
1999
- 1999-04-27 JP JP12044299A patent/JP3685648B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000310995A (ja) | 2000-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4539537B2 (ja) | 音声合成装置,音声合成方法,およびコンピュータプログラム | |
US7010488B2 (en) | System and method for compressing concatenative acoustic inventories for speech synthesis | |
US7013278B1 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
EP0831460B1 (en) | Speech synthesis method utilizing auxiliary information | |
US20020111794A1 (en) | Method for processing information | |
Qian et al. | A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS | |
US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
US20120095767A1 (en) | Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system | |
US20080319754A1 (en) | Text-to-speech apparatus | |
WO2013018294A1 (ja) | 音声合成装置および音声合成方法 | |
JP2019008120A (ja) | 声質変換システム、声質変換方法、及び声質変換プログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
Levinson et al. | Speech synthesis in telecommunications | |
KR100373329B1 (ko) | 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법 | |
JP3685648B2 (ja) | 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機 | |
JP2008116643A (ja) | 音声生成装置 | |
JP5320341B2 (ja) | 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム | |
JP7406418B2 (ja) | 声質変換システムおよび声質変換方法 | |
JP3437064B2 (ja) | 音声合成装置 | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
Wen et al. | Prosody Conversion for Emotional Mandarin Speech Synthesis Using the Tone Nucleus Model. | |
JPH1152987A (ja) | 話者適応機能を持つ音声合成装置 | |
JP3681111B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP2011141470A (ja) | 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム | |
JPH0580791A (ja) | 音声規則合成装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050517 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080610 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090610 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |