WO2004072952A1

WO2004072952A1 - 音声合成処理システム

Info

Publication number: WO2004072952A1
Application number: PCT/JP2004/001712
Authority: WO
Inventors: Yasushi Sato; Hiroaki Kojima; Kazuyo Tanaka
Original assignee: Kabushiki Kaisha Kenwood; National Institute Of Advanced Industrial Science And Technology
Priority date: 2003-02-17
Filing date: 2004-02-17
Publication date: 2004-08-26
Also published as: US20060195315A1; JP2004272236A; DE04711759T1; EP1596363A4; EP1596363A1; JP4407305B2

Abstract

音声を表すデータのデータ容量を効率よく圧縮することを可能にするためのピッチ波形信号分割装置等を提供することである。コンピュータＣ１は、圧縮する音声データの単位ピッチ分にあたる区間の時間長を同一に揃えることによりピッチ波形信号を生成し、このピッチ波形信号の隣接する単位ピッチ分の２個の区間の差分の強度に基づいて、ピッチ波形信号が表す音声に含まれる隣接した音素の境界やこの音声の端を検出し、検出した境界及び端でピッチ波形信号を分割し、得られたデータを音素データとして出力する。

Description

明細書音声合成処理システム技術分野

この発明は、ピッチ波形信号分割装置、音声信号圧縮装置、データベース、音声信号復元装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声信号復元方法、音声合成方法、記録媒体及びプログラムに関する。

背景技術

テキストデ一夕などを音声へと変換する音声合成の手法が、カーナピゲーション等の分野で近年行われるようになつている。

—音声合成では、例えば、テキストデータが表す文に含まれる単語、文節及び文節相互の係り受け関係が特定され、特定された単語、文節及び係り受け関係に基づいて、文の読み方が特定される。そして、特定した読み方を表す表音文字列に基づき、音声を構成する音素の波形や継続時間やピッチ（基本周波数）のパターンが決定され、決定結果に基づいて漢字かな混じり文全体を表す音声の波形が決定され、決定された波形を有するような音声が出力される。

上述した音声合成の手法において、音声の波形を特定するためには、音声の波形を表す音声データを集積した音声辞書を検索する。合成する音声を自然なものにするためには、音声辞書が膨大な数の音声デー夕を集積していなければならない。

加えて、カーナビゲ一シヨン装置等、小型化が求められる装置にこの手法を応用する場合は、一般的に、装置が用いる音声辞書を記憶する記憶装置もサイズの小型化が必要になる。そして、記憶装置のサイズを小型化すれば、一般的にはその記憶容量の小容量化も避けられない。

そこで、記憶容量が小さな記憶装置にも十分な量の音声データを含んだ音素辞書を格納できるようにするため、音声データにデータ圧縮を施し、音声データ 1個あたりのデータ容量を小さくすることが行われていた（例えば、特表 2 0 0 0 - 5 0 2 5 3 9号公報参照）。しかし、データの規則性に着目してデータを圧縮する手法であるェントロピ一符号化の手法（具体的には、算術符号化ゃ八フマン符号化など）を用いて、人が発する音声を表す音声データを圧縮する場合、音声データが全体としては必ずしも明確な周期性を有していないため、圧縮の効率が低かった。

すなわち、人が発する音声の波形は、例えば第 1 7図（ a ) に示すように、規則性のみられる様々な時間長の区間や、明確な規則性のない区間などからなっている。このため、人が発する音声を表す音声デ —夕全体をエントロピ一符号化した場合は圧縮の効率が低くなる。

また、音声データを一定の時間長毎に区切って個々に.ェントロピ一符号化した場合、例えば第 1 7図（b ) に示すように、区切りのタイミング（第 1 7図（b ) において " T 1 " として示すタイミング）が、隣接する 2個の音素の境界（第 1 7図（b ) において " T 0 " として示すタイミング）と一致しないことが通常である。このため、区切られた個々の部分（例えば、第 1 7図（b ) において " P I " あるいは " P 2 " として示す部分）について、その全体に共通する規則性を見出すことは困難であり、従ってこれらの各部分の圧縮の効率はやはり低い。

また、ピッチのゆらぎも問題になっていた。ピッチは、人間の感情や意識に影響されやすく、ある程度は一とみなせる周期であるものの、現実には微妙にゆらぎを生じる。従って、同一話者が同じ言葉（音素）を複数ピッチ分発声した場合、ピッチの間隔は通常、一定しない。従って、 1個の音素を表す波形にも正確な規則性がみられない場合が多く、このためにェントロピー符号化による圧縮の効率が低くなる場合が多かった。

この発明は上記実状に鑑みてなざれたものであり、音声を表すデ一夕のデータ容量を効率よく圧縮することを可能にするためのピッチ波形信号分割装置、ピッチ波形信号分割方法、記録媒体及びプログラムを提供することを目的とする。また、この発明は、音声を表すデ一夕のデ一夕容量を効率よく圧縮する音声信号圧縮装置及び音声信号圧縮方法や、このような音声信号圧縮装置及び音声信号圧縮方法により圧縮されたデータを復元する音声信号復元装置及び音声信号復元方法や、このような音声信号圧縮装置及び音声信号圧縮方法により圧縮されたデ一夕を保持するデータべース及び記録媒体や、このような音声信号圧縮装置及び音声信号圧縮方法により圧縮されたデータを用いて音声合成を行うための音声合成装置及び音声合成方法を提供することを目的とする。

発明の開示

上記目的を達成すべく、この発明の第 1の観点に係るピッチ波形信号分割装置は、

音声の波形を表す音声信号を取得し、当該音声信号をフィルタリングしてピッチ信号を抽出するフィル夕と、

前記フィル夕により抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段と、

前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段と、

前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工する音声信号加工手段と、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端を検出し、検出した境界及び/又は端で前記ピッチ波形信号を分割するピッチ波形信号分割手段と、

を備えることを特徴とする。

前記ピッチ波形信号分割手段は、前記ピッチ波形信号の隣接する単位ピッチ分の 2個の区間の差分の強度が所定量以上であるか否かを判別し、所定量以上であると判別したとき、当該 2個の区間の境界を、隣接した音素の境界又は音声の端として検出するものであってもよい。前記ピッチ波形信号分割手段は、前記ピッチ信号のうち前記 2個の区間に属する部分の強度に基づいて、前記 2個の区間が摩擦音を表しているか否かを判別し、表していると判別したときは、当該 2個の区間の差分の強度が所定量以上であるか否かに関わらず、当該 2個の区間の境界は隣接した音素の境界又は音声の端ではないと判別するものであってもよい。

前記ピッチ波形信号分割手段は、前記ピッチ信号のうち前記 2個の区間に属する部分の強度が所定量以下であるか否かを判別し、所定量以下であると判別したときは、当該 2個の区間の差分の強度が所定量以上であるか否かに関わらず、当該 2個の区間の境界は隣接した音素の境界又は音声の端ではないと判別するものであってもよい。

また、この発明の第 2の観点に係るピッチ波形信号分割装置は、音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及びノ又は、当該音声の端を検出し、検出した境界及び Z又は端で前記ピッチ波形信号を分割するピッチ波形信号分割手段と、

を備えることを特徴とする。

また、この発明の第 3の観点に係るピッチ波形信号分割装置は、音声の波形を表すピッチ波形信号について、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端を検出する手段と、

検出された境界及び Z又は端で前記ピッチ波形信号を分割する手段と、

を備えることを特徴とする。また、この発明の第 4の観点に係る音声信号圧縮装置は、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び又は、当該音声の端を検出し、検出した境界及び又は端で前記ピッチ波形信号を分割することにより音素データを生成する音素データ生成手段と、

生成された音素データにェント口ピー符号化を施すことによりデ一タ圧縮するデータ圧縮手段と、

を備えることを特徴とする。

また、この発明の第 5の観点に係る音声信号圧縮装置は、

音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端を検出し、検出した境界及び/又は端で前記ピッチ波形信号を分割することにより音素データを生成する音素デ一夕生成手段と、

生成された音素データにェント口ピー符号化を施すことによりデー夕圧縮するデ一夕圧縮手段と、

を備えることを特徴とする。

また、この発明の第 6の観点に係る音声信号圧縮装置は、

音声の波形を表すピッチ波形信号について、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端を検出する手段と、

検出された境界及びノ又は端で前記ピッチ波形信号を分割することにより音素データを生成する音素データ生成手段と、 '

生成された音素データにェントロピー符号化を施すことによりデー夕圧縮するデ一夕圧縮手段と、

を備えることを特徴とする。

前記データ圧縮手段は、生成された音素データを非線形量子化した結果にェント口ピー符号化することによりデータ圧縮を行うものであつてもよい。

前記データ圧縮手段は、データ圧縮された音素データを取得し、取得した当該音素データのデータ量に基づいて、前記非線形量子化の量子化特性を決定し、決定した量子化特性に合致するように前記非線形量子化を行うものであってもよい。

前記音声信号圧縮装置は、データ圧縮された音素データをネッ卜ヮークを介して外部に送出する手段を更に備えるものであってもよい。前記音声信号圧縮装置は、データ圧縮された音素データをコンビュ —夕読み取り可能な記録媒体に記録する手段を更に備えるものであつてもよい。

また、この発明の第 7の観点に係るデータベースは、

音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端で分割することにより得られる音素データを記憶するものであることを特徴とする。

また、この発明の第 8の観点に係るデータベースは、

音声の波形を表すピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端で分割することにより得られる音素データを記憶するものであることを特徴とする。

また、この発明の第 9の観点に係るコンピュータ読み取り可能な記録媒体は、

音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び又は、当該音声の端で分割することにより得られる音素データを記録するものであることと特徴とする。

また、この発明の第 1 0の観点に係るコンピュータ読み取り可能な記録媒体は、

音声の波形を表すピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端で分割することにより得られる音素データを記録するものであることを特徴とする。

前記音素データにはェント口ピー符号化が施されていてもよい。また、前記音素データには、非線形量子化が施されたうえで前記ェントロピ一符号化が施されていてもよい。

また、この発明の第 1 1の観点に係る音声信号復元装置は、音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端で分割することにより得られる音素データを取得するデータ取得手段と、

取得した音素デ一夕を復号する復元手段と、を備える、

ことを特徴とする。

前記音素データにはェント口ピー符号化が施されていてもよく、前記復元手段は、取得した音素データを復号化し、復号化された音素データの位相を、前記処理を行う前の位相へと復元するものであつてもよい。

前記音素データには、非線形量子化が施されたうえで前記ェント口ピー符号化が施されていてもよく、

前記復元手段は、取得した音素データを復号化して非線形逆量子化し、復号化及び非線形逆量子化された音素データの位相を、前記処理を行う前の位相へと復元するものであってもよい。

前記デ一夕取得手段は、前記音素データをネットワークを介して外部より取得する手段を備えるものであってもよい。

前記データ取得手段は、前記音素データを記録するコンピュータ読み取り可能な記録媒体から当該音素データを読み取ることにより当該音素データを取得する手段を備えるものであってもよい。

また、この発明の第 1 2の観点に係る音声合成装置は、

音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、音声の端で分割することにより得られる音素データを取得するデータ取得手段と、

取得した音素データを復号する復元手段と、

取得した音素データ、又は、復号された音素データを記 '陰する音素データ記憶手段と、

文章を表す文章情報を入力する文章入力手段と、

前記文章を構成する音素の波形を表す音素データを前記音素データ記憶手段より索出して、索出された音素データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、

より構成されることを特徴とする。

前記音声合成装置は、

音片を表す音声データを複数記憶する音片記憶手段と、

入力された前記文章を構成する音片の韻律を予測する韻律予測手段と、

各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表していて、且つ、韻律が予測結果に最も近い音声データを選択する選択手段と、を更に備えていてもよく、

前記合成手段は、

前記文章を構成する音片のうち、前記選択手段が音声データを選択できなかった音片について、当該選択できなかった音片を構成する音素の波形を表す音素データを前記音素データ記憶手段より索出して、索出された音素デ一夕を互いに結合することにより、当該選択できなかった音片を表すデータを合成する欠落部分合成手段と、

前記選択手段が選択した音声データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデー夕を生成する手段と、を備えるものであってもよい。

前記音片記憶手段は、音声データが表す音片のピッチの時間変化を表す実測韻律データを、当該音声データに対応付けて記憶していてもよく、

前記選択手段は、各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表しており、且つ、対応付けられている実測韻律データが表すピッチの時間変化が韻律の予測結果に最も近い音声デ一夕を選択するものであってもよい。

前記記憶手段は、音声データの読みを表す表音データを、当該音声データに対応付けて記憶していてもよく、

前記選択手段は、前記文章を構成する音片の読みに合致する読みを表す表音データが対応付けられている音声データを、当該音片と読みが共通する音片の波形を表す音声データとして扱うものであってもよい。

前記データ取得手段は、前記音素データをネットワークを介して外部より取得する手段を備えるものであってもよい。

また、この発明の第 1 3の観点に係るピッチ波形信号分割方法は、音声の波形を表す音声信号を取得し、当該音声信号をフィルタリングしてピッチ信号を抽出し、

抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整 2

- 11 - し、

位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成し、

前記位相の調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工し、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端を検出し、検出した境界及び Z又は端で前記ピッチ波形信号を分割する、

ことを特徴とする。

また、この発明の第 1 4の観点に係るピッチ波形信号分割方法は、音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工し、

ことを特徴とする。

また、この発明の第 1 5の観点に係るピッチ波形信号分割方法は、音声の波形を表すピッチ波形信号について、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び又は、当該音声の端を検出し、

検出された境界及びノ又は端で前記ピッチ波形信号を分割する、ことを特徴とする。

また、この発明の第 1 6の観点に係る音声信号圧縮方法は、音声の波形を表す音声信号を取得し、当該音声信号をフィルタリングしてピッチ信号を抽出し、

前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整し、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端を検出し、検出した境界及び/又は端で前記ピッチ波形信号を分割することにより音素データを生成し、

生成された音素データにェント口ピー符号化を施すことによりデー夕圧縮する、

ことを特徴とする。

また、この発明の第 1 7の観点に係る音声信号圧縮方法は、音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える ζとによって、当該音声信号をピッチ波形信号へと加工し、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Ζ又は、当該音声の端を検出し、検出した境界及び Ζ又は端で前記ピッチ波形信号を分割することにより音素データを生成し、

生成された音素データにェン卜口ピー符号化を施すことによりデー夕圧縮する、

ことを特徴とする。

また、この発明の第 1 8の観点に係る音声信号圧縮方法は、音声の波形を表すピッチ波形信号について、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Ζ又は、当該音声の端を検出し、

検出された境界及び/又は端で前記ピッチ波形信号を分割することにより音素データを生成し、

ことを特徵とする。

また、この発明の第 1 9の観点に係る音声信号復元方法は、音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び又は、当該音声の端で分割することにより得られる音素データを取得し、

取得した音素データを復号する、

ことを特徴とする。

また、この発明の第 2 0の観点に係る音声合成方法は、

音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び又は、当該音声の端で分割することにより得られる音素データを取得し、

取得した音素データをと復号し、

取得した音素データ、又は、復号された音素データを記憶し、文章を表す文章情報を入力し、

前記文章を構成する音素の波形を表す音素データを、記憶されている音素データのうちから索出して、索出された音素データを互いに結合することにより、合成音声を表すデータを生成する、

ことを特徴とする。

また、この発明の第 2 1の観点に係るプログラムは、

コンピュータを、

音声の波形を表す音声信号を取得し、当該音声信号をフィル夕リングしてピッチ信号を抽出するフィルタと、前記フィル夕により抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段と、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端を検出し、検出した境界及び Z又は端で前記ピッチ波形信号を分割するピッチ波形信号分割手段と、

して機能させるためのものであることを特徴とする。

また、この発明の第 2 2の観点に係るプログラムは、

して機能させるためのものであることを特徴とする。

また、この発明の第 2 3の観点に係るプログラムは、

コンピュータを、

検出された境界及び/又は端で前記ピッチ波形信号を分割する手段と、

して機能させるためのものであることを特徴とする。

また、この発明の第 2 4の観点に係るプログラムは、

コンピュータを、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端を検出し、検出した境界及び Z又は端で前記ピッチ波形信号を分割することにより音素データを生成する音素データ生成手段と、

生成された音素データにェント口ピー符号化を施すことによりデー夕圧縮するデータ圧縮手段と、

して機能させるためのものであることを特徴とする。

また、この発明の第 2 5の観点に係るプログラムは、

コンピュータを、

音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端を検出し、検出した境界及び/又は端で前記ピッチ波形信号を分割することにより音素デ一夕を生成する音素デー夕生成手段と、

生成された音素データにエントロピ一符号化を施すことによりデー夕圧縮するデータ圧縮手段と、

して機能させるためのものであることを特徴とする。

また、この発明の第 2 6の観点に係るプログラムは、

コンピュータを、

音声の波形を表すピッチ波形信号について、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端を検出する手段と、

検出された境界及び又は端で前記ピッチ波形信号を分割することにより音素データを生成する音素データ生成手段と、

して機能させるためのものであることを特徴とする。

また、この発明の第 2 7の観点に係るプログラムは、

コンピュータを、

音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端で分割することにより得られる音素データを取得するデータ取得手段と、

取得した音素データを復号する復元手段と、

して機能させるためのものであることを特徴とする。

また、この発明の第 2 8の観点に係るプログラムは、

コンピュータを、音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び、当該音声の端で分割することにより得られる音素データを取得するデータ取得手段と、

取得した音素データを復号する復元手段と、

取得した音素データ、又は、復号された音素データを記憶する音素データ記憶手段と、

文章を表す文章情報を入力する文章入力手段と、

して機能させるためのものであることを特徴とする。

また、この発明の第 2 9の観点に係るコンピュータ読み取り可能な記録媒体は、

コンピュータを、

前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段と、

前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工する音声信号加工手段と、前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端を検出し、検出した境界及び/又は端で前記ピッチ波形信号を分割するピッチ波形信号分割手段と、

して機能させるためのプログラムを記録したことを特徴とする。また、この発明の第 3 0の観点に係るコンピュータ読み取り可能な記録媒体は、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び、当該音声の端を検出し、検出した境界及び端で前記ピッチ波形信号を分割するピッチ波形信号分割手段と、

して機能させるためのものであることを特徴とする。

また、この発明の第 3 1の観点に係るコンピュータ読み取り可能な記録媒体は、

コンピュータを、

して機能させるためのプログラムを記録したことを特徴とする。また、この発明の第 3 2の観点に係るコンピュータ読み取り可能な記録媒体は、

コンピュータを、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端を検出し、検出した境界及び Z又は端で前記ピッチ波形信号を分割することにより音素データを生成する音素デー夕生成手段と、

生成された音素デ一夕にェン卜口ピ一符号化を施すことによりデー夕圧縮するデータ圧縮手段と、

して機能させるためのプログラムを記録したことを特徴とする。また、この発明の第 3 3の観点に係るコンピュータ読み取り可能な記録媒体は、

コンピュータを、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端を検出し、検出した境界及び/又は端で前記ピッチ波形信号を分割することにより音素データを生成する音素デー夕生成手段と、

生成された音素データにェン卜口ピー符号化を施すことによりデ一夕圧縮するデータ圧縮手段と、 2

- 20 - して機能させるためのプログラムを記録したことを特徴とする。

また、この発明の第 3 4の観点に係るコンピュータ読み取り可能な' 記録媒体は、

コンピュータを、

検出された境界及び Z又は端で前記ピッチ波形信号を分割することにより音素データを生成する音素データ生成手段と、

生成された音素データにェント口ピー符号化を施すことによりデ一夕圧縮するデータ圧縮手段と、

して機能させるためのプログラムを記録したことを特徴とする。

また、この発明の第 3 5の観点に係るコンピュータ読み取り可能な記録媒体は、

コンピュータを、

音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及びノ又は、当該音声の端で分割することにより得られる音素データを取得するデータ取得手段と、

取得した音素データを復号する復元手段と、

また、この発明の第 3 6の観点に係るコンピュータ読み取り可能な記録媒体は、

コンピュータを、

音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端で分割することにより得られる音素データを取得するデータ取得手段と、

取得した音素データを復号する復元手段と、

文章を表す文章情報を入力する文章入力手段と、

前記文章を構成する音素の波形を表す音素データを前記音素データ記憶手段より索出して、索出された音素データを互いに結合することにより、合成音声を表すデ一夕を生成する合成手段と、

して機能させるためのものであることを特徴とする。

また、この発明の第 3 7の観点に係るコンピュータ読み取り可能な記録媒体は、

コンピュータを、

音声の波形を表す音声信号を取得し、当該音声信号をフィルタリングしてピッチ信号を抽出するフィルタと、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端を検出し、検出した境界及び又は端で前記ピッチ波形信号を分割するピッチ波形信号分割手段と、して機能させるためのプログラムを記録したことを特徴とする。また、この発明の第 3 8の観点に係るコンピュータ読み取り可能な記録媒体は、

して機能させるためのプログラムを記録したことを特徴とする。また、この発明の第 3 9の観点に係るコンピュータ読み取り可能な記録媒体は、

コンピュータを、

して機能させるためのプログラムを記録したことを特徴とする。また、この発明の第 4 0の観点に係るコンピュータ読み取り可能な記録媒体は、

コンピュータを、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及びノ又は、当該音声の端を検出し、検出した境界及び/又は端で前記ピッチ波形信号を分割することにより音素データを生成する音素デー夕生成手段と、

生成された音素データにェントロピー符号化を施すことによりデー夕圧縮するデータ圧縮手段と、

して機能させるためのプログラムを記録したことを特徴とする。また、この発明の第 4 1の観点に係るコンピュータ読み取り可能な記録媒体は、

コンピュータを、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端を検出し、検出した境界及び Z又は端で前記ピッチ波形信号を分割することにより音素データを生成する音素デー夕生成手段と、

生成された音素データにェント口ピ一符号化を施すことによりデー夕圧縮するデータ圧縮手段と、

して機能させるためのプログラムを記録したことを特徴とする。また、この発明の第 4 2の観点に係るコンピュータ読み取り可能な記録媒体は、コンピュータを、

生成された音素デ一夕にェント口ピー符号化を施すことによりデ一夕圧縮するデータ圧縮手段と、

して機能させるためのプログラムを記録したことを特徴とする。また、この発明の第 4 3の観点に係るコンピュータ読み取り可能な記録媒体は、

コンピュータを、

取得した音素データの位相を、前記処理を行う前の位相へと復元する復元手段と、

して機能させるためのプログラムを記録したことを特徴とする。また、この発明の第 4 4の観点に係るコンピュータ読み取り可能な記録媒体は、

コンピュータを、

音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端で分割することにより得られる音素データを取得するデータ取 2

- 25 - 得手段と、

取得した音素データを復号する復元手段と、

取得した音素データ、又は、位相を復元された音素データを記憶する音素データ記憶手段と、

文章を表す文章情報を入力する文章入力手段と、

前記文章を構成する音素の波形を表す音素デ一夕を前記音素データ記憶手段より索出して、索出された音素データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、

この発明によれば、音声を表すデ一夕のデ一夕容量を効率よく圧縮することを可能にするためのピッチ波形信号分割装置、ピッチ波形信号分割方法及びプログラムが実現される。

また、この発明によれば、音声を表すデータのデータ容量を効率よく圧縮する音声信号圧縮装置及び音声信号圧縮方法や、このような音声信号圧縮装置及び音声信号圧縮方法により圧縮されたデータを復元する音声信号復元装置及び音声信号復元方法や、このような音声信号圧縮装置及び音声信号圧縮方法により圧縮されたデータを保持するデ —夕ベース及び記録媒体や、このような音声信号圧縮装置及び音声信号圧縮方法により圧縮されたデータを用いて音声合成を行うための音声合成装置及び音声合成方法が実現される。

図面の簡単な説明

第 1図は、この発明の第 1の実施の形態に係るピッチ波形データ分割器の構成を示すプロック図である。

第 2図は、第 1図のピッチ波形デ一夕分割器の動作の流れの前半を示す図である。

第 3図は、第 1図のピッチ波形データ分割器の動作の流れの後半を示す図である。

第 4図（a ) 及び（b ) は、移相される前の音声データの波形を示すグラフであり、（c ) は、移相された後の音声データの波形を表すグラフである。

第 5図（a ) は、第 1図又は第 6図のピッチ波形データ分割器が第 1 7 0 ( a )の波形を区切るタイミングを示すグラフであり、（b )は、第 1図又は第 6図のピッチ波形デ一夕分割器が第 1 7図（b ) の波形を区切るタイミングを示すグラフである。

第 6図は、この発明の第 2の実施の形態に係るピッチ波形データ分割器の構成を示すプロック図である。

第 7図は、ピッチ波形データ分割器のピッチ波形抽出部の構成を示すブロック図である。

第 8図は、この発明の第 3の実施の形態に係る合成音声利用システムの構成を示すブ音素データ圧縮部の構成を示すブロック図である。ロック図である。

第 9図は、音声合成部の構成を示すブロック図である。

第 1 0図は、音声合成部の構成を示すブロック図である。

第 1 1図は、音片データベースのデータ構造を模式的に示す図である。

第 1 2図は、音素データ供給部の機能を行うパーソナルコンピュー夕の処理を示すフローチヤ一トである。

第 1 3図は、音素データ利用部の機能を行うパーソナルコンビユー夕が音素デ一夕を取得する処理を示すフローチャートである。

第 1 4図は、音素データ利用部の機能を行うパーソナルコンビユー夕がフリ一テキストデ一夕を取得した場合の音声合成の処理を示すフローチヤ一トである。

第 1 5図は、音素データ利用部の機能を行うパーソナルコンビユー夕が配信文字列データを取得した場合の処理を示すフローチャートである。

第 1 6図は、音素データ利用部の機能を行うパーソナルコンビュ一夕が定型メッセージデ一夕及び発声スピードデータを取得した場合の音声合成の処理を示すフローチャートである。第 1 7図（a) は、人が発する音声の波形の一例を示すグラフであり、（b) は、従来の技術において波形を区切るタイミングを説明するためのグラフである。

発明の実施の形態

以下に、図面を参照して、この発明の実施の形態を説明する。

(第 1の実施の形態）

第 1図は、この発明の第 1の実施の形態に係るピッチ波形データ分割器の構成を示す図である。図示するように、このピッチ波形デ一夕分割器は、記録媒体（例えば、フレキシブルディスクや C D— R (Compact Disc-Recordable) など）に記録されたデータを読み取る記録媒体ドライブ装置（フレキシブルディスクドライブや、 CD— R OMドライブなど） S MDと、記録媒体ドライブ装置 2 0 0に接続されたコンピュータ C 1とより構成されている。

図示するように、コンピュータ 1 0 0 は、 C P U ( Central Processing Unit) や D S P (Digital Signal Processor) 等力、らなフ口セッサ 1 0 1や、 RAM (Random Access Memory) 等からなる揮発性メモリ 1 0 2や、ハ一ドディスク装置等からなる不揮発性メモリ 1 0 4や、キーボード等からなる入力部 1 0 5や、液晶ディスプレイ等からなる表示部 1 0 6や、 U S B (Universal Serial Bus) イン夕一フェース回路等からなっていて外部とのシリアル通信を制御するシリアル通信制御部 1 0 3などからなっている。

コンピュータ C 1は音素区切りプログラムを予め記憶しており、この音素区切りプログラムを実行することにより後述する処理を行う。 (第 1の実施の形態：動作）

次に、このピッチ波形データ分割器の動作を、第 2図及び第 3図を参照して説明する。第 2図及び第 3図は、第 1図のピッチ波形データ分割器の動作の流れを示す図である。

ュ一ザが、音声の波形を表す音声データを記録した記録媒体を記録媒体ドライブ装置 SMDにセットして、コンピュータ C 1に、音素区 1712

- 28 - 切りプログラムの起動を指示すると、コンピュータ C 1は、音素区切りプログラムの処理を開始する。

すると、まず、コンピュータ C 1は、記録媒体ドライブ装置 S M D を介し、記録媒体より音声データを読み出す（第 2図、ステップ S 1 )。なお、音声データは、例えば P C M (Pulse Code Modulation) 変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。

次に、コンピュータ C 1は、記録媒体より読み出された音声デ一夕をフィルタリングすることにより、フィルタリングされた音声データ (ピッチ信号）を生成する（ステップ S 2 )。ピッチ信号は、音声デー夕のサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。

なお、コンピュータ C 1は、ピッチ信号を生成するために行うフィル夕リングの特性を、後述するピッチ長と、ピッチ信号の瞬時値が 0 となる時刻（ゼロクロスする時刻）とに基づくフィードバック処理を行うことにより決定する。

すなわち、コンピュータ C 1は、読み出した音声デ一夕に、例えば、ケプストラム解析や、自己相関関数に基づく解析を施すことにより、この音声データが表す音声の基本周波数を特定し、この基本周波数の逆数の絶対値（すなわち、ピッチ長）を求める（ステップ S 3 )。（あるいは、コンピュータ C 1は、ケプストラム解析及び自己相関関数に基づく解析の両方を行うことにより基本周波数を 2個特定し、これら 2個の基本周波数の逆数の絶対値の平均をピッチ長として求めるようにしてもよい。）

なお、ケプストラム解析としては、具体的には、まず、読み出した音声データの強度を、元の値の対数（対数の底は任意）に実質的に等しい値へと変換し、値が変換された音声データのスペクトル（すなわち、ケプストラム）を、高速フーリエ変換の手法（あるいは、離散的変数をフーリェ変換した結果を表すデータを生成する他の任意の手法）により求める。そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定する。

一方、自己相関関数に基づく解析としては、具体的には、読み出した音声デ一夕を用いてまず、数式 1の右辺により表される自己相関関数 r ( 1 ) を特定する。そして、自己相関関数 r ( 1 ) をフーリエ変換した結果得られる関数（ピリオドグラム）の極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定する。

(数 D r ( 1 ) - 1 ( t + 1 ) · χ ( t ) }

'ο 一方、コンピュータ C Iは、ピッチ信号がゼロクロスする時刻が来るタイミングを特定する（ステップ S 4 )。そして、コンピュータ C 1 は、ピツチ長とピッチ信号のゼロクロスの周期とが互いに所走量以上異なっているか否かを判別し（ステップ S 5 )、異なっていないと判別した場合は、ゼロクロスの周期の逆数を中心周波数とするようなバンドパスフィル夕の特性で上述のフィルタリングを行うこととする (ステツプ S 6 )。一方、所定量以上異なっていると判別した場合は、ピッチ長の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする（ステップ S 7 )。なお、いずれの場合も、フィルタリングの通過帯域幅は、通過帯域の上限が音声デ一夕の表す音声の基本周波数の 2倍以内に常に収まるような通過帯域幅であることが望ましい。

次に、コンピュータ C 1は、生成したピッチ信号の単位周期（例えば 1周期）の境界が来るタイミング（具体的には、ピッチ信号がゼロクロスするタイミング）で、記録媒体から読み出した音声データを区切る（ステップ S 8 )。そして、区切られてできる区間のそれぞれについて、この区間内の音声デ一夕の位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声デ一夕の位相を、この区間内の音声データの位相として特定する（ステップ S 9)。そして、音声データのそれぞれの区間を、互いが実質的に同じ位相になるように移相する（ステップ S 1 0)。

具体的には、コンピュータ C 1は、それぞれの区間毎に、例えば、数式 2の右辺により表される値 c o rを、位相を表す Φ (ただし、 Φ は 0以上の整数）の値を種々変化させた場合それぞれについて求める。そして、値 c o rが最大になるような Φの値 Ψを、この区間内の音声データの位相を表す値として特定する。この結果、この区間につき、ピッチ信号との相関が最も高くなる位相の値が定まる。そして、コンピュー夕 C 1は、この区間内の音声データを、（― Ψ) だけ移相する。

n

(数 2) c o r = { f ( i 一 Φ) - g ( l }

i =1

音声データを上述の通り移相することにより得られるデータが表す波形の一例を第 4図（c ) に示す。第 4図（ a) に示す移相前の音声データの波形のうち、「# 1」及び「# 2」として示す 2個の区間は、第 4図（b) に示すように、ピッチのゆらぎの影響により互いに異なる位相を有している。これに対し、移相された音声データが表す波形の区間 # 1及び # 2は、第 4図（ c ) に示すように、ピッチのゆらぎの影響が除去されて位相が揃っている。また、第 4図（ a) に示すように、各区間の始点の値は 0に近い値となっている。

なお、区間の時間的な長さは、 1ピッチ分程度であることが望ましい。区間が長いほど、区間内のサンプル数が増えて、ピッチ波形デ一夕のデータ量が増大し、あるいは、サンプリング間隔が増大してピッチ波形データが表す音声が不正確になる、という問題が生じる。

次に、コンピュータ C 1は、移相された音声デ一夕をラグランジェ補間する（ステップ S 1 1 )。すなわち、移相された音声データのサンプル間をラグランジェ補間の手法により補間する値を表すデータを生成する。移相された音声データと、ラグランジェ補間デ一夕とが、補間後の音声データを構成する。

次に、コンピュータ C 1は、補間後の音声データの各区間をサンプリングし直す（リサンプリングする）。.また、各区間の元のサンプル数を示すデータであるピッチ情報も生成する（ステップ S 1 2 )。なお、コンピュータ C 1は、ピッチ波形データの各区間のサンプル数が互いにほぼ等しくなるようにして、同一区間内では等間隔になるようリサンプリングするものとする。

記録媒体より読み出した音声デ一夕のサンプリング間隔が既知であるものとすれば、ピッチ情報は、この音声デ一夕の単位ピッチ分の区間の元の時間長を表す情報として機能する。

次に、コンピュータ C 1は、ステップ S 1 2で各区間の時間長を揃えられた音声データ（すなわち、ピッチ波形データ）の先頭から 2番目の 1 ピッチ分の区間以降でまだ差分データの作成に用いられていない先頭の 1ピッチ分について、当該 1 ピッチ分が表す波形の瞬時値とその直前の 1ピッチ分が表す波形の瞬時値との差分の総、和を表すデー夕（すなわち、差分データ）を生成する（第 3図、ステップ S 1 3 )。ステップ S 1 3でコンピュータ C 1は、具体的には、例えば先頭から k番目の 1ピッチ分を特定した場合は、（k— 1 ) 番目の 1ピッチ分を予め一時記憶しておき、特定した k番目の 1ピッチ分と、一時記憶してある（k一 1 ) 番目の 1 ピッチ分とを用いて、数式 3の右辺の値厶 kを表すデータを生成すればよい。

(数 _{3 )} — h _K— ） }

そして、コンピュータ C 1は、ステップ S 1 3で生成した最新の差分データを口一パスフィルタでフィル夕リングした結果を表すデ一夕

(フィルタリングされた差分データ）と、当該差分データを生成するために用いた 2ピッチ分の区間のピッチを表す上述のピッチ信号の絶対値をとつてローパスフィル夕でフィルタリングした結果を表すデー夕（フィル夕リングされたピッチ信号）と、を生成する（ステップ S

1 4 )。なお、ステツプ S 1 4における差分データやピッチ信号の絶対値のフィル夕リングの通過帯域特性は、コンピュータ C 1等が差分データやピッチ信号に突発的に生じさせる誤差がステップ S 1 5で行う判別を誤らせる確率が十分低くなるような特性であればよく、実験を行つて経験的に決定するなどすればよい。なお、一般的には、通過帯域特性を、 2次の I I R (Infinite Impulse Response) 型ローパスフィル夕の通過帯域特性とすると良好である。

次に、コンピュータ C 1は、ピッチ波形データの最新 1 ピッチ分の区間とその直前の 1 ピッチ分の区間との境界が、互いに異なる 2個の音素の境界（もしくは音声の端）、 1個の音素の途中、摩擦音の途中、又は無音状態の途中、のいずれであるかを判別する（ステップ S 1 5 )。ステップ S 1 5でコンピュータ C 1は、例えば、人が発声する声が以下に示す（ a ) 及び（b ) の性質を有していることを利用して判別を行う。すなわち、

( a ) 互いに隣接した 1 ピッチ分の区間 2個が互いに同一の音素の波形を表している場合は、両者間の相関が高いため、両者の差分の強度は小さい。一方、互いに異なる音素の波形を表している場合（あるいは、一方が無音状態を表している場合）は、両者間の相関が低いため、両者の差分の強度は大きい

( b ) ただし、摩擦音は、声帯が発する音の基本周波数成分や高調波成分にあたるスペクトル成分が少なく、また、明確な周期性がみられないため、同一の摩擦音を表す互いに隣接した 1 ピッチ分の区間 2 個の間の相関は低い

という性質を利用して、判別を行う。

より具体的には、例えばステップ S 1 5でコンピュータ C 1は、以下示す（ 1 ) 〜（4 ) の判別条件に従って、判別を行う。すなわち、

( 1 ) フィルタリングされた差分データの強度が所定の第 1の基準値以上であり、ピッチ信号の強度が所定の第 2の基準値以上である場合は、当該差分データの生成に用いた 2個の 1ピッチ分の区間同士の境界が、互いに異なる 2個の音素の境界（もしくは音声の端）であると判別し、

( 2 ) フィルタリングされた差分データの強度が第 1の基準値以上であり、ピッチ信号の強度が第 2の基準値未満である場合は、当該差分データの生成に用いた 2個の区間同士の境界が、摩擦音の途中であると判別し、

( 3 ) フィルタリングされた差分データの強度が第 1の基準値未満であり、ピッチ信号の強度が第 2の基準値未満である場合は、当該差分データの生成に用いた 2個の区間同士の境界が、無音状態の途中であると判別し、

( 4 ) フィルタリングされた差分データの強度が第 1の基準値未満であり、ピッチ信号の強度が第 2の基準値以上である場合は、当該差分データの生成に用いた 2個の区間同士の境界が、 1個の音素の途中であると判別する。

なお、フィルタリングされたピッチ信号の強度の具体的な値としては、例えば、絶対値の尖頭値や、実効値や、あるいは絶対値の平均値などを用いればよい。

そして、コンピュータ C 1は、ステップ S 1 5の処理で、ピッチ波形データの最新 1 ピッチ分の区間とその直前の 1 ピッチ分の区間との境界が、互いに異なる 2個の音素の境界（又は音声の端）であると判別すると（つまり、上述の（ 1 ) の場合に該当すると）、これら 2個の区間の境界で、ピッチ波形データを分割する（ステップ S 1 6 )。一方、互いに異なる 2個の音素の境界（又は音声の端）ではないと判別すると、処理をステップ S 1 3に戻す。

ステップ S 1 3〜S 1 6までの処理を繰り返し行う結果、ピッチ波形データは、音素 1個分に相当する区間（音素データ）の集合へと分割される。コンピュータ C 1は、これらの音素データと、ステップ S 1 2で生成したピッチ情報とを、自己のシリアル通信制御部を介して外部に出力する（ステップ S 1 7 )。第 1 7図（a ) に示す波形を有する音声データに以上説明した処理を施した結果得られる音素データは、この音声データを、例えば第 5 図（a ) に示すように、異なる音素同士の境界（又は音声の端）であるタイミング " t 1 " 〜 " t 1 9 " で区切って得られるものとなる。また、第 1 7図（b ) に示す波形を有する音声データを以上説明した処理により区切って音素データとした場合、第 1 7図（b ) に示す区切られ方とは異なり、第 5図（b ) に示すように、隣接する 2個の音素の境界 " T O " が区切りのタイミングとして正しく選択される。このため、得られた個々の音素データが表す波形（例えば、第 5図（b ) において " P 3 " あるいは " P 4 " として示す部分の波形）には、複数の音素の波形が混入することが避けられる。

そして、音声データはピッチ波形デ一夕へと加工された上で区切られる。ピッチ波形データは、単位ピッチ分の区間の時間長が規格ィ έされ、ピッチのゆらぎの影響が除去された音声データである。このため、それぞれの音素データは全体に渡って正確な周期性を有する。

音素データは以上説明した特徴を有するので、音素データにェント口ピー符号化の手法（具体的には、算術符号化やハフマン符号化などの手法）によるデータ圧縮を施せば、音素データは効率よく圧縮される。

また、音声データはピッチ波形データへと加工されることによりピツチのゆらぎの影響が除去されている結果、ピッチ波形データが表す互いに隣接する 1 ピッチ分の区間 2個の差分の総和は、これら 2個の区間が同一の音素の波形を表すものであれば、十分小さな値になる。従って、上述のステップ S 1 5の判別で誤りが生じる危険が少なくなつている。

なお、ピッチ情報を用いてピッチ波形デ一夕の各区間の元の時間長を特定することができるため、ピッチ波形データの各区間の時間長を元の音声データにおける時間長へと復元することにより、元の音声デ —夕を容易に復元できる。なお、このピッチ波形データ分割器の構成は上述のものに限られない。

たとえば、コンピュータ C 1は、外部からシリアル伝送される音声データを、シリアル通信制御部を介して取得するようにしてもよい。また、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データを取得するようにしてもよく、この場合、コンピュータ C

1は、例えばモデムや D SU (Data Service Unit) 等を備えていればよい。また、記録媒体ドライブ装置 SMD以外から音声データを取得するならば、コンピュータ C 1は必ずしも記録媒体ドライブ装置 SM Dを備えている必要はない。

また、コンピュータ C 1は、マイクロフォン、 AF増幅器、サンプラー、 A/D (Analog-to-Digital) コンバータ及び P CMエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフオンが集音した音声を表す音声信号を増幅し、サンプリングして A/D変換した後、サンプリングされた音声信号に P CM変調を施すことにより、音声データを取得すればよい。なお、コンピュータ C 1が取得する音声データは、必ずしも P CM信号である必要はない。また、コンピュータ C 1は、音素データを、記録媒体ドライブ装置 SMDにセットされた記録媒体に、記録媒体ドライブ装置 SMDを介して書き込むようにしてもよい。あるいは、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。これらの場合、コンピュータ C 1は、記録媒体ドライブ装置や、ハードディスクコントローラ等の制御回路を備えていればよい。

また、コンピュータ C 1は、音素区切りプログラムまたは自己が記憶するその他のプログラムの制御に従って、音素データにェントロピ一符号化を施してから、ェントロピー符号化された音素データを出力するようにしてもよい。

また、コンピュータ C 1は、ケプストラム解析又は自己相関係数に基づく解析のいずれかを行わなくてもよく、この場合は、ケプストラム解析又は自己相関係数に基づく解析のうち一方の手法で求めた基本周波数の逆数をそのままピッチ長として扱うようにすればよい。

また、コンピュータ C 1が音声データの各区間内の音声データを移相する量は（_ Ψ ) である必要はなく、例えば、コンピュータ C 1は、初期位相を表す各区間に共通な実数を δとして、それぞれの区間につき、（— Ψ + δ )だけ、音声データを移相するようにしてもよい。また、コンピュータ C 1が音声データを区切る位置は、必ずしもピッチ信号がゼロクロスするタイミングである必要はなく、例えば、ピッチ信号が 0でない所定の値となるタイミングであってもよい。

しかし、初期位相 αを 0とし、且つ、ピッチ信号がゼロクロスするタイミングで音声データを区切るようにすれば、各区間の始点の値は 0に近い値になるので、音声データを各区間へと区切ることに各区間が含むようになるノイズの量が少なくなる。

また、差分データは必ずしも音声データの各区間の並び順に従って逐次に生成される必要はなく、ピッチ波形データ内で互いに隣接する 1ピッチ分の区間同士の差分の総和を表す各差分データを任意の順序で、あるいは複数並行して、生成してよい。差分データのフィルタリングも逐次に行う必要はなく、任意の順序で、あるいは複数並行して行ってよい。

また、移相された音声データの補間は必ずしもラグランジェ補間の手法により行われる必要はなく、例えば直線補間の手法によってもよいし、補間自体を省略してもよい。

また、コンピュータ C 1は、音素データのうち摩擦音や無音状態を表すものがどれであるかを特定する情報を生成して出.力するようにしてもよい。

また、音素データへと加工する対象の音声データのピッチのゆらぎが無視できる程度であれば、コンピュータ C 1は、当該音声データの移相を行う必要はなく、当該音声データをピッチ波形データと同視してステップ S 1 3以降の処理を行うようにしてもよい。また、音声デ一夕の補間ゃリサンプリングも、必ずしも必要な処理ではない。

なお、コンピュータ C 1は専用のシステムである必要はなく、パーソナルコンピュータ等であってよい。また、音素区切りプログラムは、音素区切りプログラムを格納した媒体（C D— R〇M、 M O、フレキシブルディスク等）からコンピュータ C 1へとインストールするようにしてもよいし、通信回線の掲示板（B B S ) に音素区切りプロダラムをアップロードし、これを通信回線を介して配信してもよい。また、音素区切りプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調して音素区切りプログラムを復元するようにしてもよい。

また、音素区切りプログラムは、〇 Sの制御下に、他のアプリケーションプログラムと同様に起動してコンピュータ C 1に実行させることにより、上述の処理を実行することができる。なお、 O Sが上述の処理の一部を分担する場合、記録媒体に格納される音素区切りプログラムは、当該処理を制御する部分を除いたものであってもよい。

(第 2の実施の形態）

次に、この発明の第 2の実施の形態を説明する。

第 6図は、この発明の第 2の実施の形態に係るピッチ波形データ分割器の構成を示す図である。図示するように、このピッチ波形データ分割器は、音声入力部 1と、ピッチ波形抽出部 2と、差分計算部 3と、差分データフィルタ部 4と、ピッチ絶対値信号発生部 5と、ピッチ絶対値信号フィルタ部 6と、比較部 7と、出力部 8とより構成されている。

音声入力部 1は、例えば、第 1の実施の形態における記録媒体ドラィブ装置 S M Dと同様の記録媒体ドライブ装置等より構成されている。音声入力部 1は、音声の波形を表す音声データを、この音声データが記録された記録媒体から読み取る等して取得し、ピッチ波形抽出部 2に供給する。なお、音声データは、 P C M変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。

ピッチ波形抽出部 2、差分計算部 3、差分データフィルタ部 4、ピツチ絶対値信号発生部 5、ピッチ絶対値信号フィルタ部 6、比較部 7 及び出力部 8は、いずれも、 D S Pや C P U等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されている。

なお、ピッチ波形抽出部 2、差分計算部 3、差分データフィルタ部 4、ピッチ絶対値信号発生部 5、ピッチ絶対値信号フィルタ部 6、比較部 7及び出力部 8の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。

ピッチ波形抽出部 2は、音声入力部 1より供給された音声データを、この音声データが表す音声の単位ピッチ分（たとえば、 1ピッチ分）にあたる区間へと分割する。そして、分割されてできた各区間を移相及びリサンプリングすることにより、各区間の時間長及び位相を互いに実質的に同一になるように揃える。

そして、各区間の位相及び時間長を揃えられた音声データ（ピッチ波形データ）を、差分計算部 3に供給する。

また、ピッチ波形抽出部 2は、後述するピッチ信号を生成し、後述するように自らこのピッチ信号を用いるととともに、このピッチ信号をピッチ絶対値信号発生部 5へと供給する。

また、ピッチ波形抽出部 2は、この音声データの各区間の元のサンプル数を示すサンプル数情報を生成し、出力部 8へと供給する。

ピッチ波形抽出部 2は、機能的には、たとえば第 7図に示すように、ケプストラム解析部 2 0 1と、自己相関解析部 2 0 2と、重み計算部 2 0 3と、 B P F (バンドパスフィルタ）係数計算部 2 0 4と、 ϊ%ノ、ドパスフィルタ 2 0 5と、ゼロクロス解析部 2 0 6と、波形相関解析部 2 0 7と、位相調整部 2 0 8と、補間部 2 0 9と、ピッチ長調整部 2 1 0とより構成されている。

なお、ケプストラム解析部 2 0 1、自己相関解析部 2 0 2、重み計算部 2 0 3、 B P F係数計算部 2 0 4、バンドパスフィル夕 2 0 5、ゼロクロス解析部 2 0 6、波形相関解析部 2 0 7、位相調整部 2 0 8、補間部 2 0 9及びピッチ長調整部 2 1 0の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。

ピッチ波形抽出部 2は、ケプストラム解析と、自己相関関数に基づく解析とを併用して、ピッチの長さを特定する。

すなわち、まず、ケプストラム解析部 2 0 1は、音声入力部 1より供給される音声データにケプストラム解析を施すことにより、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデ一夕を生成して重み計算部 2 0 3へと供給する。

具体的には、ケプストラム解析部 2 0 1は、音声入力部 1より音声データを供給されると、まず、この音声データの強度を、元の値の対数に実質的に等しい値へと変換する。（対数の底は任意である。）次に、ケプストラム解析部 2 0 1は、値が変換された音声データのスペクトル（すなわち、ケプストラム）を、高速フーリエ変換の手法 (あるいは、離散的変数をフーリェ変換した結果を表すデータを生成する他の任意の手法）により求める。

そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部 2 0 3へと供給する。

一方、自己相関解析部 2 0 2は、音声入力部 1より音声データを供給されると、音声デ一夕の波形の自己相関関数に基づいて、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部 2 0 3へと供給する。

具体的には、自己相関解析部 2 0 2は、音声入力部 1より音声デー夕を供給されるとまず、上述した自己相関関数 r ( 1 ) を特定する。そして、特定した自己相関関数 r ( 1 ) をフーリエ変換した結果得られるピリオドグラムの極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定し、特定した基本周波数を示すデ一夕を生成して重み計算部 2 0 3へと供給する。

重み計算部 2 0 3は、ケプストラム解析部 2 0 1及び自己相関解析部 2 0 2より基本周波数を示すデータを 1個ずつ合計 2個供給されると、これら 2個のデータが示す基本周波数の逆数の絶対値の平均を求める。そして、求めた値（すなわち、平均ピッチ長）を示すデータを生成し、 B P F係数計算部 2 0 4へと供給する。

B P F係数計算部 2 0 4は、平均ピッチ長を示すデ一夕を重み計算部 2 0 3より供給され、ゼロクロス解析部 2 0 6より後逑のゼロクロス信号を供給されると、供給されたデータやゼロクロス信号に基づき、平均ピッチ長とゼロクロスの周期とが互いに所定量以上異なっているか否かを判別する。そして、異なっていないと判別したときは、ゼロクロスの周期の逆数を中心周波数（バンドパスフィルタ 2 0 5の通過帯域の中央の周波数）とするように、バンドパスフィルタ 2 0 5の周波数特性を制御する。一方、所定量以上異なっていると判別したときは、平均ピッチ長の逆数を中心周波数とするように、バンドパスフィル夕 2 0 5の周波数特性を制御する。

バンドパスフィル夕 2 0 5は、中心周波数が可変な F I R ( Finite Impulse Response) 型のフィル夕の機能を行う。

具体的には、バンドパスフィルタ 2 0 5は、自己の中心周波数を、 B P F係数計算部 2 0 4の制御に従った値に設定する。そして、音声入力部 1より供給される音声データをフィルタリングして、フィルタリングされた音声データ（ピッチ信号）を、ゼロクロス解析部 2 0 6、波形相関解析部 2 0 7及びピッチ絶対値信号発生部 5へと供給する。ピッチ信号は、音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。なお、バンドパスフィルタ 2 0 5の帯域幅は、バンドパスフィルタ 2 0 5の通過帯域の上限が音声データの表す音声の基本周波数の 2倍以内に常に収まるような帯域幅であることが望ましい。

ゼロクロス解析部 2 0 6は、バンドパスフィルタ 2 0 5から供給されたピッチ信号の瞬時値が 0となる時刻（ゼロクロスする時刻）が来るタイミングを特定し、特定したタイミングを表す信号（ゼロクロス信号）を、 B P F係数計算部 2 0 4へと供給する。このようにして、音声データのピッチの長さが特定される。

ただし、ゼロクロス解析部 2 0 6は、ピッチ信号の瞬時値が 0でない所定の値となる時刻が来るタイミングを特定し、特定した夕イミングを表す信号を、ゼロクロス信号に代えて B P F係数計算部 2 0 4へと供給するようにしてもよい。

波形相関解析部 2 0 7は、音声入力部 1より音声データを供給され、バンドパスフィルタ 2 0 5よりピッチ信号を供給されると、ピッチ信号の単位周期（例えば 1周期）の境界が来るタイミングで音声データを区切る。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する。このようにして、各区間につき音声データの位相が特定される。

具体的には、波形相関解析部 2 0 7は、例えば、それぞれの区間毎に、上述した値 Ψを特定し、値 Ψを示すデータを生成して、この区間内の音声データの位相を表す位相データとして位相調整部 2 0 8に供給する。なお、区間の時間的な長さは、 1ピッチ分程度であることが望ましい。

位相調整部 2 0 8は、音声入力部 1より音声データを供給され、波形相関解析部 2 0 7より音声データの各区間の位相 Ψを示すデータを供給されると、それぞれの区間の音声データの位相を（— Ψ ) だけ移相することにより、各区間の位相を揃える。そして、移相された音声データを補間部 2 0 9へと供給する。

補間部 2 0 9は、位相調整部 2 0 8より供給された音声データ（移相された音声データ）にラグランジェ補間を施して、ピッチ長調整部 2 1 0へと供給する。ピッチ長調整部 2 1 0は、ラグランジェ補間を施された音声データを補間部 2 0 9より供給されると、供給された音声データの各区間をリサンプリングすることにより、各区間の時間長を互いに実質的に同一になるように揃える。そして、各区間の時間長を揃えられた音声デ一夕（すなわち、ピッチ波形データ）を差分計算部 3へと供給する。

また、ピッチ長調整部 2 1 0は、この音声データの各区間の元のサンプル数（音声入力部 1からピッチ長調整部 2 1 0へと供給された時点におけるこの音声データの各区間のサンプル数）を示すサンプル数情報を生成し、出力部 8へと供給する。サンプル数情報は、ピッチ波形データの各区間の元の時間長を特定する情報であり、第 1の実施の形態におけるピッチ情報に相当するものである。

差分計算部 3は、ピッチ波形データ内の 1 ピッチ分の区間と当該区 ¾の直前の 1ピッチ分の区間との差分の総和を表す各差分データ（具体的には、例えば上述の値を表すデータ）を、ピッチ波形データの先頭から 2番目以降の 1 ピッチ分の各区間について生成し、差分デ一夕フィルタ部 4へと供給する。

差分データフィル夕部 4は、差分計算部 3より供給された各差分デ一夕を口一パスフィルタでフィルタリングした結果を表すデータ（フィル夕リングされた差分データ）を生成して、比較部 7に供給する。なお、差分データフィル夕部 4による差分データのフィルタリングの通過帯域特性は、比較部 7が行う後述の判別が、差分データに突発的に生じる誤差のために誤りとなる確率が十分低くなるような特性であればよい。なお、一般的には、差分データフィルタ部 4の通過帯域特性を、 2次の I I R型ローパスフィル夕の通過帯域特性とすると良好である。

一方、ピッチ絶対値信号発生部 5は、ピッチ波形抽出部 2より供給されたピッチ信号の瞬時値の絶対値を表す信号（ピッチ絶対値信号）を生成して、ピッチ絶対値信号フィル夕部 6へと供給する。

ピッチ絶対値信号フィルタ部 6は、ピッチ絶対値信号発生部 5より供給されたピッチ絶対値信号をローパスフィルタでフィルタリングした結果を表すデータ（フィルタリングされたピッチ信号）を生成し、比較部 7に供給する。

なお、ピッチ絶対値信号フィルタ部 6によるフィルタリングの通過帯域特性は、比較部 7が行う判別が、ピッチ絶対値信号に突発的に生じる誤差のために誤りとなる確率が十分低くなるような特性であればよい。なお、一般的には、ピッチ絶対値信号フィルタ部 6の通過帯域特性も、 2次の I I R型ローパスフィル夕の通過帯域特性とすると良好である。

比較部 7は、ピッチ波形データ内で互いに隣接する 1ピッチ分の区間同士の境界が、互いに異なる 2個の音素の境界（もしくは音声の端）、 1個の音素の途中、摩擦音の途中、又は無音状態の途中、のいずれであるかを、それぞれの境界について判別する。

比較部 7による上述の判別は、人が発声する声が有する上述の（ a ) 及び（b ) の性質に基づいて行えばよく、例えば上述した（ 1 ) 〜（4 ) の判別条件に従って、判別を行えばよい。なお、フィル夕リングされたピッチ信号の強度の具体的な値としては、例えば、絶対値の尖頭値や、実効値や、あるいは絶対値の平均値などを用いればよい。

そして、比較部 7は、ピッチ波形データ内で互いに隣接する 1 ピッチ分の区間同士の境界のうち、互いに異なる 2個の音素の境界（又は音声の端）であると判別した境界で、ピッチ波形データを分割する。そして、ピッチ波形データを分割して得られた各データ（すなわち、音素データ）を、出力部 8へと供給する。

出力部 8は、たとえば、 R S 2 3 2 C等の規格に準拠して外部とのシリアル通信を制御する制御回路と、 C P U等のプロセッサ（及びこのプロセッサが実行するためのプロダラムを記憶するメモリ等）より構成されている。

出力部 8は、比較部 7が生成した音素データと、ピッチ波形抽出部 2が生成したサンプル数情報とを供給されると、音素データ及びサンプル数情報を表すピットストリームを生成して出力する。

第 6図のピッチ波形データ分割器も、第 1 7図（ a ) に示す波形を有する音声データを、ピッチ波形データへと加工した上で第 5図（ a ) に示すタイミング " t 1 "〜 " t 1 9 "で区切る。また、第 1 7図（ b ) に示す波形を有する音声データを用いて音素データを生成する場合は、第 5図（b ) に示すように、隣接する 2個の音素の境界 " T O " を区切りのタイミングとして正しく選択する。

このため、第 6図のピッチ波形データ分割器が生成するそれぞれの音素データも、複数の音素の波形が混入したものとならず、また、それぞれの音素データは全体に渡って正確な周期性を有する。従って、第 6図のピッチ波形デ一夕分割器が生成音素データにェント口ピー符号化の手法によるデータ圧縮を施せば、この音素データは効率よく圧縮される。

また、音声デ一夕はピッチ波形データへと加工されることによりピツチのゆらぎの影響が除去されているので、比較部 7が行う判別で誤りが生じる危険が少なくなつている。

更に、サンプル数情報を用いてピッチ波形データの各区間の元の時間長を特定することができるため、ピッチ波形デ一夕の各区間の時間長を元の音声データにおける時間長へと復元することにより、元の音声デ一夕を容易に復元できる。

なお、このピッチ波形データ分割器の構成も上述のものに限られない。

たとえば、音声入力部 1は、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データを取得するようにしてもよい。この場合、音声入力部 1は、例えばモデムや D S U等からなる通信制御部を備えていればよい。

また、音声入力部 1は、マイクロフォン、 A F増幅器、サンプラー、 A / Dコンバ一夕及び P C Mエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングして A Z D変換した後、サンプリングされた音声信号に P C M変調を施すことにより、音声データを取得すればよい。なお、音声入力部 1が取得する音声データは、必ずしも P C M信号である必要はない。

また、このピッチ波形抽出部 2は、ケプストラム解析部 2 0 1 (又は自己相関解析部 2 0 2 ) を備えていなくてもよく、この場合、重み計算部 2 0 3は、ケプストラム解析部 2 0 1 (又は自己相関解析部 2 0 2 ) が求めた基本周波数の逆数をそのまま平均ピッチ長として扱うようにすればよい。

また、ゼロクロス解析部 2 0 6は、ノンドパスフィルタ 2 0 5から供給されたピッチ信号を、そのままゼロクロス信号として B P F係数計算部 2 0 4へと供給するようにしてもよい。

また、出力部 8は、音素データやサンプル数情報を、通信回線等を介して外部に出力するようにしてもよい。通信回線を介してデータを出力する場合、出力部 8は、例えばモデムや D S U等からなる通信制御部を備えていればよい。

また、出力部 8は、記録媒体ドライブ装置を備えていてもよく、この場合、出力部 8は、音素データやサンプル数情報を、この記録媒体ドライブ装置にセットされた記録媒体の記憶領域に書き込むようにしてもよい。

なお、単一のモデムや D S Uや記録媒体ドライブ装置が音声入力部 1及び出力部 8を構成していてもよい。

また、位相調整部 2 0 8が音声デ一夕の各区間内の音声データを移相する量は（_ Ψ ) である必要はなく、また、波形相関解析部 2 0 7 が音声データを区切る位置は、必ずしもピッチ信号がゼロクロスするタイミングである必要はない。

また、補間部 2 0 9は移相された音声データの補間を必ずしもラグランジェ補間の手法により行う必要はなく、例えば直線補間の手法によってもよいし、補間部 2 0 9を省略し、位相調整部 2 0 8は音声デ一夕を直ちにピッチ長調整部 2 1 0に供給してもよい。

また、比較部 7は、音素データのうち摩擦音や無音状態を表すものがどれであるかを特定する情報を生成して出力するようにしてもよい。

また、比較部 7は、生成した音素データにエントロピー符号化を施してから出力部 8へと供給するようにしてもよい。

(第 3の実施の形態）

次に、この発明の第 3の実施の形態に係る合成音声利用システムを説明する。

第 8図は、この合成音声利用システムの構成を示す図である。図示するように、この合成音声利用システムは、音素データ供給部 Tと、音素データ利用部 Uとより構成されている。音素デ一夕供給部 Tは、音素データを生成してデータ圧縮を施し、後述の圧縮音素データとして出力するものであり、音素データ利用部 Uは、音素データ供給部 T が出力した圧縮音素データを入力して音素データを復元し、復元された音素データを用いて音声合成を行うものである。

音素データ供給部 Tは、第 8図に示すように、例えば、音声デ一タ分割部 T 1 と、音素データ圧縮部 T 2と、圧縮音素データ出力部 T 3 とより構成されている。

音声データ分割部 T 1は、例えば、上述の第 1又は第 2の実施の形態に係るピッチ波形データ分割器と実質的に同一の構成を有している。音声デ一夕分割部 T 1は、外部より音声データを取得して、この音声データをピッチ波形データへと加工した上で、音素 1個分に相当する区間の集合へと分割することにより上述の音素デ一夕及びピッチ情報 (サンプル数情報）を生成し、音素データ圧縮部 T 2へと供給する。また、音素データ分割部 T 1は、音素データの生成に用いた音声デ —夕により読み上げられる文章を表す情報を取得し、この情報を、公知の手法によって音素を表す表音文字列へと変換して、得られた表音文字列に含まれる各々の表音文字を、当該表音文字を読み上げる音素を表す音素デ一夕に付加（ラベリング）してもよい。音素データ圧縮部 T 2及び圧縮音素データ出力部 Τ 3は、いずれも、 D S Ρや C PU等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されている。なお、音素デ一夕圧縮部 Τ 2及び圧縮音素データ出力部 Τ 3の一部又は全部の機能を単一のプロセッサが行うようにしてもよく、また、音声データ分割部 Τ 1の機能を行うプロセッサが更に音素デ一夕圧縮部 Τ 2及び圧縮音素デ一タ出力部 Τ 3の一部又は全部の機能を行うようにしてもよレ音素データ圧縮部 Τ 2は、機能的には、第 9図に示すように、非線形量子化部 Τ 2 1 と、圧縮率設定部 Τ 2 2と、エントロピー符号化部 Τ 2 3とより構成されている。

非線形量子化部 Τ 2 1は、音素データを音声データ分割部 Τ 1より供給されると、この音素データが表す波形の瞬時値に非線形な圧縮を施して得られる値（具体的には、たとえば、瞬時値を上に凸な関数に代入して得られる値）を量子化したものに相当する非線形量子化音素デ一夕を生成する。そして、生成した非線形量子化音素データを、ェントロピー符号化部 Τ 2 3へと供給する。

なお、非線形量子化部 T 2 1は、瞬時値の圧縮前の値と圧縮後の値との対応関係を特定するための圧縮特性データを圧縮率設定部 Τ 2 2 より取得し、このデータにより特定される対応関係に従って圧縮を行うものとする。

具体的には、例えば、非線形量子化部 T 2 1は、数式 4の右辺に含まれる関数 g l o b a l— g a i n (x i ) を特定するデータを、圧縮特性データとして圧縮率設定部 T 2 2より取得する。そして、非線形圧縮後の各周波数成分の瞬時値を、数式 4の右辺に示す関数 X r i

(x i ) を量子化した値に実質的に等しくなるようなものへと変更することにより非線形量子化を行う。

(数 4) X r i (x i ) = s g n (x i ) · I x i I ^4/3 -

2 { g l o b a l— g a i n ( x i ) } / 4

(ただし、 s g n ( ） = ( a/ I o; I )、 x iは、音素データが表す波形の瞬時値、 g l o b a l— g a i n ( x i ) は、フルスケールを設定するための X iの関数）

圧縮率設定部 T 2 2は、非線形量子化部 T 2 1による瞬時値の圧縮前の値と圧縮後の値との対応関係（以下、圧縮特性と呼ぶ）を特定するための上述の圧縮特性データを生成し、非線形量子化部 T 2 1及びエントロピー符号化部 E 2 3に供給する。具体的には、例えば、上述の関数 g l o b a l— g a i n ( x i ) を特定する圧縮特性データを生成して、非線形量子化部 T 2 1及びェント口ピー符号化部 T 2 3に供給する。

なお、圧縮率設定部 T 2 2は、圧縮特性を決定するため、たとえば、ェントロピー符号化部 T 2 3より圧縮音素デ一夕を取得する。そして、音声デ一夕分割部 T 1より取得した音素データのデータ量に対する、ェントロピー符号化部 T 2 3より取得した圧縮音素デ一夕のデータ量の比を求め、求めた比が、目標とする所定の圧縮率（たとえば、約 1 0 0分の 1 ) より大きいか否かを判別する。求めた比が目標とする圧縮率より大きいと判別すると、圧縮率設定部 T 2 2は、圧縮率が現在より小さくなるように圧縮特性を決定する。一方、求めた比が目標とする圧縮率以下であると判別すると、圧縮率が現在より大きくなるように、圧縮特性を決定する。

エントロピ一符号化部 T 2 3は、非線形量子化部 T 2 1より供給された非線形量子化音素データ、音声データ分割部 T 1より供給されたピッチ情報、及び、圧縮率設定部 T 2 2より供給された圧縮特性デー夕をエントロピー符号化し（具体的には、例えば算術符号（arithmetic code) あるいはハフマン符号へと変換し）、エントロピー符号化されたこれらのデータを、圧縮音素データとして、圧縮率設定部 T 2 2及び圧縮音素データ出力部 T 3へと供給する。

圧縮音素データ出力部 T 3は、エントロピー符号化部 T 2 3より供給された圧縮音素データを出力する。出力する手法は任意であり、たとえばコンピュータ読み取り可能な記録媒体（例えば、 C D (Compact Disc)、 DVD (Digital Versatile Disc)、フレキシブルディスク等）に記録してもよく、あるいは Ethernet (登録商標）、 U S B (Universal Serial Bus), I E EE 1 3 94若しくは R S 2 3 2 C等の規格に準拠した態様でシリアル伝送するようにしてもよい。あるいは、圧縮音素データをパラレル伝送してもよい。更に圧縮音素データ出力部 T 3は、圧縮音素データを、イン夕一ネット等のネットワークを介して外部のサーバにアツプロ一ドする等の手法により圧縮音素データを配信してもよい。

なお、圧縮音素データ出力部 T 3は、圧縮音素データを記録媒体に記録する場合、例えば、記録媒体へのデータの書き込みをプロセッサ等の指示に従って行う記録媒体ドライブ装置を更に備えていればよレまた、圧縮音素データをシリアル伝送する場合は、 Ethernet (登録商標）、 US B、 I E E E 1 3 94若しくは R S 2 3 2 C等の規格に準拠して外部とのシリアル通信を制御する制御回路を更に備えていればよい。

音素データ利用部 Uは、第 8図に示すように、圧縮音素データ入力部 U 1と、エントロピ一符号復号化部 U 2と、非線形逆量子化部 U 3 と、音素データ復元部 U 4と、音声合成部 U 5とより構成されている。圧縮音素データ入力部 U 1、エントロピ一符号復号化部 U 2、非線形逆量子化部 U 3及び音素データ復元部 U 4は、いずれも、 D S Pや C P U等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されている。なお、圧縮音素デ一夕入力部 U l、エントロピー符号復号化部 U 2、非線形逆量子化部 U 3 及び音素デ一夕復元部 U 4の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。

圧縮音素データ入力部 U 1は、上述の圧縮音素データを外部から取得し、取得した圧縮音素データをェント口ピ一符号復号化部 U 2へと供給する。圧縮音素データ入力部 U 1が圧縮音素データを取得する手法は任意であり、たとえばコンピュータ読み取り可能な記録媒体に記録されている圧縮音素データを読み取ることにより取得してもよく、あるいは Ethernet (登録商標）、 US B、 I EE E 1 3 94若しくは R S 2 3 2 C等の規格に準拠した態様でシリアル伝送された圧縮音素デ一夕、若しくはパラレル伝送された圧縮音素データを受信することにより取得してもよい。圧縮音素データ入力部 U 1は、外部のサーバが記憶している圧縮音素データを、インターネット等のネットワークを介してダウンロードする等の手法により圧縮音素デ一夕を取得してもよい。

なお、圧縮音素データ入力部 U 1は、圧縮音素データを記録媒体から読み取る場合、例えば、記録媒体からのデータの読み取りをプロセッサ等の指示に従って行う記録媒体ドライブ装置を更に備えていればよい。また、シリアル伝送された圧縮音素デ一夕を受信する場合は、

Ethernet (登録商標）、 US B、 I E E E 1 3 94若しくは R S 2 3 2 C等の規格に準拠して外部とのシリアル通信を制御する制御回路を更に備えていればよい。

ェントロピー符号復号化部 U 2は、圧縮音素データ入力部 U 1より供給された圧縮音素データ（すなわち、非線形量子化音素デ一夕、ピツチ情報及び圧縮特性データがェント口ピ一符号化されたもの）を復号化することにより、非線形量子化音素データ、ピッチ情報及び圧縮特性データを復元する。そして、復元された非線形量子化音素データ及び圧縮特性データを非線形逆量子化部 U 3へと供給し、復元されたピッチ情報を音素データ復元部 U 4へと供給する。

非線形逆量子化部 U 3は、ェントロピー符号復号化部 U 2より非線形量子化音素データ及び圧縮特性デ一夕を供給されると、この非線形量子化音素データが表す波形の瞬時値を、この圧縮特性データが示す圧縮特性と互いに逆変換の関係にある特性に従って変更することにより、非線形量子化される前の音素デ一夕を復元する。そして、復元した音素データを音素データ復元部 U 4へと供給する。

音素データ復元部 U4は、非線形逆量子化部 U 3より供給された音素データの各区間の時間長を、ェントロピー符号復号化部 U 2より供給されるピッチ情報が示す時間長になるよう変更する。区間の時間長の変更は、たとえば区間内にあるサンプルの間隔及び/又はサンプル数を変更することにより行えばよい。

そして、音素データ復元部 U 4は、各区間の時間長を変更された音素データ、すなわち復元された音素データを、音声合成部 U 5の後述する波形デ一夕ベース U 5 0 6に供給する。

音声合成部 U 5は、第 1 0図に示すように、言語処理部 U 5 0 1と、単語辞書 U 5 0 2と、音響処理部 U 5 0 3と、検索部 U 5 0 4と、伸長部 U 5 0 5と、波形データベース U 5 0 6と、音片編集部 U 5 0 7 と、検索部 U 5 0 8と、音片デ一夕ベース U 5 0 9と、話速変換部 U 5 1 0と、音片登録ユニット Rとより構成されている。

言語処理部 U 5 0 1、音響処理部 U 5 0 3、検索部 U 5 0 4、伸長部 U 5 0 5、音片編集部 U 5 0 7、検索部 U 5 0 8及び話速変換部 U 5 1 0は、いずれも、 C P Uや D S P等のプロセッサや、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されており、それぞれ後述する処理を行う。

なお、言語処理部 U 5 0 1、音響処理部 U 5 0 3、検索部 U 5 0 4、伸長部 U 5 0 5、音片編集部 U 5 0 7、検索部 U 5 0 8及び話速変換部 U 5 1 0の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。また、圧縮音素データ入力部 U 1、エントロピー符号復号化部 U 2、非線形逆量子化部 U 3又は音素データ復元部 U 4の機能を行うプロセッサが、言語処理部 U 5 0 1、音響処理部 U 5 0 3、検索部 U 5 0 4、伸長部 U 5 0 5、音片編集部 U 5 0 7、検索部 U 5 0 8 及び話速変換部 U 5 1 0の一部又は全部の機能を更に行うようにしてもよい。

単語辞書 U 5 0 2 は、 E E P R O M ( Electrically

Erasable/Programmable Read Only Memory) やノヽ—ドデイスク装置等のデータ書き換え可能な不揮発性メモリと、この不揮発性メモリへのデータの書き込みを制御する制御回路とにより構成されている。なお、プロセッサがこの制御回路の機能を行ってもよく、圧縮音素データ入力部 U l、エントロピー符号復号化部 U 2、非線形逆量子化部 U 3、音素データ復元部 U 4、言語処理部 U 5 0 1、音響処理部 U 5 0 3、検索部 U 5 0 4、伸長部 U 5 0 5、音片編集部 U 5 0 7、検索部 U 5 0 8及び話速変換部 U 5 1 0の一部又は全部の機能を行うプロセッサが単語辞書 U 5 0 2の制御回路の機能を行うようにしてもよい。単語辞書 U 5 0 2には、表意文字（例えば、漢字など）を含む単語等と、この単語等の読みを表す表音文字（例えば、カナや発音記号など）とが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。また、単語辞書 5 3は、表意文字を含む単語等と、この単語等の読みを表す表音文字とを、ユーザの操作に従って外部より取得し、互いに対応付けて記憶する。なお、単語辞書 U 5 0 2を構成する不揮発性メモリのうち、あらかじめ記憶されているデータを記憶する部分は、 P R O M (Programmable Read Only Memory) 等の書き換え不能な不揮発性メモリより構成されていてもよい。

波形デ一夕ベース U 5 0 6は、 E E P R O Mやハードディスク装置等のデータ書き換え可能な不揮発性メモリと、この不揮発性メモリへのデータの書き込みを制御する制御回路とより構成されている。なお、プロセッサがこの制御回路の機能を行ってもよく、圧縮音素デ一夕入力部 U l、エントロピー符号復号化部 U 2、非線形逆量子化部 U 3 、音素データ復元部 U 4、言語処理部 U 5 0 1、単語辞書 U 5 0 2、音響処理部 U 5 0 3、検索部 U 5 0 4、伸長部 U 5 0 5、音片編集部 U 5 0 7、検索部 U 5 0 8及び話速変換部 U 5 1 0の一部又は全部の機能を行うプロセッサが波形データベース U 5 0 6の制御回路の機能を行うようにしてもよい。

波形データベース U 5 0 6には、表音文字と、この表音文字が表す音素の波形を表す音素データとが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。また、波形データベース U 5 0 6は、音素データ復元部 U 4より供給された音素データと、この音素データにより波形が表される音素を表す表音文字とを、互いに対応付けて記憶する。なお、波形デ一夕ベース U 5 0 6 を構成する不揮発性メモリのうち、あらかじめ記憶されているデータを記憶する部分は、 P R O M等の書き換え不能な不揮発性メモリより構成されていてもよい。

なお、波形データベース U 5 0 6は、音素データと共に、 V C V (Vowel-Consonant-Vowel) 音節などの単位で区切られる音声を表すデータを記憶してもよい。

音片データベース U 5 0 9は、 E E P R O Mゃハ一ドディスク装置等のデータ書き換え可能な不揮発性メモリより構成されている。

音片データベース U 5 0 9には、例えば、第 1 1図に示すデータ構造を有するデータが記憶されている。すなわち、図示するように、音片デ一夕ベース U 5 0 9に格納されているデータは、ヘッダ部 H D R、ィンデックス部 I D X、ディレクトリ部 D I R及びデータ部 D A Tの 4種に分かれている。

なお、音片データベース U 5 0 9へのデータの格納は、例えば、この音声合成システムの製造者によりあらかじめ行われ、及び/又は、音片登録ュニット Rが後述する動作を行うことにより行われる。なお、音片デ一夕ベース U 5 0 9を構成する不揮発性メモリのうち、あらかじめ記憶されているデータを記憶する部分は、 P R O M等の書き換え不能な不揮発性メモリより構成されていてもよい。

へッダ部 H D Rには、音片データベース U 5 0 9を識別するデ一夕や、インデックス部 I D X、ディレクトリ部 D I R及びデータ部 D A Tのデータ量、データの形式、著作権等の帰属などを示すデータが格納される。

デ一夕部 D A Tには、音片の波形を表す音片データをェント口ピー符号化して得られる圧縮音片デ一夕が格納されている。なお、音片とは、音声のうち音素 1個以上を含む連続した 1区間をいい、通常は単語 1個分又は複数個分の区間からなる。

また、エントロピ一符号化される前の音片デ一夕は、音素デ一夕と同じ形式のデータ（例えば、 P CMされたデジタル形式のデータ）からなっていればよい。

ディレクトリ部 D I Rには、個々の圧縮音声デ一夕について、

(A) この圧縮音片データが表す音片の読みを示す表音文字を表すデータ（音片読みデータ）、

(B) この圧縮音片データが格納されている記憶位置の先頭のァドレスを表すデータ、

(C) この圧縮音片データのデータ長を表すデータ、

(D) この圧縮音片デ一夕が表す音片の発声スピード（再生した場合の時間長）を表すデータ（スピード初期値デ一夕）、

(E) この音片のピッチ成分の周波数の時間変化を表すデータ（ピッチ成分デ一夕）、

が、互いに対応付けられた形で格納されている。（なお、音片データベース U 5 0 9の記憶領域にはァドレスが付されているものとする。）なお、第 1 1図は、デ一夕部 DATに含まれるデータとして、読みが「サイタマ」である音片の波形を表す、デ一夕量 1 4 1 0 hバイトの圧縮音片データが、アドレス 0 0 1 A 3 6 A 6 hを先頭とする論理的位置に格納されている場合を例示している。（なお、本明細書及び図面において、末尾に "h" を付した数字は 1 6進数を表す。）

なお、上述の（A) 〜（E) のデータの集合のうち少なくとも（A) のデータ（すなわち音片読みデータ）は、音片読みデ一夕が表す表音文字に基づいて決められた順位に従ってソートされた状態で（例えば、表音文字がカナであれば、五十音順に従って、アドレス降順に並んだ状態で）、音片デ一夕ベース U 5 0 9の記憶領域に格納されている。

また、上述のピッチ成分データは、例えば、図示するように、音片のピッチ成分の周波数を音片の先頭からの経過時間の 1次関数で近似した場合における、この 1次関数の切片 /3及び勾配 αの値を示すデ一夕からなっていればよい。（勾配 αの単位は例えば [ヘルツ秒] であればよく、切片 j8の単位は例えば [ヘルツ] であればよい。）

また、ピッチ成分データには更に、圧縮音片データが表す音片が鼻濁音化されているか否か、及び、無声化されているか否かを表す図示しないデータも含まれているものとする。

ィンデックス部 I D Xには、ディレクトリ部 D I Rのデータのおおよその論理的位置を音片読みデータに基づいて特定するためのデータが格納されている。具体的には、例えば、音片読みデ一夕がカナを表すものであるとして、カナ文字と、先頭 1字がこのカナ文字であるような音片読みデータがどのような範囲のァドレスにあるかを示すデ一夕（ディレクトリアドレス）とが、互いに対応付けて格納されている。なお、単語辞書 U 5 0 2、波形データベース U 5 0 6及び音片デー夕ベース U 5 0 9の一部又は全部の機能を単一の不揮発性メモリが行うようにしてもよい。

音片登録ユニット Rは、図示するように、収録音片デ一夕セット記憶部 U 5 1 1 と、音片データべ一ス作成部 U 5 1 2と、圧縮部 U 5 1 3とにより構成されている。なお、音片登録ユニット Rは音片デ一夕ベース U 5 0 9とは着脱可能に接続されていてもよく、この場合は、音片デ一夕ベース U 5 0 9に新たにデータを書き込むときを除いては、音片登録ュニット Rを本体ュニット Mから切り離した状態で本体ュニット Mに後述の動作を行わせてよい。

収録音片データセット記憶部 U 5 1 1は、ハ一ドディスク装置等のデ一夕書き換え可能な不揮発性メモリより構成されており、音片デー夕ベース作成部 U 5 1 2に接続されている。なお、収録音片データセット記憶部 U 5 1 1は、ネットヮ一クを介して音片データベース作成部 U 5 1 2に接続されていてもよい。

収録音片データセット記憶部 U 5 1 1には、音片の読みを表す表音文字と、この音片を人が実際に発声したものを集音して得た波形を表す音片デ一夕とが、この音声合成システムの製造者等によって、あらかじめ互いに対応付けて記憶されている。なお、この音片データは、例えば、 P C Mされたデジタル形式のデータからなっていればよい。音片データベース作成部 U 5 1 2及び圧縮部 U 5 1 3は、 C P U等のプロセッサゃ、このプロセッサが実行するためのプログラムを記憶するメモリなどより構成されており、このプログラムに従って後述する処理を行う。

なお、音片デ一夕べ一ス作成部 U 5 1 2及び圧縮部 U 5 1 3の一部又は全部の機能を単一のプロセッサが行うようにしてもよく、また、圧縮音素データ入力部 U 1、エントロピー符号復号化部 U 2、非線形逆量子化部 U 3、音素データ復元部 U 4、言語処理部 U 5 0 1、音響処理部 U 5 0 3、検索部 U 5 0 4、伸長部 U 5 0 5、音片編集部 U 5 0 7、検索部 U 5 0 8及び話速変換部 U 5 1 0の一部又は全部の機能を行うプロセッサが音片データベース作成部 U 5 1 2や圧縮部 U 5 1 3の機能を更に行ってもよい。また、音片デ一夕べ一ス作成部 U 5 1 2や圧縮部 U 5 1 3の機能を行うプロセッサが、収録音片データセット記憶部 U 5 1 1の制御回路の機能を兼ねてもよい。

音片データベース作成部 U 5 1 2は、収録音片データセット記憶部 U 5 1 1より、互いに対応付けられている表音文字及び音片データを読み出し、この音片データが表す音声のピッチ成分の周波数の時間変化と、発声スピードとを特定する。なお、発声スピードの特定は、例えば、この音片デ一夕のサンプル数を数えることにより行えばよい。一方、ピッチ成分の周波数の時間変化は、例えば、この音片データにケプストラム解析を施すことにより特定すればよい。具体的には、例えば、音片データが表す波形を時間軸上で多数の小部分へと区切り、得られたそれぞれの小部分の強度を、元の値の対数（対数の底は任意）に実質的に等しい値へと変換し、値が変換されたこの小部分のスぺクトル（すなわち、ケプストラム）を、高速フーリエ変換の手法（あるいは、離散的変数をフ一リェ変換した結果を表すデータを生成する他の任意の手法）により求める。そして、このケプストラムの極大値を与える周波数のうちの最小値を、この小部分におけるピッチ成分の周波数として特定する。

なお、ピッチ成分の周波数の時間変化は、例えば、上述の第 1又は第 2の実施の形態に係るピッチ波形データ分割器や上述の音声データ分割部 T 1が行う手法と実質的に同一の手法により音片データをピッチ波形デ一夕へと変換してから、このピッチ波形データに基づいて特定するようにすると良好な結果が期待できる。具体的には、音片デー夕をフィルタリングしてピッチ信号を抽出し、抽出されたピッチ信号に基づいて、音片データが表す波形を単位ピッチ長の区間へと区切り、各区間について、ピッチ信号との相関関係に基づいて位相のずれを特定して各区間の位相を揃えることにより、音片デ一夕をピッチ波形信号へと変換すればよい。そして、得られたピッチ波形信号を音片デ一夕として极ぃ、ケプストラム解析を行う等することにより、ピッチ成分の周波数の時間変化を特定すればよい。

一方、音片データベース作成部 U 5 1 2は、収録音片デ一夕セット記憶部 U 5 1 1より読み出した音片データを圧縮部 U 5 1 3に供給する。

圧縮部 U 5 1 3は、音片デ一夕べ一ス作成部 U 5 1 2より供給された音片デ一タをェント口ピー符号化して圧縮音片デ一夕を作成し、音片データべ一ス作成部 U 5 1 2に返送する。

音片データの発声スピード及びピッチ成分の周波数の時間変化を特定し、この音片デ一夕がェント口ピー符号化され圧縮音片デ一夕となつて圧縮部 U 5 1 3より返送されると、音片データベース作成部 U 5 1 2は、この圧縮音片データを、デ一夕部 D A Tを構成するデータとして、音片デ一夕ベース U 5 0 9の記憶領域に書き込む。

また、音片データベース作成部 U 5 1 2は、書き込んだ圧縮音片デ一夕が表す音片の読みを示すものとして収録音片デ一夕セット記憶部 U 5 1 1より読み出した表音文字を、音片読みデ一夕として音片デ一夕ベース U 5 0 9の記憶領域に書き込む。

また、書き込んだ圧縮音片データの、音片データベース U 5 0 9の記憶領域内での先頭のアドレスを特定し、このアドレスを上述の（B ) のデータとして音片デ一夕ベース U 5 0 9の記憶領域に書き込む。また、この圧縮音片データのデータ長を特定し、特定したデータ長を、（C ) のデータとして音片データベース U 5 0 9の記憶領域に書き込む。

また、この圧縮音片デ一夕が表す音片の発声スピード及びピッチ成分の周波数の時間変化を特定した結果を示すデタを生成し、スピード初期値データ及びピッチ成分データとして音片デ一夕ベース U 5 0 9の記憶領域に書き込む。

次に、音声合成部 U 5の動作を説明する。まず、言語処理部 U 5 0 1が、この音声合成システムに音声を合成させる対象としてユーザが用意した、表意文字を含む文章（フリーテキスト）を記述したフリーテキストデ一夕を外部から取得したとして説明する。

なお、言語処理部 U 5 0 1がフリ一テキストデータを取得する手法は任意であり、例えば、図示しないイン夕一フェース回路を介して外部の装置ゃネットワークから取得してもよいし、図示しない記録媒体ドライブ装置にセットされた記録媒体（例えば、フロッピー（登録商標）ディスクや C D— R O Mなど）から、この記録媒体ドライブ装置を介して読み取ってもよい。また、言語処理部 U 5 0 1の機能を行つているプロセッサが、自ら実行している他の処理で用いたテキストデ —タを、フリーテキストデータとして、言語処理部 U 5 0 1の処理へと引き渡すようにしてもよい。

フリーテキストデータを取得すると、言語処理部 U 5 0 1は、このフリーテキストに含まれるそれぞれの表意文字について、その読みを表す表音文字を、単語辞書 U 5 0 2を検索することにより特定する。そして、この表意文字を、特定した表音文字へと置換する。そして、言語処理部 U 5 0 1は、フリーテキスト内の表意文字がすべて表音文字へと置換した結果得られる表音文字列を、音響処理部 U 5 0 3へと供給する。

音響処理部 U 5 0 3は、言語処理部 U 5 0 1より表音文字列を供給されると、この表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す単位音声の波形を検索するよう、検索部 U 5 0 4 に指示する。

検索部 U 5 0 4は、この指示に応答して波形データベース U 5 0 6 を検索し、表音文字列に含まれるそれぞれの表音文字が表す単位音声の波形を表す音素データを索出する。そして、索出された音素データを、検索結果として音響処理部 U 5 0 3へと供給する。

音響処理部 U 5 0 3は、検索部 U 5 0 4より供給された音素データを、言語処理部 U 5 0 1より供給された表音文字列内での各表音文字の並びに従った順序で、音片編集部 U 5 0 7へと供給する。

音片編集部 U 5 0 7は、音響処理部 U 5 0 3より音素データを供給されると、この音素デ一夕を、供給された順序で互いに結合し、合成音声を表すデータ（合成音声データ）として出力する。フリーテキストデ一夕に基づいて合成されたこの合成音声は、規則合成方式の手法により合成された音声に相当する。

なお、音片編集部 U 5 0 7が合成音声データを出力する手法は任意であり、例えば、図示しない D / A (Digital-to-Analog) 変換器ゃスピー力を介して、この合成音声データが表す合成音声を再生するようにしてもよい。また、図示しないインターフェース回路を介して外部の装置ゃネットワークに送出してもよいし、図示しない記録媒体ドライブ装置にセッ卜された記録媒体へ、この記録媒体ドライブ装置を介して書き込んでもよい。また、音片編集部 U 5 0 7の機能を行っているプロセッサが、自ら実行している他の処理へと、合成音声データを引き渡すようにしてもよい。

次に、音響処理部 U 5 0 3が、外部より配信された、表音文字列を表すデータ（配信文字列デ一夕）を取得したとする。（なお、音響処理部 U 5 0 3が配信文字列データを取得する手法も任意であり、例えば、言語処理部 U 5 0 1がフリーテキストデ一夕を取得する手法と同様の手法で配信文字列データを取得すればよい。）

この場合、音響処理部 U 5 0 3は、配信文字列データが表す表音文字列を、言語処理部 U 5 0 1より供給された表音文字列と同様に扱う。この結果、配信文字列データが表す表音文字列に含まれる表音文字に対応する音素デ一夕が検索部 U 5 0 4により索出される。索出された各音素データは音響処理部 U 5 0 3を介して音片編集部 U 5 0 7へと供給され、音片編集部 U 5 0 7が、この音素データを、配信文字列デ一夕が表す表音文字列内での各表音文字の並びに従った順序で互いに結合し、合成音声データとして出力する。配信文字列データに基づいて合成されたこの合成音声データも、規則合成方式の手法により合成された音声を表す。

次に、音片編集部 U 5 0 7が、定型メッセージデータ、発声スピードデータ、及び照合レベルデータを取得したとする。

なお、定型メッセージデ一夕は、定型メッセ一ジを表音文字列として表すデータであり、発声スピードデータは、定型メッセージデータが表す定型メッセージの発声スピードの指定値（この定型メッセージを発声する時間長の指定値）を示すデータである。照合レベルデ一夕は、検索部 U 5 0 8が行う後述の検索処理における検索条件を指定するデータであり、以下では「 1」、「2」又は「 3」のいずれかの値をとるものとし、「3」が最も厳格な検索条件を示すものとする。

また、音片編集部 U 5 0 7が定型メッセージデータや発声スピードデータや照合レベルデータを取得する手法は任意であり、例えば、言語処理部 U 5 0 1がフリーテキストデータを取得する手法と同様の手法で定型メッセージデータや発声スピードデータや照合レベルデータを取得すればよい。

定型メッセージデータ、発声スピードデータ、及び照合レベルデー夕が音片編集部 U 5 0 7に供給されると、音片編集部 U 5 0 7は、定型メッセージに含まれる音片の読みを表す表音文字に合致する表音文字が対応付けられている圧縮音片データをすベて索出するよう、検索部 U 5 0 8に指示する。

検索部 U 5 0 8は、音片編集部 U 5 0 7の指示に応答して音片デ一夕ベース U 5 0 9を検索し、該当する圧縮音片データと、該当する圧縮音片データに対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データとを索出し、索出された圧縮音片データを伸長部 U 5 0 5へと供給する。 1個の音片にっき複数の圧縮音片データが該当する場合も、該当する圧縮音片データすべてが、音声合成に用いられるデ一夕の候補として索出される。一方、圧縮音片データを索出できなかった音片があった場合、検索部 U 5 0 8は、該当する音片を識別するデ一夕（以下、欠落部分識別データと呼ぶ）を生成する。

伸長部 U 5 0 5は、検索部 U 5 0 8より供給された圧縮音片データを、圧縮される前の音片デ一夕へと復元し、検索部 U 5 0 8へと返送する。検索部 U 5 0 8は、伸長部 U 5 0 5より返送された音片デ一夕と、索出された音片読みデータ、スピード初期値データ及びピッチ成分データとを、検索結果として話速変換部 U 5 1 0へと供給する。また、欠落部分識別データを生成した場合は、この欠落部分識別データも話速変換部 U 5 1 0へと供給する。

一方、音片編集部 U 5 0 7は、話速変換部 U 5 1 0に対し、話速変換部 U 5 1 0に供給された音片デ一夕を変換して、当該音片デ一夕が表す音片の時間長を、発声スピードデータが示すスピードに合致するようにすることを指示する。

話速変換部 U 5 1 0は、音片編集部 U 5 0 7の指示に応答し、検索部 U 5 0 8より供給された音片データを指示に合致するように変換して、音片編集部 U 5 0 7に供給する。具体的には、例えば、検索部 U 5 0 8より供給された音片デ一夕の元の時間長を、索出されたスピード初期値データに基づいて特定した上、この音片データをリサンプリングして、この音片デ一夕のサンプル数を、音片編集部 U 5 0 7の指示したスピードに合致する時間長にすればよい。

また、話速変換部 U 5 1 0は、検索部 U 5 0 8より供給された音片読みデータ及びピッチ成分デ一夕も音片編集部 U 5 0 7に供給し、欠落部分識別データを検索部 U 5 0 8より供給された場合は、更にこの欠落部分識別データも音片編集部 U 5 0 7に供給する。

なお、発声スピードデ一夕が音片編集部 U 5 0 7に供給されていない場合、音片編集部 U 5 0 7は、話速変換部 U 5 1 0に対し、話速変換部 U 5 1 0に供給された音片デ一夕を変換せずに音片編集部 U 5 0 7に供給するよう指示すればよく、話速変換部 U 5 1 0は、この指示に応答し、検索部 U 5 0 8より供給された音片デ一夕をそのまま音片編集部 U 5 0 7に供給すればよい。

音片編集部 U 5 0 7は、話速変換部 U 5 1 0より音片デ一夕、音片読みデ一夕及びピッチ成分データを供給されると、供給された音片デ一夕のうちから、定型メッセージを構成する音片の波形に近似できる波形を表す音片データを、音片 1個につき 1個ずつ選択する。ただし、音片編集部 U 5 0 7は、いかなる条件を満たす波形を定型メッセージの音片に近い波形とするかを、取得した照合レベルデータに従って設定する。

具体的には、まず、音片編集部 U 5 0 7は、定型メッセージデータが表す定型メッセージに、例えば「藤崎モデル」や「T o B I (Tone and Break Indices)」等の韻律予測の手法に基づいた解析を加えることにより、この定型メッセージの韻律（アクセント、イントネーション、強勢など）を予測する。

次に、音片編集部 U 5 0 7は、例えば、

( 1 ) 照合レベルデータの値が「 1」である場合は、話速変換部 U 5 1 0より供給された音片データ（すなわち、定型メッセージ内の音片と読みが合致する音片データ）をすベて、定型メッセージ内の音片の波形に近いものとして選択する。 ( 2 ) 照合レベルデータの値が「2」である場合は、（ 1 ) の条件（つまり、読みを表す表音文字の合致という条件）を満たし、更に、音片データのピッチ成分の周波数の時間変化を表すピッチ成分データの内容と定型メッセ一ジに含まれる音片のアクセントの予測結果との間に所定量以上の強い相関がある場合（例えば、アクセントの位置の時間差が所定量以下である場合）に限り、この音片デ一夕が定型メッセ一ジ内の音片の波形に近いものとして選択する。なお、定型メッセージ内の音片のァクセン卜の予測結果は、定型メッセージの韻律の予測結果より特定できるものであり、音片編集部 U 5 0 7は、例えば、ピッチ成分の周波数が最も高いと予測されている位置をアクセントの予測位置であると解釈すればよい。一方、音片デ一夕が表す音片のァクセントの位置については、例えば、ピッチ成分の周波数が最も高い位置を上述のピッチ成分データに基づいて特定し、この位置をァクセントの位置であると解釈すればよい。

( 3 ) 照合レベルデータの値が「3」である場合は、（2 ) の条件（つまり、読みを表す表音文字及びアクセントの合致という条件）を満たし、更に、音片デ一夕が表す音声の鼻濁音化や無声化の有無が、定型メッセージの韻律の予測結果に合致している場合に限り、この音片デ一夕が定型メッセージ内の音片の波形に近いものとして選択する。音片編集部 U 5 0 7は、音片デ一夕が表す音声の鼻濁音化や無声化の有無を、話速変換部 U 5 1 0より供給されたピッチ成分データに基づいて判別すればよい。

なお、音片編集部 U 5 0 7は、自ら設定した条件に合致する音片デ一夕が 1個の音片にっき複数あった場合は、これら複数の音片データを、設定した条件より厳格な条件に従って 1個に絞り込むものとする。具体的には、例えば、設定した条件が照合レベルデータの値「 1」に相当するものであって、該当する音片データが複数あった場合は、照合レベルデータの値「 2」に相当する検索条件にも合致するものを選択し、なお複数の音片データが選択された場合は、選択結果のうちから照合レベルデ一夕の値「3」に相当する検索条件にも合致するものを更に選択する、等の操作を行う。照合レベルデータの値「 3」に相当する検索条件で絞り込んでなお複数の音片データが残る場合は、残つたものを任意の基準で 1個に絞り込めばよい。

一方、音片編集部 U 5 0 7は、話速変換部 U 5 1 0より欠落部分識別データも供給されている場合には、欠落部分識別データが示す音片の読みを表す表音文字列を定型メッセージデータより抽出して音響処理部 U 5 0 3に供給し、この音片の波形を合成するよう指示する。

指示を受けた音響処理部 U 5 0 3は、音片編集部 U 5 0 7より供給された表音文字列を、配信文字列データが表す表音文字列と同様に扱う。この結果、この表音文字列に含まれる表音文字が示す音声の波形を表す音素データが検索部 U 5 0 4により索出され、この音素データが検索部 U 5 0 4から音響処理部 U 5 0 3へと供給される。音響処理部 U 5 0 3は、この音素データを音片編集部 U 5 0 7へと供給する。音片編集部 U 5 0 7は、音響処理部 U 5 0 3より音素データを返送されると、この音素データと、話速変換部 U 5 1 0より供給された音片データのうち音片編集部 U 5 0 7が選択したものとを、定型メッセージデータが示す定型メッセージ内での各音片の並びに従った順序で互いに結合し、合成音声を表すデータとして出力する。

なお、話速変換部 U 5 1 0より供給されたデータに欠落部分識別デ一夕が含まれていない場合は、音響処理部 U 5 0 3に波形の合成を指示することなく直ちに、音片編集部 U 5 0 7が選択した音片データを、定型メッセージデータが示す定型メッセージ内での各音.片の並びに従つた順序で互いに結合し、合成音声を表すデータとして出力すればよい。

なお、この合成音声利用システムの構成は上述のものに限られない。例えば、音片データベース U 5 0 9は音片デ一夕を必ずしもデータ圧縮された状態で記憶している必要はない。音片データベース U 5 0 9が波形データゃ音片データをデ一夕圧縮されていない状態で記憶している場合、音声合成部 U 5は伸長部 U 5 0 5を備えている必要はない。

一方、波形データベース U 5 0 6は音素データをデータ圧縮された状態で記憶していてもよい。波形データベース U 5 0 6が音素データをデータ圧縮された状態で記憶している場合、伸長部 U 5 0 5は、検索部 U 5 0 4が波形データベース U 5 0 6から索出した音素デ一夕を検索部 U 5 0 4から取得して伸長し、検索部 U 5 0 4に返送すればよい。そして、検索部 U 5 0 4は、返送された音素データを検索結果として扱えばよい。

また、音片データベース作成部 U 5 1 2は、図示しない記録媒体ドライブ装置にセットされた記録媒体から、この記録媒体ドライブ装置を介して、音片データベース U 5 0 9に追加する新たな圧縮音片デ一夕の材料となる音片デ一夕や表音文字列を読み取ってもよい。

また、音片登録ユニット Rは、必ずしも収録音片データセット記憶部 U 5 1 1を備えている必要はない。

また、ピッチ成分データは音片データが表す音片のピッチ長の時間変化を表すデータであってもよい。この場合、音片編集部 U 5 0 7は、ピッチ長が最も短い位置をピッチ成分データに基づいて特定し、この位置をアクセントの位置であると解釈すればよい。

また、音片編集部 U 5 0 7は、特定の音片の韻律を表す韻律登録デ一夕をあらかじめ記憶し、定型メッセージにこの特定の音片が含まれている場合は、この韻律登録データが表す韻律を、韻律予測の結果として扱うようにしてもよい。

また、音片編集部 U 5 0 7は、過去の韻律予測の結果を韻律登録デ一夕として新たに記憶するようにしてもよい。

また、音片データベース作成部 U 5 1 2は、マイクロフォン、増幅器、サンプリング回路、 A Z D (Analog-to-Digital) コンバータ及び P C Mエンコーダなどを備えていてもよい。この場合、音片データべース作成部 U 5 1 2は、収録音片データセット記憶部 1 2より音片デ一夕を取得する代わりに、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングして A Z D変換した後、サンプリングされた音声信号に P C M変調を施すことにより、音片データを作成してもよい。

また、音片編集部 U 5 0 7は、音響処理部 U 5 0 3より返送された波形データを話速変換部 1 1に供給することにより、当該波形データが表す波形の時間長を、発声スピードデ一夕が示すスピードに合致させるようにしてもよい。

また、音片編集部 U 5 0 7は、例えば、言語処理部 U 5 0 1 と共にフリ一テキスドデ一夕を取得し、このフリーテキストデータが表すフリーテキストに含まれる音片の波形に近い波形を表す音片データ ¾、定型メッセージに含まれる音片の波形に近い波形を表す音片デ一夕を選択する処理と実質的に同一の処理を行うことによって選択して、音声の合成に用いてもよい。

この場合、音響処理部 U 5 0 3は、音片編集部 U 5 0 7が選択した音片デ一夕が表す音片については、この音片の波形を表す音素データを検索部 5に索出させなくてもよい。なお、音片編集部 U 5 0 7は、音響処理部 U 5 0 3が合成しなくてよい音片を音響処理部 U 5 0 3に通知し、音響処理部 4はこの通知に応答して、この音片を構成する単位音声の波形の検索を中止するようにすればよい。

また、音片編集部 U 5 0 7は、例えば、音響処理部 U 5 0 3と共に配信文字列データを取得し、この配信文字列データが表す配信文字列に含まれる音片の波形に近い波形を表す音片デ一夕を、定型メッセ一ジに含まれる音片の波形に近い波形を表す音片データを選択する処理と実質的に同一の処理を行うことによって選択して、音声の合成に用いてもよい。この場合、音響処理部 U 5 0 3は、音片編集部 U 5 0 7 が選択した音片デ一夕が表す音片については、この音片の波形を表す音素タを検索部 5に索出させなくてもよい。

また、音素データ供給部 Tや音素データ利用部 Uはいずれも専用のシステムである必要はない。従って、パーソナルコンピュータに上述の音声データ分割部 T 1、音素データ圧縮部 T 2及び圧縮音素データ出力部 T 3の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをインストールすることにより、上述の処理を実行する音素データ供給部 Tを構成することができる。また、パーソナルコンピュータに上述の圧縮音素データ入力部 U 1、エントロピー符号復号化部 U 2、非線形逆量子化部 U 3、音素データ復元部 U 4及び音声合成部 U 5の動作を実行させるためのプログラムを格納した記録媒体から該プログラムをィンストールすることにより、上述の処理を実行する音素データ利用部 Uを構成することができる。

そして、上述のプログラムを実行し音素データ供給部 Tとして機能するパーソナルコンピュータが、第 8図の音素デ一タ供給部 Tの動作に相当する処理として、第 1 2図に示す処理を行うものとする。

第 1 2図は、音素データ供給部 Tの機能を行うパーソナルコンビュ一夕の処理を示すフローチヤ一トである。

すなわち、音素データ供給部 Tの機能を行うパーソナルコンビユー夕（以下、音素データ供給コンピュータと呼ぶ）が、音声の波形を表す音声デ一夕を取得すると（第 1 2図、ステップ S 0 0 1 )、音素デー夕供給コンピュータは、第 1の実施の形態のコンピュータ C 1が行うステップ S 2〜ステップ S 1 6の処理と実質的に同一の処理を行うことにより、音素データ及びピッチ情報を生成する（ステップ S 0 0 2 )。次に、音素データ供給コンピュータは、上述の圧縮特性デ一夕を生成し（ステップ S 0 0 3 )、この圧縮特性デ一夕に従い、ステップ S 0 0 2で生成した音素データが表す波形の瞬時値に非線形な圧縮を施して得られる値を量子化したものに相当する非線形量子化音素データを生成し（ステップ S 0 0 4 )、生成された非線形量子化音素データ、ステツプ S 0 0 2で生成したピツチ情報、及びステップ S 0 0 3で生成した圧縮特性データをェント口ピ一符号化することにより圧縮音素デ —夕を生成する（ステップ S O 0 5 )。次に、音素データ供給コンピュータは、ステップ S 0 0 5で最も新しく生成された圧縮音素データのデータ量の、ステップ S 0 0 2で生成した音素データのデータ量に対する比（すなわち現在の圧縮率）が、目標とする所定の圧縮率に達しているか否かを判別し（ステップ S 0 0 6 )、達していると判別すると処理をステップ S 0 0 7に進め、達していないと判別すると処理をステップ S 0 0 3に戻す。

ステップ S 0 0 6から S 0 0 3に処理が戻ると、音素データ供給コンピュー夕は、現在の圧縮率が目標とする圧縮率より大きければ、圧縮率が現在より小さくなるように圧縮特性を決定する。一方、現在の圧縮率が目標とする圧縮率より小さければ、圧縮率が現在より大きくなるように、圧縮特性を決定する。

一方、ステップ S 0 0 7で音素データ供給コンピュータは、ステツプ S 0 0 5で最も新しく生成した圧縮音素データを出力する。

一方、上述のプログラムを実行し音素データ利用部 Uとして機能するパーソナルコンピュータが、第 8図の音素データ利用部 Uの動作に相当する処理として、第 1 3図〜第 1 6図に示す処理を行うものとする。

第 1 3図は、音素データ利用部の機能を行うパーソナルコンビユー夕が音素データを取得する処理を示すフローチャートである。

第 1 4図は、音素データ利用部 Uの機能を行うパーソナルコンビュ一夕がフリーテキストデ一夕を取得した場合の音声合成の処理を示すフ口一チヤ一卜である。

第 1 5図は、音素データ利用部 Uの機能を行うパーソナルコンビュ一夕が配信文字列デ一夕を取得した場合の音声合成の処理を示すフロ —チヤ一卜である。

第 1 6図は、音素データ利用部 Uの機能を行うパーソナルコンビュ —夕が定型メッセージデータ及び発声スピードデ一夕を取得した場合の音声合成の処理を示すフローチヤ一トである。

すなわち、音素データ利用部 Uの機能を行うパーソナルコンビユー夕（以下、音素データ利用コンピュータと呼ぶ）が、音素データ供給部 T等が出力した圧縮音素データを取得すると（第 1 3図、ステップ S 1 0 1 )、非線形量子化音素データ、ピッチ情報及び圧縮特性データがェント口ピー符号化されたものに相当するこの圧縮音素データを復号化することにより、非線形量子化音素データ、ピッチ情報及び圧縮特性データを復元する（ステップ S 1 0 2 )。

次に、音素データ利用コンピュータは、復元した非線形量子化音素デ一夕が表す波形の瞬時値を、この圧縮特性データが示す圧縮特性と互いに逆変換の関係にある特性に従って変更することにより、非線形量子化される前の音素データを復元する（ステップ S 1 0 3 )。

次に、音素データ利用コンピュータは、ステップ S 1 0 3で復元した音素データの各区間の時間長を、ステップ S 1 0 2で復元したピッチ情報が示す時間長になるよう変更する（ステップ S 1 0 4 )。

そして、音素データ利用コンピュータは、各区間の時間長を変更された音素データ、すなわち復元された音素データを、波形データべ一ス U 5 0 6に格納する（ステップ S 1 0 5 )。

また、音素データ利用コンピュータが、外部より、上述のフリーテキストデータを取得すると（第 1 4図、ステップ S 2 0 1 )、このフリ —テキストデータが表すフリーテキストに含まれるそれぞれの表意文字について、その読みを表す表音文字を、一般単語辞書 2やユーザ単語辞書 3を検索することにより特定し、この表意文字を、特定した表音文字へと置換する（ステップ S 2 0 2 )。なお、音素データ利用コンピュー夕がフリーテキストデ一夕を取得する手法は任意である。

そして、音素データ利用コンピュータは、フリーテキスト内の表意文字をすベて表音文字へと置換した結果を表す表音文字列が得られると、この表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す単位音声の波形を波形データベース 7より検索し、表音文字列に含まれるそれぞれの表音文字が表す単位音声の波形を表す音素データを索出する（ステップ S 2 0 3 )。そして、音素デ一夕利用コンピュータは、索出された音素データを、表音文字列内での各表音文字の並びに従った順序で互いに結合し、合成音声デ一夕として出力する（ステップ S 2 0 4 )。なお、音素データ利用コンピュータが合成音声データを出力する手法は任意である。

また、音素データ利用コンピュータが、外部より、上述の配信文字列データを任意の手法で取得すると（第 1 5図、ステップ S 3 0 1 )、この配信文字列データが表す表音文字列に含まれるそれぞれの表音文字について、当該表音文字が表す単位音声の波形を波形データベース 7より検索し、表音文字列に含まれるそれぞれの表音文字が表す単位音声の波形を表す音素データを索出する（ステップ S 3 0 2 )。

そして、音素データ利用コンピュータは、索出された音素データを、表音文字列内での各表音文字の並びに従った順序で互いに結合し、合成音声データとしてステップ S 2 0 4の処理と同様の処理により出力する（ステツプ S 3 0 3 )。

一方、音素データ利用コンピュータが、外部より、上述の定型メッセージデータ及び発声スピードデータを任意の手法により取得すると (第 1 6図、ステップ S 4 0 1 )、まず、この定型メッセ一ジデータが表す定型メッセージに含まれる音片の読みを表す表音文字に合致する表音文字が対応付けられている圧縮音片データをすベて索出する（ステツプ S 4 0 2 )。

また、ステップ S 4 0 2では、該当する圧縮音片デ一夕に対応付けられている上述の音片読みデータ、スピード初期値データ及びピッチ成分データも索出する。なお、 1個の音片にっき複数の圧縮音片デー夕が該当する場合は、該当する圧縮音片データすベてを索出する。一方、圧縮音片デ一夕を索出できなかった音片があった場合は、上述の欠落部分識別データを生成する。

次に、音素データ利用コンピュータは、索出された圧縮音片データを、圧縮される前の音片データへと復元する（ステップ S 4 0 3 )。そして、復元された音片データを、上述の音片編集部 8が行う処理と同様の処理により変換して、当該音片データが表す音片の時間長を、発声スピー,ドデ一夕が示すスピードに合致させる（ステップ S 4 0 4 )。なお、発声スピードデ一夕が供給されていない場合は、復元された音片データを変換しなくてもよい。

次に、音素データ利用コンピュータは、定型メッセージデータが表す定型メッセージに韻律予測の手法に基づいた解析を加えることにより、この定型メッセージの韻律を予測する（ステップ S 4 0 5 )。そして、音片の時間長が変換された音片データのうちから、定型メッセ一ジを構成する音片の波形に最も近い波形を表す音片データを、上述の音片編集部 8が行う処理と同様の処理を行うことにより、外部より取得した照合レベルデータが示す基準に従って、音片 1個につき 1個ずつ選択する（ステップ S 4 0 6 )。

具体的には、ステップ S 4 0 6で音素データ利用コンピュータは、例えば、上述した（ 1 ) 〜（3 ) の条件に従って音片データを特定する。すなわち、照合レベルデータの値が「 1」である場合は、定型メッセージ内の音片と読みが合致する音片デ一夕をすベて、定型メッセージ内の音片の波形を表しているとみなす。また、照合レベルデータの値が「 2」である場合は、読みを表す表音文字が合致し、更に、音片データのピッチ成分の周波数の時間変化を表すピッチ成分データの内容が定型メッセージに含まれる音片のァクセントの予測結果に合致する場合に限り、この音片データが定型メッセージ内の音片の波形を表しているとみなす。また、照合レベルデータの値が「 3」である場合は、読みを表す表音文字及びアクセントが合致し、更に、音片デ一夕が表す音声の鼻濁音化や無声化の有無が、定型メッセージの韻律の予測結果に合致している場合に限り、この音片デ一夕が定型メッセ一ジ内の音片の波形を表しているとみなす。

なお、照合レベルデータが示す基準に合致する音片データが 1個の音片にっき複数あった場合は、これら複数の音片データを、設定した条件より厳格な条件に従って 1個に絞り込むものとする。一方、音素データ利用コンピュータは、欠落部分識別データを生成した場合、欠落部分識別データが示す音片の読みを表す表音文字列を定型メッセージデータより抽出し、この表音文字列につき、音素毎に、配信文字列データが表す表音文字列と同様に扱って上述のステップ S 3 0 2の処理を行うことにより、この表音文字列内の各表音文字が示す音声の波形を表す音素データを索出する（ステップ S 4 0 7 )。

そして、音素データ利用コンピュータは、索出した音素データと、ステップ S 4 0 6で選択した音片データとを、定型メッセージデータが示す定型メッセージ内での各音片の並びに従った順序で互いに結合し、合成音声を表すデータとして出力する（ステップ S 4 0 8 )。

なお、パーソナルコンピュータに本体ュニット Mゃ音片登録ュニット Rの機能を行わせるプログラムは、例えば、通信回線の掲示板（B B S ) にアップロードし、これを通信回線を介して配信してもよく、また、これらのプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこれらのプログラムを復元するようにしてもよい。

そして、これらのプログラムを起動し、〇 Sの制御下に、他のァプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。

なお、〇 Sが処理の一部を分担する場合、あるいは、 O Sが本願発明の 1つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。

Claims

請求の範囲

1 . 音声の波形を表す音声信号を取得し、当該音声信号をフィルタリングしてピッチ信号を抽出するフィルタと、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端を検出し、検出した境界及び/又は端で前記ピッチ波形信号を分割するピッチ波形信号分割手段と、

を備えることを特徴とするピッチ波形信号分割装置。

2 . 前記ピッチ波形信号分割手段は、前記ピッチ波形信号の隣接する単位ピッチ分の 2個の区間の差分の強度が所定量以上であるか否かを判別し、所定量以上であると判別したとき、当該 2個の区間の境界を、隣接した音素の境界又は音声の端として検出する、

ことを特徴とする請求項 1に記載のピッチ波形信号分割装置。

3 . 前記ピッチ波形信号分割手段は、前記ピッチ信号のうち前記 2 個の区間に属する部分の強度に基づいて、前記 2個の区間が摩擦音を表しているか否かを判別し、表していると判別したときは、当該 2個の区間の差分の強度が所定量以上であるか否かに関わらず、当該 2個の区間の境界は隣接した音素の境界又は音声の端ではないと判別する、ことを特徴とする請求項 2に記載のピッチ波形信号分割装置。

4 . 前記ピッチ波形信号分割手段は、前記ピッチ信号のうち前記 2 個の区間に属する部分の強度が所定量以下であるか否かを判別し、所定量以下であると判別したときは、当該 2個の区間の差分の強度が所定量以上であるか否かに関わらず、当該 2個の区間の境界は隣接した音素の境界又は音声の端ではないと判別する、

ことを特徴とする請求項 2に記載のピッチ波形信号分割装置。

5 . 音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、

を備えることを特徴とするピツチ波形信号分割装置。

6 . 音声の波形を表すピッチ波形信号について、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端を検出する手段と、

を備えることを特徴とするピッチ波形信号分割装置。

7 . 音声の波形を表す音声信号を取得し、当該音声信号をフィルタリングしてピッチ信号を抽出するフィル夕と、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端を検出し、検出した境界及びノ又は端で前記ピッチ波形信号を分割することにより音素データを生成する音素デ一タ生成手段と、

生成ざれた音素データにェントロピー符号化を施すことによりデ一タ圧縮するデータ圧縮手段と、

¾備えることを特徴とする音声信号圧縮装置。

8 . 前記ピッチ波形信号分割手段は、前記ピッチ波形信号の隣接する単位ピッチ分の 2個の区間の差分の強度が所定量以上であるか否かを判別し、所定量以上であると判別したとき、当該 2個の区間の境界を、隣接した音素の境界又は音声の端として検出する、

ことを特徴とする請求項 7に記載の音声信号圧縮装置。

9 . 前記ピッチ波形信号分割手段は、前記ピッチ信号のうち前記 2 個の区間に属する部分の強度に基づいて、前記 2個の区間が摩擦音を表しているか否かを判別し、表していると判別したときは、当該 2個の区間の差分の強度が所定量以上であるか否かに関わらず、当該 2個の区間の境界は隣接した音素の境界又は音声の端ではないと判別する、ことを特徴とする請求項 8に記載の音声信号圧縮装置。

1 0 . 前記ピッチ波形信号分割手段は、前記ピッチ信号のうち前記 2 個の区間に属する部分の強度が所定量以下であるか否かを判別し、所定量以下であると判別したときは、当該 2個の区間の差分の強度が所定量以上であるか否かに関わらず、当該 2個の区間の境界は隣接した音素の境界又は音声の端ではないと判別する、

ことを特徴とする請求項 8に記載の音声信号圧縮装置。

1 1 . 音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、

生成された音素データにェント口ピ一符号化を施すことによりデ一夕圧縮するデータ圧縮手段と、

を備えることを特徴とする音声信号圧縮装置。

1 2 . 音声の波形を表すピッチ波形信号について、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及びノ又は、当該音声の端を検出する手段と、

検出された境界及び端で前記ピッチ波形信号を分割することにより音素データを生成する音素データ生成手段と、

を備えることを特徴とする音声信号圧縮^置。

1 3 . 前記データ圧縮手段は、生成された音素データを非線形量子化した結果にェント口ピー符号化することによりデータ圧縮を行うものである、

ことを特徴とする請求項 7乃至 1 2のいずれか 1項に記載の音声信号圧縮装置。

1 4 .前記デ一夕圧縮手段は、データ圧縮された音素データを取得し、取得した当該音素データのデ一夕量に基づいて、前記非線形量子化の量子化特性を決定し、決定した量子化特性に合致するように前記非線形量子化を行う、

ことを特徴とする請求項 1 3に記載の音声信号圧縮装置。

1 5 . データ圧縮された音素データをネットワークを介して外部に送出する手段を更に備える、

ことを特徴とする請求項 7乃至 1 4のいずれか 1項に記載の音声信号圧縮装置。

1 6 . デ一タ圧縮された音素デ一タをコンピュータ読み取り可能な記録媒体に記録する手段を更に備える、

ことを特徴とする請求項 7乃至 1 5のいずれか 1項に記載の音声信号圧縮装置。

1 7 . 音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端で分割することにより得られる音素データを記憶するデータベース。

1 8 . 音声の波形を表すピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び、当該音声の端で分割することにより得られる音素データを記憶するデータべ一ス。

1 9 . 前記音素データにはエントロピ一符号化が施されている、ことを特徴とする請求項 1 7又は 1 8に記載のデータベース。

2 0 . 前記音素データには、非線形量子化が施されたうえで前記ェン卜口ピー符号化が施されている、

ことを特徴とする請求項 1 9に記載のデータベース。

2 1 . 音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び又は、当該音声の端で分割することにより得られる音素データを記録するコンピュータ読み取り可能な記録媒体。

2 2 . 音声の波形を表すピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端で分割することにより得られる音素データを記録するコンピュータ読み取り可能な記録媒体。

2 3 . 前記音素データにはエントロピー符号化が施されている、ことを特徴とする請求項 2 1又は 2 2に記載の記録媒体。

2 4 . 前記音素データには、非線形量子化が施されたうえで前記ェン卜口ピー符号化が施されている、

ことを特徴とする請求項 2 3に記載の記録媒体。

2 5 . 音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端で分割することにより得られる音素データを取得するデー夕取得手段と、

取得した音素データを復号する復元手段と、を備える、

ことを特徴とする音声信号復元装置。

2 6 . 前記音素デ一夕にはエントロピ一符号化が施されており、前記復元手段は、取得した音素データを復号化し、復号化された音素データの位相を、前記処理を行う前の位相へと復元する、，

ことを特徴とする請求項 2 5に記載の音声信号復元装置。

2 7 . 前記音素デ一夕には、非線形量子化が施されたうえで前記ェント口ピー符号化が施されており、

前記復元手段は、取得した音素データを復号化して非線形逆量子化し、復号化及び非線形逆量子化された音素データの位相を、前記処理を行う前の位相へと復元する、

ことを特徴とする請求項 2 6に記載の音声信号復元装置。

2 8 . 前記データ取得手段は、前記音素データをネットワークを介して外部より取得する手段を備える、

ことを特徴とする請求項 2 5乃至 2 7のいずれか 1項に記載の音声信号復元装置。

2 9 . 前記データ取得手段は、前記音素データを記録するコンピュー夕読み取り可能な記録媒体から当該音素データを読み取ることにより当該音素データを取得する手段を備える、ことを特徴とする請求項 2 5乃至 2 8のいずれか 1項に記載の音声信号復元装置。

3 0 . 音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び、当該音声の端で分割することにより得られる音素データを取得するデータ取得手段と、

取得した音素データを復号する復元手段と、

文章を表す文章情報を入力する文章入力手段と、

前記文章を構成する音 ¾の波形を表す音素データを前記音素データ記憶手段より索出して、索出された音素データを互いに結合することにより、合成音声を表すデータを生成する合成手段と、

より構成されることを特徴とする音声合成装置。

3 1 . 音片を表す音声データを複数記憶する音片記憶手段と、

各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表していて、且つ、韻律が予測結果に最も近い音声データを選択する選択手段と、を更に備え、

前記合成手段は、

前記文章を構成する音片のうち、前記選択手段が音声データを選択できなかった音片について、当該選択できなかった音片を構成する音素の波形を表す音素データを前記音素データ記憶手段より索出して、索出された音素データを互いに結合することにより、当該選択できなかった音片を表すデータを合成する欠落部分合成手段と、

前記選択手段が選択した音声データ及び前記欠落部分合成手段が合成した音声データを互いに結合することにより、合成音声を表すデー夕を生成する手段と、を備える、

ことを特徴とする請求項 3 0に記載の音声合成装置。

3 2 . 前記音片記憶手段は、音声データが表す音片のピッチの時間変化を表す実測韻律データを、当該音声データに対応付けて記憶してお Ό、

前記選択手段は、各前記音声データのうちから、前記文章を構成する音片と読みが共通する音片の波形を表しており、且つ、対応付けられている実測韻律データが表すピッチの時間変化が韻律の予測結果に最も近い音声データを選択する、

ことを特徴とする請求項 3 1に記載の音声合成装置。

3 3 . 前記記憶手段は、音声デ一夕の読みを表す表音データを、当該音声データに対応付けて記憶しており、

前記選択手段は、前記文章を構成する音片の読みに合致する読みを表す表音データが対応付けられている音声データを、当該音片と読みが共通する音片の波形を表す音声データとして扱う、

ことを特徴とする請求項 3 1又は 3 2に記載の音声合成装置。

3 4 . 前記データ取得手段は、前記音素データをネットワークを介して外部より取得する手段を備える、

ことを特徴とする請求項 3 0乃至 3 3のいずれか 1項に記載の音声合成装置。

3 5 . 前記データ取得手段は、前記音素データを記録するコンピュー夕読み取り可能な記録媒体から当該音素データを読み取ることにより当該音素データを取得する手段を備える、

ことを特徴とする請求項 3 0乃至 3 4のいずれか 1項に記載の音声合成装置。

3 6 . 音声の波形を表す音声信号を取得し、当該音声信号をフィルタリングしてピッチ信号を抽出し、

抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整し、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及びノ又は、当該音声の端を検出し、検出した境界及び又は端で前記ピッチ波形信号を分割する、

ことを特徴とするピッチ波形信号分割方法。

3 7 . 音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工し、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端を検出し、検出した境界及び Z又は端で前記ピッチ波形信号を分割する、

ことを特徴とするピッチ波形信号分割方法。

3 8 . 音声の波形を表すピッチ波形信号について、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端を検出し、

検出された境界及び又は端で前記ピッチ波形信号を分割する、ことを特徴とするピッチ波形信号分割方法。

3 9 . 音声の波形を表す音声信号を取得し、当該音声信号をフィルタリングしてピッチ信号を抽出し、

前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整し、位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成し、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端を検出し、検出した境界及び/又は端で前記ピッチ波形信号を分割することにより音素データを生成し、

ことを特徴とする音声信号圧縮方法。

4 0 . 音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工し、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端を検出し、検出した境界及び Z又は端で前記ピッチ波形信号を分割することにより音素データを生成し、

生成された音素データにェント口ピー符号化を施すことによりデータ圧縮する、

ことを特徴とする音声信号圧縮方法。

4 1 . 音声の波形を表すピッチ波形信号について、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び又は、当該音声の端を検出し、

検出された境界及び又は端で前記ピッチ波形信号を分割することにより音素データを生成し、

ことを特徴とする音声信号圧縮方法。

4 2 . 音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及ぴ、当該音声の端で分割することにより得られる音素データを取得し、

取得した音素データを復号する、

ことを特徴とする音声信号復号方法。

4 3 . 音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び又は、当該音声の端で分割することにより得られる音素データを取得し、取得した音素デ一夕の位相を、前記処理を行う前の位相へと復元し、取得した音素データ、又は、位相を復元された音素データを記憶し、文章を表す文章情報を入力し、

ことを特徴とする音声合成方法。

4 4 . コンピュータを、

前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段と、前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工する音声信号加工手段と、

して機能させるためのプログラム。

4 5 . 音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、

して機能させるためのプログラム。

4 6 . コンピュータを、

音声の波形を表すピッチ波形信号について、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び又は、当該音声の端を検出する手段と、

して機能させるためのプログラム。

4 7 . コンビユー夕を、

前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に '基づいて位相を調整する位相調整手段と、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び Z又は、当該音声の端を検出し、検出した境界及び Z又は端で前記ピッチ波形信号を分割することにより音素デ一夕を生成する音素データ生成手段と、

生成された音素データにェント口ピー符号化を施すことによりデータ圧縮するデータ圧縮手段と、

して機能させるためのプログラム。

4 8 . コンピュータを、

して機能させるためのプログラム。

4 9 . コンピュータを、

音声の波形を表すピッチ波形信号について、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び/又は、当該音声の端を検出する手段と、検出された境界及び z又は端で前記ピッチ波形信号を分割することにより音素データを生成する音素データ生成手段と、

して機能させるためのプログラム。

5 0 . コンピュータを、

取得した音素データを復号する復元手段と、

して機能させるためのプログラム。

5 1 . コンピュータを、

音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び、当該音声の端で分割することにより得られる音素データを取得するデ一タ取得手段と、

取得した音素データを復号する復元手段と、

文章を表す文章情報を入力する文章入力手段と、

して機能させるためのプログラム。

5 2 . コンピュータを、

して機能させるためのプログラムを記録したコンビュ一タ読み取り可能な記録媒体。

5 3 . 音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、

して機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。

5 4 . コンピュータを、

5 5 . コンピュータを、

音声の波形を表す音声信号を取得し、当該音声信号をフィル夕リングしてピッチ信号を抽出するフィルタと、

前記ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び又は、当該音声の端を検出し、検出した境界及び Z又は端で前記ピッチ波形信号を分割することにより音素データを生成する音素データ生成手段と、

して機能させるためのプログラムを記録したコンビユータ読み取り可能な記録媒体。

5 6 . コンピュータを、

して機能させるためのプログラムを記録したコンピュ一夕読み取り可能な記録媒体。

5 7 . コンピュータを、

5 8 . コンピュータを、

取得した音素データを復号する復元手段と、して機能させるためのプログラムを記録したコンピュー夕読み取り可能な記録媒体。

5 9 . コンビュ一夕を、

音声の波形を表す音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃える処理を行うことによって得られるピッチ波形信号を、当該ピッチ波形信号が表す音声に含まれる隣接した音素の境界、及び又は、当該音声の端で分割することにより得られる音素データを取得するデ一夕取得手段と、

文章を表す文章情報を入力する文章入力手段と、

して機能させるためのプロダラムを記録したコンピュー夕読み敢り可能な記録媒体。