JP2002251196A - 音素データ処理装置、音素データ処理方法及びプログラム - Google Patents

音素データ処理装置、音素データ処理方法及びプログラム

Info

Publication number
JP2002251196A
JP2002251196A JP2001049840A JP2001049840A JP2002251196A JP 2002251196 A JP2002251196 A JP 2002251196A JP 2001049840 A JP2001049840 A JP 2001049840A JP 2001049840 A JP2001049840 A JP 2001049840A JP 2002251196 A JP2002251196 A JP 2002251196A
Authority
JP
Japan
Prior art keywords
phoneme
waveform
data
spectrum
represented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001049840A
Other languages
English (en)
Inventor
Yasushi Sato
寧 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Priority to JP2001049840A priority Critical patent/JP2002251196A/ja
Publication of JP2002251196A publication Critical patent/JP2002251196A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 音声の合成のために用いるデータのデータ容
量を、高音質を保ちながら小さくできる音素データ処理
装置等を提供することである。 【解決手段】 浮動小数点化処理部11により浮動小数
点形式に変換された、音素の波形を表す音素データが表
す波形のスペクトルがアナライザ12により生成され、
量子化部13により量子化される。音素データはFFT
演算部21によりフーリエ変換され、ケプストラム解析
部22によりケプストラムが作成され、このケプストラ
ムに基づき、フォルマント周波数検出部23によりフォ
ルマント周波数が特定される。量子化指示部24は、量
子化部13による量子化の精度を、フォルマント周波数
近傍のスペクトルが高精度に量子化されるような形で決
定する。量子化された音素データは非線形圧縮、DPC
M形式への変換を受けた後ハフマン符号へと圧縮され、
圧縮音素データとして出力される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音素を表すデー
タを処理するための音素データ処理装置及び音素データ
処理方法に関し、特に、音素を表すデータのデータ容量
を減少させるための音素データ処理装置及び音素データ
処理方法に関する。
【0002】
【従来の技術】テキストデータなどを音声へと変換する
音声合成の手法が近年行われるようになっている。音声
合成では、例えば、テキストデータが表す文に含まれる
単語、文節及び文節相互の係り受け関係が特定され、特
定された単語、文節及び係り受け関係に基づいて、文の
読み方が特定される。そして、特定した読み方を表す表
音文字列に基づき、音声を構成する音素の波形や継続時
間やピッチ(基本周波数)のパターンが決定され、決定
結果に基づいて漢字かな混じり文全体を表す音声の波形
が決定され、決定された波形を有するような音声が出力
される。
【0003】音素の波形を特定するためには、音素の波
形を表す音素片データを集積した音素辞書を検索する。
音素片データは、例えば、音声波形に1ピッチ(音声の
基本周波数の逆数)相当の窓関数を乗じることにより音
素片を切り出すという手法により得られる(いわゆる自
然波形重畳方式)。あるいは、音声波形をフーリエ変換
等することにより音声波形のスペクトルを得て、得られ
たスペクトルを変形して音素1個分のスペクトルを表す
ようにした後、変形されたスペクトルを逆フーリエ変換
等することにより、変形されたスペクトルが表す波形を
生成する、という手法でも得られる(いわゆる合成波形
重畳方式)。
【0004】
【発明が解決しようとする課題】自然な音声を合成した
り、あるいは複数の話者の音声を合成できるようにした
りするためには音素辞書は膨大な数の音素片データを集
積していなければならない。しかし、自然波形重畳の手
法で生成される音素片データは1個あたりのデータ容量
が大きく、十分な量のデータを集積した音素辞書を格納
するだけの記憶容量を有する記憶装置を確保することが
困難だった。
【0005】音素片データにデータ圧縮を施す手法とし
て、MP3(MPEG1 audio layer 3)やAAC(Advance
d Audio Coding)の手法を用いることが考えられる。し
かし、これらの手法は、大振幅の信号の前後に近接する
小振幅の信号が人体にとり聴き取りにくいという効果
(マスキング)を利用した手法であって、音楽のデータ
の圧縮には適していても、音素片データを高音質を保ち
ながら圧縮するには適さない。
【0006】一方、合成波形重畳の手法で生成される音
素片データは、自然波形重畳の手法で生成される音素片
データよりデータ容量が一般に小さくなる。しかし、合
成波形重畳の手法で生成される音素片データは、自然波
形重畳の手法で生成される音素片データに比べて音質が
劣り、自然な音声の合成には適さない。
【0007】この発明は上記実状に鑑みてなされたもの
であり、音声の合成のために用いるデータのデータ容量
を、高音質を保ちながら小さくできる音素データ処理装
置及び音素データ処理方法を提供することを目的とす
る。
【0008】
【課題を解決するための手段】上記目的を達成すべく、
この発明の第1の観点にかかる音素データ処理装置は、
音素の波形を表す波形データを外部より入力する波形入
力手段と、前記波形入力手段が入力した波形データが表
す波形のスペクトルを表す音素データを生成する音素デ
ータ生成手段と、前記波形入力手段が入力した前記波形
データが表す音素のフォルマント周波数を特定するフォ
ルマント周波数特定手段と、前記音素データが表す音素
の各スペクトルの強度を、前記フォルマント周波数特定
手段が特定したフォルマント周波数との差が一定範囲内
になる周波数を有するスペクトルの強度が他のスペクト
ルの強度より大きなビット数で表されるように量子化し
た結果を表す量子化音素データを生成して出力する量子
化手段と、を備える、ことを特徴とする。
【0009】このような音素データ処理装置によれば、
音素の特徴を表す上で重要なスペクトルが他のスペクト
ルに比べ高精度に量子化されるので、音声の合成に用い
られる量子化音素データの量が小さく保たれながら、量
子化音素データが表す音素が元の音素に忠実で高音質な
ものとなる。
【0010】また、この発明の第2の観点に係る音素デ
ータ処理装置は、音素の波形を表す波形データを外部よ
り入力する波形入力手段と、前記波形入力手段が入力し
た波形データが表す波形のスペクトルを表す音素データ
を生成する音素データ生成手段と、前記波形入力手段が
入力した前記波形データが表す音素のフォルマント周波
数を特定するフォルマント周波数特定手段と、外部の記
憶装置に着脱可能に接続され、前記音素データが表す音
素の各スペクトルの強度を、前記フォルマント周波数特
定手段が特定したフォルマント周波数との差が一定範囲
内になる周波数を有するスペクトルの強度が他のスペク
トルの強度より大きなビット数で表されるように量子化
した結果を表す量子化音素データを生成して、前記記憶
装置の記憶領域に格納する量子化手段と、を備える、こ
とを特徴とする。
【0011】このような音素データ処理装置によれば、
音素の特徴を表す上で重要なスペクトルが他のスペクト
ルに比べ高精度に量子化されるので、音声の合成に用い
られる量子化音素データの量が小さく保たれながら、量
子化音素データが表す音素が元の音素に忠実で高音質な
ものとなる。また、記憶装置を種々着脱して量子化音素
データを記憶させることにより、十分な量の量子化音素
データが容易に確保される。
【0012】前記量子化手段は、前記音素データが表す
スペクトルの強度を量子化した結果をDPCM(Differ
encial Pulse Code Modulation)の手法により符号化し
た状態で表す前記量子化音素データを生成するものであ
ってもよい。量子化手段がこのような機能を行うことに
より、音素の特徴を表す上で不要な直流成分がスペクト
ルから除去されるので、量子化音素データの量が小さく
保たれながら、量子化音素データが表す音素が元の音素
に忠実で高音質ものとなる。
【0013】前記音素データは、前記波形データが表す
波形のスペクトルを帯域別に表すものであってもよい。
この場合、前記音素データ生成手段は、前記波形入力手
段が入力した前記波形データが表す波形を周波数が低い
前記帯域内の成分ほど密にサンプリングする手段と、サ
ンプリングされた当該波形のスペクトルを帯域別に表す
前記音素データを当該サンプリングの結果に基づいて生
成する手段と、を備えていてもよい。このような構成を
備えていれば、周波数が高い帯域内のスペクトルを表す
音素データや、音素データより生成される量子化音素デ
ータのデータ容量が過大になることが防止される。一
方、音素の基本周波数は音素の特徴を表すスペクトルの
うち最も周波数が低いのが一般的である。このため、こ
のような構成を備えていれば、音素データや量子化音素
データの量が小さく保たれながら、音素データや量子化
音素データが表す音素が元の音素に忠実なものとなる。
【0014】前記量子化手段は、前記音素データが表す
スペクトルの強度を量子化した結果を表すハフマン符号
より構成される前記量子化音素データを生成するもので
あってもよい。量子化手段がこのような機能を行うこと
により、量子化された音素データが効率的にデータ圧縮
を受けるので、量子化音素データの量が小さく保たれな
がら、量子化音素データが表す音素が元の音素に忠実で
高音質ものとなる。
【0015】また、この発明の第3の観点に係る音素デ
ータ処理方法は、音素の波形を表す波形データを外部よ
り入力し、入力した波形データが表す波形のスペクトル
を表す音素データを生成して、入力した前記波形データ
が表す音素のフォルマント周波数を特定し、前記音素デ
ータが表す音素の各スペクトルの強度を、前記特定した
フォルマント周波数との差が一定範囲内になる周波数を
有するスペクトルの強度が他のスペクトルの強度より大
きなビット数で表されるように量子化した結果を表す量
子化音素データを生成して出力する、ことを特徴とす
る。
【0016】このような音素データ処理方法によれば、
音素の特徴を表す上で重要なスペクトルが他のスペクト
ルに比べ高精度に量子化されるので、音声の合成に用い
られる量子化音素データの量が小さく保たれながら、量
子化音素データが表す音素が元の音素に忠実で高音質な
ものとなる。
【0017】また、この発明の第4の観点に係るプログ
ラムは、コンピュータを、音素の波形を表す波形データ
を外部より入力する波形入力手段と、前記波形入力手段
が入力した波形データが表す波形のスペクトルを表す音
素データを生成する音素データ生成手段と、前記波形入
力手段が入力した前記波形データが表す音素のフォルマ
ント周波数を特定するフォルマント周波数特定手段と、
前記音素データが表す音素の各スペクトルの強度を、前
記フォルマント周波数特定手段が特定したフォルマント
周波数との差が一定範囲内になる周波数を有するスペク
トルの強度が他のスペクトルの強度より大きなビット数
で表されるように量子化した結果を表す量子化音素デー
タを生成して出力する量子化手段と、して機能させるた
めのものであることを特徴とする。
【0018】このようなプログラムを実行するコンピュ
ータによれば、音素の特徴を表す上で重要なスペクトル
が他のスペクトルに比べ高精度に量子化されるので、音
声の合成に用いられる量子化音素データの量が小さく保
たれながら、量子化音素データが表す音素が元の音素に
忠実で高音質なものとなる。
【0019】また、この発明の第5の観点に係るプログ
ラムは、外部の記憶装置に着脱可能に接続されたコンピ
ュータを、音素の波形を表す波形データを外部より入力
する波形入力手段と、前記波形入力手段が入力した波形
データが表す波形のスペクトルを表す音素データを生成
する音素データ生成手段と、前記波形入力手段が入力し
た前記波形データが表す音素のフォルマント周波数を特
定するフォルマント周波数特定手段と、前記音素データ
が表す音素の各スペクトルの強度を、前記フォルマント
周波数特定手段が特定したフォルマント周波数との差が
一定範囲内になる周波数を有するスペクトルの強度が他
のスペクトルの強度より大きなビット数で表されるよう
に量子化した結果を表す量子化音素データを生成して、
前記記憶装置の記憶領域に格納する量子化手段と、して
機能させるためのものであることを特徴とする。
【0020】このようなプログラムを実行するコンピュ
ータによれば、音素の特徴を表す上で重要なスペクトル
が他のスペクトルに比べ高精度に量子化されるので、音
声の合成に用いられる量子化音素データの量が小さく保
たれながら、量子化音素データが表す音素が元の音素に
忠実で高音質なものとなる。また、コンピュータに記憶
装置を種々着脱して量子化音素データを記憶させること
により、十分な量の量子化音素データが容易に確保され
る。
【0021】
【発明の実施の形態】以下に、図面を参照して、この発
明の実施の形態を説明する。図1は、この発明の実施の
形態に係る音素データベース圧縮システムの構成を示す
図である。図示するように、この音素データベース圧縮
システムは、信号処理部1と、信号解析部2とより構成
されている。
【0022】信号処理部1は、浮動小数点化処理部11
と、アナライザ12と、量子化部13と、非線形圧縮部
14と、DPCM(Differential Pulse Code Modulati
on)演算部15と、ハフマン圧縮部16とより構成され
ている。
【0023】浮動小数点化処理部11は、DSP(Digi
tal Signal Processor)やCPU(Central Processing
Unit)等からなる制御部(図示せず)と、フロッピー
(登録商標)ディスクドライブやMOドライブなどの記
録媒体ドライバ等からなる音素入力部(図示せず)とか
ら構成されている。
【0024】浮動小数点化処理部11の制御部は、音素
の1ピッチ分(すなわち、この音素の基本周波数の逆数
にあたる時間分)の波形を一定間隔でサンプリングした
結果を表す音素片データを、浮動小数点化処理部11の
音素入力部を介して外部より入力する。そして、入力し
た音素片データが表す波形の強度を浮動小数点形式で表
すデータ(具体的には、所定桁数の有効数字とこの有効
数字に乗ずる指数とからなるデータ)を生成し、生成し
たこのデータ(浮動小数点形式の音素片データ)をアナ
ライザ12へと供給する。なお、音素片データのサンプ
リング周波数は、この音素片データが表す音素に含まれ
るスペクトルであって音声合成に利用する対象であるス
ペクトルの最高の周波数の2倍以上であるものとする。
【0025】アナライザ12は、DSPやCPU等から
構成されている。アナライザ12は、浮動小数点化処理
部11より浮動小数点形式の音素片データを供給される
と、QMF(Quadrature Mirror Filter)や完全QMF
(perfect reconstruction Quadrature Mirror Filte
r)等から構成されるポリフェーズフィルタ等の手法に
より、この音素片データが表す音素の帯域成分を表す1
番目〜n番目(nは正の整数)までのn個のデータ(帯
域成分波形データ)を生成する。この音素を表すk番目
(kは1以上n以下の任意の整数)の帯域成分波形デー
タは、この音素のスペクトル分布をn等分して得られる
等幅の互いに異なる帯域のうち周波数が低い方からk番
目の帯域に含まれるこの音素の成分の波形を表す。音素
片データを帯域成分波形データへと分解することによ
り、後述の音素スペクトルデータにエリアシングによる
不要な成分が混入することが回避される。
【0026】次に、アナライザ12は、LOT(Lapped
Orthogonal Transform)や、あるいはDCT(Discret
e Cosine Transform)、FFT(Fast Fourier Transfo
rm)、MLT(Modulated Lapped Transform)、ELT
(Extended Lapped Transform)等の手法を用い、自己
が生成した各々の帯域成分波形データが表す波形のスペ
クトルを表す1番目からn番目までのn個の音素スペク
トルデータを生成する。そして、生成したn個の音素ス
ペクトルデータを、量子化部13に供給する。
【0027】k番目の音素スペクトルデータは、k番目
の帯域成分波形データが表す帯域成分に含まれる各スペ
クトル成分の強度を表す、スペクトル成分1個あたり所
定ビット数のビット列を含む。
【0028】ただし、アナライザ12は、各々の帯域成
分波形データにつき、この帯域成分波形データが表す波
形を、各帯域成分波形データに共通な一定のサンプリン
グレートでサンプリングした結果に基づいて、音素スペ
クトルデータを生成するものとする。このように音素ス
ペクトルデータを生成することにより、周波数が高い帯
域内のスペクトルを表す音素スペクトルデータのデータ
容量が過大になることが防止される。一方、音素の基本
周波数は、音素の特徴を表すスペクトルのうち最も周波
数が低いのが一般的である。このため、音素スペクトル
データの量が小さく保たれながら、音素スペクトルデー
タが表す音素を元の音素に忠実なものとすることができ
る。
【0029】量子化部13は、DSPやCPU等から構
成されている。量子化部13は、アナライザ12より合
計n個の音素スペクトルデータを供給され、信号解析部
2の後述する量子化指示部24より、この音素スペクト
ルデータが表す音素に含まれる各スペクトルを量子化す
る精度を指定されると、これらのスペクトルの強度を、
指定された精度で量子化し、量子化された音素スペクト
ルデータを、非線形圧縮部14へと供給する。
【0030】非線形圧縮部14は、DSPやCPU等か
ら構成されている。非線形圧縮部14は、量子化された
音素スペクトルデータを量子化部13より供給される
と、この音素スペクトルデータが表す各スペクトルの強
度の値に非線形圧縮を施す。具体的には、例えば、各ス
ペクトルの強度を、量子化部13より供給された音素ス
ペクトルデータが表す値の対数に実質的に等しい値へと
変換する(ただし、対数の底はすべてのスペクトル成分
について共通であるものとする。例えば常用対数な
ど)。そして、非線形圧縮されたn個の音素スペクトル
データを、DPCM演算部15へと供給する。
【0031】DPCM演算部15は、DSPやCPU等
から構成されている。DPCM演算部15は、非線形圧
縮部14よりn個の音素スペクトルデータを供給される
と、供給されたこの音素スペクトルデータをDPCMの
手法により符号化して、符号化されたn個の音素スペク
トルデータを、ハフマン圧縮部16へと供給する。音素
スペクトルデータをDPCMの手法によって符号化する
ことにより、この音素スペクトルデータが表す各スペク
トル成分のうち、単位時間あたりの強度の変化量が量子
化誤差の範囲内に入る程度に小さい成分(スペクトル強
度の変化量の低域成分)は、実質的に除去される。
【0032】ハフマン圧縮部16は、DSPやCPU等
より構成されており、ハードディスク装置等からなる外
部の記憶装置に着脱可能に接続される。ハフマン圧縮部
16は、符号化された音素スペクトルデータをDPCM
演算部15より供給されると、この音素スペクトルデー
タをハフマン符号へと変換する。そして、生成したハフ
マン符号(圧縮音素データ)に、この圧縮音素データが
表す音素を識別する識別データを付し、上述の外部の記
憶装置に接続されている状態で、この記憶装置の記憶領
域にアクセスし、識別データを付した圧縮音素データを
この記憶領域に格納する。
【0033】信号解析部2は、FFT演算部21と、ケ
プストラム解析部22と、フォルマント周波数検出部2
3と、量子化指示部24とより構成されている。
【0034】FFT演算部21は、DSPやCPU等か
ら構成されている。FFT演算部21は、浮動小数点化
処理部11に供給されたものと実質的に同一の音素片デ
ータを供給されると、高速フーリエ変換の手法(あるい
は、離散的変数をフーリエ変換した結果を表すデータを
生成する他の任意の手法)により、この音素片データが
表す音素を構成する各スペクトル成分の強度を表すデー
タを生成し、ケプストラム解析部22へと供給する。
【0035】ケプストラム解析部22は、DSPやCP
U等から構成されている。ケプストラム解析部22は、
FFT演算部21より音素の各スペクトルの強度を表す
データを供給されると、このデータが表すこれらのスペ
クトルのケプストラムを表すデータを生成し、フォルマ
ント周波数検出部23へと供給する。
【0036】具体的には、ケプストラム解析部22は、
FFT演算部21より供給されたデータが表す各スペク
トル成分の強度を、元の値の対数に実質的に等しい値へ
と変換し(ただし、対数の底はすべてのスペクトル成分
について共通であるものとする。例えば常用対数な
ど)、値の変換の結果得られたスペクトルに離散的逆フ
ーリエ変換を施した結果(すなわち、ケプストラム)を
表すデータを生成する。そして、生成したこのデータを
フォルマント周波数検出部23へと供給する。
【0037】フォルマント周波数検出部23は、DSP
やCPU等から構成されている。フォルマント周波数検
出部23は、ケプストラム解析部22よりケプストラム
を表すデータを供給されると、供給されたこのデータに
基づき、このデータが表すケプストラムを有する音素の
フォルマント周波数を特定して、特定したフォルマント
周波数を、量子化指示部24に通知する。
【0038】フォルマント周波数検出部23は、具体的
には、例えば、まず、ケプストラム解析部22より供給
されたデータが表すケプストラムにリフタリングを施
す。すなわち、このケプストラムから音素の基本周波数
を特徴付ける成分を除去するための所定の窓関数(例え
ば、ハミング窓)を乗じる。そして、フォルマント周波
数検出部23は、リフタリングされたケプストラムに離
散的フーリエ変換を施す等することにより、リフタリン
グされたケプストラムのスペクトルの強度の極大値を特
定する。そして、特定した極大値を、フォルマント周波
数であるものとして量子化指示部24へと通知する。
【0039】量子化指示部24は、DSPやCPU等か
ら構成されている。量子化指示部24は、浮動小数点化
処理部11及びFFT演算部21に供給された音素片デ
ータが表す音素のフォルマント周波数をフォルマント周
波数検出部23より通知されると、この音素の各々のス
ペクトルの強度を量子化する精度を、通知されたフォル
マント周波数に基づいて決定する。
【0040】量子化指示部24は、浮動小数点化処理部
11及びFFT演算部21に供給された音素片データが
表す音素を特徴付ける上で重要性が高いスペクトルの品
質の劣化が少なくなるように、この音素の各スペクトル
の量子化の精度を決定するものとする。具体的には、例
えば、周波数がこのフォルマント周波数に近いスペクト
ルほど大きなビット数で量子化するものとしたり、ある
いは、周波数がこのフォルマント周波数から一定の範囲
内にあるスペクトルを、他のスペクトルより大きなビッ
ト数で量子化するものとしたりする。
【0041】なお、この音素データベース圧縮システム
の構成は上述のものに限られない。たとえば、信号処理
部1及び信号解析部2の機能を、単一のDSPやCPU
が行ってもよい。また、浮動小数点化処理部11、アナ
ライザ12、量子化部13、非線形圧縮部14、DPC
M演算部15及びハフマン圧縮部16の全部又は一部の
機能を単一のDSPやCPUが行ってもよい。また、F
FT演算部21、ケプストラム解析部22、フォルマン
ト周波数検出部23及び量子化指示部24の全部又は一
部の機能を単一のDSPやCPUが行ってもよい。
【0042】また、ハフマン圧縮部16は、外部の記憶
装置に着脱可能に接続される代わりに、電話回線、専用
回線、衛星回線等の通信回線を介して外部の装置に接続
され、自己が生成した圧縮音素データをこの装置に供給
するようにしてもよい。この場合、ハフマン圧縮部16
及びこの装置は、それぞれ、例えばモデムやDSU(Da
ta Service Unit)等からなる通信制御部を備えていれ
ばよい。
【0043】また、浮動小数点化処理部11の音素入力
部は、マイクロフォン及びAF(Audio Frequency)増
幅器等からなる集音装置を備えていてもよい。この場
合、浮動小数点化処理部11の音素入力部は、この集音
装置が集音した音声を表す音素片データを生成し、浮動
小数点化処理部11の制御部は、浮動小数点化処理部1
1の音素入力部が生成した音素片データを入力するよう
にすればよい。
【0044】また、信号処理部1は、DSPやCPU等
から構成された電子透かし処理部を備えていてもよい。
電子透かし処理部は、量子化された音素スペクトルデー
タを量子化部13(又は非線形圧縮部14又はDPCM
演算部15)より取得し、取得した音素スペクトルデー
タに電子透かしを施して、非線形圧縮部14(又はDP
CM演算部15又はハフマン圧縮部16)へと供給すれ
ばよい。この場合、非線形圧縮部14(又はDPCM演
算部15又はハフマン圧縮部16)は、量子化部13
(又は非線形圧縮部14又はDPCM演算部15)より
音素スペクトルデータを供給される代わりに、電子透か
し処理部より音素スペクトルデータを供給されるように
する。
【0045】具体的には、電子透かし処理部は、量子化
部13(又は非線形圧縮部14又はDPCM演算部1
5)より取得した、量子化された音素スペクトルデータ
が表す各スペクトルのうちから、電子透かしを施す対象
のスペクトルを決定し、決定したスペクトルの強度を、
このスペクトルの量子化誤差の範囲内で、所定の規則に
従って変更する。そして、スペクトルの強度を変更され
た音素スペクトルデータを、非線形圧縮部14(又はD
PCM演算部15又はハフマン圧縮部16)へと供給す
るものとする。
【0046】また、ハフマン圧縮部16は、自己が生成
した圧縮音素データを暗号化してから外部の記憶装置に
記憶させるようにしてもよい。この場合、ハフマン圧縮
部16は、例えば、記録媒体ドライバ等からなる暗号キ
ー入力部を備えるものとし、当該暗号キー入力部を介し
て外部より暗号化キーを取得して、圧縮音素データを、
取得した暗号化キーを用いて暗号化するものとする。な
お、浮動小数点化処理部11の音素入力部が暗号キー入
力部の機能を行ってもよい。
【0047】以上、この発明の実施の形態を説明した
が、この発明にかかる音素データ処理装置は、専用のシ
ステムによらず、通常のコンピュータシステムを用いて
実現可能である。例えば、ハードディスク装置等の不揮
発性記憶装置を着脱可能に接続するコンピュータに上述
の信号処理部1及び信号解析部2の動作を実行させるた
めのプログラムを格納した媒体(CD−ROM、MO、
フロッピーディスク等)から該プログラムをインストー
ルすることにより、上述の処理を実行する音素データベ
ース圧縮システムを構成することができる。
【0048】また、例えば、通信回線の掲示板(BB
S)に当該プログラムを掲示し、これを通信回線を介し
て配信してもよく、また、当該プログラムを表す信号に
より搬送波を変調し、得られた変調波を伝送し、この変
調波を受信した装置が変調波を復調して当該プログラム
を復元するようにしてもよい。そして、当該プログラム
を起動し、OSの制御下に、他のアプリケーションプロ
グラムと同様に実行することにより、上述の処理を実行
することができる。
【0049】なお、OSが処理の一部を分担する場合、
あるいは、OSが本願発明の1つの構成要素の一部を構
成するような場合には、記録媒体には、その部分を除い
たプログラムを格納してもよい。この場合も、この発明
では、その記録媒体には、コンピュータが実行する各機
能又はステップを実行するためのプログラムが格納され
ているものとする。
【0050】
【発明の効果】以上説明したように、この発明によれ
ば、音声の合成のために用いるデータのデータ容量を、
高音質を保ちながら小さくできる音素データ処理装置及
び音素データ処理方法が実現される。
【図面の簡単な説明】
【図1】この発明の実施の形態に係る音素データベース
圧縮システムの構成を示す図である。
【符号の説明】
1 信号処理部 11 浮動小数点化処理部 12 アナライザ 13 量子化部 14 非線形圧縮部 15 DPCM演算部 16 ハフマン圧縮部 2 信号解析部 21 FFT演算部 22 ケプストラム解析部 23 フォルマント周波数検出部 24 量子化指示部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】音素の波形を表す波形データを外部より入
    力する波形入力手段と、 前記波形入力手段が入力した波形データが表す波形のス
    ペクトルを表す音素データを生成する音素データ生成手
    段と、 前記波形入力手段が入力した前記波形データが表す音素
    のフォルマント周波数を特定するフォルマント周波数特
    定手段と、 前記音素データが表す音素の各スペクトルの強度を、前
    記フォルマント周波数特定手段が特定したフォルマント
    周波数との差が一定範囲内になる周波数を有するスペク
    トルの強度が他のスペクトルの強度より大きなビット数
    で表されるように量子化した結果を表す量子化音素デー
    タを生成して出力する量子化手段と、を備える、 ことを特徴とする音素データ処理装置。
  2. 【請求項2】音素の波形を表す波形データを外部より入
    力する波形入力手段と、 前記波形入力手段が入力した波形データが表す波形のス
    ペクトルを表す音素データを生成する音素データ生成手
    段と、 前記波形入力手段が入力した前記波形データが表す音素
    のフォルマント周波数を特定するフォルマント周波数特
    定手段と、 外部の記憶装置に着脱可能に接続され、前記音素データ
    が表す音素の各スペクトルの強度を、前記フォルマント
    周波数特定手段が特定したフォルマント周波数との差が
    一定範囲内になる周波数を有するスペクトルの強度が他
    のスペクトルの強度より大きなビット数で表されるよう
    に量子化した結果を表す量子化音素データを生成して、
    前記記憶装置の記憶領域に格納する量子化手段と、を備
    える、 ことを特徴とする音素データ処理装置。
  3. 【請求項3】前記量子化手段は、前記音素データが表す
    スペクトルの強度を量子化した結果をDPCM(Differ
    encial Pulse Code Modulation)の手法により符号化し
    た状態で表す前記量子化音素データを生成するものであ
    る、 ことを特徴とする請求項1又は2に記載の音素データ処
    理装置。
  4. 【請求項4】前記音素データは、前記波形データが表す
    波形のスペクトルを帯域別に表すものであり、 前記音素データ生成手段は、前記波形入力手段が入力し
    た前記波形データが表す波形を周波数が低い前記帯域内
    の成分ほど密にサンプリングする手段と、サンプリング
    された当該波形のスペクトルを帯域別に表す前記音素デ
    ータを当該サンプリングの結果に基づいて生成する手段
    と、を備える、 ことを特徴とする請求項1、2又は3に記載の音素デー
    タ処理装置。
  5. 【請求項5】前記量子化手段は、前記音素データが表す
    スペクトルの強度を量子化した結果を表すハフマン符号
    より構成される前記量子化音素データを生成するもので
    ある、 ことを特徴とする請求項1乃至4のいずれか1項に記載
    の音素データ処理装置。
  6. 【請求項6】音素の波形を表す波形データを外部より入
    力し、 入力した波形データが表す波形のスペクトルを表す音素
    データを生成して、 入力した前記波形データが表す音素のフォルマント周波
    数を特定し、 前記音素データが表す音素の各スペクトルの強度を、前
    記特定したフォルマント周波数との差が一定範囲内にな
    る周波数を有するスペクトルの強度が他のスペクトルの
    強度より大きなビット数で表されるように量子化した結
    果を表す量子化音素データを生成して出力する、 ことを特徴とする音素データ処理方法。
  7. 【請求項7】コンピュータを、 音素の波形を表す波形データを外部より入力する波形入
    力手段と、 前記波形入力手段が入力した波形データが表す波形のス
    ペクトルを表す音素データを生成する音素データ生成手
    段と、 前記波形入力手段が入力した前記波形データが表す音素
    のフォルマント周波数を特定するフォルマント周波数特
    定手段と、 前記音素データが表す音素の各スペクトルの強度を、前
    記フォルマント周波数特定手段が特定したフォルマント
    周波数との差が一定範囲内になる周波数を有するスペク
    トルの強度が他のスペクトルの強度より大きなビット数
    で表されるように量子化した結果を表す量子化音素デー
    タを生成して出力する量子化手段と、 して機能させるためのプログラム。
  8. 【請求項8】外部の記憶装置に着脱可能に接続されたコ
    ンピュータを、 音素の波形を表す波形データを外部より入力する波形入
    力手段と、 前記波形入力手段が入力した波形データが表す波形のス
    ペクトルを表す音素データを生成する音素データ生成手
    段と、 前記波形入力手段が入力した前記波形データが表す音素
    のフォルマント周波数を特定するフォルマント周波数特
    定手段と、 前記音素データが表す音素の各スペクトルの強度を、前
    記フォルマント周波数特定手段が特定したフォルマント
    周波数との差が一定範囲内になる周波数を有するスペク
    トルの強度が他のスペクトルの強度より大きなビット数
    で表されるように量子化した結果を表す量子化音素デー
    タを生成して、前記記憶装置の記憶領域に格納する量子
    化手段と、 して機能させるためのプログラム。
JP2001049840A 2001-02-26 2001-02-26 音素データ処理装置、音素データ処理方法及びプログラム Pending JP2002251196A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001049840A JP2002251196A (ja) 2001-02-26 2001-02-26 音素データ処理装置、音素データ処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001049840A JP2002251196A (ja) 2001-02-26 2001-02-26 音素データ処理装置、音素データ処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2002251196A true JP2002251196A (ja) 2002-09-06

Family

ID=18910885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001049840A Pending JP2002251196A (ja) 2001-02-26 2001-02-26 音素データ処理装置、音素データ処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2002251196A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004088634A1 (ja) * 2003-03-28 2004-10-14 Kabushiki Kaisha Kenwood 音声信号圧縮装置、音声信号圧縮方法及びプログラム
KR100897555B1 (ko) 2007-02-21 2009-05-15 삼성전자주식회사 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법
CN111754976A (zh) * 2020-07-21 2020-10-09 中国科学院声学研究所 一种韵律控制语音合成方法、***及电子装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004088634A1 (ja) * 2003-03-28 2004-10-14 Kabushiki Kaisha Kenwood 音声信号圧縮装置、音声信号圧縮方法及びプログラム
CN100570709C (zh) * 2003-03-28 2009-12-16 株式会社建伍 语音信号压缩设备、语音信号压缩方法和程序
US7653540B2 (en) 2003-03-28 2010-01-26 Kabushiki Kaisha Kenwood Speech signal compression device, speech signal compression method, and program
KR100897555B1 (ko) 2007-02-21 2009-05-15 삼성전자주식회사 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법
CN111754976A (zh) * 2020-07-21 2020-10-09 中国科学院声学研究所 一种韵律控制语音合成方法、***及电子装置
CN111754976B (zh) * 2020-07-21 2023-03-07 中国科学院声学研究所 一种韵律控制语音合成方法、***及电子装置

Similar Documents

Publication Publication Date Title
Dutoit et al. Applied Signal Processing: A MATLABTM-based proof of concept
US7647226B2 (en) Apparatus and method for creating pitch wave signals, apparatus and method for compressing, expanding, and synthesizing speech signals using these pitch wave signals and text-to-speech conversion using unit pitch wave signals
KR100283547B1 (ko) 오디오 신호 부호화 방법 및 복호화 방법, 오디오 신호 부호화장치 및 복호화 장치
EP2479750B1 (en) Method for hierarchically filtering an input audio signal and method for hierarchically reconstructing time samples of an input audio signal
KR101238239B1 (ko) 인코더
KR100848324B1 (ko) 음성 부호화 장치 및 그 방법
CN100568343C (zh) 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
EP0865029B1 (en) Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
MX2014015749A (es) Dispositivo, metodo y programa de computadora para desplazamientos de frecuencia libremente seleccionable en el dominio de subbanda.
JP2006171751A (ja) 音声符号化装置及び方法
JPH1130998A (ja) オーディオ信号符号化装置,及び復号化装置、オーディオ信号符号化・復号化方法
JP2002251196A (ja) 音素データ処理装置、音素データ処理方法及びプログラム
JP4822816B2 (ja) オーディオ信号符号化装置および方法
WO2004088634A1 (ja) 音声信号圧縮装置、音声信号圧縮方法及びプログラム
US8924202B2 (en) Audio signal coding system and method using speech signal rotation prior to lattice vector quantization
US20060195315A1 (en) Sound synthesis processing system
JP3806607B2 (ja) 音素データ処理装置、音素データ処理方法及びプログラム
AU2011205144B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
JP2002244692A (ja) 音声合成装置、音素データ生成装置、音声合成方法、音素データ生成方法及びプログラム
AU2011221401B2 (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
Popowski et al. Optimization of allophone database compression with wavelets for Polish speech synthesis TTS systems
Liu The perceptual impact of different quantization schemes in G. 719
WO2008114078A1 (en) En encoder
KR20080034817A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050726

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051124