JP3618217B2

JP3618217B2 - 音声のピッチ符号化方法及び音声のピッチ符号化装置並びに音声のピッチ符号化プログラムが記録された記録媒体

Info

Publication number: JP3618217B2
Application number: JP04593398A
Authority: JP
Inventors: 健喜井原
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 1998-02-26
Filing date: 1998-02-26
Publication date: 2005-02-09
Anticipated expiration: 2018-02-26
Also published as: US6219636B1; JPH11242498A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声符号化の技術分野に属し、より詳しくは、音声のピッチ情報の符号化方法、ピッチ符号化装置、及びピッチ符号化プログラムが記録された記録媒体の技術分野に属する。
【０００２】
【従来の技術】
従来、音声信号を高能率に符号化するため、人間の声帯振動の周期性に起因する音声信号の長期相関に基づくピッチを抽出し符号化することが一般的に行われている。即ち、音声信号においては、このピッチで定まる周期ごとに同様の波形が繰り返されるため、ピッチを符号化する際、近接相関に基づく短期予測と組み合わせれば、高能率に音声信号を符号化することが可能となる。また、代表的な音声符号化方式であるＣＥＬＰ（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）においては、適応コードブックの内容を過去の合成フィルタの駆動源とし、いったん再生して入力信号との聴感重み付け誤差電力を最小化するように、ピッチを決定する構成をとるので、ピッチ抽出が不可欠な要素となっている。
【０００３】
ところで、一般にＣＥＬＰなどの音声符号化方式においては、入力音声をフレームを単位に区切りフレームごとに符号化を行うとともに、フレームをさらに複数のサブフレーム単位に分割し、ベクトル量子化等の処理の基本単位としている。そして、上述したピッチ抽出は、各サブフレームに対してそれぞれ１つのピッチを算出した上で、この算出ピッチを１又は複数のフレームの範囲内で符号化処理することにより行われる。ここで、算出ピッチの符号化に際しては、１フレーム内の各サブフレームに対し、算出ピッチの値そのものを符号化することによっても可能であるが、符号化データ量削減のために１フレーム内の先頭のサブフレームに対しては、算出ピッチの値そのものを符号化し、後続の各サブフレームに対しては、算出ピッチと前のサブフレームとの差分を符号化することが有効である。
【０００４】
【発明が解決しようとする課題】
しかしながら、音声信号は時間軸において、声帯の振動を伴う入力音声が存在する有声音、声帯の振動を伴わない入力音声のみ存在する無声音、入力音声が存在しない無音とに区別できる。音声のピッチは、有声音の部分に対して意味を持つので、これらのいずれかの状態にあるかを判断した上で、処理の最小単位であるサブフレームが、有声音ではない無声音又は無音と判定された場合には、ピッチ符号化を行わないようにすることが一般的である。そのため、１フレーム内の先頭部分のサブフレームが有声音と判定されない場合は、その後のサブフレームで求めるべき差分の基準とすべき値が定まらないので、１フレーム全体についてピッチ符号化を行わないこととせざるを得ない。この場合、ＣＥＬＰ等における適応コードブックからは再生信号が出力されないこととなる。
【０００５】
従って、従来の音声符号化方式において、符号化データ量を削減しつつ、きめが細かく入力音声に忠実なピッチ符号化を実現することは困難である。特に、１フレームが長くなる場合や、１フレーム中のサブフレーム数が多い場合などは、１フレーム内に有声音と判定されないサブフレームが含まれる可能性が増大するので、音声符号化の品質劣化を招くおそれがある。
【０００６】
そこで、本発明は、上記の問題点に鑑みなされたものであり、その課題は、符号化データ量を増大させることなく、１フレーム内に有声音と判定されないサブフレームが含まれている場合でも、入力音声のピッチを忠実に符号化することができる符号化方法、符号化装置、及び符号化プログラムが記録された記録媒体を提供することにある。
【０００７】
【課題を解決するための手段】
前記課題を達成するため、請求項１に記載のピッチ符号化方法は、フレーム単位に区切られた入力音声に対し、フレームをさらに複数に分割したサブフレーム単位のピッチを算出し符号化するピッチ符号化方法であって、一又は複数のフレームに含まれる複数のサブフレームのピッチを各サブフレームごとに算出する算出工程と、前記複数のサブフレームに含まれる入力音声が声帯の振動を伴う有声音であるか否かを各サブフレームごとに判定する判定工程と、前記複数のサブフレーム中、当該先頭サブフレームが有声音でないと判定され、かつ前記複数のサブフレーム中、当該先頭サブフレームに後続する他のサブフレームである後続サブフレームに有声音と判定されたサブフレームが存在する場合は、前記先頭サブフレームに、予め定められた複数のピッチの基準値の中から一の基準値を選択して符号化する第１符号化工程と、前記選択した基準値と有声音と判定された前記後続サブフレームの前記算出したピッチとの差分を算出して符号化する第２符号化工程と、を備え、前記第１符号化工程において選択される基準値は、前記有声音と判定された後続サブフレームのピッチとの差分が最も小さい基準値であることを特徴とする。
【０００８】
請求項１に記載のピッチ符号化方法によれば、算出工程において、一又は複数のフレームに含まれるサブフレームを単位に入力音声のピッチが各サブフレームごとに算出されるとともに、判定工程において、この入力音声が有声音であるか否かがサブフレームごとに判定される。
【０００９】
そして、第１符号化工程においては先頭サブフレームに対する符号化が行われる。即ち、有声音と判定された先頭サブフレームの算出ピッチを符号化する一方、有声音でないと判定された先頭サブフレームであって、有声音と判定される後続サブフレームが存在する場合には、複数のピッチの基準値から１つを選択することにより符号化が行われる。
【００１０】
また、第２符号化工程においては、後続サブフレームに対する符号化が行われる。即ち、有声音と判定された後続サブフレームについて、先行するサブフレームに有声音と判定されるものが存在する場合には、後続サブフレームと当該先行するサブフレームとの算出ピッチどうしの差分を算出して符号化する一方、先行するサブフレームに有声音と判定されるものが存在しない場合には、後続サブフレームの算出ピッチと選択した基準値との差分を算出して符号化を行う。
【００１１】
よって、ピッチ符号化の処理を行うべき複数のサブフレーム内で、有声音であるか否かの判定結果が１フレーム内で変動するような場合であっても、差分を利用してピッチを忠実に符号化することができ、品質を確保しつつ、データ量が増大しないピッチ情報の符号化が可能となる。
【００１２】
請求項２に記載のピッチ符号化方法は、請求項１に記載のピッチ符号化方法において、前記有声音でないと判定された先頭フレームに後続するサブフレームが、有声音でないと判定された場合には、当該後続するサブフレームの差分を０として符号化する第３符号化工程と、を有することを特徴とする。
【００１５】
請求項３に記載のピッチ符号化装置は、フレーム単位に区切られた入力音声に対し、フレームをさらに複数に分割したサブフレーム単位のピッチを算出し符号化するピッチ符号化装置であって、一又は複数のフレームに含まれる複数のサブフレームのピッチを各サブフレームごとに算出する算出手段と、前記複数のサブフレームに含まれる入力音声が声帯の振動を伴う有声音であるか否かを各サブフレームごとに判定する判定手段と、前記複数のサブフレーム中、当該先頭サブフレームが有声音でないと判定され、かつ前記複数のサブフレーム中、当該先頭サブフレームに後続する他のサブフレームである後続サブフレームに有声音と判定されたサブフレームが存在する場合は、前記先頭サブフレームに、予め定められた複数のピッチの基準値の中から一の基準値を選択して符号化する第１符号化手段と、前記選択した基準値と有声音と判定された前記後続サブフレームの前記算出したピッチとの差分を算出して符号化する第２符号化手段と、を備え、前記第１符号化工程において選択される基準値は、前記有声音と判定された後続サブフレームのピッチとの差分が最も小さい基準値であることを特徴とする。
【００１６】
請求項３に記載のピッチ符号化装置によれば、算出手段により、一又は複数のフレームに含まれるサブフレームを単位に入力音声のピッチが各サブフレームごとに算出されるとともに、判定手段により、この入力音声が有声音であるか否かがサブフレームごとに判定される。
【００１７】
そして、第１符号化手段により、先頭サブフレームに対する符号化が行われる。即ち、有声音と判定された先頭サブフレームの算出ピッチを符号化する一方、有声音でないと判定された先頭サブフレームであって、有声音と判定される後続サブフレームが存在する場合には、複数のピッチの基準値から１つを選択することにより符号化が行われる。
【００１８】
また、第２符号化手段により、後続サブフレームに対する符号化が行われる。即ち、有声音と判定された後続サブフレームについて、先行するサブフレームに有声音と判定されるものが存在する場合には、後続サブフレームと当該先行するサブフレームとの算出ピッチどうしの差分を算出して符号化する一方、先行するサブフレームに有声音と判定されるものが存在しない場合には、後続サブフレームの算出ピッチと選択した基準値との差分を算出して符号化を行う。
【００１９】
よって、ピッチ符号化の処理を行うべき複数のサブフレーム内で、有声音であるか否かの判定結果が１フレーム内で変動するような場合であっても、差分を利用してピッチを忠実に符号化することができ、品質を確保しつつ、データ量が増大しないピッチ情報の符号化が可能となる。
【００２０】
請求項４に記載のピッチ符号化装置は、請求項３に記載のピッチ符号化装置において、前記有声音でないと判定された先頭フレームに後続するサブフレームが、有声音でないと判定された場合には、当該後続するサブフレームの差分を０として符号化する第３符号化手段と、を有することを特徴とする。
【００２３】
請求項５に記載のピッチ符号化方法を実行させるためのプログラムを記録した記録媒体は、コンピュータに、フレーム単位に区切られた入力音声に対し、フレームをさらに複数に分割したサブフレーム単位のピッチを算出し符号化するピッチ符号化方法を実行させるためのプログラムを記録した記録媒体であって、
一又は複数のフレームに含まれる複数のサブフレームのピッチを各サブフレームごとに算出する算出工程と、前記複数のサブフレームに含まれる入力音声が声帯の振動を伴う有声音であるか否かを各サブフレームごとに判定する判定工程と、前記複数のサブフレーム中、当該先頭サブフレームが有声音でないと判定され、かつ前記複数のサブフレーム中、当該先頭サブフレームに後続する他のサブフレームである後続サブフレームに有声音と判定されたサブフレームが存在する場合は、前記先頭サブフレームに、予め定められた複数のピッチの基準値の中から一の基準値を選択して符号化する第１符号化工程と、前記選択した基準値と有声音と判定された前記後続サブフレームの前記算出したピッチとの差分を算出して符号化する第２符号化工程と、を備え、前記第１符号化工程において選択される基準値は、前記有声音と判定された後続サブフレームのピッチとの差分が最も小さい基準値であることを特徴とする。
【００２４】
請求項５に記載のピッチ符号化方法を実行させるためのプログラムを記録した読み取り実行するコンピュータによれば、算出工程において、一又は複数のフレームに含まれるサブフレームを単位に入力音声のピッチが各サブフレームごとに算出されるとともに、判定工程において、この入力音声が有声音であるか否かがサブフレームごとに判定される。
【００２５】
そして、第１符号化工程においては先頭サブフレームに対する符号化が行われる。即ち、有声音と判定された先頭サブフレームの算出ピッチを符号化する一方、有声音でないと判定された先頭サブフレームであって、有声音と判定される後続サブフレームが存在する場合には、複数のピッチの基準値から１つを選択することにより符号化が行われる。
【００２６】
また、第２符号化工程においては、後続サブフレームに対する符号化が行われる。即ち、有声音と判定された後続サブフレームについて、先行するサブフレームに有声音と判定されるものが存在する場合には、後続サブフレームと当該先行するサブフレームとの算出ピッチどうしの差分を算出して符号化する一方、先行するサブフレームに有声音と判定されるものが存在しない場合には、後続サブフレームの算出ピッチと選択した基準値との差分を算出して符号化を行う。
【００２７】
よって、ピッチ符号化の処理を行うべき複数のサブフレーム内で、有声音であるか否かの判定結果が１フレーム内で変動するような場合であっても、差分を利用してピッチを忠実に符号化することができ、品質を確保しつつ、データ量が増大しないピッチ情報の符号化が可能となる。
【００２８】
請求項６に記載のピッチ符号化方法を実行させるためのプログラムを記録した記録媒体は、請求項５に記載のピッチ符号化方法を実行させるためのプログラムを記録した記録媒体において、前記有声音でないと判定された先頭フレームに後続するサブフレームが、有声音でないと判定された場合には、当該後続するサブフレームの差分を０として符号化する第３符号化工程とを更に備えることを特徴とする。
【００３１】
【発明の実施の形態】
以下、本発明の好適な実施形態について、図面に基づいて説明する。
【００３２】
図１は、本発明に係るピッチ符号化方法をＣＥＬＰ符号化方式に適用する場合の全体構成を示すブロック図である。
【００３３】
図１に示すＣＥＬＰ符号化方式は、ピッチ分析部１と、ピッチパス決定部２と、符号化部３と、線形予測分析部４と、適応コードブック５と、雑音コードブック６と、利得コードブック７と、聴覚重み付けフィルタ８と、合成フィルタ９とから構成されている。
【００３４】
図１の構成において、入力音声はフレーム単位に区切られ、さらにフレームを複数のサブフレームに分割し、サブフレームごと、又は、フレームごとに各種パラメータを抽出し符号化がなされる。まず、入力音声は、サブフレームごとに線形予測分析部４に入力され、サンプル値間の近接相関を利用して予測値を求める処理が行われる。
【００３５】
ＣＥＬＰ符号化方式における線形予測残差の符号化は、３種のコードブックを使ったベクトル量子化を用いて行われ、最適な量子化ベクトル（各コードブックのインデクス）をサブフレームごとに決定し、その際の各コードブックのインデクスを伝送すべき符号化データとする。適応コードブック５は、合成フィルタ９へ入力する過去の駆動源を用いていったん信号を再生し、入力信号との聴感重み付け誤差電力を最小化するようにピッチ予測を行う。雑音コードブック６は、ガウス性の確率密度をもつ雑音信号を音源として、ピッチ予測残差信号を近似するものである。利得コードブック７は、適応コードブック５及び雑音コードブック６において最適なインデクスを決定した上で、その条件において最適な利得を与えるように別途決定するものである。
【００３６】
また、入力音声は、サブフレームごとにピッチ分析部１にも入力され、ピッチパス決定部２を経て、オープンループ探索法によりピッチパス情報を得た後、符号化部３において前述の適応コードブックのインデクスを決定し、クローズドループ探索法により音声信号の長期相関に基づくピッチの符号化処理が行われる。これらピッチ符号化処理の詳細については後述する。
【００３７】
合成フィルタ９は、線形予測分析部７における予測結果に基づき、フィルタの係数を決定した上で、各コードブックの求めたインデクスによる信号を入力し、再生音声として出力を行う。そして、合成フィルタ９から出力される再生信号は、入力音声との誤差電力を求めた上で、聴覚のマスキング現象を利用して量子化雑音を低減するための聴覚重み付けフィルタ８を通した後、符号化部３において当該誤差電力を最小化するように符号化が行われる。
【００３８】
次に、図２に、クローズドループ探索法によるピッチ符号化処理のフローチャートを示す。図２に示すピッチ符号化処理においては、ピッチ分析部１とピッチパス決定部２で行われるオープンループ探索法により得られたピッチパス情報を入力した後、クローズドループ探索法に基づき各サブフレームのピッチが決定される。
【００３９】
ここで、オープンループ探索法によるピッチパス情報の生成の概略を説明する。なお、本実施形態では、１フレームが４サブフレームから構成され、各処理は１フレームの範囲内で行われる場合を考える。
【００４０】
まず、１フレーム内の各サブフレームに対するピッチ候補をＭ個求める。より具体的には、各サブフレームに線形予測分析（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ：ＬＰＣ）を行い、その予測残差にハミング窓を乗じた後、対応するサンプリング数あるいはその補間を考慮した上でピッチとしてとり得る所定の範囲内において、自己相関関数が大きくなる順にＭ個のピッチ候補を決定する。
【００４１】
そして、各サブフレーム中、自己相関関数が最大となるサブフレームをピッチパスの起点とし、Ｍ個のピッチ候補について、それぞれ符号化する際の差分で表せる範囲内の遅延を入力音声に与えた場合に、自己相関を最大化するピッチを決定する。このピッチの決定を順方向及び逆方向の各サブフレームについて繰り返す。
【００４２】
その結果、先頭のサブフレームから最後のサブフレームに至るまでの上述の方法で決定された４つのピッチの列、即ちピッチパスがＭ通り生成される。このＭ個のピッチパスから、例えば４つのサブフレームに対する歪みの和を最小化するものなど、１フレーム全体として最適なピッチパスを１つ選び、符号化部３に入力すべきピッチ情報とする。
【００４３】
上述のように得られたピッチパス情報は、クローズドループ探索法に基づくピッチ符号化を行うために、１フレーム分が取り込まれる（ステップＳ１）。そして、各サブフレームごとに順次ピッチが決定される（ステップＳ２）。具体的には、前記ピッチパス情報の各サブフレームについてのピッチの値を中心に、複数のピッチ候補を選定した上で、その中から、自己相関が最大となるものを選択する。この際、いったん前記複数のピッチ候補から簡易な計算により数個のピッチ候補を予備選択し、その後、その中から１個のピッチを本選択する構成としてもよい。
【００４４】
次いで、後述する処理に従い、ピッチ情報の符号化が行われる（ステップＳ３）。
【００４５】
なお、ピッチ符号化処理は、入力音声が有声音か否かを各サブフレームごとに判定する判定結果に基づいて行なわれる。具体的には、入力音声のピッチは、声帯振動の基本周期であるから、音声が声帯振動を伴わない無声音であるような場合には、本来ピッチは抽出できない。そのため、有声音でないと判定されたサブフレームについては、ピッチの符号化は行わないこととする。
【００４６】
最後に、処理すべき入力信号の有無を判断し（ステップＳ４）、新たな入力信号がなく、全ての入力信号に対する処理を終了した場合（ステップＳ４；ＹＥＳ）、符号化処理を終了し、まだ処理すべき入力信号がある場合（ステップＳ４；ＮＯ）、再びステップＳ１に戻る。
【００４７】
次に、図３に、図２のステップＳ３に対応する前述したピッチ情報の符号化処理の詳細についてのフローチャートを示す。
【００４８】
まず、ピッチ分析に際し、前記有声音か否かの判定処理を行った上で、１フレーム内で、全てのサブフレームの判定結果に応じて処理を分岐する（ステップＳ１０）。１フレーム内で全てのサブフレームが有声音ではなく無声音と判定された場合（ステップＳ１０；ＹＥＳ）、全てのサブフレームについて、無声音として定めたパターンにより符号化を行い（ステップＳ１１）、処理を終える。
【００４９】
一方、有声音と判定されるサブフレームが存在する場合（ステップＳ１０；ＮＯ）、サブフレームの処理用カウンタｃｎｔをゼロクリアする（ステップＳ１２）。このカウンタｃｎｔは、１フレーム内で最初に有声音と判定されるサブフレームに達したか否かを判別するためのものであり、この値をｓとして予め設定した上で、ｃｎｔとｓの比較を行う（ステップＳ１３）。
【００５０】
そして、ｃｎｔがｓに達していない場合は（ステップＳ１３；ＮＯ）、そのサブフレームに対するピッチを符号化せず、ピッチ情報の符号化をいったん保留する（ステップＳ１４）。その後、カウンタｃｎｔをインクリメントした後（ステップＳ１５）、次のサブフレームに対する処理に移る（ステップＳ１３）。
【００５１】
一方、ｃｎｔがｓに達すると（ステップＳ１３；ＹＥＳ）、先頭のサブフレームに対しては、予め定められた複数のピッチの基準値の中から、ｓ番目のサブフレームのピッチに最も近い基準値（適応コードブック５の出力はなしであるが、ピッチ情報を有する基準値）を１つを選び、ピッチ情報として符号化する（ステップＳ１６）。
【００５２】
ここで、このピッチの基準値について説明する。通常、１フレーム内の複数のサブフレームのピッチ情報を符号化するに際しては、図２のステップＳ２で決定済みのピッチの値そのものに基づき符号化する方法も考えられるが、１フレーム内のサブフレーム数が多い場合などは、ピッチ情報として割り当てるデータ量が大幅に増大するため、高能率の音声符号化を行うには適さない。よって、先頭のサブフレームをピッチの値に基づき符号化する一方、後続のサブフレームは１つ先行するサブフレームのピッチとの差分を求め、符号化することがデータ量削減に有効である。
【００５３】
しかし、処理すべきサブフレームが常にピッチ抽出可能な有声音であれば問題ないが、無声音となるサブフレームについては、ピッチを符号化せず、無声音であることを示すパターンをピッチ情報とする。よって、最初の有声音となるｓ番目のサブフレームについては、ｓ−１番目のサブフレームのピッチを抽出できないので、前述の差分を求めることはできない。
【００５４】
従って、先頭のサブフレームが無声音なら“基準値”を持たせ、２番目〜ｓ−１番目のサブフレームを“差分０で出力なし”として符号化を行う（ステップＳ１７）。
【００５５】
その後、次のサブフレームに処理を進めるため、カウンタｃｎｔをインクリメントし（ステップＳ１８）、ｃｎｔが４に達したか否かを判断する（ステップＳ１９）。ｃｎｔ＝４であれば（ステップＳ１９；ＹＥＳ）、１フレーム内の４つの各サブフレームについてのピッチ符号化が終了したので、処理を終える。
【００５６】
一方、ｃｎｔ＝４でなければ（ステップＳ１９；ＮＯ）、対象となるサブフレームが有声音である場合は、前述の差分を求め符号化し、無声音である場合は、“差分０で出力なし”として符号化する（ステップＳ２０）。そして、ｃｎｔが示す次のサブフレームに対する処理に移る（ステップＳ１８）。
【００５７】
以上の処理を行うことにより、有声音のサブフレームと無声音のサブフレームをともに含んでいる一又は複数のフレームに対しても、入力音声のピッチ情報を適切に符号化することができる。特に、先頭部分において無声音となるサブフレームが連続した後、ｓ番目のサブフレームで初めて有声音と判定されるようなケースであっても、それ以降のサブフレームにおけるピッチの所定の基準値との差分を用いることで符号化が可能となる。
【００５８】
なお、上述した本発明に係る音声のピッチ符号化方法は、コンピュータに読み取り可能なＣＤ−ＲＯＭ、フロッピーディスク等の記録媒体に記録させることが可能である。そして、当該ＣＤ−ＲＯＭ等を用いてコンピュータにおいて音声のピッチ符号化プログラムをインストールし、実行することにより、本発明に係るピッチ符号化が実現される。
【００５９】
【発明の効果】
以上説明したように、請求項１および請求項２に記載の発明によれば、複数のサブフレームに対するピッチを符号化するに際し、有声音であるか否かの判定結果に応じて、算出ピッチそのものに加え、所定の基準値を利用してピッチ又はピッチの差分値を符号化するようにしたので、有声音であるか否かの判定結果が１フレーム内で変動するような場合でも、適切な符号化を行うことができ、データ量を増大させることなく高品質なピッチ符号化の方法を実現することができる。
【００６１】
請求項３および請求項４に記載の発明によれば、複数のサブフレームに対するピッチを符号化するに際し、有声音であるか否かの判定結果に応じて、算出ピッチそのものに加え、所定の基準値を利用してピッチ又はピッチの差分値を符号化するようにしたので、有声音であるか否かの判定結果が１フレーム内で変動するような場合でも、適切な符号化を行うことができ、データ量を増大させることなく高品質なピッチ符号化を行うピッチ符号化装置を提供することができる。
【００６３】
請求項５および請求項６に記載の発明によれば、複数のサブフレームに対するピッチを符号化するに際し、有声音であるか否かの判定結果に応じて、算出ピッチそのものに加え、所定の基準値を利用してピッチ又はピッチの差分値を符号化するようにしたので、有声音であるか否かの判定結果が１フレーム内で変動するような場合でも、適切な符号化を行うことができ、データ量を増大させることなく高品質なピッチ符号化のためのソフトウェアを提供することができる。
【図面の簡単な説明】
【図１】本発明の実施形態におけるＣＥＬＰ符号化方式の全体構成を示すブロック図である。
【図２】本発明の実施形態におけるクローズドループ探索法によるピッチ符号化処理を示すフローチャートである。
【図３】本発明の実施形態におけるピッチ情報の符号化処理の詳細を示すフローチャートである。
【符号の説明】
１…ピッチ分析部
２…ピッチパス決定部
３…符号化部
４…線形予測分析部
５…適応コードブック
６…雑音コードブック
７…利得コードブック
８…重み付けフィルタ
９…合成フィルタ

Claims

フレーム単位に区切られた入力音声に対し、フレームをさらに複数に分割したサブフレーム単位のピッチを算出し符号化するピッチ符号化方法であって、
一又は複数のフレームに含まれる複数のサブフレームのピッチを各サブフレームごとに算出する算出工程と、
前記複数のサブフレームに含まれる入力音声が声帯の振動を伴う有声音であるか否かを各サブフレームごとに判定する判定工程と、
前記複数のサブフレーム中、当該先頭サブフレームが有声音でないと判定され、かつ前記複数のサブフレーム中、当該先頭サブフレームに後続する他のサブフレームである後続サブフレームに有声音と判定されたサブフレームが存在する場合は、前記先頭サブフレームに、予め定められた複数のピッチの基準値の中から一の基準値を選択して符号化する第１符号化工程と、
前記選択した基準値と有声音と判定された前記後続サブフレームの前記算出したピッチとの差分を算出して符号化する第２符号化工程と、
を備え、
前記第１符号化工程において選択される基準値は、前記有声音と判定された後続サブフレームのピッチとの差分が最も小さい基準値であることを特徴とするピッチ符号化方法。
請求項１に記載のピッチ符号化方法において、
前記有声音でないと判定された先頭フレームに後続するサブフレームが、有声音でないと判定された場合には、当該後続するサブフレームの差分を０として符号化する第３符号化工程と、
を有することを特徴とするピッチ符号化方法。
フレーム単位に区切られた入力音声に対し、フレームをさらに複数に分割したサブフレーム単位のピッチを算出し符号化するピッチ符号化装置であって、
一又は複数のフレームに含まれる複数のサブフレームのピッチを各サブフレームごとに算出する算出手段と、
前記複数のサブフレームに含まれる入力音声が声帯の振動を伴う有声音であるか否かを各サブフレームごとに判定する判定手段と、
前記複数のサブフレーム中、当該先頭サブフレームが有声音でないと判定され、かつ前記複数のサブフレーム中、当該先頭サブフレームに後続する他のサブフレームである後続サブフレームに有声音と判定されたサブフレームが存在する場合は、前記先頭サブフレームに、予め定められた複数のピッチの基準値の中から一の基準値を選択して符号化する第１符号化手段と、
前記選択した基準値と有声音と判定された前記後続サブフレームの前記算出したピッチとの差分を算出して符号化する第２符号化手段と、
を備え、
前記第１符号化工程において選択される基準値は、前記有声音と判定された後続サブフレームのピッチとの差分が最も小さい基準値であることを特徴とするピッチ符号化手段。
請求項３に記載のピッチ符号化装置において、
前記有声音でないと判定された先頭フレームに後続するサブフレームが、有声音でないと判定された場合には、当該後続するサブフレームの差分を０として符号化する第３符号化手段と、
を有することを特徴とするピッチ符号化装置。
コンピュータに、フレーム単位に区切られた入力音声に対し、フレームをさらに複数に分割したサブフレーム単位のピッチを算出し符号化するピッチ符号化方法を実行させるためのプログラムを記録した記録媒体であって、
一又は複数のフレームに含まれる複数のサブフレームのピッチを各サブフレームごとに算出する算出工程と、
前記複数のサブフレームに含まれる入力音声が声帯の振動を伴う有声音であるか否かを各サブフレームごとに判定する判定工程と、
前記複数のサブフレーム中、当該先頭サブフレームが有声音でないと判定され、かつ前記複数のサブフレーム中、当該先頭サブフレームに後続する他のサブフレームである後続サブフレームに有声音と判定されたサブフレームが存在する場合は、前記先頭サブフレームに、予め定められた複数のピッチの基準値の中から一の基準値を選択して符号化する第１符号化工程と、
前記選択した基準値と有声音と判定された前記後続サブフレームの前記算出したピッチとの差分を算出して符号化する第２符号化工程と、
を備え、
前記第１符号化工程において選択される基準値は、前記有声音と判定された後続サブフレームのピッチとの差分が最も小さい基準値であることを特徴とするピッチ符号化方法を実現させるためのプログラムを記録した記録媒体。
請求項５に記載のピッチ符号化方法において、
前記有声音でないと判定された先頭フレームに後続するサブフレームが、有声音でないと判定された場合には、当該後続するサブフレームの差分を０として符号化する第３符号化工程とを更に備えるピッチ符号化方法を実行させるためのプログラムを記録した記録媒体。