JP2009003388A

JP2009003388A - ピッチ探索範囲決定装置、ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体

Info

Publication number: JP2009003388A
Application number: JP2007166883A
Authority: JP
Inventors: Naka Omuro; 仲大室; Shigeaki Sasaki; 茂明佐々木; Yuusuke Hiwazaki; 祐介日和▲崎▼; Takeshi Mori; 岳至森; Akitoshi Kataoka; 章俊片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-06-25
Filing date: 2007-06-25
Publication date: 2009-01-08
Anticipated expiration: 2027-06-25
Also published as: JP4928367B2

Abstract

【課題】パケットロスコンシールメント（パケット消失補償）等に用いることができるピッチ推定方法で用いられる探索範囲の決定技術を提供する。
【解決手段】採択指標計算部１１が、ピッチを求めようとする部分の音声信号の母音性を表す指標である採択指標を計算する。判断部１２が、採択指標と予め定められた採択基準値を比較することにより、ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強いかどうかを判断する。探索範囲決定部１３が、ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強いと判断された場合には、探索範囲Ａを探索範囲として決定し、そうでない場合には、探索範囲Ａよりも狭い探索範囲Ｂを探索範囲として決定する。
【選択図】図１

Description

この発明は、ディジタル化された音声信号、楽音信号などの音響信号、その他周期的な成分を含む信号を分析してピッチを探索する際に用いるピッチ探索範囲決定装置、そのピッチ探索範囲決定装置を用いたピッチ探索装置、そのピッチ探索装置を用いたパケット消失補償装置、それらの方法、プログラム及びその記録媒体に関する。

インターネットをはじめとするパケット通信網を用いて音声を送受信する利用が増えている。ＩＰ電話もその一例である。図７に、パケット通信網５を用いた音声通信システム７を例示する。音声通信システム７は、音声を符号化及びパケット化して送信するパケット送信部４、例えばインターネット等のパケット通信網５、音声パケットを復号化して音声を出力するパケット受信部６を備える。

送信側のパケット送信部４は、入力音声をフレームと呼ばれる一定時間長の区間ごとに区切り、フレーム化された音声信号を音声符号化の手法を用いて音声符号に変換して、音声パケットとしてパケット通信網５に送信する。フレーム長としては、一般に５ｍｓ〜２０ｍｓが用いられる。

受信側のパケット受信部６は、受信した音声パケットを、送信側の音声符号化手法に対応する復号手法を用いてフレーム化された音声信号に変換して、その音声を出力する。

パケット通信網５を利用した音声通信で問題となるのは、パケット通信網５を含む経路上でパケットが失われることや、制限時間内にパケットが届かなかったためにパケットが破棄されることによって起こる、パケットロスである。

パケットロスが発生した場合には、受信側のパケット受信部６でパケットロスコンシールメント（パケット消失補償）と呼ばれる手法を使って、再生音の劣化を抑える処理を行うことが一般的である。パケットロスコンシールメントの代表的な方法として、ITU-T G.711 Appendix Iに記載された方法が知られている（例えば、非特許文献１参照。）。

図８に、ITU-T G.711 Appendix Iで利用されているパケットロスコンシールメントの手法を組み込んだパケット受信部６の機能構成を例示する。

受信した音声パケットは、受信バッファ６１に蓄えられる。受信バッファ６１は、ゆらぎ吸収バッファとも呼ばれる。

音声復号部６２は、受信バッファ６１から１フレーム分の音声符号をフレーム番号順に取り出す。このとき、取り出そうとしたフレームの音声符号が正しく受信されており受信バッファ６１内に格納されている場合は、取り出した音声符号を復号化して音声信号に変換して、スイッチ６４に送る。取り出そうとしたフレームの音声符号がパケットロスによって受信バッファ６１に格納されていない場合には、パケットロス検出部６３によってそのフレームはパケットロスであると判断される。

パケットロス検出部６３は、パケットロスでない場合はスイッチをＡ側にセットするようにスイッチ６４を制御する。これにより、音声復号部６２で復号された音声信号がそのまま出力音声としてパケット受信部６から出力される。一方、パケットロスである場合にはスイッチをＢ側にセットするようにスイッチ６４を制御する。これにより、パケットロスである場合には、後述するパケットロスコンシールメント部６５から出力される信号が、スイッチ６４を通って、パケット受信部６から出力される。

パケットロスコンシールメント部６５には、１フレーム前までの出力音声信号が入力される。入力された予め定められた過去一定時間（フレーム数）の出力音声信号が出力音声バッファ６６に蓄えられる。
出力音声バッファ６６に蓄積された音声信号は、ピッチ探索部６７に送られる。
ピッチ探索部６７は、後述する方法によりピッチを計算して、音響波形補完処理部６８に送る。
音響波形補完処理部６８は、出力音声バッファ６６に蓄えられた直前フレームの再生音声から、ピッチ長の波形又は予め規則によって決められたピッチ長に対応する長さの波形（以下、総称してピッチ長の波形という。）を切り出し、切り出したビッチ長の波形をピッチ長の間隔で並べることによって、ロスしたフレーム部分の音声信号を生成する。

図９に、従来のピッチ探索部６７におけるピッチ探索方法を示す。ここでは、一例として、フレーム長が１０ｍｓであるとする。
従来、ピッチ探索部６７では、パケットロスが発生すると、ロスしたフレームの直前フレームを基準区間とする。この基準区間を、予め定められた探索範囲で順次ずらして行き、そのずらした区間の信号と、基準区間の信号との相関値を順次計算する。相関値を最大にする区間を決定して、その区間を相関最大区間とする。そして、相関最大区間と基準区間とのサンプル位置の差からピッチを求めていた。

このとき、上記予め定められた探索範囲は、基準区間に対して最低何サンプルずれから最大何サンプルずれのように表される。そして、この最低何サンプルずれから最大何サンプルずれの範囲でピッチが決定された。非特許文献１に記載された方法における探索範囲は、４０〜１２０サンプルであり固定されていた。入力音声のサンプリング周波数が８ｋＨｚであるとすると、ピッチ長が４０サンプルであることは２００Ｈｚに対応し、１２０サンプルであることは約６６ｋＨｚに対応する。
ITU-T G.711 Appendix I、［online］、［平成１９年６月８日検索］、インターネット＜http://www.itu.int/rec/T-REC-G.711-199909-I!AppI/en＞

従来のピッチ探索方法では、探索範囲が例えば、基準区間に対して４０〜１２０サンプルずれのように探索を開始する前に予め固定的に決められており、推定されるピッチの精度が必ずしも良くないという問題があった。つまり、探索範囲を狭くしておくと、その探索範囲に対応する周波数帯から外れた周波数帯の信号のピッチを推定することはできず、探索範囲を広くしておくと、目的信号ではない信号のピッチを推定してしまう可能性が高くなるという問題があった。
また、このピッチの推定精度の低さに起因して、パケットロスコンシールメントによる再生音声の音質が必ずしも良くないという問題があった。

本発明は、ピッチを正確に推定するための技術を提供することを目的とする。また、パケットロスコンシールメントによる再生音声の音質を上げることを目的とする。

本発明のピッチ探索範囲決定装置によれば、音響信号のピッチを探索するために用いる、予め定められた基準区間に対するサンプルずれの範囲で表される探索範囲を決定するピッチ探索範囲決定装置において、ピッチを求めようとする部分の音響信号の母音性を表す指標である採択指標を計算する。採択指標と予め定められた採択基準値を比較することにより、ピッチを求めようとする部分の音響信号の母音性が所定の強さよりも強いかどうかを判断する。ピッチを求めようとする部分の音響信号の母音性が所定の強さよりも強いと判断された場合には、探索範囲Ａを探索範囲として決定し、そうでない場合には、探索範囲Ａよりも狭い探索範囲Ｂを探索範囲として決定する。

また、本発明のピッチ探索装置によれば、基準区間を上記決定された探索範囲で順次ずらして行き、そのずらした区間の信号と、基準区間の信号との相関値を順次計算する。計算された相関値を最大にする区間を決定して、その区間を相関最大区間とする。決定された相関最大区間と、上記基準区間とのサンプル位置の差を計算して、その差をピッチとする。
また、本発明のパケット消失補償装置によれば、上記計算されたピッチ長の音響信号を切り出して、パケットが消失した部分に繰り返し並べる。

探索範囲を動的に選択することにより、ピッチの推定精度を上げることができる。また、探索範囲を動的に選択するピッチ探索手法に基づいてパケットロスコンシールメントを行うことにより、パケットロスコンシールメントによる再生音の音質を上げることができる。

［第一実施形態］
図１〜３，５，６を参照して、本発明の第一実施形態によるピッチ探索装置１００について説明をする。図１は、ピッチ探索装置１００の機能構成を例示する図である。図１に例示するように、ピッチ探索装置１００は、例えば、ピッチの探索範囲を決定するピッチ探索範囲決定部１、ピッチの探索範囲に関する情報が格納された探索範囲記憶部２、決定された探索範囲に基づいてピッチを計算するピッチ計算部３を備える。ピッチ探索範囲決定部１は、例えば、ピッチを求めようとする部分の音声信号の母音性を示す指標である採択指標を計算する採択指標計算部１１、採択指標と採択基準値を比較することによりピッチを求めようとする部分の音声信号の母音性の強さを判断する判断部１２、母音性の強さに応じて探索範囲を定める探索範囲決定部１３を備える。判断部１２は、採択基準値を格納した採択基準値記憶部１２１を備えている。

図２は採択指標計算部１１の機能構成を例示する図である。図２に例示するように、採択指標計算部１１は、基準区間の信号と、基準区間を所定の探索範囲でずらした区間の信号との相関値を順次計算する相関値計算部１１１、相関値の最大値を採択指標として出力する相関最大値決定部１１２を備える。

図３はピッチ計算部３の機能構成を例示する図である。図３に例示するように、ピッチ計算部３は、基準区間の信号と、基準区間を所定の探索範囲でずらした区間の信号との相関値を順次計算する相関値計算部３１と、相関値を最大にする相関最大区間を選択する相関最大区間決定部３２と、相関最大区間と基準区間とのサンプル差を計算する差計算部３３とを備える。

図５は、ピッチの計算方法の説明を補助する図であり、図６は、ピッチ探索装置１００の処理の流れを例示するフローチャート図である。

入力される信号は周期的な性質を有する任意の信号でよいが、ここでは、音声信号が入力される場合を例に挙げて説明をする。すなわち、音声信号のピッチを探索する場合を例に挙げて説明をする。この例では、音声信号は、サンプリング周波数８ｋＨｚでサンプリングされ、１０ｍｓの長さのフレームに分割されているものとする。すなわち、８０個のサンプルで１フレームが構成されているものとする。サンプリング周波数、１フレームの長さは任意であり、この例に限られない。なお、音声信号は、ピッチ探索装置１００に直接入力されてもよいし、図示していないバッファに一度格納され、そのバッファからピッチ探索装置１００に読み込まれてもよい。

探索範囲記憶部２には、探索範囲として、第一探索範囲、第二探索範囲の２つの範囲が格納されている。探索範囲とは、基準区間に対するずれｊの範囲のことである。第一探索範囲の基準区間に対するずれｊの範囲は、第一探索範囲のずれの最小値をＪ_１１、ずれの最大値をＪ_１２と表記すると、Ｊ_１１≦ｊ≦Ｊ_１２と記述される。また、第二探索範囲の基準区間に対するずれｊの範囲は、第二探索範囲のずれの最小値をＪ_２１、ずれの最大値をＪ_２２とすると、Ｊ_２１≦ｊ≦Ｊ_２２と記述される。

例えば、Ｊ_１１≦Ｊ_１２≦Ｊ_２１≦Ｊ_２２となるように、第一探索範囲、第二探索範囲を設定する。より具体的には、図５に例示するように、第一探索範囲の範囲を２０≦ｊ≦３９であり、第二探索範囲の範囲を４０≦ｊ≦１２０とする。すなわち、第一探索範囲は基準区間に対して２０〜３９サンプルずれの範囲であり、第二探索範囲は基準区間に対して４０〜１２０サンプルずれの範囲とする。図５に例示した第一探索範囲は、基準区間の最後のサンプルＮ_２の位置を第一探索範囲のずれの範囲（２０≦ｊ≦３９）だけずらすことにより表したものである。同様に、図５に例示した第二探索範囲は、基準区間の最後のサンプルＮ_２の位置を第二探索範囲のずれの範囲（４０≦ｊ≦１２０）だけずらすことにより表したものである。

サンプリング周波数を８ｋＨｚとすると、第一探索範囲は約２００Ｈｚ〜４００Ｈｚに対応しており、第二探索範囲は約６６Ｈｚ〜２００Ｈｚに対応している。すなわち、第一探索範囲は約２００Ｈｚ〜４００Ｈｚのピッチを探索することができる範囲であり、第二探索範囲は約６６Ｈｚ〜２００Ｈｚのピッチを探索することができる範囲となる。

図５に示すように、基準区間の最初のサンプルをＮ_１、最後のサンプルをＮ_２とする。図５においては、ロスフレームの直前フレームを基準区間としているが、基準区間の位置はこれに限られない。ロスフレームより前であって、ロスフレームに近い区間であれば、ロスフレームの直前フレームに基準区間を設けなくてもよい。また、基準区間の候補を複数用意して、その候補の中から定常的な１つの区間を基準区間としてもよい。なお、ピッチ探索装置１００を、パケットロスコンシールメント（パケット消失補償）以外に用いる場合には、ピッチを探索しようとする部分に基準区間を設ければよい。

＜ステップＳ１＞
ピッチ探索範囲決定部１（図１）の採択指標計算部１１は、ピッチを求めようとする部分の音声信号の母音性を表す指標である採択指標を計算して、判断部１２に送る。

採択指標は、例えば、基準区間を第一探索範囲で順次ずらした区間のそれぞれについて、そのずらした区間の信号と基準区間の信号の相関値を順次計算した場合の、その相関値の最大値である。この相関値の最大値は、採択指標の値が大きいほど母音性が強い採択指標の一例である。採択指標の値が大きいほど母音性が高い採択指標の他の例として、基準区間のパワー、基準区間における１サンプルあたりの平均振幅、基準区間における一次自己相関値があり、これらの指標を採択指標として用いてもよい。なお、基準区間のゼロクロッシング（zero crossing）数等の採択指標の値が小さいほど母音性が強い指標を採択指標として用いてもよい。

ここで、基準区間をずらすとは、基準区間自体をずらすことではなく、基準区間と同じ大きさの区間を基準区間に対してずらすことを意味する。

採択指標が、この相関値の最大値である場合には、下記のステップＳ１１〜Ｓ１２の処理を行うことにより計算することができる。

≪ステップＳ１１≫
採択指標計算部１１の相関値計算部１１１（図２）は、入力された音声信号を用いて、基準区間を第一探索範囲で順次ずらして、そのずらした区間の信号と基準区間の信号の相関値を順次計算して、相関最大値決定部１１２に送る（ステップＳ１１）。第一探索範囲は、探索範囲記憶部２から読み込んだ情報を用いて特定される。また、基準区間は、図示していない記憶部から読み込んだ情報を用いて特定される。

音声信号のｎ番目のサンプル、言い換えると、図示していない音声バッファ内の第ｎサンプル時刻における音声信号のサンプル値をｘ（ｎ）とし、基準区間の最初のサンプル（開始点）をＮ_１、最後のサンプル（終了点）をＮ_２とし、第一探索範囲をＪ_１１≦ｊ≦Ｊ_１２とすると、基準区間の音声信号と、基準区間をｊだけずらした区間の音声信号との相関値Ｃ_ｊは以下のように計算することができる。

各ｊについて相関値Ｃ_ｊが計算される。第一探索範囲が２０≦ｊ≦３９である場合には、各ｊ（２０≦ｊ≦３９）ごとに相関値Ｃ_ｊが計算される。

≪ステップＳ１２≫
採択指標計算部１１の相関最大値決定部１１２（図２）は、相関値計算部１１１が計算した相関値の中で最大の相関値を決定し、その相関値の最大値を採択指標として判断部１２に送る（ステップＳ１２）。

すなわち、各ｊ（Ｊ_１１≦ｊ≦Ｊ_１２）ごとに計算された相関値Ｃ_ｊの最大値ｍａｘＣｊ（Ｊ_１１≦ｊ≦Ｊ_１２）を採択指標として選択する。第一探索範囲が２０≦ｊ≦３９である場合には、各ｊ（２０≦ｊ≦３９）ごとに計算された２０個の相関値の中の最大値を採択指標として選択する。

＜ステップＳ２＞
判断部１２（図１）は、採択指標計算部１１が計算した採択指標と、採択基準値記憶部１２１から読み込んだ採択基準値とを比較することにより、ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強いかどうかを判断する。具体的には、採択指標が採択基準値以上であるかどうかを判断する。判断結果は、判断情報として、探索範囲決定部１３に送られる（ステップＳ２）。

採択指標として、採択指標の値が小さいほど母音性が強いことを示す指標を用いた場合には、採択指標が採択基準値以下であるかどうかを判断する。

採択基準値は、ピッチの推定精度が最も高くなるように実験的に定める。例えば、採択指標として上記相関値の最大値を用いるとき、全く同じ形の波形が一定周期で繰り返している場合の相関値を１と定義すると、採択基準値として例えば０．５〜０．７の値を用いることができる。

採択基準として基準区間における一サンプルあたりの平均振幅を用いた場合には、採択基準値は５０〜１００程度となる。

なお、本明細書、特許請求の範囲においては、原則として、「以上」とは、「より上」の概念を包括するものとする。すなわち、ＡはＢ以上（Ａ≧Ｂ）であると言った場合には、ＡがＢ以上（Ａ≧Ｂ）であっても、ＡがＢより大（Ａ＞Ｂ）であってもよいものとする。同様に「以下」とは、「より下」の概念を包括するものとする。

＜ステップＳ３＞
探索範囲決定部１３は、判断部１２から受け取った判断情報が、ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強いことを示すものであれば、第一探索範囲と第二探索範囲とを合わせた範囲を探索範囲とする。判断部１２から受け取った判断情報が、ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強くないことを示すものであれば、第二探索範囲を探索範囲とする。決定された探索範囲についての情報（探索範囲情報）は、ピッチ計算部３に送られる（ステップＳ３）。第一探索範囲と第二探索範囲は、探索範囲記憶部２から読み込んで特定される。

このようにして、ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強い場合には、そうでない場合よりも、広い探索範囲が決定されるようにする。

探索範囲情報とは、例えば、決定された探索範囲の基準区間に対するずれの最小値Ｊ_１、ずれの最大値Ｊ_２の組（Ｊ_１，Ｊ_２）である。例えば、第一探索範囲と第二探索範囲とを合わせた範囲が探索範囲として選択された場合には、（Ｊ_１，Ｊ_２）＝（Ｊ_１１，Ｊ_２２）が探索範囲情報となり、第二探索範囲が探索範囲として選択された場合には、（Ｊ_１，Ｊ_２）＝（Ｊ_２１，Ｊ_２２）が探索範囲情報となる。また、探索範囲情報は、第一探索範囲を探索範囲に含めるかどうかを二値的に表現した情報であってもよい。

＜ステップＳ４＞
ピッチ計算部３（図１、図３）は、ピッチ探索範囲決定部１が決定した探索範囲に基づいて、入力音声信号のピッチを計算して出力する。ステップＳ４は、下記のステップＳ４１〜Ｓ４３から構成される。

≪ステップＳ４１≫
まず、ピッチ計算部３の相関値計算部３１（図３）は、予め定められた基準区間を決定された探索範囲で順次ずらした区間のそれぞれについて、そのずらした区間の信号と、上記決定された基準区間の信号との相関値を順次計算する（ステップＳ４１）。計算された計算値は相関最大区間決定部３２に送られる。

具体的には、音声信号のｎ番目のサンプル、言い換えると第ｎサンプル時刻における音声信号のサンプル値をｘ（ｎ）とし、基準区間の最初のサンプル（開始点）をＮ_１、最後のサンプル（終了点）をＮ_２とし、探索範囲をＪ_１≦ｊ≦Ｊ_２として、下記の式により基準区間の音声信号と、基準区間をｊだけずらした区間の音声信号との相関値Ｃ_ｊを計算する。

この式は、ステップＳ１１における相関値Ｃ_ｊの定義式（１）と同じものである。各ｊ（Ｊ_１≦ｊ≦Ｊ_２）ごとに計算された相関値Ｃ_ｊは、相関最大区間決定部３２に送られる。

≪ステップＳ４２≫
相関最大区間決定部３２は、相関値を最大にする区間を決定して、その区間を相関最大区間とする。相関最大区間についての情報（相関最大区間情報）は、差計算部３３に送られる（ステップＳ４２）。

≪ステップＳ４３≫
差計算部３３は、相関最大区間と、基準区間とのサンプル位置の差を計算してピッチ長を求める。このピッチ長をピッチとして出力する（ステップＳ４３）。相関最大区間は相関最大区間情報から特定され、基準区間は図示していない記憶部から読み込んだ情報を用いて特定される。

なお、変換部３３１が、計算されたピッチ長の逆数を取ることにより、波長ではなく周波数でピッチを表現したものを計算して、これをピッチとして出力してもよい。

このように、ピッチを求めようとする部分の音声信号の母音性を表す採択指標を計算して、所定の採択基準値と比較することにより、ピッチを求めようとする部分の母音具合、波形の類似性を測る。例えば、採択指標が採択基準値以上であれば、ピッチを求めようとする部分が母音区間である可能性が高いと判断して、探索範囲を広げる。一方、ピッチを求めようとする部分が母音区間である可能性が低い場合には、探索範囲を広げない。このように、ピッチを求めようとする部分の母音性が強い場合の探索範囲を、ピッチを求めようとする部分の母音性が弱い場合の探索範囲よりも広くして、探索範囲を動的に変化させることにより、ピッチをより正確に推定することができる。

本発明によるピッチ探索装置、方法等をパケットロスコンシールメントに用いる場合の従来技術の問題点と、本発明によるピッチ探索装置、方法等の有利な効果について述べる。

従来、探索範囲は、基準区間に対して４０〜１２０サンプルずれの範囲で固定されていた。入力音声のサンプリング周波数が８ｋＨｚであるとすると、ピッチ長が４０サンプルであることは２００Ｈｚに対応し、１２０サンプルであることは約６６ｋＨｚに対応する。しかし、実際の音声では、特に女性の場合には、ピッチ長が最短で２０サンプル程度、すなわち、サンプリング周波数が８ｋＨｚである場合には４００Ｈｚ相当になることがある。このため、探索範囲の下限を４０サンプルに制限すると、実際のピッチ長の倍の値がピッチとして使われることになり、ピッチを正しく推定することはできない場合あり、この誤って推定されたピッチをパケットロスコンシールメントに用いると、音質が劣化するという問題があった。

パケットロスコンシールメントにおいて上記の音質劣化を防ぐために、探索範囲を広げて、探索範囲を、基準区間に対して２０〜１２０サンプルずれの範囲とする手法も考えられる。しかし、子音部などでパケットロスが発生した場合には、短い周期の波形が繰り返された音声が生成されることによる不自然な音が生じることがあった。

このように、探索範囲に２０〜３９サンプルずれの範囲を常に含めることは、約２００Ｈｚ〜４００Ｈｚの高い音声についてパケットロスが生じた場合には再生音声の音質を上げることができるというメリットがある一方で、子音部でパケットロスが発生した場合には不自然な音が生じるというデメリットがあり、一長一短であった。
しかし、上述のように、ピッチを求めようとする部分の母音性が強い場合にのみ、探索範囲に２０〜３９サンプルずれの範囲を含めることにより、上記の問題を解決することができる。

［第二実施形態］
第二実施形態のピッチ探索装置１０１は、採択指標として異なる複数の採択指標を用いており、これらの採択指標と対応する採択基準値とを採択指標ごとに比較した結果に基づいて探索範囲を求める点で第一実施形態のピッチ探索装置１００と異なる。他の点については第一実施形態のピッチ探索装置１００と同様である。以下では、第一実施形態と異なる部分について説明をする。同じ部分については同じ符号を付けて重複説明を省略する。

図４に第二実施形態によるピッチ探索範囲決定部１’の機能構成を例示する。ピッチ探索範囲決定部１’は、異なる複数の採択指標を計算する採択指標計算部１１’と、ピッチを求めようとする音声信号部分の母音性の強さを判断する判断部１２’と、母音性の強さに応じて探索範囲を定める探索範囲決定部１３を備える。判断部１２’は、異なる複数の採択指標にそれぞれ対応する予め定められた複数の採択基準値が格納されている採択基準値記憶部１２４と、異なる複数の採択指標と対応する採択基準値との比較をそれぞれ行う第一判断部１２２と、各採択指標ごとの比較結果に基づいて、ピッチを求めようとする音声信号の母音性の強さを最終的に決定する第二判断部１２３と、を備える。

ピッチ探索範囲決定部１の採択指標計算部１１’（図４）は、予め定めた、異なる複数の採択指標を計算して、判断部１２’に送る。例えば、上記した相関値の最大値と、基準区間のパワーをそれぞれ計算して判断部１２’に送る。相関値の最大値の求め方は第一実施形態と同様であるため説明を省略する。

まず、第一実施形態の採択指標計算部１１と同様に１つの採択指標を計算する（ステップＳ１，図１）。その後、すべての採択指標について計算したかどうかを判定する（ステップＳ１’）。すべての採択指標については計算していない場合には、ステップＳ１に戻り他の採択指標を計算する。このステップＳ１，Ｓ１’の処理を繰り返すことにより、すべての採択指標を計算する。

判断部１２’の第一判断部１２２は、採択指標計算部１１’が計算した各採択指標と、採択基準値記憶部１２１から読み込んだ対応する採択基準値とをそれぞれ比較することにより、異なる複数の採択指標の観点から、各採択指標ごとに、母音性が所定の強さよりも強いかどうかを判断する。その比較結果は、比較情報として第二判断部１２３に送られる。

例えば、第一判断部１２２は、相関値の最大値とその相関値の最大値に対応する採択基準値とを比較するとともに、基準区間のパワーとその基準区間のパワーに対応する採択基準値とを比較する。これにより、相関値の最大値と基準区間のパワーの両採択指標の観点から、ピッチを求めようとする音声信号の母音性の強さを測る。

まず、第一実施形態の判断部１２と同様に、ある採択指標とその採択指標に対応する採択基準値とを比較する（ステップＳ２）。その後、すべての採択指標について対応する採択基準値との比較を行ったかどうかを判定する（ステップＳ２’，図６）。すべての採択指標については比較を行っていない場合には、ステップＳ２に戻り他の採択指標について比較を行う。このステップＳ２，Ｓ２’の処理を繰り返すことにより、すべての採択指標について対応する採択基準値との比較を行う。

判断部１２’の第二判断部１２３は、各比較情報を考慮して、ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強いかどうかを最終的に判断して、その判断結果を判断情報として探索範囲決定部１３に送る。

例えば、すべての採択指標において、母音性が所定の強さよりも強いと判断とされた場合には、上記ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強いと最終的に判断する。何れか１つの採択指標において、母音性が所定の強さよりも弱いと判断された場合には、上記ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強くないと最終的に判断する。

探索範囲決定部１３は、第二判断部１２３のピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強いかどうかの最終的な判断に基づいて、第一実施形態と同様にして探索範囲を決定する。

このように、異なる複数の採択指標の観点から判定することにより、ピッチを求めようとする部分の音声信号の母音性の強さを精度良く判定することができる。これにより、ピッチの推定精度も上がり、パケットロスコンシールメントに用いる場合にはその再生音声の音質も上がる。

［変形例等］
上記実施形態では、第一探索範囲を２０≦ｊ≦３９、第二探索範囲の範囲を４０≦ｊ≦１２０として、ピッチを探索しようとする部分の音声信号の母音性の強さによって、対応する周波数が高い第一探索範囲を探索範囲に含めるかどうかを決定した。しかし、例えば、第一探索範囲を１２１≦ｊ≦１６０、第二探索範囲の範囲を４０≦ｊ≦１２０として、ピッチを探索しようとする部分の音声信号の母音性が強ければ、第一探索範囲を探索範囲に含め、そうでなければ第一探索範囲を探索範囲に含めないようにしてもよい。

また、第一の探索範囲を２０≦ｊ≦３９，１２１≦ｊ≦１６０として第一の探索範囲を２つ設け、第二の探索範囲を４０≦ｊ≦１２０として、ピッチを探索しようとする部分の音声信号の母音性が強ければ、２つの第一探索範囲を探索範囲に含め、そうでなければ２つの第一探索範囲を探索範囲に含めないようにしてもよい。

上記実施形態では、所定の第一探索範囲と、その第一探索範囲に隣接する所定の第二探索範囲とを予め用意しておき。ピッチを求めようとする部分の音声信号の母音性が強い場合には、第一探索範囲と第二探索範囲を合わせた範囲を探索範囲とし、そうでない場合には、第二探索範囲を探索範囲とすることにより、ピッチを求めようとする部分の音声信号の母音性が強い場合の探索範囲をそうでない場合の探索範囲よりも広くした。しかし、探索範囲の決定の仕方はこれに限られない。例えば、探索範囲Ａと、この探索範囲Ａよりも狭い探索範囲Ｂを予め用意しておき、ピッチを求めようとする部分の音声信号の母音性が強い場合には、探索範囲Ａを探索範囲とし、そうでない場合には、探索範囲Ｂを探索範囲としてもよい。

上記実施形態では、式（１）によって相関値Ｃ_ｊを求めたが、相関値Ｃ_ｊに代えて下式によって定まる相関値Ｃ^１ _ｊ，Ｃ^２ _ｊ，Ｃ^３ _ｊをそれぞれ用いてもよい。

採択基準値は、フレームごとに異なる値、すなわち動的閾値を用いてもよい。図１，図４に破線で示す動的閾値計算部１４が、過去の一定時間におけるパワーや相関値を観測して、予め定められた規則によってそれらの観測されたパワーや相関値から採択基準値を計算する。そして、計算された採択基準値で、採択基準値記憶部１２１に格納された採択基準値を更新する。このように、採択基準値を時々刻々と動的に更新することにより、ピッチを探索しようとする部分の音声信号の母音性の強さをより正確に特定することができ、これによりピッチの推定精度が上がり、パケットロスコンシールメントに用いる場合にはその再生音声の音質も上がる。

本発明によるピッチ探索装置、方法等をパケット消失補償装置に用いるためには、図８に示したパケットロスコンシールメント部６５のピッチ探索部６７の代わりに、図１等に例示したピッチ探索装置１００，１０１を用いればよい。この場合、ピッチ探索部６７の代わりにピッチ探索装置１００，１０１を用いたパケットロスコンシールメント部６５が、パケット消失補償装置となる。ピッチ探索装置１００，１０１には出力音声バッファ６６から読み込んだ音声信号が入力され、ピッチ探索装置１００，１０１が計算したピッチは音響波形補完処理部６８に出力される。ピッチ探索部６７の代わりにピッチ探索装置１００，１０１を用いた場合の、パケットロスコンシールメント部６５（パケット消失補償装置）及びパケット受信部６の機能構成・処理は、背景技術及び図１に記載したものと同様であるため説明を省略する。

上記実施形態の説明では、音声信号のピッチを探索する場合を例に挙げて説明をしたが、本発明によるピッチ探索範囲決定装置、ピッチ探索装置、パケット消失補償装置、これらの方法、プログラム及びその記録媒体は、周期的な成分を含む任意の信号に適用することができる。すなわち、音声信号、楽音信号等を含む音響信号を本発明に適用してもよい。

上述の構成（ピッチ探索範囲決定装置、ピッチ探索装置、パケット消失補償装置）をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ
−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

本発明の第一実施形態によるピッチ探索装置１００の機能構成を例示する図。採択指標計算部１１の機能構成を例示する図。ピッチ計算部３の機能構成を例示する図。本発明の第二実施形態によるピッチ探索装置１０１のピッチ探索範囲決定部１機能構成を例示する図。本発明によるピッチの計算方法の説明を補助する図。ピッチ探索装置１００，１０１の処理の流れを例示するフローチャート図。音声通信システム７の機能構成を例示する図。パケット受信部６の機能構成を例示する図。背景技術によるピッチの計算方法の説明を補助する図。

符号の説明

１ピッチ探索範囲決定部
１’ ピッチ探索範囲決定部
２探索範囲記憶部
３ピッチ計算部
４パケット送信部
５パケット通信網
６パケット受信部
７音声通信システム
１１採択指標計算部
１２判断部
１３探索範囲決定部
１４動的閾値計算部
３１相関値計算部
３２相関最大区間決定部
３３差計算部
６１受信バッファ
６２音声復号部
６３パケットロス検出部
６４スイッチ
６５パケットロスコンシールメント部
６６出力音声バッファ
６７ピッチ探索部
６８音響波形補完処理部
１００ピッチ探索装置
１０１ピッチ探索装置
１１１相関値計算部
１１２相関最大値決定部
１２１採択基準値記憶部
１２２第一判断部
１２３第二判断部
１２４採択基準値記憶部
３３１変換部

Claims

音響信号のピッチを探索するために用いる、予め定められた基準区間に対するサンプルずれの範囲で表される探索範囲を決定するピッチ探索範囲決定装置において、
ピッチを求めようとする部分の音響信号の母音性を表す指標である採択指標を計算する採択指標計算手段と、
上記計算された採択指標と予め定められた採択基準値を比較することにより、上記ピッチを求めようとする部分の音響信号の母音性が所定の強さよりも強いかどうかを判断する判断手段と、
上記ピッチを求めようとする部分の音響信号の母音性が所定の強さよりも強いと判断された場合には、探索範囲Ａを探索範囲として決定し、そうでない場合には、探索範囲Ｂを探索範囲として決定する探索範囲決定手段と、
を備え、
探索範囲Ａは、探索範囲Ｂよりも広い、
ことを特徴とするピッチ探索範囲決定装置。
請求項１に記載のピッチ探索範囲決定装置において、
上記探索範囲Ａは、所定の第一探索範囲と、その第一探索範囲に隣接する所定の第二探索範囲とを合わせた範囲であり、
上記探索範囲Ｂは、上記第二探索範囲である、
ことを特徴とするピッチ探索範囲決定装置。
請求項２に記載のピッチ探索範囲決定装置において、
上記第一探索範囲は、上記基準区間からＪ_１１〜Ｊ_１２サンプルずれの範囲であり、
上記第二探索範囲は、上記基準区間からＪ_２１〜Ｊ_２２サンプルずれの範囲であり、
Ｊ_１１＜Ｊ_１２＜Ｊ_２１＜Ｊ_２２である、
ことを特徴とするピッチ探索範囲決定装置。
請求項２又は３に記載のピッチ探索範囲決定装置において、
上記採択指標は、上記基準区間を上記第一探索範囲で順次ずらした区間のそれぞれについて計算した、そのずらした区間の信号と上記基準区間の信号との相関値の最大値である、
ことを特徴とするピッチ探索範囲決定装置。
請求項１から３の何れかに記載のピッチ探索範囲決定装置において、
上記採択指標は、異なる複数の採択指標であり、
上記採択基準値は、上記異なる複数の採択指標にそれぞれ対応する予め定められた複数の採択基準値であり、
上記判断手段は、
上記異なる複数の採択指標を対応する採択指標とそれぞれ比較することにより、各採択指標ごとに、母音性が所定の強さよりも強いかどうかを判断する第一判断手段と、
すべての採択指標において、母音性が所定の強さよりも強いと判断とされた場合には、上記ピッチを求めようとする部分の音響信号の母音性が所定の強さよりも強いと最終的に判断する第二判断手段と、
である、
ことを特徴とするピッチ探索範囲決定装置。
請求項１から５の何れかに記載のピッチ探索範囲決定装置において、
さらに、上記採択基準値を動的に定める動的閾値計算手段を備える、
ことを特徴とするピッチ探索範囲決定装置。
請求項１から６の何れかに記載のピッチ探索範囲決定装置と、
上記基準区間を上記決定された探索範囲で順次ずらした区間のそれぞれについて、そのずらした区間の信号と、上記基準区間の信号との相関値を順次計算する相関値計算手段と、
上記計算された相関値を最大にする区間を決定して、その区間を相関最大区間とする相関最大区間決定手段と、
上記決定された相関最大区間と、上記基準区間とのサンプル位置の差を計算して、その差をピッチとするサンプル差計算手段と、
を備えるピッチ探索装置。
請求項７に記載のピッチ探索装置を備え、
上記基準区間は、パケットが消失した部分に近い音響信号の区間であり、
さらに、上記計算されたピッチ長に対応する音響信号を切り出して、パケットが消失した部分に繰り返し並べる音響波形補完処理手段を備える、
ことを特徴とするパケット消失補償装置。
音響信号のピッチを探索するために用いる、予め定められた基準区間に対するサンプルずれの範囲で表される探索範囲を決定するピッチ探索範囲決定方法において、
採択指標計算手段が、ピッチを求めようとする部分の音響信号の母音性を表す指標である採択指標を計算する採択指標計算ステップと、
判断手段が、上記計算された採択指標と予め定められた採択基準値を比較することにより、上記ピッチを求めようとする部分の音響信号の母音性が所定の強さよりも強いかどうかを判断する判断ステップと、
探索範囲決定手段が、上記ピッチを求めようとする部分の音響信号の母音性が所定の強さよりも強いと判断された場合には、探索範囲Ａを探索範囲として決定し、そうでない場合には、探索範囲Ｂを探索範囲として決定する探索範囲決定ステップと、
を有し、
探索範囲Ａは、探索範囲Ｂよりも広い、
ことを特徴とするピッチ探索範囲決定方法。
請求項９に記載のピッチ探索範囲決定方法の各ステップと、
相関値計算手段が、上記基準区間を上記決定された探索範囲で順次ずらした区間のそれぞれについて、そのずらした区間の信号と、上記基準区間の信号との相関値を順次計算する相関値計算ステップと、
相関最大区間決定手段と、上記計算された相関値を最大にする区間を決定して、その区間を相関最大区間とする相関最大区間決定ステップと、
サンプル差計算手段と、上記決定された相関最大区間と、上記基準区間とのサンプル位置の差を計算して、その差をピッチとするサンプル差計算ステップと、
を有するピッチ探索方法。
請求項１０に記載のピッチ探索方法の各ステップを有し、
上記基準区間は、パケットが消失した部分に近い音響信号の区間であり、
さらに、音響波形補完処理手段が、上記計算されたピッチ長に対応する音響信号を切り出して、パケットが消失した部分に繰り返し並べる音響波形補完処理ステップを有する、
ことを特徴とするパケット消失補償方法。
請求項１から請求項６の何れかに記載のピッチ探索範囲決定装置の各手段としてコンピュータを機能させるためのピッチ探索範囲決定プログラム。
請求項７に記載のピッチ探索装置の各手段としてコンピュータを機能させるためのピッチ探索プログラム。
請求項８に記載のパケット消失補償装置の各手段としてコンピュータを機能させるためのパケット消失補償プログラム。
請求項１２に記載のピッチ探索範囲決定プログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項１３に記載のピッチ探索プログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項１４に記載のパケット消失補償プログラムを記録したコンピュータ読み取り可能な記録媒体。