JP7055824B2

JP7055824B2 - 遅延推定方法および遅延推定装置

Info

Publication number: JP7055824B2
Application number: JP2019572656A
Authority: JP
Inventors: エヤル・シュロモット; ▲海▼▲ティン▼ 李; 磊苗
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-06-29
Filing date: 2018-06-11
Publication date: 2022-04-18
Anticipated expiration: 2038-06-11
Also published as: TW201905900A; KR20230074603A; ES2893758T3; RU2759716C2; SG11201913584TA; BR112019027938A2; US11950079B2; RU2020102185A; EP3989220B1; AU2018295168B2; KR20200017518A; JP2020525852A; CA3068655C; EP3989220A1; ES2944908T3; KR20240042232A; AU2023286019A1; TWI666630B; EP3633674B1; US20240223982A1

Description

本出願は、オーディオ処理分野に関し、特に、遅延推定方法および遅延推定装置に関する。

モノラル信号と比較して、指向性と広がりがあるおかげで、マルチチャネル信号（ステレオ信号など）は人々に好まれている。マルチチャネル信号は少なくとも2つのモノラル信号を含む。例えば、ステレオ信号は、2つのモノラル信号、すなわち、左チャネル信号と右チャネル信号とを含む。ステレオ信号を符号化することは、ステレオ信号の左チャネル信号と右チャネル信号とに対して時間領域ダウンミキシング処理を行って2つの信号を取得し、次いで取得された2つの信号を符号化することであり得る。2つの信号はプライマリチャネル信号とセカンダリチャネル信号である。プライマリチャネル信号は、ステレオ信号の2つのモノラル信号間の相関に関する情報を表すために使用される。セカンダリチャネル信号は、ステレオ信号の2つのモノラル信号間の差に関する情報を表すために使用される。

2つのモノラル信号間の遅延がより小さいことは、プライマリチャネル信号がより強く、ステレオ信号のコーディング効率がより高く、符号化および復号の品質がより高いことを指示する。これに対して、2つのモノラル信号間の遅延がより大きいことは、セカンダリチャネル信号がより強く、ステレオ信号のコーディング効率がより低く、符号化および復号の品質がより低いことを指示する。符号化および復号によってステレオ信号のより良い効果を得られるようにするために、ステレオ信号の2つのモノラル信号間の遅延、すなわち、チャネル間時間差（ITD、Inter－channel Time Difference）が推定される必要がある。2つのモノラル信号は、推定チャネル間時間差に基づいて行われる遅延整合処理を行うことによって整合され、これによりプライマリチャネル信号が強化される。

典型的な時間領域遅延推定方法は、平滑化された相互相関係数を得るために、少なくとも1つの過去のフレームの相互相関係数に基づいて現在のフレームのステレオ信号の相互相関係数に対して平滑化処理を行うステップと、最大値を求めて平滑化された相互相関係数を探索するステップと、最大値に対応するインデックス値を現在のフレームのチャネル間時間差として決定するステップと、を含む。現在のフレームの平滑化係数が、入力信号のエネルギーまたは別の特徴に基づく適応調整によって得られた値である。相互相関係数は、異なるチャネル間時間差に対応する遅延が調整された後の2つのモノラル信号間の相互相関の度合いを指示するために使用される。相互相関係数は相互相関関数とも呼ばれ得る。

現在のフレームのすべての相互相関値を平滑化するために、オーディオコーディング装置に均一な標準（現在のフレームの平滑化係数）が使用される。これにより、ある相互相関値が過度に平滑化され、かつ／または別のある相互相関値が不十分に平滑化される可能性がある。

オーディオコーディング装置によって現在のフレームの相互相関係数の相互相関値に対して行われた過度な平滑化または不十分な平滑化が原因でオーディオコーディング装置によって推定されたチャネル間時間差が不正確になるという問題を解決するために、本出願の実施形態は、遅延推定方法および遅延推定装置を提供する。

第1の態様によれば、遅延推定方法が提供される。本方法は、現在のフレームのマルチチャネル信号の相互相関係数を決定するステップと、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて現在のフレームの遅延トラック推定値を決定するステップと、現在のフレームの適応窓関数を決定するステップと、重み付き相互相関係数を得るために、現在のフレームの遅延トラック推定値と現在のフレームの適応窓関数とに基づいて相互相関係数の重み付けを行うステップと、重み付き相互相関係数に基づいて現在のフレームのチャネル間時間差を決定するステップと、を含む。

現在のフレームのチャネル間時間差は、現在のフレームの遅延トラック推定値を計算することによって予測され、現在のフレームの遅延トラック推定値と現在のフレームの適応窓関数とに基づいて相互相関係数に対して重み付けが行われる。適応窓関数は、二乗余弦のような窓であり、中間部分を相対的に拡大し、境界部分を抑制する機能を有する。したがって、現在のフレームの遅延トラック推定値と現在のフレームの適応窓関数とに基づいて相互相関係数に対して重み付けが行われるとき、インデックス値が遅延トラック推定値により近い場合、重み係数はより大きく、第1の相互相関係数が過度に平滑化されるという問題が回避され、インデックス値が遅延トラック推定値からより遠い場合、重み係数はより小さく、第2の相互相関係数が不十分に平滑化されるという問題が回避される。このようにして、適応窓関数は、相互相関係数における、遅延トラック推定値から離れたインデックス値に対応する相互相関値を適応的に抑制し、それによって、重み付き相互相関係数におけるチャネル間時間差決定の正確さが高まる。第1の相互相関係数は、相互相関係数における、遅延トラック推定値に近いインデックス値に対応する相互相関値であり、第2の相互相関係数は、相互相関係数における、遅延トラック推定値から離れたインデックス値に対応する相互相関値である。

第1の態様に関連して、第1の態様の第1の実施態様において、現在のフレームの適応窓関数を決定するステップは、第（n－k）のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて現在のフレームの適応窓関数を決定するステップであって、0＜k＜nであり、現在のフレームが第nのフレームである、ステップ、を含む。

現在のフレームの適応窓関数は、第（n－k）のフレームの平滑化されたチャネル間時間差の推定偏差を使用して決定されるので、適応窓関数の形状が平滑化されたチャネル間時間差の推定偏差に基づいて調整され、それによって、現在のフレームの遅延トラック推定の誤差が原因で生成される適応窓関数が不正確になるという問題が回避され、適応窓関数生成の正確さが高まる。

第1の態様または第1の態様の第1の実施態様に関連して、第1の態様の第2の実施態様において、現在のフレームの適応窓関数を決定するステップは、現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて第1の二乗余弦の幅パラメータを計算するステップと、現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて第1の二乗余弦の高さバイアスを計算するステップと、第1の二乗余弦の幅パラメータと第1の二乗余弦の高さバイアスとに基づいて現在のフレームの適応窓関数を決定するステップと、を含む。

現在のフレームの前のフレームのマルチチャネル信号は、現在のフレームのマルチチャネル信号との強い相関を有する。したがって、現在のフレームの適応窓関数は、現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて決定され、それによって、現在のフレームの適応窓関数計算の正確さが高まる。

第1の態様の第2の実施態様に関連して、第1の態様の第3の実施態様において、第1の二乗余弦の幅パラメータを計算するための式は以下のとおりである：
win＿width1＝TRUNC（width＿par1＊（A＊L＿NCSHIFT＿DS＋1））、および
width＿par1＝a＿width1＊smooth＿dist＿reg＋b＿width1、式中、
a＿width1＝（xh＿width1－xl＿width1）／（yh＿dist1－yl＿dist1）、
b＿width1＝xh＿width1－a＿width1＊yh＿dist1。

win＿width1は、第1の二乗余弦の幅パラメータであり、TRUNCは、値を丸めることを指示し、L＿NCSHIFT＿DSは、チャネル間時間差の絶対値の最大値であり、Aは、既定の定数であり、Aは、4以上であり、xh＿width1は、第1の二乗余弦の幅パラメータの上限値であり、xl＿width1は、第1の二乗余弦の幅パラメータの下限値であり、yh＿dist1は、第1の二乗余弦の幅パラメータの上限値に対応する平滑化されたチャネル間時間差の推定偏差であり、yl＿dist1は、第1の二乗余弦の幅パラメータの下限値に対応する平滑化されたチャネル間時間差の推定偏差であり、smooth＿dist＿regは、現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差であり、xh＿width1、xl＿width1、yh＿dist1、およびyl＿dist1はすべて正の数である。

第1の態様の第3の実施態様に関連して、第1の態様の第4の実施態様において、
width＿par1＝min（width＿par1，xh＿width1）、および
width＿par1＝max（width＿par1，xl＿width1）であり、式中、
minは、最小値を取ることを表し、maxは、最大値を取ることを表す。

width＿par1の値が二乗余弦の幅パラメータの正常な値範囲を超えないようにし、それによって計算される適応窓関数の正確さが保証されるように、width＿par1が第1の二乗余弦の幅パラメータの上限値より大きい場合、width＿par1は、第1の二乗余弦の幅パラメータの上限値になるように制限され、またはwidth＿par1が第1の二乗余弦の幅パラメータの下限値より小さい場合、width＿par1は、第1の二乗余弦の幅パラメータの下限値になるように制限される。

第1の態様の第2の実施態様から第4の実施態様のうちのいずれか1つに関連して、第1の態様の第5の実施態様において、第1の二乗余弦の高さバイアスを計算するための式は以下のとおりである：
win＿bias1＝a＿bias1＊smooth＿dist＿reg＋b＿bias1、式中、
a＿bias1＝（xh＿bias1－xl＿bias1）／（yh＿dist2－yl＿dist2）、および
b＿bias1＝xh＿bias1－a＿bias1＊yh＿dist2。

win＿bias1は、第1の二乗余弦の高さバイアスであり、xh＿bias1は、第1の二乗余弦の高さバイアスの上限値であり、xl＿bias1は、第1の二乗余弦の高さバイアスの下限値であり、yh＿dist2は、第1の二乗余弦の高さバイアスの上限値に対応する平滑化されたチャネル間時間差の推定偏差であり、yl＿dist2は、第1の二乗余弦の高さバイアスの下限値に対応する平滑化されたチャネル間時間差の推定偏差であり、smooth＿dist＿regは、現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差であり、yh＿dist2、yl＿dist2、xh＿bias1、およびxl＿bias1はすべて正の数である。

第1の態様の第5の実施態様に関連して、第1の態様の第6の実施態様において、
win＿bias1＝min（win＿bias1，xh＿bias1）、および
win＿bias1＝max（win＿bias1，xl＿bias1）であり、式中、
minは、最小値を取ることを表し、maxは、最大値を取ることを表す。

win＿bias1の値が二乗余弦の高さバイアスの正常な値範囲を超えないようにし、それによって計算される適応窓関数の正確さが保証されるように、win＿bias1が第1の二乗余弦の高さバイアスの上限値より大きい場合、win＿bias1は、第1の二乗余弦の高さバイアスの上限値になるように制限され、またはwin＿bias1が第1の二乗余弦の高さバイアスの下限値より小さい場合、win＿bias1は、第1の二乗余弦の高さバイアスの下限値になるように制限される。

第1の態様の第2の実施態様から第5の実施態様のうちのいずれか1つに関連して、第1の態様の第7の実施態様において、
yh＿dist2＝yh＿dist1、およびyl＿dist2＝yl＿dist1である。

第1の態様、および第1の態様の第1の実施態様から第7の実施態様のいずれか1つに関連して、第1の態様の第8の実施態様において、
0≦k≦TRUNC（A＊L＿NCSHIFT＿DS／2）－2＊win＿width1－1の場合、
loc＿weight＿win（k）＝win＿bias1、
TRUNC（A＊L＿NCSHIFT＿DS／2）－2＊win＿width1≦k≦TRUNC（A＊L＿NCSHIFT＿DS／2）＋2＊win＿width1－1の場合、
loc＿weight＿win（k）＝0．5＊（1＋win＿bias1）＋0．5＊（1－win＿bias1）＊cos（π＊（k－TRUNC（A＊L＿NCSHIFT＿DS／2））／（2＊win＿width1））、および
TRUNC（A＊L＿NCSHIFT＿DS／2）＋2＊win＿width1≦k≦A＊L＿NCSHIFT＿DSの場合、
loc＿weight＿win（k）＝win＿bias1。

loc＿weight＿win（k）は、適応窓関数を表すために使用され、k＝0，1，．．．，A＊L＿NCSHIFT＿DSであり、Aは、既定の定数であり、4以上であり、L＿NCSHIFT＿DSは、チャネル間時間差の絶対値の最大値であり、win＿width1は、第1の二乗余弦の幅パラメータであり、win＿bias1は、第1の二乗余弦の高さバイアスである。

第1の態様の第1の実施態様から第8の実施態様のうちのいずれか1つに関連して、第1の態様の第9の実施態様において、重み付き相互相関係数に基づいて現在のフレームのチャネル間時間差を決定するステップの後に、本方法は、現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差と、現在のフレームの遅延トラック推定値と、現在のフレームのチャネル間時間差とに基づいて現在のフレームの平滑化されたチャネル間時間差の推定偏差を計算するステップ、をさらに含む。

現在のフレームのチャネル間時間差が決定された後、現在のフレームの平滑化されたチャネル間時間差の推定偏差が計算される。次のフレームのチャネル間時間差が決定されるべきである場合、次のフレームのチャネル間時間差決定の正確さを保証するように、現在のフレームの平滑化されたチャネル間時間差の推定偏差を使用することができる。

第1の態様の第9の実施態様に関連して、第1の態様の第10の実施態様において、現在のフレームの平滑化されたチャネル間時間差の推定偏差は以下の計算式：
smooth＿dist＿reg＿update＝（1－γ）＊smooth＿dist＿reg＋γ＊dist＿reg’、および
dist＿reg’＝｜reg＿prv＿corr－cur＿itd｜
を使用した計算によって得られる。

smooth＿dist＿reg＿updateは、現在のフレームの平滑化されたチャネル間時間差の推定偏差であり、γは、第1の平滑化係数であり、0＜γ＜1であり、smooth＿dist＿regは、現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差であり、reg＿prv＿corrは、現在のフレームの遅延トラック推定値であり、cur＿itdは、現在のフレームのチャネル間時間差である。

第1の態様に関連して、第1の態様の第11の実施態様において、現在のフレームのチャネル間時間差の初期値が相互相関係数に基づいて決定され、現在のフレームのチャネル間時間差の推定偏差は、現在のフレームの遅延トラック推定値と現在のフレームのチャネル間時間差とに基づいて計算され、現在のフレームの適応窓関数は、現在のフレームのチャネル間時間差の推定偏差に基づいて決定される。

現在のフレームの適応窓関数は、現在のフレームのチャネル間時間差の初期値に基づいて決定されるので、現在のフレームの適応窓関数を、第nの過去のフレームの平滑化されたチャネル間時間差の推定偏差をバッファする必要なく得ることができ、それによって記憶リソースが節約される。

第1の態様の第11の実施態様に関連して、第1の態様の第12の実施態様において、現在のフレームのチャネル間時間差の推定偏差は以下の計算式：
dist＿reg＝｜reg＿prv＿corr－cur＿itd＿init｜
を使用した計算によって得られる。

dist＿regは、現在のフレームのチャネル間時間差の推定偏差であり、reg＿prv＿corrは、現在のフレームの遅延トラック推定値であり、cur＿itd＿initは、現在のフレームのチャネル間時間差の初期値である。

第1の態様の第11の実施態様または第12の実施態様に関連して、第1の態様の第13の実施態様において、第2の二乗余弦の幅パラメータが、現在のフレームのチャネル間時間差の推定偏差に基づいて計算され、第2の二乗余弦の高さバイアスが、現在のフレームのチャネル間時間差の推定偏差に基づいて計算され、現在のフレームの適応窓関数は、第2の二乗余弦の幅パラメータと第2の二乗余弦の高さバイアスとに基づいて決定される。

任意選択で、第2の二乗余弦の幅パラメータを計算するための式は以下のとおりである：
win＿width2＝TRUNC（width＿par2＊（A＊L＿NCSHIFT＿DS＋1））、および
width＿par2＝a＿width2＊dist＿reg＋b＿width2、式中、
a＿width2＝（xh＿width2－xl＿width2）／（yh＿dist3－yl＿dist3）、および
b＿width2＝xh＿width2－a＿width2＊yh＿dist3。

win＿width2は、第2の二乗余弦の幅パラメータであり、TRUNCは、値を丸めることを指示し、L＿NCSHIFT＿DSは、チャネル間時間差の絶対値の最大値であり、Aは、既定の定数であり、Aは、4以上であり、A＊L＿NCSHIFT＿DS＋1は、ゼロより大きい正の整数であり、xh＿width2は、第2の二乗余弦の幅パラメータの上限値であり、xl＿width2は、第2の二乗余弦の幅パラメータの下限値であり、yh＿dist3は、第2の二乗余弦の幅パラメータの上限値に対応するチャネル間時間差の推定偏差であり、yl＿dist3は、第2の二乗余弦の幅パラメータの下限値に対応するチャネル間時間差の推定偏差であり、dist＿regは、チャネル間時間差の推定偏差であり、xh＿width2、xl＿width2、yh＿dist3、およびyl＿dist3はすべて正の数である。

任意選択で、第2の二乗余弦の幅パラメータは、
width＿par2＝min（width＿par2，xh＿width2）、および
width＿par2＝max（width＿par2，xl＿width2）を満たし、式中、
minは、最小値を取ることを表し、maxは、最大値を取ることを表す。

width＿par2の値が二乗余弦の幅パラメータの正常な値範囲を超えないようにし、それによって計算される適応窓関数の正確さが保証されるように、width＿par2が第2の二乗余弦の幅パラメータの上限値より大きい場合、width＿par2は、第2の二乗余弦の幅パラメータの上限値になるように制限され、またはwidth＿par2が第2の二乗余弦の幅パラメータの下限値より小さい場合、width＿par2は、第2の二乗余弦の幅パラメータの下限値になるように制限される。

任意選択で、第2の二乗余弦の高さバイアスを計算するための式は以下のとおりである：
win＿bias2＝a＿bias2＊dist＿reg＋b＿bias2、式中、
a＿bias2＝（xh＿bias2－xl＿bias2）／（yh＿dist4－yl＿dist4）、および
b＿bias2＝xh＿bias2－a＿bias2＊yh＿dist4。

win＿bias2は、第2の二乗余弦の高さバイアスであり、xh＿bias2は、第2の二乗余弦の高さバイアスの上限値であり、xl＿bias2は、第2の二乗余弦の高さバイアスの下限値であり、yh＿dist4は、第2の二乗余弦の高さバイアスの上限値に対応するチャネル間時間差の推定偏差であり、yl＿dist4は、第2の二乗余弦の高さバイアスの下限値に対応するチャネル間時間差の推定偏差であり、dist＿regは、チャネル間時間差の推定偏差であり、yh＿dist4、yl＿dist4、xh＿bias2、およびxl＿bias2はすべて正の数である。

任意選択で、第2の二乗余弦の高さバイアスは、
win＿bias2＝min（win＿bias2，xh＿bias2）、および
win＿bias2＝max（win＿bias2，xl＿bias2）を満たし、式中、
minは、最小値を取ることを表し、maxは、最大値を取ることを表す。

win＿bias2の値が二乗余弦の高さバイアスの正常な値範囲を超えないようにし、それによって計算される適応窓関数の正確さが保証されるように、win＿bias2が第2の二乗余弦の高さバイアスの上限値より大きい場合、win＿bias2は、第2の二乗余弦の高さバイアスの上限値になるように制限され、またはwin＿bias2が第2の二乗余弦の高さバイアスの下限値より小さい場合、win＿bias2は、第2の二乗余弦の高さバイアスの下限値になるように制限される。

任意選択で、yh＿dist4＝yh＿dist3、およびyl＿dist4＝yl＿dist3である。

任意選択で、適応窓関数は以下の式を使用して表される：
0≦k≦TRUNC（A＊L＿NCSHIFT＿DS／2）－2＊win＿width2－1の場合、
loc＿weight＿win（k）＝win＿bias2、
TRUNC（A＊L＿NCSHIFT＿DS／2）－2＊win＿width2≦k≦TRUNC（A＊L＿NCSHIFT＿DS／2）＋2＊win＿width2－1の場合、
loc＿weight＿win（k）＝0．5＊（1＋win＿bias2）＋0．5＊（1－win＿bias2）＊cos（π＊（k－TRUNC（A＊L＿NCSHIFT＿DS／2））／（2＊win＿width2））、および
TRUNC（A＊L＿NCSHIFT＿DS／2）＋2＊win＿width2≦k≦A＊L＿NCSHIFT＿DSの場合、
loc＿weight＿win（k）＝win＿bias2。

loc＿weight＿win（k）は、適応窓関数を表すために使用され、k＝0，1，．．．，A＊L＿NCSHIFT＿DSであり、Aは、既定の定数であり、4以上であり、L＿NCSHIFT＿DSは、チャネル間時間差の絶対値の最大値であり、win＿width2は、第2の二乗余弦の幅パラメータであり、win＿bias2は、第2の二乗余弦の高さバイアスである。

第1の態様、および第1の態様の第1の実施態様から第13の実施態様のいずれか1つに関連して、第1の態様の第14の実施態様において、重み付き相互相関係数は以下の式を使用して表される：
c＿weight（x）＝c（x）＊loc＿weight＿win（x－TRUNC（reg＿prv＿corr）＋TRUNC（A＊L＿NCSHIFT＿DS／2）－L＿NCSHIFT＿DS）。

c＿weight（x）は、重み付き相互相関係数であり、c（x）は、相互相関係数であり、loc＿weight＿winは、現在のフレームの適応窓関数であり、TRUNCは、値を丸めることを指示し、reg＿prv＿corrは、現在のフレームの遅延トラック推定値であり、xは、ゼロ以上2＊L＿NCSHIFT＿DS以下の整数であり、L＿NCSHIFT＿DSは、チャネル間時間差の絶対値の最大値である。

第1の態様、および第1の態様の第1の実施態様から第14の実施態様のいずれか1つに関連して、第1の態様の第15の実施態様において、現在のフレームの適応窓関数を決定するステップの前に、本方法は、現在のフレームの前のフレームのコーディングパラメータに基づいて現在のフレームの適応窓関数の適応パラメータを決定するステップであって、コーディングパラメータが、現在のフレームの前のフレームのマルチチャネル信号のタイプを指示するために使用されるか、またはコーディングパラメータが、そこで時間領域ダウンミキシング処理が行われる現在のフレームの前のフレームのマルチチャネル信号のタイプを指示するために使用される、ステップ、をさらに含み、適応パラメータは、現在のフレームの適応窓関数を決定するために使用される。

現在のフレームの適応窓関数は、計算によって得られる現在のフレームのチャネル間時間差の正確さを保証するように、現在のフレームのマルチチャネル信号の異なるタイプに基づいて適応的に変化する必要がある。現在のフレームのマルチチャネル信号のタイプが現在のフレームの前のフレームのマルチチャネル信号のタイプと同じである確率は大きい。したがって、現在のフレームの適応窓関数の適応パラメータは、現在のフレームの前のフレームのコーディングパラメータに基づいて決定されるので、計算量が増加せずに決定される適応窓関数の正確さが高まる。

第1の態様、および第1の態様の第1の実施態様から第15の実施態様のいずれか1つに関連して、第1の態様の第16の実施態様において、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて現在のフレームの遅延トラック推定値を決定するステップは、現在のフレームの遅延トラック推定値を決定するために、線形回帰法を使用して、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて遅延トラック推定を行うステップ、を含む。

第1の態様、および第1の態様の第1の実施態様から第15の実施態様のいずれか1つに関連して、第1の態様の第17の実施態様において、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて現在のフレームの遅延トラック推定値を決定するステップは、現在のフレームの遅延トラック推定値を決定するために、重み付き線形回帰法を使用して、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて遅延トラック推定を行うステップ、を含む。

第1の態様、および第1の態様の第1の実施態様から第17の実施態様のいずれか1つに関連して、第1の態様の第18の実施態様において、重み付き相互相関係数に基づいて現在のフレームのチャネル間時間差を決定するステップの後に、本方法は、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報を更新するステップであって、少なくとも1つの過去のフレームのチャネル間時間差情報が、少なくとも1つの過去のフレームのチャネル間時間差平滑値または少なくとも1つの過去のフレームのチャネル間時間差である、ステップ、をさらに含む。

少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報が更新され、次のフレームのチャネル間時間差が計算されるときに、次のフレームの遅延トラック推定値を更新された遅延差情報に基づいて計算することができるので、次のフレームのチャネル間時間差計算の正確さが高まる。

第1の態様の第18の実施態様に関連して、第1の態様の第19の実施態様において、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報は、少なくとも1つの過去のフレームのチャネル間時間差平滑値であり、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報を更新するステップは、現在のフレームの遅延トラック推定値と現在のフレームのチャネル間時間差とに基づいて現在のフレームのチャネル間時間差平滑値を決定するステップと、現在のフレームのチャネル間時間差平滑値に基づいて少なくとも1つの過去のフレームのバッファされたチャネル間時間差平滑値を更新するステップと、を含む。

第1の態様の第19の実施態様に関連して、第1の態様の第20の実施態様において、現在のフレームのチャネル間時間差平滑値は以下の計算式：
cur＿itd＿smooth＝φ＊reg＿prv＿corr＋（1－φ）＊cur＿itd
を使用して得られる。

cur＿itd＿smoothは、現在のフレームのチャネル間時間差平滑値であり、φは、第2の平滑化係数であり、reg＿prv＿corrは、現在のフレームの遅延トラック推定値であり、cur＿itdは、現在のフレームのチャネル間時間差であり、φは、0以上1以下の定数である。

第1の態様の第18の実施態様から第20の実施態様のうちのいずれか1つに関連して、第1の態様の第21の実施態様において、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報を更新するステップは、現在のフレームの前のフレームの音声アクティブ化検出結果がアクティブなフレームであるか、または現在のフレームの音声アクティブ化検出結果がアクティブなフレームである場合、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報を更新するステップ、を含む。

現在のフレームの前のフレームの音声アクティブ化検出結果がアクティブなフレームであるか、または現在のフレームの音声アクティブ化検出結果がアクティブなフレームである場合、それは現在のフレームのマルチチャネル信号がアクティブなフレームである可能性が高いことを指示する。現在のフレームのマルチチャネル信号がアクティブなフレームである場合、現在のフレームのチャネル間時間差情報の有効性が相対的に高い。したがって、現在のフレームの前のフレームの音声アクティブ化検出結果または現在のフレームの音声アクティブ化検出結果に基づいて、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報を更新するかどうかが判断され、それによって、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報の有効性が高まる。

第1の態様の第17の実施態様から第21の実施態様のうちのいずれか1つに関連して、第1の態様の第22の実施態様において、重み付き相互相関係数に基づいて現在のフレームのチャネル間時間差を決定するステップの後に、本方法は、少なくとも1つの過去のフレームのバッファされた重み係数を更新するステップであって、少なくとも1つの過去のフレームの重み係数が重み付き線形回帰法の係数であり、重み付き線形回帰法が現在のフレームの遅延トラック推定値を決定するために使用される、ステップ、をさらに含む。

現在のフレームの遅延トラック推定値が重み付き線形回帰法を使用して決定される場合、少なくとも1つの過去のフレームのバッファされた重み係数が更新されるので、次のフレームの遅延トラック推定値を更新された重み係数に基づいて計算することができ、それによって、次のフレームの遅延トラック推定値計算の正確さが高まる。

第1の態様の第22の実施態様に関連して、第1の態様の第23の実施態様において、現在のフレームの適応窓関数が、現在のフレームの前のフレームの平滑化されたチャネル間時間差に基づいて決定される場合、少なくとも1つの過去のフレームのバッファされた重み係数を更新するステップは、現在のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて現在のフレームの第1の重み係数を計算するステップと、現在のフレームの第1の重み係数に基づいて少なくとも1つの過去のフレームのバッファされた第1の重み係数を更新するステップと、を含む。

第1の態様の第23の実施態様に関連して、第1の態様の第24の実施態様において、現在のフレームの第1の重み係数は以下の計算式：
wgt＿par1＝a＿wgt1＊smooth＿dist＿reg＿update＋b＿wgt1、
a＿wgt1＝（xl＿wgt1－xh＿wgt1）／（yh＿dist1’－yl＿dist1’）、および
b＿wgt1＝xl＿wgt1－a＿wgt1＊yh＿dist1’
を使用した計算によって得られる。

wgt＿par1は、現在のフレームの第1の重み係数であり、smooth＿dist＿reg＿updateは、現在のフレームの平滑化されたチャネル間時間差の推定偏差であり、xh＿wgtは、第1の重み係数の上限値であり、xl＿wgtは、第1の重み係数の下限値であり、yh＿dist1’は、第1の重み係数の上限値に対応する平滑化されたチャネル間時間差の推定偏差であり、yl＿dist1’は、第1の重み係数の下限値に対応する平滑化されたチャネル間時間差の推定偏差であり、yh＿dist1’、yl＿dist1’、xh＿wgt1、およびxl＿wgt1はすべて正の数である。

第1の態様の第24の実施態様に関連して、第1の態様の第25の実施態様において、
wgt＿par1＝min（wgt＿par1，xh＿wgt1）、および
wgt＿par1＝max（wgt＿par1，xl＿wgt1）であり、式中、
minは、最小値を取ることを表し、maxは、最大値を取ることを表す。

wgt＿par1の値が第1の重み係数の正常な値範囲を超えないようにし、それによって、現在のフレームの計算される遅延トラック推定値の正確さが保証されるように、wgt＿par1が第1の重み係数の上限値より大きい場合、wgt＿par1は、第1の重み係数の上限値になるように制限され、またはwgt＿par1が第1の重み係数の下限値より小さい場合、wgt＿par1は、第1の重み係数の下限値になるように制限される。

第1の態様の第22の実施態様に関連して、第1の態様の第26の実施態様において、現在のフレームの適応窓関数が現在のフレームのチャネル間時間差の推定偏差に基づいて決定される場合、少なくとも1つの過去のフレームのバッファされた重み係数を更新するステップは、現在のフレームのチャネル間時間差の推定偏差に基づいて現在のフレームの第2の重み係数を計算するステップと、現在のフレームの第2の重み係数に基づいて少なくとも1つの過去のフレームのバッファされた第2の重み係数を更新するステップと、を含む。

任意選択で、現在のフレームの第2の重み係数は以下の計算式：
wgt＿par2＝a＿wgt2＊dist＿reg＋b＿wgt2、
a＿wgt2＝（xl＿wgt2－xh＿wgt2）／（yh＿dist2’－yl＿dist2’）、および
b＿wgt2＝xl＿wgt2－a＿wgt2＊yh＿dist2’
を使用した計算によって得られる。

wgt＿par2は、現在のフレームの第2の重み係数であり、dist＿regは、現在のフレームのチャネル間時間差の推定偏差であり、xh＿wgt2は、第2の重み係数の上限値であり、xl＿wgt2は、第2の重み係数の下限値であり、yh＿dist2’は、第2の重み係数の上限値に対応するチャネル間時間差の推定偏差であり、yl＿dist2’は、第2の重み係数の下限値に対応するチャネル間時間差の推定偏差であり、yh＿dist2’、yl＿dist2’、xh＿wgt2、およびxl＿wgt2はすべて正の数である。

任意選択で、wgt＿par2＝min（wgt＿par2，xh＿wgt2）、およびwgt＿par2＝max（wgt＿par2，xl＿wgt2）である。

第1の態様の第23の実施態様から第26の実施態様のうちのいずれか1つに関連して、第1の態様の第27の実施態様において、少なくとも1つの過去のフレームのバッファされた重み係数を更新するステップは、現在のフレームの前のフレームの音声アクティブ化検出結果がアクティブなフレームであるか、または現在のフレームの音声アクティブ化検出結果がアクティブなフレームである場合、少なくとも1つの過去のフレームのバッファされた重み係数を更新するステップ、を含む。

現在のフレームの前のフレームの音声アクティブ化検出結果がアクティブなフレームであるか、または現在のフレームの音声アクティブ化検出結果がアクティブなフレームである場合、それは現在のフレームのマルチチャネル信号がアクティブなフレームである可能性が高いことを指示する。現在のフレームのマルチチャネル信号がアクティブなフレームである場合、現在のフレームの重み係数の有効性が相対的に高い。したがって、現在のフレームの前のフレームの音声アクティブ化検出結果または現在のフレームの音声アクティブ化検出結果に基づいて、少なくとも1つの過去のフレームのバッファされた重み係数を更新するかどうかが判断され、それによって、少なくとも1つの過去のフレームのバッファされた重み係数の有効性が高まる。

第2の態様によれば、遅延推定装置が提供される。本装置は、少なくとも1つのユニットを含み、少なくとも1つのユニットは、第1の態様または第1の態様の実施態様のいずれか1つで提供される遅延推定方法を実施するように構成される。

第3の態様によれば、オーディオコーディング装置が提供される。本オーディオコーディング装置は、プロセッサと、プロセッサに接続されたメモリとを含む。

メモリは、プロセッサによって制御されるように構成され、プロセッサは、第1の態様または第1の態様の実施態様のいずれか1つで提供される遅延推定方法を実施するように構成される。

第4の態様によれば、コンピュータ可読記憶媒体が提供される。本コンピュータ可読記憶媒体は命令を格納し、命令がオーディオコーディング装置上で実行されると、オーディオコーディング装置は、第1の態様または第1の態様の実施態様のいずれか1つで提供される遅延推定方法を行うことができるようになる。

本出願の一例示的実施形態によるステレオ信号の符号化および復号の概略的構造図である。本出願の別の例示的実施形態によるステレオ信号の符号化および復号の概略的構造図である。本出願の別の例示的実施形態によるステレオ信号の符号化および復号の概略的構造図である。本出願の一例示的実施形態によるチャネル間時間差の概略図である。本出願の一例示的実施形態による遅延推定方法の流れ図である。本出願の一例示的実施形態による適応窓関数の概略図である。本出願の一例示的実施形態による二乗余弦の幅パラメータとチャネル間時間差の推定偏差情報との間の関係の概略図である。本出願の一例示的実施形態による二乗余弦の高さバイアスとチャネル間時間差の推定偏差情報との間の関係の概略図である。本出願の一例示的実施形態によるバッファの概略図である。本出願の一例示的実施形態によるバッファ更新の概略図である。本出願の一例示的実施形態によるオーディオコーディング装置の概略的構造図である。本出願の一実施形態による遅延推定装置のブロック図である。

本明細書に記載される「第1」、「第2」という語および同様の語は、順序、数量、または重要度を意味するものではなく、異なる構成要素を区別するために使用されている。同様に、「一（one）」、「1つの（a／an）」なども、数の限定を指示することを意図されておらず、少なくとも1つが存在していることを指示することを意図されている。「接続」、「リンク」などは、物理的接続または機械的接続に限定されず、直接接続か間接接続かにかかわらず、電気的接続を含み得る。

本明細書では、「複数の（a plurality of）」は、2または2を上回る数を指す。「および／または」という用語は、関連付けられる対象を記述するための関連付け関係を記述し、3つの関係が存在し得ることを表す。例えば、Aおよび／またはBは、Aのみが存在する、AとBの両方が存在する、Bのみが存在する、という3つの場合を表し得る。文字「／」は一般に、関連付けられる対象間の「または」の関係を指示する。

図1は、本出願の一例示的実施形態による時間領域におけるステレオ符号化および復号システムの概略的構造図である。ステレオ符号化および復号システムは、符号化構成要素110と復号構成要素120とを含む。

符号化構成要素110は、時間領域でステレオ信号を符号化するように構成される。任意選択で、符号化構成要素110は、ソフトウェアを使用して実施されてもよく、ハードウェアを使用して実施されてもよく、またはソフトウェアとハードウェアの組み合わせの形態で実施されてもよい。これについては本実施形態では限定されない。

符号化構成要素110による時間領域でのステレオ信号の符号化は以下のステップを含む。

（1）前処理された左チャネル信号と前処理された右チャネル信号を得るために得られたステレオ信号に対して時間領域前処理を行う。

ステレオ信号は、収集構成要素によって収集され、符号化構成要素110に送られる。任意選択で、収集構成要素と符号化構成要素110とは同じデバイスに、または異なるデバイスに配置され得る。

前処理された左チャネル信号と前処理された右チャネル信号とは前処理されたステレオ信号の2つの信号である。

任意選択で、前処理は、高域フィルタリング処理、プリエンファシス処理、サンプリングレート変換、およびチャネル変換のうちの少なくとも1つを含む。これについては本実施形態では限定されない。

（2）前処理された左チャネル信号と前処理された右チャネル信号との間のチャネル間時間差を得るために、前処理された左チャネル信号と前処理された右チャネル信号とに基づいて遅延推定を行う。

（3）遅延整合処理後に得られた左チャネル信号と遅延整合処理後に得られた右チャネル信号とを得るために、チャネル間時間差に基づいて前処理された左チャネル信号と前処理された右チャネル信号とに対して遅延整合処理を行う。

（4）チャネル間時間差の符号化インデックスを得るためにチャネル間時間差を符号化する。

（5）時間領域ダウンミキシング処理に使用されるステレオパラメータの符号化インデックスを得るために、時間領域ダウンミキシング処理に使用されるステレオパラメータを計算し、時間領域ダウンミキシング処理に使用されるステレオパラメータを符号化する

時間領域ダウンミキシング処理に使用されるステレオパラメータは、遅延整合処理後に得られた左チャネル信号と遅延整合処理後に得られた右チャネル信号とに対して時間領域ダウンミキシング処理を行うために使用される。

（6）プライマリチャネル信号とセカンダリチャネル信号とを得るために、遅延整合処理後に得られた左チャネル信号と右チャネル信号とに対して、時間領域ダウンミキシング処理に使用されたステレオパラメータに基づいて、時間領域ダウンミキシング処理を行う。

時間領域ダウンミキシング処理は、プライマリチャネル信号とセカンダリチャネル信号とを得るために使用される。

遅延整合処理後に得られた左チャネル信号と右チャネル信号とが時間領域ダウンミキシング技術を使用して処理された後、プライマリチャネル信号（Primary channel、または中間チャネル（Mid channel）信号とも呼ばれる）と、セカンダリチャネル（Secondary channel、またはサイドチャネル（Side channel）信号とも呼ばれる）とが得られる。

プライマリチャネル信号は、チャネル間の相関に関する情報を表すために使用され、セカンダリチャネル信号は、チャネル間の差に関する情報を表すために使用される。遅延整合処理後に得られた左チャネル信号と右チャネル信号とが時間領域で整合された場合、セカンダリチャネル信号は最も弱く、この場合、ステレオ信号は最善の効果を有する。

図4に示される第nのフレーム内の前処理された左チャネル信号Lと前処理された右チャネル信号Rとを参照する。前処理された左チャネル信号Lは前処理された右チャネル信号Rの前に位置している。言い換えると、前処理された右チャネル信号Rと比較して、前処理された左チャネル信号Lは遅延を有し、前処理された左チャネル信号Lと前処理された右チャネル信号Rとの間にチャネル間時間差21がある。この場合、セカンダリチャネル信号は強化され、プライマリチャネル信号は弱められ、ステレオ信号は相対的に不十分な効果を有する。

（7）プライマリチャネル信号に対応する第1のモノラル符号化ビットストリームと、セカンダリチャネル信号に対応する第2のモノラル符号化ビットストリームとを得るために、プライマリチャネル信号とセカンダリチャネル信号とを別々に符号化する。

（8）チャネル間時間差の符号化インデックス、ステレオパラメータの符号化インデックス、第1のモノラル符号化ビットストリーム、および第2のモノラル符号化ビットストリームをステレオ符号化ビットストリームに書き込む。

復号構成要素120は、ステレオ信号を得るために符号化構成要素110によって生成されたステレオ符号化ビットストリームを復号するように構成される。

任意選択で、符号化構成要素110は復号構成要素120に有線または無線で接続され、復号構成要素120は、接続を介して、符号化構成要素110によって生成されたステレオ符号化ビットストリームを取得する。あるいは、符号化構成要素110は、生成されたステレオ符号化ビットストリームをメモリに格納し、復号構成要素120はメモリ内のステレオ符号化ビットストリームを読み取る。

任意選択で、復号構成要素120は、ソフトウェアを使用して実施されてもよく、ハードウェアを使用して実施されてもよく、またはソフトウェアとハードウェアの組み合わせの形態で実施されてもよい。これについては本実施形態では限定されない。

復号構成要素120によるステレオ信号を得るためのステレオ符号化ビットストリームの復号は以下のいくつかのステップを含む。

（1）プライマリチャネル信号とセカンダリチャネル信号とを得るためにステレオ符号化ビットストリーム内の第1のモノラル符号化ビットストリームと第2のモノラル符号化ビットストリームとを復号する。

（2）時間領域アップミキシング処理後の左チャネル信号と時間領域アップミキシング処理後の右チャネル信号とを得るために、ステレオ符号化ビットストリームに基づいて、時間領域アップミキシング処理に使用されるステレオパラメータの符号化インデックスを取得し、プライマリチャネル信号とセカンダリチャネル信号とに対して時間領域アップミキシング処理を行う。

（3）ステレオ信号を得るために、ステレオ符号化ビットストリームに基づいてチャネル間時間差の符号化インデックスを取得し、時間領域アップミキシング処理後に得られた左チャネル信号と時間領域アップミキシング処理後に得られた右チャネル信号とに対して遅延調整を行う。

任意選択で、符号化構成要素110と復号構成要素120とは、同じデバイスに配置されてもよく、または異なるデバイスに配置されてもよい。デバイスは、携帯電話、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータ、ブルートゥース（登録商標）スピーカ、ペンレコーダ、もしくはウェアラブルデバイスなどの、オーディオ信号処理機能を有する移動端末であり得るか、またはコアネットワークもしくは無線ネットワーク内のオーディオ信号処理能力を有するネットワーク要素であり得る。これについては本実施形態では限定されない。

例えば、図2を参照すると、符号化構成要素110が移動端末130に配置され、復号構成要素120が移動端末140に配置される例。移動端末130と移動端末140とは、オーディオ信号処理能力を備えた独立した電子機器であり、移動端末130と移動端末140とは、本実施形態で説明のために使用される無線または有線ネットワークを使用して相互に接続されている。

任意選択で、移動端末130は、収集構成要素131と、符号化構成要素110と、チャネル符号化構成要素132とを含む。収集構成要素131は符号化構成要素110に接続され、符号化構成要素110はチャネル符号化構成要素132に接続される。

任意選択で、移動端末140は、オーディオ再生構成要素141と、復号構成要素120と、チャネル復号構成要素142とを含む。オーディオ再生構成要素141は復号構成要素110に接続され、復号構成要素110はチャネル符号化構成要素132に接続される。

収集構成要素131を使用してステレオ信号を収集した後、移動端末130は、ステレオ符号化ビットストリームを得るために符号化構成要素110を使用してステレオ信号を符号化する。次いで、移動端末130は、送信信号を得るためにチャネル符号化構成要素132を使用してステレオ符号化ビットストリームを符号化する。

移動端末130は無線または有線ネットワークを使用して移動端末140に送信信号を送信する。

送信信号を受信した後、移動端末140は、ステレオ符号化ビットストリームを得るためにチャネル復号構成要素142を使用して送信信号を復号し、ステレオ信号を得るために復号構成要素110を使用してステレオ符号化ビットストリームを復号し、オーディオ再生構成要素141を使用してステレオ信号を再生する。

例えば、図3を参照すると、本実施形態は、符号化構成要素110と復号構成要素120とが、コアネットワークまたは無線ネットワーク内のオーディオ信号処理能力を有する同じネットワーク要素150に配置されている例を使用して説明されている。

任意選択で、ネットワーク要素150は、チャネル復号構成要素151と、復号構成要素120と、符号化構成要素110と、チャネル符号化構成要素152とを含む。チャネル復号構成要素151は復号構成要素120に接続され、復号構成要素120は符号化構成要素110に接続され、符号化構成要素110なチャネル符号化構成要素152に接続される。

別の機器によって送信された送信信号を受信した後、チャネル復号構成要素151は、第1のステレオ符号化ビットストリームを得るために送信信号を復号し、ステレオ信号を得るために復号構成要素120を使用してステレオ符号化ビットストリームを復号し、第2のステレオ符号化ビットストリームを得るために符号化構成要素110を使用してステレオ信号を符号化し、送信信号を得るためにチャネル符号化構成要素152を使用して第2のステレオ符号化ビットストリームを符号化する。

別の機器は、オーディオ信号処理能力を有する移動端末であり得るか、またはオーディオ信号処理能力を有する別のネットワーク要素であり得る。これについては本実施形態では限定されない。

任意選択で、ネットワーク要素内の符号化構成要素110と復号構成要素120とは、移動端末によって送信されたステレオ符号化ビットストリームをコード変換し得る。

任意選択で、本実施形態では、符号化構成要素110がインストールされた機器がオーディオコーディング装置と呼ばれる。実際の実装に際して、オーディオコーディング装置は、オーディオ復号機能も有し得る。これについては本実施形態では限定されない。

任意選択で、本実施形態では、ステレオ信号のみが説明例として使用されている。本出願では、オーディオコーディング装置はマルチチャネル信号をさらに処理してもよく、マルチチャネル信号は少なくとも2つの信号を含む。

以下で本出願の実施形態におけるいくつかの名詞について説明する。

現在のフレームのマルチチャネル信号とは、現在のチャネル間時間差を推定するために使用されるマルチチャネル信号のフレームである。現在のフレームのマルチチャネル信号は、少なくとも2つのチャネル信号を含む。異なるチャネルのチャネル信号は、オーディオコーディング装置内の異なるオーディオ収集構成要素を使用して収集され得るか、または異なるチャネルのチャネル信号は、別の機器内の異なるオーディオ収集構成要素によって収集され得る。異なるチャネルのチャネル信号は同じ音源から送信される。

例えば、現在のフレームのマルチチャネル信号は、左チャネル信号Lと右チャネル信号Rとを含む。左チャネル信号Lは、左チャネルオーディオ収集構成要素を使用して収集され、右チャネル信号Rは、右チャネルオーディオ収集構成要素を使用して収集され、左チャネル信号Lと右チャネル信号Rとは同じ音源からのものである。

図4を参照すると、オーディオコーディング装置が、第nのフレームのマルチチャネル信号のチャネル間時間差を推定しており、第nのフレームは現在のフレームである。

現在のフレームの前のフレームとは、現在のフレームの前に位置する第1のフレームであり、例えば、現在のフレームが第nのフレームである場合、現在のフレームの前のフレームは第（n－1）のフレームである。

任意選択で、現在のフレームの前のフレームは、簡潔に前のフレームとも呼ばれ得る。

過去のフレームは時間領域で現在のフレームの位置し、過去のフレームは、現在のフレームの前のフレーム、現在のフレームの最初の2フレーム、現在のフレームの最初の3フレームなどを含む。図4を参照すると、現在のフレームが第nのフレームである場合、過去のフレームは、第（n－1）のフレーム、第（n－2）のフレーム、．．．、および第1のフレーム、を含む。

任意選択で、本出願では、少なくとも1つの過去のフレームは、現在のフレームの前に位置するM個のフレーム、例えば、現在のフレームの前に位置する8フレームであり得る。

次のフレームとは、現在のフレームの後の第1のフレームである。図4を参照すると、現在のフレームが第nのフレームである場合、次のフレームは第（n＋1）のフレームである。

フレーム長とは、マルチチャネル信号のフレームの持続期間である。任意選択で、フレーム長は、サンプリング点の数によって表され、例えば、フレーム長N＝320サンプリング点である。

相互相関係数は、異なるチャネル間時間差の下での、現在のフレームのマルチチャネル信号内の異なるチャネルのチャネル信号間の相互相関の度合いを表すために使用される。相互相関の度合いは、相互相関値を使用して表される。現在のフレームのマルチチャネル信号内の任意の2つのチャネル信号について、あるチャネル間時間差の下で、チャネル間時間差に基づいて遅延調整後が行われた後で得られた2つのチャネル信号がより類似している場合、相互相関の度合いはより強く、相互相関値はより大きく、またはチャネル間時間差に基づいて遅延調整が行われた後で得られた2つのチャネル信号間の差がより大きい場合、相互相関の度合いはより弱く、相互相関値はより小さい。

相互相関係数のインデックス値はチャネル間時間差に対応し、相互相関係数の各インデックス値に対応する相互相関値は、遅延調整後に得られる、各チャネル間時間差に対応している2つのモノラル信号間の相互相関の度合いを表す。

任意選択で、相互相関係数（cross－correlation coefficients）はまた、相互相関値のグループとも呼ばれるか、または相互相関関数とも呼ばれ得る。これについては本出願では限定されない。

図4を参照すると、第aのフレームのチャネル信号の相互相関係数が計算されるとき、左チャネル信号Lと右チャネル信号Rとの間の相互相関値が異なるチャネル間時間差の下で別々に計算される。

例えば、相互相関係数のインデックス値が0である場合、チャネル間時間差は－N／2サンプリング点であり、チャネル間時間差は、相互相関値k0を得るように左チャネル信号Lと右チャネル信号Rとを整合させるために使用され、
相互相関係数のインデックス値が1である場合、チャネル間時間差は（－N／2＋1）サンプリング点であり、チャネル間時間差は、相互相関値k1を得るように左チャネル信号Lと右チャネル信号Rとを整合させるために使用され、
相互相関係数のインデックス値が2である場合、チャネル間時間差は（－N／2＋2）サンプリング点であり、チャネル間時間差は、相互相関値k2を得るように左チャネル信号Lと右チャネル信号Rとを整合させるために使用され、
相互相関係数のインデックス値が3である場合、チャネル間時間差は（－N／2＋3）サンプリング点であり、チャネル間時間差は、相互相関値k3を得るように左チャネル信号Lと右チャネル信号Rとを整合させるために使用され、以下同様であり、
相互相関係数のインデックス値がNである場合、チャネル間時間差はN／2サンプリング点であり、チャネル間時間差は、相互相関値kNを得るように左チャネル信号Lと右チャネル信号Rとを整合させるために使用される。

k0からkNの最大値が探索され、例えば、k3が最大である。この場合、これは、チャネル間時間差が（－N／2＋3）サンプリング点であるとき、左チャネル信号Lと右チャネル信号Rとは最も類似しており、言い換えると、チャネル間時間差は実際のチャネル間時間差に最も近いことを指示する。

本実施形態は、オーディオコーディング装置が相互相関係数を使用してチャネル間時間差を決定するという原理を説明するために使用されているにすぎないことに留意されたい。実際の実装に際して、チャネル間時間差は、前述の方法を使用して決定されない場合もある。

図5は、本出願の一例示的実施形態による遅延推定方法の流れ図である。本方法は以下のいくつかのステップを含む。

ステップ301：現在のフレームのマルチチャネル信号の相互相関係数を決定する。

ステップ302：少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて現在のフレームの遅延トラック推定値を決定する。

任意選択で、少なくとも1つの過去のフレームは時間的に連続しており、少なくとも1つの過去のフレーム内の最後のフレームと現在のフレームとは時間的に連続している。言い換えると、少なくとも1つの過去のフレーム内の最後のフレームは現在のフレームの前のフレームである。あるいは、少なくとも1つの過去のフレームは、時間的に所定のフレーム数だけ間隔を置いて配置されており、少なくとも1つの過去のフレーム内の最後のフレームは、現在のフレームから所定のフレーム数だけ間隔を置いて配置されている。あるいは、少なくとも1つの過去のフレームは時間的に不連続であり、少なくとも1つの過去のフレーム間に置かれるフレーム数は固定されておらず、少なくとも1つの過去のフレーム内の最後のフレームと現在のフレームとの間のフレーム数は固定されていない。所定のフレーム数の値は、本実施形態では限定されず、例えば、2フレームである。

本実施形態では、過去のフレームの数は限定されない。例えば、過去のフレームの数は、8、12、および25である。

遅延トラック推定値は、現在のフレームのチャネル間時間差の予測値を表すために使用される。本実施形態では、少なくとも1つの過去のフレームのチャネル間時間差情報に基づいて遅延トラックがシミュレートされ、現在のフレームの遅延トラック推定値は遅延トラックに基づいて計算される。

任意選択で、少なくとも1つの過去のフレームのチャネル間時間差情報は、少なくとも1つの過去のフレームのチャネル間時間差、または少なくとも1つの過去のフレームのチャネル間時間差平滑値である。

各過去のフレームのチャネル間時間差平滑値が、フレームの遅延トラック推定値とフレームのチャネル間時間差とに基づいて決定される。

ステップ303：現在のフレームの適応窓関数を決定する。

任意選択で、適応窓関数は、二乗余弦のような窓関数である。適応窓関数は、中間部分を相対的に拡大し、境界部分を抑制する機能を有する。

任意選択で、チャネル信号のフレームに対応する適応窓関数は異なる。

適応窓関数は以下の式を使用して表される：
0≦k≦TRUNC（A＊L＿NCSHIFT＿DS／2）－2＊win＿width－1の場合、
loc＿weight＿win（k）＝win＿bias、
TRUNC（A＊L＿NCSHIFT＿DS／2）－2＊win＿width≦k≦TRUNC（A＊L＿NCSHIFT＿DS／2）＋2＊win＿width－1の場合、
loc＿weight＿win（k）＝0．5＊（1＋win＿bias）＋0．5＊（1－win＿bias）＊cos（π＊（k－TRUNC（A＊L＿NCSHIFT＿DS／2））／（2＊win＿width））、および
TRUNC（A＊L＿NCSHIFT＿DS／2）＋2＊win＿width≦k≦A＊L＿NCSHIFT＿DSの場合、
loc＿weight＿win（k）＝win＿bias。

loc＿weight＿win（k）は、適応窓関数を表すために使用され、k＝0，1，．．．，A＊L＿NCSHIFT＿DSであり、Aは、4以上の既定の定数、例えば、A＝4であり、TRUNCは、値を丸めること、例えば、適応窓関数の式中のA＊L＿NCSHIFT＿DS／2の値を丸めることを指示し、L＿NCSHIFT＿DSは、チャネル間時間差の絶対値の最大値であり、win＿widthは、適応窓関数の二乗余弦の幅パラメータを表すために使用され、win＿biasは、適応窓関数の二乗余弦の高さバイアスを表すために使用される。

任意選択で、チャネル間時間差の絶対値の最大値は、既定の正の数であり、通常、ゼロより大きくフレーム長以下の正の整数であり、例えば、40、60、または80である。

任意選択で、チャネル間時間差の最大値またはチャネル間時間差の最小値は、既定の正の整数であり、チャネル間時間差の絶対値の最大値は、チャネル間時間差の最大値の絶対値を取ることによって得られ、またはチャネル間時間差の絶対値の最大値は、チャネル間時間差の最小値の絶対値を取ることによって得られる。

例えば、チャネル間時間差の最大値は40であり、チャネル間時間差の最小値は－40であり、チャネル間時間差の絶対値の最大値は40であり、これは、チャネル間時間差の最大値の絶対値を取ることによって得られ、チャネル間時間差の最小値の絶対値を取ることによっても得られる。

別の例として、チャネル間時間差の最大値は40であり、チャネル間時間差の最小値は－20であり、チャネル間時間差の絶対値の最大値は40であり、これは、チャネル間時間差の最大値の絶対値を取ることによって得られる。

別の例として、チャネル間時間差の最大値は40であり、チャネル間時間差の最小値は－60であり、チャネル間時間差の絶対値の最大値は60であり、これは、チャネル間時間差の最小値の絶対値を取ることによって得られる。

適応窓関数の式から、適応窓関数は、両サイドの高さが固定されており、中間が凸状の二乗余弦のような窓であることが分かる。適応窓関数は、定重みの窓と、高さバイアスを有する二乗余弦窓とを含む。定重みの窓の重みは高さバイアスに基づいて決定される。適応窓関数は、主に、2つのパラメータ、二乗余弦の幅パラメータと二乗余弦の高さバイアスとによって決定される。

図6に示される適応窓関数の概略図を参照する。広い窓402と比較して、狭い窓401は、適応窓関数における二乗余弦窓の窓幅が相対的に小さいことを意味し、狭い窓401に対応する遅延トラック推定値と実際のチャネル間時間差との間の差は相対的に小さい。狭い窓401と比較して、広い窓402は、適応窓関数における二乗余弦窓の窓幅が相対的に大きいことを意味し、広い窓402に対応する遅延トラック推定値と実際のチャネル間時間差との間の差は相対的に大きい。言い換えると、適応窓関数における二乗余弦窓の窓幅は、遅延トラック推定値と実際のチャネル間時間差との間の差と正に相関する。

適応窓関数の二乗余弦の幅パラメータと二乗余弦の高さバイアスとは、各フレームのマルチチャネル信号のチャネル間時間差の推定偏差情報に関連している。チャネル間時間差の推定偏差情報は、チャネル間時間差の予測値と実際の値との間の偏差を表すために使用される。

図7に示される二乗余弦の幅パラメータとチャネル間時間差の推定偏差情報との間の関係の概略図を参照する。二乗余弦の幅パラメータの上限値が0．25である場合、二乗余弦の幅パラメータの上限値に対応するチャネル間時間差の推定偏差情報の値は3．0である。この場合、チャネル間時間差の推定偏差情報の値は相対的に大きく、適応窓関数における二乗余弦窓の窓幅が相対的に大きい（図6の広い窓402を参照されたい）。適応窓関数の二乗余弦の幅パラメータの下限値が0．04である場合、二乗余弦の幅パラメータの下限値に対応するチャネル間時間差の推定偏差情報の値は1．0である。この場合、チャネル間時間差の推定偏差情報の値は相対的に小さく、適応窓関数における二乗余弦窓の窓幅が相対的に小さい（図6の狭い窓401を参照されたい）。

図8に示される二乗余弦の高さバイアスとチャネル間時間差の推定偏差情報との間の関係の概略図を参照する。二乗余弦の高さバイアスの上限値が0．7である場合、二乗余弦の高さバイアスの上限値に対応するチャネル間時間差の推定偏差情報の値は3．0である。この場合、平滑化されたチャネル間時間差の推定偏差は相対的に大きく、適応窓関数における二乗余弦窓の高さバイアスが相対的に大きい（図6の広い窓402を参照されたい）。二乗余弦の高さバイアスの下限値が0．4である場合、二乗余弦の高さバイアスの下限値に対応するチャネル間時間差の推定偏差情報の値は1．0である。この場合、チャネル間時間差の推定偏差情報の値は相対的に小さく、適応窓関数における二乗余弦窓の高さバイアスが相対的に小さい（図6の狭い窓401を参照されたい）。

ステップ304：重み付き相互相関係数を得るために、現在のフレームの遅延トラック推定値と現在のフレームの適応窓関数とに基づいて相互相関係数の重み付けを行う。

重み付き相互相関係数は以下の計算式：
c＿weight（x）＝c（x）＊loc＿weight＿win（x－TRUNC（reg＿prv＿corr）＋TRUNC（A＊L＿NCSHIFT＿DS／2）－L＿NCSHIFT＿DS）
を使用した計算によって得られる。

c＿weight（x）は、重み付き相互相関係数であり、c（x）は、相互相関係数であり、loc＿weight＿winは、現在のフレームの適応窓関数であり、TRUNCは、値を丸めること、例えば、重み付き相互相関係数の式におけるreg＿prv＿corrを丸めることや、A＊L＿NCSHIFT＿DS／2の値を丸めることを指示し、reg＿prv＿corrは、現在のフレームの遅延トラック推定値であり、xは、ゼロ以上2＊L＿NCSHIFT＿DS以下の整数である。

適応窓関数は、二乗余弦のような窓であり、中間部分を相対的に拡大し、境界部分を抑制する機能を有する。したがって、現在のフレームの遅延トラック推定値と現在のフレームの適応窓関数とに基づいて相互相関係数に対して重み付けが行われる場合、インデックス値が遅延トラック推定値により近ければ、対応する相互相関値の重み係数はより大きく、インデックス値が遅延トラック推定値からより遠ければ、対応する相互相関値の重み係数はより小さい。適応窓関数の二乗余弦の幅パラメータおよび二乗余弦の高さバイアスは、相互相関係数における、遅延トラック推定値から離れたインデックス値に対応する相互相関値を適応的に抑制する。

ステップ305：重み付き相互相関係数に基づいて現在のフレームのチャネル間時間差を決定する。

重み付き相互相関係数に基づいて現在のフレームのチャネル間時間差を決定するステップは、重み付き相互相関係数における相互相関値の最大値を探索するステップと、最大値に対応するインデックス値に基づいて現在のフレームのチャネル間時間差を決定するステップと、を含む。

任意選択で、重み付き相互相関係数における相互相関値の最大値を探索するステップは、第1の相互相関値と第2の相互相関値での最大値を得るために、相互相関係数における第2の相互相関値を第1の相互相関値と比較するステップと、第3の相互相関値と最大値での最大値を得るために第3の相互相関値を最大値と比較するステップと、循環的順序で、第iの相互相関値と前の比較によって得られた最大値での最大値を得るために、第iの相互相関値を前の比較によって得られた最大値と比較するステップと、を含む。i＝i＋1であると仮定し、第iの相互相関値を前の比較によって得られた最大値と比較するステップは、相互相関値の最大値を得るために、すべの相互相関値が比較されるまで連続して行われ、iは2より大きい整数である。

任意選択で、最大値に対応するインデックス値に基づいて現在のフレームのチャネル間時間差を決定するステップは、チャネル間時間差の最大値と最小値とに対応するインデックス値の和を現在のフレームのチャネル間時間差として使用するステップ、を含む。

相互相関係数は、異なるチャネル間時間差に基づいて遅延が調整された後に得られる2つのチャネル信号間の相互相関の度合いを反映することができ、相互相関係数のインデックス値とチャネル間時間差との間には対応関係がある。したがって、オーディオコーディング装置は、（最高の相互相関度を有する）相互相関係数の最大値に対応するインデックス値に基づいて現在のフレームのチャネル間時間差を決定することができる。

結論として、本出願で提供される遅延推定方法によれば、現在のフレームのチャネル間時間差が現在のフレームの遅延トラック推定値に基づいて予測され、現在のフレームの遅延トラック推定値と現在のフレームの適応窓関数とに基づいて相互相関係数に対して重み付けが行われる。適応窓関数は、二乗余弦のような窓であり、中間部分を相対的に拡大し、境界部分を抑制する機能を有する。したがって、現在のフレームの遅延トラック推定値と現在のフレームの適応窓関数とに基づいて相互相関係数に対して重み付けが行われるとき、インデックス値が遅延トラック推定値により近い場合、重み係数はより大きく、第1の相互相関係数が過度に平滑化されるという問題が回避され、インデックス値が遅延トラック推定値からより遠い場合、重み係数はより小さく、第2の相互相関係数が不十分に平滑化されるという問題が回避される。このようにして、適応窓関数は、相互相関係数における、遅延トラック推定値から離れたインデックス値に対応する相互相関値を適応的に抑制し、それによって、重み付き相互相関係数におけるチャネル間時間差決定の正確さが高まる。第1の相互相関係数は、相互相関係数における、遅延トラック推定値に近いインデックス値に対応する相互相関値であり、第2の相互相関係数は、相互相関係数における、遅延トラック推定値から離れたインデックス値に対応する相互相関値である。

図5に示される実施形態のステップ301からステップ303について以下で詳細に説明する。

第1に、ステップ301で現在のフレームのマルチチャネル信号の相互相関係数が決定されることについて説明する。

（1）オーディオコーディング装置は、現在のフレームの左チャネルの時間領域信号と右チャネルの時間領域信号とに基づいて相互相関係数を決定する。

チャネル間時間差の最大値T_maxとチャネル間時間差の最小値T_minとは、相互相関係数の計算範囲を決定するように、通常事前設定される必要がある。チャネル間時間差の最大値T_maxとチャネル間時間差の最小値T_minとはどちらも実数であり、T_max＞T_minである。T_maxおよびT_minの値はフレーム長に関連したものであるか、またはT_maxおよびT_minの値は現在のサンプリング周波数に関連したものである。

任意選択で、チャネル間時間差の最大値T_maxとチャネル間時間差の最小値T_minとを得るために、チャネル間時間差の絶対値の最大値L＿NCSHIFT＿DSが事前設定される。例えば、チャネル間時間差の最大値T_max＝L＿NCSHIFT＿DSであり、チャネル間時間差の最小値T_min＝－L＿NCSHIFT＿DSである。

T_maxおよびT_minの値は本出願では限定されない。例えば、チャネル間時間差の絶対値の最大値L＿NCSHIFT＿DSが40である場合、T_max＝40、T_min＝－40である。

一実施態様では、相互相関係数のインデックス値が、チャネル間時間差とチャネル間時間差の最小値との間の差を指示するために使用される。この場合、現在のフレームの左チャネルの時間領域信号と右チャネルの時間領域信号とに基づいて相互相関係数を決定することは、以下の式を使用して表される。

T_min≦0かつ0＜T_maxの場合、
T_min≦i≦0のとき、

、式中、k＝i－T_min、および
0＜i≦T_maxのとき、

、式中、k＝i－T_min。

T_min≦0かつT_max≦0の場合、
T_min≦i≦T_maxのとき、

、式中、k＝i－T_min。

T_min≧0かつT_max≧0の場合、
T_min≦i≦T_maxのとき、

、式中、k＝i－T_min。

Nは、フレーム長であり、

は、現在のフレームの左チャネルの時間領域信号であり、

は、現在のフレームの右チャネルの時間領域信号であり、c（k）は、現在のフレームの相互相関係数であり、kは、相互相関係数のインデックス値であり、kは、0以上の整数であり、kの値範囲は、［0，T_max－T_min］である。

T_max＝40、T_min＝－40であると仮定する。この場合、オーディオコーディング装置は、T_min≦0かつ0＜T_maxの場合に対応する計算方法を使用して現在のフレームの相互相関係数を決定する。この場合、kの値範囲は、［0，80］である。

別の実施態様では、相互相関係数のインデックス値は、チャネル間時間差を指示するために使用される。この場合、オーディオコーディング装置が、チャネル間時間差の最大値とチャネル間時間差の最小値とに基づいて相互相関係数を決定することは、以下の式を使用して表される。

T_min≦0かつ0＜T_maxの場合、
T_min≦i≦0のとき、

、および
0＜i≦T_maxのとき、

。

T_min≦0かつT_max≦0の場合、
T_min≦i≦T_maxのとき、

。

T_min≧0かつT_max≧0の場合、
T_min≦i≦T_maxのとき、

。

Nは、フレーム長であり、

は、現在のフレームの左チャネルの時間領域信号であり、

は、現在のフレームの右チャネルの時間領域信号であり、c（i）は、現在のフレームの相互相関係数であり、iは、相互相関係数のインデックス値であり、iの値範囲は、［T_min，T_max］である。

T_max＝40、T_min＝－40であると仮定する。この場合、オーディオコーディング装置は、T_min≦0かつ0＜T_maxに対応する計算式を使用して現在のフレームの相互相関係数を決定する。この場合、iの値範囲は、［－40，40］である。

第2に、ステップ302で現在のフレームの遅延トラック推定値を決定することについて説明する。

第1の実施態様では、現在のフレームの遅延トラック推定値を決定するために、線形回帰法を使用して、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて遅延トラック推定が行われる。

この実施態様は、以下のいくつかのステップを使用して実施される。

（1）少なくとも1つの過去のフレームのチャネル間時間差情報と対応するシーケンス番号とに基づいてM個のデータ対を生成し、Mは正の整数である。

バッファが、M個の過去のフレームのチャネル間時間差情報を格納する。

任意選択で、チャネル間時間差情報はチャネル間時間差である。あるいは、チャネル間時間差情報はチャネル間時間差平滑値である。

任意選択で、M個の過去のフレームのものであり、バッファに格納されるチャネル間時間差は、先入れ先出し原則に従う。具体的には、最初にバッファされる過去のフレームのものであるチャネル間時間差のバッファ位置は前にあり、後でバッファされる過去のフレームのものであるチャネル間時間差のバッファ位置は後にある。

加えて、後でバッファされる過去のフレームのものであるチャネル間時間差のために、最初にバッファされる過去のフレームのものであるチャネル間時間差は最初にバッファから出る。

任意選択で、本実施形態では、各データ対は、各過去のフレームのチャネル間時間差情報と対応するシーケンス番号とを使用して生成される。

シーケンス番号は、バッファ内の各過去のフレームの位置と呼ばれる。例えば、8つの過去のフレームがバッファに格納される場合、シーケンス番号はそれぞれ、0、1、2、3、4、5、6、および7である。

例えば、生成されるM個のデータ対は、｛（x₀，y₀），（x₁，y₁），（x₂，y₂）．．．（x_r，y_r），．．．，および（x_M－1，y_M－1）｝である。（x_r，y_r）は、第（r＋1）のデータ対であり、x_rは、第（r＋1）のデータ対のシーケンス番号を指示するために使用され、すなわち、x_r＝rであり、y_rは、過去のフレームのものであり、第（r＋1）のデータ対に対応しているチャネル間時間差を指示するために使用され、r＝0，1，．．．，および（M－1）である。

図9は、8つのバッファされた過去のフレームの概略図である。各シーケンス番号に対応する位置は、1つの過去のフレームのチャネル間時間差をバッファする。この場合、8つのデータ対は、｛（x₀，y₀），（x₁，y₁），（x₂，y₂）．．．（x_r，y_r），．．．，および（x₇，y₇）｝である。この場合、r＝0，1，2，3，4，5，6，および7である。

（2）M個のデータ対に基づいて第1の線形回帰パラメータと第2の線形回帰パラメータとを計算する。

本実施形態では、データ対のy_rは、x_rに関する、ε_rの測定誤差を有する線形関数であると仮定する。この線形関数は以下のとおりである。
y_r＝α＋β＊x_r＋ε_r。

αは、第1の線形回帰パラメータであり、βは、第2の線形回帰パラメータであり、ε_rは、測定誤差である。

線形関数は、以下の条件を満たす必要がある：観測点x_rに対応する観測値y_r（実際にバッファされたチャネル間時間差情報）と、線形関数に基づいて計算された推定値α＋β＊x_rとの間の距離が最小である、具体的には、費用関数Q（α，β）の最小化が満たされる。

費用関数Q（α，β）は以下のとおりである：

前述の条件を満たすために、線形関数の第1の線形回帰パラメータと第2の線形回帰パラメータとは以下を満たす必要がある：

x_rは、M個のデータ対の第（r＋1）のデータ対のシーケンス番号を指示するために使用され、y_rは、第（r＋1）のデータ対のチャネル間時間差情報である。

（3）第1の線形回帰パラメータと第2の線形回帰パラメータとに基づいて現在のフレームの遅延トラック推定値を取得する。

第1の線形回帰パラメータと第2の線形回帰パラメータとに基づいて第（M＋1）のデータ対のシーケンス番号に対応する推定値が計算され、推定値は、現在のフレームの遅延トラック推定値として決定される。式は以下のとおりである。
reg＿prv＿corr＝α＋β＊M、式中、
reg＿prv＿corrは、現在のフレームの遅延トラック推定値を表し、Mは、第（M＋1）のデータ対のシーケンス番号であり、α＋β＊Mは、第（M＋1）のデータ対の推定値である。

例えば、M＝8である。8つの生成されたデータ対に基づいてαとβが決定された後、αとβとに基づいて第9のデータ対のチャネル間時間差が推定され、第9のデータ対のチャネル間時間差は現在のフレームの遅延トラック推定値として決定され、すなわち、reg＿prv＿corr＝α＋β＊8である。

任意選択で、本実施形態では、シーケンス番号とチャネル間時間差とを使用してデータ対を生成する方法のみが説明例として使用されている。実際の実装に際して、データ対は代替として別の方法で生成されてもよい。これについては本実施形態では限定されない。

第2の実施態様では、現在のフレームの遅延トラック推定値を決定するために、重み付き線形回帰法を使用して、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて遅延トラック推定が行われる。

このステップは、第1の実施態様のステップ（1）の関連した説明と同じであり、本実施形態では詳細を述べない。

（2）M個のデータ対とM個の過去のフレームの重み係数とに基づいて第1の線形回帰パラメータと第2の線形回帰パラメータとを計算する。

任意選択で、バッファは、M個の過去のフレームのチャネル間時間差情報を格納するのみならず、M個の過去のフレームの重み係数も格納する。重み係数は、対応する過去のフレームの遅延トラック推定値を計算するために使用される。

任意選択で、過去のフレームの平滑化されたチャネル間時間差の推定偏差に基づく計算によって各過去のフレームの重み係数が取得される。あるいは、過去のフレームのチャネル間時間差の推定偏差に基づく計算によって各過去のフレームの重み係数が取得される。

線形関数は、以下の条件を満たす必要がある：観測点x_rに対応する観測値y_r（実際にバッファされたチャネル間時間差情報）と、線形関数に基づいて計算された推定値α＋β＊x_rとの間の重み付き距離が最小である、具体的には、費用関数Q（α，β）の最小化が満たされる。

費用関数Q（α，β）は以下のとおりである：

w_rは、第rのデータ対に対応する過去のフレームの重み係数である。

x_rは、M個のデータ対の第（r＋1）のデータ対のシーケンス番号を指示するために使用され、y_rは、第（r＋1）のデータ対のチャネル間時間差情報であり、w_rは、少なくとも1つの過去のフレームにおける第（r＋1）のデータ対のチャネル間時間差情報に対応する重み係数である。

このステップは、第1の実施態様のステップ（3）の関連した説明と同じであり、本実施形態では詳細を述べない。

本出願では、遅延トラック推定値が、線形回帰法を使用するか、または重み付き線形回帰法でのみ計算される例を使用して説明されていることに留意されたい。実際の実装に際して、遅延トラック推定値は代替として、別の方法で計算されてもよい。これについては本実施形態では限定されない。例えば、遅延トラック推定値はBスプライン（B－spline）法を使用して計算されるか、または遅延トラック推定値は三次スプライン法を使用して計算されるか、または二次スプライン法を使用して計算される。

第3に、ステップ303で現在のフレームの適応窓関数を決定することについて説明する。

本実施形態では、現在のフレームの適応窓関数を計算する2つの方法が提供される。第1の方法では、現在のフレームの適応窓関数は、前のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて決定される。この場合、チャネル間時間差の推定偏差情報は平滑化されたチャネル間時間差の推定偏差であり、適応窓関数の二乗余弦の幅パラメータと二乗余弦の高さバイアスとは、平滑化されたチャネル間時間差の推定偏差に関連している。第2の方法では、現在のフレームの適応窓関数は、現在のフレームのチャネル間時間差の推定偏差に基づいて決定される。この場合、チャネル間時間差の推定偏差情報はチャネル間時間差の推定偏差であり、適応窓関数の二乗余弦の幅パラメータと二乗余弦の高さバイアスとは、チャネル間時間差の推定偏差に関連している。

これら2つの方法について以下で別々に説明する。

この第1の方法は、以下のいくつかのステップを使用して実施される。

（1）現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて第1の二乗余弦の幅パラメータを計算する。

現在のフレームに近いマルチチャネル信号を使用した現在のフレームの適応窓関数計算の正確さは相対的に高いので、本実施形態では、現在のフレームの適応窓関数が、現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて決定される例を使用して説明する。

任意選択で、前のフレームの現在のフレームの平滑化されたチャネル間時間差の推定偏差はバッファに格納される。

このステップは、以下の式を使用して表され：
win＿width1＝TRUNC（width＿par1＊（A＊L＿NCSHIFT＿DS＋1））、および
width＿par1＝a＿width1＊smooth＿dist＿reg＋b＿width1、式中、
a＿width1＝（xh＿width1－xl＿width1）／（yh＿dist1－yl＿dist1）
b＿width1＝xh＿width1－a＿width1＊yh＿dist1、
win＿width1は、第1の二乗余弦の幅パラメータであり、TRUNCは、値を丸めることを指示し、L＿NCSHIFT＿DSは、チャネル間時間差の絶対値の最大値であり、Aは、既定の定数であり、Aは、4以上である。

xh＿width1は、第1の二乗余弦の幅パラメータの上限値、例えば図7の0．25であり、xl＿width1は、第1の二乗余弦の幅パラメータの下限値、例えば図7の0．04であり、yh＿dist1は、第1の二乗余弦の幅パラメータの上限値に対応する平滑化されたチャネル間時間差の推定偏差、例えば図7の0．25に対応する3．0であり、yl＿dist1は、第1の二乗余弦の幅パラメータの下限値に対応する平滑化されたチャネル間時間差の推定偏差、例えば図7の0．04に対応する1．0である。

smooth＿dist＿regは、現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差であり、xh＿width1、xl＿width1、yh＿dist1、およびyl＿dist1はすべて正の数である。

任意選択で、前述の式では、b＿width1＝xh＿width1－a＿width1＊yh＿dist1は、b＿width1＝xl＿width1－a＿width1＊yl＿dist1で置き換えされ得る。

任意選択で、このステップでは、width＿par1＝min（width＿par1，xh＿width1）、およびwidth＿par1＝max（width＿par1，xl＿width1）であり、式中、minは、最小値を取ることを表し、maxは、最大値を取ることを表す。具体的には、計算によって得られたwidth＿par1がxh＿width1より大きい場合、width＿par1はxh＿width1に設定され、または計算によって得られたwidth＿par1がxl＿width1より小さい場合、width＿par1はxl＿width1に設定される。

本実施形態では、width＿par1の値が二乗余弦の幅パラメータの正常な値範囲を超えないようにし、それによって計算される適応窓関数の正確さが保証されるように、width＿par1が第1の二乗余弦の幅パラメータの上限値より大きい場合、width＿par1は、第1の二乗余弦の幅パラメータの上限値になるように制限され、またはwidth＿par1が第1の二乗余弦の幅パラメータの下限値より小さい場合、width＿par1は、第1の二乗余弦の幅パラメータの下限値になるように制限される。

（2）現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて第1の二乗余弦の高さバイアスを計算する。

このステップは、以下の式を使用して表される：
win＿bias1＝a＿bias1＊smooth＿dist＿reg＋b＿bias1、式中、
a＿bias1＝（xh＿bias1－xl＿bias1）／（yh＿dist2－yl＿dist2）、および
b＿bias1＝xh＿bias1－a＿bias1＊yh＿dist2。

win＿bias1は、第1の二乗余弦の高さバイアスであり、xh＿bias1は、第1の二乗余弦の高さバイアスの上限値、例えば図8の0．7であり、xl＿bias1は、第1の二乗余弦の高さバイアスの下限値、例えば図8の0．4であり、yh＿dist2は、第1の二乗余弦の高さバイアスの上限値に対応する平滑化されたチャネル間時間差の推定偏差、例えば図8の0．7に対応する3．0であり、yl＿dist2は、第1の二乗余弦の高さバイアスの下限値に対応する平滑化されたチャネル間時間差の推定偏差、例えば図8の0．4に対応する1．0であり、smooth＿dist＿regは、現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差であり、yh＿dist2、yl＿dist2、xh＿bias1、およびxl＿bias1はすべて正の数である。

任意選択で、前述の式では、b＿bias1＝xh＿bias1－a＿bias1＊yh＿dist2は、b＿bias1＝xl＿bias1－a＿bias1＊yl＿dist2で置き換えられ得る。

任意選択で、本実施形態では、win＿bias1＝min（win＿bias1，xh＿bias1）、およびwin＿bias1＝max（win＿bias1，xl＿bias1）である。具体的には、計算によって得られたwin＿bias1がxh＿bias1より大きい場合、win＿bias1はxh＿bias1に設定されるか、または計算によって得られたwin＿bias1がxl＿bias1より小さい場合、win＿bias1はxl＿bias1に設定される。

任意選択で、yh＿dist2＝yh＿dist1、およびyl＿dist2＝yl＿dist1である。

（3）第1の二乗余弦の幅パラメータと第1の二乗余弦の高さバイアスとに基づいて現在のフレームの適応窓関数を決定する。

第1の二乗余弦の幅パラメータと第1の二乗余弦の高さバイアスとは、以下の計算式を得るためにステップ303で適応窓関数に導入される：
0≦k≦TRUNC（A＊L＿NCSHIFT＿DS／2）－2＊win＿width1－1の場合、
loc＿weight＿win（k）＝win＿bias1、
TRUNC（A＊L＿NCSHIFT＿DS／2）－2＊win＿width1≦k≦TRUNC（A＊L＿NCSHIFT＿DS／2）＋2＊win＿width1－1の場合、
loc＿weight＿win（k）＝0．5＊（1＋win＿bias1）＋0．5＊（1－win＿bias1）＊cos（π＊（k－TRUNC（A＊L＿NCSHIFT＿DS／2））／（2＊win＿width1））、および
TRUNC（A＊L＿NCSHIFT＿DS／2）＋2＊win＿width1≦k≦A＊L＿NCSHIFT＿DSの場合、
loc＿weight＿win（k）＝win＿bias1。

loc＿weight＿win（k）は、適応窓関数を表すために使用され、k＝0，1，．．．，A＊L＿NCSHIFT＿DSであり、Aは、4以上の既定の定数、例えば、A＝4であり、L＿NCSHIFT＿DSは、チャネル間時間差の絶対値の最大値であり、win＿width1は、第1の二乗余弦の幅パラメータであり、win＿bias1は、第1の二乗余弦の高さバイアスである。

本実施形態では、現在のフレームの適応窓関数は、前のフレームの平滑化されたチャネル間時間差の推定偏差を使用して計算されるので、適応窓関数の形状が平滑化されたチャネル間時間差の推定偏差に基づいて調整され、それによって、現在のフレームの遅延トラック推定の誤差が原因で生成される適応窓関数が不正確であるという問題が回避され、適応窓関数生成の正確さが高まる。

任意選択で、第1の方法で決定された適応窓関数に基づいて現在のフレームのチャネル間時間差が決定された後、現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差と現在のフレームの遅延トラック推定値と現在のフレームのチャネル間時間差とに基づいて、現在のフレームの平滑化されたチャネル間時間差の推定偏差がさらに決定され得る。

任意選択で、バッファ内の現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差は、現在のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて更新される。

任意選択で、現在のフレームのチャネル間時間差が決定された後にその都度、バッファ内の現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差は、現在のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて更新される。

任意選択で、現在のフレームの平滑化されたチャネル間時間差の推定偏差に基づいてバッファ内の現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差を更新することは、バッファ内の現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差を現在のフレームの平滑化されたチャネル間時間差の推定偏差で置き換えること、を含む。

現在のフレームの平滑化されたチャネル間時間差の推定偏差は以下の計算式：
smooth＿dist＿reg＿update＝（1－γ）＊smooth＿dist＿reg＋γ＊dist＿reg’、および
dist＿reg’＝｜reg＿prv＿corr－cur＿itd｜
を使用した計算によって得られる。

smooth＿dist＿reg＿updateは、現在のフレームの平滑化されたチャネル間時間差の推定偏差であり、γは、第1の平滑化係数であり、0＜γ＜1、例えば、γ＝0．02であり、smooth＿dist＿regは、現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差であり、reg＿prv＿corrは、現在のフレームの遅延トラック推定値であり、cur＿itdは、現在のフレームのチャネル間時間差である。

本実施形態では、現在のフレームのチャネル間時間差が決定された後、現在のフレームの平滑化されたチャネル間時間差の推定偏差が計算される。次のフレームのチャネル間時間差が決定されるべきである場合、現在のフレームの平滑化されたチャネル間時間差の推定偏差を使用して現在のフレームの適応窓関数を決定することができ、それによって次のフレームのチャネル間時間差の決定の正確さが保証される。

任意選択で、現在のフレームのチャネル間時間差が、前述の第1の方法で決定された適応窓関数に基づいて決定された後、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報がさらに更新され得る。

1つの更新方法では、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報は、現在のフレームのチャネル間時間差に基づいて更新される。

別の更新方法では、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報は、現在のフレームのチャネル間時間差平滑値に基づいて更新される。

任意選択で、現在のフレームのチャネル間時間差平滑値は、現在のフレームの遅延トラック推定値と現在のフレームのチャネル間時間差とに基づいて決定される。

例えば、現在のフレームの遅延トラック推定値と現在のフレームのチャネル間時間差とに基づき、現在のフレームのチャネル間時間差平滑値は、以下の式：
cur＿itd＿smooth＝φ＊reg＿prv＿corr＋（1－φ）＊cur＿itd
を使用して決定され得る。

cur＿itd＿smoothは、現在のフレームのチャネル間時間差平滑値であり、φは、第2の平滑化係数であり、reg＿prv＿corrは、現在のフレームの遅延トラック推定値であり、cur＿itdは、現在のフレームのチャネル間時間差である。φは、0以上1以下の定数である。

少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報を更新することは、バッファに現在のフレームのチャネル間時間差または現在のフレームのチャネル間時間差平滑値を追加すること、を含む。

任意選択で、例えば、バッファ内のチャネル間時間差平滑値が更新される。バッファは、固定数の過去のフレームに対応するチャネル間時間差平滑値を格納し、例えば、バッファは、8つの過去のフレームのチャネル間時間差平滑値を格納する。バッファに現在のフレームのチャネル間時間差平滑値が追加される場合、バッファ内の第1のビット（待ち行列の先頭）に元から位置する過去のフレームのチャネル間時間差平滑値は削除される。これに対応して、第2のビットに元から位置する過去のフレームのチャネル間時間差平滑値が第1のビットに更新される。類推して、現在のフレームのチャネル間時間差平滑値はバッファ内の最後のビット（待ち行列の末尾）に位置する。

図10に示されるバッファ更新プロセスを参照する。バッファは8つの過去のフレームのチャネル間時間差平滑値を格納すると仮定する。バッファ（すなわち、現在のフレームに対応する8つの過去のフレーム）に現在のフレームのチャネル間時間差平滑値601が追加される前、第1のビットには第（i－8）のフレームのチャネル間時間差平滑値がバッファされており、第2のビットには第（i－7）のフレームのチャネル間時間差平滑値がバッファされており、．．．、第8のビットには第（i－1）のフレームのチャネル間時間差平滑値がバッファされている。

バッファに現在のフレームのチャネル間時間差平滑値601が追加される場合、（図において破線ボックスによって表されている）第1のビットは削除され、第2のビットのシーケンス番号が第1のビットのシーケンス番号になり、第3のビットのシーケンス番号が第2のビットのシーケンス番号になり、．．．、第8のビットのシーケンス番号が第7のビットのシーケンス番号になる。現在のフレーム（第iのフレーム）のチャネル間時間差平滑値601は、次のフレームに対応する8つの過去のフレームを得るために、第8のビットに位置する。

任意選択で、バッファに現在のフレームのチャネル間時間差平滑値が追加された後、第1のビットにバッファされたチャネル間時間差平滑値が削除されない場合もあり、代わりに、第2のビットから第9のビットのチャネル間時間差平滑値が、次のフレームのチャネル間時間差を計算するために直接使用される。あるいは、第1のビットから第9のビットのチャネル間時間差平滑値が、次のフレームのチャネル間時間差を計算するために使用される。この場合、各現在のフレームに対応する過去のフレームの数は可変である。本実施形態ではバッファ更新方法は限定されない。

本実施形態では、現在のフレームのチャネル間時間差が決定された後、現在のフレームのチャネル間時間差平滑値が計算される。次のフレームの遅延トラック推定値が決定されるべきである場合、次のフレームの遅延トラック推定値を、現在のフレームのチャネル間時間差平滑値を使用して決定することができる。これにより、次のフレームの遅延トラック推定値決定の正確さが保証される。

任意選択で、現在のフレームの遅延トラック推定値が、現在のフレームの遅延トラック推定値を決定する前述の第2の実施態様に基づいて決定される場合、少なくとも1つの過去のフレームのバッファされたチャネル間時間差平滑値が更新された後、少なくとも1つの過去のフレームのバッファされた重み係数がさらに更新され得る。少なくとも1つの過去のフレームの重み係数は、重み付き線形回帰法における重み係数である。

適応窓関数を決定する第1の方法では、少なくとも1つの過去のフレームのバッファされた重み係数を更新するステップは、現在のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて現在のフレームの第1の重み係数を計算するステップと、現在のフレームの第1の重み係数に基づいて少なくとも1つの過去のフレームのバッファされた第1の重み係数を更新するステップと、を含む。

本実施形態では、バッファ更新の関連した説明については、図10を参照されたい。本実施形態では詳細を繰り返さない。

現在のフレームの第1の重み係数は以下の計算式：
wgt＿par1＝a＿wgt1＊smooth＿dist＿reg＿update＋b＿wgt1、
a＿wgt1＝（xl＿wgt1－xh＿wgt1）／（yh＿dist1’－yl＿dist1’）、および
b＿wgt1＝xl＿wgt1－a＿wgt1＊yh＿dist1’
を使用した計算によって得られる。

任意選択で、wgt＿par1＝min（wgt＿par1，xh＿wgt1）、およびwgt＿par1＝max（wgt＿par1，xl＿wgt1）である。

任意選択で、本実施形態では、yh＿dist1’、yl＿dist1’、xh＿wgt1、およびxl＿wgt1の値は限定されない。例えば、xl＿wgt1＝0．05、xh＿wgt1＝1．0、yl＿dist1’＝2．0、およびyh＿dist1’＝1．0である。

任意選択で、前述の式では、b＿wgt1＝xl＿wgt1－a＿wgt1＊yh＿dist1’は、b＿wgt1＝xh＿wgt1－a＿wgt1＊yl＿dist1’で置き換えられ得る。

本実施形態では、xh＿wgt1＞xl＿wgt1、およびyh＿dist1’＜yl＿dist1’である。

本実施形態では、wgt＿par1の値が第1の重み係数の正常な値範囲を超えないようにし、それによって、現在のフレームの計算される遅延トラック推定値の正確さが保証されるように、wgt＿par1が第1の重み係数の上限値より大きい場合、wgt＿par1は、第1の重み係数の上限値になるように制限され、またはwgt＿par1が第1の重み係数の下限値より小さい場合、wgt＿par1は、第1の重み係数の下限値になるように制限される。

加えて、現在のフレームのチャネル間時間差が決定された後、現在のフレームの第1の重み係数が計算される。次のフレームの遅延トラック推定値が決定されるべきである場合、次のフレームの遅延トラック推定値を、現在のフレームの第1の重み係数を使用して決定することができ、それによって、次のフレームの遅延トラック推定値決定の正確さが保証される。

第2の方法では、現在のフレームのチャネル間時間差の初期値が相互相関係数に基づいて決定され、現在のフレームのチャネル間時間差の推定偏差は、現在のフレームの遅延トラック推定値と現在のフレームのチャネル間時間差とに基づいて計算され、現在のフレームの適応窓関数は、現在のフレームのチャネル間時間差の推定偏差に基づいて決定される。

任意選択で、現在のフレームのチャネル間時間差の初期値は、相互相関係数の相互相関値のものであり、現在のフレームの相互相関係数に基づいて決定される最大値であり、最大値に対応するインデックス値に基づいて決定されたチャネル間時間差である。

任意選択で、現在のフレームの遅延トラック推定値と現在のフレームのチャネル間時間差の初期値とに基づいて現在のフレームのチャネル間時間差の推定偏差を決定することは以下の式：
dist＿reg＝｜reg＿prv＿corr－cur＿itd＿init｜
を使用して表される。

現在のフレームのチャネル間時間差の推定偏差に基づき、現在のフレームの適応窓関数を決定することは、以下のステップを使用して実施される。

（1）現在のフレームのチャネル間時間差の推定偏差に基づいて第2の二乗余弦の幅パラメータを計算する。

このステップは、以下の式を使用して表され得る：
win＿width2＝TRUNC（width＿par2＊（A＊L＿NCSHIFT＿DS＋1））、および
width＿par2＝a＿width2＊dist＿reg＋b＿width2、式中、
a＿width2＝（xh＿width2－xl＿width2）／（yh＿dist3－yl＿dist3）、および
b＿width2＝xh＿width2－a＿width2＊yh＿dist3。

任意選択で、このステップでは、b＿width2＝xh＿width2－a＿width2＊yh＿dist3は、b＿width2＝xl＿width2－a＿width2＊yl＿dist3で置き換えられ得る。

任意選択で、このステップでは、width＿par2＝min（width＿par2，xh＿width2）、およびwidth＿par2＝max（width＿par2，xl＿width2）であり、式中、minは、最小値を取ることを表し、maxは、最大値を取ることを表す。具体的には、計算によって得られたwidth＿par2がxh＿width2より大きい場合、width＿par2はxh＿width2に設定されるか、または計算によって得られたwidth＿par2がxl＿width2より小さい場合、width＿par2はxl＿width2に設定される。

本実施形態では、width＿par2の値が二乗余弦の幅パラメータの正常な値範囲を超えないようにし、それによって計算される適応窓関数の正確さが保証されるように、width＿par2が第2の二乗余弦の幅パラメータの上限値より大きい場合、width＿par2は、第2の二乗余弦の幅パラメータの上限値になるように制限され、またはwidth＿par2が第2の二乗余弦の幅パラメータの下限値より小さい場合、width＿par2は、第2の二乗余弦の幅パラメータの下限値になるように制限される。

（2）現在のフレームのチャネル間時間差の推定偏差に基づいて第2の二乗余弦の高さバイアスを計算する。

このステップは、以下の式を使用して表され得る：
win＿bias2＝a＿bias2＊dist＿reg＋b＿bias2、式中、
a＿bias2＝（xh＿bias2－xl＿bias2）／（yh＿dist4－yl＿dist4）、および
b＿bias2＝xh＿bias2－a＿bias2＊yh＿dist4。

任意選択で、このステップでは、b＿bias2＝xh＿bias2－a＿bias2＊yh＿dist4は、b＿bias2＝xl＿bias2－a＿bias2＊yl＿dist4で置き換えられ得る。

任意選択で、本実施形態では、win＿bias2＝min（win＿bias2，xh＿bias2）、およびwin＿bias2＝max（win＿bias2，xl＿bias2）である。具体的には、計算によって得られたwin＿bias2がxh＿bias2より大きい場合、win＿bias2はxh＿bias2に設定されるか、または計算によって得られたwin＿bias2がxl＿bias2より小さい場合、win＿bias2はxl＿bias2に設定される。

（3）オーディオコーディング装置は、第2の二乗余弦の幅パラメータと第2の二乗余弦の高さバイアスとに基づいて現在のフレームの適応窓関数を決定する。

オーディオコーディング装置は、以下の計算式を得るためにステップ303で適応窓関数に第2の二乗余弦の幅パラメータと第2の二乗余弦の高さバイアスとを導入する：
0≦k≦TRUNC（A＊L＿NCSHIFT＿DS／2）－2＊win＿width2－1の場合、
loc＿weight＿win（k）＝win＿bias2、
TRUNC（A＊L＿NCSHIFT＿DS／2）－2＊win＿width2≦k≦TRUNC（A＊L＿NCSHIFT＿DS／2）＋2＊win＿width2－1の場合、
loc＿weight＿win（k）＝0．5＊（1＋win＿bias2）＋0．5＊（1－win＿bias2）＊cos（π＊（k－TRUNC（A＊L＿NCSHIFT＿DS／2））／（2＊win＿width2））、および
TRUNC（A＊L＿NCSHIFT＿DS／2）＋2＊win＿width2≦k≦A＊L＿NCSHIFT＿DSの場合、
loc＿weight＿win（k）＝win＿bias2。

loc＿weight＿win（k）は、適応窓関数を表すために使用され、k＝0，1，．．．，A＊L＿NCSHIFT＿DSであり、Aは、4以上の既定の定数であり、例えば、A＝4であり、L＿NCSHIFT＿DSは、チャネル間時間差の絶対値の最大値であり、win＿width2は、第2の二乗余弦の幅パラメータであり、win＿bias2は、第2の二乗余弦の高さバイアスである。

本実施形態では、現在のフレームの適応窓関数は現在のフレームのチャネル間時間差の推定偏差に基づいて決定され、前のフレームの平滑化されたチャネル間時間差の推定偏差がバッファされる必要がない場合、現在のフレームの適応窓関数を決定することができ、それによって記憶リソースが節約される。

任意選択で、現在のフレームのチャネル間時間差が、前述の第2の方法で決定された適応窓関数に基づいて決定された後、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報がさらに更新され得る。関連した説明については、適応窓関数を決定する第1の方法を参照されたい。本実施形態では詳細を繰り返さない。

任意選択で、現在のフレームの遅延トラック推定値が、現在のフレームの遅延トラック推定値を決定する第2の実施態様に基づいて決定される場合、少なくとも1つの過去のフレームのバッファされたチャネル間時間差平滑値が更新された後、少なくとも1つの過去のフレームのバッファされた重み係数がさらに更新され得る。

適応窓関数を決定する第2の方法では、少なくとも1つの過去のフレームの重み係数は、少なくとも1つの過去のフレームの第2の重み係数である。

少なくとも1つの過去のフレームのバッファされた重み係数を更新するステップは、現在のフレームのチャネル間時間差の推定偏差に基づいて現在のフレームの第2の重み係数を計算するステップと、現在のフレームの第2の重み係数に基づいて少なくとも1つの過去のフレームのバッファされた第2の重み係数を更新するステップと、を含む。

現在のフレームのチャネル間時間差の推定偏差に基づいて現在のフレームの第2の重み係数を計算するステップは、以下の式：
wgt＿par2＝a＿wgt2＊dist＿reg＋b＿wgt2、
a＿wgt2＝（xl＿wgt2－xh＿wgt2）／（yh＿dist2’－yl＿dist2’）、および
b＿wgt2＝xl＿wgt2－a＿wgt2＊yh＿dist2’
を使用して表される。

任意選択で、本実施形態では、yh＿dist2’、yl＿dist2’、xh＿wgt2、およびxl＿wgt2の値は限定されない。例えば、xl＿wgt2＝0．05、xh＿wgt2＝1．0、yl＿dist2’＝2．0、およびyh＿dist2’＝1．0である。

任意選択で、前述の式では、b＿wgt2＝xl＿wgt2－a＿wgt2＊yh＿dist2’は、b＿wgt2＝xh＿wgt2－a＿wgt2＊yl＿dist2’で置き換えられ得る。

本実施形態では、xh＿wgt2＞x2＿wgt1、およびyh＿dist2’＜yl＿dist2’である。

本実施形態では、wgt＿par2の値が第2の重み係数の正常な値範囲を超えないようにし、それによって、現在のフレームの計算される遅延トラック推定値の正確さが保証されるように、wgt＿par2が第2の重み係数の上限値より大きい場合、wgt＿par2は、第2の重み係数の上限値になるように制限され、またはwgt＿par2が第2の重み係数の下限値より小さい場合、wgt＿par2は、第2の重み係数の下限値になるように制限される。

加えて、現在のフレームのチャネル間時間差が決定された後、現在のフレームの第2の重み係数が計算される。次のフレームの遅延トラック推定値が決定されるべきである場合、次のフレームの遅延トラック推定値を、現在のフレームの第2の重み係数を使用して決定することができ、それによって、次のフレームの遅延トラック推定値決定の正確さが保証される。

任意選択で、前述の実施形態では、現在のフレームのマルチチャネル信号が有効な信号であるかどうかにかかわらずバッファが更新される。例えば、バッファ内の少なくとも1つの過去のフレームのチャネル間時間差情報および／または少なくとも1つの過去のフレームの重み係数が更新される。

任意選択で、バッファは、現在のフレームのマルチチャネル信号が有効な信号である場合に限り更新される。このようにして、バッファ内のデータの有効性が高まる。

有効な信号は、その曲が事前設定エネルギーより高く、かつ／または事前設定タイプの属する信号であり、例えば、有効な信号は音声信号であるか、または有効な信号は周期信号である。

本実施形態では、現在のフレームのマルチチャネル信号がアクティブなフレームであるかどうかを検出するために音声アクティビティ検出（Voice Activity Detection、VAD）アルゴリズムが使用される。現在のフレームのマルチチャネル信号がアクティブなフレームである場合、それは現在のフレームのマルチチャネル信号が有効な信号であることを指示する。現在のフレームのマルチチャネル信号がアクティブなフレームではない場合、それは現在のフレームのマルチチャネル信号が有効な信号ではないことを指示する。

1つの方法では、現在のフレームの前のフレームの音声アクティブ化検出結果に基づいて、バッファを更新するかどうかが判断される。

現在のフレームの前のフレームの音声アクティブ化検出結果がアクティブなフレームである場合、それは現在のフレームがアクティブなフレームである可能性が高いことを指示する。この場合、バッファは更新される。現在のフレームの前のフレームの音声アクティブ化検出結果がアクティブなフレームではない場合、それは現在のフレームがアクティブなフレームではない可能性が高いことを指示する。この場合、バッファは更新されない。

任意選択で、現在のフレームの前のフレームの音声アクティブ化検出結果は、現在のフレームの前のフレームのプライマリチャネル信号の音声アクティブ化検出結果と現在のフレームの前のフレームのセカンダリチャネル信号の音声アクティブ化検出結果とに基づいて決定される。

現在のフレームの前のフレームのプライマリチャネル信号の音声アクティブ化検出結果と現在のフレームの前のフレームのセカンダリチャネル信号の音声アクティブ化検出結果の両方がアクティブなフレームである場合、現在のフレームの前のフレームの音声アクティブ化検出結果はアクティブなフレームである。現在のフレームの前のフレームのプライマリチャネル信号の音声アクティブ化検出結果および／または現在のフレームの前のフレームのセカンダリチャネル信号の音声アクティブ化検出結果がアクティブなフレームではない場合、現在のフレームの前のフレームの音声アクティブ化検出結果はアクティブなフレームではない。

別の方法では、現在のフレームの音声アクティブ化検出結果に基づいて、バッファを更新するかどうかが判断される。

現在のフレームの音声アクティブ化検出結果がアクティブなフレームである場合、それは現在のフレームがアクティブなフレームである可能性が高いことを指示する。この場合、オーディオコーディング装置はバッファを更新する。現在のフレームの音声アクティブ化検出結果がアクティブなフレームではない場合、それは現在のフレームがアクティブなフレームではない可能性が高いことを指示する。この場合、オーディオコーディング装置はバッファを更新しない。

任意選択で、現在のフレームの音声アクティブ化検出結果は、現在のフレームの複数のチャネル信号の音声アクティブ化検出結果に基づいて決定される。

現在のフレームの複数のチャネル信号の音声アクティブ化検出結果がすべてアクティブなフレームである場合、現在のフレームの音声アクティブ化検出結果はアクティブなフレームである。現在のフレームの複数のチャネル信号のチャネル信号の少なくとも1つのチャネルの音声アクティブ化検出結果がアクティブなフレームではない場合、現在のフレームの音声アクティブ化検出結果はアクティブなフレームではない。

本実施形態では、現在のフレームがアクティブなフレームであるかどうかに関する基準のみを使用してバッファが更新される例を使用して説明されていることに留意されたい。実際の実装に際して、バッファは代替として、現在のフレームが無声か有音か、周期的か非周期的か、一時的か非一時的か、および音声か非音声かのうちの少なくとも1つに基づいて更新されてもよい。

例えば、現在のフレームの前のフレームのプライマリチャネル信号とセカンダリチャネル信号の両方が有声である場合、それは現在のフレームが有声である可能性が高いことを指示する。この場合、バッファは更新される。現在のフレームの前のフレームのプライマリチャネル信号とセカンダリチャネル信号の少なくとも一方が無声である場合、それは現在のフレームが有声ではない可能性が高いことを指示する。この場合、バッファは更新されない。

任意選択で、前述の実施形態に基づき、現在のフレームの前のフレームのコーディングパラメータに基づいて事前設定窓関数モデルの適応パラメータがさらに決定され得る。このようにして、現在のフレームの事前設定窓関数モデルの適応パラメータが適応的に調整され、適応窓関数決定の正確さが高まる。

コーディングパラメータは、現在のフレームの前のフレームのマルチチャネル信号のタイプを指示するために使用されるか、またはコーディングパラメータは、そこで時間領域ダウンミキシング処理が行われる現在のフレームの前のフレームのマルチチャネル信号のタイプ、例えば、アクティブなフレームか非アクティブなフレームか、無声か有声か、周期的か非周期的か、一時的か非一時的か、または音声か音楽かを指示する。

適応パラメータは、二乗余弦の幅パラメータの上限値、二乗余弦の幅パラメータの下限値、二乗余弦の高さバイアスの上限値、二乗余弦の高さバイアスの下限値、二乗余弦の幅パラメータの上限値に対応する平滑化されたチャネル間時間差の推定偏差、二乗余弦の幅パラメータの下限値に対応する平滑化されたチャネル間時間差の推定偏差、二乗余弦の高さバイアスの上限値に対応する平滑化されたチャネル間時間差の推定偏差、および二乗余弦の高さバイアスの下限値に対応する平滑化されたチャネル間時間差の推定偏差のうちの少なくとも1つを含む。

任意選択で、オーディオコーディング装置が適応窓関数を決定する第1の方法で適応窓関数を決定する場合、二乗余弦の幅パラメータの上限値は第1の二乗余弦の幅パラメータの上限値であり、二乗余弦の幅パラメータの下限値は第1の二乗余弦の幅パラメータの下限値であり、二乗余弦の高さバイアスの上限値は第1の二乗余弦の高さバイアスの上限値であり、二乗余弦の高さバイアスの下限値は第1の二乗余弦の高さバイアスの下限値である。これに対応して、二乗余弦の幅パラメータの上限値に対応する平滑化されたチャネル間時間差の推定偏差は、第1の二乗余弦の幅パラメータの上限値に対応する平滑化されたチャネル間時間差の推定偏差であり、二乗余弦の幅パラメータの下限値に対応する平滑化されたチャネル間時間差の推定偏差は、第1の二乗余弦の幅パラメータの下限値に対応する平滑化されたチャネル間時間差の推定偏差であり、二乗余弦の高さバイアスの上限値に対応する平滑化されたチャネル間時間差の推定偏差は、第1の二乗余弦の高さバイアスの上限値に対応する平滑化されたチャネル間時間差の推定偏差であり、二乗余弦の高さバイアスの下限値に対応する平滑化されたチャネル間時間差の推定偏差は、第1の二乗余弦の高さバイアスの下限値に対応する平滑化されたチャネル間時間差の推定偏差である。

任意選択で、オーディオコーディング装置が適応窓関数を決定する第2の方法で適応窓関数を決定する場合、二乗余弦の幅パラメータの上限値は第2の二乗余弦の幅パラメータの上限値であり、二乗余弦の幅パラメータの下限値は第2の二乗余弦の幅パラメータの下限値であり、二乗余弦の高さバイアスの上限値は第2の二乗余弦の高さバイアスの上限値であり、二乗余弦の高さバイアスの下限値は第2の二乗余弦の高さバイアスの下限値である。これに対応して、二乗余弦の幅パラメータの上限値に対応する平滑化されたチャネル間時間差の推定偏差は、第2の二乗余弦の幅パラメータの上限値に対応する平滑化されたチャネル間時間差の推定偏差であり、二乗余弦の幅パラメータの下限値に対応する平滑化されたチャネル間時間差の推定偏差は、第2の二乗余弦の幅パラメータの下限値に対応する平滑化されたチャネル間時間差の推定偏差であり、二乗余弦の高さバイアスの上限値に対応する平滑化されたチャネル間時間差の推定偏差は、第2の二乗余弦の高さバイアスの上限値に対応する平滑化されたチャネル間時間差の推定偏差であり、二乗余弦の高さバイアスの下限値に対応する平滑化されたチャネル間時間差の推定偏差は、第2の二乗余弦の高さバイアスの下限値に対応する平滑化されたチャネル間時間差の推定偏差である。

任意選択で、本実施形態では、二乗余弦の幅パラメータの上限値に対応する平滑化されたチャネル間時間差の推定偏差が、二乗余弦の高さバイアスの上限値に対応する平滑化されたチャネル間時間差の推定偏差と等しく、二乗余弦の幅パラメータの下限値に対応する平滑化されたチャネル間時間差の推定偏差が、二乗余弦の高さバイアスの下限値に対応する平滑化されたチャネル間時間差の推定偏差と等しい例を使用して説明されている。

任意選択で、本実施形態では、現在のフレームの前のフレームのコーディングパラメータが、現在のフレームの前のフレームのプライマリチャネル信号の無声か有声かと現在のフレームの前のフレームのセカンダリチャネル信号の無声か有声かを指示するために使用される例を使用して説明されている。

（1）現在のフレームの前のフレームのコーディングパラメータに基づいて適応パラメータにおける二乗余弦の幅パラメータの上限値と二乗余弦の幅パラメータの下限値とを決定する。

現在のフレームの前のフレームのプライマリチャネル信号の無声か有声かと現在のフレームの前のフレームのセカンダリチャネル信号の無声か有声かは、コーディングパラメータに基づいて決定される。プライマリチャネル信号とセカンダリチャネル信号の両方が無声である場合、二乗余弦の幅パラメータの上限値は第1の無声パラメータに設定され、二乗余弦の幅パラメータの下限値は第2の無声パラメータに設定され、すなわち、xh＿width＝xh＿width＿uv、およびxl＿width＝xl＿width＿uvである。

プライマリチャネル信号とセカンダリチャネル信号の両方が有声である場合、二乗余弦の幅パラメータの上限値は第1の有声パラメータに設定され、二乗余弦の幅パラメータの下限値は第2の有声パラメータに設定され、すなわち、xh＿width＝xh＿width＿v、およびxl＿width＝xl＿width＿vである。

プライマリチャネル信号が有声であり、セカンダリチャネル信号が無声である場合、二乗余弦の幅パラメータの上限値は第3の有声パラメータに設定され、二乗余弦の幅パラメータの下限値は第4の有声パラメータに設定され、すなわち、xh＿width＝xh＿width＿v2、およびxl＿width＝xl＿width＿v2である。

プライマリチャネル信号が無声であり、セカンダリチャネル信号が有声である場合、二乗余弦の幅パラメータの上限値は第3の無声パラメータに設定され、二乗余弦の幅パラメータの下限値は第4の無声パラメータに設定され、すなわち、xh＿width＝xh＿width＿uv2、およびxl＿width＝xl＿width＿uv2である。

第1の無声パラメータxh＿width＿uv、第2の無声パラメータxl＿width＿uv、第3の無声パラメータxh＿width＿uv2、第4の無声パラメータxl＿width＿uv2、第1の有声パラメータxh＿width＿v、第2の有声パラメータxl＿width＿v、第3の有声パラメータxh＿width＿v2、および第4の有声パラメータxl＿width＿v2はすべて正の数であり、xh＿width＿v＜xh＿width＿v2＜xh＿width＿uv2＜xh＿width＿uv、およびxl＿width＿uv＜xl＿width＿uv2＜xl＿width＿v2＜xl＿width＿vである。

xh＿width＿v、xh＿width＿v2、xh＿width＿uv2、xh＿width＿uv、およびxl＿width＿uv、xl＿width＿uv2、xl＿width＿v2、xl＿width＿vの値は本実施形態では限定されない。例えば、xh＿width＿v＝0．2、xh＿width＿v2＝0．25、xh＿width＿uv2＝0．35、xh＿width＿uv＝0．3、xl＿width＿uv＝0．03、xl＿width＿uv2＝0．02、xl＿width＿v2＝0．04、およびxl＿width＿v＝0．05である。

任意選択で、第1の無声パラメータ、第2の無声パラメータ、第3の無声パラメータ、第4の無声パラメータ、第1の有声パラメータ、第2の有声パラメータ、第3の有声パラメータ、および第4の有声パラメータのうちの少なくとも1つが、現在のフレームの前のフレームのコーディングパラメータを使用して調整される。

例えば、オーディオコーディング装置が、第1の無声パラメータ、第2の無声パラメータ、第3の無声パラメータ、第4の無声パラメータ、第1の有声パラメータ、第2の有声パラメータ、第3の有声パラメータ、および第4の有声パラメータのうちの少なくとも1つを、現在のフレームの前のフレームのチャネル信号のコーディングパラメータに基づいて調整することは、以下の式：
xh＿width＿uv＝fach＿uv＊xh＿width＿init、xl＿width＿uv＝facl＿uv＊xl＿width＿init、
xh＿width＿v＝fach＿v＊xh＿width＿init、xl＿width＿v＝facl＿v＊xl＿width＿init、
xh＿width＿v2＝fach＿v2＊xh＿width＿init、xl＿width＿v2＝facl＿v2＊xl＿width＿init、ならびに
xh＿width＿uv2＝fach＿uv2＊xh＿width＿init、およびxl＿width＿uv2＝facl＿uv2＊xl＿width＿init
を使用して表される。

fach＿uv、fach＿v、fach＿v2、fach＿uv2、xh＿width＿init、およびxl＿width＿initは、コーディングパラメータに基づいて決定された正の数である。

本実施形態では、fach＿uv、fach＿v、fach＿v2、fach＿uv2、xh＿width＿init、およびxl＿width＿initの値は限定されない。例えば、fach＿uv＝1．4、fach＿v＝0．8、fach＿v2＝1．0、fach＿uv2＝1．2、xh＿width＿init＝0．25、およびxl＿width＿init＝0．04である。

（2）現在のフレームの前のフレームのコーディングパラメータに基づいて適応パラメータにおける二乗余弦の高さバイアスの上限値と二乗余弦の高さバイアスの下限値とを決定する。

現在のフレームの前のフレームのプライマリチャネル信号の無声か有声かと現在のフレームの前のフレームのセカンダリチャネル信号の無声か有声かは、コーディングパラメータに基づいて決定される。プライマリチャネル信号とセカンダリチャネル信号の両方が無声である場合、二乗余弦の高さバイアスの上限値は第5の無声パラメータに設定され、二乗余弦の高さバイアスの下限値は第6の無声パラメータに設定され、すなわち、xh＿bias＝xh＿bias＿uv、およびxl＿bias＝xl＿bias＿uvである。

プライマリチャネル信号とセカンダリチャネル信号の両方が有声である場合、二乗余弦の高さバイアスの上限値は第5の有声パラメータに設定され、二乗余弦の高さバイアスの下限値は第6の有声パラメータに設定され、すなわち、xh＿bias＝xh＿bias＿v、およびxl＿bias＝xl＿bias＿vである。

プライマリチャネル信号が有声であり、セカンダリチャネル信号が無声である場合、二乗余弦の高さバイアスの上限値は第7の有声パラメータに設定され、二乗余弦の高さバイアスの下限値は第8の有声パラメータに設定され、すなわち、xh＿bias＝xh＿bias＿v2、およびxl＿bias＝xl＿bias＿v2である。

プライマリチャネル信号が無声であり、セカンダリチャネル信号が有声である場合、二乗余弦の高さバイアスの上限値は第7の無声パラメータに設定され、二乗余弦の高さバイアスの下限値は第8の無声パラメータに設定され、すなわち、xh＿bias＝xh＿bias＿uv2、およびxl＿bias＝xl＿bias＿uv2である。

第5の無声パラメータxh＿bias＿uv、第6の無声パラメータxl＿bias＿uv、第7の無声パラメータxh＿bias＿uv2、第8の無声パラメータxl＿bias＿uv2、第5の有声パラメータxh＿bias＿v、第6の有声パラメータxl＿bias＿v、第7の有声パラメータxh＿bias＿v2、および第8の有声パラメータxl＿bias＿v2はすべて正の数であり、xh＿bias＿v＜xh＿bias＿v2＜xh＿bias＿uv2＜xh＿bias＿uv、xl＿bias＿v＜xl＿bias＿v2＜xl＿bias＿uv2＜xl＿bias＿uv、xh＿biasは二乗余弦の高さバイアスの上限値であり、xl＿biasは二乗余弦の高さバイアスの下限値である。

本実施形態では、値、xh＿bias＿v、xh＿bias＿v2、xh＿bias＿uv2、xh＿bias＿uv、xl＿bias＿v、xl＿bias＿v2、xl＿bias＿uv2、およびxl＿bias＿uvの値は限定されない。例えば、xh＿bias＿v＝0．8、xl＿bias＿v＝0．5、xh＿bias＿v2＝0．7、xl＿bias＿v2＝0．4、xh＿bias＿uv＝0．6、xl＿bias＿uv＝0．3、xh＿bias＿uv2＝0．5、およびxl＿bias＿uv2＝0．2である。

任意選択で、第5の無声パラメータ、第6の無声パラメータ、第7の無声パラメータ、第8の無声パラメータ、第5の有声パラメータ、第6の有声パラメータ、第7の有声パラメータ、および第8の有声パラメータのうちの少なくとも1つが、現在のフレームの前のフレームのチャネル信号のコーディングパラメータに基づいて調整される。

例えば、以下の式を使用して表現される：
xh＿bias＿uv＝fach＿uv’＊xh＿bias＿init、xl＿bias＿uv＝facl＿uv’＊xl＿bias＿init、
xh＿bias＿v＝fach＿v’＊xh＿bias＿init、xl＿bias＿v＝facl＿v’＊xl＿bias＿init、
xh＿bias＿v2＝fach＿v2’＊xh＿bias＿init、xl＿bias＿v2＝facl＿v2’＊xl＿bias＿init、
xh＿bias＿uv2＝fach＿uv2’＊xh＿bias＿init、およびxl＿bias＿uv2＝facl＿uv2’＊xl＿bias＿init。

fach＿uv’、fach＿v’、fach＿v2’、fach＿uv2’、xh＿bias＿init、およびxl＿bias＿initは、コーディングパラメータに基づいて決定された正の数である。

本実施形態では、fach＿uv’、fach＿v’、fach＿v2’、fach＿uv2’、xh＿bias＿init、およびxl＿bias＿initの値は限定されない。例えば、fach＿v’＝1．15、fach＿v2’＝1．0、fach＿uv2’＝0．85、fach＿uv’＝0．7、xh＿bias＿init＝0．7、およびxl＿bias＿init＝0．4である。

（3）現在のフレームの前のフレームのコーディングパラメータに基づいて、適応パラメータにおける二乗余弦の幅パラメータの上限値に対応する平滑化されたチャネル間時間差の推定偏差と、二乗余弦の幅パラメータの下限値に対応する平滑化されたチャネル間時間差の推定偏差とを決定する。

現在のフレームの前のフレームの無声および有声のプライマリチャネル信号と現在のフレームの前のフレームの無声および有声のセカンダリチャネル信号とが、コーディングパラメータに基づいて決定される。プライマリチャネル信号とセカンダリチャネル信号の両方が無声である場合、二乗余弦の幅パラメータの上限値に対応する平滑化されたチャネル間時間差の推定偏差は第9の無声パラメータに設定され、二乗余弦の幅パラメータの下限値に対応する平滑化されたチャネル間時間差の推定偏差は第10の無声パラメータに設定され、すなわち、yh＿dist＝yh＿dist＿uv、およびyl＿dist＝yl＿dist＿uvである。

プライマリチャネル信号とセカンダリチャネル信号の両方が有声である場合、二乗余弦の幅パラメータの上限値に対応する平滑化されたチャネル間時間差の推定偏差は第9の有声パラメータに設定され、二乗余弦の幅パラメータの下限値に対応する平滑化されたチャネル間時間差の推定偏差は第10の有声パラメータに設定され、すなわち、yh＿dist＝yh＿dist＿v、およびyl＿dist＝yl＿dist＿vである。

プライマリチャネル信号が有声であり、セカンダリチャネル信号が無声である場合、二乗余弦の幅パラメータの上限値に対応する平滑化されたチャネル間時間差の推定偏差は第11の有声パラメータに設定され、二乗余弦の幅パラメータの下限値に対応する平滑化されたチャネル間時間差の推定偏差は第12の有声パラメータに設定され、すなわち、yh＿dist＝yh＿dist＿v2、およびyl＿dist＝yl＿dist＿v2である。

プライマリチャネル信号が無声であり、セカンダリチャネル信号が有声である場合、二乗余弦の幅パラメータの上限値に対応する平滑化されたチャネル間時間差の推定偏差は第11の無声パラメータに設定され、二乗余弦の幅パラメータの下限値に対応する平滑化されたチャネル間時間差の推定偏差は第12の無声パラメータに設定され、すなわち、yh＿dist＝yh＿dist＿uv2、およびyl＿dist＝yl＿dist＿uv2である。

第9の無声パラメータyh＿dist＿uv、第10の無声パラメータyl＿dist＿uv、第11の無声パラメータyh＿dist＿uv2、第12の無声パラメータyl＿dist＿uv2、第9の有声パラメータyh＿dist＿v、第10の有声パラメータyl＿dist＿v、第11の有声パラメータyh＿dist＿v2、および第12の有声パラメータyl＿dist＿v2はすべて正の数であり、yh＿dist＿v＜yh＿dist＿v2＜yh＿dist＿uv2＜yh＿dist＿uv、およびyl＿dist＿uv＜yl＿dist＿uv2＜yl＿dist＿v2＜yl＿dist＿vである。

本実施形態では、yh＿dist＿v、yh＿dist＿v2、yh＿dist＿uv2、yh＿dist＿uv、yl＿dist＿uv、yl＿dist＿uv2、yl＿dist＿v2、およびyl＿dist＿vの値は限定されない。

任意選択で、第9の無声パラメータ、第10の無声パラメータ、第11の無声パラメータ、第12の無声パラメータ、第9の有声パラメータ、第10の有声パラメータ、第11の有声パラメータ、および第12の有声パラメータのうちの少なくとも1つが、現在のフレームの前のフレームのコーディングパラメータを使用して調整される。

例えば、以下の式を使用して表現される：
yh＿dist＿uv＝fach＿uv’’＊yh＿dist＿init、yl＿dist＿uv＝facl＿uv’’＊yl＿dist＿init；
yh＿dist＿v＝fach＿v’’＊yh＿dist＿init、yl＿dist＿v＝facl＿v’’＊yl＿dist＿init；
yh＿dist＿v2＝fach＿v2’’＊yh＿dist＿init、yl＿dist＿v2＝facl＿v2’’＊yl＿dist＿init；
yh＿dist＿uv2＝fach＿uv2’’＊yh＿dist＿init、およびyl＿dist＿uv2＝facl＿uv2’’＊yl＿dist＿init。

fach＿uv’’、fach＿v’’、fach＿v2’’、fach＿uv2’’、yh＿dist＿init、およびyl＿dist＿initは、本実施形態ではコーディングパラメータに基づいて決定された正の数であり、パラメータの値は限定されない。

本実施形態では、事前設定窓関数モデルの適応パラメータが現在のフレームの前のフレームのコーディングパラメータに基づいて調整されるので、適切な適応窓関数が現在のフレームの前のフレームのコーディングパラメータに基づいて適応的に決定され、それによって、適応窓関数生成の正確さが高まり、チャネル間時間差推定の正確さが高まる。

任意選択で、前述の実施形態に基づき、ステップ301の前に、マルチチャネル信号に対して時間領域前処理が行われる。

任意選択で、本出願の本実施形態の現在のフレームのマルチチャネル信号は、オーディオコーディング装置に入力されたマルチチャネル信号であるか、またはマルチチャネル信号がオーディオコーディング装置に入力された後に前処理によって得られたマルチチャネル信号である。

任意選択で、オーディオコーディング装置に入力されたマルチチャネル信号は、オーディオコーディング装置内の収集構成要素によって収集されてもよく、またはオーディオコーディング装置から独立した収集装置によって収集されてもよく、オーディオコーディング装置に送られる。

任意選択で、オーディオコーディング装置に入力されたマルチチャネル信号は、アナログ／デジタル（Analog to Digital、A／D）変換を介した後に得られたマルチチャネル信号である。任意選択で、マルチチャネル信号は、パルス符号変調（Pulse Code Modulation、PCM）信号である。

マルチチャネル信号のサンプリング周波数は、8kHz、16kHz、32kHz、44．1kHz、48kHzなどであり得る。これについては本実施形態では限定されない。

例えば、マルチチャネル信号のサンプリング周波数は16kHzである。この場合、マルチチャネル信号の持続時間は20msであり、フレーム長はNで表され、N＝320であり、言い換えると、フレーム長は320サンプリング点である。現在のフレームのマルチチャネル信号は、左チャネル信号と右チャネル信号とを含み、左チャネル信号はx_L（n）で表され、右チャネル信号はx_R（n）で表され、nは、サンプリング点のシーケンス番号であり、n＝0，1，2，．．．，および（N－1）である。

任意選択で、現在のフレームに対して高域フィルタリング処理が行われる場合、処理された左チャネル信号はx_L＿HP（n）で表され、処理された右チャネル信号はx_R＿HP（n）で表され、nは、サンプリング点のシーケンス番号であり、n＝0，1，2，．．．，および（N－1）である。

図11は、本出願の一例示的実施形態によるオーディオコーディング装置の概略的構造図である。本出願の本実施形態では、オーディオコーディング装置は、携帯電話、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータ、ブルートゥース（登録商標）スピーカ、ペンレコーダ、およびウェアラブルデバイスなどの、オーディオ収集およびオーディオ信号処理機能を有する電子機器であり得るか、またはコアネットワークもしくは無線ネットワーク内のオーディオ信号処理能力を有するネットワーク要素であり得る。これについては本実施形態では限定されない。

オーディオコーディング装置は、プロセッサ701と、メモリ702と、バス703とを含む。

プロセッサ701は1つまたは複数の処理コアを含み、プロセッサ701は、ソフトウェアプログラムおよびモジュールを動作させて様々な機能アプリケーションを実行し、情報を処理する。

メモリ702は、バス703を使用してプロセッサ701に接続される。メモリ702は、オーディオコーディング装置に必要な命令を格納する。

プロセッサ701は、本出願の方法実施形態で提供される遅延推定方法を実施するためにメモリ702に格納された命令を実行するように構成される。

加えて、メモリ702は、スタティックランダムアクセスメモリ（SRAM）、電気的消去書込み可能読取り専用メモリ（EEPROM）、消去書込み可能読取り専用メモリ（EPROM）、書込み可能読取り専用メモリ（PROM）、読取り専用メモリ（ROM）、磁気メモリ、フラッシュメモリ、磁気ディスク、または光ディスクなどの、任意のタイプの揮発性または不揮発性の記憶装置またはそれらの組み合わせによって実施され得る。

メモリ702は、少なくとも1つの過去のフレームのチャネル間時間差情報および／または少なくとも1つの過去のフレームの重み係数をバッファするようにさらに構成される。

任意選択で、オーディオコーディング装置は収集構成要素を含み、収集構成要素は、マルチチャネル信号を収集するように構成される。

任意選択で、収集構成要素は少なくとも1つのマイクロフォンを含む。各は、チャネル信号の1つのチャネルを収集するように構成される。

任意選択で、オーディオコーディング装置は受信構成要素を含み、受信構成要素は、別の機器によって送信されたマルチチャネル信号を受信するように構成される。

任意選択で、オーディオコーディング装置は復号機能をさらに有する。

図11にはオーディオコーディング装置の簡略化された設計のみが示されていることが理解されよう。別の実施形態では、オーディオコーディング装置は、任意の数の送信機、受信機、プロセッサ、コントローラ、メモリ、通信部、表示部、再生部などを含み得る。これについては本実施形態では限定されない。

任意選択で、本出願は、コンピュータ可読記憶媒体を提供する。本コンピュータ可読記憶媒体は命令を格納する。命令がオーディオコーディング装置上で実行されると、オーディオコーディング装置は、前述の実施形態で提供される遅延推定方法を実行できるようになる。

図12は、本出願の一実施形態による遅延推定装置のブロック図である。本遅延推定装置は、ソフトウェア、ハードウェア、またはその両方を使用して図11に示されるオーディオコーディング装置の全部または一部として実施され得る。本遅延推定装置は、相互相関係数決定部810と、遅延トラック推定部820と、適応関数決定部830、重み付け部840、チャネル間時間差決定部850とを含み得る。

相互相関係数決定部810は、現在のフレームのマルチチャネル信号の相互相関係数を決定するように構成される。

遅延トラック推定部820は、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて現在のフレームの遅延トラック推定値を決定するように構成される。

適応関数決定部830は、現在のフレームの適応窓関数を決定するように構成される。

重み付け部840は、重み付き相互相関係数を得るために、現在のフレームの遅延トラック推定値と現在のフレームの適応窓関数とに基づいて相互相関係数の重み付けを行うように構成される。

チャネル間時間差決定部850は、重み付き相互相関係数に基づいて現在のフレームのチャネル間時間差を決定するように構成される。

任意選択で、適応関数決定部830は、
現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて第1の二乗余弦の幅パラメータを計算し、
現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて第1の二乗余弦の高さバイアスを計算し、
第1の二乗余弦の幅パラメータと第1の二乗余弦の高さバイアスとに基づいて現在のフレームの適応窓関数を決定する
ようにさらに構成される。

任意選択で、本装置は、平滑化されたチャネル間時間差の推定偏差決定部860、をさらに含む。

平滑化されたチャネル間時間差の推定偏差決定部860は、現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差と、現在のフレームの遅延トラック推定値と、現在のフレームのチャネル間時間差とに基づいて現在のフレームの平滑化されたチャネル間時間差の推定偏差を計算するように構成される。

任意選択で、適応関数決定部830は、
相互相関係数に基づいて現在のフレームのチャネル間時間差の初期値を決定し、
現在のフレームの遅延トラック推定値と現在のフレームのチャネル間時間差の初期値とに基づいて現在のフレームのチャネル間時間差の推定偏差を計算し、
現在のフレームのチャネル間時間差の推定偏差に基づいて現在のフレームの適応窓関数を決定する
ようにさらに構成される。

任意選択で、適応関数決定部830は、
現在のフレームのチャネル間時間差の推定偏差に基づいて第2の二乗余弦の幅パラメータを計算し、
現在のフレームのチャネル間時間差の推定偏差に基づいて第2の二乗余弦の高さバイアスを計算し、
第2の二乗余弦の幅パラメータと第2の二乗余弦の高さバイアスとに基づいて現在のフレームの適応窓関数を決定する
ようにさらに構成される。

任意選択で、本装置は、適応パラメータ決定部870をさらに含む。

適応パラメータ決定部870は、現在のフレームの前のフレームのコーディングパラメータに基づいて現在のフレームの適応窓関数の適応パラメータを決定するように構成される。

任意選択で、遅延トラック推定部820は、
現在のフレームの遅延トラック推定値を決定するために、線形回帰法を使用して、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて遅延トラック推定を行う
ようにさらに構成される。

任意選択で、遅延トラック推定部820は、
現在のフレームの遅延トラック推定値を決定するために、重み付き線形回帰法を使用して、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて遅延トラック推定を行う
ようにさらに構成される。

任意選択で、本装置は、更新部880をさらに含む。

更新部880は、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報を更新するように構成される。

任意選択で、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報は、少なくとも1つの過去のフレームのチャネル間時間差平滑値であり、更新部880は、
現在のフレームの遅延トラック推定値と現在のフレームのチャネル間時間差とに基づいて現在のフレームのチャネル間時間差平滑値を決定し、
現在のフレームのチャネル間時間差平滑値に基づいて少なくとも1つの過去のフレームのバッファされたチャネル間時間差平滑値を更新する
ように構成される。

任意選択で、更新部880は、
現在のフレームの前のフレームの音声アクティブ化検出結果または現在のフレームの音声アクティブ化検出結果に基づいて、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報を更新するかどうかを判断する
ようにさらに構成される。

任意選択で、更新部880は、
少なくとも1つの過去のフレームのバッファされた重み係数を更新し、少なくとも1つの過去のフレームの重み係数が重み付き線形回帰法における重み係数である
ようにさらに構成される。

任意選択で、現在のフレームの適応窓関数が、現在のフレームの前のフレームの平滑化されたチャネル間時間差に基づいて決定される場合、更新部880は、
現在のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて現在のフレームの第1の重み係数を計算し、
現在のフレームの第1の重み係数に基づいて少なくとも1つの過去のフレームのバッファされた第1の重み係数を更新する
ようにさらに構成される。

任意選択で、現在のフレームの適応窓関数が現在のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて決定される場合、更新部880は、
現在のフレームのチャネル間時間差の推定偏差に基づいて現在のフレームの第2の重み係数を計算し、
現在のフレームの第2の重み係数に基づいて少なくとも1つの過去のフレームのバッファされた第2の重み係数を更新する
ようにさらに構成される。

任意選択で、更新部880は、
現在のフレームの前のフレームの音声アクティブ化検出結果がアクティブなフレームであるか、または現在のフレームの音声アクティブ化検出結果がアクティブなフレームである場合、少なくとも1つの過去のフレームのバッファされた重み係数を更新する
ようにさらに構成される。

関連した詳細については、前述の方法実施形態を参照されたい。

任意選択で、前述の各ユニットは、オーディオコーディング装置のプロセッサがメモリ内の命令を実行することによって実施され得る。

説明を容易かつ簡潔にするために、前述の装置およびユニットの詳細な動作プロセスについては、前述の方法実施形態における対応するプロセスを参照されたく、ここでは詳細が繰り返されていないことが、当業者にははっきりと理解されよう。

本出願で提供される実施形態では、開示の装置および方法が他の方法で実施され得ることを理解されたい。例えば、記載の装置実施形態は単なる例にすぎない。例えば、ユニット分割は単なる論理的機能分割にすぎず、実際の実装に際しては他の分割であってもよい。例えば、複数のユニットもしくはコンポーネントが組み合わされるか、もしく統合されて別のシステムとなる場合もあり、または一部の機能が無視されるか、もしくは実行されない場合もある。

以上の説明は、本出願の任意選択の実施態様にすぎず、本出願の保護範囲を限定するためのものではない。本出願で開示される技術範囲内で当業者が容易に思いつく一切の変形または置換は、本出願の保護範囲内に含まれるものとする。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従うべきものとする。

110 符号化構成要素
120 復号構成要素
130 移動端末
131 収集構成要素
132 チャネル符号化構成要素
140 移動端末
141 オーディオ再生構成要素
142 チャネル復号構成要素
150 ネットワーク要素
151 チャネル復号構成要素
152 チャネル符号化構成要素
401 狭い窓
402 広い窓
601 チャネル間時間差平滑値
701 プロセッサ
702 メモリ
703 バス
810 相互相関係数決定部
820 遅延トラック推定部
830 適応関数決定部
840 重み付け部
850 チャネル間時間差決定部
860 平滑化されたチャネル間時間差の推定偏差決定部
870 適応パラメータ決定部
880 更新部

Claims

遅延推定方法であって、前記方法が、
オーディオコーディング装置によって、現在のフレームのマルチチャネル信号の相互相関係数を決定するステップと、
前記オーディオコーディング装置によって、少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて前記現在のフレームの遅延トラック推定値を決定するステップと、
前記オーディオコーディング装置によって、前記現在のフレームの適応窓関数を決定するステップであって、前記適応窓関数が二乗余弦のような窓である、ステップと、
前記オーディオコーディング装置によって、重み付き相互相関係数を得るために、前記現在のフレームの前記遅延トラック推定値と前記現在のフレームの前記適応窓関数とに基づいて前記相互相関係数の重み付けを行うステップと、
前記オーディオコーディング装置によって、前記重み付き相互相関係数に基づいて前記現在のフレームのチャネル間時間差を決定するステップと
を含む、遅延推定方法。
前記現在のフレームの適応窓関数を決定する前記ステップが、
前記現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて第1の二乗余弦の幅パラメータを計算するステップと、
前記現在のフレームの前記前のフレームの前記平滑化されたチャネル間時間差の推定偏差に基づいて第1の二乗余弦の高さバイアスを計算するステップと、
前記第1の二乗余弦の幅パラメータと前記第1の二乗余弦の高さバイアスとに基づいて前記現在のフレームの前記適応窓関数を決定するステップと
を含む、請求項1に記載の方法。
前記第1の二乗余弦の幅パラメータが以下の計算式：
win＿width1＝TRUNC（width＿par1＊（A＊L＿NCSHIFT＿DS＋1））
width＿par1＝a＿width1＊smooth＿dist＿reg＋b＿width1、式中、
a＿width1＝（xh＿width1－xl＿width1）／（yh＿dist1－yl＿dist1）
b＿width1＝xh＿width1－a＿width1＊yh＿dist1であって、
式中、win＿width1が、前記第1の二乗余弦の幅パラメータであり、TRUNCが、値を丸めることを指示し、L＿NCSHIFT＿DSが、チャネル間時間差の絶対値の最大値であり、Aが、既定の定数であり、Aが、4以上であり、xh＿width1が、前記第1の二乗余弦の幅パラメータの上限値であり、xl＿width1が、前記第1の二乗余弦の幅パラメータの下限値であり、yh＿dist1が、前記第1の二乗余弦の幅パラメータの前記上限値に対応する平滑化されたチャネル間時間差の推定偏差であり、yl＿dist1が、前記第1の二乗余弦の幅パラメータの前記下限値に対応する平滑化されたチャネル間時間差の推定偏差であり、smooth＿dist＿regが、前記現在のフレームの前記前のフレームの前記平滑化されたチャネル間時間差の推定偏差であり、xh＿width1、xl＿width1、yh＿dist1、およびyl＿dist1がすべて正の数である、計算式
を使用した計算によって得られる、請求項2に記載の方法。
width＿par1＝min（width＿par1，xh＿width1）、および
width＿par1＝max（width＿par1，xl＿width1）であり、
式中、minが、最小値を取ることを表し、maxが、最大値を取ることを表す、請求項3に記載の方法。
前記第1の二乗余弦の高さバイアスが以下の計算式：
win＿bias1＝a＿bias1＊smooth＿dist＿reg＋b＿bias1、式中、
a＿bias1＝（xh＿bias1－xl＿bias1）／（yh＿dist2－yl＿dist2）、
b＿bias1＝xh＿bias1－a＿bias1＊yh＿dist2であって、
式中、win＿bias1が、前記第1の二乗余弦の高さバイアスであり、xh＿bias1が、前記第1の二乗余弦の高さバイアスの上限値であり、xl＿bias1が、前記第1の二乗余弦の高さバイアスの下限値であり、yh＿dist2が、前記第1の二乗余弦の高さバイアスの前記上限値に対応する平滑化されたチャネル間時間差の推定偏差であり、yl＿dist2が、前記第1の二乗余弦の高さバイアスの前記下限値に対応する平滑化されたチャネル間時間差の推定偏差であり、smooth＿dist＿regが、前記現在のフレームの前記前のフレームの前記平滑化されたチャネル間時間差の推定偏差であり、yh＿dist2、yl＿dist2、xh＿bias1、およびxl＿bias1がすべて正の数である、計算式
を使用した計算によって得られる、請求項3または4に記載の方法。
win＿bias1＝min（win＿bias1，xh＿bias1）、および
win＿bias1＝max（win＿bias1，xl＿bias1）であり、
式中、minが、最小値を取ることを表し、maxが、最大値を取ることを表す、請求項5に記載の方法。
yh＿dist2＝yh＿dist1、およびyl＿dist2＝yl＿dist1である、請求項5または6に記載の方法。
前記適応窓関数が、以下の式：
0≦k≦TRUNC（A＊L＿NCSHIFT＿DS／2）－2＊win＿width1－1の場合、
loc＿weight＿win（k）＝win＿bias1、
TRUNC（A＊L＿NCSHIFT＿DS／2）－2＊win＿width1≦k≦TRUNC（A＊L＿NCSHIFT＿DS／2）＋2＊win＿width1－1の場合、
loc＿weight＿win（k）＝0．5＊（1＋win＿bias1）＋0．5＊（1－win＿bias1）＊cos（π＊（k－TRUNC（A＊L＿NCSHIFT＿DS／2））／（2＊win＿width1））、および
TRUNC（A＊L＿NCSHIFT＿DS／2）＋2＊win＿width1≦k≦A＊L＿NCSHIFT＿DSの場合、
loc＿weight＿win（k）＝win＿bias1であって、
式中、loc＿weight＿win（k）が、前記適応窓関数を表すために使用され、k＝0，1，．．．，A＊L＿NCSHIFT＿DSであり、Aが、既定の定数であり、4以上であり、L＿NCSHIFT＿DSが、前記チャネル間時間差の絶対値の最大値であり、win＿width1が、前記第1の二乗余弦の幅パラメータであり、win＿bias1が、前記第1の二乗余弦の高さバイアスである、式
を使用して表される、請求項2から7のいずれか一項に記載の方法。
前記重み付き相互相関係数に基づいて前記現在のフレームのチャネル間時間差を決定する前記ステップの後に、
前記現在のフレームの前記前のフレームの前記平滑化されたチャネル間時間差の推定偏差と、前記現在のフレームの前記遅延トラック推定値と、前記現在のフレームの前記チャネル間時間差とに基づいて前記現在のフレームの平滑化されたチャネル間時間差の推定偏差を計算するステップ
をさらに含み、
前記現在のフレームの前記平滑化されたチャネル間時間差の推定偏差が以下の計算式：
smooth＿dist＿reg＿update＝（1－γ）＊smooth＿dist＿reg＋γ＊dist＿reg’、および
dist＿reg’＝｜reg＿prv＿corr－cur＿itd｜であって、
式中、smooth＿dist＿reg＿updateが、前記現在のフレームの前記平滑化されたチャネル間時間差の推定偏差であり、γが、第1の平滑化係数であり、0＜γ＜1であり、smooth＿dist＿regが、前記現在のフレームの前記前のフレームの前記平滑化されたチャネル間時間差の推定偏差であり、reg＿prv＿corrが、前記現在のフレームの前記遅延トラック推定値であり、cur＿itdが、前記現在のフレームの前記チャネル間時間差である、計算式
を使用した計算によって得られる、請求項2から8のいずれか一項に記載の方法。
前記現在のフレームの適応窓関数を決定する前記ステップが、
前記相互相関係数に基づいて前記現在のフレームの前記チャネル間時間差の初期値を決定するステップと、
前記現在のフレームの前記遅延トラック推定値と前記現在のフレームの前記チャネル間時間差の前記初期値とに基づいて前記現在のフレームのチャネル間時間差の推定偏差を計算するステップと、
前記現在のフレームの前記チャネル間時間差の推定偏差に基づいて前記現在のフレームの前記適応窓関数を決定するステップと
を含み、
前記現在のフレームの前記チャネル間時間差の推定偏差が以下の計算式：
dist＿reg＝｜reg＿prv＿corr－cur＿itd＿init｜であって、
式中、dist＿regが、前記現在のフレームの前記チャネル間時間差の推定偏差であり、reg＿prv＿corrが、前記現在のフレームの前記遅延トラック推定値であり、cur＿itd＿initが、前記現在のフレームの前記チャネル間時間差の前記初期値である、計算式
を使用した計算によって得られる、請求項1に記載の方法。
前記現在のフレームの前記チャネル間時間差の推定偏差に基づいて前記現在のフレームの前記適応窓関数を決定する前記ステップが、
前記現在のフレームの前記チャネル間時間差の推定偏差に基づいて第2の二乗余弦の幅パラメータを計算するステップと、
前記現在のフレームの前記チャネル間時間差の推定偏差に基づいて第2の二乗余弦の高さバイアスを計算するステップと、
前記第2の二乗余弦の幅パラメータと前記第2の二乗余弦の高さバイアスとに基づいて前記現在のフレームの前記適応窓関数を決定するステップと
を含む、請求項10に記載の方法。
前記重み付き相互相関係数が以下の計算式：
c＿weight（x）＝c（x）＊loc＿weight＿win（x－TRUNC（reg＿prv＿corr）＋TRUNC（A＊L＿NCSHIFT＿DS／2）－L＿NCSHIFT＿DS）であって、
式中、c＿weight（x）が、前記重み付き相互相関係数であり、c（x）が、前記相互相関係数であり、loc＿weight＿winが、前記現在のフレームの前記適応窓関数であり、TRUNCが、値を丸めることを指示し、reg＿prv＿corrが、前記現在のフレームの前記遅延トラック推定値であり、xが、ゼロ以上2＊L＿NCSHIFT＿DS以下の整数であり、L＿NCSHIFT＿DSが、前記チャネル間時間差の絶対値の最大値である、計算式
を使用した計算によって得られる、請求項1から11のいずれか一項に記載の方法。
前記現在のフレームの適応窓関数を決定する前記ステップの前に、
前記現在のフレームの前記前のフレームのコーディングパラメータに基づいて前記現在のフレームの前記適応窓関数の適応パラメータを決定するステップであって、
前記コーディングパラメータが、前記現在のフレームの前記前のフレームのマルチチャネル信号のタイプを指示するために使用されるか、または前記コーディングパラメータが、そこで時間領域ダウンミキシング処理が行われる前記現在のフレームの前記前のフレームのマルチチャネル信号のタイプを指示するために使用され、前記適応パラメータが、前記現在のフレームの前記適応窓関数を決定するために使用される、ステップ
をさらに含む、請求項1から12のいずれか一項に記載の方法。
少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて前記現在のフレームの遅延トラック推定値を決定する前記ステップが、
前記現在のフレームの前記遅延トラック推定値を決定するために、線形回帰法を使用して、前記少なくとも1つの過去のフレームの前記バッファされたチャネル間時間差情報に基づいて遅延トラック推定を行うステップ
を含む、請求項1から13のいずれか一項に記載の方法。
少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて前記現在のフレームの遅延トラック推定値を決定する前記ステップが、
前記現在のフレームの前記遅延トラック推定値を決定するために、重み付き線形回帰法を使用して、前記少なくとも1つの過去のフレームの前記バッファされたチャネル間時間差情報に基づいて遅延トラック推定を行うステップ
を含む、請求項1から13のいずれか一項に記載の方法。
前記重み付き相互相関係数に基づいて前記現在のフレームのチャネル間時間差を決定する前記ステップの後に、
前記少なくとも1つの過去のフレームの前記バッファされたチャネル間時間差情報を更新するステップであって、前記少なくとも1つの過去のフレームの前記チャネル間時間差情報が、前記少なくとも1つの過去のフレームのチャネル間時間差平滑値または前記少なくとも1つの過去のフレームのチャネル間時間差である、ステップ
をさらに含む、請求項1から15のいずれか一項に記載の方法。
前記少なくとも1つの過去のフレームの前記チャネル間時間差情報が、前記少なくとも1つの過去のフレームの前記チャネル間時間差平滑値であり、前記少なくとも1つの過去のフレームの前記バッファされたチャネル間時間差情報を更新する前記ステップが、
前記現在のフレームの前記遅延トラック推定値と前記現在のフレームの前記チャネル間時間差とに基づいて前記現在のフレームのチャネル間時間差平滑値を決定するステップと、
前記現在のフレームの前記チャネル間時間差平滑値に基づいて前記少なくとも1つの過去のフレームのバッファされたチャネル間時間差平滑値を更新するステップであって、
前記現在のフレームの前記チャネル間時間差平滑値が以下の計算式：
cur＿itd＿smooth＝φ＊reg＿prv＿corr＋（1－φ）＊cur＿itdであって、式中、
cur＿itd＿smoothが、前記現在のフレームの前記チャネル間時間差平滑値であり、φが、第2の平滑化係数であり、0以上1以下の定数であり、reg＿prv＿corrが、前記現在のフレームの前記遅延トラック推定値であり、cur＿itdが、前記現在のフレームの前記チャネル間時間差である、計算式
を使用して得られる、ステップと
を含む、請求項16に記載の方法。
前記少なくとも1つの過去のフレームの前記バッファされたチャネル間時間差情報を更新する前記ステップが、
前記現在のフレームの前のフレームの音声アクティブ化検出結果がアクティブなフレームであるか、または前記現在のフレームの音声アクティブ化検出結果がアクティブなフレームである場合、前記少なくとも1つの過去のフレームの前記バッファされたチャネル間時間差情報を更新するステップ
を含む、請求項16または17に記載の方法。
前記重み付き相互相関係数に基づいて前記現在のフレームのチャネル間時間差を決定する前記ステップの後に、
前記少なくとも1つの過去のフレームのバッファされた重み係数を更新するステップであって、前記少なくとも1つの過去のフレームの前記重み係数が前記重み付き線形回帰法における重み係数である、ステップ
をさらに含む、請求項15から18のいずれか一項に記載の方法。
前記現在のフレームの前記適応窓関数が、前記現在のフレームの前のフレームの平滑化されたチャネル間時間差に基づいて決定される場合、前記少なくとも1つの過去のフレームのバッファされた重み係数を更新する前記ステップが、
前記現在のフレームの前記平滑化されたチャネル間時間差の推定偏差に基づいて前記現在のフレームの第1の重み係数を計算するステップと、
前記現在のフレームの前記第1の重み係数に基づいて前記少なくとも1つの過去のフレームのバッファされた第1の重み係数を更新するステップであって、
前記現在のフレームの前記第1の重み係数が以下の計算式：
wgt＿par1＝a＿wgt1＊smooth＿dist＿reg＿update＋b＿wgt1、
a＿wgt1＝（xl＿wgt1－xh＿wgt1）／（yh＿dist1’－yl＿dist1’）、および
b＿wgt1＝xl＿wgt1－a＿wgt1＊yh＿dist1’であって、
式中、wgt＿par1が、前記現在のフレームの前記第1の重み係数であり、smooth＿dist＿reg＿updateが、前記現在のフレームの前記平滑化されたチャネル間時間差の推定偏差であり、xh＿wgtが、前記第1の重み係数の上限値であり、xl＿wgtが、前記第1の重み係数の下限値であり、yh＿dist1’が、前記第1の重み係数の前記上限値に対応する平滑化されたチャネル間時間差の推定偏差であり、yl＿dist1’が、前記第1の重み係数の前記下限値に対応する平滑化されたチャネル間時間差の推定偏差であり、yh＿dist1’、yl＿dist1’、xh＿wgt1、およびxl＿wgt1がすべて正の数である、計算式
を使用した計算によって得られる、ステップと
を含む、請求項19に記載の方法。
wgt＿par1＝min（wgt＿par1，xh＿wgt1）、および
wgt＿par1＝max（wgt＿par1，xl＿wgt1）であり、
式中、minが、最小値を取ることを表し、maxが、最大値を取ることを表す、請求項20に記載の方法。
前記現在のフレームの前記適応窓関数が前記現在のフレームの前記チャネル間時間差の推定偏差に基づいて決定される場合、前記少なくとも1つの過去のフレームのバッファされた重み係数を更新する前記ステップが、
前記現在のフレームの前記チャネル間時間差の推定偏差に基づいて前記現在のフレームの第2の重み係数を計算するステップと、
前記現在のフレームの前記第2の重み係数に基づいて前記少なくとも1つの過去のフレームのバッファされた第2の重み係数を更新するステップと
を含む、請求項19に記載の方法。
前記少なくとも1つの過去のフレームのバッファされた重み係数を更新する前記ステップが、
前記現在のフレームの前のフレームの音声アクティブ化検出結果がアクティブなフレームであるか、または前記現在のフレームの音声アクティブ化検出結果がアクティブなフレームである場合、前記少なくとも1つの過去のフレームの前記バッファされた重み係数を更新するステップ
を含む、請求項19から22のいずれか一項に記載の方法。
遅延推定装置であって、前記装置が、
現在のフレームのマルチチャネル信号の相互相関係数を決定するように構成された、相互相関係数決定部と、
少なくとも1つの過去のフレームのバッファされたチャネル間時間差情報に基づいて前記現在のフレームの遅延トラック推定値を決定するように構成された、遅延トラック推定部と、
前記現在のフレームの適応窓関数を決定するように構成され、前記適応窓関数が二乗余弦のような窓である、適応関数決定部と、
重み付き相互相関係数を得るために、前記現在のフレームの前記遅延トラック推定値と前記現在のフレームの前記適応窓関数とに基づいて前記相互相関係数の重み付けを行うように構成された、重み付け部と、
前記重み付き相互相関係数に基づいて前記現在のフレームのチャネル間時間差を決定するように構成された、チャネル間時間差決定部と
を含む、遅延推定装置。
前記適応関数決定部が、
前記現在のフレームの前のフレームの平滑化されたチャネル間時間差の推定偏差に基づいて第1の二乗余弦の幅パラメータを計算し、
前記現在のフレームの前記前のフレームの前記平滑化されたチャネル間時間差の推定偏差に基づいて第1の二乗余弦の高さバイアスを計算し、
前記第1の二乗余弦の幅パラメータと前記第1の二乗余弦の高さバイアスとに基づいて前記現在のフレームの前記適応窓関数を決定する
ように構成される、請求項24に記載の装置。
前記第1の二乗余弦の幅パラメータが以下の計算式：
win＿width1＝TRUNC（width＿par1＊（A＊L＿NCSHIFT＿DS＋1））
width＿par1＝a＿width1＊smooth＿dist＿reg＋b＿width1、式中、
a＿width1＝（xh＿width1－xl＿width1）／（yh＿dist1－yl＿dist1）
b＿width1＝xh＿width1－a＿width1＊yh＿dist1であって、
win＿width1が、前記第1の二乗余弦の幅パラメータであり、TRUNCが、値を丸めることを指示し、L＿NCSHIFT＿DSが、チャネル間時間差の絶対値の最大値であり、Aが、既定の定数であり、Aが、4以上であり、xh＿width1が、前記第1の二乗余弦の幅パラメータの上限値であり、xl＿width1が、前記第1の二乗余弦の幅パラメータの下限値であり、yh＿dist1が、前記第1の二乗余弦の幅パラメータの前記上限値に対応する平滑化されたチャネル間時間差の推定偏差であり、yl＿dist1が、前記第1の二乗余弦の幅パラメータの前記下限値に対応する平滑化されたチャネル間時間差の推定偏差であり、smooth＿dist＿regが、前記現在のフレームの前記前のフレームの前記平滑化されたチャネル間時間差の推定偏差であり、xh＿width1、xl＿width1、yh＿dist1、およびyl＿dist1がすべて正の数である、計算式
を使用した計算によって得られる、請求項25に記載の装置。
width＿par1＝min（width＿par1，xh＿width1）、および
width＿par1＝max（width＿par1，xl＿width1）であり、式中、
minが、最小値を取ることを表し、maxが、最大値を取ることを表す、請求項26に記載の装置。
前記第1の二乗余弦の高さバイアスが以下の計算式：
win＿bias1＝a＿bias1＊smooth＿dist＿reg＋b＿bias1、式中、
a＿bias1＝（xh＿bias1－xl＿bias1）／（yh＿dist2－yl＿dist2）、
b＿bias1＝xh＿bias1－a＿bias1＊yh＿dist2であって、
win＿bias1が、前記第1の二乗余弦の高さバイアスであり、xh＿bias1が、前記第1の二乗余弦の高さバイアスの上限値であり、xl＿bias1が、前記第1の二乗余弦の高さバイアスの下限値であり、yh＿dist2が、前記第1の二乗余弦の高さバイアスの前記上限値に対応する平滑化されたチャネル間時間差の推定偏差であり、yl＿dist2が、前記第1の二乗余弦の高さバイアスの前記下限値に対応する平滑化されたチャネル間時間差の推定偏差であり、smooth＿dist＿regが、前記現在のフレームの前記前のフレームの前記平滑化されたチャネル間時間差の推定偏差であり、yh＿dist2、yl＿dist2、xh＿bias1、およびxl＿bias1がすべて正の数である、計算式
を使用した計算によって得られる、請求項26または27に記載の装置。
win＿bias1＝min（win＿bias1，xh＿bias1）、および
win＿bias1＝max（win＿bias1，xl＿bias1）であり、式中、
minが、最小値を取ることを表し、maxが、最大値を取ることを表す、請求項28に記載の装置。
yh＿dist2＝yh＿dist1、およびyl＿dist2＝yl＿dist1である、請求項28または29に記載の装置。
前記適応窓関数が以下の式：
0≦k≦TRUNC（A＊L＿NCSHIFT＿DS／2）－2＊win＿width1－1の場合、
loc＿weight＿win（k）＝win＿bias1、
TRUNC（A＊L＿NCSHIFT＿DS／2）－2＊win＿width1≦k≦TRUNC（A＊L＿NCSHIFT＿DS／2）＋2＊win＿width1－1の場合、
loc＿weight＿win（k）＝0．5＊（1＋win＿bias1）＋0．5＊（1－win＿bias1）＊cos（π＊（k－TRUNC（A＊L＿NCSHIFT＿DS／2））／（2＊win＿width1））、および
TRUNC（A＊L＿NCSHIFT＿DS／2）＋2＊win＿width1≦k≦A＊L＿NCSHIFT＿DSの場合、
loc＿weight＿win（k）＝win＿bias1であって、式中、
loc＿weight＿win（k）が、前記適応窓関数を表すために使用され、k＝0，1，．．．，A＊L＿NCSHIFT＿DSであり、Aが、既定の定数であり、4以上であり、L＿NCSHIFT＿DSが、前記チャネル間時間差の絶対値の最大値であり、win＿width1が、前記第1の二乗余弦の幅パラメータであり、win＿bias1が、前記第1の二乗余弦の高さバイアスである、式
を使用して表される、請求項25から30のいずれか一項に記載の装置。
前記装置が、
前記現在のフレームの前のフレームの前記平滑化されたチャネル間時間差の推定偏差と、前記現在のフレームの前記遅延トラック推定値と、前記現在のフレームの前記チャネル間時間差とに基づいて前記現在のフレームの平滑化されたチャネル間時間差の推定偏差を計算するように構成された、平滑化されたチャネル間時間差の推定偏差決定部
をさらに含み、
前記現在のフレームの前記平滑化されたチャネル間時間差の推定偏差が以下の計算式：
smooth＿dist＿reg＿update＝（1－γ）＊smooth＿dist＿reg＋γ＊dist＿reg’、および
dist＿reg＝｜reg＿prv＿corr－cur＿itd｜であって、
smooth＿dist＿reg＿updateが、前記現在のフレームの前記平滑化されたチャネル間時間差の推定偏差であり、γが、第1の平滑化係数であり、0＜γ＜1であり、smooth＿dist＿regが、前記現在のフレームの前記前のフレームの前記平滑化されたチャネル間時間差の推定偏差であり、reg＿prv＿corrが、前記現在のフレームの前記遅延トラック推定値であり、cur＿itdが、前記現在のフレームの前記チャネル間時間差である、計算式
を使用した計算によって得られる、請求項25から31のいずれか一項に記載の装置。
前記重み付き相互相関係数が以下の計算式：
c＿weight（x）＝c（x）＊loc＿weight＿win（x－TRUNC（reg＿prv＿corr）＋TRUNC（A＊L＿NCSHIFT＿DS／2）－L＿NCSHIFT＿DS）であって、式中、
c＿weight（x）が、前記重み付き相互相関係数であり、c（x）が、前記相互相関係数であり、loc＿weight＿winが、前記現在のフレームの前記適応窓関数であり、TRUNCが、値を丸めることを指示し、reg＿prv＿corrが、前記現在のフレームの前記遅延トラック推定値であり、xが、ゼロ以上2＊L＿NCSHIFT＿DS以下の整数であり、L＿NCSHIFT＿DSが、前記チャネル間時間差の絶対値の最大値である、計算式
を使用した計算によって得られる、請求項24から32のいずれか一項に記載の装置。
前記遅延トラック推定部が、
前記現在のフレームの前記遅延トラック推定値を決定するために、線形回帰法を使用して、前記少なくとも1つの過去のフレームの前記バッファされたチャネル間時間差情報に基づいて遅延トラック推定を行う
ようにさらに構成される、請求項24から33のいずれか一項に記載の装置。
前記遅延トラック推定部が、
前記現在のフレームの前記遅延トラック推定値を決定するために、重み付き線形回帰法を使用して、前記少なくとも1つの過去のフレームの前記バッファされたチャネル間時間差情報に基づいて遅延トラック推定を行う
ようにさらに構成される、請求項24から33のいずれか一項に記載の装置。
前記装置が、
前記少なくとも1つの過去のフレームの前記バッファされたチャネル間時間差情報を更新するように構成された更新部であって、前記少なくとも1つの過去のフレームの前記チャネル間時間差情報が、前記少なくとも1つの過去のフレームのチャネル間時間差平滑値または前記少なくとも1つの過去のフレームのチャネル間時間差である、更新部
をさらに含む、請求項24から35のいずれか一項に記載の装置。
前記少なくとも1つの過去のフレームの前記チャネル間時間差情報が、前記少なくとも1つの過去のフレームの前記チャネル間時間差平滑値であり、前記更新部が、
前記現在のフレームの前記遅延トラック推定値と前記現在のフレームの前記チャネル間時間差とに基づいて前記現在のフレームのチャネル間時間差平滑値を決定し、
前記現在のフレームの前記チャネル間時間差平滑値に基づいて前記少なくとも1つの過去のフレームのバッファされたチャネル間時間差平滑値を更新し、
前記現在のフレームの前記チャネル間時間差平滑値が以下の計算式：
cur＿itd＿smooth＝φ＊reg＿prv＿corr＋（1－φ）＊cur＿itdであって、式中、
cur＿itd＿smoothが、前記現在のフレームの前記チャネル間時間差平滑値であり、φが、第2の平滑化係数であり、0以上1以下の定数であり、reg＿prv＿corrが、前記現在のフレームの前記遅延トラック推定値であり、cur＿itdが、前記現在のフレームの前記チャネル間時間差である、計算式
を使用して得られる、
ように構成される、請求項36に記載の装置。
前記更新部が、
前記少なくとも1つの過去のフレームのバッファされた重み係数を更新し、前記少なくとも1つの過去のフレームの前記重み係数が前記重み付き線形回帰法における重み係数である、
ようにさらに構成される、請求項36または37に記載の装置。
前記現在のフレームの前記適応窓関数が、前記現在のフレームの前のフレームの平滑化されたチャネル間時間差に基づいて決定される場合、前記更新部が、
前記現在のフレームの前記平滑化されたチャネル間時間差の推定偏差に基づいて前記現在のフレームの第1の重み係数を計算し、
前記現在のフレームの前記第1の重み係数に基づいて前記少なくとも1つの過去のフレームのバッファされた第1の重み係数を更新し、
前記現在のフレームの前記第1の重み係数が以下の計算式：
wgt＿par1＝a＿wgt1＊smooth＿dist＿reg＿update＋b＿wgt1、
a＿wgt1＝（xl＿wgt1－xh＿wgt1）／（yh＿dist1’－yl＿dist1’）、および
b＿wgt1＝xl＿wgt1－a＿wgt1＊yh＿dist1’であって、式中、
wgt＿par1が、前記現在のフレームの前記第1の重み係数であり、smooth＿dist＿reg＿updateが、前記現在のフレームの前記平滑化されたチャネル間時間差の推定偏差であり、xh＿wgtが、前記第1の重み係数の上限値であり、xl＿wgtが、前記第1の重み係数の下限値であり、yh＿dist1’が、前記第1の重み係数の前記上限値に対応する平滑化されたチャネル間時間差の推定偏差であり、yl＿dist1’が、前記第1の重み係数の前記下限値に対応する平滑化されたチャネル間時間差の推定偏差であり、yh＿dist1’、yl＿dist1’、xh＿wgt1、およびxl＿wgt1がすべて正の数である、計算式
を使用した計算によって得られる、
ように構成される、請求項38に記載の装置。
wgt＿par1＝min（wgt＿par1，xh＿wgt1）、および
wgt＿par1＝max（wgt＿par1，xl＿wgt1）であり、式中、
minが、最小値を取ることを表し、maxが、最大値を取ることを表す、請求項39に記載の装置。
オーディオコーディング装置であって、前記オーディオコーディング装置が、プロセッサと、前記プロセッサに接続されたメモリとを含み、
前記メモリが、前記プロセッサによって制御されるように構成され、前記プロセッサが、請求項1から23のいずれか一項に記載の遅延推定方法を実施するように構成される、オーディオコーディング装置。
プログラムが記録されたコンピュータ可読な記録媒体であって、前記プログラムがコンピュータに請求項1から23のいずれか一項に記載の方法を実行させる、コンピュータ可読な記録媒体。
コンピュータに請求項1から23のいずれか一項に記載の方法を実行させるよう構成された、媒体に格納されたコンピュータプログラム。