JP2009003388A - ピッチ探索範囲決定装置、ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体 - Google Patents

ピッチ探索範囲決定装置、ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体 Download PDF

Info

Publication number
JP2009003388A
JP2009003388A JP2007166883A JP2007166883A JP2009003388A JP 2009003388 A JP2009003388 A JP 2009003388A JP 2007166883 A JP2007166883 A JP 2007166883A JP 2007166883 A JP2007166883 A JP 2007166883A JP 2009003388 A JP2009003388 A JP 2009003388A
Authority
JP
Japan
Prior art keywords
search range
pitch
section
search
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007166883A
Other languages
English (en)
Other versions
JP4928367B2 (ja
Inventor
Naka Omuro
仲 大室
Shigeaki Sasaki
茂明 佐々木
Yuusuke Hiwazaki
祐介 日和▲崎▼
Takeshi Mori
岳至 森
Akitoshi Kataoka
章俊 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007166883A priority Critical patent/JP4928367B2/ja
Publication of JP2009003388A publication Critical patent/JP2009003388A/ja
Application granted granted Critical
Publication of JP4928367B2 publication Critical patent/JP4928367B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

【課題】パケットロスコンシールメント(パケット消失補償)等に用いることができるピッチ推定方法で用いられる探索範囲の決定技術を提供する。
【解決手段】採択指標計算部11が、ピッチを求めようとする部分の音声信号の母音性を表す指標である採択指標を計算する。判断部12が、採択指標と予め定められた採択基準値を比較することにより、ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強いかどうかを判断する。探索範囲決定部13が、ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強いと判断された場合には、探索範囲Aを探索範囲として決定し、そうでない場合には、探索範囲Aよりも狭い探索範囲Bを探索範囲として決定する。
【選択図】図1

Description

この発明は、ディジタル化された音声信号、楽音信号などの音響信号、その他周期的な成分を含む信号を分析してピッチを探索する際に用いるピッチ探索範囲決定装置、そのピッチ探索範囲決定装置を用いたピッチ探索装置、そのピッチ探索装置を用いたパケット消失補償装置、それらの方法、プログラム及びその記録媒体に関する。
インターネットをはじめとするパケット通信網を用いて音声を送受信する利用が増えている。IP電話もその一例である。図7に、パケット通信網5を用いた音声通信システム7を例示する。音声通信システム7は、音声を符号化及びパケット化して送信するパケット送信部4、例えばインターネット等のパケット通信網5、音声パケットを復号化して音声を出力するパケット受信部6を備える。
送信側のパケット送信部4は、入力音声をフレームと呼ばれる一定時間長の区間ごとに区切り、フレーム化された音声信号を音声符号化の手法を用いて音声符号に変換して、音声パケットとしてパケット通信網5に送信する。フレーム長としては、一般に5ms〜20msが用いられる。
受信側のパケット受信部6は、受信した音声パケットを、送信側の音声符号化手法に対応する復号手法を用いてフレーム化された音声信号に変換して、その音声を出力する。
パケット通信網5を利用した音声通信で問題となるのは、パケット通信網5を含む経路上でパケットが失われることや、制限時間内にパケットが届かなかったためにパケットが破棄されることによって起こる、パケットロスである。
パケットロスが発生した場合には、受信側のパケット受信部6でパケットロスコンシールメント(パケット消失補償)と呼ばれる手法を使って、再生音の劣化を抑える処理を行うことが一般的である。パケットロスコンシールメントの代表的な方法として、ITU-T G.711 Appendix Iに記載された方法が知られている(例えば、非特許文献1参照。)。
図8に、ITU-T G.711 Appendix Iで利用されているパケットロスコンシールメントの手法を組み込んだパケット受信部6の機能構成を例示する。
受信した音声パケットは、受信バッファ61に蓄えられる。受信バッファ61は、ゆらぎ吸収バッファとも呼ばれる。
音声復号部62は、受信バッファ61から1フレーム分の音声符号をフレーム番号順に取り出す。このとき、取り出そうとしたフレームの音声符号が正しく受信されており受信バッファ61内に格納されている場合は、取り出した音声符号を復号化して音声信号に変換して、スイッチ64に送る。取り出そうとしたフレームの音声符号がパケットロスによって受信バッファ61に格納されていない場合には、パケットロス検出部63によってそのフレームはパケットロスであると判断される。
パケットロス検出部63は、パケットロスでない場合はスイッチをA側にセットするようにスイッチ64を制御する。これにより、音声復号部62で復号された音声信号がそのまま出力音声としてパケット受信部6から出力される。一方、パケットロスである場合にはスイッチをB側にセットするようにスイッチ64を制御する。これにより、パケットロスである場合には、後述するパケットロスコンシールメント部65から出力される信号が、スイッチ64を通って、パケット受信部6から出力される。
パケットロスコンシールメント部65には、1フレーム前までの出力音声信号が入力される。入力された予め定められた過去一定時間(フレーム数)の出力音声信号が出力音声バッファ66に蓄えられる。
出力音声バッファ66に蓄積された音声信号は、ピッチ探索部67に送られる。
ピッチ探索部67は、後述する方法によりピッチを計算して、音響波形補完処理部68に送る。
音響波形補完処理部68は、出力音声バッファ66に蓄えられた直前フレームの再生音声から、ピッチ長の波形又は予め規則によって決められたピッチ長に対応する長さの波形(以下、総称してピッチ長の波形という。)を切り出し、切り出したビッチ長の波形をピッチ長の間隔で並べることによって、ロスしたフレーム部分の音声信号を生成する。
図9に、従来のピッチ探索部67におけるピッチ探索方法を示す。ここでは、一例として、フレーム長が10msであるとする。
従来、ピッチ探索部67では、パケットロスが発生すると、ロスしたフレームの直前フレームを基準区間とする。この基準区間を、予め定められた探索範囲で順次ずらして行き、そのずらした区間の信号と、基準区間の信号との相関値を順次計算する。相関値を最大にする区間を決定して、その区間を相関最大区間とする。そして、相関最大区間と基準区間とのサンプル位置の差からピッチを求めていた。
このとき、上記予め定められた探索範囲は、基準区間に対して最低何サンプルずれから最大何サンプルずれのように表される。そして、この最低何サンプルずれから最大何サンプルずれの範囲でピッチが決定された。非特許文献1に記載された方法における探索範囲は、40〜120サンプルであり固定されていた。入力音声のサンプリング周波数が8kHzであるとすると、ピッチ長が40サンプルであることは200Hzに対応し、120サンプルであることは約66kHzに対応する。
ITU-T G.711 Appendix I、[online]、[平成19年6月8日検索]、インターネット<http://www.itu.int/rec/T-REC-G.711-199909-I!AppI/en>
従来のピッチ探索方法では、探索範囲が例えば、基準区間に対して40〜120サンプルずれのように探索を開始する前に予め固定的に決められており、推定されるピッチの精度が必ずしも良くないという問題があった。つまり、探索範囲を狭くしておくと、その探索範囲に対応する周波数帯から外れた周波数帯の信号のピッチを推定することはできず、探索範囲を広くしておくと、目的信号ではない信号のピッチを推定してしまう可能性が高くなるという問題があった。
また、このピッチの推定精度の低さに起因して、パケットロスコンシールメントによる再生音声の音質が必ずしも良くないという問題があった。
本発明は、ピッチを正確に推定するための技術を提供することを目的とする。また、パケットロスコンシールメントによる再生音声の音質を上げることを目的とする。
本発明のピッチ探索範囲決定装置によれば、音響信号のピッチを探索するために用いる、予め定められた基準区間に対するサンプルずれの範囲で表される探索範囲を決定するピッチ探索範囲決定装置において、ピッチを求めようとする部分の音響信号の母音性を表す指標である採択指標を計算する。採択指標と予め定められた採択基準値を比較することにより、ピッチを求めようとする部分の音響信号の母音性が所定の強さよりも強いかどうかを判断する。ピッチを求めようとする部分の音響信号の母音性が所定の強さよりも強いと判断された場合には、探索範囲Aを探索範囲として決定し、そうでない場合には、探索範囲Aよりも狭い探索範囲Bを探索範囲として決定する。
また、本発明のピッチ探索装置によれば、基準区間を上記決定された探索範囲で順次ずらして行き、そのずらした区間の信号と、基準区間の信号との相関値を順次計算する。計算された相関値を最大にする区間を決定して、その区間を相関最大区間とする。決定された相関最大区間と、上記基準区間とのサンプル位置の差を計算して、その差をピッチとする。
また、本発明のパケット消失補償装置によれば、上記計算されたピッチ長の音響信号を切り出して、パケットが消失した部分に繰り返し並べる。
探索範囲を動的に選択することにより、ピッチの推定精度を上げることができる。また、探索範囲を動的に選択するピッチ探索手法に基づいてパケットロスコンシールメントを行うことにより、パケットロスコンシールメントによる再生音の音質を上げることができる。
[第一実施形態]
図1〜3,5,6を参照して、本発明の第一実施形態によるピッチ探索装置100について説明をする。図1は、ピッチ探索装置100の機能構成を例示する図である。図1に例示するように、ピッチ探索装置100は、例えば、ピッチの探索範囲を決定するピッチ探索範囲決定部1、ピッチの探索範囲に関する情報が格納された探索範囲記憶部2、決定された探索範囲に基づいてピッチを計算するピッチ計算部3を備える。ピッチ探索範囲決定部1は、例えば、ピッチを求めようとする部分の音声信号の母音性を示す指標である採択指標を計算する採択指標計算部11、採択指標と採択基準値を比較することによりピッチを求めようとする部分の音声信号の母音性の強さを判断する判断部12、母音性の強さに応じて探索範囲を定める探索範囲決定部13を備える。判断部12は、採択基準値を格納した採択基準値記憶部121を備えている。
図2は採択指標計算部11の機能構成を例示する図である。図2に例示するように、採択指標計算部11は、基準区間の信号と、基準区間を所定の探索範囲でずらした区間の信号との相関値を順次計算する相関値計算部111、相関値の最大値を採択指標として出力する相関最大値決定部112を備える。
図3はピッチ計算部3の機能構成を例示する図である。図3に例示するように、ピッチ計算部3は、基準区間の信号と、基準区間を所定の探索範囲でずらした区間の信号との相関値を順次計算する相関値計算部31と、相関値を最大にする相関最大区間を選択する相関最大区間決定部32と、相関最大区間と基準区間とのサンプル差を計算する差計算部33とを備える。
図5は、ピッチの計算方法の説明を補助する図であり、図6は、ピッチ探索装置100の処理の流れを例示するフローチャート図である。
入力される信号は周期的な性質を有する任意の信号でよいが、ここでは、音声信号が入力される場合を例に挙げて説明をする。すなわち、音声信号のピッチを探索する場合を例に挙げて説明をする。この例では、音声信号は、サンプリング周波数8kHzでサンプリングされ、10msの長さのフレームに分割されているものとする。すなわち、80個のサンプルで1フレームが構成されているものとする。サンプリング周波数、1フレームの長さは任意であり、この例に限られない。なお、音声信号は、ピッチ探索装置100に直接入力されてもよいし、図示していないバッファに一度格納され、そのバッファからピッチ探索装置100に読み込まれてもよい。
探索範囲記憶部2には、探索範囲として、第一探索範囲、第二探索範囲の2つの範囲が格納されている。探索範囲とは、基準区間に対するずれjの範囲のことである。第一探索範囲の基準区間に対するずれjの範囲は、第一探索範囲のずれの最小値をJ11、ずれの最大値をJ12と表記すると、J11≦j≦J12と記述される。また、第二探索範囲の基準区間に対するずれjの範囲は、第二探索範囲のずれの最小値をJ21、ずれの最大値をJ22とすると、J21≦j≦J22と記述される。
例えば、J11≦J12≦J21≦J22となるように、第一探索範囲、第二探索範囲を設定する。より具体的には、図5に例示するように、第一探索範囲の範囲を20≦j≦39であり、第二探索範囲の範囲を40≦j≦120とする。すなわち、第一探索範囲は基準区間に対して20〜39サンプルずれの範囲であり、第二探索範囲は基準区間に対して40〜120サンプルずれの範囲とする。図5に例示した第一探索範囲は、基準区間の最後のサンプルNの位置を第一探索範囲のずれの範囲(20≦j≦39)だけずらすことにより表したものである。同様に、図5に例示した第二探索範囲は、基準区間の最後のサンプルNの位置を第二探索範囲のずれの範囲(40≦j≦120)だけずらすことにより表したものである。
サンプリング周波数を8kHzとすると、第一探索範囲は約200Hz〜400Hzに対応しており、第二探索範囲は約66Hz〜200Hzに対応している。すなわち、第一探索範囲は約200Hz〜400Hzのピッチを探索することができる範囲であり、第二探索範囲は約66Hz〜200Hzのピッチを探索することができる範囲となる。
図5に示すように、基準区間の最初のサンプルをN、最後のサンプルをNとする。図5においては、ロスフレームの直前フレームを基準区間としているが、基準区間の位置はこれに限られない。ロスフレームより前であって、ロスフレームに近い区間であれば、ロスフレームの直前フレームに基準区間を設けなくてもよい。また、基準区間の候補を複数用意して、その候補の中から定常的な1つの区間を基準区間としてもよい。なお、ピッチ探索装置100を、パケットロスコンシールメント(パケット消失補償)以外に用いる場合には、ピッチを探索しようとする部分に基準区間を設ければよい。
<ステップS1>
ピッチ探索範囲決定部1(図1)の採択指標計算部11は、ピッチを求めようとする部分の音声信号の母音性を表す指標である採択指標を計算して、判断部12に送る。
採択指標は、例えば、基準区間を第一探索範囲で順次ずらした区間のそれぞれについて、そのずらした区間の信号と基準区間の信号の相関値を順次計算した場合の、その相関値の最大値である。この相関値の最大値は、採択指標の値が大きいほど母音性が強い採択指標の一例である。採択指標の値が大きいほど母音性が高い採択指標の他の例として、基準区間のパワー、基準区間における1サンプルあたりの平均振幅、基準区間における一次自己相関値があり、これらの指標を採択指標として用いてもよい。なお、基準区間のゼロクロッシング(zero crossing)数等の採択指標の値が小さいほど母音性が強い指標を採択指標として用いてもよい。
ここで、基準区間をずらすとは、基準区間自体をずらすことではなく、基準区間と同じ大きさの区間を基準区間に対してずらすことを意味する。
採択指標が、この相関値の最大値である場合には、下記のステップS11〜S12の処理を行うことにより計算することができる。
≪ステップS11≫
採択指標計算部11の相関値計算部111(図2)は、入力された音声信号を用いて、基準区間を第一探索範囲で順次ずらして、そのずらした区間の信号と基準区間の信号の相関値を順次計算して、相関最大値決定部112に送る(ステップS11)。第一探索範囲は、探索範囲記憶部2から読み込んだ情報を用いて特定される。また、基準区間は、図示していない記憶部から読み込んだ情報を用いて特定される。
音声信号のn番目のサンプル、言い換えると、図示していない音声バッファ内の第nサンプル時刻における音声信号のサンプル値をx(n)とし、基準区間の最初のサンプル(開始点)をN、最後のサンプル(終了点)をNとし、第一探索範囲をJ11≦j≦J12とすると、基準区間の音声信号と、基準区間をjだけずらした区間の音声信号との相関値Cは以下のように計算することができる。
Figure 2009003388
各jについて相関値Cが計算される。第一探索範囲が20≦j≦39である場合には、各j(20≦j≦39)ごとに相関値Cが計算される。
≪ステップS12≫
採択指標計算部11の相関最大値決定部112(図2)は、相関値計算部111が計算した相関値の中で最大の相関値を決定し、その相関値の最大値を採択指標として判断部12に送る(ステップS12)。
すなわち、各j(J11≦j≦J12)ごとに計算された相関値Cの最大値maxCj(J11≦j≦J12)を採択指標として選択する。第一探索範囲が20≦j≦39である場合には、各j(20≦j≦39)ごとに計算された20個の相関値の中の最大値を採択指標として選択する。
<ステップS2>
判断部12(図1)は、採択指標計算部11が計算した採択指標と、採択基準値記憶部121から読み込んだ採択基準値とを比較することにより、ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強いかどうかを判断する。具体的には、採択指標が採択基準値以上であるかどうかを判断する。判断結果は、判断情報として、探索範囲決定部13に送られる(ステップS2)。
採択指標として、採択指標の値が小さいほど母音性が強いことを示す指標を用いた場合には、採択指標が採択基準値以下であるかどうかを判断する。
採択基準値は、ピッチの推定精度が最も高くなるように実験的に定める。例えば、採択指標として上記相関値の最大値を用いるとき、全く同じ形の波形が一定周期で繰り返している場合の相関値を1と定義すると、採択基準値として例えば0.5〜0.7の値を用いることができる。
採択基準として基準区間における一サンプルあたりの平均振幅を用いた場合には、採択基準値は50〜100程度となる。
なお、本明細書、特許請求の範囲においては、原則として、「以上」とは、「より上」の概念を包括するものとする。すなわち、AはB以上(A≧B)であると言った場合には、AがB以上(A≧B)であっても、AがBより大(A>B)であってもよいものとする。同様に「以下」とは、「より下」の概念を包括するものとする。
<ステップS3>
探索範囲決定部13は、判断部12から受け取った判断情報が、ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強いことを示すものであれば、第一探索範囲と第二探索範囲とを合わせた範囲を探索範囲とする。判断部12から受け取った判断情報が、ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強くないことを示すものであれば、第二探索範囲を探索範囲とする。決定された探索範囲についての情報(探索範囲情報)は、ピッチ計算部3に送られる(ステップS3)。第一探索範囲と第二探索範囲は、探索範囲記憶部2から読み込んで特定される。
このようにして、ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強い場合には、そうでない場合よりも、広い探索範囲が決定されるようにする。
探索範囲情報とは、例えば、決定された探索範囲の基準区間に対するずれの最小値J、ずれの最大値Jの組(J,J)である。例えば、第一探索範囲と第二探索範囲とを合わせた範囲が探索範囲として選択された場合には、(J,J)=(J11,J22)が探索範囲情報となり、第二探索範囲が探索範囲として選択された場合には、(J,J)=(J21,J22)が探索範囲情報となる。また、探索範囲情報は、第一探索範囲を探索範囲に含めるかどうかを二値的に表現した情報であってもよい。
<ステップS4>
ピッチ計算部3(図1、図3)は、ピッチ探索範囲決定部1が決定した探索範囲に基づいて、入力音声信号のピッチを計算して出力する。ステップS4は、下記のステップS41〜S43から構成される。
≪ステップS41≫
まず、ピッチ計算部3の相関値計算部31(図3)は、予め定められた基準区間を決定された探索範囲で順次ずらした区間のそれぞれについて、そのずらした区間の信号と、上記決定された基準区間の信号との相関値を順次計算する(ステップS41)。計算された計算値は相関最大区間決定部32に送られる。
具体的には、音声信号のn番目のサンプル、言い換えると第nサンプル時刻における音声信号のサンプル値をx(n)とし、基準区間の最初のサンプル(開始点)をN、最後のサンプル(終了点)をNとし、探索範囲をJ≦j≦Jとして、下記の式により基準区間の音声信号と、基準区間をjだけずらした区間の音声信号との相関値Cを計算する。
Figure 2009003388
この式は、ステップS11における相関値Cの定義式(1)と同じものである。各j(J≦j≦J)ごとに計算された相関値Cは、相関最大区間決定部32に送られる。
≪ステップS42≫
相関最大区間決定部32は、相関値を最大にする区間を決定して、その区間を相関最大区間とする。相関最大区間についての情報(相関最大区間情報)は、差計算部33に送られる(ステップS42)。
≪ステップS43≫
差計算部33は、相関最大区間と、基準区間とのサンプル位置の差を計算してピッチ長を求める。このピッチ長をピッチとして出力する(ステップS43)。相関最大区間は相関最大区間情報から特定され、基準区間は図示していない記憶部から読み込んだ情報を用いて特定される。
なお、変換部331が、計算されたピッチ長の逆数を取ることにより、波長ではなく周波数でピッチを表現したものを計算して、これをピッチとして出力してもよい。
このように、ピッチを求めようとする部分の音声信号の母音性を表す採択指標を計算して、所定の採択基準値と比較することにより、ピッチを求めようとする部分の母音具合、波形の類似性を測る。例えば、採択指標が採択基準値以上であれば、ピッチを求めようとする部分が母音区間である可能性が高いと判断して、探索範囲を広げる。一方、ピッチを求めようとする部分が母音区間である可能性が低い場合には、探索範囲を広げない。このように、ピッチを求めようとする部分の母音性が強い場合の探索範囲を、ピッチを求めようとする部分の母音性が弱い場合の探索範囲よりも広くして、探索範囲を動的に変化させることにより、ピッチをより正確に推定することができる。
本発明によるピッチ探索装置、方法等をパケットロスコンシールメントに用いる場合の従来技術の問題点と、本発明によるピッチ探索装置、方法等の有利な効果について述べる。
従来、探索範囲は、基準区間に対して40〜120サンプルずれの範囲で固定されていた。入力音声のサンプリング周波数が8kHzであるとすると、ピッチ長が40サンプルであることは200Hzに対応し、120サンプルであることは約66kHzに対応する。しかし、実際の音声では、特に女性の場合には、ピッチ長が最短で20サンプル程度、すなわち、サンプリング周波数が8kHzである場合には400Hz相当になることがある。このため、探索範囲の下限を40サンプルに制限すると、実際のピッチ長の倍の値がピッチとして使われることになり、ピッチを正しく推定することはできない場合あり、この誤って推定されたピッチをパケットロスコンシールメントに用いると、音質が劣化するという問題があった。
パケットロスコンシールメントにおいて上記の音質劣化を防ぐために、探索範囲を広げて、探索範囲を、基準区間に対して20〜120サンプルずれの範囲とする手法も考えられる。しかし、子音部などでパケットロスが発生した場合には、短い周期の波形が繰り返された音声が生成されることによる不自然な音が生じることがあった。
このように、探索範囲に20〜39サンプルずれの範囲を常に含めることは、約200Hz〜400Hzの高い音声についてパケットロスが生じた場合には再生音声の音質を上げることができるというメリットがある一方で、子音部でパケットロスが発生した場合には不自然な音が生じるというデメリットがあり、一長一短であった。
しかし、上述のように、ピッチを求めようとする部分の母音性が強い場合にのみ、探索範囲に20〜39サンプルずれの範囲を含めることにより、上記の問題を解決することができる。
[第二実施形態]
第二実施形態のピッチ探索装置101は、採択指標として異なる複数の採択指標を用いており、これらの採択指標と対応する採択基準値とを採択指標ごとに比較した結果に基づいて探索範囲を求める点で第一実施形態のピッチ探索装置100と異なる。他の点については第一実施形態のピッチ探索装置100と同様である。以下では、第一実施形態と異なる部分について説明をする。同じ部分については同じ符号を付けて重複説明を省略する。
図4に第二実施形態によるピッチ探索範囲決定部1’の機能構成を例示する。ピッチ探索範囲決定部1’は、異なる複数の採択指標を計算する採択指標計算部11’と、ピッチを求めようとする音声信号部分の母音性の強さを判断する判断部12’と、母音性の強さに応じて探索範囲を定める探索範囲決定部13を備える。判断部12’は、異なる複数の採択指標にそれぞれ対応する予め定められた複数の採択基準値が格納されている採択基準値記憶部124と、異なる複数の採択指標と対応する採択基準値との比較をそれぞれ行う第一判断部122と、各採択指標ごとの比較結果に基づいて、ピッチを求めようとする音声信号の母音性の強さを最終的に決定する第二判断部123と、を備える。
ピッチ探索範囲決定部1の採択指標計算部11’(図4)は、予め定めた、異なる複数の採択指標を計算して、判断部12’に送る。例えば、上記した相関値の最大値と、基準区間のパワーをそれぞれ計算して判断部12’に送る。相関値の最大値の求め方は第一実施形態と同様であるため説明を省略する。
まず、第一実施形態の採択指標計算部11と同様に1つの採択指標を計算する(ステップS1,図1)。その後、すべての採択指標について計算したかどうかを判定する(ステップS1’)。すべての採択指標については計算していない場合には、ステップS1に戻り他の採択指標を計算する。このステップS1,S1’の処理を繰り返すことにより、すべての採択指標を計算する。
判断部12’の第一判断部122は、採択指標計算部11’が計算した各採択指標と、採択基準値記憶部121から読み込んだ対応する採択基準値とをそれぞれ比較することにより、異なる複数の採択指標の観点から、各採択指標ごとに、母音性が所定の強さよりも強いかどうかを判断する。その比較結果は、比較情報として第二判断部123に送られる。
例えば、第一判断部122は、相関値の最大値とその相関値の最大値に対応する採択基準値とを比較するとともに、基準区間のパワーとその基準区間のパワーに対応する採択基準値とを比較する。これにより、相関値の最大値と基準区間のパワーの両採択指標の観点から、ピッチを求めようとする音声信号の母音性の強さを測る。
まず、第一実施形態の判断部12と同様に、ある採択指標とその採択指標に対応する採択基準値とを比較する(ステップS2)。その後、すべての採択指標について対応する採択基準値との比較を行ったかどうかを判定する(ステップS2’,図6)。すべての採択指標については比較を行っていない場合には、ステップS2に戻り他の採択指標について比較を行う。このステップS2,S2’の処理を繰り返すことにより、すべての採択指標について対応する採択基準値との比較を行う。
判断部12’の第二判断部123は、各比較情報を考慮して、ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強いかどうかを最終的に判断して、その判断結果を判断情報として探索範囲決定部13に送る。
例えば、すべての採択指標において、母音性が所定の強さよりも強いと判断とされた場合には、上記ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強いと最終的に判断する。何れか1つの採択指標において、母音性が所定の強さよりも弱いと判断された場合には、上記ピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強くないと最終的に判断する。
探索範囲決定部13は、第二判断部123のピッチを求めようとする部分の音声信号の母音性が所定の強さよりも強いかどうかの最終的な判断に基づいて、第一実施形態と同様にして探索範囲を決定する。
このように、異なる複数の採択指標の観点から判定することにより、ピッチを求めようとする部分の音声信号の母音性の強さを精度良く判定することができる。これにより、ピッチの推定精度も上がり、パケットロスコンシールメントに用いる場合にはその再生音声の音質も上がる。
[変形例等]
上記実施形態では、第一探索範囲を20≦j≦39、第二探索範囲の範囲を40≦j≦120として、ピッチを探索しようとする部分の音声信号の母音性の強さによって、対応する周波数が高い第一探索範囲を探索範囲に含めるかどうかを決定した。しかし、例えば、第一探索範囲を121≦j≦160、第二探索範囲の範囲を40≦j≦120として、ピッチを探索しようとする部分の音声信号の母音性が強ければ、第一探索範囲を探索範囲に含め、そうでなければ第一探索範囲を探索範囲に含めないようにしてもよい。
また、第一の探索範囲を20≦j≦39,121≦j≦160として第一の探索範囲を2つ設け、第二の探索範囲を40≦j≦120として、ピッチを探索しようとする部分の音声信号の母音性が強ければ、2つの第一探索範囲を探索範囲に含め、そうでなければ2つの第一探索範囲を探索範囲に含めないようにしてもよい。
上記実施形態では、所定の第一探索範囲と、その第一探索範囲に隣接する所定の第二探索範囲とを予め用意しておき。ピッチを求めようとする部分の音声信号の母音性が強い場合には、第一探索範囲と第二探索範囲を合わせた範囲を探索範囲とし、そうでない場合には、第二探索範囲を探索範囲とすることにより、ピッチを求めようとする部分の音声信号の母音性が強い場合の探索範囲をそうでない場合の探索範囲よりも広くした。しかし、探索範囲の決定の仕方はこれに限られない。例えば、探索範囲Aと、この探索範囲Aよりも狭い探索範囲Bを予め用意しておき、ピッチを求めようとする部分の音声信号の母音性が強い場合には、探索範囲Aを探索範囲とし、そうでない場合には、探索範囲Bを探索範囲としてもよい。
上記実施形態では、式(1)によって相関値Cを求めたが、相関値Cに代えて下式によって定まる相関値C ,C ,C をそれぞれ用いてもよい。
Figure 2009003388
採択基準値は、フレームごとに異なる値、すなわち動的閾値を用いてもよい。図1,図4に破線で示す動的閾値計算部14が、過去の一定時間におけるパワーや相関値を観測して、予め定められた規則によってそれらの観測されたパワーや相関値から採択基準値を計算する。そして、計算された採択基準値で、採択基準値記憶部121に格納された採択基準値を更新する。このように、採択基準値を時々刻々と動的に更新することにより、ピッチを探索しようとする部分の音声信号の母音性の強さをより正確に特定することができ、これによりピッチの推定精度が上がり、パケットロスコンシールメントに用いる場合にはその再生音声の音質も上がる。
本発明によるピッチ探索装置、方法等をパケット消失補償装置に用いるためには、図8に示したパケットロスコンシールメント部65のピッチ探索部67の代わりに、図1等に例示したピッチ探索装置100,101を用いればよい。この場合、ピッチ探索部67の代わりにピッチ探索装置100,101を用いたパケットロスコンシールメント部65が、パケット消失補償装置となる。ピッチ探索装置100,101には出力音声バッファ66から読み込んだ音声信号が入力され、ピッチ探索装置100,101が計算したピッチは音響波形補完処理部68に出力される。ピッチ探索部67の代わりにピッチ探索装置100,101を用いた場合の、パケットロスコンシールメント部65(パケット消失補償装置)及びパケット受信部6の機能構成・処理は、背景技術及び図1に記載したものと同様であるため説明を省略する。
上記実施形態の説明では、音声信号のピッチを探索する場合を例に挙げて説明をしたが、本発明によるピッチ探索範囲決定装置、ピッチ探索装置、パケット消失補償装置、これらの方法、プログラム及びその記録媒体は、周期的な成分を含む任意の信号に適用することができる。すなわち、音声信号、楽音信号等を含む音響信号を本発明に適用してもよい。
上述の構成(ピッチ探索範囲決定装置、ピッチ探索装置、パケット消失補償装置)をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD
−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
本発明の第一実施形態によるピッチ探索装置100の機能構成を例示する図。 採択指標計算部11の機能構成を例示する図。 ピッチ計算部3の機能構成を例示する図。 本発明の第二実施形態によるピッチ探索装置101のピッチ探索範囲決定部1機能構成を例示する図。 本発明によるピッチの計算方法の説明を補助する図。 ピッチ探索装置100,101の処理の流れを例示するフローチャート図。 音声通信システム7の機能構成を例示する図。 パケット受信部6の機能構成を例示する図。 背景技術によるピッチの計算方法の説明を補助する図。
符号の説明
1 ピッチ探索範囲決定部
1’ ピッチ探索範囲決定部
2 探索範囲記憶部
3 ピッチ計算部
4 パケット送信部
5 パケット通信網
6 パケット受信部
7 音声通信システム
11 採択指標計算部
12 判断部
13 探索範囲決定部
14 動的閾値計算部
31 相関値計算部
32 相関最大区間決定部
33 差計算部
61 受信バッファ
62 音声復号部
63 パケットロス検出部
64 スイッチ
65 パケットロスコンシールメント部
66 出力音声バッファ
67 ピッチ探索部
68 音響波形補完処理部
100 ピッチ探索装置
101 ピッチ探索装置
111 相関値計算部
112 相関最大値決定部
121 採択基準値記憶部
122 第一判断部
123 第二判断部
124 採択基準値記憶部
331 変換部

Claims (17)

  1. 音響信号のピッチを探索するために用いる、予め定められた基準区間に対するサンプルずれの範囲で表される探索範囲を決定するピッチ探索範囲決定装置において、
    ピッチを求めようとする部分の音響信号の母音性を表す指標である採択指標を計算する採択指標計算手段と、
    上記計算された採択指標と予め定められた採択基準値を比較することにより、上記ピッチを求めようとする部分の音響信号の母音性が所定の強さよりも強いかどうかを判断する判断手段と、
    上記ピッチを求めようとする部分の音響信号の母音性が所定の強さよりも強いと判断された場合には、探索範囲Aを探索範囲として決定し、そうでない場合には、探索範囲Bを探索範囲として決定する探索範囲決定手段と、
    を備え、
    探索範囲Aは、探索範囲Bよりも広い、
    ことを特徴とするピッチ探索範囲決定装置。
  2. 請求項1に記載のピッチ探索範囲決定装置において、
    上記探索範囲Aは、所定の第一探索範囲と、その第一探索範囲に隣接する所定の第二探索範囲とを合わせた範囲であり、
    上記探索範囲Bは、上記第二探索範囲である、
    ことを特徴とするピッチ探索範囲決定装置。
  3. 請求項2に記載のピッチ探索範囲決定装置において、
    上記第一探索範囲は、上記基準区間からJ11〜J12サンプルずれの範囲であり、
    上記第二探索範囲は、上記基準区間からJ21〜J22サンプルずれの範囲であり、
    11<J12<J21<J22である、
    ことを特徴とするピッチ探索範囲決定装置。
  4. 請求項2又は3に記載のピッチ探索範囲決定装置において、
    上記採択指標は、上記基準区間を上記第一探索範囲で順次ずらした区間のそれぞれについて計算した、そのずらした区間の信号と上記基準区間の信号との相関値の最大値である、
    ことを特徴とするピッチ探索範囲決定装置。
  5. 請求項1から3の何れかに記載のピッチ探索範囲決定装置において、
    上記採択指標は、異なる複数の採択指標であり、
    上記採択基準値は、上記異なる複数の採択指標にそれぞれ対応する予め定められた複数の採択基準値であり、
    上記判断手段は、
    上記異なる複数の採択指標を対応する採択指標とそれぞれ比較することにより、各採択指標ごとに、母音性が所定の強さよりも強いかどうかを判断する第一判断手段と、
    すべての採択指標において、母音性が所定の強さよりも強いと判断とされた場合には、上記ピッチを求めようとする部分の音響信号の母音性が所定の強さよりも強いと最終的に判断する第二判断手段と、
    である、
    ことを特徴とするピッチ探索範囲決定装置。
  6. 請求項1から5の何れかに記載のピッチ探索範囲決定装置において、
    さらに、上記採択基準値を動的に定める動的閾値計算手段を備える、
    ことを特徴とするピッチ探索範囲決定装置。
  7. 請求項1から6の何れかに記載のピッチ探索範囲決定装置と、
    上記基準区間を上記決定された探索範囲で順次ずらした区間のそれぞれについて、そのずらした区間の信号と、上記基準区間の信号との相関値を順次計算する相関値計算手段と、
    上記計算された相関値を最大にする区間を決定して、その区間を相関最大区間とする相関最大区間決定手段と、
    上記決定された相関最大区間と、上記基準区間とのサンプル位置の差を計算して、その差をピッチとするサンプル差計算手段と、
    を備えるピッチ探索装置。
  8. 請求項7に記載のピッチ探索装置を備え、
    上記基準区間は、パケットが消失した部分に近い音響信号の区間であり、
    さらに、上記計算されたピッチ長に対応する音響信号を切り出して、パケットが消失した部分に繰り返し並べる音響波形補完処理手段を備える、
    ことを特徴とするパケット消失補償装置。
  9. 音響信号のピッチを探索するために用いる、予め定められた基準区間に対するサンプルずれの範囲で表される探索範囲を決定するピッチ探索範囲決定方法において、
    採択指標計算手段が、ピッチを求めようとする部分の音響信号の母音性を表す指標である採択指標を計算する採択指標計算ステップと、
    判断手段が、上記計算された採択指標と予め定められた採択基準値を比較することにより、上記ピッチを求めようとする部分の音響信号の母音性が所定の強さよりも強いかどうかを判断する判断ステップと、
    探索範囲決定手段が、上記ピッチを求めようとする部分の音響信号の母音性が所定の強さよりも強いと判断された場合には、探索範囲Aを探索範囲として決定し、そうでない場合には、探索範囲Bを探索範囲として決定する探索範囲決定ステップと、
    を有し、
    探索範囲Aは、探索範囲Bよりも広い、
    ことを特徴とするピッチ探索範囲決定方法。
  10. 請求項9に記載のピッチ探索範囲決定方法の各ステップと、
    相関値計算手段が、上記基準区間を上記決定された探索範囲で順次ずらした区間のそれぞれについて、そのずらした区間の信号と、上記基準区間の信号との相関値を順次計算する相関値計算ステップと、
    相関最大区間決定手段と、上記計算された相関値を最大にする区間を決定して、その区間を相関最大区間とする相関最大区間決定ステップと、
    サンプル差計算手段と、上記決定された相関最大区間と、上記基準区間とのサンプル位置の差を計算して、その差をピッチとするサンプル差計算ステップと、
    を有するピッチ探索方法。
  11. 請求項10に記載のピッチ探索方法の各ステップを有し、
    上記基準区間は、パケットが消失した部分に近い音響信号の区間であり、
    さらに、音響波形補完処理手段が、上記計算されたピッチ長に対応する音響信号を切り出して、パケットが消失した部分に繰り返し並べる音響波形補完処理ステップを有する、
    ことを特徴とするパケット消失補償方法。
  12. 請求項1から請求項6の何れかに記載のピッチ探索範囲決定装置の各手段としてコンピュータを機能させるためのピッチ探索範囲決定プログラム。
  13. 請求項7に記載のピッチ探索装置の各手段としてコンピュータを機能させるためのピッチ探索プログラム。
  14. 請求項8に記載のパケット消失補償装置の各手段としてコンピュータを機能させるためのパケット消失補償プログラム。
  15. 請求項12に記載のピッチ探索範囲決定プログラムを記録したコンピュータ読み取り可能な記録媒体。
  16. 請求項13に記載のピッチ探索プログラムを記録したコンピュータ読み取り可能な記録媒体。
  17. 請求項14に記載のパケット消失補償プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007166883A 2007-06-25 2007-06-25 パケット受信装置及び方法 Active JP4928367B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007166883A JP4928367B2 (ja) 2007-06-25 2007-06-25 パケット受信装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007166883A JP4928367B2 (ja) 2007-06-25 2007-06-25 パケット受信装置及び方法

Publications (2)

Publication Number Publication Date
JP2009003388A true JP2009003388A (ja) 2009-01-08
JP4928367B2 JP4928367B2 (ja) 2012-05-09

Family

ID=40319786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007166883A Active JP4928367B2 (ja) 2007-06-25 2007-06-25 パケット受信装置及び方法

Country Status (1)

Country Link
JP (1) JP4928367B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838477A (zh) * 2021-09-13 2021-12-24 阿波罗智联(北京)科技有限公司 音频数据包的丢包恢复方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5969798A (ja) * 1982-10-14 1984-04-20 松下電器産業株式会社 ピツチ抽出方法
JPH0351900A (ja) * 1989-07-20 1991-03-06 Fujitsu Ltd エラー処理方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5969798A (ja) * 1982-10-14 1984-04-20 松下電器産業株式会社 ピツチ抽出方法
JPH0351900A (ja) * 1989-07-20 1991-03-06 Fujitsu Ltd エラー処理方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838477A (zh) * 2021-09-13 2021-12-24 阿波罗智联(北京)科技有限公司 音频数据包的丢包恢复方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP4928367B2 (ja) 2012-05-09

Similar Documents

Publication Publication Date Title
JP4928366B2 (ja) ピッチ探索装置、パケット消失補償装置、それらの方法、プログラム及びその記録媒体
KR100770839B1 (ko) 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
US7664650B2 (en) Speech speed converting device and speech speed converting method
US11211077B2 (en) Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program
EP2506253A2 (en) Audio signal processing method and device
JP2013537324A (ja) ピッチラグを推定すること
KR20090083070A (ko) 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
KR101096540B1 (ko) 피치 검색을 위한 방법 및 장치
US5704000A (en) Robust pitch estimation method and device for telephone speech
KR100463417B1 (ko) 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
JP4758879B2 (ja) 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法
US10096330B2 (en) Utterance condition determination apparatus and method
JP4928367B2 (ja) パケット受信装置及び方法
US8392177B2 (en) Method and apparatus for frequency encoding, and method and apparatus for frequency decoding
CN113658581B (zh) 声学模型的训练、语音处理方法、装置、设备及存储介质
JP4580622B2 (ja) 広帯域音声符号化方法及び広帯域音声符号化装置
US9620139B2 (en) Adaptive linear predictive coding/decoding
JPH113098A (ja) 音声符号化方法および装置
KR20060002569A (ko) 수신단 기반의 패킷 손실 복구 장치 및 그 방법
JP5182112B2 (ja) デコード装置および音声符号化方式推定方法
JP6502099B2 (ja) 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム
KR100668247B1 (ko) 음성 전송 시스템
JP5002642B2 (ja) 広帯域音声符号化方法及び広帯域音声符号化装置
JP2001147700A (ja) 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体
JP2014228599A (ja) 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100520

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4928367

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350