JP6163785B2 - 音声帯域拡張装置及びプログラム - Google Patents

音声帯域拡張装置及びプログラム Download PDF

Info

Publication number
JP6163785B2
JP6163785B2 JP2013039606A JP2013039606A JP6163785B2 JP 6163785 B2 JP6163785 B2 JP 6163785B2 JP 2013039606 A JP2013039606 A JP 2013039606A JP 2013039606 A JP2013039606 A JP 2013039606A JP 6163785 B2 JP6163785 B2 JP 6163785B2
Authority
JP
Japan
Prior art keywords
band
gain
expansion
extension
power information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013039606A
Other languages
English (en)
Other versions
JP2014167557A (ja
Inventor
大 藤枝
大 藤枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2013039606A priority Critical patent/JP6163785B2/ja
Publication of JP2014167557A publication Critical patent/JP2014167557A/ja
Application granted granted Critical
Publication of JP6163785B2 publication Critical patent/JP6163785B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Control Of Amplification And Gain Control (AREA)
  • Telephone Function (AREA)

Description

本発明は音声帯域拡張装置及びプログラムに関し、例えば、電話機器(ソフトフォン等を含む)に適用し得るものである。
レガシーな電話機器で伝送できる音声信号の周波数帯域は、約300Hzから3.4kHzである。このような電話帯域に帯域制限された狭帯域音声信号の音声は、本来の音声よりもこもった音質になるため、言葉が聞き取り難くなるといった問題が生じる。
この問題を解決するために、3.4kHz以上の拡張信号を追加して広帯域音声信号へと拡張することで、音声の明瞭性を向上させる帯域拡張技術が開発されており、例えば、電話機器が出力する音声信号の音質の向上を図っている。
特許出願人が注目するアプローチは、狭帯域音声信号に対して時間領域で処理を施すことで拡張信号を生成し、狭帯域音声信号と生成した拡張信号とを合成することで擬似広帯域音声信号を生成するアプローチである。時間領域の処理は非線形な処理が大半である。また、拡張信号の一部又は全部として適当な雑音を利用する方法も多い。このようなアプローチは、時間領域で処理を行う上にコードブックを必要としないため、少ない計算量と少ないリソースで帯域拡張を実現できるというメリットがある。
図6は、このようなアプローチにおける最も基本的な構成を示しており、以下、図6の構成を簡単に説明する。
図6の構成を有する音声帯域拡張装置100は、サンプリング変換部101、バンドパスフィルタリング部(BPF)102、全波整流部103、ハイパスフィルタリング部(HPF)104、周波数解析部105、拡張ゲイン算出部106、乗算部107及び加算部108を有する。
サンプリング変換部101は、サンプリング周波数が8kHzの狭帯域音声信号Sを、サンプリング周波数が16kHzの信号にアップサンプリングする。アップサンプリングされた狭帯域音声信号XLは、バンドパスフィルタリング部102及び加算部108に与えられる。バンドパスフィルタリング102によって、アップサンプリングされた狭帯域音声信号XLの例えば帯域2kHz〜4kHzが濾波され、その濾波信号XBは、全波整流部103によって全波整流されて、例えば0Hz〜8kHzの帯域を有する信号Eとなり、ハイパスフィルタリング104によって、全波整流信号の例えば4kHz以上の成分が濾波されて拡張信号EHが生成される。周波数解析部105によって、狭帯域音声信号Sが周波数解析されて、周波数スペクトルの振幅包絡、及び、周波数スペクトルの傾きの少なくとも一方に関するスペクトルパラメータSFが算出され、拡張ゲイン算出部106において、スペクトルパラメータSFに基づいて拡張ゲインEGが算出されて、得られた拡張ゲインEGが乗算部107に与えられる(周波数解析、拡張ゲインの算出方法として、非特許文献1に記載の方法を適用できる)。乗算部107において、生成された拡張信号EHに、算出された拡張ゲインEGが乗算されて、拡張信号の振幅が調整され、加算部108において、アップサンプリングされた狭帯域音声信号XLと振幅調整された拡張信号XHとが合成(加算)されて、擬似広帯域音声信号Xが生成される。
Naofumi Aoki,"A Band Extension Technique for Narrow−Band Telephony Speech Based on Full Wave Rectification", IEICE Trans. Commun.,Vol.E93−B(3),pp.729−731,2010.
しかしながら、従来の音声帯域拡張装置では、無声音の高域を十分に拡張できず、音声の明瞭度や了解度を改善できず、生成された擬似広帯域音声が聴覚的にこもった音声になるという課題があった。
これを回避しようとして、無理に無声音の高域を拡張しようとすると、有声音が過剰に拡張されて、生成された擬似広帯域音声は聴覚的に雑音が重畳されたような音声になるという課題があった。
本発明は、上記従来の課題を解決することを目的とするものであり、周波数帯域が制限された狭帯域音声の制限帯域外を少ない演算量で拡張し、拡張後の音声が実用的に十分なレベルの言葉の音質と了解度を有することを目的とする。
第1の本発明は、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置において、(1)上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、(2)上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、(3)上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段とを備え、(4)上記拡張ゲイン形成手段は、上記パワー情報の大小に応じて、上記拡張ゲインの最大値を制限することを特徴とする。
第2の本発明は、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置において、(1)上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、(2)上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、(3)上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段とを備え、(4)上記拡張ゲイン形成手段は、上記パワー情報の大小に応じて、上記拡張ゲインの算出方法における上記拡張ゲインの値の大きくなりやすさを制御することを特徴とする。
第3の本発明は、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置において、(1)上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、(2)上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、(3)上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段とを備え、(4)上記拡張ゲイン形成手段は、上記パワー情報の大小に応じて、上記拡張ゲインの算出方法の非線形式のパラメータ(2乗項の指数)を制御することを特徴とする。
第4の本発明は、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置において、(1)上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、(2)上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、(3)上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段とを備え、(4)上記拡張ゲイン形成手段は、上記拡張ゲインの算出方法として、一次関数と二次関数の式に対応でき、上記パワー情報の大小に応じて、適用する上記拡張ゲインの算出方法を一次関数と二次関数のいずれかに選択することを特徴とする音声帯域拡張装置。
第5の本発明は、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置において、(1)上記狭帯域音声信号を周波数解析して、所定の周波数より低い帯域を含む狭帯域内低域パワーと、当該所定の周波数より高い帯域を含む狭帯域内高域パワーと、グラディエントインデックスとを含むスペクトルパラメータを得る周波数解析手段と、(2)上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、(3)上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを、上記パワー情報の大小に応じて、狭帯域内高域パワーを狭帯域内低域パワーで除した値と、グラディエントインデックスとのいずれの特徴量を用いるかを選択して得る拡張ゲイン形成手段とを備えることを特徴とする。
の本発明の音声帯域拡張プログラムは、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置に搭載されるコンピュータを、(1)上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、(2)上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、(3)上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段として機能させ、(4)上記拡張ゲイン形成手段は、上記パワー情報の大小に応じて、上記拡張ゲインの最大値を制限することを特徴とする。
第7の本発明の音声帯域拡張プログラムは、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置に搭載されるコンピュータを、(1)上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、(2)上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、(3)上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段として機能させ、(4)上記拡張ゲイン形成手段は、上記パワー情報の大小に応じて、上記拡張ゲインの算出方法における上記拡張ゲインの値の大きくなりやすさを制御することを特徴とする。
第8の本発明の音声帯域拡張プログラムは、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置に搭載されるコンピュータを、(1)上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、(2)上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、(3)上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段として機能させ、(4)上記拡張ゲイン形成手段は、上記パワー情報の大小に応じて、上記拡張ゲインの算出方法の非線形式のパラメータ(2乗項の指数)を制御することを特徴とする。
第9の本発明の音声帯域拡張プログラムは、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置に搭載されるコンピュータを、(1)上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、(2)上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、(3)上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段として機能させ、(4)上記拡張ゲイン形成手段は、上記拡張ゲインの算出方法として、一次関数と二次関数の式に対応でき、上記パワー情報の大小に応じて、適用する上記拡張ゲインの算出方法を一次関数と二次関数のいずれかに選択することを特徴とする。
第10の本発明の音声帯域拡張プログラムは、周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置に搭載されるコンピュータを、(1)上記狭帯域音声信号を周波数解析して、所定の周波数より低い帯域を含む狭帯域内低域パワーと、当該所定の周波数より高い帯域を含む狭帯域内高域パワーと、グラディエントインデックスとを含むスペクトルパラメータを得る周波数解析手段と、(2)上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、(3)上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを、上記パワー情報の大小に応じて、狭帯域内高域パワーを狭帯域内低域パワーで除した値と、グラディエントインデックスとのいずれの特徴量を用いるかを選択して得る拡張ゲイン形成手段として機能させることを特徴とする。
本発明によれば、無声音の高域を十分に拡張することができ、その結果、音声の明瞭度や了解度が改善されて、聴覚的にクリアな伸びのある擬似広帯域音声信号を生成することができる音声帯域拡張装置及びプログラムを提供できる。
広帯域音声の0Hz〜4kHzの低域成分パワーと4kHz〜8kHzの高域成分パワーの散布図である。 第1の実施形態の音声帯域拡張方法の構成を示す機能ブロック図である。 第2の実施形態の音声帯域拡張方法の構成を示す機能ブロック図である。 第3の実施形態の音声帯域拡張方法の構成を示す機能ブロック図である。 第4の実施形態の音声帯域拡張方法の構成を示す機能ブロック図である。 従来の基本的な音声帯域拡張装置の構成を示す機能ブロック図である。
(A)各実施形態に共通する技術思想
まず、各実施形態の音声帯域拡張装置を説明する前に、これら実施形態に共通する技術思想を説明する。
各実施形態の音声帯域拡張装置は、拡張前の狭帯域音声パワーに応じて、生成された拡張信号に乗算する拡張ゲインを動的に変更させようとしたものである。
図1は、電話帯域に制限されていないサンプリング周波数16kHzの広帯域音声信号から、0Hz〜4kHzの低域成分(狭帯域音声パワーが算出される信号に相当)と、4kHz〜8kHzの高域成分とをそれぞれ、適切なLPF及びHPFによって濾波し、横軸を低域成分のパワー、縦軸を高域成分のパワーとした散布図をプロットしたものである。この図1から、高域成分のパワーが大きくなるのは、低域成分のパワーが小さいときだけであり、低域成分のパワーが大きいときには高域成分のパワーは大きくなり得ないことが分かる。
このような事実に基づき、各実施形態の音声帯域拡張装置は、狭帯域音声パワーの大小に応じて、例えば、拡張ゲインの最大値が制限されるように拡張ゲインを動的に決定したり、拡張ゲインの値の大きくなりやすさが調整されるように拡張ゲインを動的に決定したりすることとし(具体的な方法は後述する)、横軸を狭帯域音声パワー、縦軸を拡張信号のパワーとした散布図を描いたとした場合に、上述した図1に近い特性とすることができるようにした。
(B)第1の実施形態
次に、本発明による音声帯域拡張装置及びプログラムの第1の実施形態を、図面を参照しながら説明する。
(B−1)第1の実施形態の構成
図1は、第1の実施形態の音声帯域拡張装置の機能的構成を示すブロック図であり、上述した図6との同一、対応部分には同一、対応符号を付して示している。第1の実施形態の音声帯域拡張装置は、その各部をハードウェアによって構成しても良く、また、CPUと、CPUが実行するプログラム(音声帯域拡張プログラム)として構成しても良いが(例えば、図1に示す各ブロックの機能をプログラムのサブルーチンとして構成しても良い)、機能的には、図1で表すことができる。
図1において、第1の実施形態の音声帯域拡張装置200は、図6に示した音声帯域拡張装置100と同様な、サンプリング変換部101、バンドパスフィルタリング部(BPF)102、全波整流部103、ハイパスフィルタリング部(HPF)104、周波数解析部105、乗算部107、加算部108と、第1の実施形態の音声帯域拡張装置200に特有なパワー算出部209、拡張ゲイン算出部210を有する。
パワー算出部209は、狭帯域音声信号SのパワーSPを算出し、拡張ゲイン算出部210に与えるものである。
拡張ゲイン算出部210は、所定の可変な拡張ゲイン算出方法を用いて、周波数解析部105から与えられたスペクトルパラメータSFと、パワー算出部209から与えられた狭帯域音声信号SのパワーSPとに基づいて、拡張ゲインEGを算出し、得られた拡張ゲインEGを乗算部107に与えるものである。
(A−2)第1の実施形態の動作
次に、第1の実施形態の音声帯域拡張方装置200の動作を説明する。
ここで、第1の実施形態の音声帯域拡張装置200は、パワー算出部209を有し、拡張ゲイン算出部210が周波数解析部105の出力だけでなく、パワー算出部209の出力をも利用する点が、上述した図6に示した音声帯域拡張装置100と異なるので、以下では、周波数解析部105の動作に言及した後、パワー算出部209及び拡張ゲイン算出部210の動作を説明する。
周波数解析部105は、上述したように、狭帯域音声信号Sを周波数解析し、周波数スペクトルの振幅包絡、及び、周波数スペクトルの傾きの少なくとも一方に関するスペクトルパラメータSFを算出するものである。
このような算出方法として、非特許文献1に記載の方法や、同一発明者が特願2012−258651号で提案した方法を挙げることができる。
前者の方法では、以下の(1)式〜(4)式で表現されるグラディエントインデックスGIが、スペクトルパラメータSFとなる。グラディエントインデックスGIは、信号波形の傾き方向が変化する回数とその大きさを表す指標である。(1)式〜(4)式において、nは時間の要素番号であり、S(n)は狭帯域音声信号である。
Figure 0006163785
特願2012−258651号で提案された算出方法では、以下の(5)式〜(8)式のいずれかで表現される修正されたグラディエントインデックスMGIが、スペクトルパラメータSFとなる。修正されたグラディエントインデックスMGIは、グラディエントインデックスGIと高い相関を持ちながら、値の飛び跳ねがグラディエントインデックスGIより小さいパラメータである。また、特願2012−258651号で提案されている、(9)式及び(10)式で規定されている修正されたグラディエントインデックスMGIを平滑化したパラメータMGI’(n)を、スペクトルパラメータSFとして適用しても良い。(9)式におけるbは、0以上1未満の忘却係数である。
Figure 0006163785
パワー算出部209は、狭帯域音声信号SのパワーSPを算出し、得られた狭帯域音声信号SのパワーSPを拡張ゲイン算出部210に与える。ここで、パワーの算出には任意の方法を用いることができる。例えば、狭帯域音声信号Sの絶対値の移動平均や、狭帯域音声信号Sの2乗値の移動平均などを狭帯域音声信号SのパワーSPとすることができる。
周波数解析部105が適用する周波数解析方法によっては、周波数解析部105内で狭帯域音声信号SのパワーSPを算出することを要することもあり得る。このような場合には、周波数解析部105内のパワー算出部と、パワー算出部209とを共用するようにしても良い。
拡張ゲイン算出部210は、基本的に、スペクトルパラメータSFに変換係数を乗算することにより、スペクトルパラメータSFを拡張ゲインEGに変換し、得られた拡張ゲインEGを乗算部107に与える。
この第1の実施形態の場合、変換係数が固定のものではなく、狭帯域音声パワーSPに応じて動的に変化するものである。狭帯域音声パワーSPと変換係数との関係は、上述した図1に示した低域成分のパワーと高域成分のパワーとの関係に応じて予め定められている。拡張ゲイン算出部210は、狭帯域音声パワーSPを変換係数に変換するための変換テーブル、若しくは、狭帯域音声パワーSPを変換係数に変換するための変換関数(階段状関数であっても良い)の演算部を内蔵し、入力された狭帯域音声パワーSPに応じた変換係数を得た後、スペクトルパラメータSFに変換係数を乗算して拡張ゲインEGを得る。なお、狭帯域音声パワーSPを変換係数に変換した後、スペクトルパラメータSFに変換係数を乗算して拡張ゲインEGを得る方法に代え、狭帯域音声パワーSPに応じて適用する変換テーブルや変換式を切り替えることにより、スペクトルパラメータSFを直接拡張ゲインEGに変換する方法を適用するようにしても良い。
上述したように、電話帯域に制限されていないサンプリング周波数16kHzの広帯域音声信号の高域成分のパワーが大きくなるのは、低域成分のパワーが小さいときだけであり、低域成分のパワーが大きいときには高域成分のパワーは大きくなり得ない。このような事実に基づいて、上述した変換テーブルや変換式が予め形成されている。
例えば、狭帯域音声パワーSPの大小に応じて、拡張ゲインEGの最大値が制限されるように、スペクトルパラメータSFを拡張ゲインEGに変換する方法を定めても良く、また例えば、拡張ゲインEGの値の大きくなりやすさが調整されるようにスペクトルパラメータSFを拡張ゲインEGに変換する方法を定めても良い。
ここで、スペクトルパラメータSFがスカラーで、拡張ゲインの算出方法が、(11)式に示すように、スペクトルパラメータSFに正の変換係数Aを乗じて拡張ゲインEGを求める方法である場合には、例えば、予め狭帯域音声パワーSPが取り得る最大値SPmaxを設定しておき、変換係数Aの最小値をAmin、最大値をAmaxとし、スペクトルパラメータSFを変換係数Aに変換する変換式として、(12)式の変換式を適用するようにしても良い。
EG=A・SF …(11)
A=Amax−(Amax−Amin)・SP/SPmax …(12)
(11)式及び式(12)によれば、狭帯域音声パワーSPが大きいとき(有声音に相当)には、小さな変換係数AがスペクトルパラメータSFに乗じられることで拡張ゲインEGが比較的小さな値となり、狭帯域音声パワーSPが小さいとき(無声音に相当)には、大きな変換係数AがスペクトルパラメータSFに乗じられることで拡張ゲインEGが比較的大きな値となり、結果として、横軸を狭帯域音声パワーSP、縦軸を拡張信号XHのパワーとした散布図(図示は省略している)を描いた場合に、上述した図1に近い特性とすることができる。
なお、狭帯域音声パワーSPの大小に応じて拡張ゲインEGを動的に決定する方法は、(11)式及び(12)式を適用した方法に限定されるものではない。例えば、狭帯域音声パワーSPが大きいときには小さく、狭帯域音声パワーSPが小さいときには大きくなるように拡張ゲインEGの最大値(上限値)EGmaxを動的に算出し、固定係数を適用して算出した拡張ゲインEGの値が最大値EGmaxを超えている場合には、拡張ゲインEGの値を最大値EGmaxに制限する(置き換える)ようにしても良い。また例えば、変換係数Aを制御すると共に(例えば(12)式を適用する)、拡張ゲインEGの最大値を動的に制限する方法も適用するようにしても良い。
上述した(12)式は、狭帯域音声パワーSPと変換係数Aとの間に線形な関係がある場合を示している。しかし、非線形な関係式を適用するようにしても良い。このような場合において、狭帯域音声パワーSPの大小に応じて拡張ゲインEGを動的に決定する方法として、その非線形性を調整する方法であっても良い。例えば、非線形式のパラメータ(例えば、2乗項の指数)を変化するようにしても良い。
また、以上では、狭帯域音声パワーSPと変換係数Aとの間の変換式(若しくは狭帯域音声パワーSPと拡張ゲインEGとの間の変換式)が連続的な曲線に従うようなイメージで説明したが、狭帯域音声パワーSPに対して、1つ以上の閾値を導入して選択的(離散的(さらに言い換えると段階的))に決定するようにして良い。
さらに、今まで例示した動的な決定方法と異なり、複数の拡張ゲイン算出方法を用意しておき、狭帯域音声パワーSPに応じて、いずれかの拡張ゲイン算出方法を選択した上で、スペクトルパラメータSFを拡張ゲインEGに変換するようにしても良い。例えば、狭帯域音声パワーSPに対する1つの閾値TSPを予め設定しておいて、SP≧TSPの場合には、狭帯域音声パワーSFの一次関数によって拡張ゲインEGを算出し、SP<TSPの場合には、拡張ゲインSFの二次関数によって拡張ゲインEGを算出するという方法を適用するようにしても良い。
また、今まで例示した動的な決定方法の説明では、スペクトルパラメータSFがスカラーであることが前提であるかのように記載したが、スペクトルパラメータSFは複数のパラメータを有するベクトルや行列等であっても良く、上記動的な決定方法が、スペクトルパラメータSFを構成するパラメータの種類や数を決定する方法であっても良い。
例えば、スペクトルパラメータSFが、0Hz〜2kHzの帯域パワー(狭帯域内低域パワー)SPL、2kHz〜4kHzの帯域パワー(狭帯域内高域パワー)SPH、グラディエントインデックスGlの3つのパラメータを有しているとし、狭帯域音声パワーSPに対する1つの閾値TSPを予め設定しておき、SP≧TSPの場合には、狭帯域内高域パワーSPHを狭帯域内低域SPLで除した値に基づいて拡張ゲインEGを算出し、SP<TSPの場合には、グラディエントインデックスGIに基づいて拡張ゲインEGを算出するという方法を適用することができる。
(B−2)第1の実施形態の効果
第1の実施形態によれば、電話帯域に制限されていない広帯域音声信号における低域成分のパワーと高域成分のパワーとの関係を、拡張された擬似広帯域音声信号での実現できるように、生成された拡張信号EHに乗算される拡張ゲインEGを、狭帯域音声パワーSPに応じて動的に定めるようにしたので、無声音の高域を十分に拡張することができ、音声の明瞭度や了解度が改善され、かつ、有声音が過剰に拡張されずに新たに雑音が重畳されず、聴覚的にクリアな伸びのある擬似広帯域音声を得ることができる。
(C)第2の実施形態
次に、本発明による音声帯域拡張装置及びプログラムの第2の実施形態を、図面を参照しながら説明する。
(C−1)第2の実施形態の構成
図3は、第2の実施形態の音声帯域拡張装置の構成を示すブロック図であり、上述した図1の同一、対応部分には同一、対応符号を付して示している。
図3において、第2の実施形態の音声帯域拡張装置300は、第1の実施形態の音声帯域拡張装置200と同様な、サンプリング変換部101、バンドパスフィルタリング部(BPF)102、全波整流部103、ハイパスフィルタリング部(HPF)104、周波数解析部105、乗算部107、加算部108、パワー算出部209、拡張ゲイン算出部210と、第2の実施形態で特有な長期平均部311、パワー正規化部312とを有する。
長期平均部311は、パワー算出部209から与えられた狭帯域音声パワーSPの長期平均値longSPを算出し、得られた狭帯域音声パワーの長期平均値longSPはパワー正規化部312に与えるものである。
パワー正規化部312は、パワー算出部209から与えられた狭帯域音声パワーSPを長期平均部311から与えられたその長期平均値longSPで除することで、狭帯域音声の正規化パワーNSPを算出し、得られた狭帯域音声の正規化パワーNSPを拡張ゲイン算出部210に与えるものである。
なお、第2の実施形態の拡張ゲイン算出部210は、第1の実施形態のものとは異なり、生成された拡張信号EHに乗算される拡張ゲインEGを、狭帯域音声の正規化パワーNSPに応じて動的に定める。
(C−2)第2の実施形態の動作
次に、第2の実施形態の音声帯域拡張装置300の動作を説明する。
ここで、第2の実施形態の音声帯域拡張装置300は、拡張ゲイン算出部210に与える狭帯域音声信号のパワー情報が、単なるパワーSPから、正規化パワーNSPに置き換わった点が、第1の実施形態の音声帯域拡張装置200から変更されている。そこで、以下では、正規化パワーNSPの形成に係わる長期平均部311及びパワー正規化部312の動作を中心に説明する。
長期平均部311は、パワー算出部209から与えられた狭帯域音声のパワーSPの長期平均値longSPを算出する。長期平均値longSPの算出方法には任意の方法を用いることができる。例えば、移動平均や、(13)式に示すような時定数フィルタによる平滑化を適用することができる。(13)式におけるtauは、0<tau<1の範囲内の値をとる時定数、演算子「←」は右辺から左辺への代入を表す。長期平均の長さをT秒とすると、移動平均を適用する場合にはT秒間の平均値を長期平均値とし、時定数フィルタを適用する場合には追従に要する時間がT秒となるような時定数tauによって平滑化された値を長期平均値とする。なお、移動平均を適用すると比較的大きなメモリ領域を確保する必要が生じるため、移動平均を適用する場合と比較すると、時定数フィルタを用いることが好ましい。長期平均の長さTは、5秒〜20秒程度が望ましい。
longSP ← tau・longSP+(1−tau)・SP
…(13)
パワー正規化部312は、狭帯域音声パワーSPを長期平均値longSPで除することで、狭帯域音声の正規化パワーNSPを算出する。狭帯域音声の正規化パワーNSPは、入力である狭帯域音声のパワーの長期平均値によって正規化されているため、話者の声量やマイク感度の大小に関わらず、有声音では大きな値となり、無声音では小さな値となる。すなわち、この正規化処理によって、例えば、話者の声が小さい場合において有声音期間の拡張ゲインEGが過大になったり、話者の声が大きい場合において無声音期間の拡張ゲインEGが過小になったりすることを回避することができる。
また、狭帯域音声のパワーの長期平均値longSPの算出において、長期平均の長さTを有限長としているので、話者が変わったり、マイク感度が変化したりした場合などでも、狭帯域音声の正規化パワーNSPはT秒後には適切な値に戻すことができる。
(C−2)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態と同様な効果に加え、以下の効果を奏することができる。
第2の実施形態によれば、狭帯域音声のパワーをその長期平均値で正規化して拡張ゲインに反映させるようにしたので、有声音と無声音の拡張度合いが、話者の声量やマイク感度の影響を受けなくなり、さらに話者やマイク感度が変更になってもー定時間後には新たな環境に適応させることができ、その結果、より音声の明瞭度や了解度が改善された聴覚的にクリアな伸びのある擬似広帯域音声信号を得ることができる。
(D)第3の実施形態
次に、本発明による音声帯域拡張装置及びプログラムの第3の実施形態を、図面を参照しながら説明する。
図4は、第3の実施形態の音声帯域拡張装置の構成を示すブロック図であり、上述した第2の実施形態に係る図3との同一、対応部分には同一、対応符号を付して示している。
図4において、第3の実施形態の音声帯域拡張装置400は、第2の実施形態の音声帯域拡張装置300の構成に加えて音声区間検出部413を備え、長期平均部414が音声区間検出部413からの検出信号VADを利用するものになっている点が、第2の実施形態の音声帯域拡張装置300と異なっている。
音声区間検出部413は、狭帯域音声信号Sに基づいて、狭帯域音声信号Sが音声区間か無音区間かを判定し、得られた音声区間判定結果VADを長期平均部414に与れる。
ここで、音声区間の検出方法には、公知の任意の方法を適用することができる。例えば、狭帯域音声信号Sのパワーを観察し、該パワーが所定の閾値以上ならば音声区間、該パワーが所定の閾値未満ならば無音区間と判断する方法を適用できる。なお、この場合には、音声区間検出部413への入力を狭帯域音声信号Sに代えて狭帯域音声パワーSPとすることで、音声区間検出部413における演算量を少なくすることができる。
第3の実施形態の長期平均部414は、音声区間判定結果VADの入力を受けて、狭帯域音声信号Sが音声区間である場合には、第2の実施形態の長期平均部311と同様に狭帯域音声のパワーの長期平均値longSPを更新し、一方、狭帯域音声信号Sが無音区間である場合には、狭帯域音声のパワーの長期平均値longSPの値を更新しない(前の値を保持する)。このようにして、更新された狭帯域音声のパワーの長期平均値longSP、又は、更新されなかった(前の値が保持された)狭帯域音声のパワーの長期平均値longSPがパワー正規化部312に与えられ、第2の実施形態で説明したように処理される。
無音区間では、話者やマイク感度とは無関係に、狭帯域音声パワーSPが小さい。そこで、この第3の実施形態においては、無音区間で狭帯域音声のパワーの長期平均値longSPの更新を止めることで、長期平均値longSPが無音区間のパワーに追従して小さくなることを回避している。
第3の実施形態によれば、第2の実施形態と同様な効果に加え、以下の効果を奏することができる。
第3の実施形態によれば、無音区間で狭帯域音声のパワーの長期平均値の更新を止めるようにしたので、長期平均値が意図せずに小さくなり過ぎることを回避でき、拡張度合いが安定した擬似広帯域音声信号を得ることができる。
(E)第4の実施形態
次に、本発明による音声帯域拡張装置及びプログラムの第4の実施形態を、図面を参照しながら説明する。
図5は、第4の実施形態の音声帯域拡張装置の構成を示すブロック図であり、上述した第1の実施形態に係る図2との同一、対応部分には同一、対応符号を付して示している。
図5において、第4の実施形態の音声帯域拡張装置500は、第1の実施形態の音声帯域拡張装置200の構成に加えて信号処理部513を備えている点が、第1の実施形態の音声帯域拡張装置200と異なっている。
信号処理部515は、入力された狭帯域音声信号Sに所定の信号処理を施して処理後狭帯域音声信号S’を得て、周波数解析部105及びパワー算出部209に与えるものである。
ここで、所定の信号処理とは、例えば、一般にプリエンファシスと呼ばれる高帯域強調フィルタリングや、雑音抑圧、フォルマント強調など、多種多様な信号処理を挙げることができる。信号処理部515が実施する信号処理は1種類でも良く、2種類以上の信号処理を実施するようにしても良い。上述した高帯域強調フィルタリングは***の放射特性をキャンセルするフィルタであるから、狭帯域音声の音韻性をより正確にスペクトルパラメータSFに反映させることができる。また、雑音環境下では、雑音抑圧を行うことでスペクトルパラメータSFが雑音に乱されることを防ぐことができる。また、雑音抑圧と高域強調フィルタリングを組み合わせることで、さらに音韻性を強調するようにしても良い。
図5では、信号処理部515によって得られた処理後狭帯域音声信号S’が、周波数解析部105及びパワー算出部209に与えられるように記載しているが、処理後狭帯域音声信号S’が周波数解析部105又はパワー算出部209のいずれかだけ与えられる構成としても良く、また、サンプリング変換部101に狭帯域音声信号Sではなく処理後狭帯域音声信号S’を与える構成としても良い。また、信号処理部515が構成の異なる複数の信号処理部を含み、異なる信号処理を施した処理後狭帯域音声信号を得て、それらが、サンプリング変換部101、周波数解析部105及びパワー算出部209の対応するものにだけ与えられるような構成としても良い。
第4の実施形態によれば、第1の実施形態と同様な効果に加え、以下の効果を奏することができる。
第4の実施形態によれば、狭帯域音声信号に適当な処理を施してから、後段の拡張処理や解析処理を実行するようにしたので、音韻性の反映を強化したり、雑音の影響を弱めたりすることができ、その結果、より音声の明瞭度や了解度が改善された擬似広帯域音声信号を得ることができる。
(F)他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、例示するような変形実施形態を挙げることができる。
上記第4の実施形態は、第1の実施形態の技術思想に対して、信号処理部を導入したものであってが、第2又は第3の実施形態の技術思想に対して、第4の実施形態で説明した信号処理部を導入するようにしても良い。
上記各実施形態においては、拡張信号の生成方法が、BPFで2kHz〜4kHzを抽出した信号の全波整流波をHPFで拡張帯域に制限して生成するものであったが、拡張信号の生成方法はこの方法に限定されるものではない。例えば、全波整流処理の代りに、半波整流処理や2乗等のべき乗演算、tanh演算などを適用するものであっても良い。また、ここでは非線形処理を挙げたが、線形処理を行っても良い。BPFによる抽出帯域も2kHz〜4kHzに限定されるものではなく、また、BPFによるフィルタリングを実行しないものであっても良い。また、上記各実施形態においては、音声信号を拡張しているが、線形予測分析等によって得られる音源信号を使って拡張信号を生成するようにしても良く、雑音発生源を構成に含めて該雑音発生源から出力される雑音信号を使って拡張信号を生成するようにしても良い。また、複数の信号を静的又は動的に組み合わせて拡張信号を生成するようにしても良い。
また、上記各実施形態において、拡張ゲイン算出部210の各種のパラメータや拡張ゲイン算出方法、動的な決定方法をユーザが手動で制御、選択できるようにしても良い。これにより、ユーザの好みに合わせた音質の擬似広帯域音声信号が得られる音声帯域拡張装置を実現できる。ここで、ユーザが選択できる選択肢を、狭帯域音声パワーの情報(狭帯域音声パワーそのもの、若しくは、狭帯域音声の正規化パワー)に応じて切り替えるようにしても良く、ユーザが選択した方法の処理の中で、狭帯域音声パワーの情報に応じて、変換式やパラメータを変更するようにしても良い。
また、上記各実施形態において、拡張ゲイン算出部210の各種のパラメータや拡張ゲイン算出方法、動的な決定方法を、狭帯域音声信号Sを解析した結果に基づいて、自動的に制御できるようにしても良い。例えば、スペクトル包終の長期平均値やピッチ周波数の長期平均等の話者性の情報によって切り替える。このようにすると、使用環境に自動的に適応する音声帯域拡張装置を実現できる。ここで、自動制御された方法の処理の中で、狭帯域音声パワーの情報に応じて、変換式やパラメータを変更するようにすれば良い。
また、長期平均部311又は長期平均部414を含む第2の実施形態、第3の実施形態又は第4の実施形態において、長期平均の長さTをユーザが手動で制御できるようにしても良い。これにより、環境の変化への追従速度をユーザの好みに合わせた音声帯域拡張装置を実現できる。
また、長期平均部311又は長期平均部414を含む第2の実施形態、第3の実施形態又は第4の実施形態において、長期平均の長さTを、狭帯域音声信号S又は処理後狭帯域音声信号S’を解析した結果に基づいて、自動的に制御できるようにしても良い。例えば、上記話者性の変化量に関する情報や、無音区間の頻度や長さによって切り替えるようにすれば良い。このようにすると、使用環境に自動的に適応する音声帯域拡張装置を実現できる。
また、信号処理部515を含む第4の実施形態において、狭帯域音声信号Sに施す信号処理の内容やパラメータをユーザが手動で制御できるようにしても良い。これにより、ユーザの好みに合わせた音質の擬似広帯域音声信号が得られる音声帯域拡張装置を実現できる。
また、信号処理部515を含む第4の実施形態において、狭帯域音声信号Sに施す信号処理の内容やパラメータを、狭帯域音声信号Sを解析した結果に基づいて、自動的に制御できるようにしても良い。例えば、上記話者性の変化量に関する情報や、無音区間の頻度や長さによって切り替えるようにしても良い。このようにすると、使用環境に自動的に適応する音声帯域拡張装置を実現することができる。
上記各実施形態の音声帯域拡張装置へ入力される狭帯域音声信号Sは、対向する通信装置から送信されてきたものであっても良く、また、記録媒体などから読み出したものであっても良い。また、上記各実施形態の音声帯域拡張装置が得た擬似広帯域音声信号Xは、スピーカなどから発音出力されても良く、他の装置に送信されても良く、また、記録媒体に記録されても良い。
200、300、400、500…音声帯域拡張装置、101…サンプリング変換部、102…バンドパスフィルタリング部(BPF)、103…全波整流部、104…ハイパスフィルタリング部(HPF)、105…周波数解析部、107…乗算部、108…加算部、209…パワー算出部、210…拡張ゲイン算出部、311、414…長期平均部、312…パワー正規化部、413…音声区間検出部、515…信号処理部。

Claims (16)

  1. 周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置において、
    上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
    上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、
    上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段とを備え
    上記拡張ゲイン形成手段は、上記パワー情報の大小に応じて、上記拡張ゲインの最大値を制限する
    ことを特徴とする音声帯域拡張装置。
  2. 周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置において、
    上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
    上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、
    上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段とを備え、
    上記拡張ゲイン形成手段は、上記パワー情報の大小に応じて、上記拡張ゲインの算出方法における上記拡張ゲインの値の大きくなりやすさを制御する
    ことを特徴とする音声帯域拡張装置。
  3. 周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置において、
    上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
    上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、
    上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段とを備え、
    上記拡張ゲイン形成手段は、上記パワー情報の大小に応じて、上記拡張ゲインの算出方法の非線形式のパラメータ(2乗項の指数)を制御する
    ことを特徴とする音声帯域拡張装置。
  4. 周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置において、
    上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
    上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、
    上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段とを備え、
    上記拡張ゲイン形成手段は、上記拡張ゲインの算出方法として、一次関数と二次関数の式に対応でき、上記パワー情報の大小に応じて、適用する上記拡張ゲインの算出方法を一次関数と二次関数のいずれかに選択することを特徴とする音声帯域拡張装置。
  5. 周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置において、
    上記狭帯域音声信号を周波数解析して、所定の周波数より低い帯域を含む狭帯域内低域パワーと、当該所定の周波数より高い帯域を含む狭帯域内高域パワーと、グラディエントインデックスとを含むスペクトルパラメータを得る周波数解析手段と、
    上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、
    上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを、上記パワー情報の大小に応じて、狭帯域内高域パワーを狭帯域内低域パワーで除した値と、グラディエントインデックスとのいずれの特徴量を用いるかを選択して得る拡張ゲイン形成手段と
    を備えることを特徴とする音声帯域拡張装置。
  6. 上記パワー情報取得手段は、
    上記狭帯域音声信号のパワーを算出するパワー算出部と、
    上記狭帯域音声信号のパワーの長期平均値を得る長期平均部と、
    上記狭帯域音声信号のパワーを上記狭帯域音声信号のパワーの長期平均値で除することで正規化パワーを得るパワー正規化部とを備え、
    上記正規化パワーを上記パワー情報として出力する
    ことを特徴とする請求項1〜5に記載の音声帯域拡張装置。
  7. 上記パワー情報取得手段は、上記狭帯域音声信号に基づいて音声区間か無音区間かを判定する音声区間検出部をさらに備え、上記長期平均部は、上記音声区間検出部が音声区間と判定した場合には長期平均値を更新し、上記音声区間検出部が無音区間と判定した場合には上記長期平均値を保持することを特徴とする請求項に記載の音声帯域拡張装置。
  8. 上記狭帯域音声信号に所定の信号処理を施して処理後狭帯域音声信号を得る信号処理手段をさらに備え、上記周波数解析手段及び上記パワー情報取得手段へは、処理後狭帯域音声信号を入力することを特徴とする請求項1〜のいずれかに記載の音声帯域拡張装置。
  9. 上記信号処理手段は、少なくとも1種類以上の信号処理を施すものであり、信号処理の中に、高帯域強調フィルタリングが含まれていることを特徴とする請求項に記載の音声帯域拡張装置。
  10. 上記信号処理手段は、少なくとも1種類以上の信号処理を施すものであり、信号処理の中に、雑音抑圧が含まれていることを特徴とする請求項に記載の音声帯域拡張装置。
  11. 上記信号処理手段は、少なくとも1種類以上の信号処理を施すものであり、信号処理の中に、フォルマント強調が含まれていることを特徴とする請求項に記載の音声帯域拡張装置。
  12. 周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置に搭載されるコンピュータを、
    上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
    上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、
    上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段として機能させ
    上記拡張ゲイン形成手段は、上記パワー情報の大小に応じて、上記拡張ゲインの最大値を制限する
    ことを特徴とする音声帯域拡張プログラム。
  13. 周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置に搭載されるコンピュータを、
    上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
    上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、
    上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段として機能させ、
    上記拡張ゲイン形成手段は、上記パワー情報の大小に応じて、上記拡張ゲインの算出方法における上記拡張ゲインの値の大きくなりやすさを制御する
    ことを特徴とする音声帯域拡張プログラム。
  14. 周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置に搭載されるコンピュータを、
    上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
    上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、
    上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段として機能させ、
    上記拡張ゲイン形成手段は、上記パワー情報の大小に応じて、上記拡張ゲインの算出方法の非線形式のパラメータ(2乗項の指数)を制御する
    ことを特徴とする音声帯域拡張プログラム。
  15. 周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置に搭載されるコンピュータを、
    上記狭帯域音声信号を周波数解析してスペクトルパラメータを得る周波数解析手段と、
    上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、
    上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを得るものであって、上記パワー情報に応じて、拡張ゲインの取得方法を動的に制御する拡張ゲイン形成手段として機能させ、
    上記拡張ゲイン形成手段は、上記拡張ゲインの算出方法として、一次関数と二次関数の式に対応でき、上記パワー情報の大小に応じて、適用する上記拡張ゲインの算出方法を一次関数と二次関数のいずれかに選択することを特徴とする音声帯域拡張プログラム。
  16. 周波数帯域が制限された狭帯域音声信号を、制限帯域外の拡張帯域の信号成分を含むように拡張する音声帯域拡張装置に搭載されるコンピュータを、
    上記狭帯域音声信号を周波数解析して、所定の周波数より低い帯域を含む狭帯域内低域パワーと、当該所定の周波数より高い帯域を含む狭帯域内高域パワーと、グラディエントインデックスとを含むスペクトルパラメータを得る周波数解析手段と、
    上記狭帯域音声信号に関するパワー情報を得るパワー情報取得手段と、
    上記スペクトルパラメータに基づいて、上記拡張帯域信号における拡張成分の大きさを調整するための拡張ゲインを、上記パワー情報の大小に応じて、狭帯域内高域パワーを狭帯域内低域パワーで除した値と、グラディエントインデックスとのいずれの特徴量を用いるかを選択して得る拡張ゲイン形成手段と
    して機能させることを特徴とする音声帯域拡張プログラム。
JP2013039606A 2013-02-28 2013-02-28 音声帯域拡張装置及びプログラム Active JP6163785B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013039606A JP6163785B2 (ja) 2013-02-28 2013-02-28 音声帯域拡張装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013039606A JP6163785B2 (ja) 2013-02-28 2013-02-28 音声帯域拡張装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2014167557A JP2014167557A (ja) 2014-09-11
JP6163785B2 true JP6163785B2 (ja) 2017-07-19

Family

ID=51617277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013039606A Active JP6163785B2 (ja) 2013-02-28 2013-02-28 音声帯域拡張装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6163785B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956979B8 (zh) * 2019-10-22 2024-06-07 合众新能源汽车股份有限公司 一种基于matlab的车内语言清晰度自动计算方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007310296A (ja) * 2006-05-22 2007-11-29 Oki Electric Ind Co Ltd 帯域拡張装置及び方法
JP2009300707A (ja) * 2008-06-13 2009-12-24 Sony Corp 情報処理装置および方法、並びにプログラム
JP5596618B2 (ja) * 2011-05-17 2014-09-24 日本電信電話株式会社 擬似広帯域音声信号生成装置、擬似広帯域音声信号生成方法、及びそのプログラム

Also Published As

Publication number Publication date
JP2014167557A (ja) 2014-09-11

Similar Documents

Publication Publication Date Title
RU2447415C2 (ru) Способ и устройство для расширения ширины полосы аудиосигнала
CA2800208C (en) A bandwidth extender
EP1638083B1 (en) Bandwidth extension of bandlimited audio signals
RU2471253C2 (ru) Способ и устройство для оценивания энергии полосы высоких частот в системе расширения полосы частот
EP2737479B1 (en) Adaptive voice intelligibility enhancement
RU2464652C2 (ru) Способ и устройство для оценки энергии полосы высоких частот в системе расширения полосы частот
EP2144232A2 (en) Apparatus and methods for enhancement of speech
JP2004517368A (ja) 音声の帯域拡張
TW201513099A (zh) 基於聽覺場景分析及語音模型化之語音信號分離及合成
CN107533848B (zh) 用于话音恢复的***和方法
JP2009535897A (ja) 特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御
JP2010055000A (ja) 信号帯域拡張装置
JP2005157363A (ja) フォルマント帯域を利用したダイアログエンハンシング方法及び装置
WO2014192675A1 (ja) 信号処理装置及び信号処理方法
JP6152639B2 (ja) 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム
JP4654621B2 (ja) 音声処理装置およびプログラム
JP6163785B2 (ja) 音声帯域拡張装置及びプログラム
JP2012208177A (ja) 帯域拡張装置及び音声補正装置
JP5840087B2 (ja) 音声信号復元装置および音声信号復元方法
JP5949379B2 (ja) 帯域拡張装置及び方法
JP6065488B2 (ja) 帯域拡張装置及び方法
JP6930089B2 (ja) 音響処理方法および音響処理装置
JP2018072723A (ja) 音響処理方法および音響処理装置
JP6089789B2 (ja) 音声帯域拡張装置及びプログラム、並びに、無声音拡張装置及びプログラム
JP6559576B2 (ja) 雑音抑圧装置、雑音抑圧方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170605

R150 Certificate of patent or registration of utility model

Ref document number: 6163785

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150