JP6157926B2 - 音声処理装置、方法およびプログラム - Google Patents

音声処理装置、方法およびプログラム Download PDF

Info

Publication number
JP6157926B2
JP6157926B2 JP2013109897A JP2013109897A JP6157926B2 JP 6157926 B2 JP6157926 B2 JP 6157926B2 JP 2013109897 A JP2013109897 A JP 2013109897A JP 2013109897 A JP2013109897 A JP 2013109897A JP 6157926 B2 JP6157926 B2 JP 6157926B2
Authority
JP
Japan
Prior art keywords
speech
band
missing
spectrum envelope
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013109897A
Other languages
English (en)
Other versions
JP2014228779A (ja
Inventor
大和 大谷
大和 大谷
眞弘 森田
眞弘 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2013109897A priority Critical patent/JP6157926B2/ja
Priority to US14/194,976 priority patent/US20140350922A1/en
Publication of JP2014228779A publication Critical patent/JP2014228779A/ja
Application granted granted Critical
Publication of JP6157926B2 publication Critical patent/JP6157926B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明の実施の形態は、音声処理装置、方法およびプログラムに関する。
従来、例えば携帯電話機や音声収録装置等の音声品質を向上させる技術として、帯域拡張が知られている。帯域拡張は、狭帯域音声から広帯域音声を構築する技術であり、例えば、入力音声において欠損している高周波帯域の音声成分を、欠損していない音声成分を用いて補完することができる。
しかし、従来の帯域拡張では、入力音声において欠損している高周波帯域の音声成分や、予め定められた特定の周波数帯域の音声成分を補完することはできるが、任意の周波数帯域の音声成分が部分的に欠損した場合に対応できない。音声処理装置に入力される音声信号は、伝送路の静的特性等の何らかの影響によって、任意の周波数帯域の音声成分が部分的に欠損することがあり、任意の周波数帯域の音声成分を適切に補完できるようにすることが求められる。
特開2012−83790号公報
本発明が解決しようとする課題は、任意の周波数帯域で欠損した音声成分を適切に補完することができる音声処理装置、方法およびプログラムを提供することである。
実施形態の音声処理装置は、抽出部と、検出部と、生成部と、変換部と、補完部と、を備える。抽出部は、入力音声のスペクトル包絡から、細分化された周波数帯域ごとの音声成分を表現する音声パラメータを抽出する。検出部は、前記入力音声のスペクトル包絡において音声成分が欠損している周波数帯域である欠損帯域を検出する。生成部は、検出された前記欠損帯域の位置と、音声成分が欠損していない音声のスペクトル包絡から抽出された前記音声パラメータを用いて事前に作成された統計情報と、前記入力音声のスペクトル包絡から抽出された前記音声パラメータとに基づいて、前記欠損帯域に対応する前記音声パラメータを生成する。変換部は、生成された前記欠損帯域に対応する前記音声パラメータを、前記欠損帯域のスペクトル包絡に変換する。補完部は、前記欠損帯域のスペクトル包絡と前記入力音声のスペクトル包絡とを合成して、前記欠損帯域が補完されたスペクトル包絡を生成する。
実施形態の音声処理装置の構成を示すブロック図。 実施形態の音声処理装置が実行する処理の流れを示すフローチャート。 検出部による欠損帯域の検出方法の一例を示す図。 補完部による処理の一例を示す図。 補完部による処理の他の例を示す図。

本実施形態の音声処理装置は、任意の周波数帯域の音声成分が欠損している入力音声のスペクトル包絡から、欠損している成分を補完したスペクトル包絡を生成する。入力音声は、主に、人の発話音声を想定している。図1は、実施形態の音声処理装置の構成を示すブロック図である。図2は、実施形態の音声処理装置が実行する処理の流れを示すフローチャートである。
本実施形態の音声処理装置は、図1に示すように、抽出部1と、検出部2と、生成部3と、変換部4と、補完部5と、を備える。
抽出部1は、入力音声のスペクトル包絡χt_inから、基底モデル10を用いて、細分化された周波数帯域ごとの音声成分を表現する音声パラメータを抽出する(図2のステップS101)。なお、入力音声からスペクトル包絡χt_inを生成する処理は、音声処理装置の内部で行ってもよいし、外部で行ってもよい。
基底モデル10は、音声のスペクトル包絡χtによって形成される空間の部分空間の基底を表す基底ベクトルのセットである。本実施形態では、基底モデル10として、下記の参考文献1に記載されたサブバンド基底スペクトルモデル(以下、SBMという。)を用いる。基底モデル10は、音声処理装置内の図示しない記憶部に予め格納されてもよいし、音声処理装置の動作時に外部から取得されて保持されてもよい。
参考文献1:M Tamura,T Kagoshima,and M Akamine,“Sub-band basis spectrum model for pitch-synchronous log-spectrum and phase based on approximation of sparse coding,”in Proceeding Interspeech 2010,pp.2046−2049,Sept.2010.
参考文献1によれば、SBMの基底は、以下の(1)〜(3)に示す特徴を持つ。
(1)周波数軸上で単一の最大値を与えるピーク周波数を含む所定の周波数帯域に値が存在し、その周波数帯域の外側は値を零とし、フーリエ変換やコサイン変換で用いられるような周期的な基底のように同じ最大値を複数持たない。
(2)基底の数は、スペクトル包絡がもつ分析点数よりも少なく、その数は分析点数の半分未満の数となる。
(3)ピーク周波数位置が隣りあう2つの基底間に重なりを持つ、すなわちピーク周波数が隣り合う基底は、値の存在する周波数の範囲の一部が重なる。
また、参考文献1によれば、SBMの基底を表す基底ベクトルは、下記式(1)により定義される。
Figure 0006157926
ここで、Φn(k)はn番目の基底ベクトルのk番目の成分である。また、Ω(n)[rad]はn番目の基底ベクトルのピーク周波数であり、下記式(2)のように定義される。
Figure 0006157926
ここで、αは伸縮係数、Ωは周波数[rad]、NはΩ(N)=π/2を満たす値である。
また、SBMは、上記のような特徴を持つ基底の重み付け線形結合により、tフレーム目のスペクトル包絡χt=[χt(1),χt(1),・・・,χt(k),・・・,χt(K)]を、下記式(3)のように表現する。
Figure 0006157926
ここで、ct=[ct(0),ct(2),・・・,ct(n),・・・,ct(N−1)]は、SBMの基底ベクトルに対するtフレーム目の重みベクトルであり、Φ=[Φ0,Φ1,・・・,Φn,・・・,ΦN−1]は基底ベクトルを行列化したものである。
本実施形態では、SBMの各基底ベクトルに対応する重みベクトルctを、音声パラメータとして扱う。この音声パラメータは、参考文献1に記載されている非負最小二乗誤差法を用いて、スペクトル包絡χtから抽出することができる。すなわち、音声パラメータとしての重みベクトルctは、音声パラメータの値が必ず零以上になるとの制約のもとで、各基底ベクトルと重みベクトルctとの線形結合と、スペクトル包絡χtと、の誤差が最小となるように最適化を行うことで求められる。
本実施形態では、スペクトル包絡χtの分析に用いた分析点数が160以上であることを想定し、SBMの基底の数を80とする。これらの基底のうち、周波数軸上で0ラジアンからπ/2ラジアンまでの低い周波数帯域を表現する1番目の基底から55番目の基底までは、メルケプストラム分析で用いられるオールパスフィルタの伸縮係数値(ここでは0.35)に基づいたメル尺度で作成する。また、周波数軸上でπ/2ラジアン以上の高い周波数帯域を表現する56番目から80番目の基底は、線形尺度に基づいて作成されたものを用いる。なお、上述した低い周波数帯域の基底は、メル尺度以外の尺度、例えば線形尺度やバーク尺度、ERB尺度などを用いて作成されたものを用いてもよい。
なお、本実施形態では、スペクトル包絡χtから音声パラメータを抽出するための基底モデル10としてSBMを用いている。しかし、スペクトル包絡χtから、細分化された局所的な周波数帯域ごとの音声成分を表現した音声パラメータを抽出でき、かつ、抽出した音声パラメータから元のスペクトル包絡χtを再現できるものであれば、どのような基底モデル10を用いてもよい。例えば、スパースコーディング法により求めた基底モデルや、非負値行列分解によって求めた基底行列を、スペクトル包絡χtから音声パラメータを抽出するための基底モデル10として用いることができる。また、スペクトル包絡χtから、細分化された局所的な周波数帯域ごとの音声成分を表現した音声パラメータを抽出でき、かつ、抽出した音声パラメータから元のスペクトル包絡χtを再現できるのであれば、サブバンド分割やフィルタバンクによる表現を用いて、音声パラメータを抽出してもよい。
検出部2は、入力音声のスペクトル包絡χt_in、または、このスペクトル包絡χt_inから抽出部1によって抽出された音声パラメータの包絡形状を解析し、入力音声のスペクトル包絡χt_inにおいて音声成分が欠損している周波数帯域である欠損帯域を検出する(図2のステップS102)。
検出部2は、例えば、入力音声のスペクトル包絡χt_in、または、このスペクトル包絡χt_inから抽出された音声パラメータに対して、周波数軸方向の1次の変化の割合および2次の変化の割合を用いて、欠損帯域を検出することができる。
図3は、検出部2による欠損帯域の検出方法の一例を示す図である。図3に示す例は、入力音声が低域通過特性を持つ伝送路を通過することで高周波側の成分が欠損した場合の例であり、スペクトル包絡χt_inから抽出された音声パラメータの包絡形状を解析して欠損帯域を検出する例である。図の横軸は周波数軸であり、数値は基底の番号を表している。図3(a)は、入力音声のスペクトル包絡χt_inから抽出部1により抽出された音声パラメータの周波数軸方向の変化を表すグラフ図であり、縦軸は音声パラメータの値を示している。また、図3(b)は、図3(a)に示した音声パラメータの周波数軸方向の1次変化の割合を表すグラフ図であり、縦軸は音声パラメータを1次微分した値を示している。また、図3(b)は、図3(a)に示した音声パラメータの周波数軸方向の2次変化の割合を表すグラフ図であり、縦軸は音声パラメータを2階微分した値を示している。
検出部2は、まず、図3(b)に示す音声パラメータの1次の変化の割合から、値が最小となる次元(以下、第1の基準位置という。)を、次元が大きい方から探索して決定する。次に、検出部2は、第1の基準位置とこの位置から数次元小さい次元との間の範囲を探索範囲として、図3(c)に示す音声パラメータの2次の変化の割合から、探索範囲内で値が最小となる次元(以下、第2の基準位置という。)を求める。そして、検出部2は、第2の基準点より1つ小さい次元の位置を、欠損帯域の低周波側の端部である開始位置とする。また、図3に示す例では、高周波側の成分が欠損している場合を想定しているため、欠損帯域の高周波側の端部である終了位置は、最大の次元の位置とする。検出部2は、上記のように決定された開始位置と終了位置との間の周波数帯域を、欠損帯域として検出することができる。
入力音声が高域通過特性を持つ伝送路を通過することで低周波側の成分が欠損している場合には、次元の小さい方から上記と同様の処理を行うことで、欠損帯域を検出することができる。すなわち、検出部2は、まず、音声パラメータの1次の変化の割合を次元が小さいほうから探索して、第1の基準位置を決定する。次に、検出部2は、第1の基準位置とこの位置から数次元大きい次元との間の範囲を探索範囲として、音声パラメータの2次の変化の割合から、第2の基準位置を求める。そして、検出部2は、第2の基準位置より1つ大きい次元の位置を、欠損帯域の高周波側の端部である終了位置とする。また、この場合は、欠損帯域の低周波側の端部である開始位置は、最小の次元の位置とする。検出部2は、上記のように決定された開始位置と終了位置との間の周波数帯域を、欠損帯域として検出することができる。
また、入力音声が帯域遮断特性を持つ伝送路を通過することで、低周波と高周波の間の任意の周波数帯域の成分が欠損している場合には、検出部2は、例えば以下の方法で欠損帯域を検出することができる。すなわち、検出部2は、まず、スペクトル傾斜情報を取り除いた音声パラメータに対して、低次元側からの1次の変化の割合および2次の変化の割合を求め、1次の変化の割合の最小値および最大値となる次元をそれぞれ求めて、これらを第1の基準位置とする。次に、検出部2は、最小値となる第1の基準位置より小さい次元において2次の変化の割合が最小となる点を求める。同様に、検出部2は、最大値となる第1の基準位置より大きな次元において変化の割合が最小となる点を求め、それぞれを第2の基準位置とする。そして、検出部2は、これら2つの第2の基準位置に基づいて、低次元側を開始位置、高次元側を終了位置として定める。検出部2は、上記のように定めた開始位置と終了位置との間の周波数帯域を、欠損帯域として検出することができる。
入力音声の伝送路の特性によって欠損帯域が生じる場合、欠損帯域は入力音声ごとに一定であることが想定される。したがって、検出部2は、入力音声の少なくとも1つのフレームに対して上述した処理を行うことで、欠損帯域の検出が可能である。ただし、検出部2は、入力音声の複数のフレームを対象として対して上述した処理を行うようにすれば、欠損帯域の検出をより精度よく行うことができる。この場合、検出部2は、例えば、複数フレームの音声パラメータの平均値を次元ごとに求め、求めた平均値の1次の変化の割合および2次の変化の割合を用いて、欠損位置を精度よく検出することができる。また、検出部2は、複数フレームの音声パラメータに対してそれぞれ上述した処理をそれぞれ行って、得られた結果をマージすることで、最終的な欠損帯域を検出するようにしてもよい。
また、検出部2は、入力音声の各フレームに対して上述した処理を繰り返し行うようにすれば、突発的な要因によって入力音声における欠損帯域がフレーム間で異なる場合であっても、フレーム間で異なる欠損位置をそれぞれ検出することができる。
なお、上述した処理は、入力音声のスペクトル包絡χt_inから抽出された音声パラメータを処理対象としたが、入力音声のスペクトル包絡χt_inそのものを処理対象としても、同様の処理によって欠損帯域を検出することができる。すなわち、入力音声のスペクトル包絡χt_inに対して、周波数軸方向の1次の変化の割合および2次の変化の割合を用いて上記と同様の処理を行うようにしても、欠損帯域を検出することができる。
生成部3は、検出部2により検出された欠損帯域の位置と、統計情報20と、入力音声のスペクトル包絡χt_inから抽出部1によって抽出された音声パラメータとに基づいて、欠損帯域に対応する音声パラメータを生成する(図2のステップS103)。
統計情報20は、音声成分が欠損していない音声のスペクトル包絡から抽出された音声パラメータ(抽出部1が入力音声のスペクトル包絡χt_inから抽出する音声パラメータと同様の音声パラメータ)を用いて事前に作成されている。ここで、統計情報とは、音声パラメータベクトルの平均、分散やヒストグラムなどにより、音声パラメータをモデル化したものであり、例えばコードブック、混合分布モデル、隠れマルコフモデルなどである。本実施形態では、統計情報20として混合正規分布モデル(以下、GMMという。)を用いる。統計情報20は、音声処理装置内の図示しない記憶部に予め格納されてもよいし、音声処理装置の動作時に外部から取得されて保持されてもよい。
GMMでは、重みベクトルctの確率密度関数は、下記式(4)のように表される。
Figure 0006157926
なお、本実施形態において、残存帯域(欠損帯域以外の帯域)に対応するパラメータ成分(以下、残存帯域成分という。)の数と、欠損帯域に対応するパラメータ成分(以下、欠損帯域成分という。)の数が異なることを想定している。このため全共分散行列、すなわち、行列のすべての成分にある値を有するものを用いている。しかし、実施形態において残存帯域成分の数と欠損帯域成分の数が常に同数である場合には、全共分散行列の代わりに、行列の対角成分と事前に決定した残存帯域成分とそれに対応する欠損帯域成分とに値を有し、それ以外の成分は零であるような分散行列を用いてもよい。
本実施形態では、音声成分が欠損していない(欠損帯域のない)複数の話者の発話音声から抽出された音声パラメータを学習データとして用いて事前に構築された統計モデルである不特定話者GMMを、統計情報20として用いる。統計情報20の構築には、例えば、LGBアルゴリズムやEMアルゴリズムなどを用いることができる。
生成部3は、統計情報20としてのGMMを用いて、残存帯域成分から欠損帯域成分を生成するための規則を、次のような手順で求める。
生成部3は、まず、統計情報20としてのGMMを、検出部2により検出された欠損帯域の位置、すなわち、上述した開始位置および終了位置に基づいて、音声パラメータベクトル、平均ベクトルμm(c)、および共分散行列Σm(cc)を分割して、下記式(5)のように変形する。
Figure 0006157926
次に、生成部3は、この変形したGMMを、下記式(6)に示すように、残存帯域の音声パラメータベクトルに対する欠損帯域の音声パラメータベクトルの条件付き確率分布へと変形する。そして、生成部3は、式(6)に示す条件付き確率分布を規則として用いて、残存帯域成分(入力音声のスペクトル包絡χt_inから抽出された音声パラメータ)から、欠損帯域成分(欠損帯域に対応する音声パラメータ)を生成する。
Figure 0006157926
本実施形態においては、上述したように、1つの入力音声における欠損帯域がフレーム間で一定であることを想定している。この場合、上述したように、フレームごとに欠損帯域に対応する音声パラメータを生成すると、フレーム間で不連続が生じることが考えられる。そこで、この不連続を緩和させるために、生成部3は、当該フレームと前後数フレームを用いて移動平均フィルタ、中央値フィルタ、加重平均フィルタ、ガウスフィルタなどにより平滑化処理を行うことで、欠損帯域に対応する音声パラメータのフレーム間における不連続性を緩和させてもよい。
また、生成部3により生成された欠損帯域に対応する音声パラメータは、汎化されたGMMの影響により平滑化されている。そのため、生成部3は、欠損帯域に対応する音声パラメータを生成した後に、下記の参考文献2で示される系列内変動(以下、GVという)の統計情報や音声パラメータのヒストグラムを用いたパラメータ強調を行ってもよい。
参考文献2:藤敦渉、他4名,「GMMに基づく最尤変換法による携帯電話音声の帯域拡張」,社団法人 情報処理学会 研究報告(IPSJ SIG Technical Report),2007年7月21日,p.63−68
さらに、生成部3は、フレーム間の不連続性や音声パラメータの平滑化を防ぐために、参考文献2で示されている、動的特徴量を用いた尤度最大化基準によるGMM変換手法を用いて、欠損帯域に対応する音声パラメータを生成してもよい。この場合、GMMの学習においては、音声パラメータである重みベクトルctと、この重みベクトルctの時間変化成分Δctとを結合した下記式(12)で示す特徴量Ctを用意し、下記式(13)に示すGMMを構築して、これを統計情報20として保持する。
Figure 0006157926
式(13)に示すGMMを統計情報20として用いる場合においても、生成部3は、まず、検出部2により検出された欠損帯域の位置(開始位置および終了位置)に基づいてGMMを残存帯域成分と欠損帯域成分とに分割し、式(13)を下記式(14)のように変形する。
Figure 0006157926
次に、生成部3は、式(14)に示すGMMを、下記式(15)に示すように、残存帯域の音声パラメータベクトルに対する欠損帯域の音声パラメータベクトルの条件付き確率分布へと変形する。
Figure 0006157926
そして、生成部3は、尤度最大化基準で、下記式(16)および下記式(17)に示すように、欠損帯域の音声パラメータを生成する。
Figure 0006157926
ここで、Wは音声パラメータ系列から音声パラメータと時間変化量成分との結合特徴量系列へと変換するための行列を表す。
また、生成部3は、式(16)の代わりに、参考文献2で示される準最尤分布系列からのパラメータ生成やGVを用いたパラメータ生成法を用いて、欠損帯域に対応する音声パラメータを生成してもよいし、式(16)による音声パラメータの生成後に、GVやヒストグラムを用いたパラメータ強調を行ってもよい。
なお、本実施形態では、統計情報20として不特定話者GMMを使用することを想定している。しかし、不特定話者GMMのほかに、複数の特定話者GMMを統計情報20として用いてもよい。この場合、生成部3は、入力音声のスペクトル包絡χt_inから抽出された音声パラメータに最も適合した特定話者GMM、または適合度に合わせて複数の特定話者GMMを線形結合したものを用いて、欠損帯域に対応する音声パラメータの生成を行う。これにより、欠損帯域の音声パラメータを、入力音声のスペクトル包絡χt_inから抽出された音声パラメータに適合するように生成することができる。
さらに、入力音声のスペクトル包絡χt_inから抽出された音声パラメータとの適合性を向上させるために、不特定話者GMMないしは特定話者GMMに対して、線形回帰や最大事後確率推定などの統計的な音声認識や音声合成で用いられている話者適応手法を適用し、入力音声のスペクトル包絡χt_inから抽出された音声パラメータと適合したGMMを用いて、欠損帯域に対応する音声パラメータを生成してもよい。
変換部4は、生成部3が生成した欠損帯域に対応する音声パラメータを、基底モデル10を用いて、欠損帯域のスペクトル包絡に変換する(図2のステップS104)。
本実施形態では、基底モデル10としてSBMを用いるため、上記式(3)に示したような処理を行うことで、欠損帯域に対応する音声パラメータとして生成された重みベクトルctを、欠損帯域の音声スペクトル包絡χ~tに変換することができる。すなわち、変換部4は、欠損帯域に対応する音声パラメータである重みベクトルctと、この欠損帯域に対応する基底ベクトルとを線形結合することにより、欠損帯域のスペクトル包絡χ~tを求めることができる。
補完部5は、変換部4により得られた欠損帯域のスペクトル包絡χ~tと、入力音声のスペクトル包絡χt_inとを合成して、欠損帯域が補完されたスペクトル包絡χt_outを生成する(図2のステップS105)。
補完部5は、例えば、入力音声のスペクトル包絡χt_inのうち、検出部2により検出された欠損帯域の位置(開始位置と終了位置との間の帯域)に、変換部4により得られた欠損帯域のスペクトル包絡χ~tを当てはめるとともに、不連続性を緩和させる処理を行ってこれらを合成することで、欠損帯域が補完されたスペクトル包絡χt_outを生成することができる。
図4は、補完部5による処理の一例を示す図である。図4に示す例は、低域通過特性を持つ伝送路により高周波側の成分が欠損した入力音声のスペクトル包絡χt_inから、欠損帯域が補完されたスペクトル包絡χt_outを生成する例である。
入力音声のスペクトル包絡χt_inの欠損帯域の位置に、変換部4により得られた欠損帯域のスペクトル包絡χ~tをそのまま当てはめると、欠損帯域の境界位置にて2つのスペクトル包絡の値が大きくずれて、不連続性が発生する場合がある。そこで、補完部5は、まず、欠損帯域の境界位置における2つのスペクトル包絡の差分dを計測する(図4(a))。そして、補完部5は、計測した差分dに基づき、変換部4により得られた欠損帯域のスペクトル包絡χ~tの全体にバイアス補正を行う(図4(b))。
次に、補完部5は、入力音声のスペクトル包絡χt_inと欠損帯域のスペクトル包絡χ~tとが滑らかに接続されるように、それぞれのスペクトル包絡の境界位置周辺の成分に対して片側ハン窓をかけ(図4(c))、該当する箇所のスペクトル包絡の成分を加算することで、入力音声のスペクトル包絡χt_inと欠損帯域のスペクトル包絡χ~tとを合成する(図4(d))。これにより、欠損帯域が補完されたスペクトル包絡χt_outが生成される。
なお、高域通過特性を持つ伝送路により低周波側の成分が欠損した入力音声のスペクトル包絡χt_inから、欠損帯域が補完されたスペクトル包絡χt_outを生成する場合も、上記と同様の手順で、欠損帯域が補完されたスペクトル包絡χt_outを適切に生成することができる。
図5は、補完部5による処理の他の例を示す図である。図5に示す例は、帯域遮断特性を持つ伝送路により低周波と高周波の間の任意の周波数帯域の成分が欠損した入力音声のスペクトル包絡χt_inから、欠損帯域が補完されたスペクトル包絡χt_outを生成する例である。
図5の例の場合、補完部5は、欠損帯域の開始位置における2つのスペクトル包絡の差分dsを計測するとともに、欠損帯域の終了位置における2つのスペクトル包絡の差分deを計測する(図5(a))。そして、補完部5は、欠損帯域の開始位置で計測された差分dsと、欠損帯域の終了位置で計測された差分deとに基づき、変換部4により得られた欠損帯域のスペクトル包絡χ~tに対して傾斜補正をかける(図5(b))。
次に、補完部5は、欠損帯域の開始位置と終了位置の双方において、入力音声のスペクトル包絡χt_inと欠損帯域のスペクトル包絡χ~tとが滑らかに接続されるように、これら開始位置および終了位置の周辺におけるそれぞれのスペクトル包絡の成分に対して片側ハン窓をかけ(図5(c))、該当する箇所のスペクトル包絡の成分を加算することで、入力音声のスペクトル包絡χt_inと欠損帯域のスペクトル包絡χ~tとを合成する(図5(d))。これにより、欠損帯域が補完されたスペクトル包絡χt_outが生成される。
本実施形態の音声処理装置は、補完部5により生成された、欠損帯域が補完されたスペクトル包絡χt_outを外部に出力することができる。また、本実施形態の音声処理装置は、欠損帯域が補完されたスペクトル包絡χt_outから音声を復元し、復元した音声を出力するようにしてもよい。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態の音声処理装置によれば、任意の周波数帯域で欠損した音声成分を適切に補完することができる。
なお、本実施形態の音声処理装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いて実現することが可能である。すなわち、本実施形態の音声処理装置は、汎用のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声処理装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、上記のプログラムをサーバーコンピュータ装置上で実行させ、ネットワークを介してその結果をクライアントコンピュータ装置で受け取ることにより実現してもよい。
また、本実施形態の音声処理装置で使用する各種情報は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記録媒体を適宜利用して格納しておくことができる。例えば、本実施形態の音声処理装置が使用する基底モデル10や統計情報20は、これら記録媒体を適宜利用して格納しておくことができる。
本実施形態の音声処理装置で実行されるプログラムは、音声処理装置を構成する各処理部(抽出部1、検出部2、生成部3、変換部4および補完部5)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、プロセッサが上記記憶媒体からプログラムを読み出して実行することにより、上記各処理部が主記憶装置上にロードされ、主記憶装置上に生成されるようになっている。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1 抽出部
2 検出部
3 生成部
4 変換部
5 補完部
10 基底モデル
20 統計情報

Claims (11)

  1. 入力音声のスペクトル包絡から、細分化された周波数帯域ごとの音声成分を表現する音声パラメータを抽出する抽出部と、
    前記入力音声のスペクトル包絡において音声成分が欠損している周波数帯域である欠損帯域を検出する検出部と、
    検出された前記欠損帯域の位置と、音声成分が欠損していない音声のスペクトル包絡から抽出された前記音声パラメータを用いて事前に作成された統計情報と、前記入力音声のスペクトル包絡から抽出された前記音声パラメータとに基づいて、前記欠損帯域に対応する前記音声パラメータを生成する生成部と、
    生成された前記欠損帯域に対応する前記音声パラメータを、前記欠損帯域のスペクトル包絡に変換する変換部と、
    前記欠損帯域のスペクトル包絡と前記入力音声のスペクトル包絡とを合成して、前記欠損帯域が補完されたスペクトル包絡を生成する補完部と、を備える音声処理装置。
  2. 前記音声パラメータは、細分化された前記周波数帯域の各々に対応する複数の基底ベクトルを用いて算出される値であり、
    前記基底ベクトルの数は、音声のスペクトル包絡の分析に用いた分析点数よりも少ないことを特徴とする請求項1に記載の音声処理装置。
  3. 前記基底ベクトルに対応する前記周波数帯域の範囲は、周波数軸上で隣り合う範囲の一部が重複していることを特徴とする請求項2に記載の音声処理装置。
  4. 前記音声パラメータは、複数の前記基底ベクトルと各基底ベクトルに対応する重みベクトルとの線形結合と、音声のスペクトル包絡と、の誤差が最小になるように決定された前記重みベクトルであることを特徴とする請求項2または3に記載の音声処理装置。
  5. 前記検出部は、前記入力音声のスペクトル包絡または該スペクトル包絡から抽出された前記音声パラメータの包絡形状を解析して、前記欠損帯域を検出することを特徴とする請求項1に記載の音声処理装置。
  6. 前記統計情報は、音声成分が欠損していない複数の話者の音声から抽出された前記音声パラメータを学習データとして構築された統計モデルであることを特徴とする請求項1に記載の音声処理装置。
  7. 前記統計情報は、音声成分が欠損していない複数の話者の音声から抽出された前記音声パラメータの系列と、該音声パラメータの系列から抽出された時間変動成分と、を学習データとして構築された統計モデルであることを特徴とする請求項1に記載の音声処理装置。
  8. 前記生成部は、前記欠損帯域の位置と前記統計情報とに基づいて、前記欠損帯域を除く周波数帯域である残存帯域に対応する前記音声パラメータから前記欠損帯域に対応する前記音声パラメータを生成する規則を構築し、該規則を用いて、前記入力音声の音声スペクトル包絡から抽出された前記音声パラメータから、前記欠損帯域に対応する前記音声パラメータを生成することを特徴とする請求項1に記載の音声処理装置。
  9. 前記変換部は、前記欠損帯域に対応する前記音声パラメータとして生成された前記重みベクトルと、前記欠損帯域に対応する前記基底ベクトルとを線形結合することにより、前記欠損帯域に対応する前記音声パラメータを前記欠損帯域のスペクトル包絡に変換することを特徴とする請求項4に記載の音声処理装置。
  10. 音声処理装置において実行される音声処理方法であって、
    前記音声処理装置が、入力音声のスペクトル包絡から、細分化された周波数帯域ごとの音声成分を表現する音声パラメータを抽出するステップと、
    前記音声処理装置が、前記入力音声のスペクトル包絡において音声成分が欠損している周波数帯域である欠損帯域を検出するステップと、
    前記音声処理装置が、検出された前記欠損帯域の位置と、音声成分が欠損していない音声のスペクトル包絡から抽出された前記音声パラメータを用いて事前に作成された統計情報と、前記入力音声のスペクトル包絡から抽出された前記音声パラメータとに基づいて、前記欠損帯域に対応する前記音声パラメータを生成するステップと、
    前記音声処理装置が、生成された前記欠損帯域に対応する前記音声パラメータを、前記欠損帯域のスペクトル包絡に変換するステップと、
    前記音声処理装置が、前記欠損帯域のスペクトル包絡と前記入力音声のスペクトル包絡とを合成して、前記欠損帯域が補完されたスペクトル包絡を生成するステップと、を含む音声処理方法。
  11. コンピュータに、
    入力音声のスペクトル包絡から、細分化された周波数帯域ごとの音声成分を表現する音声パラメータを抽出する機能と、
    前記入力音声のスペクトル包絡において音声成分が欠損している周波数帯域である欠損帯域を検出する機能と、
    検出された前記欠損帯域の位置と、音声成分が欠損していない音声のスペクトル包絡から抽出された前記音声パラメータを用いて事前に作成された統計情報と、前記入力音声のスペクトル包絡から抽出された前記音声パラメータとに基づいて、前記欠損帯域に対応する前記音声パラメータを生成する機能と、
    生成された前記欠損帯域に対応する前記音声パラメータを、前記欠損帯域のスペクトル包絡に変換する機能と、
    前記欠損帯域のスペクトル包絡と前記入力音声のスペクトル包絡とを合成して、前記欠損帯域が補完されたスペクトル包絡を生成する機能と、を実現させるためのプログラム。
JP2013109897A 2013-05-24 2013-05-24 音声処理装置、方法およびプログラム Active JP6157926B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013109897A JP6157926B2 (ja) 2013-05-24 2013-05-24 音声処理装置、方法およびプログラム
US14/194,976 US20140350922A1 (en) 2013-05-24 2014-03-03 Speech processing device, speech processing method and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013109897A JP6157926B2 (ja) 2013-05-24 2013-05-24 音声処理装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2014228779A JP2014228779A (ja) 2014-12-08
JP6157926B2 true JP6157926B2 (ja) 2017-07-05

Family

ID=51935942

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013109897A Active JP6157926B2 (ja) 2013-05-24 2013-05-24 音声処理装置、方法およびプログラム

Country Status (2)

Country Link
US (1) US20140350922A1 (ja)
JP (1) JP6157926B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077849B (zh) * 2014-11-07 2020-09-08 三星电子株式会社 用于恢复音频信号的方法和设备
JP2019008206A (ja) * 2017-06-27 2019-01-17 日本放送協会 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、***、电子设备和存储介质
CN115497494A (zh) * 2022-09-14 2022-12-20 安克创新科技股份有限公司 通话增强方法、装置、通话***、电子设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5561598A (en) * 1994-11-16 1996-10-01 Digisonix, Inc. Adaptive control system with selectively constrained ouput and adaptation
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US20070005351A1 (en) * 2005-06-30 2007-01-04 Sathyendra Harsha M Method and system for bandwidth expansion for voice communications
US7546240B2 (en) * 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
US20080300866A1 (en) * 2006-05-31 2008-12-04 Motorola, Inc. Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice
JP2008122597A (ja) * 2006-11-10 2008-05-29 Sanyo Electric Co Ltd オーディオ信号処理装置及びオーディオ信号処理方法
DE602007004504D1 (de) * 2007-10-29 2010-03-11 Harman Becker Automotive Sys Partielle Sprachrekonstruktion
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US8489393B2 (en) * 2009-11-23 2013-07-16 Cambridge Silicon Radio Limited Speech intelligibility
US8874441B2 (en) * 2011-01-19 2014-10-28 Broadcom Corporation Noise suppression using multiple sensors of a communication device
JP5942420B2 (ja) * 2011-07-07 2016-06-29 ヤマハ株式会社 音響処理装置および音響処理方法

Also Published As

Publication number Publication date
JP2014228779A (ja) 2014-12-08
US20140350922A1 (en) 2014-11-27

Similar Documents

Publication Publication Date Title
US9355649B2 (en) Sound alignment using timing information
JP5127754B2 (ja) 信号処理装置
US8831942B1 (en) System and method for pitch based gender identification with suspicious speaker detection
US10008218B2 (en) Blind bandwidth extension using K-means and a support vector machine
EP1995723A1 (en) Neuroevolution training system
US10373604B2 (en) Noise compensation in speaker-adaptive systems
WO2019116889A1 (ja) 信号処理装置および方法、学習装置および方法、並びにプログラム
Eskimez et al. Adversarial training for speech super-resolution
JP6157926B2 (ja) 音声処理装置、方法およびプログラム
JP3189598B2 (ja) 信号合成方法および信号合成装置
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
KR20170107683A (ko) 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법
WO2023001128A1 (zh) 音频数据的处理方法、装置及设备
JP2013057735A (ja) 音声合成用の隠れマルコフモデル学習装置及び音声合成装置
CN108369803B (zh) 用于形成基于声门脉冲模型的参数语音合成***的激励信号的方法
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP5443547B2 (ja) 信号処理装置
JP6216809B2 (ja) パラメータ調整システム、パラメータ調整方法、プログラム
Kaminishi et al. Investigation on Blind Bandwidth Extension with a Non-Linear Function and its Evaluation of x-Vector-Based Speaker Verification.
US9398387B2 (en) Sound processing device, sound processing method, and program
Makhijani et al. Speech enhancement using pitch detection approach for noisy environment
JP2007328268A (ja) 音楽信号の帯域拡張方式
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
TWI409802B (zh) 音頻特徵處理方法及其裝置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170607

R151 Written notification of patent or utility model registration

Ref document number: 6157926

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350