JP2005203981A - 音響信号処理装置および音響信号処理方法 - Google Patents

音響信号処理装置および音響信号処理方法 Download PDF

Info

Publication number
JP2005203981A
JP2005203981A JP2004007206A JP2004007206A JP2005203981A JP 2005203981 A JP2005203981 A JP 2005203981A JP 2004007206 A JP2004007206 A JP 2004007206A JP 2004007206 A JP2004007206 A JP 2004007206A JP 2005203981 A JP2005203981 A JP 2005203981A
Authority
JP
Japan
Prior art keywords
signal processing
unit
acoustic signal
som
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004007206A
Other languages
English (en)
Other versions
JP4185866B2 (ja
Inventor
Mutsumi Saito
睦巳 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004007206A priority Critical patent/JP4185866B2/ja
Publication of JP2005203981A publication Critical patent/JP2005203981A/ja
Application granted granted Critical
Publication of JP4185866B2 publication Critical patent/JP4185866B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 補聴器,テレビ等の音響信号処理装置において、音声又は非音声の区別,周囲雑音,騒音又は残響の程度に応じて音声等の聴感を向上させ、音環境によらずに明瞭性の高い音声を再生する。
【解決手段】 補聴器等に設けられた音響信号処理装置20において、学習フェーズ処理部27において様々な音響信号を分類整理し(学習ステップ)、信号処理実行フェーズ処理部28において学習フェーズにて分類整理された音響信号を用いて上記入力音響信号の増幅等をユーザが聴取するために信号処理する(信号処理実行ステップ)。
【選択図】 図1

Description

本発明は、例えば、補聴器のように音声を聞き取りやすくして聴覚を補助する音響信号処理装置に関し、特に、音の環境に応じて適切な信号処理に用いて好適な、音響信号処理装置および音響信号処理方法に関する。
一般に、音響信号処理装置は、様々な音の受信および再生に用いられ、ユーザの周囲の音環境あるいは音響信号処理システムに入力される音の種類に応じて、適切な信号処理の方式又は信号処理のパラメータ(増幅度等)が異なることが多い。例えば補聴器の音響信号処理装置は、音声又は非音声の種別,周囲の騒音又は残響等(以下、音環境と称する。)の程度に応じて適切な増幅特性が異なる。このため、最大の音声明瞭度を実現するためには、環境毎にモード切り替えとパラメータの調整とが必要である。
従来、これらのモード切り替えおよびパラメータ調整の各動作は、ユーザが音環境に応じて手動で行なっていた。また、最近の補聴器は、増幅パラメータが異なる複数のモード切り替え機能が設けられている一方、ユーザが聞こえにくい場合は、ユーザ自身がボタン等を用いてモード切り替えできる仕様になっている。
また、従来から、環境毎にモードを切り替え又は制御する方法が種々提案されている。
例えば音声の自動利得制御装置における利得制御が提案されている(特許文献1参照)。特許文献1記載の自動利得制御装置は、算出した入力音響信号レベルと閾値との大小を比較して利得制御を行なうか否かを決定する。これにより、音声の語尾部分や背景ノイズに対する不要な利得制御を抑えるとともに、より大きな最大利得が得られる。
また、環境騒音の質を考慮して音声の明瞭な聞き取りを行なう補聴装置が提案されている(特許文献2参照)。この聞き取り方法は、入力音響信号のレベル分布を検出し環境騒音の定常/非定常を判別し、それに応じた補聴処理を行なうものである。これにより、環境騒音の質のいかんにかかわらず聴き取り対象となる音声を明瞭に聴き取れる。
さらに、補聴器における補正方法が特許文献3に開示されている。特許文献3記載の補聴器は、聞き取り対象となる音声を入力するマイク(マイクロホン)とは別に、周囲雑音と必要な音声とを識別するための音響センサーを設け、音響センサーから得た雑音センサーに基づいて、スペクトル特性を変化させ、スペクトル補正や利得補正をリアルタイムに調整するものである。これにより、補聴器が周囲の雑音と目的の音声とを識別して、補聴器を使用する人の音響環境に精度良く適応して動作する。
また、入力音響信号から抽出した音響パラメータにしたがって補聴信号処理部の特性を決定する方法が提案されている(特許文献4参照)。特許文献4記載の補聴器は、入力音響信号の音響パラメータを、補聴特性を示すフィッティングパラメータに変換して写像関係を記述して、入力音の音響パラメータからフィッティングパラメータを自動調整するものである。これにより、補聴処理特性を環境音に適応して決定する適応特性補聴器が得られる。
さらに、ダイナミックレンジ圧縮型の聴覚補償処理方法が提案されている(特許文献5参照)。この特許文献5記載の聴覚補償処理方法は、健聴者と利用者のラウドネス曲線を用い、予め設定された音圧以下の入力音に対するゲインを入力音の音圧に応じて徐々に小さくするものである。そして、微小なノイズの増幅率を小さくすることで、入力音声の前後の無音部分のノイズによる時間方向のマスキングを改善できる。
加えて、音声認識等において基本的な処理であるクラスタリングとラベリングとをアナログ回路で一括して実現する回路も提案されている(特許文献6参照)。特許文献6記載の音声認識回路は、自己組織化アルゴリズムに基づいた特徴を出力する類似度回路と、類似度回路の出力信号の行列演算を行なうマトリクス回路とをそなえ、マトリクス回路が、類似度に対応した電圧信号を受けて、その行列演算出力の中から予め用意されたパターンに最も近いものを認識結果として出力させるものである。これにより、半導体集積回路に好適な小規模回路な音声認識回路が実現できる。
特開平11−220345号公報 特開2001−128296号公報 特開2000−13895号公報 特開2002−369292号公報 特開平10−94095号公報 特開2002−279393号公報
しかしながら、ユーザが、家から外に出る場合等は、周囲の音環境が急激に変わると、補聴器等の音響信号処理装置は、モード切り替え動作を頻繁に行なう必要がある。従って、ユーザは手動切り替え等の煩雑な操作を行なうか、又は聞こえにくい状況を強いられるという課題がある。
一方、従来の技術は、音環境に応じて適切にモード切り替え可能ではない。例えば、特許文献1記載の自動利得制御装置と特許文献2記載の補聴装置とは、いずれも、入力音響信号レベルだけを監視するものであり、入力音響信号レベル以外のスペクトル特性又は入力音響信号の種別を監視するものではない。このため、各装置は、周囲騒音のレベルに応じて利得等を制御することはできるが、音声又は非音声の種別,残響の有無等、周囲の音環境の状態については記載されておらず、きめ細かい制御はできない。また、特許文献2記載の補聴装置は、検出されたレベル分布の各レベル値が散在し音質が劣化する。
さらに、特許文献3記載の補聴器は、音声入力マイクの他に音響センサーを設ける必要があるので、補聴器のコストが高くなる。また、特許文献3記載の補正方法は、音響センサー入力のスペクトル情報を用いて雑音をパターン化し、音声の増幅特性を制御するものだが、そのパターン化の方法の詳細は開示されていない。従って、補聴器は、サイレン音等の極端な音をパターン化できても周囲環境の分類は困難である。
そして、特許文献4には、音響パラメータと補聴信号処理部の特性とを、どのような手順を用いて写像させるかについては記載されておらず、必ずしもその効果が得られるとは限らない。また、特許文献4記載の補聴器は、音を特徴付けるパラメータを用いたものではない。さらに、写像処理が動作しない場合、適切な増幅特性とは全く別個の増幅特性となる可能性も大きく、必ずしも安定した音声処理が行なわれるわけではない。
また、特許文献5,6においても、入力音響信号レベル以外のスペクトル特性又は入力音響信号の種別を監視する技術は開示されていない。
本発明は、このような課題に鑑み創案されたもので、例えば補聴器の音響信号処理において、入力音響信号を識別し、適切に音響信号を特徴解析し、その解析によって得られた特徴量により周囲の音環境を識別し、識別された情報に基づいて増幅特性等の音響信号を処理することにより、どのような音環境においても、安定かつ適切な音響信号処理でき、聞きやすく、また、安定して明瞭性の高い音声を再生可能な、音響信号処理装置および音響信号処理方法を提供することを目的とする。
このため、本発明の音響信号処理装置は、入力音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、2次元平面の座標と、座標に割り当てられた第2の特徴量データと、複数の学習音響信号が2次元平面においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けた自己組織化マップ(Self-Organizing Map:SOM)情報データ(以下、SOM情報データと称する。)を保持する自己組織化マップ保持部と、特徴量出力部からの第1の特徴量データと、自己組織化マップ保持部に保持されたSOM情報データとに基づいて、第1の特徴量データに対応するグループ識別情報を検索する検索部と、音響信号の処理種別を表す複数の信号処理種別情報のうちの検索部にて検索されたグループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、信号処理種別情報出力部から出力された信号処理種別情報に基づいて入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴としている(請求項1)。
また、本発明の音響信号処理装置は、入力音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、多次元空間における座標と、座標に割り当てられた第2の特徴量データと、複数の学習音響信号が多次元空間においてグループ化された複数のグループを識別するグループ識別情報とを対応付けたSOM情報データを保持する自己組織化マップ保持部と、特徴量出力部から出力された第1の特徴量データと、自己組織化マップ保持部に保持されたSOM情報データとに基づいて、第1の特徴量データに対応するグループ識別情報を検索する検索部と、音響信号の処理種別を表す複数の信号処理種別情報のうちの検索部にて検索されたグループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、信号処理種別情報出力部から出力された信号処理種別情報に基づいて入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴としている(請求項2)。
そして、この信号処理種別情報出力部は、音響信号の処理に必要な設定値に関するパラメータを、検索部にて検索されたグループ識別情報に基づいて調整して出力するパラメータ調整部として構成することができる(請求項3)。
また、本発明の音響信号処理装置は、学習音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、特徴量出力部からの第1の特徴量データに基づいて学習音響信号を2次元平面においてグループ化する学習部と、2次元平面の座標と、座標に割り当てられた第2の特徴量データと、学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持する自己組織化マップ保持部とをそなえて構成されたことを特徴としている(請求項4)。
さらに、本発明の音響信号処理方法は、学習音響信号の特徴量を表す第1の特徴量データに基づいて学習音響信号について、2次元平面の座標と、座標に割り当てられた第2の特徴量データと、学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを生成する学習ステップと、学習ステップにおける第1の特徴量データについて、学習ステップにて生成されたSOM情報データに保持された2次元平面における複数の座標のうちの特徴量出力部からの第1の特徴量データの近傍に位置する近傍座標を検索する検索ステップと、音響信号の処理種別を表す複数の信号処理種別情報のうちの検索ステップにて検索された近傍座標のグループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力ステップと、信号処理種別情報出力ステップにて出力された信号処理種別情報に基づいて音響信号処理を行なう音響信号処理ステップとをそなえたことを特徴としている(請求項5)。
本発明の音響信号処理装置によれば、どのような音環境においても、安定して明瞭性の高い音声が再生される。
また、本発明の音響信号処理装置によれば、明瞭な音声が得られ、ユーザの聴感の向上に多大に寄与する。
さらに、音声又は非音声の種別にかかわらず、どのような音響信号であっても、学習フェーズを経てその音響信号の特徴量が保持されるので、一層、カスタマイズした機能を発揮することができる。
また、SOM機能を有するメモリ(SOMメモリ)を用いることにより、本来、識別できないメモリデータが2次元平面上に表されるので、設計者は、メモリデータを視覚的に把握でき、音響信号処理に関する操作性が格段に向上し、この操作性の向上により音響信号の特徴量が効率的に分類整理できる。そして、この分類整理により、音響信号処理装置は、周囲の音環境を精度よくかつ確実に識別でき、入力された音響信号について増幅特性等の音響信号処理を安定して行なえる。これにより、明瞭な音声等が得られる。
以下、図面を参照して本発明の実施の形態を説明する。
(a)本発明の一実施形態の説明
図1は本発明の第1実施形態に係る音響信号処理装置のブロック図である。この図1に示す音響信号処理装置20は、例えば補聴器,ラジオ又はテレビの音声回路等に用いられるものであって、音声又は非音声の種別,周囲の雑音,騒音又は残響等の程度に応じて音声等が聞き取りやすくなるように適切な処理(音響信号処理)を行なうものである。この音響信号処理は、入力された音響信号のレベルについての増減,音響信号の一部のスペクトル帯域の強調又は低減等の音響信号について増幅特性を変更し、音声明瞭度を確保するようになっている。
(1)学習フェーズと信号処理実行フェーズ
本発明の音響信号処理装置20における音響信号処理方法は、主に2種類の処理フェーズを設け、様々な音響信号の分類整理を行なう学習フェーズ(学習ステップ)と、この学習フェーズにて分類整理された音響信号を用いて、入力された音響信号をユーザが聴取するために、その入力音響信号の増幅等の信号処理を行なう信号処理実行フェーズ(信号処理実行ステップ)とからなる。
音響信号処理装置20は、補聴器,ラジオおよびテレビ等の生産時に、学習フェーズが行なわれ、多数の学習用音響信号がグループ化され、そのグループ化されたデータが記録される。すなわち、学習フェーズは、ユーザが製品を使用する以前に行なわれるものである。以下の説明において、ユーザは、学習フェーズを実行せず、常時、信号処理実行フェーズにて製品を使用する。
すなわち、本発明の音響信号処理方法は、補聴器等に設けられた音響信号処理装置20において、学習フェーズ処理部27において様々な音響信号を分類整理し(学習ステップ)、信号処理実行フェーズ処理部28において学習フェーズにて分類整理された音響信号を用いて上記入力音響信号の増幅等をユーザが聴取するために信号処理する(信号処理実行ステップ)。
(2)音響信号処理装置20の構成
この音響信号処理装置20は、音声入力部50と、特徴解析部(特徴量出力部)21と、SOM学習部(自己組織化学習部)26と、SOM座標検索部22と、SOM情報格納メモリ(自己組織化マップ保持部)23と、信号処理種別情報出力部24と、音響信号処理部25と、アンプ51と、イヤホン52とをそなえて構成されている。そして、これらの各ブロック(回路ブロック)が協働することにより、学習フェーズと信号処理実行フェーズとが行なわれる。以下、各ブロックについて詳述する。
(2−1)音声入力部50
音声入力部50は、音声および周囲の音を取得して音響信号に変換しこの音響信号を特徴解析部21に入力するものであって、例えばマイク,アンプ等が設けられている。
(2−2)特徴解析部21
特徴解析部21は、入力音響信号の特徴量を表す特徴量ベクトル(特徴量ベクトルデータ:第1の特徴量データ)を出力するものであって、特徴量出力部21として機能している。
(2−3)音響信号の特徴量および特徴量ベクトル
ここで、音響信号の特徴量とは、例えば、音響信号の波形,音響信号のレベル,繰り返し波形を有する音響信号の繰り返し周期又は音響信号のスペクトル成分(パワースペクトル)等、音響信号自身が有する特性又は性質である。
また、特徴量ベクトルとは、例えば「ア」等の特徴量を複数の要素で表したものであって、{1.1,1.3,…,1.2}等の集合である。例えば時間幅TWの音響信号の特徴量ベクトルとは、時間幅TWの波形が特徴解析され時間幅TWをn分割(nは自然数を表す。)した時刻t0,t1,…,t(n-1)において、それぞれ、音響信号の波形を量子化(サンプリング)し、量子化した要素FINPUT(1,1,0),FINPUT(1,1,1),…,FINPUT(1,1,n−1)を特徴量ベクトルとして出力する。
なお、以下の説明において、「FINPUT」を特徴量又は特徴量ベクトルと称することがある。
また、特徴解析部21は、学習フェーズと信号処理実行フェーズとの両フェーズにおいて動作する。学習フェーズにおいて、特徴解析部21は、多数の学習音響信号を入力され、各音響信号の特徴量FINPUT(x,y,k)を抽出する(kは0〜n−1の自然数を表す)。この抽出された特徴量FINPUT(x,y,k)は、後述するSOM情報格納メモリ23に特徴量FSOM(x,y,k)(第2の特徴量データ)として格納される。そして、信号処理実行フェーズにおいて、特徴解析部21が抽出した入力音響信号の特徴量FINPUT(x,y,k)は、SOM情報格納メモリ23に格納された特徴量FSOM(x,y,k)と比較される。従って、特徴解析部21は、信号処理実行フェーズにおいて入力音響信号を特徴解析するとともに、前処理としての学習フェーズにおいても学習音響信号の特徴解析を行なう。
なお、ディジタル信号処理によって、音声信号の雑音成分を抑制し、明瞭な音声信号とする。
(2−4)特徴量ベクトルと座標との違いについて
一般に、「ベクトル」と「座標」との両概念は等価であることが多いが、以下の説明において、特徴量ベクトルと座標とは異なる。上記のように、特徴量ベクトルは要素FINPUT(x,y,0)〜FINPUT(x,y,n−1)の集合を意味し、また、座標はSOM情報格納メモリ23のアドレスを意味する。換言すれば、n個の要素がSOM情報格納メモリ23のアドレスに対応付けられて保持される。
(2−5)SOM情報格納メモリ23
また、SOM情報格納メモリ23は、2次元平面の座標と、座標に割り当てられた特徴量ベクトルFSOM(x,y,k)と、複数の学習音響信号が2次元平面においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持するものである。
このSOM情報格納メモリ23は、音響信号データが入力される入力レイヤと、2次元平面により表される属性マップの競合レイヤとを有する2層のネットワークからなるものであって、この機能はRAM(Random Access Memory)等により実現される。これにより、類似した特徴量を有する音響信号がグループ化されて属性マップが得られる。なお、よく知られているように、SOMは、自己組織化ニューラルネットワーク技術に用いられるものである。
(2−6)SOM座標検索部22
そして、SOM座標検索部22は、特徴解析部21からの特徴量ベクトルFINPUT(x,y,k)と、SOM情報格納メモリ23に保持されたSOM情報データ(座標,特徴量ベクトルFSOM(x,y,k)およびグループ識別情報)とに基づいて、特徴量ベクトルFINPUT(x,y,k)に対応するグループ識別情報を検索するものである。
また、SOM学習部26に入力される特徴量ベクトルFINPUT(x,y,k)と、2次元平面上の各座標に関連付けられて保持された特徴量ベクトルFSOM(x,y,k)とは、ともに、同一フォーマットを用いており、両特徴量ベクトルの要素数(データ数)は一致している。従って、学習フェーズと信号処理実行フェーズとにおいて、それぞれ、同一の処理ブロックを共用できる。これにより、SOM座標検索部22は、特徴量ベクトルFINPUT(x,y,k)と特徴量ベクトルFSOM(x,y,k)とに基づいて、入力音響信号について、音声又は非音声と残響の有無とを識別する。
(2−7)信号処理種別情報出力部24
さらに、信号処理種別情報出力部24は、音響信号の処理種別を表す例えば3種類の信号処理種別情報のうちのSOM座標検索部22にて検索されたグループ識別情報に対応する信号処理種別情報を出力するものである。ここで、信号処理種別情報とは、例えば表1に示すように、圧縮増幅処理,フォルマント強調処理又はノイズ抑圧処理等の3種類の信号処理の識別情報と、入力された音響信号の増幅度等の信号処理に必要なパラメータ情報とを意味する。この信号処理種別情報出力部の機能は、具体的には、分類決定部24(後述する図3参照)又はパラメータ調整部(後述する図9参照)によって発揮される。なお、フォルマント強調とは、音声スペクトル波形の極大になる部分の振幅を増幅することを意味する。
(2−8)音響信号処理部25
そして、音響信号処理部25は、信号処理種別情報出力部(分類決定部又はパラメータ調整部)24から出力された信号処理種別情報に基づいて入力音響信号を処理するものである。
(2−9)アンプ51
また、アンプ51は、音響信号処理部25にて処理された音響信号を増幅して増幅信号を出力するものである。このアンプ51の増幅度の大きさは、例えば増幅度A,B,Cの3種類の増幅度において信号を増幅可能になっている。外部からイヤホン52はアンプ51からの増幅信号を聞くためのものである。これにより、入力された音響信号は、音響信号処理部25において明瞭な音になるように音声信号処理され、ユーザは、イヤホン52を通じて処理された音声等を得ることができる。
(2−10)SOM学習部26
また、SOM学習部26は、特徴解析部21からの特徴量ベクトルFINPUT(x,y,k)に基づいて学習音響信号を2次元平面においてグループ化(2次元平面にマッピングしてグループ化)するものである。このSOM学習部26は、音響信号が特徴解析部21に入力される前に、予め、多数の環境音信号を学習用信号として入力され、各学習用信号を特徴解析してSOM情報格納メモリ23にマッピングするために用いられる。ここで、環境音とは、様々な場所および種々の時刻等の各種の環境下における音を意味する。
(3)学習フェーズ処理部27
次に、図2を参照して、学習フェーズ処理部27について説明する。
図2は本発明の第1実施形態に係る学習フェーズ処理部27のブロック図である。この図2に示すもので図1に示す符号と同一の符号を有するものは、図1に示す符号と同一のものである。
特徴解析部21は、学習音響信号の特徴量を表す特徴量ベクトル(学習音響信号を量子化して得た学習音響信号波形を特徴解析して学習音響信号の特徴量データ)を出力するものであって、特徴量出力部として機能している。この特徴解析部21は、信号処理種別としてFFT(Fast Fourier Transform:高速フーリエ変換)を用いて入力音響信号をスペクトル領域に変換し、変換して得たスペクトル波形を解析しパワースペクトル(電力スペクトル密度)のレベル又は波形に関する情報を特徴量ベクトルFINPUT(x,y,k)として出力する。
さらに、特徴解析処理の種別は、FFT処理のほかに、フィルタバンク処理,線形予測分析処理およびメルケプストラム処理等の各種の分析アルゴリズムを用いることができる。ここで、フィルタバンク処理とは、フィルタバンク出力を特徴量とするものである。フィルタバンク処理とは、入力音響信号をスペクトル変換し入力音響信号の占めるスペクトル帯域を複数のサブ帯域に分割するものである。線形予測分析処理とは線形予測係数を特徴量とするものであって自己相関演算を用いて線形予測係数を得るものである。そして、メルケプストラム処理とは、MFCC(Mel Filtered Cepstrum Coefficient)を特徴量とするものであって、入力音声のパワースペクトルの対数を演算しメル変換およびコサイン変換を用いてMFCCを生成するものである。
また、入力音響信号は、例えばマイクから入力されたアナログ音響信号であり、このアナログ音響信号はアナログ・ディジタル変換される。なお、携帯電話等の音声復号化部等から出力されるディジタル音響信号を用いることができる。入力音響信号データは、いったん、バッファに保持され、保持された入力音響信号データは、一定時間毎に、特徴解析部21によって読み込まれ、特徴解析又は特徴抽出されるようになっている。この処理に要する時間は、フレーム(単位フレーム)と呼ばれる。具体的には、入力音響信号データが、次々に、バッファに保持され、保持数が例えば100になると、特徴解析部21が100個の入力音響信号データを読み込み、特徴解析が行なわれるのである。従って、フレームとは、音響信号の波形データが一定の時間間隔毎に分割されて得られる波形データの集合であり、また、フレーム単位に特徴抽出が行なわれるのである。
さらに、特徴解析部21は、フレーム処理に要する波形の時間幅を、入力音響信号の種別に応じて調整できるようにもなっている。例えば、波形の時間幅が約1msec(ミリ秒)〜約0.1msecの比較的短い時間幅を有する音響信号は、量子化数が少なく、短時間フレーム(短フレーム)と呼ばれ、フレーム数は1個程度で足りる。この一方、時間幅が例えば1sec〜2sec程度の比較的長い音響信号は、短時間フレームが複数個数結合されて、特徴解析部21に読み込まれる。
そして、特徴解析部21からの特徴量ベクトルFINPUT(x,y,k)についても、入力音響信号の種別に応じて、1個の短時間フレーム又は複数の短時間フレームとしてSOM学習部26に入力される。すなわち、SOM学習部26に入力される特徴量ベクトルは、1個のフレームのベクトルデータ又はスカラー値で表すこともでき、複数個のフレームのパラメータを結合したベクトルデータで表すこともでき、これらが入出力される。
このパラメータとは、スペクトル特性、音圧レベル、時間波形等をいう。
さらに詳述すると、1個の短時間フレームにおいて、分割数nを例えば16とすると、特徴量ベクトルFINPUT(x,y,k)は、その16分割した時刻t0〜t15毎に得られる各要素FINPUT(x,y,0),FINPUT(x,y,2),…,FINPUT(x,y,15)を取得することにより生成される。また、この時間幅TWの値は事例によって種々変更して実施でき、時間幅TWは数msec〜数secにもできる。
これにより、学習フェーズにおいて、音声入力部50に入力された音響信号は、特徴解析部21において短時間フレーム毎の特徴解析により特徴量ベクトルFINPUT(x,y,k)が生成され、生成された特徴量ベクトルFINPUT(x,y,k)が、入力バッファ(図示省略)に取り込まれる。また、特徴量ベクトルFINPUT(x,y,k)は、フレーム長に応じた大きさで表されてSOM情報格納メモリ23に格納される。
(4)座標,グループ化およびSOM情報格納メモリ23について
続いて、図4(a)および図4(b)を参照して、座標およびグループ化について説明し、図5(a),図5(b)を参照してSOM情報格納メモリ23の実現例について説明する。
図4(a)は本発明の第1実施形態に係るSOMネットワークの一例を示す図である。SOM学習部26は、この図4(a)に示すSOMネットワークをSOM情報格納メモリ23のアドレスに設けている。また、SOMネットワークには、縦横がそれぞれ10個の10×10=100個の座標(丸,円で表されたもの)が設けられている。SOM情報格納メモリ23は、各グループのうちの各座標が属するグループと、各座標間にて相異なる固有の特徴量ベクトルFSOM(x,y,k)とを対応付けて保持する。
図4(b)は本発明の第1実施形態に係るSOM情報格納メモリにおける2次元平面のグループ分けの一例を示す図である。この図4(b)に示すSOMネットワークは、例えば3種類のグループA〜Cが生成されている。SOM学習部26は、この2次元平面上の各座標(丸で表したもの)が属する音響信号グループを識別するための識別情報についても特徴量ベクトルFSOM(x,y,k)とともに保持する。このため、SOM学習部26は、座標毎にグループ属性情報を保持する。従って、特定の座標値と2次元平面にて近傍の座標は特定の座標のもつグループ属性情報と近いグループ属性情報を保持する。従って、2次元平面を全体として観察すると、特徴量ベクトルFINPUT(x,y,k)が近接している座標同士が、2次元平面上において、近いところに保持され、これにより、物理的な特徴量に基づいて、特徴量ベクトルFINPUT(x,y,k)が保持される。
また、図5(a)は本発明の第1実施形態に係るSOM情報格納メモリ23のメモリ領域の一例を示す図である。この図5(a)に示すSOM情報格納メモリ23のアドレス0x0000には、図5(b)に示す座標(1,1)に対応付けて保持されるFINPUT(x,y,0)等の特徴量ベクトルが格納されているポインタが格納されている。なお、0xは16進数を表し、アドレス値は例示である。同様に、SOM情報格納メモリ23のアドレス0x0001〜0x0073には、座標(1,2)〜座標(10,10)にそれぞれ対応付けて保持される特徴量ベクトルFINPUT(x,y,k)のポインタ(ベクトルポインタ)が格納されている。
従って、SOM情報格納メモリ23は、例えば0x0001〜0x0073等のメモリ空間のアドレスと、アドレスに割り当てられた特徴量ベクトルFSOM(x,y,k)と、複数の学習音響信号がメモリ空間においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持している。
(5)特徴量ベクトルの保持領域
図6は本発明の第1実施形態に係る特徴量ベクトルFINPUT(x,y,k)の保持領域を説明するための示す図である。この図6に示すSOM情報格納メモリ23の座標(1,1)に格納されたポインタが示すメモリ領域に、16個のデータ(例えばスペクトル値)と座標(1,1)が属するグループ識別情報とが格納されている。具体的には、16個の要素FINPUT(x,y+1,0),FINPUT(x,y+1,1),…,FINPUT(x,y+1,15)がスペクトル値として保持されるのである。同様に、座標(1,2)〜座標(10,10)に格納されたポインタが示すメモリ領域に、それぞれ、16個のデータとグループ識別情報とが格納され、例えば座標(10,10)には、16個の要素FINPUT(x+10,y+10,0),FINPUT(x+10,y+10,1),…,FINPUT(x,y+1,15)がスペクトル値として保持される。
このように、本発明の音響信号処理装置20は、学習フェーズにおいて、2次元平面上の座標(1,1)〜座標(10,10)と、特徴量ベクトルFINPUT(x,y,k)と、グループ種別とが相互に関連付けて保持される。そして、学習フェーズが終了すると、図4(b)に示すように、SOM情報格納メモリの各アドレスに座標(1,1)〜座標(10,10)に関連付けられた特徴量ベクトルFSOM(x,y,k)が割り当てられ、かつ各アドレにグループ属性情報とが保持される。すなわち、各座標は、それぞれ、ポインタ(図6参照)によって、相異なる固有の特徴量ベクトルデータと関連付けられて保持されている。なお、学習フェーズにおける初期過程においては、特徴量ベクトルはランダムな値が設定される。
(6)SOMを用いた座標検索
次に、SOMネットワークにおける座標検索について図7を参照して説明する。
SOM学習部26は、特徴解析部21から入力された特徴量ベクトルFINPUT(x,y,k)と、各座標に関連付けて保持された特徴量ベクトルFSOM(x,y,k)との各要素間のユークリッド距離を計算し、入力された特徴量ベクトルFINPUT(x,y,k)に最も近い(ユークリッド距離が小さい)近傍座標を検索するようになっている。
図7は本発明の第1実施形態に係る近傍座標の検索を説明するための図である。この図7に示す2次元平面は、SOM情報格納メモリ23に実現された座標平面である。ここで、所望の時刻tに入力された特徴量ベクトルをw(t)とし、各座標の現在の特徴量ベクトルをmi(t)とすると(iは座標を示すインデックスを表す。)、w(t)とmi(t)とのユークリッド距離は、|w(t) −mi(t)|により表される(ここで、「||」は絶対値を表す。)。このため、SOM学習部26は、入力された特徴量ベクトルに最も近い近傍座標を取得するために、ユークリッド距離|w(t) −mi(t)|が最小となるiを検索する。
具体的には、図7に示す2次元平面の中央部(白い円で表されたもの)に位置する座標(x,y)は、時間幅TWの入力音響信号の波形について、時間幅TWを16分割した時刻t0,t1,…,t15においてそれぞれ量子化された要素FINPUT(x,y,0),…,FINPUT(x,y,15)のうちの一要素FINPUT(x,y,0)である。最初に、SOM座標検索部22は、例えば(x−1,y,0)を検索開始座標とし、FINPUT(x,y,0)と座標(x−1,y,0)との間のユークリッド距離を計算し計算したユークリッド距離を、バッファ(図示省略)に保持する。この後、SOM座標検索部22は、(x,y−1,0),(x+1,y,0),(x,y+1,0)の順に計算および保持を繰り返し、さらに、(x−1,y+1,0),(x−2,y),(x−1,y−1,0),(x,y−2),(x+1,y−1,0),(x+2,y),(x+1,y+1)の順に計算および保持を繰り返す。そして、保持された各ユークリッド距離のうちの最小のユークリッド距離が得られた座標を、座標(x,y,0)に最も近い近傍座標として取得する。
次に、SOM学習部26は、ユークリッド距離が最小となる座標ic(i=ic)の取得後、以下に示す式(1)〜(3)を用いて、座標icの近くの座標における特徴量ベクトルmi(t)を更新する。ここで、tは時間を表し、α(t)は後述する学習率係数を表す。
i(t+1) = mi(t) + hci(t)[w(t)−mi(t)] …(1)
ci = α(t) (iがicの近傍のとき) …(2)
ci = 0 (iがicの近傍でないとき) …(3)
ここで、iがicの近傍であるか否かは、式(4)を用いて判定される。
|a − ac| < 4 かつ |b − bc| < 4 …(4)
そして、SOM学習部26は、式(4)を満足させる座標iを近傍座標としている。なお、座標iを(a,b)とし、icの座標を(ac,bc)としている。また、式(4)のiは2次元平面上の座標であり、aはx軸の値を表し、bはy軸の値を表している。
また、式(2)に示す学習率係数α(t)は、0<α(t)<1の条件を満足させるものである。さらに、学習率係数α(t)は、時間とともに減少する関数を用いて、例えば式(5)に示すように設定される。
α(t) = α0(1 − t/TL) …(5)
なお、α0は適切に選択された定係数であり、例えば約0.3に設定される。tは学習開始からの時間又は時刻t0〜t15を表し、TLは学習に要する時間を表す。
これにより、SOM学習部26は、多数の音響信号を用いて、式(1)に示す学習計算を行なう。例えば合計k個の音響信号がSOM学習部26に入力された場合、SOM学習部26は、各時刻t0〜t15において、k個のうちの1個の音響信号の特徴パラメータを用いて、SOM情報格納メモリの保持値を更新する。また、学習は各時刻t0〜t15において行なわれるので、学習は時間TLを要することになる。
さらに、学習の終了後、SOM学習部26は、SOMネットワークの情報(各座標における特徴量ベクトル値)をSOM情報格納メモリに保持する。従って、入力音響信号は、SOM情報格納メモリにおいて、仮想的な2次元平面上の座標にマッピングされ、2次元平面上の座標は、各々固有な特徴量ベクトルを割り当てられた状態で保持される。この保持されている特徴量ベクトルは、具体的には、特定の音に関するものであり、所望の座標に「ア」という音の特徴量ベクトルが格納され、また、他の座標に「イ」という音の特徴量ベクトルが格納されている。
そして、入力バッファに保持された音響信号波形データw(t)は、短時間フレーム長を例えばn分割(nは自然数を表す。)したサブフレーム長時間毎に特徴解析部21にて特徴解析され、n個の音響信号波形データw(t0),w(t1),…,w(tn-1)が生成出力される。ここで、t0〜tn-1はそれぞれ時刻を表し、また、以下の説明においては、w(t0),w(t1),…,w(tn-1)をw(tj)と表記する(jは0〜n−1の整数を表す。)。すなわち、サブフレーム長の音響信号の特徴量が、複数の要素(スカラー値w(tj))として出力される。従って、以下の説明において、これらの要素w(tj)を特徴量ベクトルw(t)と称する。換言すれば、特徴解析部21は、n個の要素w(tj)からなる特徴量ベクトルw(t)を出力する。
そして、特徴解析により生成された特徴量ベクトルは、図2に示すSOM学習部26に入力され、自己組織化マップ(SOM)を用いて学習される。この学習は、様々な環境音を入力して処理し、処理した環境音を仮想的な2次元平面にマッピングすることにより行なわれる。加えて、SOM学習部26は、2次元平面上の各座標に固有の特徴量ベクトルを割り当てるようにしている。また、SOM学習部26は、多数の各種の環境音を、信号処理実行フェーズに移行する前に、グループ化(グルーピング)しておくことが望ましい。
これにより、学習終了後は、入力された各環境音が、仮想的な2次元平面上の所望の座標にマッピングされた属性マップが得られ、また、固有の特徴量ベクトルが2次元平面上の各座標に割り当てられる。
さらに、SOM学習部26は、各々の音響信号が2次元平面において適切にグループ化されるように、2次元平面を領域分割することが好ましい。この領域分割は、信号処理実行フェーズに移行する前に各環境音のグループ化に基づいて行なわれる。具体的には、SOM学習部26は、2次元平面をグループに基づいて領域分割し、領域分割された平面に複数の音響信号をグループすることにより分類整理し、分類整理された各グループに音響信号処理モードを割り当てる。
また、グループ化されたグループ毎に、適切な音響信号処理モードが、予め聴取実験等を行なうことにより決定されるようになっている。これにより、2次元平面上の各座標は、第2の特徴量ベクトルおよびグループ化情報が割り当てられる。
続いて、分類決定部(決定部)24は、音響信号の処理種別を表す複数の信号処理モードのうちの検索部にて検索されたグループ識別情報に対応する信号処理モードを決定するものであって、信号処理種別情報出力部として機能している。分類決定部24は、検索された近傍座標に対応するグループを決定する。すなわち、近傍座標がどのグループに含まれているかが判断される。また、分類決定部24は、決定したグループに基づいて、複数の信号処理モードのうちの適切な信号処理モードを選択する。そして、音響信号処理部25は、分類決定部24にて選択された信号処理モードに基づいて音響信号を処理する。
(7)本発明の音響信号処理方法
これにより、本発明の音響信号処理方法は、入力された音響信号波形の特徴が解析され、その特徴量からSOMを用いて現在の音響信号が識別(音声/非音声、残響の有無等)され、識別された情報に基づいて信号の増幅等の音響信号処理モードが切り替えられる。
従って、本発明の音響信号処理方法は、SOM学習部26が、学習音響信号の特徴量を表す特徴量ベクトルに基づいて学習音響信号について、2次元平面の座標と、座標に割り当てられた特徴量ベクトルと、SOM学習部26にてグループ化された例えば3種類のグループA〜Cを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを生成する(学習ステップ)。また、この学習ステップは、複数のグループのそれぞれに対応する複数のパラメータを取得する。
次に、SOM座標検索部22が、学習ステップにおける特徴量ベクトルについて、学習ステップにて生成されたSOM情報データに保持された2次元平面における複数の座標のうちの特徴量出力部からの特徴量ベクトルの近傍に位置する近傍座標を検索する(検索ステップ)。具体的には、入力された音響信号(音響信号の波形)は、特徴解析部21にて短時間フレーム毎に特徴解析され、特徴解析された特徴量ベクトルは、SOM情報格納メモリ23上の各座標に割り当てられた特徴量ベクトルと比較され、2次元平面上に保持された多数の座標のうちの入力された特徴量ベクトルと最も近い近傍座標が検索される。ここで、特徴量ベクトルの種類は、学習フェーズにおける特徴量ベクトルと同一のものが用いられる。
また、分類決定部24は、音響信号の処理種別を表す複数の信号処理種別情報のうちの検索ステップにて検索された近傍座標のグループ識別情報に対応する信号処理種別情報を出力する(信号処理種別情報出力ステップ)。
そして、音響信号処理部25は、信号処理種別情報出力ステップにて出力された信号処理種別情報に基づいて音響信号処理を行なう(音響信号処理ステップ)。また、音響信号処理ステップは、検索ステップにて検索された近傍座標に割り当てられたグループ識別情報に基づいて学習ステップにて取得された1又は複数のパラメータを変更する(変更ステップ)。さらに、変更ステップにて変更された上記の1又は複数のパラメータを用いて音響信号処理を行なう。
(8)学習フェーズの処理動作
このような構成により、学習フェーズの処理フローについて図8を参照して説明する。
図8は本発明の第1実施形態に係る学習フェーズの処理を説明するためのフローチャートである。音声入力部50は、環境音の音響信号を特徴解析部21に対して入力すると(ステップA1)、この特徴解析部21において、上記の種々の方法の特徴解析処理が行なわれる(ステップA2)。そして、SOM座標検索部22は、特徴量パラメータと最も近いSOM上の座標を検索する(ステップA3)。この後、各座標の特徴量パラメータによる更新が例えば、式(1)に示す方法で行なわれたかどうかが判定される(ステップA4)。
ここで、SOM座標検索部22は、すべての環境音について処理を行なったか否かを検索し(ステップA5)、処理が終了の場合は、YESルートを通り、SOM情報をSOM情報格納メモリ23に格納する(ステップA6)。また、ステップA5において、処理が残っている場合は、NOルートを通り、ステップA1以降の処理が行なわれる。
このようにして、学習フェーズが終了すると、SOM情報格納メモリ23に、信号処理実行フェーズの比較に用いられる特徴量ベクトルが格納される。
(9)信号処理実行フェーズ処理部28
次に、図3を参照して、信号処理実行フェーズ処理部28について説明する。
図3は本発明の第1実施形態に係る信号処理実行フェーズ処理部28を説明するための図である。この図3に示す分類決定部24は、音響信号の処理種別を表す複数の信号処理モードのうちのSOM座標検索部22にて検索されたグループ識別情報に対応する信号処理モードを決定するものである。また、この音響信号処理モードの一例は、後述する表1に示すように、圧縮増幅処理,フォルマント強調処理又はノイズ抑圧処理等である。さらに、信号処理モードの決定は、分類決定部24に設けられた信号処理モード保持メモリに保持されたグループ識別情報と信号処理モードとに基づいて行なわれる。
なお、図3に示すもので上述したものと同一符号を有するものはそれらと同一のものを表す。また、信号処理モード信号は、表1に示す変換テーブルに保持するようにもできる。
これにより、特徴解析部21において、マイクから入力された音響信号波形の特徴解析が行なわれる。この特徴解析部21における信号処理の種別は、学習フェーズにおける信号処理の種別と同一にされている。その主な理由は、例えば音響信号のサブバンド幅,音響信号のパワースペクトルの分割幅等を共通に設定するためである。従って、信号処理実行フェーズにおける特徴解析処理は、学習フェーズにおいて用いられたFFT処理,フィルタバンク処理,線形予測分析処理およびメルケプストラム処理等を用いて行なわれる。
次に、SOM座標検索部22においてSOM座標が検索される。具体的には、SOM座標検索部22は、入力音響信号の特徴量ベクトルw(t)が、SOM情報格納メモリ23の2次元平面(図5参照)においてどの座標に最も近いかを検索する。すなわち、SOM座標検索部22は、入力された特徴量ベクトルに最も近い近傍座標を取得するために、ユークリッド距離|w(t) − mi(t)|が最小となるiを検索する。ここで、w(t),mi(t)および|w(t) − mi(t)|はそれぞれ、所望の時刻tに入力された特徴量ベクトルFINPUT(x,y,k),学習フェーズにて保持された特徴量ベクトルFSOM(x,y,k)およびw(t)とmi(t)とのユークリッド距離を表している。
そして、音響信号の処理種別を表す複数の信号処理種別情報のうちのSOM座標検索部22にて検索されたグループ識別情報に対応する信号処理種別情報が出力される。すなわち、分類整理されて保持された特徴量ベクトルに基づいて、信号処理が選択される。
次に、分類決定部24において、ユークリッド距離|w(t) − mi(t)|が最小となる座標icのグループ(グループ属性)に基づいて、音響信号処理に用いる音響信号の種別が決定され、音響信号処理部25に対して音響信号処理モードが出力される。音響信号処理モードは、例えば表1に示すモードを用いることができる。
Figure 2005203981



そして、音響信号処理部25は、分類決定部24から指示(又は通知)された音響信号処理モードを用いて入力音響信号の信号処理を行ない、また、アンプ51を介してイヤホン等に出力する。
これにより、信号処理実行フェーズは、類似した特徴量を有する音響信号がグループ化された属性マップに基づいて信号処理が実行される。
また、信号処理実行フェーズは、音響信号処理は常時実行されるが、音響信号処理モードを決定するための特徴解析,SOM座標検索および分類決定処理は、適切な周期毎(例えば1秒〜2秒)に行なわれる。
(10)信号処理実行フェーズ処理部28の処理動作
このような構成により、本発明の第1実施形態に係る信号処理実行フェーズについて図9を参照して説明する。
図9は本発明の第1実施形態に係る音響信号処理方法を説明するためのフローチャートである。分類決定部24は、ステップB1において、音響信号処理装置20の起動時又は起動後に音響信号処理モードが変更されたときに音響信号処理モード(信号処理モード)を確認する必要の有無を判定し、その確認が必要と判定した場合はYESルートを通り、特徴解析部21によって特徴解析処理が行なわれる(ステップB2)。分類決定部24は、ステップB1において、音響信号処理モードの確認が不要と判定すると、NOルートを通り、現在の信号処理モードを表1に示すテーブルに保持し(ステップB6)、音響信号処理部25は音響信号処理を実行する(ステップB5)。
また、特徴解析が行なわれると(ステップB2)、SOM座標検索部22は、特徴量パラメータと最も近いSOM平面上の座標を検索し(ステップB3)、検索された座標に基づいて分類決定部24は、音響信号処理部25に対して音響信号処理モードを入力し(ステップB4)、音響信号処理が行なわれる(ステップB5)。
このステップB5の後、分類決定部24は、ステップB7において、処理が終了したか否かを判定し、処理終了時はYESルートを通り処理が終了し、また、処理が終了していない場合はNOルートを通り、再度、ステップB1以降の処理が繰り返される。
このように、本発明の音響信号処理方法によれば、入力された音響信号に応じて適切に信号処理が行なわれるので、安定しかつ明瞭性の高い音声又は音響信号が取得され、ユーザの不快感が取り除かれ、高品質の音を聴取できる。
また、このように、スペクトル特性に応じて、雑音レベルが低いスペクトル領域のレベルを強調でき、雑音レベルが高いスペクトル領域のレベルを強調するので聴感が向上する。例えば、ユーザが家の外に出たときに、雑音成分を抑圧して音声レベルが上昇するようになり、雑音がある環境において、ユーザは明瞭度の高い音を聞くことができる。
(11)領域分割方法を用いた検索方法
次に、領域分割方法について詳述する。学習フェーズにおいて、学習計算後、最後の段階において、グループ数と音とを選択して領域分割する。その選択は、システムの設計者(又はSOM学習部26)が、予め、各グループについて代表的な複数の音を決定する。この音は、学習計算に用いた音又は学習計算とは別個に用意した音から選択される。
次に、音響信号処理装置20は、これら複数の環境音を順に入力され、信号処理実行フェーズと同一の処理を行ない、その入力音が2次元平面上でどの座標にマッピングされるかが計算される。そして、その座標のグループ識別情報として、グループ種別を表す数値を書き込み、これを繰り返し実行する。ここで、既に何らかの数値が書き込まれた座標にマッピングされた場合は、今回入力された音のグループの種類を示す数値を、その座標のグループ識別情報として上書きする。
具体例として、音響信号処理装置20が、学習フェーズにおいて、音声と、ノイズ(掃除機の音等)と、サイレン音(救急車等)との3種類のグループのグループ識別情報を、それぞれ、「1」,「2」,「3」に割り当てる。そして、学習用に入力された音響信号が、特徴解析により音声と解析されると、その特徴量ベクトルが、例えば座標(2,3)にマッピングされる。この場合、特徴解析部21は、座標(2,3)のグループ識別情報として「1」をSOM座標検索部22に対して入力する。
また、学習用として用意された全ての音が入力された後に、未だ、グループ識別情報が設定されていない未設定座標は、その未設定座標に最も近い座標であってグループ識別情報が設定されている設定済み座標のグループ識別情報が割り当てられる。この未設定座標(x,y,k)の検索方法は、SOM座標検索部22が、(x−1,y,k),(x,y−1,k),(x+1,y,k),(x,y+1,k),(x−1,y−1,k),(x−1,y+1,k),(x+1,y−1,k),(x+1,y+1,k)の順に、各座標にグループ識別情報が設定されているか否かを探索する。この検索範囲のすべての座標がグループ識別情報を設定されていない場合、SOM座標検索部22は、さらに、(x−2,y,k),(x,y−2,k),(x+2,y,k),(x,y+2,k)の順に、各座標のグループ識別情報を探索する。
従って、SOM座標検索部22は、SOM情報格納メモリ23のSOM情報データに保持された2次元平面における複数の座標のうちの特徴量出力部からの特徴量ベクトルの近傍に位置する近傍座標に対応するグループ識別情報を出力する。
このように、各座標についてのグループ識別情報が検索されて処理されるので、明瞭な音響信号が得られる。
このようにして、本発明の音響信号処理装置20および音響信号処理方法によれば、学習フェーズにおいて各種の音響の特徴量ベクトルがSOM情報格納メモリ23にデータベース化され、また、信号処理実行フェーズにおいて入力された現時点の音響信号が特徴解析される。そして、この現時点における音響信号の特徴量ベクトルと、SOM情報格納メモリ23に保持された特徴量ベクトルとに基づいて周囲の音環境が識別され、識別された環境に応じて増幅特性等が調整されるので、どのような音環境においても、安定かつ適切な音響信号処理でき、聞きやすく、また、安定して明瞭性の高い音声を再生できる。
(a1)第1変形例の説明
第1実施形態における音響信号処理部25は、分類決定部24から入力される音響信号処理モードに基づいて処理種別を変更していた。本変形例の音響信号処理方法は、その音響信号処理モードを切り替える代わりに、増幅度又は増幅特性等の信号処理に関するパラメータを用いて音響信号についての処理種別を変更調整する。
図10は本発明の第1実施形態の第1変形例に係る信号処理実行フェーズ処理部28aのブロック図であり、この図10に示すSOM座標検索部22の出力側に、メモリ31とパラメータ調整部30とが設けられている。このメモリ31は、グループ識別情報とパラメータとを対応付けて保持するものである。このパラメータは、音響信号の例えば増幅処理に必要なアンプ51の増幅度等を識別するための値である。
また、パラメータ調整部30は、音響信号の処理に必要な設定値に関するパラメータを、検索部にて検索されたグループ識別情報に基づいて調整して出力するものであって、信号処理種別情報出力部として機能している。そして、パラメータ調整部30は、その音響信号の例えば増幅処理に必要な設定値に関するパラメータを、SOM座標検索部22にて検索されたグループ識別情報に基づいて調整して出力する。
換言すれば、信号処理種別情報出力部としてのパラメータ調整部30は、音響信号の処理種別を表す圧縮増幅処理,フォルマント強調処理又はノイズ抑圧処理等の信号処理種別情報のうちのSOM座標検索部22にて検索されたグループ識別情報に対応する信号処理種別情報を出力している。
これにより、パラメータ調整部30において、グループ識別情報に基づいて音響信号処理に適用するためのパラメータが適切に変更される。
なお、メモリ31は、パラメータ調整部30の内部,パラメータ調整部30以外の他のブロック又は他のブロック内部のメモリ(バッファ)等に設けることもできる。
そして、このような構成によって、第1変形例における音響信号処理方法は、学習フェーズにおいて、パラメータ調整部30が、分類されたグループ毎に適切なパラメータを、学習,外部機器からの入力又は手動設定等を用いて事前にメモリ等に保持しておく。そして、この状態において、第1変形例の学習フェーズは、第1実施形態における音響信号処理と基本的に同一処理を行なう。
また、信号処理実行フェーズにおいて、SOM座標検索部22が、入力音響信号から得られたSOM情報格納メモリ23上の座標が、どのグループに属するかについて判断する。
次に、第1実施形態における処理と異なり、パラメータ調整部30は、得られたグループ情報を基に音響信号処理のパラメータを変更する。そして、音響信号処理は、変更されたパラメータを用いて実行される。
このようにして、第1変形例においては、第1実施形態における効果を得られるほかに、パラメータ調整部30を用いることによる処理の簡素化が図れる。
(a2)第2変形例の説明
第2変形例の音響信号処理装置20は、音響信号処理装置20自身の自動処理に加えて、ユーザの手動操作による手動処理を利用できるようにしている。
図11は本発明の第1実施形態の第2変形例に係る信号処理実行フェーズ処理部のブロック図であり、この図11に示す信号処理実行フェーズ処理部28bは、分類情報修正部29と、分類決定/パラメータ調整部(分類決定およびパラメータ調整部)30aと、モード/パラメータ強制変更部32とをそなえて構成されている。ここで、分類情報修正部29は、SOM情報格納メモリ23に保持されたSOM情報データを書き替え可能なものである。また、モード/パラメータ強制変更部32は、ユーザからの入力データに基づいて適切な修正信号を分類情報修正部29に対して入力するものである。
さらに、分類決定/パラメータ調整部(分類決定およびパラメータ調整部)30aは、SOM座標検索部22からの座標データに基づいて、適切なグループ化の決定(分類決定)および適切な例えば増幅器の増幅度等のパラメータを音響信号処理部25に対して入力するものである。この機能は、例えばユーザ自身がモード又はパラメータに用いる情報データを直接入力する方法又は無線回線,有線回線を介して入力された情報データを入力する方法あるいは、予め各種のモード,パラメータに関する情報データを記憶しておくROM等を用いることにより実現される。
ここで、SOM情報データの修正の流れについてさらに詳述する。ユーザが手動操作により入力した情報データは、モード/パラメータ強制変更部32において読み込まれ、このモード/パラメータ強制変更部32から、モード又はパラメータの修正内容を含むデータが(修正指示データ)が、分類情報修正部29を介して、SOM情報格納メモリ23に保持されるようになっている。なお、モード/パラメータ強制変更部32にて変更されたモード又はパラメータは、音声信号処理部25に入力される。従って、信号処理実行フェーズにおいて、ユーザの入力操作等を用いた指示に基づいて、強制的に処理モード/パラメータが変更できる。
これにより、ユーザが本音響信号処理装置20を使用又は聴取した場合に、適切なモード又はパラメータでないと判断してボタンの押下等を行なうと、分類決定/パラメータ調整部30aは、そのボタン操作による入力に基づいて、適切な音質でないことを検知し、音響信号のグループ識別情報を修正する。また、分類属性情報修正部は、入力の停止の検知により修正を開始するようになっている。さらに、分類属性情報修正部は、特徴量ベクトル,入力操作時における信号処理種別情報又は各グループに対応付けたパラメータを、SOM情報格納メモリ23に保持するようになっている。
このような構成によって、本発明の第1実施形態の第2変形例における音響信号処理方法は、学習フェーズにおける処理は、第1実施形態および第1変形例における各学習フェーズの処理と同一である。
第2変形例における信号処理実行フェーズは、以下に述べる処理ステップが追加されている。
次に、追加信号処理実行フェーズにおいては、信号処理の実行時にユーザが聴取している音が明瞭に聞き取れない場合、ユーザ自身が適切なモード/パラメータになるようにボタン操作等を切り替える。ここで、分類決定/パラメータ調整部30aは、適切な音質でないことを検知すると、即座にユーザが指示するモード/パラメータに切り替える。続いて、分類決定/パラメータ調整部30aは、その時点におけるSOM座標のグループと、そのSOM座標の周辺座標におけるグループとの両方のグループを、ユーザが選択したモード/パラメータが対応するグループに修正する。また、分類決定/パラメータ調整部30aは、この修正時において入力されていた音響信号の特徴量情報を一時保持し、また、ユーザが変更した変更後のモード/パラメータについても一時保持する。
さらに、修正フェーズにおいて、ユーザが音響信号処理装置20を停止させる等したときは、本音響信号処理装置20は、修正フェーズに移行し、また、修正フェーズの移行が開始されると、分類決定/パラメータ調整部30aは、グループ情報を修正する。
そして、分類決定/パラメータ調整部30aとSOM座標検索部22とが協働することにより、一時保持されていた特徴量が2次元平面においてどの座標に最も近いかを検索する。そして、分類決定/パラメータ調整部30aは、検索された座標およびその周辺のグループ情報を、ユーザが選択したモード/パラメータに対応するグループに修正する。
このように、信号処理実行フェーズにおいては、ユーザの入力操作等を用いた指示に基づいて、強制的に処理モード/パラメータが変更される。
また、信号処理を停止している間に、音響信号処理装置20は、修正フェーズに移行する。修正フェーズにおいては、ユーザの応答に従ってSOM情報を修正する。
このように、第2変形例においては、ユーザからのフィードバックによって、SOM情報格納メモリ23における音響信号のグループ識別情報が修正され、そして、音響信号処理のモード/パラメータ切り替え情報から自己組織化マップ上におけるグループ識別情報が修正される。
(a3)第3変形例
第3変形例においては、第1実施形態の特徴解析部21の代わりに、既存の音声符号化処理部が設けられている。
図12は本発明の第1実施形態の第3変形例に係る学習フェーズ処理部のブロック図である。この図12に示す学習フェーズ処理部27aにおいて、特徴量出力部21aが、音声符号化処理により得られた音声符号化パラメータを入力され音声符号化パラメータを特徴量ベクトルとしてSOM情報格納メモリ23に入力する音声符号化処理部(既存の音声符号化処理部)21aとして構成されている。SOM学習部26が、音響信号の符号化に関する符号化パラメータであって音響信号処理装置20自身又は送信側装置において生成された符号化パラメータを入力されるようになっている。
なお、図12および以下に説明する図13にそれぞれ表示された符号であって、上述したものと同一符号を有するものはそれらと同一のものを表す。
次に、図13は本発明の第1実施形態の第3変形例に係る信号処理実行フェーズ処理部のブロック図である。この図13に示す信号処理実行フェーズ処理部28cは、既存の音声符号化処理により得られた音声符号化パラメータを用いて信号処理をするものであって、音声符号化処理部21aと、復号化処理部35と、音響信号処理部25aと、スピーカ52aとをそなえて構成されている。ここで、音声符号化処理部21aは、復調された情報データを出力するとともに、既存の音声符号化処理で得られた符号化パラメータを出力するものである。この符号化パラメータは、特徴量としてSOM座標検索部22に入力される。また、復号化処理部35は、音声符号化処理部21aから出力された情報データについて復号処理をし、受話音声を出力するものであって、この受話音声は音響信号処理部25aに入力される。さらに、音響信号処理部25aは、信号処理種別情報出力部(音声符号化処理部)21aから出力された信号処理種別情報に基づいて入力音響信号を処理するものであり、音声強調処理および雑音抑圧処理等を行なうものである。スピーカ52aは、アンプ51からの増幅信号を鳴動させるものである。
従って、SOM座標検索部22が、音響信号の符号化に関する符号化パラメータであって音響信号処理装置20自身又は送信側装置において生成された符号化パラメータを入力される。さらに、音声入力部50および音声符号化処理部21aが符号化情報入力部(50,21a)とし、予め生成された符号化パラメータがSOM座標検索部22に入力されるのである。
従って、特徴量出力部21aが、音響信号の符号化に関する符号化パラメータであって音響信号処理装置20自身又は送信側装置において生成された符号化パラメータを、特徴量ベクトルとしてSOM情報格納メモリ23に入力するとともに、信号処理種別情報出力部が、グループ識別情報に基づいて、信号処理種別情報と符号化パラメータとのうちの少なくとも一方を出力し、音響信号処理部(信号処理部)25aが、信号処理種別情報出力部から出力された信号処理種別情報と符号化パラメータとの各設定値に応じて異なる信号処理を実行するように構成されている。
このような構成により、学習フェーズにおいて、図12に示す受信データから音声符号化パラメータが出力され、SOM学習部26において、この符号化パラメータが自己組織化マップを用いて音響信号が分類整理されて保持される。
そして、信号処理実行フェーズにおいて、図13に示す音声符号化処理部21aからの符号化パラメータは、SOM座標検索部22においてSOM情報格納メモリ23を用いて入力された音響信号がどのグループに属するかが識別される。さらに、分類決定部24において得られた識別情報は、音響信号処理部25aにおいて信号処理モード又はパラメータが切り替えられる。そして、指定された信号処理モード又は設定されたパラメータにより異なる音響信号処理が行なわれる。
このように、本音響信号処理装置20を既存の音声符号化装置と連携して実装しかつ動作させるので、本音響信号処理装置20を汎用化が促進される。
このようにして、入力された音響信号に応じて適切な信号処理を行なうことができ、安定して明瞭性の高い音声を聴取することができる。
(b)本発明の第2実施形態の説明
第2実施形態においては、音響信号処理装置20が、携帯電話等に設けられた既存の音声符号化装置と連携させるようにしている。
図14は本発明の第2実施形態に係る学習フェーズ処理部のブロック図である。この図14に示す学習フェーズ処理部42は、送信側において生成された符号化パラメータを無線復調処理してSOM学習部26に入力するものであって、例えば携帯電話等の受信部に設けられた音響信号処理装置20である。この学習フェーズ処理部42は、RF(Radio Frequency:無線スペクトル)信号を受信するアンテナ40aと、アンテナ40aからの無線信号をダウンコンバートして復調しその復調信号を出力するRF受信部40bと、RF受信部40bからの復調信号をベースバンド処理して音声符号化パラメータを含む情報データを抽出するベースバンド信号処理部40cとをそなえるとともに、SOM学習部26と、SOM情報格納メモリ23とをそなえて構成されている。
ここで、音声符号化パラメータを出力するベースバンド信号処理部40cと、アンテナ40a,RF受信部40bとが特徴量出力部および符号化情報入力部として機能している。すなわち、学習フェーズ処理部42は、第1実施形態の特徴解析部21の代わりに、遠隔地から無線送信された音響信号データを復調し、復調したデータを用いて学習されるようになっている。従って、第2実施形態においては、SOM学習部26が、音響信号の符号化に関する符号化パラメータであって音響信号処理装置20自身又は送信側装置において生成された符号化パラメータを入力される。
なお、図14および以下に説明する図15にそれぞれ表示された符号であって、上述したものと同一符号を有するものはそれらと同一のものを表す。
図15は本発明の第2実施形態に係る信号処理実行フェーズ処理部のブロック図である。この図15に示す信号処理実行フェーズ処理部43は、携帯電話等の受信部に設けられたものである。
このような構成により、無線信号が復調されて、既存の音声符号化処理で得られた符号化パラメータがSOM座標検索部22に入力され、SOM座標検索部22は、この符号化パラメータに基づいて自己組織化マップ(SOM情報格納メモリ)23を用いて音響信号を分類整理して記憶する。さらに、分類決定部24において、符号化パラメータに基づいてSOM情報格納メモリ23を用いて入力された音響信号がどのグループに属するかが識別され、得られたグループ識別情報に基づいて信号処理のモード又はパラメータが切り替えられ、そして、モード指定/パラメータ設定により異なる音響信号処理が行なわれる。
このように、音響信号処理装置20を携帯電話等に設けられた音声符号化装置に組み込むこともでき、各種の音響信号処理に実装できる。
(c)その他
本発明は上述した実施態様およびその変形例に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、種々変形して実施することができる。
学習フェーズは、製品の生産時に行なわれるのみならず、ユーザが学習フェーズを行なえるようにもできる。この場合、学習フェーズおよび信号処理実行フェーズの切り替えが所定のタイミングで行なわれる。
第2実施形態における符号化入力部の機能は、携帯電話等のほかに、光ファイバ通信における受光処理装置等に設けることができる。
また、SOM情報格納メモリ23は、多次元空間における座標を生成するようにもできる。
(d)付記
(付記1) 入力音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、
2次元平面の座標と、該座標に割り当てられた第2の特徴量データと、複数の学習音響信号が該2次元平面においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持する自己組織化マップ保持部と、
該特徴量出力部からの該第1の特徴量データと、該自己組織化マップ保持部に保持された該SOM情報データとに基づいて、該第1の特徴量データに対応する該グループ識別情報を検索する検索部と、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索部にて検索された該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、
該信号処理種別情報出力部から出力された該信号処理種別情報に基づいて該入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴とする、音響信号処理装置。
(付記2) 該検索部が、
該自己組織化マップ保持部の該SOM情報データに保持された該2次元平面における複数の座標のうちの該特徴量出力部からの該第1の特徴量データの近傍に位置する近傍座標に対応する該グループ識別情報を出力するように構成されたことを特徴とする、付記1記載の音響信号処理装置。
(付記3) 該検索部が、
該第1の特徴量データと該第2の特徴量データとに基づいて、該入力音響信号について、音声又は非音声と残響の有無とを識別するように構成されたことを特徴とする、付記1又は付記2記載の音響信号処理装置。
(付記4) 該自己組織化マップ保持部が、
該複数のグループのうちの各座標が属するグループと、各座標間にて相異なる固有の第2の特徴量データとを対応付けて保持するように構成されたことを特徴とする、付記1〜付記3のいずれか一に記載の音響信号処理装置。
(付記5) 該自己組織化マップ保持部が、
メモリ空間のアドレスと、該アドレスに割り当てられた第2の特徴量データと、複数の学習音響信号が該メモリ空間においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持するように構成されたことを特徴とする、付記1〜付記4のいずれか一に記載音響信号処理装置。
(付記6) 入力音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、
多次元空間における座標と、該座標に割り当てられた第2の特徴量データと、複数の学習音響信号が該多次元空間においてグループ化された複数のグループを識別するグループ識別情報とを対応付けたSOM情報データを保持する自己組織化マップ保持部と、
該特徴量出力部から出力された該第1の特徴量データと、該自己組織化マップ保持部に保持された該SOM情報データとに基づいて、該第1の特徴量データに対応する該グループ識別情報を検索する検索部と、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索部にて検索された該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、
該信号処理種別情報出力部から出力された該信号処理種別情報に基づいて該入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴とする、音響信号処理装置。
(付記7) 該信号処理種別情報出力部が、
音響信号の処理種別を表す複数の信号処理モードのうちの該検索部にて検索された該グループ識別情報に対応する信号処理モードを決定する決定部として構成されたことを特徴とする、付記1〜付記6のいずれか一に記載の音響信号処理装置。
(付記8) 該信号処理種別情報出力部が、
音響信号の処理に必要な設定値に関するパラメータを、該検索部にて検索された該グループ識別情報に基づいて調整して出力するパラメータ調整部として構成されたことを特徴とする、付記1〜付記7のいずれか一に記載の音響信号処理装置。
(付記9) 該信号処理種別情報出力部が、
グループ識別情報と信号処理種別情報とを対応付けたテーブルを用いて取得した該信号処理種別情報を出力するように構成されたことを特徴とする、付記1〜付記8のいずれか一に記載の音響信号処理装置。
(付記10) 学習音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、
該特徴量出力部からの該第1の特徴量データに基づいて該学習音響信号を2次元平面においてグループ化する学習部と、
該2次元平面の座標と、該座標に割り当てられた第2の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持する自己組織化マップ保持部とをそなえて構成されたことを特徴とする、音響信号処理装置。
(付記11) 学習音響信号をサンプリングして得た学習音響信号波形を特徴解析して該学習音響信号の特徴量データを出力する特徴量出力部と、
該特徴量出力部からの該特徴量データに基づいて該学習音響信号を2次元平面にマッピングしてグループ化する学習部と、
該2次元平面の座標と、各座標に固有に割り当てられた第2の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持する自己組織化マップ保持部とをそなえて構成されたことを特徴とする、音響信号処理装置。
(付記12) 該特徴量出力部が、
音声符号化処理により得られた音声符号化パラメータを入力され該音声符号化パラメータを該第1の特徴量データとして該自己組織化マップ保持部に入力する符号化処理部として構成されたことを特徴とする、付記1〜付記11のいずれか一に記載の音響信号処理装置。
(付記13) 該特徴量出力部が、音響信号の符号化に関する符号化パラメータであって音響信号処理装置自身又は送信側装置において生成された符号化パラメータを、該第1の特徴量データとして該自己組織化マップ保持部に入力するとともに、
該信号処理種別情報出力部が、該グループ識別情報に基づいて、該信号処理種別情報と該符号化パラメータとのうちの少なくとも一方を出力し、
該信号処理部が、該信号処理種別情報出力部から出力された該信号処理種別情報と該符号化パラメータとの各設定値に応じて異なる信号処理を実行するように構成されたことを特徴とする、付記1〜付記11のいずれか一に記載の音響信号処理装置。
(付記14) 入力操作に応じて該自己組織化マップ保持部に保持されたSOM情報データを修正する分類属性情報修正部がさらに設けられたことを特徴とする、付記1〜付記13のいずれか一に記載の音響信号処理装置。
(付記15) 該分類属性情報修正部が、
該第1の特徴量データ,該入力操作時における信号処理種別情報又は各グループに対応付けたパラメータを、該自己組織化マップ保持部に保持するように構成されたことを特徴とする、付記14記載の音響信号処理装置。
(付記16) 該分類属性情報修正部が、
入力の停止の検知により修正を開始するように構成されたことを特徴とする、付記15記載の音響信号処理装置。
(付記17) 学習音響信号の特徴量を表す第1の特徴量データに基づいて該学習音響信号について、2次元平面の座標と、該座標に割り当てられた第2の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを生成する学習ステップと、
該学習ステップにおける該第1の特徴量データについて、該学習ステップにて生成された該SOM情報データに保持された該2次元平面における複数の座標のうちの該特徴量出力部からの該第1の特徴量データの近傍に位置する近傍座標を検索する検索ステップと、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索ステップにて検索された該近傍座標の該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力ステップと、
該信号処理種別情報出力ステップにて出力された該信号処理種別情報に基づいて該音響信号処理を行なう音響信号処理ステップとをそなえたことを特徴とする、音響信号処理方法。
(付記18) 該学習ステップが、該複数のグループのそれぞれに対応する複数のパラメータを取得し、
該音響信号処理ステップが、該検索ステップにて検索された該近傍座標に割り当てられたグループ識別情報に基づいて該学習ステップにて取得された1又は複数のパラメータを変更する変更ステップと、
該変更ステップにて変更された上記の1又は複数のパラメータを用いて該音響信号処理を行なうことを特徴とする、付記17記載の音響信号処理方法。
本発明の音響信号処理装置および音響信号処理方法によれば、様々な音環境下において、適切な音声処理が可能となる。従って、音声又は非音声の種別によらない明瞭な音声等が得られ、また、周囲の雑音,騒音又は残響等のレベルに応じて音声等が聞き取りやすくなる。例えば補聴器が再生する音声が明瞭となり、ユーザは、各種の音響信号について、一層、聞き取りやすくなり、聴覚の補助が効果的に行なえる。また、ラジオ又はテレビの音声処理にも用いることができ、ユーザは、クリアな音声および非音声を聞くことができる。
さらに、環境音の質およびレベルにかかわらず、ユーザは、各環境における音響の変化に対応してクリアな音声を聞くことができる。例えば、ユーザは、不快な異常音等を除去した音響を聞くことができる。
加えて、本発明の音響信号処理装置および音響信号処理方法によれば、例えば携帯電話等に設けることもでき、各種の電話機,端末機器又は装置について汎用的に用いることができる。
本発明の第1実施形態に係る音響信号処理装置のブロック図である。 本発明の第1実施形態に係る学習フェーズ処理部のブロック図である。 本発明の第1実施形態に係る信号処理実行フェーズの処理部を説明するための図である。 (a)は本発明の第1実施形態に係るSOMネットワークの一例を示す図であり、(b)は本発明の第1実施形態に係るSOM情報格納メモリにおける2次元平面のグループ分けの一例を示す図である。 (a)は本発明の第1実施形態に係るSOM情報格納メモリのメモリ領域の一例を示す図であり、(b)は本発明の第1実施形態に係るSOM座標を説明するための図である。 本発明の第1実施形態に係る特徴量ベクトルの保持領域を説明するための示す図である。 本発明の第1実施形態に係る近傍座標の検索を説明するための図である。 本発明の第1実施形態に係る学習フェーズの処理を説明するためのフローチャートである。 本発明の第1実施形態に係る音響信号処理方法を説明するためのフローチャートである。 本発明の第1実施形態の第1変形例に係る信号処理実行フェーズ処理部のブロック図である。 本発明の第1実施形態の第2変形例に係る信号処理実行フェーズ処理部のブロック図である。 本発明の第1実施形態の第3変形例に係る学習フェーズ処理部のブロック図である。 本発明の第1実施形態の第3変形例に係る信号処理実行フェーズ処理部のブロック図である。 本発明の第2実施形態に係る学習フェーズ処理部のブロック図である。 本発明の第2実施形態に係る信号処理実行フェーズ処理部のブロック図である。
符号の説明
20 音響信号処理装置
21 特徴解析部(特徴量出力部)
21a 音声符号化処理部(音声符号化処理部)
22 SOM座標検索部
23 SOM情報格納メモリ(自己組織化マップ保持部)
24 信号処理種別情報出力部(決定部,分類決定部)
25,25a 音響信号処理部
26 SOM学習部(自己組織化学習部)
27,27a,40 学習フェーズ処理部
28,28a,28b,28c,43 信号処理実行フェーズ処理部
29 分類情報修正部
30 パラメータ調整部
30a 分類決定/パラメータ調整部
31 メモリ
32 モード/パラメータ強制変更部
35 復号化処理部
40a アンテナ
40b RF受信部
40c ベースバンド信号処理部
50 音声入力部
51 アンプ
52 イヤホン
52a スピーカ

Claims (5)

  1. 入力音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、
    2次元平面の座標と、該座標に割り当てられた第2の特徴量データと、複数の学習音響信号が該2次元平面においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けた自己組織化マップ(Self-Organizing Map:SOM)情報データ(以下、SOM情報データと称する。)を保持する自己組織化マップ保持部と、
    該特徴量出力部からの該第1の特徴量データと、該自己組織化マップ保持部に保持された該SOM情報データとに基づいて、該第1の特徴量データに対応する該グループ識別情報を検索する検索部と、
    音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索部にて検索された該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、
    該信号処理種別情報出力部から出力された該信号処理種別情報に基づいて該入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴とする、音響信号処理装置。
  2. 入力音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、
    多次元空間における座標と、該座標に割り当てられた第2の特徴量データと、複数の学習音響信号が該多次元空間においてグループ化された複数のグループを識別するグループ識別情報とを対応付けたSOM情報データを保持する自己組織化マップ保持部と、
    該特徴量出力部から出力された該第1の特徴量データと、該自己組織化マップ保持部に保持された該SOM情報データとに基づいて、該第1の特徴量データに対応する該グループ識別情報を検索する検索部と、
    音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索部にて検索された該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、
    該信号処理種別情報出力部から出力された該信号処理種別情報に基づいて該入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴とする、音響信号処理装置。
  3. 該信号処理種別情報出力部が、
    音響信号の処理に必要な設定値に関するパラメータを、該検索部にて検索された該グループ識別情報に基づいて調整して出力するパラメータ調整部として構成されたことを特徴とする、請求項1又は請求項2記載の音響信号処理装置。
  4. 学習音響信号の特徴量を表す第1の特徴量データを出力する特徴量出力部と、
    該特徴量出力部からの該第1の特徴量データに基づいて該学習音響信号を2次元平面においてグループ化する学習部と、
    該2次元平面の座標と、該座標に割り当てられた第2の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを保持する自己組織化マップ保持部とをそなえて構成されたことを特徴とする、音響信号処理装置。
  5. 学習音響信号の特徴量を表す第1の特徴量データに基づいて該学習音響信号について、2次元平面の座標と、該座標に割り当てられた第2の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたSOM情報データを生成する学習ステップと、
    該学習ステップにおける該第1の特徴量データについて、該学習ステップにて生成された該SOM情報データに保持された該2次元平面における複数の座標のうちの該特徴量出力部からの該第1の特徴量データの近傍に位置する近傍座標を検索する検索ステップと、
    音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索ステップにて検索された該近傍座標の該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力ステップと、
    該信号処理種別情報出力ステップにて出力された該信号処理種別情報に基づいて該音響信号処理を行なう音響信号処理ステップとをそなえたことを特徴とする、音響信号処理方法。
JP2004007206A 2004-01-14 2004-01-14 音響信号処理装置および音響信号処理方法 Expired - Fee Related JP4185866B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004007206A JP4185866B2 (ja) 2004-01-14 2004-01-14 音響信号処理装置および音響信号処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004007206A JP4185866B2 (ja) 2004-01-14 2004-01-14 音響信号処理装置および音響信号処理方法

Publications (2)

Publication Number Publication Date
JP2005203981A true JP2005203981A (ja) 2005-07-28
JP4185866B2 JP4185866B2 (ja) 2008-11-26

Family

ID=34820932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004007206A Expired - Fee Related JP4185866B2 (ja) 2004-01-14 2004-01-14 音響信号処理装置および音響信号処理方法

Country Status (1)

Country Link
JP (1) JP4185866B2 (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010514286A (ja) * 2006-12-21 2010-04-30 ジーエヌ リザウンド エー/エス ユーザーインターフェースを有する補聴装置
JP2010212887A (ja) * 2009-03-09 2010-09-24 Toshiba Corp 信号特性変化装置
US7864967B2 (en) 2008-12-24 2011-01-04 Kabushiki Kaisha Toshiba Sound quality correction apparatus, sound quality correction method and program for sound quality correction
JP2011512768A (ja) * 2008-02-20 2011-04-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ装置及びその動作方法
US8041063B2 (en) 2008-08-20 2011-10-18 Panasonic Corporation Hearing aid and hearing aid system
US8045620B2 (en) 2008-12-22 2011-10-25 Kabushiki Kaisha Toshiba Image processing apparatus, image processing method and computer readable medium
JP2012208406A (ja) * 2011-03-30 2012-10-25 Nikon Corp 信号処理装置、撮像装置、および、信号処理プログラム
US8457335B2 (en) 2007-06-28 2013-06-04 Panasonic Corporation Environment adaptive type hearing aid
US9099093B2 (en) 2007-01-05 2015-08-04 Samsung Electronics Co., Ltd. Apparatus and method of improving intelligibility of voice signal
JP2015228002A (ja) * 2014-06-03 2015-12-17 株式会社システック 複数者間干渉音声雑音を回避した音声入力処理装置
JP2016510198A (ja) * 2013-03-13 2016-04-04 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ユーザに対する特定の音の可聴性を向上させる装置及び方法
JP2016519784A (ja) * 2013-03-26 2016-07-07 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ分類および処理のための装置および方法
JP2016533101A (ja) * 2013-08-20 2016-10-20 ヴェーデクス・アクティーセルスカプ 分類器を有する補聴器
WO2017164996A1 (en) * 2016-03-25 2017-09-28 Qualcomm Incorporated Audio processing for an acoustical environment
JP2019507992A (ja) * 2016-03-10 2019-03-22 シバントス ピーティーイー リミテッド 聴取装置の動作方法、および聴取装置
CN112929775A (zh) * 2019-12-06 2021-06-08 西万拓私人有限公司 用于听力***的与环境有关的运行的方法
EP3833053A1 (de) * 2019-12-06 2021-06-09 Sivantos Pte. Ltd. Verfahren zum umgebungsabhängigen betrieb eines hörsystems

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010514286A (ja) * 2006-12-21 2010-04-30 ジーエヌ リザウンド エー/エス ユーザーインターフェースを有する補聴装置
US9099093B2 (en) 2007-01-05 2015-08-04 Samsung Electronics Co., Ltd. Apparatus and method of improving intelligibility of voice signal
US8457335B2 (en) 2007-06-28 2013-06-04 Panasonic Corporation Environment adaptive type hearing aid
JP5252738B2 (ja) * 2007-06-28 2013-07-31 パナソニック株式会社 環境適応型補聴器
JP2011512768A (ja) * 2008-02-20 2011-04-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ装置及びその動作方法
US8041063B2 (en) 2008-08-20 2011-10-18 Panasonic Corporation Hearing aid and hearing aid system
US8488825B2 (en) 2008-08-20 2013-07-16 Panasonic Corporation Hearing aid and hearing aid system
US8045620B2 (en) 2008-12-22 2011-10-25 Kabushiki Kaisha Toshiba Image processing apparatus, image processing method and computer readable medium
US7864967B2 (en) 2008-12-24 2011-01-04 Kabushiki Kaisha Toshiba Sound quality correction apparatus, sound quality correction method and program for sound quality correction
US8571233B2 (en) 2009-03-09 2013-10-29 Kabushiki Kaisha Toshiba Signal characteristic adjustment apparatus and signal characteristic adjustment method
JP2010212887A (ja) * 2009-03-09 2010-09-24 Toshiba Corp 信号特性変化装置
JP2012208406A (ja) * 2011-03-30 2012-10-25 Nikon Corp 信号処理装置、撮像装置、および、信号処理プログラム
US9734840B2 (en) 2011-03-30 2017-08-15 Nikon Corporation Signal processing device, imaging apparatus, and signal-processing program
JP2016510198A (ja) * 2013-03-13 2016-04-04 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. ユーザに対する特定の音の可聴性を向上させる装置及び方法
US10803879B2 (en) 2013-03-26 2020-10-13 Dolby Laboratories Licensing Corporation Apparatuses and methods for audio classifying and processing
JP2016519784A (ja) * 2013-03-26 2016-07-07 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ分類および処理のための装置および方法
JP2016533101A (ja) * 2013-08-20 2016-10-20 ヴェーデクス・アクティーセルスカプ 分類器を有する補聴器
JP2015228002A (ja) * 2014-06-03 2015-12-17 株式会社システック 複数者間干渉音声雑音を回避した音声入力処理装置
JP2019507992A (ja) * 2016-03-10 2019-03-22 シバントス ピーティーイー リミテッド 聴取装置の動作方法、および聴取装置
US9881619B2 (en) 2016-03-25 2018-01-30 Qualcomm Incorporated Audio processing for an acoustical environment
WO2017164996A1 (en) * 2016-03-25 2017-09-28 Qualcomm Incorporated Audio processing for an acoustical environment
CN112929775A (zh) * 2019-12-06 2021-06-08 西万拓私人有限公司 用于听力***的与环境有关的运行的方法
EP3833053A1 (de) * 2019-12-06 2021-06-09 Sivantos Pte. Ltd. Verfahren zum umgebungsabhängigen betrieb eines hörsystems
US11368798B2 (en) 2019-12-06 2022-06-21 Sivantos Pte. Ltd. Method for the environment-dependent operation of a hearing system and hearing system
DE102020208720B4 (de) 2019-12-06 2023-10-05 Sivantos Pte. Ltd. Verfahren zum umgebungsabhängigen Betrieb eines Hörsystems

Also Published As

Publication number Publication date
JP4185866B2 (ja) 2008-11-26

Similar Documents

Publication Publication Date Title
JP4185866B2 (ja) 音響信号処理装置および音響信号処理方法
US10733970B2 (en) Noise control method and device
US9905215B2 (en) Noise control method and device
US10121492B2 (en) Voice converting apparatus and method for converting user voice thereof
US9923535B2 (en) Noise control method and device
WO2012053629A1 (ja) 音声処理装置及び音声処理方法
US11558699B2 (en) Hearing device component, hearing device, computer-readable medium and method for processing an audio-signal for a hearing device
CN107948869B (zh) 音频处理方法、装置、音响***及存储介质
JP2010020133A (ja) 再生装置、表示方法および表示プログラム
JP2016535305A (ja) 自閉症における言語処理向上のための装置
CN113924620A (zh) 基于频率组成的声音修改
US11501758B2 (en) Environment aware voice-assistant devices, and related systems and methods
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
JP2007034238A (ja) 現場作業支援システム
JPWO2011122522A1 (ja) 感性表現語選択システム、感性表現語選択方法及びプログラム
KR102239673B1 (ko) 인공지능 기반 능동형 스마트 보청기 피팅 방법 및 시스템
CN113709291A (zh) 音频处理方法、装置、电子设备及可读存储介质
CN116132875B (zh) 一种辅听耳机的多模式智能控制方法、***及存储介质
JP2006292918A (ja) ナビゲーション装置およびナビゲーション装置用プログラム
CN110782887A (zh) 语音信号处理方法、***、装置、设备和计算机存储介质
US20140324418A1 (en) Voice input/output device, method and programme for preventing howling
KR102239675B1 (ko) 인공지능 기반 능동형 스마트 보청기 잡음 제거 방법 및 시스템
CN112581935A (zh) 环境感知语音辅助设备以及相关***和方法
KR102239676B1 (ko) 인공지능 기반 능동형 스마트 보청기 피드백 제거 방법 및 시스템
JP2007147736A (ja) 音声通信装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080908

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110912

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees