JP2005203981A

JP2005203981A - 音響信号処理装置および音響信号処理方法

Info

Publication number: JP2005203981A
Application number: JP2004007206A
Authority: JP
Inventors: Mutsumi Saito; 睦巳斎藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-01-14
Filing date: 2004-01-14
Publication date: 2005-07-28
Anticipated expiration: 2024-01-14
Also published as: JP4185866B2

Abstract

【課題】補聴器，テレビ等の音響信号処理装置において、音声又は非音声の区別，周囲雑音，騒音又は残響の程度に応じて音声等の聴感を向上させ、音環境によらずに明瞭性の高い音声を再生する。
【解決手段】補聴器等に設けられた音響信号処理装置２０において、学習フェーズ処理部２７において様々な音響信号を分類整理し（学習ステップ）、信号処理実行フェーズ処理部２８において学習フェーズにて分類整理された音響信号を用いて上記入力音響信号の増幅等をユーザが聴取するために信号処理する（信号処理実行ステップ）。
【選択図】図１

Description

本発明は、例えば、補聴器のように音声を聞き取りやすくして聴覚を補助する音響信号処理装置に関し、特に、音の環境に応じて適切な信号処理に用いて好適な、音響信号処理装置および音響信号処理方法に関する。

一般に、音響信号処理装置は、様々な音の受信および再生に用いられ、ユーザの周囲の音環境あるいは音響信号処理システムに入力される音の種類に応じて、適切な信号処理の方式又は信号処理のパラメータ（増幅度等）が異なることが多い。例えば補聴器の音響信号処理装置は、音声又は非音声の種別，周囲の騒音又は残響等（以下、音環境と称する。）の程度に応じて適切な増幅特性が異なる。このため、最大の音声明瞭度を実現するためには、環境毎にモード切り替えとパラメータの調整とが必要である。

従来、これらのモード切り替えおよびパラメータ調整の各動作は、ユーザが音環境に応じて手動で行なっていた。また、最近の補聴器は、増幅パラメータが異なる複数のモード切り替え機能が設けられている一方、ユーザが聞こえにくい場合は、ユーザ自身がボタン等を用いてモード切り替えできる仕様になっている。
また、従来から、環境毎にモードを切り替え又は制御する方法が種々提案されている。

例えば音声の自動利得制御装置における利得制御が提案されている（特許文献１参照）。特許文献１記載の自動利得制御装置は、算出した入力音響信号レベルと閾値との大小を比較して利得制御を行なうか否かを決定する。これにより、音声の語尾部分や背景ノイズに対する不要な利得制御を抑えるとともに、より大きな最大利得が得られる。
また、環境騒音の質を考慮して音声の明瞭な聞き取りを行なう補聴装置が提案されている（特許文献２参照）。この聞き取り方法は、入力音響信号のレベル分布を検出し環境騒音の定常／非定常を判別し、それに応じた補聴処理を行なうものである。これにより、環境騒音の質のいかんにかかわらず聴き取り対象となる音声を明瞭に聴き取れる。

さらに、補聴器における補正方法が特許文献３に開示されている。特許文献３記載の補聴器は、聞き取り対象となる音声を入力するマイク（マイクロホン）とは別に、周囲雑音と必要な音声とを識別するための音響センサーを設け、音響センサーから得た雑音センサーに基づいて、スペクトル特性を変化させ、スペクトル補正や利得補正をリアルタイムに調整するものである。これにより、補聴器が周囲の雑音と目的の音声とを識別して、補聴器を使用する人の音響環境に精度良く適応して動作する。

また、入力音響信号から抽出した音響パラメータにしたがって補聴信号処理部の特性を決定する方法が提案されている（特許文献４参照）。特許文献４記載の補聴器は、入力音響信号の音響パラメータを、補聴特性を示すフィッティングパラメータに変換して写像関係を記述して、入力音の音響パラメータからフィッティングパラメータを自動調整するものである。これにより、補聴処理特性を環境音に適応して決定する適応特性補聴器が得られる。

さらに、ダイナミックレンジ圧縮型の聴覚補償処理方法が提案されている（特許文献５参照）。この特許文献５記載の聴覚補償処理方法は、健聴者と利用者のラウドネス曲線を用い、予め設定された音圧以下の入力音に対するゲインを入力音の音圧に応じて徐々に小さくするものである。そして、微小なノイズの増幅率を小さくすることで、入力音声の前後の無音部分のノイズによる時間方向のマスキングを改善できる。

加えて、音声認識等において基本的な処理であるクラスタリングとラベリングとをアナログ回路で一括して実現する回路も提案されている（特許文献６参照）。特許文献６記載の音声認識回路は、自己組織化アルゴリズムに基づいた特徴を出力する類似度回路と、類似度回路の出力信号の行列演算を行なうマトリクス回路とをそなえ、マトリクス回路が、類似度に対応した電圧信号を受けて、その行列演算出力の中から予め用意されたパターンに最も近いものを認識結果として出力させるものである。これにより、半導体集積回路に好適な小規模回路な音声認識回路が実現できる。
特開平１１−２２０３４５号公報特開２００１−１２８２９６号公報特開２０００−１３８９５号公報特開２００２−３６９２９２号公報特開平１０−９４０９５号公報特開２００２−２７９３９３号公報

しかしながら、ユーザが、家から外に出る場合等は、周囲の音環境が急激に変わると、補聴器等の音響信号処理装置は、モード切り替え動作を頻繁に行なう必要がある。従って、ユーザは手動切り替え等の煩雑な操作を行なうか、又は聞こえにくい状況を強いられるという課題がある。
一方、従来の技術は、音環境に応じて適切にモード切り替え可能ではない。例えば、特許文献１記載の自動利得制御装置と特許文献２記載の補聴装置とは、いずれも、入力音響信号レベルだけを監視するものであり、入力音響信号レベル以外のスペクトル特性又は入力音響信号の種別を監視するものではない。このため、各装置は、周囲騒音のレベルに応じて利得等を制御することはできるが、音声又は非音声の種別，残響の有無等、周囲の音環境の状態については記載されておらず、きめ細かい制御はできない。また、特許文献２記載の補聴装置は、検出されたレベル分布の各レベル値が散在し音質が劣化する。

さらに、特許文献３記載の補聴器は、音声入力マイクの他に音響センサーを設ける必要があるので、補聴器のコストが高くなる。また、特許文献３記載の補正方法は、音響センサー入力のスペクトル情報を用いて雑音をパターン化し、音声の増幅特性を制御するものだが、そのパターン化の方法の詳細は開示されていない。従って、補聴器は、サイレン音等の極端な音をパターン化できても周囲環境の分類は困難である。

そして、特許文献４には、音響パラメータと補聴信号処理部の特性とを、どのような手順を用いて写像させるかについては記載されておらず、必ずしもその効果が得られるとは限らない。また、特許文献４記載の補聴器は、音を特徴付けるパラメータを用いたものではない。さらに、写像処理が動作しない場合、適切な増幅特性とは全く別個の増幅特性となる可能性も大きく、必ずしも安定した音声処理が行なわれるわけではない。

また、特許文献５，６においても、入力音響信号レベル以外のスペクトル特性又は入力音響信号の種別を監視する技術は開示されていない。
本発明は、このような課題に鑑み創案されたもので、例えば補聴器の音響信号処理において、入力音響信号を識別し、適切に音響信号を特徴解析し、その解析によって得られた特徴量により周囲の音環境を識別し、識別された情報に基づいて増幅特性等の音響信号を処理することにより、どのような音環境においても、安定かつ適切な音響信号処理でき、聞きやすく、また、安定して明瞭性の高い音声を再生可能な、音響信号処理装置および音響信号処理方法を提供することを目的とする。

このため、本発明の音響信号処理装置は、入力音響信号の特徴量を表す第１の特徴量データを出力する特徴量出力部と、２次元平面の座標と、座標に割り当てられた第２の特徴量データと、複数の学習音響信号が２次元平面においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けた自己組織化マップ（Self-Organizing Map：ＳＯＭ）情報データ（以下、ＳＯＭ情報データと称する。）を保持する自己組織化マップ保持部と、特徴量出力部からの第１の特徴量データと、自己組織化マップ保持部に保持されたＳＯＭ情報データとに基づいて、第１の特徴量データに対応するグループ識別情報を検索する検索部と、音響信号の処理種別を表す複数の信号処理種別情報のうちの検索部にて検索されたグループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、信号処理種別情報出力部から出力された信号処理種別情報に基づいて入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴としている（請求項１）。

また、本発明の音響信号処理装置は、入力音響信号の特徴量を表す第１の特徴量データを出力する特徴量出力部と、多次元空間における座標と、座標に割り当てられた第２の特徴量データと、複数の学習音響信号が多次元空間においてグループ化された複数のグループを識別するグループ識別情報とを対応付けたＳＯＭ情報データを保持する自己組織化マップ保持部と、特徴量出力部から出力された第１の特徴量データと、自己組織化マップ保持部に保持されたＳＯＭ情報データとに基づいて、第１の特徴量データに対応するグループ識別情報を検索する検索部と、音響信号の処理種別を表す複数の信号処理種別情報のうちの検索部にて検索されたグループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、信号処理種別情報出力部から出力された信号処理種別情報に基づいて入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴としている（請求項２）。

そして、この信号処理種別情報出力部は、音響信号の処理に必要な設定値に関するパラメータを、検索部にて検索されたグループ識別情報に基づいて調整して出力するパラメータ調整部として構成することができる（請求項３）。
また、本発明の音響信号処理装置は、学習音響信号の特徴量を表す第１の特徴量データを出力する特徴量出力部と、特徴量出力部からの第１の特徴量データに基づいて学習音響信号を２次元平面においてグループ化する学習部と、２次元平面の座標と、座標に割り当てられた第２の特徴量データと、学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたＳＯＭ情報データを保持する自己組織化マップ保持部とをそなえて構成されたことを特徴としている（請求項４）。

さらに、本発明の音響信号処理方法は、学習音響信号の特徴量を表す第１の特徴量データに基づいて学習音響信号について、２次元平面の座標と、座標に割り当てられた第２の特徴量データと、学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたＳＯＭ情報データを生成する学習ステップと、学習ステップにおける第１の特徴量データについて、学習ステップにて生成されたＳＯＭ情報データに保持された２次元平面における複数の座標のうちの特徴量出力部からの第１の特徴量データの近傍に位置する近傍座標を検索する検索ステップと、音響信号の処理種別を表す複数の信号処理種別情報のうちの検索ステップにて検索された近傍座標のグループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力ステップと、信号処理種別情報出力ステップにて出力された信号処理種別情報に基づいて音響信号処理を行なう音響信号処理ステップとをそなえたことを特徴としている（請求項５）。

本発明の音響信号処理装置によれば、どのような音環境においても、安定して明瞭性の高い音声が再生される。
また、本発明の音響信号処理装置によれば、明瞭な音声が得られ、ユーザの聴感の向上に多大に寄与する。
さらに、音声又は非音声の種別にかかわらず、どのような音響信号であっても、学習フェーズを経てその音響信号の特徴量が保持されるので、一層、カスタマイズした機能を発揮することができる。

また、ＳＯＭ機能を有するメモリ（ＳＯＭメモリ）を用いることにより、本来、識別できないメモリデータが２次元平面上に表されるので、設計者は、メモリデータを視覚的に把握でき、音響信号処理に関する操作性が格段に向上し、この操作性の向上により音響信号の特徴量が効率的に分類整理できる。そして、この分類整理により、音響信号処理装置は、周囲の音環境を精度よくかつ確実に識別でき、入力された音響信号について増幅特性等の音響信号処理を安定して行なえる。これにより、明瞭な音声等が得られる。

以下、図面を参照して本発明の実施の形態を説明する。
（ａ）本発明の一実施形態の説明
図１は本発明の第１実施形態に係る音響信号処理装置のブロック図である。この図１に示す音響信号処理装置２０は、例えば補聴器，ラジオ又はテレビの音声回路等に用いられるものであって、音声又は非音声の種別，周囲の雑音，騒音又は残響等の程度に応じて音声等が聞き取りやすくなるように適切な処理（音響信号処理）を行なうものである。この音響信号処理は、入力された音響信号のレベルについての増減，音響信号の一部のスペクトル帯域の強調又は低減等の音響信号について増幅特性を変更し、音声明瞭度を確保するようになっている。

（１）学習フェーズと信号処理実行フェーズ
本発明の音響信号処理装置２０における音響信号処理方法は、主に２種類の処理フェーズを設け、様々な音響信号の分類整理を行なう学習フェーズ（学習ステップ）と、この学習フェーズにて分類整理された音響信号を用いて、入力された音響信号をユーザが聴取するために、その入力音響信号の増幅等の信号処理を行なう信号処理実行フェーズ（信号処理実行ステップ）とからなる。

音響信号処理装置２０は、補聴器，ラジオおよびテレビ等の生産時に、学習フェーズが行なわれ、多数の学習用音響信号がグループ化され、そのグループ化されたデータが記録される。すなわち、学習フェーズは、ユーザが製品を使用する以前に行なわれるものである。以下の説明において、ユーザは、学習フェーズを実行せず、常時、信号処理実行フェーズにて製品を使用する。

すなわち、本発明の音響信号処理方法は、補聴器等に設けられた音響信号処理装置２０において、学習フェーズ処理部２７において様々な音響信号を分類整理し（学習ステップ）、信号処理実行フェーズ処理部２８において学習フェーズにて分類整理された音響信号を用いて上記入力音響信号の増幅等をユーザが聴取するために信号処理する（信号処理実行ステップ）。

（２）音響信号処理装置２０の構成
この音響信号処理装置２０は、音声入力部５０と、特徴解析部（特徴量出力部）２１と、ＳＯＭ学習部（自己組織化学習部）２６と、ＳＯＭ座標検索部２２と、ＳＯＭ情報格納メモリ（自己組織化マップ保持部）２３と、信号処理種別情報出力部２４と、音響信号処理部２５と、アンプ５１と、イヤホン５２とをそなえて構成されている。そして、これらの各ブロック（回路ブロック）が協働することにより、学習フェーズと信号処理実行フェーズとが行なわれる。以下、各ブロックについて詳述する。

（２−１）音声入力部５０
音声入力部５０は、音声および周囲の音を取得して音響信号に変換しこの音響信号を特徴解析部２１に入力するものであって、例えばマイク，アンプ等が設けられている。
（２−２）特徴解析部２１
特徴解析部２１は、入力音響信号の特徴量を表す特徴量ベクトル（特徴量ベクトルデータ：第１の特徴量データ）を出力するものであって、特徴量出力部２１として機能している。

（２−３）音響信号の特徴量および特徴量ベクトル
ここで、音響信号の特徴量とは、例えば、音響信号の波形，音響信号のレベル，繰り返し波形を有する音響信号の繰り返し周期又は音響信号のスペクトル成分（パワースペクトル）等、音響信号自身が有する特性又は性質である。
また、特徴量ベクトルとは、例えば「ア」等の特徴量を複数の要素で表したものであって、｛１．１，１．３，…，１．２｝等の集合である。例えば時間幅ＴＷの音響信号の特徴量ベクトルとは、時間幅ＴＷの波形が特徴解析され時間幅ＴＷをｎ分割（ｎは自然数を表す。）した時刻ｔ₀，ｔ₁，…，ｔ_(n-1)において、それぞれ、音響信号の波形を量子化（サンプリング）し、量子化した要素Ｆ_INPUT（１，１，０），Ｆ_INPUT（１，１，１），…，Ｆ_INPUT（１，１，ｎ−１）を特徴量ベクトルとして出力する。

なお、以下の説明において、「Ｆ_INPUT」を特徴量又は特徴量ベクトルと称することがある。
また、特徴解析部２１は、学習フェーズと信号処理実行フェーズとの両フェーズにおいて動作する。学習フェーズにおいて、特徴解析部２１は、多数の学習音響信号を入力され、各音響信号の特徴量Ｆ_INPUT（ｘ，ｙ，ｋ）を抽出する（ｋは０〜ｎ−１の自然数を表す）。この抽出された特徴量Ｆ_INPUT（ｘ，ｙ，ｋ）は、後述するＳＯＭ情報格納メモリ２３に特徴量Ｆ_SOM（ｘ，ｙ，ｋ）（第２の特徴量データ）として格納される。そして、信号処理実行フェーズにおいて、特徴解析部２１が抽出した入力音響信号の特徴量Ｆ_INPUT（ｘ，ｙ，ｋ）は、ＳＯＭ情報格納メモリ２３に格納された特徴量Ｆ_SOM（ｘ，ｙ，ｋ）と比較される。従って、特徴解析部２１は、信号処理実行フェーズにおいて入力音響信号を特徴解析するとともに、前処理としての学習フェーズにおいても学習音響信号の特徴解析を行なう。

なお、ディジタル信号処理によって、音声信号の雑音成分を抑制し、明瞭な音声信号とする。
（２−４）特徴量ベクトルと座標との違いについて
一般に、「ベクトル」と「座標」との両概念は等価であることが多いが、以下の説明において、特徴量ベクトルと座標とは異なる。上記のように、特徴量ベクトルは要素Ｆ_INPUT（ｘ，ｙ，０）〜Ｆ_INPUT（ｘ，ｙ，ｎ−１）の集合を意味し、また、座標はＳＯＭ情報格納メモリ２３のアドレスを意味する。換言すれば、ｎ個の要素がＳＯＭ情報格納メモリ２３のアドレスに対応付けられて保持される。

（２−５）ＳＯＭ情報格納メモリ２３
また、ＳＯＭ情報格納メモリ２３は、２次元平面の座標と、座標に割り当てられた特徴量ベクトルＦ_SOM（ｘ，ｙ，ｋ）と、複数の学習音響信号が２次元平面においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたＳＯＭ情報データを保持するものである。

このＳＯＭ情報格納メモリ２３は、音響信号データが入力される入力レイヤと、２次元平面により表される属性マップの競合レイヤとを有する２層のネットワークからなるものであって、この機能はＲＡＭ（Random Access Memory）等により実現される。これにより、類似した特徴量を有する音響信号がグループ化されて属性マップが得られる。なお、よく知られているように、ＳＯＭは、自己組織化ニューラルネットワーク技術に用いられるものである。

（２−６）ＳＯＭ座標検索部２２
そして、ＳＯＭ座標検索部２２は、特徴解析部２１からの特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）と、ＳＯＭ情報格納メモリ２３に保持されたＳＯＭ情報データ（座標，特徴量ベクトルＦ_SOM（ｘ，ｙ，ｋ）およびグループ識別情報）とに基づいて、特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）に対応するグループ識別情報を検索するものである。

また、ＳＯＭ学習部２６に入力される特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）と、２次元平面上の各座標に関連付けられて保持された特徴量ベクトルＦ_SOM（ｘ，ｙ，ｋ）とは、ともに、同一フォーマットを用いており、両特徴量ベクトルの要素数（データ数）は一致している。従って、学習フェーズと信号処理実行フェーズとにおいて、それぞれ、同一の処理ブロックを共用できる。これにより、ＳＯＭ座標検索部２２は、特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）と特徴量ベクトルＦ_SOM（ｘ，ｙ，ｋ）とに基づいて、入力音響信号について、音声又は非音声と残響の有無とを識別する。

（２−７）信号処理種別情報出力部２４
さらに、信号処理種別情報出力部２４は、音響信号の処理種別を表す例えば３種類の信号処理種別情報のうちのＳＯＭ座標検索部２２にて検索されたグループ識別情報に対応する信号処理種別情報を出力するものである。ここで、信号処理種別情報とは、例えば表１に示すように、圧縮増幅処理，フォルマント強調処理又はノイズ抑圧処理等の３種類の信号処理の識別情報と、入力された音響信号の増幅度等の信号処理に必要なパラメータ情報とを意味する。この信号処理種別情報出力部の機能は、具体的には、分類決定部２４（後述する図３参照）又はパラメータ調整部（後述する図９参照）によって発揮される。なお、フォルマント強調とは、音声スペクトル波形の極大になる部分の振幅を増幅することを意味する。

（２−８）音響信号処理部２５
そして、音響信号処理部２５は、信号処理種別情報出力部（分類決定部又はパラメータ調整部）２４から出力された信号処理種別情報に基づいて入力音響信号を処理するものである。
（２−９）アンプ５１
また、アンプ５１は、音響信号処理部２５にて処理された音響信号を増幅して増幅信号を出力するものである。このアンプ５１の増幅度の大きさは、例えば増幅度Ａ，Ｂ，Ｃの３種類の増幅度において信号を増幅可能になっている。外部からイヤホン５２はアンプ５１からの増幅信号を聞くためのものである。これにより、入力された音響信号は、音響信号処理部２５において明瞭な音になるように音声信号処理され、ユーザは、イヤホン５２を通じて処理された音声等を得ることができる。

（２−１０）ＳＯＭ学習部２６
また、ＳＯＭ学習部２６は、特徴解析部２１からの特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）に基づいて学習音響信号を２次元平面においてグループ化（２次元平面にマッピングしてグループ化）するものである。このＳＯＭ学習部２６は、音響信号が特徴解析部２１に入力される前に、予め、多数の環境音信号を学習用信号として入力され、各学習用信号を特徴解析してＳＯＭ情報格納メモリ２３にマッピングするために用いられる。ここで、環境音とは、様々な場所および種々の時刻等の各種の環境下における音を意味する。

（３）学習フェーズ処理部２７
次に、図２を参照して、学習フェーズ処理部２７について説明する。
図２は本発明の第１実施形態に係る学習フェーズ処理部２７のブロック図である。この図２に示すもので図１に示す符号と同一の符号を有するものは、図１に示す符号と同一のものである。

特徴解析部２１は、学習音響信号の特徴量を表す特徴量ベクトル（学習音響信号を量子化して得た学習音響信号波形を特徴解析して学習音響信号の特徴量データ）を出力するものであって、特徴量出力部として機能している。この特徴解析部２１は、信号処理種別としてＦＦＴ（Fast Fourier Transform：高速フーリエ変換）を用いて入力音響信号をスペクトル領域に変換し、変換して得たスペクトル波形を解析しパワースペクトル（電力スペクトル密度）のレベル又は波形に関する情報を特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）として出力する。

さらに、特徴解析処理の種別は、ＦＦＴ処理のほかに、フィルタバンク処理，線形予測分析処理およびメルケプストラム処理等の各種の分析アルゴリズムを用いることができる。ここで、フィルタバンク処理とは、フィルタバンク出力を特徴量とするものである。フィルタバンク処理とは、入力音響信号をスペクトル変換し入力音響信号の占めるスペクトル帯域を複数のサブ帯域に分割するものである。線形予測分析処理とは線形予測係数を特徴量とするものであって自己相関演算を用いて線形予測係数を得るものである。そして、メルケプストラム処理とは、ＭＦＣＣ（Mel Filtered Cepstrum Coefficient）を特徴量とするものであって、入力音声のパワースペクトルの対数を演算しメル変換およびコサイン変換を用いてＭＦＣＣを生成するものである。

また、入力音響信号は、例えばマイクから入力されたアナログ音響信号であり、このアナログ音響信号はアナログ・ディジタル変換される。なお、携帯電話等の音声復号化部等から出力されるディジタル音響信号を用いることができる。入力音響信号データは、いったん、バッファに保持され、保持された入力音響信号データは、一定時間毎に、特徴解析部２１によって読み込まれ、特徴解析又は特徴抽出されるようになっている。この処理に要する時間は、フレーム（単位フレーム）と呼ばれる。具体的には、入力音響信号データが、次々に、バッファに保持され、保持数が例えば１００になると、特徴解析部２１が１００個の入力音響信号データを読み込み、特徴解析が行なわれるのである。従って、フレームとは、音響信号の波形データが一定の時間間隔毎に分割されて得られる波形データの集合であり、また、フレーム単位に特徴抽出が行なわれるのである。

さらに、特徴解析部２１は、フレーム処理に要する波形の時間幅を、入力音響信号の種別に応じて調整できるようにもなっている。例えば、波形の時間幅が約１ｍｓｅｃ（ミリ秒）〜約０．１ｍｓｅｃの比較的短い時間幅を有する音響信号は、量子化数が少なく、短時間フレーム（短フレーム）と呼ばれ、フレーム数は１個程度で足りる。この一方、時間幅が例えば１ｓｅｃ〜２ｓｅｃ程度の比較的長い音響信号は、短時間フレームが複数個数結合されて、特徴解析部２１に読み込まれる。

そして、特徴解析部２１からの特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）についても、入力音響信号の種別に応じて、１個の短時間フレーム又は複数の短時間フレームとしてＳＯＭ学習部２６に入力される。すなわち、ＳＯＭ学習部２６に入力される特徴量ベクトルは、１個のフレームのベクトルデータ又はスカラー値で表すこともでき、複数個のフレームのパラメータを結合したベクトルデータで表すこともでき、これらが入出力される。

このパラメータとは、スペクトル特性、音圧レベル、時間波形等をいう。
さらに詳述すると、１個の短時間フレームにおいて、分割数ｎを例えば１６とすると、特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）は、その１６分割した時刻ｔ₀〜ｔ₁₅毎に得られる各要素Ｆ_INPUT（ｘ，ｙ，０），Ｆ_INPUT（ｘ，ｙ，２），…，Ｆ_INPUT（ｘ，ｙ，１５）を取得することにより生成される。また、この時間幅ＴＷの値は事例によって種々変更して実施でき、時間幅ＴＷは数ｍｓｅｃ〜数ｓｅｃにもできる。

これにより、学習フェーズにおいて、音声入力部５０に入力された音響信号は、特徴解析部２１において短時間フレーム毎の特徴解析により特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）が生成され、生成された特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）が、入力バッファ（図示省略）に取り込まれる。また、特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）は、フレーム長に応じた大きさで表されてＳＯＭ情報格納メモリ２３に格納される。

（４）座標，グループ化およびＳＯＭ情報格納メモリ２３について
続いて、図４（ａ）および図４（ｂ）を参照して、座標およびグループ化について説明し、図５（ａ），図５（ｂ）を参照してＳＯＭ情報格納メモリ２３の実現例について説明する。
図４（ａ）は本発明の第１実施形態に係るＳＯＭネットワークの一例を示す図である。ＳＯＭ学習部２６は、この図４（ａ）に示すＳＯＭネットワークをＳＯＭ情報格納メモリ２３のアドレスに設けている。また、ＳＯＭネットワークには、縦横がそれぞれ１０個の１０×１０＝１００個の座標（丸，円で表されたもの）が設けられている。ＳＯＭ情報格納メモリ２３は、各グループのうちの各座標が属するグループと、各座標間にて相異なる固有の特徴量ベクトルＦ_SOM（ｘ，ｙ，ｋ）とを対応付けて保持する。

図４（ｂ）は本発明の第１実施形態に係るＳＯＭ情報格納メモリにおける２次元平面のグループ分けの一例を示す図である。この図４（ｂ）に示すＳＯＭネットワークは、例えば３種類のグループＡ〜Ｃが生成されている。ＳＯＭ学習部２６は、この２次元平面上の各座標（丸で表したもの）が属する音響信号グループを識別するための識別情報についても特徴量ベクトルＦ_SOM（ｘ，ｙ，ｋ）とともに保持する。このため、ＳＯＭ学習部２６は、座標毎にグループ属性情報を保持する。従って、特定の座標値と２次元平面にて近傍の座標は特定の座標のもつグループ属性情報と近いグループ属性情報を保持する。従って、２次元平面を全体として観察すると、特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）が近接している座標同士が、２次元平面上において、近いところに保持され、これにより、物理的な特徴量に基づいて、特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）が保持される。

また、図５（ａ）は本発明の第１実施形態に係るＳＯＭ情報格納メモリ２３のメモリ領域の一例を示す図である。この図５（ａ）に示すＳＯＭ情報格納メモリ２３のアドレス０ｘ００００には、図５（ｂ）に示す座標（１，１）に対応付けて保持されるＦ_INPUT（ｘ，ｙ，０）等の特徴量ベクトルが格納されているポインタが格納されている。なお、０ｘは１６進数を表し、アドレス値は例示である。同様に、ＳＯＭ情報格納メモリ２３のアドレス０ｘ０００１〜０ｘ００７３には、座標（１，２）〜座標（１０，１０）にそれぞれ対応付けて保持される特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）のポインタ（ベクトルポインタ）が格納されている。

従って、ＳＯＭ情報格納メモリ２３は、例えば０ｘ０００１〜０ｘ００７３等のメモリ空間のアドレスと、アドレスに割り当てられた特徴量ベクトルＦ_SOM（ｘ，ｙ，ｋ）と、複数の学習音響信号がメモリ空間においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたＳＯＭ情報データを保持している。
（５）特徴量ベクトルの保持領域
図６は本発明の第１実施形態に係る特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）の保持領域を説明するための示す図である。この図６に示すＳＯＭ情報格納メモリ２３の座標（１，１）に格納されたポインタが示すメモリ領域に、１６個のデータ（例えばスペクトル値）と座標（１，１）が属するグループ識別情報とが格納されている。具体的には、１６個の要素Ｆ_INPUT（ｘ，ｙ＋１，０），Ｆ_INPUT（ｘ，ｙ＋１，１），…，Ｆ_INPUT（ｘ，ｙ＋１，１５）がスペクトル値として保持されるのである。同様に、座標（１，２）〜座標（１０，１０）に格納されたポインタが示すメモリ領域に、それぞれ、１６個のデータとグループ識別情報とが格納され、例えば座標（１０，１０）には、１６個の要素Ｆ_INPUT（ｘ＋１０，ｙ＋１０，０），Ｆ_INPUT（ｘ＋１０，ｙ＋１０，１），…，Ｆ_INPUT（ｘ，ｙ＋１，１５）がスペクトル値として保持される。

このように、本発明の音響信号処理装置２０は、学習フェーズにおいて、２次元平面上の座標（１，１）〜座標（１０，１０）と、特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）と、グループ種別とが相互に関連付けて保持される。そして、学習フェーズが終了すると、図４（ｂ）に示すように、ＳＯＭ情報格納メモリの各アドレスに座標（１，１）〜座標（１０，１０）に関連付けられた特徴量ベクトルＦ_SOM（ｘ，ｙ，ｋ）が割り当てられ、かつ各アドレにグループ属性情報とが保持される。すなわち、各座標は、それぞれ、ポインタ（図６参照）によって、相異なる固有の特徴量ベクトルデータと関連付けられて保持されている。なお、学習フェーズにおける初期過程においては、特徴量ベクトルはランダムな値が設定される。

（６）ＳＯＭを用いた座標検索
次に、ＳＯＭネットワークにおける座標検索について図７を参照して説明する。
ＳＯＭ学習部２６は、特徴解析部２１から入力された特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）と、各座標に関連付けて保持された特徴量ベクトルＦ_SOM（ｘ，ｙ，ｋ）との各要素間のユークリッド距離を計算し、入力された特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ）に最も近い（ユークリッド距離が小さい）近傍座標を検索するようになっている。

図７は本発明の第１実施形態に係る近傍座標の検索を説明するための図である。この図７に示す２次元平面は、ＳＯＭ情報格納メモリ２３に実現された座標平面である。ここで、所望の時刻ｔに入力された特徴量ベクトルをｗ（ｔ）とし、各座標の現在の特徴量ベクトルをｍ_i（ｔ）とすると（ｉは座標を示すインデックスを表す。）、ｗ（ｔ）とｍ_i（ｔ）とのユークリッド距離は、｜ｗ（ｔ） −ｍ_i（ｔ）｜により表される（ここで、「｜｜」は絶対値を表す。）。このため、ＳＯＭ学習部２６は、入力された特徴量ベクトルに最も近い近傍座標を取得するために、ユークリッド距離|ｗ（ｔ） −ｍ_i（ｔ）|が最小となるｉを検索する。

具体的には、図７に示す２次元平面の中央部（白い円で表されたもの）に位置する座標（ｘ，ｙ）は、時間幅ＴＷの入力音響信号の波形について、時間幅ＴＷを１６分割した時刻ｔ₀，ｔ₁，…，ｔ₁₅においてそれぞれ量子化された要素Ｆ_INPUT（ｘ，ｙ，０），…，Ｆ_INPUT（ｘ，ｙ，１５）のうちの一要素Ｆ_INPUT（ｘ，ｙ，０）である。最初に、ＳＯＭ座標検索部２２は、例えば（ｘ−１，ｙ，０）を検索開始座標とし、Ｆ_INPUT（ｘ，ｙ，０）と座標（ｘ−１，ｙ，０）との間のユークリッド距離を計算し計算したユークリッド距離を、バッファ（図示省略）に保持する。この後、ＳＯＭ座標検索部２２は、（ｘ，ｙ−１，０），（ｘ＋１，ｙ，０），（ｘ，ｙ＋１，０）の順に計算および保持を繰り返し、さらに、（ｘ−１，ｙ＋１，０），（ｘ−２，ｙ），（ｘ−１，ｙ−１，０），（ｘ，ｙ−２），（ｘ＋１，ｙ−１，０），（ｘ＋２，ｙ），（ｘ＋１，ｙ＋１）の順に計算および保持を繰り返す。そして、保持された各ユークリッド距離のうちの最小のユークリッド距離が得られた座標を、座標（ｘ，ｙ，０）に最も近い近傍座標として取得する。

次に、ＳＯＭ学習部２６は、ユークリッド距離が最小となる座標ｉ_c（ｉ＝ｉ_c）の取得後、以下に示す式（１）〜（３）を用いて、座標ｉ_cの近くの座標における特徴量ベクトルｍ_i（ｔ）を更新する。ここで、ｔは時間を表し、α（ｔ）は後述する学習率係数を表す。
ｍ_i（ｔ＋１）＝ｍ_i（ｔ）＋ｈ_ci（ｔ）[ｗ（ｔ）−ｍ_i（ｔ）] …（１）
ｈ_ci ＝ α（ｔ）（ｉがｉ_cの近傍のとき） …（２）
ｈ_ci ＝０（ｉがｉ_cの近傍でないとき） …（３）
ここで、ｉがｉ_cの近傍であるか否かは、式（４）を用いて判定される。

|ａ − ａ_c| ＜４かつ |ｂ − ｂ_c| ＜４ …（４）
そして、ＳＯＭ学習部２６は、式（４）を満足させる座標ｉを近傍座標としている。なお、座標ｉを（ａ，ｂ）とし、ｉ_cの座標を（ａ_c，ｂ_c）としている。また、式（４）のｉは２次元平面上の座標であり、aはｘ軸の値を表し、bはｙ軸の値を表している。
また、式（２）に示す学習率係数α（ｔ）は、０＜α（ｔ）＜１の条件を満足させるものである。さらに、学習率係数α（ｔ）は、時間とともに減少する関数を用いて、例えば式（５）に示すように設定される。

α（ｔ）＝ α₀（１ − ｔ／ＴＬ） …（５）
なお、α₀は適切に選択された定係数であり、例えば約０．３に設定される。ｔは学習開始からの時間又は時刻ｔ₀〜ｔ₁₅を表し、ＴＬは学習に要する時間を表す。
これにより、ＳＯＭ学習部２６は、多数の音響信号を用いて、式（１）に示す学習計算を行なう。例えば合計ｋ個の音響信号がＳＯＭ学習部２６に入力された場合、ＳＯＭ学習部２６は、各時刻ｔ₀〜ｔ₁₅において、ｋ個のうちの１個の音響信号の特徴パラメータを用いて、ＳＯＭ情報格納メモリの保持値を更新する。また、学習は各時刻ｔ₀〜ｔ₁₅において行なわれるので、学習は時間ＴＬを要することになる。

さらに、学習の終了後、ＳＯＭ学習部２６は、ＳＯＭネットワークの情報（各座標における特徴量ベクトル値）をＳＯＭ情報格納メモリに保持する。従って、入力音響信号は、ＳＯＭ情報格納メモリにおいて、仮想的な２次元平面上の座標にマッピングされ、２次元平面上の座標は、各々固有な特徴量ベクトルを割り当てられた状態で保持される。この保持されている特徴量ベクトルは、具体的には、特定の音に関するものであり、所望の座標に「ア」という音の特徴量ベクトルが格納され、また、他の座標に「イ」という音の特徴量ベクトルが格納されている。

そして、入力バッファに保持された音響信号波形データｗ（ｔ）は、短時間フレーム長を例えばｎ分割（ｎは自然数を表す。）したサブフレーム長時間毎に特徴解析部２１にて特徴解析され、ｎ個の音響信号波形データｗ（ｔ₀），ｗ（ｔ₁），…，ｗ（ｔ_n-1）が生成出力される。ここで、ｔ₀〜ｔ_n-1はそれぞれ時刻を表し、また、以下の説明においては、ｗ（ｔ₀），ｗ（ｔ₁），…，ｗ（ｔ_n-1）をｗ（ｔ_j）と表記する（ｊは０〜ｎ−１の整数を表す。）。すなわち、サブフレーム長の音響信号の特徴量が、複数の要素（スカラー値ｗ（ｔ_j））として出力される。従って、以下の説明において、これらの要素ｗ（ｔ_j）を特徴量ベクトルｗ（ｔ）と称する。換言すれば、特徴解析部２１は、ｎ個の要素ｗ（ｔ_j）からなる特徴量ベクトルｗ（ｔ）を出力する。

そして、特徴解析により生成された特徴量ベクトルは、図２に示すＳＯＭ学習部２６に入力され、自己組織化マップ（ＳＯＭ）を用いて学習される。この学習は、様々な環境音を入力して処理し、処理した環境音を仮想的な２次元平面にマッピングすることにより行なわれる。加えて、ＳＯＭ学習部２６は、２次元平面上の各座標に固有の特徴量ベクトルを割り当てるようにしている。また、ＳＯＭ学習部２６は、多数の各種の環境音を、信号処理実行フェーズに移行する前に、グループ化（グルーピング）しておくことが望ましい。

これにより、学習終了後は、入力された各環境音が、仮想的な２次元平面上の所望の座標にマッピングされた属性マップが得られ、また、固有の特徴量ベクトルが２次元平面上の各座標に割り当てられる。
さらに、ＳＯＭ学習部２６は、各々の音響信号が２次元平面において適切にグループ化されるように、２次元平面を領域分割することが好ましい。この領域分割は、信号処理実行フェーズに移行する前に各環境音のグループ化に基づいて行なわれる。具体的には、ＳＯＭ学習部２６は、２次元平面をグループに基づいて領域分割し、領域分割された平面に複数の音響信号をグループすることにより分類整理し、分類整理された各グループに音響信号処理モードを割り当てる。

また、グループ化されたグループ毎に、適切な音響信号処理モードが、予め聴取実験等を行なうことにより決定されるようになっている。これにより、２次元平面上の各座標は、第２の特徴量ベクトルおよびグループ化情報が割り当てられる。
続いて、分類決定部（決定部）２４は、音響信号の処理種別を表す複数の信号処理モードのうちの検索部にて検索されたグループ識別情報に対応する信号処理モードを決定するものであって、信号処理種別情報出力部として機能している。分類決定部２４は、検索された近傍座標に対応するグループを決定する。すなわち、近傍座標がどのグループに含まれているかが判断される。また、分類決定部２４は、決定したグループに基づいて、複数の信号処理モードのうちの適切な信号処理モードを選択する。そして、音響信号処理部２５は、分類決定部２４にて選択された信号処理モードに基づいて音響信号を処理する。

（７）本発明の音響信号処理方法
これにより、本発明の音響信号処理方法は、入力された音響信号波形の特徴が解析され、その特徴量からＳＯＭを用いて現在の音響信号が識別（音声／非音声、残響の有無等）され、識別された情報に基づいて信号の増幅等の音響信号処理モードが切り替えられる。
従って、本発明の音響信号処理方法は、ＳＯＭ学習部２６が、学習音響信号の特徴量を表す特徴量ベクトルに基づいて学習音響信号について、２次元平面の座標と、座標に割り当てられた特徴量ベクトルと、ＳＯＭ学習部２６にてグループ化された例えば３種類のグループＡ〜Ｃを識別するグループ識別情報とのそれぞれを対応付けたＳＯＭ情報データを生成する（学習ステップ）。また、この学習ステップは、複数のグループのそれぞれに対応する複数のパラメータを取得する。

次に、ＳＯＭ座標検索部２２が、学習ステップにおける特徴量ベクトルについて、学習ステップにて生成されたＳＯＭ情報データに保持された２次元平面における複数の座標のうちの特徴量出力部からの特徴量ベクトルの近傍に位置する近傍座標を検索する（検索ステップ）。具体的には、入力された音響信号（音響信号の波形）は、特徴解析部２１にて短時間フレーム毎に特徴解析され、特徴解析された特徴量ベクトルは、ＳＯＭ情報格納メモリ２３上の各座標に割り当てられた特徴量ベクトルと比較され、２次元平面上に保持された多数の座標のうちの入力された特徴量ベクトルと最も近い近傍座標が検索される。ここで、特徴量ベクトルの種類は、学習フェーズにおける特徴量ベクトルと同一のものが用いられる。

また、分類決定部２４は、音響信号の処理種別を表す複数の信号処理種別情報のうちの検索ステップにて検索された近傍座標のグループ識別情報に対応する信号処理種別情報を出力する（信号処理種別情報出力ステップ）。
そして、音響信号処理部２５は、信号処理種別情報出力ステップにて出力された信号処理種別情報に基づいて音響信号処理を行なう（音響信号処理ステップ）。また、音響信号処理ステップは、検索ステップにて検索された近傍座標に割り当てられたグループ識別情報に基づいて学習ステップにて取得された１又は複数のパラメータを変更する（変更ステップ）。さらに、変更ステップにて変更された上記の１又は複数のパラメータを用いて音響信号処理を行なう。

（８）学習フェーズの処理動作
このような構成により、学習フェーズの処理フローについて図８を参照して説明する。
図８は本発明の第１実施形態に係る学習フェーズの処理を説明するためのフローチャートである。音声入力部５０は、環境音の音響信号を特徴解析部２１に対して入力すると（ステップＡ１）、この特徴解析部２１において、上記の種々の方法の特徴解析処理が行なわれる（ステップＡ２）。そして、ＳＯＭ座標検索部２２は、特徴量パラメータと最も近いＳＯＭ上の座標を検索する（ステップＡ３）。この後、各座標の特徴量パラメータによる更新が例えば、式（１）に示す方法で行なわれたかどうかが判定される（ステップＡ４）。

ここで、ＳＯＭ座標検索部２２は、すべての環境音について処理を行なったか否かを検索し（ステップＡ５）、処理が終了の場合は、ＹＥＳルートを通り、ＳＯＭ情報をＳＯＭ情報格納メモリ２３に格納する（ステップＡ６）。また、ステップＡ５において、処理が残っている場合は、ＮＯルートを通り、ステップＡ１以降の処理が行なわれる。
このようにして、学習フェーズが終了すると、ＳＯＭ情報格納メモリ２３に、信号処理実行フェーズの比較に用いられる特徴量ベクトルが格納される。

（９）信号処理実行フェーズ処理部２８
次に、図３を参照して、信号処理実行フェーズ処理部２８について説明する。
図３は本発明の第１実施形態に係る信号処理実行フェーズ処理部２８を説明するための図である。この図３に示す分類決定部２４は、音響信号の処理種別を表す複数の信号処理モードのうちのＳＯＭ座標検索部２２にて検索されたグループ識別情報に対応する信号処理モードを決定するものである。また、この音響信号処理モードの一例は、後述する表１に示すように、圧縮増幅処理，フォルマント強調処理又はノイズ抑圧処理等である。さらに、信号処理モードの決定は、分類決定部２４に設けられた信号処理モード保持メモリに保持されたグループ識別情報と信号処理モードとに基づいて行なわれる。

なお、図３に示すもので上述したものと同一符号を有するものはそれらと同一のものを表す。また、信号処理モード信号は、表１に示す変換テーブルに保持するようにもできる。
これにより、特徴解析部２１において、マイクから入力された音響信号波形の特徴解析が行なわれる。この特徴解析部２１における信号処理の種別は、学習フェーズにおける信号処理の種別と同一にされている。その主な理由は、例えば音響信号のサブバンド幅，音響信号のパワースペクトルの分割幅等を共通に設定するためである。従って、信号処理実行フェーズにおける特徴解析処理は、学習フェーズにおいて用いられたＦＦＴ処理，フィルタバンク処理，線形予測分析処理およびメルケプストラム処理等を用いて行なわれる。

次に、ＳＯＭ座標検索部２２においてＳＯＭ座標が検索される。具体的には、ＳＯＭ座標検索部２２は、入力音響信号の特徴量ベクトルｗ（ｔ）が、ＳＯＭ情報格納メモリ２３の２次元平面（図５参照）においてどの座標に最も近いかを検索する。すなわち、ＳＯＭ座標検索部２２は、入力された特徴量ベクトルに最も近い近傍座標を取得するために、ユークリッド距離|ｗ（ｔ） − ｍ_i（ｔ）|が最小となるｉを検索する。ここで、ｗ（ｔ），ｍ_i（ｔ）および｜ｗ（ｔ） − ｍ_i（ｔ）｜はそれぞれ、所望の時刻ｔに入力された特徴量ベクトルＦ_INPUT（ｘ，ｙ，ｋ），学習フェーズにて保持された特徴量ベクトルＦ_SOM（ｘ，ｙ，ｋ）およびｗ（ｔ）とｍ_i（ｔ）とのユークリッド距離を表している。

そして、音響信号の処理種別を表す複数の信号処理種別情報のうちのＳＯＭ座標検索部２２にて検索されたグループ識別情報に対応する信号処理種別情報が出力される。すなわち、分類整理されて保持された特徴量ベクトルに基づいて、信号処理が選択される。
次に、分類決定部２４において、ユークリッド距離|ｗ（ｔ） − ｍ_i（ｔ）|が最小となる座標ｉｃのグループ（グループ属性）に基づいて、音響信号処理に用いる音響信号の種別が決定され、音響信号処理部２５に対して音響信号処理モードが出力される。音響信号処理モードは、例えば表１に示すモードを用いることができる。

そして、音響信号処理部２５は、分類決定部２４から指示（又は通知）された音響信号処理モードを用いて入力音響信号の信号処理を行ない、また、アンプ５１を介してイヤホン等に出力する。
これにより、信号処理実行フェーズは、類似した特徴量を有する音響信号がグループ化された属性マップに基づいて信号処理が実行される。

また、信号処理実行フェーズは、音響信号処理は常時実行されるが、音響信号処理モードを決定するための特徴解析，ＳＯＭ座標検索および分類決定処理は、適切な周期毎（例えば１秒〜２秒）に行なわれる。
（１０）信号処理実行フェーズ処理部２８の処理動作
このような構成により、本発明の第１実施形態に係る信号処理実行フェーズについて図９を参照して説明する。

図９は本発明の第１実施形態に係る音響信号処理方法を説明するためのフローチャートである。分類決定部２４は、ステップＢ１において、音響信号処理装置２０の起動時又は起動後に音響信号処理モードが変更されたときに音響信号処理モード（信号処理モード）を確認する必要の有無を判定し、その確認が必要と判定した場合はＹＥＳルートを通り、特徴解析部２１によって特徴解析処理が行なわれる（ステップＢ２）。分類決定部２４は、ステップＢ１において、音響信号処理モードの確認が不要と判定すると、ＮＯルートを通り、現在の信号処理モードを表１に示すテーブルに保持し（ステップＢ６）、音響信号処理部２５は音響信号処理を実行する（ステップＢ５）。

また、特徴解析が行なわれると（ステップＢ２）、ＳＯＭ座標検索部２２は、特徴量パラメータと最も近いＳＯＭ平面上の座標を検索し（ステップＢ３）、検索された座標に基づいて分類決定部２４は、音響信号処理部２５に対して音響信号処理モードを入力し（ステップＢ４）、音響信号処理が行なわれる（ステップＢ５）。
このステップＢ５の後、分類決定部２４は、ステップＢ７において、処理が終了したか否かを判定し、処理終了時はＹＥＳルートを通り処理が終了し、また、処理が終了していない場合はＮＯルートを通り、再度、ステップＢ１以降の処理が繰り返される。

このように、本発明の音響信号処理方法によれば、入力された音響信号に応じて適切に信号処理が行なわれるので、安定しかつ明瞭性の高い音声又は音響信号が取得され、ユーザの不快感が取り除かれ、高品質の音を聴取できる。
また、このように、スペクトル特性に応じて、雑音レベルが低いスペクトル領域のレベルを強調でき、雑音レベルが高いスペクトル領域のレベルを強調するので聴感が向上する。例えば、ユーザが家の外に出たときに、雑音成分を抑圧して音声レベルが上昇するようになり、雑音がある環境において、ユーザは明瞭度の高い音を聞くことができる。

（１１）領域分割方法を用いた検索方法
次に、領域分割方法について詳述する。学習フェーズにおいて、学習計算後、最後の段階において、グループ数と音とを選択して領域分割する。その選択は、システムの設計者（又はＳＯＭ学習部２６）が、予め、各グループについて代表的な複数の音を決定する。この音は、学習計算に用いた音又は学習計算とは別個に用意した音から選択される。

次に、音響信号処理装置２０は、これら複数の環境音を順に入力され、信号処理実行フェーズと同一の処理を行ない、その入力音が２次元平面上でどの座標にマッピングされるかが計算される。そして、その座標のグループ識別情報として、グループ種別を表す数値を書き込み、これを繰り返し実行する。ここで、既に何らかの数値が書き込まれた座標にマッピングされた場合は、今回入力された音のグループの種類を示す数値を、その座標のグループ識別情報として上書きする。

具体例として、音響信号処理装置２０が、学習フェーズにおいて、音声と、ノイズ（掃除機の音等）と、サイレン音（救急車等）との３種類のグループのグループ識別情報を、それぞれ、「１」，「２」，「３」に割り当てる。そして、学習用に入力された音響信号が、特徴解析により音声と解析されると、その特徴量ベクトルが、例えば座標（２，３）にマッピングされる。この場合、特徴解析部２１は、座標（２，３）のグループ識別情報として「１」をＳＯＭ座標検索部２２に対して入力する。

また、学習用として用意された全ての音が入力された後に、未だ、グループ識別情報が設定されていない未設定座標は、その未設定座標に最も近い座標であってグループ識別情報が設定されている設定済み座標のグループ識別情報が割り当てられる。この未設定座標（ｘ，ｙ，ｋ）の検索方法は、ＳＯＭ座標検索部２２が、（ｘ−１，ｙ，ｋ），（ｘ，ｙ−１，ｋ），（ｘ＋１，ｙ，ｋ），（ｘ，ｙ＋１，ｋ），（ｘ−１，ｙ−１，ｋ），（ｘ−１，ｙ＋１，ｋ），（ｘ＋１，ｙ−１，ｋ），（ｘ＋１，ｙ＋１，ｋ）の順に、各座標にグループ識別情報が設定されているか否かを探索する。この検索範囲のすべての座標がグループ識別情報を設定されていない場合、ＳＯＭ座標検索部２２は、さらに、（ｘ−２，ｙ，ｋ），（ｘ，ｙ−２，ｋ），（ｘ＋２，ｙ，ｋ），（ｘ，ｙ＋２，ｋ）の順に、各座標のグループ識別情報を探索する。

従って、ＳＯＭ座標検索部２２は、ＳＯＭ情報格納メモリ２３のＳＯＭ情報データに保持された２次元平面における複数の座標のうちの特徴量出力部からの特徴量ベクトルの近傍に位置する近傍座標に対応するグループ識別情報を出力する。
このように、各座標についてのグループ識別情報が検索されて処理されるので、明瞭な音響信号が得られる。

このようにして、本発明の音響信号処理装置２０および音響信号処理方法によれば、学習フェーズにおいて各種の音響の特徴量ベクトルがＳＯＭ情報格納メモリ２３にデータベース化され、また、信号処理実行フェーズにおいて入力された現時点の音響信号が特徴解析される。そして、この現時点における音響信号の特徴量ベクトルと、ＳＯＭ情報格納メモリ２３に保持された特徴量ベクトルとに基づいて周囲の音環境が識別され、識別された環境に応じて増幅特性等が調整されるので、どのような音環境においても、安定かつ適切な音響信号処理でき、聞きやすく、また、安定して明瞭性の高い音声を再生できる。

（ａ１）第１変形例の説明
第１実施形態における音響信号処理部２５は、分類決定部２４から入力される音響信号処理モードに基づいて処理種別を変更していた。本変形例の音響信号処理方法は、その音響信号処理モードを切り替える代わりに、増幅度又は増幅特性等の信号処理に関するパラメータを用いて音響信号についての処理種別を変更調整する。

図１０は本発明の第１実施形態の第１変形例に係る信号処理実行フェーズ処理部２８ａのブロック図であり、この図１０に示すＳＯＭ座標検索部２２の出力側に、メモリ３１とパラメータ調整部３０とが設けられている。このメモリ３１は、グループ識別情報とパラメータとを対応付けて保持するものである。このパラメータは、音響信号の例えば増幅処理に必要なアンプ５１の増幅度等を識別するための値である。

また、パラメータ調整部３０は、音響信号の処理に必要な設定値に関するパラメータを、検索部にて検索されたグループ識別情報に基づいて調整して出力するものであって、信号処理種別情報出力部として機能している。そして、パラメータ調整部３０は、その音響信号の例えば増幅処理に必要な設定値に関するパラメータを、ＳＯＭ座標検索部２２にて検索されたグループ識別情報に基づいて調整して出力する。

換言すれば、信号処理種別情報出力部としてのパラメータ調整部３０は、音響信号の処理種別を表す圧縮増幅処理，フォルマント強調処理又はノイズ抑圧処理等の信号処理種別情報のうちのＳＯＭ座標検索部２２にて検索されたグループ識別情報に対応する信号処理種別情報を出力している。
これにより、パラメータ調整部３０において、グループ識別情報に基づいて音響信号処理に適用するためのパラメータが適切に変更される。

なお、メモリ３１は、パラメータ調整部３０の内部，パラメータ調整部３０以外の他のブロック又は他のブロック内部のメモリ（バッファ）等に設けることもできる。
そして、このような構成によって、第１変形例における音響信号処理方法は、学習フェーズにおいて、パラメータ調整部３０が、分類されたグループ毎に適切なパラメータを、学習，外部機器からの入力又は手動設定等を用いて事前にメモリ等に保持しておく。そして、この状態において、第１変形例の学習フェーズは、第１実施形態における音響信号処理と基本的に同一処理を行なう。

また、信号処理実行フェーズにおいて、ＳＯＭ座標検索部２２が、入力音響信号から得られたＳＯＭ情報格納メモリ２３上の座標が、どのグループに属するかについて判断する。
次に、第１実施形態における処理と異なり、パラメータ調整部３０は、得られたグループ情報を基に音響信号処理のパラメータを変更する。そして、音響信号処理は、変更されたパラメータを用いて実行される。

このようにして、第１変形例においては、第１実施形態における効果を得られるほかに、パラメータ調整部３０を用いることによる処理の簡素化が図れる。
（ａ２）第２変形例の説明
第２変形例の音響信号処理装置２０は、音響信号処理装置２０自身の自動処理に加えて、ユーザの手動操作による手動処理を利用できるようにしている。

図１１は本発明の第１実施形態の第２変形例に係る信号処理実行フェーズ処理部のブロック図であり、この図１１に示す信号処理実行フェーズ処理部２８ｂは、分類情報修正部２９と、分類決定／パラメータ調整部（分類決定およびパラメータ調整部）３０ａと、モード／パラメータ強制変更部３２とをそなえて構成されている。ここで、分類情報修正部２９は、ＳＯＭ情報格納メモリ２３に保持されたＳＯＭ情報データを書き替え可能なものである。また、モード／パラメータ強制変更部３２は、ユーザからの入力データに基づいて適切な修正信号を分類情報修正部２９に対して入力するものである。

さらに、分類決定／パラメータ調整部（分類決定およびパラメータ調整部）３０ａは、ＳＯＭ座標検索部２２からの座標データに基づいて、適切なグループ化の決定（分類決定）および適切な例えば増幅器の増幅度等のパラメータを音響信号処理部２５に対して入力するものである。この機能は、例えばユーザ自身がモード又はパラメータに用いる情報データを直接入力する方法又は無線回線，有線回線を介して入力された情報データを入力する方法あるいは、予め各種のモード，パラメータに関する情報データを記憶しておくＲＯＭ等を用いることにより実現される。

ここで、ＳＯＭ情報データの修正の流れについてさらに詳述する。ユーザが手動操作により入力した情報データは、モード／パラメータ強制変更部３２において読み込まれ、このモード／パラメータ強制変更部３２から、モード又はパラメータの修正内容を含むデータが（修正指示データ）が、分類情報修正部２９を介して、ＳＯＭ情報格納メモリ２３に保持されるようになっている。なお、モード／パラメータ強制変更部３２にて変更されたモード又はパラメータは、音声信号処理部２５に入力される。従って、信号処理実行フェーズにおいて、ユーザの入力操作等を用いた指示に基づいて、強制的に処理モード／パラメータが変更できる。

これにより、ユーザが本音響信号処理装置２０を使用又は聴取した場合に、適切なモード又はパラメータでないと判断してボタンの押下等を行なうと、分類決定／パラメータ調整部３０ａは、そのボタン操作による入力に基づいて、適切な音質でないことを検知し、音響信号のグループ識別情報を修正する。また、分類属性情報修正部は、入力の停止の検知により修正を開始するようになっている。さらに、分類属性情報修正部は、特徴量ベクトル，入力操作時における信号処理種別情報又は各グループに対応付けたパラメータを、ＳＯＭ情報格納メモリ２３に保持するようになっている。

このような構成によって、本発明の第１実施形態の第２変形例における音響信号処理方法は、学習フェーズにおける処理は、第１実施形態および第１変形例における各学習フェーズの処理と同一である。
第２変形例における信号処理実行フェーズは、以下に述べる処理ステップが追加されている。

次に、追加信号処理実行フェーズにおいては、信号処理の実行時にユーザが聴取している音が明瞭に聞き取れない場合、ユーザ自身が適切なモード／パラメータになるようにボタン操作等を切り替える。ここで、分類決定／パラメータ調整部３０ａは、適切な音質でないことを検知すると、即座にユーザが指示するモード／パラメータに切り替える。続いて、分類決定／パラメータ調整部３０ａは、その時点におけるＳＯＭ座標のグループと、そのＳＯＭ座標の周辺座標におけるグループとの両方のグループを、ユーザが選択したモード／パラメータが対応するグループに修正する。また、分類決定／パラメータ調整部３０ａは、この修正時において入力されていた音響信号の特徴量情報を一時保持し、また、ユーザが変更した変更後のモード／パラメータについても一時保持する。

さらに、修正フェーズにおいて、ユーザが音響信号処理装置２０を停止させる等したときは、本音響信号処理装置２０は、修正フェーズに移行し、また、修正フェーズの移行が開始されると、分類決定／パラメータ調整部３０ａは、グループ情報を修正する。
そして、分類決定／パラメータ調整部３０ａとＳＯＭ座標検索部２２とが協働することにより、一時保持されていた特徴量が２次元平面においてどの座標に最も近いかを検索する。そして、分類決定／パラメータ調整部３０ａは、検索された座標およびその周辺のグループ情報を、ユーザが選択したモード／パラメータに対応するグループに修正する。

このように、信号処理実行フェーズにおいては、ユーザの入力操作等を用いた指示に基づいて、強制的に処理モード／パラメータが変更される。
また、信号処理を停止している間に、音響信号処理装置２０は、修正フェーズに移行する。修正フェーズにおいては、ユーザの応答に従ってＳＯＭ情報を修正する。
このように、第２変形例においては、ユーザからのフィードバックによって、ＳＯＭ情報格納メモリ２３における音響信号のグループ識別情報が修正され、そして、音響信号処理のモード／パラメータ切り替え情報から自己組織化マップ上におけるグループ識別情報が修正される。

（ａ３）第３変形例
第３変形例においては、第１実施形態の特徴解析部２１の代わりに、既存の音声符号化処理部が設けられている。
図１２は本発明の第１実施形態の第３変形例に係る学習フェーズ処理部のブロック図である。この図１２に示す学習フェーズ処理部２７ａにおいて、特徴量出力部２１ａが、音声符号化処理により得られた音声符号化パラメータを入力され音声符号化パラメータを特徴量ベクトルとしてＳＯＭ情報格納メモリ２３に入力する音声符号化処理部（既存の音声符号化処理部）２１ａとして構成されている。ＳＯＭ学習部２６が、音響信号の符号化に関する符号化パラメータであって音響信号処理装置２０自身又は送信側装置において生成された符号化パラメータを入力されるようになっている。

なお、図１２および以下に説明する図１３にそれぞれ表示された符号であって、上述したものと同一符号を有するものはそれらと同一のものを表す。
次に、図１３は本発明の第１実施形態の第３変形例に係る信号処理実行フェーズ処理部のブロック図である。この図１３に示す信号処理実行フェーズ処理部２８ｃは、既存の音声符号化処理により得られた音声符号化パラメータを用いて信号処理をするものであって、音声符号化処理部２１ａと、復号化処理部３５と、音響信号処理部２５ａと、スピーカ５２ａとをそなえて構成されている。ここで、音声符号化処理部２１ａは、復調された情報データを出力するとともに、既存の音声符号化処理で得られた符号化パラメータを出力するものである。この符号化パラメータは、特徴量としてＳＯＭ座標検索部２２に入力される。また、復号化処理部３５は、音声符号化処理部２１ａから出力された情報データについて復号処理をし、受話音声を出力するものであって、この受話音声は音響信号処理部２５ａに入力される。さらに、音響信号処理部２５ａは、信号処理種別情報出力部（音声符号化処理部）２１ａから出力された信号処理種別情報に基づいて入力音響信号を処理するものであり、音声強調処理および雑音抑圧処理等を行なうものである。スピーカ５２ａは、アンプ５１からの増幅信号を鳴動させるものである。

従って、ＳＯＭ座標検索部２２が、音響信号の符号化に関する符号化パラメータであって音響信号処理装置２０自身又は送信側装置において生成された符号化パラメータを入力される。さらに、音声入力部５０および音声符号化処理部２１ａが符号化情報入力部（５０，２１ａ）とし、予め生成された符号化パラメータがＳＯＭ座標検索部２２に入力されるのである。

従って、特徴量出力部２１ａが、音響信号の符号化に関する符号化パラメータであって音響信号処理装置２０自身又は送信側装置において生成された符号化パラメータを、特徴量ベクトルとしてＳＯＭ情報格納メモリ２３に入力するとともに、信号処理種別情報出力部が、グループ識別情報に基づいて、信号処理種別情報と符号化パラメータとのうちの少なくとも一方を出力し、音響信号処理部（信号処理部）２５ａが、信号処理種別情報出力部から出力された信号処理種別情報と符号化パラメータとの各設定値に応じて異なる信号処理を実行するように構成されている。

このような構成により、学習フェーズにおいて、図１２に示す受信データから音声符号化パラメータが出力され、ＳＯＭ学習部２６において、この符号化パラメータが自己組織化マップを用いて音響信号が分類整理されて保持される。
そして、信号処理実行フェーズにおいて、図１３に示す音声符号化処理部２１ａからの符号化パラメータは、ＳＯＭ座標検索部２２においてＳＯＭ情報格納メモリ２３を用いて入力された音響信号がどのグループに属するかが識別される。さらに、分類決定部２４において得られた識別情報は、音響信号処理部２５ａにおいて信号処理モード又はパラメータが切り替えられる。そして、指定された信号処理モード又は設定されたパラメータにより異なる音響信号処理が行なわれる。

このように、本音響信号処理装置２０を既存の音声符号化装置と連携して実装しかつ動作させるので、本音響信号処理装置２０を汎用化が促進される。
このようにして、入力された音響信号に応じて適切な信号処理を行なうことができ、安定して明瞭性の高い音声を聴取することができる。
（ｂ）本発明の第２実施形態の説明
第２実施形態においては、音響信号処理装置２０が、携帯電話等に設けられた既存の音声符号化装置と連携させるようにしている。

図１４は本発明の第２実施形態に係る学習フェーズ処理部のブロック図である。この図１４に示す学習フェーズ処理部４２は、送信側において生成された符号化パラメータを無線復調処理してＳＯＭ学習部２６に入力するものであって、例えば携帯電話等の受信部に設けられた音響信号処理装置２０である。この学習フェーズ処理部４２は、ＲＦ（Radio Frequency：無線スペクトル）信号を受信するアンテナ４０ａと、アンテナ４０ａからの無線信号をダウンコンバートして復調しその復調信号を出力するＲＦ受信部４０ｂと、ＲＦ受信部４０ｂからの復調信号をベースバンド処理して音声符号化パラメータを含む情報データを抽出するベースバンド信号処理部４０ｃとをそなえるとともに、ＳＯＭ学習部２６と、ＳＯＭ情報格納メモリ２３とをそなえて構成されている。

ここで、音声符号化パラメータを出力するベースバンド信号処理部４０ｃと、アンテナ４０ａ，ＲＦ受信部４０ｂとが特徴量出力部および符号化情報入力部として機能している。すなわち、学習フェーズ処理部４２は、第１実施形態の特徴解析部２１の代わりに、遠隔地から無線送信された音響信号データを復調し、復調したデータを用いて学習されるようになっている。従って、第２実施形態においては、ＳＯＭ学習部２６が、音響信号の符号化に関する符号化パラメータであって音響信号処理装置２０自身又は送信側装置において生成された符号化パラメータを入力される。

なお、図１４および以下に説明する図１５にそれぞれ表示された符号であって、上述したものと同一符号を有するものはそれらと同一のものを表す。
図１５は本発明の第２実施形態に係る信号処理実行フェーズ処理部のブロック図である。この図１５に示す信号処理実行フェーズ処理部４３は、携帯電話等の受信部に設けられたものである。

このような構成により、無線信号が復調されて、既存の音声符号化処理で得られた符号化パラメータがＳＯＭ座標検索部２２に入力され、ＳＯＭ座標検索部２２は、この符号化パラメータに基づいて自己組織化マップ（ＳＯＭ情報格納メモリ）２３を用いて音響信号を分類整理して記憶する。さらに、分類決定部２４において、符号化パラメータに基づいてＳＯＭ情報格納メモリ２３を用いて入力された音響信号がどのグループに属するかが識別され、得られたグループ識別情報に基づいて信号処理のモード又はパラメータが切り替えられ、そして、モード指定／パラメータ設定により異なる音響信号処理が行なわれる。

このように、音響信号処理装置２０を携帯電話等に設けられた音声符号化装置に組み込むこともでき、各種の音響信号処理に実装できる。
（ｃ）その他
本発明は上述した実施態様およびその変形例に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、種々変形して実施することができる。

学習フェーズは、製品の生産時に行なわれるのみならず、ユーザが学習フェーズを行なえるようにもできる。この場合、学習フェーズおよび信号処理実行フェーズの切り替えが所定のタイミングで行なわれる。
第２実施形態における符号化入力部の機能は、携帯電話等のほかに、光ファイバ通信における受光処理装置等に設けることができる。

また、ＳＯＭ情報格納メモリ２３は、多次元空間における座標を生成するようにもできる。
（ｄ）付記
（付記１）入力音響信号の特徴量を表す第１の特徴量データを出力する特徴量出力部と、
２次元平面の座標と、該座標に割り当てられた第２の特徴量データと、複数の学習音響信号が該２次元平面においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたＳＯＭ情報データを保持する自己組織化マップ保持部と、
該特徴量出力部からの該第１の特徴量データと、該自己組織化マップ保持部に保持された該ＳＯＭ情報データとに基づいて、該第１の特徴量データに対応する該グループ識別情報を検索する検索部と、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索部にて検索された該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、
該信号処理種別情報出力部から出力された該信号処理種別情報に基づいて該入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴とする、音響信号処理装置。

（付記２）該検索部が、
該自己組織化マップ保持部の該ＳＯＭ情報データに保持された該２次元平面における複数の座標のうちの該特徴量出力部からの該第１の特徴量データの近傍に位置する近傍座標に対応する該グループ識別情報を出力するように構成されたことを特徴とする、付記１記載の音響信号処理装置。

（付記３）該検索部が、
該第１の特徴量データと該第２の特徴量データとに基づいて、該入力音響信号について、音声又は非音声と残響の有無とを識別するように構成されたことを特徴とする、付記１又は付記２記載の音響信号処理装置。
（付記４）該自己組織化マップ保持部が、
該複数のグループのうちの各座標が属するグループと、各座標間にて相異なる固有の第２の特徴量データとを対応付けて保持するように構成されたことを特徴とする、付記１〜付記３のいずれか一に記載の音響信号処理装置。

（付記５）該自己組織化マップ保持部が、
メモリ空間のアドレスと、該アドレスに割り当てられた第２の特徴量データと、複数の学習音響信号が該メモリ空間においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたＳＯＭ情報データを保持するように構成されたことを特徴とする、付記１〜付記４のいずれか一に記載音響信号処理装置。

（付記６）入力音響信号の特徴量を表す第１の特徴量データを出力する特徴量出力部と、
多次元空間における座標と、該座標に割り当てられた第２の特徴量データと、複数の学習音響信号が該多次元空間においてグループ化された複数のグループを識別するグループ識別情報とを対応付けたＳＯＭ情報データを保持する自己組織化マップ保持部と、
該特徴量出力部から出力された該第１の特徴量データと、該自己組織化マップ保持部に保持された該ＳＯＭ情報データとに基づいて、該第１の特徴量データに対応する該グループ識別情報を検索する検索部と、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索部にて検索された該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、
該信号処理種別情報出力部から出力された該信号処理種別情報に基づいて該入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴とする、音響信号処理装置。

（付記７）該信号処理種別情報出力部が、
音響信号の処理種別を表す複数の信号処理モードのうちの該検索部にて検索された該グループ識別情報に対応する信号処理モードを決定する決定部として構成されたことを特徴とする、付記１〜付記６のいずれか一に記載の音響信号処理装置。
（付記８）該信号処理種別情報出力部が、
音響信号の処理に必要な設定値に関するパラメータを、該検索部にて検索された該グループ識別情報に基づいて調整して出力するパラメータ調整部として構成されたことを特徴とする、付記１〜付記７のいずれか一に記載の音響信号処理装置。

（付記９）該信号処理種別情報出力部が、
グループ識別情報と信号処理種別情報とを対応付けたテーブルを用いて取得した該信号処理種別情報を出力するように構成されたことを特徴とする、付記１〜付記８のいずれか一に記載の音響信号処理装置。
（付記１０）学習音響信号の特徴量を表す第１の特徴量データを出力する特徴量出力部と、
該特徴量出力部からの該第１の特徴量データに基づいて該学習音響信号を２次元平面においてグループ化する学習部と、
該２次元平面の座標と、該座標に割り当てられた第２の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたＳＯＭ情報データを保持する自己組織化マップ保持部とをそなえて構成されたことを特徴とする、音響信号処理装置。

（付記１１）学習音響信号をサンプリングして得た学習音響信号波形を特徴解析して該学習音響信号の特徴量データを出力する特徴量出力部と、
該特徴量出力部からの該特徴量データに基づいて該学習音響信号を２次元平面にマッピングしてグループ化する学習部と、
該２次元平面の座標と、各座標に固有に割り当てられた第２の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたＳＯＭ情報データを保持する自己組織化マップ保持部とをそなえて構成されたことを特徴とする、音響信号処理装置。

（付記１２）該特徴量出力部が、
音声符号化処理により得られた音声符号化パラメータを入力され該音声符号化パラメータを該第１の特徴量データとして該自己組織化マップ保持部に入力する符号化処理部として構成されたことを特徴とする、付記１〜付記１１のいずれか一に記載の音響信号処理装置。

（付記１３）該特徴量出力部が、音響信号の符号化に関する符号化パラメータであって音響信号処理装置自身又は送信側装置において生成された符号化パラメータを、該第１の特徴量データとして該自己組織化マップ保持部に入力するとともに、
該信号処理種別情報出力部が、該グループ識別情報に基づいて、該信号処理種別情報と該符号化パラメータとのうちの少なくとも一方を出力し、
該信号処理部が、該信号処理種別情報出力部から出力された該信号処理種別情報と該符号化パラメータとの各設定値に応じて異なる信号処理を実行するように構成されたことを特徴とする、付記１〜付記１１のいずれか一に記載の音響信号処理装置。

（付記１４）入力操作に応じて該自己組織化マップ保持部に保持されたＳＯＭ情報データを修正する分類属性情報修正部がさらに設けられたことを特徴とする、付記１〜付記１３のいずれか一に記載の音響信号処理装置。
（付記１５）該分類属性情報修正部が、
該第１の特徴量データ，該入力操作時における信号処理種別情報又は各グループに対応付けたパラメータを、該自己組織化マップ保持部に保持するように構成されたことを特徴とする、付記１４記載の音響信号処理装置。

（付記１６）該分類属性情報修正部が、
入力の停止の検知により修正を開始するように構成されたことを特徴とする、付記１５記載の音響信号処理装置。
（付記１７）学習音響信号の特徴量を表す第１の特徴量データに基づいて該学習音響信号について、２次元平面の座標と、該座標に割り当てられた第２の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたＳＯＭ情報データを生成する学習ステップと、
該学習ステップにおける該第１の特徴量データについて、該学習ステップにて生成された該ＳＯＭ情報データに保持された該２次元平面における複数の座標のうちの該特徴量出力部からの該第１の特徴量データの近傍に位置する近傍座標を検索する検索ステップと、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索ステップにて検索された該近傍座標の該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力ステップと、
該信号処理種別情報出力ステップにて出力された該信号処理種別情報に基づいて該音響信号処理を行なう音響信号処理ステップとをそなえたことを特徴とする、音響信号処理方法。

（付記１８）該学習ステップが、該複数のグループのそれぞれに対応する複数のパラメータを取得し、
該音響信号処理ステップが、該検索ステップにて検索された該近傍座標に割り当てられたグループ識別情報に基づいて該学習ステップにて取得された１又は複数のパラメータを変更する変更ステップと、
該変更ステップにて変更された上記の１又は複数のパラメータを用いて該音響信号処理を行なうことを特徴とする、付記１７記載の音響信号処理方法。

本発明の音響信号処理装置および音響信号処理方法によれば、様々な音環境下において、適切な音声処理が可能となる。従って、音声又は非音声の種別によらない明瞭な音声等が得られ、また、周囲の雑音，騒音又は残響等のレベルに応じて音声等が聞き取りやすくなる。例えば補聴器が再生する音声が明瞭となり、ユーザは、各種の音響信号について、一層、聞き取りやすくなり、聴覚の補助が効果的に行なえる。また、ラジオ又はテレビの音声処理にも用いることができ、ユーザは、クリアな音声および非音声を聞くことができる。

さらに、環境音の質およびレベルにかかわらず、ユーザは、各環境における音響の変化に対応してクリアな音声を聞くことができる。例えば、ユーザは、不快な異常音等を除去した音響を聞くことができる。
加えて、本発明の音響信号処理装置および音響信号処理方法によれば、例えば携帯電話等に設けることもでき、各種の電話機，端末機器又は装置について汎用的に用いることができる。

本発明の第１実施形態に係る音響信号処理装置のブロック図である。本発明の第１実施形態に係る学習フェーズ処理部のブロック図である。本発明の第１実施形態に係る信号処理実行フェーズの処理部を説明するための図である。（ａ）は本発明の第１実施形態に係るＳＯＭネットワークの一例を示す図であり、（ｂ）は本発明の第１実施形態に係るＳＯＭ情報格納メモリにおける２次元平面のグループ分けの一例を示す図である。（ａ）は本発明の第１実施形態に係るＳＯＭ情報格納メモリのメモリ領域の一例を示す図であり、（ｂ）は本発明の第１実施形態に係るＳＯＭ座標を説明するための図である。本発明の第１実施形態に係る特徴量ベクトルの保持領域を説明するための示す図である。本発明の第１実施形態に係る近傍座標の検索を説明するための図である。本発明の第１実施形態に係る学習フェーズの処理を説明するためのフローチャートである。本発明の第１実施形態に係る音響信号処理方法を説明するためのフローチャートである。本発明の第１実施形態の第１変形例に係る信号処理実行フェーズ処理部のブロック図である。本発明の第１実施形態の第２変形例に係る信号処理実行フェーズ処理部のブロック図である。本発明の第１実施形態の第３変形例に係る学習フェーズ処理部のブロック図である。本発明の第１実施形態の第３変形例に係る信号処理実行フェーズ処理部のブロック図である。本発明の第２実施形態に係る学習フェーズ処理部のブロック図である。本発明の第２実施形態に係る信号処理実行フェーズ処理部のブロック図である。

符号の説明

２０音響信号処理装置
２１特徴解析部（特徴量出力部）
２１ａ音声符号化処理部（音声符号化処理部）
２２ＳＯＭ座標検索部
２３ＳＯＭ情報格納メモリ（自己組織化マップ保持部）
２４信号処理種別情報出力部（決定部，分類決定部）
２５，２５ａ音響信号処理部
２６ＳＯＭ学習部（自己組織化学習部）
２７，２７ａ，４０学習フェーズ処理部
２８，２８ａ，２８ｂ，２８ｃ，４３信号処理実行フェーズ処理部
２９分類情報修正部
３０パラメータ調整部
３０ａ分類決定／パラメータ調整部
３１メモリ
３２モード／パラメータ強制変更部
３５復号化処理部
４０ａアンテナ
４０ｂＲＦ受信部
４０ｃベースバンド信号処理部
５０音声入力部
５１アンプ
５２イヤホン
５２ａスピーカ

Claims

入力音響信号の特徴量を表す第１の特徴量データを出力する特徴量出力部と、
２次元平面の座標と、該座標に割り当てられた第２の特徴量データと、複数の学習音響信号が該２次元平面においてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けた自己組織化マップ（Self-Organizing Map：ＳＯＭ）情報データ（以下、ＳＯＭ情報データと称する。）を保持する自己組織化マップ保持部と、
該特徴量出力部からの該第１の特徴量データと、該自己組織化マップ保持部に保持された該ＳＯＭ情報データとに基づいて、該第１の特徴量データに対応する該グループ識別情報を検索する検索部と、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索部にて検索された該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、
該信号処理種別情報出力部から出力された該信号処理種別情報に基づいて該入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴とする、音響信号処理装置。
入力音響信号の特徴量を表す第１の特徴量データを出力する特徴量出力部と、
多次元空間における座標と、該座標に割り当てられた第２の特徴量データと、複数の学習音響信号が該多次元空間においてグループ化された複数のグループを識別するグループ識別情報とを対応付けたＳＯＭ情報データを保持する自己組織化マップ保持部と、
該特徴量出力部から出力された該第１の特徴量データと、該自己組織化マップ保持部に保持された該ＳＯＭ情報データとに基づいて、該第１の特徴量データに対応する該グループ識別情報を検索する検索部と、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索部にて検索された該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力部と、
該信号処理種別情報出力部から出力された該信号処理種別情報に基づいて該入力音響信号を処理する信号処理部とをそなえて構成されたことを特徴とする、音響信号処理装置。
該信号処理種別情報出力部が、
音響信号の処理に必要な設定値に関するパラメータを、該検索部にて検索された該グループ識別情報に基づいて調整して出力するパラメータ調整部として構成されたことを特徴とする、請求項１又は請求項２記載の音響信号処理装置。
学習音響信号の特徴量を表す第１の特徴量データを出力する特徴量出力部と、
該特徴量出力部からの該第１の特徴量データに基づいて該学習音響信号を２次元平面においてグループ化する学習部と、
該２次元平面の座標と、該座標に割り当てられた第２の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたＳＯＭ情報データを保持する自己組織化マップ保持部とをそなえて構成されたことを特徴とする、音響信号処理装置。
学習音響信号の特徴量を表す第１の特徴量データに基づいて該学習音響信号について、２次元平面の座標と、該座標に割り当てられた第２の特徴量データと、該学習部にてグループ化された複数のグループを識別するグループ識別情報とのそれぞれを対応付けたＳＯＭ情報データを生成する学習ステップと、
該学習ステップにおける該第１の特徴量データについて、該学習ステップにて生成された該ＳＯＭ情報データに保持された該２次元平面における複数の座標のうちの該特徴量出力部からの該第１の特徴量データの近傍に位置する近傍座標を検索する検索ステップと、
音響信号の処理種別を表す複数の信号処理種別情報のうちの該検索ステップにて検索された該近傍座標の該グループ識別情報に対応する信号処理種別情報を出力する信号処理種別情報出力ステップと、
該信号処理種別情報出力ステップにて出力された該信号処理種別情報に基づいて該音響信号処理を行なう音響信号処理ステップとをそなえたことを特徴とする、音響信号処理方法。