JP6677136B2

JP6677136B2 - 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置

Info

Publication number: JP6677136B2
Application number: JP2016181930A
Authority: JP
Inventors: 智佳子松本; 松尾　直司; 直司松尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-09-16
Filing date: 2016-09-16
Publication date: 2020-04-08
Anticipated expiration: 2036-09-16
Also published as: EP3296988A1; JP2018045195A; EP3296988B1; US10497380B2; US20180082701A1

Description

本発明は、音声信号処理プログラム、音声信号処理方法及び音声信号処理装置に関する。

例えば、自動車の各種装置を運転者の音声で操作する場合、目的音である運転者の音声が、非目的音である車両内に流れるラジオの音声などと適切に区別されないと、各種装置を意図通りに操作することは困難である。このように、目的音と共に非目的音が存在し得る環境下において、目的音を取り出すために、複数のマイクロフォンで受け付けた音声信号の間の位相差を利用する技術が存在する。当該技術では、複数のマイクロフォンで受け付けた音声の間の位相差を算出し、算出した位相差に基づいて、目的音の存在位置が存在する確率を示す確率値を特定し、特定した確率値を使用して、非目的音を抑制する。

特開２００７−３１８５２８号公報

しかしながら、自動車の車室などの狭所では、音声が反射し、この反射の影響で、位相差に基づいて、目的音と非目的音とを区別することが困難となる。

本発明は、１つの側面として、目的音と非目的音とが混在し得る環境下において、目的音を適切に判定することを目的とする。

１つの実施形態では、第１音声入力部から入力された第１音声に対応する第１音声信号を第１周波数信号に時間周波数変換すると共に、第２音声入力部から入力された第２音声に対応する第２音声信号を第２周波数信号に時間周波数変換する。第１周波数信号と第２周波数信号との所定周波数毎の位相差、及び、目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、目的音が存在する度合いを表す存在係数、及び、目的音以外の非目的音が存在する度合いを表す非存在係数を設定する。目的音は、検出対象となる音声である。前記第１音声または前記第２音声が目的音である確からしさを示す第１尤度、及び前記第１音声または前記第２音声が非目的音である確からしさを示す第２尤度に基づいて、第１音声及び第２音声に目的音が含まれているか否かを判定する。第１尤度は、存在係数に基づいた存在値、並びに第１周波数信号及び第２周波数信号の何れか一方に応じた代表値に基づいて定められ、第２尤度は、非存在係数に基づいた非存在値、並びに代表値に基づいて定められる。

本発明は、１つの側面として、目的音と非目的音とが混在し得る環境下において、目的音を適切に判定することを可能とする。

第１及び第２実施形態に係る音声信号処理装置の要部機能の一例を示すブロック図である。第１及び第２実施形態に係る音声信号処理装置のハードウェアの構成の一例を示すブロック図である。第１及び第２実施形態に係る音声信号処理の概要を説明するための概念図である。目的音存在領域を例示する概念図である。存在係数の設定を例示する概念図である。第１実施形態に係る音声信号処理の流れの一例を示すフローチャートである。目的音存在領域を例示する概念図である。存在係数の設定を例示する概念図である。第２実施形態に係る音声信号処理の流れの一例を示すフローチャートである。第２実施形態に係る非目的音抑制処理の流れの一例を示すフローチャートである。抑制係数を設定する処理を説明するための例示的な概念図である。抑制係数を設定する処理を説明するための例示的な概念図である。抑制係数を設定する処理を説明するための例示的な概念図である。第３実施形態に係る音声信号処理装置の要部機能の一例を示すブロック図である。第３実施形態に係る音声信号処理装置のハードウェアの構成の一例を示すブロック図である。第３実施形態に係る音声信号処理の概要を説明するための概念図である。第３実施形態に係る音声信号処理の流れの一例を示すフローチャートである。本実施形態の検証を行う条件を例示する概念図である。本実施形態の検証結果を例示する表である。本実施形態の検証結果を例示する表である。

以下、図面を参照して第１実施形態の一例を詳細に説明する。

図１に示す音声信号処理装置１０は、音声入力部２１Ａ及び２１Ｂ、変換部２２、設定部２４、判定部２５、抑制部２６、及び認識部２７を含む。第１音声入力部の一例である音声入力部２１Ａ及び第２音声入力部の一例である音声入力部２１Ｂは、音声信号の入力を各々受け付ける。以下、音声入力部が２個である場合について説明するが、本実施形態はこれに限定されず、音声入力部が３個以上含まれていてもよい。

変換部２２は、音声信号の各々を時間領域表現から周波数領域表現に時間周波数変換する。例えば、フーリエ変換を使用して、時間に応じてレベルが変化する音声信号を周波数に応じてレベルが変化する周波数信号に変換する。設定部２４は、所定周波数毎に、検出対象となる目的音が存在する度合いを表す存在係数、及び、目的音以外の非目的音が存在する度合いを表す非存在係数を設定する。存在係数及び非存在係数は、音声入力部２１Ａ及び２１Ｂの各々で受け付けられた音声信号に対応する周波数信号の間の所定周波数毎の位相差、及び目的音の存在位置を示す目的音存在領域に基づいて、設定される。

判定部２５は、音声が目的音である確からしさを示す第１尤度、及び、音声が非目的音である確からしさを示す第２尤度に基づいて、音声入力部２１Ａ及び２１Ｂの各々で受け付けた音声信号に目的音が含まれているか否かを判定する。第１尤度は、存在係数に基づいた存在値、並びに、周波数信号の少なくとも一方に応じた代表値に基づいて定められ、第２尤度は、非存在係数に基づいた非存在値、並びに代表値に基づいて定められる。

抑制部２６は、抑制係数を、音声入力部２１Ａ及び２１Ｂの各々で受け付けた音声信号の少なくとも一方に適用することで、非目的音を抑制する。第１尤度が第２尤度以上である場合、音声は目的音であると判定され、抑制係数は音声信号を抑制しない係数に設定される。第１尤度が第２尤度よりも小さい場合、音声は非目的音であると判定され、抑制係数は、音声信号を抑制するように設定される。認識部２７は、抑制係数を適用した音声信号に既存の音声認識技術を適用することで、音声入力部２１Ａ及び２１Ｂの各々で受け付けた音声の少なくとも一方に含まれる、例えば、単語などの音声情報を認識する。

音声信号処理装置１０は、一例として、図２に示すように、ＣＰＵ（Central Processing Unit）３１、一次記憶部３２、二次記憶部３３、外部インターフェイス３４、及び、２個のマイクロフォン３５Ａ及び３５Ｂを含む。ＣＰＵ３１は、ハードウェアであるプロセッサの一例である。ＣＰＵ３１、一次記憶部３２、二次記憶部３３、外部インターフェイス３４、及び、マイクロフォン３５Ａ及び３５Ｂは、バス３９を介して相互に接続されている。

一次記憶部３２は、例えば、ＲＡＭ（Random Access Memory）などの揮発性のメモリである。二次記憶部３３は、例えば、ＨＤＤ（Hard Disk Drive）、又はＳＳＤ（Solid State Drive）などの不揮発性のメモリである。

二次記憶部３３は、プログラム格納領域３３Ａ及びデータ格納領域３３Ｂを含む。プログラム格納領域３３Ａは、一例として、音声信号処理プログラムなどのプログラムを記憶している。データ格納領域３３Ｂは、一例として、音声信号および音声信号処理プログラムを実行している間に生成される中間データなどを記憶する。

ＣＰＵ３１は、プログラム格納領域３３Ａから音声信号処理プログラムを読み出して一次記憶部３２に展開する。ＣＰＵ３１は、音声信号処理プログラムを実行することで、図１の変換部２２、設定部２４、判定部２５、抑制部２６、及び認識部２７として動作する。

なお、音声信号処理プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶部３２に展開されてもよい。また、音声信号処理プログラムなどのプログラムは、ＤＶＤ（Digital Versatile Disc）などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部３２に展開されてもよい。

マイクロフォン３５Ａ及び３５Ｂは、音声入力部２１Ａ及び２１Ｂの一例であり、目的音の一例であるユーザが発話した音声、及び、非目的音の一例であるラジオなどから出力される音声を収音し、音声信号に変換する。マイクロフォン３５Ａとマイクロフォン３５Ｂとの間の距離は、マイクロフォン３５Ａ及び３５Ｂで各々収音される音声が著しくは変わらない距離である。また、マイクロフォン３５Ａと音声の発生位置との間の距離と、マイクロフォン３５Ｂと音声の発生位置との間の距離と、が異なる場合、マイクロフォン３５Ａで収音された音声とマイクロフォン３５Ｂで取得された音声との間に位相差が生じる距離である。位相差が生じるとは、位相差が０ではないということであり、音声の発生位置は、目的音または非目的音の存在位置であってよい。

外部インターフェイス３４には外部装置が接続され、外部インターフェイス３４は、外部装置とＣＰＵ３１との間の各種情報の送受信を司る。マイクロフォン３５Ａ及び３５Ｂが音声信号処理装置１０に含まれている例について説明したが、マイクロフォン３５Ａ及び３５Ｂは、外部インターフェイス３４を介して接続される外部装置であってもよい。

なお、音声信号処理装置１０は、音声信号処理のための専用装置であってよいが、本実施形態は、これに限定されない。例えば、音声信号処理装置１０は、パーソナルコンピュータ、スマートフォンなどの汎用装置であってよい。また、音声信号処理装置１０の一部または全部は、マイクロフォン３５Ａ及び３５Ｂなどと物理的に離隔して、例えば、ネットワークを介して配置されたコンピュータであってよい。

ネットワークを介して配置されたコンピュータを音声信号処理装置１０とする場合、コンピュータに音声信号処理プログラムを格納する。マイクロフォン３５Ａ及び３５Ｂの各々で音声信号を取得し、ネットワークを介して、取得した音声信号の各々をコンピュータに送信する。コンピュータは、ネットワークを介して受信した音声信号の各々を使用して音声信号処理を行う。

次に、音声信号処理の作用の概要について説明する。図３に例示するように、マイクロフォン３５Ａ及び３５Ｂは、各々、周囲の音声を収音し、音声信号ＩＮＴＡ及びＩＮＴＢに変換する。ＣＰＵ３１は、時間周波数変換部４１で、音声信号の各々を時間領域表現から周波数領域に時間周波数変換する。例えば、フーリエ変換を使用して、時間に応じてレベルが変化する音声信号を周波数に応じてレベルが変換する周波数信号ＩＮＦＡ及びＩＮＦＢに変換する。

ＣＰＵ３１は、位相差算出部４２で、所定周波数毎に、周波数信号ＩＮＦＡの位相成分とＩＮＦＢの位相成分との差である位相差ＤＰ（ｆ）を算出する。ｆは、周波数を表す。ＣＰＵ３１は、存在係数算出部４３で、所定周波数毎に、周波数信号ＩＮＦＡ及びＩＮＦＢに目的音が存在する度合いを表す存在係数Ｓｃｏ（ｆ）及び非目的音が存在する度合いを表す非存在係数Ｎｃｏ（ｆ）を算出する。なお、所定周波数は、フーリエ変換によって変換された周波数信号ＩＮＦＡ及びＩＮＦＢの周波数分解能に基づいて定められてもよい。

以下、存在係数Ｓｃｏ（ｆ）及び非存在係数Ｎｃｏ（ｆ）の算出について説明する。図４Ａに、周波数と、目的音を含む２つの周波数信号の間の位相差とで定まる目的音存在領域５１を例示する。図４Ａでは、縦軸が位相差ＤＰを表し、横軸が周波数ｆを表す。目的音存在領域５１は、目的音の存在位置及びマイクロフォン３５Ａ及びマイクロフォン３５Ｂの位置から定められる。しかし、マイクロフォン３５Ａ及びマイクロフォン３５Ｂで収音される音声には、目的音だけでなく、非目的音が混在し得る。したがって、目的音存在領域５１は、図４Ａに例示するように、位相差を表す縦軸方向に幅を有している。また、図４Ａの例では、目的音の存在位置とマイクロフォン３５Ａとの距離と、目的音の存在位置とマイクロフォン３５Ｂとの距離と、が異なり、目的音存在領域５１は、位相差が０であることを表す横軸の上方に存在している。また、目的音の存在位置とマイクロフォン３５Ａ及び３５Ｂを含むマイクロフォンアレーとを結ぶ第１線と、非目的音の存在位置とマイクロフォンアレーとを結ぶ第２線と、は交差する。第１線と第２線とが交差する角度は、例えば、３０度または３０度より大きい角度であってよい。

図４Ｂは、図４Ａの周波数Ｆにおける存在係数の設定を例示する。即ち、周波数信号ＩＮＦＡ及びＩＮＦＢに基づいて算出された位相差ＤＰ（Ｆ）が、周波数Ｆにおける第１範囲の一例である位相差幅５２内に存在する場合、下記（１）式に例示するように、存在係数Ｓｃｏ（Ｆ）は１．０に設定される。また、位相差ＤＰ（Ｆ）が第２範囲の一例である位相差幅５２の外側に存在する場合、（２）式に例示するように、存在係数Ｓｃｏ（Ｆ）は０．０に設定される。
Ｓｃｏ（Ｆ）＝１．０（位相差幅５２内） …（１）
Ｓｃｏ（Ｆ）＝０．０（位相差幅５２の外側） …（２）
即ち、周波数信号ＩＮＦＡ及びＩＮＦＢに基づいて算出された位相差ＤＰ（Ｆ）が、目的音の存在位置を示す目的音存在領域５１内に存在する場合、存在係数Ｓｃｏ（Ｆ）は１．０に設定される。また、位相差ＤＰ（Ｆ）が目的音存在領域５１の外側に存在する場合、存在係数Ｓｃｏ（Ｆ）は０．０に設定される。

周波数Ｆにおける非存在係数Ｎｃｏ（Ｆ）は、（３）式に例示するように、１．０から存在係数Ｓｃｏ（Ｆ）の値を減算することで算出される。
Ｎｃｏ（Ｆ）＝１．０−Ｓｃｏ（Ｆ） …（３）

ＣＰＵ３１は、尤度算出部４４で、マイクロフォン３５Ａまたは３５Ｂで収音された音声が目的音である確からしさを示す第１尤度Ｓｌｉ、及び、音声が非目的音である確からしさを示す第２尤度Ｎｌｉを算出する。第１尤度Ｓｌｉは、存在係数Ｓｃｏ（ｆ）に基づいた存在値、並びに周波数信号ＩＮＦＡ及びＩＮＦＢの一方に応じた代表値に基づいて定められる。また、第２尤度Ｎｌｉは、非存在係数Ｎｃｏ（ｆ）に基づいた非存在値、並びに、第１尤度Ｓｌｉを算出する場合と同じ代表値に基づいて定められる。ここでは、第１尤度Ｓｌｉ及び第２尤度Ｎｌｉが、周波数信号ＩＮＦＡに応じた代表値に基づいて定められる場合、即ち、マイクロフォン３５Ａで収音された音声の第１尤度Ｓｌｉ及び第２尤度Ｎｌｉを算出する例について説明する。

存在値が存在係数Ｓｃｏ（ｆ）であり、代表値が周波数信号ＩＮＦＡの振幅スペクトルＡｍｐ（ｆ）の二乗であるパワースペクトルＰｏ（ｆ）である場合、第１尤度Ｓｌｉは、（４）式に例示するように、算出される。即ち、第１尤度Ｓｌｉは、下限周波数ｆＬから上限周波数ｆＨまでの存在係数Ｓｃｏ（ｆ）とパワースペクトルＰｏ（ｆ）との積の二乗和である。ｆＬは、例えば、０．３ｋＨｚ、ｆＨは、例えば、３．４ｋＨｚであってよい。

存在値が存在係数Ｓｃｏ（ｆ）である場合、非存在値は非存在係数Ｎｃｏ（ｆ）であり、第２尤度Ｎｌｉは、（５）式に例示するように、算出される。代表値は、第１尤度Ｓｌｉを算出する場合と同様、周波数信号ＩＮＦＡのパワースペクトルＰｏ（ｆ）である。即ち、第２尤度Ｎｌｉは、下限周波数ｆＬから上限周波数ｆＨまでの非存在係数Ｎｃｏ（ｆ）とパワースペクトルＰｏ（ｆ）との積の二乗和である。

ＣＰＵ３１は、非目的音抑制部４５で、非目的音を抑制する。ＣＰＵ３１は、第１尤度Ｓｌｉが第２尤度Ｎｌｉ以上である場合、音声が目的音であると判定し、抑制係数ＳＮｃｏに音声信号ＩＮＴＡを抑制しない値を設定する。一方、第１尤度Ｓｌｉが第２尤度Ｎｌｉよりも小さい場合、音声が非目的音であると判定し、抑制係数ＳＮｃｏに音声信号ＩＮＴＡを抑制する値を設定する。音声信号を抑制しない値は、（６）式に例示するように、１．０であってよく、音声信号を抑制する値は、（７）式に例示するように、０．１であってよい。
ＳＮｃｏ＝１．０（Ｓｌｉ≧Ｎｌｉ） …（６）
ＳＮｃｏ＝０．１（Ｓｌｉ＜Ｎｌｉ） …（７）
なお、音声信号を抑制する値として０．１を例示したが、本実施形態はこれに限定されない。音声信号を抑制する値は、例えば、０．２であってもよい。また、第２尤度Ｎｌｉに対する第１尤度Ｓｌｉの比が所定の値以上である場合に、ＳＮｃｏに音声信号を抑制しない値を設定してもよい。この場合、第２尤度Ｎｌｉに対する第１尤度Ｓｌｉの比が所定の値より小さい場合に、ＳＮｃｏに音声信号を抑制する値を設定する。

ＣＰＵ３１は、音声信号ＩＮＴＡに抑制係数ＳＮｃｏを適用することで、音声信号ＩＮＴＡが目的音であれば抑制せず、非目的音であれば抑制する。抑制係数ＳＮｃｏは、例えば、音声信号ＩＮＴＡのパワーに乗算されてもよい。ＣＰＵ３１は、音声認識部４６で、抑制係数ＳＮｃｏを適用された音声信号ＩＮＴＡに既存の音声認識技術を適用することで、音声信号ＩＮＴＡに対応する音声に含まれる情報を認識する。

次に、図５に例示する音声信号処理装置１０の作用の流れについて説明する。例えば、ユーザが音声信号処理装置１０の処理開始ボタンを押下すると、ＣＰＵ３１は、音声信号処理を開始する。ＣＰＵ３１は、ステップ１０１で、マイクロフォン３５Ａで収音された音声に対応する音声信号ＩＮＴＡ及びマイクロフォン３５Ｂで収音された音声に対応する音声信号ＩＮＴＢを読み込む。音声信号ＩＮＴＡ及び音声信号ＩＮＴＢは、１フレームずつ読み込まれる。１フレームは、例えば、２０ｍ秒分の音声信号であってよい。

ＣＰＵ３１は、ステップ１０２で、時間領域表現の音声信号ＩＮＴＡ及びＩＮＴＢを周波数領域表現の周波数信号ＩＮＦＡ及びＩＮＦＢに時間周波数変換する。ＣＰＵ３１は、ステップ１０３で、周波数毎に、周波数信号ＩＮＦＡ及びＩＮＦＢの各々の位相成分から、周波数信号ＩＮＦＡ及びＩＮＦＢの間の位相差ＤＰ（ｆ）を算出する。ＣＰＵ３１は、ステップ１０４で、周波数毎に、目的音が存在する度合いを表す存在係数Ｓｃｏ（ｆ）及び非目的音が存在する度合いを表す非存在係数Ｎｃｏ（ｆ）を、上記した目的音存在領域５１及び位相差ＤＰ（ｆ）に基づいて、算出する。

ＣＰＵ３１は、ステップ１０５で、音声が目的音である確からしさを示す第１尤度Ｓｌｉ、及び、音声が非目的音である確からしさを示す第２尤度Ｎｌｉを算出する。ＣＰＵ３１は、ステップ１０６で、非目的音を抑制する。ＣＰＵ３１は、第１尤度が第２尤度以上である場合、音声が目的音であると判定し、抑制係数ＳＮｃｏに音声信号を抑制しない値を設定する。一方、第１尤度が第２尤度よりも小さい場合、音声が非目的音であると判定し、抑制係数ＳＮｃｏに音声信号を抑制する値を設定する。

ＣＰＵ３１は、音声信号ＩＮＴＡに抑制係数ＳＮｃｏを適用することで、音声信号ＩＮＴＡが目的音であれば抑制せず、音声信号ＩＮＴＡが非目的音であれば抑制する。なお、抑制係数ＳＮｃｏを周波数信号ＩＮＦＡに適用し、その後、周波数信号ＩＮＦＡを音声信号に変換してもよい。ＣＰＵ３１は、ステップ１０７で、抑制係数ＳＮｃｏを適用された音声信号ＩＮＴＡに既存の音声認識技術を適用することで、音声信号ＩＮＴＡに対応する音声に含まれる、例えば、単語などの、音声情報を認識する。ここでは、音声認識を１フレームの音声信号毎に行う例について説明したが、本実施形態は、これに限定されない。例えば、複数フレームの音声信号に対して適用される既存の音声認識技術を使用してもよい。

ＣＰＵ３１は、ステップ１０８で、例えば、音声信号処理装置１０の処理停止ボタンが押下されたか否か判定することで、音声信号処理が終了したか否か判定する。ステップ１０８の判定が否定された場合、ＣＰＵ３１は、ステップ１０１に戻り、ステップ１０８の判定が肯定された場合、ＣＰＵ３１は、音声信号処理を終了する。

本実施形態では、ステップ１０４以降で、音声信号ＩＮＴＡを使用する例について説明したが、本実施形態はこれに限定されない。ステップ１０４以降で、音声信号ＩＮＴＡに代えて、音声信号ＩＮＴＢを使用してもよいし、音声信号ＩＮＴＡ及びＩＮＴＢの双方を使用してもよい。なお、通常、２つのマイクロフォン３５Ａ及び３５Ｂは、音声が目的音に対応する場合、双方とも目的音を検出し、音声が非目的音に対応する場合、双方とも非目的音を検出する。したがって、ステップ１０４以降では、音声信号ＩＮＴＡまたは音声信号ＩＮＴＢの何れか一方を使用すればよい。

本実施形態では、図４Ｂに例示するように、存在係数を設定する例について説明したが、本実施形態は、これに限定されない。図６Ｂに例示するように、存在係数を設定してもよい。即ち、図６Ａに例示するように、位相差を表す縦軸に沿って、目的音の目的音存在領域５１の上下に移行領域５４−１及び５４−２を設けてもよい。

図６Ｂは、図６Ａの周波数Ｆにおける存在係数の設定を例示する。即ち、周波数信号ＩＮＦＡ及び周波数信号ＩＮＦＢに基づいて算出された位相差ＤＰ（Ｆ）が、周波数Ｆにおける第１範囲の一例である位相差幅５２内に存在する場合、（１）式に例示するように、存在係数Ｓｃｏ（Ｆ）は１．０に設定される。また、位相差ＤＰ（Ｆ）が第２範囲の一例である、位相差幅５２及び位相差幅５３−１及び５３−２の外側に存在する場合、式（２）に例示するように、存在係数Ｓｃｏ（Ｆ）は０．０に設定される。位相差幅５３−１及び５３−２は、第３範囲の一例である。

また、位相差幅５３−１または５３−２内に位相差ＤＰ（Ｆ）が存在する場合、図６Ｂに例示するように、存在係数Ｓｃｏ（Ｆ）は、位相差幅５２に近付くにしたがって、１．０に近付き、位相差幅５２から遠ざかるにしたがって、０．０に近付く。なお、図６Ｂは一例であり、位相差幅５３−１及び５３−２において、存在係数Ｓｃｏ（Ｆ）は線形的に増減していなくてもよい。

即ち、本実施形態では、第１範囲と第２範囲との間に第３範囲を設け、第３範囲内では、第１範囲に近付くにしたがって、最大値に近付き、第１範囲から遠ざかるにしたがって、最小値に近付くように、存在係数を設定してもよい。

なお、本実施形態では、第１尤度を算出する際に（４）式を使用し、第２尤度を算出する際に（５）式を使用する例について説明したが、本実施形態は、これに限定されない。例えば、（８）式及び（９）式に例示するように、代表値として周波数信号ＩＮＦＡの振幅スペクトルＡｍｐ（ｆ）を使用してもよい。

また、（１０）式に例示するように、存在値として存在係数Ｓｃｏ（ｆ）の二乗を使用し、周波数毎に、存在係数Ｓｃｏ（ｆ）の二乗と振幅スペクトルＡｍｐ（ｆ）とを乗算した値を加算した値を、第１尤度Ｓｌｉとして算出してもよい。この場合、（１１）式に例示するように、非存在値として非存在係数Ｎｃｏ（ｆ）の二乗を使用し、周波数毎に、非存在係数Ｎｃｏ（ｆ）の二乗と振幅スペクトルＡｍｐ（ｆ）とを乗算した値を加算した値を、第２尤度Ｎｌｉとして算出する。

また、（１２）式に例示するように、周波数毎に、存在係数Ｓｃｏ（ｆ）とパワースペクトルＰｏ（ｆ）とを乗算した値を二乗した値の内、最大値を第１尤度Ｓｌｉとして算出してもよい。この場合、（１３）式に例示するように、周波数毎に、非存在係数Ｎｃｏ（ｆ）とパワースペクトルＰｏ（ｆ）とを乗算した値を二乗した値の内、最大値を第２尤度Ｎｌｉとして算出する。即ち、存在値として存在係数、非存在値として非存在係数、代表値として周波数信号のパワースペクトルを使用してもよい。

また、（１４）式に例示するように、周波数毎に、存在係数Ｓｃｏ（ｆ）と振幅スペクトルＡｍｐ（ｆ）とを乗算した値を二乗した値の内、最大値を第１尤度Ｓｌｉとして算出してもよい。この場合、（１５）式に例示するように、周波数毎に、非存在係数Ｎｃｏ（ｆ）と振幅スペクトルＡｍｐ（ｆ）とを乗算した値を二乗した値の内、最大値を第２尤度Ｎｌｉとして算出する。即ち、存在値として存在係数、非存在値として非存在係数、代表値として周波数信号の振幅スペクトルを使用してもよい。

また、（１６）式に例示するように、周波数毎に、存在係数Ｓｃｏ（ｆ）の二乗と振幅スペクトルＡｍｐ（ｆ）とを乗算した値の内、最大値を第１尤度Ｓｌｉとして算出してもよい。この場合、（１７）式に例示するように、周波数毎に、非存在係数Ｎｃｏ（ｆ）の二乗と振幅スペクトルＡｍｐ（ｆ）とを乗算した値の内、最大値を第２尤度Ｎｌｉとして算出する。即ち、存在値として存在係数の二乗、非存在値として非存在係数の二乗、代表値として周波数信号の振幅スペクトルを使用してもよい。

即ち、本実施形態では、周波数信号の代表値は周波数信号のパワースペクトルまたは振幅スペクトルであり、存在値は存在係数で、かつ、非存在値は非存在係数であるか、あるいは、存在値は存在係数の二乗であり、かつ、非存在値は非存在係数の二乗であってよい。なお、（４）、（５）、（８）〜（１７）式は例示であり、本実施形態は、これらに限定されない。

本実施形態では、第１尤度は、所定周波数毎の存在値と代表値との積の和または積の二乗和の一方で、かつ、第２尤度は、所定周波数毎の非存在値と代表値との積の和または積の二乗和の上記一方である。または、第１尤度は、所定周波数毎の存在値と代表値との積の最大値または積の二乗の最大値の一方で、かつ、第２尤度は、所定周波数毎の非存在値と代表値との積の最大値または積の二乗の最大値の上記一方である。

なお、本実施形態では、抑制係数ＳＮｃｏを適用した音声信号ＩＮＴＡに対して音声認識を行う例について説明したが、本実施形態はこれに限定されない。例えば、独居高齢者の音声モニタに本実施形態を適用する場合などであれば、音声信号ＩＮＴＡに含まれる目的音の所定時間の音圧の合計が所定値を越えたか否か判定することで、目的音の存在の有無を確認するだけでよい場合もある。音声認識を行わないことで、モニタ対象のプライバシーを保護することも可能となる。また、本実施形態では、音声認識処理に代えて、音認識処理を行うことで、咳、ドアの開閉音、水道の流水音などを判定するようにしてもよい。したがって、本実施形態の音声信号処理は、音響信号処理を含む。

本実施形態では、第１音声入力部から入力された第１音声に対応する第１音声信号を第１周波数信号に時間周波数変換すると共に、第２音声入力部から入力された第２音声に対応する第２音声信号を第２周波数信号に時間周波数変換する。第１周波数信号と第２周波数信号との所定周波数毎の位相差、及び目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、目的音が存在する度合いを表す存在係数、及び、目的音以外の非目的音が存在する度合いを表す非存在係数を設定する。目的音は、検出対象となる音声である。第１音声または第２音声が目的音である確からしさを示す第１尤度、及び第１音声または第２音声が非目的音である確からしさを示す第２尤度に基づいて、第１音声及び第２音声に目的音が含まれているか否かを判定する。第１尤度は、存在係数に基づいた存在値、並びに第１周波数信号及び第２周波数信号の何れか一方に応じた代表値に基づいて定められ、第２尤度は、非存在係数に基づいた非存在値、並びに代表値に基づいて定められる。

これにより、本実施形態では、目的音と非目的音とが混在し、音声の反射が生じやすい環境下であっても、目的音を適切に判定することができる。即ち、自動車の車室または独居用個室などの狭所であって、音声が容易に反射することで、２つの音声入力部で取得される音声の間の位相差が不安定となる傾向がある環境下であっても、目的音を適切に判定することができる。

本実施形態では、第１尤度及び第２尤度に基づいて、第１音声及び第２音声に非目的音が含まれるか否かを判定する。

本実施形態では、所定周波数毎に、目的音存在領域に対応する第１範囲の位相差で最大値となり、第１範囲外の第２範囲の位相差で最小値となるように、存在係数を設定し、最大値から存在係数を減算した値を非存在係数として設定する。

本実施形態では、第１尤度が第２尤度以上である場合、音声信号を抑制しない抑制係数を設定し、第１尤度が第２尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を第１音声信号及び第２音声信号の少なくとも一方に適用する。

本実施形態では、抑制係数を適用された第１音声信号及び第２音声信号の少なくとも一方に対して音声認識を行う。

［第２実施形態］
次に、第２実施形態の一例を説明する。第１実施形態と同様の構成及び作用については、説明を省略する。第２実施形態では、非目的音抑制処理における抑制係数の設定の手法が、第１実施形態と異なる。

図７に、第２実施形態の音声信号処理の一例を示す。第１実施形態の音声信号処理の一例である図５のステップ１０６がステップ１１４と置き替えられている。なお、本実施形態では、抑制係数を設定するために、複数フレーム分の第１尤度Ｓｌｉ及び第２尤度Ｎｌｉを使用するため、ステップ１１１、ステップ１１２及びステップ１１３が追加されている。

ＣＰＵ３１は、ステップ１１１で、変数ｔに初期値１を設定する。変数ｔはフレーム数をカウントする変数である。ステップ１０１〜ステップ１０５については、上記したため、説明を省略する。ＣＰＵ３１は、ステップ１１２で、変数ｔに１を加算し、ステップ１１３で、変数ｔが所定のフレーム数Ｔを越えたか否か判定する。ステップ１１３の判定が否定された場合、ＣＰＵ３１は、ステップ１０１に戻り、ステップ１１３の判定が肯定された場合、ＣＰＵ３１は、ステップ１１４に進む。これにより、ＣＰＵ３１は、ステップ１１４に進む前に、所定のフレーム数Ｔ個分の第１尤度Ｓｌｉ及び第２尤度Ｎｌｉを算出する。所定のフレーム数Ｔは、例えば、５１２であってよい。各々のフレームに対応する第１尤度ＳｌｉをＳｌｉ（ｔ）、各々のフレームに対応する第２尤度ＮｌｉをＮｌｉ（ｔ）で表す。

ステップ１０７の音声認識処理についても、ステップ１１５、ステップ１１６及びステップ１１７を追加することで、所定のフレーム数Ｔ個分の音声信号ＩＮＴＡの音声認識処理を行う。ステップ１１５、ステップ１１６及びステップ１１７は、ステップ１１１、ステップ１１２、及びステップ１１３と同様であるため、説明を省略する。また、ステップ１０７及びステップ１０８については、上記したため、説明を省略する。

図７のステップ１１４に例示する本実施形態の非目的音抑制処理の詳細を、図８に例示する。ＣＰＵ３１は、ステップ２０１で、フレーム数をカウントする変数ｔに１を設定する。ＣＰＵ３１は、ステップ２０２で、第１尤度Ｓｌｉ（ｔ）が第２尤度Ｎｌｉ（ｔ）以上であるか否か判定する。ステップ２０２の判定が肯定された場合は、第１尤度Ｓｌｉ（ｔ）及び第２尤度Ｎｌｉ（ｔ）に対応する音声は目的音である可能性が高いため、ＣＰＵ３１は、ステップ２０３で、目的音である可能性を表す変数ＳＮＲに１．０を設定する。

一方、ステップ２０２の判定が否定された場合は、第１尤度Ｓｌｉ（ｔ）及び第２尤度Ｎｌｉ（ｔ）に対応する音声が目的音ではない可能性があるため、ＣＰＵ３１は、ステップ２０５で、変数ＳＮＲに（１８）式で例示する値を設定する。（１８）式では、第２尤度Ｎｌｉ（ｔ）に対する第１尤度Ｓｌｉ（ｔ）の比を変数ＳＮＲに設定する。
ＳＮＲ＝Ｓｌｉ（ｔ）／Ｎｌｉ（ｔ） …（１８）

図９Ａに、フレーム毎の変数ＳＮＲの値を点で示す図を例示する。図９Ａの縦軸は、変数ＳＮＲの値を表し、横軸は、フレーム数をカウントする変数ｔを表す。次に、ステップ２０４、及びステップ２０６〜ステップ２１０で、図９Ａの第１閾値Ｔｈ１と第２閾値Ｔｈ２との間の変数ＳＮＲの値を、図９Ｂに例示するように、拡散最小値Ｓｍｉｎと拡散最大値Ｓｍａｘとの間に拡散させる。第２閾値Ｔｈ２を越える変数ＳＮＲの値は変更せず、第１閾値Ｔｈ１未満の変数ＳＮＲの値は、拡散最小値Ｓｍｉｎに集束させる。図９Ａの第１閾値Ｔｈ１と第２閾値Ｔｈ２との間の区間は、対応する音声が目的音であるか非目的音であるかを判定する際の緩衝区間として機能する。

ＣＰＵ３１は、ステップ２０４で、ステップ２０３で変数ＳＮＲに設定した値１．０を変数ＳＮＲＰ（ｔ）に設定する。変数ＳＮＲに設定された値１．０は第２閾値Ｔｈ２より大きいため、変更しない。なお、ステップ２０３及びステップ２０４は、説明のため、個別のステップとしたが、変数ＳＮＲＰ（ｔ）に直接１．０を設定してもよい。

ＣＰＵ３１は、ステップ２０６で、変数ＳＮＲの値が第２閾値Ｔｈ２より大きいか否か判定する。判定が肯定された場合、ＣＰＵ３１は、ステップ２０７で、変数ＳＮＲＰ（ｔ）に変数ＳＮＲの値をそのまま設定する。変数ＳＮＲの値は第２閾値Ｔｈ２より大きいため、変更しない。

ステップ２０６の判定が否定された場合、ＣＰＵ３１は、ステップ２０８で、変数ＳＮＲの値が第１閾値Ｔｈ１より小さいか否か判定する。ステップ２０８の判定が肯定された場合、ＣＰＵ３１は、ステップ２０９で、変数ＳＮＲＰ（ｔ）に拡散最小値Ｓｍｉｎを設定する。

ステップ２０８の判定が否定された場合、即ち、変数ＳＮＲの値が緩衝区域に含まれる場合、ＣＰＵ３１は、ステップ２１０で、変数ＳＮＲＰ（ｔ）に、例えば、（１９）式で算出した値を設定することで、変数ＳＮＲを拡散させる。
ＳＮＲＰ（ｔ）＝（ＳＮＲ−Ｔｈ１）（Ｓｍａｘ−Ｓｍｉｎ）／（Ｔｈ２−Ｔｈ１）
＋Ｓｍｉｎ …（１９）

図９Ｂに、フレーム毎の変数ＳＮＲＰの値を点で示す図を例示する。図９Ｂの縦軸は、変数ＳＮＲＰの値を表し、横軸は、フレーム数をカウントする変数ｔを表す。

第１閾値Ｔｈ１、第２閾値Ｔｈ２、拡散最小値Ｓｍｉｎ及び拡散最大値Ｓｍａｘは、Ｔｈ２−Ｔｈ１がＳｍａｘ−Ｓｍｉｎより小さくなるように、適切な値に設定することが可能である。また、（１９）式では、変数ＳＮＲの値を拡散最小値Ｓｍｉｎと拡散最大値Ｓｍａｘとの間で均一に分散する例について説明したが、本実施形態はこれに限定されない。

ＣＰＵ３１は、ステップ２１１で、変数ｔに１を加算し、ステップ２１２で、変数ｔの値が所定のフレーム数Ｔを越えたか否か判定する。ステップ２１２の判定が否定された場合、ＣＰＵ３１は、ステップ２０２に戻る。ステップ２１２の判定が肯定された場合、ＣＰＵ３１は、ステップ２１３で、変数ＳＮＲＰ（ｔ）に設定された値の単位時間における変動を抑制することで、抑制係数ＳＮｃ（ｔ）を取得する。単位時間における変動を抑制するために、変数ＳＮＲＰ（ｔ）に、例えば、ローパスフィルタを適用する。図９Ｃに、図９Ｂの変数ＳＮＲＰ（ｔ）（ｔ＝１〜Ｔ）にローパスフィルタを適用した結果取得される抑制係数ＳＮｃ（ｔ）（ｔ＝１〜Ｔ）の線図を例示する。図９Ｃの縦軸は、抑制係数ＳＮｃを表し、横軸は、フレーム数をカウントする変数ｔを表す。

ＣＰＵ３１は、ステップ２１４で、フレーム数を表す変数ｔに値１を設定する。ＣＰＵ３１は、ステップ２１５で、対応するフレームの音声信号ＩＮＴＡ（ｔ）に抑制係数ＳＮｃ（ｔ）を適用する。ＣＰＵ３１は、例えば、対応するフレームの音声信号ＩＮＴＡ（ｔ）のパワーに抑制係数ＳＮｃ（ｔ）の値を乗算する。

ＣＰＵ３１は、ステップ２１６で、変数ｔに１を加算し、ステップ２１７で、変数ｔの値が所定のフレーム数Ｔを越えたか否か判定する。ステップ２１７の判定が否定された場合、ＣＰＵ３１は、ステップ２１５に戻る。ステップ２１７の判定が肯定された場合、ＣＰＵ３１は、非目的音抑制処理を終了する。

本実施形態では、第１音声入力部から入力された第１音声に対応する第１音声信号を第１周波数信号に時間周波数変換すると共に、第２音声入力部から入力された第２音声に対応する第２音声信号を第２周波数信号に時間周波数変換する。第１周波数信号と第２周波数信号との所定周波数毎の位相差、及び目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、目的音が存在する度合いを表す存在係数、及び、目的音以外の非目的音が存在する度合いを表す非存在係数を設定する。目的音は、検出対象となる音声である。第１音声または第２音声が目的音である確からしさを示す第１尤度、及び第１音声または第２音声が非目的音である確からしさを示す第２尤度に基づいて、第１音声及び第２音声に目的音が含まれるか否かを判定する。第１尤度は、存在係数に基づいた存在値、並びに第１周波数信号及び第２周波数信号の何れか一方に応じた代表値に基づいて定められ、第２尤度は、非存在係数に基づいた非存在値、並びに代表値に基づいて定められる。

これにより、本実施形態では、目的音と非目的音とが混在し、音声の反射が生じやすい環境下であっても、目的音を適切に取り出すことができる。

本実施形態では、抑制係数は、第２尤度に対する第１尤度の比に基づいて設定される。また、本実施形態では、抑制係数の単位時間における変動を抑制する。

これにより、本実施形態では、目的音と非目的音とが混在し、音声の反射が生じやすい環境下であっても、非目的音を適切に抑制する抑制係数を設定することができる。

［第３実施形態］
次に、第３実施形態の一例を説明する。第１実施形態または第２実施形態と同様の構成及び作用については、説明を省略する。第３実施形態では、図１０に例示するように、認知部２３が加えられている点で、第１実施形態及び第２実施形態と異なる。

第１実施形態では、目的音の存在位置が既知であり、目的音の存在位置とマイクロフォン３５Ａ及び３５Ｂの位置とに基づいて、図４Ａまたは図６Ａに例示するように目的音存在領域５１が定められている。これに対し、本実施形態では、目的音の存在位置が移動する可能性がある例について説明する。

認知部２３は、図１１に例示するように、例えば、カメラ３６であってよい。図１２に例示するように、ＣＰＵ３１は、カメラ３６を使用して撮影することで画像を取得する。ＣＰＵ３１は、目的音存在位置特定部４７で、取得した画像に既存の画像処理技術を適用することで、目的音の存在位置を特定し、特定した存在位置とマイクロフォン３５Ａ及び３５Ｂの位置に基づいて、目的音存在領域５１を定める。既存の画像処理技術は、例えば、顔認識技術などであってよく、ユーザの顔を認識することで、目的音の存在位置を特定してもよい。

次に、図１３に例示する音声信号処理装置１０の作用の流れについて説明する。図１３に例示する音声信号処理は、ステップ２１１及びステップ２１２が追加されている点で、第１実施形態と異なる。ＣＰＵ３１は、ステップ２１１で、カメラ３６を使用して画像を取得し、ステップ２１２で、取得した画像の認識を行うことで、目的音の存在位置を特定し、特定した存在位置を使用して、目的音存在領域５１を定める。ステップ１０１〜ステップ１０８については、上記したため、説明を省略する。

なお、本実施形態では、認知部２３としてカメラ３６を使用する例について説明したが、本実施形態はこれに限定されない。認知部２３は、例えば、赤外線センサまたは温度センサなどであってもよく、目的音の存在位置は、ユーザの発生する熱に基づいて特定されてもよい。また、認知部２３は、所定の信号を検出するセンサであってもよく、例えば、ユーザが所定の信号を発生するウェアラブル端末を装着することで、目的音の存在位置が特定されてもよい。

これにより、本実施形態では、目的音と非目的音とが混在し、反射が生じやすい環境下であっても、目的音を適切に判定することができる。

本実施形態では、目的音の存在位置を認知し、認知した存在位置に基づいて目的音存在領域を定める。

これにより、本実施形態では、目的音と非目的音とが混在し、反射が生じやすい環境下において、目的音の存在位置が移動する場合であっても、存在係数を適切に設定することが可能となり、目的音を適切に判定することができる。即ち、ユーザが所定の位置、例えば、運転席に座っている場合、あるいは、居間のソファなどの定位置に座っている場合、認知部は必要ではない。しかしながら、例えば、ユーザが居室で家事を行いながら、ラジオまたはテレビを視聴している場合などは、目的音の存在位置を特定する認知部を備えることは有用である。

なお、図５、図７、図８、及び図１３のフローチャートは、一例であり、処理の順序は適宜変更することができる。

［検証例］
図１４Ａに例示する条件で、本開示の音声信号処理と関連技術の音声信号処理とを各々適用して非目的音を抑制した音声信号に対して音声認識を行った際の検知率及び誤検知率を、図１４Ｂ及び図１４Ｃに例示する。図１４Ａでは、目的音の存在位置Ｔがマイクロフォン３５Ａ及び３５Ｂを含むマイクロフォンアレーの正面前方１．５ｍの位置に存在し、非目的音の発声位置ＮＴがマイクロフォンアレーの前方２．５ｍの位置に存在する。目的音の存在位置Ｔとマイクロフォンアレーとを結ぶ線と、非目的音の存在位置ＮＴとマイクロフォンアレーとを結ぶ線と、は角度θ＝４０度で交差している。

検知率は、（２０）式に例示するように、検知すべき単語数に対する正しく検知した単語数であり、誤検知率は、（２１）式に例示するように、検知した単語数に対する誤って検知した単語数である。
検知率＝正しく検知した単語数／検知すべき単語数 …（２０）
誤検知率＝誤って検知した単語数／検知した単語数 …（２１）

図１４Ｂに例示するように、関連技術ＲＡの検知率は、音声が目的音のみを含む場合、本開示ＰＡと同じ９３．５％であるが、音声が目的音と非目的音とを含む場合、８３．９％に低減する。一方、本開示ＰＡでは、音声が目的音と非目的音とを含む場合であっても、検知率は９１．５％であり、関連技術ＲＡの検知率より高い検知率を維持することができる。

また、図１４Ｃに例示するように、関連技術ＲＡ及び本開示の誤検知率は、音声が目的音のみを含む場合、共に、０．０％であるが、関連技術ＲＡの誤検知率は、音声が目的音と非目的音とを含む場合、１６．４％に上昇する。一方、本開示ＰＡでは、目的音と非目的音とを含む場合でも、誤検知率は０．０％を維持する。また、音声が非目的音のみを含む場合、関連技術ＰＡの誤検知率は、５２．５％まで上昇するが、本開示ＰＡの誤検知率は１．６％に留まる。即ち、本開示ＰＡによれば、検知率を高い値に維持し、誤検知率を低い値に維持することができる。

以上の各実施形態に関し、更に以下の付記を開示する。

（付記１）
第１音声入力部から入力された第１音声に対応する第１音声信号を第１周波数信号に時間周波数変換すると共に、第２音声入力部から入力された第２音声に対応する第２音声信号を第２周波数信号に時間周波数変換し、
前記第１周波数信号と前記第２周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定し、
前記存在係数に基づいた存在値、並びに前記第１周波数信号及び第２周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第１音声または前記第２音声が前記目的音である確からしさを示す第１尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第１音声または前記第２音声が前記非目的音である確からしさを示す第２尤度に基づいて、前記第１音声及び前記第２音声に前記目的音が含まれているか否かを判定する、
音声信号処理をコンピュータに実行させるためのプログラム。
（付記２）
前記第１尤度及び前記第２尤度に基づいて、前記第１音声及び前記第２音声に非目的音が含まれているか否かを判定する、
付記１のプログラム。
（付記３）
所定周波数毎に、前記目的音存在領域に対応する第１範囲の位相差で最大値となり、前記第１範囲外の第２範囲の位相差で最小値となるように、前記存在係数を設定し、
前記最大値から前記存在係数を減算した値を前記非存在係数として設定する、
付記１または付記２のプログラム。
（付記４）
前記第１範囲と前記第２範囲との間に第３範囲を設け、
前記第３範囲内では、前記第１範囲に近付くにしたがって、前記最大値に近付き、前記第１範囲から遠ざかるにしたがって、前記最小値に近付くように、前記存在係数を設定する、
付記３のプログラム。
（付記５）
前記代表値は音声信号のパワースペクトルまたは振幅スペクトルであり、
前記存在値は前記存在係数で、かつ、前記非存在値は前記非存在係数であるか、または、
前記存在値は前記存在係数の二乗であり、かつ、前記非存在値は前記非存在係数の二乗である、
付記１〜付記４の何れかのプログラム。
（付記６）
前記第１尤度は、前記所定周波数毎の前記存在値と前記代表値との積の和または積の二乗和の一方で、かつ、前記第２尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の和または積の二乗和の前記一方であるか、または、
前記第１尤度は、前記所定周波数毎の前記存在値と前記代表値との積の最大値または積の二乗の最大値の一方で、かつ、前記第２尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の最大値または積の二乗の最大値の前記一方である、
付記５のプログラム。
（付記７）
前記所定周波数は、時間周波数変換された前記第１周波数信号及び前記第２周波数信号の周波数分解能に基づいて定まる、
付記１〜付記６の何れかのプログラム。
（付記８）
前記第１音声入力部と前記第２音声入力部との間の距離は、前記目的音の存在位置と前記第１音声入力部との間の距離と、前記目的音の存在位置と前記第２音声入力部との間の距離と、が異なる場合、または、前記非目的音の存在位置と前記第１音声入力部との間の距離と、前記非目的音の存在位置と前記第２音声入力部との間の距離と、が異なる場合、前記第１周波数信号と前記第２周波数信号との間に位相差が生じる距離である、
付記１〜付記７の何れかのプログラム。
（付記９）
前記第１尤度が前記第２尤度以上である場合、音声信号を抑制しない抑制係数を設定し、前記第１尤度が前記第２尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を前記第１音声信号及び前記第２音声信号の少なくとも一方に適用する、
付記１〜付記８の何れかのプログラム。
（付記１０）
前記抑制係数は、前記第２尤度に対する前記第１尤度の比に基づいて設定される、
付記９のプログラム。
（付記１１）
前記抑制係数の単位時間における変動を抑制する、
付記１０のプログラム。
（付記１２）
前記抑制係数を適用された第１音声信号及び第２音声信号の少なくとも一方に対して音声認識を行う、
付記９〜付記１１の何れかのプログラム。
（付記１３）
認知部で前記目的音の存在位置を認知し、
認知された前記存在位置に基づいて、前記目的音存在領域を定める、
付記１〜付記１２の何れかのプログラム。
（付記１４）
コンピュータが、
第１音声入力部から入力された第１音声に対応する第１音声信号を第１周波数信号に時間周波数変換すると共に、第２音声入力部から入力された第２音声に対応する第２音声信号を第２周波数信号に時間周波数変換し、
前記第１周波数信号と前記第２周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定し、
前記存在係数に基づいた存在値、並びに前記第１周波数信号及び第２周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第１音声または前記第２音声が前記目的音である確からしさを示す第１尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第１音声または前記第２音声が前記非目的音である確からしさを示す第２尤度に基づいて、前記第１音声及び前記第２音声に前記目的音が含まれているか否かを判定する、
音声信号処理方法。
（付記１５）
前記第１尤度及び前記第２尤度に基づいて、前記第１音声及び前記第２音声に非目的音が含まれているか否かを判定する、
付記１４の音声信号処理方法。
（付記１６）
所定周波数毎に、前記目的音存在領域に対応する第１範囲の位相差で最大値となり、前記第１範囲外の第２範囲の位相差で最小値となるように、前記存在係数を設定し、
前記最大値から前記存在係数を減算した値を前記非存在係数として設定する、
付記１４または付記１５の音声信号処理方法。
（付記１７）
前記第１範囲と前記第２範囲との間に第３範囲を設け、
前記第３範囲内では、前記第１範囲に近付くにしたがって、前記最大値に近付き、前記第１範囲から遠ざかるにしたがって、前記最小値に近付くように、前記存在係数を設定する、
付記１６の音声信号処理方法。
（付記１８）
前記代表値は音声信号のパワースペクトルまたは振幅スペクトルであり、
前記存在値は前記存在係数で、かつ、前記非存在値は前記非存在係数であるか、または、
前記存在値は前記存在係数の二乗であり、かつ、前記非存在値は前記非存在係数の二乗である、
付記１４〜付記１７の何れかの音声信号処理方法。
（付記１９）
前記第１尤度は、前記所定周波数毎の前記存在値と前記代表値との積の和または積の二乗和の一方で、かつ、前記第２尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の和または積の二乗和の前記一方であるか、または、
前記第１尤度は、前記所定周波数毎の前記存在値と前記代表値との積の最大値または積の二乗の最大値の一方で、かつ、前記第２尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の最大値または積の二乗の最大値の前記一方である、
付記１８の音声信号処理方法。
（付記２０）
前記所定周波数は、時間周波数変換された前記第１周波数信号及び前記第２周波数信号の周波数分解能に基づいて定まる、
付記１４〜付記１９の何れかの音声信号処理方法。
（付記２１）
前記第１音声入力部と前記第２音声入力部との間の距離は、前記目的音の存在位置と前記第１音声入力部との間の距離と、前記目的音の存在位置と前記第２音声入力部との間の距離と、が異なる場合、または、前記非目的音の存在位置と前記第１音声入力部との間の距離と、前記非目的音の存在位置と前記第２音声入力部との間の距離と、が異なる場合、前記第１周波数信号と前記第２周波数信号との間に位相差が生じる距離である、
付記１４〜付記２０の何れかの音声信号処理方法。
（付記２２）
前記第１尤度が前記第２尤度以上である場合、音声信号を抑制しない抑制係数を設定し、前記第１尤度が前記第２尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を前記第１音声信号及び前記第２音声信号の少なくとも一方に適用する、
付記１６〜付記２１の何れかの音声信号処理方法。
（付記２３）
前記抑制係数は、前記第２尤度に対する前記第１尤度の比に基づいて設定される、
付記２２の音声信号処理方法。
（付記２４）
前記抑制係数の単位時間における変動を抑制する、
付記２３の音声信号処理方法。
（付記２５）
前記抑制係数を適用された第１音声信号及び第２音声信号の少なくとも一方に対して音声認識を行う、
付記２２〜付記２４の何れかの音声信号処理方法。
（付記２６）
認知部で前記目的音の存在位置を認知し、
認知された前記存在位置に基づいて、前記目的音存在領域を定める、
付記１４〜付記２５の何れかの音声信号処理方法。
（付記２７）
第１音声入力部から入力された第１音声に対応する第１音声信号を第１周波数信号に時間周波数変換すると共に、第２音声入力部から入力された第２音声に対応する第２音声信号を第２周波数信号に時間周波数変換する変換部と、
前記第１周波数信号と前記第２周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定する設定部と、
前記存在係数に基づいた存在値、並びに前記第１周波数信号及び第２周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第１音声または前記第２音声が前記目的音である確からしさを示す第１尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第１音声または前記第２音声が前記非目的音である確からしさを示す第２尤度に基づいて、前記第１音声及び前記第２音声に前記目的音が含まれているか否かを判定する判定部と、
を含む、音声信号処理装置。
（付記２８）
前記判定部は、前記第１尤度及び前記第２尤度に基づいて、前記第１音声及び前記第２音声に非目的音が含まれているか否かを判定する、
付記２７の音声信号処理装置。
（付記２９）
前記設定部は、
所定周波数毎に、前記目的音存在領域に対応する第１範囲の位相差で最大値となり、前記第１範囲外の第２範囲の位相差で最小値となるように、前記存在係数を設定し、
前記最大値から前記存在係数を減算した値を前記非存在係数として設定する、
付記２７または付記２８の音声信号処理装置。
（付記３０）
前記設定部は、前記第１範囲と前記第２範囲との間に第３範囲を設け、
前記第３範囲内では、前記第１範囲に近付くにしたがって、前記最大値に近付き、前記第１範囲から遠ざかるにしたがって、前記最小値に近付くように、前記存在係数を設定する、
付記２９の音声信号処理装置。
（付記３１）
前記代表値は音声信号のパワースペクトルまたは振幅スペクトルであり、
前記存在値は前記存在係数で、かつ、前記非存在値は前記非存在係数であるか、または、
前記存在値は前記存在係数の二乗であり、かつ、前記非存在値は前記非存在係数の二乗である、
付記２７〜付記３０の何れかの音声信号処理装置。
（付記３２）
前記第１尤度は、前記所定周波数毎の前記存在値と前記代表値との積の和または積の二乗和の一方で、かつ、前記第２尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の和または積の二乗和の前記一方であるか、または、
前記第１尤度は、前記所定周波数毎の前記存在値と前記代表値との積の最大値または積の二乗の最大値の一方で、かつ、前記第２尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の最大値または積の二乗の最大値の前記一方である、
付記３１の音声信号処理装置。
（付記３３）
前記所定周波数は、時間周波数変換された前記第１周波数信号及び前記第２周波数信号の周波数分解能に基づいて定まる、
付記２７〜付記３２の何れかの音声信号処理装置。
（付記３４）
前記第１音声入力部と前記第２音声入力部との間の距離は、前記目的音の存在位置と前記第１音声入力部との間の距離と、前記目的音の存在位置と前記第２音声入力部との間の距離と、が異なる場合、または、前記非目的音の存在位置と前記第１音声入力部との間の距離と、前記非目的音の存在位置と前記第２音声入力部との間の距離と、が異なる場合、前記第１周波数信号と前記第２周波数信号との間に位相差が生じる距離である、
付記２７〜付記３３の何れかの音声信号処理装置。
（付記３５）
前記第１尤度が前記第２尤度以上である場合、音声信号を抑制しない抑制係数を設定し、前記第１尤度が前記第２尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を前記第１音声信号及び前記第２音声信号の少なくとも一方に適用する抑制部、
をさらに含む、付記２７〜付記３４の何れかの音声信号処理装置。
（付記３６）
前記抑制係数は、前記第２尤度に対する前記第１尤度の比に基づいて設定される、
付記３５の音声信号処理装置。
（付記３７）
前記抑制係数の単位時間における変動を抑制する、
付記３６の音声信号処理装置。
（付記３８）
前記抑制部で、前記抑制係数を適用された第１音声信号及び第２音声信号の少なくとも一方に対して音声認識を行う認識部、
をさらに含む、付記３５〜付記３７の何れかの音声信号処理装置。
（付記３９）
前記目的音の存在位置を認知する認知部、
をさらに含み、
前記設定部は、前記認知部で認知された前記存在位置に基づいて、前記目的音存在領域を定める、
付記２７〜付記３８の何れかの音声信号処理装置。

１０音声信号処理装置
２１Ａ、２１Ｂ音声入力部
２２変換部
２３認知部
２４設定部
２５判定部
２６抑制部
２７認識部
３１ＣＰＵ
３２一次記憶部
３３二次記憶部
３５Ａ、３５Ｂマイクロフォン
３６カメラ

Claims

第１音声入力部から入力された第１音声に対応する第１音声信号を第１周波数信号に時間周波数変換すると共に、第２音声入力部から入力された第２音声に対応する第２音声信号を第２周波数信号に時間周波数変換し、
前記第１周波数信号と前記第２周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、前記所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定し、
前記存在係数に基づいた存在値、並びに前記第１周波数信号及び第２周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第１音声または前記第２音声が前記目的音である確からしさを示す第１尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第１音声または前記第２音声が前記非目的音である確からしさを示す第２尤度に基づいて、前記第１音声及び前記第２音声に前記目的音が含まれているか否かを判定する、
音声信号処理をコンピュータに実行させるためのプログラム。
前記第１尤度及び前記第２尤度に基づいて、前記第１音声及び前記第２音声に非目的音が含まれているか否かを判定する、
請求項１に記載のプログラム。
所定周波数毎に、前記目的音存在領域に対応する第１範囲の位相差で最大値となり、前記第１範囲外の第２範囲の位相差で最小値となるように、前記存在係数を設定し、
前記最大値から前記存在係数を減算した値を前記非存在係数として設定する、
請求項１または請求項２に記載のプログラム。
前記第１範囲と前記第２範囲との間に第３範囲を設け、
前記第３範囲内では、前記第１範囲に近付くにしたがって、前記最大値に近付き、前記第１範囲から遠ざかるにしたがって、前記最小値に近付くように、前記存在係数を設定する、
請求項３に記載のプログラム。
前記代表値は音声信号のパワースペクトルまたは振幅スペクトルであり、
前記存在値は前記存在係数で、かつ、前記非存在値は前記非存在係数であるか、または、
前記存在値は前記存在係数の二乗であり、かつ、前記非存在値は前記非存在係数の二乗である、
請求項１〜請求項４の何れか１項に記載のプログラム。
前記第１尤度は、前記所定周波数毎の前記存在値と前記代表値との積の和または積の二乗和の一方で、かつ、前記第２尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の和または積の二乗和の前記一方であるか、または、
前記第１尤度は、前記所定周波数毎の前記存在値と前記代表値との積の最大値または積の二乗の最大値の一方で、かつ、前記第２尤度は、前記所定周波数毎の前記非存在値と前記代表値との積の最大値または積の二乗の最大値の前記一方である、
請求項５に記載のプログラム。
前記所定周波数は、時間周波数変換された前記第１周波数信号及び前記第２周波数信号の周波数分解能に基づいて定まる、
請求項１〜請求項６の何れか１項に記載のプログラム。
前記第１音声入力部と前記第２音声入力部との間の距離は、前記目的音の存在位置と前記第１音声入力部との間の距離と、前記目的音の存在位置と前記第２音声入力部との間の距離と、が異なる場合、または、前記非目的音の存在位置と前記第１音声入力部との間の距離と、前記非目的音の存在位置と前記第２音声入力部との間の距離と、が異なる場合、前記第１周波数信号と前記第２周波数信号との間に位相差が生じる距離である、
請求項１〜請求項７の何れか１項に記載のプログラム。
前記第１尤度が前記第２尤度以上である場合、音声信号を抑制しない抑制係数を設定し、前記第１尤度が前記第２尤度よりも小さい場合、音声信号を抑制する抑制係数を設定し、設定された抑制係数を前記第１音声信号及び前記第２音声信号の少なくとも一方に適用する、
請求項１〜請求項８の何れか１項に記載のプログラム。
前記抑制係数は、前記第２尤度に対する前記第１尤度の比に基づいて設定される、
請求項９に記載のプログラム。
前記抑制係数の単位時間における変動を抑制する、
請求項１０に記載のプログラム。
前記抑制係数を適用された第１音声信号及び第２音声信号の少なくとも一方に対して音声認識を行う、
請求項９〜請求項１１の何れか１項に記載のプログラム。
認知部で前記目的音の存在位置を認知し、
認知された前記存在位置に基づいて、前記目的音存在領域を定める、
請求項１〜請求項１２の何れか１項に記載のプログラム。
コンピュータが、
第１音声入力部から入力された第１音声に対応する第１音声信号を第１周波数信号に時間周波数変換すると共に、第２音声入力部から入力された第２音声に対応する第２音声信号を第２周波数信号に時間周波数変換し、
前記第１周波数信号と前記第２周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定し、
前記存在係数に基づいた存在値、並びに前記第１周波数信号及び第２周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第１音声または前記第２音声が前記目的音である確からしさを示す第１尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第１音声または前記第２音声が前記非目的音である確からしさを示す第２尤度に基づいて、前記第１音声及び前記第２音声に前記目的音が含まれているか否かを判定する、
音声信号処理方法。
第１音声入力部から入力された第１音声に対応する第１音声信号を第１周波数信号に時間周波数変換すると共に、第２音声入力部から入力された第２音声に対応する第２音声信号を第２周波数信号に時間周波数変換する変換部と、
前記第１周波数信号と前記第２周波数信号との所定周波数毎の位相差、及び、検出対象となる目的音の存在位置を示す目的音存在領域に基づいて、所定周波数毎に、前記目的音が存在する度合いを表す存在係数、及び、前記目的音以外の非目的音が存在する度合いを表す非存在係数を設定する設定部と、
前記存在係数に基づいた存在値、並びに前記第１周波数信号及び第２周波数信号の何れか一方に応じた代表値に基づいて定められ、かつ前記第１音声または前記第２音声が前記目的音である確からしさを示す第１尤度、及び前記非存在係数に基づいた非存在値、並びに前記代表値に基づいて定められ、かつ前記第１音声または前記第２音声が前記非目的音である確からしさを示す第２尤度に基づいて、前記第１音声及び前記第２音声に前記目的音が含まれているか否かを判定する判定部と、
を含む、音声信号処理装置。