JP2008158035A - 多音源有音区間判定装置、方法、プログラム及びその記録媒体 - Google Patents

多音源有音区間判定装置、方法、プログラム及びその記録媒体 Download PDF

Info

Publication number
JP2008158035A
JP2008158035A JP2006344045A JP2006344045A JP2008158035A JP 2008158035 A JP2008158035 A JP 2008158035A JP 2006344045 A JP2006344045 A JP 2006344045A JP 2006344045 A JP2006344045 A JP 2006344045A JP 2008158035 A JP2008158035 A JP 2008158035A
Authority
JP
Japan
Prior art keywords
sound source
sound
signal
observation signal
noise power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006344045A
Other languages
English (en)
Other versions
JP4746533B2 (ja
Inventor
Hiroshi Sawada
宏 澤田
Akiko Araki
章子 荒木
Kazuhiro Otsuka
和弘 大塚
Masakiyo Fujimoto
雅清 藤本
Kentaro Ishizuka
健太郎 石塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006344045A priority Critical patent/JP4746533B2/ja
Publication of JP2008158035A publication Critical patent/JP2008158035A/ja
Application granted granted Critical
Publication of JP4746533B2 publication Critical patent/JP4746533B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】複数のマイクロホンによって収音された同一音響区間内における多話者の発話信号から、各話者の発話区間を判定するための技術を提供する。
【解決手段】ノイズパワー推定部2が、複数のマイクロホンによってそれぞれ入力され周波数領域に変換された時間周波数ごとの各観測信号から、マイクロホンと周波数の組み合せごとに、無音区間におけるノイズパワーを推定する。観測信号分類部3が、上記推定されたノイズパワーと、上記各観測信号とを用いて、上記各観測信号を成分とする時間周波数ごとの観測信号ベクトルを、音源ごとに分類し、その分類結果を出力する。信号分離部4が、上記分類結果を用いて、上記各観測信号を、音源ごとの信号に分離する。有音区間判定部5が、上記分離された音源ごとの信号から、各音源の有音区間又は無音区間を判定する。
【選択図】図1

Description

本発明は、信号処理の技術分野に属し、特に、複数のマイクロホンで複数の音源から発生した音を収音した状況において、各音源の有音区間を判定する技術に関する。
有音区間を検出するための従来の技術として、単一のマイクロホンを用いて、一人の話者の発話区間を検出するものが数多く知られている。以下に、発話区間検出技術の例を説明する。
x(t)をマイクロホンでの時間領域の観測信号とする。tは時間である。この時間領域の観測信号に対して、短時間フーリエ変換を施し、時間周波数表現で表した周波数領域の観測信号x(f,t)を得る。fは周波数である。本背景技術では、例えば最初の何秒間は誰も喋っていない等の仮定をして、周波数ごとにノイズパワーの推定値λ(f)を得る。そして、周波数領域の観測信号x(f,t)と、ノイズパワーの推定値λ(f)とを用いて、時間周波数ごとに事後S/N比
Figure 2008158035
を計算する。そして、以下の式に従って、ある種の非線形変換を施した後、考慮するすべての周波数での平均値を計算する。
Figure 2008158035
ここで、Fは考慮する周波数の集合であり、|F|は、集合Fの要素の数である。このように計算したG(t)が閾値ηより大きければ、時間tでのフレームは発話区間である、そうでなければ非発話区間であると判定する。なお、ここでの非線形変換は、観測信号x(f,t)をノイズと発話に分類して、それぞれを分散の異なるガウス分布でモデル化した際の尤度比から導出されるものである(例えば、非特許文献1参照。)。
Jangseo Sohn,Nam Soo Kim,and Wonyong Sung,"A Statical Model-Based Voice Activity Detection",IEEE Singal Processing Letters,Jan.1999.,Vol.6,No.1,pp.1-3
同一音響区間内に、話者が複数人居て、それぞれの話者の近くにマイクロホンが設置されているような状況で、上記した背景技術を用いる場合を考える。例えば、図5に示すように、話者P1〜話者P4の4人の話者が、互いに1m〜3m程度離れた状況で向き合っており、それぞれの話者P1〜P4の胸元にピンマイクP1’〜P4’がそれぞれ装着されているとする。図5は、実験の条件を表す図である。このような状況において、各話者P1〜P4による発話を、それぞれのピンマイクP1’〜P4’で、20秒間収音することにより得た時系列の観測信号を、1/30秒の時間長のフレームで区切り、各フレームごとの観測信号を短時間逆フーリエ変換することにより得た周波数領域の信号のスペクトルを、図6に示す。
図6(a)はピンマイクP1’で収音された観測信号についてのスペクトル、図6(b)はピンマイクP2’で収音された観測信号についてのスペクトル、図6(c)はピンマイクP3’で収音された観測信号についてのスペクトル、図6(d)はピンマイクP4’で収音された観測信号についてのスペクトルである。図6の各グラフにおいて、縦軸は周波数、横軸は時間フレームの番号を表し、色が濃いほど音のパワーが大きいことを表す。
図6を見ると、似たようなスペクトル形状が複数のピンマイクで観測されていることがわかる。これは、話者P1〜P4同士がある程度近くに居るため、ある話者の声が、別の話者が装着しているピンマイクにも入り込んでしまうためである。
この観測信号に対して、ピンマイクごとに背景技術を適用した際の発話区間検出結果を図7に示す。図7(a)は背景技術による検出結果を示し、図7(b)は人手によるラベリング結果(正解)を示す。横軸は時間フレームの番号(1フレームは1/30秒)、縦軸は話者の番号を示す。黒く塗られた部分が、発話したと判断された時間フレームである。閾値はη=10と設定した。従来技術の結果は、他の人の発話まで過剰検出してしまっている。
このように、多人数・多マイクロホンの状況で、一話者・単一マイクロホンを仮定した発話区間検出を適用しても、あまりうまく動作しないという問題がある。
本発明は、音源が複数あり、それぞれの音源の近くにマイクロホンが設置されており、各マイクロホンに複数の音源から発生した音が入り込む可能性がある状況において、各音源の有音区間を正しく判定する技術を提供することを課題とする。
複数のマイクロホンによってそれぞれ入力され周波数領域に変換された時間周波数ごとの各観測信号から、マイクロホンと周波数の組み合せごとに、無音区間におけるノイズパワーを推定する。上記推定されたノイズパワーと、上記各観測信号とを用いて、上記各観測信号を成分とする時間周波数ごとの観測信号ベクトルを、音源ごとに分類し、その分類結果を出力する。上記分類結果を用いて、上記各観測信号を、音源ごとの信号に分離する。上記分離された音源ごとの信号から、各音源の有音区間又は無音区間を判定する。
周波数領域に変換された時間周波数ごとの各観測信号について、ノイズパワー推定値λ(f)を用いて単に有音区間、無音区間の判定をするのでなく、まず、周波数領域に変換された時間周波数ごとの各観測信号を音源ごとに分類し、その分類された各観測信号について有音区間、無音区間の判定をすることにより、各音源の有音区間を正しく判定することができる。
以下では、音源が、人間による発話である場合を例に挙げて、本発明による多音源有音区間判定装置10について説明をする。図1に、多音源有音区間判定装置10の機能構成を例示する。多音源有音区間判定装置10は、例えば、周波数領域変換部1、ノイズパワー推定部2、観測信号分類部3、信号分離部4、有音区間判定部5を有する。また、図3に、多音源有音区間判定装置の処理の流れを例示する。
[全体の流れ]
周波数領域変換部1は、N人の話者の発話がM個のマイクロホンによって収音された時間領域の観測信号x(t)(m=1,…,M)を、周波数領域の観測信号x(f,t)(m=1,…,M)に変換する(ステップS1)。
ノイズパワー推定部2は、誰も発話していない時間区間での観測信号のパワー、すなわち、ノイズパワーλ(f)(m=1,…,M)を推定する(ステップS2)。
観測信号分類部3は、周波数領域の観測信号ベクトルX(f,t)={x(f,t),…,x(f,t)}を、ノイズか各話者に分類する(ステップS3)。分類結果は、0からNまでの値を取り得るクラスタ情報C(f,t)で表現される。ある時間周波数スロット(f,t)において分類結果C(f,t)=0であれば、その時間周波数スロット(f,t)においては誰も話者がおらず、ノイズに分類されたことを意味する。分類結果C(f,t)が1からNまでの値nを取れば、その時間周波数スロット(f,t)における周波数領域の観測信号X(f,t)はn番目の話者による発話と判定されたことを意味する。
信号分離部4は、分類結果C(f,t)と周波数領域の観測信号x(f,t),…,x(f,t)から、分離信号y(f,t),…,y(f,t)を算出する(ステップS4)。分離信号y(f,t)は、n番目の話者の発話のみを取り出したものである。
有音区間判定部5は、分離信号y(f,t)と、ノイズパワーλ(f)から、各話者が発話をしているかどうかを時間t毎に判定し、フラグvad(t)として出力する(ステップS5)。
以下、各部の処理について詳細に説明する。
<ステップS1>
N個の話者(音源)からそれぞれ発生した発話(音)は、図示していないM個のマイクロホンによってそれぞれ収音される。話者の数Nと、マイクロホンの数Mは、同じでも異なっていてもよい。マイクロホンは、話者の近くに設置されているものとする。各マイクロホンによってそれぞれ収音された時間領域の各観測信号x(t),…,x(t),…,x(t)は、周波数領域変換部1に入力される。周波数領域変換部1は、短時間フーリエ変換により、上記各観測信号x(t)(m=1,…,M)を、時間周波数ごとの周波数領域の観測信号x(f,t),…,x(f,t),…,x(f,t)に変換する。変換された周波数領域の観測信号x(f,t)(m=1,…,M)は、ノイズパワー推定部2、観測信号分類部3、信号分離部4にそれぞれ出力される。
以下では、時間領域の観測信号ベクトルX(t)を、X(t)=[x(t),…,x(t)]と定義し、周波数領域の観測信号ベクトルX(f,t)を、X(f,t)=[x(f,t),…,x(f,t)]と定義する。
[*]は、ベクトル*の転置を意味する。
<ステップS2>
ノイズパワー推定部2は、マイクロホンと周波数の組み合せごとに、無音区間、すなわち、誰も発話していない時間区間におけるノイズパワーλ(f)を推定する。ノイズパワーλ(f)は、m番目のマイクロホンにおける周波数fでのノイズパワーを意味する。推定されたノイズパワーλ(f)は、観測信号分類部3、有音区間判定部5に出力される。ここで、無音区間とは、発話がない時間区間のことであり、音やノイズがまったく存在しない区間のことではない点に留意する。
例えば、誰も発話していないことが確実な時間区間Pが明らかであれば、ノイズパワー推定部2は、
Figure 2008158035
を計算することにより、ノイズパワーλ(f)を求める。ここで、|P|は、時間区間Pに含まれるフレームの数である。また、ノイズパワー推定部2は、装置を起動した最初の数秒間は誰も発話をしていない等の仮定をして、その最初の数秒間を無音区間Pとしてノイズパワーλ(f)を計算してもよい。なお、誰も発話していないことが確実な時間区間Pが明らかでない場合には、適切な初期値を予め用意しておき、その適当な初期値をノイズパワーλ(f)としてもよい。
なお、ノイズパワーλ(f)は、予め定めた適当な時間間隔で更新することが望ましい。ノイズパワーλ(f)の変動に対処するためである。そのために、後述する観測信号分類部3から出力された分類結果C(f,t)を参照して、C(f,t)=0となる時間周波数スロット(f,t)を求める。そして、次式
Figure 2008158035
に従い、ノイズパワーλ(f)を更新する。ここで、αは忘却係数であり、一般に、1より小さく、1に近い値を取る。また、E{*}C(f,t)=0は、あるfについて、C(f,t)=0を満たす時間tについてのみ平均を取ることを意味する。あるfについて、そのようなC(f,t)=0を満たす時間tが存在しない場合、前式による更新は行わない。
<ステップS3>
観測信号分類部3は、ノイズパワーλ(f)と周波数領域の各観測信号x(f,t)とを用いて、上記各観測信号x(f,t)(m=1,…,M)を成分とする時間周波数ごとの観測信号ベクトルX(f,t)を、話者ごとに分類し、その分類結果C(f,t)を求める。分類結果C(f,t)は、信号分離部4と、ノイズパワー推定部2にそれぞれ出力される。
分類結果C(f,t)は、0からNまでの値を取るクラスタ情報である。C(f,t)=0であれば、その時間周波数には誰も話者がおらず、ノイズと分類されたことを意味する。C(f,t)が、1からNまでの値nを取れば、その時間周波数スロットにおける観測信号ベクトルX(f,t)は、n番目の話者による発話と判定されたことを意味する。
なお、本実施例では、処理の簡便化のため、ある時間周波数スロット(f,t)で発話しているのは高々一人であることを仮定している。この仮定に従っても、ある時間tにおける全ての周波数fを考えると、周波数が異なれば同時刻tに複数人が発話をしていることを表現することができるため問題は生じない。
図2に、観測信号分類部3の機能構成を例示する。観測信号分類部3は、無音判定部39、分類部310を有する。無音判定部39は、S/N比計算部31、非線形変換部32、判定部33を有する。分類部310は、正規化部34、尤度計算部35、最大値決定部36、平均ベクトル更新部37、分散更新部38を有する。図4に、観測信号分類部3の処理の流れを例示する。
《ステップS31》
まず、無音判定部39が、観測信号のパワーのみに着目して、ノイズであるか、あるいは誰かが発話しているかを判別する。例えば、背景技術と同様の方法を用いることができる。すなわち、無音判定部39のS/N比計算部31が、ノイズパワーλ(f)と周波数領域の観測信号x(f,t)とから、次式に基づいて、事後S/N比γ(f,t)を求める(ステップS31)。
Figure 2008158035
このように、無音判定部39は、周波数領域の観測信号のパワー|x(f,t)|を、ノイズパワーλ(f)で割り、事後S/N比γ(f,t)(m=1,…,M)をそれぞれ求め、非線形変換部32に出力する。
《ステップS32》
非線形変換部32は、事後S/N比γ(f,t)に対して、例えば、次式の非線形変換を施し、非線形変換後の事後S/N比G(f,t)(m=1,…,M)をそれぞれ求め、判定部33に出力する(ステップS32)。
Figure 2008158035
《ステップS33》
判定部33は、各G(f,t)(m=1,…,M)と、予め定めた閾値η’との大小関係を比較し、すべてのm(m=1,…,M)において、G(f,t)がη’未満であれば、周波数領域の観測信号ベクトルX(f,t)はノイズであり、その時間周波数スロットにおける分類結果C(f,t)を、C(f,t)=0とする(ステップS33)。
このように、無音判定部39は、周波数領域の観測信号のパワー|x(f,t)|を推定されたノイズパワーλ(f)で割った値γ(f,t)に非線形変換を施した値G(f,t)と、予め定めた閾値η’との大小関係を時間周波数ごとに比較し、ある時間周波数において、すべてのマイクロホンの上記平均値が上記閾値未満であれば、その時間周波数の上記観測ベクトルはどの音源にも属さない、という分類結果C(f,t)=0を出力する。
なお、無音判定部39は、上記背景技術に記載した音声区間、非音声区間の判定方法以外の音声区間、非音声区間の判定方法を用いてもよい。
《ステップS34》
次に、分類部310は、ある話者の発話がそれぞれのマイクロホンにどの程度の音量比で観測されたかという情報に基づいて、周波数領域の観測信号x(f,t)を分類する(ステップS34)。そのために、まず、分類部310の正規化部34は、例えば、次式に従って、周波数領域の観測信号x(f,t)を正規化して、それぞれのマイクロホンにどの程度の音量比で収音されたのかという情報を求める。
Figure 2008158035
すなわち、周波数領域の各観測信号x(f,t)の絶対値を、周波数領域の観測信号ベクトルのノルム‖X(f,t)‖で割り、正規化された周波数領域の観測信号x’(f,t)を時間周波数ごとに求める。x’(f,t)を成分とするベクトルX’(f,t)=[x’(f,t),…,x’(f,t),…,x’(f,t)]を、正規化された周波数領域の観測信号ベクトルX’(f,t)とし、このベクトルは尤度計算部35に出力される。
このように、周波数領域の観測信号x(f,t)の絶対値を用いて、位相を無視する理由は、考慮しているようなピンマイクを用いた状況では、位相情報が不安定となるからである。これは、各話者が装着しているピンマイクの位置が体の動きと共に頻繁に変化し得ることに起因する。
なお、上記式(1)は、それぞれのマイクロホンにどの程度の音量比で収音されたのかという情報の一例に過ぎない。上記以外にも、x’(f,t)として、以下に定めるx’(f,t)のように比をもって表すことができる任意の統計量を用いても良い。
Figure 2008158035
≪ステップS35≫
このようにして算出されたベクトルX’(f,t)は、話者ごとにクラスタを形成することが期待できる。なぜなら、話者はn人おり、また、各話者nの近くに各マイクロホンmが配置されている状況を考慮しているからである。
ここで、話者nの発話に対するクラスタを、例えば、以下のように、予め定めた平均ベクトルme、予め定めた共分散行列σ Iの多次元ガウス分布でモデル化すると、その尤度p(X’(f,t))(n=1,…,N)は次式のようにして、計算することができる。
Figure 2008158035
分類部310の尤度計算部35は、ある正規化された周波数領域の観測信号ベクトルX’(f,t)について、各尤度P(X’(f,t))(n=1,…,N)を計算して、その計算結果をそれぞれ最大値決定部36に出力する。
≪ステップS36≫
各時間周波数スロット(f,t)での正規化された周波数領域の観測信号ベクトルX’(f,t)に対して、以下の式を計算することで、最尤推定値としての分類結果C(f,t)を得ることができる。
Figure 2008158035
すなわち、最大値決定部36は、p(X’(f,t)),…,p(X’(f,t))のN個の尤度の中で最も値が大きいものを求め、その最も値が大きい尤度に対応したnを、時間周波数スロットC(f,t)に対応した分類情報として出力する。
このように分類部310は、各話者に対応するクラスタを多次元ガウス分布で表した各モデルに、それぞれのマイクロホンにどの程度の音量比で収音されたのかという情報(例えば、X’(f,t))を入力することにより各モデルごとの尤度p(f,t)を計算し、最も尤度が高くなるモデルを求め、その観測信号ベクトルは、その最も尤度が高くなるモデルのクラスタに対応する音源に属するという分類結果を時間周波数ごとに出力する。
以下に、平均ベクトルmeと分散σ の初期設定・更新の仕方を説明する。以下では、平均ベクトルmeと分散σ を、パラメータと呼ぶ。話者の数Nとマイクロホンの数Mが等しく、話者nの近くにマイクロホンmが配置されている場合には、平均ベクトルmeの初期値としては、
Figure 2008158035
を満たすように設定する。ここで、[meは、平均ベクトルmeを構成するM個の成分のうちのm番目の成分を意味する。分散σ に関しては、例えば、σ =0.01とする。上記した方法に限らず、後述するように、平均ベクトルmeと分散σ の値は更新されるため、それらの初期値は適当に定めても構わない。
平均ベクトル更新部37は、予め定めた時間間隔で、既に求まった分類結果C(f,t)を用いて、平均ベクトルmeを以下の式に基づいて更新して、尤度計算部35に出力する。
Figure 2008158035
同様に、分散更新部38は、予め定めた時間間隔で既に求まった分類結果C(f,t)を用いて、分散σ を以下の式に基づいて更新して、尤度計算部35に出力する。
Figure 2008158035
ここで、αは忘却係数であり、1より小さく1に近い値を取る。ノイズパワーの更新の式で用いたαと同じ値である必要はない。また、E{*}C(f,t)=nは、C(f,t)=nを満たす時間周波数スロット(f,t)に係る*のみについて平均を取ることを意味する。ここでも、そのような時間周波数スロット(f,t)がない場合には、上記式による更新は行わない。
平均ベクトルmenが更新された場合には、尤度計算部35は、その平均ベクトル更新部37によって更新された平均ベクトルmenを用いて、尤度の計算を行う。すなわち、上記平均ベクトルmenの初期値に代えて、上記更新された平均ベクトルを用いてモデル化をして尤度を計算する。
同様に、分散δn が更新された場合には、尤度計算部35は、その分散更新部38によって更新された分散δn を用いて、尤度の計算を行う。
平均ベクトル更新部37と分散更新部38が、パラメータ(平均ベクトルmen、分散δn )を更新する時間間隔・更新する頻度は、毎フレームごとでもよいし、数フレームごとでもよい。毎フレームごとに更新すると、最も精度がよくなる。一方、数フレームごとに更新すると、計算コストを削減することができる。どの位の時間間隔・頻度でパラメータを更新するかは、求める精度や、本発明が実装されるハードウェアの規模や性能に応じて適宜定める。ただし、パラメータの変動に対処するために、最長でも数秒に一回は更新するとよい。平均ベクトル更新部37の更新時間間隔・更新頻度と、分散更新部38の更新時間間隔・更新頻度は、同じでも、異なっていても良い。
なお、どの話者にも対応しないクラスタをn=N+1として構成してもよい。この場合、そのクラスタN+1の平均ベクトルmeN+1の初期値は、
Figure 2008158035
と設定する。このN+1のクラスタは、複数人の話者が発話した時間周波数スロット(f,t)で構成されることになる。そのようなスロットでの情報は、不確定性が高いため、以後の処理では用いない。
また、マイクロホンの数Mの方が、話者の数Nよりも多い場合には、話者nから最も近いマイクロホンの番号をk(n)とすると、例えば、平均ベクトルmeを以下のように定める。分散σ については上記と同様である。
Figure 2008158035
上記初期値は、最終的な最適値からは離れているが、更新により最終値に近づくので問題は生じない。その他、平均ベクトルmeの初期値は、話者とマイクロホンの位置を考慮して適宜定めることができる。
<ステップS4>
信号分離部4は、観測信号分類部3が出力した分類結果C(f,t)に基づいて、周波数領域に変換された観測信号x(f,t)を、話者ごとの信号y(f,t)に分離する。具体的には、次式に基づいて、話者nの分離信号y(f,t)を時間周波数ごとに求めて、有音区間判定部5に出力する。
Figure 2008158035
<ステップS5>
有音区間判定部5は、分離信号y(f,t)に基づいて、各話者の発話区間(有音区間)を判定する。具体的には、例えば、背景技術に記載した方法と同様に、まず、事後S/N比γ(f,t)を、次式により求める。
Figure 2008158035
そして、非線形変換を次式により施し、非線形変換後の事後S/N比G(t)を求める。
Figure 2008158035
非線形変換後の事後S/N比G(t)が、予め定めた閾値ηよりも大きければ、時間tのフレームにおいて、話者nは発話(有音区間)していると判定し、小さければ非発話(無音区間)であると判断する。
有音区間を表すフラグをvad(t)とし、1が有音区間、0が無音区間を意味することにすると、有音区間判定部5は、次の条件により、フラグvad(t)の値を定める。
Figure 2008158035
このフラグvad(t)が、各話者nに対する発話区間の判定結果となる。
閾値ηは、1から数十の範囲であり、経験的に最適と思われる値を設定する。すなわち、予め異なる複数の閾値ηで、上記の判定を行い最も精度が高いものを閾値ηとする。本明細書、特許請求の範囲においては、原則として、「より大」とは、「以上」の概念を包括するものとする。すなわち、AはB以上(A>B)であると言った場合には、AがBより大(A>B)であっても、AがB以上(A≧B)であってもよいものとする。同様に「未満」とは、「以下」の概念を包括するものとする。
なお、背景技術に記載した有音区間判定技術以外の任意の有音区間判定技術を用いることができる。
本発明の効果を示すために、図6に示す4本のマイクロホンで観測された20秒分の各観測信号に対して本発明を適用した。図8に、観測信号分類部3による分類結果を示す。プロットを上から順に見ると、それぞれC(f,t)=1、2、3、4と分類された時間周波数スロット(f,t)が黒く塗られている。この分類結果に従って、観測信号を各話者に分離し、それぞれの分離信号に対して発話区間の推定を行った。その結果を図9に示す。推定結果に多少の途切れはあるが、ほぼ正確に発話区間を判定していることがわかる。図7に示す従来技術による結果と見比べると、本発明の効果は明らかである。
[変形例等]
本発明は、マイクロホンでの観測信号に限らず、何らかの前処理により、信号対雑音比を高めた信号や、特定の話者(音源)の発話(音)を強調した信号に対しても有効に適用することができる。
以下、具体例を挙げつつ説明する。図10は、4人の話者q1,q2,q3,q4が参加した会議の状況を3個のマイクロホンq1’,q2’,q3’で録音した状況を示すものである。話者は、各マイクロホンq1’,q2’,q3’は、一辺の長さが4cmの正三角形の頂点に位置するように机の上に配置されている。各マイクロホンは、その正三角形の中心方向とは反対側の方向の音を収音するように向きが定められている。各マイクロホンq1’,q2’,q3’と机の間にはタオルが敷かれている。話者q1,q2,q3,q4は、話者q1とマイクロホンq1’は85cm、話者q2とマイクロホンq1’は80cm、話者q3とマイクロホンq2’は85cm、話者q4とマイクロホンq3’は90cmそれぞれ離れるように位置しており、また、上記机の上にある各マイクロホンを取り囲むように位置している。
このような状況において、マイクロホンq1’,q2’,q3’で録音された時間領域の観測信号を図11に示す。図11(a)はマイクロホンq1’で録音された時間領域の観測信号,図11(b)はマイクロホンq2’で録音された時間領域の観測信号,図11(c)はマイクロホンq3’で録音された時間領域の観測信号を表す図である。図11(a)から(c)に示した図を見ると、各マイクロホンq1’,q2’,q3’は、特定の話者の声を大きく収録しているわけではなく、各話者の声を同じような音量で収音していることがわかる。したがって、図11(a)から(c)に示した各観測信号についてそのまま本発明を適用しても、有益な効果を得ることができない。
ここで、図1に破線で示す音処理部6が、例えば、音源分離技術などの前処理を、図11(a)から(c)に示した各観測信号について行うことで、特定の話者の声が強調され他の話者の声や雑音が抑圧された信号を生成することができる。図12に、図11(a)から(c)に示した各観測信号に対して、音源分離技術を適用して作り出した話者ごと分離信号を示す。
音処理部6から出力された特定の話者の声が強調され他の話者の声や雑音が抑圧された信号は、周波数領域変換部1に入力され、上記説明したステップS1からステップS5の処理が行われる。上記音処理部6の音源分離の性能は完璧ではなく、その他の人の声や雑音は、ある程度の音量で混入している。したがって、これまでに説明したマイクロホンで収音した観測信号と同様の状況であると考えることができる。
図13は、図12に示す各分離信号に対して従来の音源有音区間判定技術を適用した結果を示す図である。その他の人の声や雑音がある程度の音量で混入しているため、発話区間が過剰に検出されていることがわかる。
一方、図14は、図12に示す各分離信号に対して本発明を適用した結果を示す図である。発話区間の過剰検出が抑えられ、図12の各分離信号の波形と見比べても、比較的正しく発話区間を検出していることがわかる。
また、上記説明では、多音源有音区間判定装置10は、周波数領域変換部1を有する場合を例に挙げているが、周波数領域変換部1は必ずしも必要ではない。すなわち、周波数領域変換部1を設けずに、各マイクロホンによってそれぞれ入力され周波数領域に変換された時間周波数ごとの各観測信号が、ノイズパワー推定部2、観測信号分類部3、信号分離部4に入力されるようにしてもよい。
上記説明では、音源が人間である場合、すなわち、音源として話者を取り上げた場合を例に挙げているが、音源として他の音源を用いても本発明を適用することができる。
分類部310は、無音判定部39でC(f,t)=0と判定された時間周波数スロット以外の時間周波数スロット(f,t)について分類結果C(f,t)を求めてもよい。
また、分類部310は、すべての時間周波数スロット(f,t)について分類結果C(f,t)を求め、図2に一点鎖線で示す合成部311に出力し、合成部311が、判定部33から入力されたC(f,t)=0となる時間周波数スロットで、上記分類部310が出力した分類結果C(f,t)を上書きしてもよい。かかる場合には、無音判定部39の処理と、分類部310の処理を並行して行うことができる。
分散更新部38と平均ベクトル更新部37は、必ずしも設ける必要はなく、また、何れか一方のみを設けてもよい。
上記多音源音声区間判定装置の処理機能をコンピュータによって実現することができる。この場合、多音源音声区間判定装置の処理の内容はプログラムによって記述される。そして、このプログラムを、コンピュータで実行することにより、多音源音声区間判定装置の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto−Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable−Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、多音源音声区間判定装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
以上の各実施形態の他、本発明である多音源音声区間判定装置、方法、プログラム及びその記録媒体は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本発明による多音源有音区間判定装置10の機能構成を例示する図。 本発明による観測信号分類部3の機能構成を例示する図。 本発明による多音源有音区間判定装置10の処理の流れを例示する図。 本発明による観測信号分類部3の処理の流れを例示する図。 実験の条件を表す図。 図6(a)はピンマイクP1’で収音された観測信号についてのスペクトル、図6(b)はピンマイクP2’で収音された観測信号についてのスペクトル、図6(c)はピンマイクP3’で収音された観測信号についてのスペクトル、図7(d)はピンマイクP4’で収音された観測信号についてのスペクトルを表す図。 図7(a)は背景技術による検出結果を示し、図7(b)は人手によるラベリング結果(正解)を示す図。 本発明による実験結果を表す図。 本発明による実験結果を表す図。 第2実施形態の説明を補助する図。 図11(a)はマイクロホンq1’で録音された時間領域の観測信号,図11(b)はマイクロホンq2’で録音された時間領域の観測信号,図11(c)はマイクロホンq3’で録音された時間領域の観測信号を表す図。 図11(a)から(c)に示した各観測信号に対して、音源分離技術を適用して作り出した話者ごと分離信号を示す図。 図12に示す各分離信号に対して、従来の音源有音区間判定技術を適用した結果を示す図。 図12に示す各分離信号に対して本発明を適用した結果を示す図。
符号の説明
1 周波数領域変換部
2 ノイズパワー推定部
3 観測信号分類部
4 信号分離部
5 有音区間判定部
6 音処理部
10 多音源有音区間判定装置
31 比計算部
32 非線形変換部
33 判定部
34 正規化部
35 尤度計算部
36 最大値決定部
37 平均ベクトル更新部
38 分散更新部
39 無音判定部
310 分類部
311 合成部

Claims (13)

  1. 複数のマイクロホンによってそれぞれ入力され周波数領域に変換された時間周波数ごとの各観測信号から、マイクロホンと周波数の組み合せごとに、無音区間におけるノイズパワーを推定するノイズパワー推定手段と、
    上記推定されたノイズパワーと、上記各観測信号とを用いて、上記各観測信号を成分とする時間周波数ごとの観測信号ベクトルを、音源ごとに分類し、その分類結果を出力する観測信号分類手段と、
    上記分類結果を用いて、上記各観測信号を、音源ごとの信号に分離する信号分離手段と、
    上記分離された音源ごとの信号から、各音源の有音区間又は無音区間を判定する有音区間判定手段と、
    を有する多音源有音区間判定装置。
  2. 請求項1に記載の多音源有音区間判定装置において、
    上記観測信号分類手段は、上記観測信号のパワーを上記推定されたノイズパワーで割った値に非線形変換を施した値と、予め定めた閾値との大小関係を時間周波数ごとに比較し、ある時間周波数において、すべてのマイクロホンの上記非線形変換を施した値が上記閾値未満であれば、その時間周波数の上記観測ベクトルはどの音源にも属さない、という分類結果を出力する無音判定手段を含む、
    ことを特徴とする多音源有音区間判定装置。
  3. 請求項1又は請求項2に記載の多音源有音区間判定装置において、
    上記観測信号分類手段は、各音源から発生した音がそれぞれのマイクロホンにどの程度の音量比で収音されたという情報を求め、その情報に基づいて、上記観測信号ベクトルを、音源ごとに分類し、その分類結果を出力する手段を含む、
    ことを特徴とする多音源有音区間判定装置。
  4. 請求項1から請求項3の何れかに記載の多音源有音区間判定装置において、
    上記観測信号分類手段は、上記各音源に対応するクラスタを、平均ベクトルと分散とを用いて多次元ガウス分布で表した各モデルに、上記情報を入力することにより各モデルごとの尤度を計算し、最も尤度が高くなるモデルを求め、その観測信号ベクトルは、その最も尤度が高くなるモデルのクラスタに対応する音源に属するという分類結果を時間周波数ごとに出力する手段を含む、
    ことを特徴とする多音源有音区間判定装置。
  5. 請求項4に記載の多音源有音区間判定装置において、
    上記観測信号分類手段は、予め定めた時間間隔Tごとに上記平均ベクトルを更新する平均ベクトル更新手段と、予め定めた時間間隔Tごとに上記分散を更新する分散更新手段との少なくとも一方を含む、
    ことを特徴とする多音源有音区間判定装置。
  6. 請求項1から請求項5の何れかに記載の多音源有音区間判定装置において、
    上記ノイズパワー推定手段は、予め定めた時間間隔Tごとに上記ノイズパワーを更新するノイズパワー更新手段を有し、
    上記観測信号分類手段は、上記推定されたノイズパワーの代わりに、上記更新されたノイズパワーを用いる、
    ことを特徴とする多音源有音区間判定装置。
  7. 請求項1から請求項6の何れかに記載の多音源有音区間判定装置において、
    複数のマイクロホンによってそれぞれ入力された信号に対して信号対雑音比を高める処理を行った信号を周波数領域に変換した時間周波数ごとの信号が、上記観測信号として入力されることを特徴とする多音源有音区間判定装置。
  8. 複数のマイクロホンによってそれぞれ入力され周波数領域に変換された時間周波数ごとの各観測信号から、マイクロホンと周波数の組み合せごとに、無音区間におけるノイズパワーを推定するノイズパワー推定ステップと、
    上記推定されたノイズパワーと、上記各観測信号とを用いて、上記各観測信号を成分とする時間周波数ごとの観測信号ベクトルを、音源ごとに分類し、その分類結果を出力する観測信号分類ステップと、
    上記分類結果を用いて、上記各観測信号を、音源ごとの信号に分離する信号分離ステップと、
    上記分離された音源ごとの信号から、各音源の有音区間又は無音区間を判定する有音区間判定ステップと、
    を有する多音源有音区間判定方法。
  9. 請求項8に記載の多音源有音区間判定方法において、
    上記観測信号分類ステップは、上記観測信号のパワーを上記推定されたノイズパワーで割った値に非線形変換を施した値と、予め定めた閾値との大小関係を時間周波数ごとに比較し、ある時間周波数において、すべてのマイクロホンの上記非線形変換を施した値が上記閾値未満であれば、その時間周波数の上記観測ベクトルはどの音源にも属さない、という分類結果を出力する無音判定ステップを含む、
    ことを特徴とする多音源有音区間判定方法。
  10. 請求項8又は請求項9に記載の多音源有音区間判定方法において、
    上記観測信号分類ステップは、各音源から発生した音がそれぞれのマイクロホンにどの程度の音量比で収音されたという情報を求め、その情報に基づいて、上記観測信号ベクトルを、音源ごとに分類し、その分類結果を出力するステップを含む、
    ことを特徴とする多音源有音区間判定方法。
  11. 請求項8から請求項10の何れかに記載の多音源有音区間判定方法において、
    上記観測信号分類ステップは、上記各音源に対応するクラスタを多次元ガウス分布で表した各モデルに、上記情報を入力することにより各モデルごとの尤度を計算し、最も尤度が高くなるモデルを求め、その観測信号ベクトルは、その最も尤度が高くなるモデルのクラスタに対応する音源に属するという分類結果を時間周波数ごとに出力するステップを含む、
    ことを特徴とする多音源有音区間判定方法。
  12. 請求項1から請求項7の何れかに記載の多音源有音区間判定装置としてコンピュータを機能させるための多音源有音区間判定プログラム。
  13. 請求項12に記載の多音源有音区間判定プログラムを記録した多音源有音区間判定プログラム記録媒体。
JP2006344045A 2006-12-21 2006-12-21 多音源有音区間判定装置、方法、プログラム及びその記録媒体 Expired - Fee Related JP4746533B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006344045A JP4746533B2 (ja) 2006-12-21 2006-12-21 多音源有音区間判定装置、方法、プログラム及びその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006344045A JP4746533B2 (ja) 2006-12-21 2006-12-21 多音源有音区間判定装置、方法、プログラム及びその記録媒体

Publications (2)

Publication Number Publication Date
JP2008158035A true JP2008158035A (ja) 2008-07-10
JP4746533B2 JP4746533B2 (ja) 2011-08-10

Family

ID=39659040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006344045A Expired - Fee Related JP4746533B2 (ja) 2006-12-21 2006-12-21 多音源有音区間判定装置、方法、プログラム及びその記録媒体

Country Status (1)

Country Link
JP (1) JP4746533B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010181467A (ja) * 2009-02-03 2010-08-19 Nippon Telegr & Teleph Corp <Ntt> 複数信号強調装置とその方法と、プログラム
JP2010187066A (ja) * 2009-02-10 2010-08-26 Nippon Telegr & Teleph Corp <Ntt> パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム
JP2010539538A (ja) * 2007-09-12 2010-12-16 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 雑音レベル推定値の調節を備えたスピーチ強調
WO2012105385A1 (ja) * 2011-02-01 2012-08-09 日本電気株式会社 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
WO2012105386A1 (ja) * 2011-02-01 2012-08-09 日本電気株式会社 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP2012181280A (ja) * 2011-02-28 2012-09-20 Sogo Keibi Hosho Co Ltd 音処理装置および音処理方法
JP2014092705A (ja) * 2012-11-05 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> 音響信号強調装置、音響信号強調方法、およびプログラム
JP2014112190A (ja) * 2012-11-05 2014-06-19 Nippon Telegr & Teleph Corp <Ntt> 信号区間分類装置、信号区間分類方法、およびプログラム
JP2014157261A (ja) * 2013-02-15 2014-08-28 Nippon Telegr & Teleph Corp <Ntt> 音源分離装置、音源分離方法、およびプログラム
US8856001B2 (en) 2008-11-27 2014-10-07 Nec Corporation Speech sound detection apparatus
JP2015045737A (ja) * 2013-08-28 2015-03-12 日本電信電話株式会社 信号区間分類装置、信号区間分類方法、およびプログラム
CN111788629A (zh) * 2018-02-20 2020-10-16 三菱电机株式会社 学习装置、声音区间检测装置及声音区间检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6481997A (en) * 1987-09-24 1989-03-28 Nec Corp Voice detection system
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP2004170552A (ja) * 2002-11-18 2004-06-17 Fujitsu Ltd 音声抽出装置
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2006208482A (ja) * 2005-01-25 2006-08-10 Sony Corp 会議の活性化を支援する装置,方法,プログラム及び記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6481997A (en) * 1987-09-24 1989-03-28 Nec Corp Voice detection system
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP2004170552A (ja) * 2002-11-18 2004-06-17 Fujitsu Ltd 音声抽出装置
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2006208482A (ja) * 2005-01-25 2006-08-10 Sony Corp 会議の活性化を支援する装置,方法,プログラム及び記録媒体

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010539538A (ja) * 2007-09-12 2010-12-16 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 雑音レベル推定値の調節を備えたスピーチ強調
US8856001B2 (en) 2008-11-27 2014-10-07 Nec Corporation Speech sound detection apparatus
JP2010181467A (ja) * 2009-02-03 2010-08-19 Nippon Telegr & Teleph Corp <Ntt> 複数信号強調装置とその方法と、プログラム
JP2010187066A (ja) * 2009-02-10 2010-08-26 Nippon Telegr & Teleph Corp <Ntt> パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム
US9245539B2 (en) 2011-02-01 2016-01-26 Nec Corporation Voiced sound interval detection device, voiced sound interval detection method and voiced sound interval detection program
WO2012105385A1 (ja) * 2011-02-01 2012-08-09 日本電気株式会社 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
US20130332163A1 (en) * 2011-02-01 2013-12-12 Nec Corporation Voiced sound interval classification device, voiced sound interval classification method and voiced sound interval classification program
US9530435B2 (en) 2011-02-01 2016-12-27 Nec Corporation Voiced sound interval classification device, voiced sound interval classification method and voiced sound interval classification program
JP5994639B2 (ja) * 2011-02-01 2016-09-21 日本電気株式会社 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
WO2012105386A1 (ja) * 2011-02-01 2012-08-09 日本電気株式会社 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP5974901B2 (ja) * 2011-02-01 2016-08-23 日本電気株式会社 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP2012181280A (ja) * 2011-02-28 2012-09-20 Sogo Keibi Hosho Co Ltd 音処理装置および音処理方法
JP2014112190A (ja) * 2012-11-05 2014-06-19 Nippon Telegr & Teleph Corp <Ntt> 信号区間分類装置、信号区間分類方法、およびプログラム
JP2014092705A (ja) * 2012-11-05 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> 音響信号強調装置、音響信号強調方法、およびプログラム
JP2014157261A (ja) * 2013-02-15 2014-08-28 Nippon Telegr & Teleph Corp <Ntt> 音源分離装置、音源分離方法、およびプログラム
JP2015045737A (ja) * 2013-08-28 2015-03-12 日本電信電話株式会社 信号区間分類装置、信号区間分類方法、およびプログラム
CN111788629A (zh) * 2018-02-20 2020-10-16 三菱电机株式会社 学习装置、声音区间检测装置及声音区间检测方法
CN111788629B (zh) * 2018-02-20 2023-08-15 三菱电机株式会社 学习装置、声音区间检测装置及声音区间检测方法

Also Published As

Publication number Publication date
JP4746533B2 (ja) 2011-08-10

Similar Documents

Publication Publication Date Title
JP4746533B2 (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
US10504539B2 (en) Voice activity detection systems and methods
JP6234060B2 (ja) ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
JP4728868B2 (ja) 応対評価装置、その方法、プログラムおよびその記録媒体
US20200066260A1 (en) Signal generation device, signal generation system, signal generation method, and computer program product
Yu et al. Robust speech recognition using a cepstral minimum-mean-square-error-motivated noise suppressor
JP4964204B2 (ja) 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
JP2010032792A (ja) 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体
JP4891801B2 (ja) 多信号強調装置、方法、プログラム及びその記録媒体
WO2017146073A1 (ja) 声質変換装置、声質変換方法およびプログラム
JP2015069063A (ja) 音声認識システム、音声認識方法、及び音声認識プログラム
JP2004279466A (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
Parmar et al. Effectiveness of cross-domain architectures for whisper-to-normal speech conversion
KR20190129805A (ko) 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
Eklund Data augmentation techniques for robust audio analysis
JP2006349723A (ja) 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP2012042664A (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
Seong et al. WADA-W: A modified WADA SNR estimator for audio-visual speech recognition
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
Oh et al. Vocabulary optimization process using similar phoneme recognition and feature extraction
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110509

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110513

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140520

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees