JP6139430B2 - 信号処理装置、方法及びプログラム - Google Patents

信号処理装置、方法及びプログラム Download PDF

Info

Publication number
JP6139430B2
JP6139430B2 JP2014025197A JP2014025197A JP6139430B2 JP 6139430 B2 JP6139430 B2 JP 6139430B2 JP 2014025197 A JP2014025197 A JP 2014025197A JP 2014025197 A JP2014025197 A JP 2014025197A JP 6139430 B2 JP6139430 B2 JP 6139430B2
Authority
JP
Japan
Prior art keywords
signal
segment
input signal
frame
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014025197A
Other languages
English (en)
Other versions
JP2015152705A (ja
Inventor
小川 厚徳
厚徳 小川
慶介 木下
慶介 木下
堀 貴明
貴明 堀
中谷 智広
智広 中谷
中村 篤
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014025197A priority Critical patent/JP6139430B2/ja
Publication of JP2015152705A publication Critical patent/JP2015152705A/ja
Application granted granted Critical
Publication of JP6139430B2 publication Critical patent/JP6139430B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Description

この発明は、音声信号、音響信号等の信号を処理するための技術に関する。
雑音や残響のある環境で音響信号を収音すると、本来の信号に音響歪み(雑音や残響)が重畳された信号が観測される。音響信号が音声の場合、重畳した音響歪みの影響により音声の明瞭度は大きく低下してしまう。その結果、本来の音声信号の性質を抽出することが困難となり、例えば、音声認識システムの認識率が低下する。この認識率の低下を防ぐためには、重畳した音響歪みを取り除く工夫が必要である。
そこで、以下に述べる従来の信号処理装置が提案されている。なお、この信号処理装置は、音声認識の他にも、例えば、補聴器、TV会議システム、機械制御インターフェース、楽曲を検索したり採譜したりする音楽情報処理システムなどに利用することが出来る。
[信号処理装置]
図1に従来の信号処理装置の機能構成例を示して、その動作を簡単に説明する。信号処理装置は、フーリエ変換部101と、特徴量生成部102と、マッチング部103と、音声強調フィルタリング部104と、事例モデル記憶部105とを備えている。
フーリエ変換部101には、雑音/残響を含む音声が入力信号として入力される。入力信号は例えば30ms程度の短時間ハミング窓で窓かけされ、窓かけされた入力信号は離散フーリエ変換を経て振幅スペクトルに変換される(ステップS1,図2)。振幅スペクトルとは、周波数スペクトルの振幅データのことである。振幅スペクトルは、特徴量生成部102及び音声強調フィルタリング部104に提供される。
特徴量生成部102は、フーリエ変換部101が出力する振幅スペクトルの全てを、例えばメルケプストラム特徴量に変換する(ステップS2,図2)。一般的に広く使われているメルケプストラムは高々10〜20次程度であるが、事例データを正確に表すために、高い次数(例えば、30〜100次程度)のメルケプストラムを用いる。なお、メルケプストラム以外の特徴量を用いても良い。生成された特徴量は、マッチング部103に提供される。
事例モデル記憶部105には、事例に対応したクリーン音声のデータと、フレームごとの特徴量に対して最大の尤度を与えるガウス混合分布のインデックスの系列(セグメント)である事例モデルMとが記憶されている。事例に対応したクリーン音声のデータとは、例えば事例に対応したクリーン音声の振幅スペクトルのことである。事例モデルMに含まれるセグメントの例を図3に示す。各セルはi番目の時間フレームに対応する。各セル内の数字は最大の尤度を与えるガウス混合分布g中のガウス分布のインデックスmiを表す。事例モデルは、音声コーパスなどから得られる大量のクリーン音声と、あらゆる環境で得られる雑音/残響データ(雑音信号の波形や、室内インパルス応答)とを用い、さまざま
な環境での観測信号を模擬生成し、その模擬観測信号を特徴量領域へ変換したものを用いて、事前に事例モデル生成装置によって生成され、予め事例モデル記憶部105に記憶される。この事例モデル生成装置の詳細については、後述する。
マッチング部103は、入力信号の特徴量と事例モデル記憶部105内に含まれる特徴量の事例とのマッチングを行い、入力信号に一番近い事例モデル中のセグメントを探索する(ステップS3,図2)。探索により見つかった入力信号に一番近い事例モデル中のセグメントについての情報は、音声強調フィルタリング部104に提供される。マッチング部103の詳細については、後述する。
音声強調フィルタリング部104は、マッチング部103で探索した入力信号に一番近い事例モデル中のセグメントに対応するクリーン音声の振幅スペクトルを用いて音声強調のためのフィルタを作成し、作成されたフィルタを用いて入力信号をフィルタリングする(ステップS4,図2)。入力信号に一番近い事例モデル中のセグメントに対応するクリーン音声の振幅スペクトルは、事例モデル記憶部105から読み込んだものを用いる。音声強調フィルタリング部104の詳細については、例えば非特許文献1及び特許文献1を参照のこと。
この信号処理装置によれば、従来は困難であった、非常に時間変化の多い雑音の除去が可能となることが報告されている。非常に時間変化の多い雑音とは、背景雑音に対して、例えば目覚まし時計のアラーム音などの雑音のことである。
[事例モデル生成装置]
ここで、事例モデル記憶部105に記憶される事例モデルを生成する事例モデル生成装置について説明する。図4に、事例モデル生成装置の機能構成例を示す。事例モデル生成装置は、フーリエ変換部201と、特徴量生成部202と、ガウス混合モデル学習部203と、最尤ガウス分布計算部204とを備えている。
事例モデル生成装置の各部の機能は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
事例モデル生成装置への入力は、様々な雑音/残響環境の音声データである。なお、この様々な雑音/残響環境の音声データの中には、クリーン環境の音声データが含まれているとする。この様々な雑音/残響環境の音声データのそれぞれについて以下の処理が行われる
フーリエ変換部201及び特徴量生成部202は、それぞれ図1のフーリエ変換部101及び特徴量生成部102と同様であるため、重複説明を省略する。
ガウス混合モデル学習部203は、特徴量生成部202で得られた各短時間フレームtでの特徴量xを学習データとして、通常の最尤推定法によりガウス混合モデルgを得る。ガウス混合モデルgは、以下の式により示される。
Figure 0006139430
g(x|m)は、平均μ、分散Σを持つm番目のガウス分布を表す。g(x|m)は、多くの場合多次元ガウス分布であり、その次元数は特徴量xの次元数と同じである。g(x|m)が多次元ガウス分布である場合、平均μ及び分散Σのそれぞれはベクトルとなる。ここでは、g(x|m)が多次元ガウス分布であったとしても、記載の簡略化のためg(x|m)のことを単にガウス分布と表現する。w(m)は、m番目のガウス分布に対する混合重みを表す。Qは混合数を表す。Qには、例えば、4096や8192など、かなり大きな値を設定する。
最尤ガウス分布計算部204は、各時間フレームiに対して最大の尤度を与えるガウス混合分布gの中のガウス分布のインデックスmを求め、そのインデックスmの時間系列を事例モデルMとして求める。事例モデルMは、ガウス分布のインデックスmの集合とガウス混合モデルgを用いて以下の式に示すように表される。
Figure 0006139430
ここで、mは、i番目のフレームの特徴量xに対して最大の尤度を与えるガウス分布のインデックスであり、ガウス混合分布mの中のガウス分布g(x|m)を表している。Iは学習データの総フレーム数を表す。例えば、1時間の学習データを仮定すると、I=3.5×10となる。生成された事例モデルMは、事例モデル記憶部105(図1)に記憶される。この事例モデルの生成は、様々な雑音/残響環境の学習データのそれぞれに対して行われる。
なお、環境がクリーンの場合は、フーリエ変換部201から出力された振幅スペクトルデータも事例モデル記憶部105(図1)に記憶される。
[マッチング部103の具体処理]
ここで、マッチング部103における処理を詳述する。簡単のためあるひとつの雑音/残響環境の事例モデルMのみを考える。また、簡単のため入力信号の特徴量系列と学習データセグメントのマッチングの際の時間伸縮は考えないものとする。マッチング部103は、入力信号の特徴量yと事例モデルMとを用いて、入力信号の特徴量系列に最も近い学習データのセグメントを探索し、入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与えると思われる学習データセグメントM u:u+τmaxを出力する。
入力信号は、T個の時間フレームから成るとし、その入力信号の特徴量系列をy={y:t=1,2,…,T}とする。また、yt:t+τを入力信号の特徴量の時間フレームtからt+τまでの系列とする。そして、Mu:u+τ={g,m:i=u,u+1,…,u+τ}を、学習データの中のu番目からu+τ番目までの連続する時間フレームに対応するガウス分布系列とする。
入力信号の特徴量系列yt:t+τと学習データの中のあるセグメントとの距離の定義や、入力信号の特徴量系列yt:t+τと一番近い学習データの探索方法としては、ユークリッド距離など、他のいくつかの方法を考えることが出来る。ここでは、入力信号の特徴量系列に対する一番近い学習データセグメントは、入力信号の特徴量系列に良く一致する学習データセグメントの中でも長さの最も長いものとする。つまり、入力信号の特徴量系列に最も近い学習データセグメントM u:u+τは、次式に示す事後確率を最大化することで求めることが出来る。
Figure 0006139430
ここで、p(Mu:u+τ|yt:t+τ)は事後確率を表し、yt:t+τとMu:u+τが比較的よく一致している場合、τが長ければ長いほど高い事後確率を与えるという特徴を持っている。この特徴の証明は、非特許文献1に詳述されている。より長いセグメントを探索するという方策を取ることで、ある時間に局所的に存在する雑音などの影響を受け難くなり、雑音などに対して比較的ロバストなマッチングが行われることが期待できる。
式(2)の分子の項p(yt:t+τ|Mu:u+τ)は、Mu:u+τに対応する学習データセグメントに対するyt:t+τの尤度である。その尤度は次式で計算される。
Figure 0006139430
簡単のため、隣り合うフレームは独立であることを仮定している。式(2)の分母の第1項は、学習データ中のあらゆる時間フレームu’を開始点として,p(yt:t+τ|Mu’:u’+τ)の和を取ったものである。式(2)の分母の第2項は、ガウス混合モデルgに対するyt:t+τの尤度であり、次式で計算される。
Figure 0006139430
ここでマッチング部103におけるセグメント探索処理の手順を更に具体的に記述する。まず、セグメントの最大長を(τlim+1)フレームに制限する。例えば、セグメントの最大長を30フレームと制限するならば、τlim=29である。この制限の下で、まず、τ=0、すなわち、セグメント長=1として、式(2)に従い、最大事後確率を与えるセグメント長=1のセグメントを見つける。次にτ=1、すなわち、セグメント長=2として、式(2)に従い、最大事後確率を与えるセグメント長=2のセグメントを見つける。この処理をτ=τlimまで繰り返し、最後に、見つかった異なる長さのセグメント候補の中から,最大事後確率を与えるセグメントを見つける。その最大事後確率を与えるセグメントの長さがτmaxである。
このマッチング部103におけるセグメント探索処理は、図3に示すような、Iフレーム分のリニアなメモリで表現できる事例モデルM上で行うことができる。
J. Ming and R. Srinivasan, and D. Crooke, "A Corpus-Based Approach to Speech Enhancement From Nonstationary Noise," IEEE Trans. On Acoustics, Speech and Signal Processing, 19(4), pp. 822-836, 2011.
特開2013−37174号公報
従来の信号処理装置では、マッチング部103において、入力信号に一番近いセグメントを探索する際に、異なる長さのセグメントを比較している。しかし、本来は異なる長さのセグメントの比較はできない。このため、従来の信号処理装置においては、必ずしも精度の高いセグメント探索ができているとは限らなかった。
この発明は、従来よりも精度の高いセグメント探索を行うことができる信号処理装置、方法及びプログラムを提供することを目的とする。
この発明の一態様による信号処理装置は、所定の信号の各フレームの特徴量に対して最大の尤度を与える、ガウス混合分布の中のガウス分布のインデックスの系列であるセグメントが記憶されている事例モデル記憶部と、事例モデル記憶部に記憶されているセグメントを候補として、入力信号の特徴量系列に対して最大の事後確率を与えるセグメントを探索するマッチング部と、を備えており、入力信号を2つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、マッチング部における事後確率は、前半部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度と、後半部分信号についてガウス混合分布によるモデルに基づいて評価した尤度とを用いて表現される。
精度の高いセグメント探索を行うことができる。
信号処理装置の例を説明するためのブロック図。 信号処理方法の例を説明するためのフローチャート。 セグメントの例を説明するための図。 事例モデル生成装置の例を説明するための図。 式(7)によるセグメント評価を説明するための図。
以下、図面を参照して、信号処理装置及び方法の実施形態を説明する。
この実施形態による信号処理装置は、従来の信号処理装置と同様に、図1に例示するように、フーリエ変換部101と、特徴量生成部102と、マッチング部103と、音声強調フィルタリング部104と、事例モデル記憶部105とを備えている。
以下、従来とは異なる部分である、マッチング部103を中心に説明する。第一実施形態による信号処理装置のフーリエ変換部101と、特徴量生成部102と、音声強調フィルタリング部104とは、それぞれ従来の信号処理装置のフーリエ変換部101と、特徴量生成部102と、音声強調フィルタリング部104と同様であるため、重複説明を省略する。
この実施形態による信号処理装置は、マッチング部103において、異なるセグメント長のセグメントを、フレームという共通の長さの下で公平に評価することにより、入力信号に一番近いセグメントを探索する。
この実施形態のマッチング部103では、式(3)の代わりに、所定の長さのフレームの入力信号の特徴量系列yt:t+τの尤度を、事例モデルMとガウス混合モデルgの両方を用いて計算する。すなわち、yt:t+τをyt:t+νとyt+ν+1:t+τに分割して(0≦ν≦τ)、前者をMで、後者をgで、評価する形にする。具体的には入力信号の特徴量系列yt:t+τの尤度は、次式のように計算される。
Figure 0006139430
ここで、p(yt:t+ν|Mu:u+ν)は、事例モデルMu:u+νが与えられたときの入力信号の特徴量系列のyt:t+νの尤度を表す。p(yt+ν+1:t+τ|φu+ν+1:u+τ)は、混合モデルφu+ν+1:u+τが与えられたときの入力信号の特徴量系列yt:t+νの尤度を表す。φu+ν+1:u+τは、フレームu+ν+1からフレームu+τに対応するガウス混合分布である。p(yt:t+ν|Mu:u+ν, φu+ν+1:u+τ)は、事例モデルMu:u+ν及び混合モデルφu+ν+1:u+τが与えられたときの入力信号の特徴量系列yt:t+νの尤度を表す。
t:t+νは、入力信号の特徴量系列yt:t+τのうち事例モデルのセグメントMu:u+νに対応する長さの入力信号の特徴量系列である。言い換えれば、yt:t+νは、フレームtからフレームt+νに対応する入力信号の特徴量系列である。yt+ν+1:t+τは、入力信号の特徴量系列yt:t+τのうち事例モデルのセグメントMu:u+νの長さを超える部分の入力信号の特徴量系列である。言い換えれば、yt+ν+1:t+τは、フレームt+ν+1からフレームt+τに対応する入力信号の特徴量系列である。
すなわち、式(5)は、評価対象の入力信号を所定長(ここではτ+1)の入力信号として、評価対象の入力信号の特徴量系列のうち事例モデルに基づいて評価できる部分は事例モデルで尤度p(yt:t+ν|Mu:u+ν)を評価し、事例モデルのセグメントMu:u+νで評価できない(事例モデルのセグメントの長さを超える部分の)評価対象の入力信号の特徴量系列yt+ν+1:t+τについては混合モデルgに基づいて尤度p(yt+ν+1:t+τ|φu+ν+1:u+τ)を評価することを意味する。
言い換えれば、入力信号を2つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、マッチング部103が式(4)に基づいて計算する尤度は、前半部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度p(yt:t+ν|Mu:u+ν)と、後半部分信号について上記ガウス混合分布によるモデルに基づいて評価した尤度p(yt+ν+1:t+τ|φu+ν+1:u+τ)とが統合された尤度であると言える。
混合モデルgに基づく尤度は、モデル全体で平滑化した尤度のようなものに相当する。事例モデルで評価できない部分については平均的な尤度で代用することで、等しいフレーム長で入力信号を公平に評価しようとするものである。
このyt:t+τの尤度を用いて,マッチング部103ではyt:t+τに最も適合するセグメントM u:u+νmaxを次式(6)(7)に従い求める。t,τ,u,ν,u’,ν’は整数である。
Figure 0006139430
ここで、式(7)の分母は、学習データのあらゆる開始点u’と、yt:t+τのあらゆる分割点ν’について、p(yt:t+τ|Mu′:u′+ν′,φu′+ν′+1:u′+τ)の和を取ったものである。
式(7)により定義される事後確率p(Mu:u+ν,φu+ν+1:u+τ|yt:t+τ)は、上記式(4)及び上記式(5)に示したように、入力信号を2つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度p(yt:t+ν|Mu:u+ν)と、後半部分信号について上記ガウス混合分布によるモデルに基づいて評価した尤度p(yt+ν+1:t+τ|φu+ν+1:u+τ)とを用いて表現される。
セグメントの最大長を、従来の方法と同様に、(τlim+1)フレームに制限する。例
えば、セグメントの最大長を30フレームと制限するならば、τlim=29となる。この
制限の下での式(7)によるセグメント評価を図示すると、図のようになる。この図から明らかなように、この実施形態によれば、あらゆるセグメント長のセグメントが、(τlim+1)フレームという共通の長さの下で、公平に評価されていることがわかる。別の見方をすれば、この実施形態によれば、最適なセグメント長(νmax)と,セグメント開
始点(u)の探索を同時に行っていることになる。
以下、本発明による式(7)の事後確率が、従来手法による式(2)の事後確率と同様に、yt:t+τとMu:u+τが比較的よく一致している場合、τが長ければ長いほど高い事後確率を与えるという特徴を持っていることを証明する。このため,yt:t+τをyt:t+νとyt+ν+1:t+τに分割して前者をMで後者をgで評価する場合(式(4))と、yt:t+τをyt:t+ν-1とyt+ν:t+τに分割して前者をMで後者をgで評価する場合とで、事後確率の大小を比較する。
式(7)から明らかなように、両場合において分母は等しくなるので、両場合の比は、式(4)から、以下の尤度比に等しくなる。
Figure 0006139430
ここで、yt+νがmu+νによく一致していると仮定する。この場合、式(8)の分母は、w(mu+ν)g(yt+ν|mu+ν)と近似できる。よって、式(8)は、1/w(mu+ν)に等しい。w(mu+ν)は1以下であるので、式(8)は1以上になる。これにより、yt:t+τとMu:u+τが比較的よく一致している場合、τが長ければ長いほど式(7)で計算される事後確率が高くなるという特徴を持っていることが分かる。
[変形例等]
なお、この発明は、複数の雑音/残響環境の事例モデルを考慮する場合、及び、マッチング時に時間伸縮を考える場合についても、非特許文献1に記載されているように、拡張可能である。
上記信号処理装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、信号処理装置における各部をコンピュータによって実現する場合、信号処理装置の各部が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各部がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
101 フーリエ変換部
102 特徴量生成部
103 マッチング部
104 音声強調フィルタリング部
105 事例モデル記憶部

Claims (4)

  1. 所定の信号の各フレームの特徴量に対して最大の尤度を与える、ガウス混合分布の中のガウス分布のインデックスの系列であるセグメントが記憶されている事例モデル記憶部と、
    上記事例モデル記憶部に記憶されているセグメントを候補として、入力信号の特徴量系列に対して最大の事後確率を与えるセグメントを探索するマッチング部と、を含み、
    上記入力信号を2つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、
    上記マッチング部における事後確率は、上記前半部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度と、上記後半部分信号について上記ガウス混合分布によるモデルに基づいて評価した尤度とを用いて表現される、
    信号処理装置。
  2. 請求項1の信号処理装置であって、
    t,τ,u,ν,u’,ν’を整数とし、フレームtからフレームt+τに対応する上記入力信号の特徴量をyt:t+τとし、上記事例モデル記憶部に記憶されているフレームuからフレームu+νに対応するセグメントをMu:u+νとし、フレームu+ν+1からフレームu+τに対応する上記ガウス混合分布をφu+ν+1:u+τとし、Mu:u+ν及びφu+ν+1:u+τが与えられたときのyt:t+τの事後確率をp(yt:t+τ|Mu:u+ν,φu+ν+1:u+τ)として、
    上記事後確率は、以下に定義されるp(Mu:u+ν,φu+ν+1:u+τ|yt:t+τ)である、
    Figure 0006139430

    信号処理装置。
  3. 事例モデル記憶部には、所定の信号の各フレームの特徴量に対して最大の尤度を与える、ガウス混合分布の中のガウス分布のインデックスの系列であるセグメントが記憶されているとして、
    マッチング部が、上記事例モデル記憶部に記憶されているセグメントを候補として、入力信号の特徴量系列に対して最大の事後確率を与えるセグメントを探索するマッチングステップと、を含み、
    上記入力信号を2つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、
    上記マッチングステップにおける事後確率は、上記前半部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度と、上記後半部分信号について上記ガウス混合分布によるモデルに基づいて評価した尤度とを用いて表現される、
    信号処理方法。
  4. 請求項1又は2の信号処理装置の各部としてコンピュータを機能させるためのプログラム。
JP2014025197A 2014-02-13 2014-02-13 信号処理装置、方法及びプログラム Active JP6139430B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014025197A JP6139430B2 (ja) 2014-02-13 2014-02-13 信号処理装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014025197A JP6139430B2 (ja) 2014-02-13 2014-02-13 信号処理装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015152705A JP2015152705A (ja) 2015-08-24
JP6139430B2 true JP6139430B2 (ja) 2017-05-31

Family

ID=53895041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014025197A Active JP6139430B2 (ja) 2014-02-13 2014-02-13 信号処理装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6139430B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6499095B2 (ja) * 2016-01-29 2019-04-10 日本電信電話株式会社 信号処理方法、信号処理装置及び信号処理プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0968996A (ja) * 1995-09-01 1997-03-11 Oki Electric Ind Co Ltd 音声認識方法
JP4298672B2 (ja) * 2005-04-11 2009-07-22 キヤノン株式会社 混合分布hmmの状態の出力確率計算方法および装置
JP5309343B2 (ja) * 2011-08-01 2013-10-09 Kddi株式会社 パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP5634959B2 (ja) * 2011-08-08 2014-12-03 日本電信電話株式会社 雑音/残響除去装置とその方法とプログラム
JP5819147B2 (ja) * 2011-09-15 2015-11-18 株式会社日立製作所 音声合成装置、音声合成方法およびプログラム

Also Published As

Publication number Publication date
JP2015152705A (ja) 2015-08-24

Similar Documents

Publication Publication Date Title
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
EP3469582A1 (en) Neural network-based voiceprint information extraction method and apparatus
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
Lindgren et al. Speech recognition using reconstructed phase space features
CN111292763A (zh) 重音检测方法及装置、非瞬时性存储介质
Xu et al. Language independent query-by-example spoken term detection using n-best phone sequences and partial matching
JP5974901B2 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
Qais et al. Deepfake audio detection with neural networks using audio features
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP6244297B2 (ja) 音響スコア算出装置、その方法及びプログラム
Poorjam et al. A parametric approach for classification of distortions in pathological voices
KR102220964B1 (ko) 오디오 인식을 위한 방법 및 디바이스
JP6139430B2 (ja) 信号処理装置、方法及びプログラム
Tanweer et al. Analysis of combined use of nn and mfcc for speech recognition
JP6499095B2 (ja) 信号処理方法、信号処理装置及び信号処理プログラム
JP6142401B2 (ja) 音声合成モデル学習装置、方法、及びプログラム
JPWO2016152132A1 (ja) 音声処理装置、音声処理システム、音声処理方法、およびプログラム
JP6139429B2 (ja) 信号処理装置、方法及びプログラム
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
Harvianto et al. Analysis and voice recognition In Indonesian language using MFCC and SVM method
JP6734233B2 (ja) 信号処理装置、事例モデル生成装置、照合装置、信号処理方法及び信号処理プログラム
JP7333878B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
US20230169977A1 (en) Sound Extraction System and Sound Extraction Method
Wiśniewski et al. Improved approach to automatic detection of speech disorders based on the Hidden Markov Models approach
Singh et al. Hypernetworks for Sound event Detection: a Proof-of-Concept

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170307

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170427

R150 Certificate of patent or registration of utility model

Ref document number: 6139430

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150