JP5949550B2 - 音声認識装置、音声認識方法、及びプログラム - Google Patents

音声認識装置、音声認識方法、及びプログラム Download PDF

Info

Publication number
JP5949550B2
JP5949550B2 JP2012534081A JP2012534081A JP5949550B2 JP 5949550 B2 JP5949550 B2 JP 5949550B2 JP 2012534081 A JP2012534081 A JP 2012534081A JP 2012534081 A JP2012534081 A JP 2012534081A JP 5949550 B2 JP5949550 B2 JP 5949550B2
Authority
JP
Japan
Prior art keywords
speech
threshold
likelihood
model
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012534081A
Other languages
English (en)
Other versions
JPWO2012036305A1 (ja
Inventor
田中 大介
大介 田中
隆行 荒川
隆行 荒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2012036305A1 publication Critical patent/JPWO2012036305A1/ja
Application granted granted Critical
Publication of JP5949550B2 publication Critical patent/JP5949550B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は音声認識装置、音声認識方法、及びプログラムに関し、特に背景雑音に頑健な音声認識装置、音声認識方法、及びプログラムに関する。
一般的な音声認識装置は、マイクロフォンなどで集音された入力音の時系列から、特徴量を抽出する。音声認識装置は、認識対象となる音声モデル(語彙又は音素等のモデル)と認識対象以外の非音声モデルとを用いて特徴量の時系列に対する尤度を計算する。音声認識装置は、計算した尤度に基づいて入力音の時系列に対応する単語列をサーチし、認識結果を出力する。
しかしながら、背景雑音、回線ノイズ、又はマイクを叩く音などの突発的な雑音などが存在する場合、誤った認識結果が得られることがある。このような認識対象以外の音の悪影響を抑えるために複数の提案がなされている。
非特許文献1に記載の音声認識装置は、上記の問題を、音声判定処理と音声認識処理のそれぞれから算出した音声区間を比較することで解決する。図7は、非特許文献1に記載されている音声認識装置の機能構成を示すブロック図である。非特許文献1の音声認識装置は、マイクロフォン11とフレーム化部12と音声判定部13と補正値算出部14と特徴量算出部15と非音声モデル格納部16と音声モデル格納部17とサーチ部18とパラメータ更新部19とから構成される。
マイクロフォン11は、入力音を集音する。フレーム化部12は、マイクロフォン11で集音された入力音の時系列を単位時間のフレーム毎に切り出す。音声判定部13は、フレーム毎に切り出された入力音の時系列毎に音声らしさを示す特徴量を求め、閾値と比較することにより、第1の音声区間を判定する。補正値算出部14は、音声らしさを示す特徴量と閾値から各モデルに対する尤度の補正値を算出する。特徴量算出部15は、フレーム毎に切り出された入力音の時系列から音声認識に用いる特徴量を算出する。非音声モデル格納部16は、認識対象となる音声以外のパターンを表す非音声モデルを格納する。音声モデル格納部17は、認識対象となる音声の語彙又は音素のパターンを表す音声モデルを格納する。サーチ部18は、フレーム毎の音声認識に用いる特徴量と音声モデルと非音声モデルとを用いて、上述の補正値によって補正された、該特徴量の各モデルに対する尤度に基づいて入力音に対応する単語列(認識結果)を求めると共に、第2の音声区間(発声区間)を求める。パラメータ更新部19は、音声判定部13から第1の音声区間が入力され、サーチ部18から第2の音声区間が入力される。パラメータ更新部19は、第1の音声区間と第2の音声区間とを比較し、音声判定部13で用いる閾値を更新する。
非特許文献1の音声認識装置は、パラメータ更新部19で第1の音声区間と第2の音声区間とを比較し、音声判定部13で用いる閾値を更新する。以上の構成により、非特許文献1の音声認識装置は、閾値が雑音環境に対して正しく設定されていない、もしくは雑音環境が時刻に応じて変動するような場合であっても、尤度の補正値を正確に求めることができる。
また、非特許文献1は、第2の音声区間(発声区間)と第2の音声区間外の音声区間(非発声区間)とに関して、それぞれの区間をパワー特徴量の度数分布図(ヒストグラム)で表し、その交点を閾値とする方法を開示している。図8は、非特許文献1が開示する閾値の決定方法の例を説明する図である。図8に示すように、非特許文献1は、縦軸を入力音のパワー特徴量の出現確率の軸、横軸をパワー特徴量の軸としたときの、発声区間の出現確率曲線と、非発声区間の出現確率曲線との交点を閾値とする方法を開示している。
「長区間に渡る特徴量を用いてパラメタを更新する音声検出手法」日本音響学会 2010年春季研究発表会、田中大介、講演論文集2010年3月1日発行
しかしながら、非特許文献1に記載の方法で音声判定の閾値を決定する場合、初期に設定した閾値が正しい値から大きく外れていた場合、閾値を正しく決定することが困難となる。
図9は、非特許文献1に記載されている閾値の決定方法における問題点を説明するための図である。例えば、事前調査が足りないなどの理由により、システム稼働初期段階における入力波形を音声判定部13で判定するための閾値(初期閾値)が低く設定されてしまうことがある。その場合、非特許文献1の音声認識システムは、本来非音声区間である区間を音声区間として認識してしまう。その状況をヒストグラムで表すと、図9に示すように、非音声区間の出現確率が特徴量の少ない位置に極端に集中するのに対し、音声区間の出現確率は全体的に広い曲線を描く。そのため、この2つの曲線の交点は望ましい閾値よりかなり低いままとなってしまう。
以上より本発明の目的は、初期に設定した閾値が正しい値から大きく外れていた場合においても、理想的な閾値を推定することが可能な音声認識装置、音声認識方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明における音声認識装置の一側面は、入力音の時系列から音声らしさを示す特徴量を抽出し、音声と非音声を判定する閾値候補を生成する閾値候補生成手段と、前記音声らしさを示す特徴量を複数の前記閾値候補と比較することにより、各々の音声区間を判定し、その判定結果としての判定情報を出力する音声判定手段と、音声モデルと、非音声モデルとを用いて、前記判定情報によって示される前記各々の音声区間を修正するサーチ手段と、前記修正された各々の音声区間中の、発声区間と非発声区間の前記特徴量の分布形状に基づいて、音声区間判定のための閾値を推定して更新するパラメータ更新手段と、を含む。
また、上記目的を達成するため、本発明における音声認識方法の一側面は、入力音の時系列から音声らしさを示す特徴量を抽出し、音声と非音声を判定する閾値候補を生成し、前記音声らしさを示す特徴量を複数の前記閾値候補と比較することにより、各々の音声区間を判定し、その判定結果としての判定情報を出力し、音声モデルと、非音声モデルとを用いて、前記判定情報によって示される前記各々の音声区間を修正し、前記修正された各々の音声区間中の、発声区間と非発声区間の前記特徴量の分布形状に基づいて、音声区間判定のための閾値を推定して更新する。
さらに、上記目的を達成するため、本発明における記録媒体に格納されるプログラムの一側面は、入力音の時系列から音声らしさを示す特徴量を抽出し、音声と非音声を判定する閾値候補を生成し、前記音声らしさを示す特徴量を複数の前記閾値候補と比較することにより、各々の音声区間を判定し、その判定結果としての判定情報を出力し、音声モデルと、非音声モデルとを用いて、前記判定情報によって示される前記各々の音声区間を修正し、前記修正された各々の音声区間中の、発声区間と非発声区間の前記特徴量の分布形状に基づいて、音声区間判定のための閾値を推定して更新する、処理をコンピュータに実行させる。
本発明における音声認識装置、音声認識方法、及びプログラムによれば、初期に設定した閾値が正しい値から大きく外れていた場合においても、理想的な閾値を推定することができる。
本発明の第1の実施形態における音声認識装置100の機能構成を示すブロック図である。 第1の実施形態における音声認識装置100の動作を示すフロー図である。 入力音の時系列と音声らしさを示す特徴量の時系列を示す図である。 本発明の第2の実施形態における音声認識装置200の機能構成を示すブロック図である。 本発明の第3の実施形態における音声認識装置300の機能構成を示すブロック図である。 本発明の第4の実施形態における音声認識装置400の機能構成を示すブロック図である。 非特許文献1に記載されている音声認識装置の機能構成を示すブロック図である。 非特許文献1が開示する閾値の決定方法の例を説明する図である。 非特許文献1に記載されている閾値の決定方法における問題点を説明するための図である。 本発明の各実施形態における音声認識装置のハードウェア構成の一例を示すブロック図である。
以下、本発明の実施形態について説明する。なお、各実施形態の音声認識装置を構成する各部は、制御部、メモリ、メモリにロードされたプログラム、プログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インターフェースなどからなり、任意のソフトウェアが組合わされたハードウェアによって実現される。そして特に断りのない限り、その実現方法、装置は限定されない。
図10は、本発明の各実施形態における音声認識装置のハードウェア構成の一例を示すブロック図である。
制御部1は、CPU(Central Processing Unit。以下同様。)などからなり、オペレーティングシステムを動作させて音声認識装置の各部の全体を制御する。また、制御部1は、例えばドライブ装置4などに装着された記録媒体5からメモリ3にプログラムやデータを読み出し、これにしたがって各種の処理を実行する。
記録媒体5は、例えば光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、半導体メモリ等であって、コンピュータプログラムをコンピュータ読み取り可能に記録する。また、コンピュータプログラムは、通信IF2(インターフェース2)を介して通信網に接続されている図示しない外部コンピュータからダウンロードされても良い。
また、各実施形態の説明において利用するブロック図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。これらの機能ブロックはハードウェア又はハードウェアに任意に組み合わされたソフトウェアによって実現される。また、これらの図においては、各実施形態の構成部は物理的に結合した一つの装置により実現されるよう記載されている場合もあるが、その実現手段は特に限定されない。すなわち、二つ以上の物理的に分離した装置を有線または無線で接続し、これら複数の装置により、各実施形態の装置をシステムとして実現しても良い。
<第1の実施形態>
まず、第1の実施形態における音声認識装置100の機能構成について説明する。
図1は、第1の実施形態における音声認識装置100の機能構成を示すブロック図である。図1に示すように、音声認識装置100は、マイクロフォン101とフレーム化部102と閾値候補生成部103と音声判定部104と補正値算出部105と特徴量算出部106と非音声モデル格納部107と音声モデル格納部108とサーチ部109とパラメータ更新部110とを含む。
音声モデル格納部108は、認識対象となる音声の語彙又は音素のパターンを表す音声モデルを格納する。
非音声モデル格納部107は、認識対象となる音声以外のパターンを表す非音声モデルを格納する。
マイクロフォン101は、入力音を集音する。
フレーム化部102は、マイクロフォン101で集音された入力音の時系列を単位時間のフレーム毎に切り出す。
閾値候補生成部103は、フレーム毎に出力された入力音の時系列から音声らしさを示す特徴量を抽出し、音声と非音声を判定するための閾値候補を複数生成する。例えば、閾値候補生成部103は、フレーム毎の特徴量の最大値及び最小値に基づいて複数の閾値候補を生成しても良い(詳細は後述する)。音声らしさを示す特徴量は、振幅パワー、SN比、ゼロ交差数、GMM(Gaussian mixture model)尤度比、ピッチ周波数等で良く、他の特徴量であっても良い。閾値候補生成部103は、フレーム毎の音声らしさを示す特徴量と、生成した複数の閾値候補とを、データとして音声判定部104に出力する。
音声判定部104は、閾値候補生成部103が抽出した音声らしさを示す特徴量と複数の閾値候補とを比較することにより、複数の閾値候補のそれぞれに対応する各々の音声区間を判定する。すなわち、音声判定部104は、複数の閾値候補それぞれに対する音声区間または非音声区間の判定情報を、判定結果としてサーチ部109に出力する。音声判定部104は、該判定情報を、図1に示すように補正値算出部105を経由してサーチ部109に出力しても良いし、直接サーチ部109に出力しても良い。該判定情報は、後述するパラメータ更新部110が記憶する閾値を更新するために閾値候補毎に複数生成される。
補正値算出部105は、閾値候補生成部103が抽出した音声らしさを示す特徴量と、パラメータ更新部110が記憶する閾値とから、各モデル(音声モデルと非音声モデルの各モデル)に対する尤度の補正値を算出する。補正値算出部105は、音声モデルに対する尤度の補正値と、非音声モデルに対する尤度の補正値のうち少なくともいずれか一方を算出しても良い。補正値算出部105は、尤度の補正値を、サーチ部109に、後述する音声認識処理および音声区間の修正処理のために出力する。
補正値算出部105は、音声モデルに対する尤度の補正値として、音声らしさを示す特徴量からパラメータ更新部110が記憶する閾値を減算した値を用いても良い。また、補正値算出部105は、非音声モデルに対する尤度の補正値として、閾値から音声らしさを示す特徴量を減算した値を用いても良い(詳細は後述する)。
特徴量算出部106は、フレーム毎に切り出された入力音の時系列から音声認識に用いる特徴量を算出する。音声認識に用いる特徴量は、公知のスペクトルパワー、メルケプストラム係数(MFCC)、又はそれらの時間差分など様々である。さらに、音声認識に用いる特徴量は、振幅パワーやゼロ交差数などの音声らしさを示す特徴量を包含し、また、音声らしさを示す特徴量と同じ特徴量でも良い。また、音声認識に用いる特徴量は、公知のスペクトルパワーと振幅パワーなど、複数の特徴量であっても良い。以降の説明においては、音声認識に用いる特徴量は、音声らしさを示す特徴量を含んで、単に「音声特徴量」と記載して説明する。
また、特徴量算出部106は、パラメータ更新部110が記憶する閾値に基づいて、音声区間の判定を行い、該音声区間中の音声特徴量をサーチ部109に出力する。
サーチ部109は、音声特徴量と尤度の補正値に基づいて認識結果を出力するための音声認識処理と、パラメータ更新部110が記憶する閾値を更新するための各々の音声区間(音声判定部104で判定した各々の音声区間)の修正処理を実行する。
まず、音声認識処理について説明する。サーチ部109は、特徴量抽出部106から入力された音声区間中の音声特徴量と、音声モデル格納部108が格納する音声モデルと、非音声モデル格納部107が格納する非音声モデルとを用いて、入力音の時系列に対応する単語列(認識結果である発声音)を探索する。この時、サーチ部109は、音声特徴量が各モデルに対して最尤となる単語列を探索しても良い。この場合、サーチ部109は、補正値算出部105からの尤度の補正値を用いる。サーチ部109は、探索した単語列を認識結果として出力する。なお、以降の説明では、単語列(発声音)の対応する音声区間を発声区間と定義し、発声区間以外の音声区間を非発声区間と定義する。
次に、音声区間の修正処理について説明する。サーチ部109は、音声らしさを示す特徴量と、音声モデルと、非音声モデルとを用いて、音声判定部104からの判定情報として示された各々の音声区間の修正を行う。すなわち、サーチ部109は、音声区間の修正処理を、閾値候補生成部103が生成した閾値候補の数だけ繰り返す。サーチ部109が行う音声区間の修正処理についての詳細は、後述する。
パラメータ更新部110は、サーチ部109で修正された各々の音声区間からヒストグラムを作成し、補正値算出部105と特徴量算出部106とで用いる閾値を更新する。具体的には、パラメータ更新部110は、修正された各々の音声区間中の発声区間と、非発声区間の音声らしさを示す特徴量の分布形状から閾値を推定して更新する。パラメータ更新部110は、修正された各々の音声区間に対して、それぞれ発声区間と非発声区間の音声らしさを示す特徴量のヒストグラムから閾値を算出して、複数の閾値の平均値を新たな閾値と推定して更新しても良い。また、パラメータ更新部110は、更新したパラメータを記憶し、必要に応じて補正値算出部105と特徴量算出部106とに供給する。
次に、図1及び図2のフロー図を参照して、第1の実施形態における音声認識装置100の動作について説明する。
図2は、第1の実施形態における音声認識装置100の動作を示すフロー図である。図2に示すように、まずマイクロフォン101は入力音を集音し、次にフレーム化部102は集音された入力音の時系列を単位時間のフレーム毎に切り出す(ステップS101)。
次に閾値候補生成部103は、フレーム化部102によってフレーム毎に切り出された入力音の時系列毎に音声らしさを示す特徴量を抽出し、該特徴量に基づいて複数の閾値候補を生成する(ステップS102)。
次に音声判定部104は、閾値候補生成部103が抽出した音声らしさを示す特徴量を、閾値候補生成部103が生成した複数の閾値候補とそれぞれ比較することにより各々の音声区間を判定し、判定情報を出力する(ステップS103)。
次に補正値算出部105は、音声らしさを示す特徴量とパラメータ更新部110が記憶する閾値から各モデルに対する尤度の補正値を算出する(ステップS104)。
次に特徴量算出部106は、フレーム化部102によってフレーム毎に切り出された入力音の時系列から音声特徴量を算出する(ステップS105)。
次にサーチ部109は、音声認識処理と音声区間の修正処理を行う。すなわちサーチ部109は、音声認識(単語列の探索)を行い、音声認識結果を出力すると共に、フレーム毎の音声らしさを示す特徴量と、音声モデルと、非音声モデルとを用いて、ステップ103で判定情報として示された各々の音声区間を修正する(ステップS106)。
次にパラメータ更新部110は、サーチ部109によって修正された複数の音声区間から閾値(理想的な閾値)を推定して更新する(ステップS107)。
次に、上記の各ステップについて詳細に説明する。
まず、ステップS101において、フレーム化部102が行う、集音された入力音の時系列を単位時間のフレーム毎に切り出す処理について説明する。例えば、入力音データがサンプリング周波数8000Hzの16bit Linear−PCMの場合、1秒当たり8000点分の波形データが格納されている。フレーム化部102は、この波形データをフレーム幅200点(25ミリ秒)、フレームシフト80点(10ミリ秒)で時系列に従って逐次切り出すことなどが考えられる。
次に、ステップS102について詳細に説明する。図3は、入力音の時系列と音声らしさを示す特徴量の時系列を示す図である。図3に示すように、音声らしさを示す特徴量は、例えば振幅パワーなどでも良い。振幅パワーxt(式1では、tは下付添え字で示す)は以下の式1で算出しても良い。
Figure 0005949550
ここでSは時刻tの入力音のデータ(波形データ)の値である。図3においては振幅パワーを用いたが、音声らしさを示す特徴量は上記したように、ゼロ交差数や、音声モデルと非音声モデルとの尤度比、ピッチ周波数又はSN比など他の特徴量でも良い。閾値候補生成部103は、複数の閾値候補を、一定区間の音声区間及び非音声区間に対して式2を用いて複数のθiを算出することで生成しても良い。
Figure 0005949550
ここでfminは、上述した一定区間の音声区間中及び非音声区間中の最小特徴量である。fmaxは、上述した一定区間の音声区間中及び非音声区間中の最大特徴量である。Nは、一定区間の音声区間及び非音声区間の分割数である。ユーザは、より正確な閾値を出したいときはNを大きくしても良い。また、雑音環境が安定して閾値変動がなくなった場合、閾値候補生成部103は、処理を終了しても良い。すなわち、その場合、音声認識装置100は、閾値の更新処理を終了しても良い。
次に、ステップS103について図3を参照して説明する。図3に示すように、音声判定部104は、振幅パワー(音声らしさを示す特徴量)が閾値より大きければより音声らしいため音声区間と判定する。また、音声判定部104は、振幅パワーが閾値より小さければより非音声らしいため非音声区間と判定する。また、前述の通り図3においては振幅パワーを用いたが、音声らしさを示す特徴量は上記したように、ゼロ交差数や、音声モデルと非音声モデルとの尤度比、ピッチ周波数、又はSN比など他の特徴量でも良い。なお、ステップS103における閾値は、閾値候補生成部103が生成した複数の閾値候補θiの値である。ステップS103は、複数の閾値候補の数だけ繰り返される。
次に、ステップS104について詳細に説明する。補正値算出部105が算出する尤度の補正値は、ステップS106におけるサーチ部109によって計算される音声モデルおよび非音声モデルに対する尤度の補正値として働く。補正値算出部105は、音声モデルに対する尤度の補正値を、例えば式3によって算出しても良い。
Figure 0005949550
ここで、wは補正値に対するファクターであり、正の実数値をとる。なお、ステップS104におけるθは、パラメータ更新部110が記憶する閾値である。また、補正値算出部105は、非音声モデルに対する尤度の補正値を、例えば式4によって算出しても良い。
Figure 0005949550
ここでは、特徴量(振幅パワー)xtの一次関数となる補正値の算出の例を示したが、補正値の算出方法は、大小関係が正しければ他の方法でも良い。例えば、補正値算出部105は、尤度の補正値を、(式3)及び(式4)を対数関数で表した(式5)及び(式6)で算出しても良い。
Figure 0005949550
また、ここでは、補正値算出部105は、音声モデルと非音声モデルの両方に対する尤度の補正値を算出したが、どちらか片方のみを算出し、もう片方の補正値を0としても良い。
また、補正値算出部105は、音声モデル及び非音声モデルに対する尤度の補正値を、両方共0としても良い。この場合、音声認識装置100は、補正値算出部105を構成要素に含まずに、音声判定部104が、音声判定の結果をサーチ部109に直接入力するように構成しても良い。
次に、ステップS106について詳細に説明する。ステップS106において、サーチ部109は、フレーム毎の音声らしさを示す特徴量と、音声モデルと、非音声モデルとを用いて、各々の音声区間を修正する。ステップS106の処理は、閾値候補生成部103で生成した閾値候補の数だけ繰り返す。
また、サーチ部109は、音声認識処理として、特徴量算出部106のフレーム毎の音声特徴量を用いて入力音データの時系列に対応する単語列を探索する。
音声モデル格納部108及び非音声モデル格納部107が格納する音声モデル及び非音声モデルは、公知の隠れマルコフモデルなどでも良い。モデルのパラメータは、予め標準的な入力音の時系列を用いて学習され、設定される。ここでは、音声認識装置100は、音声特徴量と各モデルとの距離尺度として対数尤度を用いて音声認識処理及び音声区間の修正処理を行うものとする。
ここで、フレーム毎の音声特徴量の時系列と、音声に含まれる各語彙又は音素を表す音声モデルとの対数尤度をLs(j,t)とする。jは音声モデルの一状態を示す。サーチ部109は、該対数尤度を、上述した(式3)の補正値を用いて、以下の(式7)のように補正する。
Figure 0005949550
また、フレーム毎の音声特徴量の時系列と、非音声に含まれる各語彙又は音素を表すモデルとの対数尤度をLn(j,t)とする。jは非音声モデルの一状態を示す。サーチ部109は、該対数尤度を、上述した(式4)の補正値を用いて、以下の(式8)のように補正する。
Figure 0005949550
サーチ部109は、補正された対数尤度の時系列のうち最尤となるものを探索することにより、図3の上側に示すように入力音の時系列の特徴量算出部106が判定した音声区間に対応する単語列を探索する(音声認識処理)。
また、サーチ部109は、音声判定部104で判定した各々の音声区間を修正する。サーチ部109は、各々の音声区間につき、補正された音声モデルの対数尤度(式7の値)が、補正された非音声モデルの対数尤度(式8の値)より大きい区間を、修正した音声区間と決定する(音声区間の修正処理)。
次に、ステップS107について詳細に説明する。パラメータ更新部110は、理想的な閾値を推定するために、修正した音声区間を、発声区間と非発声区間に分けて、それぞれの区間での音声らしさを示す特徴量をヒストグラムで表したデータを作成する。上述したように、発声区間とは、単語列(発声音)の対応する音声区間である。また、非発声区間とは、発声区間以外の音声区間である。ここで、発声区間と非発声区間のヒストグラムの交点をθiにハットを付けて表現すると、パラメータ更新部110は、(式9)によって複数の閾値の平均値を計算することで、理想的な閾値を推定しても良い。
Figure 0005949550
Nは分割数であり、(式2)のNと同値である。
以上説明したように、第1の実施形態における音声認識装置100によれば、初期に設定した閾値が正しい値から大きく外れていた場合においても、理想的な閾値を推定することができる。すなわち、音声認識装置100は、閾値候補生成部103で生成した複数の閾値を基に判定された音声区間を修正する。そして、音声認識装置100は、修正した各々の音声区間を用いて算出したヒストグラムの交点である閾値の平均値を計算することで、閾値を推定するからである。
また、音声認識装置100は、補正値算出部105を含むことで、より理想的な閾値を推定することができる。すなわち、音声認識装置100は、パラメータ更新部110で更新した閾値を用いて、補正値算出部105による補正値の算出を行う。そして、音声認識装置100は、算出した補正値を用いて非音声モデルと音声モデルに対する尤度を補正して、より正確な発声区間を判定できるからである。
以上より、音声認識装置100は、雑音に頑健に、かつリアルタイムに音声認識及び閾値推定を行うことができる。
<第2の実施形態>
次に、第2の実施形態における音声認識装置200の機能構成について説明する。
図4は、第2の実施形態における音声認識装置200の機能構成を示すブロック図である。図4に示すように、音声認識システム200は、音声認識装置100と比較して、閾値候補生成部103の代わりに閾値候補生成部113を含む点が異なる。
閾値候補生成部113は、パラメータ更新部110で更新した閾値を基準として複数の閾値候補を生成する。生成される複数の閾値候補は、パラメータ更新部110で更新した閾値を基準に一定の間隔だけ離れた複数の値でも良い。
図4及び図2のフロー図を参照して、第2の実施形態における音声認識装置200の動作について説明する。
音声認識装置200の動作は、音声認識装置100の動作と比較して、図2のステップS102が異なる。
ステップS102において、閾値候補生成部113は、パラメータ更新部110から閾値が入力される。該閾値は更新された最新の閾値であっても良い。閾値候補生成部113は、パラメータ更新部110から入力された閾値を基準に前後の閾値を閾値候補として生成し、生成した複数の閾値候補を音声判定部104に入力する。閾値候補生成部113は、パラメータ更新部110から入力された閾値から閾値候補を式10によって算出することで生成しても良い。
Figure 0005949550
ここで、θはパラメータ更新部110から入力された閾値、Nは分割数である。閾値候補生成部113は、より正確な値を出すことを目的としてNを大きくしても良い。また、閾値候補生成部113は、閾値の推定が安定した場合はNを小さくしても良い。閾値候補生成部113は、式10におけるθiを式11で求めても良い。
Figure 0005949550
ここで、Nは分割数であり、式10のNと同値である。また、閾値候補生成部113は、式10におけるθiを式12で求めても良い。
Figure 0005949550
Dは、適当に定めた定数である。
以上説明したように、第2の実施形態における音声認識装置200によれば、パラメータ更新部110の閾値を基準とする事で、少ない閾値候補でも理想的な閾値を推定することができる。
<第3の実施形態>
次に、第3の実施形態における音声認識装置300の機能構成について説明する。
図5は、第3の実施形態における音声認識装置300の機能構成を示すブロック図である。図5に示すように、音声認識装置300は、音声認識装置100と比較して、パラメータ更新部110の代わりにパラメータ更新部120を含む点が異なる。
パラメータ更新部120は、第2の実施形態において音声らしさを示す特徴量をヒストグラムで表した閾値の平均値に、重み付けをすることによって、更新する新たな閾値を計算する。すなわち、パラメータ更新部120が推定する新たな閾値は、修正した各々の音声区間から作成したヒストグラムの交点の、重み付き平均値である。
図5及び図2のフロー図を参照して、第3の実施形態における音声認識装置300の動作について説明する。
音声認識装置300の動作は、音声認識装置100の動作と比較して、図2のステップS107が異なる。
ステップS107において、パラメータ更新部120は、サーチ部109によって修正された複数の音声区間から理想的な閾値を推定する。第1の実施形態と同様に、修正した音声区間を発声区間と非発声区間に分けてそれぞれの区間での音声らしさを示す特徴量をヒストグラムで表したデータを作成する。ここで、各々の修正した音声区間について、発声区間と非発声区間のヒストグラムの交点をθjにハットを付けて表現するとする。パラメータ更新部120は、式13によって複数の閾値の平均値を、重み付きで計算することで、理想的な閾値を推定しても良い。
Figure 0005949550
Nは分割数であり、(式10)のNと同値である。ωjは、ヒストグラムの交点θjのハットにかかる重みである。ωjの決め方は、特に制約はないが、例えば、jの値の増加に応じて大きくしても良い。
以上説明したように、第3の実施形態における音声認識装置300によれば、パラメータ更新部120が重み付きの平均値を計算することで、より安定した閾値を算出することが可能となる。
<第4の実施形態>
次に、第4の実施形態における音声認識装置400の機能構成について説明する。
図6は、第4の実施形態における音声認識装置400の機能構成を示すブロック図である。図6に示すように、音声認識装置400は、閾値候補生成部403と、音声判定部404と、サーチ部409と、パラメータ更新部410とを含む。
閾値候補生成部403は、入力音の時系列から音声らしさを示す特徴量を抽出し、音声と非音声を判定する閾値候補を複数生成する。
音声判定部404は、音声らしさを示す特徴量を複数の閾値候補と比較することにより、各々の音声区間を判定する。
サーチ部409は、音声モデルと、非音声モデルとを用いて、各々の音声区間を修正する。
パラメータ更新部410は、修正された各々の音声区間中の、発声区間と非発声区間の特徴量の分布形状から閾値を推定して更新する。
以上説明したように、第4の実施形態における音声認識装置400によれば、初期に設定した閾値が正しい値から大きく外れていた場合においても、理想的な閾値を推定することができる。
なお、これまでに説明した実施形態は、本発明の技術的範囲を限定するものではない。また、各実施形態に記載の各構成は、本発明の技術的思想の範囲内で互いに組み合わせることが可能である。例えば、音声認識装置は、閾値候補生成部103に代わって第2の実施形態における閾値候補生成部113を含み、パラメータ更新部110に代わって第3の実施形態におけるパラメータ更新部120を含んでも良い。係る場合、音声認識装置は、少ない閾値候補でより安定した閾値の推定が可能になる。
<実施形態の他の表現>
上記の各実施形態においては、以下に示すような音声認識装置、音声認識方法、及びプログラムの特徴的構成が示されている(以下のように限定されるわけではない)。なお、本発明のプログラムは、上述の実施形態で説明した各動作を、コンピュータに実行させるプログラムであれば良い。
(付記1)
入力音の時系列から音声らしさを示す特徴量を抽出し、音声と非音声を判定する閾値候補を生成する閾値候補生成手段と、
前記音声らしさを示す特徴量を複数の前記閾値候補と比較することにより、各々の音声区間を判定し、その判定結果としての判定情報を出力する音声判定手段と、
音声モデルと、非音声モデルとを用いて、前記判定情報によって示される前記各々の音声区間を修正するサーチ手段と、
前記修正された各々の音声区間中の、発声区間と非発声区間の前記特徴量の分布形状に基づいて、音声区間判定のための閾値を推定して更新するパラメータ更新手段と、
を含む音声認識装置。
(付記2)
前記閾値候補生成手段は、前記音声らしさを示す特徴量の値から複数の閾値候補を生成する、付記1に記載の音声認識装置。
(付記3)
前記閾値候補生成手段は、前記特徴量の最大値及び最小値に基づいて複数の閾値候補を生成する、
付記2に記載の音声認識装置。
(付記4)
前記パラメータ更新手段は、前記サーチ手段で出力した各々の修正した音声区間に対して、それぞれ発声区間と非発声区間の前記特徴量のヒストグラムの交点を算出して、複数の前記交点の平均値を新たな閾値と推定して更新する、
付記1〜3のいずれか一項に記載の音声認識装置。
(付記5)
認識対象となる音声を示す音声(語彙又は音素)モデルを格納する音声モデル格納手段と、
認識対象となる音声以外を示す非音声モデルを格納する非音声モデル格納手段と、
をさらに備え、
前記サーチ手段は、入力音声の時系列に対する前記音声モデル及び前記非音声モデルの尤度を算出し、最尤となる単語列を探索する、
付記1〜4のいずれか一項に記載の音声認識装置。
(付記6)
前記認識用特徴量から、前記音声モデルに対する尤度の補正値と、前記非音声モデルに対する尤度の補正値のうち少なくともいずれか一方を算出する補正値算出手段をさらに備え、
前記サーチ手段は、前記補正値に基づいて前記尤度を補正する、
付記5に記載の音声認識装置。
(付記7)
前記補正値算出手段は、前記音声モデルに対する尤度の補正値として前記特徴量から閾値を減算した値を用い、非音声モデルに対する尤度の補正値として閾値から前記特徴量を減算した値を用いる、
付記6に記載の音声認識装置。
(付記8)
前記音声らしさを示す特徴量は、振幅パワー、SN比、ゼロ交差数、GMM尤度比、ピッチ周波数のうち少なくともいずれか一つであり、
前記認識用特徴量は、公知のスペクトルパワー、メルケプストラム係数(MFCC)、又はそれらの時間差分の少なくともいずれか一つであり、さらに前記音声らしさを示す特徴量を包含する、
付記1〜7のいずれか一項に記載の音声認識装置。
(付記9)
前記閾値候補生成手段は、前記パラメータ更新手段で更新した閾値を基準として複数の閾値候補を生成する、
付記1〜8のいずれか一項に記載の音声認識装置。
(付記10)
前記パラメータ更新手段が推定する新たな閾値となる前記閾値の平均値は、前記閾値の重み付き平均値である、
付記4に記載の音声認識装置。
(付記11)
入力音の時系列から音声らしさを示す特徴量を抽出し、音声と非音声を判定する閾値候補を生成し、
前記音声らしさを示す特徴量を複数の前記閾値候補と比較することにより、各々の音声区間を判定し、その判定結果としての判定情報を出力し、
音声モデルと、非音声モデルとを用いて、前記判定情報によって示される前記各々の音声区間を修正し、
前記修正された各々の音声区間中の、発声区間と非発声区間の前記特徴量の分布形状に基づいて、音声区間判定のための閾値を推定して更新する、
音声認識方法。
(付記12)
入力音の時系列から音声らしさを示す特徴量を抽出し、音声と非音声を判定する閾値候補を生成し、
前記音声らしさを示す特徴量を複数の前記閾値候補と比較することにより、各々の音声区間を判定し、その判定結果としての判定情報を出力し、
音声モデルと、非音声モデルとを用いて、前記判定情報によって示される前記各々の音声区間を修正し、
前記修正された各々の音声区間中の、発声区間と非発声区間の前記特徴量の分布形状に基づいて、音声区間判定のための閾値を推定して更新する、
処理をコンピュータに実行させるプログラムを格納する記録媒体。
この出願は、2010年9月17日に出願された日本出願特願2010−209435を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 制御部
2 通信IF
3 メモリ
4 ドライブ装置
5 記録媒体
11 マイクロフォン
12 フレーム化部
13 音声判定部
14 補正値算出部
15 特徴量算出部
16 非音声モデル格納部
17 音声モデル格納部
18 サーチ部
19 パラメータ更新部
100 音声認識装置
101 マイクロフォン
102 フレーム化部
103 閾値候補生成部
104 音声判定部
105 補正値算出部
106 特徴量算出部
107 非音声モデル格納部
108 音声モデル格納部
109 サーチ部
110 パラメータ更新部
113 閾値候補生成部
120 パラメータ更新部
200 音声認識装置
300 音声認識装置
400 音声認識装置
403 閾値候補生成部
404 音声判定部
409 サーチ部
410 パラメータ更新部

Claims (10)

  1. 入力音の時系列から音声らしさを示す特徴量を抽出し、音声と非音声を判定する閾値候補を生成する閾値候補生成手段と、
    前記音声らしさを示す特徴量を複数の前記閾値候補と比較することにより、各々の音声区間を判定し、その判定結果としての判定情報を出力する音声判定手段と、
    音声モデルと、非音声モデルとを用いて、前記判定情報によって示される前記各々の音声区間を修正するサーチ手段と、
    前記修正された各々の音声区間中の、発声区間と非発声区間の前記特徴量の分布形状に基づいて、音声区間判定のための閾値を推定して更新するパラメータ更新手段と、
    を含む音声認識装置。
  2. 前記閾値候補生成手段は、前記音声らしさを示す特徴量の値から複数の閾値候補を生成する、請求項1に記載の音声認識装置。
  3. 前記閾値候補生成手段は、前記特徴量の最大値及び最小値に基づいて複数の閾値候補を生成する、
    請求項2に記載の音声認識装置。
  4. 前記パラメータ更新手段は、前記サーチ手段で出力した各々の修正した音声区間に対して、それぞれ発声区間と非発声区間の前記特徴量のヒストグラムの交点を算出して、複数の前記交点の平均値を新たな閾値と推定して更新する、
    請求項1〜3のいずれか一項に記載の音声認識装置。
  5. 認識対象となる音声を示す音声(語彙又は音素)モデルを格納する音声モデル格納手段と、
    認識対象となる音声以外を示す非音声モデルを格納する非音声モデル格納手段と、
    をさらに備え、
    前記サーチ手段は、入力音声の時系列に対する前記音声モデル及び前記非音声モデルの尤度を算出し、最尤となる単語列を探索する、
    請求項1〜4のいずれか一項に記載の音声認識装置。
  6. 前記特徴量から、前記音声モデルに対する尤度の補正値と、前記非音声モデルに対する尤度の補正値のうち少なくともいずれか一方を算出する補正値算出手段をさらに備え、
    前記サーチ手段は、前記補正値に基づいて前記尤度を補正する、
    請求項5に記載の音声認識装置。
  7. 前記閾値候補生成手段は、前記パラメータ更新手段で更新した閾値を基準として複数の閾値候補を生成する、
    請求項1〜6のいずれか一項に記載の音声認識装置。
  8. 前記パラメータ更新手段が推定する新たな閾値となる前記閾値の平均値は、前記閾値の重み付き平均値である、
    請求項4に記載の音声認識装置。
  9. 入力音の時系列から音声らしさを示す特徴量を抽出し、音声と非音声を判定する閾値候補を生成し、
    前記音声らしさを示す特徴量を複数の前記閾値候補と比較することにより、各々の音声区間を判定し、その判定結果としての判定情報を出力し、
    音声モデルと、非音声モデルとを用いて、前記判定情報によって示される前記各々の音声区間を修正し、
    前記修正された各々の音声区間中の、発声区間と非発声区間の前記特徴量の分布形状に基づいて、音声区間判定のための閾値を推定して更新する、
    音声認識方法。
  10. 入力音の時系列から音声らしさを示す特徴量を抽出し、音声と非音声を判定する閾値候補を生成し、
    前記音声らしさを示す特徴量を複数の前記閾値候補と比較することにより、各々の音声区間を判定し、その判定結果としての判定情報を出力し、
    音声モデルと、非音声モデルとを用いて、前記判定情報によって示される前記各々の音声区間を修正し、
    前記修正された各々の音声区間中の、発声区間と非発声区間の前記特徴量の分布形状に基づいて、音声区間判定のための閾値を推定して更新する、
    処理をコンピュータに実行させるプログラム
JP2012534081A 2010-09-17 2011-09-15 音声認識装置、音声認識方法、及びプログラム Active JP5949550B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010209435 2010-09-17
JP2010209435 2010-09-17
PCT/JP2011/071748 WO2012036305A1 (ja) 2010-09-17 2011-09-15 音声認識装置、音声認識方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2012036305A1 JPWO2012036305A1 (ja) 2014-02-03
JP5949550B2 true JP5949550B2 (ja) 2016-07-06

Family

ID=45831757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012534081A Active JP5949550B2 (ja) 2010-09-17 2011-09-15 音声認識装置、音声認識方法、及びプログラム

Country Status (3)

Country Link
US (1) US20130185068A1 (ja)
JP (1) JP5949550B2 (ja)
WO (1) WO2012036305A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048098A (zh) * 2018-10-12 2020-04-21 广达电脑股份有限公司 语音校正***及语音校正方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140365200A1 (en) * 2013-06-05 2014-12-11 Lexifone Communication Systems (2010) Ltd. System and method for automatic speech translation
US20150073790A1 (en) * 2013-09-09 2015-03-12 Advanced Simulation Technology, inc. ("ASTi") Auto transcription of voice networks
US9535905B2 (en) * 2014-12-12 2017-01-03 International Business Machines Corporation Statistical process control and analytics for translation supply chain operational management
US9633019B2 (en) 2015-01-05 2017-04-25 International Business Machines Corporation Augmenting an information request
WO2016157642A1 (ja) * 2015-03-27 2016-10-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
FR3054362B1 (fr) * 2016-07-22 2022-02-04 Dolphin Integration Sa Circuit et procede de reconnaissance de parole
KR102643501B1 (ko) * 2016-12-26 2024-03-06 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
US10535361B2 (en) * 2017-10-19 2020-01-14 Kardome Technology Ltd. Speech enhancement using clustering of cues
TWI682385B (zh) * 2018-03-16 2020-01-11 緯創資通股份有限公司 語音服務控制裝置及其方法
WO2021117219A1 (ja) * 2019-12-13 2021-06-17 三菱電機株式会社 情報処理装置、検出方法、及び検出プログラム
CN112309414B (zh) * 2020-07-21 2024-01-12 东莞市逸音电子科技有限公司 基于音频编解码的主动降噪方法、耳机及电子设备
US20220115126A1 (en) * 2020-10-08 2022-04-14 Mastercard International Incorporated System and method for implementing a virtual caregiver
KR102429891B1 (ko) * 2020-11-05 2022-08-05 엔에이치엔 주식회사 음성 인식 장치 및 그것의 동작 방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6285300A (ja) * 1985-10-09 1987-04-18 富士通株式会社 単語音声認識装置
JPS62289895A (ja) * 1986-06-10 1987-12-16 沖電気工業株式会社 音声認識方法
JPH11327582A (ja) * 1998-03-24 1999-11-26 Matsushita Electric Ind Co Ltd 騒音下での音声検出システム
JP2001013988A (ja) * 1999-06-29 2001-01-19 Toshiba Corp 音声認識方法及び装置
JP2005091518A (ja) * 2003-09-12 2005-04-07 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2007017736A (ja) * 2005-07-08 2007-01-25 Mitsubishi Electric Corp 音声認識装置
WO2010070839A1 (ja) * 2008-12-17 2010-06-24 日本電気株式会社 音声検出装置、音声検出プログラムおよびパラメータ調整方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59123894A (ja) * 1982-12-29 1984-07-17 富士通株式会社 先端部音素始端抽出処理方式
JP3118023B2 (ja) * 1990-08-15 2000-12-18 株式会社リコー 音声区間検出方式及び音声認識装置
JPH0792989A (ja) * 1993-09-22 1995-04-07 Oki Electric Ind Co Ltd 音声認識方法
JP3474949B2 (ja) * 1994-11-25 2003-12-08 三洋電機株式会社 音声認識装置
JP3363660B2 (ja) * 1995-05-22 2003-01-08 三洋電機株式会社 音声認識方法及び音声認識装置
US5737489A (en) * 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6285300A (ja) * 1985-10-09 1987-04-18 富士通株式会社 単語音声認識装置
JPS62289895A (ja) * 1986-06-10 1987-12-16 沖電気工業株式会社 音声認識方法
JPH11327582A (ja) * 1998-03-24 1999-11-26 Matsushita Electric Ind Co Ltd 騒音下での音声検出システム
JP2001013988A (ja) * 1999-06-29 2001-01-19 Toshiba Corp 音声認識方法及び装置
JP2005091518A (ja) * 2003-09-12 2005-04-07 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2007017736A (ja) * 2005-07-08 2007-01-25 Mitsubishi Electric Corp 音声認識装置
WO2010070839A1 (ja) * 2008-12-17 2010-06-24 日本電気株式会社 音声検出装置、音声検出プログラムおよびパラメータ調整方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015043280; 田中 大介 Daisuke TANAKA: 日本音響学会 2010年 春季研究発表会講演論文集CD-ROM [CD-ROM] *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048098A (zh) * 2018-10-12 2020-04-21 广达电脑股份有限公司 语音校正***及语音校正方法

Also Published As

Publication number Publication date
US20130185068A1 (en) 2013-07-18
JPWO2012036305A1 (ja) 2014-02-03
WO2012036305A1 (ja) 2012-03-22

Similar Documents

Publication Publication Date Title
JP5949550B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP5621783B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
US9536525B2 (en) Speaker indexing device and speaker indexing method
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
JP5229216B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP6004792B2 (ja) 音響処理装置、音響処理方法、及び音響処理プログラム
JP5842056B2 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP2007279444A (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
KR20100072838A (ko) 비터비 디코더와 이를 이용한 음성 인식 방법
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP5229124B2 (ja) 話者照合装置、話者照合方法およびプログラム
JP4796460B2 (ja) 音声認識装置及び音声認識プログラム
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
KR100744288B1 (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
JP4659541B2 (ja) 音声認識装置及び音声認識プログラム
JP6142401B2 (ja) 音声合成モデル学習装置、方法、及びプログラム
JP2013182261A (ja) 適応化装置、音声認識装置、およびそのプログラム
JP5914119B2 (ja) 音響モデル性能評価装置とその方法とプログラム
KR102051235B1 (ko) 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP6633579B2 (ja) 音響信号処理装置、方法及びプログラム
JP2021162685A (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160523

R150 Certificate of patent or registration of utility model

Ref document number: 5949550

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150