JP6891144B2 - 生成装置、生成方法及び生成プログラム - Google Patents

生成装置、生成方法及び生成プログラム Download PDF

Info

Publication number
JP6891144B2
JP6891144B2 JP2018115562A JP2018115562A JP6891144B2 JP 6891144 B2 JP6891144 B2 JP 6891144B2 JP 2018115562 A JP2018115562 A JP 2018115562A JP 2018115562 A JP2018115562 A JP 2018115562A JP 6891144 B2 JP6891144 B2 JP 6891144B2
Authority
JP
Japan
Prior art keywords
observation signal
signal
training data
reverberation component
generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018115562A
Other languages
English (en)
Other versions
JP2019219468A (ja
Inventor
基 大町
基 大町
トラン デュング
トラン デュング
健一 磯
健一 磯
悠哉 藤田
悠哉 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018115562A priority Critical patent/JP6891144B2/ja
Priority to US16/284,500 priority patent/US20190385590A1/en
Publication of JP2019219468A publication Critical patent/JP2019219468A/ja
Application granted granted Critical
Publication of JP6891144B2 publication Critical patent/JP6891144B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、生成装置、生成方法及び生成プログラムに関する。
マイクロホンで収音された観測信号には、音源からマイクロホンに直接到来する直接音の他に、床や壁で反射し、所定の時間(例えば、30mS)が経過した後にマイクロホンに到来する後部残響が含まれる。このような後部残響は、音声認識の精度を著しく低下させる場合がある。このため、音声認識の精度を高めるように、観測信号から後部残響を除去する技術が提案されている。例えば、音響信号のパワーの最小値または擬似最小値を、音響信号の後部残響成分のパワー推定値として抽出し、抽出されたパワー推定値に基づいて、後部残響を除去する逆フィルタを算出する技術が提案されている(特許文献1)。
特開2007−65204号公報
しかしながら、上記の従来技術では、音声認識の精度を向上させることができるとは限らない。一般的に、話者とマイクロホンとの間の距離が増加するに従って、後部残響の影響が増大する。しかし、上記の従来技術では、後部残響成分のパワーが観測信号のパワーの最小値または擬似最小値である、と仮定されている。このため、上記の従来技術では、話者がマイクロホンから離れている場合には、後部残響成分を適切に除去できない場合がある。
本願は、上記に鑑みてなされたものであって、音声認識の精度を向上させることができる生成装置、生成方法及び生成プログラムを提供することを目的とする。
本願に係る生成装置は、第1の観測信号の音響特徴量と、当該第1の観測信号に対応する後部残響成分と、当該第1の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する取得部と、前記取得部によって取得された訓練データに基づいて、第2の観測信号に対応する音素ラベルを識別するための音響モデルを生成する第1生成部と、
を備えることを特徴とする。
実施形態の一態様によれば、音声認識の精度を向上させることができるという効果を奏する。
図1は、実施形態に係るネットワークシステムの構成例を示す図である。 図2は、実施形態に係る生成処理の一例を示す図である。 図3は、後部残響の一例を示す図である。 図4は、実施形態に係る生成装置の構成例を示す図である。 図5は、実施形態に係る訓練データ記憶部の一例を示す図である。 図6は、実施形態に係る生成装置による生成処理手順を示すフローチャートである。 図7は、変形例に係る生成処理の一例を示す図である。 図8は、ハードウェア構成の一例を示す図である。
以下に、本願に係る生成装置、生成方法及び生成プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法及び生成プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。
〔1.ネットワークシステムの構成〕
まず、図1を参照して、実施形態に係るネットワークシステム1の構成について説明する。図1は、実施形態に係るネットワークシステム1の構成例を示す図である。図1に示すように、実施形態に係るネットワークシステム1には、端末装置10と、提供装置20と、生成装置100とが含まれる。端末装置10、提供装置20および生成装置100は、それぞれネットワークNと有線又は無線により接続される。図1中では図示していないが、ネットワークシステム1は、複数台の端末装置10や、複数台の提供装置20や、複数台の生成装置100を含んでもよい。
端末装置10は、ユーザによって利用される情報処理装置である。端末装置10は、スマートフォン、スマートスピーカ、デスクトップ型PC(Personal Computer)、ノート型PC、タブレット型PC、PDA(Personal Digital Assistant)を含む、任意のタイプの情報処理装置であってもよい。
提供装置20は、音響モデルを生成するための訓練データを提供するサーバ装置である。訓練データは、例えば、マイクロホンで収音された観測信号、観測信号に対応付けられた音素ラベル等を含む。
生成装置100は、音響モデルを生成するための訓練データを用いて音響モデルを生成するサーバ装置である。生成装置100は、ネットワークNを介して、有線又は無線により端末装置10および提供装置20と通信を行う。
〔2.生成処理〕
次に、図2を参照して、実施形態に係る生成処理の一例について説明する。図2は、実施形態に係る生成処理の一例を示す図である。
図2の例では、生成装置100は、提供装置20によって提供された訓練データを記憶する。記憶された訓練データは、観測信号OS1を含む。観測信号OS1は、音素ラベル「a」に対応付けられた音声信号である。言い換えると、観測信号OS1は、「a」の音声信号である。
はじめに、生成装置100は、観測信号OS1から音声特徴量を抽出する(ステップS11)。より具体的には、生成装置100は、短時間フーリエ変換(Short Time Fourier Transform)を用いることにより、観測信号OS1から、音声フレームのスペクトル(複素スペクトルとも呼ばれる)を算出する。そして、生成装置100は、フィルタバンク(メルフィルタバンクとも呼ばれる)を算出されたスペクトルに適用することで、フィルタバンクの出力を、音声特徴量として抽出する。
次いで、生成装置100は、観測信号OS1の後部残響成分を推定する(ステップS12)。この点について、図3を用いて説明する。
図3は、後部残響の一例を示す図である。図3の例では、観測信号OS1には、直接音DS1と、初期反射ER1と、後部残響LR1とが含まれる。図2の観測信号OS1の波形は、実際には、直接音DS1と、初期反射ER1と、後部残響LR1との重ねあわせとして観測される。直接音DS1は、マイクロホンに直接到来した音声信号である。初期反射ER1は、床や壁等で反射し、所定の時間(例えば、30mS)が経過するまでに、マイクロホンに到来した音声信号である。後部残響LR1は、床や壁等で反射し、所定の時間(例えば、30mS)が経過した後に、マイクロホンに到来した音声信号である。
生成装置100は、例えば、移動平均モデル(Moving Average Model)を用いて、観測信号OS1の後部残響成分を推定する。より具体的には、生成装置100は、所定の音声フレームからnフレーム前までの音声フレームのスペクトルを平滑化することで得られる値を、所定の音声フレームの後部残響成分として算出する(nは任意の自然数)。言い換えると、生成装置100は、所定の音声フレームの後部残響成分を、所定の音声フレームからnフレーム前までの音声フレームのスペクトルの重み付き和で近似する。後部残響成分の例示的な近似式は、図4に関連して後述される。
図2に戻ると、次いで、生成装置100は、抽出された音声特徴量、推定された後部残響成分および音素ラベル「a」に基づいて、音響モデルAM1を生成する(ステップS13)。一例では、音響モデルAM1は、DNN(Deep Neural Network)モデルである。この例では、生成装置100は、音声特徴量および後部残響成分を、訓練データの入力として用いる。また、生成装置100は、音素ラベル「a」を、訓練データの出力として用いる。そして、生成装置100は、汎化誤差が最小化されるようにDNNモデルを訓練することで、音響モデルAM1を生成する。
音響モデルAM1は、音響モデルAM1に観測信号と、観測信号の推定された後部残響成分とが入力された場合に、観測信号がどの音素に対応するのかを識別し、音素識別結果を出力する。図1の例では、音響モデルAM1は、「a」の音声信号と、「a」の音声信号の推定された後部残響成分とが音響モデルAM1の入力層に入力された場合に、音声信号が「a」である旨の音素識別結果IR1を出力する。例えば、音響モデルAM1は、音声信号が「a」である確率(例えば、0.95)とともに、音声信号が「a」以外の音声(例えば、「i」)である確率(例えば、0.01)を音響モデルAM1の出力層から出力する。
上述のように、実施形態に係る生成装置100は、観測信号から音声特徴量を抽出する。加えて、生成装置100は、観測信号の後部残響成分を推定する。そして、生成装置100は、抽出された音声特徴量、推定された後部残響成分および観測信号に対応付けられた音素ラベルに基づいて、音響モデルを生成する。これにより、生成装置100は、後部残響が大きい環境下においても高精度に音声認識を行う音響モデルを生成することができる。例えば、話者とマイクロホンとの間の距離が大きくなると、後部残響の影響が強くなる。生成装置100は、観測信号から後部残響成分を信号処理的に引き去るのではなく、話者とマイクロホンとの間の距離に応じた後部残響の響き具合を、音響モデルに学習させる。このため、生成装置100は、音声認識精度の低下をもたらす歪みを生じさせることなく、後部残響に対して頑健な音声認識を行う音響モデルを生成することができる。以下、このような提供処理を実現する生成装置100について詳細に説明する。
〔3.生成装置の構成〕
次に、図4を参照して、実施形態に係る生成装置100の構成例について説明する。図4は、実施形態に係る生成装置100の構成例を示す図である。図4に示すように、生成装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、生成装置100は、生成装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(液晶ディスプレイ等)を有してもよい。
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワーク網と有線又は無線により接続され、ネットワーク網を介して、端末装置10および提供装置20との間で情報の送受信を行う。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図4に示すように、記憶部120は、訓練データ記憶部121と、音響モデル記憶部122とを有する。
(訓練データ記憶部121)
図5は、実施形態に係る訓練データ記憶部121の一例を示す図である。訓練データ記憶部121は、音響モデルを生成するための訓練データを記憶する。訓練データ記憶部121は、例えば、受信部131によって受信された訓練データを記憶する。図5の例では、訓練データ記憶部121には、「訓練データ」が「訓練データID」ごとに記憶される。例示として、「訓練データ」には、項目「観測信号」、「音響特徴量」、「推定された後部残響成分」および「音素ラベル」が含まれる。
「訓練データID」は、訓練データを識別するための識別子を示す。「観測信号情報」は、マイクロホンで収音された観測信号に関する情報を示す。例えば、観測信号情報は、観測信号の波形を示す。「音響特徴量情報」は、観測信号の音響特徴量に関する情報を示す。例えば、音響特徴量情報は、フィルタバンクの出力を示す。「推定後部残響成分情報」は、観測信号に基づいて推定された後部残響成分に関する情報を示す。例えば、推定部後部残響成分情報は、線形予測モデルに基づいて推定された後部残響成分を示す。「音素ラベル情報」は、観測信号に対応する音素ラベルに関する情報を示す。例えば、音素ラベル情報は、観測信号に対応する音素を示す。
例えば、図5は、訓練データID「TD1」で識別される訓練データの観測信号が、「観測信号OS1」であることを示している。また、例えば、図5は、訓練データID「TD1」で識別される訓練データの音響特徴量が、「音響特徴量AF1」であることを示している。また、例えば、図5は、訓練データID「TD1」で識別される訓練データの推定後部残響成分が、「推定された後部残響成分LR1」であることを示している。また、例えば、図5は、訓練データID「TD1」で識別される訓練データの音素ラベルが、「a」であることを示している。
(音響モデル記憶部122)
図4に戻ると、音響モデル記憶部122は、音響モデルを記憶する。音響モデル記憶部122は、例えば、第1生成部135によって生成された音響モデルを記憶する。
(制御部130)
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、生成装置100内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
制御部130は、図4に示すように、受信部131と、取得部132と、抽出部133と、推定部134と、第1生成部135と、第2生成部136と、出力部137と、提供部138とを有し、以下に説明する情報処理の機能や作用を実現又は実行する。なお、制御部130の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(受信部131)
受信部131は、音響モデルを生成するための訓練データを、提供装置20から受信する。受信部131は、受信された訓練データを、訓練データ記憶部121に格納してもよい。
訓練データは、例えば、マイクロホンで収音された観測信号と、観測信号に対応付けられた音素ラベルとを含む。受信された訓練データは、観測信号の音響特徴量と、観測信号に基づいて推定された後部残響成分とを含んでもよい。言い換えると、受信部131は、観測信号の音響特徴量と、観測信号に基づいて推定された後部残響成分と、観測信号に対応付けられた音素ラベルとを含む訓練データを受信してもよい。
一例では、観測信号は、提供装置20によって提供されるアプリケーションを介して受信された音声信号である。この例では、アプリケーションは、例えば、スマートフォンである端末装置10にインストールされた音声アシストアプリケーションである。別の例では、観測信号は、スマートスピーカである端末装置10から提供装置20に提供された音声信号である。これらの例では、提供装置20は、端末装置10に搭載されたマイクロホンにより集音された音声信号を、端末装置10から受信する。
提供装置20によって受信された音声信号は、音声信号を元に書き起こされたテキストデータに対応する音素ラベルに対応付けられる。音声信号の書き起こしは、例えば、テープ起こし技術者によって行われ得る。このようにして、提供装置20は、音声信号と、音声信号に対応付けられたラベルとを含む訓練データを、生成装置100に送信する。
(取得部132)
取得部132は、音響モデルを生成するための訓練データを取得する。例えば、取得部132は、受信部131によって受信された訓練データを取得する。また、例えば、取得部132は、訓練データ記憶部121から訓練データを取得する。
取得部132は、第1の観測信号の音響特徴量と、かかる第1の観測信号に対応する後部残響成分と、かかる第1の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する。例えば、取得部132は、観測信号(例えば、第1の観測信号)の音響特徴量と、かかる観測信号に基づいて推定された後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを含む訓練データを取得する。
取得部132は、訓練データから、観測信号を取得する。また、取得部132は、訓練データから、観測信号に対応付けられた音素ラベルを取得する。また、取得部132は、訓練データから、観測信号の音響特徴量を取得する。また、取得部132は、訓練データから、観測信号に基づいて推定された後部残響成分を取得する。取得部132は、音響モデル記憶部122から音響モデルを取得してもよい。
(抽出部133)
抽出部133は、取得部132によって取得された観測信号から、音声特徴量を抽出する。例えば、抽出部133は、観測信号の信号波形から、観測信号の周波数成分を算出する。より具体的には、短時間フーリエ変換を用いることにより、観測信号から、音声フレームのスペクトルを算出する。そして、抽出部133は、フィルタバンクを算出されたスペクトルに適用することで、各音声フレームにおけるフィルタバンクの出力(すなわち、フィルタバンクのチャンネルの出力)を、音声特徴量として抽出する。抽出部133は、算出されたスペクトルから、メル周波数ケプストラム係数(Mel frequency Cepstral Coefficient)を、音声特徴量として抽出してもよい。抽出部133は、観測信号から抽出された音声特徴量を、観測信号に対応付けられた音素ラベルに対応付けて、訓練データ記憶部121に格納する。
(推定部134)
推定部134は、取得部132によって取得された観測信号に基づいて、後部残響成分を推定する。一般的に、目的音源以外の音源および反射体が目的音源の周囲に存在する実環境においては、マイクロホンにより集音された観測信号は、直接音と、雑音と、残響とを含む。すなわち、観測信号は、直接音と、雑音と、残響とが混じり合った信号(例えば、音声信号、音響信号など)である。
直接音とは、目的音源からマイクロホンに直接到来する音である。目的音源は、例えば、ユーザ(すなわち、話者)である。この場合、直接音は、マイクロホンに直接到来するユーザの発声である。雑音とは、目的音源以外の音源からマイクロホンに到来する音である。目的音源以外の音源は、例えば、ユーザのいる部屋に設置されたエアコンである。この場合、雑音は、エアコンから発せられた音である。残響とは、目的音源から反射体に到来し、反射体で反射され、その後マイクロホンに到来する音である。反射体は、例えば、目的音源であるユーザのいる部屋の壁である。この場合、残響は、部屋の壁で反射されたユーザの発声である。
残響には、初期反射(初期反射音とも呼ばれる)と、後部残響(後部残響音とも呼ばれる)とが含まれる。初期反射とは、直接音がマイクロホンに到来してから所定の時間(例えば、30mS)が経過するまでに、マイクロホンに到来する反射音である。初期反射には、壁で1回反射された反射音である1次反射や、壁で2回反射された反射音である2次反射などが含まれる。一方、後部残響とは、直接音がマイクロホンに到来してから所定の時間(例えば、30mS)が経過した後に、マイクロホンに到来する反射音である。所定の時間は、カットオフスケールとして定義されてもよい。また、所定の時間は、残響のエネルギーが所定のエネルギーまで減衰するまでの時間に基づいて定義されてもよい。
推定部134は、観測信号の後部残響成分を推定する。例えば、推定部134は、線形予測モデルに基づいて、観測信号の後部残響成分を推定する。推定部134は、観測信号に基づいて推定された後部残響成分を、観測信号に対応付けられた音素ラベルに対応付けて、訓練データ記憶部121に格納する。
一例では、推定部134は、移動平均モデルを用いて、観測信号の後部残響成分を推定する。移動平均モデルでは、所定のフレーム(すなわち、音声フレーム)の後部残響成分は、所定のフレームからnフレーム前までのフレームのスペクトルが平滑化されたものであると仮定する(nは任意の自然数)。言い換えると、後部残響成分は、所定の時間遅れて入力されたスペクトル成分であって、平滑化された観測信号のスペクトル成分であると仮定する。この仮定の下で、後部残響成分A(t,f)は、近似的に次式で与えられる。
Figure 0006891144
ここで、Y(t,f)は、「t」番目のフレームにおける「f」番目の周波数ビンのスペクトル成分である。ただし、tは、フレーム番号である。また、fは、周波数ビンのインデックスである。また、dは、遅延である。dは、経験的に決定される値であって、例えば、「7」である。また、Dは、初期反射をスキップするために導入される遅延(正のオフセットとも呼ばれる)である。また、ηは、推定された後部残響成分に対する重み係数である。ηは、経験的に決定される値であって、例えば、「0.07」である。ω(t)は、後部残響成分の算出に際して用いられる過去のフレームに対する重みである。一例では、ω(t)は、ハミング窓の式で表される。この場合、ω(t)は、次式で与えられる。
Figure 0006891144
ただし、Tは、窓内のサンプル数である。別の例では、ω(t)は、矩形窓またはハニング窓の式で表されてもよい。このようにして、測定部134は、過去のフレームのスペクトルの線形和を用いることで、所定の時刻における後部残響成分を近似的に算出することができる。
(第1生成部135)
第1生成部135は、取得部132によって取得された訓練データに基づいて、観測信号(例えば、第2の観測信号)に対応する音素ラベルを識別するための音響モデルを生成する。第1生成部135は、訓練データに基づいて、観測信号に対応する音素ラベル列(すなわち、音素列)を識別するための音響モデルを生成してもよい。第1生成部135は、訓練データに基づいて、観測信号に対応する音韻のラベルを識別するための音響モデルを生成してもよい。第1生成部135は、生成された音響モデルを、音響モデル記憶部122に格納してもよい。
第1生成部135は、第1の観測信号の音響特徴量、第1の観測信号に基づいて推定された後部残響成分および第1の観測信号に対応付けられた音素ラベルに基づいて、音響モデルを生成する。言い換えると、第1生成部135は、観測信号に基づいて推定された後部残響成分を、音声認識の精度を向上させるための補助情報として用いる。一例では、音響モデルは、DNNモデルである。別の例では、音響モデルは、時間遅れニューラルネットワーク(Time Delay Neural Network)、再帰型ニューラルネットワーク(Recurrent Neural Network)、ハイブリッドHMMMLPモデル(Hybrid Hidden Markov Model Multilayer Perceptron Model)、制限付きボルツマンマシン(Restricted Boltzman Machine)、畳み込みニューラルネットワーク(Convolutional Neural Network)等であってもよい。
一例では、音響モデルは、モノフォンモデル(環境非依存モデルとも呼ばれる)である。別の例では、音響モデルは、トライフォンモデル(環境依存音素モデルとも呼ばれる)である。この場合、第1生成部135は、観測信号に対応するトライフォンラベルを識別するための音響モデルを生成する。
第1生成部135は、第1の観測信号の音声特徴量および第1の観測信号に基づいて推定された後部残響成分を、訓練データの入力として用いる。また、第1生成部135は、第1の観測信号に対応付けられた音素ラベルを、訓練データの出力として用いる。そして、第1生成部135は、誤差逆伝播法を用いて、汎化誤差が最小化されるようにモデル(例えば、DNNモデル)を訓練する。このようにして、第1生成部135は、第2の観測信号に対応する音素ラベルを識別するための音響モデルを生成する。
(第2生成部136)
第2生成部136は、信号対雑音比が第1の閾値より低い第1の観測信号に残響を付加することによって、残響成分が第2の閾値より高い観測信号を生成する。例えば、第2生成部136は、信号対雑音比が第1の閾値より低い第1の観測信号に、様々な部屋の残響インパルス応答を畳み込むことによって、残響成分が第2の閾値より高い観測信号を、残響付加信号として生成する。
(出力部137)
出力部137は、第1生成部135によって生成された音響モデルに、第2の観測信号と、第2の観測信号に基づいて推定された後部残響成分とを入力することによって、音素識別結果を出力する。例えば、出力部137は、第2の観測信号が所定の音素(例えば、「a」)である旨の音素識別結果を出力する。出力部137は、第2の観測信号が所定の音素である確率を出力してもよい。例えば、出力部137は、第2の観測信号と、第2の観測信号に基づいて推定された後部残響成分とをベクトル成分とする特徴ベクトルが所定の音素であるクラスに属する確率である事後確率を出力する。
(提供部138)
提供部138は、提供装置20からの要求に応じて、第1生成部135によって生成された音響モデルを、提供装置20に提供する。また、提供部138は、提供装置20からの要求に応じて、出力部137によって出力された音素識別結果を、提供装置20に提供する。
〔4.生成処理のフロー〕
次に、実施形態に係る生成装置100による提供処理の手順について説明する。図6は、実施形態に係る生成装置100による生成処理手順を示すフローチャートである。
図6に示すように、はじめに、生成装置100は、音響モデルを生成するための訓練データを、提供装置20から受信する(ステップS101)。受信された訓練データは、マイクロホンで収音された第1の観測信号と、第1の観測信号に対応付けられた音素ラベルとを含む。
次いで、生成装置100は、受信された訓練データから、第1の観測信号を取得し、取得された第1の観測信号から、音声特徴量を抽出する(ステップS102)。例えば、生成装置100は、短時間フーリエ変換を用いることにより、第1の観測信号からスペクトルを算出する。そして、生成装置100は、フィルタバンクを算出されたスペクトルに適用することで、各フィルタバンクの出力を、音声特徴量として抽出する。
次いで、生成装置100は、取得された第1の観測信号に基づいて、後部残響成分を推定する(ステップS103)。例えば、生成装置100は、移動平均モデルを用いて、第1の観測信号の後部残響成分を推定する。より具体的には、生成装置100は、所定の音声フレームからnフレーム前までの音声フレームのスペクトルを平滑化することで得られる値を、所定の音声フレームの後部残響成分として算出する(nは任意の自然数)。
次いで、生成装置100は、抽出された音声特徴量および推定された後部残響成分を、第1の観測信号に対応付けられた音素ラベルに対応付けて、生成装置100の訓練データ記憶部121に格納する(ステップS104)。
次いで、第1の観測信号の音響特徴量と、第1の観測信号に対応する後部残響成分と、第1の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する(ステップS105)。例えば、生成装置100は、生成装置100の訓練データ記憶部121から、第1の観測信号の音響特徴量と、第1の観測信号に基づいて推定された後部残響成分と、第1の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する。
次いで、生成装置100は、取得された訓練データに基づいて、第2の観測信号に対応する音素ラベルを識別するための音響モデルを生成する(ステップS106)。例えば、生成装置100は、第1の観測信号の音声特徴量および第1の観測信号に基づいて推定された後部残響成分を、訓練データの入力として用いる。また、生成装置100は、第1の観測信号に対応付けられた音素ラベルを、訓練データの出力として用いる。そして、生成装置100は、汎化誤差が最小化されるようにモデル(例えば、DNNモデル)を訓練することで、音響モデルを生成する。
〔5.変形例〕
上述の実施形態に係る生成装置100は、上記の実施形態以外にも、種々の異なる形態で実施されてよい。そこで、以下では、上記の生成装置100の他の実施形態について説明する。
〔5−1.ドライソースおよび残響付加信号から生成された音響モデル〕
取得部132は、訓練データとして、信号対雑音比(Signal to Noise Ratio)が第1の閾値より低い第1の観測信号の音響特徴量と、かかる第1の観測信号に対応する後部残響成分と、かかる第1の観測信号に対応付けられた音素ラベルとを取得してもよい。加えて、取得部132は、訓練データとして、残響成分が第2の閾値より高い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得してもよい。
第1生成部135は、信号対雑音比が第1の閾値より低い第1の観測信号の音響特徴量を含む訓練データに基づいて、音響モデルを生成してもよい。加えて、第1生成部135は、第1の観測信号に対応付けられた音素ラベルに対応し、かつ残響成分が第2の閾値より高い第1の信号の音響特徴量と、第1の信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成してもよい。
一例では、第1生成部135は、信号対雑音比が第1の閾値より低い第1の観測信号の音響特徴量およびかかる第1の観測信号に基づいて推定された後部残響成分を、第1の訓練データの入力として用いる。また、第1生成部135は、かかる第1の観測信号に対応付けられた音素ラベルを、第1の訓練データの出力として用いる。そして、第1生成部135は、モデル(例えば、DNNモデル)を訓練することで、第1の音響モデルを生成する。さらに、第1生成部135は、第1の観測信号に対応付けられた音素ラベルに対応し、かつ残響成分が第2の閾値より高い第1の信号の音響特徴量および第1の信号に基づいて推定された後部残響成分を、第2の訓練データの入力として用いる。また、第1生成部135は、第1の観測信号に対応付けられた音素ラベルを、第2の訓練データの出力として用いる。そして、第1生成部135は、第1の音響モデルを訓練することで、第2の音響モデルを生成する。言い換えれば、第1生成部135は、第1の訓練データおよび第2の訓練データを用いたミニバッチ学習(minibatch learning)により音響モデルを生成する。
以下の説明では、図7を参照し、ドライソースおよび残響付加信号から生成された音響モデルについて説明する。図7は、変形例に係る生成処理の一例を示す図である。
はじめに、抽出部133は、取得部132によって取得された訓練データから、信号対雑音比が第1の閾値より低い第1の観測信号を、ドライソースとして選択する。図7の例では、抽出部133は、訓練データから、音素ラベル「a」に対応付けられたドライソースDRS1を選択する。
次いで、第2生成部136は、信号対雑音比が第1の閾値より低い第1の観測信号に残響を付加することによって、残響成分が第2の閾値より高い観測信号を生成する。例えば、第2生成部136は、信号対雑音比が第1の閾値より低い第1の観測信号に残響を付加することによって、第1の信号を生成する。言い換えると、第2生成部136は、ドライソースに残響を付加することによって、第1の信号を残響付加信号として生成する。図7の例では、第2生成部136は、ドライソースDRS1に残響を付加することによって、残響付加信号RAS1を生成する。より具体的には、第2生成部136は、ドライソースDRS1に、様々な部屋の残響インパルス応答を畳み込むことによって、残響付加信号RAS1を生成する。残響付加信号RAS1の生成から明らかなように、残響付加信号RS1も、音素ラベル「a」に対応付けられている。このように、第2生成部136は、様々な部屋の残響をシミュレートすることで、残響付加信号を模擬的に生成する。
次いで、推定部134は、信号対雑音比が閾値より低い第1の観測信号(すなわち、ドライソース)に基づいて、後部残響成分を推定する。加えて、推定部134は、残響成分が第2の閾値より高い生成された観測信号に基づいて、後部残響成分を推定する。例えば、推定部134は、生成された第1の信号(すなわち、残響付加信号)に基づいて、後部残響成分を推定する。図7の例では、推定部134は、ドライソースDRS1に基づいて、ドライソースDRS1の後部残響成分を、後部残響成分DLR1と推定する。加えて、推定部134は、残響付加信号RAS1に基づいて、残響付加信号RAS1の後部残響成分を、後部残響成分RLR1と推定する。
次いで、第1生成部135は、第2の観測信号に対応する音素ラベルを識別するための音響モデルを生成する。第1生成部135は、信号対雑音比が閾値より低い第1の観測信号(すなわち、ドライソース)の音響特徴量を含む訓練データに基づいて、音響モデルを生成してもよい。加えて、第1生成部135は、第1の観測信号に対応付けられた音素ラベルに対応し、かつ残響成分が閾値より高い第1の信号(すなわち、残響付加信号)の音響特徴量と、第1の信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成してもよい。
図7の例では、第1生成部135は、ドライソースDRS1の音響特徴量と、後部残響成分DLR1とを含む訓練データに基づいて、音響モデルを生成する。加えて、第1生成部135は、残響付加信号RAS1の音響特徴量と、後部残響成分RLR1とを含む訓練データに基づいて、音響モデルを生成する。より具体的には、第1生成部135は、ドライソースDRS1の音響特徴量および後部残響成分DLR1を、訓練データの入力として用いる。この場合、第1生成部135は、音素ラベル「a」を、訓練データの出力として用いる。それに加えて、第1生成部135は、残響付加信号RAS1の音響特徴量および後部残響成分RLR1を、訓練データの入力として用いる。この場合も、第1生成部135は、音素ラベル「a」を、訓練データの出力として用いる。そして、第1生成部135は、汎化誤差が最小化されるようにモデル(例えば、DNNモデル)を訓練することで、音響モデルを生成する。このように、第1生成部135は、ドライソースに対応する訓練データと残響付加信号に対応する訓練データのセットに基づいて、音響モデルを生成してもよい。
〔5−2.後部残響成分が取り除かれた信号〕
取得部132は、訓練データとして、後部残響成分が第3の閾値より低い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得してもよい。第2生成部136は、第1の観測信号から後部残響成分を取り除くことによって、後部残響成分が第3の閾値より低い観測信号を生成してもよい。第1生成部135は、第1の観測信号に対応付けられた音素ラベルに対応し、かつ後部残響成分が第3の閾値より低い観測信号の音響特徴量と、第2の信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成してもよい。
例えば、第2生成部136は、後部残響成分が第3の閾値より低い観測信号を、第2の信号として生成する。一例では、第2生成部136は、スペクトル減算法(Spectral Subtraction Method)を用いて、推定部134によって推定された後部残響成分を、第1の観測信号から引き去る。このようにして、第2生成部136は、第1の観測信号から、後部残響成分が第3の閾値より低い第2の信号を生成する。第2の信号の生成から明らかなように、第2の信号も、第1の観測信号に対応付けられた音素ラベルに対応付けられている。そして、第1生成部135は、生成された第2の信号の音響特徴量と、生成された第2の信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成する。
〔5−3.雑音を含む信号〕
取得部132は、訓練データとして、信号対雑音比が第4の閾値より高い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得してもよい。
第1生成部135は、第1の観測信号に対応付けられた音素ラベルに対応し、かつ信号対雑音比が第4の閾値より高い観測信号の音響特徴量と、かかる観測信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成してもよい。
一例では、取得部132は、訓練データ記憶部121に記憶された訓練データから、信号対雑音比が閾値より高い観測信号を、第3の観測信号として選択する。そして、第1生成部135は、選択された第3の観測信号の音響特徴量と、選択された第3の観測信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成する。
第2生成部136は、第1の観測信号に雑音を重畳することで、第1の観測信号に対応付けられた音素ラベルに対応し、かつ信号対雑音比が閾値より高い第3の観測信号を生成してもよい。そして、第1生成部135は、生成された第3の観測信号の音響特徴量と、生成された第3の観測信号に基づいて推定された後部残響成分とを含む訓練データに基づいて、音響モデルを生成してもよい。
〔5−4.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の一部を手動的に行うこともできる。あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
例えば、図4に示した記憶部120の一部又は全部は、生成装置100によって保持されるのではなく、ストレージサーバ等に保持されてもよい。この場合、生成装置100は、ストレージサーバにアクセスすることで、訓練データや音響モデル等の各種情報を取得する。
〔5−5.ハードウェア構成〕
また、上述してきた実施形態に係る生成装置100は、例えば図8に示すような構成のコンピュータ1000によって実現される。図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一時的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が生成装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部130の機能を実現する。
〔6.効果〕
上述してきたように、実施形態に係る生成装置100は、取得部132と、第1生成部135とを有する。取得部132は、第1の観測信号の音響特徴量と、かかる第1の観測信号に対応する後部残響成分と、かかる第1の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する。第1生成部135は、取得部132によって取得された訓練データに基づいて、第2の観測信号に対応する音素ラベルを識別するための音響モデルを生成する。このため、生成装置100は、様々な環境下における後部残響に対して頑健な音声認識を行う音響モデルを生成することができる。
また、実施形態に係る生成装置100において、取得部132は、訓練データとして、信号対雑音比が第1の閾値より低い第1の観測信号の音響特徴量と、かかる第1の観測信号に対応する後部残響成分と、かかる第1の観測信号に対応付けられた音素ラベルとを取得する。このため、生成装置100は、雑音の小さい環境下で後部残響に対して頑健な音声認識を行う音響モデルを生成することができる。
また、実施形態に係る生成装置100において、取得部132は、訓練データとして、残響成分が第2の閾値より高い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得する。このため、生成装置100は、残響がある様々な環境下で後部残響に対して頑健な音声認識を行う音響モデルを生成することができる。
また、実施形態に係る生成装置100は、信号対雑音比が第1の閾値より低い第1の観測信号に残響を付加することによって、残響成分が第2の閾値より高い観測信号を生成する第2生成部136を有する。このため、生成装置100は、様々な残響環境下での音声信号を模擬的に生成しながら、音響モデルの精度を向上させることができる。
また、実施形態に係る生成装置において、取得部132は、訓練データとして、後部残響成分が第3の閾値より低い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得する。このため、生成装置100は、後部残響がほとんど存在しない環境における後部残響の響き具合を音響モデルに学習させることにより、音響モデルの精度を向上させることができる。
また、実施形態に係る生成装置100において、第2生成部136は、第1の観測信号から後部残響成分を取り除くことによって、後部残響成分が第3の閾値より低い観測信号を生成する。このため、生成装置100は、後部残響がほとんど存在しない環境下での音声信号を模擬的に生成しながら、音響モデルの精度を向上させることができる。
また、実施形態に係る生成装置100において、取得部132は、訓練データとして、信号対雑音比が第4の閾値より高い観測信号の音響特徴量と、かかる観測信号に対応する後部残響成分と、かかる観測信号に対応付けられた音素ラベルとを取得する。このため、生成装置100は、雑音環境下における後部残響の響き具合を音響モデルに学習させることにより、音響モデルの精度を向上させることができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述した生成装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、受信部は、受信手段や受信回路に読み替えることができる。
1 ネットワークシステム
10 端末装置
20 提供装置
120 記憶部
121 訓練データ記憶部
122 音響モデル記憶部
130 制御部
131 受信部
132 取得部
133 抽出部
134 推定部
135 第1生成部
136 第2生成部
137 出力部
138 提供部

Claims (9)

  1. 第1の観測信号の音響特徴量と、当該第1の観測信号に対応する後部残響成分と、当該第1の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する取得部と、
    前記取得部によって取得された訓練データに基づいて、第2の観測信号に対応する音素ラベルを識別するための音響モデルを生成する第1生成部と、
    を備えることを特徴とする生成装置。
  2. 前記取得部は、
    前記訓練データとして、信号雑音に対する比が第1の閾値より高い前記第1の観測信号の音響特徴量と、当該第1の観測信号に対応する後部残響成分と、当該第1の観測信号に対応付けられた音素ラベルとを取得する
    ことを特徴とする請求項1に記載の生成装置。
  3. 前記取得部は、
    前記訓練データとして、残響成分が第2の閾値より高い観測信号の音響特徴量と、当該観測信号に対応する後部残響成分と、当該観測信号に対応付けられた音素ラベルとを取得する
    ことを特徴とする請求項1又は2に記載の生成装置。
  4. 信号雑音に対する比が第1の閾値より高い前記第1の観測信号に残響を付加することによって、残響成分が第2の閾値より高い観測信号を生成する第2生成部をさらに備える
    ことを特徴とする請求項1〜3のいずれか1つに記載の生成装置。
  5. 前記取得部は、
    前記訓練データとして、後部残響成分が第3の閾値より低い観測信号の音響特徴量と、当該観測信号に対応する後部残響成分と、当該観測信号に対応付けられた音素ラベルとを取得する
    ことを特徴とする請求項1〜4のいずれか1つに記載の生成装置。
  6. 前記第2生成部は、
    前記第1の観測信号から後部残響成分を取り除くことによって、後部残響成分が第3の閾値より低い観測信号を生成する
    ことを特徴とする請求項4に記載の生成装置。
  7. 前記取得部は、
    前記訓練データとして、信号雑音に対する比が第4の閾値より低い観測信号の音響特徴量と、当該観測信号に対応する後部残響成分と、当該観測信号に対応付けられた音素ラベルとを取得する
    ことを特徴とする請求項1〜6のいずれか1つに記載の生成装置。
  8. 第1の観測信号の音響特徴量と、当該第1の観測信号に対応する後部残響成分と、当該第1の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する取得工程と、
    前記取得工程によって取得された訓練データに基づいて、第2の観測信号に対応する音素ラベルを識別するための音響モデルを生成する生成工程と、
    を含むことを特徴とする生成方法。
  9. 第1の観測信号の音響特徴量と、当該第1の観測信号に対応する後部残響成分と、当該第1の観測信号に対応付けられた音素ラベルとを含む訓練データを取得する取得手順と、
    前記取得手順によって取得された訓練データに基づいて、第2の観測信号に対応する音素ラベルを識別するための音響モデルを生成する生成手順と、
    をコンピュータに実行させることを特徴とする生成プログラム。
JP2018115562A 2018-06-18 2018-06-18 生成装置、生成方法及び生成プログラム Active JP6891144B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018115562A JP6891144B2 (ja) 2018-06-18 2018-06-18 生成装置、生成方法及び生成プログラム
US16/284,500 US20190385590A1 (en) 2018-06-18 2019-02-25 Generating device, generating method, and non-transitory computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018115562A JP6891144B2 (ja) 2018-06-18 2018-06-18 生成装置、生成方法及び生成プログラム

Publications (2)

Publication Number Publication Date
JP2019219468A JP2019219468A (ja) 2019-12-26
JP6891144B2 true JP6891144B2 (ja) 2021-06-18

Family

ID=68840158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018115562A Active JP6891144B2 (ja) 2018-06-18 2018-06-18 生成装置、生成方法及び生成プログラム

Country Status (2)

Country Link
US (1) US20190385590A1 (ja)
JP (1) JP6891144B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489737B (zh) * 2020-04-13 2020-11-10 深圳市友杰智新科技有限公司 语音命令识别方法、装置、存储介质及计算机设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4864783B2 (ja) * 2007-03-23 2012-02-01 Kddi株式会社 パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法
JP4532576B2 (ja) * 2008-05-08 2010-08-25 トヨタ自動車株式会社 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
JP2009276365A (ja) * 2008-05-12 2009-11-26 Toyota Motor Corp 処理装置、音声認識装置、音声認識システム、音声認識方法
JP5166470B2 (ja) * 2010-03-25 2013-03-21 株式会社東芝 音声認識装置、及びコンテンツ再生装置
JP6169910B2 (ja) * 2013-07-08 2017-07-26 本田技研工業株式会社 音声処理装置
US9837068B2 (en) * 2014-10-22 2017-12-05 Qualcomm Incorporated Sound sample verification for generating sound detection model
US9299347B1 (en) * 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US9972315B2 (en) * 2015-01-14 2018-05-15 Honda Motor Co., Ltd. Speech processing device, speech processing method, and speech processing system
JP6637078B2 (ja) * 2016-02-02 2020-01-29 日本電信電話株式会社 音響モデル学習装置、音響モデル学習方法及びプログラム
GB2551499B (en) * 2016-06-17 2021-05-12 Toshiba Kk A speech processing system and speech processing method
JP6454916B2 (ja) * 2017-03-28 2019-01-23 本田技研工業株式会社 音声処理装置、音声処理方法及びプログラム
JP6748304B2 (ja) * 2017-08-04 2020-08-26 日本電信電話株式会社 ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム

Also Published As

Publication number Publication date
US20190385590A1 (en) 2019-12-19
JP2019219468A (ja) 2019-12-26

Similar Documents

Publication Publication Date Title
CN111161752B (zh) 回声消除方法和装置
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
KR101153093B1 (ko) 다감각 음성 향상을 위한 방법 및 장치
US7590526B2 (en) Method for processing speech signal data and finding a filter coefficient
US8271277B2 (en) Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
JP4532576B2 (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
JP6234060B2 (ja) ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
US7856353B2 (en) Method for processing speech signal data with reverberation filtering
US9607627B2 (en) Sound enhancement through deverberation
JP2012155339A (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
CN111369976A (zh) 测试语音识别设备的方法及测试装置
US10984814B2 (en) Denoising a signal
EP3320311B1 (en) Estimation of reverberant energy component from active audio source
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP6891144B2 (ja) 生成装置、生成方法及び生成プログラム
CN112652290B (zh) 产生混响音频信号的方法及音频处理模型的训练方法
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
US10079028B2 (en) Sound enhancement through reverberation matching
JP2009276365A (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
CN113555031B (zh) 语音增强模型的训练方法及装置、语音增强方法及装置
CN114758668A (zh) 语音增强模型的训练方法和语音增强方法
JP7426686B2 (ja) 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法
KR20220053475A (ko) 전자 장치 및 이의 제어 방법

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210526

R150 Certificate of patent or registration of utility model

Ref document number: 6891144

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250