JP7222828B2 - 音声認識装置、音声認識方法及び記憶媒体 - Google Patents

音声認識装置、音声認識方法及び記憶媒体 Download PDF

Info

Publication number
JP7222828B2
JP7222828B2 JP2019116065A JP2019116065A JP7222828B2 JP 7222828 B2 JP7222828 B2 JP 7222828B2 JP 2019116065 A JP2019116065 A JP 2019116065A JP 2019116065 A JP2019116065 A JP 2019116065A JP 7222828 B2 JP7222828 B2 JP 7222828B2
Authority
JP
Japan
Prior art keywords
speaker
speech recognition
sample
speech
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019116065A
Other languages
English (en)
Other versions
JP2021001988A (ja
Inventor
直之 神田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019116065A priority Critical patent/JP7222828B2/ja
Publication of JP2021001988A publication Critical patent/JP2021001988A/ja
Application granted granted Critical
Publication of JP7222828B2 publication Critical patent/JP7222828B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、複数の話者の音声が混合された音声データについて、個々の音声を認識し、同時に各音声の話者同定をするための音声認識装置及び音声認識方法に関する。
複数の話者の音声が混合された音声データについて音声認識を行う際には、話者毎に音声(音源)を分離することが考えられる。音源を分離する技術としては、非特許文献1、2が知られている。これらは「音源分離」と呼ばれる。
分離された音声に対しては音声認識処理を実施することができる。音声認識については広く手段が知られている。代表的な非特許文献として非特許文献3が知られる。
さらに、分離された音声の話者性を表す特徴量を抽出し、各音声の話者性に応じてクラスタリングすることにより、どの発話者が発話したのかを同定する技術が知られている。これは「話者同定」と呼ばれる。話者同定の技術については広く知られている。話者同定の代表的な非特許文献として非特許文献4が知られる。
一方で、事前に発話者のサンプルを得ておき、その発話者のサンプルに近い音声を除去する技術としては特許文献1が知られている。また、発話者のサンプルの声質に近い音声だけを認識する技術として非特許文献5、非特許文献6が知られている。これらは「目標話者音声認識」と呼ばれる。
特開2016-042152号公報
Chao Weng 他著、"Deep Neural Networks for Single-Channel Multi-Talker Speech Recognition"、IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 23, NO. 10, OCTOBER 2015 John R. Hershey、Zhuo Chen、Jonathan Le Roux、Shinji Watanabe著、"Deep clustering: Discriminative embeddings for segmentation and separation" Rabiner, Lawrence R., Biing-Hwang Juang, and Janet C. Rutledge. Fundamentals of speech recognition. Vol. 14. Englewood Cliffs: PTR Prentice Hall, 1993. Anguera, Xavier, et al. "Speaker diarization: A review of recent research." IEEE Transactions on Audio, Speech, and Language Processing 20.2 (2012): 356-370. Zmolikova, Katerina, et al. "Speaker-Aware Neural Network Based Beamformer for Speaker Extraction in Speech Mixtures." Interspeech. 2017. Delcroix, Marc, et al. "Single channel target speaker extraction and recognition with speaker beam." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
複数の話者の音声が混合された音声データについて音声認識と話者同定を行う場合、まず音源分離技術を適用した後に、分離された個々の音声に対して音声認識処理と話者同定処理を実施する方法がある。しかし、この技術では音源分離と音声認識及び話者同定処理が個別に最適化されており、各処理を組み合わせた際の音声認識精度や話者同定精度が悪いという問題がある。
一方で、上述の目標話者音声認識を利用すると、目標話者を同定しつつ音声認識を精度よく実行できるが、事前に目標話者のサンプルが必要となるという問題がある。
このように、複数の話者の音声が混合された音声データについて、音声認識と話者同定を、精度よく、事前の目標話者サンプルも要さずに実施することができる方法が存在しなかった。
本発明は、プロセッサとメモリを有する音声認識装置であって、複数の話者の音声が混合された音声データを受け付けて、前記音声データから話者サンプルの初期値として初期話者サンプルを抽出する話者サンプル初期値算出部と、前記話者サンプル初期値算出部が抽出した前記初期話者サンプルに基づいて目標話者音声認識を実施する目標話者音声認識部と、前記目標話者音声認識の実行結果に基づいて再度話者サンプルを抽出して前記初期話者サンプルを更新する話者サンプル更新部と、を有し、前記目標話者音声認識部は、前記話者サンプル更新部で更新された前記話者サンプルに基づいて前記目標話者音声認識を再度実施する。
したがって、本発明によれば、事前に話者サンプルを必要とせずに、複数の話者の音声データから音声認識と話者同定を、精度よく実施することが可能となる。
本明細書において開示される主題の、少なくとも一つの実施の詳細は、添付されている図面と以下の記述の中で述べられる。開示される主題のその他の特徴、態様、効果は、以下の開示、図面、請求項により明らかにされる。
本発明の実施例1を示し、音声認識装置の一例を示すブロック図である。 本発明の実施例1を示し、音声認識装置で行われる音声認識と話者同定の一例を示す図である。 本発明の実施例1を示し、目標話者音声認識部の一例を示す図である。 本発明の実施例1を示し、目標話者音声認識部の処理の一例を示すフローチャートである。 本発明の実施例1を示し、話者サンプル初期値算出部の処理の一例を示すフローチャートである。 本発明の実施例1を示し、話者サンプル更新部の処理の一例を示すフローチャートである。 本発明の実施例2を示し、音声認識装置で行われる音声認識と話者同定の一例を示す図である。 本発明の実施例2を示し、補助出力を有する目標話者音声認識部の一例を示す図である。 本発明の実施例3を示し、音声認識装置で行われる音声認識と話者同定の一例を示す図である。 本発明の実施例1を示し、話者サンプル初期値算出部で行われる音声認識と話者同定のパラメータを受け付けるGUIの一例を示す図である。
以下、本発明の実施形態を添付図面に基づいて説明する。
図1は、本発明の実施例1を示し、音声認識装置100の一例を示すブロック図である。音声認識装置100は、プロセッサ1と、メモリ2と、ストレージ装置3と、入力装置4と、出力装置5と、ネットワークインタフェース6を含む計算機で構成される。
メモリ2には、話者サンプル初期値算出部40と、話者サンプル更新部41と目標話者音声認識部42及び収束判定部43がプログラムとしてロードされ、プロセッサ1によって実行される。ストレージ装置3には、各プログラムが利用するデータ等が格納され、本実施例1では、認識用音声データ32と、音響モデル33と、言語モデル34と、話者特徴量抽出用モデル35が格納される。
入力装置4は、マウスやキーボードあるいはタッチパネルなどで構成される。出力装置5は、ディスプレイなどで構成される。ネットワークインタフェース6は、図示しないネットワークに接続される。
プロセッサ1は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、プロセッサ1は、目標話者音声認識プログラムに従って処理することで目標話者音声認識部42として機能する。他のプログラムについても同様である。さらに、プロセッサ1は、各プログラムが実行する複数の処理のそれぞれの機能を提供する機能部としても稼働する。計算機及び計算機システムは、これらの機能部を含む装置及びシステムである。
音声認識装置100の各機能を実現するプログラム、テーブル等の情報は、ストレージ装置3や不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、又は、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
図2は音声認識装置100の処理の一例を示す図である。本実施例では、予め認識用音声データ32がストレージ装置3に格納されている例を示す。ここで認識用音声データ32は、複数の話者の音声が混在する音声データである。
まず、話者サンプル初期値算出部40が、認識用音声データ32を受け取り、当該音声に含まれる話者を含むと期待される話者サンプル(音声サンプル)の初期値(以下、初期話者サンプル203)を生成する(ステップ202)。話者サンプル初期値算出部40では、当該音声に含まれる話者数に応じた初期話者サンプル203が生成される。
認識用音声データ32に含まれる話者数は、当該音声認識装置100のユーザが入力してもよいし、自動で推定することもできる。話者サンプル初期値算出部40の処理の詳細については図5に後述する。
続いて、目標話者音声認識部42が、初期話者サンプル203と同一の話者の音声のみが認識されるように、前記認識用音声データ32の音声認識を行う(ステップ204)。これにより、初期話者サンプル203に対応する音声認識結果206が得られる。
ここで目標話者音声認識部42が出力する音声認識結果206には、音声の発話内容をテキストに書き起こした情報と、各音声の始端(開始)時刻及び終端(終了)時刻が含まれる。目標話者音声認識部42の構成や処理の詳細については図3及び図4に後述する。
続いて、収束判定部43が、処理を終了するか否かについて、所定の収束条件に基づいて判定する(ステップ207)。この処理は、初回では必ずNoと判定される。
収束判定部43は、2回目以降の判定では、例えば、ひとつ前の繰り返しにおける音声認識結果206と、最新の音声認識結果206の文字列の一致度が所定の閾値以上であれば収束判定の結果がYesであると判定することができる。もしくは、収束判定部43が所定の回数呼び出された場合にはYesと判定するような処理を導入してもよい。
収束判定部43の判定結果がNoであった場合、話者サンプル更新部41が実行され、更新された話者サンプル209が生成される(ステップ208)。話者サンプル更新部41における処理の詳細について図6で後述する。
更新された各話者サンプル209は目標話者音声認識部42へ入力され、再び目標話者音声認識処理が実行される(204)。以下、収束判定部43がYesと判定するまで上記の処理が繰り返され、Yesと判定された場合に、各話者ごとの音声認識結果211が出力される。
なお、上記では収束判定部43を独立した処理部として説明したが、これに限定されるものではなく、目標話者音声認識部42の一部として実装してもよい。
図3は、目標話者音声認識部42の構成要素の一例を示している。目標話者音声認識部42は音声特徴量算出部10と、話者特徴量算出部20と、デコード部316からなり、音響モデル33と言語モデル34が演算に利用される。
音響モデル33は、ニューラルネットワークで算出された音素の出力確率分布を含む数学モデルである。音響モデル33は、例えばニューラルネットワークで構成されており、音声特徴量303を受け取る入力層304と、話者特徴量315を受け取る入力層309を有する。
また、音響モデル33の出力層308からは、HMM(Hidden Markov Model:隠れマルコフモデル)の各状態の出力確率分布が算出される。目標話者音声認識の場合、話者サンプル209(又は初期話者サンプル203)と同一話者の音素確率が出力されるようにネットワークパラメータが学習されている。この学習方法については前記非特許文献6などに開示された方法を利用することができる。
言語モデル34は、音素や単語等のシンボル系列で構成される。デコード部316は音響モデル33から出力された音素の確率と、言語モデル34から算出される言語スコアを用いて、最も確率の高い単語列を認識結果のテキストとして出力する。
音響モデル33で利用されるネットワークとしては、例えば、RNN(Recurrent Neural Network)やLSTM(Long short-term memory)を用いることができる。もしくは、DNN(Deep Neural Network:ディープニューラルネットワーク)であってもよい。
なお、図3では隠れ層として、ブロック305、ブロック306、ブロック307、ブロック310、ブロック311を設定しているが、この構成に限定するものではなく、所望の構成のネットワークを利用することができる。
なお、音響モデル33と言語モデル34を一体化し、音声データから文字列を予測するひとつのニューラルネットワークを用いることもできる。この場合、ニューラルネットワークの出力は音素確率ではなく文字列となる。音声特徴量303を受け取る入力層304と、話者特徴量315を受け取る入力層309については同一である。
図4は、目標話者音声認識部42で行われる処理の一例を示す。この処理は、図2のステップ202で行われる処理である。
まず、目標話者音声認識部42は、認識用音声データ32を受け付け(ステップ401)、音声特徴量算出部10が認識用音声データ32の音声特徴量303を算出する(ステップ402)。
音声特徴量算出部10が出力する音声特徴量303は、例えば、入力された認識用音声データ32をFFT(Fast Fourier Transform)で処理し、FFTの処理結果に基づいてMFCC(Mel Frequency Cepstral Coefficient:メル周波数ケプストラム係数)を計算する。そして、音声特徴量算出部10は所定の時間区間(例えば、10msec)の単位(フレーム)でMFCCの差分を算出して音声特徴量303とすることができる。なお、認識用音声データ32の音声特徴量303については、上記に限定されるものではなく周知又は公知の手法を適用すればよい。
また、目標話者音声認識部42は、ステップ401と並列的に目標話者の話者サンプル209(又は初期話者サンプル203)を受け付け(ステップ403)、話者特徴量算出部20が、当該話者サンプル209(又は初期話者サンプル203)から話者特徴量315を算出する(ステップ404)。
なお、目標話者音声認識部42が受け付ける話者サンプルは、新たな話者の場合には話者サンプル初期値算出部40が算出した初期話者サンプル203を受け付け、既出の話者の場合には話者サンプル更新部41で更新された話者サンプル209を受け付ける。
話者特徴量算出部20が出力する話者特徴量315は、例えば、入力された前記話者サンプル209をFFTで処理し、FFTの処理結果に基づいてMFCC(Mel Frequency Cepstral Coefficient:メル周波数ケプストラム係数)を計算し、所定の時間区間(例えば、10msec)の単位(フレーム)で差分を算出する。そして、話者特徴量算出部20は、さらに当該MFCCと事前に計算されたGaussian Mixture Modelを用いてi-vectorを計算することで話者特徴量315を算出することができる。
i-vectorの算出方法としては、公知又は周知の手法を適用すればよく、例えば、"Front-end factor analysis for speaker verification."(Dehak, Najim, et al. IEEE Transactions on Audio, Speech, and Language Processing 19.4 (2010): 788-798.)に記載があり、広く知られている。なお、話者特徴量315については、上記に限定されるものではなく他の周知又は公知の手法を適用してもよい。
最後に、デコード部316が、音声特徴量303と話者特徴量315に基づいて音響モデル33から出力された音素の確率と、言語モデル34から算出される言語スコアを用いて、最も確率の高い単語列を認識結果のテキストとして出力する(ステップ405)。
これにより、認識用音声データ32に含まれる複数の音声のうち、話者サンプル209(又は初期話者サンプル203)の話者と同一の話者の音声のみがテキストに書き起こされる。書き起こしには発話ごとの始端時刻と終端時刻が含まれる。
なお、上記ではステップ401、402とステップ403、404を並列して実行する例を示したが、これに限定されるものではなく、シーケンシャルに実行するようにしてもよい。
図5は話者サンプル初期値算出部40で行われる処理の一例を示すフローチャートである。この処理は、図2のステップ202で行われる。
まず、話者サンプル初期値算出部40は、認識用音声データ32を受け取り(ステップ501)、続いて認識用音声データ32を複数の音声区間に分割する(ステップ502)。
本実施例では、規定の音声長(例えば2秒など)に自動分割する方法や、音量が小さいところを無音と仮定し、音量が小さいところで分割する方法などを利用することができる。
続いて、話者サンプル初期値算出部40は、分割された各音声データから話者特徴量315を算出する(ステップ503)。本実施例の話者特徴量315は、目標話者音声認識部42で利用されている話者特徴量算出部20(図3参照)と同一のものを利用してもよいし、異なるものを利用しても構わない。
最後に、話者サンプル初期値算出部40は、分割された各音声区間ごとに算出された話者特徴量315をクラスタリングする(ステップ504)。話者サンプル初期値算出部40は、同一クラスと判定された話者特徴量315に対応する音声の全てもしくは所定の一部を初期話者サンプル203として出力する。本実施例で利用するクラスタリング処理は、例えば、K-means法や凝集的クラスタリング法など公知又は周知の手法を利用することができる。
また、話者サンプル初期値算出部40では、認識用音声データ32の全てを用いるのではなく、一部分のみを用いることが可能である。例えば、認識用音声データ32の前半10%を利用する、もしくは冒頭1分のみを利用することなどが考えられる。このようにすることにより、発話全体を用いるより処理を軽量化できる。
さらには、利用する音声データの設定を、図10のようなGUIでユーザに指定させることもできる。図10は、話者サンプル初期値算出部40で行われる音声認識と話者同定のパラメータを受け付けるGUIの一例を示す図である。
図10に示すGUIではデータ入力部1001により、音声認識装置100のユーザは、初期話者検出を認識用音声データ32のうち全体の何パーセントを用いて実施するのかを指定することができる。
上記処理によって、話者サンプル初期値算出部40は、新たな話者の音声データを初期話者サンプル203として出力し、目標話者音声認識部42へ入力する。
図6は、話者サンプル更新部41で行われる処理の一例を示すフローチャートである。この処理は、図2のステップ208で行われる。
話者サンプル更新部41は、認識用音声データ32を受け取る(ステップ601)。同時に、目標話者音声認識部42の認識結果を受け取り(ステップ602)、話者ごとに、他の話者と発話の重複がない認識用音声データ32の区間を算出する(ステップ603)。
ステップ603は、音声認識結果に含まれる発話ごとの始端時刻及び終端時刻の情報を用いれば容易に算出できる。最後に、ステップ603で得られた区間情報に基づいて認識用音声データ32を分割したものの全て、もしくは一部を、更新された話者サンプル209として出力する(604)。上記処理は、話者の数まで繰り返して実行される。なお、上記では、ステップ601とステップ602、603の処理を並列的に実行する例を示したがこれに限定されるものではなく、シーケンシャルに実行してもよい。
なお、話者サンプル更新部41において、認識用音声データ32から発話の重複のない区間を算出する代わりに、目標話者音声認識部42の出力結果に含まれる信頼度を用いることもできる。
この場合、話者サンプル更新部41は、ある音声区間に対し、話者サンプル209を生成する対象話者を目標とした目標話者音声認識部42で算出された信頼度をxtgtとし、それ以外の話者を目標として目標話者音声認識部42で算出された信頼度を話者iに対してxとすると、当該区間の重み係数を次式で算出する。
Figure 0007222828000001
上記重み係数は、信頼度が0~1の場合、話者iの信頼度xを1から差し引いた値と、信頼度xtgtとのうち小さい値が設定される。
話者サンプル更新部41は、上記式から算出した重み係数を付加した話者サンプル209を生成することもできる。この場合、目標話者音声認識部42では、話者特徴量315を当該重み係数に従った重み付き平均などにより算出することにより、当該重み係数に従った目標話者音声認識を実行することができる。
なお、話者サンプル更新部41が算出する信頼度xtgtは、対象とする話者の確からしさを示す値であり、例えば、「Finding consensus in speech recognition: word error minimization and other applications of confusion networks」(L. Mangu, E. Brill, A. Stolcke、Computer Speech & Language、Volume 14, Issue 4, October 2000, Pages 373-400)等の周知又は公知の手法を適用することができる。
また、上記式において、対象以外の話者を目標として目標話者音声認識部42で算出された信頼度xから1-max(x)を、話者の単一性を示す値(単一話者度)として算出して利用することができる。この単一話者度を、上記重み係数として話者サンプル209に付加するようにしてもよい。
以上の一連の処理により、音声認識装置100は、認識用音声データ32に含まれる発話から、初期話者サンプル203を抽出して目標話者音声認識部42を実行し、さらに目標話者音声認識の結果に基づいて初期話者サンプル203を更新する話者サンプル209を生成し、更新後の話者サンプル209で目標話者音声認識部42を実行する。
これにより、事前に初期話者サンプル203を必要とせずに、複数の話者の音声から音声認識と話者同定を、高精度で実現することが可能となる。
図7は、本発明の実施例2を示し、補助出力を有する目標話者音声認識部42を利用する処理の一例を示す。図8は、補助出力を有する目標話者音声認識部42の構成を示す。
まず、補助出力を有する目標話者音声認識部42について図8に基づいて説明する。実施例2の目標話者音声認識部42の構成は、前記実施例1の図3で示した目標話者音声認識部42とほぼ同じであるが、音響モデル33のネットワークに補助出力を算出するための隠れ層801と出力層802が追加された点が異なる。
出力層802からは目標話者の話者サンプル(音声サンプル)の話者以外の話者に対する音素確率が算出される。この音素確率と、言語モデル34から得られる言語スコアの組み合わせが最も高くなる単語列を出力することで、話者サンプルの話者以外の音声認識結果を得ることができる(ブロック803)。なお、補助出力に関わるネットワーク構成は、図示した以外にも所望の構成をとることができる。
続いて、図7に従って処理の流れを説明する。まず、話者サンプル初期値算出部40が、認識用音声データ32を受け取り、当該音声に含まれる話者を含むと期待される初期話者サンプル702を生成する。
話者サンプル初期値算出部40の処理の流れは実施例1と同一であるが、本実施例では、話者1名の初期話者サンプル702だけ生成すればよい。例えば、話者サンプル初期値算出部40で算出された初期話者サンプル702のうち、音声長が最も長い話者だけを選ぶことなどが可能である。
続いて、補助出力を有する目標話者音声認識部42が、初期話者サンプル702と同一の話者の音声(図における話者A)と、それ以外の話者の音声(図における補助出力)についてそれぞれ音声認識結果705を出力する。ここで認識結果は発話ごとの始端時刻及び終端時刻の情報を含む。
続いて、収束判定部43は、処理の終了について所定の収束条件を満足したか否かを判定する(ステップ706)。この処理は初回では必ずNoと判定される。2回目以降は、例えば、ひとつ前の繰り返しにおける音声認識結果705と、最新の音声認識結果705の文字列の一致度が所定の閾値以上であれば収束判定の結果がYesであると判定することができる。もしくは、収束判定処理が所定の回数呼び出された場合にはYesと判定するような処理を導入してもよい。
収束判定部43の判定結果がNoであった場合、話者サンプル更新部41が実行され、更新された話者サンプル708が生成される。話者サンプル更新部41における処理は図6と同一であるが、補助出力から得られる始端時刻及び終端情報を用いて話者が重複していない区間を算出する点が異なる。換言すれば、当該区間は、単一の話者が発話している区間となる。
更新された各話者サンプル708に基づいて、再び目標話者音声認識703が実行される。以下、収束判定処理(706)でYesと判定するまで処理が繰り返され、Yesと判定された場合に、各話者ごとの音声認識結果が出力される。
以上の処理により、音声認識装置100は、認識用音声データ32に含まれる発話から、話者サンプルと同一の話者の音声と、話者サンプルの話者以外の音声を精度よく認識することができる。これにより、事前に話者サンプルを必要とせずに、複数の話者の音声から音声認識と話者同定を、高精度で実現することが可能となる。
図9は、実施例3を示し、音声認識装置100で行われる音声認識と話者同定の一例を示す図である。
実施例3の音声認識装置100は、実施例2と同様に補助出力を有する目標話者音声認識部42を用いているが、認識用音声データ32の全体を利用するのではなく、所定のブロック単位で認識用音声データ32の処理を行うことで、逐次的に認識結果を出力する例を示す。
まず、話者サンプル初期値算出部40が、認識用音声データ32を受け取り(901)、当該音声に含まれる話者を含むと期待される初期話者サンプル902を生成する。この処理は基本的に実施例2と同一であるが、認識用音声データ32の全てを用いるのではなく、冒頭から所定の区間のみを用いる点が異なる。
本実施例で所定の区間とは、例えば認識用音声データ32の始端時刻から、音声のパワー(例えば、dB)が所定の閾値を超えた後(音声が発せられたと想定される)、所定の閾値以下であった時間が一定値以上となるまで(無音と想定される)の区間を利用することができる。もしくは、認識用音声データ32の冒頭から、事前に設定された長さ(時間)の区間を用いてもよい。
続いて、補助出力を有する目標話者音声認識部42が、初期話者サンプル902と同一の話者の音声(図中話者A)と、それ以外の話者の音声(図における補助出力)について、冒頭から所定の区間のみ認識結果904を出力する(903)。ここで認識結果は発話ごとの始端時刻及び終端時刻の情報を含む。
続いて、話者サンプル更新部41が実行され(905)、更新された話者サンプル906が生成される。この処理は実施例2と同一であるが、認識用音声データ32の全てを用いるのではなく、上述のように冒頭から所定の区間のみを用いる点が異なる。
更新された各話者サンプル906に基づいて、再び目標話者音声認識部42が稼働する(907)。ここでは、認識用音声データ32のうち、一つ前のステップで処理された時刻から所定の区間のみに対して音声認識が実行される(908)。すなわち、目標話者音声認識部42は、音声認識の対象区間のうち、未認識区間の先頭から所定の区間について目標話者音声認識を実行する。
以下、認識用音声データ32の終端時刻に達するまで、話者サンプル906の更新と、目標話者音声認識が繰り返される。
以上の一連の処理により、認識用音声データ32の始端から逐次的に音声認識と話者同定を実施することが可能となる。これにより、事前に話者サンプルを必要とせずに、複数の話者の音声から音声認識と話者同定を、高精度で実現することが可能となる。
なお、実施例2と実施例3において、認識用音声データ32の冒頭から所定の区間を前記実施例1の図10に示したようなGUIでユーザに指定させることもできる。本実施例は方式指定部1002により、認識用音声データ32の全体を用いる実施例2と、認識用音声データ32を逐次的に認識する実施例3を選択することが可能となる。
<結び>
以上のように、上記実施例1~3の音声認識装置は、以下のような構成とすることができる。
(1)プロセッサ(1)とメモリ(2)を有する音声認識装置(100)であって、複数の話者の音声が混合された音声データ(32)を受け付けて、前記音声データ(32)から話者サンプルの初期値を初期話者サンプル(203)として抽出する話者サンプル初期値算出部(40)と、前記話者サンプル初期値算出部(40)が抽出した初期話者サンプル(203)に基づいて目標話者音声認識を実施する目標話者音声認識部(42)と、前記目標話者音声認識の実行結果に基づいて再度話者サンプル(209)を抽出して前記初期話者サンプル(203)を更新する話者サンプル更新部(41)と、を有し、前記目標話者音声認識部(42)は、前記話者サンプル更新部(41)が更新した話者サンプル(209)に基づいて前記目標話者音声認識を再度実施する。
上記構成により、音声認識装置100は、認識用音声データ32に含まれる発話から、初期話者サンプル203が抽出されて目標話者音声認識部42を実行し、さらに目標話者音声認識の結果に基づいて初期話者サンプル203を更新する話者サンプル209を生成し、更新後の話者サンプル209で目標話者音声認識部42を実行する。
これにより、音声認識装置100は、事前に初期話者サンプル203を必要とせずに、複数の話者の音声から音声認識と話者同定を、高精度で実現することが可能となる。
(2)上記(1)に記載の音声認識装置(100)であって、前記目標話者音声認識部(42)と前記話者サンプル更新部(41)は、所定の収束条件を満たすまで繰り返し実行される。
上記構成により、話者サンプル更新部41は、収束判定部43で所定の条件が満たされるまで話者サンプル209の更新が繰り返され、更新された話者サンプル209で目標話者音声認識を実行することで、音声認識と話者同定を高精度で実現することが可能となる。
(3)上記(1)に記載の音声認識装置(100)であって、前記話者サンプル更新部(41)は、前記目標話者音声認識の実行結果から単一の話者が発話している区間を抽出して前記話者サンプル(209)を更新する。
上記構成により、他の話者の発話がない区間から対象の話者サンプルを抽出することで、高精度の話者サンプル209を生成することができる、
(4)上記(1)に記載の音声認識装置(100)であって、前記話者サンプル更新部(41)は、目標話者音声認識の信頼度を算出し、当該信頼度に基づく重み係数を算出し、当該重み係数を前記話者サンプル(209)に付加する。
上記構成により、目標話者音声認識部42では、話者特徴量315を当該重み係数に従った重み付き平均などにより算出することにより、当該重み係数に従った目標話者音声認識を実行することができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。
また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、又は、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
1 プロセッサ
2 メモリ
3 ストレージ装置
4 入力装置
5 出力装置
10 音声特徴量算出部
20 話者特徴量抽出部
32 認識用音声データ
33 音響モデル
34 言語モデル
35 話者特徴量抽出用モデル
40 話者サンプル初期値算出部
41 話者サンプル更新部
42 目標話者音声認識部

Claims (9)

  1. プロセッサとメモリを有する音声認識装置であって、
    複数の話者の音声が混合された音声データを受け付けて、前記音声データから話者サンプルの初期値として初期話者サンプルを抽出する話者サンプル初期値算出部と、
    前記話者サンプル初期値算出部が抽出した初期話者サンプルに基づいて目標話者音声認識を実施する目標話者音声認識部と、
    前記目標話者音声認識の実行結果に基づいて再度話者サンプルを抽出して前記初期話者サンプルを更新する話者サンプル更新部と、を有し、
    前記目標話者音声認識部は、
    前記話者サンプル更新部で更新された前記話者サンプルに基づいて前記目標話者音声認識を再度実施することを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置であって、
    前記目標話者音声認識部と前記話者サンプル更新部は、所定の収束条件を満たすまで繰り返し実行されることを特徴とする音声認識装置。
  3. 請求項1に記載の音声認識装置であって、
    前記話者サンプル更新部は、
    前記目標話者音声認識の実行結果から単一の話者が発話している区間を抽出して前記話者サンプルを更新することを特徴とする音声認識装置。
  4. 請求項1に記載の音声認識装置であって、
    前記話者サンプル更新部は、
    目標話者音声認識の信頼度を算出し、当該信頼度に基づく重み係数を算出し、当該重み係数を前記話者サンプルに付加することを特徴とする音声認識装置。
  5. プロセッサとメモリを有する音声認識装置の音声認識方法であって、
    前記音声認識装置が、複数の話者の音声が混合された音声データを受け付けて、前記音声データから話者サンプルの初期値を初期話者サンプルとして抽出する話者サンプル初期値算出ステップと、
    前記音声認識装置が、抽出された前記初期話者サンプルに基づいて目標話者音声認識を実施する目標話者音声認識ステップと、
    前記音声認識装置が、前記目標話者音声認識の実行結果に基づき再度話者サンプルを抽出して前記初期話者サンプルを更新する話者サンプル更新ステップと、を含み、
    前記目標話者音声認識ステップは、
    前記話者サンプル更新ステップで更新された前記話者サンプルに基づいて前記目標話者音声認識を再度実施することを特徴とする音声認識方法。
  6. 請求項5に記載の音声認識方法であって、
    前記目標話者音声認識ステップと前記話者サンプル更新ステップは、所定の収束条件を満たすまで繰り返し実行されることを特徴とする音声認識方法。
  7. 請求項5に記載の音声認識方法であって、
    前記話者サンプル更新ステップは、
    前記目標話者音声認識の実行結果から単一の話者が発話している区間を抽出して前記話者サンプルを更新することを特徴とする音声認識方法。
  8. 請求項5に記載の音声認識方法であって、
    前記話者サンプル更新ステップは、
    前記目標話者音声認識の信頼度を算出し、当該信頼度に基づく重み係数を算出し、当該重み係数を前記話者サンプルに付加することを特徴とする音声認識方法。
  9. プロセッサとメモリを有する計算機で、音声認識を実行させるためのプログラムを格納した記憶媒体であって、
    複数の話者の音声が混合された音声データを受け付けて、前記音声データから話者サンプルの初期値を初期話者サンプルとして抽出する話者サンプル初期値算出ステップと、
    抽出された前記初期話者サンプルに基づいて目標話者音声認識を実施する目標話者音声認識ステップと、
    前記目標話者音声認識の実行結果に基づき再度話者サンプルを抽出して前記初期話者サンプルを更新する話者サンプル更新ステップと、を含み、
    前記目標話者音声認識ステップは、
    前記話者サンプル更新ステップで更新された前記話者サンプルに基づいて前記目標話者音声認識を再度前記計算機に実行させるためのプログラムを格納した非一時的な計算機読み取り可能な記憶媒体。
JP2019116065A 2019-06-24 2019-06-24 音声認識装置、音声認識方法及び記憶媒体 Active JP7222828B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019116065A JP7222828B2 (ja) 2019-06-24 2019-06-24 音声認識装置、音声認識方法及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019116065A JP7222828B2 (ja) 2019-06-24 2019-06-24 音声認識装置、音声認識方法及び記憶媒体

Publications (2)

Publication Number Publication Date
JP2021001988A JP2021001988A (ja) 2021-01-07
JP7222828B2 true JP7222828B2 (ja) 2023-02-15

Family

ID=73994253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019116065A Active JP7222828B2 (ja) 2019-06-24 2019-06-24 音声認識装置、音声認識方法及び記憶媒体

Country Status (1)

Country Link
JP (1) JP7222828B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102560019B1 (ko) * 2021-01-15 2023-07-27 네이버 주식회사 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020461A (ja) 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
JP2010032792A (ja) 2008-07-29 2010-02-12 Nippon Telegr & Teleph Corp <Ntt> 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020461A (ja) 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
JP2010032792A (ja) 2008-07-29 2010-02-12 Nippon Telegr & Teleph Corp <Ntt> 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体

Also Published As

Publication number Publication date
JP2021001988A (ja) 2021-01-07

Similar Documents

Publication Publication Date Title
Xiong et al. Toward human parity in conversational speech recognition
McAuliffe et al. Montreal forced aligner: Trainable text-speech alignment using kaldi.
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US20110119051A1 (en) Phonetic Variation Model Building Apparatus and Method and Phonetic Recognition System and Method Thereof
JP2017513047A (ja) 音声認識における発音予測
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
KR20050082253A (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
Upadhyaya et al. Continuous Hindi speech recognition model based on Kaldi ASR toolkit
JP6985221B2 (ja) 音声認識装置及び音声認識方法
Chuctaya et al. Isolated automatic speech recognition of Quechua numbers using MFCC, DTW and KNN
JP4758919B2 (ja) 音声認識装置及び音声認識プログラム
JP4791857B2 (ja) 発話区間検出装置及び発話区間検出プログラム
Hachkar et al. A comparison of DHMM and DTW for isolated digits recognition system of Arabic language
JP7222828B2 (ja) 音声認識装置、音声認識方法及び記憶媒体
US11580989B2 (en) Training method of a speaker identification model based on a first language and a second language
JP6487650B2 (ja) 音声認識装置及びプログラム
CN112420021A (zh) 学习方法、说话者识别方法以及记录介质
Singhal et al. Automatic speech recognition for connected words using DTW/HMM for English/Hindi languages
Thalengala et al. Study of sub-word acoustical models for Kannada isolated word recognition system
JP2012053218A (ja) 音響処理装置および音響処理プログラム
Nguyen et al. Development of a Vietnamese large vocabulary continuous speech recognition system under noisy conditions
US20050246172A1 (en) Acoustic model training method and system
Metze et al. Fusion of acoustic and linguistic features for emotion detection
Meftah et al. A comparative study of different speech features for arabic phonemes classification
KR20210081166A (ko) 다국어 음성 환경에서의 언어 식별 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230203

R150 Certificate of patent or registration of utility model

Ref document number: 7222828

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150