JP5296455B2

JP5296455B2 - 話者識別装置、及びコンピュータプログラム

Info

Publication number: JP5296455B2
Application number: JP2008216484A
Authority: JP
Inventors: 貴裕奥; 亨今井; 庄衛佐藤
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2008-08-26
Filing date: 2008-08-26
Publication date: 2013-09-25
Anticipated expiration: 2028-08-26
Also published as: JP2010054574A

Description

本発明は、話者交替推定装置、話者識別装置、及びコンピュータプログラムに関する。

音声データからその発話者が誰であるかを識別する話者識別装置がある。この話者識別装置は、例えば、ニュース番組の音声や会議の録音音声に、発話者を示す発話者情報をメタデータとして付加する、等の目的のために利用することが可能である。

従来、発話者を識別する方法として、音響尤度など発話の音響的な特徴に関する基準を用いて識別を行う方法が知られている（非特許文献１，２参照）。
S. Chen他、Proc. DARPA Speech Recognition Workshop、pp.127-132、１９９８年 S. E. Tranter他、IEEE Trans. Speech Audio Process 14、pp.1557-1565、２００６年

しかしながら、上記の従来方法では、音声の音響的特徴のみを用いて発話者を識別するため、発話者の識別精度があまり高くないという問題があった。例えば、声質の似ている発話者Ａと発話者Ｂが対話をしている場合、両者それぞれの音声は音響的特徴の差が小さいことから、発話者がＡからＢに切り替わった後も発話者がＡであると誤認識してしまうことがある。また、同一の発話者の話がまだ続くにもかかわらず、発話者が変化したと誤判断してしまうこともある。

本発明は上記の点に鑑みてなされたものであり、第１の目的は、発話者が交替したか否かを推定することが可能な話者交替推定装置を提供することにある。また、本発明の第２の目的は、精度良く発話者を識別することが可能な話者識別装置を提供することにある。

本発明は、上記の課題を解決するためになされたものであり、無音区間で区切られた発話の内容を表すテキスト情報から発話の末尾部分である発話末語を抽出する発話末語抽出手段と、前記抽出された発話末語に基づいて発話者が交替したか否かを推定する推定手段と、発話の末尾部分の候補である各発話末候補語と、該発話末候補語を末尾とする発話の後に発話者が交替する確率と、を対応付けて記憶する話者交替確率記憶手段と、を備え、前記推定手段は、前記話者交替確率記憶手段から、前記発話末語抽出手段により抽出された発話末語に対応する確率を求め、該求めた確率に基づいて発話者が交替したか否かを推定する、話者交替推定装置と、音声を入力し該音声の音響的特徴を抽出する音響分析手段と、前記音響分析手段によって抽出される前記音響特徴量に基づく、前記音声に含まれる２つの発話を１つの発話とみなした場合の話者モデルにおける当該１つの発話とみなした特徴ベクトルの音響尤度と、前記２つの発話のうちの第１の発話の第１の話者モデルにおける音響尤度と前記２つの発話のうちの第２の発話の第２の話者モデルにおける音響尤度の積、との比である音響尤度比と、前記話者交替推定装置による発話者が交替したか否かの推定の結果に基づく、直前の発話の発話者と前記直前の発話の発話末尾とを前提としたときの現在の発話の発話者がある特定の話者である確率と現在の発話の発話者が前記特定の話者でない確率との比と、に基づいて話者の識別を行なう話者識別手段と、を備えることを特徴とする話者識別装置である。

この構成によれば、発話末語の内容に応じて、発話者が交替したか交替していないかが推定される。即ち、通常、ある一つのまとまりを持った発言内容の終了部分には、発言内容の途中とは異なる終了部分に特有の言葉が用いられるので、発話末語に着目することにより、発話者が交替したか否かを判断することができる。
また、この構成によれば、発話者が交替したか否かを表す確率を得ることができる。
また、この構成によれば、音声の音響的特徴と発話者が交替したか否かの推定結果の両方に基づいて発話者の識別が行われる。したがって、従来のように音声の音響的特徴だけから発話者を識別する方法と比較して、発話者の識別精度を向上させることができる。即ち、例えば、発話者が交替したと推定された場合、そのことを加味して話者識別を行うので、実際に発話者が交替しているにもかかわらず発話者が交替前と同じであると誤認識してしまうおそれが減少する。また逆に、発話者が交替していないと推定された場合、発話者が同じである（発言内容がまだ続く）のに発話者が変化したと誤判断してしまうおそれが減少する。

また、本発明は、上記の話者交替推定装置において、無音区間で区切られた複数の連続する発話の内容を表すテキスト情報と、前記複数の発話毎の発話者を示す発話者情報と、を含む学習データを入力する入力手段と、前記入力された学習データのテキスト情報から一の発話の発話末語を抽出し、該一の発話に対応する発話者情報及び該一の発話に引き続いてなされた発話に対応する発話者情報に基づいて、該一の発話から抽出された発話末語についての前記話者交替確率記憶手段における前記確率を更新する更新手段と、を備えることを特徴とする。

この構成によれば、一の発話とそれに引き続いてなされた発話のそれぞれの発話者情報から、それら２つの連続する発話が同一人によるものか別人によるものかが分かる。そしてその結果に従って、当該一の発話の発話末語について、その発話末語を末尾とする発話の後に発話者が交替する確率が更新される。これにより、発話者が交替する確率が学習によって信頼性のあるものに更新されていき、発話者が交替したか否かを高精度に判断することが可能となる。

本発明によれば、発話者が交替したか否かを推定することが可能である。また、本発明によれば、精度良く発話者を識別することが可能である。

以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図１は、本発明の一実施形態による話者交替推定装置の構成を示すブロック図である。話者交替推定装置は、発話者が交替したか否かの推定を行う装置であり、入力された発話テキストデータＤａに基づいて、発話者が交替したことの確からしさを表す話者交替確率を推定結果として出力する。なお、発話者が誰であるかの識別は、後述の話者識別装置が行う。図１において、話者交替推定装置１０は、発話末語抽出部１１と、話者交替推定部１２と、話者交替確率記憶部１３と、学習データ解析部１４と、話者交替確率更新部１５と、を含んで構成される。

発話末語抽出部１１は、入力された発話テキストデータＤａから、発話の末尾部分である発話末語を抽出し、抽出した発話末語を話者交替推定部１２へ出力する。発話テキストデータＤａは、１発話分の発話の内容を文字（テキスト）で表したデータである。発話とは、発話者が話した内容のうち、ある所定の無音区間で区切られた部分をいう。

図２は発話の例を説明する図である。図２において、発話者Ａは、「・・・・は、・・・・で、・・・・も・・・・ですが、・・・・でしょうか。」と発言し、発話者Ｂは、「はい、・・・・」と発言している。ここで、発話者Ａの発言において、「・・・・は、・・・・で、」と「・・・・も・・・・ですが、」の間と、「・・・・も・・・・ですが、」と「・・・・でしょうか。」の間には、無音区間が存在している。無音区間の長さは、例えば０．５〜１秒程度である。例えば発話者Ａは、これら無音区間では一呼吸おいて喋っている。また、発話者Ａの発言と発話者Ｂの発言の間にも、無音区間が存在している。この例において、「・・・・は、・・・・で、」と「・・・・も・・・・ですが、」と「・・・・でしょうか。」と「はい、・・・・」の各部分が、発話（１発話分）である。つまり、上記発話テキストデータＤａは、例えば「・・・・でしょうか。」というテキストデータである。

発話末語抽出部１１は、発話テキストデータＤａとして例えば「・・・・でしょうか。」というデータが入力された場合、発話末語として「でしょうか」というデータを抽出する。また、発話末語抽出部１１は、発話テキストデータＤａとして例えば「・・・・は、・・・・で、」というデータが入力された場合、発話末語として「で」というデータを抽出する。発話のうちどの部分を発話末語（末尾部分）とするかは、例えば、発話テキストデータＤａを単語や文節で分け、その最後の単語又は文節を発話末語とする。単語や文節の認識には、周知の形態素解析などの技術を利用可能である。

話者交替推定部１２は、発話末語抽出部１１から入力された発話末語に基づいて、話者交替確率記憶部１３を参照することにより話者交替確率を求める。話者交替確率とは、発話末語抽出部１１へ入力された発話テキストデータＤａにかかる発話の後に、発話者が交替する（例えば発話者Ａから発話者Ｂへ交替する）確からしさを表す確率である。

話者交替確率記憶部１３は、発話末候補語それぞれに対応する話者交替確率をデータベース（以下、話者交替モデルという）として記憶している。発話末候補語は発話末語の候補、即ち発話の末尾部分になり得る言葉（単語や文節）である。

図３は、話者交替確率記憶部１３が記憶している話者交替モデルの一例である。図３において、「など」、「や」、「も」、「で」、「が」、「を」という発話末候補語の話者交替確率は３％未満であり、「でしょうか」という発話末候補語の話者交替確率は８３％であり、「んでしょうか」という発話末候補語の話者交替確率は８４％であり、「ですか」という発話末候補語の話者交替確率は９４％である。後述するように、予め多数の学習データを解析することによって、これら話者交替確率が計算され、話者交替モデルが作られる。

ここで、「でしょうか」や「んでしょうか」のような発話末候補語は、発話者が他の発話者（話をしている相手）に問い掛けをする言葉であるため、それらの言葉が発せられた後に発話者が交替する可能性が高い。よって、話者交替確率は高い数値となっている。一方、「など」や「や」のような発話末候補語は、問い掛けをする言葉ではなく、話の途中で使われる言葉であるため、それらの言葉が発せられた後に発話者が交替する可能性は低い。よって、話者交替確率は低い数値となっている。

具体例で話者交替推定部１２の処理を説明する。図２における１つ目の発話テキストデータ「・・・・は、・・・・で、」の場合、話者交替推定部１２へは「で」という発話末語が入力される。話者交替推定部１２は、話者交替確率記憶部１３の話者交替モデルから、この発話末語「で」に対応する話者交替確率「３％未満」を取得する。「・・・・は、・・・・で、」という発話は話の途中の発話であるので、このように低い話者交替確率が得られることになる。また、図２における３つ目の発話テキストデータ「・・・・でしょうか。」の場合、話者交替推定部１２へは「でしょうか」という発話末語が入力される。話者交替推定部１２は、話者交替確率記憶部１３の話者交替モデルから、この発話末語「でしょうか」に対応する話者交替確率「８３％」を取得する。「・・・・でしょうか。」という発話は問い掛けをする発話であり、次に問い掛けられた相手の発話者が発言することが予想される発話であるので、８３％という高い話者交替確率が得られることになる。

このようにして、発話テキストデータＤａの発話末語から話者交替確率が求められ、これにより当該発話の後に発話者が交替したか否かが推定される。

次に、上述の話者交替モデル（話者交替確率）を更新するための構成について説明する。

学習データ解析部１４は、入力される学習データを解析し、その学習データに含まれる発話末語が発話者の交替を伴うものであるか否かを判定する。学習データは、連続して発言された複数の発話のデータであり、各発話について学習用発話テキストデータＤｂと発話者情報Ｐとを有している。各学習用発話テキストデータＤｂ１，Ｄｂ２，…は、前述の発話テキストデータＤａと同様、１発話分の発話の内容を文字（テキスト）で表したデータであり、それぞれ当該発話に対応する発話者を示す発話者情報Ｐ１，Ｐ２，…が付加されている。なお、この学習データは、予め、学習データ作成者が発話内容を聴いて発話者情報Ｐを特定することによって、作成されたものである。

図４は、学習データを具体的に説明する図である。図４の学習データは、図２に示した発話の例を学習データとしたものであり、ここに示されている各発話は発話者Ａと発話者Ｂとにより連続して発言されたものである。図４において、学習データは、「・・・・は、・・・・で、」という学習用発話テキストデータＤｂ１及びその発話者を示す「発話者Ａ」という発話者情報Ｐ１と、「・・・・も・・・・ですが、」という学習用発話テキストデータＤｂ２及びその発話者を示す「発話者Ａ」という発話者情報Ｐ２と、「・・・・でしょうか。」という学習用発話テキストデータＤｂ３及びその発話者を示す「発話者Ａ」という発話者情報Ｐ３と、「はい、・・・・」いう学習用発話テキストデータＤｂ４及びその発話者を示す「発話者Ｂ」という発話者情報Ｐ４と、を含んでいる。

学習データ解析部１４の解析処理を説明する。学習データ解析部１４は、まず、上記の学習データから１つの学習用発話テキストデータＤｂを選択して、その学習用発話テキストデータＤｂの発話末語を抽出する（発話末語の抽出処理は前述した発話末語抽出部１１と同様）。次に、学習データ解析部１４は、当該選択した学習用発話テキストデータＤｂに対応する発話者情報Ｐと、それに続く学習用発話テキストデータＤｂに対応する発話者情報Ｐとを比較する。そして、学習データ解析部１４は、比較した発話者情報Ｐが同一の場合、上記抽出した発話末語は発話者の交替を伴わないものであると判定する。また、学習データ解析部１４は、比較した発話者情報Ｐが異なる場合、上記抽出した発話末語は発話者の交替を伴うものであると判定する。学習データ解析部１４は、このような解析を学習データに含まれる全ての発話について行い、各発話の発話末語とその判定結果を話者交替確率更新部１５へ出力する。

例えば、図４の１つ目の発話を解析すると、学習用発話テキストデータＤｂ１の発話末語は「で」であり、また、発話者情報Ｐ１（発話者Ａ）及び発話者情報Ｐ２（発話者Ａ）よりこの発話末語「で」は発話者の交替を伴わないとの判定結果が得られる。また、図４の３つ目の発話を解析すると、学習用発話テキストデータＤｂ３の発話末語は「でしょうか」であり、また、発話者情報Ｐ３（発話者Ａ）及び発話者情報Ｐ４（発話者Ｂ）よりこの発話末語「でしょうか」は発話者の交替を伴うとの判定結果が得られる。

話者交替確率更新部１５は、学習データ解析部１４から得られた解析結果に基づいて、話者交替確率記憶部１３の話者交替モデルにおける話者交替確率を更新する。具体的には、発話者の交替を伴うとの判定結果が入力された場合、話者交替確率更新部１５は、対応する発話末語の話者交替確率を増加させる。また、発話者の交替を伴わないとの判定結果が入力された場合、話者交替確率更新部１５は、対応する発話末語の話者交替確率を減少させる。

更新（増加あるいは減少）後の話者交替確率の値は、例えば次のように決定する。発話末候補語毎に、過去の学習において判定結果が「発話者の交替を伴う」であったサンプル数Ａと、学習に用いた総サンプル数Ｂとを話者交替確率記憶部１３に記憶しておく。現時点の話者交替確率ｐはｐ＝Ａ／Ｂである。話者交替確率更新部１５は、話者交替確率記憶部１３からサンプル数Ａ及び総サンプル数Ｂを読み出して、今回の学習における判定結果が「発話者の交替を伴う」の場合、更新後の話者交替確率ｐ’をｐ’＝（Ａ＋１）／（Ｂ＋１）とする。また、今回の学習における判定結果が「発話者の交替を伴わない」の場合、更新後の話者交替確率ｐ’をｐ’＝Ａ／（Ｂ＋１）とする。

このようにして、話者交替確率が学習により更新されることにより、その後に話者交替推定部１２が実施する話者交替の推定処理の精度を向上させることができる。

次に、以上説明した話者交替推定装置１０を利用して発話者の識別を行う話者識別装置について説明する。
図５は、本発明の一実施形態による話者識別装置の構成を示すブロック図である。話者識別装置１００は、入力された音声データの発話者が誰であるかを識別する装置であり、音響分析部２０と、音声認識デコーダ部３０と、話者識別部４０と、話者モデル記憶部５０と、図１に示した話者交替推定装置１０と、を含んで構成される。

音響分析部２０は、入力された音声データを分析して、その音声データの音響的特徴を表す特徴ベクトルを算出する。特徴ベクトルの算出方法は次のとおりである。まず、音響分析部２０は、入力された音声データから所定の時間幅のデータを切り出し、切り出した音声データをフーリエ変換して音声データのパワースペクトルを得る。次に、音響分析部２０は、得られたパワースペクトルをコサイン変換又は直交変換することによりケプストラムを得る。このケプストラムの各係数（メル周波数ケプストラム係数）から、特徴ベクトルが構成される。このようにして算出された特徴ベクトルは、音声認識デコーダ部３０と話者識別部４０へそれぞれ出力される。

音声認識デコーダ部３０は、上記入力された特徴ベクトルから、音声データに含まれる音声を認識し、音声認識結果として当該音声を表す文字あるいは文字列を生成する。音声認識デコーダ部３０は、この音声認識結果の文字あるいは文字列を前述の発話テキストデータとして話者交替推定装置１０へ出力する。

話者交替推定装置１０は、前述した動作を行って、音声認識デコーダ部３０から入力された発話テキストデータに基づき話者交替確率を計算する。この話者交替確率は話者識別部４０へ出力される。

話者識別部４０は、音響分析部２０から入力された特徴ベクトルと話者交替推定装置１０から入力された話者交替確率とに基づいて、音声データの発話者を識別する処理を行う。以下、話者モデル記憶部５０にＫ人の発話者の音響的特徴を示す話者モデルλ_ｋ（ｋ＝１，２，…，Ｋ）が記憶されているとして、話者識別部４０の処理の詳細を説明する。

まず、現在の発話ｙ_ｔの音声データが話者識別装置１００に入力されると、話者識別部４０は、発話開始からＴ秒後に、次式で表されるΔＢＩＣ_ｍｏｄを全ての発話者ｋ（ｋ＝１，２，…，Ｋ）について計算する。但し、ｘ_ｋは発話者ｋの音声の特徴ベクトル、Ｓ_ｔ−１は直前の発話ｙ_ｔ−１の発話者を示す番号（１≦Ｓ_ｔ−１≦Ｋ）、Ｗ_ｔ−１は直前の発話ｙ_ｔ−１の発話末語である。

ここで、ｐ（Ｘ｜Ｙ）は条件Ｙの下で事象Ｘの生じる条件付き確率である。右辺分子第１項は、話者モデルλ_ｘｋにおける特徴ベクトルｘ_ｋの音響尤度（発生確率）を表し、右辺分子第２項は、話者モデルλ_ｙｔにおける現在の発話の特徴ベクトルｙ_ｔ（但し発話開始からＴ秒間分）の音響尤度を表している。また、右辺分母第１項は、上記の２つの発話ｙ_ｔ及びｘ_ｋを１つの発話とみなした場合の話者モデルλ_ｘｋｙｔにおける、当該１つの発話とみなした特徴ベクトルｘ_ｋｙ_ｔの音響尤度を表している。

よって、上記ΔＢＩＣ_ｍｏｄの式において、右辺の分子第１項と第２項及び分母第１項からなる部分（音響尤度比）は、現在の発話ｙ_ｔの発話者と同一の発話者ｋに対して、その値が最小となる。この音響尤度比の部分は、非特許文献２で提案されたΔＢＩＣ（ＢＩＣはBayesian Information Criterionの略）に対応しており、発話の音響的特徴のみに依存している。つまり、非特許文献２のΔＢＩＣでは、発話の音響的特徴のみに基づく音響尤度比が最小値をとるｋを探索することによって話者を識別するが、例えば、話者モデルλ_ｘｋ１とλ_ｘｋ２が類似している場合、ｋ１に対して音響尤度比が最小値をとるとともに、ｋ２に対する音響尤度比がその最小値に近い値になる、といった状況が起こり得るため、前述のように識別精度が低下してしまう。

本発明における話者識別部４０が計算する上式のΔＢＩＣ_ｍｏｄは、このような問題点を改善するために従来のΔＢＩＣを改良したものであり、上記の音響尤度比に加えて、直前の発話ｙ_ｔ−１の発話末語Ｗ_ｔ−１に関する情報、即ち、右辺の分母第２項と分子第３項も考慮している。ここで、右辺分母第２項は、直前の発話ｙ_ｔ−１の発話者がＳ_ｔ−１であってその発話末語がＷ_ｔ−１であるとき、現在の発話ｙ_ｔの発話者Ｓ_ｔがｋである確率を表し、右辺分子第３項は、同様に現在の発話ｙ_ｔの発話者Ｓ_ｔがｋでない確率を表している。これら各項は、発話末語Ｗ_ｔ−１に対する話者交替確率（ｐ（Ｃ｜Ｗ_ｔ−１）と表記する）を用いて次のように書き表すことができる。なお、現在の発話ｙ_ｔが最初の発話である場合、話者交替確率は０．５とする。

よって、上記ΔＢＩＣ_ｍｏｄの式において、右辺の分母第２項と分子第３項からなる比ｒは、次のように値が変化する。

（１）直前の発話ｙ_ｔ−１が話の途中の発話である場合
この場合、前述の説明から、話者交替確率は小さい値をとる。そのため、直前の発話者と同一人のｋに対して（つまり上式でｋ＝Ｓ_ｔ−１）、比ｒの値は小さくなり、直前の発話者と別人のｋに対して（つまり上式でｋ≠Ｓ_ｔ−１）、比ｒの値は大きくなる。例えば、図２の例で直前の発話が「・・・・は、・・・・で、」であり現在の発話が「・・・・も・・・・ですが、」である（発話者はともにＡ）場合、ｋを発話者Ａとしたとき、
ｒ＝０．０３／（１−０．０３）≒０．０３１
となり、ｋを発話者Ａ以外としたとき、
ｒ＝｛（１−０．０３）／９＋（８／９）×０．０３｝／０．０３≒４．４８
となる。但し、話者交替確率は図３から３％であり、また、Ｋ＝１０とした。

（２）直前の発話ｙ_ｔ−１が話の終了部分の発話（他者への問い掛け等）である場合
この場合、前述の説明から、話者交替確率は大きい値をとる。そのため、直前の発話者と同一人のｋに対して（つまり上式でｋ＝Ｓ_ｔ−１）、比ｒの値は大きくなり、直前の発話者と別人のｋに対して（つまり上式でｋ≠Ｓ_ｔ−１）、比ｒの値は小さくなる。例えば、図２の例で直前の発話が発話者Ａの「・・・・でしょうか。」であり現在の発話が発話者Ｂの「はい、・・・・」である場合、ｋを発話者Ａとしたとき、
ｒ＝０．８３／（１−０．８３）≒４．８８
となり、ｋを発話者Ａ以外としたとき、
ｒ＝｛（１−０．８３）／９＋（８／９）×０．８３｝／０．８３≒０．９１２
となる。但し、話者交替確率は図３から８３％であり、また、Ｋ＝１０とした。

このように、本発明で用いるΔＢＩＣ_ｍｏｄの式によれば、直前の発話ｙ_ｔ−１の発話末語Ｗ_ｔ−１に基づく話者交替確率が考慮されているので、現在の発話ｙ_ｔの発話者を正しく識別することが可能となる。つまり、上記（１）の場合、全てのｋについてΔＢＩＣ_ｍｏｄを計算すると、直前の発話者と同一の発話者に対応するｋについてのΔＢＩＣ_ｍｏｄの値が、それ以外のｋについてのΔＢＩＣ_ｍｏｄの値よりも小さい値をとることになる。したがって、ΔＢＩＣ_ｍｏｄが最小値をとるｋを探索することによって、直前の発話者と同一の発話者を見つけ出すことができ、話の途中の発話に適合した話者識別を行うことができる。また、上記（２）の場合、同様に全てのｋについてΔＢＩＣ_ｍｏｄを計算すると、直前の発話者と同一の発話者に対応するｋについてのΔＢＩＣ_ｍｏｄの値が、それ以外のｋについてのΔＢＩＣ_ｍｏｄの値よりも大きい値をとることになる。したがって、ΔＢＩＣ_ｍｏｄが最小値をとるｋを探索したとすると、直前の発話者と同一の発話者が探索されてしまうことがなく、発話者の交替を伴う発話に適合した話者識別を行うことができる。

話者識別部４０は、以上のようにして全ての発話者ｋについて計算したΔＢＩＣ_ｍｏｄから、最小値のΔＢＩＣ_ｍｏｄを選び出し、その選んだΔＢＩＣ_ｍｏｄのｋに対応する発話者を、現在の発話ｙ_ｔの発話者であると判定する。これが発話ｙ_ｔの発話開始からＴ秒後の話者識別結果である。この話者識別の処理では、上述の説明から理解されるように、音響尤度比からの話者識別が困難な状況であっても、また、発話開始直後で音響尤度比の信頼度が小さい場合であっても、高い精度で発話者を識別することができる。

なお、上記のΔＢＩＣ_ｍｏｄの式において、右辺のαＰの項と値βは、ΔＢＩＣ_ｍｏｄの最小値が負の値となるように調整するためのものであり、その値は、話者識別の結果を用いて適宜更新するようにしておく。話者識別部４０は、全てのｋについてΔＢＩＣ_ｍｏｄの値が正であれば、話者モデル記憶部５０のＫ人の話者モデルλ_ｋには、現在の発話ｙ_ｔに対応する発話者が含まれないと判定する。

こうして発話開始からＴ秒後に話者識別処理を行った後、話者識別部４０は、更に、現在の発話ｙ_ｔの終了時に同様の話者識別処理を行う。この時点では、音響尤度比の信頼度が発話開始Ｔ秒後の時点よりも大きいことが期待できるため、より高い精度で話者識別を行うことができる。話者識別部４０は、発話終了時の話者識別結果を用いて、識別結果の発話者に対応する話者モデル記憶部５０の話者モデルを更新してもよい。また、発話終了時の話者識別処理でも現在の発話ｙ_ｔに対応する発話者がいずれの話者モデルにも含まれないと判定された場合、話者識別部４０は、現在の発話ｙ_ｔから識別された発話者の話者モデルを新たに作成し、話者モデル記憶部５０に記憶するようにしてもよい。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、本実施形態の話者交替推定装置１０及び話者識別装置１００は、コンピュータを用いて実現することができる。例えば、発話末語抽出部１１、話者交替推定部１２、学習データ解析部１４、話者交替確率更新部１５、音響分析部２０、音声認識デコーダ部３０、及び話者識別部４０の各部は、それぞれの機能を実現するためのコンピュータプログラムをコンピュータのＣＰＵ（中央処理装置）に読み込ませて実行させることによって実現することができ、話者交替確率記憶部１３及び話者モデル記憶部５０の各部は、それぞれ話者交替モデル、話者モデルをハードディスクドライブ等の記憶装置に記憶させることによって実現することができる。

本発明の一実施形態による話者交替推定装置の構成を示すブロック図である。発話の例を説明する図である。話者交替モデルの一例である。学習データを具体的に説明する図である。本発明の一実施形態による話者識別装置の構成を示すブロック図である。

符号の説明

１０…話者交替推定装置１１…発話末語抽出部１２…話者交替推定部１３…話者交替確率記憶部１４…学習データ解析部１５…話者交替確率更新部２０…音響分析部３０…音声認識デコーダ部４０…話者識別部５０…話者モデル記憶部

Claims

無音区間で区切られた発話の内容を表すテキスト情報から発話の末尾部分である発話末語を抽出する発話末語抽出手段と、
前記抽出された発話末語に基づいて発話者が交替したか否かを推定する推定手段と、
発話の末尾部分の候補である各発話末候補語と、該発話末候補語を末尾とする発話の後に発話者が交替する確率と、を対応付けて記憶する話者交替確率記憶手段と、
を備え、
前記推定手段は、前記話者交替確率記憶手段から、前記発話末語抽出手段により抽出された発話末語に対応する確率を求め、該求めた確率に基づいて発話者が交替したか否かを推定する、
話者交替推定装置と、
音声を入力し該音声の音響的特徴を抽出する音響分析手段と、
前記音響分析手段によって抽出される前記音響特徴量に基づく、前記音声に含まれる２つの発話を１つの発話とみなした場合の話者モデルにおける当該１つの発話とみなした特徴ベクトルの音響尤度と、前記２つの発話のうちの第１の発話の第１の話者モデルにおける音響尤度と前記２つの発話のうちの第２の発話の第２の話者モデルにおける音響尤度の積、との比である音響尤度比と、前記話者交替推定装置による発話者が交替したか否かの推定の結果に基づく、直前の発話の発話者と前記直前の発話の発話末尾とを前提としたときの現在の発話の発話者がある特定の話者である確率と現在の発話の発話者が前記特定の話者でない確率との比と、に基づいて話者の識別を行なう話者識別手段と、
を備えることを特徴とする話者識別装置。
無音区間で区切られた複数の連続する発話の内容を表すテキスト情報と、前記複数の発話毎の発話者を示す発話者情報と、を含む学習データを入力する入力手段と、
前記入力された学習データのテキスト情報から一の発話の発話末語を抽出し、該一の発話に対応する発話者情報及び該一の発話に引き続いてなされた発話に対応する発話者情報に基づいて、該一の発話から抽出された発話末語についての前記話者交替確率記憶手段における前記確率を更新する更新手段と、
を備えることを特徴とする請求項１に記載の話者識別装置。
無音区間で区切られた発話の内容を表すテキスト情報から発話の末尾部分である発話末語を抽出する発話末語抽出手段、
発話の末尾部分の候補である各発話末候補語と、該発話末候補語を末尾とする発話の後に発話者が交替する確率と、を対応付けて記憶する話者交替確率記憶手段、
前記抽出された発話末語に基づいて、前記話者交替確率記憶手段から、前記発話末語抽出手段により抽出された発話末語に対応する確率を求め、該求めた確率に基づいて、発話者が交替したか否かを推定する推定手段、
音声を入力し該音声の音響的特徴を抽出する音響分析手段、
前記音響分析手段によって抽出される前記音響特徴量に基づく、前記音声に含まれる２つの発話を１つの発話とみなした場合の話者モデルにおける当該１つの発話とみなした特徴ベクトルの音響尤度と、前記２つの発話のうちの第１の発話の第１の話者モデルにおける音響尤度と前記２つの発話のうちの第２の発話の第２の話者モデルにおける音響尤度の積、との比である音響尤度比と、前記話者交替推定装置による発話者が交替したか否かの推定の結果に基づく、直前の発話の発話者と前記直前の発話の発話末尾とを前提としたときの現在の発話の発話者がある特定の話者である確率と現在の発話の発話者が前記特定の話者でない確率との比と、に基づいて話者の識別を行なう話者識別手段、
としてコンピュータを機能させるためのコンピュータプログラム。