JP5296455B2 - 話者識別装置、及びコンピュータプログラム - Google Patents

話者識別装置、及びコンピュータプログラム Download PDF

Info

Publication number
JP5296455B2
JP5296455B2 JP2008216484A JP2008216484A JP5296455B2 JP 5296455 B2 JP5296455 B2 JP 5296455B2 JP 2008216484 A JP2008216484 A JP 2008216484A JP 2008216484 A JP2008216484 A JP 2008216484A JP 5296455 B2 JP5296455 B2 JP 5296455B2
Authority
JP
Japan
Prior art keywords
speaker
utterance
probability
word
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008216484A
Other languages
English (en)
Other versions
JP2010054574A (ja
Inventor
貴裕 奥
亨 今井
庄衛 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2008216484A priority Critical patent/JP5296455B2/ja
Publication of JP2010054574A publication Critical patent/JP2010054574A/ja
Application granted granted Critical
Publication of JP5296455B2 publication Critical patent/JP5296455B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、話者交替推定装置、話者識別装置、及びコンピュータプログラムに関する。
音声データからその発話者が誰であるかを識別する話者識別装置がある。この話者識別装置は、例えば、ニュース番組の音声や会議の録音音声に、発話者を示す発話者情報をメタデータとして付加する、等の目的のために利用することが可能である。
従来、発話者を識別する方法として、音響尤度など発話の音響的な特徴に関する基準を用いて識別を行う方法が知られている(非特許文献1,2参照)。
S. Chen他、Proc. DARPA Speech Recognition Workshop、pp.127-132、1998年 S. E. Tranter他、IEEE Trans. Speech Audio Process 14、pp.1557-1565、2006年
しかしながら、上記の従来方法では、音声の音響的特徴のみを用いて発話者を識別するため、発話者の識別精度があまり高くないという問題があった。例えば、声質の似ている発話者Aと発話者Bが対話をしている場合、両者それぞれの音声は音響的特徴の差が小さいことから、発話者がAからBに切り替わった後も発話者がAであると誤認識してしまうことがある。また、同一の発話者の話がまだ続くにもかかわらず、発話者が変化したと誤判断してしまうこともある。
本発明は上記の点に鑑みてなされたものであり、第1の目的は、発話者が交替したか否かを推定することが可能な話者交替推定装置を提供することにある。また、本発明の第2の目的は、精度良く発話者を識別することが可能な話者識別装置を提供することにある。
本発明は、上記の課題を解決するためになされたものであり、無音区間で区切られた発話の内容を表すテキスト情報から発話の末尾部分である発話末語を抽出する発話末語抽出手段と、前記抽出された発話末語に基づいて発話者が交替したか否かを推定する推定手段と、発話の末尾部分の候補である各発話末候補語と、該発話末候補語を末尾とする発話の後に発話者が交替する確率と、を対応付けて記憶する話者交替確率記憶手段と、を備え、前記推定手段は、前記話者交替確率記憶手段から、前記発話末語抽出手段により抽出された発話末語に対応する確率を求め、該求めた確率に基づいて発話者が交替したか否かを推定する、話者交替推定装置と、音声を入力し該音声の音響的特徴を抽出する音響分析手段と、前記音響分析手段によって抽出される前記音響特徴量に基づく、前記音声に含まれる2つの発話を1つの発話とみなした場合の話者モデルにおける当該1つの発話とみなした特徴ベクトルの音響尤度と、前記2つの発話のうちの第1の発話の第1の話者モデルにおける音響尤度と前記2つの発話のうちの第2の発話の第2の話者モデルにおける音響尤度の積、との比である音響尤度比と、前記話者交替推定装置による発話者が交替したか否かの推定の結果に基づく、直前の発話の発話者と前記直前の発話の発話末尾とを前提としたときの現在の発話の発話者がある特定の話者である確率と現在の発話の発話者が前記特定の話者でない確率との比と、に基づいて話者の識別を行なう話者識別手段と、を備えることを特徴とする話者識別装置である。
この構成によれば、発話末語の内容に応じて、発話者が交替したか交替していないかが推定される。即ち、通常、ある一つのまとまりを持った発言内容の終了部分には、発言内容の途中とは異なる終了部分に特有の言葉が用いられるので、発話末語に着目することにより、発話者が交替したか否かを判断することができる。
また、この構成によれば、発話者が交替したか否かを表す確率を得ることができる。
また、この構成によれば、音声の音響的特徴と発話者が交替したか否かの推定結果の両方に基づいて発話者の識別が行われる。したがって、従来のように音声の音響的特徴だけから発話者を識別する方法と比較して、発話者の識別精度を向上させることができる。即ち、例えば、発話者が交替したと推定された場合、そのことを加味して話者識別を行うので、実際に発話者が交替しているにもかかわらず発話者が交替前と同じであると誤認識してしまうおそれが減少する。また逆に、発話者が交替していないと推定された場合、発話者が同じである(発言内容がまだ続く)のに発話者が変化したと誤判断してしまうおそれが減少する。
また、本発明は、上記の話者交替推定装置において、無音区間で区切られた複数の連続する発話の内容を表すテキスト情報と、前記複数の発話毎の発話者を示す発話者情報と、を含む学習データを入力する入力手段と、前記入力された学習データのテキスト情報から一の発話の発話末語を抽出し、該一の発話に対応する発話者情報及び該一の発話に引き続いてなされた発話に対応する発話者情報に基づいて、該一の発話から抽出された発話末語についての前記話者交替確率記憶手段における前記確率を更新する更新手段と、を備えることを特徴とする。
この構成によれば、一の発話とそれに引き続いてなされた発話のそれぞれの発話者情報から、それら2つの連続する発話が同一人によるものか別人によるものかが分かる。そしてその結果に従って、当該一の発話の発話末語について、その発話末語を末尾とする発話の後に発話者が交替する確率が更新される。これにより、発話者が交替する確率が学習によって信頼性のあるものに更新されていき、発話者が交替したか否かを高精度に判断することが可能となる。
本発明によれば、発話者が交替したか否かを推定することが可能である。また、本発明によれば、精度良く発話者を識別することが可能である。
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態による話者交替推定装置の構成を示すブロック図である。話者交替推定装置は、発話者が交替したか否かの推定を行う装置であり、入力された発話テキストデータDaに基づいて、発話者が交替したことの確からしさを表す話者交替確率を推定結果として出力する。なお、発話者が誰であるかの識別は、後述の話者識別装置が行う。図1において、話者交替推定装置10は、発話末語抽出部11と、話者交替推定部12と、話者交替確率記憶部13と、学習データ解析部14と、話者交替確率更新部15と、を含んで構成される。
発話末語抽出部11は、入力された発話テキストデータDaから、発話の末尾部分である発話末語を抽出し、抽出した発話末語を話者交替推定部12へ出力する。発話テキストデータDaは、1発話分の発話の内容を文字(テキスト)で表したデータである。発話とは、発話者が話した内容のうち、ある所定の無音区間で区切られた部分をいう。
図2は発話の例を説明する図である。図2において、発話者Aは、「・・・・は、・・・・で、・・・・も・・・・ですが、・・・・でしょうか。」と発言し、発話者Bは、「はい、・・・・」と発言している。ここで、発話者Aの発言において、「・・・・は、・・・・で、」と「・・・・も・・・・ですが、」の間と、「・・・・も・・・・ですが、」と「・・・・でしょうか。」の間には、無音区間が存在している。無音区間の長さは、例えば0.5〜1秒程度である。例えば発話者Aは、これら無音区間では一呼吸おいて喋っている。また、発話者Aの発言と発話者Bの発言の間にも、無音区間が存在している。この例において、「・・・・は、・・・・で、」と「・・・・も・・・・ですが、」と「・・・・でしょうか。」と「はい、・・・・」の各部分が、発話(1発話分)である。つまり、上記発話テキストデータDaは、例えば「・・・・でしょうか。」というテキストデータである。
発話末語抽出部11は、発話テキストデータDaとして例えば「・・・・でしょうか。」というデータが入力された場合、発話末語として「でしょうか」というデータを抽出する。また、発話末語抽出部11は、発話テキストデータDaとして例えば「・・・・は、・・・・で、」というデータが入力された場合、発話末語として「で」というデータを抽出する。発話のうちどの部分を発話末語(末尾部分)とするかは、例えば、発話テキストデータDaを単語や文節で分け、その最後の単語又は文節を発話末語とする。単語や文節の認識には、周知の形態素解析などの技術を利用可能である。
話者交替推定部12は、発話末語抽出部11から入力された発話末語に基づいて、話者交替確率記憶部13を参照することにより話者交替確率を求める。話者交替確率とは、発話末語抽出部11へ入力された発話テキストデータDaにかかる発話の後に、発話者が交替する(例えば発話者Aから発話者Bへ交替する)確からしさを表す確率である。
話者交替確率記憶部13は、発話末候補語それぞれに対応する話者交替確率をデータベース(以下、話者交替モデルという)として記憶している。発話末候補語は発話末語の候補、即ち発話の末尾部分になり得る言葉(単語や文節)である。
図3は、話者交替確率記憶部13が記憶している話者交替モデルの一例である。図3において、「など」、「や」、「も」、「で」、「が」、「を」という発話末候補語の話者交替確率は3%未満であり、「でしょうか」という発話末候補語の話者交替確率は83%であり、「んでしょうか」という発話末候補語の話者交替確率は84%であり、「ですか」という発話末候補語の話者交替確率は94%である。後述するように、予め多数の学習データを解析することによって、これら話者交替確率が計算され、話者交替モデルが作られる。
ここで、「でしょうか」や「んでしょうか」のような発話末候補語は、発話者が他の発話者(話をしている相手)に問い掛けをする言葉であるため、それらの言葉が発せられた後に発話者が交替する可能性が高い。よって、話者交替確率は高い数値となっている。一方、「など」や「や」のような発話末候補語は、問い掛けをする言葉ではなく、話の途中で使われる言葉であるため、それらの言葉が発せられた後に発話者が交替する可能性は低い。よって、話者交替確率は低い数値となっている。
具体例で話者交替推定部12の処理を説明する。図2における1つ目の発話テキストデータ「・・・・は、・・・・で、」の場合、話者交替推定部12へは「で」という発話末語が入力される。話者交替推定部12は、話者交替確率記憶部13の話者交替モデルから、この発話末語「で」に対応する話者交替確率「3%未満」を取得する。「・・・・は、・・・・で、」という発話は話の途中の発話であるので、このように低い話者交替確率が得られることになる。また、図2における3つ目の発話テキストデータ「・・・・でしょうか。」の場合、話者交替推定部12へは「でしょうか」という発話末語が入力される。話者交替推定部12は、話者交替確率記憶部13の話者交替モデルから、この発話末語「でしょうか」に対応する話者交替確率「83%」を取得する。「・・・・でしょうか。」という発話は問い掛けをする発話であり、次に問い掛けられた相手の発話者が発言することが予想される発話であるので、83%という高い話者交替確率が得られることになる。
このようにして、発話テキストデータDaの発話末語から話者交替確率が求められ、これにより当該発話の後に発話者が交替したか否かが推定される。
次に、上述の話者交替モデル(話者交替確率)を更新するための構成について説明する。
学習データ解析部14は、入力される学習データを解析し、その学習データに含まれる発話末語が発話者の交替を伴うものであるか否かを判定する。学習データは、連続して発言された複数の発話のデータであり、各発話について学習用発話テキストデータDbと発話者情報Pとを有している。各学習用発話テキストデータDb1,Db2,…は、前述の発話テキストデータDaと同様、1発話分の発話の内容を文字(テキスト)で表したデータであり、それぞれ当該発話に対応する発話者を示す発話者情報P1,P2,…が付加されている。なお、この学習データは、予め、学習データ作成者が発話内容を聴いて発話者情報Pを特定することによって、作成されたものである。
図4は、学習データを具体的に説明する図である。図4の学習データは、図2に示した発話の例を学習データとしたものであり、ここに示されている各発話は発話者Aと発話者Bとにより連続して発言されたものである。図4において、学習データは、「・・・・は、・・・・で、」という学習用発話テキストデータDb1及びその発話者を示す「発話者A」という発話者情報P1と、「・・・・も・・・・ですが、」という学習用発話テキストデータDb2及びその発話者を示す「発話者A」という発話者情報P2と、「・・・・でしょうか。」という学習用発話テキストデータDb3及びその発話者を示す「発話者A」という発話者情報P3と、「はい、・・・・」いう学習用発話テキストデータDb4及びその発話者を示す「発話者B」という発話者情報P4と、を含んでいる。
学習データ解析部14の解析処理を説明する。学習データ解析部14は、まず、上記の学習データから1つの学習用発話テキストデータDbを選択して、その学習用発話テキストデータDbの発話末語を抽出する(発話末語の抽出処理は前述した発話末語抽出部11と同様)。次に、学習データ解析部14は、当該選択した学習用発話テキストデータDbに対応する発話者情報Pと、それに続く学習用発話テキストデータDbに対応する発話者情報Pとを比較する。そして、学習データ解析部14は、比較した発話者情報Pが同一の場合、上記抽出した発話末語は発話者の交替を伴わないものであると判定する。また、学習データ解析部14は、比較した発話者情報Pが異なる場合、上記抽出した発話末語は発話者の交替を伴うものであると判定する。学習データ解析部14は、このような解析を学習データに含まれる全ての発話について行い、各発話の発話末語とその判定結果を話者交替確率更新部15へ出力する。
例えば、図4の1つ目の発話を解析すると、学習用発話テキストデータDb1の発話末語は「で」であり、また、発話者情報P1(発話者A)及び発話者情報P2(発話者A)よりこの発話末語「で」は発話者の交替を伴わないとの判定結果が得られる。また、図4の3つ目の発話を解析すると、学習用発話テキストデータDb3の発話末語は「でしょうか」であり、また、発話者情報P3(発話者A)及び発話者情報P4(発話者B)よりこの発話末語「でしょうか」は発話者の交替を伴うとの判定結果が得られる。
話者交替確率更新部15は、学習データ解析部14から得られた解析結果に基づいて、話者交替確率記憶部13の話者交替モデルにおける話者交替確率を更新する。具体的には、発話者の交替を伴うとの判定結果が入力された場合、話者交替確率更新部15は、対応する発話末語の話者交替確率を増加させる。また、発話者の交替を伴わないとの判定結果が入力された場合、話者交替確率更新部15は、対応する発話末語の話者交替確率を減少させる。
更新(増加あるいは減少)後の話者交替確率の値は、例えば次のように決定する。発話末候補語毎に、過去の学習において判定結果が「発話者の交替を伴う」であったサンプル数Aと、学習に用いた総サンプル数Bとを話者交替確率記憶部13に記憶しておく。現時点の話者交替確率pはp=A/Bである。話者交替確率更新部15は、話者交替確率記憶部13からサンプル数A及び総サンプル数Bを読み出して、今回の学習における判定結果が「発話者の交替を伴う」の場合、更新後の話者交替確率p’をp’=(A+1)/(B+1)とする。また、今回の学習における判定結果が「発話者の交替を伴わない」の場合、更新後の話者交替確率p’をp’=A/(B+1)とする。
このようにして、話者交替確率が学習により更新されることにより、その後に話者交替推定部12が実施する話者交替の推定処理の精度を向上させることができる。
次に、以上説明した話者交替推定装置10を利用して発話者の識別を行う話者識別装置について説明する。
図5は、本発明の一実施形態による話者識別装置の構成を示すブロック図である。話者識別装置100は、入力された音声データの発話者が誰であるかを識別する装置であり、音響分析部20と、音声認識デコーダ部30と、話者識別部40と、話者モデル記憶部50と、図1に示した話者交替推定装置10と、を含んで構成される。
音響分析部20は、入力された音声データを分析して、その音声データの音響的特徴を表す特徴ベクトルを算出する。特徴ベクトルの算出方法は次のとおりである。まず、音響分析部20は、入力された音声データから所定の時間幅のデータを切り出し、切り出した音声データをフーリエ変換して音声データのパワースペクトルを得る。次に、音響分析部20は、得られたパワースペクトルをコサイン変換又は直交変換することによりケプストラムを得る。このケプストラムの各係数(メル周波数ケプストラム係数)から、特徴ベクトルが構成される。このようにして算出された特徴ベクトルは、音声認識デコーダ部30と話者識別部40へそれぞれ出力される。
音声認識デコーダ部30は、上記入力された特徴ベクトルから、音声データに含まれる音声を認識し、音声認識結果として当該音声を表す文字あるいは文字列を生成する。音声認識デコーダ部30は、この音声認識結果の文字あるいは文字列を前述の発話テキストデータとして話者交替推定装置10へ出力する。
話者交替推定装置10は、前述した動作を行って、音声認識デコーダ部30から入力された発話テキストデータに基づき話者交替確率を計算する。この話者交替確率は話者識別部40へ出力される。
話者識別部40は、音響分析部20から入力された特徴ベクトルと話者交替推定装置10から入力された話者交替確率とに基づいて、音声データの発話者を識別する処理を行う。以下、話者モデル記憶部50にK人の発話者の音響的特徴を示す話者モデルλ(k=1,2,…,K)が記憶されているとして、話者識別部40の処理の詳細を説明する。
まず、現在の発話yの音声データが話者識別装置100に入力されると、話者識別部40は、発話開始からT秒後に、次式で表されるΔBICmodを全ての発話者k(k=1,2,…,K)について計算する。但し、xは発話者kの音声の特徴ベクトル、St−1は直前の発話yt−1の発話者を示す番号(1≦St−1≦K)、Wt−1は直前の発話yt−1の発話末語である。
Figure 0005296455
ここで、p(X|Y)は条件Yの下で事象Xの生じる条件付き確率である。右辺分子第1項は、話者モデルλxkにおける特徴ベクトルxの音響尤度(発生確率)を表し、右辺分子第2項は、話者モデルλytにおける現在の発話の特徴ベクトルy(但し発話開始からT秒間分)の音響尤度を表している。また、右辺分母第1項は、上記の2つの発話y及びxを1つの発話とみなした場合の話者モデルλxkytにおける、当該1つの発話とみなした特徴ベクトルxの音響尤度を表している。
よって、上記ΔBICmodの式において、右辺の分子第1項と第2項及び分母第1項からなる部分(音響尤度比)は、現在の発話yの発話者と同一の発話者kに対して、その値が最小となる。この音響尤度比の部分は、非特許文献2で提案されたΔBIC(BICはBayesian Information Criterionの略)に対応しており、発話の音響的特徴のみに依存している。つまり、非特許文献2のΔBICでは、発話の音響的特徴のみに基づく音響尤度比が最小値をとるkを探索することによって話者を識別するが、例えば、話者モデルλxk1とλxk2が類似している場合、k1に対して音響尤度比が最小値をとるとともに、k2に対する音響尤度比がその最小値に近い値になる、といった状況が起こり得るため、前述のように識別精度が低下してしまう。
本発明における話者識別部40が計算する上式のΔBICmodは、このような問題点を改善するために従来のΔBICを改良したものであり、上記の音響尤度比に加えて、直前の発話yt−1の発話末語Wt−1に関する情報、即ち、右辺の分母第2項と分子第3項も考慮している。ここで、右辺分母第2項は、直前の発話yt−1の発話者がSt−1であってその発話末語がWt−1であるとき、現在の発話yの発話者Sがkである確率を表し、右辺分子第3項は、同様に現在の発話yの発話者Sがkでない確率を表している。これら各項は、発話末語Wt−1に対する話者交替確率(p(C|Wt−1)と表記する)を用いて次のように書き表すことができる。なお、現在の発話yが最初の発話である場合、話者交替確率は0.5とする。
Figure 0005296455
よって、上記ΔBICmodの式において、右辺の分母第2項と分子第3項からなる比rは、次のように値が変化する。
(1)直前の発話yt−1が話の途中の発話である場合
この場合、前述の説明から、話者交替確率は小さい値をとる。そのため、直前の発話者と同一人のkに対して(つまり上式でk=St−1)、比rの値は小さくなり、直前の発話者と別人のkに対して(つまり上式でk≠St−1)、比rの値は大きくなる。例えば、図2の例で直前の発話が「・・・・は、・・・・で、」であり現在の発話が「・・・・も・・・・ですが、」である(発話者はともにA)場合、kを発話者Aとしたとき、
r=0.03/(1−0.03)≒0.031
となり、kを発話者A以外としたとき、
r={(1−0.03)/9+(8/9)×0.03}/0.03≒4.48
となる。但し、話者交替確率は図3から3%であり、また、K=10とした。
(2)直前の発話yt−1が話の終了部分の発話(他者への問い掛け等)である場合
この場合、前述の説明から、話者交替確率は大きい値をとる。そのため、直前の発話者と同一人のkに対して(つまり上式でk=St−1)、比rの値は大きくなり、直前の発話者と別人のkに対して(つまり上式でk≠St−1)、比rの値は小さくなる。例えば、図2の例で直前の発話が発話者Aの「・・・・でしょうか。」であり現在の発話が発話者Bの「はい、・・・・」である場合、kを発話者Aとしたとき、
r=0.83/(1−0.83)≒4.88
となり、kを発話者A以外としたとき、
r={(1−0.83)/9+(8/9)×0.83}/0.83≒0.912
となる。但し、話者交替確率は図3から83%であり、また、K=10とした。
このように、本発明で用いるΔBICmodの式によれば、直前の発話yt−1の発話末語Wt−1に基づく話者交替確率が考慮されているので、現在の発話yの発話者を正しく識別することが可能となる。つまり、上記(1)の場合、全てのkについてΔBICmodを計算すると、直前の発話者と同一の発話者に対応するkについてのΔBICmodの値が、それ以外のkについてのΔBICmodの値よりも小さい値をとることになる。したがって、ΔBICmodが最小値をとるkを探索することによって、直前の発話者と同一の発話者を見つけ出すことができ、話の途中の発話に適合した話者識別を行うことができる。また、上記(2)の場合、同様に全てのkについてΔBICmodを計算すると、直前の発話者と同一の発話者に対応するkについてのΔBICmodの値が、それ以外のkについてのΔBICmodの値よりも大きい値をとることになる。したがって、ΔBICmodが最小値をとるkを探索したとすると、直前の発話者と同一の発話者が探索されてしまうことがなく、発話者の交替を伴う発話に適合した話者識別を行うことができる。
話者識別部40は、以上のようにして全ての発話者kについて計算したΔBICmodから、最小値のΔBICmodを選び出し、その選んだΔBICmodのkに対応する発話者を、現在の発話yの発話者であると判定する。これが発話yの発話開始からT秒後の話者識別結果である。この話者識別の処理では、上述の説明から理解されるように、音響尤度比からの話者識別が困難な状況であっても、また、発話開始直後で音響尤度比の信頼度が小さい場合であっても、高い精度で発話者を識別することができる。
なお、上記のΔBICmodの式において、右辺のαPの項と値βは、ΔBICmodの最小値が負の値となるように調整するためのものであり、その値は、話者識別の結果を用いて適宜更新するようにしておく。話者識別部40は、全てのkについてΔBICmodの値が正であれば、話者モデル記憶部50のK人の話者モデルλには、現在の発話yに対応する発話者が含まれないと判定する。
こうして発話開始からT秒後に話者識別処理を行った後、話者識別部40は、更に、現在の発話yの終了時に同様の話者識別処理を行う。この時点では、音響尤度比の信頼度が発話開始T秒後の時点よりも大きいことが期待できるため、より高い精度で話者識別を行うことができる。話者識別部40は、発話終了時の話者識別結果を用いて、識別結果の発話者に対応する話者モデル記憶部50の話者モデルを更新してもよい。また、発話終了時の話者識別処理でも現在の発話yに対応する発話者がいずれの話者モデルにも含まれないと判定された場合、話者識別部40は、現在の発話yから識別された発話者の話者モデルを新たに作成し、話者モデル記憶部50に記憶するようにしてもよい。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、本実施形態の話者交替推定装置10及び話者識別装置100は、コンピュータを用いて実現することができる。例えば、発話末語抽出部11、話者交替推定部12、学習データ解析部14、話者交替確率更新部15、音響分析部20、音声認識デコーダ部30、及び話者識別部40の各部は、それぞれの機能を実現するためのコンピュータプログラムをコンピュータのCPU(中央処理装置)に読み込ませて実行させることによって実現することができ、話者交替確率記憶部13及び話者モデル記憶部50の各部は、それぞれ話者交替モデル、話者モデルをハードディスクドライブ等の記憶装置に記憶させることによって実現することができる。
本発明の一実施形態による話者交替推定装置の構成を示すブロック図である。 発話の例を説明する図である。 話者交替モデルの一例である。 学習データを具体的に説明する図である。 本発明の一実施形態による話者識別装置の構成を示すブロック図である。
符号の説明
10…話者交替推定装置 11…発話末語抽出部 12…話者交替推定部 13…話者交替確率記憶部 14…学習データ解析部 15…話者交替確率更新部 20…音響分析部 30…音声認識デコーダ部 40…話者識別部 50…話者モデル記憶部

Claims (3)

  1. 無音区間で区切られた発話の内容を表すテキスト情報から発話の末尾部分である発話末語を抽出する発話末語抽出手段と、
    前記抽出された発話末語に基づいて発話者が交替したか否かを推定する推定手段と、
    発話の末尾部分の候補である各発話末候補語と、該発話末候補語を末尾とする発話の後に発話者が交替する確率と、を対応付けて記憶する話者交替確率記憶手段と、
    を備え、
    前記推定手段は、前記話者交替確率記憶手段から、前記発話末語抽出手段により抽出された発話末語に対応する確率を求め、該求めた確率に基づいて発話者が交替したか否かを推定する、
    話者交替推定装置と、
    音声を入力し該音声の音響的特徴を抽出する音響分析手段と、
    前記音響分析手段によって抽出される前記音響特徴量に基づく、前記音声に含まれる2つの発話を1つの発話とみなした場合の話者モデルにおける当該1つの発話とみなした特徴ベクトルの音響尤度と、前記2つの発話のうちの第1の発話の第1の話者モデルにおける音響尤度と前記2つの発話のうちの第2の発話の第2の話者モデルにおける音響尤度の積、との比である音響尤度比と、前記話者交替推定装置による発話者が交替したか否かの推定の結果に基づく、直前の発話の発話者と前記直前の発話の発話末尾とを前提としたときの現在の発話の発話者がある特定の話者である確率と現在の発話の発話者が前記特定の話者でない確率との比と、に基づいて話者の識別を行なう話者識別手段と、
    を備えることを特徴とする話者識別装置。
  2. 無音区間で区切られた複数の連続する発話の内容を表すテキスト情報と、前記複数の発話毎の発話者を示す発話者情報と、を含む学習データを入力する入力手段と、
    前記入力された学習データのテキスト情報から一の発話の発話末語を抽出し、該一の発話に対応する発話者情報及び該一の発話に引き続いてなされた発話に対応する発話者情報に基づいて、該一の発話から抽出された発話末語についての前記話者交替確率記憶手段における前記確率を更新する更新手段と、
    を備えることを特徴とする請求項1に記載の話者識別装置。
  3. 無音区間で区切られた発話の内容を表すテキスト情報から発話の末尾部分である発話末語を抽出する発話末語抽出手段、
    発話の末尾部分の候補である各発話末候補語と、該発話末候補語を末尾とする発話の後に発話者が交替する確率と、を対応付けて記憶する話者交替確率記憶手段、
    前記抽出された発話末語に基づいて、前記話者交替確率記憶手段から、前記発話末語抽出手段により抽出された発話末語に対応する確率を求め、該求めた確率に基づいて、発話者が交替したか否かを推定する推定手段、
    音声を入力し該音声の音響的特徴を抽出する音響分析手段、
    前記音響分析手段によって抽出される前記音響特徴量に基づく、前記音声に含まれる2つの発話を1つの発話とみなした場合の話者モデルにおける当該1つの発話とみなした特徴ベクトルの音響尤度と、前記2つの発話のうちの第1の発話の第1の話者モデルにおける音響尤度と前記2つの発話のうちの第2の発話の第2の話者モデルにおける音響尤度の積、との比である音響尤度比と、前記話者交替推定装置による発話者が交替したか否かの推定の結果に基づく、直前の発話の発話者と前記直前の発話の発話末尾とを前提としたときの現在の発話の発話者がある特定の話者である確率と現在の発話の発話者が前記特定の話者でない確率との比と、に基づいて話者の識別を行なう話者識別手段、
    としてコンピュータを機能させるためのコンピュータプログラム。
JP2008216484A 2008-08-26 2008-08-26 話者識別装置、及びコンピュータプログラム Active JP5296455B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008216484A JP5296455B2 (ja) 2008-08-26 2008-08-26 話者識別装置、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008216484A JP5296455B2 (ja) 2008-08-26 2008-08-26 話者識別装置、及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2010054574A JP2010054574A (ja) 2010-03-11
JP5296455B2 true JP5296455B2 (ja) 2013-09-25

Family

ID=42070613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008216484A Active JP5296455B2 (ja) 2008-08-26 2008-08-26 話者識別装置、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5296455B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022121386A (ja) * 2021-02-08 2022-08-19 ネイバー コーポレーション テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6480351B2 (ja) * 2016-01-06 2019-03-06 日本電信電話株式会社 発話制御システム、発話制御装置及び発話制御プログラム
JP7007617B2 (ja) * 2018-08-15 2022-01-24 日本電信電話株式会社 話し終わり判定装置、話し終わり判定方法およびプログラム
JP7287006B2 (ja) * 2019-03-01 2023-06-06 コニカミノルタ株式会社 話者決定装置、話者決定方法、および話者決定装置の制御プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022121386A (ja) * 2021-02-08 2022-08-19 ネイバー コーポレーション テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム
JP7348447B2 (ja) 2021-02-08 2023-09-21 ネイバー コーポレーション テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム

Also Published As

Publication number Publication date
JP2010054574A (ja) 2010-03-11

Similar Documents

Publication Publication Date Title
JP6705008B2 (ja) 話者照合方法及びシステム
US9536525B2 (en) Speaker indexing device and speaker indexing method
US8972243B1 (en) Parse information encoding in a finite state transducer
US6615170B1 (en) Model-based voice activity detection system and method using a log-likelihood ratio and pitch
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP2016180839A (ja) 雑音抑圧音声認識装置およびそのプログラム
WO2018163279A1 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP5296455B2 (ja) 話者識別装置、及びコンピュータプログラム
JP4074543B2 (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP4700522B2 (ja) 音声認識装置及び音声認識プログラム
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
JP2012053218A (ja) 音響処理装置および音響処理プログラム
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
Nouza et al. Fast keyword spotting in telephone speech
JP2020008730A (ja) 感情推定システムおよびプログラム
JP3615088B2 (ja) 音声認識方法及び装置
JPH11212588A (ja) 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4236502B2 (ja) 音声認識装置
Schaaf et al. Are you dictating to me? detecting embedded dictations in doctor-patient conversations
JP2003263187A (ja) 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体
JP3917880B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JPH10254485A (ja) 話者正規化装置、話者適応化装置及び音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130613

R150 Certificate of patent or registration of utility model

Ref document number: 5296455

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250