JP5296455B2 - 話者識別装置、及びコンピュータプログラム - Google Patents
話者識別装置、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP5296455B2 JP5296455B2 JP2008216484A JP2008216484A JP5296455B2 JP 5296455 B2 JP5296455 B2 JP 5296455B2 JP 2008216484 A JP2008216484 A JP 2008216484A JP 2008216484 A JP2008216484 A JP 2008216484A JP 5296455 B2 JP5296455 B2 JP 5296455B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- utterance
- probability
- word
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
S. Chen他、Proc. DARPA Speech Recognition Workshop、pp.127-132、1998年 S. E. Tranter他、IEEE Trans. Speech Audio Process 14、pp.1557-1565、2006年
また、この構成によれば、発話者が交替したか否かを表す確率を得ることができる。
また、この構成によれば、音声の音響的特徴と発話者が交替したか否かの推定結果の両方に基づいて発話者の識別が行われる。したがって、従来のように音声の音響的特徴だけから発話者を識別する方法と比較して、発話者の識別精度を向上させることができる。即ち、例えば、発話者が交替したと推定された場合、そのことを加味して話者識別を行うので、実際に発話者が交替しているにもかかわらず発話者が交替前と同じであると誤認識してしまうおそれが減少する。また逆に、発話者が交替していないと推定された場合、発話者が同じである(発言内容がまだ続く)のに発話者が変化したと誤判断してしまうおそれが減少する。
図1は、本発明の一実施形態による話者交替推定装置の構成を示すブロック図である。話者交替推定装置は、発話者が交替したか否かの推定を行う装置であり、入力された発話テキストデータDaに基づいて、発話者が交替したことの確からしさを表す話者交替確率を推定結果として出力する。なお、発話者が誰であるかの識別は、後述の話者識別装置が行う。図1において、話者交替推定装置10は、発話末語抽出部11と、話者交替推定部12と、話者交替確率記憶部13と、学習データ解析部14と、話者交替確率更新部15と、を含んで構成される。
図5は、本発明の一実施形態による話者識別装置の構成を示すブロック図である。話者識別装置100は、入力された音声データの発話者が誰であるかを識別する装置であり、音響分析部20と、音声認識デコーダ部30と、話者識別部40と、話者モデル記憶部50と、図1に示した話者交替推定装置10と、を含んで構成される。
この場合、前述の説明から、話者交替確率は小さい値をとる。そのため、直前の発話者と同一人のkに対して(つまり上式でk=St−1)、比rの値は小さくなり、直前の発話者と別人のkに対して(つまり上式でk≠St−1)、比rの値は大きくなる。例えば、図2の例で直前の発話が「・・・・は、・・・・で、」であり現在の発話が「・・・・も・・・・ですが、」である(発話者はともにA)場合、kを発話者Aとしたとき、
r=0.03/(1−0.03)≒0.031
となり、kを発話者A以外としたとき、
r={(1−0.03)/9+(8/9)×0.03}/0.03≒4.48
となる。但し、話者交替確率は図3から3%であり、また、K=10とした。
この場合、前述の説明から、話者交替確率は大きい値をとる。そのため、直前の発話者と同一人のkに対して(つまり上式でk=St−1)、比rの値は大きくなり、直前の発話者と別人のkに対して(つまり上式でk≠St−1)、比rの値は小さくなる。例えば、図2の例で直前の発話が発話者Aの「・・・・でしょうか。」であり現在の発話が発話者Bの「はい、・・・・」である場合、kを発話者Aとしたとき、
r=0.83/(1−0.83)≒4.88
となり、kを発話者A以外としたとき、
r={(1−0.83)/9+(8/9)×0.83}/0.83≒0.912
となる。但し、話者交替確率は図3から83%であり、また、K=10とした。
例えば、本実施形態の話者交替推定装置10及び話者識別装置100は、コンピュータを用いて実現することができる。例えば、発話末語抽出部11、話者交替推定部12、学習データ解析部14、話者交替確率更新部15、音響分析部20、音声認識デコーダ部30、及び話者識別部40の各部は、それぞれの機能を実現するためのコンピュータプログラムをコンピュータのCPU(中央処理装置)に読み込ませて実行させることによって実現することができ、話者交替確率記憶部13及び話者モデル記憶部50の各部は、それぞれ話者交替モデル、話者モデルをハードディスクドライブ等の記憶装置に記憶させることによって実現することができる。
Claims (3)
- 無音区間で区切られた発話の内容を表すテキスト情報から発話の末尾部分である発話末語を抽出する発話末語抽出手段と、
前記抽出された発話末語に基づいて発話者が交替したか否かを推定する推定手段と、
発話の末尾部分の候補である各発話末候補語と、該発話末候補語を末尾とする発話の後に発話者が交替する確率と、を対応付けて記憶する話者交替確率記憶手段と、
を備え、
前記推定手段は、前記話者交替確率記憶手段から、前記発話末語抽出手段により抽出された発話末語に対応する確率を求め、該求めた確率に基づいて発話者が交替したか否かを推定する、
話者交替推定装置と、
音声を入力し該音声の音響的特徴を抽出する音響分析手段と、
前記音響分析手段によって抽出される前記音響特徴量に基づく、前記音声に含まれる2つの発話を1つの発話とみなした場合の話者モデルにおける当該1つの発話とみなした特徴ベクトルの音響尤度と、前記2つの発話のうちの第1の発話の第1の話者モデルにおける音響尤度と前記2つの発話のうちの第2の発話の第2の話者モデルにおける音響尤度の積、との比である音響尤度比と、前記話者交替推定装置による発話者が交替したか否かの推定の結果に基づく、直前の発話の発話者と前記直前の発話の発話末尾とを前提としたときの現在の発話の発話者がある特定の話者である確率と現在の発話の発話者が前記特定の話者でない確率との比と、に基づいて話者の識別を行なう話者識別手段と、
を備えることを特徴とする話者識別装置。 - 無音区間で区切られた複数の連続する発話の内容を表すテキスト情報と、前記複数の発話毎の発話者を示す発話者情報と、を含む学習データを入力する入力手段と、
前記入力された学習データのテキスト情報から一の発話の発話末語を抽出し、該一の発話に対応する発話者情報及び該一の発話に引き続いてなされた発話に対応する発話者情報に基づいて、該一の発話から抽出された発話末語についての前記話者交替確率記憶手段における前記確率を更新する更新手段と、
を備えることを特徴とする請求項1に記載の話者識別装置。 - 無音区間で区切られた発話の内容を表すテキスト情報から発話の末尾部分である発話末語を抽出する発話末語抽出手段、
発話の末尾部分の候補である各発話末候補語と、該発話末候補語を末尾とする発話の後に発話者が交替する確率と、を対応付けて記憶する話者交替確率記憶手段、
前記抽出された発話末語に基づいて、前記話者交替確率記憶手段から、前記発話末語抽出手段により抽出された発話末語に対応する確率を求め、該求めた確率に基づいて、発話者が交替したか否かを推定する推定手段、
音声を入力し該音声の音響的特徴を抽出する音響分析手段、
前記音響分析手段によって抽出される前記音響特徴量に基づく、前記音声に含まれる2つの発話を1つの発話とみなした場合の話者モデルにおける当該1つの発話とみなした特徴ベクトルの音響尤度と、前記2つの発話のうちの第1の発話の第1の話者モデルにおける音響尤度と前記2つの発話のうちの第2の発話の第2の話者モデルにおける音響尤度の積、との比である音響尤度比と、前記話者交替推定装置による発話者が交替したか否かの推定の結果に基づく、直前の発話の発話者と前記直前の発話の発話末尾とを前提としたときの現在の発話の発話者がある特定の話者である確率と現在の発話の発話者が前記特定の話者でない確率との比と、に基づいて話者の識別を行なう話者識別手段、
としてコンピュータを機能させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008216484A JP5296455B2 (ja) | 2008-08-26 | 2008-08-26 | 話者識別装置、及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008216484A JP5296455B2 (ja) | 2008-08-26 | 2008-08-26 | 話者識別装置、及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010054574A JP2010054574A (ja) | 2010-03-11 |
JP5296455B2 true JP5296455B2 (ja) | 2013-09-25 |
Family
ID=42070613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008216484A Active JP5296455B2 (ja) | 2008-08-26 | 2008-08-26 | 話者識別装置、及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5296455B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022121386A (ja) * | 2021-02-08 | 2022-08-19 | ネイバー コーポレーション | テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6480351B2 (ja) * | 2016-01-06 | 2019-03-06 | 日本電信電話株式会社 | 発話制御システム、発話制御装置及び発話制御プログラム |
JP7007617B2 (ja) * | 2018-08-15 | 2022-01-24 | 日本電信電話株式会社 | 話し終わり判定装置、話し終わり判定方法およびプログラム |
JP7287006B2 (ja) * | 2019-03-01 | 2023-06-06 | コニカミノルタ株式会社 | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム |
-
2008
- 2008-08-26 JP JP2008216484A patent/JP5296455B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022121386A (ja) * | 2021-02-08 | 2022-08-19 | ネイバー コーポレーション | テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム |
JP7348447B2 (ja) | 2021-02-08 | 2023-09-21 | ネイバー コーポレーション | テキストベースの話者変更検出を活用した話者ダイアライゼーション補正方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
JP2010054574A (ja) | 2010-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6705008B2 (ja) | 話者照合方法及びシステム | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US8972243B1 (en) | Parse information encoding in a finite state transducer | |
US6615170B1 (en) | Model-based voice activity detection system and method using a log-likelihood ratio and pitch | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
JP2016180839A (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
WO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP5296455B2 (ja) | 話者識別装置、及びコンピュータプログラム | |
JP4074543B2 (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP4700522B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
JP2012053218A (ja) | 音響処理装置および音響処理プログラム | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
Nouza et al. | Fast keyword spotting in telephone speech | |
JP2020008730A (ja) | 感情推定システムおよびプログラム | |
JP3615088B2 (ja) | 音声認識方法及び装置 | |
JPH11212588A (ja) | 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4236502B2 (ja) | 音声認識装置 | |
Schaaf et al. | Are you dictating to me? detecting embedded dictations in doctor-patient conversations | |
JP2003263187A (ja) | 言語モデル学習方法、その装置、そのプログラムおよびそのプログラムの記録媒体ならびに言語モデル学習を用いた音声認識方法、その装置、そのプログラムおよびそのプログラムの記録媒体 | |
JP3917880B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JPH10254485A (ja) | 話者正規化装置、話者適応化装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130613 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5296455 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |