JP2008139654A

JP2008139654A - 対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラム

Info

Publication number: JP2008139654A
Application number: JP2006326996A
Authority: JP
Inventors: Takenori Tsujikawa; 剛範辻川; Ryosuke Isotani; 亮輔磯谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-12-04
Filing date: 2006-12-04
Publication date: 2008-06-19
Anticipated expiration: 2026-12-04
Also published as: JP5302505B2

Abstract

【課題】話者が３名以上であっても、詳細に、音声信号ストリーム中の複数の話者による対話状況の区切りや対話状況を推定したり、音声信号ストリームの内容を推定することができる対話状況区切り推定方法、対話状況推定方法、対話状況推定システムおよび対話状況推定プログラムを提供する。
【解決手段】音声区間検出部１は、音声区間を検出し、発話者決定部２は、音声区間の発話者を決定する。ストリーム分割部３は、音声信号ストリームを時間窓で分割する。発話量抽出部４は、各話者の発話量を求める。ばらつき度合い抽出部５は、話者間の発話量のばらつき度合いを求める。対話状況区切り推定部６は、ばらつき度合いを特徴量として、対話状況区切りを推定する。
【選択図】図１

Description

本発明は、複数の話者の対話音声を含む音声信号ストリームから複数の話者の対話状況を推定できる対話状況区切り推定方法、対話状況推定方法、入力信号クラスタリング方法、入力信号内容推定方法、音声認識方法、音声書き起こし方法、音声検索方法、対話状況区切り推定システム、対話状況推定システム、対話状況区切り推定プログラムおよび対話状況推定プログラムに関する。

日々の生活の様々な場面において、複数の話者による音声対話を目にしたり耳にしたりする。例えば、テレビ番組やラジオ番組などの放送番組、電話、会議、裁判において、またはレストランや街頭、店、電車の中など、あらゆる場面において、人は音声対話を通じてコミュニケーションをとる。

これらの対話音声を音声信号ストリームとして記録・蓄積し、利用したいという要望は高く、様々な利用方法が検討されている。利用する際の大きな問題の１つとして挙げられるのは、音声信号ストリームの中身を知ることの困難さである。

この問題に対して、音声認識システムを用いて音声データをテキスト化するという研究が盛んに行われている。音声認識システムによるテキスト化が実現できれば、音声信号ストリーム中で何が話されているかを直接的に知ることができる。しかし、ニュース番組でアナウンサーが原稿を読み上げる時や講演会で講演者が講演している時などと異なり、人が人と対話している時は、文法が正確ではなく、また丁寧な発話ではないため、対話音声を含む音声信号ストリームに対して高精度な音声認識を実現するのは現状の技術では困難である。

音声信号ストリームの中身を知るための手助けとなるシステムの従来例として、特許文献１に会議概要把握支援システム、特許文献２に会議構造把握支援システムが記載されている。特許文献１、特許文献２に記載されているシステムは、一般的な会議の構造に着目し、与えられた会議音声信号ストリームを分析することにより会議の概要把握または構造把握を支援するシステムである。

特許文献１には、複数の会議参加者の音声信号ストリームから各参加者の発話時間、発話回数、話者間発話遷移回数(話者切り換わり回数)を抽出し、それらを会議概要情報としてユーザーに提示するシステムが記載されている。ユーザーは、提示された会議概要情報と会議の構造に関するユーザーの事前知識を照らし合わせることで、ストリーム中のどの時刻で“議題について説明している”、“会議参加者が議論している”ということを推定できる。

特許文献２には、複数の会議参加者の音声信号ストリームから各参加者の発話量を検出し、各参加者の発話量の変動に基づいて会議における話題の区切れの候補をユーザーに提示するシステムが記載されている。一般的な会議においては、話題区切れの直前で各会議参加者の発話量が減少し、話題区切れの直後で各会議参加者の発話量が増加するという知見に基づいて、話題の区切れの候補を推定し、ユーザーに提示することで、ユーザーは区切れの直前または直後を聴取するだけで、効率よく所望の話題が話されている箇所を与えられた会議音声信号ストリームから知ることができる。

また、特許文献３には、２人以上の人物間における会話の先導者を判別する会話先導者判別装置が記載されている。特許文献３には、ある場のある時間帯における全てのユーザの発話量を検出し、発話量が最大となるユーザを会話先導者として判別することが記載されている。

特開２００４−３５０１３４号公報（段落００４４−００４５）特開２００６−０８１００５号公報（段落００２７−００３３）特開２００５−２７５５３６号公報（段落００３８−００４７）

対話状況の違いによる音声信号ストリームの構造化は音声信号ストリームの中身を知るための有用な手助けとなる。例として、話者Ａ、Ｂ、Ｃの３名により行われた提案会議の音声信号ストリームがあり、会議が次のように進行した場合を想定し、音声信号ストリームの構造化について説明する。
１．Ａさんによる提案内容説明
２．Ａさんの提案内容に対して、Ａ、Ｂ、Ｃさんで議論
３．Ｂさんによる提案内容説明
４．Ｂさんの提案内容に対して、Ａ、Ｂ、Ｃさんで議論
５．Ｃさんによる提案内容説明
６．Ｃさんの提案内容に対して、Ａ、Ｂ、Ｃさんで議論

上記１〜６の項目が含まれる音声信号ストリームが与えられた場合に、各項目の区切れを知ることができれば、会議の一部の内容を知りたい場合に有用であることは明らかである。また、区切られた区間に対話状況ラベル（ここでは“Ａさんによる説明”、“Ａ、Ｂ、Ｃさんで議論”など）が付与されれば、さらに有用である。また、複数の会議の音声信号ストリームが与えられ、“説明”と“議論”とが繰り返される構造を持つ会議の音声信号ストリームだけを選別したい場合にも、上記対話状況ラベルは有用である。

一方、上述のとおり、特許文献１に記載されている会議概要把握支援システムまたは特許文献２に記載されている会議構造把握支援システムは、会議音声信号ストリームを分析することにより会議の概要把握または構造把握を支援することを意図したものであるが、与えられた音声信号ストリームの対話状況を推定する上で下記の問題点を有している。

第１の問題点は、特許文献１に記載されている会議概要把握支援システムでは、複数の話者間で行われる対話状況の自動推定が困難であるという点である。その理由は、特許文献１に記載のシステムでは、会議概要情報を見て対話状況（音声信号ストリーム中のどの時刻で“議題について説明している”、“会議参加者が議論している”など）や対話状況の区切りを、人が推定しているにすぎないからである。

第２の問題点は、特許文献２に記載されている会議構造把握支援システムでは、複数の話者間で行われる対話状況の推定が困難という点である。その理由は、話題の区切れの候補を推定するために用いる情報が各話者の発話量の変化量にすぎないからである。例えば、２人の話者ＡとＢが対話している場合に、話者Ａが主導権を握って話者Ｂと対話しているのか、話者Ａと話者Ｂが対等に対話しているのかは、話者Ａの発話量の時間変化と話者Ｂの発話量の時間変化を個々に観測してもわからない。

また、特許文献３に記載された方式では、発話量にばらつきがあると判断した場合に、発話量が最大となる人物を会話先導者として判断する。ばらつきの有無を判断する指標として、２話者間の各発話産出率の差を用い、その差が閾値以上の場合にばらつきありと判断している。しかし、話者が３名以上の場合には、全話者に対して各２話者間の発話量の差を算出し、それらを個々に閾値と比較しても、全話者の発話量にばらつきがあるかどうかを判断することができない。なぜなら、上記の処理では、ある２話者間の発話量の差が少ないというだけで、ばらつきがないと判定されてしまうからである。

そこで、本発明は、話者が３名以上であっても、詳細に、音声信号ストリーム中の複数の話者による対話状況の区切りや対話状況を推定したり、音声信号ストリームの内容を推定することができる対話状況区切り推定方法、対話状況推定方法、入力信号クラスタリング方法、入力信号内容推定方法、音声認識方法、音声書き起こし方法、音声検索方法、対話状況区切り推定システム、対話状況推定システム、対話状況区切り推定プログラムおよび対話状況推定プログラムを提供することを目的とする。

本発明による対話状況区切り推定方法は、複数の話者の音声を含む入力信号における話者間の対話状況の区切りを推定する対話状況区切り推定方法であって、入力信号中の音声区間を検出する音声区間検出ステップと、検出した音声区間において発話している話者を特定する発話者特定ステップと、入力信号を所定の時間窓で区切る分割ステップと、各音声区間において発話している話者の特定結果に基づいて、時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出ステップと、算出した各話者の発話量に基づいて、時間窓で区切った区間毎に、話者間の発話量のばらつき度合いを算出するばらつき度合抽出ステップと、算出した話者間の発話量のばらつき度合いを特徴量として用いて、異なる時間位置間における当該特徴量の変化量に基づいて、話者間の対話状況の区切りを示す対話状況区切りを推定する対話状況区切り推定ステップとを含むことを特徴とする。

発話量抽出ステップで、分割ステップで時間窓で区切られた区間毎に、発話者決定ステップで決定された各音声区間の発話者に基づいて、各話者の発話量と、話者の切り替わりに関する値を示す話者切替わりパタンとを算出し、対話状況区切り推定ステップで、ばらつき度合抽出ステップで算出された話者間の発話量のばらつき度合いと発話量抽出ステップで算出された話者切替わりパタンとを特徴量として、異なる時間位置間における特徴量の変化に基づいて対話状況区切りを推定してもよい。そのような構成によれば、より詳細な対話状況区切りを推定することができる。

発話量抽出ステップで、話者切替わり回数を含む話者切替わりパタンを算出してもよい。そのような構成によれば、話者切替わり回数を話者切替わりパタンとして算出することができる。

発話量抽出ステップで、発話回数、平均発話時間および発話時間のうちの少なくとも１つを含む発話量を算出してもよい。そのような構成によれば、発話回数、平均発話時間および発話時間のうちの少なくとも１つを発話量として抽出することができる。

発話量抽出ステップで、発話回数、平均発話時間および発話時間のうちの少なくとも１つと、他の話者との発話重複回数、他の話者との平均発話重複時間および他の話者との発話重複時間のうちの少なくとも１つとを含む発話量を算出してもよい。そのような構成によれば、発話回数、平均発話時間および発話時間のうちの少なくとも１つと、他の話者との発話重複回数、他の話者との平均発話重複時間および他の話者との発話重複時間のうちの少なくとも１つとを発話量として抽出することができる。

ばらつき度合抽出ステップで、ばらつき度合を示す指標としてエントロピー、分散、標準偏差および最大値と最小値の差分値のうちの少なくとも１つを含む話者間の発話量のばらつき度合いを算出してもよい。そのような構成によれば、エントロピー、分散、標準偏差および最大値と最小値の差分値のうちの少なくとも１つをばらつき度合として抽出することができる。

対話状況区切り推定ステップで、異なる時間位置間の特徴量の歪としての特徴量の距離を、予め定められた閾値と比較することにより対話状況区切りを推定してもよい。そのような構成によれば、予め定められた閾値に基づいて対話状況区切りを推定することができる。

対話状況区切り推定ステップで、ばらつき度合抽出ステップで算出された話者間の発話量のばらつき度合いを示す特徴量を、予め定められた複数の対話状況クラスタ、予め定められた複数の対話状況クラスタを入力信号に適応させた対話状況クラスタおよび入力信号から作成された複数の対話状況クラスタのうちの少なくとも１つの対話状況クラスタの特徴量と比較し、最も距離が近い対話状況クラスタの時間遷移に応じて対話状況区切りを推定してもよい。そのような構成によれば、対話状況クラスタに基づいて対話状況区切りを推定することができる。

本発明による対話状況推定方法は、複数の話者の音声を含む入力信号における話者間の対話状況を推定する対話状況推定方法であって、入力信号中の音声区間を検出する音声区間検出ステップと、検出した音声区間において発話している話者を特定する発話者特定ステップと、入力信号を所定の時間窓で区切る分割ステップと、各音声区間において発話している話者の特定結果に基づいて、時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出ステップと、算出した各話者の発話量に基づいて、時間窓で区切った区間毎に、話者間の発話量のばらつき度合いを算出するばらつき度合抽出ステップと、算出した話者間の発話量のばらつき度合いを特徴量として用いて、当該特徴量を、予め記憶する対話状況に対応付けられた特徴量のモデルを示す対話状況モデルと比較する対話状況モデル比較ステップと、比較した結果に基づいて、時間位置毎の対話状況を推定する対話状況推定ステップとを含むことを特徴とする。

発話量抽出ステップで、分割ステップで時間窓で区切られた区間毎に、発話者決定ステップで決定された各音声区間の発話者に基づいて、各話者の発話量と、話者の切り替わりに関する値を示す話者切替わりパタンとを算出し、対話状況モデル比較ステップで、ばらつき度合抽出ステップで算出された話者間の発話量のばらつき度合いと発話量抽出ステップで算出された話者切替わりパタンとを特徴量として、当該特徴量を対話状況モデルと比較してもよい。そのような構成によれば、より詳細な対話状況区切りを推定することができる。

対話状況モデル比較ステップで、特徴量を、予め対話状況を示す対話状況ラベルが付与されたデータで学習された対話状況モデル、予め作成された規則に対話状況ラベルが付与された対話状況モデル、予め対話状況ラベルが付与されたデータで学習された対話状況モデルを入力信号の対話状況に適応させた対話状況モデルおよび予め作成された規則に対話状況ラベルが付与された対話状況モデルを入力信号の対話状況に適応させた対話状況モデルのうち少なくとも１つの対話状況モデルと比較してもよい。そのような構成によれば、特徴量を対話状況モデルと比較することができる。

本発明による入力信号クラスタリング方法は、対話状況推定方法によって推定された時間位置毎の対話状況を示す遷移情報を特徴量として、複数の入力信号をクラスタリングするクラスタリングステップを含むことを特徴とする。

本発明による入力信号内容推定方法は、対話状況推定方法によって推定された時間位置毎の対話状況の遷移情報を特徴量として、当該特徴量を、予め記憶する入力信号の内容に対応付けられた特徴量のモデルを示す入力信号内容モデルと比較する入力信号内容モデル比較ステップと、入力信号内容モデル比較ステップで比較した結果に基づいて、入力信号の内容を推定する入力信号内容推定ステップとを含むことを特徴とする。

入力信号内容モデル比較ステップで、特徴量を、予め入力信号の内容を示す入力信号内容ラベルが付与されたデータで学習された入力信号内容モデルおよび予め作成された規則に入力信号内容ラベルが付与された入力信号内容モデルのうち少なくとも１つの入力信号内容モデルと比較してもよい。そのような構成によれば、特徴量を入力信号内容モデルと比較することができる。

本発明による音声認識方法は、対話状況推定方法によって推定された時間位置毎の対話状況に応じて、音声認識に用いられる音響モデル、言語モデル、辞書および探索範囲を調整するためのパラメタのうち少なくとも１つを制御するステップを含むことを特徴とする。

本発明による音声書き起こし方法は、対話状況推定方法によって推定された時間位置毎の対話状況に応じて、音声認識結果の出力方法を制御するステップを含むことを特徴とする。

本発明による音声検索方法は、対話状況推定方法によって推定された時間位置毎の対話状況に応じて、音声検索結果の出力方法を制御するステップを含むことを特徴とする。

本発明による音声検索方法は、入力信号内容推定方法によって推定された入力信号内容に応じて、音声検索結果の出力方法を制御するステップを含むことを特徴とする。

本発明による対話状況区切り推定システムは、複数の話者の音声を含む入力信号における話者間の対話状況の区切りを推定する対話状況区切り推定システムであって、入力信号中の音声区間を検出する音声区間検出手段と、音声区間検出手段が検出した音声区間において発話している話者を特定する発話者特定手段と、入力信号を所定の時間窓で区切る分割手段と、各音声区間において発話している話者の特定結果に基づいて、時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出手段と、発話量抽出手段が算出した各話者の発話量に基づいて、時間窓で区切った区間毎に、話者間の発話量のばらつき度合いを算出するばらつき度合抽出手段と、ばらつき度合抽出手段が算出した話者間の発話量のばらつき度合いを特徴量として用いて、異なる時間位置間における当該特徴量の変化量に基づいて、話者間の対話状況の区切りを示す対話状況区切りを推定する対話状況区切り推定手段とを備えたことを特徴とする。

本発明による対話状況推定システムは、複数の話者の音声を含む入力信号における話者間の対話状況を推定する対話状況推定システムであって、入力信号中の音声区間を検出する音声区間検出手段と、音声区間検出手段が検出した音声区間において発話している話者を特定する発話者特定手段と、入力信号を所定の時間窓で区切る分割手段と、各音声区間において発話している話者の特定結果に基づいて、時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出手段と、発話量抽出手段が算出した各話者の発話量に基づいて、時間窓で区切った区間毎に、話者間の発話量のばらつき度合いを算出するばらつき度合抽出手段と、ばらつき度合抽出手段が算出した話者間の発話量のばらつき度合いを特徴量として用いて、当該特徴量を、予め記憶する対話状況に対応付けられた特徴量のモデルを示す対話状況モデルと比較する対話状況モデル比較手段と、対話状況モデル比較手段が比較した結果に基づいて、時間位置毎の対話状況を推定する対話状況推定手段とを備えたことを特徴とする。

本発明による対話状況区切り推定プログラムは、複数の話者の音声を含む入力信号における話者間の対話状況の区切りを推定するための対話状況区切り推定プログラムであって、コンピュータに、入力信号中の音声区間を検出する音声区間検出処理と、検出した音声区間において発話している話者を特定する発話者特定処理と、入力信号を所定の時間窓で区切る分割処理と、各音声区間において発話している話者の特定結果に基づいて、時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出処理と、算出した各話者の発話量に基づいて、時間窓で区切った区間毎に、話者間の発話量のばらつき度合いを算出するばらつき度合抽出処理と、算出した話者間の発話量のばらつき度合いを特徴量として用いて、異なる時間位置間における当該特徴量の変化量に基づいて、話者間の対話状況の区切りを示す対話状況区切りを推定する対話状況区切り推定処理とを実行させることを特徴とする。

本発明による対話状況推定プログラムは、複数の話者の音声を含む入力信号における話者間の対話状況を推定するための対話状況推定プログラムであって、コンピュータに、入力信号中の音声区間を検出する音声区間検出処理と、検出した音声区間において発話している話者を特定する発話者特定処理と、入力信号を所定の時間窓で区切る分割処理と、各音声区間において発話している話者の特定結果に基づいて、時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出処理と、算出した各話者の発話量に基づいて、時間窓で区切った区間毎に、話者間の発話量のばらつき度合いを算出するばらつき度合抽出処理と、算出した話者間の発話量のばらつき度合いを特徴量として用いて、当該特徴量を、予め記憶する対話状況に対応付けられた特徴量のモデルを示す対話状況モデルと比較する対話状況モデル比較処理と、比較した結果に基づいて、時間位置毎の対話状況を推定する対話状況推定処理とを実行させることを特徴とする。

本発明による対話状況推定方法の好ましい一態様は、複数の話者の音声を含む入力信号における話者間の対話状況区切りを推定する対話状況推定方法であって、入力信号中の音声区間を検出するステップと、検出された音声区間の発話者を決定するステップと、入力信号を時間窓で区切るステップと、時間窓で区切られた区間毎に検出された音声区間から各話者の発話量を求めるステップと、各話者の発話量から話者間の発話量のばらつき度合いを求めるステップと、発話量のばらつき度合いを特徴量として、異なる時間位置間の特徴量の変化から対話状況区切りを推定するステップとを含むことを特徴とする。

本発明による対話状況推定方法の好ましい一態様は、複数の話者の音声を含む入力信号における話者間の対話状況を推定する対話状況推定方法であって、入力信号中の音声区間を検出するステップと、検出された音声区間の発話者を決定するステップと、入力信号を時間窓で区切るステップと、時間窓で区切られた区間毎に検出された音声区間から各話者の発話量を求めるステップと、各話者の発話量から話者間の発話量のばらつき度合いを求めるステップと、発話量のばらつき度合いを特徴量として、予め用意した対話状況モデルと比較するステップと、比較結果から時間位置毎の対話状況を推定するステップとを含むことを特徴とする。

本発明による対話状況推定方法の好ましい一態様は、複数の入力信号をクラスタリングする対話状況推定方法であって、本発明に係る第２の展開形態の対話状況推定方法によって推定された時間位置毎の対話状況の遷移情報を特徴量として、複数の入力信号をクラスタリングするステップを含むことを特徴とする。

本発明による対話状況推定方法の好ましい一態様は、入力信号内容を推定する対話状況推定方法であって、本発明に係る第２の展開形態の対話状況推定方法によって推定された時間位置毎の対話状況の遷移情報を特徴量として、予め用意した入力信号内容モデルと比較するステップと、比較結果から入力信号内容を推定するステップとを含むことを特徴とする。

本発明によれば、入力信号中の音声区間を検出し、検出された音声区間の発話者を決定し、入力信号を時間窓で区切り、時間窓で区切られた区間毎に検出された音声区間から各話者の発話量を求め、各話者の発話量から話者間の発話量のばらつき度合いを求め、発話量のばらつき度合いを特徴量とし、異なる時間位置間の特徴量の変化から対話状況区切りを推定する構成にしたことにより、複数の話者の音声を含む入力信号における話者間の対話状況区切りを推定できる。例えば、２人の話者が対話している場合に、１人の話者が主導権を握ってもう１人の話者と対話しているのか、２人の話者が対等に対話しているのかは、前者は２人の話者の発話量にばらつきがある、後者は２人の話者の発話量のばらつきがないということで判断できる。

また本発明の他の構成によれば、入力信号中の音声区間を検出し、検出された音声区間の発話者を決定し、入力信号を時間窓で区切り、時間窓で区切られた区間毎に検出された音声区間から各話者の発話量を求め、各話者の発話量から話者間の発話量のばらつき度合いを求め、発話量のばらつき度合いを特徴量とし、予め用意した対話状況モデルと比較して、比較結果から時間位置毎の対話状況を推定する構成にしたことにより、複数の話者の音声を含む入力信号における話者間の対話状況を推定できる。

また本発明の他の構成によれば、推定された時間位置毎の対話状況の遷移情報を特徴量として、複数の入力信号をクラスタリングする構成にしたことにより、複数の入力信号をクラスタリングできる。

また本発明の他の構成によれば、推定された時間位置毎の対話状況の遷移情報を特徴量として、予め用意した入力信号内容モデルと比較して、比較結果から入力信号内容を推定する構成にしたことにより、入力信号内容を推定できる。

実施の形態１．
以下、本発明の第１の実施の形態を図面を参照して説明する。図１は、本発明の第１の実施の形態に係る対話状態区切り推定システムの構成例を示すブロック図である。

図１に示す対話状況区切り推定システムは、音声区間検出部１と、発話者決定部２と、音声信号ストリーム分割部３と、発話量抽出部４と、ばらつき度合い抽出部５と、対話状況区切り推定部６とを含む。なお、本実施の形態において、対話状況区切り推定システムは、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。

また、対話状況区切り推定システムは、例えば、マイクロフォン等の音声入力装置（図示せず。）から音声信号ストリームを入力し、入力した音声信号ストリームを処理する。また、対話状況区切り推定システムは、例えば、予め音声信号ストリームをデータベースに蓄積し、蓄積する音声信号ストリームを処理する。

音声区間検出部１は、音声信号ストリームを受けて、音声信号ストリーム中の音声区間を検出する機能を備える。発話者決定部２は、検出された音声区間を受けて、音声区間の発話者を決定（特定）する機能を備える。音声信号ストリーム分割部３は、音声信号ストリームを受けて、音声信号ストリームを時間窓で区切る機能を備える。発話量抽出部４は、分割ストリームと音声区間情報と発話者情報とを受けて、分割されたストリーム内の音声区間から各話者の発話量を求める機能を備える。ばらつき度合い抽出部５は、各話者の発話量を受けて話者間の発話量のばらつき度合いを求める機能を備える。対話状況区切り推定部６は、発話量のばらつき度合いを特徴量として受けて、異なる時間位置間の特徴量の変化から対話状況区切りを推定する機能を備える。

次に、動作について説明する。図２は、本発明の第１の実施の形態に係る対話状況区切り推定システムにおける処理手順を示す流れ図である。図１および図２を参照して、本実施の形態の対話状況推定システムの動作について以下に説明する。

まず、音声区間検出部１は、音声信号ストリームを入力する。本例では、音声信号ストリームをs(t)とする。ただし、t は、時間のインデックス(t=0,1,2,…)である。音声区間検出部１は、音声信号ストリームs(t)を受けて、音声区間D(k)=s(ks)〜s(ke) を検出する（ステップＳ１）。ただし、k は音声区間インデックス(k=0,1,2,…)、ksは音声区間k の始端(ks>=0) 、keは音声区間k の終端(ke>ks) である。

音声区間を検出する方法はどのようなものでもよく、例えば、信号パワー、零交差、調波性、ケプストラムなど音声らしさを表す様々な特徴を用いて音声区間を検出することができる。なお、Push To Talkのようにボタンを押している間のみ話者が話す場合は、ボタンを押している時刻を利用して音声区間を検出できる。その他、音声区間を特定できる情報がある場合は、その情報を利用して音声区間を検出してもよいことは勿論である。また、音声信号ストリームが複数チャネルで構成される場合には、複数チャネルの情報を用いて音声区間を検出してもよいことは勿論である。

音声区間検出部１が音声区間D(k)を検出した後、発話者決定部２は、音声区間D(k)の発話者sp(k) を決定する（ステップＳ２）。発話者を決定する方法はどのようなものでもよく、例えば、ピッチ周波数、ケプストラム、声道長など話者によって違いが出る特徴量を利用して、発話者を決定することができる。事前に各話者のサンプル音声などを入手可能であれば、そのサンプル音声などとの類似度により発話者を決定することも可能である。また、必ずしも音声区間１つに対して発話者を１名に決定する必要はなく、話者Ａである確率0.8 ，話者Ｂである確率0.2 のように確率値としてもよい。また、入力される音声信号ストリームや用途によっては、発話者を男性と女性、成人と子供、アナウンサーとコメンテーター、クイズ番組の司会と回答者、裁判官と検事と弁護士と被告人、などに分類してもよい。また、話者毎に音声信号ストリームがある場合や、グループ毎に音声信号ストリームがある場合は、その音声信号ストリームがどの話者のものか、またはどのグループのものかという情報を利用して、発話者を決定してもよい。

発話者決定部２が発話者sp(k) を決定した後、ストリーム分割部３は、音声信号ストリームを時間窓で分割する（ステップＳ３）。分割されたストリームをS(T)=s(Ts)〜s(Te)とする。ただし、T は分割インデックス(T=0,1,2,…)、Tsは分割された区間T の始端(Ts>=0) 、Teは分割された区間Tの終端(Te>Ts) である。なお、時間窓Te-Ts は時変でもよいことは勿論である。また、ストリーム分割部３による分割処理は、音声区間検出部１および発話者決定部２による処理より前または並列に行ってもよいことは勿論である。

音声区間検出部１、発話者決定部２およびストリーム分割部３の処理後、発話量抽出部４は、各話者の発話量Vsp(i,T)を求める（ステップＳ４）。ただし、i は発話者インデックス(i=0,1,2,…)である。

なお、ここでの「各話者」の意味は、発話者決定部２が決定した発話者の意味（つまり、発話者決定部２で発話者を男性話者、女性話者とした場合は、各話者とは男性話者、女性話者）としてもよいし、ストリーム内で登場する話者の情報が既知である場合にはストリーム内で登場する話者という意味（つまり、ストリーム内で話者Ａ、Ｂ、Ｃ、Ｄが登場する場合、各話者とは話者Ａ、Ｂ、Ｃ、Ｄ）としてもよい。

発話量としては、発話時間、発話回数、平均発話時間や他の話者との発話重複時間、他の話者との発話重複回数、他の話者との平均発話重複時間などが考えられる。

発話時間は、検出された音声区間の長さ(ke-ks) を話者毎に和を取ることで計算できる。発話回数は、検出された音声区間の数を話者毎に和を取ることで計算できる。平均発話時間は、話者毎に（発話時間／発話回数）を計算すればよい。なお、／は除算を表す。

他の話者との発話重複時間は、話者間の発話重複区間の長さを話者毎に和を取ることで計算できる。例えば、３名の話者Ａ、Ｂ、Ｃがいる場合、話者Ａの発話重複時間は、話者Ａと話者Ｂの発話重複区間の長さと話者Ａと話者Ｃの発話重複区間の長さの和である。他の話者との発話重複回数は、話者間の発話重複区間の数を話者毎に和を取ることで計算できる。他の話者との平均発話重複時間は、話者毎に（他の話者との発話重複時間／他の話者との発話重複回数）を計算すればよい。

なお、上記の計算において、発話者決定部２が、発話者を確率値で算出した場合は、その確率値を重みとして乗算した後に話者毎に和を取ればよい。その他、平均発話時間と他の話者との平均発話重複時間の比など、上記を組み合わせた値や、発話者数、ストリーム分割部における時間窓幅などで正規化した値などを発話量としてもよいことは勿論である。また上記のような発話量（例えば、発話時間など）を複数使用して各話者の発話量を発話量ベクトルとしてもよい。

発話量抽出部４が各話者の発話量Vsp(i,T)を求めた後、ばらつき度合い抽出部５は、話者間の発話量のばらつき度合いE(T)を求める（ステップＳ５）。なお、発話量抽出部４が、複数の発話量を使用して発話量ベクトルとした場合、ばらつき度合い抽出部５は、ベクトルの次元毎にばらつき度合いE(T)を求める。ばらつき度合いE(T)としては、エントロピー、分散、標準偏差、最大値と最小値の差分値などのばらつき度合いを示す様々な指標を用いることができる。

例えば、ばらつき度合いE(T)としてエントロピーを用いた場合は次のように計算できる。

ただし、以下に示す式（２）は、f(i)をi=0〜N(T)-1 まで加算するということを意味する。N(T)は分割インデックスT における話者数（発話量を求めた話者の数）、log{} は対数関数、p(Vsp(i,T)) は以下に示す式（３）のように発話量Vsp(i,T)の確率値を表す。

なお、エントロピーの最大値log{N(T)} で上記エントロピーE(t)を正規化してもよいことは勿論である。

また、ばらつき度合いE(T)として分散を用いた場合は次のように計算できる。

なお、Vsp(i,T)の代わりに式（３）で定義したp(Vsp(i,T)) を利用してもよいことは勿論である。

ばらつき度合いE(T)として標準偏差を用いた場合は、式（４）の分散の平方根を計算することにより求めることができる。ばらつき度合いE(T)として最大値と最小値の差分を用いた場合は、Vsp(i,T)の最大値と最小値の差を計算すればよい。

なお、ここでは、発話量のばらつきを示す指標として、エントロピー、分散、標準偏差、最大値と最小値の差分値について説明したが、平均偏差、四分位偏差などばらつきを示す他の指標を用いてもよいことは勿論である。また、ばらつき度合いとして、複数の指標を使用して、ばらつき度合いベクトルとしてもよいことは勿論である。

ばらつき度合い抽出部５がばらつき度合いE(T)を求めた後、ばらつき度合いE(T)を特徴量F(T)として、対話状況区切り推定部６は、対話状況区切りを推定する（ステップＳ６）。推定方法としては、以下のような方法が考えられる。

例えば、閾値と比較する方法による場合、対話状況区切り推定部６は、以下のように対話状況区切りを推定する。

特徴量F(T)と他の分割インデックス（例えばT1=T-1）の特徴量F(T1) の二乗誤差{F(T1)-F(T)}×{F(T1)-F(T)}が閾値THより大きいときに対話状況が変化したとし、そのときのT を対話状況区切りとする。F(T)がベクトルの場合は、ユークリッド距離などの歪を表す尺度を用いて閾値THと比較すればよい。

また、特徴量F(T)と他の分割インデックス区間（例えばT1〜T2）における特徴量F(T1) の平均値aveF(T1〜T2)の二乗誤差{aveF(T1〜T2)-F(T)}×{aveF(T1〜T2)-F(T)}が閾値THより大きいときに対話状況が変化したとし、対話状況区切りとする。勿論、平均値は中央値などで代用することは可能である。F(T)がベクトルの場合は、ユークリッド距離などの歪を表す尺度を用いて閾値THと比較すればよい。

また、例えば、対話状況クラスタの特徴量と比較する方法による場合、対話状況区切り推定部６は、以下のように対話状況区切りを推定する。

特徴量F(T)と予め用意した複数の対話状況クラスタの特徴量Fcとを比較し、比較結果から得られる最も距離が近いクラスタc が分割インデックスT において遷移した場合に、対話状況区切りとする。例えば、対話状況区切り推定部６は、特徴量F(T1) 、F(T2) との距離が近いクラスタはc1であって、特徴量F(T3) 、F(T4) との距離が近いクラスタはc2である場合、分割インデックスT3を対話状況区切りとして推定する。

特徴量F(T)と、予め用意した複数の対話状況クラスタを与えられた音声信号ストリームに適応した対話状況クラスタの特徴量Fcとを比較し、比較結果から得られる最も距離が近いクラスタc が分割インデックスT において遷移した場合に、対話状況区切りとする。

特徴量F(T)と与えられた音声信号ストリームから作成した対話状況クラスタの特徴量Fcとを比較し、比較結果から得られる最も距離が近いクラスタc が分割インデックスT において遷移した場合に、対話状況区切りとする。

上記３種の対話状況クラスタのうち複数種の対話状況クラスタを用いて、複数種の対話状況クラスタに対して、クラスタの遷移が分割インデックスT において同時に起こった場合に、対話状況区切りとする。勿論、クラスタc が遷移してから一定の間に遷移が無かった場合に対話状況区切りとする等のルールを付け加えてもよい。

本発明の第１の実施の形態の作用効果について説明する。本実施の形態では、各話者の発話量のばらつき度合いを求め、その発話量のばらつき度合いを特徴量として対話状況区切りを推定するため、複数の話者の音声を含む音声信号ストリームにおける話者間の対話状況区切りを推定できる。

すなわち、本実施の形態によれば、全ての話者の発話量にもとづいてばらつき度合を産出することから、全話者の発話量にもとづいて対話状況の区切りを推定することができる。

実施の形態２．
次に、本発明の第２の実施の形態を図面を参照して説明する。図３は、本発明の第２の実施の形態に係る対話状況区切り推定システムの構成例を示すブロック図である。

図３に示す対話状況区切り推定システムを図１に示した対話状況区切り推定システムと比較すると、図１に示す発話量抽出部４が図３では発話量・話者切替わりパタン抽出部４１となっている点と、図１に示す対話状況区切り推定部６が図３では対話状況区切り推定部６１となっている点のみが相違している。発話量・話者切替わりパタン抽出部４１および対話状況区切り推定部６１以外の動作は、第１の実施の形態と同様であるため説明を省略し、発話量・話者切替わりパタン抽出部４１および対話状況区切り推定部６１の説明のみを行う。

発話量・話者切替わりパタン抽出部４１は、図１に示す発話量抽出部４で求めた各話者の発話量Vsp(i,T)に加えて、話者切替わりパタンC(T)を求める。話者切替わりパタンとしては、話者切替わり回数が考えられる。また、分割されたストリームS(T)内にM 個の音声区間D(k)が含まれている場合、最大でM-1 回の話者の切替わりが発生するので、実際に話者が切替わった回数をM-1 で正規化した正規化話者切替わり回数なども使用できる。その他、話者Ａから話者Ｂに切替わった回数、話者Ａから話者Ｃに切替わった回数、話者Ｂから話者Ｃに切替わった回数、話者Ｂから話者Ａに切替わった回数、などを多次元のベクトルとし、話者切替わりパタンC(T)としてもよい。発話量・話者切替わりパタン抽出部４１は、それぞれ、発話量Vsp(i,T)をばらつき度合い抽出部５に出力し、話者切替わりパタンC(T)を次に説明する対話状況区切り推定部６１に出力する。

対話状況区切り推定部６１は、図１に示す対話状況区切り推定部６が特徴量F(T)として使用した話者間の発話量のばらつき度合いE(T)に加えて、話者切替わりパタンC(T)を特徴量として用い、対話状況区切りを推定する。すなわち、特徴量ベクトルF(T)=[E(T),C(T)]とする。特徴量以外の対話状況区切り推定方法は対話状況区切り推定部６と同じである。

本発明の第２の実施の形態の作用効果について説明する。本実施の形態では、発話量・話者切替わりパタン抽出部４１が、発話量に加えて話者切替わりパタンを求め、対話状況区切り推定部６１で特徴量に話者切替わりパタンを追加しているため、第１の実施の形態による効果に加えて、より詳細な対話状況区切りを推定することができる。

実施の形態３．
次に、本発明の第３の実施の形態を図面を参照して説明する。図４は、本発明の第３の実施の形態に係る対話状況推定システムの構成例を示すブロック図である。

図４に示す対話状況推定システムを図１に示した対話状況区切り推定システムと比較すると、図１に示す対話状況区切り推定部６が、図４では対話状況モデル７と対話状況モデル比較部８と対話状況推定部９に置き換わっている点が相違している。対話状況モデル７、対話状況モデル比較部８および対話状況推定部９以外の動作は、第１の実施の形態と同様であるため説明を省略し、対話状況モデル７、対話状況モデル比較部８および対話状況推定部９の説明のみを行う。

対話状況モデル７は、様々な対話状況（例えば、“２名の話者が対等に対話している状況”、“１名が主導権を握って、もう１名は相槌ちのみの対話している状況”など）がラベルとして付与された特徴量のモデルである。例えば、以下のようなものが考えられる。

例えば、特徴量F(T)が閾値以下であるというルールに“１名の話者が発話している対話状況”というラベルが付与され、特徴量F(T)が閾値以上であるというルールに“２名の話者が発話している対話状況”というラベルが付与されたモデルが考えられる。

また、例えば、第１の実施の形態における対話状況区切り推定部６で説明したような対話状況クラスタに、ラベルが付与されたモデルが考えられる。

また、例えば、予め対話状況ラベル付き音声信号ストリームから、ラベル毎にヒストグラムを計算し、頻度の高い複数の箇所にラベルが付与されたモデルが考えられる。

その他、時間的に前後の対話状況に依存したラベルが付与されたモデル、上述のようなモデルを与えられた音声信号ストリームに適応したモデルなど、その他にも様々なモデルを利用できる。

対話状況モデル比較部８は、ばらつき度合い抽出部５がばらつき度合いE(T)を求めた後、ばらつき度合いE(T)を特徴量F(T)とし、対話状況モデル７と比較する。対話状況モデル比較部８は、比較結果として、対話状況モデルでラベルとして付与されている各対話状況と各対話状況に対する確率値を出力する。

対話状況推定部９は、対話状況モデル比較部８が出力した比較結果を基に、対話状況を推定する。単純に比較結果において最も高い確率値の対話状況を出力してもよいし、異なる分割ストリームにおける対話状況を考慮して、対話状況モデル比較部８からの比較結果に重み付けして対話状況を推定し、出力してもよい。また、複数の対話状況を確率の高い順に出力してもよい。

本発明の第３の実施の形態の作用効果について説明する。本実施の形態では、第１の実施の形態の対話状況区切り推定部６に代わって、対話状況モデル７と対話状況モデル比較部８と対話状況推定部９を備え、特徴量に対して対話状況を推定するため、複数の話者の音声を含む音声信号ストリームにおける話者間の対話状況を推定できる。

実施の形態４．
次に、本発明の第４の実施の形態を図面を参照して説明する。図５は、本発明の第４の実施の形態に係る対話状況推定システムの構成例を示すブロック図である。図５に示す対話状況推定システムを図４に示した対話状況推定システムと比較すると、図４に示す発話量抽出部４が図５では発話量・話者切替わりパタン抽出部４１となっている点と、図４に示す対話状況モデル比較部８が図５では対話状況モデル比較部８１となっている点のみが相違している。発話量・話者切替わりパタン抽出部４１と対話状況モデル比較部８１以外の動作は第３の実施の形態と同様であるため説明を省略する。また、発話量抽出部４と発話量・話者切替わりパタン抽出部４１の相違点は本発明の第２の実施の形態に係る対話状況区切り推定システムの説明において述べたので、ここでは対話状況モデル比較部８１の説明のみを行う。

対話状況モデル比較部８１は、図４に示す対話状況モデル比較部８が特徴量F(T)として使用した話者間の発話量のばらつき度合いE(T)に加えて、話者切替わりパタンC(T)を特徴量として用い、対話状況モデル７と比較する。すなわち、特徴量ベクトルF(T)=[E(T),C(T)]とする。特徴量以外の対話状況モデル比較方法は対話状況モデル比較部８と同じである。

本発明の第４の実施の形態の作用効果について説明する。本実施の形態では、発話量・話者切替わりパタン抽出部４１が、発話量に加えて話者切替わりパタンを求め、対話状況モデル比較部８１で特徴量に話者切替わりパタンを追加しているため、第３の実施の形態による効果に加えて、より詳細な対話状況を推定することができる。

実施の形態５．
次に、本発明の第５の実施の形態を図面を参照して説明する。図６は、本発明の第５の実施の形態に係る音声信号ストリームクラスタリングシステムの構成例を示すブロック図である。図６に示す音声信号ストリームクラスタリングシステムは、対話状況推定システム１０と、音声信号ストリームクラスタリング部２０とを有する。

対話状況推定システム１０は、前記した本発明の第３または第４の実施の形態の対話状況推定システムを用いて実現される。すなわち、対話状況推定システム１０は、対話状況を推定する。

音声信号ストリームクラスタリング部２０は、対話状況推定システム１０により推定された対話状況を受け、対話状況の遷移の仕方が類似したもの同士に複数の音声信号ストリームをクラスタリングし、音声信号ストリームクラスタ情報を出力する。勿論、長時間の音声信号ストリームを適当に（対話状況の遷移の仕方に応じて）分割し、分割した音声信号ストリームをクラスタリングすることも可能である。

本発明の第５の実施の形態の作用効果について説明する。本実施の形態では、対話状況推定システム１０により推定された対話状況の遷移の仕方を、音声信号ストリームクラスタリング部２０において特徴量として使用し、複数の音声信号ストリームをクラスタリングしているため、対話状況の遷移の仕方が類似したもの同士に複数の音声信号ストリームをクラスタリングすることができる。

実施の形態６．
次に、本発明の第６の実施の形態を図面を参照して説明する。図７は、本発明の第６の実施の形態に係る音声信号ストリーム内容推定システムの構成例を示すブロック図である。図７に示す音声信号ストリーム内容推定システム（入力信号内容推定システム）は、対話状況推定システム１０と、音声信号ストリーム内容モデル３０と、音声信号ストリーム内容モデル比較部４０と、音声信号ストリーム内容推定部５０とを有する。

音声信号ストリーム内容モデル３０は、様々な音声信号ストリーム内容（例えば、“ブレインストーミングの会議”、“提案会議”、“ニュース番組”、“国会中継番組”、“刑事裁判”など）がラベルとして付与されたモデルである。例えば、以下のようなものが考えられる。

例えば、音声信号ストリーム中の最初から最後まで“複数の話者が順番の規則なく対話している状況”が続いているというルールに“ブレインストーミング”というラベルが付与され、音声信号ストリーム中に“１名の話者が話している状況”と“複数の話者が対話している状況”が繰り返されているというルールに“提案会議”というラベルが付与されたモデルが考えられる。

また、例えば、第５の実施の形態で説明した音声信号ストリームクラスタリングシステムにより作成されたクラスタに、ラベルが付与されたモデルが考えられる。

また、例えば、予め音声信号ストリーム内容ラベル付き音声信号ストリームから、ラベル毎に対話状況の遷移の仕方を抽出し、頻度の高い遷移の仕方にラベルが付与されたモデルが考えられる。その他、様々なモデルが利用できる。

音声信号ストリーム内容モデル比較部４０は、対話状況推定システム１０から対話状況を受け、音声信号ストリーム内容モデル３０と比較する。比較結果として、音声信号ストリーム内容モデル３０でラベルとして付与されている各音声信号ストリーム内容と各音声信号ストリーム内容に対する確率値を出力する。なお、対話状況推定システム１０から受ける対話状況としては、確率値付きの複数の対話状況であってもよい。その場合、対話状況の遷移の仕方によって、確率値の低いものから候補を枝狩りして、最終的に残った音声信号ストリーム内容とその音声信号ストリーム内容に対する確率値を出力してもよい。また、長時間の音声信号ストリームを適当に（対話状況の遷移の仕方に応じて）分割し、分割した音声信号ストリームに対して音声信号ストリーム内容に対する確率値を出力してもよいことは勿論である。

音声信号ストリーム内容推定部５０では、音声信号ストリーム内容比較部４０からの比較結果を基に、音声信号ストリーム内容を推定する。単純に比較結果において最も高い確率値の音声信号ストリーム内容を出力してもよいし、複数の音声信号ストリーム内容を確率の高い順に出力してもよい。

本発明の第６の実施の形態の作用効果について説明する。本実施の形態では、対話状況推定システム１０により推定された対話状況の遷移の仕方を、音声信号ストリーム内容モデル比較部４０において音声信号ストリーム内容モデル３０と比較し、その比較結果から音声信号ストリーム内容推定部５０において音声信号ストリーム内容を推定しているため、対話状況の遷移の仕方に応じた音声信号ストリーム内容を推定することができる。

実施の形態７．
次に、本発明の第７の実施の形態を図面を参照して説明する。図８は、本発明の第７の実施の形態に係る音声認識システムの構成例を示すブロック図である。図８に示す音声認識システムは、対話状況推定システム１０と、音響モデル・辞書制御部６０と、音声認識部７０と、辞書８０と、音響モデル９０とを有する。

音響モデル・辞書制御部６０は、対話状況推定システム１０からの対話状況に応じて、音声認識部７０で用いる辞書８０と音響モデル９０とを制御する。

例えば、人が人と対話をしている場合、文法が正しくなく、発話も丁寧ではない、つまり話し言葉を使用する。一方、ニュース番組のアナウンサーなどは文法が正しく、発話が丁寧である。したがって、音響モデル・辞書制御部６０は、対話状況に応じて、話し言葉用の音響モデル、辞書（言語モデルを含む）と、丁寧な読み上げ用音響モデル、辞書（言語モデルを含む）とを切り換えて使用するように制御する。また切り換えるだけでなく、対話状況に応じて、複数の音響モデル、辞書に重みを掛けて同時に使用するように制御する。また、音響モデル、辞書（言語モデルを含む）の片方だけを制御する。また、音声認識における探索範囲を調整するパラメタなどを制御してもよい（対等に複数の話者が対話している状況では探索範囲を広げるように制御するなど）。

本発明の第７の実施の形態の作用効果について説明する。本実施の形態では、対話状況推定システム１０により推定された対話状況に応じて、音声認識部７０で用いる辞書８０と音響モデル９０を制御することにより、より対話状況に合った音声認識処理となるため、より高精度に音声を認識することができる。

実施の形態８．
次に、本発明の第８の実施の形態を図面を参照して説明する。図９は、本発明の第８の実施の形態に係る音声認識結果を利用する音声書き起こしシステムの構成例を示すブロック図である。図９に示す音声書き起こしシステムは、対話状況推定システム１０と、音声認識結果出力制御部１００と、音声認識システム１１０と、音声書き起こし部１２０とを有する。

音声認識結果制御部１００は、対話状況推定システムからの対話状況に応じて、音声認識システム１１０の出力である音声認識結果を制御する。例えば、人が人と対話している状況の音声を認識した場合と、ニュース原稿を読み上げた場合では後者の音声認識率が高いというのが一般的である。音声認識結果を音声書き起こしの際に利用する場合、高精度の音声認識結果では書き起こし効率が向上するが、低精度の音声認識結果では修正が多く必要となるため、書き起こし効率が劣化する場合がある。したがって、音声認識結果制御部１００は、対話状況に応じて、音声認識結果が低精度であるという対話状況では音声認識結果の出力度合いを下げ、音声認識結果が高精度であるという対話状況では音声認識結果の出力度合いを上げるように制御する。

本発明の第８の実施の形態の作用効果について説明する。本実施の形態では、対話状況推定システム１０により推定された対話状況に応じて、音声認識システム１１０の出力結果を音声認識結果出力制御部１００で制御することにより、音声信号ストリームの音声書き起こし効率を向上させることができる。

実施の形態９．
次に、本発明の第９の実施の形態を図面を参照して説明する。図１０は、本発明の第９の実施の形態に係る音声検索システムの構成例を示すブロック図である。本発明の第９の実施の形態は、対話状況推定システム１０と、音声検索結果出力制御部１３０と、音声検索部１４０とを有する。

音声検索結果制御部１３０は、対話状況推定システムからの対話状況に応じて、音声検索部１４０の出力である音声検索結果を制御する。例えば、音声検索結果制御部１３０は、音声信号ストリーム中のある単語が発話された箇所を検索する場合に、対話状況に応じて、検索結果の絞込みをするように制御する。すなわち、音声検索部１４０における複数の検索結果のうち、複数の話者が対等に対話している状況の検索結果のみを出力するように制御する。勿論、その他の対話状況で絞込みをするように制御することも可能である。

本発明の第９の実施の形態の作用効果について説明する。本実施の形態では、対話状況推定システム１０により推定された対話状況に応じて、音声検索部１４０の出力結果を音声検索結果出力部１３０で制御することにより、音声信号ストリームからより柔軟に所望の音声を検索することができる。

実施の形態１０．
次に、本発明の第１０の実施の形態を図面を参照して説明する。図１１は、本発明の第１０の実施の形態に係る音声検索システムの構成例を示すブロック図である。本発明の第１０の実施の形態は、音声信号ストリーム内容推定システム１５０と、音声検索結果出力制御部１６０と、音声検索部１４０とを有する。

音声信号ストリーム内容推定システム１５０は、前記した本発明の第６の実施の形態の音声信号ストリーム内容推定システムを用いて実現される。すなわち、音声信号ストリーム内容推定システム１５０は、音声信号ストリーム内容を推定する。

音声検索結果制御部１６０は、音声信号ストリーム内容推定システム１５０からの音声信号ストリーム内容に応じて、音声検索部１４０の出力である音声検索結果を制御する。例えば、音声信号ストリーム中のある単語が発話された箇所を検索する場合に、音声信号ストリーム内容に応じて、検索結果の絞込みをするように制御する。すなわち、音声検索部１４０における複数の検索結果は、音声信号ストリーム内容が会議の場合の検索結果のみを出力するように制御する。勿論、その他の音声信号ストリーム内容で絞込みをするように制御することも可能である。

本発明の第１０の実施の形態の作用効果について説明する。本実施の形態では、音声信号ストリーム内容推定システム１５０により推定された音声信号ストリーム内容に応じて、音声検索部１４０の出力結果を音声検索結果出力部１６０で制御することにより、音声信号ストリームからより柔軟に所望の音声を検索することができる。特に、複数の音声信号ストリームから所望の音声信号ストリーム内容の所望の音声を検索することができる。

以上、本発明を上記各実施例に即して説明したが、本発明は、上記実施例の構成のみに限定されるものでなく、本発明の原理に準ずる範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

本発明によれば、複数の話者の音声信号が含まれる音声信号ストリームにおける複数の対話状況区切りを推定するといった用途に適用できる。また、複数の話者の音声信号が含まれる音声信号ストリームにおける複数の対話状況を推定するといった用途に適用できる。また、複数の話者の音声信号が含まれる複数の音声信号ストリームをクラスタリングするといった用途に適用できる。また、複数の話者の音声信号が含まれる音声信号ストリームの内容を推定するといった用途に適用できる。

本発明の第１の実施の形態に係る対話状況区切り推定システムの構成例を示すブロック図である。本発明の第１の実施の形態に係る対話状況区切り推定システムにおける処理手順を示す流れ図である。本発明の第２の実施の形態に係る対話状況区切り推定システムの構成例を示すブロック図である。本発明の第３の実施の形態に係る対話状況推定システムの構成例を示すブロック図である。本発明の第４の実施の形態に係る対話状況推定システムの構成例を示すブロック図である。本発明の第５の実施の形態に係る音声信号ストリームクラスタリングシステムの構成例を示すブロック図である。本発明の第６の実施の形態に係る音声信号ストリーム内容推定システムの構成例を示すブロック図である。本発明の第７の実施の形態に係る音声認識システムの構成例を示すブロック図である。本発明の第８の実施の形態に係る音声認識結果を利用する音声書き起こしシステムの構成例を示すブロック図である。本発明の第９の実施の形態に係る音声検索システムの構成例を示すブロック図である。本発明の第１０の実施の形態に係る音声検索システムの構成例を示すブロック図である。

符号の説明

１音声区間検出部
２発話者決定部
３ストリーム分割部
４発話量抽出部
４１発話量、話者切替わりパタン抽出部
５ばらつき度合い抽出部
６対話状況区切り推定部
６１対話状況区切り推定部
７対話状況モデル
８対話状況モデル比較部
８１対話状況モデル比較部
９対話状況推定部
１０対話状況推定システム
２０音声信号ストリームクラスタリング部
３０音声信号ストリーム内容モデル
４０音声信号ストリーム内容モデル比較部
５０音声信号ストリーム内容推定部
６０音響モデル、辞書制御部
７０音声認識部
８０辞書
９０音響モデル
１００音声認識結果出力制御部
１１０音声認識システム
１２０音声書き起こし部
１３０音声検索結果出力制御部
１４０音声検索部
１５０音声信号ストリーム内容推定システム
１６０音声検索結果出力制御部

Claims

複数の話者の音声を含む入力信号における話者間の対話状況の区切りを推定する対話状況区切り推定方法であって、
入力信号中の音声区間を検出する音声区間検出ステップと、
検出した音声区間において発話している話者を特定する発話者特定ステップと、
入力信号を所定の時間窓で区切る分割ステップと、
各音声区間において発話している話者の特定結果に基づいて、前記時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出ステップと、
算出した各話者の発話量に基づいて、前記時間窓で区切った区間毎に、話者間の発話量のばらつき度合いを算出するばらつき度合抽出ステップと、
算出した話者間の発話量のばらつき度合いを特徴量として用いて、異なる時間位置間における当該特徴量の変化量に基づいて、話者間の対話状況の区切りを示す対話状況区切りを推定する対話状況区切り推定ステップと
を含むことを特徴とする対話状況区切り推定方法。
発話量抽出ステップで、分割ステップで時間窓で区切られた区間毎に、発話者決定ステップで決定された各音声区間の発話者に基づいて、各話者の発話量と、話者の切り替わりに関する値を示す話者切替わりパタンとを算出し、
対話状況区切り推定ステップで、ばらつき度合抽出ステップで算出された話者間の発話量のばらつき度合いと前記発話量抽出ステップで算出された話者切替わりパタンとを特徴量として、異なる時間位置間における特徴量の変化に基づいて対話状況区切りを推定する
請求項１記載の対話状況区切り推定方法。
発話量抽出ステップで、話者切替わり回数を含む話者切替わりパタンを算出する請求項２記載の対話状況区切り推定方法。
発話量抽出ステップで、発話回数、平均発話時間および発話時間のうちの少なくとも１つを含む発話量を算出する請求項１から請求項３のうちのいずれか１項に記載の対話状況区切り推定方法。
発話量抽出ステップで、発話回数、平均発話時間および発話時間のうちの少なくとも１つと、他の話者との発話重複回数、他の話者との平均発話重複時間および他の話者との発話重複時間のうちの少なくとも１つとを含む発話量を算出する請求項１から請求項３のうちのいずれか１項に記載の対話状況区切り推定方法。
ばらつき度合抽出ステップで、ばらつき度合を示す指標としてエントロピー、分散、標準偏差および最大値と最小値の差分値のうちの少なくとも１つを含む話者間の発話量のばらつき度合いを算出する請求項１から請求項５のうちのいずれか１項に記載の対話状況区切り推定方法。
対話状況区切り推定ステップで、異なる時間位置間の特徴量の歪としての特徴量の距離を、予め定められた閾値と比較することにより対話状況区切りを推定する請求項１から請求項６のうちのいずれか１項に記載の対話状況区切り推定方法。
対話状況区切り推定ステップで、ばらつき度合抽出ステップで算出された話者間の発話量のばらつき度合いを示す特徴量を、予め定められた複数の対話状況クラスタ、予め定められた複数の対話状況クラスタを入力信号に適応させた対話状況クラスタおよび入力信号から作成された複数の対話状況クラスタのうちの少なくとも１つの対話状況クラスタの特徴量と比較し、最も距離が近い対話状況クラスタの時間遷移に応じて対話状況区切りを推定する請求項１から請求項６のうちのいずれか１項に記載の対話状況区切り推定方法。
複数の話者の音声を含む入力信号における話者間の対話状況を推定する対話状況推定方法であって、
入力信号中の音声区間を検出する音声区間検出ステップと、
検出した音声区間において発話している話者を特定する発話者特定ステップと、
入力信号を所定の時間窓で区切る分割ステップと、
各音声区間において発話している話者の特定結果に基づいて、前記時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出ステップと、
算出した各話者の発話量に基づいて、前記時間窓で区切った区間毎に、話者間の発話量のばらつき度合いを算出するばらつき度合抽出ステップと、
算出した話者間の発話量のばらつき度合いを特徴量として用いて、当該特徴量を、予め記憶する対話状況に対応付けられた特徴量のモデルを示す対話状況モデルと比較する対話状況モデル比較ステップと、
比較した結果に基づいて、時間位置毎の対話状況を推定する対話状況推定ステップと
を含むことを特徴とする対話状況推定方法。
発話量抽出ステップで、分割ステップで時間窓で区切られた区間毎に、発話者決定ステップで決定された各音声区間の発話者に基づいて、各話者の発話量と、話者の切り替わりに関する値を示す話者切替わりパタンとを算出し、
対話状況モデル比較ステップで、ばらつき度合抽出ステップで算出された話者間の発話量のばらつき度合いと前記発話量抽出ステップで算出された話者切替わりパタンとを特徴量として、当該特徴量を対話状況モデルと比較する
請求項９記載の対話状況推定方法。
発話量抽出ステップで、話者切替わり回数を含む話者切替わりパタンを算出する請求項１０記載の対話状況推定方法。
発話量抽出ステップで、発話回数、平均発話時間および発話時間のうちの少なくとも１つを含む発話量を算出する請求項９から請求項１１のうちのいずれか１項に記載の対話状況推定方法。
発話量抽出ステップで、発話回数、平均発話時間および発話時間のうちの少なくとも１つと、他の話者との発話重複回数、他の話者との平均発話重複時間および他の話者との発話重複時間のうちの少なくとも１つとを含む発話量を算出する請求項９から請求項１１のうちのいずれか１項に記載の対話状況推定方法。
ばらつき度合抽出ステップで、ばらつき度合を示す指標としてエントロピー、分散、標準偏差および最大値と最小値の差分値のうちの少なくとも１つを含む話者間の発話量のばらつき度合いを算出する請求項９から請求項１３のうちのいずれか１項に記載の対話状況推定方法。
対話状況モデル比較ステップで、特徴量を、予め対話状況を示す対話状況ラベルが付与されたデータで学習された対話状況モデル、予め作成された規則に対話状況ラベルが付与された対話状況モデル、予め対話状況ラベルが付与されたデータで学習された対話状況モデルを入力信号の対話状況に適応させた対話状況モデルおよび予め作成された規則に対話状況ラベルが付与された対話状況モデルを入力信号の対話状況に適応させた対話状況モデルのうち少なくとも１つの対話状況モデルと比較する請求項９から請求項１４のうちのいずれか１項に記載の対話状況推定方法。
請求項９から請求項１５のうちのいずれか１項に記載の対話状況推定方法によって推定された時間位置毎の対話状況を示す遷移情報を特徴量として、複数の入力信号をクラスタリングするクラスタリングステップを含むことを特徴とする入力信号クラスタリング方法。
請求項９から請求項１５のうちのいずれか１項に記載の対話状況推定方法によって推定された時間位置毎の対話状況の遷移情報を特徴量として、当該特徴量を、予め記憶する入力信号の内容に対応付けられた特徴量のモデルを示す入力信号内容モデルと比較する入力信号内容モデル比較ステップと、
前記入力信号内容モデル比較ステップで比較した結果に基づいて、入力信号の内容を推定する入力信号内容推定ステップと
を含むことを特徴とする入力信号内容推定方法。
入力信号内容モデル比較ステップで、特徴量を、予め入力信号の内容を示す入力信号内容ラベルが付与されたデータで学習された入力信号内容モデルおよび予め作成された規則に入力信号内容ラベルが付与された入力信号内容モデルのうち少なくとも１つの入力信号内容モデルと比較する請求項１７記載の入力信号内容推定方法。
請求項９から請求項１５のうちのいずれか１項に記載の対話状況推定方法によって推定された時間位置毎の対話状況に応じて、音声認識に用いられる音響モデル、言語モデル、辞書および探索範囲を調整するためのパラメタのうち少なくとも１つを制御するステップを含むことを特徴とする音声認識方法。
請求項９から請求項１５のうちのいずれか１項に記載の対話状況推定方法によって推定された時間位置毎の対話状況に応じて、音声認識結果の出力方法を制御するステップを含むことを特徴とする音声認識結果を利用する音声書き起こし方法。
請求項９から請求項１５のうちのいずれか１項に記載の対話状況推定方法によって推定された時間位置毎の対話状況に応じて、音声検索結果の出力方法を制御するステップを含むことを特徴とする音声検索方法。
請求項１７または１８に記載の入力信号内容推定方法によって推定された入力信号内容に応じて、音声検索結果の出力方法を制御するステップを含むことを特徴とする音声検索方法。
複数の話者の音声を含む入力信号における話者間の対話状況の区切りを推定する対話状況区切り推定システムであって、
入力信号中の音声区間を検出する音声区間検出手段と、
前記音声区間検出手段が検出した音声区間において発話している話者を特定する発話者特定手段と、
入力信号を所定の時間窓で区切る分割手段と、
各音声区間において発話している話者の特定結果に基づいて、前記時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出手段と、
前記発話量抽出手段が算出した各話者の発話量に基づいて、前記時間窓で区切った区間毎に、話者間の発話量のばらつき度合いを算出するばらつき度合抽出手段と、
前記ばらつき度合抽出手段が算出した話者間の発話量のばらつき度合いを特徴量として用いて、異なる時間位置間における当該特徴量の変化量に基づいて、話者間の対話状況の区切りを示す対話状況区切りを推定する対話状況区切り推定手段と
を備えたことを特徴とする対話状況区切り推定システム。
複数の話者の音声を含む入力信号における話者間の対話状況を推定する対話状況推定システムであって、
入力信号中の音声区間を検出する音声区間検出手段と、
前記音声区間検出手段が検出した音声区間において発話している話者を特定する発話者特定手段と、
入力信号を所定の時間窓で区切る分割手段と、
各音声区間において発話している話者の特定結果に基づいて、前記時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出手段と、
前記発話量抽出手段が算出した各話者の発話量に基づいて、前記時間窓で区切った区間毎に、話者間の発話量のばらつき度合いを算出するばらつき度合抽出手段と、
前記ばらつき度合抽出手段が算出した話者間の発話量のばらつき度合いを特徴量として用いて、当該特徴量を、予め記憶する対話状況に対応付けられた特徴量のモデルを示す対話状況モデルと比較する対話状況モデル比較手段と、
前記対話状況モデル比較手段が比較した結果に基づいて、時間位置毎の対話状況を推定する対話状況推定手段と
を備えたことを特徴とする対話状況推定システム。
複数の話者の音声を含む入力信号における話者間の対話状況の区切りを推定するための対話状況区切り推定プログラムであって、
コンピュータに、
入力信号中の音声区間を検出する音声区間検出処理と、
検出した音声区間において発話している話者を特定する発話者特定処理と、
入力信号を所定の時間窓で区切る分割処理と、
各音声区間において発話している話者の特定結果に基づいて、前記時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出処理と、
算出した各話者の発話量に基づいて、前記時間窓で区切った区間毎に、話者間の発話量のばらつき度合いを算出するばらつき度合抽出処理と、
算出した話者間の発話量のばらつき度合いを特徴量として用いて、異なる時間位置間における当該特徴量の変化量に基づいて、話者間の対話状況の区切りを示す対話状況区切りを推定する対話状況区切り推定処理と
を実行させるための対話状況区切り推定プログラム。
複数の話者の音声を含む入力信号における話者間の対話状況を推定するための対話状況推定プログラムであって、
コンピュータに、
入力信号中の音声区間を検出する音声区間検出処理と、
検出した音声区間において発話している話者を特定する発話者特定処理と、
入力信号を所定の時間窓で区切る分割処理と、
各音声区間において発話している話者の特定結果に基づいて、前記時間窓で区切った区間毎に、各話者の発話量を算出する発話量抽出処理と、
算出した各話者の発話量に基づいて、前記時間窓で区切った区間毎に、話者間の発話量のばらつき度合いを算出するばらつき度合抽出処理と、
算出した話者間の発話量のばらつき度合いを特徴量として用いて、当該特徴量を、予め記憶する対話状況に対応付けられた特徴量のモデルを示す対話状況モデルと比較する対話状況モデル比較処理と、
比較した結果に基づいて、時間位置毎の対話状況を推定する対話状況推定処理と
を実行させるための対話状況推定プログラム。