JP2000235585A

JP2000235585A - トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム

Info

Publication number: JP2000235585A
Application number: JP11368818A
Authority: JP
Inventors: Lynn D Wilcox; ディーウィルコックスリン; Donald G Kimber; ジーキンバードナルド; Marti A Hearst; エイハーストマーティ; Steven R Harrison; アールハリソンスティーブン; Thomas P Moran; ピーモラントーマス
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1998-12-30
Filing date: 1999-12-27
Publication date: 2000-08-29
Also published as: EP1016985A2; EP1016985A3

Abstract

(57)【要約】【課題】定められたトピックに基づくテキストと音声
のクロスインデックスを実行するシステム及び方法を提
供する。【解決手段】クロスインデックス（相互参照）は、ま
ず関連するテキストを用いてトピックを決定することに
より実行される（ステップ２０６又は２０８）。つづい
て、これらのトピックに対応する音声のセグメントを、
その音声における特定キーワードの発生に基づき検出す
る（ステップ２１０）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、定められたトピッ
クに基づくテキストと音声とのクロスインデックス（相
互参照）のためのシステム及び方法に関し、より詳細に
は、音声記録のセグメントとその記録において論じられ
るテキスト文書の関連部分との関連付けに関する。クロ
スインデックスにおいてはまず、関連するテキスト文書
を用いてトピック及びキーワードを決定する。次に、こ
れらのトピックに対応する音声記録のセグメントを、記
録におけるキーワードの発生に基づいて検索（locate）
する。

【０００２】

【従来の技術】トピックベースのクロスインデックスに
より文書のテキストと関連する音声記録とを関連づける
システム及び方法については、既知の従来技術文献のい
ずれにも開示されていない。

【０００３】

【発明が解決しようとする課題】よって、本発明は、従
来の技術からは得ることのできない効果をもたらす、ト
ピックベースのテキストと音声のクロスインデックスの
新しいシステム及び方法を提供する。

【０００４】

【課題を解決するための手段】本発明によれば、電子的
に保存された少なくとも１つの文書に含まれるテキスト
を、その文書の議題（discussion）に対応する記録音声
に相関させる方法及びシステムが提供される。トピック
ベースのクロスインデックスは、テキストと音声との相
関づけに使用される。

【０００５】本発明の１態様によれば、システムにおい
て実施される方法は、テキストに反映されるトピックを
決定するステップと、テキストに含まれるキーワード及
びキーワードがトピックに属する確率を決定するステッ
プと、前記キーワードと前記確率とに基づきトピックセ
グメンテーションネットワーク（topic segmentationne
twork）を生成するステップと、記録された音声の音響
特性（acoustic characteristics）を前記トピックセグ
メンテーションネットワークに入力するステップと、前
記音響特性が与えられたとして、セグメンテーションネ
ットワークを通過する最尤パス（the most probable pa
th）を決定するステップと、そのパスに基づき前記音声
をトピック単位にセグメント化するステップとを含む。

【０００６】本発明の別の態様によれば、システムにお
いて実施される方法は、テキストに反映されるトピック
を決定するステップと、テキストに含まれるキーワード
及びキーワードがトピックに属する確率を決定するステ
ップと、前記キーワードと前記確率とに基づきトピック
セグメンテーションネットワークを生成するステップ
と、記録された音声の音響特性をキーワードスポッタ
（keyword spotter）に入力して所定の時間間隔内に発
生するキーワードの回数を決定するステップと、前記発
生回数をトピックセグメンテーションネットワークに入
力するステップと、前記観測されたキーワード発生回数
により、セグメンテーションネットワークを通過する最
尤パスを決定するステップと、そのパスに基づき前記音
声をトピック単位にセグメント化するステップとを含
む。

【０００７】本発明のさらなる態様によれば、前記方法
を実施する手段が提供される。

【０００８】

【発明の実施の形態】本発明の好ましい実施形態を例示
する目的で図面が示されるが、本発明はこれらの図面に
限られるものではない。

【０００９】図１に関連し、本発明は、音声Ａのセグメ
ントと関連するテキストＴの部分とのクロスインデック
スＩを作成する方法及びシステムに関する。インデック
ス（索引）作業は、テキストＴと音声Ａとを相関させる
インデックスＩとして機能する媒介トピック集合の決定
により実行される。クロスインデックスＩは、任意の都
合のよい形式にすることができ、本発明では、このクロ
スインデックスは、本発明のシステムと方法の少なくと
もいずれかにより得られるトピックセグメンテーション
情報に基づく。

【００１０】図２は、本発明に係る方法を示すフローチ
ャートである。図示される方法は、システムの初期セッ
トアップ又は初期化に関連し、上述のクロスインデック
スの作成により、電子的に保存された選択テキスト文書
と音声記録とが相関づけられる。もちろん、電子的に保
存されたテキスト文書の議題を組み込んだ音声記録がユ
ーザに利用可能になった後に、この方法を使用してもよ
い。この点に関し、音声記録はディジタルでシステムに
保存してもよいし、システムと通信する周辺装置に保存
してもよい。適当な状況においては、セグメンテーショ
ンモデルを事前に生成し、音声のセグメント化をリアル
タイムで行うことができる。

【００１１】なお、ここで説明する発明のステップ及び
システムの構成要素は、当業者に周知の種々の方法及び
形式で実施可能である。例えば、方法ステップは主とし
て適当なソフトウェアのルーチンにおいて実施されてい
るが、選択されたハードウェアによって実施することも
できる。

【００１２】図２に示されるように、ユーザはシステム
セットアップ（ステップ２０２）を開始することにより
方法２００を始める。次に、関連する電子的に保存され
たテキストを選択する（ステップ２０４）。この時点
で、選択されたテキストに含まれるトピックが決定す
る。この決定は、ユーザが実際に決定を行って、システ
ムに入力してもよいし（ステップ２０６）、既知の方法
を使ってシステムが自動的に決定してもよいし（ステッ
プ２０８）、両者を適当に組み合わせてもよい。

【００１３】ここで、トピックとは主題を分類するため
にテキストの一部分またはスピーチの断片（セグメン
ト）に付与されるラベルである。トピックは対応するテ
キストの部分から抽出されるのが通常であるが、あらか
じめ特定された概念であってもよい。本実施形態では、
トピックはキーワードとその頻度によって表される。た
だし、より複雑な言語モデルでトピックを示すこともで
きる。

【００１４】より特定的には、ユーザがトピックを決定
するステップ２０６に関し、トピックを決定する１つの
方法は、各トピックに対して異なるテキスト文書を指定
する方法である。例えば、会議の録音とその会議中に議
論された文書とのクロスインデックスを作成する場合、
ユーザは、各トピックとして、別々の文書又は好ましく
は電子的に保存されたそのテキストバージョンを適当に
指定することで、トピックを決定する。この実施形態で
は、ユーザはクロスインデックスにより、特定文書につ
いての議論を、録音された会議において、効率よく検索
することができる。

【００１５】ユーザがトピックを決定する別の技術とし
て、サブトピック領域のレベルにセグメント化された１
つ以上のテキスト文書を用いる方法もある。サブトピッ
ク領域は、著者が定めた文書の区分であってもよい。

【００１６】あらかじめ特定された概念によってユーザ
がトピックを決定することもできる。例えば、作成され
て電子的に保存された文書においては、これらの概念
を、「概念１」、「概念２」又は「概念３」などとして
もよい。そして、これらの概念についての議論に応じ
て、会議の録音にインデクシング（索引づけ）すること
ができる。会議が文書によっても索引づけされていれ
ば、例えば「概念１」についての議論を、特定の文書に
おいて見つけることができる。あらかじめ特定された概
念を使用する考え方は、これらの概念がテキストのセク
ションを反映していれば、本発明に効果的に適合する。

【００１７】一方、ステップ２０８によれば、サブトピ
ック領域がシステムによって自動的に決定できる。これ
は、多くの既知技術のいずれによっても実行できるが、
好ましくは、サブトピックの境界を検出し、同一のサブ
トピックを有する領域をマージすることにより実行され
る。こうして、文書の各サブトピックに対応するテキス
トの各部分によってトピックが決定する。例えば、会議
の講演の録音記録と、これに対応する会議書類とのクロ
スインデックスを作成する場合、その書類のセクション
によってトピックが決定できる。作成されたクロスイン
デックスにより、書類を読むユーザは、講演の録音記録
の中から、ある特定セクションの口頭議論を見つけ出す
ことができる。

【００１８】より詳細には、テキスト中のサブトピック
境界は、Hearstによる以下の文献に提案されている「テ
キストタイリング（text tiling）」アルゴリズムによ
って検出される。"Multi-Paragraph Segmentation of E
xpository Texts," UC Berkely Computer Science Tech
nical Report, No. UCB/CSD 94/790, pp. 1-11 ( Janua
ry 1994); "Segmenting Text into Multi-Paragraph Su
btopic Passages", Computational Linguisticis, vol.
23, no. 1, pp. 33-64 (March 1997); and, "Multi-Pa
ragraph Segmentation of Expository Text", Proceedi
ngs of the 32nd Meeting of Association for Computa
tional Linguistics--Las Cruces, N.M., pp. 9-16 (Ju
ne 1994). この技術ではトピックの集合を前もって知る
必要はなく、用語グルーピングパターン（term groupin
g pattens）に基づき境界を推定する。

【００１９】Hearstによる "Multi-Paragraph Segmenta
tion of Expository Text", Proceedings of the 32 nd
Meeting of the Association for Computational Ling
uistics-Las Cruces, N.M., pp. 9-16 (June 1994)に記
載されているように、コアアルゴリズムは、３つの主要
部分、すなわちトークン化（tokenization）、類似性判
定（similarity determination）、境界識別（boundary
identification）を含む。

【００２０】トークン化とは、入力テキストを個々の字
句的（語彙）単位に分割することを意味する。すなわ
ち、テキストを、実際の統語論的に定められたセンテン
ス群ではなく、予め定められた大きさｗ（アルゴリズム
のパラメータ）を有する擬似センテンス（psuedosenten
ces）群に細分化することにより、正規化（normalizati
on）の問題を回避する。以下の説明のために、これらの
トークンの集まりをトークン列（token-sequences）と
呼ぶ。実際には、１トークン列につきｗを２０トークン
に設定するのが、多くのテキストにとって最適である。
形態論的（morphologically）に分析されたトークン
は、それが発生したトークン列の番号と、そのトークン
列におけるそのトークンの発生頻度の記録とともに、テ
ーブルに記憶される。テキスト中の段落の区切り（para
graph breaks）位置も記録される。クローズド・クラス
（Closed-class：閉じたクラス）及び他の極めて頻出す
る単語は分析から省く。

【００２１】トークン化に続く次のステップとして、ト
ークン列のブロックの隣り合うペアを比較して全体的な
字句的類似性を判定する。アルゴリズムの別の重要なパ
ラメータはブロックサイズ（blocksize）、すなわち１
つのブロックにまとめられ、隣接するトークン列グルー
プと比較されるトークン列の数、である。ｋとして示さ
れるこの値は、テキストごとにわずかに異なるが、ヒュ
ーリスティックス（発見的知識）に基づけば、この値は
（トークン列で表される)平均的なパラグラフの長さで
ある。実際には、このｋの値が６であると多くのテキス
トが十分に機能する。実際のパラグラフは、長さが非常
に不規則で比較が不均等になるため、使用されない。

【００２２】類似性の値は、各トークン列ギャップ番号
ごとに計算される。すなわち、（ｉ−ｋ）から（ｉ）ま
でのトークン列群が，（ｉ＋１）から（ｉ＋ｋ＋１）の
トークン列群にいかに類似するかに対応するスコアが、
トークン列ギャップ（ｉ）に付与される。ここで、この
移動ウィンドウアプローチ（moving window approach：
分析対象を示すウインドウを動かしながら分析する方
式）は、各トークン列が（ｋ^*２）回の類似性計算にお
いて現れることを意味する。

【００２３】ブロック間の類似性はコサイン測定（cosi
ne measure）により計算される。これに関し、それぞれ
がｋ個のトークン列を含む２つのテキストブロックｂ₁
とｂ₂が与えられた場合、類似性ｓｉｍは以下のように
なる：

【数１】ここで、ｔはトークン化ステップにおいて登録された全
用語にまたがる範囲であり、ｗ_[t,b1]はブロックｂ₁中
の用語ｔに付与された重みである。アルゴリズムのこの
バージョンにおいては、単語の重みは、単にブロックに
おけるその単語の頻度である。従来は、用語の重み付け
は、その頻度にその逆文書頻度（inversedocument freq
uency）を乗算した結果に従っていた。近年の実験で
は、単なる用語の頻度がより適切なようである。したが
って、２つのブロック間における類似性のスコアが高け
れば、それらブロックには多くの用語が共通して含まれ
る。この式により、０から１まで（０、１を含む）のス
コアが包括的に算出される。

【００２４】これらのスコアは、トークン列番号に対す
る類似性スコアとして座標表示できる。しかしながら、
類似性はブロックｂ₁とｂ₂との間で測定され、ブロック
ｂ₁は（ｉ−ｋ）から（ｉ）までのトークン列の範囲で
あり、ｂ₂は（ｉ＋１）から（ｉ＋ｋ＋１）のトークン
列の範囲であるため、測定値のｘ軸座標は、トークン列
（ｉ）と（ｉ＋１）の間にあたる。そこで、トークン列
番号をｘ軸上に表示するのではなく、トークン列ギャッ
プ（ｉ）を表示する。この表示は平均平滑化（average
smoothing）により平滑化される。実際には、ウィンド
ウサイズ３につき平均平滑化を１ラウンド行うことが、
多くのテキストに好適である。

【００２５】次に、類似性スコアのシーケンスにおける
変化により境界線を決定する。トークン列ギャップ番号
は、その絶対的な類似性スコアによってではなく、その
トークン列ギャップの各側における座標表示（プロッ
ト）の勾配の傾斜に従って順序づけられる。すなわち、
所与のトークン列ギャップ（ｉ）に対し、スコアの値が
増加している限りアルゴリズムはその（ｉ）の左側に位
置するトークン列ギャップのスコアに注目する。左方向
にスコアの値がピークを超えると、そのピークにおける
スコアと(ｉ)におけるスコアとの差を記録する。同じ処
理を（ｉ）の右側に位置するトークン列ギャップに対し
ても、スコアが上昇している限り行う。そして、（ｉ）
の右側におけるピーク値の相対的な高さを、左側におけ
るピーク値の相対的高さに加える。（ピークにおいて発
生するギャップのスコアは、そのいずれも側でもスコア
はこれより高くないのでゼロになる。）次に、トークン
列ギャップの両側に発生する変化の急激さに対応する、
深さスコア（depth score）と呼ぶ、トークンギャップ
の新しいスコアをソート（整列）する。セグメント境界
は、最大対応スコアを有し、必要に応じて実際の段落区
切りの位置に一致するよう調節されたトークン列ギャッ
プに指定される。ここで、極めて近接するセグメント境
界線を指定しないように条件チェックを行う。境界線と
境界線のあいだには少なくとも３つのトークン列が存在
すべきである。これは、多くのテキストが内容のない
（spurious）ヘッダ情報や単一文からなるパラグラフを
含むことを、抑える助けとなる。

【００２６】各パラグラフが潜在的なセグメント境界線
であるので、アルゴリズムはいくつのセグメントを１つ
の文書に割り当てるかを決定しなければならない。文書
のスタイルと長さには何らかの対応がなければならない
ので、絶対的な切断（カットオフ）を行おうとするのは
問題である。特定の谷部の深さに基づくカットオフも同
様に問題がある。

【００２７】境界線の数を決定して、文書のサイズにつ
いてのスケールを指定する技術が知られている。この技
術は、その文書の生成する類似性スコアのパターンの影
響を受け易い。カットオフは、分析されているテキスト
の深さスコアの平均偏差及び標準偏差の関数である。

【００２８】隣接するサブトピックセグメントではトピ
ックが異なるが、実際に同様のトピックを表してるサブ
トピックセグメントもある。したがって、同一トピック
を論じているセグメントをマージする別のステップが要
求される。

【００２９】１つのアプローチとして、各セグメントに
対し、そのセグメントの境界線の識別に最も貢献する重
みを持つ、注目すべき用語（notable term）の集合を決
定する。これらの注目すべき用語にしたがってセグメン
トをクラスター化することができ、クラスター化で近接
することになったセグメントは、ほぼ同一のサブトピッ
クを論じていると仮定される。例えば、周知の階層的集
塊式クラスタリングアルゴリズム（hierarchical agglo
merative clustering algorithm）など、任意の適当な
クラスタリングアルゴリズムを適用できる。このような
アルゴリズムでは、各セグメントはまずそれ自体固有の
クラスタであり、続いて最も近接する２つのクラスタを
マージして新しいクラスタを形成する。任意の２つのク
ラスタ間の最小距離が所定の閾値を超えるまでこのプロ
セスを繰り返す。セグメント間の距離は、Hearstによ
る"Multi-Paragraph Segmentation of Expository Text
s, "UC Berkely Computer Science Technical Report,
No. UCB/CSD 94・790、 pp．1-11 (January 1994)に記載
されるのと同一にすることができる。複数の関連する文
書、すなわち同一の著者によって書かれた複数の文書に
またがって同様にこの分析を行うことができる。必要が
あれば、よりよい結果を得るために相対的用語分布を考
慮することができる。

【００３０】さらに、ユーザ入力とシステムによるトピ
ック決定を組み合わせて実行してもよい。当業者であれ
ば、かかる組み合わせを行うためには上記方法に代わる
適当な方法が要求されることが理解できる。

【００３１】関連するテキストからトピックを抽出した
ら、そのテキスト中のキーワードと、そのキーワードが
特定のトピックに属する確率を計算または判定する（ス
テップ２１０）。ここで、キーワードは好ましくはキー
ワードとトピックのあいだの相互情報（共通情報）を最
大化すべく選択される。これは、周知の技術を使用して
実行できる。あるいは、種々のトピックにおけるキーワ
ードの頻度のばらつきを測定する、周知のカイ二乗統計
量によってキーワードを選択することもできる。いずれ
にせよ、キーワード及びキーワードがトピックに属する
確率は重要な判定材料である。

【００３２】より詳細には、好ましい実施形態において
は、キーワードは、トピックを定義するためのテキスト
を用いて選択される。キーワード選択の基準は、トピッ
クどうしを区別するキーワードを選択することである。
任意の所与のトピック領域に対し、異なる単語の頻度を
計算する。これらの頻度は、トピックｔについての議論
で話されるある観測された単語が、単語ｗである確率ｐ
（ｗ|ｔ）の推定値として使用される。そして、任意の
単語ｗに対し、その単語ｗが話されていると仮定し、所
与のトピックｔが論じられている条件付き確率ｐ（ｔ|
ｗ）をベイズの公式によって計算することができる。こ
の条件付き確率は各単語で異なる。さらに、これらのキ
ーワードは、その発生頻度がトピック間で異なるという
特性を有する。例えば、トピックの識別にとって良好な
キーワードは、ある１つのトピックでは頻繁に発生する
が、他の全てのトピックにおいてはまれにしか発生しな
い、などである。この特性は、トピックの集合Ｔについ
て、最大の相互情報Ｉ（Ｔ；Ｗ）を有するキーワードＷ
を選択することにより認定できる。Ｉ（Ｔ；Ｗ）は、以
下のように定義することができる。

【００３３】

【数２】ここで、Ｐ（ｔ|ｗ）は、キーワードｗが与えられた場
合のトピックｔの条件付き確率である。

【００３４】トピックの識別に適したキーワードの集合
を決定する別の技術は、周知のカイ二乗（χ²）統計量
を使用する技術である。キーワードはあるトピックにお
いては頻繁に発生するが、別のトピックにおいては稀に
しか発生しない。言い換えると、その分布は均一とは大
きくかけ離れている。分布の不均一性の１つの測定法が
カイ二乗統計である。Ｌをトピックの総数とし、ｆ_iを
ある単語がｉ番目のトピックにおいて発生する回数とす
る。この結果、その単語の総発生回数ｆは、次のように
表される。

【００３５】

【数３】その単語が全トピックにわたって均一に分布していれ
ば、各トピックにおいてその単語が発生する予想回数
は、ｆ／Ｌである。カイ二乗統計量は、平均値からの偏
差を表すものであり、以下のように表す。

【００３６】

【数４】よって、最大のχ²値を有する単語をキーワードとして
選択できる。

【００３７】キーワードの選択における別の重要な要因
は、異なる単語をワードスポッタによって認識する際の
正確さである。ワードスポッタが追跡する話（スピー
チ）を構成する情報チャネルのモデル化により、この正
確さを相互情報基準に組み込むことができる。Ｉ（Ｔ；
Ｗ^）（Ｗ^は認識されたキーワード。なお記号「＾」は
Ｗの上に置かれているが、文字コードの都合上、上記の
如く表す）を最大化するキーワードの集合が選択され
る。これには、Ｐ（ｔ|ｗ^）、すなわち単語ｗ^がスポ
ットされた（見つけられた）と仮定した場合のトピック
ｔの確率の推定値が要求される。認識誤差についてのコ
ンフュージョンモデルを使用することにより、この推定
値に近い値を求めることができる。例えば、Ｐ（ｔ|ｗ
＾）は次のように計算できる。

【００３８】

【数５】ここで、ｐ（ｗ|ｗ＾）は、単語ｗ＾が認識されたとし
て単語ｗが話される条件付き確率である。例えば、J. K
upiec, D. Kimber, V. Balasubramanian,Proceedings o
f the ARPA Human Language Technology Workshop (Pla
insboro, New Jersy), pp. 373-377 (March 1994) 参照
のこと。

【００３９】キーワードの選択後、トピックセグメンテ
ーションネットワークが生成される（ステップ２１
２）。トピックセグメンテーションネットワークの生成
は、まず決定された各トピックごとに、キーワードに基
づく隠れマルコフモデルを構成し、次にこれらのモデル
を結合して単一のトピック認識ネットワークを形成する
ことにより行われる。所与のトピックが論じられる順序
及び回数が未知である場合には、トピックモデルをパラ
レル（並行）に組み合わせて全体ネットワークを形成す
る。トピックが論じられる順序に関する制約は、トピッ
クモデルを別の方法で組み合わせることにより組み込む
ことができる。例えば、トピックＴ１，Ｔ２，Ｔ３が逐
次的に論じられることが知られていれば、Ｔ１，Ｔ２，
Ｔ３のモデルをシリアルに組み合わせて全体モデルが生
成される。隠れマルコフモデルをいかにネットワークに
組み合わせるかについての詳細は、当業者に周知であ
る。

【００４０】さらに、ユーザは処理されるオーディオ
（音）を選択しなければならない（ステップ２１４）。
もちろん、この音とは、トピックセグメンテーションプ
ロセスで,、上述のように生成されたトピックセグメン
テーションネットワークにおいて最終処理される音であ
る。

【００４１】ここで、２つのアプローチをトピックセグ
メンテーションに対して実行することができる。図２に
関連して説明する（１段階で実行される）第１のアプロ
ーチでは、トピックセグメンテーションとキーワードス
ポッティング（キーワード検出）が同時に行われる。一
方、図５に関連して以下に説明する別のアプローチで
は、２段階の処理が行われる。まず、例えば単一の隠れ
マルコフモデル認識装置などの利用可能なスピーチ認識
装置により、全トピックに対するキーワードを音声中で
スポット（検出）する。次に、第２の処理により、スポ
ッティングされたキーワードの頻度に基づきトピックを
セグメント化する。

【００４２】一般的に、キーワードスポッティングは多
数の異なる方法で実行できる。第１に、全単語を認識し
てからトピックキーワードのサブセットを識別する大語
彙方式の認識（large vocabulary recognition）、に基
づきキーワードをスポッティングできる。第２に、特別
に設計された認識装置を構成し、隠れマルコフモデルを
キーワード認識装置として用いて、選択されたキーワー
ドのみを検索し、キーワードスポッティングを行っても
よい。それ以外の全キーワードは、フレーズ群からなる
任意のセンテンス又は単語群からなる大きな語彙を認識
する別の隠れマルコフモデル、すなわちガーベージ隠れ
マルコフモデル、により認識される。第２の方法の原理
が図２の実施形態に組み込まれている。

【００４３】再び図２を参照して説明する。１段階のト
ピックセグメンテーションアプローチにおいては、各ト
ピックは、所与のトピックに適当な言語モデルに基づ
き、隠れマルコフモデルに関連づけられる。そして、こ
れらの言語モデルに対応する隠れマルコフモデルをパラ
レルに接続してトピックセグメンテーションネットワー
クを形成する。

【００４４】これは、好ましい実施形態では、図３に示
されるように、トピックモデル１０において、キーワー
ド１，２・・・ｎの集合と、対応するトピック依存確率
を、これに並列された代替（alternate）モデル１２と
共に考慮することにより実現される。キーワードノード
１，２・・・ｎは隠れマルコフ単語モデルである。代替
モデル１２は、起こり得る他の全単語を照合（match）
し、実際にはキーワード以外の全単語に対する大語彙の
認識手段であるといってもよい。各キーワードへの推移
（遷移）確率（transition probabilities）は、トピッ
クｔを与えられた場合のキーワードの確率ｐ（ｗ|ｔ）
に基づいている。

【００４５】上述のように、ステップ２１２において、
トピックセグメンテーションを実行するためのネットワ
ーク１４が図４に示すようにトピックモデル１０から生
成される。セグメンテーションはこのネットワークに周
知のビタビ（Viterbi）アルゴリズムを実行して行われ
る（図２のステップ２１６）。ここで、ユーザによる音
源の選択後に音響特性が入力される（図２のステップ２
１４）。各トピックモデルから出力される推移確率は、
トピック間の見せかけの推移（スプリアス遷移：spurio
us transitions）を防ぐべく極めて小さく選択される。
必要な出力及び推移特性を結合することにより、単一の
代替モデルをネットワークの全トピックモデルで共有で
きる。

【００４６】１段階のセグメンテーションを用いる場
合、音響特性は隠れマルコフモデルの大規模ネットワー
クにより直接トピックに復号化されるため、システムは
話されているキーワードを明確に判断することはない。
すなわち、音の列（sequence of acoustics）がネット
ワークを通過し、ネットワーク全体を通過する最尤パス
（maximum likelihood path）（パスは、状態の列）が
決定される。このパスは、音の列がどのサブトピックネ
ットワークに属するかを示す。もちろん、これが直接、
要求されるトピックセグメンテーションとなる。

【００４７】この実施形態においては、組み立てられた
隠れマルコフモデルのネットワーク上でビタビアルゴリ
ズムは一度だけ実行される。アルゴリズムは、ダイナミ
ックプログラミングを使用し、特徴ベクトルの列が音響
入力にて観察されたと仮定して、セグメンテーションネ
ットワークを通過する最尤パス（すなわち、状態の列）
を算出する。

【００４８】この１段階セグメンテーションの主たる利
点は、全ての情報が単一の最適モデルによって処理され
ることである。これにより、より適当な認識の推定が可
能になる。別の効果として、１段階のセグメンテーショ
ンは、図５に関連して説明するセグメンテーションに要
求されるようなウィンドウの利用を必要としない。

【００４９】上記の情報に基づきセグメンテーションが
完了すると、セグメンテーション情報は所定の方法によ
り図１に示されるクロスインデックスＩを得るための適
当なフォーマットで保存される（ステップ２１８）。図
６に関連して以下に説明するように、ユーザによるシス
テムの使用時にこの情報がシステムによって利用され
る。情報の保存によりこの方法は完了する（ステップ２
２０）。

【００５０】図５に示されるさらなる実施形態において
は、方法５００が実施される。方法２００と同様に、こ
の方法もシステムセットアップの始動（ステップ５０
２）により開始する。続いて、ユーザによってテキスト
が選択される（ステップ５０４）。次に、ユーザによる
トピックの入力（ステップ５０６）、システムによるト
ピックの決定（ステップ５０８）、又はこれらの組み合
わせによりトピックが決定する。次に、キーワードを決
定する（ステップ５１０）。

【００５１】このステップ以降、方法５００は図２に関
連して説明した方法２００とは異なる。より詳細には、
トピックセグメンテーションネットワークは以下のよう
に生成される（ステップ５１２）。ただし、生成された
トピックセグメンテーションネットワークは、ステップ
２１２のネットワークにおける粒状性のレベルを持たな
い。ここで生成されるネットワークは図４のトピックネ
ットワークに類似し、その入力として音響特性（図２に
関して説明したネットワークの場合）ではなく、ワード
カウントベクトルを有する。

【００５２】この２段階セグメンテーションの第１の段
階では、上述のキーワードスポッティング（キーワード
探知）システムによりキーワードの位置及び発生確率を
計算する。ユーザによる音声録音の選択（ステップ５１
４）後、音響特性がワードスポッタに入力されてワード
スポッティングが実行される（ステップ５１６）。本実
施形態における音声中のキーワードスポッティングは、
話者非依存の大語彙方連続音声（スピーチ）認識装置
（large vocabulary speaker independent continuous
speech recognizer）により行われる。このシステム場
合、ＨＴＫ隠れマルコフモデルツールキット（Entropic
s社）などのシステムを使って大語彙連続スピーチ認識
装置をワードスポッタとして構成し、特定されたキーワ
ードを識別できる。更に、キーワードスポッティングの
ために、システムはキーワードが存在する確率を求める
ようにプログラムされている。トピック識別アルゴリズ
ムにおいてこのキーワード確率を使用することにより、
システムがキーワードの位置を特定したときの確実性に
よって、キーワード頻度に重み付けを行うことができ
る。

【００５３】この方法の第２段階はポストプロセッサ
（post-processor）である。ポストプロセッサは、これ
らのキーワードの発生確率及び頻度、ならびにトピック
列及び継続期間についての事前の知識を用いて、各トピ
ックに対応する音声の領域を選択する。この点に関し、
ワードスポッティングの出力及びトピックセグメンテー
ションネットワークが用いられ、トピックをセグメント
化するためのビタビアルゴリズムを含むポストプロセッ
サが実現される（ステップ５１８）。

【００５４】この第２段階処理のため、音声は均等な長
さに分割される。このときインターバルは重複するよう
にする。例えば、インターバルの長さを２０秒にして１
０秒が重なるようにしてもよい。この処理を第１段階の
一部として実行してもよい。当業者であれば、サイレン
ト特性が、選択されたインターバルにおけるキーワード
の発生回数を示す情報を含む、トピックセグメンテーシ
ョンネットワークへの入力を得るためのものだというこ
とが理解できる。

【００５５】選択されたインターバルの間、キーワード
が話される回数がカウントされる。この結果が、ステッ
プ５１８において使用される隠れマルコフモデルの観測
ベクトル(observation vector）として作用するワード
カウントベクトルである。ここで、モデルの各状態は、
選択されたキーワード群の確率分布を有する。

【００５６】次に、各トピックに対し、トピックに属す
るインターバルの尤度（likelihood）を計算する。事前
確率が各トピックで等しいと仮定し、ベイズの法則によ
り、インターバルに対するトピックの確率をトピックの
尤度から計算する。そして、このトピック確率を、その
状態がトピックであるマルコフ列モデル（Markov seque
nce model）において使用する。マルコフ列モデルは、
その状態がトピックでその出力確率がインターバルに対
するトピック確率である隠れマルコフモデルに類似す
る。しかしながら、トレーニングのあいだ状態は隠され
ず、バウム−ウェルチ（Baum-Welch）トレーニングは出
力確率の推定に使用されない。トピック確率とモデルの
推移確率が分かっている場合、最も尤度の高い状態（す
なわちトピック）の列を求めるために、標準的なビタビ
アルゴリズムが使用される。

【００５７】状態間の推移確率は尤度の高い（likely）
トピック列を特定する。一般的には、任意のトピックが
任意の他のトピックに続く。しかしながら、先行情報
（prior infomration）がトピック列を制約する場合も
ある。例えば、会議の議事予定表はトピックが論じられ
る順序を決定する。これを用いてトピックの列を制約す
ることができる（会議が実際にこの議事予定に従うと仮
定した場合）。ある状態における推移確率により、所与
のトピックが論じられる予想時間の長さがモデル化され
る。

【００５８】所定のインターバルにおけるトピックｊに
対する確率ｐ（Ｔ_j）は、以下のように計算される。ま
ず、キーワードｉの事例がそのインターバルにおいて検
出された確率（ワードスポッタによって生成される）を
合計することにより、各キーワードＷ_iに対する重み付
けされた発生回数ｎ_iを計算する。キーワードが確率１
又は０でスポットされる場合は、ｎ_iはキーワードｉが
インターバルにおいてスポットされる回数である。

【００５９】所与のトピックに対して関連するテキスト
データを使用することにより、トピックｊに対するテキ
スト中のキーワードｉの発生回数を用いて確率ｐ（ｗ_i|
Ｔ_j）を推定することができる。この結果、多項モデル
（multinomial model)により、インターバルにおけるト
ピックｊに対する尤度ｌ（Ｔ_j）の対数が以下のように
表される。

【００６０】

【数６】トピックｊの確率ｐ（Ｔ_j）は、以下のように計算され
る。

【００６１】

【数７】２段階セグメンテーションの実施形態は、上記の１段階
アプローチに優る効果を提供する。例えば、２段階技術
は、よりモジュール的（modular）であるので、キーワ
ードスポッティングを様々な方法で実行することがで
き、他のモデルに埋め込まれることにより制限されるこ
とがない。

【００６２】獲得された情報に基づきトピックがセグメ
ント化されると、トピックセグメンテーション情報は図
１のクロスインデックスを得るための適当なフォーマッ
トで保存され（ステップ５２０）、この処理が完了する
（ステップ５２２）。

【００６３】システムが図２または図５のいずれかの方
法でセットアップされ、インデックス又はセグメンテー
ション情報が確立すると、ユーザはシステムにアクセス
して種々の動作を行うことができる。ユーザはテキスト
を指定し、対応する音声を選択的に再生することができ
る。また、ユーザは聞きとる音声を指定して、対応する
テキストを見るかどうかを選択的に決定することもでき
る。さらに、ユーザは、セグメンテーション情報に基づ
き生成されたクロスインデックスまたはトピックインデ
ックスを使用して、トピックを選択し、テキストを見る
かまたは音声を聞くかを判断することができる。

【００６４】以下に説明する図６に示した方法には、種
々のユーザインターフェース問題が含まれる。これらの
問題ならびに既知の解決法が当業者には明らかである。

【００６５】図６に関し、まずシステムの実行モードを
始動する（ステップ６０２）。ユーザがテキスト文書を
選択してるのか、録音音声を選択しているのか、あるい
はトピックインデックスに記載された特定トピックを選
択しているのかをまず判定する（ステップ６０４）。テ
キストが選択されている場合、対象となるテキストを特
定する（ステップ６０６）。そして、ユーザは、対応す
る音声をセッションの間に再生するかどうかを判断する
（ステップ６０８）。

【００６６】ユーザが最初に音声を選択した場合、対象
となる音声記録を特定する（ステップ６１０）。そし
て、ユーザは、セッション中にその音声を聞きながら対
応テキストを見るべきか否かを判断する（ステップ６１
２）。

【００６７】一方、特定のトピックのレビューが求めら
れた場合には、インデックスに基づき対象トピックを特
定する（ステップ６１４）。そしてユーザはテキスト又
は音声を希望するかを決定する（ステップ６１６）。テ
キストを選択した場合、ユーザは対応する音声も再生す
べきかどうかを選択的に決定できる（ステップ６０
８）。音声を選択した場合、ユーザは対応するテキスト
を見るべきかどうかを選択的に決定できる（ステップ６
１２）。続いて、ユーザはそのセッションを終了するか
どうかを決定する（ステップ６１８）。セッションの終
了によりこの処理も完了する（ステップ６２０）。

【００６８】本発明の方法を実施するシステムが図７に
例示されている。すでに述べたように、本発明の実施に
は多くのユーザインターフェース問題が含まれる。従っ
て、これらの問題の解決法に応じてシステムも異なる。

【００６９】図示されるように、例として示すシステム
７００は、テキスト／音声クロスインデックス７０４を
生成するソフトウェアのための記憶領域を有するＣＰＵ
７０２、文書記憶領域７０６、ワードプロセッサ７０８
及び音声記憶領域７１０を含む。テキスト文書入力装置
（例えば、スキャナ、ＯＣＲ装置など）７１２及び手動
入力装置７１４によりシステムに入力が提供される。手
動入力装置には、キーボード、マウス、トラックボー
ル、ジョイスティックなどを含むことができる。ディス
プレイ７１６は一般的にシステムの出力として動作し
（ただし、例えばタッチスクリーンを使用する場合には
入力も提供する）、音声再生録音装置７１８はシステム
への入力を提供するとともに出力装置としても動作す
る。

【図面の簡単な説明】

【図１】トピックベースのクロスインデックスを示す
図である。

【図２】本発明に係る方法を示すフローチャートであ
る。

【図３】キーワードトピックモデルための隠れマルコ
フモデルを示す図である。

【図４】トピックセグメンテーションネットワークを
示す図である。

【図５】本発明に係る別の方法を示すフローチャート
である。

【図６】本発明に係る別の方法を示すフローチャート
である。

【図７】本発明に係る例示的なシステムを示す図であ
る。

【符号の説明】

７００システム、７０２ＣＰＵ、７０４テキスト
／音声クロスインデックス生成ソフトウェア、７０６
文書記憶領域、７０８ワードプロセッサ、７１０音
声記憶領域、７１２テキスト文書入力装置、７１４
手動入力装置、７１６ディスプレイ、７１８音声再
生／録音装置。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ドナルドジーキンバーアメリカ合衆国カリフォルニア州マウンテンビューヴィクターストリート 678 ＃３ (72)発明者マーティエイハーストアメリカ合衆国カリフォルニア州ケンジントンベロワアベニュー 434 (72)発明者スティーブンアールハリソンアメリカ合衆国カリフォルニア州ポートラバレーラッセルアベニュー 134 (72)発明者トーマスピーモランアメリカ合衆国カリフォルニア州パロアルトグリーンウッドアベニュー 1037

Claims

【特許請求の範囲】

【請求項１】電子的に保存された少なくとも１つの文
書に含まれるテキストと、前記少なくとも１つの文書の
議題に対応する記録音声とを相関させる方法であって、前記テキストに反映されたトピックを決定するステップ
と、前記テキストに含まれるキーワード、及びそのキーワー
ドがトピックに属する確率を決定するステップと、前記キーワードとその確率とに基づき、トピックセグメ
ンテーションネットワークを生成するステップと、前記記録音声の音響特性を前記トピックセグメンテーシ
ョンネットワークに入力するステップと、前記音響特性が与えられた場合の、前記ネットワークを
通過する最尤パスを決定するステップと、前記最尤パスの決定に基づき前記記録音声をトピック単
位にセグメント化するステップと、を含む方法。
【請求項２】電子的に保存された少なくとも１つの文
書に含まれるテキストと、前記少なくとも１つの文書の
議題に対応する記録音声とを相関させる方法であって、前記テキストに反映されたトピックを決定するステップ
と、前記テキストに含まれるキーワード、及びそのキーワー
ドがトピックに属する確率を決定するステップと、前記キーワードと確率とに基づきトピックセグメンテー
ションネットワークを生成するステップと、前記記録音声の音響特性をキーワードスポッタに入力し
てキーワードをスポッティングするステップと、所定の時間間隔におけるキーワードの発生回数を決定す
るステップと、前記トピックの発生回数をトピックセグメンテーション
ネットワークに入力するステップと、前記音響特性が与えられた場合の、前記ネットワークを
通過する最尤パスを決定するステップと、前記最尤パスの決定に基づき前記記録音声をトピック単
位にセグメント化するステップと、を含む方法。
【請求項３】電子的に保存された少なくとも１つの文
書に含まれるテキストと、前記少なくとも１つの文書の
議題に対応する記録音声とを相関させるシステムであっ
て、前記テキストに反映されたトピックを決定する手段と、前記テキストに含まれるキーワード、及びキーワードが
トピックに属する確率を決定する手段と、前記キーワードと前記確率とに基づきトピックセグメン
テーションネットワークを生成する手段と、前記記録音声の音響特性に基づくデータを前記トピック
セグメンテーションネットワークに入力する手段と、前記音響特性が与えられた場合の、前記ネットワークを
通過する最尤パスを決定する手段と、前記最尤パスの決定に基づき前記記録音声をトピック単
位にセグメント化する手段とを含むシステム。