JP2004326404A

JP2004326404A - インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム

Info

Publication number: JP2004326404A
Application number: JP2003119738A
Authority: JP
Inventors: Satoshi Nakazawa; 聡中澤; Kenji Sato; 研治佐藤; Naohiro Takeda; 直博竹田; Makoto Iwata; 真琴岩田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2003-04-24
Filing date: 2003-04-24
Publication date: 2004-11-18
Anticipated expiration: 2023-04-24
Also published as: JP3938096B2

Abstract

【課題】音声認識結果にのみ依存しないマッチングを実施し、また、対応をとるビデオや音声クリップのインデックス作成作業を軽減する。
【解決手段】マルチメディアデータ入力装置１１がマルチメディアデータを受け付け、音声認識装置１２がオーディオトラックに対して音声認識を実行し、音声認識テキスト構造解析部１３が音声認識テキストに対して構造解析を実行し、関連資料入力装置１４が関連資料の入力し、関連資料構造解析部１５が関連資料の構造解析を行い、マッチング処理部１６が構造解析を利用して音声認識テキストと関連資料とのマッチングを行い、マッチングルールデータベース１７が入力や構造解析状況に応じたマッチングの組合せや手順を規定する規則を格納し、インデックス作成部１８がマッチングの結果に従ってインデックスを作成し、インデックス出力装置１９が作成されたインデックスを出力する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、ビデオデータやオーディオデータのようなマルチメディアデータ、その関連資料を入力し、検索・再生用のインデックスを作成するインデックス作成装置、インデックス作成方法、および、インデックス作成プログラムに関し、特に、入力されたマルチメディアデータに音声認識をかけて得られた音声認識テキストと入力された関連資料とをそれぞれ構造解析してマッチングを取ることにより、インデックスを作成するインデックス作成装置、インデックス作成方法、および、インデックス作成プログラムに関する。
【０００２】
【従来の技術】
映画やＴＶ（テレビジョン）番組の映像記録、大学の講義等の映像や音声記録、会議の映像記録などのマルチメディアデータを視聴者が利用する際、それらのマルチメディアデータに発話内容などに即した詳細なインデックスが付与されていることが望ましい。詳細なインデックスが存在すれば、視聴者はそれを利用して内容検索や、頭出し、必要な箇所のみの再生といったことが可能になる。
【０００３】
特許文献１では、このような詳細なインデックスを作成するため、ビデオや音声クリップに音声認識を行って、音声認識テキストを作成し、それと元のビデオや音声クリップの書き起こしとのマッチングを取るという手法が公開されている。音声認識テキストには、一般に認識誤りが含まれているが、元のマルチメディアデータの中で、認識された各単語がどの瞬間に発言されたかを示す時間情報は自動的に付与することができる。よって、時間情報付きの音声認識テキストと、別途作成された正確な書き起こしとのマッチングを取ることができれば、結果として時間情報付きの書き起こしが得られる。それはすなわち、書き起こし中の各発話や単語が元のマルチメディアデータ中のどこにあたるかを示すインデックスが自動的に作成できるということになる。
【０００４】
【特許文献１】
特開平７−１９９３７９号公報
【０００５】
【発明が解決しようとする課題】
前述のように、マルチメディアデータには、その内容に即したいわば詳細な目次のようなインデックスが付与されていることが望ましい。そうしたインデックスがどの程度まで詳しく作られているかによって、そのマルチメディアデータの検索性や、再生時の利便性は大きく異なってくる。
【０００６】
一方、マルチメディアデータには、書き起こしや議事録、シナリオ、講演用原稿、プレゼンテーション資料、参考図書、関連ウェブページなどのような関連資料がしばしば存在する。これらには、元のマルチメディアデータの内容を示すテキストが含まれており、インデックスとして活用することができる。しかし、マルチメディアデータとこれらの関連資料は通常、個別に作成されるものであり、どの関連資料とどのマルチメディアデータが対応するかは記録されていても、関連資料中の各部分が、マルチメディアデータ中のどの部分に対応するかまでは分からないことが多い。よって例えば、キーワード検索によりある議事録中のある発言を検索して、特定の一本のビデオが目的のものだと分かったとしても、必要な発言の部分が、そのビデオ中のどこにあるのか見るためには、ビデオを先頭から順に調べていくなどの作業が必要になる。
【０００７】
人手で、マルチメディアデータとその関連資料を内容に至るまで対応づけることはできる。一旦対応付けが完了すれば、それはマルチメディアデータの詳細なインデックスとして機能し、関連資料を介して、マルチメディアデータに対するキーワード検索や、指定した箇所のみの再生などが可能となる。しかし、人手で対応付けをとるには、大きな労力が必要となる。
【０００８】
また、特許文献１では、ビデオや音声クリップの音声認識テキストと書き起こしとのマッチングを自動的に取ることができる。しかし、この技術には以下に挙げる３つの問題がある。
【０００９】
第１の問題は、書き起こしが発話者の発話を正確に記録したものであり、余計なテキストが含まれていてはならない、ということである。一般に、シナリオや講演原稿などの書き起こしには、注釈やナレーションなどのような発話以外のテキストが含まれているが、特許文献１ではこのようなテキストが存在するとマッチング精度が悪化する。
【００１０】
第２の問題は、対応をとるビデオや音声クリップ全体の書き起こしを作成しなければならない、という点である。たとえインデックスが必要になる部分が、ビデオや音声クリップの一部だけであっても、マッチングを取るためには全体の書き起こしを作成しなければならない。またプレゼンテーション資料のような、内容が共通してはいるが正確な書き起こしでないテキストともマッチングできない。
【００１１】
第３の問題は、マッチングが音声認識結果にのみ依存しているという点である。マッチングを正確に取るためには、音声認識精度が良くなければならない。
【００１２】
本発明の目的は、このような問題点を解消するためになされたものであり、入力されたマルチメディアデータに音声認識をかけて得られたテキストと、関連資料をそれぞれ別途に構造解析し、得られた構造情報を利用して音声認識テキストと関連資料とのマッチングをとり、元のマルチメディアデータのインデックスとするインデックス作成装置、方法、および、プログラムを提供することである。
【００１３】
【課題を解決するための手段】
本発明の第１のインデックス作成装置は、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識手段と、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析手段と、前記音声認識手段からの音声認識テキスト、および、前記関連資料構造解析手段からの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成手段と、を有することを特徴とする。
【００１４】
本発明の第２のインデックス作成装置は、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識手段と、前記音声認識手段からの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析手段と、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析手段と、前記音声認識テキスト構造解析手段からの音声認識テキスト構造情報、および、関連資料構造解析手段からの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成手段と、を有することを特徴とする。
【００１５】
本発明の第３のインデックス作成装置は、前記第１、または、第２のインデックス作成装置であって、前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成手段を有することを特徴とする。
【００１６】
本発明の第４のインデックス作成装置は、前記第１、第２、または、第３のインデックス作成装置であって、前記インデックス出力手段からのインデックスを編集するインデックス編集手段を有することを特徴とする。
【００１７】
本発明の第５のインデックス作成装置は、前記第４のインデックス作成装置であって、利用者により指定された箇所または内容を出力する前記インデックス編集手段と、前記インデックス編集手段からの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整手段と、前記マッチング範囲・条件調整手段からの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成手段とを有することを特徴とする。
【００１８】
本発明の第６のインデックス作成装置は、前記第５のインデックス作成装置であって、再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成手段を有することを特徴とする。
【００１９】
本発明の第７のインデックス作成装置は、前記第１、第２、第３、第４、第５、または、第６のインデックス作成装置であって、前記インデックス作成手段が、前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用することを特徴とする。
【００２０】
本発明の第１のインデックス作成方法は、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識ステップからの音声認識テキスト、および、前記関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、含むことを特徴とする。
【００２１】
本発明の第２のインデックス作成方法は、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記音声認識ステップからの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識テキスト構造解析ステップからの音声認識テキスト構造情報、および、関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、を含むことを特徴とする。
【００２２】
本発明の第３のインデックス作成方法は、前記第１、または、第２のインデックス作成方法であって、前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成ステップを含むことを特徴とする。
【００２３】
本発明の第４のインデックス作成方法は、前記第１、第２、または、第３のインデックス作成方法であって、前記インデックス作成ステップからのインデックスを編集するインデックス編集ステップを含むことを特徴とする。
【００２４】
本発明の第５のインデックス作成方法は、前記第４のインデックス作成方法であって、利用者により指定された箇所または内容を出力する前記インデックス編集ステップと、前記インデックス編集ステップからの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整ステップと、前記マッチング範囲・条件調整ステップからの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成ステップとを含むことを特徴とする。
【００２５】
本発明の第６のインデックス作成方法は、前記第５のインデックス作成方法であって、再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成ステップを含むことを特徴とする。
【００２６】
本発明の第７のインデックス作成方法は、前記第１、第２、第３、第４、第５、または、第６のインデックス作成方法であって、前記インデックス作成ステップが、前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用することを特徴とする。
【００２７】
本発明の第１のインデックス作成プログラムは、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識ステップからの音声認識テキスト、および、前記関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、をコンピュータに実行させることを特徴とする。
【００２８】
本発明の第２のインデックス作成プログラムは、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記音声認識ステップからの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識テキスト構造解析ステップからの音声認識テキスト構造情報、および、関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、をコンピュータに実行させることを特徴とする。
【００２９】
本発明の第３のインデックス作成プログラムは、前記第１、または、第２のインデックス作成プログラムであって、前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成ステップをコンピュータに実行させることを特徴とする。
【００３０】
本発明の第４のインデックス作成プログラムは、前記第１、第２、または、第３のインデックス作成プログラムであって、前記インデックス作成ステップからのインデックスを編集するインデックス編集ステップをコンピュータに実行させることを特徴とする。
【００３１】
本発明の第５のインデックス作成プログラムは、前記第４のインデックス作成プログラムであって、利用者により指定された箇所または内容を出力する前記インデックス編集ステップと、前記インデックス編集ステップからの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整ステップと、前記マッチング範囲・条件調整ステップからの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成ステップとをコンピュータに実行させることを特徴とする。
【００３２】
本発明の第６のインデックス作成プログラムは、前記第５のインデックス作成プログラムであって、再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成ステップをコンピュータに実行させることを特徴とする。
【００３３】
本発明の第７のインデックス作成プログラムは、前記第１、第２、第３、第４、第５、または、第６のインデックス作成プログラムであって、前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用する前記インデックス作成ステップをコンピュータに実行させることを特徴とする。
【００３４】
【発明の実施の形態】
本発明の第１の実施の形態について図面を参照して詳細に説明する。
【００３５】
図１は、本発明の第１の実施の形態のインデックス作成装置の構成を示すブロック図である。
【００３６】
図１を参照すると、本発明の第１の実施の形態は、ビデオテープや音楽テープ、あるいはデジタル情報として記録されたＭＰＥＧファイル等のマルチメディアデータを受け付けるマルチメディアデータ入力装置１１と、入力されたマルチメディアデータのオーディオトラックに対して音声認識を実行する音声認識装置１２と、音声認識テキストに対して構造解析を実行する音声認識テキスト構造解析部１３と、マルチメディアデータの関連資料の入口となる関連資料入力装置１４と、入力された関連資料の構造解析を行う関連資料構造解析部１５と、構造解析を利用して音声認識テキストと関連資料とのマッチングを行うマッチング処理部１６と、入力や構造解析状況に応じたマッチングの組合せや手順を規定する規則を格納するマッチングルールデータベース１７と、マッチングの結果に従ってインデックスを作成するインデックス作成部１８と、作成されたインデックスを出力するインデックス出力装置１９とから構成される。
【００３７】
マルチメディアデータ入力装置１１は、ビデオテープや音楽テープ、または、ＤＶＤ（デジタルビデオディスク）、ハードディスク等に記録されているデジタルデータ、あるいはネットワークを通して配信されるデジタルデータなど、本発明の利用者が選択した媒体・形式のマルチメディアデータを受け取り、入力とする。ついで、必要ならば入力されたマルチメディアデータの信号トラックごとに、以後の処理に適したデータ形式に変換する。
【００３８】
音声認識装置１２は、マルチメディアデータ入力装置１１が受理し、必要に応じてデータ形式変換を行った、入力データから、音声が含まれているオーディオトラックを選択し、それに対して音声認識を実行する。ステレオ録音などで、音声が含まれているオーディオトラックが複数存在する場合には、信号対雑音比が一番いいトラックなどの基準で、そのどれかを選択し、それに対して音声認識を実行する。あるいは、複数のオーディオトラックをマージして、それに対して音声認識を実行する方法も考えられる。どの方法をとるかは、あらかじめ入力の種類毎に判定規則を定めておくか、発明の利用者に選択させる。音声認識結果のテキストには、単語などの任意の単位毎に、その文字列単位が音声認識された時間情報も付与する。例えば、入力されたビデオの先頭から数えて３９０秒目と３９１秒目の間に「今日は」という単語が認識されたとき、「今日は」という単語と開始時間３９０秒、終了時間３９１秒、という時間情報を組にして取り扱う。また必要ならば、音声認識された単語に品詞などの言語情報も付与する。オーディオトラックの音響的特徴から話者を判定する話者判定技術を用いて、どの発話からどの発話までが同じ話者なのかを示す話者情報を付与しても良い。付与された情報は、音声認識テキスト構造解析部１３で、音声認識テキストの構造解析をするための手がかりの１つとして用いられる。さらに、音声認識テキストとしては、音声認識の一位候補だけでなく、ワードグラフのような複数の認識候補を持つ形式で出力しても良い。なお、ここでは音声認識テキストに時間情報を付与すると書いているが、この時間情報の記述の仕方は、必ずしももとのマルチメディアデータの先頭から数えて何秒目といった、直接的な時間表現でなくて構わない。もとのマルチメディアデータの何フレーム目、データストリームの何バイト目などのように、音声認識された単語と、もとのマルチメディアデータ中の位置が対応付けできる情報であるのならば、それでよい。
【００３９】
音声認識テキスト構造解析部１３は、音声認識装置１２が作成した音声認識テキストの構造解析を行う。音声認識テキストは、そのままでは何の構造も持たない単なる単語列である。予め用意された言語知識や認定規則を利用することで、そこから文法的なまとまりや意味的なまとまり、それらの区切りとなる箇所などの構造を抽出することができる。
【００４０】
図２は、抽出されうる構造とそれを判定するための手がかりとなる情報の例を示す説明図である。
【００４１】
図２を参照すると、文は連続した発話中において、文法的あるいは意味的にまとまった最小の単位である。これを判定する基準としては、発話間のポーズ長や、単語間の連続出現頻度関係を表すバイグラムやトライグラムなどの統計的言語情報、さらに文末や文頭によく見られる特徴的な表現や、文法規則などがある。トピックは大きな話題のまとまりであり、ポーズ長や、使用される単語の出現傾向を表す単語頻度ベクトル、話題の切り替わりや終わりを示す特徴的な手がかり表現、談話構造等から判定される。サブトピックはトピックのように話題が切り替わるわけではないが、その発話部分を仮に書き言葉に直したとき、改行や、段落分け、箇条書き、注釈書き、などの手法によって表記上区分けされうるようなまとまりである。
【００４２】
例えば「第１の問題点は〜」「第２の問題点は〜」のような発話から得られた認識単語列は、繰り返される特徴的な手がかり表現によって、サブトピックの箇条書き表現であると判定される。発話間に大きなポーズがあるところは、段落間の区切りであり得る。「ここでＦＴＬと述べましたがこれはＦａｓｔｅｒＴｈａｎＬｉｇｈｔすなわち超光速の意味ですが〜」のような発話は、特徴的なパターン表現「〜は〜すなわち〜の意味」を調べることで、注釈となりうる箇所であると判断される。音声認識テキストからは、こうした図２で挙げたような構造が、始点と終点がはっきりした区間として抽出される場合と、一方の端がはっきりしない区切り点として抽出される場合がある。
【００４３】
また、音声認識装置１２において、音声認識テキストにどの発話からどの発話までが同じ話者なのかを示す話者情報が付与されている場合には、この話者情報も構造情報の一種として取り扱う。図２に挙げられているのは、音声認識テキストから抽出される構造の例であり、本発明を実施する際の目的や用途、入力の種類によって、適宜変更して構わない。また、同じ音声認識単語列は構造の種類が異なれば、複数の構造に属して構わない。例えば、ある単語からある単語までの音声認識単語列は、文であると同時に、あるサブトピックの終端であり、さらにあるトピックの一部であってよい。ただし、同時に複数の文に属することはないし、同時に複数のトピックに属することもない。これは同じ種類の構造で、重なる部分があると、後にマッチング処理部１６で対応をとるときに、１体１のマッチングがとれなくなるためである。
【００４４】
音声認識テキストの構造解析の手順としては、まず単語間のポーズ長や、単語頻度ベクトルなど、構造解析に必要な情報を計算し、ついで得られた情報をもとに、予め用意された言語知識や認定規則に従って、構造解析を行う。
【００４５】
関連資料入力装置１４は、マルチメディアデータ入力装置１１に入力されたマルチメディアデータの書き起こしや議事録、シナリオ、講演用原稿、プレゼンテーション資料、参考図書などのような関連資料を入力として受け取り、その種類やファイル形式を判定して、必要なら後の処理に都合のいい形式にデータ変換する。
【００４６】
関連資料構造解析部１５は、入力された関連資料からテキストデータを抽出し、その構造解析を行う。関連資料から解析できる構造情報は、抽出したテキスト本文を言語解析することで得られる情報と、テキストの書式情報、そして、関連資料のファイル中に各ファイル形式に応じたタグとして埋め込まれた情報とに、大きく分けられる。
【００４７】
図３は、関連資料から抽出できる構造と、その手がかりとなる情報、対象となる関連資料の種類との例を示す説明図である。
【００４８】
文やサブトピック、トピックは音声認識テキストの解析で得られる構造と同等のもので、テキスト本文の言語解析によって得られることから、関連資料の種類によらない。前半、後半や第１幕、第２幕などの区切り、話者、章・節などの章立ては、テキスト中に特定の形式で書かれた書式から判定できる。箇条書き、注釈といった情報は、テキストの書式から判定できる場合と、関連資料のファイル中にテキストとは別のタグ情報として記述されている場合とがある。スライド、図表なども関連資料のファイル中のタグ情報から読みとる。図表は、厳密にはテキストの構造情報ではないが、音声認識テキストとのマッチングを取る際に利用できることから、構造情報の１つとして含めても良い。図３に挙げられているのは、関連資料から抽出される構造の例であり、本発明を実施する際の目的や用途、関連資料の種類によって、適宜変更して構わない。また、関連資料から抽出したテキストは複数の構造に属して構わない。例えば、テキスト中のある箇所は、文であると同時に、箇条書きの１つであり、さらにあるトピックの一部であってよい。
【００４９】
マッチング処理部１６は、音声認識テキストとその構造情報、関連資料から抽出したテキストとその構造情報を読み込み、それらの構造情報を利用して音声認識テキストと関連資料から抽出したテキストのマッチングを取る。一般にマッチングでは、様々なマッチングの組合せに対して、それぞれ何らかの得点が計算できるような評価関数を定義し、その評価関数の出力値が（要する計算時間や計算機資源などの条件が合理的な範囲内で）最大となるような組合せを求める手法が用いられる。本発明では、マッチングを取る２種類のテキストそれぞれの構造情報を利用することで、４つの利点が得られる。１つ目の利点は、場合によってはマッチングが分割可能であるという点である。
【００５０】
例えば、ある会議の音声認識テキストが大きく２つの話題に分けられており、会議の議事録も書式から前半、後半に分けられていることが解析されたときは、前半同士、後半同士のマッチングをそれぞれ独立に行い、最後にそれらの結果をまとめればよい。最適マッチングを求めるための評価関数の計算も、一度に全体のマッチングを取る場合に比べて、部分毎に分けて計算した方が一般には容易になる。２つ目の利点は、マッチングを段階的に取ることが可能であるという点である。最初に大まかな構造同士でマッチングを取り、その後でマッチングした各構造の中でそれぞれ詳細なマッチングを取るという手順を踏めば、やはり最適マッチングを求めるための得点計算が容易になり、また結果として作成されるインデックスも構造に応じた階層的なものが得られる。
【００５１】
３つ目の利点は、構造情報無しにマッチングをとる場合に比べて、各構造の対応や境界に関する制約をもうけることが可能であるため、境界付近のマッチング精度が向上するという点である。例えば、音声認識テキスト中にサブトピックが一定数連続して存在し、関連資料テキストにも同じ数だけ箇条書きが存在すれば、それらがそれぞれ対応するマッチングの組合せに得点を与える、という規則が設定してあれば、双方のテキストに局所的に、対応関係を示す手がかりとなるような共通する単語が含まれていない場合であっても、対応がとれ、各個条書きの終端を、音声認識テキストの各サブトピックの終端に合わせることができる。４つ目の利点は、関連資料から抽出したテキストがもとのマルチメディアデータと内容的に完全に一致しなくても構わない、という点である。
【００５２】
すなわち、関連資料に、もとのマルチメディアデータとは別の内容のテキストが一部含まれていても良いし、またマルチメディアデータだけに存在して関連資料には該当箇所がない場合も許容する。共通する単語などのマッチングの手がかりが一定以下の場合には、その構造をマッチング対象から除外するなどの規則により、これが可能となる。またドラマ映像と台本とのマッチングで、台本中のト書きなどは、映像中に話されることがないため、台本の構造解析後にマッチング対象から完全に除外する、といった場合もあり得る。
【００５３】
マッチングルールデータベース１７では、これらの利点を踏まえた上で、実際に本発明を実施する際の目的や用途、入力の種類などに応じて設定されたマッチングルールを、予め格納しておく。マッチングルールには、構造同士の可能な対応関係と、構造の境界に関する条件を定めたものと、可能なマッチングの組合せに対する評価関数の計算法を規定するもの、マッチングを部分的、段階的、あるいはその組合せで行う場合の計算順序を定めたものなどがある。また規則中のいくつかの条件や、得点計算法などは、入力等に応じてマッチングの得点や手順を変更するためのパラメータを持っていてもよい。
【００５４】
マッチング処理部１６は、入力に応じて使用するマッチングルールを判定し、マッチングルールデータベース１７から読み込む。さらに、入力や予め利用者が規定した手順に従ってパラメータを調整する。あとは読み込んだマッチングルールに従って、評価関数の出力値が（要する計算時間や計算機資源などの条件が合理的な範囲内で）最大となるような、音声認識テキストと関連資料から抽出したテキストとの最適マッチングを求める。具体的なマッチングの手順も、読み込んだマッチングルールから決定するので、同時に使用されうるマッチングルールに曖昧性や矛盾が生じないよう、予めマッチングルールを作成しておかなければならない。必要ならマッチングルール間に優先順位を定めておいても良い。
【００５５】
インデックス作成部１８は、マッチング処理部１６で求められた最適マッチングの結果を受け取り、それに基づいて、本発明を実施する際の目的や用途に応じたインデックスを作成する。マッチング結果には、関連資料構造解析部１５において、関連資料から抽出されたテキストデータや構造情報が、入力されたマルチメディアデータのどの部分に対応するかを示す時間情報が含まれている。その全てをインデックスとしても良いし、必要のない箇所や細かな部分を省いても良い。インデックスのデータ構造としても、インデックスをマルチメディアデータのキーワード検索用に用いるのか、頭出しなどの特殊再生用に用いるのか、などで効率のよいデータ構造が異なってくる。実際に本発明を実施する際のインデックスの使用目的・用途に応じたデータ構造を用いればよい。
【００５６】
インデックス出力装置１９は、インデックス作成部１８が作成したインデックスを出力する。出力先としては、マルチメディアデータを管理・蓄積するデータベースや、本発明で作成されたインデックスを利用してマルチメディアデータを再生する再生装置など、様々な相手が考えられる。本発明を実施する際の目的・用途に応じた形態で、インデックスを出力すればよい。
【００５７】
なお、本実施の形態では、マルチメディアデータ入力装置１１、音声認識装置１２、音声認識テキスト構造解析部１３、関連資料入力装置１４、関連資料構造解析部１５、マッチング処理部１６、マッチングルールデータベース１７、インデックス作成部１８、インデックス出力装置１９は、各部の機能を制御するプログラムとして、ＣＤ−ＲＯＭやフロッピーディスク（登録商標）などの機械読み取り可能な記録媒体に格納して提供され、計算機（コンピュータ）等に読み込まれて実行されるものとしても良い。
【００５８】
次に、本発明の第１の実施の形態のインデックス作成装置における動作について説明する。
【００５９】
図４は、本発明の第１の実施の形態の音声認識テキスト構造解析の動作を示すフローチャートである。
【００６０】
図５は、本発明の第１の実施の形態の関連資料構造解析動作を示すフローチャートである。
【００６１】
図６は、本発明の第１の実施の形態のマッチング動作を示すフローチャートである。
【００６２】
音声認識テキスト構造解析動作と、関連資料構造解析動作は、どちらが先に実行されても良いし、この２つの動作が並列に実行されても良い。一方、マッチング動作は、音声認識テキスト構造解析動作と、関連資料構造解析動作がともに終了した後で、実行される。マッチング動作の終了を持って、本発明の第１の実施の形態のインデックス作成装置における動作全体の終了となる。
【００６３】
以下、図４から図６のフローチャートに従って、各動作の詳細を説明する。
【００６４】
本発明の第１の実施の形態の音声認識テキスト構造解析動作では、まず、マルチメディアデータ入力装置１１に入力されたマルチメディアデータを、必要に応じてその後の処理に都合の良いデータ形式に変換する。最初から、その後の処理に適したデータ形式で入力された場合には、データ形式変換は実行されない（ステップＡ１）。次に、音声認識装置１２では、あらかじめ定められた基準や発明の利用者が選択した基準に従って、音声認識処理の対象とするオーディオトラックを選択する。最初から音声が含まれているオーディオトラックが１つしかない場合には、それを選択する（ステップＡ２）。ついで音声認識が実行され、時間情報（あるいはそれに代わる、もとのマルチメディアデータの位置を特定できる情報）が付与された音声認識テキストが出力される（ステップＡ３）。
【００６５】
音声認識テキスト構造解析部１３では、時間情報付き音声認識テキストを受け取り、そこから、単語間のポーズ長や、単語頻度ベクトルなど、構造解析に必要な情報を計算する（ステップＡ４）。ついで得られた情報をもとに、予め用意された言語知識や認定規則に従って、音声認識テキストの構造解析を行う（ステップＡ５）。最後に時間情報付き音声認識テキストと、構造解析結果を組にして、マッチング処理部１６に出力する（ステップＡ６）ことで、音声認識テキスト構造解析動作が終了する。
【００６６】
本発明の第１の実施の形態の関連資料構造解析動作では、まず、関連資料入力装置１４に入力された関連資料の種類やファイル形式を判定する（ステップＢ１）。ついで必要に応じてその後の処理に都合の良いデータ形式に変換する。最初から、その後の処理に適したデータ形式で入力された場合には、データ形式変換は実行されない（ステップＢ２）。次に、関連資料構造解析部１５において、関連資料からテキストデータを抽出する。その際、関連資料のもとのファイル中にそのファイル形式に応じた形で記録されているタグ情報も構造情報の一種として、各テキストデータと組で抽出する（ステップＢ３）。
【００６７】
例えばプレゼンテーション資料において、「２００３年度研究計画」という文字列が４枚目のスライドの見出し語として、もとの関連資料ファイル中に記録されていた場合、「２００３年度研究計画」という文字列と「スライド４枚目、見出し語」というタグ情報を組にして抽出する。ただし、マッチング処理部１６における音声認識テキストとのマッチングに使用しないタグ情報は、もとの関連資料のファイル中に記録されていても抽出しなくて良い。ついで、もとの関連資料の種類やファイル形式に応じて、ステップＢ３で抽出されたテキストの書式を解析する（ステップＢ４）。テキスト中で使用されている単語の出現頻度ベクトルの変化や、特徴的な手がかり表現の有無を調べるなど、テキスト本文を言語解析することで得られる構造情報も取得する（ステップＢ５）。また必要に応じて、図表の有無や、数、大きさ、位置など、入力された関連資料のファイル中に含まれているテキスト以外のデータについても構造情報として抽出する（ステップＢ６）。図５ではステップＢ４からステップＢ６までの処理をこの順に記述しているが、これらの処理の順番は任意であり、全てを並列に行っても良い。最後に抽出した関連資料のテキストと、構造解析結果を全てまとめてマッチング処理部１６に出力する（ステップＢ７）ことで、関連資料構造解析動作が終了する。
【００６８】
本発明の第１の実施の形態のマッチング動作では、まず、音声認識テキスト構造解析動作によって出力された音声認識テキストとその構造情報、関連資料構造解析動作によって出力された関連資料テキストとその構造情報を、マッチング処理部１６で受け取る（ステップＣ１）。次に、入力されたマルチメディアデータや関連資料の種類、抽出された構造情報の内容に応じて、使用するマッチングルールを判定し、マッチングルールデータベース１７から読み込む。読み込んだマッチングルール中にパラメータが存在する場合には、入力等に応じて、その値を決定する（ステップＣ２）。ついで、読み込んだマッチングルールのうち、マッチングの対応関係と境界条件を規定するマッチングルールを考慮した上で、マッチング計算の順序や範囲を規定するルールに従って、マッチング計算の手順を決定する。マッチングを部分的、段階的、あるいはその組合せで行う場合には、次にマッチング対象となる範囲と段階をここで決める（ステップＣ３）。
【００６９】
とりあえずマッチングをとる範囲と段階が定まると、その範囲・段階に対して、マッチングルールで規定される評価関数が（要する計算時間や計算機資源などの条件が合理的な範囲内で）最大となるようなマッチングの組み合わせを求める（ステップＣ４）。ステップＣ３で定められたマッチング計算の手順を調べて、まだ全てのマッチング計算が終了していない場合には、ステップＣ３に戻る。一度に全てのマッチング計算を行った場合や、必要回数だけステップＣ３からステップＣ５のループを繰り返して、全てのマッチング計算が終了した場合には次に進む（ステップＣ５）。マッチング計算が終了すると、インデックス作成部１８は、マッチング処理部１６で求められた最適マッチングの結果を受け取り、それに基づいて、本発明を実施する際の目的や用途に応じたインデックスを作成する（ステップＣ６）。最後に、作成されたインデックスを、本発明を実施する際の目的・用途に応じた形態で出力する（ステップＣ７）ことでマッチング動作が終了するとともに、本発明の第１の実施の形態のインデックス作成装置における動作全体の終了となる。
【００７０】
以下では、本実施の形態におけるインデックス作成装置の動作について、具体的な例を用いて説明する。
【００７１】
この具体例では、マルチメディアデータとして、様々な講演や講義の様子を動画およびステレオ音声データとして録画（録音）した、ＭＰＥＧ１、ＭＰＥＧ２形式などのファイルが、光ディスクやネットワークなどを通して機械読み取り可能な手段でマルチメディアデータ入力装置１１に入力されるとする。また入力された講演や講義のスライドを記録したプレゼンテーション資料が、同じく機械読み取り可能な手段で関連資料入力装置１４に入力されるとする。
【００７２】
入力される各ファイルには、あらかじめ「題目」「講演日時」などの情報が機械読み取り可能な形で付与されており、１回の講演・講義ごとに別々のファイルとして記録されているとする。よって、こうしたマルチメディアデータの視聴者が、視聴したい講演の題目や日時などからファイルを選択すれば、簡単に講演映像の先頭から視聴することができ、また、そのプレゼンテーション資料も調べることができる。しかし、プレゼンテーション資料の内容に同期して、講演映像を視聴することにより、キーワード検索でプレゼンテーション資料中の特定のスライドを検索し、そのスライドに対応する講演映像の箇所のみ再生するなどの操作はできない。そこで、そうした頭出しなどの特殊再生やキーワード検索が可能となるよう、１枚１枚のスライドが映像ファイルのどこに対応するかを示すインデックスを作成する。
【００７３】
最初に例えば「題目：特別講演ＩＴ技術の動向、録画：０１年１２月１４日、講演時間５０分」といった映像ファイルがＭＰＥＧ１形式で、マルチメディアデータ入力装置１１に入力されると、マルチメディアデータ入力装置１１はそのデータ形式を判定し、必要ならば入力されたファイルのオーディオトラックのデータ形式を変換する。音声認識装置１２が、例えばサンプリング周波数２２ＫのＷＡＶＥファイルを入力とするのならば、入力されたＭＰＥＧ１ファイルのオーディオトラックだけを分離し、ＷＡＶＥ形式に変換した後で、サンプリング周波数変換のフィルタをかける（ステップＡ１）。
【００７４】
音声認識装置１２では、データ形式変換されたステレオのオーディオトラックを受け取り、信号対雑音比を調べて、その比が良い方のオーディオトラックを選択する（ステップＡ２）。ついで選択されたオーディオトラックに対して、時間情報付きの音声認識を実行する（ステップＡ３）。
【００７５】
図７は、今回の例で作成された音声認識テキストの一部を示す説明図である。
【００７６】
図７では、各認識単語の「開始時間」は、その単語が音声認識された時間を、「終了時間」はその単語の音声認識が終了した時間を表している。単位は秒で、入力されたマルチメディアデータの先頭を０秒とする。「品詞」は各認識単語の品詞である。この認識単語列の中には、認識誤りにより、本来の発話と異なる単語も含まれている。
【００７７】
音声認識テキスト構造解析部１３では、図７のような認識単語列に対して構造解析に必要な情報を計算する。たとえばこの例では、単語間のポーズ長（単語の終了時間と次の単語の開始時間との差）や、動詞とその語尾の形、一定範囲内の単語の出現傾向を表すベクトルの変化量などである（ステップＡ４）。次に連続した認識単語列から、図２に挙げた３つの構造（文、サブトピック、トピック）を抽出する。認識単語列を文に分けるには、あらかじめ本発明の目的や用途、入力にあわせて用意された言語知識や判定基準を使用する。たとえば「動詞の語尾が終止形で、その後のポーズ長が０．４秒以上あいているとき、そこで文を区切る。ただし、直前の文の区切りから４単語以内の場合はこのルールを適用しない」などの一連のルールを用いることで、図７の認識単語列からは「えー只今紹介をなりましたＡＢＣ大学工学部の鈴木太郎でございます」が１つの文として抽出される。サブトピックはポーズ長とあるパターンに合致する特徴的な表現で抽出する。
【００７８】
図８は、文単位でまとめられた認識単語列とそこから抽出されるサブトピックの例を示す説明図である。
【００７９】
たとえば「第１の…、第２の…、第３の…のような繰り返し表現が、文の先頭から数えて５単語以内に存在し、それらの文の間が１０秒以上離れていないとき、そこを箇条書き表現として抽出する」のような判定基準を用いることで、図８に示す認識単語列から、箇条書き表現のサブトピックを抽出できる。またこの例では、トピック判定用の基準として単語の出現頻度ベクトルの差が一定の閾値を超えるときというルールを用いたが、１つもトピックに分けることができなかった、とする。認識文字列には、認識誤りが含まれているため、必ずしも全ての構造が正しく抽出できるわけではない（ステップＡ５）。全ての構造解析が終わると、認識単語列の中で抽出された各文の位置、抽出された箇条書き表現などのサブトピックの位置、検出されたトピックの位置（今回の例では検出されず）などの構造情報を、もとの時間情報付き音声認識単語列とあわせてマッチング処理部１６に出力する（ステップＡ６）。
【００８０】
マルチメディアデータ入力装置１１に入力された映像データ「題目：特別講演ＩＴ技術の動向、録画：０１年１２月１４日、講演時間５０分」に対応する、３８枚のスライドからなるプレゼンテーション資料が機械読み取り可能なファイル形式で関連資料入力装置１４に入力されると、まず、それがプレゼンテーション資料を表すファイル形式であることが判定される（ステップＢ１）。次に必要に応じてデータ形式の変換が行われるが、今回の例では、そのまま各スライドからテキスト情報が読みとれるため、変換不要であるとする（ステップＢ２）。
【００８１】
図９はスライド毎に抽出されたテキストの例を示す説明図である。
【００８２】
関連資料構造解析部１５では、プレゼンテーション資料のファイルから、図９に示すように、スライド毎にそのスライドに書かれたテキストと、見出し語を抽出する（ステップＢ３）。
【００８３】
図１０は、スライド中の書式によって抽出される箇条書きの例を示す説明図である。
【００８４】
さらに、抽出されたテキストの書式も解析する。その結果、図１０に挙げるようなスライドからは３項目の箇条書きが検出される（ステップＢ４）。各スライドのテキスト中で使用されている単語の出現頻度ベクトルの変化や、特徴的な手がかり表現の有無など、テキスト本文の言語解析も行うが、プレゼンテーション資料で使用されるテキストの分量が少ないことから、この例では有意な構造が得られなかったとする（ステップＢ５）。
【００８５】
また、プレゼンテーション資料のファイルから、各スライド中に図表が何枚使用されているかも調べる。図表の有無を調べるのは、後にマッチング処理部１６で音声認識テキストとのマッチングを調べるのに、有効な手がかりとなるからである。例えば、図表がたくさん使用されているスライドは、テキストがたくさん含まれているスライドと同様に、多くの音声認識テキストの文と対応させる、というマッチングルールが考えられる。また図表を「この図は〜」「この表では〜」のような特定パターンの認識単語列と対応させる、といったマッチングルールもあり得る（ステップＢ６）。最後に得られた構造情報をスライド毎にまとめてマッチング処理部１６に出力する（ステップＢ７）。
【００８６】
マッチング処理部１６では、講演映像の音声認識テキストとその構造情報、プレゼンテーション資料から抽出されたテキストとその構造情報とを受け取る（ステップＣ１）。ついで、入力された関連資料の種類がプレゼンテーション資料であること、音声認識テキストから抽出された構造情報が文と箇条書き表現であること、関連資料から抽出された構造情報が、スライド毎のテキストと見出し語、書式情報、図表の有無であることから、それらに関するマッチングルールをマッチングルールデータベース１７から読み込み、パラメータを決定する。
【００８７】
図１１は、読み込んだマッチングルールの例を示す説明図である。
【００８８】
図１１を参照すると、関連資料の種類欄、対象欄が読み込むマッチングルールを決める基準となる。今回の例では、特に変更するパラメータがなかったとする（ステップＣ２）。
【００８９】
使用するマッチングルールが定まると、それらのうち、マッチングの対応関係と、境界条件とを規定するマッチングルールに則って、どの構造とどの構造のマッチングを求めるのか、またその制約事項は何かを決定する。今回の例では、図１１の上から１番目と２番目のルールによって、講演の最初から順に各スライドとそこで話された文との対応をとっていくことが分かる。また３番目のルールによって、図８で挙げた箇条書き表現のサブトピックと、図１０に挙げたスライド中の箇条書きとがマッチング計算なしに対応づけられる。
【００９０】
ここで３番目のルール中にある「双方のテキスト全体に対する出現位置のずれが一定割合以下」であるとは、図８の箇条書き表現が５０分の講演全体の中での出現する位置が、（箇条書き表現の開始時間：１４２１秒）／（全体の時間：５０分×６０秒）＝約０．４７であるのに対して、図１０の箇条書きの全プレゼンテーション中での出現位置が、（箇条書きを含むスライド：１８枚目）／（全体の枚数：３８枚）＝約０．４７と、非常に近いことを意味する。
【００９１】
図１２は、マッチングをとる構造、および、範囲を示す説明図である。
【００９２】
さらにマッチングの計算順序と範囲を規定する図１１の上から４番目のルールに従って、この例でのマッチング手順が図１２のように２つの部分に分けられることが定まる。第１のマッチング計算範囲は、スライド１からスライド１８の箇条書きの手前までである。第２のマッチング計算範囲は、スライド１８の箇条書き表現の先頭から、最後のスライド３８まで。音声認識テキストから抽出された箇条書き表現の始まりの境界が「第１の利点」という特徴表現によって、判定しやすいのに対して、終わりの境界がどこまでか判定しにくいため、対応づけられた箇条書き部分は、第２のマッチング計算範囲に含める（ステップＣ３）。
【００９３】
マッチングをとる範囲と手順が定まると、まず第１のマッチングの計算範囲に対して、図１１の上から５番目のルールに定義されている評価関数が最大となるようなマッチングの組合せを求める。評価関数の値が最大となるような組合せを効率よく求める手法に関しては、本発明の対象と異なるため詳しくは説明しない（ステップＣ４）。次にマッチング計算が全て終了しているか判定する。
【００９４】
この例では、まだ第１のマッチング範囲の計算しか終えていないため、ステップＣ３に戻る（ステップＣ５）。再びマッチングを取る構造と範囲を調べて、図１２の第２のマッチング計算範囲が残っていることが分かる（ステップＣ３）。そこで、第２のマッチング計算範囲に対しても同様に、図１１の上から５番目のルールに定義されている評価関数が最大となるようなマッチングの組合せを求める（ステップＣ４）。第２のマッチング計算が終了すると、全体に対して最適なマッチングの組合せが求められたことになるので、マッチングを終了する（ステップＣ５）。
【００９５】
インデックス作成部１８では、全体のマッチング結果を受け取り、インデックスを作成する。今回の例では、１枚１枚のスライドが映像ファイルのどこに対応するかを示すインデックスを作成することが目的であるから、スライド毎に、それに対応する、最初の音声認識テキストの文の開始時間と、最後の音声認識テキストの文の終了時間とをもって、そのスライドの開始時間、終了時間とし、その情報をスライド毎のインデックスとする。キーワード検索などに用いる場合には、さらにプレゼンテーション資料から抽出したスライド毎のテキストや、必要ならスライドに対応する音声認識テキストも、インデックスに付与する（ステップＣ６）。
【００９６】
インデックス出力装置１９では、インデックス作成部１８で作成されたインデックスを、テキスト形式や検索用のバイナリ形式など、本発明を実施する際の目的・用途に応じた形式に変換し、それを計算機のハードディスクやディスプレイ、ネットワークなど、本発明の目的・用途に応じた媒体を通して出力する（ステップＣ７）。
【００９７】
このようにして本発明の第１の実施の形態のインデックス作成装置における動作全体が終了する。
この具体例では、プレゼンテーション資料の全３８枚のスライドに対して、各スライドが元の映像ファイル「題目：特別講演ＩＴ技術の動向」の何秒目から何秒目までに対応しているかを示すインデックスが作成されることになる。こうしたインデックスを用いると、インデックスがない場合には不可能な特殊な再生が可能になり、元の映像ファイルの検索・編集も容易となる。特殊な再生の例としては、講演映像に同期してプレゼンテーション資料も出力する、特定のキーワードに関する講演部分だけを順次再生する、などがある。また、講演映像の大まかな目次として、プレゼンテーション資料の各スライドの見出し語と、各スライドの先頭の時間をまとめて出力する、といった利用法も考えられる。
【００９８】
またこの具体例では、１つの映像ファイルと１つのプレゼンテーション資料が対応している１対１の場合について説明したが、マルチメディアデータとその関連資料が、１対多、多対１、さらに多対多で対応する場合も、同様にインデックスを作成することができる。例えば大学の講義等で、１つの教科書（関連資料）と複数回に渡る講義（ビデオファイル）があるとき、それぞれの講義ビデオに対して音声認識テキスト構造解析動作を行う。教科書に対しては、関連資料構造解析動作によって、章や節などの構成毎に大まかに分ける。後はマッチング動作において、共通の単語の出現頻度などを手がかりにどのビデオファイルが、どの章や節に対応するか大まかに調べ、ついで各部分毎に細かな対応をとる（ステップＣ３〜ステップＣ５）。このように、入力が複数ある場合には、その数だけ、音声認識テキスト構造解析動作や関連資料構造解析動作を行う。そして得られた構造を利用して、入力の種類や発明の用途に応じて、段階的にマッチングを取っていけばよい。
【００９９】
次に本発明の第２の実施形態について図面を参照して詳細に説明する。
【０１００】
図１３は本発明の第２の実施の形態のインデックス作成装置の構成を示すブロック図である。
【０１０１】
図１３において、図１と同等部分は同一符号にて示している。図１３を参照すると、本発明の第２の実施の形態は、本発明の第１の実施の形態に加えて、マッチング範囲・条件調整部２０とインデックス編集インタフェース２１とを有する点で異なる。他の部分は、本発明の第１の実施の形態と共通であるため、ここでは説明を省略し、追加の構成についてのみ述べる。
【０１０２】
マッチング範囲・条件調整部２０は、少なくとも１度マッチングが終了した後で、再度マッチング計算を行うときに、マッチングの範囲や条件を調整する機構である。マッチングの再計算は、本発明の第２の実施の形態の目的や用途、入力の種類などに応じて予め規定されていた再計算条件が満たされたときに行われる場合と、インデックス編集インタフェース２１を通して、利用者の要求に従って適宜行われる場合とがある。前者の場合、マッチング範囲・条件調整部２０は、直前のマッチングが終わった後にインデックス作成部１８が作成するインデックスと、そのもとになるマッチング結果を調べ、予め規定されていた再計算条件に合致すると、マッチング再計算の要求をマッチング処理部１６に伝える。その際、新たなマッチングの範囲や条件も直前のマッチング結果に応じて決定し、追加のマッチングルールの形でマッチング処理部１６にわたす。後者の、利用者の要求に従って行われる場合は、マッチングの再計算の仕方を決定するマッチングルールは、利用者の要求内容に応じて作成し、マッチング処理部１６にわたす。
【０１０３】
インデックス編集インタフェース２１は、インデックス出力装置１９が出力するインデックスを本発明の第２の実施の形態の利用者が適宜編集するためのインタフェースである。利用者は、計算機上のキーボード入力やマウスの操作など、本発明の第２の実施の形態の用途・目的に都合のよい任意の手段を用いて、インデックスを編集できるものとする。またこの際、インデックスの内容が適切であるかどうか確認するために、もとのマルチメディアデータや関連資料を、その時点でのインデックスに応じて、検索・再生可能な出力機能を備えていても良い。
【０１０４】
インデックスの編集の仕方としては、２通りの手法が考えられる。１つ目は、利用者が直接インデックスの内容を手動で修正する手法である。２つ目は、インデックスのある箇所に対して、利用者が単にその箇所が間違っていると指摘したり、「もとのマルチメディアデータのより前方と対応するはずである」、「もとのマルチメディアデータのより後方と対応するはずである」、のように大まかな修正のヒント情報を与えたりすることにより、後は自動的に修正させる手法である。この場合、インデックス編集インタフェース２１は、利用者が指摘した箇所や内容をマッチング範囲・条件調整部２０に伝えて、マッチングの再計算を促す。インデックス編集インタフェース２１は、本発明の実施の形態の用途・目的に応じて、この２つの編集手法のいずれか一方、あるいは両方を備える。
【０１０５】
なお、本発明の第２の実施の形態では、マルチメディアデータ入力装置１１、音声認識装置１２、音声認識テキスト構造解析部１３、関連資料入力装置１４、関連資料構造解析部１５、マッチング処理部１６、マッチングルールデータベース１７、インデックス作成部１８、インデックス出力装置１９、マッチング範囲・条件調整部２０、インデックス編集インタフェース２１は、各部の機能を制御するプログラムとして、ＣＤ−ＲＯＭやフロッピーディスク（登録商標）などの機械読み取り可能な記録媒体に格納して提供され、計算機（コンピュータ）等に読み込まれて実行されるものとしても良い。
【０１０６】
次に、本発明の第２の実施の形態のインデックス作成装置における動作について説明する。
【０１０７】
図１４は、本発明の第２の実施の形態のマッチング再計算およびインデックス編集動作を示すフローチャートである。
本発明の第２の実施の形態のインデックス作成方法は、図４のフローチャートで示される音声認識テキスト構造解析動作と、図５のフローチャートで示される関連資料構造解析動作と、図１４のフローチャートで示されるマッチング再計算およびインデックス編集動作からなる。音声認識テキスト構造解析動作と、関連資料構造解析動作は、どちらが先に実行されても良いし、この２つの動作が並列に実行されても良い。一方、マッチング再計算およびインデックス編集動作は、音声認識テキスト構造解析動作と、関連資料構造解析動作がともに終了した後で、実行される。マッチング再計算およびインデックス編集動作の終了を持って、本発明の第２の実施の形態のインデックス作成装置における動作全体の終了となる。
【０１０８】
また本発明の第２の実施の形態における、音声認識テキスト構造解析動作と、関連資料構造解析動作は、本発明の第１の実施の形態での音声認識テキスト構造解析動作と、関連資料構造解析動作と同一である。よって、図１４に従って、マッチング再計算およびインデックス編集動作のみ説明する。
【０１０９】
本発明の第２の実施の形態のマッチング再計算およびインデックス編集動作では、まず、音声認識テキスト構造解析動作によって出力された音声認識テキストとその構造情報、関連資料構造解析動作によって出力された関連資料テキストとその構造情報を、マッチング処理部１６で受け取る（ステップＤ１）。次に、入力されたマルチメディアデータや関連資料の種類、抽出された構造情報の内容に応じて、最初のマッチングで使用するマッチングルールを判定し、マッチングルールデータベース１７から読み込む。読み込んだマッチングルール中にパラメータが存在する場合には、入力等に応じて、その値を決定する（ステップＤ２）。
【０１１０】
ついで、与えられたマッチングルールに従って、マッチング計算の手順を求める。ここで、与えられたマッチングルールとは、ステップＤ２で最初にマッチングデータベース７から読み込まれたマッチングルールと、再計算用にマッチング範囲・条件調整部２０で作成されたマッチングルールとがあり得る。もしそれらのマッチングルールの中に矛盾したものがあった場合には、優先度の高いマッチングルールや、再計算用のマッチングルールに従う。具体的なマッチング計算の手順は、それらのなかで、マッチングの対応関係と境界条件を規定したマッチングルールを考慮し、その上で、マッチング計算の順序や範囲を規定したルールに従って決定する。マッチングを部分的、段階的、あるいはその組合せで行う場合には、次にマッチング対象となる範囲と段階をここで決める（ステップＤ３）。
【０１１１】
とりあえずマッチングをとる範囲と段階が定まると、その範囲・段階に対して、マッチングルールで規定される評価関数が（要する計算時間や計算機資源などの条件が合理的な範囲内で）最大となるようなマッチングの組み合わせを求める（ステップＤ４）。ステップＤ３で定められたマッチング計算の手順を調べて、まだ全てのマッチング計算が終了していない場合には、ステップＤ３に戻る。一度に全てのマッチング計算を行った場合や、必要回数だけステップＤ３からステップＤ５のループを繰り返して、全てのマッチング計算が終了した場合には次に進む（ステップＤ５）。
【０１１２】
マッチング計算が終了すると、インデックス作成部１８は、マッチング処理部１６で求められた今回のマッチング結果を受け取り、それに基づいて、本発明を実施する際の目的や用途に応じたインデックスを作成する（ステップＤ６）。
【０１１３】
マッチング範囲・条件調整部２０では、インデックス作成部１８が作成するインデックスと、そのもとになるマッチング結果を調べ、本発明の実施の形態の目的や用途、入力の種類などに応じて予め規定されていた再計算条件が満たされているかどうか判定する。再計算条件に合致した場合、マッチング再計算用のマッチングルールやパラメータを、直前のマッチング結果に応じて作成し、マッチング処理部１６にわたして、ステップＤ３に戻る。再計算条件に合致しない場合には、ステップＤ８に進む（ステップＤ７）。
【０１１４】
インデックス出力装置１９では、インデックス作成部１８で作成されたインデックスを、本発明を実施する際の目的・用途に応じた形態で出力する（ステップＤ８）。
【０１１５】
インデックス編集インタフェース２１では、インデックス出力装置１９が出力するインデックスに対して、利用者からの編集操作がないか、編集操作があったとき、それはマッチングの再計算を必要とするものかを調べる。インデックス中のある箇所に対する間違いの指摘や、「もとのマルチメディアデータのより前方と対応するはずである」、「もとのマルチメディアデータのより後方と対応するはずである」、のように修正の大まかな指示があった場合には、指示内容をマッチング範囲・条件調整部２０にわたす。マッチング範囲・条件調整部２０では、利用者の指示内容に応じて、マッチングルールデータベース１７を使用して再計算用のマッチングルールを設定し、マッチング処理部１６にマッチングの再計算を促して、ステップＤ３に戻る。インデックス編集インタフェース２１において、マッチングの再計算を必要とする編集操作がない場合には、ステップＤ１０に進む（ステップＤ９）。
【０１１６】
インデックス編集インタフェース２１で、利用者が直接インデックスを編集・修正する操作要求があった場合には、その要求に従ってインデックスを直し、再度、インデックス出力装置１９から編集後のインデックスを出力する。編集操作がなかった場合には、インデックスはそのまま保持する（ステップＤ１０）。
【０１１７】
これによって、マッチング再計算およびインデックス編集動作が終了するとともに、本発明の第２の実施の形態のインデックス作成装置における動作全体の終了となる。ただし、インデックス編集インタフェース２１では、一旦本発明の第２の実施の形態のインデックス作成動作が終了した後、任意の時点で、利用者からのインデックス編集要求を受け付けて良い。また図１４では、ステップＤ９とステップＤ１０をこの順番で１度ずつのみ行っているが、利用者からの編集操作によっては、この動作を必要なだけ繰り返して良い。たとえば、利用者が直接手動でインデックスのある箇所を修正した後で、さらに再計算を行うこともあり得る。
【０１１８】
以下では、本発明の第２の実施の形態におけるインデックス作成動作について、具体的な例を用いて説明する。
【０１１９】
この具体例では、本発明の第１の実施の形態の具体例と同じ入力が同じ条件で与えられ、音声認識テキスト構造解析動作と関連資料構造解析動作が既に終了しているとする。よって、マッチング再計算およびインデックス編集動作のみ説明する。
【０１２０】
入力と条件が同じであるから、最初のマッチング処理におけるステップＤ１〜ステップＤ６の動作も、本発明の第１の実施の形態の具体例におけるステップＣ１〜ステップＣ６の動作とまったく同様である。
【０１２１】
ついでマッチング範囲・条件調整部２０で、最初のマッチング結果と、インデックス作成部１８が作成するインデックスを調べ、予め用意された再計算条件が満たされるか判定する。今回の例では、「各スライド境界に対応する音声認識テキストの文に含まれる単語列で、スライド境界の文中での出現頻度が、音声認識テキスト全体での出現頻度より一定値以上大きくなるような単語列が存在したとき、その単語列をスライド境界を示す特徴的な表現と認定し、それを利用したマッチング再計算を行う、ただし同じ単語列は１度のみマッチング再計算に利用する」という再計算条件があるとする。
【０１２２】
これは、講演者がプレゼンテーション資料のスライドを切り替える際に、よく口にする特徴的な表現を見つけだして利用しようという目的から設定された、再計算条件である。今回の例では、「という状況を示しています」という単語列が、最初のマッチングの結果、スライドの終わりに対応する文には６回現れているが、他の文には２回しかあらわれていないとする。そこで、「『という状況を示しています』という単語列が含まれている文が、スライドの終わりに対応するような組合せに対して、評価関数の得点を一定値だけ加算する」という追加のマッチングルールを作成して、マッチング処理部１６にわたし、マッチングの再計算を促す（ステップＤ７）。
【０１２３】
マッチング処理部１６では、最初のマッチングのときに用いたマッチングルールと、新たに追加された１つのマッチングルールを用いて、最初のマッチングのときと同様に処理を進める。その結果、最初のマッチングでは、「という状況を示しています」という単語列を含んでいるが、スライドの内部に対応していた文が２つあったが、新たなマッチングの結果では、そのうちの１つが、さらにスライドの終わりに対応するようになったとする。残った１つの文は、もとのマッチングルールの影響によって、スライドの内部に対応したままである。インデックス作成部１８は、このマッチング結果をもとの新たなインデックスを作成する（ステップＤ３〜ステップＤ６）。一般に、追加のマッチングルールによって、マッチング精度が向上することが期待されるが、一方、間違ってマッチング結果を悪化させることもあり得るため、本発明の実施の際には、想定される入力の内容・種類などに応じて、追加するマッチングルールやルール中のパラメータを設定しておかなければならない。
【０１２４】
再びマッチング範囲・条件調整部２０で、マッチング結果と、インデックス作成部１８が作成するインデックスを調べ、予め用意された再計算条件が満たされるか判定する。今回の例では、再計算条件を満たすような認識単語列は見つからなかったとする。先ほどの「という状況を示しています」は、マッチング再計算に既に利用されているため、再計算条件を満たさない（ステップＤ７）。
【０１２５】
インデックス出力装置１９では、インデックス作成部１８で作成されたインデックスを、本発明を実施する際の目的・用途に応じた形態で出力する。今回の例では、スライド境界に対応する音声認識テキストの文から得られた開始時間と終了時間、さらにスライド中のテキストがまとめられて、スライド毎のインデックスとして、インデックス編集インタフェース２１に表示可能な形態で出力される（ステップＤ８）。
【０１２６】
インデックス編集インタフェース２１では、インデックス出力装置１９が出力するインデックスに対して、利用者からの編集操作がないか調べる。今回の例ではたとえば、利用者から「スライド２０の終わりはマッチングがずれている。ここは講演映像のより前方と対応するはずである、修正せよ」という内容の編集操作が与えられる。インデックス編集インタフェース２１は、この編集操作がインデックスを直接手動で修正する操作でないことから、マッチング再計算を要すると判断し、編集操作内容をマッチング範囲・条件調整部２０にわたす。マッチング範囲・条件調整部２０では、わたされた編集操作内容から例えば、「スライド１〜スライド１８の間と、スライド２３〜スライド３８までの間は、既に対応づけられているとして固定」「スライド１９〜スライド２２までを、マッチング範囲とする」「スライド２０が、それまで対応していた音声認識文より後の文と対応するような組合せを除外する」というマッチングルールを新たに追加して、マッチング処理部１６にわたす（ステップＤ９）。ここで、マッチングの再計算範囲を、スライド１９〜スライド２２までに限定しているのは、図１２で示したように、スライド１８が箇条書き表現によって固定されているからである。スライド２０の後方に、既に対応関係が固定されている箇所は存在していないが、マッチング再計算によって新たなマッチングのずれが増える影響範囲を絞るため、後方もスライド２２までに限定している。このように構造情報や、これまでのマッチングの対応関係を利用することで、マッチングの再計算範囲を限定することができる。この範囲は、本発明の実施の形態の利用状況に応じて、適宜設定しておく必要がある。マッチング範囲・条件調整部２０で、利用者の編集操作に応じたマッチングルールを作成するときに、最初は再計算範囲を大きくとり、再計算のたびに範囲を順に絞っていくような、追加マッチングルールの作成法を用いても良い。
【０１２７】
マッチング処理部１６では、新たなマッチングルールによる条件と、既存のマッチングルールで規定されている評価関数を用いて、スライド１９〜スライド２２までの範囲のマッチングを再計算する。インデックス作成部１８では、スライド１〜スライド１８の間、スライド２３〜スライド３８の間の既存のマッチング結果と、再計算されたスライド１９〜スライド２２までのマッチング結果を用いて、インデックスを作成する（ステップＤ３〜ステップＤ６）。
【０１２８】
再再度、マッチング範囲・条件調整部２０で、マッチング結果と、インデックス作成部１８が作成するインデックスを調べ、予め用意された再計算条件が満たされるか判定する。今回の例でも、再計算条件を満たすような認識単語列は見つからなかったとする（ステップＤ７）。
【０１２９】
インデックス出力装置１９では、インデックス作成部１８で作成されたインデックスを、本発明を実施する際の目的・用途に応じた形態で出力する（ステップＤ８）。
【０１３０】
インデックス編集インタフェース２１では、インデックス出力装置１９が出力するインデックスに対して、利用者からの編集操作がないか調べる。今回の例では、利用者からマッチング再計算を必要とするような編集操作は与えられなかったとする（ステップＤ９）。
【０１３１】
また利用者は、インデックス編集インタフェース２１でインデックス内容を確認の後、直接インデックスを編集する作業も行わなかったとする（ステップＤ１０）。
【０１３２】
このようにして本発明の第２の実施の形態のインデックス作成装置における動作全体が終了する。
【０１３３】
この具体例では、プレゼンテーション資料の全３８枚のスライドに対して、各スライドが元の映像ファイル「題目：特別講演ＩＴ技術の動向」の何秒目から何秒目までに対応しているかを示すインデックスが作成される。またマッチングの誤りが、利用者のわずかな編集操作によって、修正されている。こうしたインデックスを用いると、元の映像ファイルの検索・再生が、より高精度に可能となる。
【０１３４】
【発明の効果】
本発明による第１の効果は、ビデオデータなどのマルチメディアデータに対して、その関連資料の構造に応じたインデックスが自動的に作成できることである。関連資料は、書き起こしのようにマルチメディアデータの最初から最後まで過不足なく対応づけられるもの、でなくてよい。この結果、関連資料を介したマルチメディアデータに対するキーワード検索が可能となり、また、マルチメディアデータと関連資料との対応箇所を同期して再生することや、関連資料の特定の箇所に対応するマルチメディアデータを頭出しするなどの特殊再生が可能となる。インデックス自体も、マルチメディアデータの内容を示す目次の一種として活用可能である。
【０１３５】
本発明による第２の効果は、ビデオデータなどのマルチメディアデータと、その関連資料とのマッチング計算を繰り返し行うことで、精度の良いインデックスを作成できることである。入力されるマルチメディアデータと関連資料の性質や構造が、マッチングの再計算に利用されることで、この効果が達成される。
【０１３６】
本発明による第３の効果は、ビデオデータなどのマルチメディアデータと、その関連資料の構造に応じたインデックスを、本発明の利用者が少ない操作で編集できることである。利用者の編集操作に応じたマッチング再計算をインタラクティブに行うことで、インデックスに必要な修正を利用者が全て手動で編集する必要がない。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態の構成を示すブロック図である。
【図２】音声認識テキストから抽出される構造の例を示す説明図である。
【図３】関連資料から抽出される構造の例を示す説明図である。
【図４】本発明の第１の実施の形態の音声認識テキスト構造解析動作を示すフローチャートである。
【図５】本発明の第１の実施の形態の関連資料構造解析動作を示すフローチャートである。
【図６】本発明の第１の実施の形態のマッチング動作を示すフローチャートである。
【図７】音声認識テキストの例を示す説明図である。
【図８】認識単語列および抽出されるサブトピックの例を示す説明図である。
【図９】プレゼンテーション資料から抽出されるテキストの例を示す説明図である。
【図１０】スライド中の書式によって抽出される箇条書きの例を示す説明図である。
【図１１】マッチングルールの例を示す説明図である。
【図１２】マッチングをとる構造、および、範囲の例を示す説明図である。
【図１３】本発明の第２の実施の形態の構成を示すブロック図である。
【図１４】本発明の第２の実施の形態のマッチング再計算およびインデックス編集動作を示すフローチャートである。
【符号の説明】
１１マルチメディアデータ入力装置
１２音声認識装置
１３音声認識テキスト構造解析部
１４関連資料入力装置
１５関連資料構造解析部
１６マッチング処理部
１７マッチングルールデータベース
１８インデックス作成部
１９インデックス出力装置
２０マッチング範囲・条件調整部
２１インデックス編集インタフェース

Claims

マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識手段と、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析手段と、前記音声認識手段からの音声認識テキスト、および、前記関連資料構造解析手段からの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成手段と、を有することを特徴とするインデックス作成装置。
マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識手段と、前記音声認識手段からの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析手段と、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析手段と、前記音声認識テキスト構造解析手段からの音声認識テキスト構造情報、および、関連資料構造解析手段からの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成手段と、を有することを特徴とするインデックス作成装置。
前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成手段を有することを特徴とする請求項１、または、２記載のインデックス作成装置。
前記インデックス出力手段からのインデックスを編集するインデックス編集手段を有することを特徴とする請求項１、２、または、３記載のインデックス作成装置。
利用者により指定された箇所または内容を出力する前記インデックス編集手段と、前記インデックス編集手段からの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整手段と、前記マッチング範囲・条件調整手段からの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成手段とを有することを特徴とする請求項４記載のインデックス作成装置。
再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成手段を有することを特徴とする請求項５記載のインデックス作成装置。
前記インデックス作成手段が、前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用することを特徴とする請求項１、２、３、４、５、または、６記載のインデックス作成装置。
マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識ステップからの音声認識テキスト、および、前記関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、含むことを特徴とするインデックス作成方法。
マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記音声認識ステップからの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識テキスト構造解析ステップからの音声認識テキスト構造情報、および、関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、を含むことを特徴とするインデックス作成方法。
前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成ステップを含むことを特徴とする請求項８、または、９記載のインデックス作成方法。
前記インデックス作成ステップからのインデックスを編集するインデックス編集ステップを含むことを特徴とする請求項８、９、または、１０記載のインデックス作成方法。
利用者により指定された箇所または内容を出力する前記インデックス編集ステップと、前記インデックス編集ステップからの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整ステップと、前記マッチング範囲・条件調整ステップからの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成ステップとを含むことを特徴とする請求項１１記載のインデックス作成方法。
再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成ステップを含むことを特徴とする請求項１２記載のインデックス作成方法。
前記インデックス作成ステップが、前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用することを特徴とする請求項８、９、１０、１１、１２、または、１３記載のインデックス作成方法。
マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識ステップからの音声認識テキスト、および、前記関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、をコンピュータに実行させることを特徴とするインデックス作成プログラム。
マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記音声認識ステップからの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識テキスト構造解析ステップからの音声認識テキスト構造情報、および、関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、をコンピュータに実行させることを特徴とするインデックス作成プログラム。
前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成ステップをコンピュータに実行させることを特徴とする請求項１５、または、１６記載のインデックス作成プログラム。
前記インデックス作成ステップからのインデックスを編集するインデックス編集ステップをコンピュータに実行させることを特徴とする請求項１５、１６、または、１７記載のインデックス作成プログラム。
利用者により指定された箇所または内容を出力する前記インデックス編集ステップと、前記インデックス編集ステップからの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整ステップと、前記マッチング範囲・条件調整ステップからの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成ステップとをコンピュータに実行させることを特徴とする請求項１８記載のインデックス作成プログラム。
再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成ステップをコンピュータに実行させることを特徴とする請求項１９記載のインデックス作成プログラム。
前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用する前記インデックス作成ステップをコンピュータに実行させることを特徴とする請求項１５、１６、１７、１８、１９、または、２０記載のインデックス作成プログラム。