JP2004326404A - インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム - Google Patents
インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム Download PDFInfo
- Publication number
- JP2004326404A JP2004326404A JP2003119738A JP2003119738A JP2004326404A JP 2004326404 A JP2004326404 A JP 2004326404A JP 2003119738 A JP2003119738 A JP 2003119738A JP 2003119738 A JP2003119738 A JP 2003119738A JP 2004326404 A JP2004326404 A JP 2004326404A
- Authority
- JP
- Japan
- Prior art keywords
- index
- related material
- matching
- multimedia data
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】マルチメディアデータ入力装置11がマルチメディアデータを受け付け、音声認識装置12がオーディオトラックに対して音声認識を実行し、音声認識テキスト構造解析部13が音声認識テキストに対して構造解析を実行し、関連資料入力装置14が関連資料の入力し、関連資料構造解析部15が関連資料の構造解析を行い、マッチング処理部16が構造解析を利用して音声認識テキストと関連資料とのマッチングを行い、マッチングルールデータベース17が入力や構造解析状況に応じたマッチングの組合せや手順を規定する規則を格納し、インデックス作成部18がマッチングの結果に従ってインデックスを作成し、インデックス出力装置19が作成されたインデックスを出力する。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、ビデオデータやオーディオデータのようなマルチメディアデータ、その関連資料を入力し、検索・再生用のインデックスを作成するインデックス作成装置、インデックス作成方法、および、インデックス作成プログラムに関し、特に、入力されたマルチメディアデータに音声認識をかけて得られた音声認識テキストと入力された関連資料とをそれぞれ構造解析してマッチングを取ることにより、インデックスを作成するインデックス作成装置、インデックス作成方法、および、インデックス作成プログラムに関する。
【0002】
【従来の技術】
映画やTV(テレビジョン)番組の映像記録、大学の講義等の映像や音声記録、会議の映像記録などのマルチメディアデータを視聴者が利用する際、それらのマルチメディアデータに発話内容などに即した詳細なインデックスが付与されていることが望ましい。詳細なインデックスが存在すれば、視聴者はそれを利用して内容検索や、頭出し、必要な箇所のみの再生といったことが可能になる。
【0003】
特許文献1では、このような詳細なインデックスを作成するため、ビデオや音声クリップに音声認識を行って、音声認識テキストを作成し、それと元のビデオや音声クリップの書き起こしとのマッチングを取るという手法が公開されている。音声認識テキストには、一般に認識誤りが含まれているが、元のマルチメディアデータの中で、認識された各単語がどの瞬間に発言されたかを示す時間情報は自動的に付与することができる。よって、時間情報付きの音声認識テキストと、別途作成された正確な書き起こしとのマッチングを取ることができれば、結果として時間情報付きの書き起こしが得られる。それはすなわち、書き起こし中の各発話や単語が元のマルチメディアデータ中のどこにあたるかを示すインデックスが自動的に作成できるということになる。
【0004】
【特許文献1】
特開平7−199379号公報
【0005】
【発明が解決しようとする課題】
前述のように、マルチメディアデータには、その内容に即したいわば詳細な目次のようなインデックスが付与されていることが望ましい。そうしたインデックスがどの程度まで詳しく作られているかによって、そのマルチメディアデータの検索性や、再生時の利便性は大きく異なってくる。
【0006】
一方、マルチメディアデータには、書き起こしや議事録、シナリオ、講演用原稿、プレゼンテーション資料、参考図書、関連ウェブページなどのような関連資料がしばしば存在する。これらには、元のマルチメディアデータの内容を示すテキストが含まれており、インデックスとして活用することができる。しかし、マルチメディアデータとこれらの関連資料は通常、個別に作成されるものであり、どの関連資料とどのマルチメディアデータが対応するかは記録されていても、関連資料中の各部分が、マルチメディアデータ中のどの部分に対応するかまでは分からないことが多い。よって例えば、キーワード検索によりある議事録中のある発言を検索して、特定の一本のビデオが目的のものだと分かったとしても、必要な発言の部分が、そのビデオ中のどこにあるのか見るためには、ビデオを先頭から順に調べていくなどの作業が必要になる。
【0007】
人手で、マルチメディアデータとその関連資料を内容に至るまで対応づけることはできる。一旦対応付けが完了すれば、それはマルチメディアデータの詳細なインデックスとして機能し、関連資料を介して、マルチメディアデータに対するキーワード検索や、指定した箇所のみの再生などが可能となる。しかし、人手で対応付けをとるには、大きな労力が必要となる。
【0008】
また、特許文献1では、ビデオや音声クリップの音声認識テキストと書き起こしとのマッチングを自動的に取ることができる。しかし、この技術には以下に挙げる3つの問題がある。
【0009】
第1の問題は、書き起こしが発話者の発話を正確に記録したものであり、余計なテキストが含まれていてはならない、ということである。一般に、シナリオや講演原稿などの書き起こしには、注釈やナレーションなどのような発話以外のテキストが含まれているが、特許文献1ではこのようなテキストが存在するとマッチング精度が悪化する。
【0010】
第2の問題は、対応をとるビデオや音声クリップ全体の書き起こしを作成しなければならない、という点である。たとえインデックスが必要になる部分が、ビデオや音声クリップの一部だけであっても、マッチングを取るためには全体の書き起こしを作成しなければならない。またプレゼンテーション資料のような、内容が共通してはいるが正確な書き起こしでないテキストともマッチングできない。
【0011】
第3の問題は、マッチングが音声認識結果にのみ依存しているという点である。マッチングを正確に取るためには、音声認識精度が良くなければならない。
【0012】
本発明の目的は、このような問題点を解消するためになされたものであり、入力されたマルチメディアデータに音声認識をかけて得られたテキストと、関連資料をそれぞれ別途に構造解析し、得られた構造情報を利用して音声認識テキストと関連資料とのマッチングをとり、元のマルチメディアデータのインデックスとするインデックス作成装置、方法、および、プログラムを提供することである。
【0013】
【課題を解決するための手段】
本発明の第1のインデックス作成装置は、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識手段と、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析手段と、前記音声認識手段からの音声認識テキスト、および、前記関連資料構造解析手段からの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成手段と、を有することを特徴とする。
【0014】
本発明の第2のインデックス作成装置は、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識手段と、前記音声認識手段からの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析手段と、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析手段と、前記音声認識テキスト構造解析手段からの音声認識テキスト構造情報、および、関連資料構造解析手段からの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成手段と、を有することを特徴とする。
【0015】
本発明の第3のインデックス作成装置は、前記第1、または、第2のインデックス作成装置であって、前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成手段を有することを特徴とする。
【0016】
本発明の第4のインデックス作成装置は、前記第1、第2、または、第3のインデックス作成装置であって、前記インデックス出力手段からのインデックスを編集するインデックス編集手段を有することを特徴とする。
【0017】
本発明の第5のインデックス作成装置は、前記第4のインデックス作成装置であって、利用者により指定された箇所または内容を出力する前記インデックス編集手段と、前記インデックス編集手段からの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整手段と、前記マッチング範囲・条件調整手段からの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成手段とを有することを特徴とする。
【0018】
本発明の第6のインデックス作成装置は、前記第5のインデックス作成装置であって、再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成手段を有することを特徴とする。
【0019】
本発明の第7のインデックス作成装置は、前記第1、第2、第3、第4、第5、または、第6のインデックス作成装置であって、前記インデックス作成手段が、前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用することを特徴とする。
【0020】
本発明の第1のインデックス作成方法は、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識ステップからの音声認識テキスト、および、前記関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、含むことを特徴とする。
【0021】
本発明の第2のインデックス作成方法は、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記音声認識ステップからの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識テキスト構造解析ステップからの音声認識テキスト構造情報、および、関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、を含むことを特徴とする。
【0022】
本発明の第3のインデックス作成方法は、前記第1、または、第2のインデックス作成方法であって、前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成ステップを含むことを特徴とする。
【0023】
本発明の第4のインデックス作成方法は、前記第1、第2、または、第3のインデックス作成方法であって、前記インデックス作成ステップからのインデックスを編集するインデックス編集ステップを含むことを特徴とする。
【0024】
本発明の第5のインデックス作成方法は、前記第4のインデックス作成方法であって、利用者により指定された箇所または内容を出力する前記インデックス編集ステップと、前記インデックス編集ステップからの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整ステップと、前記マッチング範囲・条件調整ステップからの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成ステップとを含むことを特徴とする。
【0025】
本発明の第6のインデックス作成方法は、前記第5のインデックス作成方法であって、再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成ステップを含むことを特徴とする。
【0026】
本発明の第7のインデックス作成方法は、前記第1、第2、第3、第4、第5、または、第6のインデックス作成方法であって、前記インデックス作成ステップが、前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用することを特徴とする。
【0027】
本発明の第1のインデックス作成プログラムは、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識ステップからの音声認識テキスト、および、前記関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、をコンピュータに実行させることを特徴とする。
【0028】
本発明の第2のインデックス作成プログラムは、マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記音声認識ステップからの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識テキスト構造解析ステップからの音声認識テキスト構造情報、および、関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、をコンピュータに実行させることを特徴とする。
【0029】
本発明の第3のインデックス作成プログラムは、前記第1、または、第2のインデックス作成プログラムであって、前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成ステップをコンピュータに実行させることを特徴とする。
【0030】
本発明の第4のインデックス作成プログラムは、前記第1、第2、または、第3のインデックス作成プログラムであって、前記インデックス作成ステップからのインデックスを編集するインデックス編集ステップをコンピュータに実行させることを特徴とする。
【0031】
本発明の第5のインデックス作成プログラムは、前記第4のインデックス作成プログラムであって、利用者により指定された箇所または内容を出力する前記インデックス編集ステップと、前記インデックス編集ステップからの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整ステップと、前記マッチング範囲・条件調整ステップからの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成ステップとをコンピュータに実行させることを特徴とする。
【0032】
本発明の第6のインデックス作成プログラムは、前記第5のインデックス作成プログラムであって、再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成ステップをコンピュータに実行させることを特徴とする。
【0033】
本発明の第7のインデックス作成プログラムは、前記第1、第2、第3、第4、第5、または、第6のインデックス作成プログラムであって、前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用する前記インデックス作成ステップをコンピュータに実行させることを特徴とする。
【0034】
【発明の実施の形態】
本発明の第1の実施の形態について図面を参照して詳細に説明する。
【0035】
図1は、本発明の第1の実施の形態のインデックス作成装置の構成を示すブロック図である。
【0036】
図1を参照すると、本発明の第1の実施の形態は、ビデオテープや音楽テープ、あるいはデジタル情報として記録されたMPEGファイル等のマルチメディアデータを受け付けるマルチメディアデータ入力装置11と、入力されたマルチメディアデータのオーディオトラックに対して音声認識を実行する音声認識装置12と、音声認識テキストに対して構造解析を実行する音声認識テキスト構造解析部13と、マルチメディアデータの関連資料の入口となる関連資料入力装置14と、入力された関連資料の構造解析を行う関連資料構造解析部15と、構造解析を利用して音声認識テキストと関連資料とのマッチングを行うマッチング処理部16と、入力や構造解析状況に応じたマッチングの組合せや手順を規定する規則を格納するマッチングルールデータベース17と、マッチングの結果に従ってインデックスを作成するインデックス作成部18と、作成されたインデックスを出力するインデックス出力装置19とから構成される。
【0037】
マルチメディアデータ入力装置11は、ビデオテープや音楽テープ、または、DVD(デジタルビデオディスク)、ハードディスク等に記録されているデジタルデータ、あるいはネットワークを通して配信されるデジタルデータなど、本発明の利用者が選択した媒体・形式のマルチメディアデータを受け取り、入力とする。ついで、必要ならば入力されたマルチメディアデータの信号トラックごとに、以後の処理に適したデータ形式に変換する。
【0038】
音声認識装置12は、マルチメディアデータ入力装置11が受理し、必要に応じてデータ形式変換を行った、入力データから、音声が含まれているオーディオトラックを選択し、それに対して音声認識を実行する。ステレオ録音などで、音声が含まれているオーディオトラックが複数存在する場合には、信号対雑音比が一番いいトラックなどの基準で、そのどれかを選択し、それに対して音声認識を実行する。あるいは、複数のオーディオトラックをマージして、それに対して音声認識を実行する方法も考えられる。どの方法をとるかは、あらかじめ入力の種類毎に判定規則を定めておくか、発明の利用者に選択させる。音声認識結果のテキストには、単語などの任意の単位毎に、その文字列単位が音声認識された時間情報も付与する。例えば、入力されたビデオの先頭から数えて390秒目と391秒目の間に「今日は」という単語が認識されたとき、「今日は」という単語と開始時間390秒、終了時間391秒、という時間情報を組にして取り扱う。また必要ならば、音声認識された単語に品詞などの言語情報も付与する。オーディオトラックの音響的特徴から話者を判定する話者判定技術を用いて、どの発話からどの発話までが同じ話者なのかを示す話者情報を付与しても良い。付与された情報は、音声認識テキスト構造解析部13で、音声認識テキストの構造解析をするための手がかりの1つとして用いられる。さらに、音声認識テキストとしては、音声認識の一位候補だけでなく、ワードグラフのような複数の認識候補を持つ形式で出力しても良い。なお、ここでは音声認識テキストに時間情報を付与すると書いているが、この時間情報の記述の仕方は、必ずしももとのマルチメディアデータの先頭から数えて何秒目といった、直接的な時間表現でなくて構わない。もとのマルチメディアデータの何フレーム目、データストリームの何バイト目などのように、音声認識された単語と、もとのマルチメディアデータ中の位置が対応付けできる情報であるのならば、それでよい。
【0039】
音声認識テキスト構造解析部13は、音声認識装置12が作成した音声認識テキストの構造解析を行う。音声認識テキストは、そのままでは何の構造も持たない単なる単語列である。予め用意された言語知識や認定規則を利用することで、そこから文法的なまとまりや意味的なまとまり、それらの区切りとなる箇所などの構造を抽出することができる。
【0040】
図2は、抽出されうる構造とそれを判定するための手がかりとなる情報の例を示す説明図である。
【0041】
図2を参照すると、文は連続した発話中において、文法的あるいは意味的にまとまった最小の単位である。これを判定する基準としては、発話間のポーズ長や、単語間の連続出現頻度関係を表すバイグラムやトライグラムなどの統計的言語情報、さらに文末や文頭によく見られる特徴的な表現や、文法規則などがある。トピックは大きな話題のまとまりであり、ポーズ長や、使用される単語の出現傾向を表す単語頻度ベクトル、話題の切り替わりや終わりを示す特徴的な手がかり表現、談話構造等から判定される。サブトピックはトピックのように話題が切り替わるわけではないが、その発話部分を仮に書き言葉に直したとき、改行や、段落分け、箇条書き、注釈書き、などの手法によって表記上区分けされうるようなまとまりである。
【0042】
例えば「第1の問題点は〜」「第2の問題点は〜」のような発話から得られた認識単語列は、繰り返される特徴的な手がかり表現によって、サブトピックの箇条書き表現であると判定される。発話間に大きなポーズがあるところは、段落間の区切りであり得る。「ここでFTLと述べましたがこれはFaster Than Light すなわち超光速の意味ですが〜」のような発話は、特徴的なパターン表現「〜は〜すなわち〜の意味」を調べることで、注釈となりうる箇所であると判断される。音声認識テキストからは、こうした図2で挙げたような構造が、始点と終点がはっきりした区間として抽出される場合と、一方の端がはっきりしない区切り点として抽出される場合がある。
【0043】
また、音声認識装置12において、音声認識テキストにどの発話からどの発話までが同じ話者なのかを示す話者情報が付与されている場合には、この話者情報も構造情報の一種として取り扱う。図2に挙げられているのは、音声認識テキストから抽出される構造の例であり、本発明を実施する際の目的や用途、入力の種類によって、適宜変更して構わない。また、同じ音声認識単語列は構造の種類が異なれば、複数の構造に属して構わない。例えば、ある単語からある単語までの音声認識単語列は、文であると同時に、あるサブトピックの終端であり、さらにあるトピックの一部であってよい。ただし、同時に複数の文に属することはないし、同時に複数のトピックに属することもない。これは同じ種類の構造で、重なる部分があると、後にマッチング処理部16で対応をとるときに、1体1のマッチングがとれなくなるためである。
【0044】
音声認識テキストの構造解析の手順としては、まず単語間のポーズ長や、単語頻度ベクトルなど、構造解析に必要な情報を計算し、ついで得られた情報をもとに、予め用意された言語知識や認定規則に従って、構造解析を行う。
【0045】
関連資料入力装置14は、マルチメディアデータ入力装置11に入力されたマルチメディアデータの書き起こしや議事録、シナリオ、講演用原稿、プレゼンテーション資料、参考図書などのような関連資料を入力として受け取り、その種類やファイル形式を判定して、必要なら後の処理に都合のいい形式にデータ変換する。
【0046】
関連資料構造解析部15は、入力された関連資料からテキストデータを抽出し、その構造解析を行う。関連資料から解析できる構造情報は、抽出したテキスト本文を言語解析することで得られる情報と、テキストの書式情報、そして、関連資料のファイル中に各ファイル形式に応じたタグとして埋め込まれた情報とに、大きく分けられる。
【0047】
図3は、関連資料から抽出できる構造と、その手がかりとなる情報、対象となる関連資料の種類との例を示す説明図である。
【0048】
文やサブトピック、トピックは音声認識テキストの解析で得られる構造と同等のもので、テキスト本文の言語解析によって得られることから、関連資料の種類によらない。前半、後半や第1幕、第2幕などの区切り、話者、章・節などの章立ては、テキスト中に特定の形式で書かれた書式から判定できる。箇条書き、注釈といった情報は、テキストの書式から判定できる場合と、関連資料のファイル中にテキストとは別のタグ情報として記述されている場合とがある。スライド、図表なども関連資料のファイル中のタグ情報から読みとる。図表は、厳密にはテキストの構造情報ではないが、音声認識テキストとのマッチングを取る際に利用できることから、構造情報の1つとして含めても良い。図3に挙げられているのは、関連資料から抽出される構造の例であり、本発明を実施する際の目的や用途、関連資料の種類によって、適宜変更して構わない。また、関連資料から抽出したテキストは複数の構造に属して構わない。例えば、テキスト中のある箇所は、文であると同時に、箇条書きの1つであり、さらにあるトピックの一部であってよい。
【0049】
マッチング処理部16は、音声認識テキストとその構造情報、関連資料から抽出したテキストとその構造情報を読み込み、それらの構造情報を利用して音声認識テキストと関連資料から抽出したテキストのマッチングを取る。一般にマッチングでは、様々なマッチングの組合せに対して、それぞれ何らかの得点が計算できるような評価関数を定義し、その評価関数の出力値が(要する計算時間や計算機資源などの条件が合理的な範囲内で)最大となるような組合せを求める手法が用いられる。本発明では、マッチングを取る2種類のテキストそれぞれの構造情報を利用することで、4つの利点が得られる。1つ目の利点は、場合によってはマッチングが分割可能であるという点である。
【0050】
例えば、ある会議の音声認識テキストが大きく2つの話題に分けられており、会議の議事録も書式から前半、後半に分けられていることが解析されたときは、前半同士、後半同士のマッチングをそれぞれ独立に行い、最後にそれらの結果をまとめればよい。最適マッチングを求めるための評価関数の計算も、一度に全体のマッチングを取る場合に比べて、部分毎に分けて計算した方が一般には容易になる。2つ目の利点は、マッチングを段階的に取ることが可能であるという点である。最初に大まかな構造同士でマッチングを取り、その後でマッチングした各構造の中でそれぞれ詳細なマッチングを取るという手順を踏めば、やはり最適マッチングを求めるための得点計算が容易になり、また結果として作成されるインデックスも構造に応じた階層的なものが得られる。
【0051】
3つ目の利点は、構造情報無しにマッチングをとる場合に比べて、各構造の対応や境界に関する制約をもうけることが可能であるため、境界付近のマッチング精度が向上するという点である。例えば、音声認識テキスト中にサブトピックが一定数連続して存在し、関連資料テキストにも同じ数だけ箇条書きが存在すれば、それらがそれぞれ対応するマッチングの組合せに得点を与える、という規則が設定してあれば、双方のテキストに局所的に、対応関係を示す手がかりとなるような共通する単語が含まれていない場合であっても、対応がとれ、各個条書きの終端を、音声認識テキストの各サブトピックの終端に合わせることができる。4つ目の利点は、関連資料から抽出したテキストがもとのマルチメディアデータと内容的に完全に一致しなくても構わない、という点である。
【0052】
すなわち、関連資料に、もとのマルチメディアデータとは別の内容のテキストが一部含まれていても良いし、またマルチメディアデータだけに存在して関連資料には該当箇所がない場合も許容する。共通する単語などのマッチングの手がかりが一定以下の場合には、その構造をマッチング対象から除外するなどの規則により、これが可能となる。またドラマ映像と台本とのマッチングで、台本中のト書きなどは、映像中に話されることがないため、台本の構造解析後にマッチング対象から完全に除外する、といった場合もあり得る。
【0053】
マッチングルールデータベース17では、これらの利点を踏まえた上で、実際に本発明を実施する際の目的や用途、入力の種類などに応じて設定されたマッチングルールを、予め格納しておく。マッチングルールには、構造同士の可能な対応関係と、構造の境界に関する条件を定めたものと、可能なマッチングの組合せに対する評価関数の計算法を規定するもの、マッチングを部分的、段階的、あるいはその組合せで行う場合の計算順序を定めたものなどがある。また規則中のいくつかの条件や、得点計算法などは、入力等に応じてマッチングの得点や手順を変更するためのパラメータを持っていてもよい。
【0054】
マッチング処理部16は、入力に応じて使用するマッチングルールを判定し、マッチングルールデータベース17から読み込む。さらに、入力や予め利用者が規定した手順に従ってパラメータを調整する。あとは読み込んだマッチングルールに従って、評価関数の出力値が(要する計算時間や計算機資源などの条件が合理的な範囲内で)最大となるような、音声認識テキストと関連資料から抽出したテキストとの最適マッチングを求める。具体的なマッチングの手順も、読み込んだマッチングルールから決定するので、同時に使用されうるマッチングルールに曖昧性や矛盾が生じないよう、予めマッチングルールを作成しておかなければならない。必要ならマッチングルール間に優先順位を定めておいても良い。
【0055】
インデックス作成部18は、マッチング処理部16で求められた最適マッチングの結果を受け取り、それに基づいて、本発明を実施する際の目的や用途に応じたインデックスを作成する。マッチング結果には、関連資料構造解析部15において、関連資料から抽出されたテキストデータや構造情報が、入力されたマルチメディアデータのどの部分に対応するかを示す時間情報が含まれている。その全てをインデックスとしても良いし、必要のない箇所や細かな部分を省いても良い。インデックスのデータ構造としても、インデックスをマルチメディアデータのキーワード検索用に用いるのか、頭出しなどの特殊再生用に用いるのか、などで効率のよいデータ構造が異なってくる。実際に本発明を実施する際のインデックスの使用目的・用途に応じたデータ構造を用いればよい。
【0056】
インデックス出力装置19は、インデックス作成部18が作成したインデックスを出力する。出力先としては、マルチメディアデータを管理・蓄積するデータベースや、本発明で作成されたインデックスを利用してマルチメディアデータを再生する再生装置など、様々な相手が考えられる。本発明を実施する際の目的・用途に応じた形態で、インデックスを出力すればよい。
【0057】
なお、本実施の形態では、マルチメディアデータ入力装置11、音声認識装置12、音声認識テキスト構造解析部13、関連資料入力装置14、関連資料構造解析部15、マッチング処理部16、マッチングルールデータベース17、インデックス作成部18、インデックス出力装置19は、各部の機能を制御するプログラムとして、CD−ROMやフロッピーディスク(登録商標)などの機械読み取り可能な記録媒体に格納して提供され、計算機(コンピュータ)等に読み込まれて実行されるものとしても良い。
【0058】
次に、本発明の第1の実施の形態のインデックス作成装置における動作について説明する。
【0059】
図4は、本発明の第1の実施の形態の音声認識テキスト構造解析の動作を示すフローチャートである。
【0060】
図5は、本発明の第1の実施の形態の関連資料構造解析動作を示すフローチャートである。
【0061】
図6は、本発明の第1の実施の形態のマッチング動作を示すフローチャートである。
【0062】
音声認識テキスト構造解析動作と、関連資料構造解析動作は、どちらが先に実行されても良いし、この2つの動作が並列に実行されても良い。一方、マッチング動作は、音声認識テキスト構造解析動作と、関連資料構造解析動作がともに終了した後で、実行される。マッチング動作の終了を持って、本発明の第1の実施の形態のインデックス作成装置における動作全体の終了となる。
【0063】
以下、図4から図6のフローチャートに従って、各動作の詳細を説明する。
【0064】
本発明の第1の実施の形態の音声認識テキスト構造解析動作では、まず、マルチメディアデータ入力装置11に入力されたマルチメディアデータを、必要に応じてその後の処理に都合の良いデータ形式に変換する。最初から、その後の処理に適したデータ形式で入力された場合には、データ形式変換は実行されない(ステップA1)。次に、音声認識装置12では、あらかじめ定められた基準や発明の利用者が選択した基準に従って、音声認識処理の対象とするオーディオトラックを選択する。最初から音声が含まれているオーディオトラックが1つしかない場合には、それを選択する(ステップA2)。ついで音声認識が実行され、時間情報(あるいはそれに代わる、もとのマルチメディアデータの位置を特定できる情報)が付与された音声認識テキストが出力される(ステップA3)。
【0065】
音声認識テキスト構造解析部13では、時間情報付き音声認識テキストを受け取り、そこから、単語間のポーズ長や、単語頻度ベクトルなど、構造解析に必要な情報を計算する(ステップA4)。ついで得られた情報をもとに、予め用意された言語知識や認定規則に従って、音声認識テキストの構造解析を行う(ステップA5)。最後に時間情報付き音声認識テキストと、構造解析結果を組にして、マッチング処理部16に出力する(ステップA6)ことで、音声認識テキスト構造解析動作が終了する。
【0066】
本発明の第1の実施の形態の関連資料構造解析動作では、まず、関連資料入力装置14に入力された関連資料の種類やファイル形式を判定する(ステップB1)。ついで必要に応じてその後の処理に都合の良いデータ形式に変換する。最初から、その後の処理に適したデータ形式で入力された場合には、データ形式変換は実行されない(ステップB2)。次に、関連資料構造解析部15において、関連資料からテキストデータを抽出する。その際、関連資料のもとのファイル中にそのファイル形式に応じた形で記録されているタグ情報も構造情報の一種として、各テキストデータと組で抽出する(ステップB3)。
【0067】
例えばプレゼンテーション資料において、「2003年度研究計画」という文字列が4枚目のスライドの見出し語として、もとの関連資料ファイル中に記録されていた場合、「2003年度研究計画」という文字列と「スライド4枚目、見出し語」というタグ情報を組にして抽出する。ただし、マッチング処理部16における音声認識テキストとのマッチングに使用しないタグ情報は、もとの関連資料のファイル中に記録されていても抽出しなくて良い。ついで、もとの関連資料の種類やファイル形式に応じて、ステップB3で抽出されたテキストの書式を解析する(ステップB4)。テキスト中で使用されている単語の出現頻度ベクトルの変化や、特徴的な手がかり表現の有無を調べるなど、テキスト本文を言語解析することで得られる構造情報も取得する(ステップB5)。また必要に応じて、図表の有無や、数、大きさ、位置など、入力された関連資料のファイル中に含まれているテキスト以外のデータについても構造情報として抽出する(ステップB6)。図5ではステップB4からステップB6までの処理をこの順に記述しているが、これらの処理の順番は任意であり、全てを並列に行っても良い。最後に抽出した関連資料のテキストと、構造解析結果を全てまとめてマッチング処理部16に出力する(ステップB7)ことで、関連資料構造解析動作が終了する。
【0068】
本発明の第1の実施の形態のマッチング動作では、まず、音声認識テキスト構造解析動作によって出力された音声認識テキストとその構造情報、関連資料構造解析動作によって出力された関連資料テキストとその構造情報を、マッチング処理部16で受け取る(ステップC1)。次に、入力されたマルチメディアデータや関連資料の種類、抽出された構造情報の内容に応じて、使用するマッチングルールを判定し、マッチングルールデータベース17から読み込む。読み込んだマッチングルール中にパラメータが存在する場合には、入力等に応じて、その値を決定する(ステップC2)。ついで、読み込んだマッチングルールのうち、マッチングの対応関係と境界条件を規定するマッチングルールを考慮した上で、マッチング計算の順序や範囲を規定するルールに従って、マッチング計算の手順を決定する。マッチングを部分的、段階的、あるいはその組合せで行う場合には、次にマッチング対象となる範囲と段階をここで決める(ステップC3)。
【0069】
とりあえずマッチングをとる範囲と段階が定まると、その範囲・段階に対して、マッチングルールで規定される評価関数が(要する計算時間や計算機資源などの条件が合理的な範囲内で)最大となるようなマッチングの組み合わせを求める(ステップC4)。ステップC3で定められたマッチング計算の手順を調べて、まだ全てのマッチング計算が終了していない場合には、ステップC3に戻る。一度に全てのマッチング計算を行った場合や、必要回数だけステップC3からステップC5のループを繰り返して、全てのマッチング計算が終了した場合には次に進む(ステップC5)。マッチング計算が終了すると、インデックス作成部18は、マッチング処理部16で求められた最適マッチングの結果を受け取り、それに基づいて、本発明を実施する際の目的や用途に応じたインデックスを作成する(ステップC6)。最後に、作成されたインデックスを、本発明を実施する際の目的・用途に応じた形態で出力する(ステップC7)ことでマッチング動作が終了するとともに、本発明の第1の実施の形態のインデックス作成装置における動作全体の終了となる。
【0070】
以下では、本実施の形態におけるインデックス作成装置の動作について、具体的な例を用いて説明する。
【0071】
この具体例では、マルチメディアデータとして、様々な講演や講義の様子を動画およびステレオ音声データとして録画(録音)した、MPEG1、MPEG2形式などのファイルが、光ディスクやネットワークなどを通して機械読み取り可能な手段でマルチメディアデータ入力装置11に入力されるとする。また入力された講演や講義のスライドを記録したプレゼンテーション資料が、同じく機械読み取り可能な手段で関連資料入力装置14に入力されるとする。
【0072】
入力される各ファイルには、あらかじめ「題目」「講演日時」などの情報が機械読み取り可能な形で付与されており、1回の講演・講義ごとに別々のファイルとして記録されているとする。よって、こうしたマルチメディアデータの視聴者が、視聴したい講演の題目や日時などからファイルを選択すれば、簡単に講演映像の先頭から視聴することができ、また、そのプレゼンテーション資料も調べることができる。しかし、プレゼンテーション資料の内容に同期して、講演映像を視聴することにより、キーワード検索でプレゼンテーション資料中の特定のスライドを検索し、そのスライドに対応する講演映像の箇所のみ再生するなどの操作はできない。そこで、そうした頭出しなどの特殊再生やキーワード検索が可能となるよう、1枚1枚のスライドが映像ファイルのどこに対応するかを示すインデックスを作成する。
【0073】
最初に例えば「題目:特別講演 IT技術の動向、録画:01年12月14日、講演時間50分」といった映像ファイルがMPEG1形式で、マルチメディアデータ入力装置11に入力されると、マルチメディアデータ入力装置11はそのデータ形式を判定し、必要ならば入力されたファイルのオーディオトラックのデータ形式を変換する。音声認識装置12が、例えばサンプリング周波数22KのWAVEファイルを入力とするのならば、入力されたMPEG1ファイルのオーディオトラックだけを分離し、WAVE形式に変換した後で、サンプリング周波数変換のフィルタをかける(ステップA1)。
【0074】
音声認識装置12では、データ形式変換されたステレオのオーディオトラックを受け取り、信号対雑音比を調べて、その比が良い方のオーディオトラックを選択する(ステップA2)。ついで選択されたオーディオトラックに対して、時間情報付きの音声認識を実行する(ステップA3)。
【0075】
図7は、今回の例で作成された音声認識テキストの一部を示す説明図である。
【0076】
図7では、各認識単語の「開始時間」は、その単語が音声認識された時間を、「終了時間」はその単語の音声認識が終了した時間を表している。単位は秒で、入力されたマルチメディアデータの先頭を0秒とする。「品詞」は各認識単語の品詞である。この認識単語列の中には、認識誤りにより、本来の発話と異なる単語も含まれている。
【0077】
音声認識テキスト構造解析部13では、図7のような認識単語列に対して構造解析に必要な情報を計算する。たとえばこの例では、単語間のポーズ長(単語の終了時間と次の単語の開始時間との差)や、動詞とその語尾の形、一定範囲内の単語の出現傾向を表すベクトルの変化量などである(ステップA4)。次に連続した認識単語列から、図2に挙げた3つの構造(文、サブトピック、トピック)を抽出する。認識単語列を文に分けるには、あらかじめ本発明の目的や用途、入力にあわせて用意された言語知識や判定基準を使用する。たとえば「動詞の語尾が終止形で、その後のポーズ長が0.4秒以上あいているとき、そこで文を区切る。ただし、直前の文の区切りから4単語以内の場合はこのルールを適用しない」などの一連のルールを用いることで、図7の認識単語列からは「えー只今紹介をなりましたABC大学工学部の鈴木太郎でございます」が1つの文として抽出される。サブトピックはポーズ長とあるパターンに合致する特徴的な表現で抽出する。
【0078】
図8は、文単位でまとめられた認識単語列とそこから抽出されるサブトピックの例を示す説明図である。
【0079】
たとえば「第1の…、第2の…、第3の…のような繰り返し表現が、文の先頭から数えて5単語以内に存在し、それらの文の間が10秒以上離れていないとき、そこを箇条書き表現として抽出する」のような判定基準を用いることで、図8に示す認識単語列から、箇条書き表現のサブトピックを抽出できる。またこの例では、トピック判定用の基準として単語の出現頻度ベクトルの差が一定の閾値を超えるときというルールを用いたが、1つもトピックに分けることができなかった、とする。認識文字列には、認識誤りが含まれているため、必ずしも全ての構造が正しく抽出できるわけではない(ステップA5)。全ての構造解析が終わると、認識単語列の中で抽出された各文の位置、抽出された箇条書き表現などのサブトピックの位置、検出されたトピックの位置(今回の例では検出されず)などの構造情報を、もとの時間情報付き音声認識単語列とあわせてマッチング処理部16に出力する(ステップA6)。
【0080】
マルチメディアデータ入力装置11に入力された映像データ「題目:特別講演IT技術の動向、録画:01年12月14日、講演時間50分」に対応する、38枚のスライドからなるプレゼンテーション資料が機械読み取り可能なファイル形式で関連資料入力装置14に入力されると、まず、それがプレゼンテーション資料を表すファイル形式であることが判定される(ステップB1)。次に必要に応じてデータ形式の変換が行われるが、今回の例では、そのまま各スライドからテキスト情報が読みとれるため、変換不要であるとする(ステップB2)。
【0081】
図9はスライド毎に抽出されたテキストの例を示す説明図である。
【0082】
関連資料構造解析部15では、プレゼンテーション資料のファイルから、図9に示すように、スライド毎にそのスライドに書かれたテキストと、見出し語を抽出する(ステップB3)。
【0083】
図10は、スライド中の書式によって抽出される箇条書きの例を示す説明図である。
【0084】
さらに、抽出されたテキストの書式も解析する。その結果、図10に挙げるようなスライドからは3項目の箇条書きが検出される(ステップB4)。各スライドのテキスト中で使用されている単語の出現頻度ベクトルの変化や、特徴的な手がかり表現の有無など、テキスト本文の言語解析も行うが、プレゼンテーション資料で使用されるテキストの分量が少ないことから、この例では有意な構造が得られなかったとする(ステップB5)。
【0085】
また、プレゼンテーション資料のファイルから、各スライド中に図表が何枚使用されているかも調べる。図表の有無を調べるのは、後にマッチング処理部16で音声認識テキストとのマッチングを調べるのに、有効な手がかりとなるからである。例えば、図表がたくさん使用されているスライドは、テキストがたくさん含まれているスライドと同様に、多くの音声認識テキストの文と対応させる、というマッチングルールが考えられる。また図表を「この図は〜」「この表では〜」のような特定パターンの認識単語列と対応させる、といったマッチングルールもあり得る(ステップB6)。最後に得られた構造情報をスライド毎にまとめてマッチング処理部16に出力する(ステップB7)。
【0086】
マッチング処理部16では、講演映像の音声認識テキストとその構造情報、プレゼンテーション資料から抽出されたテキストとその構造情報とを受け取る(ステップC1)。ついで、入力された関連資料の種類がプレゼンテーション資料であること、音声認識テキストから抽出された構造情報が文と箇条書き表現であること、関連資料から抽出された構造情報が、スライド毎のテキストと見出し語、書式情報、図表の有無であることから、それらに関するマッチングルールをマッチングルールデータベース17から読み込み、パラメータを決定する。
【0087】
図11は、読み込んだマッチングルールの例を示す説明図である。
【0088】
図11を参照すると、関連資料の種類欄、対象欄が読み込むマッチングルールを決める基準となる。今回の例では、特に変更するパラメータがなかったとする(ステップC2)。
【0089】
使用するマッチングルールが定まると、それらのうち、マッチングの対応関係と、境界条件とを規定するマッチングルールに則って、どの構造とどの構造のマッチングを求めるのか、またその制約事項は何かを決定する。今回の例では、図11の上から1番目と2番目のルールによって、講演の最初から順に各スライドとそこで話された文との対応をとっていくことが分かる。また3番目のルールによって、図8で挙げた箇条書き表現のサブトピックと、図10に挙げたスライド中の箇条書きとがマッチング計算なしに対応づけられる。
【0090】
ここで3番目のルール中にある「双方のテキスト全体に対する出現位置のずれが一定割合以下」であるとは、図8の箇条書き表現が50分の講演全体の中での出現する位置が、(箇条書き表現の開始時間:1421秒)/(全体の時間:50分×60秒)=約0.47であるのに対して、図10の箇条書きの全プレゼンテーション中での出現位置が、(箇条書きを含むスライド:18枚目)/(全体の枚数:38枚)=約0.47と、非常に近いことを意味する。
【0091】
図12は、マッチングをとる構造、および、範囲を示す説明図である。
【0092】
さらにマッチングの計算順序と範囲を規定する図11の上から4番目のルールに従って、この例でのマッチング手順が図12のように2つの部分に分けられることが定まる。第1のマッチング計算範囲は、スライド1からスライド18の箇条書きの手前までである。第2のマッチング計算範囲は、スライド18の箇条書き表現の先頭から、最後のスライド38まで。音声認識テキストから抽出された箇条書き表現の始まりの境界が「第1の利点」という特徴表現によって、判定しやすいのに対して、終わりの境界がどこまでか判定しにくいため、対応づけられた箇条書き部分は、第2のマッチング計算範囲に含める(ステップC3)。
【0093】
マッチングをとる範囲と手順が定まると、まず第1のマッチングの計算範囲に対して、図11の上から5番目のルールに定義されている評価関数が最大となるようなマッチングの組合せを求める。評価関数の値が最大となるような組合せを効率よく求める手法に関しては、本発明の対象と異なるため詳しくは説明しない(ステップC4)。次にマッチング計算が全て終了しているか判定する。
【0094】
この例では、まだ第1のマッチング範囲の計算しか終えていないため、ステップC3に戻る(ステップC5)。再びマッチングを取る構造と範囲を調べて、図12の第2のマッチング計算範囲が残っていることが分かる(ステップC3)。そこで、第2のマッチング計算範囲に対しても同様に、図11の上から5番目のルールに定義されている評価関数が最大となるようなマッチングの組合せを求める(ステップC4)。第2のマッチング計算が終了すると、全体に対して最適なマッチングの組合せが求められたことになるので、マッチングを終了する(ステップC5)。
【0095】
インデックス作成部18では、全体のマッチング結果を受け取り、インデックスを作成する。今回の例では、1枚1枚のスライドが映像ファイルのどこに対応するかを示すインデックスを作成することが目的であるから、スライド毎に、それに対応する、最初の音声認識テキストの文の開始時間と、最後の音声認識テキストの文の終了時間とをもって、そのスライドの開始時間、終了時間とし、その情報をスライド毎のインデックスとする。キーワード検索などに用いる場合には、さらにプレゼンテーション資料から抽出したスライド毎のテキストや、必要ならスライドに対応する音声認識テキストも、インデックスに付与する(ステップC6)。
【0096】
インデックス出力装置19では、インデックス作成部18で作成されたインデックスを、テキスト形式や検索用のバイナリ形式など、本発明を実施する際の目的・用途に応じた形式に変換し、それを計算機のハードディスクやディスプレイ、ネットワークなど、本発明の目的・用途に応じた媒体を通して出力する(ステップC7)。
【0097】
このようにして本発明の第1の実施の形態のインデックス作成装置における動作全体が終了する。
この具体例では、プレゼンテーション資料の全38枚のスライドに対して、各スライドが元の映像ファイル「題目:特別講演 IT技術の動向」の何秒目から何秒目までに対応しているかを示すインデックスが作成されることになる。こうしたインデックスを用いると、インデックスがない場合には不可能な特殊な再生が可能になり、元の映像ファイルの検索・編集も容易となる。特殊な再生の例としては、講演映像に同期してプレゼンテーション資料も出力する、特定のキーワードに関する講演部分だけを順次再生する、などがある。また、講演映像の大まかな目次として、プレゼンテーション資料の各スライドの見出し語と、各スライドの先頭の時間をまとめて出力する、といった利用法も考えられる。
【0098】
またこの具体例では、1つの映像ファイルと1つのプレゼンテーション資料が対応している1対1の場合について説明したが、マルチメディアデータとその関連資料が、1対多、多対1、さらに多対多で対応する場合も、同様にインデックスを作成することができる。例えば大学の講義等で、1つの教科書(関連資料)と複数回に渡る講義(ビデオファイル)があるとき、それぞれの講義ビデオに対して音声認識テキスト構造解析動作を行う。教科書に対しては、関連資料構造解析動作によって、章や節などの構成毎に大まかに分ける。後はマッチング動作において、共通の単語の出現頻度などを手がかりにどのビデオファイルが、どの章や節に対応するか大まかに調べ、ついで各部分毎に細かな対応をとる(ステップC3〜ステップC5)。このように、入力が複数ある場合には、その数だけ、音声認識テキスト構造解析動作や関連資料構造解析動作を行う。そして得られた構造を利用して、入力の種類や発明の用途に応じて、段階的にマッチングを取っていけばよい。
【0099】
次に本発明の第2の実施形態について図面を参照して詳細に説明する。
【0100】
図13は本発明の第2の実施の形態のインデックス作成装置の構成を示すブロック図である。
【0101】
図13において、図1と同等部分は同一符号にて示している。図13を参照すると、本発明の第2の実施の形態は、本発明の第1の実施の形態に加えて、マッチング範囲・条件調整部20とインデックス編集インタフェース21とを有する点で異なる。他の部分は、本発明の第1の実施の形態と共通であるため、ここでは説明を省略し、追加の構成についてのみ述べる。
【0102】
マッチング範囲・条件調整部20は、少なくとも1度マッチングが終了した後で、再度マッチング計算を行うときに、マッチングの範囲や条件を調整する機構である。マッチングの再計算は、本発明の第2の実施の形態の目的や用途、入力の種類などに応じて予め規定されていた再計算条件が満たされたときに行われる場合と、インデックス編集インタフェース21を通して、利用者の要求に従って適宜行われる場合とがある。前者の場合、マッチング範囲・条件調整部20は、直前のマッチングが終わった後にインデックス作成部18が作成するインデックスと、そのもとになるマッチング結果を調べ、予め規定されていた再計算条件に合致すると、マッチング再計算の要求をマッチング処理部16に伝える。その際、新たなマッチングの範囲や条件も直前のマッチング結果に応じて決定し、追加のマッチングルールの形でマッチング処理部16にわたす。後者の、利用者の要求に従って行われる場合は、マッチングの再計算の仕方を決定するマッチングルールは、利用者の要求内容に応じて作成し、マッチング処理部16にわたす。
【0103】
インデックス編集インタフェース21は、インデックス出力装置19が出力するインデックスを本発明の第2の実施の形態の利用者が適宜編集するためのインタフェースである。利用者は、計算機上のキーボード入力やマウスの操作など、本発明の第2の実施の形態の用途・目的に都合のよい任意の手段を用いて、インデックスを編集できるものとする。またこの際、インデックスの内容が適切であるかどうか確認するために、もとのマルチメディアデータや関連資料を、その時点でのインデックスに応じて、検索・再生可能な出力機能を備えていても良い。
【0104】
インデックスの編集の仕方としては、2通りの手法が考えられる。1つ目は、利用者が直接インデックスの内容を手動で修正する手法である。2つ目は、インデックスのある箇所に対して、利用者が単にその箇所が間違っていると指摘したり、「もとのマルチメディアデータのより前方と対応するはずである」、「もとのマルチメディアデータのより後方と対応するはずである」、のように大まかな修正のヒント情報を与えたりすることにより、後は自動的に修正させる手法である。この場合、インデックス編集インタフェース21は、利用者が指摘した箇所や内容をマッチング範囲・条件調整部20に伝えて、マッチングの再計算を促す。インデックス編集インタフェース21は、本発明の実施の形態の用途・目的に応じて、この2つの編集手法のいずれか一方、あるいは両方を備える。
【0105】
なお、本発明の第2の実施の形態では、マルチメディアデータ入力装置11、音声認識装置12、音声認識テキスト構造解析部13、関連資料入力装置14、関連資料構造解析部15、マッチング処理部16、マッチングルールデータベース17、インデックス作成部18、インデックス出力装置19、マッチング範囲・条件調整部20、インデックス編集インタフェース21は、各部の機能を制御するプログラムとして、CD−ROMやフロッピーディスク(登録商標)などの機械読み取り可能な記録媒体に格納して提供され、計算機(コンピュータ)等に読み込まれて実行されるものとしても良い。
【0106】
次に、本発明の第2の実施の形態のインデックス作成装置における動作について説明する。
【0107】
図14は、本発明の第2の実施の形態のマッチング再計算およびインデックス編集動作を示すフローチャートである。
本発明の第2の実施の形態のインデックス作成方法は、図4のフローチャートで示される音声認識テキスト構造解析動作と、図5のフローチャートで示される関連資料構造解析動作と、図14のフローチャートで示されるマッチング再計算およびインデックス編集動作からなる。音声認識テキスト構造解析動作と、関連資料構造解析動作は、どちらが先に実行されても良いし、この2つの動作が並列に実行されても良い。一方、マッチング再計算およびインデックス編集動作は、音声認識テキスト構造解析動作と、関連資料構造解析動作がともに終了した後で、実行される。マッチング再計算およびインデックス編集動作の終了を持って、本発明の第2の実施の形態のインデックス作成装置における動作全体の終了となる。
【0108】
また本発明の第2の実施の形態における、音声認識テキスト構造解析動作と、関連資料構造解析動作は、本発明の第1の実施の形態での音声認識テキスト構造解析動作と、関連資料構造解析動作と同一である。よって、図14に従って、マッチング再計算およびインデックス編集動作のみ説明する。
【0109】
本発明の第2の実施の形態のマッチング再計算およびインデックス編集動作では、まず、音声認識テキスト構造解析動作によって出力された音声認識テキストとその構造情報、関連資料構造解析動作によって出力された関連資料テキストとその構造情報を、マッチング処理部16で受け取る(ステップD1)。次に、入力されたマルチメディアデータや関連資料の種類、抽出された構造情報の内容に応じて、最初のマッチングで使用するマッチングルールを判定し、マッチングルールデータベース17から読み込む。読み込んだマッチングルール中にパラメータが存在する場合には、入力等に応じて、その値を決定する(ステップD2)。
【0110】
ついで、与えられたマッチングルールに従って、マッチング計算の手順を求める。ここで、与えられたマッチングルールとは、ステップD2で最初にマッチングデータベース7から読み込まれたマッチングルールと、再計算用にマッチング範囲・条件調整部20で作成されたマッチングルールとがあり得る。もしそれらのマッチングルールの中に矛盾したものがあった場合には、優先度の高いマッチングルールや、再計算用のマッチングルールに従う。具体的なマッチング計算の手順は、それらのなかで、マッチングの対応関係と境界条件を規定したマッチングルールを考慮し、その上で、マッチング計算の順序や範囲を規定したルールに従って決定する。マッチングを部分的、段階的、あるいはその組合せで行う場合には、次にマッチング対象となる範囲と段階をここで決める(ステップD3)。
【0111】
とりあえずマッチングをとる範囲と段階が定まると、その範囲・段階に対して、マッチングルールで規定される評価関数が(要する計算時間や計算機資源などの条件が合理的な範囲内で)最大となるようなマッチングの組み合わせを求める(ステップD4)。ステップD3で定められたマッチング計算の手順を調べて、まだ全てのマッチング計算が終了していない場合には、ステップD3に戻る。一度に全てのマッチング計算を行った場合や、必要回数だけステップD3からステップD5のループを繰り返して、全てのマッチング計算が終了した場合には次に進む(ステップD5)。
【0112】
マッチング計算が終了すると、インデックス作成部18は、マッチング処理部16で求められた今回のマッチング結果を受け取り、それに基づいて、本発明を実施する際の目的や用途に応じたインデックスを作成する(ステップD6)。
【0113】
マッチング範囲・条件調整部20では、インデックス作成部18が作成するインデックスと、そのもとになるマッチング結果を調べ、本発明の実施の形態の目的や用途、入力の種類などに応じて予め規定されていた再計算条件が満たされているかどうか判定する。再計算条件に合致した場合、マッチング再計算用のマッチングルールやパラメータを、直前のマッチング結果に応じて作成し、マッチング処理部16にわたして、ステップD3に戻る。再計算条件に合致しない場合には、ステップD8に進む(ステップD7)。
【0114】
インデックス出力装置19では、インデックス作成部18で作成されたインデックスを、本発明を実施する際の目的・用途に応じた形態で出力する(ステップD8)。
【0115】
インデックス編集インタフェース21では、インデックス出力装置19が出力するインデックスに対して、利用者からの編集操作がないか、編集操作があったとき、それはマッチングの再計算を必要とするものかを調べる。インデックス中のある箇所に対する間違いの指摘や、「もとのマルチメディアデータのより前方と対応するはずである」、「もとのマルチメディアデータのより後方と対応するはずである」、のように修正の大まかな指示があった場合には、指示内容をマッチング範囲・条件調整部20にわたす。マッチング範囲・条件調整部20では、利用者の指示内容に応じて、マッチングルールデータベース17を使用して再計算用のマッチングルールを設定し、マッチング処理部16にマッチングの再計算を促して、ステップD3に戻る。インデックス編集インタフェース21において、マッチングの再計算を必要とする編集操作がない場合には、ステップD10に進む(ステップD9)。
【0116】
インデックス編集インタフェース21で、利用者が直接インデックスを編集・修正する操作要求があった場合には、その要求に従ってインデックスを直し、再度、インデックス出力装置19から編集後のインデックスを出力する。編集操作がなかった場合には、インデックスはそのまま保持する(ステップD10)。
【0117】
これによって、マッチング再計算およびインデックス編集動作が終了するとともに、本発明の第2の実施の形態のインデックス作成装置における動作全体の終了となる。ただし、インデックス編集インタフェース21では、一旦本発明の第2の実施の形態のインデックス作成動作が終了した後、任意の時点で、利用者からのインデックス編集要求を受け付けて良い。また図14では、ステップD9とステップD10をこの順番で1度ずつのみ行っているが、利用者からの編集操作によっては、この動作を必要なだけ繰り返して良い。たとえば、利用者が直接手動でインデックスのある箇所を修正した後で、さらに再計算を行うこともあり得る。
【0118】
以下では、本発明の第2の実施の形態におけるインデックス作成動作について、具体的な例を用いて説明する。
【0119】
この具体例では、本発明の第1の実施の形態の具体例と同じ入力が同じ条件で与えられ、音声認識テキスト構造解析動作と関連資料構造解析動作が既に終了しているとする。よって、マッチング再計算およびインデックス編集動作のみ説明する。
【0120】
入力と条件が同じであるから、最初のマッチング処理におけるステップD1〜ステップD6の動作も、本発明の第1の実施の形態の具体例におけるステップC1〜ステップC6の動作とまったく同様である。
【0121】
ついでマッチング範囲・条件調整部20で、最初のマッチング結果と、インデックス作成部18が作成するインデックスを調べ、予め用意された再計算条件が満たされるか判定する。今回の例では、「各スライド境界に対応する音声認識テキストの文に含まれる単語列で、スライド境界の文中での出現頻度が、音声認識テキスト全体での出現頻度より一定値以上大きくなるような単語列が存在したとき、その単語列をスライド境界を示す特徴的な表現と認定し、それを利用したマッチング再計算を行う、ただし同じ単語列は1度のみマッチング再計算に利用する」という再計算条件があるとする。
【0122】
これは、講演者がプレゼンテーション資料のスライドを切り替える際に、よく口にする特徴的な表現を見つけだして利用しようという目的から設定された、再計算条件である。今回の例では、「という状況を示しています」という単語列が、最初のマッチングの結果、スライドの終わりに対応する文には6回現れているが、他の文には2回しかあらわれていないとする。そこで、「『という状況を示しています』という単語列が含まれている文が、スライドの終わりに対応するような組合せに対して、評価関数の得点を一定値だけ加算する」という追加のマッチングルールを作成して、マッチング処理部16にわたし、マッチングの再計算を促す(ステップD7)。
【0123】
マッチング処理部16では、最初のマッチングのときに用いたマッチングルールと、新たに追加された1つのマッチングルールを用いて、最初のマッチングのときと同様に処理を進める。その結果、最初のマッチングでは、「という状況を示しています」という単語列を含んでいるが、スライドの内部に対応していた文が2つあったが、新たなマッチングの結果では、そのうちの1つが、さらにスライドの終わりに対応するようになったとする。残った1つの文は、もとのマッチングルールの影響によって、スライドの内部に対応したままである。インデックス作成部18は、このマッチング結果をもとの新たなインデックスを作成する(ステップD3〜ステップD6)。一般に、追加のマッチングルールによって、マッチング精度が向上することが期待されるが、一方、間違ってマッチング結果を悪化させることもあり得るため、本発明の実施の際には、想定される入力の内容・種類などに応じて、追加するマッチングルールやルール中のパラメータを設定しておかなければならない。
【0124】
再びマッチング範囲・条件調整部20で、マッチング結果と、インデックス作成部18が作成するインデックスを調べ、予め用意された再計算条件が満たされるか判定する。今回の例では、再計算条件を満たすような認識単語列は見つからなかったとする。先ほどの「という状況を示しています」は、マッチング再計算に既に利用されているため、再計算条件を満たさない(ステップD7)。
【0125】
インデックス出力装置19では、インデックス作成部18で作成されたインデックスを、本発明を実施する際の目的・用途に応じた形態で出力する。今回の例では、スライド境界に対応する音声認識テキストの文から得られた開始時間と終了時間、さらにスライド中のテキストがまとめられて、スライド毎のインデックスとして、インデックス編集インタフェース21に表示可能な形態で出力される(ステップD8)。
【0126】
インデックス編集インタフェース21では、インデックス出力装置19が出力するインデックスに対して、利用者からの編集操作がないか調べる。今回の例ではたとえば、利用者から「スライド20の終わりはマッチングがずれている。ここは講演映像のより前方と対応するはずである、修正せよ」という内容の編集操作が与えられる。インデックス編集インタフェース21は、この編集操作がインデックスを直接手動で修正する操作でないことから、マッチング再計算を要すると判断し、編集操作内容をマッチング範囲・条件調整部20にわたす。マッチング範囲・条件調整部20では、わたされた編集操作内容から例えば、「スライド1〜スライド18の間と、スライド23〜スライド38までの間は、既に対応づけられているとして固定」「スライド19〜スライド22までを、マッチング範囲とする」「スライド20が、それまで対応していた音声認識文より後の文と対応するような組合せを除外する」というマッチングルールを新たに追加して、マッチング処理部16にわたす(ステップD9)。ここで、マッチングの再計算範囲を、スライド19〜スライド22までに限定しているのは、図12で示したように、スライド18が箇条書き表現によって固定されているからである。スライド20の後方に、既に対応関係が固定されている箇所は存在していないが、マッチング再計算によって新たなマッチングのずれが増える影響範囲を絞るため、後方もスライド22までに限定している。このように構造情報や、これまでのマッチングの対応関係を利用することで、マッチングの再計算範囲を限定することができる。この範囲は、本発明の実施の形態の利用状況に応じて、適宜設定しておく必要がある。マッチング範囲・条件調整部20で、利用者の編集操作に応じたマッチングルールを作成するときに、最初は再計算範囲を大きくとり、再計算のたびに範囲を順に絞っていくような、追加マッチングルールの作成法を用いても良い。
【0127】
マッチング処理部16では、新たなマッチングルールによる条件と、既存のマッチングルールで規定されている評価関数を用いて、スライド19〜スライド22までの範囲のマッチングを再計算する。インデックス作成部18では、スライド1〜スライド18の間、スライド23〜スライド38の間の既存のマッチング結果と、再計算されたスライド19〜スライド22までのマッチング結果を用いて、インデックスを作成する(ステップD3〜ステップD6)。
【0128】
再再度、マッチング範囲・条件調整部20で、マッチング結果と、インデックス作成部18が作成するインデックスを調べ、予め用意された再計算条件が満たされるか判定する。今回の例でも、再計算条件を満たすような認識単語列は見つからなかったとする(ステップD7)。
【0129】
インデックス出力装置19では、インデックス作成部18で作成されたインデックスを、本発明を実施する際の目的・用途に応じた形態で出力する(ステップD8)。
【0130】
インデックス編集インタフェース21では、インデックス出力装置19が出力するインデックスに対して、利用者からの編集操作がないか調べる。今回の例では、利用者からマッチング再計算を必要とするような編集操作は与えられなかったとする(ステップD9)。
【0131】
また利用者は、インデックス編集インタフェース21でインデックス内容を確認の後、直接インデックスを編集する作業も行わなかったとする(ステップD10)。
【0132】
このようにして本発明の第2の実施の形態のインデックス作成装置における動作全体が終了する。
【0133】
この具体例では、プレゼンテーション資料の全38枚のスライドに対して、各スライドが元の映像ファイル「題目:特別講演 IT技術の動向」の何秒目から何秒目までに対応しているかを示すインデックスが作成される。またマッチングの誤りが、利用者のわずかな編集操作によって、修正されている。こうしたインデックスを用いると、元の映像ファイルの検索・再生が、より高精度に可能となる。
【0134】
【発明の効果】
本発明による第1の効果は、ビデオデータなどのマルチメディアデータに対して、その関連資料の構造に応じたインデックスが自動的に作成できることである。関連資料は、書き起こしのようにマルチメディアデータの最初から最後まで過不足なく対応づけられるもの、でなくてよい。この結果、関連資料を介したマルチメディアデータに対するキーワード検索が可能となり、また、マルチメディアデータと関連資料との対応箇所を同期して再生することや、関連資料の特定の箇所に対応するマルチメディアデータを頭出しするなどの特殊再生が可能となる。インデックス自体も、マルチメディアデータの内容を示す目次の一種として活用可能である。
【0135】
本発明による第2の効果は、ビデオデータなどのマルチメディアデータと、その関連資料とのマッチング計算を繰り返し行うことで、精度の良いインデックスを作成できることである。入力されるマルチメディアデータと関連資料の性質や構造が、マッチングの再計算に利用されることで、この効果が達成される。
【0136】
本発明による第3の効果は、ビデオデータなどのマルチメディアデータと、その関連資料の構造に応じたインデックスを、本発明の利用者が少ない操作で編集できることである。利用者の編集操作に応じたマッチング再計算をインタラクティブに行うことで、インデックスに必要な修正を利用者が全て手動で編集する必要がない。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を示すブロック図である。
【図2】音声認識テキストから抽出される構造の例を示す説明図である。
【図3】関連資料から抽出される構造の例を示す説明図である。
【図4】本発明の第1の実施の形態の音声認識テキスト構造解析動作を示すフローチャートである。
【図5】本発明の第1の実施の形態の関連資料構造解析動作を示すフローチャートである。
【図6】本発明の第1の実施の形態のマッチング動作を示すフローチャートである。
【図7】音声認識テキストの例を示す説明図である。
【図8】認識単語列および抽出されるサブトピックの例を示す説明図である。
【図9】プレゼンテーション資料から抽出されるテキストの例を示す説明図である。
【図10】スライド中の書式によって抽出される箇条書きの例を示す説明図である。
【図11】マッチングルールの例を示す説明図である。
【図12】マッチングをとる構造、および、範囲の例を示す説明図である。
【図13】本発明の第2の実施の形態の構成を示すブロック図である。
【図14】本発明の第2の実施の形態のマッチング再計算およびインデックス編集動作を示すフローチャートである。
【符号の説明】
11 マルチメディアデータ入力装置
12 音声認識装置
13 音声認識テキスト構造解析部
14 関連資料入力装置
15 関連資料構造解析部
16 マッチング処理部
17 マッチングルールデータベース
18 インデックス作成部
19 インデックス出力装置
20 マッチング範囲・条件調整部
21 インデックス編集インタフェース
Claims (21)
- マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識手段と、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析手段と、前記音声認識手段からの音声認識テキスト、および、前記関連資料構造解析手段からの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成手段と、を有することを特徴とするインデックス作成装置。
- マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識手段と、前記音声認識手段からの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析手段と、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析手段と、前記音声認識テキスト構造解析手段からの音声認識テキスト構造情報、および、関連資料構造解析手段からの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成手段と、を有することを特徴とするインデックス作成装置。
- 前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成手段を有することを特徴とする請求項1、または、2記載のインデックス作成装置。
- 前記インデックス出力手段からのインデックスを編集するインデックス編集手段を有することを特徴とする請求項1、2、または、3記載のインデックス作成装置。
- 利用者により指定された箇所または内容を出力する前記インデックス編集手段と、前記インデックス編集手段からの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整手段と、前記マッチング範囲・条件調整手段からの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成手段とを有することを特徴とする請求項4記載のインデックス作成装置。
- 再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成手段を有することを特徴とする請求項5記載のインデックス作成装置。
- 前記インデックス作成手段が、前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用することを特徴とする請求項1、2、3、4、5、または、6記載のインデックス作成装置。
- マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識ステップからの音声認識テキスト、および、前記関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、含むことを特徴とするインデックス作成方法。
- マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記音声認識ステップからの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識テキスト構造解析ステップからの音声認識テキスト構造情報、および、関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、を含むことを特徴とするインデックス作成方法。
- 前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成ステップを含むことを特徴とする請求項8、または、9記載のインデックス作成方法。
- 前記インデックス作成ステップからのインデックスを編集するインデックス編集ステップを含むことを特徴とする請求項8、9、または、10記載のインデックス作成方法。
- 利用者により指定された箇所または内容を出力する前記インデックス編集ステップと、前記インデックス編集ステップからの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整ステップと、前記マッチング範囲・条件調整ステップからの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成ステップとを含むことを特徴とする請求項11記載のインデックス作成方法。
- 再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成ステップを含むことを特徴とする請求項12記載のインデックス作成方法。
- 前記インデックス作成ステップが、前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用することを特徴とする請求項8、9、10、11、12、または、13記載のインデックス作成方法。
- マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識ステップからの音声認識テキスト、および、前記関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、をコンピュータに実行させることを特徴とするインデックス作成プログラム。
- マルチメディアデータの音声認識処理を実行し音声認識テキストを作成する音声認識ステップと、前記音声認識ステップからの音声認識テキストの構造解析を行い、音声認識テキスト構造情報を作成する音声認識テキスト構造解析ステップと、前記マルチメディアデータの関連資料の構造解析を行い、関連資料構造情報を作成する関連資料構造解析ステップと、前記音声認識テキスト構造解析ステップからの音声認識テキスト構造情報、および、関連資料構造解析ステップからの関連資料構造情報から前記マルチメディアデータのインデックスを作成するインデックス作成ステップと、をコンピュータに実行させることを特徴とするインデックス作成プログラム。
- 前記マルチメディアデータのインデックスを作成する際に、既存のインデックスを利用して繰り返しインデックスを作成する前記インデックス作成ステップをコンピュータに実行させることを特徴とする請求項15、または、16記載のインデックス作成プログラム。
- 前記インデックス作成ステップからのインデックスを編集するインデックス編集ステップをコンピュータに実行させることを特徴とする請求項15、16、または、17記載のインデックス作成プログラム。
- 利用者により指定された箇所または内容を出力する前記インデックス編集ステップと、前記インデックス編集ステップからの利用者により指定された箇所または内容に基づいて再計算用のマッチングルールを設定するマッチング範囲・条件調整ステップと、前記マッチング範囲・条件調整ステップからの再計算用のマッチングルールに基づいて再度インデックスを作成し直す前記インデックス作成ステップとをコンピュータに実行させることを特徴とする請求項18記載のインデックス作成プログラム。
- 再度インデックスを作成し直す際に、前記関連資料構造解析手段からの関連資料構造情報を利用する前記インデックス作成ステップをコンピュータに実行させることを特徴とする請求項19記載のインデックス作成プログラム。
- 前記マルチメディアデータのインデックスを作成する際に、時間情報、または、マルチメディアデータの特定の位置を示す位置情報を利用する前記インデックス作成ステップをコンピュータに実行させることを特徴とする請求項15、16、17、18、19、または、20記載のインデックス作成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003119738A JP3938096B2 (ja) | 2003-04-24 | 2003-04-24 | インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003119738A JP3938096B2 (ja) | 2003-04-24 | 2003-04-24 | インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004326404A true JP2004326404A (ja) | 2004-11-18 |
JP3938096B2 JP3938096B2 (ja) | 2007-06-27 |
Family
ID=33498887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003119738A Expired - Fee Related JP3938096B2 (ja) | 2003-04-24 | 2003-04-24 | インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3938096B2 (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006178087A (ja) * | 2004-12-21 | 2006-07-06 | Internatl Business Mach Corp <Ibm> | 字幕生成装置、検索装置、文書処理と音声処理とを融合する方法、及びプログラム |
JP2007156286A (ja) * | 2005-12-08 | 2007-06-21 | Hitachi Ltd | 情報認識装置及び情報認識プログラム |
US8532800B2 (en) | 2007-05-24 | 2013-09-10 | Mavs Lab. Inc. | Uniform program indexing method with simple and robust audio feature enhancing methods |
CN108416026A (zh) * | 2018-03-09 | 2018-08-17 | 腾讯科技(深圳)有限公司 | 索引生成方法、内容搜索方法、装置及设备 |
KR20190134115A (ko) | 2018-05-25 | 2019-12-04 | 주식회사 티맥스데이터 | 효율적인 인덱싱을 제공하기 위한 방법, 장치 및 컴퓨터-판독가능 매체에 포함된 컴퓨터 프로그램 |
KR20200029431A (ko) | 2020-03-11 | 2020-03-18 | 주식회사 티맥스데이터 | 효율적인 인덱싱을 제공하기 위한 방법, 장치 및 컴퓨터-판독가능 매체에 포함된 컴퓨터 프로그램 |
KR20200097050A (ko) | 2019-02-07 | 2020-08-18 | 주식회사 티맥스티베로 | 인덱스 관리 방법 |
JP2020174339A (ja) * | 2019-04-08 | 2020-10-22 | バイドゥ ドットコム タイムス テクノロジー (ベイジン) カンパニー リミテッド | 段落と映像を整列させるための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム |
US10860559B2 (en) | 2017-03-20 | 2020-12-08 | TmaxData Co., Ltd. | Computer device for providing tree index |
KR20200136858A (ko) | 2020-11-24 | 2020-12-08 | 주식회사 티맥스티베로 | 인덱스 관리 방법 |
KR102252522B1 (ko) * | 2020-02-17 | 2021-05-13 | 제주대학교 산학협력단 | 내용 기반 동영상 목차 자동생성 방법 및 시스템 |
US11010381B2 (en) | 2018-06-27 | 2021-05-18 | TmaxData Co., Ltd. | Method for managing index |
CN113381922A (zh) * | 2020-03-09 | 2021-09-10 | 阿尔派株式会社 | 电子装置以及信息的再生控制方法 |
WO2024070717A1 (ja) * | 2022-09-27 | 2024-04-04 | 株式会社インタラクティブソリューションズ | 会話支援方法 |
-
2003
- 2003-04-24 JP JP2003119738A patent/JP3938096B2/ja not_active Expired - Fee Related
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006178087A (ja) * | 2004-12-21 | 2006-07-06 | Internatl Business Mach Corp <Ibm> | 字幕生成装置、検索装置、文書処理と音声処理とを融合する方法、及びプログラム |
JP2007156286A (ja) * | 2005-12-08 | 2007-06-21 | Hitachi Ltd | 情報認識装置及び情報認識プログラム |
US8532800B2 (en) | 2007-05-24 | 2013-09-10 | Mavs Lab. Inc. | Uniform program indexing method with simple and robust audio feature enhancing methods |
US10860559B2 (en) | 2017-03-20 | 2020-12-08 | TmaxData Co., Ltd. | Computer device for providing tree index |
CN108416026A (zh) * | 2018-03-09 | 2018-08-17 | 腾讯科技(深圳)有限公司 | 索引生成方法、内容搜索方法、装置及设备 |
CN108416026B (zh) * | 2018-03-09 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 索引生成方法、内容搜索方法、装置及设备 |
US10860561B2 (en) | 2018-05-25 | 2020-12-08 | TmaxData Co., Ltd. | Method and apparatus for providing efficient indexing and computer program included in computer readable medium therefor |
US11468027B2 (en) | 2018-05-25 | 2022-10-11 | Tmaxtibero Co., Ltd. | Method and apparatus for providing efficient indexing and computer program included in computer readable medium therefor |
KR20190134115A (ko) | 2018-05-25 | 2019-12-04 | 주식회사 티맥스데이터 | 효율적인 인덱싱을 제공하기 위한 방법, 장치 및 컴퓨터-판독가능 매체에 포함된 컴퓨터 프로그램 |
US11010381B2 (en) | 2018-06-27 | 2021-05-18 | TmaxData Co., Ltd. | Method for managing index |
KR20200097050A (ko) | 2019-02-07 | 2020-08-18 | 주식회사 티맥스티베로 | 인덱스 관리 방법 |
US11269956B2 (en) | 2019-02-07 | 2022-03-08 | Tmaxdataco., Ltd. | Systems and methods of managing an index |
JP2020174339A (ja) * | 2019-04-08 | 2020-10-22 | バイドゥ ドットコム タイムス テクノロジー (ベイジン) カンパニー リミテッド | 段落と映像を整列させるための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム |
US11758088B2 (en) | 2019-04-08 | 2023-09-12 | Baidu.Com Times Technology (Beijing) Co., Ltd. | Method and apparatus for aligning paragraph and video |
KR102252522B1 (ko) * | 2020-02-17 | 2021-05-13 | 제주대학교 산학협력단 | 내용 기반 동영상 목차 자동생성 방법 및 시스템 |
WO2021167220A1 (ko) * | 2020-02-17 | 2021-08-26 | 제주대학교 산학협력단 | 내용 기반 동영상 목차 자동생성 방법 및 시스템 |
WO2021167238A1 (ko) * | 2020-02-17 | 2021-08-26 | 제주대학교 산학협력단 | 내용 기반 동영상 목차 자동생성 방법 및 시스템 |
CN113381922B (zh) * | 2020-03-09 | 2024-02-27 | 阿尔派株式会社 | 电子装置以及信息的再生控制方法 |
CN113381922A (zh) * | 2020-03-09 | 2021-09-10 | 阿尔派株式会社 | 电子装置以及信息的再生控制方法 |
KR20200029431A (ko) | 2020-03-11 | 2020-03-18 | 주식회사 티맥스데이터 | 효율적인 인덱싱을 제공하기 위한 방법, 장치 및 컴퓨터-판독가능 매체에 포함된 컴퓨터 프로그램 |
KR20200136858A (ko) | 2020-11-24 | 2020-12-08 | 주식회사 티맥스티베로 | 인덱스 관리 방법 |
WO2024070717A1 (ja) * | 2022-09-27 | 2024-04-04 | 株式会社インタラクティブソリューションズ | 会話支援方法 |
Also Published As
Publication number | Publication date |
---|---|
JP3938096B2 (ja) | 2007-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7117231B2 (en) | Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data | |
US7739116B2 (en) | Subtitle generation and retrieval combining document with speech recognition | |
KR100922390B1 (ko) | 멀티미디어 프리젠테이션들의 자동 콘텐트 분석 및 표현 | |
US9066049B2 (en) | Method and apparatus for processing scripts | |
US20100299131A1 (en) | Transcript alignment | |
US20200126583A1 (en) | Discovering highlights in transcribed source material for rapid multimedia production | |
JP3938096B2 (ja) | インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム | |
US20130080384A1 (en) | Systems and methods for extracting and processing intelligent structured data from media files | |
JP2008152605A (ja) | プレゼンテーション解析装置およびプレゼンテーション視聴システム | |
US11947924B2 (en) | Providing translated subtitle for video content | |
Smaïli et al. | Summarizing videos into a target language: Methodology, architectures and evaluation | |
Repp et al. | Segmentation and annotation of audiovisual recordings based on automated speech recognition | |
González-Gallardo et al. | Audio summarization with audio features and probability distribution divergence | |
JP2002312370A (ja) | マルチメディアデータ検索装置、マルチメディアデータ検索方法およびマルチメディアデータ検索プログラム | |
Lindsay et al. | Representation and linking mechanisms for audio in MPEG-7 | |
JPH0981590A (ja) | マルチメディア情報検索装置 | |
JP2003230094A (ja) | チャプター作成装置及びデータ再生装置及びその方法並びにプログラム | |
JP2000067085A (ja) | 非コ―ド化情報のデ―タベ―ス化方式 | |
JPH08123976A (ja) | アニメーション作成装置 | |
JP2004363643A (ja) | ストリームデータの編集方法と編集システム及びプログラム | |
Bahng et al. | CAC: Content-Aware Captioning for Professional Online Lectures in Korean Language | |
Mishra et al. | Indexing and Segmentation of Video Contents: A Review | |
Patil et al. | Pacify based Video Retrieval System | |
KR20230123409A (ko) | 음성 인식을 통한 영상 검색 시스템 및 방법 | |
de Sousa Miranda | Combining multiple parallel streams for improved speech processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061212 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20070115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070306 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070319 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110406 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120406 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120406 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130406 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130406 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140406 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |