JP2008152605A

JP2008152605A - プレゼンテーション解析装置およびプレゼンテーション視聴システム

Info

Publication number: JP2008152605A
Application number: JP2006340825A
Authority: JP
Inventors: Seiichi Nakagawa; 聖一中川; Norihide Kitaoka; 教英北岡; Shingo Togashi; 慎吾富樫; Masaru Yamaguchi; 優山口
Original assignee: Toyohashi University of Technology NUC
Current assignee: Toyohashi University of Technology NUC
Priority date: 2006-12-19
Filing date: 2006-12-19
Publication date: 2008-07-03

Abstract

【課題】利用者がプレゼンテーションの内容を効率的に理解することができるシステムを提供する。
【解決手段】処理装置６は、プレゼンテーション資料の解析を行なう資料解析部１８と、プレゼンテーションの音声情報の解析を行なう特徴抽出部２０、音声認識部２２および音声整形部２４を備えている。要約部２６およびインデックス化部３０は、資料解析部１８、特徴抽出部２０および音声整形部２４からの情報に基づき、要約文を抽出する。また、インデックス部３０は、資料解析部１８および音声整形部２４からの情報に基づき、インデックス（キーワード）を生成する。
【選択図】図２

Description

本発明は、音声と映像を含むプレゼンテーション情報を容易に利用するためのシステムに関し、特に、プレゼンテーション情報を構造化して利用し易くするシステムに関するものである。

講演、講義や各種プレゼンテーションを、音声および映像を含むマルチメディア情報として記録し、記録されたマルチメディア情報を後日、利用することが従来より行なわれている。このようなマルチメディア情報を後日利用する場合、記録された情報をそのまま再生すると、利用者が必要としない部分も再生されるため、利用者の利便性を向上させるための様々な技術が研究されている。その例として、下記に示す特許文献が存在する。
特開２００２−３０４４２０号公報特開２００２−３５１８９３号公報特開２００２−８０５２号公報

特許文献１は、講演内容を複数のセッション毎に分割したり、複数のスライド毎に分割することにより、利用者が希望する特定のセッションや特定のスライドに関連する内容を瞬時に再生可能とするものである。また、特許文献２は、講演内容の音声データから検索用インデックスを作成し、利用者がインデックスを選択することで、利用者が希望する講演内容を瞬時に探し出し、再生を可能とするものである。また、特許文献３は、講演者がプレゼンテーション装置を操作して講演を行なう場合、操作タイミングで講演内容を分割し、分割された情報毎に優先度を設定し、講演を利用者に分かり易く再生するものである。

上述したいずれの特許文献においても、講演より利用者が希望するであろう情報を抽出し、当該情報を用いて利用者の利便性を向上させるものであったが、以下に示す欠点があった。すなわち、特許文献１においては、講演内容をセッション毎やスライド毎に分割しているため、利用者が再生する際には、セッションあるいはスライドの先頭から再生されてしまい、利用者が希望する内容が再生されるまでに時間がかかることがあった。また、特許文献２では、音声データのみから検索用インデックスを作成しているため、音声認識段階で誤認識が発生したり、利用者が希望する場面とは無関係の場面で発した音声をインデックス化する等、検索用インデックスとして利用するには、精度の面で問題があった。また、特許文献３は、講演内容に優先度を設定して再生するものであるため、必ずしも利用者が希望する内容を再生することができなかった。

また、映像と音声を含む講演内容と、講演者が用いたプレゼンテーション資料とをリンクさせ、利用者が希望するプレゼンテーション資料に対応した講演内容を瞬時に再生可能とするシステムは、既に市販されている。しかしながら、このシステムでは、プレゼンでーション資料のスライドに対応する講演内容の先頭からのみ、再生可能であり、利用者が希望する内容が再生されるまで時間がかかってしまっていた。また、このシステムでは、プレゼンテーション資料の各スライドの見出し（題名）によるインデックス化しかできず、利用者の希望するインデックスが存在しない場合があり、利便性をさらに向上させる必要があった。

そこで、本発明は上記課題を解決するためになされたものであり、講演の音声情報と文字情報の両方より検索インデックスを作成し、講演内容とリンクさせることにより、利用者の利便性を向上させることを目的とする。また、同様に要約を生成し、利用者の利便性を向上させることを目的とする。

本発明は上記目的を達成するために創案されたものであり、請求項１に係る発明は、映像および音声を含むプレゼンテーション情報の音声情報を解析する音声情報解析部と、前記プレゼンテーションの際に用いられるスライド資料を解析する資料解析部とを備え、前記音声情報解析部の解析結果と前記資料解析部の解析結果より、前記プレゼンテーションの音声情報の要約文を生成する要約文生成部を備えることを特徴とするプレゼンテーション解析装置によって構成される。上記の構成によれば、プレゼンテーションの音声情報とスライド資料の両方より要約文が生成されるため、いずれか一方によって生成された要約文に比べ、プレゼンテーションの内容を理解し易い要約を生成することができる。なお、プレゼンテーションとは、各種講演や講義、発表をいい、映像および音声を含むプレゼンテーション情報とは、プレゼンテーションを映像記録装置（ビデオカメラ）等で記録した情報を意味する。また、プレゼンテーションの際に用いられるスライド資料とは、各種プレゼンテーションソフトウェアによって作成された資料であり、通常は、パーソナルコンピュータおよびプロジェクタ装置を用いて各種講演の際に聴衆に示されるものである。また、音声情報解析部は、プレゼンテーションの音声情報より、音声認識、音声整形等を行い、プレゼンテーションの各文を認識し、解析するものである。前記スライド資料には、スライドタイトル、見出し、項目等を含み、図、表が含まれることもある。資料解析部は、スライドに含まれる上述の情報のうちすくなくとも１つを解析するものである。

また、要約文生成部は、プレゼンテーション全体の文章から要約文を生成するものであれば良く、例えば、音声情報解析部によって解析されたプレゼンテーションの各文から、要約文に該当する文を抽出して要約文を生成しても良いし、プレゼンテーションの各文を要約し、要約された文を集合させて要約文を生成しても良い。

また、本発明は、前記要約文生成部は、前記音声情報解析部によって認識された文のうち、前記スライドのタイトルに含まれる品詞名詞が出現する文を、要約として抽出することを特徴とするプレゼンテーション解析装置によって構成することもできる。この構成によれば、通常、スライドのタイトルは、プレゼンテーションの内容を示す重要な品詞を含む場合が多いため、タイトルに含まれる品詞を含む文を要約として採用することにより、プレゼンテーションの内容を反映した要約を生成することができる。なお、タイトルに含まれる品詞には、名詞の他に、動詞、形容詞、形容動詞等も含まれる。

また、本発明は、前記要約文生成部は、前記音声情報解析部によって認識された文のうち、前記スライド中に少なくとも一回現れる品詞複数回現れる名詞が出現する文を、要約として抽出することを特徴とするプレゼンテーション解析装置によって構成することもできる。この構成によれば、通常、スライド中に出現する品詞は、プレゼンテーションの内容を示す重要な品詞であることが多いため、スライド中に現れる品詞を含む文を要約として採用することにより、プレゼンテーションの内容を反映した要約を生成することができる。なお、スライド中に現れる品詞は、スライド中に少なくとも一回現れたものを重要な品詞として認識するが、例えば、スライド中に複数回現れる品詞はより重要な品詞として認識することができ、スライド中に数多く現れる品詞ほど、より重要な品詞として認識することができる。

また、本発明は、前記プレゼンテーション情報、前記スライド資料および前記要約文生成部で生成された要約文を表示する表示部を備えるプレゼンテーション視聴システムによって構成することもできる。この構成によれば、プレゼンテーション情報、スライド情報および要約文を同時に表示するシステムのため、利用者がプレゼンテーションの内容を効率的に理解することができる。なお、要約を表示するのに加え、要約の内容を音声出力装置（スピーカー）を用いて再生することもできる。これにより、利用者は映像と音声よりプレゼンテーションの内容を効率良く理解することができる。

また、本発明は、映像および音声を含むプレゼンテーション情報の音声情報を解析する音声情報解析部と、前記プレゼンテーションの際に用いられるスライド資料を解析する資料解析部とを備え、前記音声情報解析部の解析結果と前記資料解析部の解析結果より、前記プレゼンテーションのキーワードを生成するキーワード生成部を備えることを特徴とするプレゼンテーション解析装置によって構成することもできる。この構成によれば、音声情報解析部の解析結果と資料解析部の解析結果よりキーワードが生成されるため、いずれか一方に基づき生成したキーワードに比べ、プレゼンテーションの内容を反映したキーワードを生成することができる。これにより、利用者はキーワードを認識することで、プレゼンテーションの内容を効率よく理解することができる。

また、本発明は、前記プレゼンテーション情報、前記スライド資料および前記キーワード生成部で生成されたキーワードを表示する表示部を備えるプレゼンテーション視聴システムによって構成することもできる。この構成によれば、プレゼンテーション情報、スライド情報およびキーワードを同時に表示するシステムのため、利用者はプレゼンテーションの内容を効率的に理解することができる。

また、本発明は、前記キーワード生成部で生成されたキーワードが発せられた文を、前記プレゼンテーション情報の中から抽出する音声対応区間抽出部をさらに備え、前記表示部に表示されたキーワードが選択された場合、前記表示部は、前記音声対応区間抽出部により抽出された文を発する場面を表示することを特徴とするプレゼンテーション視聴システムによって構成することもできる。この構成によれば、表示部には、選択されたキーワードを含む文を発する場面が即座に表示されるため、利用者は効率良くプレゼンテーションを視聴することができる。なお、表示部が、抽出された文を発する場面を表示することに加え、音声出力装置（スピーカー）から、抽出された文を再生することもできる。これにより、利用者は映像と音声により効率的にプレゼンテーションを視聴することができる。またなお、上述のように、選択されたキーワードと、当該キーワードを含む音声（映像）の区間を対応付けすることは、キーワードを音声（映像）情報と対応させてインデックス化することになるため、以下、インデックスという用語を用いることがある。

また、本発明は、前記表示部は、前記キーワード生成部で生成されたキーワードを、前記スライド資料上に認識可能な態様で重ねて表示することを特徴とするプレゼンテーション視聴システムによって構成することもできる。この構成によれば、生成されたキーワードがスライド上に重ねて表示されるため、利用者が効率的にプレゼンテーションの内容を理解することができる。なお、キーワードをスライド資料上に認識可能な態様で重ねて表示するとは、例えば、スライド上のキーワードに下線を付けてスライド上に重ねて表示しても良いし、スライド上のキーワードを点滅させて表示しても良い。すなわち、認識可能な態様で表示するとは、生成されたキーワードをスライド上の他の用語と区別して表示することを意味し、上記態様に限られず、認識可能であればいかなる態様であっても良い。

また、本発明は、映像および音声を含むプレゼンテーション情報の音声情報を解析する音声情報解析部と、前記音声情報解析部の解析結果より、前記プレゼンテーションのキーワードを生成するキーワード生成部と、前記キーワード生成部で生成されたキーワードが発せられた文を、前記プレゼンテーション情報の中から抽出する音声対応区間抽出部と、前記プレゼンテーション情報およびキーワードを表示する表示部を備え、前記表示部に表示されたキーワードが選択された場合、前記表示部は前記音声対応区間抽出部により抽出された文を発する場面を表示することを特徴とするプレゼンテーション視聴システムによって構成することもできる。この構成によれば、音声情報より解析されたキーワードが選択された場合、即座にキーワードを含む文を発話している場面を表示することができるため、利用者は効率的にプレゼンテーションを視聴することができる。また、本発明は、プレゼンテーション資料の解析を行なわないものであるため、システム全体を簡易に構成することができる。なお、表示部が、抽出された文を発する場面を表示することに加え、音声出力装置（スピーカー）から、抽出された文を再生することもできる。これにより、利用者は映像と音声により効率的にプレゼンテーションを視聴することができる。

本発明は、プレゼンテーション資料と音声情報より、キーワードあるいは要約文を生成するため、キーワードあるいは要約文を参照することで、利用者はプレゼンテーションの内容を効率的に理解することができる。

本発明を実施するための実施の形態について以下に詳細に説明する。図１は、本発明が適用された第１の実施形態のシステム全体の構成を示すシステム図である。プレゼンテーション視聴システム２は、大まかに、メインの記憶装置である主記憶装置４と、処理装置６、ユーザー入力装置８および出力装置１０より構成されている。

主記憶装置４は、講演者のプレゼンテーション資料を記憶するプレゼンテーション資料記憶部１２と、講演者の講演風景を録画し、映像および音声をデータ化して記憶する映像音声記憶部１４より構成されている。プレゼンテーション資料記憶部１２は、市販のプレゼンテーション資料作成用ソフトウェアによって作成されたプレゼンテーション資料のデータが記憶される。また、映像音声記憶部１４には映像入力装置１６が接続されており、映像音声入力装置１６から入力されるデータが映像音声記憶部に記憶される。なお、本実施形態では、通常、主記憶装置４はノート型（ラップトップ型）のパーソナルコンピュータ内のハードディスク装置、ＲＡＭ等であるが、主記憶装置４を、プレゼンテーション資料のデータや映像音声情報のデータを記憶した外部記憶装置（各種記憶媒体にデータを記憶させたもの）で構成しても良い。

次に、図２を用いて、本実施形態の処理装置６について説明する。処理装置６は、主記憶装置４、ユーザー入力装置８および出力装置１０との間でデータ、命令等のやり取りを行うものである。処理装置６は、主記憶装置４で記憶されたデータを解析したり、各種のキーワード等の抽出を行う。プレゼンテーション資料記憶部１２に記憶されたデータは、資料解析部１８に送られる。資料解析部１８では、プレゼンテーション資料をテキストデータ化し、自然言語処理技術を用いた解析が行なわれる。また、プレゼンテーション資料のテキストデータより、テキストデータが単語単位（品詞毎）に分割される。単語単位の分割は、プレゼンテーション資料の各スライドのタイトル、見出し語およびスライドの本文の各部分について行なわれる。また、資料解析部１８では、解析された単語情報が、スライドのタイトル部分の単語情報であるか、スライドの見出し語の単語情報であるか、その他の部分の単語情報であるかが区別して記憶される。また、資料解析部１８では、スライドの図表に関しては、図表の一般的な形式の構造を用いて、テキスト情報項目間の関係が抽出される。

また、処理装置６は、特徴抽出部２０を備えている。特徴抽出部２０では、映像音声記憶部１４に記憶されたデータから音声データを抽出し、音声データを分析し、音声の韻律情報および表層的言語情報の音声特徴量を生成する。特徴抽出部２０で生成された音声特徴量は、音声認識部２２に送られる。音声認識部２２は、映像音声記憶部１４に記憶された音声データから、特徴抽出部２０で得られた音声特徴量を用いて、音声を単語列（文字列）に変換する。

音声認識部２２によって音声データから変換された単語列は、音声整形部２４に送られる。音声整形部２４では、単語列から、「あのー」「まー」「えーと」等の間投詞（あるいは、フィルドフィラー（有声休止））、言い直し、言いよどみ等、プレゼンテーションの内容の理解に関係の無い語や音声区間が削除される。

また、資料解析部１８、音声整形部２４で得られたデータは、要約部２６に送られる。また、特徴抽出部２０では、音声のピッチパターン、音声のパワーパターン、ポーズ長、発話文の長さ等の情報が解析され、要約部２６に送られる。要約部２６では、以下の各特徴量により各文の重要度を設定し、要約として抽出する文を選択する。

ｔｆ：各文中の名詞のｔｆ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ：語の出願頻度）を計算し、各文の名詞のスコアの和を求め、ユーザーが指定する要約率に相当する文数を抽出する。
頻出単語：出現頻度の高い方から、その語を２つ以上含んでいる文の数が全体の要約率になるように語を選び、文を抽出する。

Ｓｌｉｄｅ−Ｔｉｔｌｅ：プレゼンテーション資料のスライドのタイトルに含まれる名詞が出現する文を重要文として抽出する。
Ｓｌｉｄｅ−ｔｆ：プレゼンテーション資料のスライド中に三回以上現れる名詞を頻出単語とし、その頻出単語が一回以上含まれる文を重要文として抽出する。
Ｆ０：文あたりの平均基本周波数の高い文の順に、要約率に相当する文集合を抽出する（スライド情報不使用時、Ｓｌｉｄｅ−ｔｆの代替）
パワー：文あたりの平均パワーの大きい文の順に、要約率に相当する文集合を抽出する（スライド情報不使用時、Ｓｌｉｄｅ−Ｔｉｔｌｅの代替）

発話時間長：発話時間長の長い文から順に、要約率に相当する文集合を抽出する。
特徴量の組合せ：発話速度の大きい文から順に、要約率に相当する文集合を抽出し、発話速度を遅い文を非重要文とし、棄却する。例えば、要約率が２５パーセントの場合は、発話速度の遅い文から１５パーセントを抽出し、要約文から棄却する。同様に本基準は、発話長の短い文を非重要文として棄却することとしてもよい。なお、要約率２５パーセントに対する棄却率１５パーセントは経験則として定めたものである。

特徴量の組合せにおいては、上述した各特徴量に対し、各基準毎に重みを設定し、抽出された文に対し重みつき和を求め、重みの大きい文から順に、ユーザーが設定した要約率に相当する文集合を抽出する。なお、重要文の抽出には様々な方法があるが、例えば、機械学習のＳＶＭ（サポートベクトルマシーン）を用いる場合は、各文の値の組を入力として、重要文であるか否かの２分類問題として解くことができる。以下に具体的な要約文抽出手法について述べる。

指標特徴Ｆ_κによるｉ番目の文Ｓ_ｉに対する重要度の判定結果ＳｃｏｒｅＦ_κを、数１のように定義する。

また、棄却可能な特徴Ｄ_ｐによる文Ｓ_ｉに対する棄却スコアＳｃｏｒｅＤ_ｐも数１と同様に、棄却文に該当する場合は１に、棄却文に該当しない場合は０とされる。その後、すべての文について各基準に基づいてスコアが決定され、最終的な文スコアは数２のようになる。

ここで、α_κ、β_ｐはそれぞれ特徴Ｆ_κ、特徴Ｄ_ｐの寄与度である。実際の実験では、α_κを０から０．６まで０．２刻み、β_ｐは０または−∞で組み合わせた。寄与度の推定は、人間による要約と比較し、κ統計量（κ値）の高かった組合せを採用することで行なった。

要約部２６で抽出された文は、要約文生成部２８に送られる。要約文生成部２８では、抽出された各文が結合され、要約文が生成される。

また、音声整形部２４で整形された単語列と、資料解析部１８で解析された単語列は、インデックス化部３０に送られる。インデックス化部３０では、音声認識部２２、音声整形部２４および資料解析部１８からの情報より、重要語の抽出を行い、抽出された重要語（キーワード）をインデックスとして格納、記憶する。また、資料解析部１８からの情報より、プレゼンテーション資料のタイトルや見出し語をインデックスとして格納、記憶する。

インデックス化部３０で記憶されたインデックスは、音声対応区間抽出部３２に送られる。音声対応区間抽出部３２は、音声データから、インデックス部３０で得られたインデックスを説明している音声区間を抽出し、その音声区間を含む文を特定する。

再生部３４は、要約文生成部２８、音声対応区間抽出部３２、あるいはユーザーからの入力情報等に基づき、映像音声データを再生するものである。例えば、再生部３４では、要約文生成部２８で生成された要約文に基づき、映像音声データを再構築し、要約文生成部２８で生成された要約文どおりに映像音声データを出力装置１０に出力するものである。また、再生部３４は、インデックス化部３０で生成されたインデックスが、利用者であるユーザーに選択された場合、選択されたインデックスに対応する映像音声区間を出力装置１０に出力する。

なお、上述の各部、すなわち、資料解析部１８乃至音声対応区間抽出部３２において、抽出された情報等は処理装置６内の記憶媒体に保存されるため、上述の処理を一度行なえば良く、ユーザーによる視聴毎に上記各部における処理を行なう必要は無い。

次に、出力装置１０について図３を用いて説明する。出力装置１０は、映像出力部３６、音声出力部３８、スライド一覧出力部４０、キーワード一覧出力部４２、スライド出力部４４および要約文出力部４６を備えている。映像出力部３６は、再生部３４からの信号に基づき、映像音声記憶部１４に記憶された映像情報を出力するものであり、通常は、パーソナルコンピュータ装置のディスプレイ装置に出力される。また、音声出力部３８は、再生部３４からの信号に基づき、映像音声記憶部１４に記憶された音声情報を出力するものであり、通常はスピーカーより音声を出力する。

また、スライド一覧出力部４０は、資料解析部１８によって抽出されたスライドのタイトルを一覧として表示するものであり、映像出力部３６と同様にディスプレイ装置に出力するものである。また、キーワード一覧出力部４２は、インデックス部３０により抽出されたキーワードを一覧としてディスプレイ装置に表示するものである。また、スライド出力部４４は、プレゼンテーション資料記憶部１２に記憶されたスライドを出力するものであり、インデックス化部３０によって抽出されたスライド中のキーワードは、スライド中に下線が引かれてディスプレイ装置に表示される。また、要約文出力部４６は、要約文生成部２８で生成された要約文をディスプレイ上に表示するものである。

次に、ユーザー入力装置８の詳細について図４を用いて説明する。ユーザー入力装置８は、要約関連入力部４８、スライド選択部５０、スライド画面キーワード選択部５２およびキーワード選択部５４を備えている。要約関連入力部４８では、要約の速さを決定する「要約速度」、文章全体に対する要約量の割合を決定する「要約率」および出力装置１０の要約文出力部４６に要約文を表示するか否かを決定する「要約文表示設定」がユーザーにより入力される。ユーザーから入力された情報に基づき、再生部３４は要約速度等を決定する。

スライド選択部５０は、スライド一覧出力部４０により表示された各スライドのタイトルから、ユーザーが選択したスライドの情報を処理装置６に出力するものである。また、スライド画面キーワード選択部５２は、スライド出力部４４により表示されたスライド内の単語から、ユーザーが選択した単語の情報を処理装置６に出力するものである。

また、キーワード選択部５４は、キーワード一覧出力部４２により表示されたキーワードから、ユーザーが選択したキーワードの情報を処理装置６に出力するものである。

次に、図５を用いて、本実施形態の動作画面の例を示す。図５は、出力装置１０より出力される情報をディスプレイ装置に出力したものを示す図である。図５において、ディスプレイ装置の左上部には、映像出力部３６からの信号により、プレゼンテーション映像表示部５６が表示されている。プレゼンテーション映像表示部５６の近傍には、再生ボタン、停止ボタン、再生位置を示すスライダ等の操作ボタンが表示されている。また、ディスプレイ装置の左中部には、要約関連入力部４８に関連する要約情報表示部５８が表示されている。この部分には、要約速度の再生、要約率の設定および要約文の表示設定の情報が表示されており、要約関連入力部４８の入力は、要約情報表示部５８の画面をクリックすることにより選択されるものである。また、要約情報表示部５８の下部には、スライド一覧出力部４０からのデータより、スライド一覧表示部６０が表示されている。スライド選択部５０は、スライド一覧表示部６０より１つのスライドのタイトルがユーザーの入力として選択され、処理装置６に情報が伝達される。なお、スライド一覧表示部６０には、スライド一覧表示部６０に一度に表示することができないスライドのタイトルをユーザーが認識することができるように、スクロールバーが設けられている。

また、ディスプレイ装置の左下部には、キーワード一覧出力部４２からのデータより、キーワード一覧表示部６２が表示されている。キーワード一覧表示部６２に表示されたキーワードから、１つのキーワードが選択された場合、キーワード選択部５４より処理装置６に伝達される。なお、キーワード一覧表示部６２には、キーワード一覧表示部６２に一度に表示することができないキーワードをユーザーが認識することができるように、スクロールバーが設けられている。また、キーワード一覧表示部６２には、インデックス化部３０で抽出されたキーワードが時系列順に表示されているが、キーワードの表示順序はこれに限らず、あいうえお順に表示しても良いし、キーワードの重要度の順に表示しても良い。

また、ディスプレイ装置の右上部には、スライド画面表示部６４が表示される。スライド画面表示部６４は、スライド出力部４４によりスライド画面が表示され、インデックス化部３０によって生成されたキーワードがスライド上で下線を引かれた状態で表示される。このスライド上で下線を引かれたキーワードは、スライド画面キーワード選択部５４によって、ユーザーに選択されるのである。なお、スライド画面表示部６４には、スライドを一枚前に戻すためのボタンとスライドを一枚先に送るためのボタンが設けられている。また、ディスプレイ装置右下部には、要約文表示部６６が表示される。要約文表示部６６は、要約文出力部４８の出力を用いて表示され、プレゼンテーション映像表示部５６の再生速度に応じて、要約文がスクロール表示される。なお、要約文表示部６６には、スクロールして表示されなくなった要約文を見るためのスクロールバーが設けられている。

次に、本実施形態の作用について説明する。プレゼンテーションの映像および音声情報がデータ化され、記憶装置４の映像音声記憶部１４に記憶される。また、プレゼンテーションに用いたプレゼンテーション資料のデータが記憶装置４のプレゼンテーション資料記憶部１２に記憶される。次に、処理装置６を用いて、映像音声記憶部１４およびプレゼンテーション資料記憶部１２に記憶されたデータが解析される。

処理装置６における解析では、要約文およびインデックス（キーワード）が解析される。要約の解析では、音声データは特徴抽出部２０、音声認識部２２および音声整形部２４によって解析され、プレゼンテーション資料は資料解析部１８によって解析される。これにより、要約部２６で、全体の文章のうち、要約に用いる文の抽出が行なわれ、要約文生成部２８で要約文が生成される。

また、インデックスの解析では、音声データは特徴抽出部２０、音声認識部２２および音声整形部２４で解析され、プレゼンテーション資料は資料解析部１８で解析される。これにより、音声データおよびプレゼンテーションの両方よりインデックスが生成されることになる。また、インデックス化部３０で生成された各インデックスは、音声データ中のどの部分（時間）に出現したかが解析され、当該インデックスを含む文が音声対応区間抽出部３２によって、全体の文章より抽出される。

上記の解析、記憶が終了した後に、ユーザーにより本プレゼンテーション視聴システム２が作動された場合、図５に示す態様がディスプレイ装置に表示される。ユーザーは、要約情報表示部５８の表示から要約率等を選択した後、プレゼンテーション映像表示部５６近傍の再生ボタンをクリックすると、プレゼンテーション映像表示部５６が再生され、プレゼンテーションの進行に応じて、スライド画面表示部６４が切り替えられる。また、要約文表示部６６は、プレゼンテーションの進行に応じて、抽出された要約文が順次表示されていく。

ここで、キーワード一覧表示部６２のキーワードの一つがユーザーに選択された場合、プレゼンテーション映像表示部５６は、選択されたキーワードを含む文を発話している場面に切り替わり、当該文の最初よりプレゼンテーション映像が再生される。また、スライド画面表示部６４には、プレゼンテーション画面５６に対応するスライドが表示される。また、要約文表示部６６には、選択されたキーワードを含む文から順次要約文が表示される。

次に、スライド画面表示部６４の下線部を引かれたキーワードがユーザーに選択された場合、選択されたキーワードを含む文を発話している場面がプレゼンテーション映像表示部５６に表示される。また、要約文表示部６６には、選択されたキーワードを含む文から順次要約文が表示される。

次に、スライド一覧表示部６０のスライドのタイトルの一つがユーザーに選択された場合、プレゼンテーション映像表示部５６には、選択されたスライドに関して発話している部分の先頭から映像が再生される。また、スライド画面表示部６４には、選択されたスライドの画面が表示され、要約文表示部６６には、選択されたスライドに関連する要約文の先頭から順に要約文が表示される。

なお、要約情報表示部５８の要約率等の選択は、プレゼンテーション再生の前に行なうことができるが、これに限らず、プレゼンテーションの再生中に行なうこともできる。また、プレゼンテーション映像表示部５６の再生位置を示すスライダを操作した場合、プレゼンテーション映像表示部５６の再生位置に応じて、スライド画面表示部６４および要約文表示部６６が切り替えられるようになっている。

次に、本実施形態のプレゼンテーション視聴システム２を用い、効果の検証を行なった。まず、本プレゼンテーション視聴システム２で生成した要約文についての評価について説明する。

（人間による要約との比較評価）
各特徴量による要約結果および特徴量の組合せによる話者ＳＮ（１−１、１−２の平均）と話者ＮＫ（３−１、３−２の平均）の講義の要約結果を図６に示す（要約率は２５パーセント）。なお図６において、「ｔｒｎ」は人手による書き起こしをおこなったものについて要約文を作成したものであり、「ａｓｒ」は音声認識結果を基にして要約文を作成したものである。

また、本比較評価に用いた特徴量および寄与度を図７に示す。図７においては、各特徴量について、スライド情報使用時と不使用時のぞれぞれに、「テキスト」と「音声入力」の寄与度が示されている。なお、「テキスト」とは図３の「ｔｒｎ」（人手により書き起こし）の場合に用いられた寄与度であり、「音声入力」は図３の「ａｓｒ」に用いられた寄与度である。

図６のグラフより、単独の特徴量の中では、頻出単語による要約と発話時間長による要約が、人間による要約に近いという結果が得られた。頻出単語による要約は、本質的にはｔｆと変わらないが、ｔｆが文の長さに影響され易いのに対し、頻出単語では文の長さに関わらず、設定した単語が２回以上出現する文をすべて同位として抽出している点が効果があったものと考えられる。また、発話時間長による要約は、発話時間が長い文が抽出されているので、時間的な要約率は、話者ＳＮで４４パーセント、話者ＮＫで５０パーセントであった。

また、特徴量の組合せによる要約で、話者ＮＫのテキストを用いた要約では、κ値は０．４５１（Ｆ値：０．５８３）となり、音声入力を用いた要約でも、κ値は０．４５８（Ｆ値：０．５８８）となり、人間による要約結果のκ値０．４９０（Ｆ値：０．５９３）と大差ない結果が得られた。これは、特徴量の組合せによる要約では、特徴量に韻律情報および表層的言語情報の両方を用いているため、表層的言語情報のみを用いた要約に比較して、人間による要約に近い要約が生成できていると考えられる。なお、話者ＮＫによる講義では上記の結果が得られたが、これは講義中で、講義の内容と余談部分との区別が明確であったためであると考えられる。これに対し、話者ＳＮの講義では、テキストによる要約と音声入力による要約のκ値の差はやや大きく、κ値で０．３４８−０．３１９（Ｆ値で０．５１８−０．４９７）、人間による要約のκ値０．４７７（Ｆ値：０．５３９）と大きな差があった。

(スライド情報使用による要約の評価)
次に、スライドの情報を使用して生成した要約と、スライドの情報を使用しないで生成した要約の評価について説明する。スライド情報を使用した要約（音声入力）では、話者ＳＮでκ値は０．３１９（Ｆ値：０．５１８）、話者ＮＫでκ値は０．４５８（Ｆ値：０．５８８）であったが、スライド情報を使用しない要約（音声入力）では、κ値は０．２７３（Ｆ値：０．４６３）、話者ＮＫでκ値は０．４２５（Ｆ値：０．５６３）となり、スライド情報を用いた要約の方が人間による要約に近い結果が得られた。

（被験者１０人による要約の評価）
被験者１０人による要約音声の評価を行なった。本評価においては、３つの講義について、人間による要約結果（重要文抽出）に基づく要約音声と、本システムを用いて生成した要約結果（自動要約結果）に基づく要約音声を比較し、被験者１０人より述べ３０人分の回答を得た。

「質問１」どちらの要約音声の方が講義の内容をつかみ易いか？
人間による要約に基づく要約音声の方が良い：１７人
どちらともいえない：９人
自動要約に基づく要約音声の方が良い：４人
「質問２」どちらの要約音声の方が、文のつながり、流れが自然に聴こえたか？
人間による要約に基づく要約音声の方が良い：１６人
どちらともいえない：４人
自動要約に基づく要約音声の方が良い：１０人
上記の評価結果より、本システムを用いて生成された要約結果に基づく要約音声は、人間による要約結果に基づく要約音声に近いものが得られていることが分かる。

（インデックス機能についての評価）
次にインデックス機能についての評価について説明する。インデックス化部３０において、スライド中のキーワードは、スライド中の単語のｔｆ・ｉｄｆのスコアを演算し、当該スコアが平均値以上の単語をキーワードとした。ｉｄｆには、ＣＳＪ（日本語話し言葉コーパス２００４年度版）に含まれる講演データ（テーマ：音声処理、聴覚、男性話者２６４人の講演）を用い、マッチング対象の書き起こしテキストは名詞のみを用いた。本評価の対象とするスライドは、スライド中のキーワードの出現順序が時系列順なもの、すなわち文章や箇条書き文で構成されている４枚のスライドを用いた。対応付けには、ＤＰマッチング（動的計画法によるマッチング）の手法を用いた。

インデックス機能を備えた講義教材のスライドおよび数分間の講義の視聴を被験者９人に１５分程度体験してもらい、以下に示す２つの質問について回答を得た。また、被験者は発明者が属する大学の情報工学系に所属する学部４年と修士課程１年の学生である。

「質問１」インデックス機能を持った講義教材を便利だと感じたか？
とても不便である：０人
不便である：０人
どちらともいえない：１人
便利である：５人
とても便利である：３人
「質問２」スライド中に表示されるリンクによるインデックスと、音声認識結果からの時系列表示によるインデックス、どちらが便利を感じたか？
スライド中のキーワードによるインデックスの方が断然良い：２人
どちらかというと、スライド中のキーワードによるインデックスの方が良い：３人
どちらともいえない：３人
どちらかというと、音声認識結果からのインデックスの方が良い：１人
音声認識結果からのインデックスの方が断然良い：０人

質問１の結果より、インデックス機能を持った講義教材が便利であるという意見が大多数を占め、これにより、本システムによる効果的な学習が可能であると考えられる。また、質問２の結果より、スライド中のキーワードによるインデックスの方が良いという結果が得られたが、これは、音声認識結果から抽出されたキーワードが時系列順であったためであると考えられる。ｔｆ・ｉｄｆに代わるキーワード抽出の手法やキーワード一覧の表示方法については改善が必要であると考えられる。

上述したように、本発明の第１の実施形態においては、プレゼンテーションの資料の情報とプレゼンテーションの音声情報の両方よりインデックス（キーワード）を抽出するため、音声情報のみからインデックスを抽出するのに比べ、適切なインデックスを抽出することができる。これにより、本システムをユーザーが用いる際、適切なインデックスを選択することができるようになる。

また、本実施形態においては、インデックス（キーワード）を選択することにより、選択されたキーワードを含む文を発生発声している場面を即座に再生することができるため、ユーザーが希望する内容を短時間に視聴することができる。また、本実施形態においては、表示されたスライド上の文字にインデックスとして下線が引かれ、下線部をユーザーが選択することにより、選択されたキーワードを含む文を発声発生している場面を即座に再生することができるため、ユーザーはスライド資料より希望する内容を短時間に視聴することができる。

また、本実施形態においては、プレゼンテーションの資料の情報とプレゼンテーションの音声情報の両方より要約に用いる文が抽出されるため、音声情報のみから要約に用いる文を抽出する場合に比べ、適切な要約文を生成することができる。したがって、ユーザーは、要約文を参照することにより、プレゼンテーションの内容を効率的に理解することができる。

また、本実施形態においては、要約抽出のための特徴量に、表層的言語情報だけでなく韻律情報を組み合わせて用い、これとプレゼンテーション資料の情報を加味して要約に用いる文を抽出するため、適切な要約文を生成することができ、プレゼンテーションの内容をユーザーは効率的に理解することができる。また、本実施形態では、図５に示すように、プレゼンテーションの映像、スライド一覧、キーワード、スライドおよび要約文が一度に表示されるため、利用者が効率的にプレゼンテーションの内容を理解することができる。

また、本実施形態においては、スライド資料のタイトルに含まれる名詞を含む文を要約として抽出しているため、プレゼンテーションの内容を反映した要約を生成することができる。通常、スライド資料のタイトルには、プレゼンテーションの内容を示す重要な名詞が含まれることが多いからである。また、本実施形態においては、スライドに複数回現れる文を要約として抽出したため、プレゼンテーションの内容を反映した要約を生成することができる。また、スライド上のキーワードに下線が引かれているため、利用者は効率的にプレゼンテーションの内容を理解することができる。

次に、本発明の第２の実施形態について説明する。第１の実施形態では、プレゼンテーション資料のスライドから要約文およびインデックス（キーワード）を抽出するものであったが、本実施形態では、プレゼンテーション資料が存在しない場合に、ユーザーに要約文およびインデックス（キーワード）を示すものである。なお、第２の実施形態においては、第１の実施形態のプレゼンテーション資料に関する部分（例えば、処理装置６の資料解析部１８など）を備えない点を除き、第１の実施形態と同様のシステムを用いることができるため、詳細な説明は省略する。

第２の実施形態のプレゼンテーション視聴システム２について、図８に動作画面を示す。図８において、ディスプレイ装置には、プレゼンテーション映像表示部６８、要約情報表示部７０、キーワード一覧表示部７２および要約文表示部７４が表示されている。第２の実施形態では、プレゼンテーション資料を備えない講演等を視聴するためのシステムのため、スライド画面は表示されない。なお、第２の実施形態では、キーワード一覧表示部７２に表示されるキーワードは、音声入力のみで抽出され、要約文表示部７４に表示される要約文は、図７に示す表の「スライド情報不使用」の重み付けが用いられて抽出される。

第２の実施形態のプレゼンテーション視聴システム２においても、音声入力より要約文およびインデックス（キーワード）が表示されるため、ユーザーはプレゼンテーションの内容を効率的に理解することができる。また、インデックスを選択することで、当該インデックスを含む文を即座に再生することが可能であるため、ユーザーはプレゼンテーションの視聴を効率的に行なうことができる。

本発明に係る第一実施形態のシステムの全体を示す全体図である。本発明に係る第一実施形態の処理装置６を説明するための図である。本発明に係る第一実施形態の出力装置１０を説明するための図である。本発明に係る第一実施形態のユーザー入力装置８を説明するための図である。本発明に係る第一実施形態の動作画面を示す図である。本発明に係る第一実施形態のシステムによって生成された要約文の評価結果を示す図である。本発明に係る第一実施形態のシステムに用いられる特徴量の値を示す表である。本発明に係る第二実施形態の動作画面を示す図である。

符号の説明

２プレゼンテーション視聴システム
４主記憶装置
６処理装置
８ユーザー入力装置
１０出力装置
１２プレゼンテーション資料記憶部
１４映像音声記憶部
１８資料解析部
２０特徴抽出部
２２音声認識部
２４音声整形部
２６要約部
２８要約文生成部
３０インデックス化部
３２音声対応区間抽出部
３４再生部

Claims

映像および音声を含むプレゼンテーション情報の音声情報を解析する音声情報解析部と、
前記プレゼンテーションの際に用いられるスライド資料を解析する資料解析部とを備え、
前記音声情報解析部の解析結果と前記資料解析部の解析結果より、前記プレゼンテーションの音声情報の要約文を生成する要約文生成部を備えることを特徴とするプレゼンテーション解析装置。
前記要約文生成部は、前記音声情報解析部によって認識された文のうち、前記スライドのタイトルに含まれる品詞名詞が出現する文を、要約として抽出することを特徴とする請求項１に記載のプレゼンテーション解析装置。
前記要約文生成部は、前記音声情報解析部によって認識された文のうち、前記スライド中に少なくとも一回現れる品詞複数回現れる名詞が出現する文を、要約として抽出することを特徴とする請求項１または２に記載のプレゼンテーション解析装置。
前記プレゼンテーション情報、前記スライド資料および前記要約文生成部で生成された要約文を表示する表示部を備える請求項１から３のいすれか１項に記載のプレゼンテーション視聴システム。
映像および音声を含むプレゼンテーション情報の音声情報を解析する音声情報解析部と、
前記プレゼンテーションの際に用いられるスライド資料を解析する資料解析部とを備え、
前記音声情報解析部の解析結果と前記資料解析部の解析結果より、前記プレゼンテーションのキーワードを生成するキーワード生成部を備えることを特徴とするプレゼンテーション解析装置。
前記プレゼンテーション情報、前記スライド資料および前記キーワード生成部で生成されたキーワードを表示する表示部を備える請求項５に記載のプレゼンテーション視聴システム。
前記キーワード生成部で生成されたキーワードが発せられた文を、前記プレゼンテーション情報の中から抽出する音声対応区間抽出部をさらに備え、前記表示部に表示されたキーワードが選択された場合、前記表示部は、前記音声対応区間抽出部により抽出された文を発する場面を表示することを特徴とする請求項６に記載のプレゼンテーション視聴システム。
前記表示部は、前記キーワード生成部で生成されたキーワードを、前記スライド資料上に認識可能な態様で重ねて表示することを特徴とする請求項６または７に記載のプレゼンテーション視聴システム。
映像および音声を含むプレゼンテーション情報の音声情報を解析する音声情報解析部と、
前記音声情報解析部の解析結果より、前記プレゼンテーションのキーワードを生成するキーワード生成部と、
前記キーワード生成部で生成されたキーワードが発せられた文を、前記プレゼンテーション情報の中から抽出する音声対応区間抽出部と、
前記プレゼンテーション情報およびキーワードを表示する表示部を備え、
前記表示部に表示されたキーワードが選択された場合、前記表示部は前記音声対応区間抽出部により抽出された文を発する場面を表示することを特徴とするプレゼンテーション視聴システム。