JP3816901B2

JP3816901B2 - ストリームデータの編集方法と編集システム及びプログラム

Info

Publication number: JP3816901B2
Application number: JP2003155893A
Authority: JP
Inventors: 美佳福井; 隆幸宮澤; 優鈴木; 寛子羽山; 耕二浦田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-05-30
Filing date: 2003-05-30
Publication date: 2006-08-30
Anticipated expiration: 2023-05-30
Also published as: JP2004363643A

Description

【０００１】
【発明の属する技術分野】
本発明は、映像や音声などのストリームデータを入力して編集するストリームデータ編集方法と編集システム及びプログラムに関する。
【０００２】
【従来の技術】
近年、安価なコンピュータやインターネットの普及により、教室での教師と複数の生徒によるグループ学習に代えてあるいはグループ学習を補佐するために、コンピュータを用いた通信教育、いわゆるイーラーニング（e-Learning）システムが一般化しつつある。時間や場所の制約がないため、誰でも家庭や職場で自主的な学習を行うことができる。
【０００３】
例えば、家庭向けとしては中高年層の労働者のための再教育、語学などの生涯教育、不登校児童の在宅学習などを目的とした通信教育課程などが提案され、そのための多くの自習教材が作成されている。職場においては、社内外の状況の変化に対応した迅速な人材育成、日進月歩の専門技術の習得、最新ＯＡ機器の操作の習得など、各自の必要やレベルに合わせた個別学習があり、そのような学習のためにe-Learningシステムの導入が相次いでいる。
【０００４】
e-Learningシステムによって個別の目的にあった学習成果を得るためには、高品質の学習教材が必要とされる。教材が単純なテキストのみのコンテンツであれば、その作成は学習分野の専門家である教育者が自ら作成することも可能である。しかし昨今では、より学習効果を高めるため、画像や映像・音声なども含めた、いわゆるマルチメディアの学習教材が一般的になってきている。
【０００５】
マルチメディア学習教材の作成及び編集は、一般の教育者には難しい作業である。そのため、教育者がマルチメディアコンテンツの作成作業（オーサリング）に習熟した編集作業者に委託し、教育者と編集作業者の共同でマルチメディア学習教材を作成するケースが多くなる。従って、マルチメディア教材の作成には多大な費用と時間がかかり、迅速な教材供給が滞ってしまう。
【０００６】
一方、ディジタルビデオカメラや動画撮影機能付きの携帯電話機の爆発的な普及により、誰もが気軽に映像を取得し、その映像をネットワークなどを介して他人と共有する環境が整ってきている。映像が多量に蓄積される状況になって、所望の映像を簡単に検索したり、編集して再利用したいというニーズも高まってきている。
【０００７】
オフィスでは、各自の知識やノウハウなどを文書にして蓄積しておき、これをユーザが活用するナレッジマネジメントシステムが導入されている。同様のシステムは、例えば顧客相談窓口においてオペレータが顧客の質問に対する回答の内容をテキスト情報で記録しておき、他のオペレータが同じような質問を受けたときに、そのテキスト情報を検索して再利用するといった用途に利用されている。これらのシステムでは、情報を人手でテキスト情報に変換して記録しておき、ユーザは自然言語検索の技術を利用して再利用する。
【０００８】
映像や音声などのストリームデータとして記録された情報についても、テキスト情報が付加されていれば同様に検索ができる。しかし、ストリームデータの望みのシーンを直接検索するためには、マルチメディア情報の記述のための国際標準規格であるＭＰＥＧ７(Motion Picture Experts Group phase 7)のようなシーン記述方式に従って、シーン毎に検索のための説明文をテキスト情報として付加するという煩雑な作業が必要になる。重要なシーンだけ取り出して、意味のある順に並べ替えたりといった編集作業を行うとさらに有効であるが、このような作業は非常に繁雑で、一般のユーザが行うと多大な手間がかかる。
【０００９】
こうしたストリームデータの検索のための編集作業を自動化するために、ストリームデータに検索キーなどの説明テキストを自動で付加する技術がいくつか開発されている。ニュース映像を解析してシーンの区切りを検出したり、字幕の文字を認識したり、アナウンサーの発声する読み上げ音声に対して音声認識を行って重要なキーワードを抽出し、検索キーとして付加するといった技術はビデオアーカイブシステムやビデオ録画要約システムなどで試作され、あるいは実現されている。
【００１０】
例えば、「アノテーションに基づくディジタルコンテンツの高度利用（後編）」長尾確, 情報処理学会学会誌 Vol.42 No.8 Aug. 2001, pp.787-792（非特許文献１）の特に７８９頁に記載されているビデオアノテーションエディタでは、ニュース音声の音声認識と、映像シーンの変わり目のシーン検出は自動で行っており、それ以外は手動で人間が操作して指定している。
【００１１】
【非特許文献１】
「アノテーションに基づくディジタルコンテンツの高度利用（後編）」長尾確, 情報処理学会学会誌 Vol.42 No.8 Aug. 2001, pp.787-792
【発明が解決しようとする課題】
非特許文献１に記載された技術は、ニュース映像などのキーワード付加作業の自動化と検索、及び重要シーンの抽出を前提としており、先のe-Learningのための学習教材のような、映像を素材とした知識を伝達するコンテンツを人手で編集する場合の作業を支援するものではない。従って、システムが自動で解析し作成した結果を変更する場合は、従来の編集システムを利用することになる。すなわち、人手によってキーワードや説明文章を変更・追加したり、適切なシーンのみを切り出し直したり、映像素材の入れ替えを行ったりする場合には、従来通り煩雑な作業を行う必要がある。
【００１２】
このように従来のストリームデータ編集技術では、映像や音声を素材とした知識伝達用のコンテンツを作成・編集する作業に手間がかかり、迅速な知識伝達や教育に対応できなかった。
【００１３】
本発明は、音声や映像のようなストリームデータの編集作業をより容易に行うことができるストリームデータの編集方法と編集システム及びプログラムを提供することを目的とする。
【００１４】
【課題を解決するための手段】
上記の課題を解決するため、本発明の観点では音声及び映像の少なくとも一方を含むストリームデータ中の各々の部分ストリームデータが持つ情報伝達における意味役割を解析して、該意味役割を表す意味役割識別情報を部分ストリームデータに付加する。意味役割識別情報と予め定められた規則に基づいて、部分ストリームデータの各々の再生の有無及び再生順序を制御する再生制御情報を作成して記憶する。部分ストリームデータの各々の時間範囲と意味役割とを対応付けて表示し、該表示に対するユーザの指示入力に従って、記憶されている再生制御情報を編集する。記憶された再生制御情報に従って、入力されるストリームデータを再生する。
【００１５】
本発明の別の観点によると、音声及び映像の少なくとも一方を含むストリームデータを入力する処理と、入力されるストリームデータ中の各々の部分ストリームデータが持つ情報伝達における意味役割を解析し、該意味役割を表す意味役割識別情報を前記部分ストリームデータに付加する処理と、前記意味役割識別情報に基づいて前記部分ストリームデータの各々の再生の有無及び再生順序を制御する再生制御情報を作成する処理と、前記再生制御情報を記憶する処理と、前記部分ストリームデータの各々の時間範囲と前記意味役割とを対応付けて表示し、該表示に対するユーザの指示入力に従って、記憶された再生制御情報を編集する処理と、前記記憶された再生制御情報に従って、前記入力されるストリームデータを再生する処理とをコンピュータに行わせるためのプログラムを提供することができる。
【００１６】
このように部分ストリームデータの各々の時間範囲と意味役割とを対応付けて表示し、この表示に対するユーザの指示入力に従って再生制御情報を編集することにより、ストリームデータの編集を容易に行うことが可能となる。
【００１７】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
図１に示されるように、本実施形態のストリームデータ編集システムでは、ストリームデータ入力部１１によって映像、音声などのストリームデータが入力される。ストリームデータ入力部１１は、ディジタルビデオカメラのような映像音声取得デバイスや、インターネットやＬＡＮなどのネットワークを介して伝送されてくるストリームデータを受信する装置であってもよいし、ＤＶＤのような記憶媒体に記憶されたストリームデータを再生する装置であってもよい。
【００１８】
入力されたストリームデータは、ストリームデータ記憶部１２に蓄積されると共に、ストリームデータ処理部１３に入力される。ストリームデータ処理部１３は、意味役割解析部１４、再生制御情報作成部１５、再生制御情報記憶部１６、ストリーム再生部１７及び再生制御情報編集部１８を有する。ストリームデータ処理部１３は、具体的にはＣＰＵであり、ソフトウェアすなわち編集プログラムにより処理を行う。ストリーム再生部１７及び再生制御情報編集部１８には、映像や音声を出力する出力部１９が接続される。
【００１９】
図２を用いて、本実施形態における処理手順の概略を図１中の各部の構成と共に説明する。
まず、映像や音声などのストリームデータがストリームデータ入力部１１によって入力される（ステップＳ２１）。入力されたストリームデータは、ストリームデータ記憶部１２に記憶される（ステップＳ２２）。
【００２０】
入力されたストリームデータは、ストリームデータ処理部１３内の意味役割解析部１４にも渡され、意味役割解析が行われる（ステップＳ２３）。意味役割解析部１４では、入力されたストリームデータに含まれる部分ストリームデータを抽出し、部分ストリームデータの意味役割を解析して、意味役割識別情報を部分ストリームデータに付加する。
【００２１】
意味役割解析部１４は好ましくは複数の部分ストリーム間の対応関係をも解析する機能を有し、対応関係を抽出すると対応関係がある旨を示す情報を意味役割識別情報に含ませるものとする。例えば、質問とそれに対する回答は互いに対応しているので、これら質問と回答のそれぞれの部分ストリームデータについて対応関係が抽出される。
【００２２】
意味役割解析部１４によって意味役割識別情報が付加されたストリームデータは再生制御情報作成部１５に入力され、意味役割識別情報と予め定められた規則に基づいてストリーム再生部１７によるストリームデータの再生を制御するための再生制御情報が作成される（ステップＳ２４）。再生制御情報については後述するが、具体的には例えば部分ストリームデータの各々の再生の有無及び再生順序を制御する情報である。作成された再生制御情報は、再生制御情報記憶部１６に記憶される（ステップＳ２５）。
【００２３】
ストリーム再生部１７では、再生制御情報記憶部１６に記憶された再生制御情報に基づき、ストリームデータ入力部１１から入力されるストリームデータ中の再生制御情報に対応する部分ストリームデータがストリームデータ記憶部１２から読み出され、これが出力部１９を介して映像や音声として再生される（ステップＳ２６）。出力部１９は、映像を表示するディスプレイや音声を出力するスピーカを含む。さらに、出力部１９はストリーム再生部１７によって再生される編集後のストリームデータを例えばＣＤ−Ｒ，ＣＤ−ＲＷ，ＤＶＤ−Ｒ，ＤＶＤ−ＲＷ，ＤＶＤ−ＲＡＭまたはＨＤＤのようなディスク媒体、あるいはビデオテープなどのテープ媒体に記録するようにしてもよい。
【００２４】
再生制御情報編集部１８では、再生制御情報記憶部１６に記憶された再生制御情報に基づいて出力部１９を介して再生制御情報のための編集画面を提示する。再生制御情報編集部１８は、さらにユーザからの編集画面に対する編集指示入力を受け付けて再生制御情報を編集する（ステップＳ２７）。編集後の再生制御情報は、再生制御情報記憶部１６に再び記憶される。
なお、意味役割解析は上記した方法に限定するものではなく、他の方法を用いてもよい。
【００２５】
次に、意味役割解析部１４について詳しく説明する。意味役割解析部１４は、例えば入力されたストリームデータが対話映像である場合を例にとると、対話映像中の音声発話を音声の切れ目など適当な位置で区切って音声認識し、認識された発話内容から予めパタン辞書に登録しておいた「ありがとう」などの発話パタンを抽出して、発話パタンの出現位置から発話について「挨拶」「質問」及び「回答」などの意味役割の尤度を求める。
【００２６】
次に、予め求めておいた発話の意味役割の遷移確率（例えば、挨拶の後ろは挨拶になりやすいといった、意味役割同士の前後関係の出現確率）に基づいて、発話毎の意味役割の尤度を補正する。これにより、対話映像のストリームデータを発話単位の部分ストリームデータに切り出して、各々の部分ストリームデータに求められた意味役割の情報を付加する処理を行う。
【００２７】
次に、図３を用いて意味役割解析の処理手順の具体例を説明する。この意味役割解析の処理手順は、特願２００３−５４４２７に詳細に記載されている通りである。まず、ストリームデータ入力部１１あるいはストリーム記憶部１２を介して音声認識テキストを読み込み、形態素解析を行う（ステップＳ３１〜Ｓ３２）。図４に示す形態素解析結果１０１の例では、記号１０２、１０３及び１０４で示すアンダーライン部分が形態素解析された音声認識テキスト部分である。例えば、形態素解析済みである音声認識テキスト１０２の部分は、「よろしくお願いします」というテキストを形態素解析した結果部分である。
【００２８】
次に、予め用意されているパターン規則を適用して形態素解析結果の分析を行う（ステップＳ３３）。パターン規則は、特徴情報の意味を示す特徴情報識別情報と形態素解析パターンとを関連付けて、あるいは対応付けて記述したものである。特徴情報識別情報は予め定義されており、例えば各発話の意味を表す。
【００２９】
図５には、パターン規則記述例であるパターン規則表２００を示す。ここでは各発話の意味を表す意味役割識別情報として、「挨拶」、「相槌」、「質問」、「回答」、「確認」、「演示」及び「その他」の７つが予め定義されていると仮定する。図５のパターン規則表２００は、各形態素パターン２０２が意味役割識別情報２０１のうちのどれに出現しやすいかを表したものである。重み付け係数（スコア）２０３は、ある形態素パターンが出現したときに、その形態素パターンがどの意味役割識別情報に対応しやすいかを数値で表したものである。図５の例では、重み付け係数（スコア）２０３は数値が大きいほど、対応する意味役割になりやすいことを示す。形態素パターン２０２は、例えばいくつかの会話データから各発話の意味を決定すると思われる特徴的な部分を抜き出した形態素パターンである。形態素解析結果として付加される記号＜＞で挟まれた部分は、品詞を示している。
【００３０】
図５では、意味役割識別情報２０１は上述した７種類の意味役割識別情報が質問者の発話である場合と、回答者の発話である場合に分かれている。「挨拶」、「相槌」などの意味役割識別情報の後に、記号（Ｑ）が付いている識別情報は質問者の識別情報を表し、記号（Ａ）が付いている識別情報は回答者の識別情報を表す。すなわち、図５に示す意味役割識別情報２０１には質問者、回答者という役割の情報も含まれている。
【００３１】
図５の例では、形態素解析を行った発話の中の形態素パターン２０２中の「こんにちは＜感＞」という形態素パターンが含まれる場合、その発話が質問者のものであっても回答者のものであっても、「挨拶」という意味役割になりやすい、ということを示している。「なんですが＜付＞」という形態素パターンを含む発話は、質問者のものである場合は「質問」になりやすく、回答者のものである場合は「回答」になりやすいということを示している。従って、図５に示す意味役割識別情報２０１は、発話の意味を決定するために質問者、回答者等の役割別になっている。
【００３２】
パターン規則適用ステップＳ３３では、各発話の形態素解析結果を図５に示したパターン規則表２００に従って分析し、その発話に対応する意味役割識別情報を推定する。例えば、音声認識結果の中に「こんにちは」というテキストがあった場合、これはパターン規則中の「こんにちは＜感＞」という形態素パターンとマッチする。これが質問者の発話したものである場合は、「こんにちは」というテキストに対する意味役割候補として、「挨拶」、「相槌」、「質問」、「回答」、「確認」、「演示」及び「その他」の７つの意味役割識別情報のうちの「挨拶」に、パターン規則中の「挨拶（Ｑ）」のスコアが加算される。
【００３３】
一つのパターンマッチで、複数の意味役割識別情報にスコアが加算される場合もある。一つの音声認識テキストに複数の形態素パターンがマッチする場合もあり、この場合はその都度マッチした形態素パターンのスコアが加算される。発話者が質問者の場合は、質問者に対する意味役割識別情報（記号Ｑの付く意味役割識別情報）のみのスコアが加算され、発話者が回答者の場合は、回答者に対する意味役割識別情（記号Ａの付く意味役割識別情報）のみのスコアが加算されるようにする。
【００３４】
次に、意味役割識別情報の割り当てを行う（ステップＳ３４）。ステップＳ３４では、音声認識結果テキスト毎に最もスコアの高い、意味役割識別情報を割り当てる。形態素パターンにマッチしなかった等により、意味役割が不明な発話には、識別情報は割り当てられなくてもよい。意味役割識別情報割り当てステップＳ３４での意味役割識別情報の割り当ては行わず、意味役割識別情報遷移確率適用ステップＳ３５の処理後に、意味役割識別情報割り当て修正ステップＳ３５で割り当てるようにしてもよい。
【００３５】
意味役割識別情報遷移確率適用ステップＳ３５では、形態素パターンではなく、会話の前後関係から各発話の意味役割を推定する。テキストデータを対象とした既存の意味役割解析は、上記パターンマッチングのみを行い、最もスコアの高い意味役割を与える（例えば、「知識情報共有システム(KIDS)のヘルプデスク業務への適用」、第１３回人工知能学会全国大会論文集、p484-p487(1999)）。
【００３６】
音声認識結果には、認識誤りが含まれる可能性があるため、形態素パターンと意味役割識別情報との対応だけでは十分な精度が得られない可能性もある。一方、対話には「質問は回答に先行する」などの意味役割識別情報の遷移の制約があると期待される。従って、意味役割識別情報遷移確率適用ステップＳ３５では、パターン規則適用ステップＳ３３により得られた各音声認識結果に対するそれぞれの意味役割識別情報のスコアを、意味役割識別情報毎の他の意味役割への遷移確率を定義した意味役割識別情報遷移確率表のデータを用いて補正する。
【００３７】
意味役割識別情報遷移確率表は、例えば質問者、回答者別に発話に割り当てられる意味役割識別情報全てについて、各意味役割識別情報の次にどの意味役割識別情報が出現しやすいかという確率を定義した表である。上述したように、意味役割識別情報には質問者、回答者という役割の情報を含むので、結果として意味役割識別情報遷移確率表は、質問者、回答者という役割に基く、意味役割識別情報の遷移確率を含む。
【００３８】
図６には、意味役割識別情報遷移確率表３００の例を示す。この例の意味役割識別情報遷移確率表３００は、先行発話の意味役割識別情報３０１から後続発話の意味役割識別情報３０２への遷移確率を示している。意味役割識別情報遷移確率表３００には、意味役割識別情報のほかに、対話の開始を示す「開始」と対話の終了を示す「終了」も含まれている。このようにすることで、それぞれの意味役割識別情報が対話の先頭に出現する確率、及び対話の最後に出現する確率も利用することができる。意味役割識別情報遷移確率表３００は、例えば対話の先頭の発話は、質問者の挨拶である確率が０．５６であり、質問者の挨拶の次にくる発話が回答者の挨拶である確率が０．５４であるということを示している。
【００３９】
遷移確率によるスコアの補正には、例えばビダビアルゴリズムが用いられる。遷移確率によるスコアの補正時に、形態素パターンにマッチしなかった発話については、全てのスコアが０となっているため、補正前に全てのスコアに例えば（１／意味役割識別情報の数）などの等スコアを与えるなどの前処理を行ってもよい。
【００４０】
次に、意味役割識別情報割り当て修正ステップＳ３６では、意味役割識別情報遷移確率適用ステップＳ３５により導出された最適な意味役割識別情報を各音声認識結果のテキストに割り当てる。遷移確率を用いることで、形態素パターンによる解析では意味役割を特定できなかった発話に対しても、意味役割識別情報を割り当てることができる。
【００４１】
意味役割遷移確率適用ステップＳ３５で、意味役割識別情報遷移確率表の遷移確率情報に基いて最適な意味役割識別情報を見つけられなかった場合には、意味役割識別情報割り当てステップＳ３４で割り当てられた意味役割識別情報を採用すればよい。意味役割識別情報割り当てステップＳ３４による意味役割識別情報割り当てを行わない場合は、形態素パターン適用ステップＳ３３で最もスコアが高かった意味役割識別情報を採用する。
【００４２】
上述したような意味役割解析により、例えば図７に示すように対話の音声認識結果の前に、発話の開始時間、終了時間及び発話者の名前（Ｑ，Ａなど）と、「質問」「回答」「相槌」などの意味役割を示す意味役割識別情報が付加されて出力される。
【００４３】
図８に示すように、質問者と回答者の映像が別のビデオカメラなどを通じて別のビデオストリームとしてストリームデータ入力部１１により入力される場合がある。このような場合には、図９に示すように質問者と回答者の映像であるビデオストリームをそれぞれ部分ストリームに分割して音声認識を行い、別々のデータとして出力する。
【００４４】
次に、二つの音声認識結果データに含まれる各発話の時系列データなどを用いて、発話順に並べて１つの対話データとしてマージする。マージ結果に対して図８中に示されるように意味役割解析を行い、図１０に示されるような意味役割解析結果を生成する。図１０が図７と異なる点は、図１０の上側に示されるようにビデオストリームＩＤが複数あることである。
【００４５】
次に、意味役割解析結果を基に映像の再生制御情報を作成する。例えば、以下のように再生制御情報作成規則を適用し、映像の再生制御情報を作成する。予め質問者と回答者の役割が決定している場合、図１１に示すように質問者映像として質問者の質問発話部分の映像と、回答者映像として回答者の回答発話部分の映像のみを並べて、再生制御情報を作成する。この再生制御情報作成規則の場合、映像に含まれる他の挨拶、相槌、回答者による質問、質問者による回答は、再生制御情報に含めない。
【００４６】
図１２を用いて、再生制御情報作成部１５における再生制御情報の作成手順の一例を説明する。
まず、ストリームデータ入力部１１によってストリームデータに含まれる部分ストリームデータとして、発話データを撮影時間順に１つ入力する（ステップＳ４１）。入力された発話データに対して意味役割解析により付加された意味役割識別情報から、発話データの意味役割は質問者の質問であるか否かを判定する（ステップＳ４２）。発話データの意味役割が質問者の回答でなければ、引き続き発話データの意味役割は回答者の回答か否かを判定する（ステップＳ４３）。
【００４７】
発話データの意味役割が質問者の質問か回答者の回答であれば、発話データに対して新規シーンＩＤを付与して再生制御情報である再生リストを生成し、再生制御情報記憶部１６に記憶する（ステップＳ４４）。以下、ステップＳ４１〜Ｓ４４の処理を繰り返す。
【００４８】
図１３に、図１１中の意味役割解析結果を基に図１２の手順で生成された再生制御情報である再生リストの例を示す。部分ストリームデータである各シーンデータの再生時間は、意味役割解析識別情報の頭に付加されている、発話の終了時間から開始時間を引いた秒数がセットされる。図１３の再生リストでは、質問者側の映像と回答者側の映像の二つのストリームデータがあるので、質問者側のストリームデータのＩＤと回答者側のストリームデータのＩＤの二つを再生制御情報として記憶し、コンテンツを再生する際には、二つのストリームデータから、対応する映像の時間情報を基に映像を再生する。
【００４９】
図１３の再生リストでは、質問者側の映像と回答者側の映像を別のストリームデータとしているが、これらを一つのストリームデータとしてもよい。また、図１３では各シーンデータに再生順番の情報を付加して、１番から順に再生するように指定しているが、特に再生順番という情報を付加せず、シーンデータの並び順に従って順に再生してもよい。さらに、各シーンデータの再生開始時間として再生開始から各シーンが再生されるまでの時間を指定してもよい。これによりシーンとシーンの間で映像が流れない部分を作ったり、二つの映像が重複して再生される時間が存在するように指定することも可能になる。
【００５０】
次に、上記のようにして再生情報記憶部１６に記憶された再生制御情報を読み込んで再生情報編集部１８が編集作業を行う。図１４に、再生制御編集部１８で編集ツールとして用いる編集画面の一例を示す。再生情報編集部１８が図１３に示した再生制御情報を読み込むと、これが図１４に示すような編集画面として出力部１９で表示される。図１４の例では、編集ウィンドウの左部分に、ストリーム再生部１７によって再生されるストリームデータである映像の再生表示部分が組み込まれているが、編集画面をストリームデータの再生表示とは別の画面で表示しても構わない。
【００５１】
図１４によると、編集ウィンドウの下方に再生制御情報を編集するための表示（以下、編集用表示という）４００が存在する。編集用表示４００は、この例では部分ストリームデータの各々の時間範囲を表す水平方向に延びたバー４０１と、バー４０１の下側に隣接して文字で表示された「質問」、「回答」などの意味役割表示４０２を有する。バー４０１には、部分ストリームデータの境界の時間位置に相当する位置に区切り線があり、これによって部分ストリームデータの時間範囲が分かる。また、バー４０１の下側の意味役割表示４０２から、各々の部分ストリームデータの持つ意味役割が分かる。さらに、編集用表示４００にはバー４０１の上側に隣接して時刻を表示したタイムライン４０３も存在する。
【００５２】
意味役割は文字で表示する以外に、質問を青、回答は赤など、色分けで表現する他、フォントや文字属性を買えてもよい。
【００５３】
図１４の例の編集用表示４００から、再生制御情報により再生が制御されるストリームデータは、質問と回答が並ぶような構造を持ったコンテンツであることが分かる。ここで、ユーザの指示入力によって、例えば部分ストリームデータの時間範囲を示すバー４０１上で、意味役割表示４０２が「回答」と表示されている位置を矢印のカーソルで選択すると、ストリームデータの回答部分が再生されることにより、回答の内容をチェックすることができる。
【００５４】
また、各シーンの発話内容を概要とし、意味役割をシーンタイプとして表示することで、ユーザに編集させてもよい。例えば、図１５に示すようにタイトルや概要などを人手で編集してもよい。人手による編集を行った後、例えば編集ウィンドウ内で「更新」を指示することにより、編集後の内容が新規の再生制御情報として再生制御情報記憶部１６に記憶される。図１６に、図１５の編集画面上での更新指示により、図１３の再生制御情報である再生リストを更新した後の再生リストの例を示す。
【００５５】
このように部分ストリームデータの各々の時間範囲と意味役割とを対応付けて表示し、この表示に対するユーザの指示入力に従って再生制御情報を編集することにより、ストリームデータの編集を容易に行うことが可能となる。すなわち、編集する映像や音声の構造が一目で理解でき、編集作業における試行錯誤が少なくなる。特に、上述のように特定の意味役割の付加された部分ストリームのみを再生してチェックするという編集作業や、あるいは後述するように部分ストリームデータの取捨選択、意味役割の変更、部分ストリームデータの切り出し範囲を変更するといった編集作業を効率よく行うことが可能となる。
【００５６】
さらに、素材の意味役割に基づいて編集を行うことにより、他人にとってわかりやすく、学習しやすいコンテンツの作成が可能になる。これにより、特に映像の編集作業に習熟しない一般のユーザでも、効率よく知識を伝達する映像や音声の作成・編集を容易に行うことができるようになる。
【００５７】
次に、図１７を用いて再生制御情報の別の作成手順について、図１０中に示される意味役割解析結果を例に説明する。
図１０の発話データを１つずつ入力し（ステップＳ５１）、発話データの意味役割は質問者の質問か否かを判定する（ステップＳ５２）。図１０の例では、「えっと、代官山で、、、」という発話データが質問者の質問なので、この発話データが入力されるとステップＳ５４に進み、再生リストにシーンデータが登録されているか否かを確認する。ここでは、まだ再生リストにシーンデータが登録されていないので、図１８に示すように新規シーンデータ（シーンＩＤ：０００１）を作成して再生リストに登録する（ステップＳ５８）。
【００５８】
図１０中の次の発話データ「そうですね。あのー、洋風と、」は回答者の回答なので、ステップＳ５２からステップＳ５３を経由してステップＳ５４に進み、再生リストにシーンデータが登録されているか否かを確認する。図１８の再生リストには既にシーンデータが登録されているので、ステップＳ５５に進んで直前のシーンデータと同じビデオストリームか否かを調べる。ここでは、図１８に示すように直前のシーンデータ（シーンＩＤ：０００１）のビデオストリームＩＤは質問者のものであり、回答者とは別のビデオストリームであるので、ステップＳ５６に進み、図１９に示すように新規シーンデータ（シーンＩＤ：０００２）を作って再生リストに登録する。
【００５９】
図１０中の発話データ「そうですね。あのー、洋風と、」の次の発話データ「はい。」は相槌なので、再生リストには含まれない。さらに次の発話データ「アジア料理とかもあるんですけど、」は回答者の回答なので、ステップＳ５４からステップＳ５５へ進む。直前のシーンデータも回答者のものであり、ビデオストリームＩＤは同じなので、ステップＳ５５からステップＳ５６へ進み、直前のシーンデータとの時間間隔が２秒以内かどうかを判定する。
【００６０】
図１０に示されるように、発話データ「アジア料理とかもあるんですけど、」の開始時刻は００：１５である。一方、直前のシーンデータである発話データ「そうですね。あのー、洋風と、」の開始時刻は００：０７、終了時間は００：１０であり、ステップＳ５６で判定される時間間隔は５秒であるので、ステップＳ５８に進み、図２０に示すように新規シーンデータ（シーンＩＤ：０００５）を作って再生リストに登録する。
【００６１】
このように処理を進めていくと、発話データ「ま、定番になるんですけど」を解析する前の再生リストは、図２１に示すようになる。図１０に示されるように、発話データ「ま、定番になるんですけど」の開始時刻は００：２２、直前の「アジアですと、」の終了時刻は００：２１となるため、その間隔は１秒になる。そこで、ステップＳ５６からステップＳ５７に進み、図２２に示すように直前のシーンデータ（シーンＩＤ：０００４）の概要に発話データを追加する。再生時間は、追加する発話データの終了時刻００：２４から、直前のシーンデータの開始時刻００：２０を引いて４秒とセットする。
【００６２】
以下、同様に回答者の回答データをシーンＩＤ：０００４のシーンデータに加えてゆき、図２３に示すような再生リストが生成される。図２３の再生リストを編集ツールで見ると、図２４に示すように表示される。図２４に示されるように、シーンＩＤ：０００４のシーンデータは意味役割解析処理で区切られた単位ではなく、連続した一本のビデオストリームとして貼り付けられる。
【００６３】
以下、図１４に示した編集画面を用いた再生制御情報の編集によるストリームデータ編集の具体例を幾つか説明する。
（ストリームデータの分割）
まず、連続したストリームデータを途中で分割する処理の例について述べる。例えば、図２５のシーンＩＤ：０００２のシーンデータにおいて「そうですね。あのー、洋風と」という発言のうちの「そうですね。あのー、」の部分の映像及び音声を分割する場合、映像を見ながら再生と中断を繰り返し、「あのー、」と「洋風と」の間で再生を中断する。ここで、図２５中に示されるように例えばポップアップメニューのようなものを用いて、ユーザが「分割」を選択指示すると、図２６に示す再生リストのようなデータ構造に更新される。
【００６４】
図２６によれば、シーンＩＤ：０００２のシーンデータの再生時間が２秒になり、この後に新たにシーンＩＤ：０００５のシーンデータが挿入される。シーンＩＤ：０００５のシーンデータの開始時刻は、シーンＩＤ：０００２のシーンデータの再生時間の直後からとなる。挿入されたシーンＩＤ：０００５のシーンデータの再生順番が３になり、以降のシーンデータの再生順番は１つずつ繰り下げられる。図２６では、概要の文章と意味役割タグは、シーンＩＤ：０００２と同じデータが自動的にシーンＩＤ：０００５にも挿入されているが、それぞれのビデオストリームの音声データを音声認識し直して、概要の文章を変更する処理を行っても良い。
【００６５】
また、概要や意味役割を人手で変更することも可能になる。例えば、シーンＩＤ：０００２の意味役割を「相槌」に、概要を「そうですね。あのー」に人手で変更し、シーンＩＤ：０００５の概要を「洋風と」に変更して更新する作業を人手で行うことが可能である。
【００６６】
このようにして、ストリームデータの分割作業を行うことにより、ユーザは意味役割の切り出し範囲を変更することができる。
【００６７】
（不要シーンデータの削除）
次に、不要なシーンデータを削除する処理の例を示す。例えば、さきほど分割して作成した図２６の再生リストにおいて、シーンＩＤ：０００２のシーンデータを削除する場合、図２７に示すようにユーザが部分ストリームデータの時間範囲を示すバー上でシーンを選択して、ポップアップメニューなどで「削除」を選択指示する。図２８に示されるように、シーンＩＤ：０００２のシーンデータが消され、以降のシーンデータの再生順番が１つずつ繰り上げられたストリームデータが作成される。そこで、シーンＩＤ：０００５の概要データを図２９に示すように「洋風と」のみに修正してデータを更新すると、再生リストは図３０に示すようになる。
【００６８】
（ストリームデータの差し替え）
次に、再生リストの一部のシーンのストリームデータ（例えばビデオストリーム）を別のデータと差し替える処理について説明する。例えば、図３８の左に示すような再生リストにおいて、２番目の回答シーンの映像を他の映像に差し替えるとする。例えば、図３１に示すようにプルダウンメニューなどを用いてユーザが「開く」を選択指示すると、図３２に示すように差し替える再生リストのファイル名を入力するダイアログが表示される。ここで、図３２において当該ダイアログにファイル名を入力して「開く」を指示すると、指定した再生リストを表示した、もう一つの編集ウィンドウが表示される。
【００６９】
一方、図３２において「探す」というボタンをクリックすると、例えば図３３に示すような検索ウィンドウが表示される。ここで、ユーザが例えば「代官山の和食のお店」などといった質問文を入力して「検索」を指示すると、自然言語検索技術を用いて再生リストの文字情報を検索した結果が検索ウィンドウ内にリスト表示される。検索ウィンドウ内の１，２，…という数字の表示は、検索結果のスコアの高い順番を示している。黒い星印で示されるマークなどによりスコアの高さを示してもよい。スコアの横には、検索された再生リストの中の該当するシーンのタイトルや概要などが表示される。その下に、再生リストの各シーンの長さを示す矩形などを表示してもよい。どのシーンが該当するのかは、別に太枠などで示している。各シーン毎にシーンの最初の映像（サムネイル）を表示してもよい。図３４に示すように、シーンを示す矩形の下に「質問」、「回答」などの意味役割を表示してもよい。
【００７０】
図３３や図３４の検索ウィンドウ内でユーザが該当するシーンやファイルを選択すると、図３５に示すように別の編集ウィンドウでその再生リストが表示される。開かれた再生リストの２つ目のシーンは、代官山の和食に関する回答の映像が含まれている。このシーンを図３５の下方に表示されている部分ストリームデータの時間範囲を示すバー上で選択して、ポップアップメニューなどで「コピー」を選択指示すると、選択されたシーンの再生リストの情報がバッファにコピーされる。
【００７１】
次に、図３１に示したように最初に開いていた再生リストのウィンドウで、図３６に示すようにユーザが差し替えを行うシーンを部分ストリームデータの時間範囲を示すバー上で選択して、ポップアップメニューなどで「差し替え」を選択すると、図３８のように再生リストのシーンＩＤ：０００２のシーンデータが、バッファにコピーされていた再生リストの情報で差し替えられる。ビデオストリームＩＤ、開始時間、再生時間、タイトル、概要、意味役割、話者役割などが変更される。図３７に、部分ストリームデータの時間範囲を示すバー上で差し替えを行うべきシーンを選択したときの概要欄の表示を示す。
【００７２】
（ストリームデータの挿入）
一方、シーンデータを差し替えずに、新たなシーンデータを挿入する場合は、図３９に例を示すようにユーザが挿入を行いたい位置で再生を停止して、ポップアップメニューなどで「挿入」を選択指示することにより、図４０に示すように新たなシーンデータが挿入される。図４１に示すように、再生リストの途中に新たにシーンＩＤ：０００５のシーンデータが挿入され、再生順番は直前のシーンの次になる。以降のシーンデータは、再生順番が１つずつ繰り下げられる。
【００７３】
（ストリームデータの差し替え録画）
次に、シーンデータの映像や音声をその場でアフレコ(after recording)により差し替える場合の例を以下に示す。図４２に示すように、ユーザが部分ストリームデータの時間範囲を示すバー上で映像や音声を差し替えたいシーンを選択して、「差替録画」を指示する。これにより、例えば図４３に示すようにカメラから映像や音声を取り込んで録画するウィンドウが表示される。この録画ウィンドウ内で、ユーザが「録画開始」を指示すると、その場でユーザがカメラに向かって話す映像と音声を取り込む。この場合、カメラでユーザの顔だけでなく、手元の資料を撮影したり、機器の操作を行いながら説明する実演映像などを撮影してもよい。
【００７４】
ここで、例えば「中断」を選択すると撮影を一旦中止し、「終了」を選択すると撮影を終了する。その後、「差し替え実行」などを選択すると、図４４に示すように、図４２に示すようにして選択されたシーンのシーンデータが新しく録画された映像データで差し替えられる。
【００７５】
このときに、概要部分とシーンタイプなどは、差し替え前のデータをそのまま残してもよい。逆に、撮影中か撮影後に録画している音声を音声認識しておき、概要部分を音声認識した結果で差し替えてもよい。このような差し替え録画により、再生リストのデータは例えば図４５に示すように変更される。
【００７６】
図４６に、別の編集画面の例を示す。ここでは、シーン情報と映像情報を別トラックに分けており、複数の部分ストリームデータをまとめて１つのシーンとすることが可能になっている。これにより、発話の意味役割解析の単位にとらわれず、大きな意味のまとまりでシーン情報を付加することができる。
【００７７】
例えば、図４６に示すように質問とそれに対する回答をひとまとめにしてシーンとし、これにタイトルと概要説明を付けるようにすれば、ユーザの編集作業が減るので楽になる。また、検索時においても意味役割の細かい単位で検索するだけでなく、シーン単位で検索することが可能になり、検索結果の表示を見やすくする効果も期待できる。
【００７８】
この場合、意味役割解析部１４では前述のように意味役割の解析と共に、複数の部分ストリーム間の対応関係を解析し、対応関係を抽出すると対応関係がある旨を示す情報を意味役割識別情報に含ませる。一方、再生制御情報作成部１５は、対応関係が抽出された複数の部分ストリームデータについて一括して再生の有無及び再生順序を制御するような再生制御情報（再生リスト）を作成する。
【００７９】
図４７に、図４６の編集画面に対応する再生リストの構造を示す。再生リストのデータは、シーンデータとショットデータの２階層構造になっている。意味役割解析結果から、例えば図４８に示す手順により、上述の部分ストリームデータ間の対応関係を有する質問と回答のペアが同じシーンに属するように自動生成される。図４８の手順は、図１７に示した手順と類似している。
【００８０】
まず、発話データを１つずつ入力し（ステップＳ６１）、発話データの意味役割は質問者の質問か否かを判定する（ステップＳ６２）。入力された発話データが質問者の質問でなければ、ステップＳ６３で発話データの意味役割が回答者の回答か否かを判定する。入力された発話データが質問者の質問か、回答者の回答であればステップＳ６４に進み、再生リストにショットデータが登録されているか否かを確認する。入力された発話データが質問者の質問でみなく、回答者の回答でもない場合は、ステップＳ６１に戻る。
【００８１】
再生リストにショットデータが登録されていれば、ステップＳ６５に進み、入力された発話データが直前のショットと同じビデオストリームかどうかを調べ、そうであればステップＳ６６に進んで直前のショットとの時間間隔が２秒以内かどうかを調べる。入力された発話データが直前のショットと同じビデオストリームであり、かつ直前のショットとの時間間隔が２秒以内であれば、ステップＳ６７により直前のショットデータに発話文言を付加し、再生時間を増やす。
【００８２】
再生リストにショットデータが登録されているが、入力された発話データが直前のショットと同じビデオストリームでない場合、及び入力された発話データが直前のショットと同じビデオストリームであるが、直前のショットとの時間間隔が２秒以内でない場合は、ステップＳ６８に進んで新規ショットデータを作成する。この後、ステップＳ６９により新規ショットデータが直前のショットと同じビデオストリームか否かを調べ、同じ場合はステップＳ７１で直前のショットが属するシーンの下に新規ショットデータを接続する。
【００８３】
新規ショットデータが直前のビデオストリームと同じでない場合は、ステップＳ７０に進んで発話データの意味役割が回答者の回答か否かを判定し、そうであればステップＳ７１に進む。ステップＳ７０及び先のステップＳ６３において、発話データの意味役割が回答者の回答でない場合はステップＳ７２に進み、新規シーンデータを作成してショットデータをその下に接続する。ステップＳ７１またはステップＳ７２の処理が終了するとステップＳ６１に戻り、以上の処理を繰り返す。
【００８４】
このようにシーンでまとめると、シーンごと削除したり、順番を加える場合のユーザの作業が楽になる。例えば、図４６でシーンを表すバーを選択して、ポップアップメニュー等で削除をして、移動先で挿入する等の指定により、ユーザは対応関係をもつ複数の部分ストリームデータを一括して操作できる。また、図４６の映像のうちの「回答」をあらわすバーを選択して削除すると、シーンの長さもその分縮んで、残りの質問と回答を１つずつ含む長さのシーンに自動的に変更される。
【００８５】
一方、図４７では２階層にして、必ずシーンの下にショットがあるようになっているが、拘束関係をなくしてもよい。シーンはシーン、ショットはショットで、それぞれ再生するときの再生開始時間を別途データとして持ち、映像は続いていてもシーンを変えるといったことも可能である。これにより、カラオケのように映像は同じでも字幕だけを変えてゆく、といった再生リストの作成が可能になる。
【００８６】
図４９に、再生リストを作る元となる意味役割解析結果を確認する対話ビューアの例を示す。ここでは、図１０の意味役割解析結果を表示している。再生を開始すると、質問者と回答者の映像が同時に再生され、発言の意味役割解析データと音声認識データを表示するとともに、下のタイムライン上で再生中の発話がどれかを色を変えたりなどにより示す。
【００８７】
図５０の対話ビューアに示すように、タイムライン上の発話を表すバーの下に意味役割と発話の内容を表示してもよい。また、ユーザが発話を表すバーを直接指示すると、その発話から再生を開始してもよい。
【００８８】
再生リストを表示中にユーザが編集画面などから対話ビューアを呼び出すと、図５１の対話ビューアに示すように再生リストに含まれる映像データの区間のバーの色を変えるなどにより、その発話が再生リストに含まれているかを明示的に表示してもよい。ユーザは、対話全体を聞いて再生リストに含まれる発話のコンテキストを確認することが可能になる。意味役割解析結果の誤りをチェックしたり、重要な発話が再生リストから漏れていないかなどの確認行うこともできる。
【００８９】
図５２に、対話ビューアの別の例を示す。ユーザは選択された発話のみを再生するか、対話データのすべてを再生するか選択することができる。発話の選択を一つ一つ手作業で行うのではなく、「質問者の質問」、「回答者の回答」というように、話者役割と発話の意味役割をチェックボックスなどで指定することによって、一括して選択するインタフェースを用意しても良い。これによってユーザの指示作業が減り、効率よく対話データを確認することができる。
【００９０】
図５３に示すように、ユーザが発話データを選択し直した後、ポップアップメニューなどにより「新規作成」を指示すると、選択した発話データを含む新しい再生リストを作成するようにしてもよい。また、「コピー」を選択した後、編集ツールで開いた再生リストの任意の箇所で「挿入」や「差し替え」を指示することにより、自動生成された再生リストから漏れてしまった重要な映像データを再生リストに取り込むことができる。
【００９１】
また、図５４に示すように、シーンをバーで表すのではなく、画像等で表してもよい。例えば、各シーンの特徴的な画像（サムネイル）に意味役割を付加して表示する編集画面を設けてもよい。ユーザはシーンを選択してドラッグ・アンド・ドロップ等の操作で、順番を入れ替えたり、コピーや削除等の操作を簡単に行うことができる。
【００９２】
本実施形態では、再生リストに格納する情報をタイトル、概要、意味役割、話者役割及び音声認識結果などとしているが、これに限定するものではない。例えば、概要は一般的な聴衆を対象に記述しているが、初心者と中級者、年代別などのような複数レベルのユーザ毎に概要を記述できるような編集ツールにしてもよい。出来上がったコンテンツを見るユーザに合わせて、表示する概要を変えることが可能になる。
【００９３】
カメラに向かって物を見せて、操作の実演をしながら説明をするような映像の場合は、説明している物の名前、機能の名前などを細かく入力するようにしてもよい。物の名前や機能の名前は、音声認識結果から情報抽出技術により自動で抽出してもよいし、編集ツールを操作するユーザが手作業で入力してもよい。これにより、「○○の××操作について教えて」といった質問に対して適切なシーンを検索してユーザに示すことができる。
【００９４】
また、本実施形態では映像と音声を同一トラックで取り扱っていたが、音声トラックを別に設けてもよい。これにより、例えば映像は常に回答者の音声データを再生するといった再生形態が可能になる。
【００９５】
さらに、映像もしくは音声のみをアフレコしたり、別のストリームデータで差替えることが可能になる。更に音声トラックを１つに限らず複数も設けることにより、回答者と質問者の音声を同時に再生したり、解説やＢＧＭを重ねて再生することが可能になる。
【００９６】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【００９７】
【発明の効果】
以上説明したように、本発明によれば従来では非常に煩雑であったストリームデータの編集作業を効率よく行うことができる。
【００９８】
例えば、自動的に作成されたコンテンツを人手で修正する場合、システムがコンテンツを作成した意図が分かりやすく示されているため、ユーザは試行錯誤なく修正作業を行うことができる。これにより、映像編集に慣れない一般のユーザでも自分で映像や音声の編集を行い、迅速に自分の意図通りの知識伝達コンテンツを作成・編集することができる。
【００９９】
また、映像や音声の一部を他の映像や音声に差し替えることも容易になる。例えば、回答を説明する映像のみをユーザのレベルに合わせて用意し、その部分だけを差し替えた映像をユーザに合わせて提示するといった編集作業も容易に行うことができる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係るストリームデータ編集システムの構成を示すブロック図
【図２】同実施形態におけるストリームデータの編集手順を示すフローチャート
【図３】同実施形態における意味役割解析の処理手順を示すフローチャート
【図４】意味役割解析における形態素解析結果の例を示す図
【図５】意味役割解析で用いられるパターン規則表の例を示す図
【図６】意味役割解析で用いられる意味役割識別情報遷移確率表の例を示す図
【図７】意味役割解析により部分ストリームデータに意味役割識別情報が付加される様子の例を示す図
【図８】質問者と回答者の映像が別のビデオストリームとして入力される場合のストリームデータ編集の概要を示す図
【図９】質問者と回答者の映像であるビデオストリームを部分ストリームに分割して音声認識して別々のストリームデータとして出力する様子を示す図
【図１０】意味役割解析結果の例を示す図
【図１１】再生制御情報の作成例を示す図
【図１２】再生制御情報の作成手順の一例を示すフローチャート
【図１３】図１１中の意味役割解析結果を基に作成される再生制御情報の例を示す図
【図１４】再生制御情報編集のための編集画面の例を示す図
【図１５】再生制御情報の編集後に更新指示を行った編集画面の例を示す図
【図１６】更新後の再生制御情報の例を示す図
【図１７】再生制御情報の作成手順の他の例を示すフローチャート
【図１８】再生制御情報の作成手順における第１の新規シーンデータ作成後の再生制御情報を示す図
【図１９】再生制御情報の作成手順における第２の新規シーンデータ作成後の再生制御情報を示す図
【図２０】再生制御情報の作成手順における第３の新規シーンデータ作成後の再生制御情報を示す図
【図２１】再生制御情報の作成手順における特定の発話データ解析前の再生制御情報を示す図
【図２２】再生制御情報の作成手順における特定の発話データ追加後の再生制御情報を示す図
【図２３】再生制御情報の作成手順における最終的な再生制御情報の例を示す図
【図２４】図２３の再生制御情報を反映させた編集画面の例を示す図
【図２５】ストリームデータ編集の具体例であるストリームデータ分割処理を説明するための編集画面を示す図
【図２６】ストリームデータ分割処理時における更新後の再生制御情報を示す図
【図２７】ストリームデータ編集の具体例である不要シーンデータの削除処理を説明するための編集画面を示す図
【図２８】不要シーンデータ削除処理時における更新後の再生制御情報を示す図
【図２９】不要シーンデータ削除処理後に概要データが修正された編集画面を示す図
【図３０】概要データの修正により更新された後の再生制御情報を示す図
【図３１】ストリームデータ編集の具体例であるストリームデータ差し替え処理を説明するための第１の編集画面を示す図
【図３２】ストリームデータ差し替え処理を説明するための第２の編集画面を示す図
【図３３】ストリームデータ差し替え処理を説明するための第３の編集画面を示す図
【図３４】ストリームデータ差し替え処理を説明するための第４の編集画面を示す図
【図３５】ストリームデータ差し替え処理を説明するための第５の編集画面を示す図
【図３６】ストリームデータ差し替え処理を説明するための第６の編集画面を示す図
【図３７】ストリームデータ差し替え処理を説明するための第７の編集画面を示す図
【図３８】ストリームデータ差し替えによる更新後の再生制御情報を示す図
【図３９】ストリームデータ編集の具体例であるストリームデータ挿入処理を説明するための第１の編集画面を示す図
【図４０】ストリームデータ挿入処理を説明するための第２の編集画面を示す図
【図４１】ストリームデータ挿入による更新後の再生制御情報を示す図
【図４２】ストリームデータ編集の具体例であるストリームデータ差し替え処理を説明するための第１の編集画面を示す図
【図４３】ストリームデータ差し替え処理を説明するための第２の編集画面を示す図
【図４４】ストリームデータ差し替え処理を説明するための第３の編集画面を示す図
【図４５】ストリームデータ差し替えによる更新後の再生制御情報を示す図
【図４６】再生制御情報編集のための編集画面の別の例を示す図
【図４７】図４６の編集画面を実現する再生制御情報を示す図
【図４８】再生制御情報の作成手順の別の例を示すフローチャート
【図４９】意味役割解析結果を確認する対話ビューアの一例を示す図
【図５０】図４９に示す対話ビューアの変形例を示す図
【図５１】図４９に示す対話ビューアの他の変形例を示す図
【図５２】意味役割解析結果を確認する対話ビューアの他の例を示す図
【図５３】図５２に示す対話ビューアの変形例を示す図
【図５４】再生制御情報編集のための編集画面のさらに別の例を示す図
【符号の説明】
１１…ストリームデータ入力部、１２…ストリームデータ記憶部、１３…ストリームデータ処理部、１４…意味役割解析部、１５…再生制御情報作成部、１６…再生制御情報記憶部、１７…ストリーム再生部、１８…再生制御情報編集部、１９…出力部。

Claims

役割の異なる各話者の対話音声を含むストリームデータを入力するステップと、
入力されるストリームデータ中の各々の部分ストリームデータ中の各話者の発話を音声認識するステップと、
１または複数の形態素からなる複数の形態素パターンと、各形態素パターンを含む発話の話者の前記役割の種類及び当該形態素パターンの意味の種類を識別するために予め定義された複数の意味役割識別情報との間で、各形態素パターンが前記複数の意味役割識別情報のうちのどの意味役割識別情報に対応しやすいかを示すスコアが記述されたパターン規則表を参照して、各部分ストリーム中の各話者の発話を音声認識した結果得られるテキスト中の各話者の各発話中の形態素パターンと各意味役割識別情報との間のスコアを求めるステップと、
求めたスコアを基に、各話者の各発話に対し前記複数の意味識別情報のうちの１つを割り当てるステップと、
前記ストリームデータのうち、前記複数の意味役割識別情報のうちの予め指定された意味役割識別情報が割り当てられた発話の区間について、当該区間の時間範囲と当該発話の話者の役割の種類を示す情報及び当該発話の意味の種類を示す情報とを含む再生制御情報を作成するステップと、
前記再生制御情報を記憶するステップと、
前記再生制御情報に対応する前記区間の時間範囲と、当該区間の発話の前記意味の種類とを対応付けて表示し、該表示に対するユーザの指示入力に従って、記憶された再生制御情報を編集するステップと、
前記記憶された再生制御情報に従って、前記ストリームデータを再生するステップとを具備するストリームデータ編集方法。
前記割り当てるステップは、先行と後行の意味役割識別情報の各組合せに対し当該組合せが対話中に出現する確率を示す遷移確率表を参照して、各話者の各発話中の形態素パターンと各意味役割識別情報との間のスコアを修正した後、各話者の各発話に対し前記複数の意味役割識別情報のうちの１つを割り当てる請求項１記載のストリームデータ編集方法。
前記複数の意味役割識別情報により識別される前記形態素パターンの意味の種類は、「質問」、「回答」、「挨拶」、「相槌」、「解説」及び「報告」を含む請求項１に記載のストリームデータ編集方法。
役割の異なる各話者の対話音声を含むストリームデータを入力する入力手段と、
入力されるストリームデータ中の各々の部分ストリームデータ中の各話者の発話を音声認識する手段と、
１または複数の形態素からなる複数の形態素パターンと、各形態素パターンを含む発話の話者の前記役割の種類及び当該形態素パターンの意味の種類を識別するために予め定義された複数の意味役割識別情報との間で、各形態素パターンが前記複数の意味役割識別情報のうちのどの意味役割識別情報に対応しやすいかを示すスコアが記述されたパターン規則表を参照して、各部分ストリーム中の各話者の発話を音声認識した結果得られるテキスト中の各話者の各発話中の形態素パターンと各意味役割識別情報との間のスコアを求め、求めたスコアを基に、各話者の各発話に対し前記複数の意味識別情報のうちの１つを割り当てる意味役割解析手段と、
前記ストリームデータのうち、前記複数の意味役割識別情報のうちの予め指定された意味役割識別情報が割り当てられた発話の区間について、当該区間の時間範囲、当該発話の話者の役割の種類を示す情報及び当該発話の意味の種類を示す情報とを含む再生制御情報を作成する再生制御情報作成手段と、
前記再生制御情報を記憶する記憶手段と、
前記再生制御情報に対応する前記区間の時間範囲と、当該区間の発話の前記意味の種類を示す情報とを対応付けて表示し、該表示に対するユーザの指示入力に従って、記憶された再生制御情報を編集する編集手段と、
前記記憶手段に記憶された再生制御情報に従って、前記ストリームデータを再生する再生手段とを具備するストリームデータ編集システム。
前記意味役割解析手段は、先行と後行の意味役割識別情報の各組合せに対し当該組合せが対話中に出現する確率を示す遷移確率表を参照して、各話者の各発話中の形態素パターンと各意味役割識別情報との間のスコアを修正した後、各話者の各発話に対し前記複数の意味識別情報のうちの１つを割り当てる請求項４記載のストリームデータ編集システム。
前記複数の意味役割識別情報により識別される前記形態素パターンの意味の種類は、「質問」、「回答」、「挨拶」、「相槌」、「解説」及び「報告」を含む請求項４記載のストリームデータ編集システム。
前記編集手段は、前記時間範囲と前記意味の種類を示す情報とを対応付けて表示する際に、前記時間範囲をバーで表示し、前記意味の種類を示す情報を前記バーに隣接して表示する請求項４に記載のストリームデータ編集システム。
前記編集手段は、前記ユーザからの指示入力により前記意味の種類を示す情報が変更可能である請求項４に記載のストリームデータ編集システム。
前記編集手段は、前記ユーザからの指示入力により前記記憶手段に記憶された前記再生制御情報に対応する前記区間内のストリームデータを別のデータに差し替えるように前記編集を行う請求項４に記載のストリームデータ編集システム。
前記再生手段により再生されたストリームデータを記録する手段をさらに具備する請求項４に記載のストリームデータ編集システム。
役割の異なる各話者の対話音声を含むストリームデータを入力する処理と、
入力されるストリームデータ中の各々の部分ストリームデータ中の各話者の発話を音声認識する処理と、
１または複数の形態素からなる複数の形態素パターンと、各形態素パターンを含む発話の話者の前記役割の種類及び当該形態素パターンの意味の種類を識別するために予め定義された複数の意味役割識別情報との間で、各形態素パターンが前記複数の意味役割識別情報のうちのどの意味役割識別情報に対応しやすいかを示すスコアが記述されたパターン規則表を参照して、各部分ストリーム中の各話者の発話を音声認識した結果得られるテキスト中の各話者の各発話中の形態素パターンと各意味役割識別情報との間のスコアを求める処理と、
求めたスコアを基に、各話者の各発話に対し前記複数の意味識別情報のうちの１つを割り当てる処理と、
前記ストリームデータのうち、前記複数の意味役割識別情報のうちの予め指定された意味役割識別情報が割り当てられた発話の区間について、当該区間の時間範囲と当該発話の話者の役割の種類を示す情報及び当該発話の意味の種類を示す情報とを含む再生制御情報を作成する処理と、
前記再生制御情報を記憶する処理と、
前記再生制御情報に対応する前記区間の時間範囲と、当該区間の発話の前記意味の種類とを対応付けて表示し、該表示に対するユーザの指示入力に従って、記憶された再生制御情報を編集する処理と、
前記記憶された再生制御情報に従って、前記ストリームデータを再生する処理とをコンピュータに行わせるためのプログラム。