JP3816901B2 - ストリームデータの編集方法と編集システム及びプログラム - Google Patents
ストリームデータの編集方法と編集システム及びプログラム Download PDFInfo
- Publication number
- JP3816901B2 JP3816901B2 JP2003155893A JP2003155893A JP3816901B2 JP 3816901 B2 JP3816901 B2 JP 3816901B2 JP 2003155893 A JP2003155893 A JP 2003155893A JP 2003155893 A JP2003155893 A JP 2003155893A JP 3816901 B2 JP3816901 B2 JP 3816901B2
- Authority
- JP
- Japan
- Prior art keywords
- stream data
- utterance
- identification information
- semantic role
- control information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Description
【発明の属する技術分野】
本発明は、映像や音声などのストリームデータを入力して編集するストリームデータ編集方法と編集システム及びプログラムに関する。
【0002】
【従来の技術】
近年、安価なコンピュータやインターネットの普及により、教室での教師と複数の生徒によるグループ学習に代えてあるいはグループ学習を補佐するために、コンピュータを用いた通信教育、いわゆるイーラーニング(e-Learning)システムが一般化しつつある。時間や場所の制約がないため、誰でも家庭や職場で自主的な学習を行うことができる。
【0003】
例えば、家庭向けとしては中高年層の労働者のための再教育、語学などの生涯教育、不登校児童の在宅学習などを目的とした通信教育課程などが提案され、そのための多くの自習教材が作成されている。職場においては、社内外の状況の変化に対応した迅速な人材育成、日進月歩の専門技術の習得、最新OA機器の操作の習得など、各自の必要やレベルに合わせた個別学習があり、そのような学習のためにe-Learningシステムの導入が相次いでいる。
【0004】
e-Learningシステムによって個別の目的にあった学習成果を得るためには、高品質の学習教材が必要とされる。教材が単純なテキストのみのコンテンツであれば、その作成は学習分野の専門家である教育者が自ら作成することも可能である。しかし昨今では、より学習効果を高めるため、画像や映像・音声なども含めた、いわゆるマルチメディアの学習教材が一般的になってきている。
【0005】
マルチメディア学習教材の作成及び編集は、一般の教育者には難しい作業である。そのため、教育者がマルチメディアコンテンツの作成作業(オーサリング)に習熟した編集作業者に委託し、教育者と編集作業者の共同でマルチメディア学習教材を作成するケースが多くなる。従って、マルチメディア教材の作成には多大な費用と時間がかかり、迅速な教材供給が滞ってしまう。
【0006】
一方、ディジタルビデオカメラや動画撮影機能付きの携帯電話機の爆発的な普及により、誰もが気軽に映像を取得し、その映像をネットワークなどを介して他人と共有する環境が整ってきている。映像が多量に蓄積される状況になって、所望の映像を簡単に検索したり、編集して再利用したいというニーズも高まってきている。
【0007】
オフィスでは、各自の知識やノウハウなどを文書にして蓄積しておき、これをユーザが活用するナレッジマネジメントシステムが導入されている。同様のシステムは、例えば顧客相談窓口においてオペレータが顧客の質問に対する回答の内容をテキスト情報で記録しておき、他のオペレータが同じような質問を受けたときに、そのテキスト情報を検索して再利用するといった用途に利用されている。これらのシステムでは、情報を人手でテキスト情報に変換して記録しておき、ユーザは自然言語検索の技術を利用して再利用する。
【0008】
映像や音声などのストリームデータとして記録された情報についても、テキスト情報が付加されていれば同様に検索ができる。しかし、ストリームデータの望みのシーンを直接検索するためには、マルチメディア情報の記述のための国際標準規格であるMPEG7(Motion Picture Experts Group phase 7)のようなシーン記述方式に従って、シーン毎に検索のための説明文をテキスト情報として付加するという煩雑な作業が必要になる。重要なシーンだけ取り出して、意味のある順に並べ替えたりといった編集作業を行うとさらに有効であるが、このような作業は非常に繁雑で、一般のユーザが行うと多大な手間がかかる。
【0009】
こうしたストリームデータの検索のための編集作業を自動化するために、ストリームデータに検索キーなどの説明テキストを自動で付加する技術がいくつか開発されている。ニュース映像を解析してシーンの区切りを検出したり、字幕の文字を認識したり、アナウンサーの発声する読み上げ音声に対して音声認識を行って重要なキーワードを抽出し、検索キーとして付加するといった技術はビデオアーカイブシステムやビデオ録画要約システムなどで試作され、あるいは実現されている。
【0010】
例えば、「アノテーションに基づくディジタルコンテンツの高度利用(後編)」長尾確, 情報処理学会学会誌 Vol.42 No.8 Aug. 2001, pp.787-792(非特許文献1)の特に789頁に記載されているビデオアノテーションエディタでは、ニュース音声の音声認識と、映像シーンの変わり目のシーン検出は自動で行っており、それ以外は手動で人間が操作して指定している。
【0011】
【非特許文献1】
「アノテーションに基づくディジタルコンテンツの高度利用(後編)」長尾確, 情報処理学会学会誌 Vol.42 No.8 Aug. 2001, pp.787-792
【発明が解決しようとする課題】
非特許文献1に記載された技術は、ニュース映像などのキーワード付加作業の自動化と検索、及び重要シーンの抽出を前提としており、先のe-Learningのための学習教材のような、映像を素材とした知識を伝達するコンテンツを人手で編集する場合の作業を支援するものではない。従って、システムが自動で解析し作成した結果を変更する場合は、従来の編集システムを利用することになる。すなわち、人手によってキーワードや説明文章を変更・追加したり、適切なシーンのみを切り出し直したり、映像素材の入れ替えを行ったりする場合には、従来通り煩雑な作業を行う必要がある。
【0012】
このように従来のストリームデータ編集技術では、映像や音声を素材とした知識伝達用のコンテンツを作成・編集する作業に手間がかかり、迅速な知識伝達や教育に対応できなかった。
【0013】
本発明は、音声や映像のようなストリームデータの編集作業をより容易に行うことができるストリームデータの編集方法と編集システム及びプログラムを提供することを目的とする。
【0014】
【課題を解決するための手段】
上記の課題を解決するため、本発明の観点では音声及び映像の少なくとも一方を含むストリームデータ中の各々の部分ストリームデータが持つ情報伝達における意味役割を解析して、該意味役割を表す意味役割識別情報を部分ストリームデータに付加する。意味役割識別情報と予め定められた規則に基づいて、部分ストリームデータの各々の再生の有無及び再生順序を制御する再生制御情報を作成して記憶する。部分ストリームデータの各々の時間範囲と意味役割とを対応付けて表示し、該表示に対するユーザの指示入力に従って、記憶されている再生制御情報を編集する。記憶された再生制御情報に従って、入力されるストリームデータを再生する。
【0015】
本発明の別の観点によると、音声及び映像の少なくとも一方を含むストリームデータを入力する処理と、入力されるストリームデータ中の各々の部分ストリームデータが持つ情報伝達における意味役割を解析し、該意味役割を表す意味役割識別情報を前記部分ストリームデータに付加する処理と、前記意味役割識別情報に基づいて前記部分ストリームデータの各々の再生の有無及び再生順序を制御する再生制御情報を作成する処理と、前記再生制御情報を記憶する処理と、前記部分ストリームデータの各々の時間範囲と前記意味役割とを対応付けて表示し、該表示に対するユーザの指示入力に従って、記憶された再生制御情報を編集する処理と、前記記憶された再生制御情報に従って、前記入力されるストリームデータを再生する処理とをコンピュータに行わせるためのプログラムを提供することができる。
【0016】
このように部分ストリームデータの各々の時間範囲と意味役割とを対応付けて表示し、この表示に対するユーザの指示入力に従って再生制御情報を編集することにより、ストリームデータの編集を容易に行うことが可能となる。
【0017】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
図1に示されるように、本実施形態のストリームデータ編集システムでは、ストリームデータ入力部11によって映像、音声などのストリームデータが入力される。ストリームデータ入力部11は、ディジタルビデオカメラのような映像音声取得デバイスや、インターネットやLANなどのネットワークを介して伝送されてくるストリームデータを受信する装置であってもよいし、DVDのような記憶媒体に記憶されたストリームデータを再生する装置であってもよい。
【0018】
入力されたストリームデータは、ストリームデータ記憶部12に蓄積されると共に、ストリームデータ処理部13に入力される。ストリームデータ処理部13は、意味役割解析部14、再生制御情報作成部15、再生制御情報記憶部16、ストリーム再生部17及び再生制御情報編集部18を有する。ストリームデータ処理部13は、具体的にはCPUであり、ソフトウェアすなわち編集プログラムにより処理を行う。ストリーム再生部17及び再生制御情報編集部18には、映像や音声を出力する出力部19が接続される。
【0019】
図2を用いて、本実施形態における処理手順の概略を図1中の各部の構成と共に説明する。
まず、映像や音声などのストリームデータがストリームデータ入力部11によって入力される(ステップS21)。入力されたストリームデータは、ストリームデータ記憶部12に記憶される(ステップS22)。
【0020】
入力されたストリームデータは、ストリームデータ処理部13内の意味役割解析部14にも渡され、意味役割解析が行われる(ステップS23)。意味役割解析部14では、入力されたストリームデータに含まれる部分ストリームデータを抽出し、部分ストリームデータの意味役割を解析して、意味役割識別情報を部分ストリームデータに付加する。
【0021】
意味役割解析部14は好ましくは複数の部分ストリーム間の対応関係をも解析する機能を有し、対応関係を抽出すると対応関係がある旨を示す情報を意味役割識別情報に含ませるものとする。例えば、質問とそれに対する回答は互いに対応しているので、これら質問と回答のそれぞれの部分ストリームデータについて対応関係が抽出される。
【0022】
意味役割解析部14によって意味役割識別情報が付加されたストリームデータは再生制御情報作成部15に入力され、意味役割識別情報と予め定められた規則に基づいてストリーム再生部17によるストリームデータの再生を制御するための再生制御情報が作成される(ステップS24)。再生制御情報については後述するが、具体的には例えば部分ストリームデータの各々の再生の有無及び再生順序を制御する情報である。作成された再生制御情報は、再生制御情報記憶部16に記憶される(ステップS25)。
【0023】
ストリーム再生部17では、再生制御情報記憶部16に記憶された再生制御情報に基づき、ストリームデータ入力部11から入力されるストリームデータ中の再生制御情報に対応する部分ストリームデータがストリームデータ記憶部12から読み出され、これが出力部19を介して映像や音声として再生される(ステップS26)。出力部19は、映像を表示するディスプレイや音声を出力するスピーカを含む。さらに、出力部19はストリーム再生部17によって再生される編集後のストリームデータを例えばCD−R,CD−RW,DVD−R,DVD−RW,DVD−RAMまたはHDDのようなディスク媒体、あるいはビデオテープなどのテープ媒体に記録するようにしてもよい。
【0024】
再生制御情報編集部18では、再生制御情報記憶部16に記憶された再生制御情報に基づいて出力部19を介して再生制御情報のための編集画面を提示する。再生制御情報編集部18は、さらにユーザからの編集画面に対する編集指示入力を受け付けて再生制御情報を編集する(ステップS27)。編集後の再生制御情報は、再生制御情報記憶部16に再び記憶される。
なお、意味役割解析は上記した方法に限定するものではなく、他の方法を用いてもよい。
【0025】
次に、意味役割解析部14について詳しく説明する。意味役割解析部14は、例えば入力されたストリームデータが対話映像である場合を例にとると、対話映像中の音声発話を音声の切れ目など適当な位置で区切って音声認識し、認識された発話内容から予めパタン辞書に登録しておいた「ありがとう」などの発話パタンを抽出して、発話パタンの出現位置から発話について「挨拶」「質問」及び「回答」などの意味役割の尤度を求める。
【0026】
次に、予め求めておいた発話の意味役割の遷移確率(例えば、挨拶の後ろは挨拶になりやすいといった、意味役割同士の前後関係の出現確率)に基づいて、発話毎の意味役割の尤度を補正する。これにより、対話映像のストリームデータを発話単位の部分ストリームデータに切り出して、各々の部分ストリームデータに求められた意味役割の情報を付加する処理を行う。
【0027】
次に、図3を用いて意味役割解析の処理手順の具体例を説明する。この意味役割解析の処理手順は、特願2003−54427に詳細に記載されている通りである。まず、ストリームデータ入力部11あるいはストリーム記憶部12を介して音声認識テキストを読み込み、形態素解析を行う(ステップS31〜S32)。図4に示す形態素解析結果101の例では、記号102、103及び104で示すアンダーライン部分が形態素解析された音声認識テキスト部分である。例えば、形態素解析済みである音声認識テキスト102の部分は、「よろしくお願いします」というテキストを形態素解析した結果部分である。
【0028】
次に、予め用意されているパターン規則を適用して形態素解析結果の分析を行う(ステップS33)。パターン規則は、特徴情報の意味を示す特徴情報識別情報と形態素解析パターンとを関連付けて、あるいは対応付けて記述したものである。特徴情報識別情報は予め定義されており、例えば各発話の意味を表す。
【0029】
図5には、パターン規則記述例であるパターン規則表200を示す。ここでは各発話の意味を表す意味役割識別情報として、「挨拶」、「相槌」、「質問」、「回答」、「確認」、「演示」及び「その他」の7つが予め定義されていると仮定する。図5のパターン規則表200は、各形態素パターン202が意味役割識別情報201のうちのどれに出現しやすいかを表したものである。重み付け係数(スコア)203は、ある形態素パターンが出現したときに、その形態素パターンがどの意味役割識別情報に対応しやすいかを数値で表したものである。図5の例では、重み付け係数(スコア)203は数値が大きいほど、対応する意味役割になりやすいことを示す。形態素パターン202は、例えばいくつかの会話データから各発話の意味を決定すると思われる特徴的な部分を抜き出した形態素パターンである。形態素解析結果として付加される記号< >で挟まれた部分は、品詞を示している。
【0030】
図5では、意味役割識別情報201は上述した7種類の意味役割識別情報が質問者の発話である場合と、回答者の発話である場合に分かれている。「挨拶」、「相槌」などの意味役割識別情報の後に、記号(Q)が付いている識別情報は質問者の識別情報を表し、記号(A)が付いている識別情報は回答者の識別情報を表す。すなわち、図5に示す意味役割識別情報201には質問者、回答者という役割の情報も含まれている。
【0031】
図5の例では、形態素解析を行った発話の中の形態素パターン202中の「こんにちは<感>」という形態素パターンが含まれる場合、その発話が質問者のものであっても回答者のものであっても、「挨拶」という意味役割になりやすい、ということを示している。「なんですが<付>」という形態素パターンを含む発話は、質問者のものである場合は「質問」になりやすく、回答者のものである場合は「回答」になりやすいということを示している。従って、図5に示す意味役割識別情報201は、発話の意味を決定するために質問者、回答者等の役割別になっている。
【0032】
パターン規則適用ステップS33では、各発話の形態素解析結果を図5に示したパターン規則表200に従って分析し、その発話に対応する意味役割識別情報を推定する。例えば、音声認識結果の中に「こんにちは」というテキストがあった場合、これはパターン規則中の「こんにちは<感>」という形態素パターンとマッチする。これが質問者の発話したものである場合は、「こんにちは」というテキストに対する意味役割候補として、「挨拶」、「相槌」、「質問」、「回答」、「確認」、「演示」及び「その他」の7つの意味役割識別情報のうちの「挨拶」に、パターン規則中の「挨拶(Q)」のスコアが加算される。
【0033】
一つのパターンマッチで、複数の意味役割識別情報にスコアが加算される場合もある。一つの音声認識テキストに複数の形態素パターンがマッチする場合もあり、この場合はその都度マッチした形態素パターンのスコアが加算される。発話者が質問者の場合は、質問者に対する意味役割識別情報(記号Qの付く意味役割識別情報)のみのスコアが加算され、発話者が回答者の場合は、回答者に対する意味役割識別情(記号Aの付く意味役割識別情報)のみのスコアが加算されるようにする。
【0034】
次に、意味役割識別情報の割り当てを行う(ステップS34)。ステップS34では、音声認識結果テキスト毎に最もスコアの高い、意味役割識別情報を割り当てる。形態素パターンにマッチしなかった等により、意味役割が不明な発話には、識別情報は割り当てられなくてもよい。意味役割識別情報割り当てステップS34での意味役割識別情報の割り当ては行わず、意味役割識別情報遷移確率適用ステップS35の処理後に、意味役割識別情報割り当て修正ステップS35で割り当てるようにしてもよい。
【0035】
意味役割識別情報遷移確率適用ステップS35では、形態素パターンではなく、会話の前後関係から各発話の意味役割を推定する。テキストデータを対象とした既存の意味役割解析は、上記パターンマッチングのみを行い、最もスコアの高い意味役割を与える(例えば、「知識情報共有システム(KIDS)のヘルプデスク業務への適用」、第13回人工知能学会全国大会論文集、p484-p487(1999))。
【0036】
音声認識結果には、認識誤りが含まれる可能性があるため、形態素パターンと意味役割識別情報との対応だけでは十分な精度が得られない可能性もある。一方、対話には「質問は回答に先行する」などの意味役割識別情報の遷移の制約があると期待される。従って、意味役割識別情報遷移確率適用ステップS35では、パターン規則適用ステップS33により得られた各音声認識結果に対するそれぞれの意味役割識別情報のスコアを、意味役割識別情報毎の他の意味役割への遷移確率を定義した意味役割識別情報遷移確率表のデータを用いて補正する。
【0037】
意味役割識別情報遷移確率表は、例えば質問者、回答者別に発話に割り当てられる意味役割識別情報全てについて、各意味役割識別情報の次にどの意味役割識別情報が出現しやすいかという確率を定義した表である。上述したように、意味役割識別情報には質問者、回答者という役割の情報を含むので、結果として意味役割識別情報遷移確率表は、質問者、回答者という役割に基く、意味役割識別情報の遷移確率を含む。
【0038】
図6には、意味役割識別情報遷移確率表300の例を示す。この例の意味役割識別情報遷移確率表300は、先行発話の意味役割識別情報301から後続発話の意味役割識別情報302への遷移確率を示している。意味役割識別情報遷移確率表300には、意味役割識別情報のほかに、対話の開始を示す「開始」と対話の終了を示す「終了」も含まれている。このようにすることで、それぞれの意味役割識別情報が対話の先頭に出現する確率、及び対話の最後に出現する確率も利用することができる。意味役割識別情報遷移確率表300は、例えば対話の先頭の発話は、質問者の挨拶である確率が0.56であり、質問者の挨拶の次にくる発話が回答者の挨拶である確率が0.54であるということを示している。
【0039】
遷移確率によるスコアの補正には、例えばビダビアルゴリズムが用いられる。遷移確率によるスコアの補正時に、形態素パターンにマッチしなかった発話については、全てのスコアが0となっているため、補正前に全てのスコアに例えば(1/意味役割識別情報の数)などの等スコアを与えるなどの前処理を行ってもよい。
【0040】
次に、意味役割識別情報割り当て修正ステップS36では、意味役割識別情報遷移確率適用ステップS35により導出された最適な意味役割識別情報を各音声認識結果のテキストに割り当てる。遷移確率を用いることで、形態素パターンによる解析では意味役割を特定できなかった発話に対しても、意味役割識別情報を割り当てることができる。
【0041】
意味役割遷移確率適用ステップS35で、意味役割識別情報遷移確率表の遷移確率情報に基いて最適な意味役割識別情報を見つけられなかった場合には、意味役割識別情報割り当てステップS34で割り当てられた意味役割識別情報を採用すればよい。意味役割識別情報割り当てステップS34による意味役割識別情報割り当てを行わない場合は、形態素パターン適用ステップS33で最もスコアが高かった意味役割識別情報を採用する。
【0042】
上述したような意味役割解析により、例えば図7に示すように対話の音声認識結果の前に、発話の開始時間、終了時間及び発話者の名前(Q,Aなど)と、「質問」「回答」「相槌」などの意味役割を示す意味役割識別情報が付加されて出力される。
【0043】
図8に示すように、質問者と回答者の映像が別のビデオカメラなどを通じて別のビデオストリームとしてストリームデータ入力部11により入力される場合がある。このような場合には、図9に示すように質問者と回答者の映像であるビデオストリームをそれぞれ部分ストリームに分割して音声認識を行い、別々のデータとして出力する。
【0044】
次に、二つの音声認識結果データに含まれる各発話の時系列データなどを用いて、発話順に並べて1つの対話データとしてマージする。マージ結果に対して図8中に示されるように意味役割解析を行い、図10に示されるような意味役割解析結果を生成する。図10が図7と異なる点は、図10の上側に示されるようにビデオストリームIDが複数あることである。
【0045】
次に、意味役割解析結果を基に映像の再生制御情報を作成する。例えば、以下のように再生制御情報作成規則を適用し、映像の再生制御情報を作成する。予め質問者と回答者の役割が決定している場合、図11に示すように質問者映像として質問者の質問発話部分の映像と、回答者映像として回答者の回答発話部分の映像のみを並べて、再生制御情報を作成する。この再生制御情報作成規則の場合、映像に含まれる他の挨拶、相槌、回答者による質問、質問者による回答は、再生制御情報に含めない。
【0046】
図12を用いて、再生制御情報作成部15における再生制御情報の作成手順の一例を説明する。
まず、ストリームデータ入力部11によってストリームデータに含まれる部分ストリームデータとして、発話データを撮影時間順に1つ入力する(ステップS41)。入力された発話データに対して意味役割解析により付加された意味役割識別情報から、発話データの意味役割は質問者の質問であるか否かを判定する(ステップS42)。発話データの意味役割が質問者の回答でなければ、引き続き発話データの意味役割は回答者の回答か否かを判定する(ステップS43)。
【0047】
発話データの意味役割が質問者の質問か回答者の回答であれば、発話データに対して新規シーンIDを付与して再生制御情報である再生リストを生成し、再生制御情報記憶部16に記憶する(ステップS44)。以下、ステップS41〜S44の処理を繰り返す。
【0048】
図13に、図11中の意味役割解析結果を基に図12の手順で生成された再生制御情報である再生リストの例を示す。部分ストリームデータである各シーンデータの再生時間は、意味役割解析識別情報の頭に付加されている、発話の終了時間から開始時間を引いた秒数がセットされる。図13の再生リストでは、質問者側の映像と回答者側の映像の二つのストリームデータがあるので、質問者側のストリームデータのIDと回答者側のストリームデータのIDの二つを再生制御情報として記憶し、コンテンツを再生する際には、二つのストリームデータから、対応する映像の時間情報を基に映像を再生する。
【0049】
図13の再生リストでは、質問者側の映像と回答者側の映像を別のストリームデータとしているが、これらを一つのストリームデータとしてもよい。また、図13では各シーンデータに再生順番の情報を付加して、1番から順に再生するように指定しているが、特に再生順番という情報を付加せず、シーンデータの並び順に従って順に再生してもよい。さらに、各シーンデータの再生開始時間として再生開始から各シーンが再生されるまでの時間を指定してもよい。これによりシーンとシーンの間で映像が流れない部分を作ったり、二つの映像が重複して再生される時間が存在するように指定することも可能になる。
【0050】
次に、上記のようにして再生情報記憶部16に記憶された再生制御情報を読み込んで再生情報編集部18が編集作業を行う。図14に、再生制御編集部18で編集ツールとして用いる編集画面の一例を示す。再生情報編集部18が図13に示した再生制御情報を読み込むと、これが図14に示すような編集画面として出力部19で表示される。図14の例では、編集ウィンドウの左部分に、ストリーム再生部17によって再生されるストリームデータである映像の再生表示部分が組み込まれているが、編集画面をストリームデータの再生表示とは別の画面で表示しても構わない。
【0051】
図14によると、編集ウィンドウの下方に再生制御情報を編集するための表示(以下、編集用表示という)400が存在する。編集用表示400は、この例では部分ストリームデータの各々の時間範囲を表す水平方向に延びたバー401と、バー401の下側に隣接して文字で表示された「質問」、「回答」などの意味役割表示402を有する。バー401には、部分ストリームデータの境界の時間位置に相当する位置に区切り線があり、これによって部分ストリームデータの時間範囲が分かる。また、バー401の下側の意味役割表示402から、各々の部分ストリームデータの持つ意味役割が分かる。さらに、編集用表示400にはバー401の上側に隣接して時刻を表示したタイムライン403も存在する。
【0052】
意味役割は文字で表示する以外に、質問を青、回答は赤など、色分けで表現する他、フォントや文字属性を買えてもよい。
【0053】
図14の例の編集用表示400から、再生制御情報により再生が制御されるストリームデータは、質問と回答が並ぶような構造を持ったコンテンツであることが分かる。ここで、ユーザの指示入力によって、例えば部分ストリームデータの時間範囲を示すバー401上で、意味役割表示402が「回答」と表示されている位置を矢印のカーソルで選択すると、ストリームデータの回答部分が再生されることにより、回答の内容をチェックすることができる。
【0054】
また、各シーンの発話内容を概要とし、意味役割をシーンタイプとして表示することで、ユーザに編集させてもよい。例えば、図15に示すようにタイトルや概要などを人手で編集してもよい。人手による編集を行った後、例えば編集ウィンドウ内で「更新」を指示することにより、編集後の内容が新規の再生制御情報として再生制御情報記憶部16に記憶される。図16に、図15の編集画面上での更新指示により、図13の再生制御情報である再生リストを更新した後の再生リストの例を示す。
【0055】
このように部分ストリームデータの各々の時間範囲と意味役割とを対応付けて表示し、この表示に対するユーザの指示入力に従って再生制御情報を編集することにより、ストリームデータの編集を容易に行うことが可能となる。すなわち、編集する映像や音声の構造が一目で理解でき、編集作業における試行錯誤が少なくなる。特に、上述のように特定の意味役割の付加された部分ストリームのみを再生してチェックするという編集作業や、あるいは後述するように部分ストリームデータの取捨選択、意味役割の変更、部分ストリームデータの切り出し範囲を変更するといった編集作業を効率よく行うことが可能となる。
【0056】
さらに、素材の意味役割に基づいて編集を行うことにより、他人にとってわかりやすく、学習しやすいコンテンツの作成が可能になる。これにより、特に映像の編集作業に習熟しない一般のユーザでも、効率よく知識を伝達する映像や音声の作成・編集を容易に行うことができるようになる。
【0057】
次に、図17を用いて再生制御情報の別の作成手順について、図10中に示される意味役割解析結果を例に説明する。
図10の発話データを1つずつ入力し(ステップS51)、発話データの意味役割は質問者の質問か否かを判定する(ステップS52)。図10の例では、「えっと、代官山で、、、」という発話データが質問者の質問なので、この発話データが入力されるとステップS54に進み、再生リストにシーンデータが登録されているか否かを確認する。ここでは、まだ再生リストにシーンデータが登録されていないので、図18に示すように新規シーンデータ(シーンID:0001)を作成して再生リストに登録する(ステップS58)。
【0058】
図10中の次の発話データ「そうですね。あのー、洋風と、」は回答者の回答なので、ステップS52からステップS53を経由してステップS54に進み、再生リストにシーンデータが登録されているか否かを確認する。図18の再生リストには既にシーンデータが登録されているので、ステップS55に進んで直前のシーンデータと同じビデオストリームか否かを調べる。ここでは、図18に示すように直前のシーンデータ(シーンID:0001)のビデオストリームIDは質問者のものであり、回答者とは別のビデオストリームであるので、ステップS56に進み、図19に示すように新規シーンデータ(シーンID:0002)を作って再生リストに登録する。
【0059】
図10中の発話データ「そうですね。あのー、洋風と、」の次の発話データ「はい。」は相槌なので、再生リストには含まれない。さらに次の発話データ「アジア料理とかもあるんですけど、」は回答者の回答なので、ステップS54からステップS55へ進む。直前のシーンデータも回答者のものであり、ビデオストリームIDは同じなので、ステップS55からステップS56へ進み、直前のシーンデータとの時間間隔が2秒以内かどうかを判定する。
【0060】
図10に示されるように、発話データ「アジア料理とかもあるんですけど、」の開始時刻は00:15である。一方、直前のシーンデータである発話データ「そうですね。あのー、洋風と、」の開始時刻は00:07、終了時間は00:10であり、ステップS56で判定される時間間隔は5秒であるので、ステップS58に進み、図20に示すように新規シーンデータ(シーンID:0005)を作って再生リストに登録する。
【0061】
このように処理を進めていくと、発話データ「ま、定番になるんですけど」を解析する前の再生リストは、図21に示すようになる。図10に示されるように、発話データ「ま、定番になるんですけど」の開始時刻は00:22、直前の「アジアですと、」の終了時刻は00:21となるため、その間隔は1秒になる。そこで、ステップS56からステップS57に進み、図22に示すように直前のシーンデータ(シーンID:0004)の概要に発話データを追加する。再生時間は、追加する発話データの終了時刻00:24から、直前のシーンデータの開始時刻00:20を引いて4秒とセットする。
【0062】
以下、同様に回答者の回答データをシーンID:0004のシーンデータに加えてゆき、図23に示すような再生リストが生成される。図23の再生リストを編集ツールで見ると、図24に示すように表示される。図24に示されるように、シーンID:0004のシーンデータは意味役割解析処理で区切られた単位ではなく、連続した一本のビデオストリームとして貼り付けられる。
【0063】
以下、図14に示した編集画面を用いた再生制御情報の編集によるストリームデータ編集の具体例を幾つか説明する。
(ストリームデータの分割)
まず、連続したストリームデータを途中で分割する処理の例について述べる。例えば、図25のシーンID:0002のシーンデータにおいて「そうですね。あのー、洋風と」という発言のうちの「そうですね。あのー、」の部分の映像及び音声を分割する場合、映像を見ながら再生と中断を繰り返し、「あのー、」と「洋風と」の間で再生を中断する。ここで、図25中に示されるように例えばポップアップメニューのようなものを用いて、ユーザが「分割」を選択指示すると、図26に示す再生リストのようなデータ構造に更新される。
【0064】
図26によれば、シーンID:0002のシーンデータの再生時間が2秒になり、この後に新たにシーンID:0005のシーンデータが挿入される。シーンID:0005のシーンデータの開始時刻は、シーンID:0002のシーンデータの再生時間の直後からとなる。挿入されたシーンID:0005のシーンデータの再生順番が3になり、以降のシーンデータの再生順番は1つずつ繰り下げられる。図26では、概要の文章と意味役割タグは、シーンID:0002と同じデータが自動的にシーンID:0005にも挿入されているが、それぞれのビデオストリームの音声データを音声認識し直して、概要の文章を変更する処理を行っても良い。
【0065】
また、概要や意味役割を人手で変更することも可能になる。例えば、シーンID:0002の意味役割を「相槌」に、概要を「そうですね。あのー」に人手で変更し、シーンID:0005の概要を「洋風と」に変更して更新する作業を人手で行うことが可能である。
【0066】
このようにして、ストリームデータの分割作業を行うことにより、ユーザは意味役割の切り出し範囲を変更することができる。
【0067】
(不要シーンデータの削除)
次に、不要なシーンデータを削除する処理の例を示す。例えば、さきほど分割して作成した図26の再生リストにおいて、シーンID:0002のシーンデータを削除する場合、図27に示すようにユーザが部分ストリームデータの時間範囲を示すバー上でシーンを選択して、ポップアップメニューなどで「削除」を選択指示する。図28に示されるように、シーンID:0002のシーンデータが消され、以降のシーンデータの再生順番が1つずつ繰り上げられたストリームデータが作成される。そこで、シーンID:0005の概要データを図29に示すように「洋風と」のみに修正してデータを更新すると、再生リストは図30に示すようになる。
【0068】
(ストリームデータの差し替え)
次に、再生リストの一部のシーンのストリームデータ(例えばビデオストリーム)を別のデータと差し替える処理について説明する。例えば、図38の左に示すような再生リストにおいて、2番目の回答シーンの映像を他の映像に差し替えるとする。例えば、図31に示すようにプルダウンメニューなどを用いてユーザが「開く」を選択指示すると、図32に示すように差し替える再生リストのファイル名を入力するダイアログが表示される。ここで、図32において当該ダイアログにファイル名を入力して「開く」を指示すると、指定した再生リストを表示した、もう一つの編集ウィンドウが表示される。
【0069】
一方、図32において「探す」というボタンをクリックすると、例えば図33に示すような検索ウィンドウが表示される。ここで、ユーザが例えば「代官山の和食のお店」などといった質問文を入力して「検索」を指示すると、自然言語検索技術を用いて再生リストの文字情報を検索した結果が検索ウィンドウ内にリスト表示される。検索ウィンドウ内の1,2,…という数字の表示は、検索結果のスコアの高い順番を示している。黒い星印で示されるマークなどによりスコアの高さを示してもよい。スコアの横には、検索された再生リストの中の該当するシーンのタイトルや概要などが表示される。その下に、再生リストの各シーンの長さを示す矩形などを表示してもよい。どのシーンが該当するのかは、別に太枠などで示している。各シーン毎にシーンの最初の映像(サムネイル)を表示してもよい。図34に示すように、シーンを示す矩形の下に「質問」、「回答」などの意味役割を表示してもよい。
【0070】
図33や図34の検索ウィンドウ内でユーザが該当するシーンやファイルを選択すると、図35に示すように別の編集ウィンドウでその再生リストが表示される。開かれた再生リストの2つ目のシーンは、代官山の和食に関する回答の映像が含まれている。このシーンを図35の下方に表示されている部分ストリームデータの時間範囲を示すバー上で選択して、ポップアップメニューなどで「コピー」を選択指示すると、選択されたシーンの再生リストの情報がバッファにコピーされる。
【0071】
次に、図31に示したように最初に開いていた再生リストのウィンドウで、図36に示すようにユーザが差し替えを行うシーンを部分ストリームデータの時間範囲を示すバー上で選択して、ポップアップメニューなどで「差し替え」を選択すると、図38のように再生リストのシーンID:0002のシーンデータが、バッファにコピーされていた再生リストの情報で差し替えられる。ビデオストリームID、開始時間、再生時間、タイトル、概要、意味役割、話者役割などが変更される。図37に、部分ストリームデータの時間範囲を示すバー上で差し替えを行うべきシーンを選択したときの概要欄の表示を示す。
【0072】
(ストリームデータの挿入)
一方、シーンデータを差し替えずに、新たなシーンデータを挿入する場合は、図39に例を示すようにユーザが挿入を行いたい位置で再生を停止して、ポップアップメニューなどで「挿入」を選択指示することにより、図40に示すように新たなシーンデータが挿入される。図41に示すように、再生リストの途中に新たにシーンID:0005のシーンデータが挿入され、再生順番は直前のシーンの次になる。以降のシーンデータは、再生順番が1つずつ繰り下げられる。
【0073】
(ストリームデータの差し替え録画)
次に、シーンデータの映像や音声をその場でアフレコ(after recording)により差し替える場合の例を以下に示す。図42に示すように、ユーザが部分ストリームデータの時間範囲を示すバー上で映像や音声を差し替えたいシーンを選択して、「差替録画」を指示する。これにより、例えば図43に示すようにカメラから映像や音声を取り込んで録画するウィンドウが表示される。この録画ウィンドウ内で、ユーザが「録画開始」を指示すると、その場でユーザがカメラに向かって話す映像と音声を取り込む。この場合、カメラでユーザの顔だけでなく、手元の資料を撮影したり、機器の操作を行いながら説明する実演映像などを撮影してもよい。
【0074】
ここで、例えば「中断」を選択すると撮影を一旦中止し、「終了」を選択すると撮影を終了する。その後、「差し替え実行」などを選択すると、図44に示すように、図42に示すようにして選択されたシーンのシーンデータが新しく録画された映像データで差し替えられる。
【0075】
このときに、概要部分とシーンタイプなどは、差し替え前のデータをそのまま残してもよい。逆に、撮影中か撮影後に録画している音声を音声認識しておき、概要部分を音声認識した結果で差し替えてもよい。このような差し替え録画により、再生リストのデータは例えば図45に示すように変更される。
【0076】
図46に、別の編集画面の例を示す。ここでは、シーン情報と映像情報を別トラックに分けており、複数の部分ストリームデータをまとめて1つのシーンとすることが可能になっている。これにより、発話の意味役割解析の単位にとらわれず、大きな意味のまとまりでシーン情報を付加することができる。
【0077】
例えば、図46に示すように質問とそれに対する回答をひとまとめにしてシーンとし、これにタイトルと概要説明を付けるようにすれば、ユーザの編集作業が減るので楽になる。また、検索時においても意味役割の細かい単位で検索するだけでなく、シーン単位で検索することが可能になり、検索結果の表示を見やすくする効果も期待できる。
【0078】
この場合、意味役割解析部14では前述のように意味役割の解析と共に、複数の部分ストリーム間の対応関係を解析し、対応関係を抽出すると対応関係がある旨を示す情報を意味役割識別情報に含ませる。一方、再生制御情報作成部15は、対応関係が抽出された複数の部分ストリームデータについて一括して再生の有無及び再生順序を制御するような再生制御情報(再生リスト)を作成する。
【0079】
図47に、図46の編集画面に対応する再生リストの構造を示す。再生リストのデータは、シーンデータとショットデータの2階層構造になっている。意味役割解析結果から、例えば図48に示す手順により、上述の部分ストリームデータ間の対応関係を有する質問と回答のペアが同じシーンに属するように自動生成される。図48の手順は、図17に示した手順と類似している。
【0080】
まず、発話データを1つずつ入力し(ステップS61)、発話データの意味役割は質問者の質問か否かを判定する(ステップS62)。入力された発話データが質問者の質問でなければ、ステップS63で発話データの意味役割が回答者の回答か否かを判定する。入力された発話データが質問者の質問か、回答者の回答であればステップS64に進み、再生リストにショットデータが登録されているか否かを確認する。入力された発話データが質問者の質問でみなく、回答者の回答でもない場合は、ステップS61に戻る。
【0081】
再生リストにショットデータが登録されていれば、ステップS65に進み、入力された発話データが直前のショットと同じビデオストリームかどうかを調べ、そうであればステップS66に進んで直前のショットとの時間間隔が2秒以内かどうかを調べる。入力された発話データが直前のショットと同じビデオストリームであり、かつ直前のショットとの時間間隔が2秒以内であれば、ステップS67により直前のショットデータに発話文言を付加し、再生時間を増やす。
【0082】
再生リストにショットデータが登録されているが、入力された発話データが直前のショットと同じビデオストリームでない場合、及び入力された発話データが直前のショットと同じビデオストリームであるが、直前のショットとの時間間隔が2秒以内でない場合は、ステップS68に進んで新規ショットデータを作成する。この後、ステップS69により新規ショットデータが直前のショットと同じビデオストリームか否かを調べ、同じ場合はステップS71で直前のショットが属するシーンの下に新規ショットデータを接続する。
【0083】
新規ショットデータが直前のビデオストリームと同じでない場合は、ステップS70に進んで発話データの意味役割が回答者の回答か否かを判定し、そうであればステップS71に進む。ステップS70及び先のステップS63において、発話データの意味役割が回答者の回答でない場合はステップS72に進み、新規シーンデータを作成してショットデータをその下に接続する。ステップS71またはステップS72の処理が終了するとステップS61に戻り、以上の処理を繰り返す。
【0084】
このようにシーンでまとめると、シーンごと削除したり、順番を加える場合のユーザの作業が楽になる。例えば、図46でシーンを表すバーを選択して、ポップアップメニュー等で削除をして、移動先で挿入する等の指定により、ユーザは対応関係をもつ複数の部分ストリームデータを一括して操作できる。また、図46の映像のうちの「回答」をあらわすバーを選択して削除すると、シーンの長さもその分縮んで、残りの質問と回答を1つずつ含む長さのシーンに自動的に変更される。
【0085】
一方、図47では2階層にして、必ずシーンの下にショットがあるようになっているが、拘束関係をなくしてもよい。シーンはシーン、ショットはショットで、それぞれ再生するときの再生開始時間を別途データとして持ち、映像は続いていてもシーンを変えるといったことも可能である。これにより、カラオケのように映像は同じでも字幕だけを変えてゆく、といった再生リストの作成が可能になる。
【0086】
図49に、再生リストを作る元となる意味役割解析結果を確認する対話ビューアの例を示す。ここでは、図10の意味役割解析結果を表示している。再生を開始すると、質問者と回答者の映像が同時に再生され、発言の意味役割解析データと音声認識データを表示するとともに、下のタイムライン上で再生中の発話がどれかを色を変えたりなどにより示す。
【0087】
図50の対話ビューアに示すように、タイムライン上の発話を表すバーの下に意味役割と発話の内容を表示してもよい。また、ユーザが発話を表すバーを直接指示すると、その発話から再生を開始してもよい。
【0088】
再生リストを表示中にユーザが編集画面などから対話ビューアを呼び出すと、図51の対話ビューアに示すように再生リストに含まれる映像データの区間のバーの色を変えるなどにより、その発話が再生リストに含まれているかを明示的に表示してもよい。ユーザは、対話全体を聞いて再生リストに含まれる発話のコンテキストを確認することが可能になる。意味役割解析結果の誤りをチェックしたり、重要な発話が再生リストから漏れていないかなどの確認行うこともできる。
【0089】
図52に、対話ビューアの別の例を示す。ユーザは選択された発話のみを再生するか、対話データのすべてを再生するか選択することができる。発話の選択を一つ一つ手作業で行うのではなく、「質問者の質問」、「回答者の回答」というように、話者役割と発話の意味役割をチェックボックスなどで指定することによって、一括して選択するインタフェースを用意しても良い。これによってユーザの指示作業が減り、効率よく対話データを確認することができる。
【0090】
図53に示すように、ユーザが発話データを選択し直した後、ポップアップメニューなどにより「新規作成」を指示すると、選択した発話データを含む新しい再生リストを作成するようにしてもよい。また、「コピー」を選択した後、編集ツールで開いた再生リストの任意の箇所で「挿入」や「差し替え」を指示することにより、自動生成された再生リストから漏れてしまった重要な映像データを再生リストに取り込むことができる。
【0091】
また、図54に示すように、シーンをバーで表すのではなく、画像等で表してもよい。例えば、各シーンの特徴的な画像(サムネイル)に意味役割を付加して表示する編集画面を設けてもよい。ユーザはシーンを選択してドラッグ・アンド・ドロップ等の操作で、順番を入れ替えたり、コピーや削除等の操作を簡単に行うことができる。
【0092】
本実施形態では、再生リストに格納する情報をタイトル、概要、意味役割、話者役割及び音声認識結果などとしているが、これに限定するものではない。例えば、概要は一般的な聴衆を対象に記述しているが、初心者と中級者、年代別などのような複数レベルのユーザ毎に概要を記述できるような編集ツールにしてもよい。出来上がったコンテンツを見るユーザに合わせて、表示する概要を変えることが可能になる。
【0093】
カメラに向かって物を見せて、操作の実演をしながら説明をするような映像の場合は、説明している物の名前、機能の名前などを細かく入力するようにしてもよい。物の名前や機能の名前は、音声認識結果から情報抽出技術により自動で抽出してもよいし、編集ツールを操作するユーザが手作業で入力してもよい。これにより、「○○の××操作について教えて」といった質問に対して適切なシーンを検索してユーザに示すことができる。
【0094】
また、本実施形態では映像と音声を同一トラックで取り扱っていたが、音声トラックを別に設けてもよい。これにより、例えば映像は常に回答者の音声データを再生するといった再生形態が可能になる。
【0095】
さらに、映像もしくは音声のみをアフレコしたり、別のストリームデータで差替えることが可能になる。更に音声トラックを1つに限らず複数も設けることにより、回答者と質問者の音声を同時に再生したり、解説やBGMを重ねて再生することが可能になる。
【0096】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0097】
【発明の効果】
以上説明したように、本発明によれば従来では非常に煩雑であったストリームデータの編集作業を効率よく行うことができる。
【0098】
例えば、自動的に作成されたコンテンツを人手で修正する場合、システムがコンテンツを作成した意図が分かりやすく示されているため、ユーザは試行錯誤なく修正作業を行うことができる。これにより、映像編集に慣れない一般のユーザでも自分で映像や音声の編集を行い、迅速に自分の意図通りの知識伝達コンテンツを作成・編集することができる。
【0099】
また、映像や音声の一部を他の映像や音声に差し替えることも容易になる。例えば、回答を説明する映像のみをユーザのレベルに合わせて用意し、その部分だけを差し替えた映像をユーザに合わせて提示するといった編集作業も容易に行うことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るストリームデータ編集システムの構成を示すブロック図
【図2】同実施形態におけるストリームデータの編集手順を示すフローチャート
【図3】同実施形態における意味役割解析の処理手順を示すフローチャート
【図4】意味役割解析における形態素解析結果の例を示す図
【図5】意味役割解析で用いられるパターン規則表の例を示す図
【図6】意味役割解析で用いられる意味役割識別情報遷移確率表の例を示す図
【図7】意味役割解析により部分ストリームデータに意味役割識別情報が付加される様子の例を示す図
【図8】質問者と回答者の映像が別のビデオストリームとして入力される場合のストリームデータ編集の概要を示す図
【図9】質問者と回答者の映像であるビデオストリームを部分ストリームに分割して音声認識して別々のストリームデータとして出力する様子を示す図
【図10】意味役割解析結果の例を示す図
【図11】再生制御情報の作成例を示す図
【図12】再生制御情報の作成手順の一例を示すフローチャート
【図13】図11中の意味役割解析結果を基に作成される再生制御情報の例を示す図
【図14】再生制御情報編集のための編集画面の例を示す図
【図15】再生制御情報の編集後に更新指示を行った編集画面の例を示す図
【図16】更新後の再生制御情報の例を示す図
【図17】再生制御情報の作成手順の他の例を示すフローチャート
【図18】再生制御情報の作成手順における第1の新規シーンデータ作成後の再生制御情報を示す図
【図19】再生制御情報の作成手順における第2の新規シーンデータ作成後の再生制御情報を示す図
【図20】再生制御情報の作成手順における第3の新規シーンデータ作成後の再生制御情報を示す図
【図21】再生制御情報の作成手順における特定の発話データ解析前の再生制御情報を示す図
【図22】再生制御情報の作成手順における特定の発話データ追加後の再生制御情報を示す図
【図23】再生制御情報の作成手順における最終的な再生制御情報の例を示す図
【図24】図23の再生制御情報を反映させた編集画面の例を示す図
【図25】ストリームデータ編集の具体例であるストリームデータ分割処理を説明するための編集画面を示す図
【図26】ストリームデータ分割処理時における更新後の再生制御情報を示す図
【図27】ストリームデータ編集の具体例である不要シーンデータの削除処理を説明するための編集画面を示す図
【図28】不要シーンデータ削除処理時における更新後の再生制御情報を示す図
【図29】不要シーンデータ削除処理後に概要データが修正された編集画面を示す図
【図30】概要データの修正により更新された後の再生制御情報を示す図
【図31】ストリームデータ編集の具体例であるストリームデータ差し替え処理を説明するための第1の編集画面を示す図
【図32】ストリームデータ差し替え処理を説明するための第2の編集画面を示す図
【図33】ストリームデータ差し替え処理を説明するための第3の編集画面を示す図
【図34】ストリームデータ差し替え処理を説明するための第4の編集画面を示す図
【図35】ストリームデータ差し替え処理を説明するための第5の編集画面を示す図
【図36】ストリームデータ差し替え処理を説明するための第6の編集画面を示す図
【図37】ストリームデータ差し替え処理を説明するための第7の編集画面を示す図
【図38】ストリームデータ差し替えによる更新後の再生制御情報を示す図
【図39】ストリームデータ編集の具体例であるストリームデータ挿入処理を説明するための第1の編集画面を示す図
【図40】ストリームデータ挿入処理を説明するための第2の編集画面を示す図
【図41】ストリームデータ挿入による更新後の再生制御情報を示す図
【図42】ストリームデータ編集の具体例であるストリームデータ差し替え処理を説明するための第1の編集画面を示す図
【図43】ストリームデータ差し替え処理を説明するための第2の編集画面を示す図
【図44】ストリームデータ差し替え処理を説明するための第3の編集画面を示す図
【図45】ストリームデータ差し替えによる更新後の再生制御情報を示す図
【図46】再生制御情報編集のための編集画面の別の例を示す図
【図47】図46の編集画面を実現する再生制御情報を示す図
【図48】再生制御情報の作成手順の別の例を示すフローチャート
【図49】意味役割解析結果を確認する対話ビューアの一例を示す図
【図50】図49に示す対話ビューアの変形例を示す図
【図51】図49に示す対話ビューアの他の変形例を示す図
【図52】意味役割解析結果を確認する対話ビューアの他の例を示す図
【図53】図52に示す対話ビューアの変形例を示す図
【図54】再生制御情報編集のための編集画面のさらに別の例を示す図
【符号の説明】
11…ストリームデータ入力部、12…ストリームデータ記憶部、13…ストリームデータ処理部、14…意味役割解析部、15…再生制御情報作成部、16…再生制御情報記憶部、17…ストリーム再生部、18…再生制御情報編集部、19…出力部。
Claims (11)
- 役割の異なる各話者の対話音声を含むストリームデータを入力するステップと、
入力されるストリームデータ中の各々の部分ストリームデータ中の各話者の発話を音声認識するステップと、
1または複数の形態素からなる複数の形態素パターンと、各形態素パターンを含む発話の話者の前記役割の種類及び当該形態素パターンの意味の種類を識別するために予め定義された複数の意味役割識別情報との間で、各形態素パターンが前記複数の意味役割識別情報のうちのどの意味役割識別情報に対応しやすいかを示すスコアが記述されたパターン規則表を参照して、各部分ストリーム中の各話者の発話を音声認識した結果得られるテキスト中の各話者の各発話中の形態素パターンと各意味役割識別情報との間のスコアを求めるステップと、
求めたスコアを基に、各話者の各発話に対し前記複数の意味識別情報のうちの1つを割り当てるステップと、
前記ストリームデータのうち、前記複数の意味役割識別情報のうちの予め指定された意味役割識別情報が割り当てられた発話の区間について、当該区間の時間範囲と当該発話の話者の役割の種類を示す情報及び当該発話の意味の種類を示す情報とを含む再生制御情報を作成するステップと、
前記再生制御情報を記憶するステップと、
前記再生制御情報に対応する前記区間の時間範囲と、当該区間の発話の前記意味の種類とを対応付けて表示し、該表示に対するユーザの指示入力に従って、記憶された再生制御情報を編集するステップと、
前記記憶された再生制御情報に従って、前記ストリームデータを再生するステップとを具備するストリームデータ編集方法。 - 前記割り当てるステップは、先行と後行の意味役割識別情報の各組合せに対し当該組合せが対話中に出現する確率を示す遷移確率表を参照して、各話者の各発話中の形態素パターンと各意味役割識別情報との間のスコアを修正した後、各話者の各発話に対し前記複数の意味役割識別情報のうちの1つを割り当てる請求項1記載のストリームデータ編集方法。
- 前記複数の意味役割識別情報により識別される前記形態素パターンの意味の種類は、「質問」、「回答」、「挨拶」、「相槌」、「解説」及び「報告」を含む請求項1に記載のストリームデータ編集方法。
- 役割の異なる各話者の対話音声を含むストリームデータを入力する入力手段と、
入力されるストリームデータ中の各々の部分ストリームデータ中の各話者の発話を音声認識する手段と、
1または複数の形態素からなる複数の形態素パターンと、各形態素パターンを含む発話の話者の前記役割の種類及び当該形態素パターンの意味の種類を識別するために予め定義された複数の意味役割識別情報との間で、各形態素パターンが前記複数の意味役割識別情報のうちのどの意味役割識別情報に対応しやすいかを示すスコアが記述されたパターン規則表を参照して、各部分ストリーム中の各話者の発話を音声認識した結果得られるテキスト中の各話者の各発話中の形態素パターンと各意味役割識別情報との間のスコアを求め、求めたスコアを基に、各話者の各発話に対し前記複数の意味識別情報のうちの1つを割り当てる意味役割解析手段と、
前記ストリームデータのうち、前記複数の意味役割識別情報のうちの予め指定された意味役割識別情報が割り当てられた発話の区間について、当該区間の時間範囲、当該発話の話者の役割の種類を示す情報及び当該発話の意味の種類を示す情報とを含む再生制御情報を作成する再生制御情報作成手段と、
前記再生制御情報を記憶する記憶手段と、
前記再生制御情報に対応する前記区間の時間範囲と、当該区間の発話の前記意味の種類を示す情報とを対応付けて表示し、該表示に対するユーザの指示入力に従って、記憶された再生制御情報を編集する編集手段と、
前記記憶手段に記憶された再生制御情報に従って、前記ストリームデータを再生する再生手段とを具備するストリームデータ編集システム。 - 前記意味役割解析手段は、先行と後行の意味役割識別情報の各組合せに対し当該組合せが対話中に出現する確率を示す遷移確率表を参照して、各話者の各発話中の形態素パターンと各意味役割識別情報との間のスコアを修正した後、各話者の各発話に対し前記複数の意味識別情報のうちの1つを割り当てる請求項4記載のストリームデータ編集システム。
- 前記複数の意味役割識別情報により識別される前記形態素パターンの意味の種類は、「質問」、「回答」、「挨拶」、「相槌」、「解説」及び「報告」を含む請求項4記載のストリームデータ編集システム。
- 前記編集手段は、前記時間範囲と前記意味の種類を示す情報とを対応付けて表示する際に、前記時間範囲をバーで表示し、前記意味の種類を示す情報を前記バーに隣接して表示する請求項4に記載のストリームデータ編集システム。
- 前記編集手段は、前記ユーザからの指示入力により前記意味の種類を示す情報が変更可能である請求項4に記載のストリームデータ編集システム。
- 前記編集手段は、前記ユーザからの指示入力により前記記憶手段に記憶された前記再生制御情報に対応する前記区間内のストリームデータを別のデータに差し替えるように前記編集を行う請求項4に記載のストリームデータ編集システム。
- 前記再生手段により再生されたストリームデータを記録する手段をさらに具備する請求項4に記載のストリームデータ編集システム。
- 役割の異なる各話者の対話音声を含むストリームデータを入力する処理と、
入力されるストリームデータ中の各々の部分ストリームデータ中の各話者の発話を音声認識する処理と、
1または複数の形態素からなる複数の形態素パターンと、各形態素パターンを含む発話の話者の前記役割の種類及び当該形態素パターンの意味の種類を識別するために予め定義された複数の意味役割識別情報との間で、各形態素パターンが前記複数の意味役割識別情報のうちのどの意味役割識別情報に対応しやすいかを示すスコアが記述されたパターン規則表を参照して、各部分ストリーム中の各話者の発話を音声認識した結果得られるテキスト中の各話者の各発話中の形態素パターンと各意味役割識別情報との間のスコアを求める処理と、
求めたスコアを基に、各話者の各発話に対し前記複数の意味識別情報のうちの1つを割り当てる処理と、
前記ストリームデータのうち、前記複数の意味役割識別情報のうちの予め指定された意味役割識別情報が割り当てられた発話の区間について、当該区間の時間範囲と当該発話の話者の役割の種類を示す情報及び当該発話の意味の種類を示す情報とを含む再生制御情報を作成する処理と、
前記再生制御情報を記憶する処理と、
前記再生制御情報に対応する前記区間の時間範囲と、当該区間の発話の前記意味の種類とを対応付けて表示し、該表示に対するユーザの指示入力に従って、記憶された再生制御情報を編集する処理と、
前記記憶された再生制御情報に従って、前記ストリームデータを再生する処理とをコンピュータに行わせるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003155893A JP3816901B2 (ja) | 2003-05-30 | 2003-05-30 | ストリームデータの編集方法と編集システム及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003155893A JP3816901B2 (ja) | 2003-05-30 | 2003-05-30 | ストリームデータの編集方法と編集システム及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004363643A JP2004363643A (ja) | 2004-12-24 |
JP3816901B2 true JP3816901B2 (ja) | 2006-08-30 |
Family
ID=34050163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003155893A Expired - Lifetime JP3816901B2 (ja) | 2003-05-30 | 2003-05-30 | ストリームデータの編集方法と編集システム及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3816901B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5910379B2 (ja) * | 2012-07-12 | 2016-04-27 | ソニー株式会社 | 情報処理装置、情報処理方法、表示制御装置および表示制御方法 |
JP6280312B2 (ja) * | 2013-05-13 | 2018-02-14 | キヤノン株式会社 | 議事録記録装置、議事録記録方法及びプログラム |
WO2015156177A1 (ja) * | 2014-04-07 | 2015-10-15 | 株式会社ソニー・コンピュータエンタテインメント | ゲーム動画配信装置、ゲーム動画配信方法、ゲーム動画配信プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05342263A (ja) * | 1992-06-08 | 1993-12-24 | Nippon Telegr & Teleph Corp <Ntt> | ビデオデータ検索支援方法 |
JP3437617B2 (ja) * | 1993-06-03 | 2003-08-18 | 株式会社東芝 | 時系列データ記録再生装置 |
JPH08212228A (ja) * | 1995-02-02 | 1996-08-20 | Sanyo Electric Co Ltd | 要約文作成装置および要約音声作成装置 |
JP3176893B2 (ja) * | 1999-03-05 | 2001-06-18 | 株式会社次世代情報放送システム研究所 | ダイジェスト作成装置,ダイジェスト作成方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP4085015B2 (ja) * | 2003-02-28 | 2008-04-30 | 株式会社東芝 | ストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラム |
-
2003
- 2003-05-30 JP JP2003155893A patent/JP3816901B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2004363643A (ja) | 2004-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110035330B (zh) | 基于在线教育的视频生成方法、***、设备及存储介质 | |
CN111538851B (zh) | 自动生成演示视频的方法、***、设备及存储介质 | |
US8966360B2 (en) | Transcript editor | |
US7739116B2 (en) | Subtitle generation and retrieval combining document with speech recognition | |
JP4466564B2 (ja) | 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム | |
EP1425736B1 (en) | Method for processing audiovisual data using speech recognition | |
WO2018227761A1 (zh) | 一种教学录播数据修正装置 | |
Pavel et al. | Rescribe: Authoring and automatically editing audio descriptions | |
US20130124984A1 (en) | Method and Apparatus for Providing Script Data | |
US20140272820A1 (en) | Language learning environment | |
US20200126559A1 (en) | Creating multi-media from transcript-aligned media recordings | |
KR20050121664A (ko) | 비디오 기반 언어 학습 시스템 | |
JP2006268800A (ja) | 議事録作成支援装置、議事録作成支援方法及びプログラム | |
KR102093938B1 (ko) | 학습자가 선택한 동영상을 학습 콘텐츠로 활용하는 외국어 학습시스템 및 이의 학습 콘텐츠 생성방법 | |
JP2019148681A (ja) | テキスト修正装置、テキスト修正方法およびテキスト修正プログラム | |
JP2002374494A (ja) | ビデオコンテンツファイル生成システムおよびビデオコンテンツファイル検索方法。 | |
Shin et al. | Dynamic authoring of audio with linked scripts | |
He et al. | Comparing presentation summaries: slides vs. reading vs. listening | |
JP3938096B2 (ja) | インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム | |
JP3816901B2 (ja) | ストリームデータの編集方法と編集システム及びプログラム | |
KR102396263B1 (ko) | 스크립트를 이용한 스마트 어학학습서비스를 제공하는 시스템 | |
JP4085015B2 (ja) | ストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラム | |
Rodríguez Fernández-Peña | Translating intonation and prosody in English-Spanish voice-over: strategies, resources and professional practices | |
KR101783872B1 (ko) | 동영상 검색 시스템 및 방법 | |
US20080222505A1 (en) | Method of capturing a presentation and creating a multimedia file |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050822 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060608 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 3816901 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090616 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100616 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100616 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110616 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120616 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120616 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130616 Year of fee payment: 7 |
|
EXPY | Cancellation because of completion of term |