JP2018503279A

JP2018503279A - インタラクティブな動画生成

Info

Publication number: JP2018503279A
Application number: JP2017522181A
Authority: JP
Inventors: ウ，ゾォンホアン; カル−エンデル，ムラート; カンシン，ジャン; ジラクマン，オズギュン; トルガエレン，ムスタファ; ティルカズ，ジャグラル; ギュルテキン，ギュナイ; クトゥルック，セゼル
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-10-22
Filing date: 2015-10-22
Publication date: 2018-02-01
Anticipated expiration: 2035-10-22
Also published as: BR112017008008B1; EP3198381A4; JP6517929B2; EP3790284A1; CN112449253B; JP2019154045A; KR20190047144A; US20160118083A1; CN112449253A; BR112017008008A2; CN106662920B; JP6898965B2; EP3198381A1; KR101975511B1; US9972358B2; EP3198381B1; KR20170070220A; WO2016062264A1; CN106662920A; KR102117433B1

Abstract

さまざまなビデオ化の解決方法が提供される。1つの例にしたがって、動画を生成する方法が提供される。その方法は、1つ又は複数のデータ部分を取得し、それらの1つ又は複数のデータ部分を使用するとともに1つ又は複数の動画生成テンプレートを使用して、カスタマイズ可能な動画を生成するステップと、1つ又は複数のオブジェクト定義を使用して、カスタマイズ可能な動画の中の1つ又は複数の選択可能なオブジェクトを決定するステップと、オブジェクト定義に対応する少なくとも1つの選択可能なオブジェクトのユーザによる選択を示す指標を受信するステップと、その指標に対応する少なくとも1つの選択可能なオブジェクトと関連する追加のデータ部分を取得するステップと、指標に対応する追加のデータ部分及び1つ又は複数のデータ部分を使用して、カスタマイズ可能な動画を再生成するステップとを含む。

Description

この出願は、2014年10月22日に出願された"統合されたインテリジェントな且つインタラクティブなインターネットストリーム化"と題する米国仮出願第62/067,327号に基づく優先権の利益を主張し、米国仮出願第62/067,327号の内容のすべては、本願の参照として取り入れられる。

本発明は、動画生成のためのシステム及び方法に関する。

マルチメディア・プラットフォームは、テレビ(television, 略称TV)、セット・トップ・ボックス(set-top-box, 略称STB)、モバイル・デバイス、パーソナル・コンピュータ(personal computer, 略称PC)、スマート・ウォッチ、スマート眼鏡、スマート鏡、車載用マルチメディア・スクリーン等であってもよい。ビデオ化されたプラットフォームは、1つのフレームワークを提供してもよく、そのフレームワークは、マルチメディア・プラットフォーム等のマルチメディア環境においてコンテンツを個人向けの動画コンテンツに変換する。ビデオ化システムは、そのようなビデオ化されたプラットフォームを提供するシステムである。

さまざまなビデオ化システムは、例えば、モバイル・アプリケーション、インターネット・アプリケーション等の複数のアプリケーションを使用して提供される。上記のビデオ化システムのうちのいくつかは、比較購買、サーチエンジン操作、オンライン・スクリーン再生、仮想パーソナル・アシスタント、及びソーシャル・メディアの動作中等に、主としてインターネットからデータ・リソースを取得する。

1つの例にしたがって、動画を生成する方法が提供される。その方法は、
1つ又は複数のデータ部分を取得し、前記1つ又は複数のデータ部分を使用するとともに1つ又は複数の動画生成テンプレートを使用して、カスタマイズ可能な動画を生成するステップと、
1つ又は複数のオブジェクト定義を使用して、前記カスタマイズ可能な動画の中の1つ又は複数の選択可能なオブジェクトを決定するステップと、
オブジェクト定義に対応する少なくとも1つの選択可能なオブジェクトのユーザによる選択を示す指標を受信するステップと、
前記指標に対応する前記少なくとも1つの選択可能なオブジェクトと関連する追加のデータ部分を取得するステップと、
前記指標に対応する前記追加のデータ部分及び前記1つ又は複数のデータ部分を使用して、前記カスタマイズ可能な動画を再生成するステップとを含む。

1つの例にしたがって、動画処理デバイスが提供される。その動画処理デバイスは、複数の命令を格納しているメモリ及びそのメモリに接続されているプロセッサを含む。プロセッサは、それらの複数の命令を読み出し、そして、実行して、
1つ又は複数のデータ部分を取得し、そして、前記1つ又は複数のデータ部分を使用するとともに1つ又は複数の動画生成テンプレートを使用して、カスタマイズ可能な動画を生成し、
1つ又は複数のオブジェクト定義を使用して、前記カスタマイズ可能な動画の中の1つ又は複数の選択可能なオブジェクトを決定し、
オブジェクト定義に対応する少なくとも1つの選択可能なオブジェクトのユーザによる選択を示す指標を受信し、
前記指標に対応する前記少なくとも1つの選択可能なオブジェクトと関連する追加のデータ部分を取得し、
前記指標に対応する前記追加のデータ部分を使用して、前記カスタマイズ可能な動画を再生成する。

動画処理デバイスは、
1つ又は複数のデータ部分を取得し、そして、前記1つ又は複数のデータ部分を使用するとともに1つ又は複数の動画生成テンプレートを使用して、カスタマイズ可能な動画を生成するデータ取得モジュールと、
1つ又は複数のオブジェクト定義を使用して、前記カスタマイズ可能な動画の中の1つ又は複数の選択可能なオブジェクトを決定する決定モジュールと、
オブジェクト定義に対応する少なくとも1つの選択可能なオブジェクトのユーザによる選択を示す指標を受信する受信機とを含み、
前記データ取得モジュールは、前記指標に対応する前記少なくとも1つの選択可能なオブジェクトと関連する追加のデータ部分を取得し、前記指標に対応する前記追加のデータ部分を使用して、前記カスタマイズ可能な動画を再生成する。

本発明及び本発明の複数の利点のより完全な理解のために、複数の添付の図面と併せて以下の詳細な説明がここで参照される。

1つの実施形態にしたがったカスタマイズ可能な動画システムを示している。インタラクティブな動画生成のための方法の1つの実施形態を示している。クラウド・サービスにおいて動作するビデオ生成システムの1つの実施形態を示している。ビデオ生成テンプレートの生成プロセスの1つの実施形態を示している。例えば、本明細書で説明されるサービス及び方法をいずれかの実施形態にしたがって実装するのに使用することができるコンピューティング・プラットフォームを示している。

現時点で好適な複数の実施形態の関する構成、製造、及び使用を、以下で詳細に論じる。しかしながら、本発明は、多くの適用可能な革新的な概念を提供し、多種多様な複数の特定の状況でこれらの適用可能な革新的な概念を具体化することができるということを理解すべきである。本明細書で説明される複数の特定の実施形態は、本発明を構成しそして使用する特定の方法の例示に過ぎず、本発明の範囲を限定するものではない。

自律的な動画生成は、ユーザが、人とコンピュータとの間の対話の手法及びビデオ化を使用することにより、さまざまなアプリケーションと動的に対話をするのを可能にする。

動画の中の1つの要素は、動的な成分であってもよく、その動的な成分は、画像、ビデオ・クリップ、音声クリップ、テキスト・ビジュアル、背景音楽、及び/又は動画と関連する画面に映っていない人間の声又は画面に映っていない音源の合成音声等を含む。

メディア要素特徴は、テキスト、音声、動画、画像、又はそれらの組み合わせの特徴を含んでもよい。基本特徴は、例えば、テキストの色、画像のサイズ、グラフィックスの形状、動画の解像度等であってもよい。より拡張された特徴は、例えば、音楽の情趣、絵のトーン、文章の感情であってもよい。

図1は、1つの実施形態にしたがったカスタマイズ可能な動画システム100を示している。示されている実施形態にしたがったカスタマイズ可能な動画システム100は、データ取得構成要素105、コンテンツ・キュレーション構成要素107、動画生成構成要素109、プレゼンテーション構成要素111、及びユーザ・インターフェイス構成要素101を含む。カスタマイズ可能な動画システム100は、選択的に、自然言語インターフェイス103を含んでもよい。いくつかの実施形態において、データ取得構成要素105は、少なくとも、ユーザ・インターフェイス構成要素101及びコンテンツ・キュレーション構成要素107に接続される。コンテンツ・キュレーション構成要素107は、さらに、動画生成構成要素109に接続されてもよく、動画生成構成要素109は、プレゼンテーション構成要素111に接続されてもよい。自然言語インターフェイス103は、動画サービス・システム113に接続されてもよい。

ユーザ・インターフェイス構成要素101及びプレゼンテーション構成要素111は、複数の個別の構成要素からなってもよく、或いは、1つの統合されたユニットからなってもよい。いくつかの実施形態において、自然言語インターフェイス103、データ取得構成要素105、コンテンツ・キュレーション構成要素107、及び動画生成構成要素109は、1つのビデオ化エンジンからなる。

さらに、カスタマイズ可能な動画システム100は、1つ又は複数の動画生成テンプレートを含んでもよい。それらの1つ又は複数の動画生成テンプレートは、複数のテンプレートを含み、それらの複数のテンプレートは、複数の動画部分を処理し、組み合わせ、及び/又は生成するのに使用されてもよい。さらに、上記の動画生成テンプレート120は、複数のデータ部分を処理し、組み合わせ、及び/又は生成して、複数の動画部分にするのに使用されてもよく、複数のデータ部分を処理し、組み合わせ、及び/又は生成することは、動画、テキスト、音声、画像、又はアニメーション部分及び/又はいずれかの他の適切なデータを組み合わせ及び/又は生成することを含む。

カスタマイズ可能な動画システム100は、カスタマイズ可能な動画を生成する。ユーザは、カスタマイズ可能な動画システム100を使用してカスタマイズ可能な動画を生成してもよい。ユーザは、カスタマイズ可能な動画システム100を使用してカスタマイズ可能な動画を再生して視聴してもよく、カスタマイズ可能な動画は、1つ又は複数の選択可能なオブジェクトを含む。

ユーザは、上記の選択可能なオブジェクトを強調することにより、選択可能なカーソルの上又は近くにカーソル又はポインティング要素を配置することにより、ユーザの目の動き及び/又は凝視の位置を決定することにより、ユーザから可聴の指示を受け取ることにより、或いは他の適切な指示等により、カスタマイズ可能な動画の中の選択可能なオブジェクトを選択し或いは示してもよい。それに応答して、カスタマイズ可能な動画システム100は、追加の素材を取得し、そして、カスタマイズ可能な動画の中にその追加の素材を組み込むことにより、カスタマイズ可能な動画を再生成してもよい。追加の素材は、ユーザによって選択され又は示された選択可能なオブジェクトに関連付けられていてもよい。結果として、カスタマイズ可能な動画システム100によってカスタマイズ可能な動画を迅速かつ容易に修正し、ユーザに提示することが可能である。このことは、ユーザが手作業で追加の素材を見つけて取得する必要なく行われる。このことは、ユーザが手作業で追加の素材を組み込む必要なく行われる。

ユーザは、単に、カスタマイズ可能な動画の中の1つ又は複数の選択可能なオブジェクトを選択し或いは1つ又は複数の選択可能なオブジェクトへの関心を示すことで、カスタマイズ可能な動画を修正することができる。ユーザは、カスタマイズ可能な動画の中の選択可能なオブジェクトを続けて選択することで、そのカスタマイズ可能な動画を繰り返し変化させる又は繰り返し洗練することができる。カスタマイズ可能な動画システム100は、リアルタイムで或いはほぼリアルタイムでカスタマイズ可能な動画を再生成してもよい。カスタマイズ可能な動画システム100は、ユーザへのカスタマイズ可能な動画の提示中にカスタマイズ可能な動画を再生成してもよい。

ユーザ・インターフェイス構成要素101は、データ取得構成要素105と接続される。ユーザ・インターフェイス構成要素101は、ユーザとの間で通信を交換してもよく、それらの通信は、例えば、ユーザ入力を受信することを含んでもよい。ユーザ入力は、例えば、機械的入力、音声入力、光入力、電気的入力、磁気的入力、又は近接センサ入力を含むいずれかの適切な入力を含んでもよい。他の入力のタイプが考慮され、それらの入力は、本明細書及び特許請求の範囲に記載された発明の範囲に入る。

プレゼンテーション構成要素111は、ユーザに動画を表示する(すなわち、提示する)。プレゼンテーション構成要素111は、1つ又は複数のディスプレイ・スクリーンを含んでもよい。プレゼンテーション構成要素111は、スピーカ又は他の音声生成構成要素を含んでもよい。プレゼンテーション構成要素111は、他の構成要素又は追加的な構成要素を含んでもよい。プレゼンテーション構成要素111は、いくつかの実施形態において、独立した構成要素であってもよく、或いは、ユーザ・インターフェイス構成要素101と一体化されていてもよいということを理解すべきである。

カスタマイズ可能な動画システム100が自然言語インターフェイスを含む場合には、ユーザは、その自然言語インターフェイス103を使用して、カスタマイズ可能な動画システム100と対話してもよい。例えば、いくつかの実施形態において、自然言語インターフェイス103は、音声分析を実行し、そして、ユーザからの音声入力及び音声コマンドに応答する。いくつかの実施形態において、自然言語インターフェイス103は、ユーザへの音声指示及び/又は音声フィードバックを生成する。

動画生成構成要素109は、カスタマイズ可能な動画を生成する。動画生成構成要素109は、いくつかの実施形態において、1つ又は複数の部分を組み合わせ及び/又は統合し、カスタマイズ可能な動画を生成する。いくつかの実施形態において、1つ又は複数のデータ部分は、複数の動画部分を含む。しかしながら、1つ又は複数のデータ部分は、画像、アニメーション、音声、テキスト、及び他のデータ部分を含む他のデータを含んでもよいということを理解すべきである。

カスタマイズ可能な動画システム100は、カスタマイズ可能な動画を生成するステップの一部として、そのカスタマイズ可能な動画の中の複数の選択可能なオブジェクトを決定することができる。カスタマイズ可能な動画システム100は、いくつかの実施形態において、複数の選択可能なオブジェクトを決定するために、動画生成テンプレートxxxを使用してもよい。そのカスタマイズ可能な動画の中の決定された選択可能なオブジェクトの各々についてオブジェクト定義を生成する。

複数の選択可能なオブジェクトの決定は、カスタマイズ可能な動画の複数の部分の分析を含んでもよい。複数の選択可能なオブジェクトのための分析は、カスタマイズ可能な動画の中の音声の自然言語処理を含んでもよい。複数の選択可能なオブジェクトのための分析は、カスタマイズ可能な動画の中の形態学的な分析を含んでもよい。複数の選択可能なオブジェクトのための分析は、カスタマイズ可能な動画の中の音声及び/又はテキストの意味論的な分析を含んでもよい。複数の選択可能なオブジェクトのための分析は、カスタマイズ可能な動画の動画分析を含んでもよい。複数の選択可能なオブジェクトのための分析は、カスタマイズ可能な動画の中の画像の画像分析を含んでもよい。複数の選択可能なオブジェクトのための分析は、カスタマイズ可能な動画の音声分析を含んでもよい。音声分析は、ユーザ(又は他の視聴者)の興味を引きそうな複数の音声部分を指定してもよい。複数の選択可能なオブジェクトのための分析は、カスタマイズ可能な動画の情趣分析を含んでもよい。情趣分析は、カスタマイズ可能な動画の中の伝えられている或いは伝えるように試みられている情趣を決定してもよい。

コンテンツ・キュレーション構成要素107は、カスタマイズ可能な動画の中での使用のために複数のデータ部分をキュレートする。コンテンツ・キュレーション構成要素107は、複数のデータ部分を格納してもよい。コンテンツ・キュレーション構成要素107は、いくつかの実施形態において、複数のデータ部分のフィルタリング、鮮明化、明暗、色、又は明暗差の変更、或いは、他の場合には、それらの複数のデータ部分の処理及び/又は改善といったような方法で複数のデータ部分を処理してもよい。コンテンツ・キュレーション構成要素107は、いくつかの実施形態において、複数のデータ部分を編成する。コンテンツ・キュレーション構成要素107は、いくつかの実施形態において、複数のデータ部分を維持し、データ部分の維持は、それらのデータ部分に対する更新又は変更を取得することを含む。コンテンツ・キュレーション構成要素107は、いくつかの実施形態において、複数のデータ部分を等級に分け、順位付けし、又は順序付けし、カスタマイズ可能な動画システム100は、多数の同様のデータ部分又は多数の交換可能なデータ部分の間で望ましいデータ部分を識別し、そして、多数の同様のデータ部分又は多数の交換可能なデータ部分から望ましいデータ部分を選択してもよい。

データ取得構成要素105は、カスタマイズ可能な動画の中で使用されるべき複数のデータ部分を取得する。データ取得構成要素105は、いくつかの実施形態において、取得されるべき複数のデータ部分を検索してもよい。

動画生成テンプレート120は、適切な入力データを受け入れるとともに受け入れ不可能な又は望ましくない入力データを除去することを可能にする構成概念を含む。動画生成テンプレート120は、入力データを、使用可能な又は好ましい1つ又は複数のフォーマットに変換することを可能にする構成概念を含む。動画生成テンプレート120は、複数のデータ部分を改善する又は最適化することを可能にする構成概念を含む。動画生成テンプレート120は、複数のデータ部分を組み合わせることを可能にする構成概念を含む。動画生成テンプレート120は、いずれかの選択可能なオブジェクトがそれらの複数のデータ部分の中に含まれているか否かを判定することを可能にする構成概念を含む。

動画生成テンプレート120は、複数のデータ受入れルール又は複数のデータ受入れ機能を含んでもよい。動画生成テンプレート120は、複数のデータ処理ルール又は複数のデータ処理機能を含んでもよい。動画生成テンプレート120は、複数の動画生成ルール又は複数の動画生成機能を含んでもよい。結果として、複数のデータ部分を受信し、複数のデータ部分を処理し、複数のデータ部分を組み合わせ、そして、カスタマイズ可能な動画の中に複数の選択可能なオブジェクトを含め、及び/又はカスタマイズ可能な動画の中で複数の選択可能なオブジェクトを指定するのに動画生成テンプレート120を使用してもよい。

動作において、カスタマイズ可能な動画システム100は、カスタマイズ可能な動画を生成するための複数のユーザ入力及び/又はコマンドを受信する。カスタマイズ可能な動画システム100は、ユーザに1つ又は複数の動画生成テンプレートを提供する。カスタマイズ可能な動画システム100は、1つ又は複数のデータ部分を取得し、上記の1つ又は複数の動画生成テンプレートを使用して上記の1つ又は複数の動画部分を組み合わせて、カスタマイズ可能な動画を生成する。さらに、カスタマイズ可能な動画システム100は、1つ又は複数の動画生成テンプレートを使用して、いずれかの適切な方法で複数のデータ部分を処理する。さらに、カスタマイズ可能な動画システム100は、1つ又は複数の動画生成テンプレートを使用して、カスタマイズ可能な動画の中の1つ又は複数の選択可能なオブジェクトを決定する。カスタマイズ可能な動画システム100は、1つ又は複数のオブジェクト定義を使用して、カスタマイズ可能な動画の中の1つ又は複数の選択可能なオブジェクトを決定する。カスタマイズ可能な動画システム100は、オブジェクト定義に対応する少なくとも1つの選択可能なオブジェクトのユーザによる選択を示す指標を受信し、その指標に対応する少なくとも1つの選択可能なオブジェクトと関連する追加のデータ部分を取得し、その指標に対応する追加のデータ部分及び1つ又は複数のデータ部分を使用して、カスタマイズ可能な動画を再生成する。

動画生成システム100は、ユーザに動画生成テンプレートを提供し、自然言語インターフェイス103を使用してユーザと対話する。ビデオ化エンジン110は、自然言語インターフェイス103、データ取得モジュール105、コンテンツ・キュレーション・モジュール107、動画生成モジュール109、及びプレゼンテーション・モジュール111を含む。ビデオ化エンジン110は、いくつかの実施形態において、自然言語インターフェイス103を使用してユーザと対話するように構成される。

いくつかの実施形態において、データ取得モジュール105は、他の検索エンジン及び/又はソースを介して製品の画像及び動画等のデータを収集してもよい。コンテンツ・キュレーション・モジュール107は、そのデータを選択し、その動画の場面を準備し、そして、拡張マークアップ言語(extensible markup language, 略称XML)ファイルを生成し、その拡張マークアップ言語ファイルは、複数のオブジェクト定義を含む。XMLファイル及びデータは、動画生成モジュールに送られる。動画生成モジュール109は、テキスト音声エンジンを使用して複数の音声ファイルを生成し、それらの複数の音声ファイルと視覚データとを組み合わせ、そして、アニメーション又は効果を適用して動画を組み立てる。その動画は、プレゼンテーション・モジュールを使用してユーザに提示される。生成された動画は、カスタマイズ可能性の点で、手作業で作成された動画とは異なる。上記の動画生成システム100は、自然言語インターフェイス103又はデータ取得モジュール105を介してサービス動画システムと連絡を取ってもよい。いくつかの実施形態において、データ取得モジュール105は、例えば、ショッピング・サイト等のサービス・モジュールからデータを収集し、そのサービス・モジュールは、複数の小売業者からの製品の特徴及び価格の比較を提供する。例えば、ユーザに製品の比較を提示するショッピング・システムにおいて上記の動画生成システム100を使用してもよい。消費者による製品の検索にしたがって、そのシステムにより動画を生成してもよい。あるクライアントにビデオ・トーンを提供する動画呼び出し音の場合に、又は、ユーザのために個人向けにされた個人資産管理及び銀行取引動画を自動的に生成するためにビデオ化エンジンを使用する銀行取引ビデオ化システムにおいて、或いは、ユーザがビデオ化エンジンの自然言語インターフェイスを使用してメッセージを組み立てるインスタント・メッセージ・システムであって、そのインスタント・メッセージ・システムがインスタント・メッセージ・サービスに上記のメッセージを直接送るインスタント・メッセージ・サービスにおいて、上記の動画生成システムを使用してもよい。

図2は、インタラクティブな動画生成の方法200の1つの実施形態を示している。その方法は、1つ又は複数のデータ部分201を取得するステップと、1つ又は複数のデータ部分を使用するとともに1つ又は複数の動画生成テンプレート203を使用して、カスタマイズ可能な動画を生成するステップと、1つ又は複数のオブジェクト定義2053を使用して、カスタマイズ可能な動画205の中の1つ又は複数の選択可能なオブジェクト2051を決定するステップと、オブジェクト定義2053に対応する少なくとも1つの選択可能なオブジェクト2051のユーザによる選択を示す指標207を受信するステップと、指標207に対応する少なくとも1つの選択可能なオブジェクト2051と関連する追加のデータ部分を取得するステップと、指標207に対応する追加のデータ部分及び1つ又は複数のデータ部分201を使用して、カスタマイズ可能な動画205を再生成するステップ209とを含む。

データ部分は、動画に組み込まれてもよいいずれかのデータを含むことが可能である。データ部分は、いずれのサイズ又は長さを有していてもよい。いくつかの実施形態において、データ部分は、最も小さな要素であってもよく、その最も小さな要素は、インターネット又は他のリソースから検索可能であってもよい。例えば、ある数、複数の単語のあるグループ、あるファイル、あるキーワード、ある絵、音声の一部等である。しかしながら、上記の例は、例示として与えられるにすぎず、限定的又は網羅的なものではない。

指標は、選択可能なオブジェクトのユーザによる選択を示す。指標は、ユーザ又はある機械によって与えられて、ある命令を示してもよく、その命令は、動画生成プログラム・プラットフォーム又は動画生成システムによって"理解"される。

選択可能なオブジェクトは、カスタマイズ可能な動画の中のあるオブジェクトを含み、ユーザが、そのオブジェクトを選択してもよく、或いは、そうでない場合には、そのオブジェクトを示してもよい。選択可能なオブジェクトは、音声クリップ、動画クリップ、画像、グラフィックス及び/又はテキストの一部の1つのセグメント、或いは、例えば、あるオブジェクトと関連する動画の他のセグメントのを再生するようにプレイヤーに指示する目的で選択されるといったように、あるオブジェクトとして選択されてさらなる目的のために動作させられることが可能である複数の要素の組み合わせの1つのセグメントであってもよい。動画全体または動画の1つのセグメントは、選択されたオブジェクトであってもよい。

オブジェクト定義は、あるオブジェクトの関連する情報を記述する定義であってもよい。そのオブジェクトの特徴は、色、サイズ、形状等であってもよい。オブジェクト定義は、例えば、(1) 追加の記述、著者、バージョン番号、著作権情報、価格、そのオブジェクトに関する関連する記述的な情報、又はそのオブジェクトに関するいずれかの他の適切な情報等のそのオブジェクトのメタデータ、及び、(2) 例えば、"クリック"して、Web URLを示す、"マウスオン"して、重ねられているいくつかのメタデータを示す、"ボタン1を押して"、いくつかのプログラムを実行する又はいくつかのAPIを呼び出す等の可能となった又は許可された対話に関する命令、を有してもよい。

1つ又は複数の選択されるオブジェクトを決定するステップは、1つ又は複数のデータ部分から複数のメディア要素特徴を抽出するステップをさらに含んでもよい。1つ又は複数の選択されるオブジェクトを決定するステップは、1つ又は複数のオブジェクト定義を用いてさまざまなレベルの複数のメディア要素特徴をラベル付するステップをさらに含んでもよい。1つ又は複数の選択されるオブジェクトを決定するステップは、さまざまなレベルの複数のメディア要素特徴のうちの1つのメディア要素特徴を1つの選択可能なオブジェクトとしてラベル付するステップをさらに含んでもよい。

オブジェクト定義は、例えば、拡張マークアップ言語(extensible markup language, 略称XML)ファイル等のファイルの中に定義されてもよい。結果として、ユーザによって選択可能なオブジェクトが選択され又は示されると、対応するXMLファイルが、転送され又は動画生成システム100の複数の構成要素によってアクセスされてもよい。指標は、動画記述ファイルを含んでもよく、動画記述ファイルは、オブジェクトの定義を動画記述ファイルに付加する。

上記の方法は、ユーザによるスケジューリングにしたがってカスタマイズ可能な動画を更新するステップをさらに含んでもよい。

上記の方法は、カスタマイズ可能な動画を再生成するステップの後に、より多くのオブジェクト定義を使用してより多くの選択可能なオブジェクトを決定するステップをさらに含んでもよい。

ビデオ化は、インターネット・コンテンツ及び/又は他のコンテンツを個人向けの利用しやすい動画コンテンツに変換し、その個人向けの利用しやすい動画コンテンツは、TV、モバイル・デバイス、PC、車載用コンピュータ、又はいずれかの他の適切なデバイスで視聴することができる。ビデオ化は、個々のウェブ・ページを読まなければならない代わりに、ユーザが、インターネットを見て耳を傾けることを可能にすることができる。そのようにすることにより、ユーザは、インターネットの共有のリソースをより良好に享受することが可能となる。1つの実施形態を提供することにより、ユーザは、受動的な方法でコンテンツを受信してもよく、又は、当該コンテンツを制御し且つカスタマイズしてもよい。ソース及びコンテンツのタイプに基づいてインターネットのコンテンツを分類してもよい。システムの中の個別のチャネルとして各々のカテゴリーを提示してもよい。例えば、多数のウェブ・ページを含むソーシャル・ネットワークのインターネット・ウェブサイトを単一のチャネルとして提示してもよく、そのウェブサイトからの投稿メッセージをエピソードとして提示してもよい。

図3は、クラウド・サービスにおいて動作する動画生成システムの1つの実施形態を示している。ビデオ化クラウド・サービス・システム300は、ビデオ化層310、リポジトリ層330、及びアプリケーション層350を含んでいる。複数の層は、ソフトウェア設計原理を考慮して、オブジェクト指向の手法で設計されている。それらの層は、アプリケーション・プログラミング・インターフェイス(application programming interface, 略称API)により統合され、簡易オブジェクト・アクセス・プロトコル(Simple Object Access Protocol, 略称SOAP)及びリプリゼンテイショナル・ステイト・トランスファー(Representational State Transfer, 略称REST)等のインターネット・サービスとしてアプリケーション・プログラミング・インターフェイスを実装することが可能である。当業者によって理解されるであろうように、他のプロトコルを採用することも可能である。

ビデオ化層310は、データ取得モジュール311、コンテンツ・キュレーション・モジュール313、及び動画生成モジュール315を含む。データ取得モジュール311は、ソーシャル・エクストラクター、ウェブ・エクストラクター、電子番組ガイド(electronic program guide, 略称EPG)エクストラクター、及びニュース・エクストラクターを含む。ある実施形態においては、データ取得モジュール311は、ソーシャル・エクストラクター、ウェブ・エクストラクター、及びEPGエクストラクターを含む。(例えば、ソーシャル・メディア、ニュース、及び製品等の)さまざまなカテゴリー及び(例えば、XML、ハイパーテキスト・マークアップ言語(Hypertext Markup Language, 略称HTML)、画像、及び動画等の)さまざまなフォーマットのデータを収集し、ビデオ化してもよい。コンテンツ・キュレーション(content curation, 略称CC)構成要素313は、形態学的分析、意味論的な分析、情趣分析、多面的分析、音声認識、発見的問題解決ルール、アルゴリズム及び情報提示を含む。

この出願と関連して説明されてきたコンテンツ・キュレーション・モジュール313は、ある特定の話題と関連する情報を収集し、編成し、そして表示するプロセスを指してもよい。上記のCC構成要素313によってオブジェクト定義を実行してもよい。

動画生成構成要素315は、視覚化モジュール、トランスコード・モジュール、及びスクリプト作成モジュールを含む。視覚化モジュールは、CC構成要素313が提供した命令を使用することにより3D動画コンテンツを生成する。トランスコード・モジュールは、視覚化モジュールによって使用される収集されたマルチメディア・コンテンツを復号するとともに、視覚化モジュールの出力を望ましいフォーマットに符号化する。スクリプト作成モジュールは、視覚化モジュールによって使用されるべきアクション型スクリプト及びディレクター型スクリプトを提供し、スクリプトの他のモジュールへの統合に対処する。スクリプト作成モジュールは、JavaScript技術を使用してAPIを提供する。サード・パーティー開発者は、APIを使用してシステムに自身のオーディオビジュアル・アニメーション、アクション・テンプレート、及びディレクター・テンプレートを付加してもよい。アクション型スクリプトは、トゥイーン、回転、スケーリング、及び移動等の共通のアクション・アニメーションのためのJavaScript命令である。サード・パーティー開発者は、提供されたあらかじめ定義されたスクリプトを使用してもよく、或いは、アクション型スクリプト・データベースに自身のアニメーションを付加してもよい。ディレクター型スクリプトは、CC命令を解析して、動画タイムラインを生成し、動画タイムラインは、あらかじめ定義されたテンプレートにしたがってウェブから収集されたコンテンツを提示するべき場所、時、及び方法を記述している。サード・パーティー開発者は、あらかじめ定義されたスクリプトを使用してもよく、又は、自身の意向にしたがって自身のスクリプトを付加してもよい。ビデオ化層310は、NLP技術、画像処理技術、及びコンピュータ・グラフィックス技術を使用して、(例えば、ソーシャル・フィード及びウェブ・ページ等の)取得された構造的なコンテンツの動画フォーマットへの変換を実行する。リポジトリ層330は、ユーザ・プロファイル、マルチメディア・リポジトリ、知識ベース、及び動画リポジトリを含む。マルチメディア・リポジトリは、動画生成に関する基本マルチメディア・コンテンツを蓄え、動画リポジトリは、生成された動画を格納する。アプリケーション層350は、ビデオ化API353及び上記で説明されたさまざまなチャネル351を含む。アプリケーション層350は、これらには限定されないが、データ抽出のための外部ウェブサイトとの統合及びチャネルのためのユーザ・インターフェイスを含むハイレベル・サービスを行う。1つの実施形態においては、ソフトウェアは、画像処理モジュール及び動画処理モジュールのためにC++で実装され、そして、Javaで実装される。ビデオ化クラウド・サービス・システムは、あらかじめ定義されたアニメーション及びJavaScriptで書かれたディレクター型スクリプトのためのデータベースを保持しており、サード・パーティー開発者が、システムに自身のスクリプトを付加するのを可能にする。さらに、これらには限定されないが、画像処理及び動画処理のためのOpenCV及びNLPのためのOpenNLPを含む商用のソフトウェア開発及び管理ツールとオープンソースのソフトウェア開発及び管理ツールの双方を使用してもよい。

他の実施形態が提供される。スクリーン再生システムの視覚化は、動画生成モジュールのためのスクリーン再生XMLデータを生成するコンテンツ・キュレーション・モジュールを含む。コンテンツ・キュレーション・モジュールは、スクリーン再生システムの視覚化を指示し、個々のTV視聴者に抽出されたウェブ・コンテンツを提示する方法を決定する。コンテンツ・キュレーション・モジュールは、自然言語処理、意味論的なウェブの多面的な要約、及び個人化の研究課題をサポートする。コンテンツ・キュレーション・モジュールの最終的な出力は、生成された動画のコンテンツを定義ずるビデオ化動画記述言語と称されるXMLファイルである。上記の動画記述言語は、複数の場面要素からなる。各々の場面要素は、テキスト、ビジュアル(画像及び動画)アイテム、及び音声アイテムからなってもよい。本明細書では、ビデオ化動画記述言語ファイルのための構文の1つの実施形態を示す。

図4は、動画生成テンプレートの生成プロセスの1つの実施形態を示している。有用と考えられている重要な情報401は、データ取得モジュールから抽出されてもよい。コンテンツ・キュレーション・モジュールにおいては、さまざまなルール又は原理が、美に関するルール・モジュール4031、知覚原理モジュール4033、提示最適化モジュール4035、又はモバイル・ディスプレイ可読性制約モジュール4037等のさまざまなモジュールにおいて学習され、美に関するルール・モジュール4031、知覚原理モジュール4033、提示最適化モジュール4035、又はモバイル・ディスプレイ可読性制約モジュール4037が、動画テンプレート405を生成すると考えられてもよく、それによって、後の動画がその動画テンプレートを参照してもよい。動画生成モジュールは、画像処理及び動画処理を使用することにより、(例えば、XMLコンテンツ等の)コンテンツ・キュレーション・モジュールの出力を動画に変換する。動画生成モジュールは、上記の返還プロセス中に、スケーリング、サイズ変更、及びフィルタリング等の複数の動画機能を編集する。例えば、受信したビジュアル・コンテンツ、音声コンテンツ、及びテキスト・コンテンツのすべては、役者と考えられ、ディレクター型スクリプトは、コンテンツ・キュレーション・モジュールによって生成されたXMLを解析して解釈することにより、それらの役者に役を割り当てる。上記のアクション型スクリプトは、個々の役者の入場時間及び退場時間を定義するとともに、各々の実行時間ステップにおいてそれらの役者の対応するアクションを定義する。

他の実施形態が提供される。動画処理デバイスは、1つ又は複数のデータ部分を取得し、そして、それらの1つ又は複数のデータ部分を使用するとともに1つ又は複数の動画生成テンプレートを使用して、カスタマイズ可能な動画を生成するデータ取得モジュールと、1つ又は複数のオブジェクト定義を使用して、カスタマイズ可能な動画の中の1つ又は複数の選択可能なオブジェクトを決定する決定モジュールと、オブジェクト定義に対応する少なくとも1つの選択可能なオブジェクトのユーザによる選択を示す指標を受信する受信機とを含み、上記のデータ取得モジュールは、指標に対応する少なくとも1つの選択可能なオブジェクトと関連する追加のデータ部分を取得し、指標に対応する追加のデータ部分を使用して、カスタマイズ可能な動画を再生成する。

動画処理デバイスは、上記の実施形態を動画処理デバイスの異なる要素又はモジュールと整合させることにより、上記の方法を実行することができる。

図5は、いずれかの実施形態にしたがったコンピューティング・プラットフォーム1100を示しており、例えば、本明細書で説明されたデバイス及び方法を実装するのにそのコンピューティング・プラットフォーム1100を使用してもよい。特定のデバイスは、示されている複数の構成要素のすべてを利用してもよく、又は、それらの複数の構成要素のサブセットのみを利用してもよく、統合のレベルは、デバイスによって異なってもよい。さらに、デバイスは、複数の処理ユニット、プロセッサ、メモリ、送信機、及び受信機等の、構成要素の複数の例を含んでもよい。示されている実施形態の処理システム1101は、処理ユニットを含み、その処理ユニットは、スピーカ、マイクロフォン、マウス、タッチスクリーン、キーパッド、キーボード、プリンタ、ディスプレイ、及び(図示されていない)その他同様のデバイス等の1つ又は複数の入力/出力デバイスを備えている。処理ユニット1100は、バス1140に接続される中央処理ユニット(central processing unit, 略称CPU)1110、メモリ1120、大容量記憶デバイス1130、及びI/Oインターフェイス1160を含んでもよい。

バス1140は、メモリ・バス又はメモリ・コントローラ、周辺機器用バス、動画バス、又はその他同様のバスを含むいずれかのタイプのいくつかのバス・アーキテクチャのうちの1つ又は複数であってもよい。CPU1110は、いずれかのタイプの電子データ・プロセッサを含んでもよい。メモリ1120は、スタティック・ランダム・アクセス・メモリ(static random access memory, 略称SRAM)、ダイナミック・ランダム・アクセス・メモリ(dynamic random access memory, 略称DRAM)、同期DRAM(synchronous DRAM, 略称SDRAM)、リード・オンリー・メモリ(read-only memory, 略称ROM)、それらの組み合わせ、又はその他同様のメモリ等のいずれかのタイプの非一時的システム・メモリを含んでもよい。1つの実施形態において、メモリ1120は、起動時の使用の目的でROMを含んでもよく、プログラムの実行時の使用の目的でプログラム及びデータの格納のためのDARMを含んでもよい。

大容量記憶デバイス1130は、いずれかのタイプの非一時的記憶デバイスを含んでもよく、その非一時的記憶デバイスは、データ、プログラム、及び他の情報を格納し、バスを介してそれらのデータ、プログラム、及び他の情報にアクセスできるようにするように構成される。大容量記憶デバイス1130は、例えば、半導体ドライブ、ハード・ディスク・ドライブ、磁気ディスク・ドライブ、光ディスク・ドライブ、又はその他同様の記憶デバイスのうちの1つ又は複数を含んでもよい。

I/Oインターフェイス1160は、外部入力デバイス及び外部出力デバイスを処理ユニット1100に接続する。図示されているように、入力デバイス及び出力デバイスの例は、I/Oインターフェイス1160に接続されている(図示されていない)ディスプレイ及びマウス/キーボード/プリンタを含む。他のデバイスは、処理ユニット1100に接続されてもよく、また、追加の或いはより少ないインターフェイス・デバイスを利用してもよい。例えば、プリンタのためのインターフェイスを提供するのに(図示されていない)ユニバーサル・シリアル・バス(Universal Serial Bus, 略称USB)等のシリアル・インターフェイスを使用してもよい。

処理ユニットは、イーサネット・ケーブル又はその他同様のケーブル等の有線接続リンクを含んでもよい1つ又は複数のネットワーク・インターフェイス1150及び/又は複数のアクセス・ノード又は異なるネットワーク1180への無線リンクを含む。ネットワーク・インターフェイス1150は、処理ユニットが、ネットワーク1180を介して複数のリモート・ユニットと通信するのを可能にする。例えば、ネットワーク・インターフェイス1150は、1つ又は複数の送信機/送信アンテナ1170及び1つ又は複数の受信機/受信アンテナを介して無線通信を提供してもよい。1つの実施形態において、処理ユニットは、データ処理のためにローカル・エリア・ネットワーク又はワイド・エリア・ネットワークに接続されて、他の処理ユニット、インターネット、リモート記憶装置、又はその他同様のデバイス等のリモート・デバイスと通信する。

例えば、1つの例にしたがって、動画処理デバイスが提供される。そのデバイスは、命令を格納しているメモリと、そのメモリに接続されるプロセッサとを含み、プロセッサは、命令を読み出し、実行して、1つ又は複数のデータ部分を取得し、そして、1つ又は複数のデータ部分を使用するとともに1つ又は複数の動画生成テンプレートを使用して、カスタマイズ可能な動画を生成し、1つ又は複数のオブジェクト定義を使用して、カスタマイズ可能な動画の中の1つ又は複数の選択可能なオブジェクトを決定し、オブジェクト定義に対応する少なくとも1つの選択可能なオブジェクトのユーザによる選択を示す指標を受信し、指標に対応する少なくとも1つの選択可能なオブジェクトと関連する追加のデータ部分を取得し、指標に対応する追加のデータ部分を使用して、カスタマイズ可能な動画を再生成する。

動画を生成した人々は、それらの動画を自身のチャネルにアップロードすることができ、自身の聴衆を作り出し、いかなる時、そして、いかなる場所においてもそれらの聴衆に接触することができる。

例えば、あるユーザは、1つ又は複数のソーシャル・メディア・プラットフォームに接続し、そのユーザの要求に応じて、ソーシャル・メディア動画システムは、あらかじめ規定されており権限を与えられたソーシャル・メディア・プラットフォームからデータを収集する。

本開示においていくつかの例示的な実施形態を提示してきたが、本開示の趣旨及び範囲から逸脱することなく、開示されたシステム及び方法を多くの他の特定の形態で具体化してもよいということを理解すべきである。本明細書における複数の例は、限定的なものではなく例示的なものとして考えられるべきであり、本明細書で与えられた細部に限定することを意図したものではない。例えば、他のシステムにおいてさまざまな要素又は構成要素を組み合わせ或いは一体化してもよく、又は、ある特徴を省略してもよく、又は、ある特徴を実装しなくてもよい。

さらに、本開示の範囲から逸脱することなく、さまざまな例示的な実施形態において個別の又は分離したものとして説明され図示された技術、システム、サブシステム、及び方法を、他のシステム、モジュール、技術、又は方法と組み合わせ又は一体化してもよい。接続された又は直接接続された或いは互いに通信するものとして図示され又は説明された他のアイテムを、電気的な方法で或いは機械的な方法であると否とにかかわらず、複数のインターフェイス、デバイス、又は中間構成要素を介して間接的に接続し又は通信してもよい。改変、置換、及び変更の他の例は、当業者によって究明することができ、本明細書において開示された趣旨及び範囲から逸脱することなく、行うことが可能である。

本発明は、動画生成のためのシステム及び方法に関する。

カスタマイズ可能な動画システム100は、ユーザに動画生成テンプレートを提供し、自然言語インターフェイス103を使用してユーザと対話する。ビデオ化エンジン110は、自然言語インターフェイス103、データ取得モジュール105、コンテンツ・キュレーション・モジュール107、動画生成モジュール109、及びプレゼンテーション・モジュール111を含む。ビデオ化エンジン110は、いくつかの実施形態において、自然言語インターフェイス103を使用してユーザと対話するように構成される。

いくつかの実施形態において、データ取得モジュール105は、他の検索エンジン及び/又はソースを介して製品の画像及び動画等のデータを収集してもよい。コンテンツ・キュレーション・モジュール107は、そのデータを選択し、その動画の場面を準備し、そして、拡張マークアップ言語(extensible markup language, 略称XML)ファイルを生成し、その拡張マークアップ言語ファイルは、複数のオブジェクト定義を含む。XMLファイル及びデータは、動画生成モジュールに送られる。動画生成モジュール109は、テキスト音声エンジンを使用して複数の音声ファイルを生成し、それらの複数の音声ファイルと視覚データとを組み合わせ、そして、アニメーション又は効果を適用して動画を組み立てる。その動画は、プレゼンテーション・モジュールを使用してユーザに提示される。生成された動画は、カスタマイズ可能性の点で、手作業で作成された動画とは異なる。上記のカスタマイズ可能な動画システム100は、自然言語インターフェイス103又はデータ取得モジュール105を介して動画サービス・システム113と連絡を取ってもよい。いくつかの実施形態において、データ取得モジュール105は、例えば、ショッピング・サイト等の動画サービス・システム113からデータを収集し、その動画サービス・システム113は、複数の小売業者からの製品の特徴及び価格の比較を提供する。例えば、ユーザに製品の比較を提示するショッピング・システムにおいて上記のカスタマイズ可能な動画システム100を使用してもよい。消費者による製品の検索にしたがって、そのシステムにより動画を生成してもよい。あるクライアントにビデオ・トーンを提供する動画呼び出し音の場合に、又は、ユーザのために個人向けにされた個人資産管理及び銀行取引動画を自動的に生成するためにビデオ化エンジンを使用する銀行取引ビデオ化システムにおいて、或いは、ユーザがビデオ化エンジンの自然言語インターフェイスを使用してメッセージを組み立てるインスタント・メッセージ・システムであって、そのインスタント・メッセージ・システムがインスタント・メッセージ・サービスに上記のメッセージを直接送るインスタント・メッセージ・サービスにおいて、上記の動画生成システムを使用してもよい。

データ部分は、動画に組み込まれてもよいいずれかのデータを含むことが可能である。データ部分は、いずれのサイズ又は長さを有していてもよい。いくつかの実施形態において、データ部分は、例えば、ある数、複数の単語のあるグループ、あるファイル、あるキーワード、ある絵、音声の一部等の最も小さな要素であってもよく、その最も小さな要素は、インターネット又はいくつかの他のリソースから検索可能であってもよい。しかしながら、上記の例は、例示として与えられるにすぎず、限定的又は網羅的なものではない。

オブジェクト定義は、あるオブジェクトの関連する情報を記述する定義であってもよい。そのオブジェクトの特徴は、色、サイズ、形状等であってもよい。オブジェクト定義は、例えば、(1) 追加の記述、著者、バージョン番号、著作権情報、価格、そのオブジェクトに関する関連する記述的な情報、又はそのオブジェクトに関するいずれかの他の適切な情報等のそのオブジェクトのメタデータ、及び、(2) 例えば、"クリック"して、Web URLを示す、"マウスオン"して、重ねられているいくつかのメタデータを示す、"ボタン1を押して"、いくつかのプログラムを実行する又はいくつかのアプリケーション・プログラミング・インターフェイス(API)を呼び出す等の可能となった又は許可された対話に関する命令、を有してもよい。

1つ又は複数の選択可能なオブジェクトを決定するステップは、1つ又は複数のデータ部分から複数のメディア要素特徴を抽出するステップをさらに含んでもよい。1つ又は複数の選択可能なオブジェクトを決定するステップは、1つ又は複数のオブジェクト定義を用いてさまざまなレベルの複数のメディア要素特徴をラベル付するステップをさらに含んでもよい。1つ又は複数の選択可能なオブジェクトを決定するステップは、さまざまなレベルの複数のメディア要素特徴のうちの1つ又は複数のメディア要素特徴を1つ又は複数の選択可能なオブジェクトとしてラベル付するステップをさらに含んでもよい。

オブジェクト定義は、例えば、拡張マークアップ言語(extensible markup language, 略称XML)ファイル等のファイルの中に定義されてもよい。結果として、ユーザによって選択可能なオブジェクトが選択され又は示されると、対応するXMLファイルが、転送され又はカスタマイズ可能な動画システム100の複数の構成要素によってアクセスされてもよい。指標は、動画記述ファイルを含んでもよく、動画記述ファイルは、オブジェクトの定義を動画記述ファイルに付加する。

上記の方法は、カスタマイズ可能な動画を再生成するステップの後に、1つ又は複数のオブジェクト定義を使用して1つ又は複数の選択可能なオブジェクトを決定するステップをさらに含んでもよい。

動画生成構成要素315は、視覚化モジュール、トランスコード・モジュール、及びスクリプト作成モジュールを含む。視覚化モジュールは、CC構成要素313が提供した命令を使用することにより3D動画コンテンツを生成する。トランスコード・モジュールは、視覚化モジュールによって使用される収集されたマルチメディア・コンテンツを復号するとともに、視覚化モジュールの出力を望ましいフォーマットに符号化する。スクリプト作成モジュールは、視覚化モジュールによって使用されるべきアクション型スクリプト及びディレクター型スクリプトを提供し、スクリプトの他のモジュールへの統合に対処する。スクリプト作成モジュールは、JavaScript技術を使用してAPIを提供する。サード・パーティー開発者は、APIを使用してシステムに自身のオーディオビジュアル・アニメーション、アクション・テンプレート、及びディレクター・テンプレートを付加してもよい。アクション型スクリプトは、トゥイーン、回転、スケーリング、及び移動等の共通のアクション・アニメーションのためのJavaScript命令である。サード・パーティー開発者は、提供されたあらかじめ定義されたスクリプトを使用してもよく、或いは、アクション型スクリプト・データベースに自身のアニメーションを付加してもよい。ディレクター型スクリプトは、CC命令を解析して、動画タイムラインを生成し、動画タイムラインは、あらかじめ定義されたテンプレートにしたがってウェブから収集されたコンテンツを提示するべき場所、時、及び方法を記述している。サード・パーティー開発者は、あらかじめ定義されたスクリプトを使用してもよく、又は、自身の意向にしたがって自身のスクリプトを付加してもよい。ビデオ化層310は、神経言語プログラミング(NLP)技術、画像処理技術、及びコンピュータ・グラフィックス技術を使用して、(例えば、ソーシャル・フィード及びウェブ・ページ等の)取得された構造的なコンテンツの動画フォーマットへの変換を実行する。リポジトリ層330は、ユーザ・プロファイル、マルチメディア・リポジトリ、知識ベース、及び動画リポジトリを含む。マルチメディア・リポジトリは、動画生成に関する基本マルチメディア・コンテンツを蓄え、動画リポジトリは、生成された動画を格納する。アプリケーション層350は、ビデオ化API353及び上記で説明されたさまざまなチャネル351を含む。アプリケーション層350は、これらには限定されないが、データ抽出のための外部ウェブサイトとの統合及びチャネルのためのユーザ・インターフェイスを含むハイレベル・サービスを行う。1つの実施形態においては、ソフトウェアは、画像処理モジュール及び動画処理モジュールのためにC++で実装され、そして、Javaで実装される。ビデオ化クラウド・サービス・システムは、あらかじめ定義されたアニメーション及びJavaScriptで書かれたディレクター型スクリプトのためのデータベースを保持しており、サード・パーティー開発者が、システムに自身のスクリプトを付加するのを可能にする。さらに、これらには限定されないが、画像処理及び動画処理のためのOpenCV及びNLPのためのOpenNLPを含む商用のソフトウェア開発及び管理ツールとオープンソースのソフトウェア開発及び管理ツールの双方を使用してもよい。

図4は、動画生成テンプレートの生成プロセスの1つの実施形態を示している。有用と考えられている重要な情報401は、データ取得モジュールから抽出されてもよい。コンテンツ・キュレーション・モジュールにおいては、さまざまなルール又は原理が、美に関するルール・モジュール4031、知覚原理モジュール4033、提示最適化モジュール4035、又はモバイル・ディスプレイ可読性制約モジュール4037等のさまざまなモジュールにおいて学習され、美に関するルール・モジュール4031、知覚原理モジュール4033、提示最適化モジュール4035、又はモバイル・ディスプレイ可読性制約モジュール4037が、動画生成テンプレート405を生成すると考えられてもよく、それによって、後の動画がその動画生成テンプレートを参照してもよい。動画生成モジュールは、画像処理及び動画処理を使用することにより、(例えば、XMLコンテンツ等の)コンテンツ・キュレーション・モジュールの出力を動画に変換する。動画生成モジュールは、上記の返還プロセス中に、スケーリング、サイズ変更、及びフィルタリング等の複数の動画機能を編集する。例えば、受信したビジュアル・コンテンツ、音声コンテンツ、及びテキスト・コンテンツのすべては、役者と考えられ、ディレクター型スクリプトは、コンテンツ・キュレーション・モジュールによって生成されたXMLを解析して解釈することにより、それらの役者に役を割り当てる。上記のアクション型スクリプトは、個々の役者の入場時間及び退場時間を定義するとともに、各々の実行時間ステップにおいてそれらの役者の対応するアクションを定義する。

Claims

動画を生成する方法であって、
1つ又は複数のデータ部分を取得し、前記1つ又は複数のデータ部分を使用するとともに1つ又は複数の動画生成テンプレートを使用して、カスタマイズ可能な動画を生成するステップと、
1つ又は複数のオブジェクト定義を使用して、前記カスタマイズ可能な動画の中の1つ又は複数の選択可能なオブジェクトを決定するステップと、
オブジェクト定義に対応する少なくとも1つの選択可能なオブジェクトのユーザによる選択を示す指標を受信するステップと、
前記指標に対応する前記少なくとも1つの選択可能なオブジェクトと関連する追加のデータ部分を取得するステップと、
前記指標に対応する前記追加のデータ部分及び前記1つ又は複数のデータ部分を使用して、前記カスタマイズ可能な動画を再生成するステップとを含む、
方法。
1つ又は複数の選択可能なオブジェクトを決定する前記ステップは、さらに、
前記1つ又は複数のデータ部分から複数のメディア要素特徴を抽出するステップと、
前記1つ又は複数のオブジェクト定義を用いてさまざまなレベルの前記複数のメディア要素特徴をラベル付するステップと、
前記さまざまなレベルの前記複数のメディア要素特徴のうちの1つのメディア要素特徴を1つの選択可能なオブジェクトとしてラベル付するステップとを含む、請求項１に記載の方法。
前記オブジェクト定義は、前記指標の中の拡張マークアップ言語(extensible markup language, 略称XML)ファイルの中で送信される、請求項１に記載の方法。
前記オブジェクト定義は、前記選択可能なオブジェクトに基づく分析をさらに含み、前記分析は、自然言語処理、形態学的分析、意味論的分析、動画分析、音声分析、又は情趣分析のうちの少なくとも1つに従って行われ、前記選択可能なオブジェクトは、テキスト、画像、音声アイテム、又は動画アイテムのうちの少なくとも1つを含む、請求項１に記載の方法。
前記指標は、前記オブジェクト定義をコンパイルして動画記述ファイルにする前記動画記述ファイルである、請求項１に記載の方法。
ユーザによるスケジューリングにしたがって前記カスタマイズ可能な動画を更新するステップをさらに含む、請求項１に記載の方法。
前記ユーザへの前記カスタマイズ可能な動画の提示の間に、前記カスタマイズ可能な動画を再生成するステップをさらに含む、請求項１に記載の方法。
前記指標は、前記カスタマイズ可能な動画の再生中に受信される、請求項１に記載の方法。
前記カスタマイズ可能な動画を再生成するステップの後に、より多くのオブジェクト定義を使用してより多くの選択可能なオブジェクトを決定するステップをさらに含む、請求項１に記載の方法。
前記1つ又は複数の動画生成テンプレートを使用することにより前記カスタマイズ可能な動画の中の前記1つ又は複数の選択可能なオブジェクトを決定するステップをさらに含む、請求項１に記載の方法。
動画処理デバイスであって、
命令を格納しているメモリと、
前記メモリに接続されるプロセッサとを含み、前記プロセッサは、前記命令を読み出し、実行して、
1つ又は複数のデータ部分を取得し、そして、前記1つ又は複数のデータ部分を使用するとともに1つ又は複数の動画生成テンプレートを使用して、カスタマイズ可能な動画を生成し、
1つ又は複数のオブジェクト定義を使用して、前記カスタマイズ可能な動画の中の1つ又は複数の選択可能なオブジェクトを決定し、
オブジェクト定義に対応する少なくとも1つの選択可能なオブジェクトのユーザによる選択を示す指標を受信し、
前記指標に対応する前記少なくとも1つの選択可能なオブジェクトと関連する追加のデータ部分を取得し、
前記指標に対応する前記追加のデータ部分を使用して、前記カスタマイズ可能な動画を再生成する、
デバイス。
1つ又は複数の選択可能なオブジェクトを決定することは、さらに、
前記1つ又は複数のデータ部分から複数のメディア要素特徴を抽出することと、
前記1つ又は複数のオブジェクト定義を用いてさまざまなレベルの前記複数のメディア要素特徴をラベル付することと、
前記さまざまなレベルの前記複数のメディア要素特徴のうちの1つのメディア要素特徴を1つの選択可能なオブジェクトとしてラベル付することとを含む、請求項１１に記載のデバイス。
前記オブジェクト定義は、前記指標の中の拡張マークアップ言語(extensible markup language, 略称XML)ファイルの中で送信される、請求項１１に記載のデバイス。
前記オブジェクト定義は、前記選択可能なオブジェクトに基づく分析の実行をさらに含み、前記分析は、自然言語処理、形態学的分析、意味論的分析、動画分析、音声分析、情趣分析、又はそれらの組み合わせのうちの少なくとも1つを含み、前記選択可能なオブジェクトは、テキスト、画像、音声アイテム、動画アイテム、又はそれらの組み合わせのうちの少なくとも1つを含む、請求項１１に記載のデバイス。
前記指標は、動画記述ファイルを含み、前記動画記述ファイルは、前記オブジェクト定義をコンパイルして前記動画記述ファイルにする、請求項１１に記載のデバイス。
ユーザによるスケジューリングにしたがって前記カスタマイズ可能な動画を更新することをさらに含む、請求項１１に記載のデバイス。
前記ユーザへの前記カスタマイズ可能な動画の提示の間に、前記カスタマイズ可能な動画を再生成することをさらに含む、請求項１１に記載のデバイス。
前記指標は、前記カスタマイズ可能な動画の再生中に受信される、請求項１１に記載のデバイス。
前記カスタマイズ可能な動画が再生成された後に、より多くのオブジェクト定義を使用してより多くの選択可能なオブジェクトを決定することをさらに含む、請求項１１に記載のデバイス。
前記1つ又は複数の動画生成テンプレートを使用することにより前記カスタマイズ可能な動画の中の前記1つ又は複数の選択可能なオブジェクトを決定することをさらに含む、請求項１１に記載のデバイス。
動画処理デバイスであって、
1つ又は複数のデータ部分を取得し、そして、前記1つ又は複数のデータ部分を使用するとともに1つ又は複数の動画生成テンプレートを使用して、カスタマイズ可能な動画を生成するデータ取得モジュールと、
1つ又は複数のオブジェクト定義を使用して、前記カスタマイズ可能な動画の中の1つ又は複数の選択可能なオブジェクトを決定する決定モジュールと、
オブジェクト定義に対応する少なくとも1つの選択可能なオブジェクトのユーザによる選択を示す指標を受信する受信機とを含み、
前記データ取得モジュールは、前記指標に対応する前記少なくとも1つの選択可能なオブジェクトと関連する追加のデータ部分を取得し、前記指標に対応する前記追加のデータ部分を使用して、前記カスタマイズ可能な動画を再生成する、
デバイス。