JP2007519068A - 変換技術を用いて意味記述を生成するコンピュータによる計算方法及びコンピュータシステム - Google Patents

変換技術を用いて意味記述を生成するコンピュータによる計算方法及びコンピュータシステム Download PDF

Info

Publication number
JP2007519068A
JP2007519068A JP2006534129A JP2006534129A JP2007519068A JP 2007519068 A JP2007519068 A JP 2007519068A JP 2006534129 A JP2006534129 A JP 2006534129A JP 2006534129 A JP2006534129 A JP 2006534129A JP 2007519068 A JP2007519068 A JP 2007519068A
Authority
JP
Japan
Prior art keywords
descriptions
current
description
computer
calculation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006534129A
Other languages
English (en)
Inventor
ライジング、ホーレー、ケー.、サード
Original Assignee
ソニー エレクトロニクス インク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー エレクトロニクス インク filed Critical ソニー エレクトロニクス インク
Publication of JP2007519068A publication Critical patent/JP2007519068A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

現在の記述を混合して新たな記述を生成し、現在の複数の記述のそれぞれから残りの記述を抽出する。更に、現在の記述から抽出された残りの記述を用いて新たな記述の画像スタイルピラミッドの集合を生成する。

Description

本発明は、一般的には、マルチメディアコンテンツの記述に関し、特に、変換技術を用いた意味記述の生成に関する。
関連出願
本出願は、2003年9月29日に出願された米国仮出願番号第60/506,931号の優先権を主張し、その出願の明細書及び図面は、引用により本願に援用される。
著作権注意/許可
本明細書の一部は、著作権保護の対象となる内容を含んでいる。著作権者は、米国特許商標庁の特許ファイル又は記録としての特許文献又は特許公報の複製に対しては、異論はないが、それ以外の全ての著作権は保有する。明細書及び図面に記載したソフトウェア及びデータの著作権は、ソニーエレクトロニクスインクに帰属する。
デジタルマルチメディア情報は、例えばデジタルテレビジョン信号のような放送による伝送、例えばインターネットのような双方向伝送によって、広く配信されるようになっている。デジタルマルチメディア情報は、静止画像、オーディオフィード(audio feeds)又はビデオデータストリームであってもよい。しかしながら、このような大量の情報が入手可能になると、利用者が特に興味のあるコンテンツを特定することは困難になっている。様々な組織が、特定のコンテンツを見つけるための検索、フィルタリング及び/又は閲覧に用いることができる情報の記述を提供することによって、この問題に対処しようとしている。「ムービングピクチャエクスパートグループ(Moving Picture Experts Group:以下、MPEGという。)」は、マルチメディア情報のコンテンツ記述を標準化するために、一般的にはMPEG−7と呼ばれるマルチメディアコンテンツ記述インタフェースを公布している。先行のMPEG規格、例えばオーディオビデオコンテンツの符号化を定義したMPEG−1及びMPEG−2とは対照的に、MPEG−7におけるコンテンツ記述は、コンテンツ自体ではなく、コンテンツの構造及び意味(semantic)を記述するものである。
映画を例にとって説明すると、MPEG−7による映画のコンテンツ記述は、「記述子」を含んでおり、記述子は、映画の特徴(feature)、例えばシーン、シーンのタイトル、シーン内のショット、時間、色、形状、動き及びショットに関する音声情報等を記述した要素である。また、MPEG−7のコンテンツ記述は、1つ以上の「記述スキーム(description scheme)」を含み、記述スキームは、2つ以上の記述子間の関係を記述する要素であり、例えばショット記述スキームは、1つのショットの複数の特徴を互いに関係付けるものである。また、記述スキームは、他の記述スキームとの関係、記述スキームと記述子間の関係についても記述することができ、例えばシーン記述スキームは、1つのシーン内の異なるショットを関係付け、ショットにシーンのタイトル特徴を関係付けるものである。
MPEG−7は、記述子及び記述スキームを定義するデータ定義言語(Data Definition Language:以下、DDLという。)を用い、記述子と記述スキームのコアセットを提供する。記述子と記述スキームのセットのDDL定義は、コンテンツの異なるクラスの「スキーマ(schema)」に纏められる。スキーマにおける各記述子のDDL定義は、対応する特徴の表記方法(syntax)及び意味を定義する。スキーマにおける各記述スキームのDDL定義は、その子要素(children component)、記述子及び記述スキーム間の関係の構造及び意味を定義する。DDLは、現在の記述スキームを変更及び拡張し、新たな記述スキーム及び記述子を生成するのにも用いることができる。
MPEG−7のDDLは、拡張マークアップ言語(extensible markup language:以下、XMLという。)及びXMLスキーマ規則に基づいている。記述子、記述スキーム、意味、表記方法及び構造は、XML要素及びXML属性で表される。XML要素及びXML属性の一部は、オプションとすることができる。
コンテンツの特定の一部のMPEG−7コンテンツ記述は、MPEG−7スキーマのインスタンス(instance)であり、すなわちスキーマで定義される表記方法及び意味に忠実なデータを含んでいる。コンテンツ記述は、適切なスキーマを参照するインスタンス文書(instance document)に符号化される。インスタンス文書は、スキーマで定義される要求された要素(element)及び属性(attribute)、及びあらゆる必要なオプションの要素及び/又は属性の「記述子の値(descriptor value)」のセットを含んでいる。例えば、特定の映画に関する幾つかの記述子の値は、その映画が3つのシーンを有し、第1のシーンは6つのショット、第2のシーンは5つのショット、第3のシーンは10のショットを有することを定義する。インスタンス文書は、XMLを用いてテキストフォーマット、あるいはバイナリフォーマット、例えば「BiM」として知られるMPEG−7データ用の定義されたバイナリフォーマット、あるいはこれらの2つのフォーマットを組み合わたフォーマットに符号化することができる。
インスタンス文書は、通信チャンネル、例えばコンピュータネットワークを介して他の装置に伝送され、この他の装置は、インスタンス文書に含まれているコンテンツ記述データを用いて、対応するコンテンツのデータストリームを検索、フィルタリング及び/又は閲覧する。通常、インスタンス文書は、より速く伝送するために圧縮される。符号化器は、インスタンス文書の符号化と圧縮の両方を行うことができるが、符号化機能と圧縮機能を別々の回路によって行うこともできる。更にまた、インスタンス文書は、1つの装置によって生成された後、異なる装置によっても伝送することができる。受信装置の対応する復号器は、スキーマを参照してインスタンス文書を復号する。スキーマは、同じ伝送の一部として、インスタンス文書とは別に復号器に伝送してもよく、あるいは他のソースから受信するようにしてもよい。あるいは、特定のスキーマを復号器に組み込んでもよい。
コンテンツの記述を対象とした記述スキームは、一般的に、コンテンツの構造又は意味に関係している。構造をベースとした記述スキームは、通常は、コンテンツの物理的、空間的及び/又は時間的特徴、例えば地域(area)、シーン、ショット及びこれらの関係を表すセグメントによって定義される。セグメントの詳細は、通常は信号、例えば色、テクスチャ、形状、動き等の信号で記述される。
コンテンツの意味記述(semantic description)は、意味をベースとした記述スキームによって行われる。これらの記述スキームは、コンテンツが表すもの、例えばオブジェクト、人、イベント及びこれらの関係によってコンテンツを記述する。コンテンツは、ユーザの範囲(domain)及び用途(application)に応じて、異なる種類の特徴を用いて記述することができ、応用範囲(area of application)に合わせることができる。例えば、コンテンツは、オブジェクトの形状、大きさ、テクスチャ、色、動き、位置等のコンテンツの特徴の記述を用いて、低い抽象化レベルで記述することができる。より高い抽象化レベルでは、記述スキームは、コンテンツ、例えばオブジェクトに関する情報、イベント、オブジェクト間の相互作用によって得られる現実の概念上の情報を提供することができる。例えば、高い抽象化レベルの記述は、意味情報(semantic information)、例えば「左側では茶色の犬が吠えていて、右側には青いボールが転がっており、その背景には、車が通り過ぎる音がしているシーンである。」といった意味情報を提供することができる。
意味記述を生成する現在の方法では、単純で低いレベルの記述を自動的に生成することができる。しかしながら、人間が行う記述は、多くの場合、参照的(referential)及び比喩的である。したがって、現在の方法は、より複雑な人間の記述に似た意味記述には用いることができない。
現在の記述を混合して新たな記述を生成し、現在の複数の記述のそれぞれから残りの記述を抽出する。更に、現在の記述から抽出された残りの記述を用いて新たな記述の画像スタイルピラミッドの集合を生成する。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。図面において、類似した構成要素には、同じ指示符号を付している。なお、これらの実施の形態は、当業者が本発明を実施することができるように十分細部に亘って記載しているが、本発明の範囲を逸脱することなく、他の実施の形態を実施したり、論理的、機械的、電気的、機能的及び他の変更を加えたりすることができることは明らかである。したがって、以下の詳細な説明は、限定的なものではなく、本発明の範囲は、特許請求の範囲によってのみ定義される。
先ず、本発明の動作の概要を説明する。図1は、マルチメディアコンテンツ記述システム100の構成を示すブロック図である。新たなコンテンツ記述101は、サーバ107上の記述生成器127(description constructor)によって生成される。記述生成器127は、コンテンツ記述の保管装置103(repository)に格納されている1つ以上の現在のコンテンツ記述から、新たなコンテンツ記述101を生成する。コンテンツ記述101は、サーバ107上の符号化器109を用いて、インスタンス文書111に符号化される。インスタンス文書111は、サーバ107によってクライアント装置113に伝送される。
クライアント装置113は、コンテンツアクセスモジュール115を備え、コンテンツアクセスモジュール115は、新たなコンテンツ記述101を用いて、対応するコンテンツデータストリームを検索、フィルタリング及び/又は閲覧する。また、コンテンツアクセスモジュール115は、インスタンス文書111を用いて、コンテンツに関する構造及び意味情報を得るために、復号器119を利用することもできる。
一実施の形態において、記述生成器127は、新たなコンテンツ記述101の画像スタイルピラミッド(a set of image style pyramids)の集合を生成する。画像スタイルピラミッドの集合は、例えばガウスピラミッド(Gaussian pyramid)、ラプラシアンピラミッド(Laplacian pyramid)、ウェーブレットピラミッド(wavelet pyramid)を含むことができる。そして、符号化器109は、新たなコンテンツ記述の画像スタイルピラミッドをクライアント装置113に送信する。一実施の形態において、保管装置103は、新たなコンテンツ記述の効率的な生成を容易にするための意味記述の画像スタイルピラミッドを格納している。また、画像スタイルピラミッドは、意味記述の解析又は意味記述の他のあらゆる処理に用いることができる。データロスを制御する規則(restrictions governing data loss)を前提とすると、画像スタイルピラミッドを復号して、元の記述を再生することができる。
一実施の形態において、新たなコンテンツ記述は、コンテンツの意味的側面に関するMPEG−7の記述スキーム(description scheme:以下、DSという。)である。各意味記述は、図形として表すことができ、この図形は、意味ベースのDSから導き出されるノードと意味オブジェクトの関係に従ったリストから選択される意味関係(semantic relation)であるエッジとを有する。特に、図形分類体系(graphical classification schemes:以下、GCSという)は、再利用可能な記述のテンプレート及び再利用可能な図形変換処理(graph transformation steps)を格納するために用いることができる。図形変換は、例えば、ペースト操作として知られる1回のプッシュアウト(pushout)、カットアンドペースト操作として知られる2回のプッシュアウト、ノード置換操作として知られる1回のプルバック(pullback)、複雑な部分の置換操作として知られる2回のプルバックを含むことができる。記述は、コンテンツの範囲(area of content)に応じて、GCSにおけるテンプレート及び変換に関する文法を表す特定の応用範囲に属してもよい。この文法は、記述を区分するために用いることができる。すなわち、GCSにおけるテンプレート又は幾つかの異なる文法(distinct grammar)による記述の分解(factoring)を、記述を分割するのに用いることができる。
一実施の形態において、記述生成器127は、メンタル空間モデル(mental space model)に類似した処理を用いて、新たな意味記述101を生成する。メンタル空間は、音声に含まれない多くの情報をインポートすることによって、会話における文脈(context)を提供し、それによって言葉における意味内容(semantic content)を解釈する機構を提供する。この情報は、マップを用いてインポートされる。これらのマップは、解釈の所定の概念を表すフレームを用い(すなわち集め(recruit))、1つのメンタル空間から他のメンタル空間に構造を投影し(project)、2つ以上の他のメンタル空間からインポートした情報(material)を統合又は抽出することによって、機能する。したがって、各メンタル空間は、エンティティ、関係及びフレームを含む拡張された記述を表すことができる。幾つかのメンタル空間は、記述内の全てのエンティティを適切に定義するために、同時にアクティブにすることができる。これらのメンタル空間は、互いに関連し合っている。他のメンタル空間の構造及びエンティティを模倣している(borrow)ので、これらのメンタル空間の間ではマッピング(mapping)が必要である。全体の構成(whole composite)は、表現された記述に対する背景を形成し、関係するエンティティに意味論的な意味(semantic meaning)を与える処理を完了する。
図2及び図3は、従来のメンタル空間の生成について説明する図である。図2に示すように、新たなメンタル空間250は、幾つかのフレーム210を集め、現在のメンタル空間220、230の構造を模倣することによって生成される。構造は、要素(例えばオブジェクト、イベント、位置等)と、部分空間とを含み、部分空間は、所定の規則に従った現在の空間、あるいは文脈に依存した方法で同時にアクティブにされた集合体として生成された空間を縮めることによって形成される。
図3に示すように、新たなメンタル空間370は、現在の2つのメンタル空間362、364を混合(blending)又は統合(integrating)することによって生成される。そして、汎用空間(generic space)366は、3つのメンタル空間、すなわち新たなメンタル空間370と現在のメンタル空間364、362から構造を抽出することによって生成される。汎用空間366は、メンタル空間362、364、370の全てに共通な構造を含んでいる。
「MPEG−7」モデルにより、メンタル空間は、例えば、現在の記述に対して生成された基本記述と、検証及び採用(recruitment)を可能にするテンプレート要素と、生成処理(「メンタル空間を実行する」)と、解釈及び採用を可能にする生成処理及び存在論的なリンク(ontology links)と、図形及び生成である基本要素とを含むことができる。また、「MPEG−7」モデルは、混合を可能にしている。混合の結果は、選択的な射影(入力集合の部分集合に制約することによって可能なプッシュアウトマップの制約)と、構成(composition:反復的な処理への融合)と、完備(completion:記述を行うために利用されたGCSからの採用)と、仕上げ(elaboration:完備によって見いだされた処理の試験的な実行)と、新たな構造(emergent structure:GCSに新たなエントリを追加するために、あるいは記述を完全にするために記録された)として表すことができる。
図4及び図5は、サーバ107によって実行される本発明の実施の形態による処理を説明するフローチャートである。この処理は、処理論理回路によって実行することができ、処理論理回路は、ハードウェア(例えば回路、専用の論理回路等)、ソフトウェア(汎用コンピュータシステム又は専用マシン(dedicated machine)によって実行される)、あるいはその両方から構成することができる。ソフトウェアで実行する処理の場合、フローチャートの説明によって、当業者は、最適に構成されたコンピュータ(メモリを含むコンピュータ読出可能媒体からのインストラクションを実行するコンピュータのプロセッサ)上で処理を実行するインストラクションを有するプログラムを開発することができる。コンピュータで実行可能なインストラクションは、コンピュータプログラミング言語で書き、あるいはファームウェア論理回路に組み込むことができる。公認の規格に準拠したプログラミング言語で書く場合、このようなインストラクションは、様々なハードウェアプラットフォーム上で実行するすることができるとともに、様々なオペレーティングシステムにインタフェースすることができる。なお、本発明の実施の形態は、特定のプログラミング言語に対して述べたものではない。様々なプログラミング言語を用いて、ここで説明する発明を実施できることはいうまでもない。更にまた、ソフトウェアについて、どのような形(例えばプログラム、手順、処理、アプリケーション、モジュール、ロジック等)にせよ、動作を実行する又は結果を生成すると論議することは、技術的に普通のことである。このような表現は、ソフトウェアのコンピュータによる実行が、コンピュータのプロセッサに動作を起こさせ、あるいは結果を生じさせることを単に簡単で明瞭に述べたものである。本発明の範囲を逸脱することなく、図4及び図5で説明する処理に、動作を追加し、あるいは削除できるとともに、ここで示し、説明する処理の順番は、特定の順番を意図したものでないことはいうまでもない。
図4は、記述を生成する処理400の実施の形態を示すフローチャートである。
図4に示すように、処理400は、処理ステップ402から開始し、処理論理回路は、コンテンツ記述のソースとして用いることができる2つ以上のコンテンツ記述を同定(identify)する。この同定処理は、新たなコンテンツ記述に関連した1つ以上の要素(例えば、記述されるエンティティの形容詞的な属性(property)、このエンティティと他のエンティティとの関係、エンティティの構造等)が供給されると、直ちに行うことができる。供給された要素に基づいて、処理論理回路は、共通の要素を有する現在のコンテンツ記述と新たなコンテンツ記述とを同定することができる。一実施の形態において、コンテンツ記述は、コンテンツの意味的側面に関するMPEG−7の記述スキーム(DS)である。
次に、処理論理回路は、同定されたコンテンツ記述を混合する。特に、処理論理回路は、同定された記述の各対に対して混合を行い(処理ステップ404)、同定された記述の各対に対する汎用空間を生成し(処理ステップ406)、入力された各記述から残りの記述(residue)を抽出する(処理ステップ408)。そして、処理論理回路は、前の結果の各対を混合し(処理ステップ410)、前の結果の各対に対する次の汎用空間を生成し(処理ステップ412)、前の各結果から残りの記述を抽出する(処理ステップ414)。処理ステップ410〜414までの処理ステップは、処理ステップ410で単一の出力(single output)が生成されるまで、繰り返し実行される。
更に、処理論理回路は、残りの記述、得られた汎用空間及び/又は得られた混合を用いて、新たな記述の画像スタイルピラミッドの集合を生成する(処理ステップ418)。画像スタイルピラミッドの集合は、例えばガウスピラミッド、ラプラシアンピラミッド、ウェーブレットピラミッドを含むことができる。
画像スタイルピラミッドを生成することにより、記述の解析、効率的な伝送、記述の保管及び新たな記述の効率的な構成を行うことができる。
一実施の形態において、混合を実行する規則及びウェーブレットピラミッドに保存された情報に基づいて、集合内の全ての画像スタイルピラミッドは、元の記述を復元する(reconstruct)ために用いることができる。混合空間(blended space)から汎用空間を削除する(切り取る)ことにより2つの空間になる場合は、ウェーブレット変換は再生することができる。そうでない場合は、図6Cを参照して後述するように、別の空間(extra spaces)を保存することが必要となる。
一実施の形態において、複数の画像記述(image description)は、新たな画像記述のセットを含むウェーブレット変換として符号化される。その後、元の画像記述は、ウェーブレット変換から、データロスを制御する規則に応じた可逆的又は不可逆的方法(lossless or lossy fashion)で復号することができる。
図5は、ソース記述を混合する処理500の一実施の形態を説明するフローチャートである。
図5に示すように、処理500は、処理ステップ502から開始し、処理論理回路は、ソース記述の第1の対に対して直和(disjoint union)を求め、これらのソース記述の要素を融合(fuse)する規則を検索する。
処理ステップ504において、処理論理回路は、一致する要素に基づいて、これらのソース記述の混合を生成する。混合は、プッシュアウトを行い、そして、混合を実行することによって生成することができる。
処理ステップ506において、処理論理回路は、得られるマップを汎用空間に戻すことによって、ソース記述の汎用空間を生成する。
処理ステップ508において、処理論理回路は、入力された各ソース記述の残りを抽出する。
ソース記述が2つ以上の記述を含む場合、処理500は、ソース記述の増えた対のそれぞれに対して繰り返され、そして、結果は、単一の出力が得られるまで、後続の繰返しにおいて混合される。
図6A〜図6Cは、処理500の動作を示す図である。
図6Aに示すように、直和606は、入力された2つの記述602、604に対して形成される。そして、プッシュアウトが行われるとともに、混合が実行されて、混合空間610が生成される。更に、プルバックが行われ、汎用空間608が得られる。4つのソース記述を用いる場合、混合空間は示さないが、図6Cに示すように、一連の汎用空間によって、ガウスピラミッド620を導出する。
汎用空間608は、入力された記述602、604から残りの記述を抽出するために用いることができる。図6Bは、残りの記述612、614を用いて表される混合空間610を示す図である。4つのソース記述を用いる場合、図6Cに示すように、一連の汎用空間によって、ラプラシアンピラミッド622を導出する。
また、残りの記述から、混合を導出することもできる。そして、図6Cに示すように、一連の汎用空間によって、ウェーブレットピラミッド624又はウェーブレットピラミッド626を導出することができる。混合空間(B)から汎用空間(G)を削除する(切り取る)ことによって、2つの空間になる場合は、ウェーブレット変換626は、再生することができる。そうならない場合は、ウェーブレットピラミッド624におけるように、別の空間(R)を保存しなければならない。ウェーブレットピラミッド626は、例えば、新たな記述を生成し、階層を分解するために用いることができる。それぞれの組合せは、汎用空間と混合空間の両方を生成するので、画像スタイルピラミッドの生成は、画像スタイルピラミッドのどの部分からも開始することができる(信号処理設定におけるウェーブレット変換と異なる)。
画像スタイルピラミッド620〜624は、よく知られている画像解析、マルチメディアの名前及び属性を有しており、記述の効率的な保存、伝送及び生成だけではなく、記述の解析も可能にする。
図7は、上述した1つ以上の動作を実行するのに用いることができる例示的なコンピュータシステム700の構成を示すブロック図である。他の実施の形態では、コンピュータシステム700は、ネットワークルータ、ネットワーク交換機、ネットワークブリッジ、携帯情報端末(PDA)、移動電話機、ウェブ機器又はそのマシンによって行われる動作を指示する一連のインストラクションを実行できるあらゆるマシンとすることもできる。コンピュータシステム700は、プロセッサ702と、主記憶装置704と、スタティックメモリ706とを備え、これらは、バス708を介して互いに情報を送受する。また、コンピュータシステム700は、ビデオ表示装置(例えば液晶表示装置(LCD)又は陰極線管(CRT))710を備えていてもよい。また、コンピュータシステム700は、英数字入力装置(例えばキーボード)712と、カーソル制御装置(例えばマウス)714と、ディスク駆動装置716と、信号発生装置(例えばスピーカ)720と、ネットワークインタフェース装置722とを備える。ディスク駆動装置716は、上述の方法の任意の1つ又は全てを実現する一連のインストラクション(すなわちソフトウェア)726が記憶されているコンピュータ読出可能媒体724を備える。ソフトウェア726は、完全に又は少なくとも部分的に主記憶装置704内及び/又はプロセッサ702内に常駐する。また、ソフトウェア726は、ネットワークインタフェース装置722を介して送信又は受信することができる。本明細書では、用語「コンピュータ読出可能媒体」は、コンピュータシステムによって実行され、本発明の方法のうちのいずれか1つの方法をコンピュータシステムに実行させる一連のインストラクションを格納又はエンコードすることができる全ての媒体を含むものとする。したがって、用語「コンピュータ読出可能媒体」は、これらに限定されるものではないが、半導体メモリ、光ディスク、磁気ディスク及び搬送波信号を含む。
変換技術を用いて意味記述を生成する方法及び装置について、特定の実施の形態を用いて説明したが、当業者にとって、同様の目的を達成するように意図されたいかなる構成を、説明した特定の実施の形態の代わりに用いることができることは、明らかである。この出願は、本発明の適用及び変更をカバーすることを意図したものである。
本出願において用いられるMPEG−7に関する用語は、コンテンツ記述を提供する全ての環境を含むと意図されている。したがって、本発明の範囲は、請求の範囲によってのみ限定される。
マルチメディアコンテンツ記述システムの一実施の形態を示すブロック図である。 従来のメンタル空間の生成について説明するための図である。 従来のメンタル空間の生成について説明するための図である。 本発明の一実施の形態に基づくサーバによって実行される処理を説明するフローチャートである。 本発明の一実施の形態に基づくサーバによって実行される処理を説明するフローチャートである。 本発明の一実施の形態に基づいて記述を混合する処理のステップを示す図である。 本発明の一実施の形態に基づいて記述を混合する処理のステップを示す図である。 本発明の一実施の形態に基づいて記述を混合する処理のステップを示す図である。 例示的なコンピュータシステムの構成を示すブロック図である。

Claims (26)

  1. 現在の複数の記述を混合して新たな記述を生成するステップと、
    上記現在の複数の記述のそれぞれから残りの記述を抽出するステップと、
    上記現在の複数の記述から抽出された残りの記述を用いて、上記新たな記述の画像スタイルピラミッドの集合を生成するステップとを有するコンピュータによる計算方法。
  2. 上記現在の複数の記述のそれぞれは、意味記述スキームであることを特徴とする請求項1記載のコンピュータによる計算方法。
  3. 上記現在の複数の記述のそれぞれは、図形として表されることを特徴とする請求項1記載のコンピュータによる計算方法。
  4. 上記現在の複数の記述は、図形変換処理を用いて混合されることを特徴とする請求項3記載のコンピュータによる計算方法。
  5. 上記図形変換処理は、プッシュアウト処理であることを特徴とする請求項4記載のコンピュータによる計算方法。
  6. 上記現在の複数の記述を混合するステップは、
    上記現在の複数の記述の各対の混合を生成するステップと、
    上記生成された混合の各対を混合するステップとを有することを特徴とする請求項4記載のコンピュータによる計算方法。
  7. 上記現在の複数の記述の各対に対する汎用空間を生成するステップを更に有することを特徴とする請求項6記載のコンピュータによる計算方法。
  8. 上記画像スタイルピラミッドの集合は、上記現在の複数の記述に対して生成された残りの記述、混合空間及び汎用空間を用いて生成されることを特徴とする請求項7記載のコンピュータによる計算方法。
  9. 上記図形変換処理は、プルバック処理であることを特徴とする請求項7記載のコンピュータによる計算方法。
  10. 上記現在の複数の記述のそれぞれから残りの記述を抽出するステップは、
    上記現在の複数の記述のそれぞれと、対応する汎用空間との違いを判定するステップを有することを特徴とする請求項7記載のコンピュータによる計算方法。
  11. 上記画像スタイルピラミッドの集合は、ウェーブレットピラミッド、ラプラシアンピラミッド及びガウスピラミッドからなることを特徴とする請求項1記載のコンピュータによる計算方法。
  12. 上記新たな記述の画像スタイルピラミッドの集合をクライアントに伝送するステップを更に有する請求項1記載のコンピュータによる計算方法。
  13. 上記画像スタイルピラミッドの集合を、データベース内に保存するステップを更に有する請求項1記載のコンピュータによる計算方法。
  14. 上記画像スタイルピラミッドの集合を用いて、上記新たな記述を解析するステップを更に有する請求項1記載のコンピュータによる計算方法。
  15. プロセッサで実行されたときにプロセッサに以下の方法を実施させるインストラクションを提供するコンピュータ読出可能媒体において、
    上記方法は、
    現在の複数の記述を混合して新たな記述を生成するステップと、
    上記現在の複数の記述のそれぞれから残りの記述を抽出するステップと、
    上記現在の複数の記述から抽出された残りの記述を用いて、上記新たな記述の画像スタイルピラミッドの集合を生成するステップを有することを特徴とするコンピュータ読出可能媒体。
  16. 上記現在の複数の記述のそれぞれは、意味記述スキームであることを特徴とする請求項15記載のコンピュータ読出可能媒体。
  17. 上記現在の複数の記述のそれぞれは、図形として表されることを特徴とする請求項15記載のコンピュータ読出可能媒体。
  18. 上記現在の複数の記述は、図形変換処理を用いて混合されることを特徴とする請求項17記載のコンピュータ読出可能媒体。
  19. メモリと、
    上記メモリに接続された1つのプロセッサとを少なくとも備え、
    上記プロセッサは、現在の複数の記述を混合して新たな記述を生成し、該現在の複数の記述のそれぞれから残りの記述を抽出し、該現在の複数の記述から抽出された残りの記述を用いて新たな記述の画像スタイルピラミッドの集合を生成する一連のインストラクションを実行することを特徴とするコンピュータシステム。
  20. 上記現在の複数の記述のそれぞれは、意味記述スキームであることを特徴とする請求項19記載のコンピュータシステム。
  21. 上記現在の複数の記述のそれぞれは、図形として表されることを特徴とする請求項19記載のコンピュータシステム。
  22. 上記現在の複数の記述は、図形変換処理を用いて混合されることを特徴とする請求項21記載のコンピュータシステム。
  23. メモリと、
    上記メモリに接続されたプロセッサとを少なくとも備え、
    上記プロセッサは、現在の複数の画像記述を新たな画像記述のセットを含むウェーブレット変換として符号化する一連のインストラクションを実行し、
    上記ウェーブレット変換は、後に、上記現在の複数の画像記述を復号するために用いられることを特徴とするコンピュータシステム。
  24. 上記現在の複数の画像記述は、上記ウェーブレット変換から、可逆的な方法によって復号されることを特徴とする請求項23記載のコンピュータシステム。
  25. 上記現在の複数の画像記述は、上記ウェーブレット変換から、不可逆的な方法で復号されることを特徴とする請求項23記載のコンピュータシステム。
  26. 現在の複数の記述を混合して新たな記述を生成する手段と、
    上記現在の複数の記述のそれぞれから残りの記述を抽出する手段と、
    上記現在の複数の記述から抽出された残りの記述を用いて新たな記述の画像スタイルピラミッドの集合を生成する手段とを備える装置。
JP2006534129A 2003-09-29 2004-09-29 変換技術を用いて意味記述を生成するコンピュータによる計算方法及びコンピュータシステム Pending JP2007519068A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US50693103P 2003-09-29 2003-09-29
US10/953,194 US20050091279A1 (en) 2003-09-29 2004-09-28 Use of transform technology in construction of semantic descriptions
PCT/US2004/032294 WO2005033893A2 (en) 2003-09-29 2004-09-29 Use of transform technology in construction of semantic descriptions

Publications (1)

Publication Number Publication Date
JP2007519068A true JP2007519068A (ja) 2007-07-12

Family

ID=34425985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006534129A Pending JP2007519068A (ja) 2003-09-29 2004-09-29 変換技術を用いて意味記述を生成するコンピュータによる計算方法及びコンピュータシステム

Country Status (6)

Country Link
US (1) US20050091279A1 (ja)
EP (1) EP1668464A4 (ja)
JP (1) JP2007519068A (ja)
KR (1) KR20060126928A (ja)
CN (1) CN101084510B (ja)
WO (1) WO2005033893A2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7779004B1 (en) 2006-02-22 2010-08-17 Qurio Holdings, Inc. Methods, systems, and products for characterizing target systems
US7596549B1 (en) 2006-04-03 2009-09-29 Qurio Holdings, Inc. Methods, systems, and products for analyzing annotations for related content
US8005841B1 (en) 2006-04-28 2011-08-23 Qurio Holdings, Inc. Methods, systems, and products for classifying content segments
US8615573B1 (en) 2006-06-30 2013-12-24 Quiro Holdings, Inc. System and method for networked PVR storage and content capture
KR20080048308A (ko) * 2006-11-28 2008-06-02 삼성전자주식회사 기본 장치와 확장 장치의 연동 장치 및 방법
US7840903B1 (en) 2007-02-26 2010-11-23 Qurio Holdings, Inc. Group content representations
CN109146825B (zh) * 2018-10-12 2020-11-27 深圳美图创新科技有限公司 摄影风格转换方法、装置及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001222549A (ja) * 2000-02-14 2001-08-17 Ecchandesu:Kk 動画像検索装置
WO2003005239A1 (en) * 2001-06-30 2003-01-16 Kt Corporation Apparatus and method for abstracting summarization video using shape information of object, and video summarization and indexing system and method using the same
WO2003056463A1 (en) * 2001-12-31 2003-07-10 Kt Corporation Apparatus and method for abstracting motion picture shape descriptor including statistical characteristics of still picture shape descriptor, and video indexing system and method using the same

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5351067A (en) * 1991-07-22 1994-09-27 International Business Machines Corporation Multi-source image real time mixing and anti-aliasing
US5325449A (en) * 1992-05-15 1994-06-28 David Sarnoff Research Center, Inc. Method for fusing images and apparatus therefor
US5495292A (en) * 1993-09-03 1996-02-27 Gte Laboratories Incorporated Inter-frame wavelet transform coder for color video compression
US6757437B1 (en) * 1994-09-21 2004-06-29 Ricoh Co., Ltd. Compression/decompression using reversible embedded wavelets
US6873734B1 (en) * 1994-09-21 2005-03-29 Ricoh Company Ltd Method and apparatus for compression using reversible wavelet transforms and an embedded codestream
DE69932029D1 (de) * 1998-08-05 2006-08-03 Koninkl Philips Electronics Nv Verfahren und vorrichtung zur erzeugung eines stehbildes
US6721454B1 (en) * 1998-10-09 2004-04-13 Sharp Laboratories Of America, Inc. Method for automatic extraction of semantically significant events from video
US7143434B1 (en) * 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
US6564263B1 (en) * 1998-12-04 2003-05-13 International Business Machines Corporation Multimedia content description framework
US6959300B1 (en) * 1998-12-10 2005-10-25 At&T Corp. Data compression method and apparatus
US6593936B1 (en) * 1999-02-01 2003-07-15 At&T Corp. Synthetic audiovisual description scheme, method and system for MPEG-7
US6345279B1 (en) * 1999-04-23 2002-02-05 International Business Machines Corporation Methods and apparatus for adapting multimedia content for client devices
US6856322B1 (en) * 1999-08-03 2005-02-15 Sony Corporation Unified surface model for image based and geometric scene composition
US6546135B1 (en) * 1999-08-30 2003-04-08 Mitsubishi Electric Research Laboratories, Inc Method for representing and comparing multimedia content
US6556724B1 (en) * 1999-11-24 2003-04-29 Stentor Inc. Methods and apparatus for resolution independent image collaboration
KR20010101880A (ko) * 1999-11-29 2001-11-15 요트.게.아. 롤페즈 멀티미디어 데이타의 코딩 및 디코딩 방법
US6876779B2 (en) * 2000-01-24 2005-04-05 Sony Côrporation Method and apparatus of reconstructing audio/video/image data from higher moment data
US6763069B1 (en) * 2000-07-06 2004-07-13 Mitsubishi Electric Research Laboratories, Inc Extraction of high-level features from low-level features of multimedia content
JP2002170112A (ja) * 2000-12-04 2002-06-14 Minolta Co Ltd 解像度変換プログラムを記録したコンピュータ読取可能な記録媒体、解像度変換装置および解像度変換方法
US6995765B2 (en) * 2001-07-13 2006-02-07 Vicarious Visions, Inc. System, method, and computer program product for optimization of a scene graph
US6714203B1 (en) * 2002-03-19 2004-03-30 Aechelon Technology, Inc. Data aware clustered architecture for an image generator

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001222549A (ja) * 2000-02-14 2001-08-17 Ecchandesu:Kk 動画像検索装置
WO2003005239A1 (en) * 2001-06-30 2003-01-16 Kt Corporation Apparatus and method for abstracting summarization video using shape information of object, and video summarization and indexing system and method using the same
WO2003056463A1 (en) * 2001-12-31 2003-07-10 Kt Corporation Apparatus and method for abstracting motion picture shape descriptor including statistical characteristics of still picture shape descriptor, and video indexing system and method using the same

Also Published As

Publication number Publication date
WO2005033893A8 (en) 2007-10-11
WO2005033893A2 (en) 2005-04-14
EP1668464A4 (en) 2008-10-08
CN101084510B (zh) 2010-06-02
KR20060126928A (ko) 2006-12-11
WO2005033893A3 (en) 2007-08-02
CN101084510A (zh) 2007-12-05
US20050091279A1 (en) 2005-04-28
EP1668464A2 (en) 2006-06-14

Similar Documents

Publication Publication Date Title
Parekh Principles of multimedia
US7089543B2 (en) Use of formal logic specification in construction of semantic descriptions
Salembier et al. MPEG-7 multimedia description schemes
US7203692B2 (en) Transcoding between content data and description data
Chang et al. Next-generation content representation, creation, and searching for new-media applications in education
JP4382288B2 (ja) 画像記述システムおよび方法
JP3895974B2 (ja) 客体基盤の対話形マルチメディアコンテンツ著作装置、および、その方法
US8504591B2 (en) Data generating device and data generating method, and data processing device and data processing method
KR20010042221A (ko) 멀티미디어 콘텐츠 기재 시스템 및 방법
JP2001306581A (ja) ミドルウェアおよびミドルウェアを用いたメディアデータ視聴機器
Koenen et al. MPEG-7: A standardised description of audiovisual content
Schöning et al. Providing video annotations in multimedia containers for visualization and research
JP2007519068A (ja) 変換技術を用いて意味記述を生成するコンピュータによる計算方法及びコンピュータシステム
CN106790558B (zh) 一种影片多版本整合存储和提取***
Benitez¹ et al. Description of a single multimedia document
Schöning et al. Visual Analytics of Gaze Data with Standard Multimedia Players
US7925139B2 (en) Distributed semantic descriptions of audiovisual content
CN114677569B (zh) 一种基于特征解耦合的文字-图像对生成方法和装置
KR102311947B1 (ko) 학습과정 예고편 영상 생성 방법 및 장치
Mu Decoupling the information application from the information creation: Video as learning objects in three-tier architecture
Turau et al. A Schema Partition for Multimedia Database Management Systems
Salim et al. A LiteMP4Repair: Corrupted MP4 Repair Using Header Substitution Tool
KR20220079042A (ko) 서비스 제공 프로그램 기록매체
Messina et al. Making second screen sustainable in media production: the bridget approach
Jorgensen The MPEG-7 Initiative for Multimedia Content Description

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070723

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20080603

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080603

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100315

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100906