JP4300938B2 - メディア認識サイト検索方法およびシステム - Google Patents

メディア認識サイト検索方法およびシステム Download PDF

Info

Publication number
JP4300938B2
JP4300938B2 JP2003302302A JP2003302302A JP4300938B2 JP 4300938 B2 JP4300938 B2 JP 4300938B2 JP 2003302302 A JP2003302302 A JP 2003302302A JP 2003302302 A JP2003302302 A JP 2003302302A JP 4300938 B2 JP4300938 B2 JP 4300938B2
Authority
JP
Japan
Prior art keywords
media
user terminal
recognition
media recognition
search condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003302302A
Other languages
English (en)
Other versions
JP2005071195A (ja
Inventor
康幸 大木
一正 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003302302A priority Critical patent/JP4300938B2/ja
Priority to EP03022957A priority patent/EP1513077A3/en
Priority to US10/681,281 priority patent/US20050050020A1/en
Publication of JP2005071195A publication Critical patent/JP2005071195A/ja
Application granted granted Critical
Publication of JP4300938B2 publication Critical patent/JP4300938B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7335Graphical querying, e.g. query-by-region, query-by-sketch, query-by-trajectory, GUIs for designating a person/face/object as a query predicate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、映像データなどのメディアを認識するメディア認識サイトを検索するシステムに関し、特に、ユーザの希望に合致する認識を行うメディア認識サイトを検索するシステムに関する。
現在、映像や音声などのメディアデータを認識するメディア認識ネットワークシステムが存在する。このシステムでは、メディアデータを所有する各エンドユーザが、ネットワーク上に配置されたメディアデータ認識処理用コンピュータ(以下、メディア認識サイトと呼ぶ)に接続し、エンドユーザ側からメディア認識サイトへメディアデータを送信する。メディア認識サイトからはその認識結果メタデータが返信される(特許文献1参照)。
また、ネットワーク上に配置された各種処理サービスを検索する手法としては、Webサービスの検索ディレクトリUDDI(http://www.uddi.org)がある。UDDIでは、検索条件として、Webサービスの各種分類情報とともに、Webサービスの入力データと出力データの形式(データ型)を指定する。Webサービスを利用したいユーザは、Webサービスの種別情報と共に入力データの型と出力データの型を指定してWebサービスのサイトアドレスを入手し、その後サイトへの接続を行う。
上記メディア認識ネットワークシステムにおいて、ユーザがメディア認識サイトの検索を行う場合、検索条件となる認識サイトの入力の型として、認識対象となるメディアデータの種別(映像、音声、3D)や、そのフォーマット(画像の幅高さ、圧縮方式、色数、音声チャネル数)を指定する。同様に認識サイトの出力の型として、出力されるメタデータの型を指定する。
特開平10−282989号公報
上記メディア認識ネットワークシステムにおいて、メディア認識サイトをその入出力データ型だけで検索する場合には、ユーザが本当に希望するメディア認識サイトを検索・選定できない可能性がある。その理由は、メディア認識方法が同じで、かつ認識精度が高いメディア認識サイトを選び出せたとしても、ユーザが認識したい認識対象が、メディア認識サイトの認識結果と合致しない場合があるからである。たとえば、映像中の物体動き追尾を用いてサッカー番組におけるサッカーボールの動きを追いかける場合、ある動き追尾認識サイトはサッカーボールを正しく追尾するのに対し、別の動き追尾認識サイトはサッカー選手を追尾してしまう場合がある。どちらの動き追尾認識サイトも入出力データ型が「映像,動き情報」と同じであり、どちらも独自のアルゴリズムにより高精度の動き追尾を行うのであるが、一方の動き追尾サイトはユーザが希望していないサッカー選手の動き追尾情報を返信してしまう。
本発明の目的は、メディアデータの検索条件をもとに、ユーザの希望に添うメディア認識サイトを検索するメディア認識サイト検索システムを提供することにある。
上記目的を達成するために本発明は、ユーザ端末は、予め記憶されたサンプル映像をもとにして、検索条件入力ツールを用いて、メディア認識サイトを検索する基準となる第一のメディア特徴量(正解特徴量)を作成する。メディア認識サーバは、サンプル画像を認識処理し、その認識結果である第二のメディア特徴量をユーザ端末に送信する。ユーザ端末は、作成した正解特徴量とメディア認識サーバ150の認識結果であるメディア特徴量とを比較し、ユーザが希望する認識処理を行うメディア認識サイトを選択する。
本発明によれば、多数のメディア認識サイトの中から、ユーザの希望に沿ったメディア認識処理を行うサイトを選び出すことができる。
本発明における最良の実施形態を図面を用いて説明する。
本実施形態においては、次のような動作シナリオを想定している。あるユーザが、サッカーの試合の分析をするために、自分が所有するあるサッカー映像を分析したいとする。映像の分析は、まずサッカーボールの動きの情報をまとめる処理を行い、次に各選手の詳細な動きを分析する処理を行う。このシナリオのうち、特にサッカーボールの動きを分析する処理について、本実施形態の認識サイト検索システムを用いて具体的に説明していく。
まず図1を用いて、本発明の一実施形態であるメディア認識サイト検索システムのシステム構成を説明する。本システムは、ユーザ側に設置され、ユーザが操作するユーザ端末110と、映像や音声などのメディアデータを受け取り、その内容を分析・認識しその結果をメディア特徴量として返信するメディア認識サーバが複数個150,160,170と、メディア認識サイトの検索を支援する検索条件入力ツール取得サーバ140で構成され、上記サーバや端末がネットワーク130に接続されている。図1では、メディア認識サーバA150およびメディア認識サーバB160は、映像中の動いている物体を発見・追尾する動き追尾認識機能を持ち、メディア認識サーバC170は、音声を入力としてその発話内容を認識しテキストデータに変換する音声認識機能を持つものとする。
ユーザ端末110は、プログラムコードである検索条件入力ツール111を実行する。ユーザの操作によって、ユーザ端末110は、この検索条件入力ツール111を用いてメディア認識サイトの検索・選定の処理を行う。このプログラムコードは、これを実行するツール実行装置113を備える。なおこのプログラムコードにはCPU依存型のネイティブコードなどを用いてもよい。検索条件入力ツール111は必要に応じてキーボードやマウスなどの入力装置118とユーザ操作結果を表示するディスプレイ装置117を備える。
ユーザ端末110は、TCP/IPネットワーク接続等により外部装置と情報の送受信を行うネットワーク装置112、各種データを蓄積するハードディスク装置116、メディア特徴量比較装置114、およびこれらユーザ端末110内の各装置を制御するユーザ端末制御装置115から構成される。ユーザ端末制御装置115は、CPUとメモリを備える一般的なコンピュータ装置であって、図2に示すユーザ端末側の処理フローを示すプログラムを備える。なお本実施形態では、ハードディスク装置116に、認識サイトの検索に用いる一時的な映像であるサンプル映像119、実際に分析したい映像が録画されている実映像120、および、ユーザが希望するメタデータの正解値である正解特徴量121が記録されている。なお本実施形態では映像を用いたが、音声認識サイトの検索の場合は音声データを、顔認識サイトの検索の場合は写真データを記録することになる。
検索条件入力ツール取得サーバ140は、複数の検索条件入力ツール143,144等を記憶装置142内に保持することにより、ネット上にどのようなメディア認識サイトがあるのかといった認識方式のカテゴリを分類して管理するサーバである。検索条件入力ツール取得サーバ140は、主にユーザ端末110からアクセスされる。なお検索条件入力ツール取得サーバ140もネットワーク装置141を備える。
メディア認識サーバ150、160、170は、ネットワーク経由でメディアデータを受信し、メディア認識装置153を用いて、受信したメディアデータを認識し、その認識結果であるメディア特徴量を返信する。このためメディア認識サーバ150、160、170は、ネットワーク接続を行うネットワーク装置151を有する。
さらに、メディア認識サーバ150、160、170は、メディア認識サイトを検索する検索条件が、自身のメディア認識装置153と合致するか否かを調べる検索条件照合処理装置152と、メディア認識サーバ内の各装置を制御する認識サイト制御装置154を備える。認識サイト制御装置154は、ユーザ端末制御装置115と同様にコンピュータとプログラムから構成される。メディア認識サーバ160と170は、メディア認識サーバ150と同様の構成である。
メディア認識装置153が行う認識処理は、映像中で動いている物体を自動追尾する認識処理、映像中のある色の部分を抽出して指し示す認識処理、および、音声を入力としてその発言内容を認識しテキストとして返す音声認識処理などが考えられる。これら処理を行うためには、公知のメディア認識製品(音声認識ソフトウェアや映像認識ソフトウェア)を用いることとし、ここでは詳細な説明は省略する。本実施形態においては、その認識処理がどのような形式のメディアデータを入力とし、どのような形式のメディア特徴量を出力するのかがポイントである。
なお、本実施例では、サンプル映像119、実映像120、メディア特徴量比較装置114、およびツール実行装置113をユーザ端末110の中に配置したが、これらをネットワーク上の別のサイト(コンピュータやサーバ)上に配置してもよい。たとえば、映像(一般にはメディアデータ)そのものは別のサイトに保存されていて、ユーザ端末110上ではその置き場所を示すURLだけを記録し、ユーザ端末110やメディア認識サーバ150が必要な時にそのURLを元に映像の実データをダウンロードまたはストリーミングにより入手すれば、本実施例と同様の動作を実現することができる。同様に、検索条件入力ツール111とツール実行装置113も、ユーザ端末110ではなく別の検索条件入力ツール取得サーバ140上に配置されて、必要に応じて、検索条件入力ツール111とツール実行装置113が、ネットワーク経由でユーザ端末110内のディスプレイ装置117、入力装置118、ハードディスク装置116をアクセスするようにしてもよい。メディア特徴量比較装置114についても、ユーザ端末110上に配置したが、実際は様々なメディア特徴量に対する類似度比較処理を行わなければならないため、類似度比較サーバなどを別途設けて、このサーバが代理で認識処理する構成でもよい。
ここで、メディア認識サイトの検索を行う場合の、入出力データ型の指定について説明する。入出力データ型の指定には、ISOのMPEG-7(ISO/IEC 15938)に定められるマルチメディアコンテンツのため情報記述方式を利用できる。MPEG-7ではW3C XML Schemaを元にした型定義言語を用いて、メディア情報記述のための様々な標準型を規定している。たとえば、映像の種別やフォーマットを記述する型として“mpeg7:MediaFormatType”(または<MediaFormat>タグ)というXML型を用意し、詳細なフォーマット情報を記述可能である。同様に、メタデータの型として、映像に関するもの(色,形,動き追尾情報)や音に関するもの(音声認識結果テキスト)など、様々な標準型を用意している。たとえば、動き追尾情報には“mpeg7:MovingRegionType”(または<MovingRegion>タグ)という型があり、物体の形状やその時間的な動き情報(映像内の座標位置x,yと映像時刻tのリスト)を一括して記述できる。なお、メタデータと呼ばれるメディアデータの関連情報のうち、特に二つのメタデータ間の類似度合いを数学的に計算できるものを、メディア特徴量(または単に特徴量)と呼ぶ。
次に図2の全体処理フローと、図3,図4のユーザ端末のインタフェース画面を用いて、本発明の実施例の流れを説明する。
図2は、メディア認識サーバの検索・選定の処理を示す。
まずユーザ端末110は、検索条件入力ツール取得サーバ140に接続する(ステップ211)。ユーザ端末110のディスプレイ装置117は、図3に示す認識種別メニュー画面310を表示する(ステップ212)。認識種別メニュー画面310において、ユーザによってメディア認識の種別が選択されると、ユーザ端末110は、その情報が検索条件入力ツール取得サーバ140に送信し、検索条件入力ツール取得サーバ140の記憶装置142に格納された検索条件入力ツールであって、選択されたメディア認識種別に対応する検索条件入力ツールが、ユーザ端末110にダウンロードされる(ステップ213)。図3に示す例では「動き追尾」ボタン312が選択されたので、「動き追尾」の検索条件入力ツール144がユーザ端末110にダウンロードされる。
次に、ユーザ端末110は、ダウンロードされた検索条件入力ツール144を実行し、ユーザの操作によってユーザ端末110内に正解特徴量121を作成する(ステップ221)。本実施の形態では、正解特徴量は、サンプル映像において「ボールを追いかける」というものである。
ステップ221で正解特徴量121を作成すると、ユーザ端末110は、ネットワーク上の全メディア認識サイトに向けて検索条件データグラムを送信する(ステップ231)。検索条件データグラムには、メディア認識サイトの入力データ型、メディア認識サイトの出力データ型、サンプル用メディアデータ(ここではサンプル映像119)が含まれる。検索条件データグラムの詳細は後述する。
ステップ231にて検索条件データグラムがネットワーク上に配信されると、それを受信した各メディア認識サーバ150、160、170は、検索条件データグラムのうち入力データ型と出力データ型が、自己のメディア認識装置の仕様に合致するか否かを照合する(ステップ241A,B,C)。この場合、メディア認識サーバC170は音声認識サーバのため、入力データ型が“映像”であるこのサンプルデータ(サンプル映像119)は、このサーバでは処理ができない(241C)。このように検索条件の照合がNOの場合、メディア認識サーバC170では、以降の認識処理、返信処理は行わない。
メディア認識サーバA150、B160は「動き追尾」の認識処理を行うサーバであり、検索条件の照合が成功する。この場合、検索条件データグラムに含まれるサンプル映像119を元に、各々のメディア認識装置153を用いて動き追尾処理を行う(ステップ242A,B)。メディア認識サーバA150、B160は、動き追尾処理の結果((x,y,t)の並び)を、MPEG-7特徴量<MovingRegion>の形式で記述し、メディア認識サイトA150,B160を識別するURLと共に、ユーザ端末110に返信する(243A,B)。
次にユーザ端末110は、各メディア認識サイトから返信されたMPEG-7<MovingRegion>特徴量と、ユーザ端末110が持つ正解特徴量121ととの類似度を比較する(ステップ251)。ユーザ端末110は、比較の結果、正解特徴量116と一番類似する認識結果(特徴量)を出力する認識サイトを選ぶ。ステップ251の具体的な処理フローは図6に示す。ここでは、正解特徴量に一番類似している特徴量を返信したサイトとしてメディア認識サイトA150が選ばれたとする。
ステップ221において説明したように、今回の正解特徴量121は「ボールを追いかける」特徴量である。各メディア認識サイトから返信された特徴量の中で、この正解特徴量121に一番類似しているものを選ぶことは、数ある「動き追尾」を行う認識サイトのうち、一番ユーザの意図どおりにボールを追いかけている認識サイトを選ぶことである。このように正解特徴量とメディア認識サイトからの返信特徴量を比較することにより、ユーザの希望する最適なメディア認識サイトの検索・選定が可能になる。
次に、ユーザ端末110は、選定されたメディア認識サイトA150に選定通知を送信し、実映像120の配信接続依頼を発行する(ステップ261)。メディア認識サイトA150は、接続OKを示すACK信号をユーザ端末110に返信する(ステップ262)。ユーザ端末110は、ACK信号を受信すると、実映像120をメディア認識サイトA150にストリーミング配信し(ステップ263)、メディア認識サイトA150は、受信した実映像120に対して順次動き追尾処理を行い、その認識結果をユーザ端末110に返信する(ステップ264)。このストリーミング配信は、ユーザ端末110が配信を打ち切るまで継続される。
なお、ステップ231において配信される検索条件データグラムに関して、入力データ型、出力データ型を検索条件データグラム上に表現する方法として、本実施形態では、MPEG-7記述形式を用いる。たとえば「352x240サイズ,2Mbps映像,音なし」を表す場合、次のように記述すればよい。
<MediaFormat xmlns=“http://www.mpeg7.org/2001/MPEG-7_Schema”>
<Format>
<VisualCoding>
<BitRate>2000000</BitRate>
<Frame width=“352” height=“240”/>
</VisualCoding>
</Format>
</MediaFormat>
同様に、動きの特徴量を出力型として表す場合、次のように記述すればよい。
<outputType xmlns:mpeg7=“http://www.mpeg7.org/2001/MPEG-7_Schema”
name=“mpeg7:MovingRegionType”/>
この場合、<outputType>は本実施例が定義したタグであり、この記述は「MPEG-7のうち<MovingRegion>等として記述される特徴量である“MovingRegionType”型」を表している。ここで、MovingRegionTypeの内容は、xmlns:mpeg7に示される場所にあるスキーマで定義されている。
ステップ231で送信されるサンプル映像119については、本実施形態では説明を分かりやすくするため、送信される検索条件データグラムに映像データ全てを追加している。別の構成としては、サンプル映像の置き場所のURL等を検索条件データグラムに記述するに留め、送信された検索条件データグラムを受け取ったメディア検索サイトが、必要に応じてそのURLを経由してサンプル映像にアクセスする構成も考えられる。この構成の場合は、通信トラフィックが軽減できるため望ましい。同様に、検索条件データグラムの配信も、本実施形態ではネットワーク全域にマルチキャスト配信しているが、マルチキャスト範囲を絞り込むような中間的なセンタサーバ(検索条件のキャッシュ&プロキシサーバ)を設け、そこに対して検索条件データグラムを送信する構成でもよい。この構成の方が、通信トラフィックが軽減できる(その代わりセンタサーバの処理負荷がかかる)。
図3は、図2のステップ212において表示される認識種別メニュー画面310を示す。認識種別メニュー画面310はWebCGIなどで構築され、メディアの認識種別(音声認識、動き追尾、顔認識)に対応するダウンロードボタン311、312、313を含む。この認識種別はネットワーク上に多数存在するメディア認識サイトをその認識方法別に分類したものである。たとえば、同じ映像の物体の動き追尾認識機能でも、その実現方法としては、物体の特定の色を追いかけたり、映像の差分を元に物体の移動情報を抽出して追いかけたり、特定の物体の形をパターン化して追いかけたりするなど、様々である。本実施形態では、これら多様なメディア認識サイトをユーザに分かりやすく提示するため、これら全てを「動き追尾」に分類する。
図3に示す認識種別メニュー画面310を構築する場合、検索条件入力ツール取得サーバ140は、記録装置142内に検索条件入力ツールを格納するにあたって、認識種別の分類を管理する必要がある。本実施形態では、カテゴリ情報をメディア認識処理の(入力データ型,出力データ型)の組として管理している。例えば、動き追尾検索条件入力ツール144の場合、図2のステップ231で述べたように、入力データ型と出力データ型を、MPEG-7を使って(入力データ型=映像,出力データ型=動き情報)のように記述できる。同様に音声認識の場合は、入力データ型と出力データ型を(入力データ型=音声,出力データ型=テキスト)と記述できる。検索条件入力ツール取得サーバ140は、これらの入出力データ型の組に、「動き追尾」や「音声認識」などの認識種別名称と、その認識処理種別に対応する検索条件入力ツールのプログラムを含めてデータベースで管理する。これにより、検索条件入力ツール取得サーバ140は、その認識種別名称の一覧を、WebCGI画面形式として認識種別メニュー画面310を構築することが可能である。なお、認識種別メニュー画面310において、認識種別の検索を行う構成でもよい。例えば、先のDBに認識種別ごとの概要説明文もあわせて格納してき、DBの全文検索機能を用いて検索を行えば、よりユーザにわかりやすい認識種別メニュー画面を提供することができる。
図4は、図2のステップ221における検索条件入力ツール144(図2のステップ213で選択された図3の検索条件入力ツール144)を実行するときの画面を示す。図4の画面は、サンプル映像119であるサッカー番組の映像を開いて、映像の中のサッカーボールの動きを追いかけるような検索条件を設定する例を示す。このように、検索条件入力ツールは、ユーザ画面付きプログラムの形式をとっているので、様々なメディアの認識処理に特化したユーザ画面を提供することができる。このため、ユーザは認識技術についての深い知識を知ることなく、わかりやすい形で「動き追尾」を行う認識サイトの検索条件(つまり正解特徴量121)を入力できる。
図4のディスプレイ画面117について説明する。この画面は、数ある動き追尾認識サイトの中からユーザの希望に添った認識サイトを検索・選定する検索条件を入力する際に用いられる。具体的には、検索条件入力ツール144は、検索・選定用に用いるサンプル映像119を入力し、ユーザの操作によって、正解特徴量121を設定して出力する。本実施形態では、サンプル映像119としてサッカーの短編映像411が指定されている。サンプル映像119は、サッカー番組の実映像120とは別の短編映像であるが、実映像120を直接用いても、またはネットワークに接続されたファイルサーバの映像リストから入手してもよい。本実施形態では、手軽に検索条件(つまり正解特徴量)を入力できるようにサンプル映像を短編映像とし、また、正解特徴量をユーザから隠蔽する点を分かりやすく説明するために、そのユーザしか知らない(つまりネットワーク上に公開されていない)独自の映像をサンプル映像として用いる。サンプル映像119の現在の再生時刻の画面411には、サッカー選手423とサッカーボール421が表示されている。またこの画面には、ユーザが入力したサッカーボールの軌跡ライン422と、それに用いたマウスカーソル415が表示されている。この画面は、「私が期待しているメディア認識サイトの認識結果とは、サッカー選手の追尾ではなく、サッカーボールの追尾である」ことがユーザから入力されたことを表している。本ツールにより、サッカー選手の追尾とサッカーボールの追尾の区別といったユーザが希望する検索条件を、メディア認識サイトの検索・選定の際に容易に指定できる。
図4に示す画面の操作について説明する。画面117において、まず映像選択ボタン412を押してサンプル映像119を指定する。その後、映像操作パネル413を操作してサンプル映像119のサッカーボールが写っている先頭の時刻t1を表示する。時刻t1の表示画面411にて、サッカーボールの位置をマウスカーソルでクリックすると、その時刻t1とマウスカーソル座標x1,y1が、正解特徴量の一要素(x1、y1、t1)として追加される。同様に時刻を少し進めてサッカーボール位置をクリックすることを繰り返すと、時刻t1から現在時刻tnまでのサッカーボールの軌跡(x1、y1、t1)(x2、y2、t2)…を正解特徴量422として登録することができる。正解特徴量の座標データ422がある程度まとまったら、最後に正解保存&サイト検索ボタン414を押すことにより、正解特徴量のデータ422(この場合座標データ)をユーザ端末110のハードディスク装置116の正解特徴量格納領域121に保存する。
図5は、図2のステップ221における動き追尾検索条件入力ツール144(図3)が行う処理フローを示す。まず、映像が未選択状態であるとしてnullに初期化される(ステップ501)。同様に、正解の特徴量の配列がクリアされ、その個数を示すNも0に初期化される(ステップ502)。その後、画面表示が行われ(ステップ503)、ユーザ操作イベント待ちループ(ステップ504)に入る。
画面上でどのような操作が行われたかを判断し(ステップ510)、映像選択ボタン412(図4)が押下されたと判断した場合、使用する映像がユーザの指定した映像ファイル(サンプル映像)に初期化される(ステップ521)。ステップ510で映像操作パネル413が操作されたと判断した場合、ユーザが指定した操作に従って、映像の再生・停止・位置移動処理が行われる(ステップ523)。ステップ510でマウスがクリックされた場合は、正解を示す配列に(マウスのx座標、y座標、映像の現在時刻)という組を正解の配列に追加したのち、その配列を時刻順にソートする(ステップ525)。ユーザがマウスをクリックするたびに、正解の(座標点、時刻)の組が追加される。本実施形態では簡単のため正解の配列の削除機能は説明していない。実際には、図面作成ソフトにおける折れ線の描画機能のように、折れ線の制御点の上にマウスカーソルを置き、[Ctrl]+クリックをすると、制御点を削除するような処理と同様の実装をすればよい。ステップ510で正解保存&サイト検索ボタン414が押下されたと判断した場合は、まずユーザ端末110のハードディスク装置116に正解特徴量を保存する(ステップ527)。そして上記したように、検索条件データグラムを(入力データ型=映像,出力データ型=動き追尾特徴量“mpeg7:MovingRegionType”、サンプル用メディアデータ=サンプル映像119)として作成する(ステップ528)。その後、メディア認識サイトの検索処理を実行する(ステップ529)。
なお、ユーザ操作を判断する処理(ステップ510)を終えた後は、正解の配列のデータを映像画面411上に動きの軌跡422として表示する。具体的には、まず正解の配列全てに対してループする(ステップ511)。ここで、二点間の線分を引くためループ開始値を2としている。ループの中では、過去から映像の現在時刻までの時間区間のみの正解特徴量を画面に描画する必要があるため、正解[k]の時刻を確認する(ステップ531)。もし正解の情報が映像の現在時刻より前の場合、そのxy座標の組を用いて画面上に線分を表示する(ステップ541)。
図6は、図5のステップ529の処理を詳細に示すフローである。つまり、ユーザ端末110において、正解特徴量が指定された後に行われる処理フローである。検索処理529は、図2のフローのうち、ステップ231〜ステップ264までの処理を具体的に示したものである。本処理529の入力は、正解特徴量と、検索条件データグラムである。
まず、ユーザ端末110は、検索条件データグラムをネットワーク上にマルチキャストする(ステップ610)。次に返信データグラムを一定期間待ち、その一定時間の間にユーザ端末110に対して返信された返信データグラムを返信の配列に追加する(ステップ611)。次に、返信された特徴量の中から、一番正解特徴量に近い返信データグラムを探す。具体的には、まず最小類似度minを無限大に、最適な認識サイトURLをnullに初期化する(ステップ612)。次に全ての返信データに対してステップ620〜630のループを行う(ステップ613)。ステップ613では、まず返信データグラム[k]中の特徴量と、正解特徴量121の類似度を計算する。類似度計算の詳細は省略するが、本実施例のような(x,y,t)の配列からなる動き追尾特徴量AとBがあった場合、例えば、簡単な類似度を計算するには次式を用いればよい。
Figure 0004300938
ここで計算された類似度が、現在のminより小さいかどうかを判断し(ステップ621)、小さい場合は、ステップ620で計算された類似度をminに入力してminを更新し、また認識サイトURLを返信データグラムに記録されている認識サイトのURLに更新する(ステップ630)。最後に、認識サイトURLがnullでないかどうかを判断し(ステップ614)、nullでない場合、最適な認識サイトが検索・選定できたことを示す。そして、認識サイトURLに示されるメディア認識サイトに接続し(ステップ640)、実映像120の送信が終了するまでループし(ステップ641)、実映像120のデータをストリーミング送信してメディア認識サーバが認識処理を行い、その認識結果をユーザ端末110が受信する(ステップ642)という処理を繰り返す。
図7は、メディア認識サーバ150が実行される検索条件照合処理(図2のステップ241)の処理フローを示す図である。図2におけるステップ241B,Cでも同様の処理を行う。図7において示す検索条件照合処理(ステップ701)の入力パラメタは、受信元情報(ユーザ端末110のIPアドレスやURLなど)と、検索条件データグラムである。
まず、メディア認識サーバ150は、検索条件データグラムの中の入力データ型が「映像」であるか否かを判断する(ステップ702)。本実施形態のMPEG-7記述例の場合、<MediaFormat>のタグの中に<VideoCoding>タグが含まれていれば「映像」であると判断する。もし「映像」でない場合(「音声」などの場合)は、メディア認識サーバ150が処理できないデータなので検索条件処理701を終了する(ステップ710)。次に、メディア認識サーバ150は、検索条件の出力データ型が“mpeg7:MovingRegionType”であるか否かを確認する(ステップ703)。もし“mpeg7:MovingRegionType”ではない場合(例えば色情報“mpeg7:DominantColorType”などの場合)は、本メディア認識サイトでは処理できないデータなので、検索条件処理を終了する(ステップ711)。もし入力データ型も出力データ型も本サイトで処理可能な場合、検索条件データグラムに含まれるサンプル用メディアデータ(サンプル映像119)をもとに、メディア認識サーバ150は動き追尾認識処理を実行する(ステップ704)。そして、その結果を認識結果特徴量として図示しない記憶装置に保存し、認識結果特徴量と自身のメディア認識サイトのURLとを組にして返信データグラムにまとめ、それをユーザ端末110に返信する(ステップ705)。
以上が、本発明の一実施例における処理の全体フローである。このように、検索条件入力ツール取得サイト140、検索条件入力ツール143,144,145、正解特徴量121、サンプル映像119を活用することにより、多様の認識技術の中から分かりやすく認識技術を選びだし、かつ、ユーザの主観も含めた検索条件に合致したメディア認識サイトを検索・選定できるようになる。
本実施の形態では、検索条件入力ツールを用いて、サッカー選手かボールのどちらをユーザが欲しているかをインタラクティブに設定できるため、ユーザの主観に沿った検索条件を入力できる。また、そのユーザの入力した検索条件を正解特徴量としてユーザ端末に保存し、これとは別にメディア認識サイトに同一のサンプルメディアデータを認識させ、これらを類似比較させることによって、よりユーザの主観に近いメディア認識サイトを選び出すことができる。
本発明の一実施形態となるメディア認識サイト検索システムのシステム構成図を示す。 本発明の一実施形態の全体処理フローを示す。 認識種別メニュー画面例および検索条件入力ツール取得サーバ140が記憶する検索条件入力ツールを示す。 検索条件入力ツール111の実行画面の画面例を示す。 検索条件入力ツール111の検索条件入力処理フローを示す。 ユーザ端末110におけるメディア認識サイト検索処理を示す処理フローである。 メディア認識サーバにおける検索条件照合処理を示す処理フローである。
符号の説明
110:ユーザ端末、111:検索条件入力ツール、113:ツール実行装置、114:メディア特徴量比較装置、115:ユーザ端末制御装置、116:ハードディスク装置、140:検索条件入力ツール取得サーバ、150:メディア認識サーバ、

Claims (4)

  1. メディアデータを認識する複数のメディア認識サーバと、該メディア認識サーバとネットワークを介して接続されたユーザ端末を含むメディアデータ認識システムにおけるメディア認識サイト検索方法であって、
    前記ユーザ端末は、予め当該ユーザ端末の記憶部に記憶されたサンプルデータおよび当該ユーザ端末の入力部を介した操作者からの前記サンプルデータに対する操作に従った入力の配列で示されるメディア認識サイトを検索する基準となる第一のメディア特徴量を、前記記憶部に格納されたプログラムで構成される検索条件入力ツールに従って、ツール実行部において作成し、
    前記ユーザ端末は、該予め記憶されたサンプルデータ、前記メディア認識サーバにおけるデータの入力データ型および出力データ型を含む検索条件データグラムを前記複数のメディア認識サーバそれぞれ、ネットワーク部を介して送信し、
    前記複数のメディア認識サーバのそれぞれは、前記送信された検索条件データグラムを当該メディア認識サーバのネットワーク部を介して受信し、
    前記複数のメディア認識サーバのそれぞれは、前記受信された検索条件データグラムに含まれる入力データ型および出力データ型が、当該メディア認識サーバ装置の仕様に合致するかを、検索条件照合部を用いて判断し、
    前記複数のメディア認識サーバのそれぞれは、前記仕様が合致すると判断した場合、当該メディア認識サーバのメディア認識部を用いて、前記送信されたサンプルデータに対して、当該メディア認識サーバで予め規定されている認識処理し、
    前記メディア認識サーバのそれぞれは、該認識結果である第二のメディア特徴量および当該メディア認識サーバを識別する識別情報、当該メディア認識サーバのネットワーク部を介して前記ユーザ端末に送信し、
    前記ユーザ端末は、該送信された第二のメディア特徴量と、前記作成された第一の特徴量とを、当該第一および第二それぞれの特徴量を構成する配列についてメディア特徴量比較部を用いて比較し、
    前記ユーザ端末は、該比較の結果、前記第一の特徴量に最も類似する第二の特徴量を送信したメディア認識サーバを、該ユーザ端末が有するメディアデータの認識を依頼するメディア認識サイトとして選択することを特徴とするメディア認識サイト検索方法。
  2. 前記ユーザ端末は、当該ユーザ端末のネットワーク部を介して、前記選択したメディア認識サイトに対し、該ユーザ端末が有するメディアデータの認識処理を依頼する依頼情報を送信し、
    該ユーザ端末は、当該ユーザ端末のネットワーク部を介して、前記選択したメディア認識サイトから、前記依頼を受ける旨の情報を受信した場合は、前記ユーザ端末が有するメディアデータを、該メディア認識サイトに送信することを特徴とする請求項1記載のメディア認識サイト検索方法。
  3. メディアデータを認識する複数のメディア認識サーバと、該メディア認識サーバとネットワークを介して接続されたユーザ端末を含むメディアデータ認識システムであって、
    前記ユーザ端末は
    予め当該ユーザ端末の記憶部に記憶されたサンプルデータおよび当該ユーザ端末の入力部を介した操作者からの前記サンプルデータに対する操作に従った入力の配列で示されるメディア認識サイトを検索する基準となる第一のメディア特徴量を、前記記憶部に格納されたプログラムで構成される検索条件入力ツールに従って作成するツール実行部と、
    該予め記憶されたサンプルデータ、前記メディア認識サーバにおけるデータの入力データ型および出力データ型を含む検索条件データグラムを前記複数のメディア認識サーバそれぞれへ送信するユーザ端末ネットワーク部とを有し
    前記複数のメディア認識サーバのそれぞれは、
    前記送信された検索条件データグラムを受信するメディア認識サーバネットワーク部と、
    前記受信された検索条件データグラムに含まれる入力データ型および出力データ型が、当該メディア認識サーバ装置の仕様に合致するかを判断する検索条件照合部とを有し、
    前記仕様が合致すると判断した場合、前記送信されたサンプルデータに対して、当該メディア認識サーバで予め規定されている認識処理を行うメディア認識部と
    該認識結果である第二のメディア特徴量および当該メディア認識サーバを識別する識別情報を、前記ユーザ端末に送信するメディア認識サーバネットワーク部とを有し、
    前記ユーザ端末は、
    該送信された第二のメディア特徴量と、前記作成された第一の特徴量とを、当該第一および第二それぞれの特徴量を構成する配列について比較するメディア特徴量比較部をさらに有し、
    前記ユーザ端末は、該比較の結果、前記第一の特徴量に最も類似する第二の特徴量を送信したメディア認識サーバを、該ユーザ端末が有するメディアデータの認識を依頼するメディア認識サイトとして選択することを特徴とするメディアデータ認識システム。
  4. 前記ユーザ端末は、当該ユーザ端末のネットワーク部を介して、前記選択したメディア認識サイトに対し、該ユーザ端末が有するメディアデータの認識処理を依頼する依頼情報を送信し、
    該ユーザ端末は、当該ユーザ端末のネットワーク部を介して、前記選択したメディア認識サイトから、前記依頼を受ける旨の情報を受信した場合は、前記ユーザ端末が有するメディアデータを、該メディア認識サイトに送信することを特徴とする請求項3記載のメディアデータ認識システム。
JP2003302302A 2003-08-27 2003-08-27 メディア認識サイト検索方法およびシステム Expired - Fee Related JP4300938B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2003302302A JP4300938B2 (ja) 2003-08-27 2003-08-27 メディア認識サイト検索方法およびシステム
EP03022957A EP1513077A3 (en) 2003-08-27 2003-10-09 Method and system of searching for media recognition site
US10/681,281 US20050050020A1 (en) 2003-08-27 2003-10-09 Method and system of searching for media recognition site

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003302302A JP4300938B2 (ja) 2003-08-27 2003-08-27 メディア認識サイト検索方法およびシステム

Publications (2)

Publication Number Publication Date
JP2005071195A JP2005071195A (ja) 2005-03-17
JP4300938B2 true JP4300938B2 (ja) 2009-07-22

Family

ID=34131793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003302302A Expired - Fee Related JP4300938B2 (ja) 2003-08-27 2003-08-27 メディア認識サイト検索方法およびシステム

Country Status (3)

Country Link
US (1) US20050050020A1 (ja)
EP (1) EP1513077A3 (ja)
JP (1) JP4300938B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060152504A1 (en) * 2005-01-11 2006-07-13 Levy James A Sequential retrieval, sampling, and modulated rendering of database or data net information using data stream from audio-visual media
US7996443B2 (en) * 2005-02-28 2011-08-09 Microsoft Corporation Schema grammar and compilation
US7756839B2 (en) 2005-03-31 2010-07-13 Microsoft Corporation Version tolerant serialization
US7634515B2 (en) * 2005-05-13 2009-12-15 Microsoft Corporation Data model and schema evolution
US20070067259A1 (en) * 2005-09-16 2007-03-22 Brindisi Richard G System and method for automated compiling and generating item list information
US20110047162A1 (en) * 2005-09-16 2011-02-24 Brindisi Richard G Handheld device and kiosk system for automated compiling and generating item list information
US9561351B2 (en) * 2006-05-31 2017-02-07 Advanced Cardiovascular Systems, Inc. Drug delivery spiral coil construct
US7801926B2 (en) 2006-11-22 2010-09-21 Microsoft Corporation Programmable logic and constraints for a dynamically typed storage system
CN101334780A (zh) * 2007-06-25 2008-12-31 英特维数位科技股份有限公司 人物影像的搜寻方法、***及存储影像元数据的记录媒体
JP4963110B2 (ja) * 2008-01-25 2012-06-27 インターナショナル・ビジネス・マシーンズ・コーポレーション サービス検索システム、方法及びプログラム
CN104077582A (zh) * 2013-03-25 2014-10-01 腾讯科技(深圳)有限公司 访问互联网的方法、装置及移动终端
EP3000238B1 (en) 2013-05-20 2019-02-20 Intel Corporation Elastic cloud video editing and multimedia search
EP3018567A4 (en) * 2013-07-05 2017-06-21 NEC Solution Innovators, Ltd. User-interface review method, device, and program
US10635985B2 (en) * 2013-10-22 2020-04-28 National Technology & Engineering Solutions Of Sandia, Llc Methods, systems and computer program products for determining systems re-tasking

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3723296B2 (ja) * 1996-10-28 2005-12-07 富士通株式会社 ナビゲーション装置
KR100387965B1 (ko) * 2000-05-27 2003-06-18 엘지전자 주식회사 사용자 적응적 멀티미디어 서비스 시스템
US20020184183A1 (en) * 2001-06-01 2002-12-05 Cherry Darrel D. Personalized media service
US7454485B2 (en) * 2001-06-29 2008-11-18 Intel Corporation Providing uninterrupted media streaming using multiple network sites
GB2380017A (en) * 2001-09-21 2003-03-26 Hewlett Packard Co Selection of service providers
US7565137B2 (en) * 2002-10-25 2009-07-21 At&T Mobility Ii Llc Delivery of network services

Also Published As

Publication number Publication date
EP1513077A2 (en) 2005-03-09
US20050050020A1 (en) 2005-03-03
JP2005071195A (ja) 2005-03-17
EP1513077A3 (en) 2006-05-31

Similar Documents

Publication Publication Date Title
JP4300938B2 (ja) メディア認識サイト検索方法およびシステム
KR101460613B1 (ko) 로컬 네트워크내의 장치의 사용자에게 적절한 정보를제공하는 방법 및 시스템
US7496553B2 (en) Method and apparatus for identifying unique client users from user behavioral data
US8515979B2 (en) Cross application execution service
JP2019091417A (ja) 音声サービス提供方法および装置
US8438145B2 (en) Methods, systems, and computer program products for determining availability of presentable content via a subscription service
KR102340228B1 (ko) 검색 서비스와 연결된 메시지 서비스를 위한 메시지 서비스 제공 방법 및 상기 메시지 서비스 제공 방법을 수행하는 메시지 서버 및 사용자 단말
CN109168047B (zh) 视频推荐方法、装置、服务器及存储介质
CN1664819A (zh) 通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法
CN104769957A (zh) 与当前播放的电视节目相关联的因特网可访问内容的识别和呈现
DE112006001745T5 (de) Verfahren, Vorrichtung, System und computerlesbares Medium zum Bereitstellen einer Universalmedienschnittstelle zum Steuern einer Universalmedienvorrichtung
US20010032084A1 (en) Multimedia information structuring and application generating method and apparatus
JP2021168117A (ja) 動画クリップの検索方法及び装置
CN110992937B (zh) 语言离线识别方法、终端及可读存储介质
US20110179003A1 (en) System for Sharing Emotion Data and Method of Sharing Emotion Data Using the Same
US20220303735A1 (en) Providing a summary of media content to a communication device
JP4516815B2 (ja) 検索装置
CN109391836B (zh) 用附加信息补充媒体流
JP2002123548A (ja) 情報提供システム、情報画像管理サーバ、クライアント、並びに情報画像管理プログラムを記録した記録媒体
CN111835866A (zh) 一种数据搜索方法、装置、***、介质和物联网终端
US20060031877A1 (en) Method and system for movie clip search according to the word of synopsis
KR101134073B1 (ko) 검색어와 검색 결과의 단어 연관성을 이용하는 검색 방법 및 검색 시스템
CN112380871A (zh) 语义识别方法、设备及介质
CN110035298B (zh) 一种媒体快速播放方法
JP7078837B2 (ja) 情報処理システム、情報処理装置、その制御方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050909

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080918

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090331

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090413

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130501

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees