JP2009540414A

JP2009540414A - メディア識別

Info

Publication number: JP2009540414A
Application number: JP2009513778A
Authority: JP
Inventors: トビアスリトザウ，; マルクスリヴェル，
Original assignee: ソニーエリクソンモバイルコミュニケーションズ，エービー
Priority date: 2006-06-09
Filing date: 2006-12-08
Publication date: 2009-11-19
Also published as: RU2408067C2; MX2008015554A; US8165409B2; KR20090023674A; RU2008152794A; KR101010081B1; EP2027557A1; US20070286463A1; US20100284617A1; US7787697B2; WO2007144705A1; CN101506828A

Abstract

方法が、装置においてメディアを取得し、画像／ビデオ認識及びオーディオ認識を介してメディア内のオブジェクトを識別し、このメディアの識別されたオブジェクトに基づいて識別情報を装置上に表示する。

Description

本明細書に記載の実装構成は、一般に装置に関し、特に、メディアに含まれているオブジェクトを識別する装置に関する。

人が（ビデオ、画像、オーディオのような）メディアの中である人物を見たり、聞いたりしていて、その人物が誰であるかを確定できなかったり、その人物を思い出す根拠を確定できなかったりすると苛々するものである。現在、移動通信装置のユーザは移動通信装置によって歌を識別することができる。例えば、ＲｏｃｋｅｔＭｏｂｉｌｅ社から入手可能なＳｏｎｇＩＤｅｎｔｉｔｙ（登録商標）などによって、ユーザは移動通信装置を用いて、数秒間歌を記録し、その歌のアーティスト、アルバム、及びタイトルを装置へ提供することによってその歌を識別できるようになっている。しかし残念ながら、このような識別システムは、人物を識別して、上記のような人物に関する情報を提供するためのビデオ、画像、及び（歌以外の）オーディオ用としては欠けている点がある。

顔認識技術は、過去数年で著しく改善し、建物及びコンピュータへのアクセスのために認証を行う有効なツールとなっている。しかし、この顔認識技術は混雑したスタジアムや空港の中で未知の人物を識別するには有効なものではない。さらに、現在の顔認識技術では、ビデオ、画像及びオーディオに含まれているすべてのオブジェクトを識別することはできない。そして、このようなオブジェクトに関する識別情報を提供することはできない。

１つの側面によれば、方法が、装置においてメディアを取得するステップと、画像／ビデオ認識及びオーディオ認識を介してメディア内のオブジェクトの識別を行うステップと、メディアの識別されたオブジェクトに基づいて識別情報を装置上に表示するステップとを含んでもよい。

さらに、本方法は装置を介してメディアを受信するステップを含んでもよい。

さらに、本方法は装置を用いてメディアをキャプチャするステップを含んでもよい。

さらに、画像／ビデオ認識が所定の精度レベルの範囲内でメディアのオブジェクトを識別できない場合、オーディオ認識を行ってもよい。

さらに、オーディオ認識が所定の精度レベルの範囲内でメディアのオブジェクトを識別できなければ、画像／ビデオ認識を行ってもよい。

さらに、本方法は、画像／ビデオ認識によってオブジェクトを識別するためにメディアのオブジェクトの顔をマークするステップを含んでもよい。

さらに、本方法は、メディアのオブジェクトを識別するために画像／ビデオ認識の結果を表示するステップを含んでもよい。

さらに、本方法はユーザが選択した画像／ビデオ認識の結果に関連する識別情報を表示するステップを含んでもよい。

さらに、本方法はメディアのオブジェクトを識別するオーディオ認識の結果を表示するステップを含んでもよい。

さらに、本方法はユーザにより選択されたオーディオ認識の結果に関連する識別情報を表示するステップを含んでもよい。

さらに、本方法はメディアのオブジェクトを識別する画像／ビデオ認識及びオーディオ認識の結果を表示するステップを含んでもよい。

さらに、本方法は、ユーザが選択した画像／ビデオ認識及びオーディオ認識の結果に関連する識別情報を表示するステップを含んでもよい。

さらに、メディアは画像ファイル、オーディオファイル、ビデオファイル又はアニメーションファイルのうちの１つのファイルを含んでもよい。

さらに、メディアのオブジェクトは人物、場所又は物体のうちの１つを含んでもよい。

さらに、識別情報は、メディアの識別されたオブジェクトに関する経歴情報と、メディアの識別されたオブジェクトへのリンクと、メディアの識別されたオブジェクトに基づく推奨とのうちの少なくとも１つを含んでもよい。

別の側面によれば、装置が、装置においてメディアを取得する手段と、顔と音声との認識を介してメディア内のオブジェクトの識別を行う手段と、メディアの識別されたオブジェクトに基づいて識別情報を装置上に表示する手段とを含んでもよい。

さらに別の側面によれば、装置は装置に関連づけられたメディア情報を取得するためのメディア情報収集部、並びに、処理ロジックを含んでもよい。上記処理ロジックは、顔と音声との認識を介してメディア内のオブジェクトの識別を行い、メディアのオブジェクトを識別する顔と音声との認識結果を表示し、ユーザが選択した顔の認識と音声の認識のうちの一方の認識結果に関連する識別情報を表示してもよい。

さらに、メディア情報収集部は、カメラ、マイク、メディア記憶装置又は通信装置のうちの少なくとも１つを含んでもよい。

さらに、顔の認識によってメディアのオブジェクトを識別する際に、処理ロジックは、メディアのオブジェクト内の顔の位置を判定するように構成してもよい。

さらに、メディアのオブジェクトを顔の認識によって識別する際に、処理ロジックは、メディアのオブジェクト内の顔の位置をユーザ入力に基づいて判定するように構成してもよい。

別の側面によれば、装置は、命令を記憶するためのメモリと、メディアを装置において取得し、メディア内のオブジェクトの識別を顔と音声との認識を介して行い、メディアの識別されたオブジェクトに基づいて識別情報を装置上に表示する命令を実行するプロセッサと、を含んでもよい。

さらに別の側面によれば、方法が、装置においてビデオを取得するステップと、ビデオを装置において再生しながら、ビデオ内のオブジェクトの識別を顔の認識又は音声の認識を介して行うステップと、メディアの識別されたオブジェクトに基づいて識別情報を装置上に表示するステップとを含んでもよい。

さらに別の側面によれば、方法が、メディアを装置において取得するステップと、メディア上の物体と、物体のデータベースとの比較に基づいてメディア内の物体の識別を行うステップと、メディアの識別された物体に基づいて識別情報を装置上に表示するステップを含んでもよい。

さらに、物体は動物、印刷メディア、植物、樹木、岩又は漫画のキャラクタのうちの少なくとも１つを含んでもよい。

別の側面によれば、方法は、装置においてメディアを取得するステップと、メディア上の場所と場所のデータベースとの比較に基づいてメディア内の場所の識別を行うステップと、メディアの識別された場所に基づいて識別情報を装置上に表示するステップとを含んでもよい。

さらに、場所は、建物、陸標、道路、又は橋のうちの少なくとも１つを含んでもよい。

さらに、本方法は、メディア上の識別された場所の表示を含む地図をメディアの識別された場所の所在位置に基づいて装置上に表示するステップをさらに含んでもよい。

さらなる側面によれば、方法が、装置上でメディアを取得するステップと、オブジェクトの音声の認識及びテキスト認識に基づいてメディア内のオブジェクトの識別を行うステップを提供するステップと、メディアの識別されたオブジェクトに基づいて識別情報を装置上に表示するステップとを含んでもよい。

本明細書の一部に組み込まれ、かつ本明細書の一部を構成する添付図面は、本発明の実施形態を例示し、以下の説明と共に本発明を記述するものである。
本発明の原理に従うコンセプト示す例示の線図である。本発明の原理に従うシステム及び方法を実現してもよい例示の装置の線図である。図２の例示装置の例示の構成要素の線図である。本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。本発明の原理に従う実装構成に従う例示の処理を示すフローチャートである。本発明の原理に従う実装構成に従う例示の処理を示すフローチャートである。本発明の原理に従う実装構成に従う例示の処理を示すフローチャートである。本発明の原理に従う実装構成に従う例示の処理を示すフローチャートである。

本発明の以下の詳細な説明は添付図面を参照するものである。異なる図面内の同じ参照番号は同じ要素又は類似の要素を同定するものとする。また、以下の詳細な説明は本発明を限定するものではない。

本発明の原理に従う実装構成は顔の認識と音声の認識の少なくともいずれかの結果に基づいて行うメディアの識別、並びに、顔の認識と音声の認識の少なくともいずれかの結果に関係する識別情報の表示に関する。（画像とビデオの少なくともいずれかにおいて（単複の）人物を識別する顔認識技術と、映画から得られるサウンドバイトなどのオーディオ部分において（単複の）人物を識別するための音声認識技術との少なくともいずれかの）メディア識別を用いることによって、（単複の）人物を識別してもよく、そして、（単複の）人物に関する情報を装置上に表示してもよい。例えば、装置は、記憶又は（写真撮影によるような）別のメカニズムから（画像のような）メディアを検索してよく、画像に示された顔の選択をユーザに許可してもよい。顔の認識は顔に関して行ってよく、画像に示された（単複の）人物を識別してよい。装置は顔の認識によって識別された（単複の）人物に関する識別情報を提供してもよい。

本願で用いられているように「メディア」という用語は、コンピュータで読取り可能で、かつ、機械に記憶可能な任意の作業生産物、ドキュメント、電子メディアなどを含む広い意味で解釈すべきものである。メディアは、例えば、ドキュメント、電子雑誌、オンライン百科事典、（画像ファイル、オーディオファイル、ビデオファイル、アニメーションファイル、ウェブ配信されるポッドキャストのような）電子メディアなどに含まれる情報を含んでもよい。

本願で用いられているように「ドキュメント」という用語は、コンピュータで読取り可能で、かつ、機械に記憶可能な任意の作業生産物を含む広い意味で解釈すべきものである。ドキュメントは、例えば、電子メール、ウェブサイト、ファイル、ファイルの組み合わせ、別のファイルへの埋込みリンクを含む１以上のファイル、ニュースグループの転記、前述のもののうちのいずれかなどを含んでもよい。インターネットという文脈では共有ドキュメントはウェブページである。ドキュメントにはテキスト情報が含まれている場合が多いが、（メタ情報、画像、ハイパーリンクなどのような）埋め込まれた情報と（ＪａｖａＳｃｒｉｐｔなどのような）埋め込まれた命令の少なくともいずれかが含まれている場合もある。

本願で用いられているように「識別情報」という用語は、メディアにおいて識別される任意のオブジェクトに関連する任意の情報を含むものとして広い意味で解釈すべき用語である。例えば、オブジェクトとは、（メディアから識別できる有名人、ミュージシャン、歌手、映画スター、運動選手、友人及び任意の人物のうちの少なくともいずれかのような）人物と、（建物、陸標、道路、橋及びメディアから識別できる任意の場所のうちの少なくともいずれかのような）場所と、（動物、（書籍、雑誌のような）印刷メディア、漫画のキャラクタ、（キングコングのような）映画のキャラクタ、植物、樹木、及びメディアから識別することができる任意の「物体」のうちの少なくともいずれかのような）物体とのうちの少なくともいずれかを含むものであってもよい。

本願で用いられているように「リンク」という用語は、同じコンテンツの別のコンテンツ又は別の一部から／へのコンテンツへ／から任意の参考文献を含むものとして広い意味で解釈すべき用語である。

本願で用いられているように「装置」という用語は、データ処理、ファクシミリ、及びデータ通信機能をセルラ無線電話機に結合した個人通信システム（ＰＣＳ）端末と、無線電話機、ポケットベル、インターネット／イントラネットアクセス、ウェブブラウザ、電子手帳、カレンダ、及び全地球測位システム（ＧＰＳ）受信機のうち少なくともいずれかを含むＰＤＡと、（マイクのような）音声録音機と、ドップラー受信機と全地球測位システム（ＧＰＳ）受信機の少なくともいずれかの受信機と、ラップトップと、ＧＰＳ装置と、（ビデオカメラと静止画像カメラの少なくともいずれかのような）カメラと、パーソナルコンピュータ、ホーム娯楽システム、テレビなどのようなメディアを表示できる他の任意の計算装置又は通信装置とを含むものとして広い意味で解釈すべき用語である。

図１は本発明の原理に従うコンセプトを示す例示の線図である。図１に示すように、装置のディスプレイ１００はユーザによって選択された画像又はビデオ（画像／ビデオ）１１０を含んでもよい。例えば、１つの実装例では、画像／ビデオ１１０は、ディスプレイ１００に現在表示されている映画又は音楽用ビデオであってもよい。ディスプレイ１００は、（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）顔マーク項目１２０を含んでもよい。この選択メカニズムによって、ユーザは、選択時に画像／ビデオ１１０の顔の一部を（カーソル１３０などで）マークすることが可能としてもよい。顔がカーソル１３０でマークされた場合、ユーザは、以下さらに詳細に記載のように、ディスプレイ１００上に示される（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）顔認識項目１４０を選択し、次いで、画像／ビデオ１１０の顔の認識を行ってもよい。図１にさらに示すように、ディスプレイ１００は（アイコン、リンク、ボタン、別の同様の選択メカニズムのうちの少なくともいずれかなどのような）オーディオファイル項目１５０を含んでもよい。このオーディオファイル項目１５０は、ユーザがオーディオファイルを聴いているときに表示してもよい。例えば、１つの実装例では、ユーザは（デジタル音楽、ＭＰ３、ＭＰ４のような）音楽を装置で聴いてもよい。以下さらに詳細に記載のように、ユーザは、ディスプレイ１００に示される（アイコン、リンク、ボタン、別の同様の選択メカニズムのうちの少なくともいずれかのような）声（音声）認識項目１６０を選択し、オーディオファイルの音声認識を行ってもよい。別の実装構成では、ユーザは、音声認識項目１６０を選択し、次いで、現在ディスプレイ１００に表示されている（ビデオ１１０のような）映画の中の声の音声認識を行ってもよい。さらに別の実装構成では、ユーザは、ディスプレイ１００上に現在示されている（ビデオ１１０のような）メディアにおいて顔の認識と音声の認識の双方を行ってもよい。

＜＜例示の装置アーキテクチャ＞＞
図２は本発明の原理に従う実装構成による例示装置２００を示す線図である。図２に示すように、装置２００は、ハウジング２１０、スピーカ２２０、ディスプレイ２３０、制御ボタン２４０、キーパッド２５０、マイク２６０、及びカメラ２７０を含んでもよい。ハウジング２１０はエレメントの外側から装置２００の構成要素を保護してもよい。スピーカ２２０は可聴情報を装置２００のユーザに提供してもよい。ディスプレイ２３０は視覚情報をユーザへ提供してもよい。例えば、ディスプレイ２３０は着呼又は発呼に関する情報、メディア、ゲーム、電話帳、現在時刻等を提供してもよい。本発明の原理に従う実装構成では、ディスプレイ２３０は（例えば顔の認識又は音声の認識を介して）メディアの形で識別することができる情報をユーザに提供してもよい。制御ボタン２４０は、ユーザが装置２００と相互に情報の交換を行って、１以上の処理を装置２００に実行することができるようにしてもよい。キーパッド２５０は標準的電話用キーパッドを含んでもよい。マイク２６０はユーザから可聴情報を受信してもよい。カメラ２７０は、ユーザがビデオと（写真のような）画像の少なくともいずれかをキャプチャし、これを記憶できるようにしてもよい。

図３は装置２００の例示の構成要素を示す線図である。図３に示すように、装置２００は、処理ロジック３１０、記憶部３２０、ユーザインタフェース３３０、通信インタフェース３４０、アンテナアセンブリ３５０、及びメディア情報収集部３６０を含んでもよい。処理ロジック３１０は、プロセッサ、マイクロプロセッサ、識別用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）等を含んでもよい。処理ロジック３１０は、装置２００及びその構成要素の動作を制御するためのデータ構造又はソフトウェアプログラムを含んでもよい。記憶部３２０は、処理ロジック３１０によって用いてもよいデータと命令とを記憶するためのランダムアクセスメモリ（ＲＡＭ）と、リードオンリメモリ（ＲＯＭ）と、別のタイプのメモリとのうちの少なくともいずれかのメモリを含んでもよい。

ユーザインタフェース３３０は、装置２００へ情報を入力するメカニズムと、装置２００から情報を出力するメカニズムとの少なくともいずれかのメカニズムを含んでもよい。この入出力メカニズムの例は、電気信号を受信し、音声信号を出力する（スピーカ２２０のような）スピーカと、画像とビデオ信号の少なくともいずれかを受信し、電気信号を出力する（カメラ２７０のような）カメラと、音声信号を受信し、電気信号を出力する（マイク２６０のような）マイクと、データと制御コマンドとを装置２００へ入力することを可能にするための（ジョイスティックと、制御ボタン２４０と、キーパッドのキー２５０とのうちの少なくともいずれかのような）ボタンと、（カメラ２７０から得られる情報のような）視覚情報を出力する（ディスプレイ２３０のような）ディスプレイと、装置２００を振動させるバイブレータとのうちの少なくともいずれかを含むものであってもよい。

通信インタフェース３４０は、例えば、処理ロジック３１０からのベースバンド信号を無線周波数（ＲＦ）信号に変換してもよい送信機と、ＲＦ信号をベースバンド信号に変換してもよい受信機とのうちの少なくともいずれか等を含んでもよい。上記とは別に、通信インタフェース３４０は送信機と受信機双方の機能を実行するトランシーバを含んでもよい。通信インタフェース３４０はＲＦ信号の送受信用アンテナアセンブリ３５０と接続してもよい。アンテナアセンブリ３５０はＲＦ信号を無線で送受信する１以上のアンテナをしてもよい。アンテナアセンブリ３５０は、通信インタフェース３４０からＲＦ信号を受信し、このＲＦ信号を無線で送信し、ＲＦ信号を無線で受信し、該ＲＦ信号を通信インタフェース３４０へ提供してもよい。例えば、１つの実装例では、通信インタフェース３４０は、（ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、公衆交換電話網（ＰＳＴＮ）のような電話ネットワーク、イントラネット、インターネット、又はこれらのネットワークの組み合わせのような）ネットワークと通信を行ってもよい。

メディア情報収集部３６０は装置２００からメディア情報を取得してもよい。１つの実装例では、メディア情報は、装置２００に記憶された、又は（通信インタフェース３４０のような）装置２００によって受信されたメディアに対応してもよい。この場合、メディア情報収集部３６０は、（記憶部３２０のような）メディア記憶装置又は（有線通信又は無線通信のような）別のソースからメディアを受信できる（外部のメディア記憶装置との通信インタフェース３４０のような）通信装置を含んでもよい。別の実装構成では、メディア情報は、装置２００によってキャプチャされるか、検索されるメディアに対応してもよい。この場合、メディア情報収集部３６０は、オーディオ情報を録音してもよい（マイク２６０のような）マイクと、画像とビデオの少なくともいずれかを録画してもよい（カメラ２７０のような）カメラとのうちの少なくともいずれかを含むものであってもよい。このキャプチャされたメディアは（記憶部３２０のような）メディア記憶装置に記憶されたものであってもよいし、そうでなくてもよい。

以下詳細に説明するように、本発明の原理に従う装置２００は、メディア情報に基づいて（顔の認識と音声の認識の少なくともいずれかのような）メディア識別に関連する或る処理を実行してもよい。記憶部３２０のようなコンピュータ可読メディアを含むアプリケーションのソフトウェア命令を実行する処理ロジック３１０に応答して、装置２００は処理を実行してもよい。コンピュータ可読メディアは、物理的又は論理的メモリデバイスか、搬送波かの少なくともいずれかとして定義されるものであってもよい。

通信インタフェース３４０を介して、別のコンピュータ可読メディアから、又は、別の装置から記憶部３２０の中へソフトウェア命令を読み込んでもよい。記憶部３２０に含まれているソフトウェア命令は後程説明する処理を処理ロジック３１０に実行させてもよい。上記とは別に、ソフトウェア命令の代わりに、又は、ソフトウェア命令と組み合わされた形の有線回路構成を用いて、本発明の原理に従う処理を実現してもよい。したがって、本発明の原理はハードウェアの回路構成とソフトウェアとの識別の組み合わせのいずれにも限定されることはない。

＜＜例示のメディア識別方法＞＞
図４Ａ〜図６Ｂは本発明の原理に従う実装構成に従う例示のメディア識別方法を示す線図である。図４Ａ〜図６Ｂの方法は（装置２００のディスプレイ２３０のような）装置２００の中で伝えてもよい。

（画像とビデオの少なくともいずれかの顔認識）
図４Ａに示すように、（装置２００のディスプレイ２３０のような）装置のディスプレイ４００は画像／ビデオ１１０を表示してもよい。ディスプレイ４００は（アイコン、リンク、ボタン及び別の同様の選択メカニズムとの少なくともいずれかのような）顔マーク項目１２０を含んでもよい。この選択メカニズムによって、ユーザは、選択時に（例えば１つの実装例ではカーソル１３０を用いて）画像／ビデオ１１０の顔の一部をマークしてもよい。カーソル１３０で顔がマークされた場合、ユーザは、ディスプレイ４００に示される（アイコン、リンク、ボタンと他の同様の選択メカニズムとの少なくともいずれかのような）顔認識項目１４０を選択し、次いで、画像／ビデオ１１０の顔の認識を行う。１つの実装例では、顔の認識は、（例えば装置２００の処理ロジック３１０及び記憶部３２０を介して）装置に設けられている顔認識ソフトウェアによって画像／ビデオ１１０上で行ってもよい。別の実装構成では、顔の認識は、（例えば通信インタフェース３４０を介して）装置２００と通信を行う装置に設けられている顔認識ソフトウェアによって画像／ビデオ１１０上で行ってもよい。

顔認識ソフトウェアは利用可能な従来方式の任意の顔認識ソフトウェアを含むものであってもよい。例えば、顔認識ソフトウェアは認証及び識別に用いられる顔認識技術を含むものであってもよい。典型的な認証タスクは、人々が施設への入室やデータへのアクセスが許可される前に、しかるべき人物であることを判別してもよい。このような場合、顔認識ソフトウェアは最新の画像をデータベース内の画像と比較してもよい。合致率は良好なものになり得る。なぜなら、このような顔の画像は（有名人の写真撮影のように）周囲の環境を制御してキャプチャしてもよく、さらに挑戦すべき課題の多い環境下で撮影される写真に比べてより高品質の画像が生み出されるからである。

典型的識別タスクでは、デジタルカメラ又はビデオカメラのようなソースから得られる未知の人物をデータベース内の画像と照合する試みを行ってもよい。識別による照合にはさらに挑戦すべき課題が生じる場合がある。なぜなら、この目的のために取得された画像は、一般的に、（公衆のいる場所での有名人の写真撮影の場合のような）制御された条件下で被写体の協力によって作成されたものではない場合があるからである。

最新の顔認識ソフトウェアは、４つの基本的方法、すなわち、外観ベース、ルールベース、特徴ベース、テクスチャベースの方法のうちの少なくともいずれかの方法のうちの１以上を用いて行ってもよい。外観ベースの方法は、画像から顔の特徴を抽出するのではなく２以上の画像の類似度を測定してもよい。ルール依存による方法は（人間の目、鼻及び口のような）顔の構成要素を分析し、画像間における構成要素の関係を測定してもよい。特徴ベースの方法は（エッジ品質、形状及び肌の色のような）顔立ちの特徴を分析してもよい。テクスチャベースの方法は顔の様々なテクスチャパターンをチェックしてもよい。これらの方法のそれぞれに対して、顔認識ソフトウェアはデータを定義し、記憶するアルゴリズムを用いてテンプレートを生成してもよい。認証又は識別用として画像がキャプチャされると、顔認識ソフトウェアはデータを処理し、このデータをテンプレート情報と比較してもよい。

本発明の原理に従う１つの実装例では、ＣｏｇｎｉｔｅｃＳｙｓｔｅｍｓ社、ＮｅｖｅｎＶｉｓｉｏｎ社、Ｉｄｅｎｔｉｘ社、ＡｃｓｙｓＢｉｏｍｅｔｒｉｃｓ’ＦＲＳＤｉｓｃｏｖｅｒｙ社から入手可能なソフトウェアから得られるか、これらのソフトウェアと類似しているかの少なくともいずれかの顔認識ソフトウェアを用いて、顔の認識を行うようにしてもよい。

さらに図４に示すように、画像／ビデオ１１０の顔の認識結果４１０をディスプレイ４００上に示してもよい。結果４１０は画像／ビデオ１１０に示されている顔に一致する（単複の）人物のリストを含んでもよい。例えば、１つの実装例では、結果４１０は、「有名人Ｎｏ１」４２０及び（人物４２０が画像／ビデオ１１０と一致する可能性９８％のような）人物４２０に一致する近似度の表示を含んでもよい。結果４１０はまた、画像／ビデオ１１０を人物４２０の所定の画像と比較するための画像４３０（この画像４３０は画像／ビデオ１１０と同じであってもよいし、そうでなくてもよい）を含んでもよい。結果４１０は種々の方法で並べてもよい。例えば、１つの実装例では、図４Ａに示すように、結果４１０は、最も近い一致から、（５０％のような）所定のパーセントの範囲内で一致する人物までの一致する人物のリストを降順に提示してもよい。ユーザは、結果４１０から人物を選択して、選択された人物に関する識別情報を表示してもよい。例えば、１つの実装例では、（人物４２０のような）各人物と個々の画像４３０との少なくともいずれかは人物に関する識別情報へのリンクを提供してもよい。

ユーザが上記結果から人物を選択した（例えば人物４２０を選択した）場合、ディスプレイ４００は図４Ｂに示す例示の識別情報を提示してもよい。多岐にわたる識別情報を提供してもよい。例えば、人物が映画スターであれば、ディスプレイ４００はメニュー部分４４０及び識別情報部分４５０を提示してもよい。メニュー部分４４０は、例えば、識別情報部分の複数の部分４５０に関係する、（「経歴」、「映画界での経歴」、「ＴＶ界での経歴」、「ウェブサイト」と「リマインダー」のうちの少なくともいずれかのような）選択可能なリンクを含むものであってもよい。実装例において、図４Ｂに示す、識別情報部分４５０は、（「経歴」の見出しの下にあるような）当該人物に関する経歴情報、（「映画界での経歴」の見出しの下にあるような）当該人物に関する映画界での経歴情報、（「ＴＶ界での経歴」の見出しの下にあるような）当該人物に関するテレビ界での経歴情報、（「ウェブサイト」の見出しの下にあるような）当該人物に関するウェブサイト情報、（「リマインダー」の見出しの下にあるような）リマインダー（注目）情報のうちの少なくともいずれかの情報を含むものであってもよい。リマインダー情報は（アイコン、リンク、ボタン、他の同様の選択メカニズムのうちの少なくともいずれかのような）リマインダー項目４６０を含むものであってもよい。この選択メカニズムによって、ユーザは、選択時に、この人物が今夜テレビに出演する旨のリマインダー事項を設定してもよい。

図４Ａは、本発明の原理に従う１つの実装例において単一の人物の顔をマークする処理を示す図ではあるが、複数の人物、場所又は物体を同様に識別用としてマークしてもよい。したがって、マークされた人物、場所、又は物体のそれぞれに対して識別情報を表示してもよい。さらに、ユーザは画像又はビデオの顔をマークする必要はなく、代わりに、１つの実装例では、顔認識項目１４０の選択の際に、画像又はビデオの顔を（例えば顔認識ソフトウェアによって）画像又はビデオに自動的に配置してもよい。

図４Ｂは例示の識別情報を示すものではあるが、識別されたメディアに応じて多少の識別情報を提供してもよい。例えば、識別された人物がミュージシャンである場合、識別情報は、アルバム情報、音楽用ビデオ情報、音楽ダウンロード情報、（ミュージシャンから入手可能な別の歌、ビデオのような）推奨情報などを含んでもよい。図４Ｂはさらにメニュー部分４４０を示すものではあるが、ディスプレイ４００にはこのようなメニュー部分が含まれずに、（識別情報部分４５０のような）識別情報を提供する場合もある。

（オーディオ部分の音声認識）
図５Ａに示すように、（装置２００のディスプレイ２３０のような）装置のディスプレイ５００が（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）オーディオファイル項目１５０を表示するか、（装置２００のような）装置がオーディオファイル項目１５０に関連づけられたオーディオファイルを再生するかの少なくともいずれかを行ってもよい。ユーザは、ディスプレイ５００に提示される（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）音声認識項目１６０を選択し、次いで、オーディオファイルの音声認識を行ってもよい。１つの実装例では、（例えば装置２００の処理ロジック３１０と記憶部３２０とを介して）装置に設けられた音声認識ソフトウェアによってオーディオファイルに対する音声認識を行ってもよい。別の実装構成では、（例えば通信インタフェース３４０を介して）装置２００と通信を行う装置に設けられた音声認識ソフトウェアによってオーディオファイルに対する音声認識を行ってもよい。

音声認識ソフトウェアは利用可能な従来方式の任意の音声認識ソフトウェアを含むものであってもよい。例えば、音声認識ソフトウェアは、人の音声から人を認識することが可能な何らかのソフトウェアを含むものであってもよい。音声認識ソフトウェアは音声から得られる特徴を抽出し、これらの特徴をモデル化し、該特徴を用いてユーザの音声から人物を認識してもよい。音声認識ソフトウェアは、個人によって異なることが知られている音声のオーディオ的特徴を用いてもよい。これらのオーディオパターンは、（喉の大きさ及び形状のような）骨格及び（声のピッチと話し方のような）学習された行動パターンの双方を反映してもよい。（「声紋」のような）音声テンプレートの中へ学習されたパターンを組み込むことにより、音声認識において「行動バイオメトリック」という分類が行われるようになった。音声認識ソフトウェアは、３つのスタイルの音声入力、すなわち文脈依存型入力と、テキストプロンプト型（text-prompted）入力と、文脈非依存型入力とのうちの少なくともいずれかの入力を採用してもよい。文脈依存型入力は、パターン認識技術を用いて話し言葉を有効コードのデータベースの話し言葉に照合する処理に関係してもよい。テキストプロンプト型入力は、システムが用いられる度に新しいキーセンテンスをユーザにプロンプトで示し、そのユーザがプロンプトされた文を反復したことのある登録済みの話者であることがシステムにより判定された場合にのみ入力された発声を受け付ける処理に関係してもよい。文脈非依存型入力は、音声の前処理を行い、特徴を抽出し、パターン認識を用いて、特定の音声の特徴を、データベースに記憶されているテンプレートの音声と照合して、話者の識別を行う処理に関係してもよい。隠れマルコフモデル、パターンマッチング・アルゴリズム、ニューラル・ネットワーク、行列表現、デシジョンツリーのうちの少なくともいずれかを含む種々の技術を用いて、処理を行い、声紋を記憶してもよい。

本発明の原理に従う１つの実装例では、ＧｏｌｄＳｙｓｔｅｍｓ社、ＰＩＫＡＴｅｃｈｎｏｌｏｇｉｅｓ社、ＲｉｇｈｔＮｏｗＴｅｃｈｎｏｌｏｇｉｅｓ社、ＳｅａｒｃｈＣＲＭ社、ＳｐｅｅｃｈＰｈｏｎｅＬＬＣｇｏｌｄ社のうちの少なくともいずれかから入手可能なソフトウェアから得られる音声認識ソフトウェアか、上記各社のソフトウェアと類似している音声認識ソフトウェアかの少なくともいずれかを用いて音声の認識を行ってもよい。

図５はオーディオファイルに対して実行される音声の認識を示す図ではあるが、本発明の原理に従う１つの実装例では、（装置２００のような）装置によって表示されているビデオによって生成されるオーディオ部分に対して音声の認識を行ってもよい。例えば、ユーザが装置２００で映画を観る場合、ユーザは音声認識項目１６０を選択して、映画の中の音声に対して音声認識を行ってもよい。

さらに図５に示すように、音声の認識結果５１０をディスプレイ５００上に提示してもよい。結果５１０はオーディオファイルの音声（又はビデオ内のオーディオ部分）に一致する（単複の）人物のリストを含んでもよい。例えば、１つの実装例では、結果５１０は、「有名人Ｎｏ１」５２０及び（人物５２０の声がオーディオファイル又はビデオ内のオーディオ部分に一致する確度９８％のような）人物５２０の声に一致する近似度の表示を含んでもよい。結果５１０はまた、オーディオファイル（又はビデオ内のオーディオ部分）に一致してもよい声を持つ人物５２０の画像５３０を含んでもよい。結果５１０は種々の方法で並べてもよい。例えば、１つの実装例では、図５Ａに示すように、結果５１０は、最も近い一致から、（５０％のような）所定のパーセントの範囲内で一致する人物までの一致する人物のリストを降順に提示してもよい。ユーザは、結果５１０から人物を選択して、選択された人物に関する識別情報を表示してもよい。例えば、１つの実装例では、（人物５２０のような）各人物と個々の画像５３０との少なくともいずれかによって、人物に関する識別情報へのリンクを提供してもよい。

オーディオファイル（又はビデオ内のオーディオ部分）を種々の方法で人物と照合してもよい。例えば、１つの実装例では、音声認識ソフトウェアはオーディオファイル内の音声から得られる特徴を抽出し、これらの特徴をモデル化し、該特徴を用いてユーザの音声から（単複の）人物を認識してもよい。別の実装構成では、音声認識ソフトウェアは、オーディオファイル内の話された語（又はオーディオファイルによって再生される音楽）を比較し、次いで、これらの話された語（又は音楽）を（映画、音楽ファイルなどから得られる有名な台詞のような）このような語を含むデータベースと比較してもよい。さらに別の実装構成では、音声認識ソフトウェアは前述の技術の組み合わせを用いて、オーディオファイルを人物と照合してもよい。

ユーザが上記結果から人物を選択した（例えば人物５２０を選択した）場合、ディスプレイ５００は図５Ｂに示す例示の識別情報を提供してもよい。多岐にわたる識別情報を提供するようにしてもよい。例えば、人物が映画スターであれば、ディスプレイ５００によってメニュー部分５４０及び識別情報部分５５０を提示してもよい。メニュー部分５４０は、例えば、識別情報部分の複数の部分５５０に関係する、（「映画の台詞」、「経歴」、「映画界での経歴」、「ＴＶ界での経歴」、「ウェブサイト」と「リマインダー」のうちの少なくともいずれかのような）選択可能なリンクを含むものであってもよい。実装例において、図５Ｂに示す、識別情報部分５５０は、（「映画の台詞」の見出しの下にあるような）映画の台詞情報５６０、（「経歴」の見出しの下にあるような）台詞を言った人物に関する経歴情報、（「映画界での経歴」の見出しの下にあるような）人物に関する映画界での経歴情報、（「ＴＶ界での経歴」の見出しの下にあるような）人物に関するテレビ界での経歴情報、（「ウェブサイト」の見出しの下にあるような）当該人物に関するウェブサイト情報、（「リマインダー」の見出しの下にあるような）リマインダー情報のうちの少なくともいずれかの情報を含むものであってもよい。映画の台詞情報５６０は、例えば、映画の題名及び、音声認識ソフトウェアによって認識された映画の台詞を提供してもよい。リマインダー情報は（アイコン、リンク、ボタン、他の同様の選択メカニズムのうちの少なくともいずれかのような）リマインダー項目５７０を含むものであってもよい。この選択メカニズムによって、ユーザは、選択時に、この人物が今夜テレビに出演する旨のリマインダー事項を設定してもよい。図５Ｂはさらにメニュー部分５４０を示すものではあるが、ディスプレイ５００がこのようなメニュー部分を含まず、（識別情報部分５５０のような）識別情報を提示する場合もある。

図５Ｂは例示の識別情報を示すものではあるが、識別されたメディアに応じて多少の識別情報を提供してもよい。例えば、（人物５２０のような）人物がミュージシャンである場合、図５Ｃに示すような１つの実装例では、識別情報はそのミュージシャンに関係する情報を含んでもよい。図５Ｃに示すように、ディスプレイ５００はメニュー部分５８０と識別情報部分５９０とを提供してもよい。メニュー部分５８０は、例えば、識別情報部分の複数部分５９０とつながる（「ソング名」、「経歴」、「アルバム」、「ビデオダウンロード」、「リマインダー」のうちの少なくともいずれかのような）選択可能なリンクを含んでもよい。図５Ｃに示す実装例において、識別情報部分５９０は、（「ソング名」の見出しの下にあるような）ソング名情報、（「経歴」の見出しの下にあるような）ミュージシャンに関する経歴情報）、（「アルバム」の見出しの下にあるような）ミュージシャンに関するアルバム情報）、（「ビデオ」の見出しの下にあるような）ミュージシャンに関するビデオ情報、（「ダウンロード」の見出しの下にあるような）ミュージシャンに関連する入手可能なダウンロード可能な情報、（「リマインダー」の見出しの下にあるような）リマインダー情報のうちの少なくともいずれかを含んでもよい。リマインダー情報は（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）リマインダー項目５７０を含んでもよい。この選択メカニズムによって、ユーザは、選択時に、この人物が今夜テレビに出演する旨のリマインダー事項を設定してもよい。図５Ｃはさらにメニュー部分５８０を示すものではあるが、ディスプレイ５００にはこのようなメニュー部分が含まれずに、（識別情報部分５９０のような）識別情報を提供してもよい。

（装置によってキャプチャされる画像／ビデオ／オーディオの顔の認識と音声の認識の少なくともいずれかの認識）
１つの実装例では、図４Ａ〜図５Ｃに図示のように、（装置２００のような）装置を表示するか、装置２００に記憶されている、装置２００によってアクセス可能な別の装置に記憶されているか、装置２００へダウンロードされるかの少なくともいずれかのメディアを再生するかの少なくともいずれかを行ってもよい。例えば、１つの実装例では、装置２００はメディアを記憶部３２０に記憶し、その後、メディアの再生を行ってもよい。別の実装構成では、装置２００は別の装置と接続してもよい（コンピュータはＤＶＤプレーヤと接続し、相手方の装置に記憶されているもう一方のメディアを再生してもよい）。さらに別の実装構成では、装置２００は、（例えばインターネットから）メディアをダウンロードし、次いで、装置２００上でメディアを再生してもよい。ダウンロードされたメディアは装置２００の記憶部３２０に記憶されてもよいし、そうでなくてもよい。

別の実装構成では、図６Ａ及び６Ｂに示すように、（装置２００のような）装置はメディアをキャプチャし、メディアに関する識別情報の照合結果を表示するためにメディア上の顔と音声の少なくともいずれかの認識を行ってもよい。例えば、図６Ａに示すように、（装置２００のディスプレイ２３０のような）装置のディスプレイ６００は、写真を撮影するか、ビデオを録画するかの少なくともいずれかを行うための（カメラ２７０のような）メカニズムを提供してもよい。ディスプレイ６００は（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）カメラ項目６２０を含んでもよい。この選択メカニズムによって、ユーザが、選択時に、（例えば、装置２００のカメラ２７０を介するような）装置２００を用いて（写真のような）画像６１０をキャプチャすることが可能となるようにしてもよい。ディスプレイ６００は（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）ビデオ項目６３０を含んでもよい。この選択メカニズムによって、ユーザが、選択時に、（例えば、装置２００のカメラ２７０を介するような）装置２００を用いて（映画のような）ビデオをキャプチャすることが可能となるようにしてもよい。ディスプレイ６００はまた、装置２００によってキャプチャすることができる画像とビデオの少なくともいずれかをユーザが拡大できるようにしてもよいオプションのメカニズム６４０を含んでもよい。

図６Ａにさらに示すように、ディスプレイ６００（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）顔マーク項目１２０を含んでもよい。この選択メカニズムによって、ユーザが、選択時に、（例えば１つの実装例ではカーソル１３０によって）画像６１０の顔の一部をマークすることが可能となるようにしてもよい。カーソル１３０で顔をマークする場合、ユーザは、ディスプレイ６００上に提示される（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）顔認識項目１４０を選択し、図４Ａ及び４Ｂに関連して上述したように画像６１０の顔の認識を行ってもよい。

図６Ｂに示すように、ユーザはビデオ項目６３０を選択し、（例えば装置２００のカメラ２７０を介して）装置２００によってビデオ６５０をキャプチャしてもよい。ユーザは、（制御ボタン２４０とキーパッドのキー２５０の少なくともいずれかのような）装置２００の入力メカニズムの選択の際に、（ポーズ（一時停止）テキスト６６０によって示されるような）ビデオ６５０のポーズを行ってもよい。ビデオ６５０がポーズされた場合、ユーザは顔マーク項目１２０を選択してもよい。この顔マーク項目１２０によって、ユーザは（例えば、１つの実装例ではボックス６７０によって）ビデオ６５０の顔の一部をマークすることができるようになってもよい。ビデオ内のポーズされたフレームをマークするか、マークすべきビデオのフレームの位置を発見するために後方か前方かの少なくともいずれかの方向へユーザがビデオをサーチするかの少なくともいずれかを行ってもよい。顔がボックス６７０によってマークされた場合、ユーザは、ディスプレイ６００上に提示される（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）顔認識項目１４０を選択し、次いで、図４Ａ及び図４Ｂに関連して上述したようにビデオ６５０の顔の認識を行ってもよい。別の実装例では、ビデオ６５０をそのまま再生しながら（すなわち、ビデオ６５０をポーズすることなく）ビデオ６５０内の人物の顔をマークしてもよい。さらなる態様で、又は、上記とは別の態様での少なくともいずれかの態様で、ビデオ６５０をそのまま再生しながらユーザは音声認識項目１６０を選択し、図５Ａ〜５Ｃに関連して上述したようにビデオ６５０のオーディオ部分の音声認識を行ってもよい。

さらに別の実装構成では、ユーザは、ビデオ６５０をそのまま再生しながら（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）顔／音声の認識項目６８０を選択し、ビデオ６５０の顔の認識と、ビデオ６５０のオーディオ部分の音声認識との少なくともいずれかを実行してもよい。例えば、ビデオ６５０の顔の認識と音声認識の組み合わせは同時に実行してもよい。上記とは別に、ビデオ６５０の顔の認識を第１に実行してよいと共に、顔の認識が決定的な一致を提供しなかった場合、ビデオ６５０のオーディオ部分の音声認識を第２に実行してもよい（例えば、音声認識を行う前に所定の精度レベルを設定するようにしてもよい）。さらに別の例では、ビデオ６５０のオーディオ部分の音声認識を第１に実行し、次いで、音声認識が決定的な一致を提供しなかった場合、ビデオ６５０の顔の認識を第２に実行してもよい（例えば、顔の認識を行う前に所定の精度レベルを設定するようにしてもよい）。

図６Ａ及び図６Ｂは画像とビデオの少なくともいずれかを装置によってキャプチャする処理を示す図ではあるが、この装置はまた、（例えば装置２００のマイク２６０を介して）オーディオ部分をキャプチャしてもよい。キャプチャされたオーディオ部分は装置２００に（例えば記憶部３２０に）記憶してもよいし、しなくてもよい。図５Ａ〜図５Ｃに関連して上述したキャプチャされたオーディオ部分に対して音声認識を行ってもよい。

１つの実装例では、装置２００のユーザはメディアを装置２００に表示する方法を制御してもよい。例えば、装置２００は（例えば制御ボタン２４０とキーパッドのキー２５０との少なくともいずれかのような）ユーザがメディアの任意の部分のズームインとズームアウトを行うことを可能にする、ユーザにより制御されるメディアスケーリングメカニズムを含むものであってもよい。図４Ａ〜図６Ｂに関連して上述した方法のうちのいずれかの方法を用いてユーザ制御によるズーム機能を利用してもよい。装置２００は、（装置２００のスピーカ２２０でのオーディオ再生のような）ユーザによるメディアの開始及び停止を可能にしてもよい（制御ボタン２４０とキーパッドのキー２５０との少なくともいずれかのような）ユーザ制御によるメディア制御メカニズムをさらに含むものであってもよい。

図４Ａ〜図６Ｃに関連して上述した例示のメディア識別方法は様々なシナリオにおいて適用してもよい。以下のシナリオは、本発明の側面を実現するためのいくつかの例示の方法を提供するものである。

（人物の識別）
１つの実装例では、（有名人、ミュージシャン、歌手、映画スター、運動選手、友人、及び、メディアから識別できる任意の人物のうちの少なくともいずれかの）人物を上述の例示のメディア識別方法によって識別してもよい。例えば、映画スターは装置２００に表示されている映画に出演しているスターであってもよく、ユーザは、映画スターの名前と、その映画スターが別のどの映画に出演しているかの少なくともいずれかを知りたいと思う場合がある。ユーザは（例えば映画を介して）映画に出ている顔と音の少なくともいずれかの認識を行って、映画スターを識別し、次いで、（この映画スターが出演している別の映画のような）当該映画スターに関する別の識別情報を見つけてもよい。

別の例では、歌手又はミュージシャンが、装置２００に表示されている音楽用ビデオと、装置２００で再生されている歌との少なくともいずれかに出演していて、ユーザは歌手／ミュージシャンの名前と歌の名称の少なくともいずれかを知りたいと思う場合がある。ユーザは（例えば音楽用ビデオの中の歌手／ミュージシャンの顔に対する）顔の認識と、（例えば音楽用ビデオと歌の少なくともいずれかのオーディオ部分に対する）音声認識との少なくともいずれかの認識を行って、このような識別情報を発見してもよい。

さらに別の例では、ユーザは、映画のライブラリと、音楽用ビデオと、音楽との少なくともいずれかを装置２００上に有している場合がある。そして、ユーザが有名人を識別すると、装置２００は、有名人を含む可能性があるライブラリ内の映画と、音楽用ビデオと、音楽とのうちの少なくともいずれかへのリンクを提供してもよい。

別の例では、識別情報は（単複の）電話番号と（単複の）住所の少なくともいずれかを含む場合がある。そして、装置２００は（ユーザの友人のような）人物の画像を表示してもよい。ユーザが画像のうちの１つを選択すると、装置２００はその画像を、画像内の人物の（単複の）電話番号と（単複の）住所との少なくともいずれかと照合し、次いで、このような情報をユーザに対して表示することがきる。装置２００は画像内の人物の電話番号に自動的にダイアルするようにプログラムしてもよい。

さらに別の例では、（顔の情報と音声の情報の少なくともいずれかの情報のような）バイオメトリック情報が装置２００によって利用できる限り、上述の例示のメディア識別方法は有名人以外の人々に対しても用いてもよい。例えば、人が（犯罪者記録、パスポートなどからの）入手可能な顔の情報を有していて、装置２００がこのような情報にアクセスしてもよいならば、装置２００は、例示のメディア識別方法を用いてこのような人物を識別してもよい。このような構成装置によって、単に人物の画像をキャプチャすると共に、その画像を利用可能なバイオメトリック情報と比較することによって、犯罪者、テロリストなどを公の場所において識別したいという人々の願いを実現することを可能にしてもよい。これによって、市民による識別がサポートされ、周知の犯罪者、テロリスト、などの捕捉を可能にしてもよい。

（場所の識別）
１つの実装例では、（建物、陸標、道路、橋と任意の場所とのうちの少なくともいずれかとしてメディアから識別できる）場所を上述の例示のメディア識別方法により識別してもよい。例えば、装置２００のユーザが都市のあちこちを巡っているとき道順を見つけようとしている場合がある。ユーザは装置２００を用いて画像又は建物のビデオをキャプチャしてもよい。そして、装置２００は上述の例示のメディア識別方法によって建物を識別してもよい（例えばキャプチャした画像を装置２００によってアクセス可能なデータベース内の建物の画像と比較してもよい）。建物の識別によって都市における現在の所在位置がユーザに提供されて、ユーザは都市巡りの際に道順を見つけてもよい。実装例では、装置２００によって、識別された建物に基づいて現在の所在位置を示す地図がユーザに表示されるか、（例えば、都市におけるホテルのような）ユーザの行先の画像が提供されるかの少なくともいずれかを行ってもよい。

別の例では、ユーザはエリア内の陸標を識別しようとしている場合がある。ユーザは、装置２００を用いて陸標と思われるものの画像又はビデオを取得してよく、そして、装置２００は、上述の例示のメディア識別方法によって陸標を識別してよい（例えばキャプチャした画像を装置２００によってアクセス可能なデータベース内の陸標の画像と比較してもよい）。装置２００はまた、装置２００によって現在識別された陸標の近くに所在位置が突き止められた別の陸標への方向を提供してもよい。

さらに別の例では、ユーザは、（葉書などに記された）陸標の画像を装置２００によってキャプチャすることによって方向を取得してもよい。そして、装置２００は、上述の例示のメディア識別方法によって陸標の所在位置を識別してもよい（例えばキャプチャした画像を装置２００によってアクセス可能なデータベース内の陸標の画像と比較してもよい）。

さらに別の例では、ユーザは（単複の）道路標識の画像又はビデオをキャプチャすることによって方向を取得することができてよい。そして、装置２００は、上述の例示のメディア識別方法によって道路標識の所在位置を識別してもよい（例えばキャプチャした画像を装置２００によってアクセス可能なデータベース内の街路の名称の画像と比較してもよい）。装置２００はまた識別された街路を取り囲む街路、建物、陸標などを示す地図を提供してもよい。

場所の識別は、（装置２００に設けられているような）ＧＰＳ装置と組み合わされて機能し、装置２００の或る所在位置を提供してもよい。例えば、多数の「ファースト・ストリート」が存在する場合がある。ユーザがどの「ファースト・ストリート」の近くにいるかを判断するために、メディア識別とＧＰＳ装置との組み合わせによって、ＧＰＳ信号に基づいて「ファースト・ストリート」の（町、都市のような）場所をユーザが適切に識別できるようにしてもよい。

このような場所識別技術は、顔の認識の代わりに、「画像／ビデオ認識」を利用してもよい（例えば場所のキャプチャされた画像とビデオの少なくともいずれかを、装置２００によってアクセス可能なデータベースに含まれている画像とビデオの少なくともいずれかと比較してもよい）。しかし、本明細書で使用されているように、「顔認識」は「画像／ビデオ認識」のサブセットと見なしてもよい。

（物体の識別）
１つの実装例では、（動物、印刷メディア、漫画のキャラクタ、映画のキャラクタ、植物、樹木、及びメディアから識別することができる任意の「物体」のうちの少なくともいずれかのような）物体を上述した例示のメディア識別方法によって識別してもよい。例えば、装置２００のユーザが荒野にいて、ユーザが識別したい思う動物を見かける場合がある。ユーザは動物の画像と、ビデオと、動物の出す声のうちの少なくともいずれかを装置２００を用いてキャプチャしてもよい。そして、装置２００は上述の例示のメディア識別方法によって動物を識別してもよい（例えばキャプチャされた画像と、ビデオと、動物の出す声のうちの少なくともいずれかを、装置２００によってアクセス可能なデータベース内の動物の画像と動物の出す声の少なくともいずれかと比較してもよい）。動物の識別によって、ユーザは危険な動物に近づきすぎないようにするか、（バードウォッチャのような）動物観察者や科学の教師が荒野の未知の動物を識別するのに役立つかの少なくともいずれかを行うことができようにしてもよい。

別の例では、装置２００のユーザは、（例えば科学的目的のために、あるいは、教育的目的のために植物がツタウルシであるかどうかの判定を行うような）植物の識別を行いたいと思う場合がある。ユーザは植物の画像とビデオの少なくともいずれかを装置２００によってキャプチャしてもよい。そして、装置２００は上述の例示のメディア識別方法によってその植物を識別してもよい（例えば画像とビデオの少なくともいずれかを、装置２００によってアクセス可能なデータベース内の植物の画像と比較してもよい）。

別の例では、装置２００のユーザが漫画を観ていて、漫画のキャラクタを識別したいと思う場合がある。ユーザは（例えば漫画を介して）顔と音声の少なくともいずれかの認識を漫画に対して行って、漫画のキャラクタを識別し、次いで、漫画のキャラクタに関する（キャラクタを含む別の漫画のような）別の識別情報の所在位置を発見してもよい。

このような物体識別技術は、顔の認識の代わりに、（物体のキャプチャ済みの画像とビデオの少なくともいずれかを、装置２００によってアクセス可能なデータベースの中に含まれている画像とビデオの少なくともいずれかと比較してもよい）「画像／ビデオ認識」を利用してもよい。しかし、本明細書で使用されているように、「顔認識」は「画像／ビデオ認識」のサブセットと考えてもよい。さらに、このような物体識別技術は、音声の認識の代わりに、「オーディオ認識」を利用してもよい（例えば、物体のキャプチャされたオーディオ部分を、装置２００によってアクセス可能なデータベースの中に含まれているオーディオ部分と比較してもよい）。しかし、本明細書で使用されているように、「音声認識」は「オーディオ認識」のサブセットと考えてもよい。

（代替／追加技術）
上述の顔の認識、音声の認識、画像／ビデオ認識、オーディオ認識のうちの少なくともいずれかの認識を別の技術と組み合わせて、メディアの識別を行ってもよい。例えば、１つの実装例では、メディアの再生と表示の少なくともいずれかを行いながら、認識技術のうちのいずれかをバックグラウンドで自動的に実行してもよい。例えば、顔の認識と音声の認識の少なくともいずれかを、映画を再生しながらバックグラウンドで自動的に実行するか、（例えば映画の中の俳優、女優のような）メディアのオブジェクトを識別するかの少なくともいずれかを行ってもよい。これによって、認識技術が、（俳優の最もよい顔のショットのような）顔の認識と音声の認識の少なくともいずれかの認識にとって理想的な選択を映画の中で行うことを可能になり、識別方法の改善を図ることが可能となるようにしてもよい。

別の実装構成では、（映画、ビデオ、歌などを識別するタグのような）メディアの形で提供される（テーマ又はカテゴリのように機能するキーワードのような）タグを認識技術のうちのいずれかと共に用いてもよい。このようなタグはメディアの識別を探索する対象範囲を狭めるのに役立ててもよい。例えば、テレビの番組ガイドにこのようなタグを提供してよく、メディアの識別を探索する対象範囲を狭めるのに用いてもよい。別の例では、メディアが識別されるとすぐに、メディアに関する識別情報にタグを追加してもよい。

さらに別の実装構成では、画像／ビデオ認識を用いて（例えば、書籍、雑誌のような）印刷メディアのテキストを走査してもよい。キャプチャされた画像とビデオの少なくともいずれかの光学式文字認識（ＯＣＲ）によって印刷メディアを識別してもよい。例えば、キャプチャされたテキスト画像をＯＣＲによって認識してもよく、テキストデータベースと比較して、キャプチャされたテキストがテキストデータベースの中に現れるかどうかを調べてもよい。

＜＜例示処理＞＞
図７Ａ〜図８は本発明の原理に従う実装構成に従う例示処理を示すフローチャートである。図７Ａの処理は、一般に、記憶済みメディアの識別処理として記述してもよい。図７Ｂの処理は、一般に、顔の認識に基づく記憶済みメディアの識別処理として記述してもよい。図７Ｃの処理は、一般に、音声の認識に基づく記憶済みメディアの識別処理として記述してもよい。図８の処理は、一般に、顔の認識と音声の認識の少なくともいずれかの認識に基づく、キャプチャ済みメディアの識別処理として記述してもよい。

（記憶済みメディアの識別処理）
図７に示すように、処理７００はメディア情報を取得してもよい（ブロック７０５）。例えば、図３に関連して上述した１つの実装例では、メディア情報は装置２００に記憶された又は（例えば通信インタフェース３４０のような）装置２００によって受信されたメディアに対応してもよい。この場合、メディア情報収集部３６０は、（記憶部３２０のような）メディア記憶装置、又は、別のソースからメディアを受信する能力を備えた（通信インタフェース３４０のような）通信装置を含むものであってもよい。

図７に示すように、処理７００は画像又はビデオがメディアとして選択されたかどうかの判定を行ってもよい（ブロック７１０）。画像又はビデオが選択された場合（ブロック７１０「イエス」）、図７Ｂのブロックを実行してもよい。例えば、図１に関連して上述した１つの実装例では、装置のディスプレイ１００はユーザによって選択された画像／ビデオ１１０を含んでもよい。例えば、画像／ビデオ１１０はユーザによって選択され、現在ディスプレイ１００に表示されている映画又は音楽用ビデオであってもよい。

画像又はビデオが選択されなければ（ブロック７１０「ノー」）、処理７００はオーディオファイルがメディアとして選択されているかどうかの判定を行ってもよい（ブロック７１５）。オーディオファイルが選択されていれば（ブロック７１５「イエス」）、図７Ｃのブロックを実行してもよい。例えば、図１に関連して上述した１つの実装例では、ディスプレイ１００は（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）オーディオファイル項目１５０を含むものであってもよい。ユーザがオーディオファイルを聴くとき、このオーディオファイル項目１５０を表示してもよい。例えば、ユーザは（デジタル音楽、ＭＰ３、ＭＰ４のような）音楽を装置で聴いてもよい。オーディオファイルが選択されていなかった場合、（ブロック７１５「ノー」）、処理７００は終了してもよい。

（顔の認識に基づいて行う記憶済みメディアの識別処理）
図７Ｂに示すように、処理７００は画像又はビデオの顔をマークすべきかどうかの判定を行ってもよい（ブロック７２０）。例えば、図１及び図４に関連して上述した１つの実装例では、ディスプレイ１００は（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）顔マーク項目１２０を含んでもよい。この選択メカニズムによって、ユーザが、選択時に、（例えば、カーソル１３０によって）画像／ビデオ１１０の顔の一部をマークすることが可能となるようにしてもよい。顔がマークされれば（ブロック７２０「イエス」）、処理７００は選択した画像又はビデオ内の顔をマークしてもよい（ブロック７２５）。顔がマークされなければ（ブロック７２０「ノー」）、処理７００は図７Ｃのブロックを実行してもよい。

図７Ｂに示すように、処理７００は顔の認識を行うべきかどうかの判定を行ってもよい（ブロック７３０）。顔の認識を行わないのであれば（ブロック７３０「ノー」）、処理７００は図７Ｃのブロックを実行してもよい。顔の認識を行うのであれば（ブロック７３０「イエス」）、処理７００は顔認識の結果を受信し、この結果をユーザに対して表示してもよい（ブロック７３５）。例えば、図４Ａ及び４Ｂに関連して上述した１つの実装例では、カーソル１３０によって顔がマークされた場合、ユーザは、ディスプレイ４００に提示される（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）顔認識項目１４０を選択し、次いで、画像／ビデオ１１０の顔の認識を行ってもよい。１つの実装例では、顔の認識は（例えば装置２００の処理ロジック３１０及び記憶部３２０を介して）装置に設けられた顔認識ソフトウェアを用いて画像／ビデオ１１０上で行ってもよい。別の実装構成では、顔の認識は、装置２００と通信を行う装置に設けられた顔認識ソフトウェアを用いて画像／ビデオ１１０上において行ってもよい（例えば装置２００はマークされた顔を別の装置へ送信し、この別の装置は顔の認識を行い、次いで、結果を装置２００へ返信するようにしてもよい）。画像／ビデオ１１０の顔の認識結果４１０はディスプレイ４００上に提示してもよい。結果４１０は画像／ビデオ１１０に示される顔に一致する（単複の）人物のリストを含んでもよい。

処理７００はユーザが選択した顔の認識結果に基づいて識別情報を表示してもよい（ブロック７４０）。例えば、図４Ｂに関連して上述した１つの実装例では、ユーザが上記結果から人物を選択した（例えば人物４２０を選択した）場合、ディスプレイ４００は図４Ｂに示す例示の識別情報を提示してもよい。多岐にわたる識別情報を提供してもよい。例えば、人物が映画スターであれば、ディスプレイ４００はメニュー部分４４０及び識別情報部分４５０を提示してもよい。メニュー部分４４０は、例えば、識別情報部分の複数部分４５０への選択可能なリンクを含んでもよい。図４Ｂに示す実装例では、識別情報部分４５０は、人物に関する経歴情報、人物に関する映画界での経歴情報、人物に関するテレビ界での経歴情報、人物に関するウェブサイト情報、リマインダー情報のうちの少なくともいずれかの情報を含んでもよい。

（音声認識に基づく記憶済みメディアの識別処理）
オーディオファイルが選択された場合（ブロック７１５「イエス」、図７Ａ）、顔がマークされない（ブロック７２０「ノー」、図７Ｂ）か、顔の認識が行われない（ブロック７３０「ノー」、図７Ｂ）かの少なくともいずれかとなり、処理７００は図７Ｃのブロックを実行してもよい。図７Ｃに示すように、処理は音声の認識を行うべきかどうかの判定を行ってもよい（ブロック７４５）。例えば、図５Ａ及び５Ｂに関連して上述した１つの実装例では、ユーザは、ディスプレイ５００に提示される（アイコン、リンク、ボタン及び他の同様の選択メカニズムのうちの少なくともいずれかのような）音声認識項目１６０を選択し、次いで、オーディオファイル又はビデオによって生成されたオーディオ部分の音声認識を行ってもよい。１つの実装例では、音声の認識は、装置に設けられた音声認識ソフトウェアを用いて、（例えば装置２００の処理ロジック３１０及び記憶部３２０を介して）オーディオファイルに対して行ってもよい。別の実装構成では、（例えば通信インタフェース３４０を介して）装置２００と通信を行う装置に設けられた音声認識ソフトウェアを用いてオーディオファイルに対して音声認識を行ってもよい。ディスプレイ５００上に音声の認識結果５１０を提示してもよい。結果５１０はオーディオファイルの音声（又はビデオ内のオーディオ部分）に一致する（単複の）人物のリストを含んでもよい。

音声の認識が行行われない（ブロック７４５「ノー」）場合、処理７００は終了してもよい。音声の認識が行われる（ブロック７４５「イエス」）場合、処理７００は音声の認識結果を受信し、ユーザに対してこの結果を表示してもよい（ブロック７５０）。

図７Ｃにさらに示すように、処理７００は、ユーザが選択した音声の認識結果に基づいて識別情報を表示してもよい（ブロック７５５）。例えば、図５Ｂに関連して上述した１つの実装例では、ユーザが上記結果から人物を選択した（例えば人物５２０を選択した）場合、ディスプレイ５００は図５Ｂに示す例示の識別情報を提示してもよい。多岐にわたる識別情報を提供してもよい。人物が映画スターであれば、ディスプレイ５００は、メニュー部分５４０及び識別情報部分５５０を提供してもよい。メニュー部分５４０は、例えば、識別情報部分の複数の部分５５０に関係する、選択可能なリンクを含む場合もある。実装例において、図５Ｂに示す識別情報部分５５０は、映画の台詞情報５６０、台詞を言った人物に関する経歴情報、この人物に関する映画界での経歴情報、該人物に関するテレビ界での経歴情報、当該人物に関するウェブサイト情報、リマインダー情報のうちの少なくともいずれかの情報を含むものであってもよい。

（顔の認識と音声の認識の少なくともいずれかの認識に基づいて行うキャプチャ済みメディアの識別処理）
図８に示すように、処理８００はメディア情報を取得してもよい（ブロック８１０）。例えば、図３に関連して上述した１つの実装例では、メディア情報は装置２００によって検索されるか、キャプチャされるメディアに対応してもよい。この場合、メディア情報収集部３６０は、オーディオ情報を録音してもよい（マイク２６０のような）マイクと、画像とビデオの少なくともいずれかを録画してもよい（カメラ２７０のような）カメラとの少なくともいずれかを含むものであってもよい。

顔の認識と音声の認識がキャプチャされたメディアに対して行われた場合（ブロック８２０「イエス」）、処理８００はキャプチャされたメディアに対する顔と音声との認識結果を得てよく、識別情報の照合結果を表示してもよい（ブロック８３０）。例えば、図６Ｂに関連して上述した１つの実装例では、ユーザはビデオ項目６３０を選択し、次いで、（装置２００のカメラ２７０を介して）装置２００を用いてビデオ６５０をキャプチャしてもよい。ビデオ６５０がポーズされた場合、ユーザは、ユーザが（例えば１つの実装例では、ボックス６７０によって）ビデオ６５０の顔の一部をマークすることができるようにする顔マーク項目１２０を選択してもよい。顔がマークされれば、ユーザはディスプレイ６００上に示される顔認識項目１４０を選択し、ビデオ６５０の顔の認識を行わせ、図４Ａ及び４Ｂに関連して上述したように識別情報の照合結果を表示してもよい。別の実装例では、ビデオ６５０をそのまま再生しながら（すなわち、ビデオ６５０をポーズすることなく）ビデオ６５０の人物の顔をマークしてもよい。さらに、ユーザは、ビデオ６５０をそのまま再生しながら音声認識項目１６０を選択し、ビデオ６５０のオーディオ部分の音声認識を行うと共に、図５Ａ〜５Ｃに関連して上述したように識別情報の照合結果を表示してもよい。さらに別の実装構成では、ユーザは、ビデオ６５０をそのまま再生しながら顔／音声の認識項目６８０を選択し、次いで、ビデオ６５０の顔の認識と、ビデオ６５０のオーディオ部分の音声認識との少なくともいずれかの認識を行わせてもよい。ビデオ６５０の顔と音声の認識の組み合わせは、例えば、同時にあるいは順次行ってもよい。（例えば、顔の認識を第１に実行すると共に、顔の認識が決定的な一致を提供しなかった場合、音声の認識を第２に実行する。この逆の操作を行うことも可能である）。

さらに図８に示すように、キャプチャされたメディアに対して顔の認識と音声の認識を行わないのであれば（ブロック８２０「ノー」）、処理８００は、キャプチャされたメディアに対して顔の認識を行うべきかどうかの判定を行ってもよい（ブロック８４０）。キャプチャされたメディアに対して顔の認識を行うのであれば（ブロック８４０「イエス」）、処理８００はキャプチャされたメディアに対する顔の認識結果を得てもよく、識別情報の照合結果を表示してもよい（ブロック８５０）。例えば、図６Ａに関連して上述した１つの実装例では、ディスプレイ６００は（アイコン、リンク、ボタンと別の同様の選択メカニズムとの少なくともいずれかのような）顔マーク項目１２０を含んでもよい。この選択メカニズムによって、ユーザが、選択時に（例えば、１つの実装例ではカーソル１３０を用いて）画像６３０の顔の一部をマークすることが可能となってもよい。カーソル１３０で顔をマークする場合、ユーザは、ディスプレイ６００上に提示された顔認識項目１４０を選択し、図４Ａ及び４Ｂに関連して上述したように画像６１０の顔の認識を行わせると共に、識別情報の照合結果を表示してもよい。

図８に示すように、キャプチャされたメディアに対して顔の認識が行われなければ（ブロック８４０「ノー」）、処理８００はキャプチャされたメディアに対して音声の認識を行うべきかどうかの判定を行ってもよい（ブロック８６０）。キャプチャされたメディアに対して音声の認識を行うのであれば（ブロック８６０「イエス」）、処理８００はキャプチャされたメディアに関連する音声の認識結果を得てもよく、そして、識別情報の照合結果を表示してもよい（ブロック８７０）。例えば、図６Ａ及び６Ｂに関連して上述した１つの実装例では、（例えば装置２００のマイク２６０を介して）装置はオーディオ部分をキャプチャしてもよい。キャプチャされたオーディオ部分は、（記憶部３２０のような）装置２００に記憶してもよいし、装置２００に記憶しなくてもよい。音声の認識はキャプチャされたオーディオ部分に対して行ってもよく、図５Ａ〜５Ｃに関連して上述したように識別情報の照合結果を表示してもよい。

＜＜まとめ＞＞
本発明の原理に従う実装構成によって、メディアを対象とする顔の認識と音声の認識の少なくともいずれかの結果に基づいてメディアを識別してよいと共に、顔の認識と音声の認識の少なくともいずれかの結果に基づいて識別情報を表示してもよい。（画像とビデオの少なくともいずれかにおいて（単複の）人物を識別する顔認識技術と、映画から得られるサウンドバイトの形のオーディオ部分において（単複の）人物の識別を行う音声認識技術との少なくともいずれかの）メディア識別処理を用いることによって、（単複の）人物の識別を行ってよく、（単複の）人物に関する情報を装置に表示してもよい。

本発明の好適な実施形態についての上述の説明は例示と説明を提供するものであるが、上記説明は、本発明を網羅しようとしたり、開示された厳密な形態に限定しようとしたりすることを意図するものではない。上記教示を考慮して修正及び変更を行うことが可能である。あるいは本発明を実施することによって修正及び変更を行うことが可能である。

例として、図７Ａ〜図８を参照しながら一連の動作について説明したが、別の実施構成において、本発明の原理に従ってこれらの動作の順序を変更することも可能である。さらに、非依存型の動作を並行して実行することも可能である。さらに、上述した実装構成は顔及び音声のバイオメトリックの利用について説明したものではあるが、（指紋、人間の目の網膜及び虹彩、手の計測値、筆跡、歩行パターン、タイピングパターンのような）別のバイオメトリック情報を用いてメディアを識別し、照合する識別情報を提供することも可能である。さらに、図は顔と音声との認識結果を示すものではあるが、１つの実装例では、顔の認識と音声の認識の少なくともいずれかが結果を提供しない代わりに、顔の認識と音声の認識の少なくともいずれかによって得られる最も近い照合結果が得られたメディアに関する識別情報を提供してもよい。

本明細書で使用する場合、「備える／備えている（comprises/comprising）」という用語は、言及された特徴、整数、ステップ又は構成の存在を識別するために用いられるが、これら以外の特徴、整数、ステップ、構成、又はこれらのグループの存在又は追加を排除するものではない、という点を強調しておく。

当業者には自明であるように、本発明の側面は、上述したように多くの異なる形のソフトウェア、ファームウェア、ハードウェアにおいて、また、図示の実装構成において実現することが可能である。本発明の原理に従う側面を実現するために用いられる実際のソフトウェアコード又は特化された制御ハードウェアは本発明を限定するものではない。したがって、具体的なソフトウェアコードに言及することなく、上記側面の処理及び振舞いについて説明を行った。本明細書で説明した記載に基づいて上記側面の実現のためにソフトウェアを設計し、ハードウェアを制御することが可能であることは当業者であれば理解できるであろう。

本明細書での説明において用いられる要素、行為及び指示のいずれも、その旨明示されていないかぎり、本発明にとって極めて重要であるか、不可欠であると解釈すべきでない。また、本明細書で使用されているように、不定冠詞「ａ」は１つ以上の項目又は品目を含むように意図されている。１つだけの品目であることを意図する場合には、「１つの（one）」又は同様の表現が用いられる。さらに、「〜に基づいて」というフレーズは、別途明白に言明されていないかぎり、本明細書で使用されているように、「〜に少なくとも部分的に基づいて」ということを意味するように意図されたフレーズである。

Claims

装置においてメディアを取得するステップと、
画像／ビデオ認識及びオーディオ認識を介して前記メディア内のオブジェクトを識別するステップと、
前記メディアの識別されたオブジェクトに基づいて識別情報を前記装置上に表示するステップと、
を有することを特徴とする方法。
前記装置を介して前記メディアを受信するステップをさらに有することを特徴とする請求項１に記載の方法。
前記装置を用いて前記メディアをキャプチャするステップをさらに有することを特徴とする請求項１に記載の方法。
前記画像／ビデオ認識が所定の精度レベルの範囲内で前記メディアのオブジェクトを識別できない場合に、オーディオ認識を行うことを特徴とする請求項１に記載の方法。
前記オーディオ認識が所定の精度レベルの範囲内で前記メディアのオブジェクトを識別できない場合に、画像／ビデオ認識を行うことを特徴とする請求項１に記載の方法。
画像／ビデオ認識によって前記オブジェクトを識別するために前記メディアのオブジェクトの顔をマークするステップをさらに有することを特徴とする請求項１に記載の方法。
前記メディアのオブジェクトを識別する画像／ビデオ認識の結果を表示するステップをさらに有することを特徴とする請求項１に記載の方法。
ユーザが選択した画像／ビデオ認識の結果に係る識別情報を表示するステップをさらに有することを特徴とする請求項７に記載の方法。
前記メディアのオブジェクトを識別するオーディオ認識の結果を表示するステップをさらに有することを特徴とする請求項８に記載の方法。
ユーザが選択したオーディオ認識の結果に係る識別情報を表示するステップをさらに有することを特徴とする請求項９に記載の方法。
前記メディアのオブジェクトを識別する画像／ビデオ認識及びオーディオ認識の結果を表示するステップをさらに有することを特徴とする請求項１に記載の方法。
ユーザが選択した画像／ビデオ認識及びオーディオ認識の結果に係る識別情報を表示するステップをさらに有することを特徴とする請求項１１に記載の方法。
前記メディアには、
画像ファイルと、
オーディオファイルと、
ビデオファイルと、
アニメーションファイルと、
のうちのいずれか１つが含まれることを特徴とする請求項１に記載の方法。
前記メディアのオブジェクトには、
人物と、
場所と、
物体と、
のうちのいずれか１つが含まれることを特徴とする請求項１に記載の方法。
前記識別情報は、
前記メディアの識別されたオブジェクトに関する経歴情報と、
前記メディアの識別されたオブジェクトに関する情報へのリンクと、
前記メディアの識別されたオブジェクトに基づく推奨と、
のうちの少なくともいずれか１つを有することを特徴とする請求項１に記載の方法。
装置においてメディアを取得する手段と、
顔と音声との認識を介して前記メディア内のオブジェクトを識別する手段と、
前記メディアの識別されたオブジェクトに基づいて識別情報を前記装置において表示する手段と、
を備えることを特徴とする装置。
装置であって、
前記装置に関連づけられたメディア情報を取得するためのメディア情報収集手段と、
処理ロジックであって、
顔と音声との認識を介してメディア内のオブジェクトを識別し、
前記メディアのオブジェクトを識別する顔と音声との認識結果を表示し、
ユーザが選択した顔と音声との認識結果の一つに係る識別情報を表示する、
処理ロジックと、
を備えることを特徴とする装置。
前記メディア情報収集手段には、
カメラと、
マイクと、
メディア記憶装置と、
通信装置と、
のうちの少なくともいずれか１つが含まれることを特徴とする請求項１７に記載の装置。
顔の認識によって前記メディアのオブジェクトを識別する場合、前記処理ロジックは、前記メディアのオブジェクト内の顔の位置を判定するように構成されることを特徴とする請求項１７に記載の装置。
前記メディアのオブジェクトを顔の認識によって識別する場合、前記処理ロジックは、前記メディアのオブジェクト内の顔の位置をユーザ入力に基づいて判定するように構成されることを特徴とする請求項１７に記載の装置。
装置であって、
命令を記憶するためのメモリと、
前記命令を実行するプロセッサであって、
前記装置においてメディアを取得し、
顔と音声との認識を介して前記メディア内のオブジェクトを識別し、
前記メディアの識別されたオブジェクトに基づいて識別情報を前記装置上に表示する、
プロセッサと、
を備えることを特徴とする装置。
装置においてビデオを取得するステップと、
前記ビデオを前記装置において再生しながら、前記ビデオ内のオブジェクトの識別を顔の認識又は音声の認識を介して行うステップと、
前記メディアの識別されたオブジェクトに基づいて識別情報を前記装置上に表示するステップと、
を有することを特徴とする方法。
装置においてメディアを取得するステップと、
前記メディアの物体と物体のデータベースとの比較に基づいて、前記メディア内の物体を識別するステップと、
前記メディアの識別された物体に基づいて識別情報を前記装置上に表示するステップと、
を有することを特徴とする方法。
前記物体には、
動物と、
印刷メディアと、
植物と、
樹木と、
岩と、
漫画のキャラクタと、
のうちの少なくともいずれか１つが含まれることを特徴とする請求項２３に記載の方法。
装置においてメディアを取得するステップと、
前記メディアの場所と場所のデータベースとの比較に基づいて、前記メディア内の場所を識別するステップと、
前記メディアの識別された場所に基づいて識別情報を前記装置上に表示するステップと、
を有することを特徴とする方法。
前記場所には、
建物と、
陸標と、
道路と、
橋と、
のうちの少なくともいずれか１つが含まれることを特徴とする請求項２５に記載の方法。
前記メディアの識別された場所の表示を含む地図を、前記メディアの識別された場所の所在位置に基づいて前記装置において表示するステップをさらに有することを特徴とする請求項２５に記載の方法。
装置においてメディアを取得するステップと、
前記メディア内のオブジェクトの識別を前記オブジェクトの音声の認識及びテキスト認識に基づいて行うステップと、
前記メディアの識別されたオブジェクトに基づいて識別情報を前記装置において表示するステップと、
を有することを特徴とする方法。