JP2013534741A - 画像記録再生装置、及び画像記録再生方法 - Google Patents

画像記録再生装置、及び画像記録再生方法 Download PDF

Info

Publication number
JP2013534741A
JP2013534741A JP2013512769A JP2013512769A JP2013534741A JP 2013534741 A JP2013534741 A JP 2013534741A JP 2013512769 A JP2013512769 A JP 2013512769A JP 2013512769 A JP2013512769 A JP 2013512769A JP 2013534741 A JP2013534741 A JP 2013534741A
Authority
JP
Japan
Prior art keywords
image recording
image
reproducing apparatus
text data
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013512769A
Other languages
English (en)
Inventor
ロドリゲス エセキエル、ルイス
Original Assignee
ナクソス ファイナンス エスエー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ナクソス ファイナンス エスエー filed Critical ナクソス ファイナンス エスエー
Publication of JP2013534741A publication Critical patent/JP2013534741A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B31/00Associated working of cameras or projectors with sound-recording or sound-reproducing means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)
  • Machine Translation (AREA)

Abstract

【課題】複数の言語を認識し、テキストデータに変換できる装置、及び方法を提供する。
【解決手段】本発明に係る画像記録再生装置は、画像を撮影する撮像系と、撮像系と結合され、撮影画像をデジタル画像ファイルとして処理する信号処理部と、信号処理部と結合され、デジタル画像ファイルと関連する少なくとも一の音声注釈を取得するオーディオ系と、少なくとも一の音声注釈を認識し、音声注釈をテキストデータに変換する音声認識部と、を備え、音声認識部は、信号処理部と連携し、テキストデータを使ってメタデータを生成し、生成されたメタデータをデジタル画像ファイルに追加する、画像記録再生装置であって、音声認識部は、複数の単語サブセットを備え、各サブセットは、対応する複数の言語から取得された音声注釈を認識し、テキストに変換するために、限定された数の単語を有する。
【選択図】図2

Description

本願発明は、本願請求項1の前提部分に係る画像記録再生装置に関する。
また、本願発明は、画像記録再生方法に関し、特に、自動的にデジタル画像ファイルのためのメタデータ作成に関する。
画像記録再生装置、及び画像記録再生方法は、出願時の技術水準では、特に、画像を撮影し、それらの画像をデジタルメディアに保存するデジタルカメラを備える装置において、周知である。なお、本書において、「装置」、及び/又は「カメラ」は、デジタルスチルカメラ、デジタルビデオカメラ、デジタルカメラを活用した携帯電話等に関するために用いる。
出願時の技術水準において周知の装置において、画像が撮影された時間と、画像が印刷、又は表示された時間と、の間から、ユーザ(たいていは、撮影者を含む)は、画像に関する情報へのアクセスを忘れる、またはアクセスしない。ここで、画像に関する情報とは、画像が撮影された時間、及び/又は画像が撮影された場所、及び/又は画像中の人物に関する情報等である。
いくつかのデジタルカメラは、写真に関して、画像が撮影された日時を表すような文字を付加できる。この文字は、典型的に、カメラによって作成され、所定の位置に、所定のフォーマットで撮影画像に合成される。
上述の画像に付加される文字は、小さい情報量を含むだけであり、デジタルカメラのユーザが画像を区別するために、ほとんど、又は全く無益な情報を伝える。
同様の問題は、デジタルカメラにおいて、デジタル画像ファイルを識別、追跡するためのファイルの命名方法においても発生する。実際には、デフォルトのファイル命名方法は、以下の方法を採用している。
- デジタル画像ファイルの種類を示すための文字の組み合わせ(例えば、“DSC”、“IMG”、“PICT”、“DSCN”等)
- デジタル画像を他のデジタル画像と区別するために、上述の文字の組み合わせに、付加する数字の序列(例えば、“001”、“002”等)
- 画像の種類を示すために、数字の序列の後に付加するファイル拡張子(例えば、“.TIF”、“.JPG”等)
従って、デフォルトのファイル命名方法においても、ユーザは、特定の画像ファイルの内容について、ほとんど、又は全く有益な情報を得られない。実際には、画像ファイルがユーザの所望の人物、場所等の画像であるかを判断するためには、ユーザは、画像ファイルを開いて、画像を見る必要がある。最終的には、ユーザはコンピュータを用いて、画像ファイルの命名方法を編集できるが、実際的には、画像を保存した後、時間の経過後には、この可能性は役に立たない。
特許文献1において、画像記録再生装置に関して記載されている。特許文献1に記載された装置は、
- 画像を撮影し、画像データを生成するために撮影された画像を処理し、画像データを備える画像ファイルを生成する信号処理部と、
- 言語を認識し、言語をテキストデータに変換する音声認識部と、
- テキストデータを使用してメタデータを生成し、生成したメタデータファイルに追加する制御部と、
を備える。
特許文献1に記載された技術においては、画像の撮影直後、及び/又は画像を見直している間に、信頼できるメタデータ(例えば、撮影場所、又は画像に含まれる人物のようなメタデータ)を画像ファイルに追加できるように、画像ファイルに含まれるメタデータは、音声認識部を使用して変換されたテキストデータを使用して生成される。
さらに、画像が撮影された時に画像ファイルを分類できるように、画像ファイルが保存されるフォルダ名は、音声認識部を使用して変換されたテキストデータに基づいて生成される。
欧州特許出願公開第1876596号
しかし、特許文献1に記載された装置でさえ、所定の一つの言語を認識し、変換することを採用するので、いくつかの欠点が見られる。
実際には、言語を認識し、テキストデータに変換するプログラム、及びソフトウェアは、高価であり、プログラムサイズが大きく、たいてい、認識し、テキストデータに変換される各言語に対してメガバイト(又はギガバイト)のサイズである。従って、そのプログラム、及びソフトウェアは、各画像記録再生装置に対して、所定の一つの言語のみを選択しなければ、画像記録再生装置に活用されない。
これは、特許文献1において教示される技術に従って実現される装置は、一つの言語のみを認識し、テキストデータに変換するためのプログラムを備えることが必要であることを示唆している。
これは、必然的に特許文献1に記載された装置は、多面的(ないし汎用的)で、かつ選択性に富むものとはなり得ないことを意味する。なぜなら、ユーザ自身の言語をテキストデータに変換するために、ユーザ自身の言語を認識する、特定のプログラムを備える装置が必要だからである。
また、これは、装置の製造者は、異なる国で販売可能である、単一の装置を製造できないことを意味する。ここで、異なる国とは、ユーザが異なる言語を話す国を意味する。装置の製造者が、異なる国で販売可能である、単一の装置を製造できない結果として、同一の製品において、言語のモデル数が増加し、製造コストが増加する。
以上より、本願発明の主目的は、複数の言語を認識し、テキストデータに変換できる画像記録再生装置、及び画像記録再生方法を提供することによって、上述の欠点を克服することである。
さらに、本願発明の目的は、多面的(ないし汎用的)で、かつ選択性に富むように構想される、画像記録再生装置、及び画像記録再生方法を提供することである。
さらに、本願発明の目的は、複数の異なる言語を認識し、テキストデータに変換できる単一の画像記録再生装置、及び画像記録再生方法を提供することである。
これらの目的は、本明細書の一部をなすものと意図される、特許請求の範囲に記載の特徴を組込んで成る、本願発明の画像記録再生装置、及び画像記録再生方法によって達成される。
更なる本願発明の目的、特徴、効果は、以下の詳細な説明、及び図面から明らかである。なお、以下の詳細な説明、及び図面は、発明の範囲の限定を意図した例ではない。
本願発明に係る画像記録再生装置をデジタルカメラとする場合の、本願発明に係る画像記録再生装置の内部構成を示すブロック図である。 第1の実施形態に係る画像記録再生方法を示すブロック図である。 第2の実施形態に係る画像記録再生方法を示すブロック図である。
図1において、参照符号1は、本願発明に係る画像記憶成装置の全体構成を示す。
本願発明の実施例に係る画像記録再生装置1は、デジタルスチルカメラ、デジタルビデオカメラ、デジタルカメラ機能を備える携帯電話等であっても良い。
画像記録再生装置は、
- 画像を撮影する撮像系10と、
- 撮像系10に連結し、撮影画像をデジタル画像ファイルとして処理する信号処理部20と、
信号処理部20と連結し、デジタル画像ファイルと関連すると想定される、少なくとも一つの音声注釈を取得するオーディオ系30と、
- 少なくとも一つの音声注釈を認識し、認識した音声注釈をテキストデータに変換する音声認識部40と、を備え、
- 音声認識部40は、信号処理部20と連携して、テキストデータを使ってメタデータを生成し、生成されたメタデータをデジタル画像ファイルに追加する。
撮像系10は、対象物を撮影するためのセンサ12に光を向け、合焦するレンズ/シャッター機構11を備えていてもよい。特に、センサ12は、1又は2以上のCCD(Charge Coupled Device)、又は1又は2以上のCMOS(Complementary Metal-Oxide Semiconductor)を備えることができる。
従って、信号処理部20は、レンズ/シャッター機構11の処理を制御し、デジタルフォーマットで撮影画像を含む画像ファイルを生成するために、センサ12から受信した画像情報を処理する。
画像ファイルがスチル画像データを含む場合、デジタル画像ファイルは、JPEG(Joint Photographic Experts Group)フォーマット、TIFF(Tag Image File Format)フォーマットであってもよい。画像ファイルが、動画データを含む場合、デジタル画像ファイルは、MPEG(Moving Picture Experts Group)フォーマット、又は出願時の技術水準において周知の他のビデオフォーマットであってもよい。
さらに、出願時の技術水準において周知のように、各画像ファイルは、画像データ保存する領域と、画像に関する情報を保存する領域と、を含む。これは、国際基準に従って、画像ファイルが生成される。実際には、以下の如く、画像ファイルにどのようにメタデータを追加するかを定義した複数の機関ないし組織(entities)がある。
- IIM(IPTC Information Interchange Model、IPTC(International Press Telecommunication Councils))フォーマット、
- IPTC Core Schema for XMP(Extensible Metadata Platform)(Adobe社の標準フォーマット)、
- EXIF(Exchangeable image file format)フォーマット。EXIFフォーマットは、CIPA(Camera & Imaging Products Association)によって維持され、かつJEITA(Japan Electronics and Information Technology Industries Association)によって発行されているフォーマットである。
- Dublin Coreフォーマット(DCMI(Dublin Core Metadata Initiative)フォーマット)、
- PLUS(Picture Licensing Universal System)フォーマット。
図1に示すように、オーディオ系30は、ユーザに、短時間のオーディオ、又は音声注釈(voice annotation)を記録させたり、デジタルビデオ記録のための音声を記録させたり、音声コマンドを入力等させることが可能なマイク31を備えることが好ましい。また、オーディオ系30は、スピーカ32を備えても良い。
本願発明によれば、音声認識部40は、対応する複数の言語から取得した音声注釈を認識し、テキストに変換するために、複数の単語サブセット(subsets of words)41を備える。ここで、各単語サブセット41の単語数には、限界がある。
特に、各単語サブセット41は、特定の言語について、完全な辞書を備えない。しかし、各単語サブセット41は、所定の画像に関連して、製造サイトで、頻繁に使用される単語のうちにおいてのみ、限定された数の単語を選択し、記憶して、所定の言語に関する限定された数の単語のみに関して、関連する翻訳(relative translation)を備える。
特に、それらの複数の単語は、以下を備えてもよい。
- 祝いを表す単語、及び/又は繰り返しを表す単語、及び/又は祭日を表す単語(例えば、“パーティー”、“休日”、“(キリスト教における)洗礼式”、“結婚”、“誕生日”、“クリスマス”、“イースター”等)
- 地理的な場所を表す単語(例えば、“海”、“砂漠”、“丘”、“山”、“湖”等)
- 世界中の国を表す単語(例えば、“ドイツ”、“フランス”、“イタリア”、“アメリカ合衆国”、“日本”、“中国”、“韓国”等)、及びこれらの国の主要都市(例えば、“フランクフルト”、“ミュンヘン”、“パリ”、“ローマ”、“ロサンジェルス”、“ラスベガス”、“東京”、“上海”、“香港”、“マカオ”、“ソウル”等)。さらに、これらの都市の有名な建造物、芸術作品(例えば、“万里の長城”、“カジノ”、“コロセウム”、“エッフェル塔”等)
- 季節を表す単語(例えば、“春”、“夏”、“秋”、“冬”等)、及び/又は月を表す単語、及び/又は曜日を表す単語
- 数字を表す単語、特に、数字を組み合わせるために、0〜9を表す単語
- 人との関係を表す単語(例えば、“兄(又は弟)”、“姉(又は妹)”、“父”、“母”、“祖父”、“祖母”、“叔父”、“叔母”、“従妹”、“友達”、“夫”、“妻”等)
- 人名を表す単語(例えば、“カール(Carl)”、“ポール(Paul)”、“ピーター(Peter)”、“ジョン(John)”、“ロバート(Robert)”、“アビー(Abbie)”、“ジェーン(Jane)”、“マリー(Mary)”、“ベス(Beth)”等)
- 動物を表す単語(例えば、“犬”、“猫”、“馬”、“鳥”等)、及び/又は物を表す単語(“家”、“来訪所”、“庭”、“教会”、“大聖堂”、“車”、“バイク”等)
これらの単語を提供することによって、単語数が単語のサブセットに限定されていても、複数の言語を認識し、テキストに変換できる画像記録再生装置、及び画像記録再生方法が、提供される。
画像記録再生装置によって、記録され、かつ認識可能な限定された数の、単語のサブセットによって、ユーザが所定の画像と関連付けしたい単語が提供されていない場合、単語を書くために、出願時の技術水準において周知の道具(キーボード、タッチスクリーン等)を利用して、手動で、ユーザが所望する特定の単語を編集できることは明らかである。
特に、本願発明に係る画像記録再生装置1、及び画像記録再生方法は、各言語を認識し、テキストに変換するために、高価で、プログラムサイズが非常に大きく、たいてい、認識し、テキストデータに変換される各言語に対して数メガバイト(ないしギガバイト)のサイズである音声認識部40を使用せず、音声を認識し、テキストに変換できる。従って、本願発明に係る画像記録再生装置1、及び画像記録再生方法は、デジタルスチルカメラ、デジタルビデオカメラ、デジタルカメラ機能を備える携帯電話等の消費者向け製品に実装できる。そして、その際、これらの製品に、市場に受け入れられないコストを課さなくてよい。
従って、音声認識部40は、使用される所定の言語の製造サイトを選択することなく、画像記録再生装置で活用されることは明らかである。さらに、音声認識部40は、非常に多面的(ないし汎用的)で、かつ選択性に富むように構想された、単一の画像記録再生装置、及び画像記録再生方法を示すことができることは明らかである。
好適には、音声認識部40は、音声注釈をテキストデータに変換するために、ユーザをして音声認識部40を作動させる、起動手段42に連携する。
特に、起動手段42は、画像が撮影、及び/又は表示される前に、ユーザによって起動される。又は、起動手段42は、画像が撮影された後、特に、画像が表示される時に、ユーザによって起動される。例えば、好ましくは画像記録再生装置1の外表面に配置される、ボタンを(図示せず)を備えてもよい。
また、画像記録再生装置1は、デジタル画像ファイル、及び/又は音声注釈、及び/又はテキストデータに変換された音声注釈を保存する信号処理部20に連結するメモリ50を備える。メモリ50は、RAM(Random Access Memory)、ROM(Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)等を備えることができる。
さらに、画像記録再生装置1は、信号処理部20と連携する表示部60を備える。周知のように、表示部60は、複数の目的に使用されることができる。
特に、
- 撮影されるべき画像を、ユーザに対して表示する目的。その場合、表示部60は、ユーザが、画面中央で、画像、及び画像内でポーズをとる人に焦点を合わせられるようにする等ができる。
- デジタル画像ファイルとしてメモリ50に記録された撮影画像を表示する目的。
- ユーザに情報を伝えるメニューを表示する目的。
- 画像記録再生装置1の機能を選択する目的。
- 画像記録再生装置1の処理を制御する目的等。
本願発明に係る好適な実施形態において、表示部60は、画像記録再生装置1の操作を表示するための複数の言語から言語を選択し、かつ言語サブセット41の一つを選択するOSD(On Screen Display)システムを備える。
上述の通り、画像記録再生装置1は、伝統的な方法、及び国際基準(標準)に従ってメタデータを生成する入力手段(図1において、図示せず)を備える。即ち、画像記録再生装置1はデジタル画像ファイルに追加されるメタデータを生成する入力手段を備える。例えば、入力手段は、キーボード、又はタッチスクリーンを備えてもよい。
図2及び図3は、本願発明に係る画像記録再生方法の第1、及び第2の形態の表示に関する。
特に、画像記録再生方法は、以下の工程を含む:即ち
- 対応する複数の言語から取得した、音声注釈を認識し、テキストに変換する音声認識部40に、限定された数の、複数の単語サブセット41を製造サイトで保存する工程(ステップ150)と、
- 撮像系10を備える画像記録再生装置1によって、画像を撮影する工程(ステップ100)と、
- 撮像系10に連結された信号処理部20を介して、撮影画像をデジタル画像ファイルとして処理する工程(ステップ110)と、
- 信号処理部20に連結されたオーディオ系30の方法によって、特にメモリ50に、デジタル画像ファイルに関連すると想定される、少なくとも一の音声注釈を記録する工程(ステップ120)と、
- 信号処理部20に連携された音声認識部40によって、少なくとも一の音声注釈を認識し、音声注釈をテキストデータに変換する工程(ステップ130)と、
- テキストデータを使用してメタデータを生成し、生成されたメタデータをデジタル画像ファイルに追加する工程(ステップ140)と、
を含む。
本願発明において、音声注釈を認識し、テキストデータに変換する工程(ステップ130)は、対応する複数の言語から取得された音声注釈を認識し、テキストデータに変換する音声認識部40に保存された複数の単語サブセット41のうち、一つの単語サブセット41を使用して、実行される。
図2、及び図3において、線Lは、音声認識部40の限定された数の、複数の単語サブセット41を保存する工程(ステップ150)が、製造サイトで達成されることを示す。
特に、本願発明に係る画像記録再生方法は、音声認識部40の起動手段42を起動させる工程(ステップ160)を介して実行される。ここで、起動手段42は、ユーザに音声注釈をテキストデータに変換するために、音声認識部40を作動させる。
図2に示すように、起動手段42を起動させる工程(ステップ160)は、撮影画像を処理する工程(ステップ110)の後で実行される。即ち、画像記録再生装置1のメモリ50が、撮影画像を記録した後で、起動手段42を起動させる工程(ステップ160)は実行される。その場合、ステップ160は、慣習的なファイル名の画像ファイルを生成する工程(ステップ161)より先に、実行される。さらに、ユーザが起動手段42を起動しないと決定している場合、画像記録再生装置1は、慣習的なファイル名の画像ファイルを生成する工程(ステップ161)を実行する。
あるいは、特に、図3に示すように、起動手段42を起動する工程(ステップ160)は、画像を撮影する工程(ステップ100)の前に、実行される。
さらに、本願発明に係る画像記録再生方法は、表示部60に備わるOSD(On Screen Display)システムを用いて、画像記録再生装置1の操作内容を表示する複数の言語から言語を選択し、かつ限定された単語数の単語サブセット41の一つを選択する工程(ステップ180)を含む。
好適には、図2に示す方法を参照して、言語と単語サブセットを選択する工程(ステップ180)は、画像を撮影する工程(ステップ100)の前に、実行されることが好ましい。そして、図3を参照して、言語と単語サブセットを選択する工程(ステップ180)は、起動手段42を起動する工程(ステップ160)の後に実行されることが好ましい。
さらに、本願発明は、コンピュータが読み込み可能な記録媒体内に、コンピュータが読み込み可能なメタデータを含む形態でもよいことを述べる必要がある。コンピュータが読み込み可能な記録媒体ないしデータは、コンピュータシステムが読み込み可能なデータを保存できる、任意のデータ記録デバイスである。例えば、コンピュータが読み込み可能な記録媒体は、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access Memory)、CD−ROM(Compact Disk Read Only Memory)、磁気テープ、フロッピー(登録商標)ディスク、光学記録デバイス等を含む。
本願発明に係る画像記録再生装置、及び画像記録再生方法の利点(ないし効果)は、上述の記載より明らかである。
特に、上述の効果は、複数の単語サブセット41を備える音声認識部40を提供することで、複数の言語を認識し、テキストデータに変換できるようになることに基づく。特に、これは、高価であり、プログラムサイズが非常に大きく、たいていは、認識し、テキストデータに変換される各言語に対して数メガバイト(ないしギガバイト)のサイズである音声認識部40を用いることなく実現できる。
従って、音声認識部40は、認識され、テキストデータに変換される所定の言語を選択することなく、画像記録再生装置1に活用できることは明らかである。従って、本願発明に係る音声認識部40の特定の実現は、多面的(ないし汎用的)で、かつ選択性に富むであるように構想される画像記録再生装置1を示すことができる。
例示として記載された画像記録再生装置、及び画像記録再生方法は、新規な発明思想から逸脱しない、多数の可能な変形例を許容する。発明の実質的な実装において、上述の詳細は、異なるステップの順序の変更、異なるデバイス、又は他の技術的に等価な要素で置換されても良い。
例えば、図2及び図3に示す実施形態に関して言うと、画像記録再生装置1の操作を表示するための言語、及び単語サブセット41の一つを選択した結果として、言語を選択する工程(ステップ180)は、ユーザによって手動で、又は画像記録再生装置1によって自動で、起動手段を起動する工程(ステップ160)の直後に実行されても良い。
従って、本願発明は、上述の画像記録再生装置、又は画像記録再生方法に限定されず、請求の範囲として明示したように、本願発明の思想から逸脱せず、多数の変形、等価な部品、及び要素を改良、又は置換を行っても良いことは容易に理解できる。
1 画像記録再生装置
10 撮像系
11 レンズ/シャッター機構
12 センサ
20 信号処理部
30 オーディオ系
31 マイク
32 スピーカ
40 音声認識部
41 単語サブセット
42 起動手段
50 メモリ
60 表示部
これらの目的は、本明細書の一部をなすものと意図される、特許請求の範囲に記載の特徴を組込んで成る、本願発明の画像記録再生装置、及び画像記録再生方法によって達成される。
本発明の一視点において画像記録再生装置が提供される。該装置において本発明にしたがい、画像を撮影する撮像系と、
前記撮像系と連結され、前記撮影画像をデジタル画像ファイルとして処理する信号処理部と、
前記信号処理部と連結され、前記デジタル画像ファイルと関連するよう適合された少なくとも一の音声注釈を取得するオーディオ系と、
少なくとも一の前記音声注釈を認識し、前記音声注釈をテキストデータに変換する音声認識部と、を備え、前記音声認識部は、信号処理部と連携して、前記テキストデータを使ってメタデータを生成し、生成された前記メタデータを前記デジタル画像ファイルに追加する、画像記録再生装置であって、
前記音声認識部は、複数の単語サブセットを備え、各サブセットは、対応する複数の言語から取得された音声注釈を認識し、テキストに変換するために、限定された数の単語を有し、
各前記単語サブセットは、所定の画像に関して、製造サイトで、頻繁に使用される単語のうち、限定された単語数の所定の言語を選択し、記憶して、限定された単語数について、所定の言語に対する関連する翻訳(relative translation)を備える。(形態1)
本発明において、以下の展開形態が可能である。
(形態2)画像記録再生装置において、前記音声認識部は、前記音声注釈をテキストデータに変換するために、ユーザに当該音声認識部を起動させる起動手段に連携することが好ましい。
(形態3)画像記録再生装置において、前記デジタル画像ファイル、及び/又は前記音声注釈、及び/又はテキストデータに変換された音声注釈を保存する、信号処理部に連結するメモリを備えることが好ましい。
(形態4)画像記録再生装置において、前記信号処理部と連携する表示部を備えることが好ましい。
(形態5)画像記録再生装置において、画像記録再生装置の操作を表示するための複数の言語から言語を選択し、かつ限定された単語数の言語サブセットの一つを選択するよう適合されたOSD(On Screen Display)システムを備える前記表示部を備えることが好ましい。
(形態6)画像記録再生装置において、前記テキストデータを使用してメタデータを生成し、所定の国際基準に従って、前記メタデータを符号化することが好ましい。
本発明の第2の視点において、下記の画像記録再生方法が提供される。この画像記録再生方法は、撮像系を備える画像記録再生装置によって、画像を撮影する工程と、
前記撮像系に連結する信号処理部を介して、撮影画像をデジタル画像ファイルとして処理する工程と、
前記信号処理部に連結するオーディオ系によって、前記デジタル画像ファイルと関連するよう適合された、少なくとも一の音声注釈を、特にメモリに記録する工程と、
前記信号処理部に関連する音声認識部によって、前記音声注釈を認識し、少なくとも一の前記音声注釈をテキストデータに変換する工程と、
前記テキストデータを使用してメタデータを生成し、生成された前記メタデータを前記デジタル画像ファイルに追加する工程と、
を含み、
少なくとも一の前記音声注釈を認識し、前記音声注釈をテキストデータに変換する工程は、対応する複数の言語から取得された音声注釈を認識し、テキストデータに変換する音声認識部に、限定された単語数の複数の単語サブセットを製造サイトで保存する工程によって実行される。(形態7)
(形態8)画像記録再生方法において、前記音声注釈をテキストデータに変換するために、ユーザに前記音声認識部を起動させる、前記音声認識部の起動手段を起動する工程を含むことが好ましい。
(形態9)画像記録再生方法において、前記起動手段を起動する前記工程は、撮影画像を処理する工程の後に実行されることが好ましい。
(形態10)画像記録再生方法において、前記起動手段を起動する前記工程は、画像を撮影する工程の前に実行されることが好ましい。
(形態11)画像記録再生方法において、前記起動手段を起動する前記工程は、慣習的なファイル名の画像を生成する工程に先立って実行されることが好ましい。
(形態12)画像記録再生方法において、前記表示部に備わるOSD(On Screen Display)システムによって、前記画像記録再生装置の操作内容を表示する複数の言語から言語を選択し、かつ限定された単語数の前記単語サブセットの一つを選択する工程を含むことが好ましい。
(形態13)画像記録再生方法において、言語を選択し、限定された単語数のサブセットを選択する工程は、画像を撮影する工程の前に実行されることが好ましい。
(形態14)画像記録再生方法において、言語を選択し、限定された単語数のサブセットを選択する工程は、前記起動手段を起動する工程の後に実行されることが好ましい。
本発明の第3の視点において、形態7乃至14のいずれか一に記載の手段を実行するためのコンピュータプログラム製品が提供される。(形態15)
(形態16)形態15のコンピュータプログラム製品に関連する読み込み可能な記録媒体/データキャリアが提供される。
なお、特許請求の範囲に付記した図面参照番号はもっぱら理解を助けるためであり、図示の態様に限定することを意図するものではない。

Claims (17)

  1. 画像を撮影する撮像系(10)と、
    前記撮像系(10)と連結され、前記撮影画像をデジタル画像ファイルとして処理する信号処理部(20)と、
    前記信号処理部(20)と連結され、前記デジタル画像ファイルと関連するよう適合された少なくとも一の音声注釈を取得するオーディオ系(30)と、
    少なくとも一の前記音声注釈を認識し、前記音声注釈をテキストデータに変換する音声認識部(40)と、を備え、前記音声認識部(40)は、信号処理部(20)と連携し、前記テキストデータを使ってメタデータを生成し、生成された前記メタデータを前記デジタル画像ファイルに追加する、画像記録再生装置(1)であって、
    前記音声認識部(40)は、複数の単語サブセット(41)を備え、各サブセット(41)は、対応する複数の言語から取得された音声注釈を認識し、テキストに変換するために、限定された数の単語を有する、
    ことを特徴とする画像記録再生装置(1)。
  2. 各前記単語サブセット(41)は、所定の画像に関して、製造サイトで、頻繁に使用される単語のうち、限定された単語数の所定の言語を選択し、記憶して、限定された単語数について、所定の言語に対する関連する翻訳(relative translation)を備える請求項1に記載の画像記録再生装置(1)。
  3. 前記音声認識部(40)は、前記音声注釈をテキストデータに変換するために、ユーザに当該音声認識部(40)を起動させる、起動手段(42)に連携する請求項1又は2に記載の画像記録再生装置(1)。
  4. 前記デジタル画像ファイル、及び/又は前記音声注釈、及び/又はテキストデータに変換された前記音声注釈を保存する前記信号処理部(20)に連結するメモリ(50)を備える請求項1に記載の画像記録再生装置(1)。
  5. 前記信号処理部(20)と連携する表示部(60)を備える請求項1に記載の画像記録再生装置(1)。
  6. 画像記録再生装置(1)の操作を表示するための複数の言語から言語を選択し、かつ言語サブセット(41)の一つを選択するよう適合されたOSD(On Screen Display)システムを備える前記表示部(60)を備える請求項5に記載の画像記録再生装置(1)。
  7. 前記テキストデータを使用してメタデータを生成し、所定の国際基準に従って、前記メタデータを符号化する請求項1に記載の画像記録再生装置(1)。
  8. 撮像系(10)を備える画像記録再生装置(1)の画像を撮影する工程(ステップ100)と、
    前記撮像系(10)に連結する信号処理部(20)を介して、撮影画像をデジタル画像ファイルとして処理する工程(ステップ110)と、
    前記信号処理部(20)に連結するオーディオ系(30)によって、前記デジタル画像ファイルと関連するよう適合された、少なくとも一の音声注釈を、特にメモリ(50)に記録する工程(ステップ120)と、
    前記信号処理部(20)に関連する音声認識部(40)によって、前記音声注釈を認識し、少なくとも一の前記音声注釈をテキストデータに変換する工程(ステップ130)と、
    前記テキストデータを使用してメタデータを生成し、生成された前記メタデータを前記デジタル画像ファイルに追加する工程(ステップ140)と、
    を含む画像記録再生方法であって、
    少なくとも一の前記音声注釈を認識し、前記音声注釈をテキストデータに変換する工程(ステップ130)は、対応する複数の言語から取得された音声注釈を認識し、テキストデータに変換する音声認識部(40)に、限定された単語数の、複数の単語サブセット(41)を製造サイトで保存する工程(ステップ150)によって実行される、
    ことを特徴とする画像記録再生方法。
  9. 前記音声注釈をテキストデータに変換するために、ユーザに前記音声認識部(40)を起動させる、前記音声認識部(40)の起動手段(42)を起動する工程(ステップ160)を含む請求項8に記載の画像記録再生方法。
  10. 前記起動手段(42)を起動する前記工程(ステップ160)は、撮影画像を処理する工程(ステップ110)の後に実行される請求項9に記載の画像記録再生方法。
  11. 前記起動手段(42)を起動する前記工程(ステップ160)は、画像を撮影する工程(ステップ100)の前に実行される請求項9に記載の画像記録再生方法。
  12. 前記起動手段(42)を起動する前記工程(ステップ160)は、慣習的なファイル名の画像を生成する工程(ステップ161)に先立って実行される請求項11に記載の画像記録再生方法。
  13. 前記画像記録再生装置(1)を操作するために表示する複数の言語から言語を選択し、かつ前記表示部(60)に備わるOSD(On Screen Display)システムによって、限定された単語数の前記単語サブセット(41)の一つを選択する工程(ステップ180)を含む請求項8に記載の画像記録再生方法。
  14. 言語を選択し、限定された単語数のサブセットを選択する前記工程(ステップ180)は、画像を撮影する工程(ステップ100)の前に実行される請求項13に記載の画像記録再生方法。
  15. 言語を選択し、限定された単語数のサブセットを選択する前記工程(ステップ180)は、前記起動手段(42)を起動する工程(ステップ160)の後に実行される請求項13に画像記録再生方法。
  16. 請求項8乃至15のいずれか一に記載の手段を実行するためのコンピュータプログラム製品。
  17. 請求項16のコンピュータプログラム製品に関連する読み込み可能な記録媒体/データキャリア。
JP2013512769A 2010-06-02 2010-06-02 画像記録再生装置、及び画像記録再生方法 Pending JP2013534741A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2010/057747 WO2011150969A1 (en) 2010-06-02 2010-06-02 Apparatus for image data recording and reproducing, and method thereof

Publications (1)

Publication Number Publication Date
JP2013534741A true JP2013534741A (ja) 2013-09-05

Family

ID=43016538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013512769A Pending JP2013534741A (ja) 2010-06-02 2010-06-02 画像記録再生装置、及び画像記録再生方法

Country Status (6)

Country Link
US (1) US20130155277A1 (ja)
EP (1) EP2577654A1 (ja)
JP (1) JP2013534741A (ja)
KR (1) KR20130095659A (ja)
CN (1) CN102918586B (ja)
WO (1) WO2011150969A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130120594A1 (en) * 2011-11-15 2013-05-16 David A. Krula Enhancement of digital image files
US8768693B2 (en) * 2012-05-31 2014-07-01 Yahoo! Inc. Automatic tag extraction from audio annotated photos
CN104679724A (zh) * 2013-12-03 2015-06-03 腾讯科技(深圳)有限公司 页面注释方法及装置
CN107870713B (zh) * 2016-09-27 2020-10-16 洪晓勤 具有兼容性的图文一体化的图片处理方法
JP7042167B2 (ja) * 2018-06-13 2022-03-25 本田技研工業株式会社 車両制御装置、車両制御方法、およびプログラム
JPWO2021039057A1 (ja) * 2019-08-29 2021-03-04

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0876288A (ja) * 1994-08-30 1996-03-22 Eastman Kodak Co カメラに内蔵された音声メッセージ記録装置
JPH09500223A (ja) * 1993-07-13 1997-01-07 ボルドー、テオドール・オースチン 多言語音声認識システム
JP2001075777A (ja) * 1999-09-03 2001-03-23 Sony Corp 情報処理装置および方法、並びにプログラム格納媒体
JP2002325225A (ja) * 2001-01-31 2002-11-08 Internatl Business Mach Corp <Ibm> テキスト形式の説明によってディジタル・イメージの質を向上させるための方法及び装置
JP2004301894A (ja) * 2003-03-28 2004-10-28 Fuji Photo Film Co Ltd 音声記録方法および装置、デジタルカメラ、並びに画像再生方法および装置
JP2006030874A (ja) * 2004-07-21 2006-02-02 Fuji Photo Film Co Ltd 画像記録装置
JP2006133433A (ja) * 2004-11-05 2006-05-25 Fuji Photo Film Co Ltd 音声/文字変換システムならびに携帯型端末装置および変換サーバならびにそれらの制御方法
JP2007052626A (ja) * 2005-08-18 2007-03-01 Matsushita Electric Ind Co Ltd メタデータ入力装置およびコンテンツ処理装置
JP2009237439A (ja) * 2008-03-28 2009-10-15 Kddi Corp 携帯端末の音声認識装置、音声認識方法、音声認識プログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4036528B2 (ja) * 1998-04-27 2008-01-23 富士通株式会社 意味認識システム
US6462778B1 (en) * 1999-02-26 2002-10-08 Sony Corporation Methods and apparatus for associating descriptive data with digital image files
JP2003178067A (ja) * 2001-12-10 2003-06-27 Mitsubishi Electric Corp 携帯端末型画像処理システム、携帯端末およびサーバ
US20050118990A1 (en) * 2003-12-02 2005-06-02 Sony Ericsson Mobile Communications Ab Method for audible control of a camera
GB2409365B (en) * 2003-12-19 2009-07-08 Nokia Corp Image handling
JP2006163877A (ja) * 2004-12-08 2006-06-22 Seiko Epson Corp メタデータ生成装置
US20070236583A1 (en) * 2006-04-07 2007-10-11 Siemens Communications, Inc. Automated creation of filenames for digital image files using speech-to-text conversion
US8502876B2 (en) * 2006-09-12 2013-08-06 Storz Endoskop Producktions GmbH Audio, visual and device data capturing system with real-time speech recognition command and control system
JP4896838B2 (ja) * 2007-08-31 2012-03-14 カシオ計算機株式会社 撮像装置、画像検出装置及びプログラム
JP4962783B2 (ja) * 2007-08-31 2012-06-27 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
US20090298529A1 (en) * 2008-06-03 2009-12-03 Symbol Technologies, Inc. Audio HTML (aHTML): Audio Access to Web/Data
US20100238323A1 (en) * 2009-03-23 2010-09-23 Sony Ericsson Mobile Communications Ab Voice-controlled image editing
US8558919B2 (en) * 2009-12-30 2013-10-15 Blackberry Limited Filing digital images using voice input
US20130120594A1 (en) * 2011-11-15 2013-05-16 David A. Krula Enhancement of digital image files

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09500223A (ja) * 1993-07-13 1997-01-07 ボルドー、テオドール・オースチン 多言語音声認識システム
JPH0876288A (ja) * 1994-08-30 1996-03-22 Eastman Kodak Co カメラに内蔵された音声メッセージ記録装置
JP2001075777A (ja) * 1999-09-03 2001-03-23 Sony Corp 情報処理装置および方法、並びにプログラム格納媒体
JP2002325225A (ja) * 2001-01-31 2002-11-08 Internatl Business Mach Corp <Ibm> テキスト形式の説明によってディジタル・イメージの質を向上させるための方法及び装置
JP2004301894A (ja) * 2003-03-28 2004-10-28 Fuji Photo Film Co Ltd 音声記録方法および装置、デジタルカメラ、並びに画像再生方法および装置
JP2006030874A (ja) * 2004-07-21 2006-02-02 Fuji Photo Film Co Ltd 画像記録装置
JP2006133433A (ja) * 2004-11-05 2006-05-25 Fuji Photo Film Co Ltd 音声/文字変換システムならびに携帯型端末装置および変換サーバならびにそれらの制御方法
JP2007052626A (ja) * 2005-08-18 2007-03-01 Matsushita Electric Ind Co Ltd メタデータ入力装置およびコンテンツ処理装置
JP2009237439A (ja) * 2008-03-28 2009-10-15 Kddi Corp 携帯端末の音声認識装置、音声認識方法、音声認識プログラム

Also Published As

Publication number Publication date
EP2577654A1 (en) 2013-04-10
CN102918586B (zh) 2015-08-12
KR20130095659A (ko) 2013-08-28
CN102918586A (zh) 2013-02-06
US20130155277A1 (en) 2013-06-20
WO2011150969A1 (en) 2011-12-08

Similar Documents

Publication Publication Date Title
KR100856407B1 (ko) 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법
US8462231B2 (en) Digital camera with real-time picture identification functionality
US20070236583A1 (en) Automated creation of filenames for digital image files using speech-to-text conversion
KR101720774B1 (ko) 디지털 촬영 장치 및 그의 사진 제공 방법
US20120062766A1 (en) Apparatus and method for managing image data
JP2013534741A (ja) 画像記録再生装置、及び画像記録再生方法
CN104580888A (zh) 一种图像处理方法及终端
US9973649B2 (en) Photographing apparatus, photographing system, photographing method, and recording medium recording photographing control program
TW200816178A (en) Recording device and method, imaging device, reproduction device and method, and program
WO2015074203A1 (zh) 一种图片展示方法及装置、终端设备
JP2013090267A (ja) 撮像装置
US20150324395A1 (en) Image organization by date
US20090002497A1 (en) Digital Camera Voice Over Feature
JP2009081785A (ja) 撮像装置、画像生成方法、およびプログラム
JP5173666B2 (ja) カメラ
JP2008102845A (ja) 情報処理装置および方法、並びにプログラム
JP5372219B2 (ja) 画像送信機能付きカメラ及び画像送信方法
JP4930343B2 (ja) ファイル生成装置、ファイル生成方法およびプログラム
JP2005260355A (ja) 重要度付加装置、重要度情報生成方法、電子アルバム作成装置、電子アルバム作成方法、及びプログラム
KR20230008687A (ko) 스마트폰에서 사진 자동 레이블링 및 녹음 장치 및 방법
JP2007214873A (ja) フォトスタジオにおける撮影画像提供方法
JP2007065897A (ja) 撮像装置及びその制御方法
TWI510940B (zh) 以語音訊號建立備註資料之影像瀏覽裝置及其方法
JP6107897B2 (ja) 画像情報処理装置及びプログラム
JP5613223B2 (ja) 撮影システムの表示方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130530

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130530

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140818

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150303