JP2013534741A

JP2013534741A - 画像記録再生装置、及び画像記録再生方法

Info

Publication number: JP2013534741A
Application number: JP2013512769A
Authority: JP
Inventors: ロドリゲスエセキエル、ルイス
Original assignee: ナクソスファイナンスエスエー
Priority date: 2010-06-02
Filing date: 2010-06-02
Publication date: 2013-09-05
Also published as: EP2577654A1; CN102918586B; KR20130095659A; CN102918586A; US20130155277A1; WO2011150969A1

Abstract

【課題】複数の言語を認識し、テキストデータに変換できる装置、及び方法を提供する。
【解決手段】本発明に係る画像記録再生装置は、画像を撮影する撮像系と、撮像系と結合され、撮影画像をデジタル画像ファイルとして処理する信号処理部と、信号処理部と結合され、デジタル画像ファイルと関連する少なくとも一の音声注釈を取得するオーディオ系と、少なくとも一の音声注釈を認識し、音声注釈をテキストデータに変換する音声認識部と、を備え、音声認識部は、信号処理部と連携し、テキストデータを使ってメタデータを生成し、生成されたメタデータをデジタル画像ファイルに追加する、画像記録再生装置であって、音声認識部は、複数の単語サブセットを備え、各サブセットは、対応する複数の言語から取得された音声注釈を認識し、テキストに変換するために、限定された数の単語を有する。
【選択図】図２

Description

本願発明は、本願請求項１の前提部分に係る画像記録再生装置に関する。

また、本願発明は、画像記録再生方法に関し、特に、自動的にデジタル画像ファイルのためのメタデータ作成に関する。

画像記録再生装置、及び画像記録再生方法は、出願時の技術水準では、特に、画像を撮影し、それらの画像をデジタルメディアに保存するデジタルカメラを備える装置において、周知である。なお、本書において、「装置」、及び／又は「カメラ」は、デジタルスチルカメラ、デジタルビデオカメラ、デジタルカメラを活用した携帯電話等に関するために用いる。

出願時の技術水準において周知の装置において、画像が撮影された時間と、画像が印刷、又は表示された時間と、の間から、ユーザ（たいていは、撮影者を含む）は、画像に関する情報へのアクセスを忘れる、またはアクセスしない。ここで、画像に関する情報とは、画像が撮影された時間、及び／又は画像が撮影された場所、及び／又は画像中の人物に関する情報等である。

いくつかのデジタルカメラは、写真に関して、画像が撮影された日時を表すような文字を付加できる。この文字は、典型的に、カメラによって作成され、所定の位置に、所定のフォーマットで撮影画像に合成される。

上述の画像に付加される文字は、小さい情報量を含むだけであり、デジタルカメラのユーザが画像を区別するために、ほとんど、又は全く無益な情報を伝える。

同様の問題は、デジタルカメラにおいて、デジタル画像ファイルを識別、追跡するためのファイルの命名方法においても発生する。実際には、デフォルトのファイル命名方法は、以下の方法を採用している。
- デジタル画像ファイルの種類を示すための文字の組み合わせ（例えば、“ＤＳＣ”、“ＩＭＧ”、“ＰＩＣＴ”、“ＤＳＣＮ”等）
- デジタル画像を他のデジタル画像と区別するために、上述の文字の組み合わせに、付加する数字の序列（例えば、“００１”、“００２”等）
- 画像の種類を示すために、数字の序列の後に付加するファイル拡張子（例えば、“．ＴＩＦ”、“．ＪＰＧ”等）

従って、デフォルトのファイル命名方法においても、ユーザは、特定の画像ファイルの内容について、ほとんど、又は全く有益な情報を得られない。実際には、画像ファイルがユーザの所望の人物、場所等の画像であるかを判断するためには、ユーザは、画像ファイルを開いて、画像を見る必要がある。最終的には、ユーザはコンピュータを用いて、画像ファイルの命名方法を編集できるが、実際的には、画像を保存した後、時間の経過後には、この可能性は役に立たない。

特許文献１において、画像記録再生装置に関して記載されている。特許文献１に記載された装置は、
- 画像を撮影し、画像データを生成するために撮影された画像を処理し、画像データを備える画像ファイルを生成する信号処理部と、
- 言語を認識し、言語をテキストデータに変換する音声認識部と、
- テキストデータを使用してメタデータを生成し、生成したメタデータファイルに追加する制御部と、
を備える。

特許文献１に記載された技術においては、画像の撮影直後、及び／又は画像を見直している間に、信頼できるメタデータ（例えば、撮影場所、又は画像に含まれる人物のようなメタデータ）を画像ファイルに追加できるように、画像ファイルに含まれるメタデータは、音声認識部を使用して変換されたテキストデータを使用して生成される。

さらに、画像が撮影された時に画像ファイルを分類できるように、画像ファイルが保存されるフォルダ名は、音声認識部を使用して変換されたテキストデータに基づいて生成される。

欧州特許出願公開第１８７６５９６号

しかし、特許文献１に記載された装置でさえ、所定の一つの言語を認識し、変換することを採用するので、いくつかの欠点が見られる。

実際には、言語を認識し、テキストデータに変換するプログラム、及びソフトウェアは、高価であり、プログラムサイズが大きく、たいてい、認識し、テキストデータに変換される各言語に対してメガバイト（又はギガバイト）のサイズである。従って、そのプログラム、及びソフトウェアは、各画像記録再生装置に対して、所定の一つの言語のみを選択しなければ、画像記録再生装置に活用されない。

これは、特許文献１において教示される技術に従って実現される装置は、一つの言語のみを認識し、テキストデータに変換するためのプログラムを備えることが必要であることを示唆している。

これは、必然的に特許文献１に記載された装置は、多面的（ないし汎用的）で、かつ選択性に富むものとはなり得ないことを意味する。なぜなら、ユーザ自身の言語をテキストデータに変換するために、ユーザ自身の言語を認識する、特定のプログラムを備える装置が必要だからである。

また、これは、装置の製造者は、異なる国で販売可能である、単一の装置を製造できないことを意味する。ここで、異なる国とは、ユーザが異なる言語を話す国を意味する。装置の製造者が、異なる国で販売可能である、単一の装置を製造できない結果として、同一の製品において、言語のモデル数が増加し、製造コストが増加する。

以上より、本願発明の主目的は、複数の言語を認識し、テキストデータに変換できる画像記録再生装置、及び画像記録再生方法を提供することによって、上述の欠点を克服することである。

さらに、本願発明の目的は、多面的（ないし汎用的）で、かつ選択性に富むように構想される、画像記録再生装置、及び画像記録再生方法を提供することである。

さらに、本願発明の目的は、複数の異なる言語を認識し、テキストデータに変換できる単一の画像記録再生装置、及び画像記録再生方法を提供することである。

これらの目的は、本明細書の一部をなすものと意図される、特許請求の範囲に記載の特徴を組込んで成る、本願発明の画像記録再生装置、及び画像記録再生方法によって達成される。

更なる本願発明の目的、特徴、効果は、以下の詳細な説明、及び図面から明らかである。なお、以下の詳細な説明、及び図面は、発明の範囲の限定を意図した例ではない。

本願発明に係る画像記録再生装置をデジタルカメラとする場合の、本願発明に係る画像記録再生装置の内部構成を示すブロック図である。第１の実施形態に係る画像記録再生方法を示すブロック図である。第２の実施形態に係る画像記録再生方法を示すブロック図である。

図１において、参照符号１は、本願発明に係る画像記憶成装置の全体構成を示す。

本願発明の実施例に係る画像記録再生装置１は、デジタルスチルカメラ、デジタルビデオカメラ、デジタルカメラ機能を備える携帯電話等であっても良い。

画像記録再生装置は、
- 画像を撮影する撮像系１０と、
- 撮像系１０に連結し、撮影画像をデジタル画像ファイルとして処理する信号処理部２０と、
信号処理部２０と連結し、デジタル画像ファイルと関連すると想定される、少なくとも一つの音声注釈を取得するオーディオ系３０と、
- 少なくとも一つの音声注釈を認識し、認識した音声注釈をテキストデータに変換する音声認識部４０と、を備え、
- 音声認識部４０は、信号処理部２０と連携して、テキストデータを使ってメタデータを生成し、生成されたメタデータをデジタル画像ファイルに追加する。

撮像系１０は、対象物を撮影するためのセンサ１２に光を向け、合焦するレンズ／シャッター機構１１を備えていてもよい。特に、センサ１２は、１又は２以上のＣＣＤ（Charge Coupled Device）、又は１又は２以上のＣＭＯＳ（Complementary Metal-Oxide Semiconductor）を備えることができる。

従って、信号処理部２０は、レンズ／シャッター機構１１の処理を制御し、デジタルフォーマットで撮影画像を含む画像ファイルを生成するために、センサ１２から受信した画像情報を処理する。

画像ファイルがスチル画像データを含む場合、デジタル画像ファイルは、ＪＰＥＧ（Joint Photographic Experts Group）フォーマット、ＴＩＦＦ（Tag Image File Format）フォーマットであってもよい。画像ファイルが、動画データを含む場合、デジタル画像ファイルは、ＭＰＥＧ（Moving Picture Experts Group）フォーマット、又は出願時の技術水準において周知の他のビデオフォーマットであってもよい。

さらに、出願時の技術水準において周知のように、各画像ファイルは、画像データ保存する領域と、画像に関する情報を保存する領域と、を含む。これは、国際基準に従って、画像ファイルが生成される。実際には、以下の如く、画像ファイルにどのようにメタデータを追加するかを定義した複数の機関ないし組織（entities）がある。
- ＩＩＭ（IPTC Information Interchange Model、IPTC（International Press Telecommunication Councils））フォーマット、
- ＩＰＴＣＣｏｒｅＳｃｈｅｍａｆｏｒＸＭＰ（Extensible Metadata Platform）（Ａｄｏｂｅ社の標準フォーマット）、
- ＥＸＩＦ（Exchangeable image file format）フォーマット。ＥＸＩＦフォーマットは、ＣＩＰＡ（Camera & Imaging Products Association）によって維持され、かつＪＥＩＴＡ（Japan Electronics and Information Technology Industries Association）によって発行されているフォーマットである。
- ＤｕｂｌｉｎＣｏｒｅフォーマット（ＤＣＭＩ（Dublin Core Metadata Initiative）フォーマット）、
- ＰＬＵＳ（Picture Licensing Universal System）フォーマット。

図１に示すように、オーディオ系３０は、ユーザに、短時間のオーディオ、又は音声注釈（voice annotation）を記録させたり、デジタルビデオ記録のための音声を記録させたり、音声コマンドを入力等させることが可能なマイク３１を備えることが好ましい。また、オーディオ系３０は、スピーカ３２を備えても良い。

本願発明によれば、音声認識部４０は、対応する複数の言語から取得した音声注釈を認識し、テキストに変換するために、複数の単語サブセット（subsets of words）４１を備える。ここで、各単語サブセット４１の単語数には、限界がある。

特に、各単語サブセット４１は、特定の言語について、完全な辞書を備えない。しかし、各単語サブセット４１は、所定の画像に関連して、製造サイトで、頻繁に使用される単語のうちにおいてのみ、限定された数の単語を選択し、記憶して、所定の言語に関する限定された数の単語のみに関して、関連する翻訳（relative translation）を備える。

特に、それらの複数の単語は、以下を備えてもよい。

- 祝いを表す単語、及び／又は繰り返しを表す単語、及び／又は祭日を表す単語（例えば、“パーティー”、“休日”、“（キリスト教における）洗礼式”、“結婚”、“誕生日”、“クリスマス”、“イースター”等）
- 地理的な場所を表す単語（例えば、“海”、“砂漠”、“丘”、“山”、“湖”等）
- 世界中の国を表す単語（例えば、“ドイツ”、“フランス”、“イタリア”、“アメリカ合衆国”、“日本”、“中国”、“韓国”等）、及びこれらの国の主要都市（例えば、“フランクフルト”、“ミュンヘン”、“パリ”、“ローマ”、“ロサンジェルス”、“ラスベガス”、“東京”、“上海”、“香港”、“マカオ”、“ソウル”等）。さらに、これらの都市の有名な建造物、芸術作品（例えば、“万里の長城”、“カジノ”、“コロセウム”、“エッフェル塔”等）
- 季節を表す単語（例えば、“春”、“夏”、“秋”、“冬”等）、及び／又は月を表す単語、及び／又は曜日を表す単語
- 数字を表す単語、特に、数字を組み合わせるために、０〜９を表す単語
- 人との関係を表す単語（例えば、“兄（又は弟）”、“姉（又は妹）”、“父”、“母”、“祖父”、“祖母”、“叔父”、“叔母”、“従妹”、“友達”、“夫”、“妻”等）
- 人名を表す単語（例えば、“カール（Carl）”、“ポール（Paul）”、“ピーター（Peter）”、“ジョン（John）”、“ロバート（Robert）”、“アビー（Abbie）”、“ジェーン（Jane）”、“マリー（Mary）”、“ベス（Beth）”等）
- 動物を表す単語（例えば、“犬”、“猫”、“馬”、“鳥”等）、及び／又は物を表す単語（“家”、“来訪所”、“庭”、“教会”、“大聖堂”、“車”、“バイク”等）

これらの単語を提供することによって、単語数が単語のサブセットに限定されていても、複数の言語を認識し、テキストに変換できる画像記録再生装置、及び画像記録再生方法が、提供される。

画像記録再生装置によって、記録され、かつ認識可能な限定された数の、単語のサブセットによって、ユーザが所定の画像と関連付けしたい単語が提供されていない場合、単語を書くために、出願時の技術水準において周知の道具（キーボード、タッチスクリーン等）を利用して、手動で、ユーザが所望する特定の単語を編集できることは明らかである。

特に、本願発明に係る画像記録再生装置１、及び画像記録再生方法は、各言語を認識し、テキストに変換するために、高価で、プログラムサイズが非常に大きく、たいてい、認識し、テキストデータに変換される各言語に対して数メガバイト（ないしギガバイト）のサイズである音声認識部４０を使用せず、音声を認識し、テキストに変換できる。従って、本願発明に係る画像記録再生装置１、及び画像記録再生方法は、デジタルスチルカメラ、デジタルビデオカメラ、デジタルカメラ機能を備える携帯電話等の消費者向け製品に実装できる。そして、その際、これらの製品に、市場に受け入れられないコストを課さなくてよい。

従って、音声認識部４０は、使用される所定の言語の製造サイトを選択することなく、画像記録再生装置で活用されることは明らかである。さらに、音声認識部４０は、非常に多面的（ないし汎用的）で、かつ選択性に富むように構想された、単一の画像記録再生装置、及び画像記録再生方法を示すことができることは明らかである。

好適には、音声認識部４０は、音声注釈をテキストデータに変換するために、ユーザをして音声認識部４０を作動させる、起動手段４２に連携する。

特に、起動手段４２は、画像が撮影、及び／又は表示される前に、ユーザによって起動される。又は、起動手段４２は、画像が撮影された後、特に、画像が表示される時に、ユーザによって起動される。例えば、好ましくは画像記録再生装置１の外表面に配置される、ボタンを（図示せず）を備えてもよい。

また、画像記録再生装置１は、デジタル画像ファイル、及び／又は音声注釈、及び／又はテキストデータに変換された音声注釈を保存する信号処理部２０に連結するメモリ５０を備える。メモリ５０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）等を備えることができる。

さらに、画像記録再生装置１は、信号処理部２０と連携する表示部６０を備える。周知のように、表示部６０は、複数の目的に使用されることができる。
特に、
- 撮影されるべき画像を、ユーザに対して表示する目的。その場合、表示部６０は、ユーザが、画面中央で、画像、及び画像内でポーズをとる人に焦点を合わせられるようにする等ができる。
- デジタル画像ファイルとしてメモリ５０に記録された撮影画像を表示する目的。
- ユーザに情報を伝えるメニューを表示する目的。
- 画像記録再生装置１の機能を選択する目的。
- 画像記録再生装置１の処理を制御する目的等。

本願発明に係る好適な実施形態において、表示部６０は、画像記録再生装置１の操作を表示するための複数の言語から言語を選択し、かつ言語サブセット４１の一つを選択するＯＳＤ（On Screen Display）システムを備える。

上述の通り、画像記録再生装置１は、伝統的な方法、及び国際基準（標準）に従ってメタデータを生成する入力手段（図１において、図示せず）を備える。即ち、画像記録再生装置１はデジタル画像ファイルに追加されるメタデータを生成する入力手段を備える。例えば、入力手段は、キーボード、又はタッチスクリーンを備えてもよい。

図２及び図３は、本願発明に係る画像記録再生方法の第１、及び第２の形態の表示に関する。

特に、画像記録再生方法は、以下の工程を含む：即ち
- 対応する複数の言語から取得した、音声注釈を認識し、テキストに変換する音声認識部４０に、限定された数の、複数の単語サブセット４１を製造サイトで保存する工程（ステップ１５０）と、
- 撮像系１０を備える画像記録再生装置１によって、画像を撮影する工程（ステップ１００）と、
- 撮像系１０に連結された信号処理部２０を介して、撮影画像をデジタル画像ファイルとして処理する工程（ステップ１１０）と、
- 信号処理部２０に連結されたオーディオ系３０の方法によって、特にメモリ５０に、デジタル画像ファイルに関連すると想定される、少なくとも一の音声注釈を記録する工程（ステップ１２０）と、
- 信号処理部２０に連携された音声認識部４０によって、少なくとも一の音声注釈を認識し、音声注釈をテキストデータに変換する工程（ステップ１３０）と、
- テキストデータを使用してメタデータを生成し、生成されたメタデータをデジタル画像ファイルに追加する工程（ステップ１４０）と、
を含む。

本願発明において、音声注釈を認識し、テキストデータに変換する工程（ステップ１３０）は、対応する複数の言語から取得された音声注釈を認識し、テキストデータに変換する音声認識部４０に保存された複数の単語サブセット４１のうち、一つの単語サブセット４１を使用して、実行される。

図２、及び図３において、線Ｌは、音声認識部４０の限定された数の、複数の単語サブセット４１を保存する工程（ステップ１５０）が、製造サイトで達成されることを示す。

特に、本願発明に係る画像記録再生方法は、音声認識部４０の起動手段４２を起動させる工程（ステップ１６０）を介して実行される。ここで、起動手段４２は、ユーザに音声注釈をテキストデータに変換するために、音声認識部４０を作動させる。

図２に示すように、起動手段４２を起動させる工程（ステップ１６０）は、撮影画像を処理する工程（ステップ１１０）の後で実行される。即ち、画像記録再生装置１のメモリ５０が、撮影画像を記録した後で、起動手段４２を起動させる工程（ステップ１６０）は実行される。その場合、ステップ１６０は、慣習的なファイル名の画像ファイルを生成する工程（ステップ１６１）より先に、実行される。さらに、ユーザが起動手段４２を起動しないと決定している場合、画像記録再生装置１は、慣習的なファイル名の画像ファイルを生成する工程（ステップ１６１）を実行する。

あるいは、特に、図３に示すように、起動手段４２を起動する工程（ステップ１６０）は、画像を撮影する工程（ステップ１００）の前に、実行される。

さらに、本願発明に係る画像記録再生方法は、表示部６０に備わるＯＳＤ（On Screen Display）システムを用いて、画像記録再生装置１の操作内容を表示する複数の言語から言語を選択し、かつ限定された単語数の単語サブセット４１の一つを選択する工程（ステップ１８０）を含む。

好適には、図２に示す方法を参照して、言語と単語サブセットを選択する工程（ステップ１８０）は、画像を撮影する工程（ステップ１００）の前に、実行されることが好ましい。そして、図３を参照して、言語と単語サブセットを選択する工程（ステップ１８０）は、起動手段４２を起動する工程（ステップ１６０）の後に実行されることが好ましい。

さらに、本願発明は、コンピュータが読み込み可能な記録媒体内に、コンピュータが読み込み可能なメタデータを含む形態でもよいことを述べる必要がある。コンピュータが読み込み可能な記録媒体ないしデータは、コンピュータシステムが読み込み可能なデータを保存できる、任意のデータ記録デバイスである。例えば、コンピュータが読み込み可能な記録媒体は、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、磁気テープ、フロッピー（登録商標）ディスク、光学記録デバイス等を含む。

本願発明に係る画像記録再生装置、及び画像記録再生方法の利点（ないし効果）は、上述の記載より明らかである。

特に、上述の効果は、複数の単語サブセット４１を備える音声認識部４０を提供することで、複数の言語を認識し、テキストデータに変換できるようになることに基づく。特に、これは、高価であり、プログラムサイズが非常に大きく、たいていは、認識し、テキストデータに変換される各言語に対して数メガバイト（ないしギガバイト）のサイズである音声認識部４０を用いることなく実現できる。

従って、音声認識部４０は、認識され、テキストデータに変換される所定の言語を選択することなく、画像記録再生装置１に活用できることは明らかである。従って、本願発明に係る音声認識部４０の特定の実現は、多面的（ないし汎用的）で、かつ選択性に富むであるように構想される画像記録再生装置１を示すことができる。

例示として記載された画像記録再生装置、及び画像記録再生方法は、新規な発明思想から逸脱しない、多数の可能な変形例を許容する。発明の実質的な実装において、上述の詳細は、異なるステップの順序の変更、異なるデバイス、又は他の技術的に等価な要素で置換されても良い。

例えば、図２及び図３に示す実施形態に関して言うと、画像記録再生装置１の操作を表示するための言語、及び単語サブセット４１の一つを選択した結果として、言語を選択する工程（ステップ１８０）は、ユーザによって手動で、又は画像記録再生装置１によって自動で、起動手段を起動する工程（ステップ１６０）の直後に実行されても良い。

従って、本願発明は、上述の画像記録再生装置、又は画像記録再生方法に限定されず、請求の範囲として明示したように、本願発明の思想から逸脱せず、多数の変形、等価な部品、及び要素を改良、又は置換を行っても良いことは容易に理解できる。

１画像記録再生装置
１０撮像系
１１レンズ／シャッター機構
１２センサ
２０信号処理部
３０オーディオ系
３１マイク
３２スピーカ
４０音声認識部
４１単語サブセット
４２起動手段
５０メモリ
６０表示部

これらの目的は、本明細書の一部をなすものと意図される、特許請求の範囲に記載の特徴を組込んで成る、本願発明の画像記録再生装置、及び画像記録再生方法によって達成される。
本発明の一視点において画像記録再生装置が提供される。該装置において本発明にしたがい、画像を撮影する撮像系と、
前記撮像系と連結され、前記撮影画像をデジタル画像ファイルとして処理する信号処理部と、
前記信号処理部と連結され、前記デジタル画像ファイルと関連するよう適合された少なくとも一の音声注釈を取得するオーディオ系と、
少なくとも一の前記音声注釈を認識し、前記音声注釈をテキストデータに変換する音声認識部と、を備え、前記音声認識部は、信号処理部と連携して、前記テキストデータを使ってメタデータを生成し、生成された前記メタデータを前記デジタル画像ファイルに追加する、画像記録再生装置であって、
前記音声認識部は、複数の単語サブセットを備え、各サブセットは、対応する複数の言語から取得された音声注釈を認識し、テキストに変換するために、限定された数の単語を有し、
各前記単語サブセットは、所定の画像に関して、製造サイトで、頻繁に使用される単語のうち、限定された単語数の所定の言語を選択し、記憶して、限定された単語数について、所定の言語に対する関連する翻訳（relative translation）を備える。（形態１）
本発明において、以下の展開形態が可能である。
（形態２）画像記録再生装置において、前記音声認識部は、前記音声注釈をテキストデータに変換するために、ユーザに当該音声認識部を起動させる起動手段に連携することが好ましい。
（形態３）画像記録再生装置において、前記デジタル画像ファイル、及び／又は前記音声注釈、及び／又はテキストデータに変換された音声注釈を保存する、信号処理部に連結するメモリを備えることが好ましい。
（形態４）画像記録再生装置において、前記信号処理部と連携する表示部を備えることが好ましい。
（形態５）画像記録再生装置において、画像記録再生装置の操作を表示するための複数の言語から言語を選択し、かつ限定された単語数の言語サブセットの一つを選択するよう適合されたＯＳＤ（On Screen Display）システムを備える前記表示部を備えることが好ましい。
（形態６）画像記録再生装置において、前記テキストデータを使用してメタデータを生成し、所定の国際基準に従って、前記メタデータを符号化することが好ましい。
本発明の第２の視点において、下記の画像記録再生方法が提供される。この画像記録再生方法は、撮像系を備える画像記録再生装置によって、画像を撮影する工程と、
前記撮像系に連結する信号処理部を介して、撮影画像をデジタル画像ファイルとして処理する工程と、
前記信号処理部に連結するオーディオ系によって、前記デジタル画像ファイルと関連するよう適合された、少なくとも一の音声注釈を、特にメモリに記録する工程と、
前記信号処理部に関連する音声認識部によって、前記音声注釈を認識し、少なくとも一の前記音声注釈をテキストデータに変換する工程と、
前記テキストデータを使用してメタデータを生成し、生成された前記メタデータを前記デジタル画像ファイルに追加する工程と、
を含み、
少なくとも一の前記音声注釈を認識し、前記音声注釈をテキストデータに変換する工程は、対応する複数の言語から取得された音声注釈を認識し、テキストデータに変換する音声認識部に、限定された単語数の複数の単語サブセットを製造サイトで保存する工程によって実行される。（形態７）
（形態８）画像記録再生方法において、前記音声注釈をテキストデータに変換するために、ユーザに前記音声認識部を起動させる、前記音声認識部の起動手段を起動する工程を含むことが好ましい。
（形態９）画像記録再生方法において、前記起動手段を起動する前記工程は、撮影画像を処理する工程の後に実行されることが好ましい。
（形態１０）画像記録再生方法において、前記起動手段を起動する前記工程は、画像を撮影する工程の前に実行されることが好ましい。
（形態１１）画像記録再生方法において、前記起動手段を起動する前記工程は、慣習的なファイル名の画像を生成する工程に先立って実行されることが好ましい。
（形態１２）画像記録再生方法において、前記表示部に備わるＯＳＤ（On Screen Display）システムによって、前記画像記録再生装置の操作内容を表示する複数の言語から言語を選択し、かつ限定された単語数の前記単語サブセットの一つを選択する工程を含むことが好ましい。
（形態１３）画像記録再生方法において、言語を選択し、限定された単語数のサブセットを選択する工程は、画像を撮影する工程の前に実行されることが好ましい。
（形態１４）画像記録再生方法において、言語を選択し、限定された単語数のサブセットを選択する工程は、前記起動手段を起動する工程の後に実行されることが好ましい。
本発明の第３の視点において、形態７乃至１４のいずれか一に記載の手段を実行するためのコンピュータプログラム製品が提供される。（形態１５）
（形態１６）形態１５のコンピュータプログラム製品に関連する読み込み可能な記録媒体／データキャリアが提供される。
なお、特許請求の範囲に付記した図面参照番号はもっぱら理解を助けるためであり、図示の態様に限定することを意図するものではない。

Claims

画像を撮影する撮像系（１０）と、
前記撮像系（１０）と連結され、前記撮影画像をデジタル画像ファイルとして処理する信号処理部（２０）と、
前記信号処理部（２０）と連結され、前記デジタル画像ファイルと関連するよう適合された少なくとも一の音声注釈を取得するオーディオ系（３０）と、
少なくとも一の前記音声注釈を認識し、前記音声注釈をテキストデータに変換する音声認識部（４０）と、を備え、前記音声認識部（４０）は、信号処理部（２０）と連携し、前記テキストデータを使ってメタデータを生成し、生成された前記メタデータを前記デジタル画像ファイルに追加する、画像記録再生装置（１）であって、
前記音声認識部（４０）は、複数の単語サブセット（４１）を備え、各サブセット（４１）は、対応する複数の言語から取得された音声注釈を認識し、テキストに変換するために、限定された数の単語を有する、
ことを特徴とする画像記録再生装置（１）。
各前記単語サブセット（４１）は、所定の画像に関して、製造サイトで、頻繁に使用される単語のうち、限定された単語数の所定の言語を選択し、記憶して、限定された単語数について、所定の言語に対する関連する翻訳（relative translation）を備える請求項１に記載の画像記録再生装置（１）。
前記音声認識部（４０）は、前記音声注釈をテキストデータに変換するために、ユーザに当該音声認識部（４０）を起動させる、起動手段（４２）に連携する請求項１又は２に記載の画像記録再生装置（１）。
前記デジタル画像ファイル、及び／又は前記音声注釈、及び／又はテキストデータに変換された前記音声注釈を保存する前記信号処理部（２０）に連結するメモリ（５０）を備える請求項１に記載の画像記録再生装置（１）。
前記信号処理部（２０）と連携する表示部（６０）を備える請求項１に記載の画像記録再生装置（１）。
画像記録再生装置（１）の操作を表示するための複数の言語から言語を選択し、かつ言語サブセット（４１）の一つを選択するよう適合されたＯＳＤ（On Screen Display）システムを備える前記表示部（６０）を備える請求項５に記載の画像記録再生装置（１）。
前記テキストデータを使用してメタデータを生成し、所定の国際基準に従って、前記メタデータを符号化する請求項１に記載の画像記録再生装置（１）。
撮像系（１０）を備える画像記録再生装置（１）の画像を撮影する工程（ステップ１００）と、
前記撮像系（１０）に連結する信号処理部（２０）を介して、撮影画像をデジタル画像ファイルとして処理する工程（ステップ１１０）と、
前記信号処理部（２０）に連結するオーディオ系（３０）によって、前記デジタル画像ファイルと関連するよう適合された、少なくとも一の音声注釈を、特にメモリ（５０）に記録する工程（ステップ１２０）と、
前記信号処理部（２０）に関連する音声認識部（４０）によって、前記音声注釈を認識し、少なくとも一の前記音声注釈をテキストデータに変換する工程（ステップ１３０）と、
前記テキストデータを使用してメタデータを生成し、生成された前記メタデータを前記デジタル画像ファイルに追加する工程（ステップ１４０）と、
を含む画像記録再生方法であって、
少なくとも一の前記音声注釈を認識し、前記音声注釈をテキストデータに変換する工程（ステップ１３０）は、対応する複数の言語から取得された音声注釈を認識し、テキストデータに変換する音声認識部（４０）に、限定された単語数の、複数の単語サブセット（４１）を製造サイトで保存する工程（ステップ１５０）によって実行される、
ことを特徴とする画像記録再生方法。
前記音声注釈をテキストデータに変換するために、ユーザに前記音声認識部（４０）を起動させる、前記音声認識部（４０）の起動手段（４２）を起動する工程（ステップ１６０）を含む請求項８に記載の画像記録再生方法。
前記起動手段（４２）を起動する前記工程（ステップ１６０）は、撮影画像を処理する工程（ステップ１１０）の後に実行される請求項９に記載の画像記録再生方法。
前記起動手段（４２）を起動する前記工程（ステップ１６０）は、画像を撮影する工程（ステップ１００）の前に実行される請求項９に記載の画像記録再生方法。
前記起動手段（４２）を起動する前記工程（ステップ１６０）は、慣習的なファイル名の画像を生成する工程（ステップ１６１）に先立って実行される請求項１１に記載の画像記録再生方法。
前記画像記録再生装置（１）を操作するために表示する複数の言語から言語を選択し、かつ前記表示部（６０）に備わるＯＳＤ（On Screen Display）システムによって、限定された単語数の前記単語サブセット（４１）の一つを選択する工程（ステップ１８０）を含む請求項８に記載の画像記録再生方法。
言語を選択し、限定された単語数のサブセットを選択する前記工程（ステップ１８０）は、画像を撮影する工程（ステップ１００）の前に実行される請求項１３に記載の画像記録再生方法。
言語を選択し、限定された単語数のサブセットを選択する前記工程（ステップ１８０）は、前記起動手段（４２）を起動する工程（ステップ１６０）の後に実行される請求項１３に画像記録再生方法。
請求項８乃至１５のいずれか一に記載の手段を実行するためのコンピュータプログラム製品。
請求項１６のコンピュータプログラム製品に関連する読み込み可能な記録媒体／データキャリア。