JP5532661B2 - Image extraction program and image extraction apparatus - Google Patents
Image extraction program and image extraction apparatus Download PDFInfo
- Publication number
- JP5532661B2 JP5532661B2 JP2009095983A JP2009095983A JP5532661B2 JP 5532661 B2 JP5532661 B2 JP 5532661B2 JP 2009095983 A JP2009095983 A JP 2009095983A JP 2009095983 A JP2009095983 A JP 2009095983A JP 5532661 B2 JP5532661 B2 JP 5532661B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- extracted
- images
- extraction
- viewer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 74
- 238000000034 method Methods 0.000 claims description 62
- 238000004458 analytical method Methods 0.000 claims description 37
- 239000000284 extract Substances 0.000 claims description 23
- 230000008859 change Effects 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 14
- 230000000875 corresponding effect Effects 0.000 description 12
- 238000003384 imaging method Methods 0.000 description 12
- 244000178870 Lavandula angustifolia Species 0.000 description 8
- 235000010663 Lavandula angustifolia Nutrition 0.000 description 8
- 239000001102 lavandula vera Substances 0.000 description 8
- 235000018219 lavender Nutrition 0.000 description 8
- 230000008774 maternal effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000035622 drinking Effects 0.000 description 6
- 230000008921 facial expression Effects 0.000 description 6
- 238000010191 image analysis Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 241000282472 Canis lupus familiaris Species 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008775 paternal effect Effects 0.000 description 4
- 206010011469 Crying Diseases 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 208000029152 Small face Diseases 0.000 description 1
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 210000001097 facial muscle Anatomy 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000037308 hair color Effects 0.000 description 1
- 210000001983 hard palate Anatomy 0.000 description 1
- 201000000615 hard palate cancer Diseases 0.000 description 1
- SNICXCGAKADSCV-UHFFFAOYSA-N nicotine Chemical compound CN1CCCC1C1=CC=CN=C1 SNICXCGAKADSCV-UHFFFAOYSA-N 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Landscapes
- Television Signal Processing For Recording (AREA)
Description
本発明は、画像抽出プログラムおよび画像抽出装置に関する。 The present invention relates to an image extraction program and an image extraction apparatus.
多くの画像を撮影日ごとに分類し、分類された画像の中から撮影日ごとのインデックス画像を抽出する表示制御装置が知られている(例えば、特許文献1参照)。また、多くの画像の中からスライドショーに用いる画像を抽出する画像表示制御装置が知られている(例えば、特許文献2参照)。 There is known a display control apparatus that classifies a number of images for each shooting date and extracts an index image for each shooting date from the classified images (see, for example, Patent Document 1). Further, an image display control device that extracts images used for a slide show from many images is known (see, for example, Patent Document 2).
しかしながら、上述した画像抽出装置により抽出された画像は、必ずしも使用者の意に適った画像とは限らないという問題がある。 However, there is a problem that the image extracted by the above-described image extracting apparatus is not necessarily an image suitable for the user.
(1) 請求項1の発明の画像抽出プログラムは、集音された音声を解析し、発話者を特定する解析手順と、複数の画像の中から、解析手順における音声の解析結果に応じた画像を抽出する抽出手順と、解析手順で特定された発話者の種別に応じて、画像を抽出する基準を変更する変更手順と、をコンピュータに実行させる。
(2) 請求項2の発明の画像抽出プログラムは、請求項1に記載の画像抽出プログラムにおいて、発話者の種別は、性別または年齢である。
(3) 請求項3の発明の画像抽出プログラムは、請求項1に記載の画像抽出プログラムにおいて、解析手順では、音声を解析して会話内容を認識し、抽出手順では、解析手順で認識された会話内容に応じた画像を抽出する。
(4) 請求項4の発明の画像抽出プログラムは、請求項1に記載の画像抽出プログラムにおいて、抽出手順では、解析手順で特定された発話者に関連する画像を抽出する。
(5) 請求項5の発明の画像抽出プログラムは、請求項1に記載の画像抽出プログラムにおいて、抽出手順では、解析手順で特定された発話者と相関関係のある人物に関連する画像を抽出する。
(6) 請求項6の発明の画像抽出装置は、複数の画像を記憶する記憶装置と、請求項1〜5のいずれか一項に記載の画像抽出プログラムを実行し、記憶装置に記憶されている複数の画像の中から画像を抽出するコンピューターと、コンピューターにより抽出された画像を表示する表示装置とを備える。
(1) An image extraction program according to
(2) The image extraction program of the invention of
(3) The image extraction program according to the invention of
(4) The image extraction program of the invention according to
(5) The image extraction program of the invention of
(6) An image extraction device according to a sixth aspect of the invention executes a storage device that stores a plurality of images and the image extraction program according to any one of the first to fifth aspects, and is stored in the storage device. A computer for extracting an image from a plurality of images, and a display device for displaying the image extracted by the computer.
本発明によれば、複数の画像の中から使用者の意に適った画像を抽出することができる。 According to the present invention, an image suitable for the user can be extracted from a plurality of images.
図1は、一実施の形態の画像抽出装置1の構成を示すブロック図である。記憶装置2は各種の記録媒体2aを挿入可能なスロットを備えており、記憶装置2には記録媒体2aから読み出された画像データと音声データが記憶される。記憶装置2にはまた、撮像装置3により撮像された画像データ、マイクロフォン4により集音された音声データ、後述する通信装置9を介してインターネットなどから入手した画像データおよび音声データ、これらの画像データ、音声データを後述する手法により解析・処理した結果、及び様々な条件に応じた画像抽出手順および基準などが記憶されている。撮像装置3は画像抽出装置1の周囲を撮像する。この撮像画像には画像抽出装置1の視聴者が含まれる。また、マイクロフォン4は画像抽出装置1の周囲の音声を集音する。この音声には視聴者の会話などが含まれる。なお、マイクロフォン4は撮像装置3による撮像時はもちろんのこと、非撮像時の周囲音声も集音する。操作部材5は、画像抽出や画像と音声の再生に関する操作を行うための各種スイッチ、方向キーなどである。
FIG. 1 is a block diagram illustrating a configuration of an
コンピューター6はCPUなどのハードウエア(不図示)と、CPUのソフトウエア形態で構成される制御部6aや解析・処理部6bなどを備えている。制御部6aは、操作部材5からの操作入力にしたがって画像抽出および画像と音声の再生に関わるすべての処理を制御する。解析・処理部6bは、記憶装置2に記憶されている画像データと音声データ、撮像装置2により撮像された画像データ、マイクロフォン4により集音された音声データなどを解析し、画像抽出と再生に関する処理を施す。ディスプレイ7は記憶装置2に記憶されている画像、撮像装置3による撮像画像、抽出結果の画像の他に、メニュー画面などの各種情報を表示する。スピーカー8は記憶装置2に記憶されている音声やマイクロフォン4により集音された音声などを再生するとともに、操作に関する音声ガイドや警告音などを発音する。通信装置9は、インターネットなどを介して画像や種々の情報の授受を行うとともに、プリンターなどの外部機器へ画像や種々の情報を出力する。
The
なお、この一実施の形態では、予め記憶されている複数の画像の中から種々の条件に応じた画像を抽出し、それらを再生する画像抽出装置1を例に挙げて説明するが、本願発明に係わる画像抽出プログラムを実行するコンピューター6と操作部材5を画像抽出装置とし、外部に記憶装置2、撮像装置3、マイクロフォン4、ディスプレイ7、スピーカー8、通信装置9などを設けてもよい。あるいは、本願発明に係わる画像抽出プログラムをパーソナルコンピューターで実行し、画像抽出および再生の機能を実現する形態としてもよい。さらには、本願発明の画像抽出装置と画像抽出プログラムをデジタルカメラやカメラ付き携帯電話機に組み込み、デジタルカメラやカメラ付き携帯電話機単体で本願発明の画像抽出機能を実現するようにしてもよい。また、一実施の形態では静止画像を抽出対象画像として説明するが、動画像を構成するフレーム画像を抽出する構成としてもよい。
In this embodiment, an
以下に説明する各実施の形態の構成は、図1に示す構成と同様であり、それぞれの実施の形態における構成の説明を省略する。 The configuration of each embodiment described below is the same as the configuration illustrated in FIG. 1, and the description of the configuration in each embodiment is omitted.
《第1の実施の形態》
記憶装置2に記憶された画像を用いてスライドショーを行う場合に、マイクロフォン4で集音される音声データ、あるいは撮像装置3により撮像された画像データをもとに、スライドショーの視聴者を判定し、視聴者に応じた画像を抽出して再生するようにした第1の実施の形態を説明する。画像データによる視聴者の識別は個人認証により行い、音声データによる視聴者の識別は声紋解析により行う。声紋による個人認識は、例えば特開2007−233075号公報に開示されている手法などを用いる。すなわち、複合信号を窓関数に通し周波数ベクトルを計算して得られた周波数や信号成分の強さなどの情報を、声紋として予め個人ごとに記憶装置2に記憶しておき、マイクロフォン4で集音した視聴者の音声データを解析した声紋情報と照合して話者を特定するとともに、その発話内容を記憶装置2に記憶されている言葉などと照合して認識する。また、声道の長さ、硬口蓋の長さ、声を発するための声道の形の調整の仕方(調音)が男女、成人、子供により異なるため、ホルマント(音声波形のスペクトルの中で特にエネルギーが集中している周波数成分)、基本周波数(声帯の振動周期の逆数)、音声波の音圧レベルをもとに男性、女性、子供の声を識別する。もちろん、これらを撮像装置3で撮像された画像データのみを用いて識別することもできるし、上述した音声解析と画像解析とを併用してもよい。
<< First Embodiment >>
When a slide show is performed using images stored in the
図2は、画像抽出装置1で画像を抽出しながらスライドショーを行う場合の画像抽出プログラムを示すフローチャートである。コンピューター6の制御部6aは、操作部材5によりスライドショーモードが設定されると図2に示す動作を開始する。ステップ1において、撮像装置3による撮像と、マイクロフォン4による音声の集音を開始する。続くステップ2で撮像した画像を解析・処理部6bにより解析してスライドショーの視聴者を識別し、ステップ3で集音した音声を解析・処理部6bにより解析して発話者を識別する。また、ステップ4では解析・処理部6bにより視聴者の会話内容を解析する。
FIG. 2 is a flowchart showing an image extraction program when a slide show is performed while images are extracted by the
図3は、架空の主人公である小学生“Naoちゃん”を中心とした人物相関図である。人物相関は、特定の人物ここではNaoちゃんを中心とした人および物(ペットを含む)との相関関係を、それぞれの人および物の画像データ(不図示)や音声(声紋)データ(不図示)、あるいは個人情報(不図示)とともに記録したもので、記憶装置2に記録されている。なお、上記の人物相関は、必ずしも図3に示すような図のかたちで記録されている必要はなく、各個人毎に他人との相関関係が記録されているものであっても構わない。例えば、ヒロくんに関する情報として、Naoちゃんと同じ父母と祖父母とペットのヒナちゃんとを家族として有し、近所のお友達としてIちゃん、Jちゃんがいる旨が記録される構成としてもよい。
FIG. 3 is a person correlation diagram centered on an elementary student “Nao-chan” who is an imaginary main character. Person correlation refers to the correlation between a specific person, here a person and an object (including pets) centered on Nao-chan, image data (not shown) and voice (voice print) data (not shown) of each person and object. ) Or personal information (not shown), and is recorded in the
例えば図3に示す人物相関図の中のNaoちゃんの父と母との間で、「入学式のNaoちゃんの服装って可愛かったね」のような会話がなされた場合には、撮像装置3により撮像された画像やマイクロフォン4により集音された音声に基づいてスライドショーの視聴者である「父」と「母」を識別し、これらの視聴者の会話の解析結果から会話内容が「入学式」の「Naoちゃん」の「服装」に関するものであることを識別する。
For example, in the case where a conversation such as “You were so cute wearing Nao-chan at the entrance ceremony” between Nao-chan's father and mother in the person correlation diagram shown in FIG. “Father” and “Mother” who are viewers of the slide show are identified based on the captured image and the sound collected by the
ステップ5において、「入学式」の「Naoちゃん」が顔だけでなく「服装」も大きく写っている画像が記憶装置2に記憶されているか否かを検索する。このとき、視聴者である「父」と「母」がともに写っている画像を優先して抽出する構成としてもよい。また、会話の内容が「Naoちゃん」の「笑顔が可愛かったね」のような「表情」に関するものであれば、笑顔の画像を抽出する。会話に関連する画像が記憶されていない場合にはステップ3へ戻り、上述した処理を繰り返す。この場合には、従来と同様に視聴者の会話と直接関係のない画像を再生してスライドショーを継続する。
In
視聴者の会話に関連する画像が記憶されている場合にはステップ6へ進み、該当する画像を優先順位を付けて抽出する。同じ入学式のイベントの際に撮影され、「入学式」のタグが割り付けられている画像であっても、「入学式」が一目で判る画像、例えば入学式の看板とともにNaoちゃんが写っている画像を優先して抽出する。さらに、Naoちゃんが所定以上の大きさで写っている画像、笑顔で写っている画像、「父」と「母」と一緒に写っている画像を優先する。そして、これらの優先順位にしたがって関連画像のランク付けを行う。ステップ7でランクの一番高い画像を次に再生する画像として記憶装置2から読み出し、ディスプレイ7に表示する。
If an image related to the viewer's conversation is stored, the process proceeds to step 6 to extract the corresponding image with priority. Even if the image is taken at the same entrance ceremony event and the tag “admission ceremony” is assigned, the image of “entrance ceremony” can be seen at a glance, for example, Nao-chan is shown with the signboard of the entrance ceremony. Extract images with priority. Furthermore, priority is given to an image in which Nao-chan is larger than a predetermined size, an image with a smile, and an image with “Father” and “Mother”. Then, the related images are ranked according to these priorities. In step 7, the image with the highest rank is read from the
ステップ8でマイクロフォン4から音声入力があるか否かを判別し、視聴者の会話が続けられていて音声入力がある場合はステップ3へ戻り、上述した処理を繰り返す。音声入力がなく視聴者の会話が途切れていると判別された場合はステップ9へ進み、所定時間後に次にランク付けされた画像を記憶装置2から読み出し、ディスプレイ7に再生表示する。
In step 8, it is determined whether or not there is an audio input from the
このように、スライドショーの視聴者の会話内容に応じた関連画像を次々に抽出して再生することができ、スライドショーの再生画像や再生シナリオを予め視聴者が設定する必要がない。なお、会話がない場合に備えて、視聴者情報に基づいて視聴者に共通するイベント画像を用いたスライドショーのシナリオを予め用意しておくことが望ましい。 In this way, it is possible to sequentially extract and reproduce related images according to the conversation content of the viewer of the slide show, and it is not necessary for the viewer to set the playback image and playback scenario of the slide show in advance. In preparation for the case where there is no conversation, it is desirable to prepare in advance a slide show scenario using event images common to the viewers based on the viewer information.
上述したスライドショーのための画像抽出動作において、ステップ6では、視聴者の会話に関連する画像を優先順位を付けて抽出するようにしたが、視聴者の会話に代えて、記憶装置2に記憶される画像の撮像時に取得した音声データを記憶装置2から読み出し、この音声を解析・処理部6bで解析して会話内容や周囲の音を識別し、撮像時の会話や音に関連する画像を優先順位を付けて抽出するようにしてもよい。例えば、「あのとき、誰かが・・・・って言っていたよね」という視聴者の会話に応じて、記憶装置2に記憶されている画像を、撮像時に録音された音声とともに再生する。
In the image extracting operation for the slide show described above, in
さらには、記憶装置2から再生する画像を抽出する際の初期画像を、視聴開始時に撮像装置3により撮像された画像、あるいはマイクロフォン4で集音された音声の解析結果をもとに設定するようにしてもよい。例えば、視聴時にNaoちゃん、Gちゃん、Hちゃんの声が認識された場合には、人物相関をもとに近所のお友達が視聴者であると判別し、Naoちゃん、Gちゃん、Hちゃんが写っている画像を抽出して再生する。あるいはこの3人が参加しているイベントの画像を抽出して再生してもよい。
Furthermore, the initial image when extracting the image to be reproduced from the
なお、視聴者(操作者)の性別や年齢を認識し、画像抽出の判断基準を変更するようにしてもよい。例えば、視聴者が年齢の低い子供の場合には、視聴者が泣いている画像を抽出せず、笑っている画像を抽出する。泣いている子供にとってはそのような画像に楽しい思い出はなく、他の視聴者にいじめられるかも知れないから、視聴者にとって都合の悪い画像を抽出しない。一方、視聴者が大人の場合には、憤慨している画像や泣いている画像などの抽出を許容してもよい。
また、「カラーテレビ画像の好ましい色再現」(西村、太田著、映像メディア学会誌(旧テレビジョン学会誌)Vol.28 No.8(1974) pp623-632)には、被験者の性別により好みの色(膚色)に差が見られることが示されている(男性の方が黄色方向よりにある)。このような性別差を考慮し、視聴者の性別を認識し、認識結果に応じて各性別で好ましいと判断される、例えば膚色画像などの色を有する画像を抽出、選択する構成としてもよい。例えば、顔検出領域の膚色のx、y色度値を算出することで当該画像中の膚色が、男女何れが好みの色かを判別することができる。
Note that the criteria for image extraction may be changed by recognizing the gender and age of the viewer (operator). For example, if the viewer is a young child, the image of the viewer crying is not extracted, but the image of laughing is extracted. For a crying child, such images do not have pleasant memories and may be bullied by other viewers, so images that are not convenient for viewers are not extracted. On the other hand, when the viewer is an adult, extraction of a jealous image or a crying image may be allowed.
In addition, “Preferred color reproduction of color television images” (by Nishimura and Ota, Journal of the Video Media Society (formerly of the Institute of Television Engineers) Vol.28 No.8 (1974) pp623-632) It is shown that there is a difference in color (skin color) (male is more in the yellow direction). In consideration of such gender differences, the gender of the viewer may be recognized, and an image having a color such as a skin color image, for example, which is determined to be preferable for each gender according to the recognition result may be selected and selected. For example, by calculating the skin color x and y chromaticity values of the face detection area, it is possible to determine which skin color in the image is the favorite color.
画像抽出に際して、例えば人物の画像を抽出するときに、画像がぶれていない、主要被写体の大きさが所定値以上、目をつぶっていない、横を向いていない、などの一次抽出(ふるい落とし)を行った上で、顔の表情、口の開き具合などをもとに二次抽出を行う。画像のぶれに関しては、例えば特開平02−157980号公報に開示されているように、画像の複数の局所領域のフレーム間の相関を利用して画像ブレ検出を行う方法を用いることができる。さらに、主要被写体の大きさや顔の向きなどの認識は、認識された顔の大きさによって判別することができる。また、目をつぶっているか否かは、目瞑り検出によって行うことができる。 When extracting an image of a person, for example, when extracting an image of a person, primary extraction (screening) such that the image is not blurred, the size of the main subject is not less than a predetermined value, the eyes are not closed, the side is not turned sideways, etc. After that, secondary extraction is performed based on facial expressions and mouth openness. Regarding image blurring, for example, as disclosed in Japanese Patent Laid-Open No. 02-157980, a method of performing image blur detection using correlation between frames of a plurality of local regions of an image can be used. Further, the recognition of the size of the main subject, the orientation of the face, and the like can be determined based on the recognized face size. Further, whether or not the eyes are closed can be determined by eye-meditation detection.
さらに、このような一次抽出においては、構図などの類似する画像の中から、上記の基準で類似画像ごとに1枚の画像を抽出する構成としてもよい。構図の類似する画像の抽出は、例えばUSP6711293号公報に開示されるようなSIFT特徴量(Scale Invariant Feature Transform)を用いることができる。同公報には、画像をガウス関数を用いて階層的にぼかして特徴点を抽出し、特徴点周辺の局所特徴量を算出する手法が開示されている。このSIFT特徴量は、回転・スケールに対して不変な局所情報であるため、複雑な被写体でもロバストな物体認識が可能である。この特徴量に基づいて2つの画像の比較を行うことで、2つの画像で同じ被写体を撮影したか、またその構図が類似しているかについて判断することができる。この特徴量の画面内の統計量、例えばヒストグラムをとることによって、類似画像を抽出することができる。もちろん、例えば画面内をグリッドに分割してグリッドごとの色、エッジ、テクスチャー情報をもとに2枚の画像間でこれらの情報を比較して類似画像を抽出するなど、他の手法を用いてもよい。特徴量が近い値を有する2つの特徴点が2枚の画像上でほぼ同じ位置にある場合に、2枚の画像の構図が類似していると考えることができ、2枚の画像の内のいずれかを代表画像として用い、残りを削除する。このような一次、二次抽出を行った結果を、記憶装置2に記憶されている各画像に対して各被写体ごとに分類をしてタグ付けをしておき、このタグ情報に基づいて画像抽出を行うようにすれば、抽出時間を短縮することができる。
Further, in such primary extraction, a configuration may be adopted in which one image is extracted for each similar image based on the above criteria from similar images such as a composition. For the extraction of an image having a similar composition, for example, a SIFT feature amount (Scale Invariant Feature Transform) as disclosed in US Pat. No. 6,671,293 can be used. This publication discloses a method of extracting feature points by hierarchically blurring an image using a Gaussian function and calculating local feature amounts around the feature points. Since the SIFT feature amount is local information that is invariant to rotation and scale, robust object recognition is possible even for a complex subject. By comparing the two images based on this feature amount, it is possible to determine whether the same subject is photographed with the two images and whether the composition is similar. A similar image can be extracted by taking a statistical amount of the feature amount in the screen, for example, a histogram. Of course, for example, by dividing the screen into grids and comparing the information between two images based on the color, edge, and texture information for each grid, and extracting similar images, etc. Also good. When two feature points having similar feature values are at almost the same position on the two images, the composition of the two images can be considered to be similar, Either one is used as a representative image and the rest is deleted. The results of such primary and secondary extraction are classified and tagged for each subject for each image stored in the
上述した画像抽出例では、画像の一次抽出は一般的な「よい画像」の抽出を行い、二次抽出において視聴者個人の好みによる画像抽出を行う例を示した。このような個人の好みによる画像抽出は、学習によって抽出基準を更新していく構成としてもよい。例えば図2のステップ7の段階において、一次抽出の結果をランクが高い順にサムネイル表示し、ステップ9で次に大きく表示させる画像を操作者に選択させる。コンピューター6の制御部6aは、次に大きく表示させる画像として操作者により選択された画像のランクから、操作者が顔の表情を優先して画像を選択したか、多少右向きの顔を優先して画像を選択したか、画像の色の鮮やかさ、あるいは特定の色が含まれているなどに基づいて選択したか、などを学習し、各視聴者ごとの抽出基準を構築する。このような抽出基準が構築された後は、例えばステップ9で表示される画像は、学習結果をもとに自動的に1枚の画像が選択される構成としてもよい。このような構成とすれば、視聴者各個人の好みに応じた画像抽出を行うことができる。また、上記の二次抽出を、上述のように視聴者の年齢、あるいは性別を認識し、この認識結果に応じて行う構成としてもよい。
In the image extraction example described above, an example in which a general “good image” is extracted as the primary extraction of the image, and an image extraction is performed according to the viewer's personal preference in the secondary extraction. Such image extraction according to personal preference may be configured to update the extraction criteria by learning. For example, at the stage of step 7 in FIG. 2, the results of the primary extraction are displayed as thumbnails in descending order of rank, and the operator selects an image to be displayed next in
上述した画像の二次抽出例では、同じアプリケーション(スライドショー)における画像選択結果に基づいて学習を行う例について説明したが、他のアプリケーションにおける画像選択結果をもとに、例えばスライドショーでの画像抽出基準を構築する構成としてもよい。この場合、コンピューター6の制御部6aは他のアプリケーションの各部動作制御も司ることができる。例えば、ブログを作成するアプリケーションでブログに子供の誕生会の画像を掲載する場合には、操作者は記憶装置2に記憶されている子供の誕生会の画像の中からブログに掲載する画像を選択する。コンピューター6の制御部6aは、記憶装置2に記憶される子供の誕生会の画像と最終的に選択された画像とから選択基準を構築する。
In the above-described secondary image extraction example, an example in which learning is performed based on an image selection result in the same application (slide show) has been described. However, based on an image selection result in another application, for example, an image extraction criterion in a slide show It is good also as a structure which builds. In this case, the
具体的には、制御部6aは、例えば記憶装置2に記憶される子供の誕生会の画像の表情(例えば笑顔度合い)、顔の向き、撮影方向(上方から撮影した画像か、下方から見上げて撮影した画像か、水平方向から撮影した画像か、など)、画像中の主要色の彩度などを予め抽出しておく。
Specifically, the
制御部6aは、例えばブログの作成過程において、最終的に選択された画像がこれらのどれに該当するかをいくつかの画像選択過程で学習し、ある操作者の画像基準を構築する。例えば、ある操作者は人物を画像の左寄りに配置し、下から見上げた撮影で、選択された画像の中に彩度の高いピンク色領域が多く含まれることが多い、という学習結果が得られ、この操作者がスライドショーのアプリケーションにおける視聴者であると判断された場合には、制御部6aは、スライドショーのアプリケーションにおいてもこれに該当する画像を探索する。上記の例では人物の配置、撮影方向、主要色にも優先順位が付けられ、種々の条件のすべてに合致する画像が存在しない場合であっても、優先順位の高い順にランク付けされた画像が抽出される。
For example, in the process of creating a blog, the
上記の例では、ブログの操作者とスライドショーの視聴者が同じであることを前提にして説明したが、ブログ作成時の画像選択の際にも、撮像部で操作者の個人認証を行い、スライドショーの視聴者と同一であることを判断することで実現することができる。例えば、ブログ作成過程の画像抽出の優先順位が、(人物配置)>(撮影方向)>(主要色)であった場合に、画像A(人物が左に配置、下から見上げて撮影、主要色が緑)、画像B(人物が左に配置、上から見下ろして撮影、主要色がピンク)、画像C(人物が右に配置、下から見上げて撮影、主要色がピンク)という画像が記憶装置2にスライドショー再生画像として記録されている場合には、画像A、B、Cの順にランクが高い画像として抽出され、結果として操作者の好みに合った画像として画像Aがスライドショーの次に表示される画像に選択される。同じ画像であっても、画像選択の基準は人によって異なることが想定される。上記の構成によれば、個人の選択基準に適合した画像を自動的に提示することができる。 In the above example, the explanation was made on the assumption that the blog operator and the slideshow viewer are the same. However, when selecting an image when creating a blog, the image pickup unit performs personal authentication of the operator, and the slideshow. It can be realized by determining that it is the same as the viewer. For example, when the priority of image extraction in the blog creation process is (People Arrangement)> (Shooting Direction)> (Main Color), Image A (People are placed on the left, taken up from below, taken main, Image B (person placed on the left, photographed looking down from above, principal color pink), image C (person placed on the right, photographed looking up from below, principal color pink) 2 is recorded as a slide show playback image, it is extracted as an image having a higher rank in the order of images A, B, and C. As a result, the image A is displayed next to the slide show as an image that suits the operator's preference. Selected. Even for the same image, it is assumed that the criteria for image selection differ depending on the person. According to the above configuration, it is possible to automatically present an image that meets the individual selection criteria.
《第2の実施の形態》
スライドショーを行うための画像の他の抽出方法を説明する。記憶装置2に記憶されている画像の中から画像を抽出し、スライドショーを行う場合に、視聴者の言葉を認識し、認識結果に関連する画像を抽出し、次の再生画像とする。記憶装置2に記憶されている画像データには、解析・処理部6bにより行われた認識の結果と、GPS情報を含む各種撮影情報とが関連づけて記憶されている。視聴者が話す言葉はマイクロフォン4により集音され、その内容は解析・処理部6bにより解析されて認識される。例えば、視聴者の会話の中に「入学式のNaoちゃん可愛かったねー」という言葉が認識された場合には、記憶装置2に記憶されている画像の中から笑顔度の一番高いNaoちゃんの画像が抽出され再生される。また、会話の流れの中で飲み会でのLさんの歌が話題になった場合には、飲み会イベントが写されている画像の中で、Lさんが歌を歌っている画像が抽出され再生される。
<< Second Embodiment >>
Another method for extracting images for performing a slide show will be described. When an image is extracted from the images stored in the
さらに、会話の中に「寒い」や「冷たい」という言葉が出てきた場合には、これらの言葉に合った画像を抽出するようにしてもよい。例えば、「寒い」、「冷たい」や、「暖かい」、「暑い」に対応する画像は、解析・処理部6で画像の色成分を解析し、主要色成分がそれぞれ青または灰や、黄またはオレンジまたは赤の画像を抽出する。さらに、例えば「騒々しい」に対応する画像は、街角で車や人が所定数以上写っている画像を抽出すればよい。このような言葉に対する画像の選択基準は記憶装置2に予め記憶されている。このような構成とすれば、視聴者の手を煩わせることなく、視聴者の会話の流れに沿った画像の抽出と再生が自動的に行える。なお、視聴者が所定時間無言状態にあった場合には、そのときに再生されている画像と同種の画像を抽出して再生すればよい。
Further, when words such as “cold” or “cold” appear in the conversation, an image matching these words may be extracted. For example, for an image corresponding to “cold”, “cold”, “warm”, “hot”, the analysis /
このように、第1および第2の実施の形態によれば、集音された音声を解析して会話内容を認識し、複数の画像の中から解析結果の会話内容に応じた画像を抽出するようにしたので、視聴者自ら煩わしい画像の選択操作をする必要がなく、視聴者の話題にしている内容に関連した画像を自動的に提示することができる。 Thus, according to the first and second embodiments, the collected voice is analyzed to recognize the conversation content, and an image corresponding to the conversation content of the analysis result is extracted from the plurality of images. As a result, it is not necessary for the viewer to perform bothersome image selection operations, and an image related to the content of the viewer's topic can be automatically presented.
また、第1および第2の実施の形態によれば、音声を解析して発話者を特定し、複数の画像の中から発話者に関連する画像を抽出するようにしたので、視聴者自ら煩わしい画像の選択操作をする必要がなく、視聴者に関連する画像を自動的に提示することができる。 Further, according to the first and second embodiments, since the speaker is identified by analyzing the voice and the image related to the speaker is extracted from the plurality of images, the viewer himself is troublesome. There is no need to select an image, and an image related to the viewer can be automatically presented.
さらに、第1および第2の実施の形態によれば、音声を解析して発話者を特定し、複数の画像の中から発話者と相関関係のある人物に関連する画像を抽出するようにしたので、視聴者自ら煩わしい画像の選択操作をする必要がなく、視聴者と相関関係のある人物に関連する画像を自動的に提示することができる。 Furthermore, according to the first and second embodiments, the speaker is identified by analyzing the voice, and an image related to a person correlated with the speaker is extracted from a plurality of images. Therefore, it is not necessary for the viewer himself to perform annoying image selection operation, and an image related to a person having a correlation with the viewer can be automatically presented.
《第3の実施の形態》
次に、視聴者によって画像抽出の基準を変更する実施の形態を説明する。図4は、視聴者によって画像抽出基準を変更する場合の画像抽出プログラムを示すフローチャートである。なお、ここでは記憶装置2に100枚の画像が記憶されており、それらの画像の中から基準にしたがって画像を抽出する例を示す。ステップ21において、操作者が図3に示す人物相関図の中のNaoちゃんと親しいかどうかを判別する。撮像装置3により撮像した操作者の顔と、マイクロフォン4により集音した操作者の声紋をそれぞれ記憶装置2に記録されている人物ごとの顔および声紋のデータと照合し、図3に示す人物相関図を参照してNaoちゃんとどの程度親しいかを判別する。なお、人物の顔や声紋のデータの記憶装置2への登録は、操作者により手動で行うか、あるいは同一人物の顔や声紋を所定回数(例えば5回)取得したら自動的に登録する。
<< Third Embodiment >>
Next, an embodiment in which the reference for image extraction is changed by the viewer will be described. FIG. 4 is a flowchart showing an image extraction program when the image extraction criterion is changed by the viewer. Here, an example in which 100 images are stored in the
まず、操作者がNaoちゃんと親しくない場合について説明する。ステップ22において記憶装置2に記憶されている100枚の画像から顔が写っている画像を抽出する。画像の中から人物の顔を検出するには、画像の中から肌色の領域を検出し、顔形状に相当する顔領域を選択する。ここでは、100枚の画像の中から顔が写っている画像が75枚抽出されたものとする。次に、ステップ23で顔の大きさが所定範囲内の画像を抽出する。顔が写っている75枚の画像の中から、顔領域の垂直または水平方向の肌色の画素数が所定範囲内の画像を抽出する。ここでは、75枚の画像から30枚が抽出されたとする。
First, a case where the operator is not familiar with Nao will be described. In step 22, an image showing a face is extracted from 100 images stored in the
さらに、ステップ24では顔が正面を向いている画像を抽出する。画像中の顔の向きは、顔領域における目、鼻、口の位置およびそれらの間の間隔に基づいて判別する。ここでは、30枚の画像の中から10枚の画像が抽出されたものとする。続くステップ25では目つぶりしていない画像を抽出する。画像に写っている目がつぶられているか否かは、目の垂直方向の長さと水平方向の長さの比率に基づいて判別する(例えば特開2002−199202号公報参照)。ここでは、10枚の画像の中から該当する画像が5枚抽出されたとする。最後にステップ26において、口の開き具合が所定範囲の画像を抽出する。画像中の人物の顔の口の開き具合は、人物の顔の垂直方向の長さに対する口の垂直方向の長さの比率に基づいて判別する。ここでは、5枚の画像の中から口の開き具合が所定範囲の画像が1枚抽出されたとする。
In
ステップ27において、抽出された画像をディスプレイ7に表示する。なお、抽出される画像が複数枚あっても構わない。その場合には、操作者によって好みの画像が異なることもあり、操作者が任意の画像を選択する操作手順を加えてもよい。 In step 27, the extracted image is displayed on the display 7. There may be a plurality of extracted images. In that case, the favorite image may differ depending on the operator, and an operation procedure for the operator to select an arbitrary image may be added.
次に、操作者がNaoちゃんと親しい場合の画像抽出手順を説明する。ステップ28において、上述したステップ22における抽出方法により画像に顔が写っている画像を抽出する。続くステップ29では、顔の大きさが所定値以上の画像を抽出する。顔領域の垂直または水平方向の肌色の画素数が所定数以上の画像を抽出する。操作者がNaoちゃんと親しくない場合には、ステップ23で顔の大きさが所定範囲内の画像を抽出したが、操作者がNaoちゃんと親しい場合には、Naoちゃんのアップの顔が写っている画像が抽出されてもよいとする。ステップ30で、口の開き具合が所定以上の画像を抽出する。具体的には、画像中の人物の顔の垂直方向の長さに対する口の垂直方向の長さの比率が所定値以上の画像を抽出する。操作者がNaoちゃんと親しくない場合には、口の開き具合が所定範囲の画像を抽出したが、操作者がNaoちゃんと親しい場合は、口を大きく開けて大笑いしているような画像も抽出する。また、操作者がNaoちゃんと親しい場合には、抽出される画像の中に目をつぶっている画像や、顔が横向きの画像があってもよいものとする。 Next, an image extraction procedure when the operator is close to Nao will be described. In step 28, an image having a face in the image is extracted by the extraction method in step 22 described above. In the following step 29, an image whose face size is a predetermined value or more is extracted. An image having a predetermined number or more of skin color pixels in the vertical or horizontal direction of the face area is extracted. If the operator is not close to Nao-chan, an image whose face size is within a predetermined range is extracted in step 23. If the operator is close to Nao-chan, an image showing the face of Nao-chan is shown. May be extracted. In step 30, an image having a mouth opening degree of a predetermined value or more is extracted. Specifically, an image in which the ratio of the vertical length of the mouth to the vertical length of the human face in the image is a predetermined value or more is extracted. When the operator is not close to Nao-chan, an image with a mouth opening range of a predetermined range is extracted, but when the operator is close to Nao-chan, an image with a wide open mouth and a big laugh is also extracted. When the operator is close to Nao, the extracted image may include an image with a closed eye or an image with a face facing sideways.
上記のような構成によれば、例えば大きく口をあけて大笑いしているような恥ずかしい画像の閲覧を、視聴者に応じて自動的に制限することができる。
また、第3の実施の形態によれば、集音された音声を解析して発話者(視聴者)を特定し、発話者に応じて画像を抽出する基準を変更するようにしたので、視聴者ごとに適切な画像を自動的に提示することができる。さらには、撮像した画像を解析した結果得られた操作者の情報に基づいて、画像を抽出する基準を変更するようにしたので、視聴者ごとに適切な画像を自動的に提示することができる。
According to the above configuration, for example, it is possible to automatically limit the browsing of an embarrassing image that is laughing with a big mouth depending on the viewer.
Further, according to the third embodiment, the collected voice is analyzed to identify the speaker (viewer), and the reference for extracting the image is changed according to the speaker. An appropriate image can be automatically presented for each person. Furthermore, since the criteria for extracting the image are changed based on the operator information obtained as a result of analyzing the captured image, an appropriate image can be automatically presented for each viewer. .
《第4の実施の形態》
旅行先で撮影した多くの画像を旅行先ごとに分類することがある。このような場合の画像抽出方法を説明する。図5は旅行先ごとの画像抽出プログラムを示すフローチャートである。ここでは、記憶装置2の所定フォルダに100枚の画像が記憶されており、それらの画像の中から基準にしたがって画像を抽出する例を示す。ステップ41において、画像抽出の目的が年賀状を作成する目的かどうかを判別する。年賀状を作成する場合にはステップ42へ進み、記憶装置2に記憶されている画像の中から、観光地で撮影された画像を抽出する。各画像には撮影場所と撮影方向の情報(GPS情報)が記録されており、この情報に基づいて観光地ごとに画像を抽出する。例えば、日光東照宮、ドゥオモ、エッフェル塔、サグラダファミリア、バッキンガム宮殿、万里の長城などの観光地ごとに75枚の画像が抽出されたとする。
<< Fourth Embodiment >>
Many images taken at travel destinations may be classified by travel destination. An image extraction method in such a case will be described. FIG. 5 is a flowchart showing an image extraction program for each travel destination. Here, an example is shown in which 100 images are stored in a predetermined folder of the
ステップ43では、自宅から観光地までの距離が所定値以上の観光地の画像を抽出する。ここでは、東京の自宅から所定距離以上離れたドゥオモ、エッフェル塔、サグラダファミリア、バッキンガム宮殿の画像が30枚抽出されたとする。続くステップ44で、旅行期間が所定日数以上の画像を抽出する。各画像に記録されている撮影日時と撮影場所の情報に基づいて抽出する。ここでは、4日間のドゥオモ、3日間のエッフェル塔、2日間のサグラダファミリアの画像が合計10枚が抽出されたものとする。さらにステップ45において、画像の解析結果に基づいて撮影枚数が所定枚数以上の観光地の画像を抽出する。ここでは、7枚のドゥオモの画像が抽出されたものとする。ステップ46で、抽出した画像をディスプレイ7に表示する。なお、抽出される画像が複数枚あっても構わない。その場合には、操作者によって好みの画像が異なることもあり、操作者が任意の画像を選択する操作手順を加えてもよい。 In step 43, an image of a sightseeing spot whose distance from the home to the sightseeing spot is a predetermined value or more is extracted. Here, it is assumed that 30 images of Duomo, Eiffel Tower, Sagrada Familia, and Buckingham Palace, which are more than a predetermined distance from the home in Tokyo, are extracted. In subsequent step 44, an image having a travel period of a predetermined number of days or more is extracted. Extraction is performed based on the shooting date and time information recorded in each image. Here, it is assumed that a total of 10 images of a 4-day duomo, a 3-day Eiffel Tower, and a 2-day Sagrada Familia are extracted. Further, in step 45, an image of a sightseeing spot having a predetermined number or more is extracted based on the image analysis result. Here, it is assumed that seven Duomo images have been extracted. In step 46, the extracted image is displayed on the display 7. There may be a plurality of extracted images. In that case, the favorite image may differ depending on the operator, and an operation procedure for the operator to select an arbitrary image may be added.
年賀状の作成目的ではない場合にはステップ47へ進み、画像に記録されている撮影場所の情報に基づいて例えば北海道旅行で撮影された画像を抽出する。ステップ48では、抽出された画像の中に富良野のラベンダー畑で撮影された画像があるか否かを判別する。ラベンダー畑で撮影された画像がある場合にはステップ49へ進み、富良野のラベンダー畑で撮影された画像を抽出する。続くステップ50において、画像解析により画像全体に対してラベンダーの色が占める面積の割合が所定値以上の画像を抽出する。制御部6aは、記憶装置2内に、前記所定フォルダとは別に「富良野・ラベンダー畑」のフォルダを作成し、ステップ49で抽出された画像データを同フォルダに移動する。この際に、ステップ50で抽出された、画像全体に対してラベンダーの色が占める面積の割合が所定値以上の画像データに対してフラグを付加する。一方、富良野のラベンダー畑で撮影された画像がない場合にはステップ51へ進み、美瑛のセブンスターの木で撮影された画像を抽出する。続くステップ52で、セブンスターの木が主要被写体として撮影された画像を抽出する。各画像にはオートフォーカス情報と撮影距離情報が記録されており、これらの情報に基づいて画像の中の主要被写体を判別し、主要被写体の像と記憶装置2に予め記憶されているセブンスターの木のテンプレート画像とを照合して抽出する。制御部6aは、記憶装置2内に、前記所定フォルダとは別に「美瑛・セブンスター」のフォルダを作成し、ステップ51で抽出された画像データを同フォルダに移動する。この際に、ステップ52で抽出されたセブンスターの木が主要被写体となっている画像のデータに対してフラグを付加する。このようなフラグを付加しておくことで、その後、ステップ46で、フラグの付加された抽出画像をディスプレイ7に表示することができる。上記の例においては、年賀状作成以外の用途で、富良野のラベンダー畑、美瑛のセブンスターの木を撮影した画像を抽出する例について示したが、これらの画像抽出を年賀状作成用途に用いるものであっても構わない。また、日光東照宮、ドゥオモ、エッフェル塔、サグラダファミリア、バッキンガム宮殿、万里の長城などの撮影画像を、年賀状作成以外の用途に用いるものであっても構わない。この場合には、図5のステップ47〜ステップ52の処理が、各観光地ごとに設けられる。この処理を複数回繰り返すことにより、撮影画像を旅行先ごとに分類することが実現できる。
If it is not the purpose of creating a New Year's card, the process proceeds to step 47, where an image taken on a trip to Hokkaido, for example, is extracted based on the information on the shooting location recorded in the image. In step 48, it is determined whether or not there is an image taken in a lavender field in Furano among the extracted images. If there is an image photographed in the lavender field, the process proceeds to step 49 to extract an image photographed in the lavender field in Furano. In the subsequent step 50, an image in which the ratio of the area occupied by the lavender color to the entire image is extracted by image analysis is a predetermined value or more. The
上述した抽出方法により旅行先で撮影した多くの画像を旅行先ごとに分類し、アルバムを作成する場合に、旅行先ごとの代表的な画像を選択してインデックス画像とし、各分類ごとの旅行先が一目でわかるようにすることがある。インデックス画像には旅行先を代表する被写体が写っているのが望ましく、各画像に記録されている撮影場所と撮影方向の情報(GPS情報)を参照しながら、画像解析を行って人物以外の被写体、例えばエッフェル塔や日光東照宮などのような有名な建造物や、ナイヤガラの滝のような景勝などを認識し、このような被写体が写っている画像を抽出してインデックス画像とする。 When a large number of images taken at travel destinations by the above-described extraction method are classified for each travel destination and an album is created, representative images for each travel destination are selected as index images, and the travel destinations for each classification May be known at a glance. It is desirable that a subject representing a travel destination is shown in the index image, and a subject other than a person is analyzed by performing image analysis while referring to information on a photographing location and a photographing direction (GPS information) recorded in each image. For example, famous structures such as the Eiffel Tower and Nikko Toshogu and scenic spots such as the Niagara Falls are recognized, and an image in which such a subject is reflected is extracted as an index image.
このように、第4の実施の形態によれば、画像を解析して画像の中の人物以外の被写体が観光地を代表する被写体か否かを判別し、複数の画像の中から観光地を代表する被写体が写っていると判別された画像を抽出するようにしたので、それぞれの観光地を代表する画像を自動的に提示することができる。なお、上記の例において、画像中に観光地を代表する被写体とともに、特定個人が写っている画像を抽出する構成としても構わない。この場合には、画像中の特定個人は所定値以上の大きさであることが好ましく、さらに、画像中の観光地を代表する被写体、及び特定個人がぼけていない画像を優先的に抽出する構成とすることが望ましい。これらの被写体がぼけているか否かの判別は、画像データの周波数解析により行うことができる。 As described above, according to the fourth embodiment, an image is analyzed to determine whether a subject other than a person in the image is a subject representing a tourist spot, and a tourist spot is selected from a plurality of images. Since an image determined to include a representative subject is extracted, an image representative of each sightseeing spot can be automatically presented. In the above example, it is possible to extract an image in which a specific individual is shown together with a subject representing a sightseeing spot in the image. In this case, the specific individual in the image is preferably larger than a predetermined value, and a subject representing the tourist spot in the image and an image in which the specific individual is not blurred are preferentially extracted. Is desirable. Whether or not these subjects are blurred can be determined by frequency analysis of image data.
《第5の実施の形態》
特定の人物の人物相関図に基づいて画像を抽出する実施の形態を説明する。図6は人物相関図に基づく画像抽出プログラムを示すフローチャートである。ステップ61において、コンピューター6の解析・処理部6bは、記録媒体2aから読み出され記憶装置2に記憶されている画像を、撮影日時情報を用いて時間軸でクラスタリングし、ある特定のイベントで撮影されたと考えられる画像群を検索する。
<< Fifth Embodiment >>
An embodiment for extracting an image based on a person correlation diagram of a specific person will be described. FIG. 6 is a flowchart showing an image extraction program based on the person correlation diagram. In step 61, the analysis /
次に、ステップ62で画像群に写されているイベントを識別する。イベントの識別は、映像に映っている主人公などの主要被写体の動作の認識処理や、主人公などの服装の特徴抽出、あるいは認識処理などを行うことによって実現される。動作の認識処理は、例えば特開平5−46583号公報に開示されるように、画像をメッシュ状に分割し、各メッシュの内部で算出した特徴量(オプティカルフロー等)をベクトルとし、この特徴量ベクトルの時系列変化を確率的状態遷移モデルで認識する方法や、特開2005−215927号公報に開示されるように、行動を認識する場合における認識処理を第1ステップと第2ステップとの2段階構成とし、第1ステップの動作要素抽出部では、画像データを処理して検出される動きの情報の時系列変化に基づき短時間に行われる一定の動作パターンを認識するとともに、第2ステップの行動認識部では、認識対象とする期間に含まれる一定の動作パターンの割合に基づき、長期間に亘る動作を認識する方法、さらには特開2008−140267号公報に開示されるような高次局所自己相関特徴を用いて動作を認識する方法などを用いることができる。また、服装などの特徴抽出は、例えば、認識された顔の位置の下部領域の色情報、エッジ情報、テクスチャ情報を抽出することによって実現することができる。さらに、これらの抽出された情報をもとに、体操服やウェディングドレスなど、イベント特有の服装を認識することができる。なお、イベント判別に際して画像データに関連付けられて記録されている音声データを参照し、より正確なイベント判別を行ってもよい。また、イベント特有の被写体(例えば「運動会」のイベントであれば、万国旗)を認識してイベントを判別する構成としてもよい。このようなイベント特有の被写体の種類は、その認識手法と共に制御部6aに、各イベントに対応付けられて予め記録されている。この例では、同じ撮影日の画像群の画像に対して文字認識を行い、画像群の撮影対象イベントがNaoちゃんの入学式であると識別されたとする。
Next, in step 62, an event shown in the image group is identified. The identification of the event is realized by performing recognition processing of the movement of the main subject such as the main character shown in the video, extraction of clothing features such as the main character, or recognition processing. For example, as disclosed in Japanese Patent Application Laid-Open No. 5-46583, the motion recognition process divides an image into meshes, and uses feature quantities (such as an optical flow) calculated inside each mesh as vectors. A method of recognizing a time-series change of a vector by a probabilistic state transition model or a recognition process when recognizing an action as disclosed in Japanese Patent Application Laid-Open No. 2005-215927 is a first step and a second step. The motion element extraction unit in the first step recognizes a certain motion pattern performed in a short time based on the time-series change of the motion information detected by processing the image data, and the second step. In the action recognition unit, a method for recognizing a motion over a long period of time based on a ratio of a certain motion pattern included in a period to be recognized, The like can be used how to recognize operation using higher order local autocorrelation features as disclosed in 40267 JP. Also, feature extraction such as clothes can be realized by extracting color information, edge information, and texture information of a lower region of the recognized face position, for example. Furthermore, based on the extracted information, it is possible to recognize clothes peculiar to events such as gym clothes and wedding dresses. Note that more accurate event determination may be performed by referring to audio data recorded in association with image data at the time of event determination. Further, the event may be determined by recognizing an event-specific subject (for example, a national flag for an “athletic event” event). Such event-specific subject types are recorded in advance in the
ステップ63において画像の配信先を決定する。ここでは、Naoちゃんの入学式の画像の配信先を決定する。配信先の決定手順はイベントあるいは写っている被写体に応じて予め定められ、記憶装置2に記憶されている。例えば、家族全員が写っている画像がある場合には、入学式の看板とNaoちゃんが単独で写っている画像と合わせて父方の祖父母、母方の祖父母、父の弟の家族に対して配信される。また、家族全員が写っている画像がなく、母とNaoちゃんの写っている画像がある場合には、入学式の看板とNaoちゃんとが単独で写っている画像を父方の祖父母、母方の祖父母、父の弟の家族に配信し、母方の祖父母にはさらに母とNaoちゃんの写っている画像を配信する。母方の祖父母にとっては、自分の子供(Naoちゃんの母)と孫(Naoちゃん)により関心を持つため、配信する画像をNaoちゃんとの関係に応じて選択する。つまり、必ずしも写っている人に画像を配信するのではなく、写っている人との関係に応じて配信先を決定する。
In step 63, an image distribution destination is determined. Here, the distribution destination of Nao-chan's entrance ceremony image is determined. The procedure for determining the delivery destination is determined in advance according to the event or the photographed subject and stored in the
ステップ64では配信先に応じた画像を抽出する。父方と母方の祖父母に孫のNaoちゃんの入学式の画像を配信するために、制御部6aは、Naoちゃんの入学式の画像群の中から入学式の看板とNaoちゃんが単独で写っている画像、および家族が写っている画像を抽出する。このとき、各個人は個人認証により識別し、入学式の看板は文字認識により識別する。なお、家族全員が写っている画像がない場合には、母とNaoちゃん、父とNaoちゃんが写っている画像を抽出する。ステップ65において、抽出した画像を通信装置9からインターネットを介して父方と母方の祖父母に配信する。
In step 64, an image corresponding to the delivery destination is extracted. In order to deliver the grandchild Nao's entrance ceremony image to the paternal and maternal grandparents, the
なお、画像の最終利用者として母方の祖父母が指定された場合に、Naoちゃん、母、弟が写っている画像を抽出するようにしてもよい。また、画像の配信先として母方の祖父母が指定された場合、家族全員の画像、Naoちゃん、母、弟が写っている画像を抽出するようにしてもよい。つまり、父が単独で写っている画像を抽出しない。 When a maternal grandparent is designated as the final user of the image, an image in which Nao-chan, mother, and younger brother are shown may be extracted. When a maternal grandparent is designated as an image distribution destination, an image of the whole family, an image of Nao-chan, mother, and brother may be extracted. That is, an image in which the father is shown alone is not extracted.
また、配信先に関する情報を、イベント種類情報とともに各画像に関連づけて記録するようにしてもよい。これにより、配信先を指定するだけで人物相関を考慮した画像を抽出することができる。さらに、画像が入学式のイベントを写したものであることが識別されたら、画像の中から主人公を識別し、主人公が写っている画像を抽出するようにしてもよい。この場合、撮影時に主要被写体として選択されたオートフォーカス領域の情報を用い、画像の中の選択されたオートフォーカス領域の被写体を主人公と認定してもよい。 Further, information regarding the delivery destination may be recorded in association with each image together with the event type information. Thereby, it is possible to extract an image in consideration of person correlation only by specifying a delivery destination. Further, if it is identified that the image is a copy of an entrance ceremony event, the hero may be identified from the image and an image showing the hero may be extracted. In this case, the subject in the selected autofocus area in the image may be recognized as the main character using information on the autofocus area selected as the main subject at the time of shooting.
このように、第5の実施の形態によれば、画像を解析して画像の視聴者を設定し、複数の画像の中から、設定された視聴者と相関関係のある人物が写っている画像を抽出するようにしたので、画像ごとに最適な視聴者を自動的に設定することができ、各画像をそれぞれの最適な視聴者に自動的に提示することができる。 Thus, according to the fifth embodiment, an image is analyzed to set the viewer of the image, and an image in which a person having a correlation with the set viewer is shown from among the plurality of images. Therefore, it is possible to automatically set an optimal viewer for each image, and to automatically present each image to each optimal viewer.
《第6の実施の形態》
画像に写っているイベントを識別し、イベントに応じて画像抽出の基準を変更する第6の実施の形態を説明する。コンピューター6の解析・処理部6bは、記録媒体2aから読み出され、記憶装置2に記憶されている画像を、撮影日時情報を用いて時間軸でクラスタリングするとともに、被写体認識によりクラスタリングを行い、ある特定のイベントで撮影されたと考えられる画像群を検索する。例えば、最初に撮影した画像とその日の最後に撮影した画像に写っている人物の多くが共通しており、ホワイトバランスの制御値が同じである場合には、その間に撮影された画像はある特定のイベントで撮影された画像であると判定する。
<< Sixth Embodiment >>
A sixth embodiment in which an event appearing in an image is identified and an image extraction criterion is changed according to the event will be described. The analysis /
図7は、Naoちゃんの両親(図3に示す人物相関図参照)がNaoちゃんの写真を額縁に入れて飾るために1枚の画像をプリントアウトする場合の画像抽出例を示すフローチャートである。この例では幼稚園の遠足と小学校の入学式のイベントが撮影された画像群から1枚の画像を抽出する例を示すが、イベントの種類と数は特に限定されない。また、各画像データには、例えば上述した方法によるイベントの識別結果が記録されているものとする。 FIG. 7 is a flowchart showing an example of image extraction when Nao-chan's parents (see the person correlation diagram shown in FIG. 3) print out a single image to decorate the picture of Nao-chan in a frame. In this example, one image is extracted from an image group in which a kindergarten excursion and an elementary school entrance ceremony event are taken, but the type and number of events are not particularly limited. Further, it is assumed that an event identification result by the above-described method is recorded in each image data.
ステップ71において、使用者により画像抽出対象のイベントが選択されたか否かを判別し、イベントが選択されていればステップ72へ進む。ステップ72で、イベントが幼稚園の遊園地への遠足か否かを判別し、遊園地への遠足であればステップ73へ進む。ステップ73において、記憶装置2に記憶されている画像の中から、各画像データに関連付けて記録されているイベントの識別データを参照して幼稚園の遊園地への遠足イベントの画像群を抽出する。続くステップ74では、抽出した幼稚園の遊園地遠足のイベント画像群の中から、構図や画像の中に写っている人を個人認証により判別し、上述した方法により類似画像を除外する。
In step 71, it is determined whether or not an event to be extracted is selected by the user. If an event is selected, the process proceeds to step 72. In step 72, it is determined whether or not the event is an excursion to a kindergarten amusement park. In
次にステップ75で、遊園地遠足イベントの画像群から、Naoちゃんが仲のよい友達と所定以上の大きさで、かつ笑顔で写っている画像を抽出する。このとき、クラス全員の集合写真など、顔の大きさが小さい画像は除外される。続くステップ76では、上記ステップ75で抽出した画像群から、Naoちゃんと観覧車などの遊園地特有の乗り物やお城などの遊園地特有の建物がいっしょに写っている画像を抽出する。ここで、遊園地特有の建物は、画像データに関連付けて記録されている撮影場所および撮影方向や、画像のエッジ成分より抽出した形状や色情報などに基づいて識別することができる。また、遊園地の遊具は、画像のエッジ成分より抽出した形状、色情報、撮影時のスルー画生成時に取得した動き情報(撮影時のスルー画生成時に取得した動き情報は、動き物体の領域、動き方向、動き量などが画像データに関連付けて記録されている)に基づいて識別することができる。 Next, in step 75, an image of Nao-chan with a close friend and a size larger than a predetermined size and with a smile is extracted from the image group of the amusement park excursion event. At this time, images with a small face size such as a group photo of all the classes are excluded. In the subsequent step 76, an image in which the amusement park specific vehicle such as Nao and the ferris wheel and the amusement park specific building such as the castle are taken together is extracted from the image group extracted in the above step 75. Here, the amusement park-specific building can be identified based on the shooting location and shooting direction recorded in association with the image data, the shape and color information extracted from the edge component of the image, and the like. In addition, the playground equipment of the amusement park is the shape and color information extracted from the edge component of the image, the motion information acquired when generating the through image at the time of shooting (the motion information acquired when generating the through image at the time of shooting is the area of the moving object, The movement direction, the movement amount, etc. are recorded in association with the image data).
ステップ77において、抽出した画像をディスプレイ7にサムネイル表示する。ステップ78で使用者が表示画像の中からいずれかの画像を選択したか否かを確認し、選択したらステップ79へ進み、使用者が選択した画像のデータを通信装置9を介して外部のプリンターへ送信し、プリントアウトする。
In
使用者が選択したイベントが幼稚園の遊園地遠足でない場合にはステップ80へ進み、小学校の入学式のイベントか否かを確認する。小学校の入学式のイベントが選択された場合にはステップ81へ進み、記憶装置2に記憶されている画像の中から、各画像に記録されているイベントの識別データを参照して小学校の入学式イベントの画像群を抽出する。続くステップ82では、抽出した小学校の入学式のイベント画像群の中から、構図や画像の中に写っている人を個人認証により判別し、上述した方法により類似画像を除外する。
If the event selected by the user is not a kindergarten amusement park excursion, the process proceeds to step 80 to check whether it is an elementary school entrance ceremony event. If an elementary school entrance ceremony event is selected, the process proceeds to step 81, and the elementary school entrance ceremony is referred to by referring to the event identification data recorded in each image from the images stored in the
ステップ83では、小学校入学式イベントの画像群の中から、Naoちゃんが所定以上の大きさ(上述したステップ75の大きさよりも大きく設定されている)で父母とともにランドセルを背負っている画像を抽出する。このとき、他人が写っていない画像を優先的に抽出する。画像中の人が他人か否かの判断は、図3の人物相関図を用いて判別することができる。他人が写っていても、Naoちゃんと父母より小さく、かつNaoちゃんと父母より後ろに移っている画像を優先的に抽出する構成としてもよい。なお、ランドセルは、Naoちゃんの顔領域下の人体領域に隣接した領域のエッジ分析による形状分析と色情報により認識することができる。また、父母は個人認証により識別可能である。続くステップ84で、上記ステップ83で抽出した画像群の中から、入学式会場の看板や校門が写っている画像を抽出する。ここで、入学式の看板は、記憶装置2に記憶されている「入学式」などの特定文字と照合して識別する。
In step 83, an image in which Nao-chan is carrying a school bag with her parents with a size larger than a predetermined size (set larger than the size in step 75 described above) is extracted from the image group of the elementary school entrance ceremony event. . At this time, an image in which no other person is shown is extracted preferentially. Whether or not the person in the image is another person can be determined using the person correlation diagram of FIG. Even if another person is shown, it may be configured to preferentially extract images that are smaller than Nao-chan and her parents and are moving behind Nao-chan and her parents. The school bag can be recognized by shape analysis based on edge analysis and color information of an area adjacent to the human body area under Nao's face area. Parents can be identified by personal authentication. At the next step 84, an image showing the signboard and school gate of the entrance ceremony hall is extracted from the image group extracted at step 83. Here, the signboard of the entrance ceremony is identified by collating with specific characters such as “entrance ceremony” stored in the
ステップ77において、抽出した画像をディスプレイ7にサムネイル表示する。ステップ78で使用者が表示画像の中からいずれかの画像を選択したか否かを確認し、選択したらステップ79へ進み、使用者が選択した画像のデータを通信装置9を介して外部のプリンターへ送信し、プリントアウトする。
In
幼稚園の遠足と小学校の入学式のイベントを例に挙げて、イベントに応じた画像抽出基準を説明したが、その他のイベントにおいてもイベントに応じた画像抽出基準が設定されている。例えば、Naoちゃんの父親が会社の同僚と飲み会に行ったときの画像は、次のような基準にしたがって抽出する。まず、記憶装置2に記憶されている画像の中から、画像に関連付けて記録されているイベントの識別データに基づいて飲み会の画像群を抽出する。イベントが飲み会である場合には、熱唱している、芸を披露しているなどの場合を除いて、一人で黙々と食事をしている画像を抽出してもあまり意味がない。したがって、撮影時のスルー画生成時に取得した動き情報に基づいて、カラオケを熱唱している、芸を披露しているなどの画像を抽出するとともに、多くの人が正面を向いている画像を抽出する。
Taking the kindergarten excursions and elementary school entrance ceremony events as examples, image extraction criteria according to events have been described, but image extraction criteria according to events are also set for other events. For example, an image when Nao's father goes to a drinking party with a company colleague is extracted according to the following criteria. First, from the images stored in the
また、結婚式のイベントでは、新郎新婦が誓いの言葉を朗読している画像、指輪を交換している画像などを抽出するのが望ましい。この場合、画像データに関連付けて記憶されている音声データを解析し、新郎新婦による誓いの言葉の朗読や司会者による「次は指輪交換です」のアナウンスを音声認識し、結婚式における代表的なシーンの画像を抽出する。また、結婚式イベントの画像抽出に際しては、新郎新婦の顔がぶれていない、目つぶりしていない画像を抽出する。新郎、新婦、神父または神主などは個人認証により識別する。 Also, in a wedding event, it is desirable to extract an image in which the bride and groom are reading a word of oath, an image in which a ring is exchanged, and the like. In this case, the voice data stored in association with the image data is analyzed, voice recognition of the words of the vows by the bride and groom and the announcement of “next is a ring exchange” by the moderator is recognized as voice, Extract scene images. In addition, when extracting an image of a wedding event, an image in which the bride and groom's face is not blurred or unblinded is extracted. Grooms, brides, priests or priests are identified by personal authentication.
また、画像抽出者のイベントへの関わり度合いに基づいて画像を抽出してもよい。例えば、イベントが結婚式の場合には、画像抽出者が結婚式の主役(新郎、新婦)であれば、結婚式で撮影されたすべての画像を抽出し、画像抽出者が新婦側の親族であれば、新婦側出席者が写っている画像を抽出する。また、画像抽出者が新郎の同僚である場合には、新郎の同僚あるいは新郎、新婦と一緒に写っている画像を抽出する。画像抽出は使用者が操作部材5から手動で入力して行うものでももよいし、画像抽出時に撮像装置3により撮像した画像を解析・処理部6bにより解析し、画像抽出者(使用者)を自動的に識別して設定するようにしてもよい。結婚式のイベントの識別は、例えば教会、ウエディングドレス、神父の服装、バージンロードの画像認識などに基づいて行うことができる。また、各人のイベントへの関わり度合いは、上述した人物相関図に基づいて判定することができる。画像抽出者はすなわち画像を抽出したい人であるから、人物相関図にしたがってイベントへの関わり度合いを判定し、判定結果に基づいて画像を抽出する。
Further, the image may be extracted based on the degree of involvement of the image extractor in the event. For example, if the event is a wedding, if the image extractor is the protagonist of the wedding (groom, bride), all images taken at the wedding are extracted, and the image extractor is a relative on the bride side. If there is, an image showing the bride attendees is extracted. If the image extractor is a groom's colleague, an image taken together with the groom's colleague, the groom, or the bride is extracted. The image extraction may be performed manually by the user through the
パリや有名な遊園地への旅行イベントの画像を抽出する場合には、画像データに関連付けて記録されている撮影場所および撮影方向のデータ、インターネットなどを介して入手した遊園地のキャラクター情報などを用い、旅行先を特定し、旅行先ごとの特有の建造物やキャラクターを識別し、それらといっしょに写っている画像を抽出する。また、サッカー試合のイベントの画像を抽出する場合には、画像解析によるゴールやボールの特定(空間周波数やエッジ抽出などによる)や選手どうしの距離の推定などを行い、選手がゴールする画像、二人の選手がボールを奪い合う画像などを抽出する。さらに、100m走のイベント画像を抽出する場合には、画像解析により選手がゴールテープを切るシーンやスタートラインに整列する選手を特定し、ゴールやスタートの瞬間の画像を抽出する。 When extracting images of travel events to Paris and famous amusement parks, the shooting location and shooting direction data recorded in association with the image data, amusement park character information obtained via the Internet, etc. Used to identify travel destinations, identify unique buildings and characters for each travel destination, and extract images that are shown with them. In addition, when extracting an image of a soccer game event, the goal or ball is identified by image analysis (by spatial frequency, edge extraction, etc.) or the distance between players is estimated. Extract images of players competing for the ball. Further, when extracting an event image of a 100 m run, a scene where a player cuts the goal tape or a player aligned with the start line is specified by image analysis, and an image of the goal or start moment is extracted.
なお、画像配信やスライドショーなどの画像抽出の目的に応じて画像抽出の基準を変更してもよい。 Note that the image extraction reference may be changed according to the purpose of image extraction such as image distribution or a slide show.
このように、第6の実施の形態によれば、画像を解析して画像に写っているイベントを識別し、イベントに応じて画像を抽出する基準を変更し、複数の画像の中から、変更された基準にしたがって画像を抽出するようにしたので、各イベントに相応しい画像を自動的に提示することができる。 As described above, according to the sixth embodiment, the event is analyzed by identifying the image, the reference for extracting the image is changed according to the event, and the change is made from the plurality of images. Since the image is extracted according to the set standard, an image suitable for each event can be automatically presented.
《第7の実施の形態》
次に、他のアプリケーションプログラム(例えばブログ)による画像の選択結果に基づいて画像を抽出する方法を説明する。一般に、記録されている画像の中からパソコンの壁紙に使用する画像を選択したり、ブログに貼り付ける画像を選択することがある。例えば、上述した人物相関図の中の父が毎日ブログ、つまり一実施の形態の画像抽出プログラムとは別のアプリケーションプログラムを実行する場合には、制御部6aおよび解析・処理部6bによりブログに選択される画像の傾向を認識し、選択傾向に基づいてパソコンの壁紙にする画像の候補を抽出するようにしてもよい。ブログに貼り付けられる画像の傾向として犬が写っている画像が多いと認識された場合には、記憶装置2に記憶されている画像の中から犬に関する画像を抽出し、壁紙候補として提示する。このとき、図3に示す人物相関図にしたがって、自分のペットであるヒナちゃんの画像がコロちゃんよりも優先的に抽出される。
<< Seventh Embodiment >>
Next, a method for extracting an image based on an image selection result by another application program (for example, a blog) will be described. In general, an image to be used as a PC wallpaper is selected from recorded images, or an image to be pasted on a blog may be selected. For example, when the father in the above-described person correlation diagram executes a daily blog, that is, an application program different from the image extraction program according to the embodiment, the blog is selected by the
さらに、青空の下で犬を写した画像がブログに貼り付けられる傾向があると解析された場合には、青空に生える白い毛色の犬を優先的に抽出するようにしてもよい。犬や青空は被写体認識により識別し、毛色は画像の色解析により識別することができる。このように、他のアプリケーションプログラム(ブログ)による画像の選択傾向を定常的に取得するようにすれば、画像選択の傾向の変化に柔軟に対応することができ、その傾向に応じた画像を速やかにかつ的確に抽出することができる上に、視聴者が興味のある画像を無意識のうちに抽出することができる。 Furthermore, when it is analyzed that an image of a dog under a blue sky tends to be pasted on a blog, a white-haired dog that grows in a blue sky may be preferentially extracted. Dogs and blue sky can be identified by subject recognition, and hair color can be identified by color analysis of the image. As described above, if the selection tendency of images by other application programs (blogs) is constantly acquired, it is possible to flexibly cope with changes in the tendency of image selection, and images corresponding to the tendency can be quickly displayed. In addition to being able to extract accurately and accurately, an image that the viewer is interested in can be extracted unconsciously.
《第8の実施の形態》
雑誌や新聞を編集する際に、掲載する画像を選択するための画像抽出方法を説明する。雑誌や新聞に記事とともに画像を掲載する場合には、記事の内容に適した画像を選択しなければならない。例えば、記事の文章が「**省の官僚○○は、xxxx年yy月zz日の記者会見において、これより前に行われた記者との懇親会食における飲酒の影響か、途中眠ったように意識がおかしい状況であった」というような場合には、この文章を解析した結果に基づいて、xxxx年yy月zz日に撮影された画像を各画像の撮影日時情報に基づいて抽出し、それらの画像の中から**省の官僚○○が写っている画像を個人認証を行って抽出する。さらに、抽出された画像の中から上述した方法で目をつぶっている画像を抽出する。
<< Eighth Embodiment >>
An image extraction method for selecting an image to be posted when editing a magazine or newspaper will be described. When an image is posted together with an article in a magazine or newspaper, an image suitable for the content of the article must be selected. For example, the sentence of the article is “** Ministry of bureaucrats XX, at the press conference on yyyy zz of xxx year, because of the influence of drinking in the social gathering with the reporters held before this, as if sleeping in the middle In the case of `` unconscious situation '', based on the result of analyzing this sentence, images taken on yyyy zz of xxx year are extracted based on the shooting date information of each image, The images of ** ministerial bureaucrats XX are extracted from the images of the above by performing personal authentication. Further, an image whose eyes are closed is extracted from the extracted images by the method described above.
また、記事の文章が「追突事故で死亡した○×の姉であるタレントの○△は、xxxx年yy月zz日の会見において、加害者への怒りを涙ながらに語った」というような場合には、上記と同様に、xxxx年yy月zz日に撮影された画像の中から、タレント○△が涙を流して怒りを込めている画像を抽出する。上記の怒りのような感情の画像データからの抽出は、例えば特開2006−123136号公報(段落0057〜0059等参照)に開示されているように、顔の筋肉の動きを特徴量として求め、それぞれの感情について特徴量の組み合わせを学習させておいたSVM(Support Vector Machine)を用い、感情の有無を判別する手法を用いることができる。制御部6aは、記事の中から被写体の状態を表している言葉を抽出し、これに該当する画像を例えば上記手法を用いて選択する。上記の例では、記事をもとに画像を抽出する例について説明したが、例えば日記のように、一般人が作成する文章データから画像を抽出する構成としてもよい。上記のような構成によれば、文章を作成するだけで、文章の内容に合った画像を自動的に抽出、選択することができる。
Also, when the sentence of the article says, “The △ of the talent who is the sister of ○ × who died in a rear-end accident told the anger of the perpetrator in tears at a meeting on the date of xxx year yy month zz” In the same manner as described above, an image in which the talent ◯ sheds tears and is angry is extracted from images taken on yy month zz of xxx year. Extraction from the image data of emotions such as anger is obtained as a feature amount of facial muscle movement, as disclosed in, for example, JP 2006-123136 A (see paragraphs 0057 to 0059, etc.) It is possible to use a technique for determining the presence or absence of an emotion using an SVM (Support Vector Machine) in which a combination of feature amounts is learned for each emotion. The
《第9の実施の形態》
多くの画像を複数のグループに分類したときに、各画像グループにどのような画像が含まれているかを容易に把握するために、各グループを代表する画像をインデックス画像として表示することがある。このような場合に、各画像に対して人物の表情認識を行って人物の表情を代表する画像をインデックス画像として抽出することができる。例えば、インタビューの際に、怒っている人がふと笑ったような動画像や連写画像などの場合には、怒っている画像と笑っている画像とがインデックス画像として抽出される。このような主要被写体の異なった表情をインデックス画像とすることができる。
<< Ninth embodiment >>
When many images are classified into a plurality of groups, an image representing each group may be displayed as an index image in order to easily understand what images are included in each image group. In such a case, the facial expression recognition of a person can be performed on each image, and an image representing the facial expression of the person can be extracted as an index image. For example, in the case of a moving image or continuous shot image in which an angry person laughs during an interview, the angry image and the laughing image are extracted as index images. Such different facial expressions of the main subject can be used as an index image.
なお、上述した実施の形態とそれらの変形例において、実施の形態どうし、または実施の形態と変形例とのあらゆる組み合わせが可能である。 In the above-described embodiments and their modifications, all combinations of the embodiments or the embodiments and the modifications are possible.
1;画像抽出装置、2;記憶装置、3;撮像装置、4;マイクロフォン、5;操作部材、6;コンピューター、6a;制御部、6b;解析・処理部、7;ディスプレイ、8;スピーカー、9;通信装置
DESCRIPTION OF
Claims (6)
複数の画像の中から、前記解析手順における前記音声の解析結果に応じた画像を抽出する抽出手順と、
前記解析手順で特定された発話者の種別に応じて、画像を抽出する基準を変更する変更手順と、をコンピュータに実行させることを特徴とする画像抽出プログラム。 Analyzing the collected speech and identifying the speaker ,
An extraction procedure for extracting an image according to the analysis result of the voice in the analysis procedure from a plurality of images ,
An image extraction program for causing a computer to execute a change procedure for changing a reference for extracting an image according to a type of a speaker specified in the analysis procedure .
前記発話者の種別は、性別または年齢であることを特徴とする画像抽出プログラム。 The image extraction program according to claim 1,
The image extraction program characterized in that the type of the speaker is sex or age .
前記解析手順では、前記音声を解析して会話内容を認識し、
前記抽出手順では、前記解析手順で認識された前記会話内容に応じた画像を抽出することを特徴とする画像抽出プログラム。 The image extraction program according to claim 1 ,
In the analysis procedure, the speech is analyzed to recognize the conversation content,
In the extraction procedure, an image according to the conversation content recognized in the analysis procedure is extracted.
前記抽出手順では、前記解析手順で特定された前記発話者に関連する画像を抽出することを特徴とする画像抽出プログラム。 The image extraction program according to claim 1 ,
In the extraction procedure, an image extraction program that extracts an image related to the speaker specified in the analysis procedure.
前記抽出手順では、前記解析手順で特定された前記発話者と相関関係のある人物に関連する画像を抽出することを特徴とする画像抽出プログラム。 The image extraction program according to claim 1 ,
In the extraction procedure, an image extraction program that extracts an image related to a person correlated with the speaker specified in the analysis procedure.
請求項1〜5のいずれか一項に記載の画像抽出プログラムを実行し、前記記憶装置に記憶されている前記複数の画像の中から画像を抽出するコンピューターと、
前記コンピューターにより抽出された前記画像を表示する表示装置とを備えることを特徴とする画像抽出装置。
A storage device for storing a plurality of images;
A computer that executes the image extraction program according to any one of claims 1 to 5 and extracts an image from the plurality of images stored in the storage device;
An image extraction apparatus comprising: a display device that displays the image extracted by the computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009095983A JP5532661B2 (en) | 2009-04-10 | 2009-04-10 | Image extraction program and image extraction apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009095983A JP5532661B2 (en) | 2009-04-10 | 2009-04-10 | Image extraction program and image extraction apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010251841A JP2010251841A (en) | 2010-11-04 |
JP5532661B2 true JP5532661B2 (en) | 2014-06-25 |
Family
ID=43313729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009095983A Active JP5532661B2 (en) | 2009-04-10 | 2009-04-10 | Image extraction program and image extraction apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5532661B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012124252A1 (en) * | 2011-03-14 | 2012-09-20 | 株式会社ニコン | Electronic device, and method and program for controlling electronic device |
JP2013012993A (en) * | 2011-06-30 | 2013-01-17 | Nikon Corp | Image processing device, imaging device, and image processing program |
WO2013084395A1 (en) * | 2011-12-07 | 2013-06-13 | 株式会社ニコン | Electronic device, information processing method and program |
JP2015104078A (en) | 2013-11-27 | 2015-06-04 | オリンパス株式会社 | Imaging apparatus, imaging system, server, imaging method and imaging program |
JP7026812B2 (en) * | 2018-09-25 | 2022-02-28 | 三菱電機株式会社 | Information processing equipment and information processing method |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100347710B1 (en) * | 1998-12-05 | 2002-10-25 | 엘지전자주식회사 | Method and data structure for video browsing based on relation graph of characters |
JP2005352933A (en) * | 2004-06-14 | 2005-12-22 | Fuji Xerox Co Ltd | Display arrangement, system, and display method |
WO2006022071A1 (en) * | 2004-08-25 | 2006-03-02 | Matsushita Electric Industrial Co., Ltd. | Video display and video displaying method |
JP2007281618A (en) * | 2006-04-03 | 2007-10-25 | Sony Corp | Information processor, information processing method and program |
JP2008160232A (en) * | 2006-12-21 | 2008-07-10 | Funai Electric Co Ltd | Video audio reproducing apparatus |
JP2008294722A (en) * | 2007-05-24 | 2008-12-04 | Panasonic Corp | Motion picture reproducing apparatus and motion picture reproducing method |
JP5128880B2 (en) * | 2007-08-30 | 2013-01-23 | オリンパスイメージング株式会社 | Image handling device |
JP2009071480A (en) * | 2007-09-12 | 2009-04-02 | Sony Corp | Imaging device, imaging method, and program |
-
2009
- 2009-04-10 JP JP2009095983A patent/JP5532661B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010251841A (en) | 2010-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110612533B (en) | Method for recognizing, ordering and presenting images according to expressions | |
US8548249B2 (en) | Information processing apparatus, information processing method, and program | |
WO2017157272A1 (en) | Information processing method and terminal | |
JP4612772B2 (en) | Image processing method, image processing apparatus, and computer-readable storage medium | |
US10679063B2 (en) | Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics | |
CN111480156A (en) | System and method for selectively storing audiovisual content using deep learning | |
CN103179330B (en) | Photographing unit, image display device and method for displaying image | |
JP2019114243A (en) | Imaging device and learning method | |
CN101262561B (en) | Imaging apparatus and control method thereof | |
US20110243452A1 (en) | Electronic apparatus, image processing method, and program | |
JP5532661B2 (en) | Image extraction program and image extraction apparatus | |
JP2010066844A (en) | Method and device for processing video content, and program for processing video content | |
US20170213576A1 (en) | Live Comics Capturing Camera | |
JP6783479B1 (en) | Video generation program, video generation device and video generation method | |
US9525841B2 (en) | Imaging device for associating image data with shooting condition information | |
Merchant | (Re) constructing the tourist experience? Editing experience and mediating memories of learning to dive | |
CN109949392A (en) | Movie distribution method and system | |
JP2010021721A (en) | Camera | |
Sandbye | Play, Process and Materiality in Japanese Purikura Photography | |
CN110166345A (en) | Resource sharing method, resource acquiring method, device and storage medium | |
JP2017045374A (en) | Information processing device and program | |
O'Connor et al. | Photo provocations: Thinking in, with, and about photographs | |
WO2020158536A1 (en) | Information processing system, information processing method, and information processing device | |
US20210390134A1 (en) | Presentation file generation | |
Lutnesky | Women Over 50 Club: Age and TikTok Dancing in the COVID-19 Pandemic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120330 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130813 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5532661 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140414 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |