WO2021044692A1 - 撮像制御装置、撮像制御方法、プログラム、撮像装置 - Google Patents

撮像制御装置、撮像制御方法、プログラム、撮像装置 Download PDF

Info

Publication number
WO2021044692A1
WO2021044692A1 PCT/JP2020/023241 JP2020023241W WO2021044692A1 WO 2021044692 A1 WO2021044692 A1 WO 2021044692A1 JP 2020023241 W JP2020023241 W JP 2020023241W WO 2021044692 A1 WO2021044692 A1 WO 2021044692A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
introducer
product
image pickup
imaging
Prior art date
Application number
PCT/JP2020/023241
Other languages
English (en)
French (fr)
Inventor
太一 齋藤
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2021543957A priority Critical patent/JPWO2021044692A1/ja
Priority to CN202080060004.2A priority patent/CN114342350A/zh
Priority to US17/635,936 priority patent/US12041337B2/en
Priority to EP20861559.1A priority patent/EP4016988A4/en
Publication of WO2021044692A1 publication Critical patent/WO2021044692A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/667Camera operation mode switching, e.g. between still and video, sport and normal or high- and low-resolution modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • H04N23/672Focus control based on electronic image sensor signals based on the phase difference signals
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B7/00Mountings, adjusting means, or light-tight connections, for optical elements
    • G02B7/28Systems for automatic generation of focusing signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Definitions

  • This technology relates to an image pickup control device, an image pickup control method, a program, and an image pickup device, and particularly to a technique related to image pickup control according to a subject.
  • the image pickup control device includes a specific unit that identifies an introduction target and a target introducer who introduces the introduction target as subjects, and the introduction target, based on the captured image data obtained by the imaging unit of the imaging device.
  • a selection unit that selects one of the introduction target and the target introducer as a target subject based on the positional relationship between the target introducer and at least any two of the imaging devices, and the selection unit that selects the target. It is provided with an image pickup control unit that performs image pickup control corresponding to the subject selected as the subject.
  • the introduction target is, for example, an article or product that is the subject
  • the target introducer is, for example, a person who is the subject.
  • the imaging control is determined by estimating which of the introduction target and the target introducer is the main subject based on the positional relationship of any two of the introduction target, the target introducer, and the imaging device.
  • the imaging control for example, autofocus control, AE (Auto Exposure) control (aperture control, SS (Shutter Speed) control, gain control) and the like are assumed as controls related to the imaging operation of the imaging unit.
  • AE Auto Exposure
  • SS Shutter Speed
  • gain control gain control
  • control of image processing on the captured image data can be considered, and signal processing control such as white balance processing and contrast adjustment processing is also assumed.
  • the positional relationship between the referral target, the target introducer, and at least one of the imaging devices is the positional relationship between the target introducer and the referral target, the positional relationship between the referral target and the imaging device, and the imaging device and the target introduction.
  • the positional relationship of the person, or the positional relationship between the target introducer, the introduced target, and the imaging device is assumed.
  • the selection unit selects one of the introduction target and the target introducer as the target subject based on the positional relationship between the introduction target and the target introducer. Can be considered. Depending on the positional relationship between the introduction target and the target introducer, the scene or situation may be estimated, so use that to select the target subject.
  • the selection unit may select one of the introduction target and the target introducer as the target subject based on the positional relationship between the introduction target and the image pickup device. Conceivable. Since the scene or situation may be estimated depending on the positional relationship between the referral target and the imaging device, the target subject is selected by using it.
  • the specific unit identifies the introduction target by recognizing the introduction target based on the captured image data. That is, the goods to be introduced are directly specified by image recognition.
  • the specific unit recognizes the hand of the target introducer based on the captured image data, and specifies the introduction target based on the recognition result of the hand. Can be considered. For example, even if the referral target cannot be directly specified, or without being directly specified, the referral target can be indirectly specified based on the recognition result of the hand.
  • the specific unit virtually specifies the hand as the introduction target as a substitute for the original introduction target.
  • the referral target can be specified by recognizing the hand.
  • the specific unit specifies the introduction target based on the state of the hand.
  • the target to be introduced is specified when the hand, which is a part of the body of the target introducer, is in a state of holding, pinching, or grasping an article or the like.
  • the selection unit includes the referral target and the referral target based on the positional relationship between the referral target and the target introducer according to the state of the hand of the target introducer. It is conceivable to select one of the target introducers as the target subject.
  • the state of the hand is, for example, a state in which the hand, which is a part of the body of the target introducer, holds, pinches, or grasps an article, etc., and the target subject is selected based on the positional relationship associated with these states. I do.
  • the state of the hand is a state in which the hand of the target introducer is touching the introduction target.
  • the article, etc. is specified as an introduction target.
  • the state of the hand is a state in which the hand of the target introducer points to the introduction target.
  • the article, etc. is specified as an introduction target.
  • the selection unit is based on the positional relationship between at least two of the introduction target, the target introducer, and the image pickup device.
  • the positional relationship can be thought of as the distance relationship between them.
  • the imaging control is determined by estimating which of the introduction target and the target introducer is the main subject based on the distance relationship and its change.
  • the distance relationship is the distance between the introduction target and the image pickup device. Since the scene or situation may be estimated depending on the distance relationship between the referral target and the imaging device, the target subject is selected by using it.
  • the distance relationship is the distance between the target introducer and the introduction target.
  • the scene or situation may be estimated, so use that to select the target subject.
  • the distance relationship is the distance between the target introducer, the introduction target, and the image pickup device. Since the scene or situation may be estimated depending on the distance relationship between the introduction target, the target introducer, and the imaging device, the target subject is selected by using it.
  • the selection unit determines the distance relationship based on the ratio of at least one region of the introduction target or the target introducer to the entire frame of the captured image data. It is possible to detect it. For example, when the ratio of the introduced target on the captured image becomes larger than a predetermined value, the introduced target is determined to be the target subject, and the imaging control is executed.
  • the target introducer is informed that the image pickup control is difficult. It is conceivable to further include a presentation control unit that controls presentation. For example, it is possible to notify the user of a state in which the subject is too close to take an appropriate image.
  • the image pickup control device further includes an association control unit that performs association control for associating metadata related to the selection result by the selection unit with the captured image data. For example, it is possible to confirm which target subject is the target of imaging control by metadata even at a time such as later reproduction.
  • the imaging device of this technology has an imaging unit and the above imaging control device.
  • the information processing device in the image pickup device functions as an image pickup control device.
  • the imaging method of the present technology includes a specific process for identifying an introduction target and a target introducer who introduces the introduction target as subjects, respectively, based on the captured image data obtained by the imaging unit of the imaging device, the introduction target, and the above.
  • This is an imaging method including an imaging control process for performing imaging control corresponding to a selected subject. This makes it possible to appropriately set the subject to be subject to imaging control at the time of imaging.
  • the program related to this technology is a program that causes the image pickup control device to execute a process corresponding to such an image pickup control method. This makes it possible to realize the above-mentioned imaging control device by using an information processing device, a microcomputer, or the like.
  • the present technology identifies the referral target and the target introducer who introduces the referral target based on the captured image data obtained by capturing the moving image. Then, for example, one of the introduction target and the target introducer is selected as the target subject based on the positional relationship of at least one of the introduction target, the target introducer, and the imaging device. Imaging control suitable for the area of the subject selected as the target subject is performed.
  • an imaging device that performs appropriate imaging control on an image area of an introduction target or a target introducer in imaging a moving image posted on a moving image posting site, SNS, or the like will be described.
  • a product review video in which the video poster introduces the product will be described as an example.
  • the product to be introduced and the target introducer who introduces the product are imaged by the image pickup device.
  • the target introducer is mainly a video contributor, who introduces the product by himself / herself in the product review video.
  • the target introducer captures a product review video by taking a self-portrait with the imaging device fixed.
  • the object to be introduced refers to an article, and in the present embodiment, a product will be described as an example of the article.
  • the article referred to here may be something that is not subject to commercial transactions, and may be, for example, a copyrighted work created by oneself.
  • the product review video is composed of a performance scene and a product introduction scene.
  • the performance scene is a scene for the purpose of imaging the performance of the target introducer, such as self-introduction of the target introducer and explanation of the product outline
  • the product introduction scene is the shape and operation of the product, the actual usage of the product, etc. It is a scene for the purpose of imaging.
  • the image pickup device of the present embodiment determines whether the product review video is a performance scene or a product introduction scene, for example, based on the positional relationship of at least one of the introduction target, the target introducer, and the image pickup device. Then, the target subject is selected according to each scene. Then, imaging control is performed according to the selected target subject.
  • the image pickup control device of the embodiment of the present disclosure takes a form incorporated in various devices, particularly an image pickup device.
  • FIG. 1 shows an example of a device that can be an imaging device 1.
  • the device that can be the image pickup device 1 is a device having a moving image imaging function, and is assumed to be a digital video camera 1A, a digital still camera 1B, a mobile terminal 1C such as a smartphone, or the like.
  • an image pickup control device is incorporated in the image pickup device 1 listed above.
  • the image pickup device 1 is not limited to the examples given above, and may be any device that can include an image pickup control device or a device that is a control target of the image pickup control device, and various other devices can be considered.
  • the image pickup control device may be provided as a separate body.
  • the image pickup control refers to the control related to the image pickup of the image pickup apparatus 1, for example, the image pickup operation control which is the control related to the optical system and the light receiving operation for condensing the subject light on the image sensor (imaging element) of the image pickup unit, and the image pickup image.
  • It is an image sensor processing control that is a control for signal processing for data.
  • autofocus control, AE control (aperture control, SS control, gain control), zoom control, and the like are assumed as the imaging operation control.
  • the captured image processing control for example, white balance processing control, contrast adjustment processing control, image effect processing control, and the like are assumed.
  • the light receiving / imaging operation and the image signal processing are performed according to the image pickup operation control and the image pickup image processing control, and the image pickup image is output. That is, the captured image is recorded on a recording medium or displayed on a display unit.
  • the imaging device 1 includes an optical system 11, a driver unit 12, an imaging unit 13, a camera signal processing unit 16, a recording control unit 17, a presentation unit 18, an output unit 19, an operation unit 20, and a camera control unit 21. , A memory unit 23, and a sensor unit 24.
  • the optical system 11 includes a lens such as a zoom lens and a focus lens, an aperture mechanism, and the like.
  • the optical system 11 guides the light (incident light) from the subject and condenses it on the imaging unit 13.
  • the driver unit 12 is provided with, for example, a motor driver for a zoom lens drive motor, a motor driver for a focus lens drive motor, a motor driver for an aperture mechanism drive motor, a shutter driver for a shutter drive motor, and the like.
  • the driver unit 12 applies a drive current to the corresponding driver in response to instructions from the camera control unit 21 and the camera signal processing unit 16, moves the focus lens and zoom lens, opens and closes the aperture blades of the aperture mechanism, shutter operation, and the like. To execute.
  • the diaphragm mechanism is driven by a diaphragm drive motor and controls the amount of light incident on the image pickup unit 13, which will be described later.
  • the focus lens is driven by a focus lens drive motor and is used for focus adjustment.
  • the zoom lens is driven by a zoom lens drive motor and is used to adjust the zoom.
  • the shutter mechanism is driven by a shutter drive motor to perform shutter operation.
  • the image pickup unit 13 includes, for example, an image sensor 14 (imaging element) such as a CMOS (Complementary Metal Oxide Semiconductor) type or a CCD (Charge Coupled Device) type.
  • the image sensor 14 is composed of an image pickup pixel for capturing an image of a subject and an image plane phase difference pixel for detecting a phase difference of an optical image of the subject.
  • the image sensor 14 does not have to include the phase difference pixels.
  • the imaging unit 13 executes, for example, CDS (Correlated Double Sampling) processing, AGC (Automatic Gain Control) processing, and the like on the electric signal obtained by photoelectrically converting the light received by the image sensor 14, and further performs A / D (Analog) processing. / Digital) Performs conversion processing.
  • the imaging unit 13 outputs an imaging signal as digital data to the camera signal processing unit 16 and the camera control unit 21.
  • the image sensor 14 includes a plurality of imaging pixels, and each imaging pixel stores an electric charge according to the intensity of the received light.
  • the image sensor 14 may be covered with, for example, a Bayer array color filter.
  • the imaging signal can be read out from the electrical signal obtained by photoelectric conversion of the light received by these imaging pixel groups.
  • the image sensor 14 outputs an image pickup signal to the camera signal processing unit 16 and the camera control unit 21.
  • the image sensor 14 may include image plane phase difference pixels, and the image plane phase difference pixels detect the phase difference information.
  • the image plane phase difference pixels detect a pair of phase difference signals, and the imaging unit 13 outputs a pair of phase difference signals detected by the image plane phase difference pixels.
  • the phase difference signal is used, for example, in a correlation calculation for calculating the distance from the image pickup apparatus 1 to the referral target or the target introducer. It is not always necessary to provide the image plane phase difference pixel in the image sensor 14.
  • a dedicated phase difference sensor or TOF (Time of Flight) sensor arranged separately from the image sensor 14 may be used.
  • the distance from the image pickup device 1 to the product or the target introducer not only the distance itself may be detected, but also a value corresponding to the distance may be obtained.
  • the area size (the number of pixels included in the area) of the product or the target introducer in the captured image, the position information of the focus lens, and the like are information that indirectly represents the distance from the image pickup device 1.
  • the imaging unit 13 outputs the phase difference signal to the camera signal processing unit 16 and the camera control unit 21.
  • the camera signal processing unit 16 is configured as an image processing processor by, for example, a DSP (Digital Signal Processor) or the like.
  • the camera signal processing unit 16 performs various signal processing on the digital signal (captured image signal) from the imaging unit 13. For example, the camera signal processing unit 16 performs pre-processing, simultaneous processing, YC generation processing, various correction processing, resolution conversion processing, codec processing, and the like.
  • the captured image signal from the imaging unit 13 is clamped to clamp the black level of R, G, B to a predetermined signal level, correction processing between the color channels of R, G, B, and the like.
  • a color separation processing is performed so that the image data for each pixel has all the color components of R, G, and B.
  • demosaic processing is performed as color separation processing.
  • YC generation process a luminance (Y) signal and a color (C) signal are generated (separated) from the image data of R, G, and B.
  • the resolution conversion process the resolution conversion process is executed on the image data before or after various signal processing.
  • the image data subjected to the above various processing is encoded for recording or communication, and a file is generated.
  • a file is generated.
  • an image file MF as an MP4 format used for recording MPEG-4 compliant video / audio is generated.
  • JPEG Joint Photographic Experts Group
  • TIFF Tagged Image File Format
  • GIF Graphics Interchange Format
  • the camera signal processing unit 16 performs a process of adding the metadata transmitted from the camera control unit 21 to the image file.
  • the metadata includes various processing parameters in the camera signal processing unit 16 and detection information obtained in the sensor unit 24 described later. For example, it is added corresponding to each frame constituting the moving image, or corresponds to the entire moving image. It is added by the above, or it is added simply by a predetermined value such as a scene unit.
  • the camera control unit 21 (imaging control device 22) performs control according to the identification of the product introduction scene and the performance scene as described later, but metadata related thereto is also generated. , Is expected to be added to the image file.
  • information indicating whether each frame is a product introduction scene or a performance scene information indicating whether the scene identification is successful or unidentified, and information on whether or not the introduction target or the target introducer is specified.
  • Information indicating the specified introduction target and the area in the image of the target introducer, an error flag (described later in FIG. 18 and the like), and the like may be added as metadata.
  • the audio processing system is not shown in FIG. 2, it actually has an audio recording system and an audio processing system, and the image file may include audio data together with image data as a moving image. ..
  • a voice signal input from a voice input unit such as a microphone (not shown) is converted into a digital voice signal in the voice processing system and then sent to the camera control unit 21.
  • the camera control unit 21 controls the digital audio signal to be associated with the image signal and recorded on a recording medium using, for example, a non-volatile memory.
  • the recording control unit 17 records and reproduces, for example, a recording medium using a non-volatile memory.
  • the recording control unit 17 performs a process of recording an image file such as moving image data or still image data, a thumbnail image, or the like on a recording medium, for example.
  • the recording control unit 17 may be provided in the image pickup control device 22.
  • the recording control unit 17 can be considered in various ways.
  • the recording control unit 17 may be configured as a flash memory built in the image pickup device 1 and a write / read circuit thereof, or a recording medium that can be attached to and detached from the image pickup device 1, such as a memory card (portable flash memory, etc.). ) May be in the form of a card recording / playback unit that performs recording / playback access. Further, it may be realized as an HDD (Hard Disk Drive) or the like as a form built in the image pickup apparatus 1.
  • HDD Hard Disk Drive
  • the presentation unit 18 has a display unit that displays various displays to the imager, and the display unit is, for example, a liquid crystal panel (LCD: Liquid Crystal Display) or an organic EL (Electro-Luminescence) arranged in the housing of the image pickup device 1. ) It is used as a display panel or view finder by a display device such as a display. Further, the presentation unit 18 has an audio output unit such as a speaker, and the digital audio signal read by the camera control unit 21 is converted into an audio signal by the camera signal processing unit 16 and then output by the audio output unit.
  • LCD Liquid Crystal Display
  • organic EL Electro-Luminescence
  • the display unit in the presentation unit 18 causes various displays to be executed on the display screen based on the instruction of the camera control unit 21.
  • the camera signal processing unit 16 supplies captured image data whose resolution has been converted for display, and the display unit displays based on the captured image data in response to an instruction from the camera control unit 21.
  • a so-called through image which is an captured image during standby or recording
  • the display unit displays a reproduced image of the captured image data read from the recording medium by the recording control unit 17.
  • the display unit executes various operation menus, icons, messages, and the like, that is, display as a GUI (Graphical User Interface) on the screen.
  • GUI Graphic User Interface
  • the output unit 19 performs data communication and network communication with an external device by wire or wirelessly. For example, image data (still image file or moving image file) is transmitted and output to an external display device, recording device, playback device, or the like. Further, assuming that the output unit 19 is a network communication unit, it communicates with various networks such as the Internet, a home network, and a LAN (Local Area Network), and transmits and receives various data to and from a server, a terminal, etc. on the network. You may do so.
  • networks such as the Internet, a home network, and a LAN (Local Area Network)
  • the operation unit 20 collectively shows input devices for the user to perform various operation inputs. Specifically, the operation unit 20 shows various controls (keys, dials, touch panels, touch pads, etc.) provided in the housing of the image pickup apparatus 1. The operation unit 20 detects the user's operation, and the signal corresponding to the input operation is sent to the camera control unit 21.
  • the camera control unit 21 is composed of a microcomputer (arithmetic processing device) equipped with a CPU (Central Processing Unit).
  • the memory unit 23 stores information and the like used for processing by the camera control unit 21.
  • a ROM Read Only Memory
  • RAM Random Access Memory
  • flash memory and the like are comprehensively shown.
  • the memory unit 23 may be a memory area built in the microcomputer chip as the camera control unit 21, or may be configured by a separate memory chip.
  • the camera control unit 21 controls the entire image pickup apparatus 1 by executing a program stored in the ROM of the memory unit 23, the flash memory, or the like.
  • the camera control unit 21 controls the shutter speed of the image pickup unit 13, gives instructions for various signal processes in the camera signal processing unit 16, acquires lens information, captures and records according to the user's operation, and starts moving image recording /. Controls the operation of each necessary part for end control, playback operation of recorded image files, camera operation such as zoom, focus, and exposure adjustment in the lens barrel, user interface operation, and the like.
  • the RAM in the memory unit 23 is used for temporarily storing data, programs, and the like as a work area for various data processing of the CPU of the camera control unit 21.
  • the ROM and flash memory (nonvolatile memory) in the memory unit 23 include an OS (Operating System) for the CPU to control each unit, content files such as image files, application programs for various operations, and firmware. It is used for memory of etc.
  • the camera control unit 21 has a function as an image pickup control device 22.
  • the image pickup control device 22 is assumed to have functions as, for example, a specific unit 22a, a selection unit 22b, an image pickup control unit 22c, a presentation control unit 22d, and an association control unit 22e. These functions are realized by software (application program) in the camera control unit 21 as a microcomputer or the like.
  • the identification unit 22a performs a process of identifying the product as the subject and the target introducer who introduces the introduction target based on the captured image data obtained by the imaging unit 13 of the image pickup device 1. For example, the identification unit 22a identifies the face of the product or the target introducer by performing an analysis process of the acquired captured image data.
  • the product specified here is not limited to selecting a product to be introduced from the products detected from the subject reflected in the captured image data, but also depends on, for example, the position and state of the hand of the target introducer. , Estimating the position of the goods is also included.
  • the selection unit 22b selects one of the product and the target introducer as the target subject for the product to be introduced, the target introducer, and the imaging device 1, for example, based on the positional relationship of any two. More specifically, the selection unit 22b determines a scene for selecting the target subject, that is, determines whether the scene currently being imaged is a performance scene or a product introduction scene, and responds to the determined scene. Select one of the product and the target introducer as the target subject.
  • the positional relationship between the product, the target introducer, and the image pickup device 1 is referred to as a subject position relationship.
  • the subject position relationship includes, for example, the distance between the image pickup device 1 and the product, the distance between the product and the target introducer, and the image pickup device.
  • the distance does not have to be the distance itself, and a value that correlates with the distance may be used.
  • the ratio of the area of the product or the target introducer to the entire frame of the captured image may be used as a value corresponding to the distance.
  • the position information of the focus lens and the like may be used as the information corresponding to the distance.
  • the image pickup control unit 22c performs image pickup control suitable for the area of the subject selected as the target subject by the selection unit 22b.
  • the image pickup control unit 22c performs image pickup operation control such as autofocus control suitable for the region of the target subject and image pickup image processing control such as white balance processing control.
  • the presentation control unit 22d performs presentation control to present to the target introducer that the image pickup control is difficult when the distance between the image pickup device 1 and the product is shorter than a predetermined value.
  • the presentation control unit 22d is expected to perform execution control such as output of a message, an icon, and the like on the display unit of the presentation unit 18, lighting and blinking of a warning lamp, depending on the situation.
  • the association control unit 22e performs association control for associating the metadata related to the selection result by the selection unit 22b with the captured image data.
  • the metadata related to the selection result by the selection unit 22b is, for example, information indicating whether the product introduction scene or the performance scene, information indicating whether the scene identification is successful or unidentified, the introduction target or the target introduction. Information on the presence or absence of a specific person, information indicating the specified introduction target or area in the image of the target introducer, information on the target subject (information on whether the target introducer 60 or the product 70 is selected), the introduction target, etc. Information on what the target subject is (type of article, etc.), an error flag indicating an undeterminable state (described later in FIG. 18 and the like), and the like are assumed.
  • the association control unit 22e transmits the metadata related to the selection result by the selection unit 22b to the camera signal processing unit 16, so that the metadata related to the selection result by the selection unit 22b in the camera signal processing unit 16 Is included in the image file. That is, the association control unit 22e provides the information to the camera signal processing unit 16 in frame units, for example, according to the result of the scene determination and the target subject selection of the selection unit 22b. The association control unit 22e provides the metadata in this way, and the camera signal processing unit 16 executes a process of adding the metadata to the image file. As a result, the metadata related to the selection result by the selection unit 22b is obtained. , It will be recorded on the same recording medium as the captured image data, or it will be recorded, transmitted, etc.
  • the metadata related to the selection result by the selection unit 22b such as the metadata showing the product introduction scene and the performance scene, is in a state of being associated with the captured image data on a frame-by-frame basis.
  • the metadata related to the selection result by the selection unit 22b is not associated with the frame of the captured image data, but may be associated with each scene, for example.
  • the sensor unit 24 comprehensively shows various sensors mounted on the image pickup apparatus 1.
  • a position information sensor for example, a position information sensor, an illuminance sensor, an acceleration sensor, and the like are mounted.
  • Processing for realizing this technology is performed by the digital video camera 1A having the image pickup control device 22 having the above functions.
  • the mobile terminal 1C can be realized as, for example, a computer device 30 having the configuration shown in FIG.
  • the CPU (Central Processing Unit) 31 of the computer device 30 is various according to the program stored in the ROM (Read Only Memory) 32 or the program loaded from the storage unit 39 into the RAM (Random Access Memory) 33. Executes the processing of.
  • the RAM 33 also appropriately stores data and the like necessary for the CPU 31 to execute various processes.
  • the CPU 31 is provided with a functional configuration as the above-mentioned image pickup control device 22 by, for example, an application program.
  • the CPU 31, ROM 32, and RAM 33 are connected to each other via the bus 34.
  • An input / output interface 35 is also connected to the bus 34.
  • An input unit 36, an imaging unit 37, an output unit 38, a storage unit 39, and a communication unit 40 are connected to the input / output interface 35.
  • the input unit 36 includes a keyboard, a mouse, a touch panel, and the like.
  • the image pickup unit 37 is obtained by a lens system including an image pickup lens, an aperture, a zoom lens, a focus lens, etc., a drive system for causing the lens system to perform a focus operation and a zoom operation, and a lens system. It is composed of a solid-state image sensor array or the like that generates an image pickup signal by detecting the image pickup light to be obtained and performing photoelectric conversion.
  • the output unit 38 includes a display including an LCD (Liquid Crystal Display), a CRT (Cathode Ray Tube), an organic EL (Electroluminescence) panel, and a speaker.
  • the output unit 38 executes the display of various images for image processing, moving images to be processed, and the like on the display screen based on the instruction of the CPU 31. Further, the output unit 38 displays various operation menus, icons, messages, etc., that is, as a GUI (Graphical User Interface) based on the instruction of the CPU 31.
  • the storage unit 39 is composed of an HDD (Hard Disk Drive), a solid-state memory, or the like, and stores various types of information.
  • the communication unit 40 performs communication processing via a transmission line such as the Internet, and performs communication with various devices by wired / wireless communication, bus communication, or the like.
  • a drive 41 is also connected to the input / output interface 35, if necessary, and a removable recording medium 42 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is appropriately mounted.
  • the drive 41 can read data files such as image files and various computer programs from the removable recording medium 42.
  • the read data file is stored in the storage unit 39, and the image and sound included in the data file are output by the output unit 38. Further, the computer program or the like read from the removable recording medium 42 is installed in the storage unit 39 as needed.
  • software for executing the process as the image pickup control device of the present disclosure can be installed via network communication by the communication unit 40 or the removable recording medium 42.
  • the software may be stored in the ROM 32, the storage unit 39, or the like in advance.
  • the computer device 30 is not limited to a single computer device 30 as shown in FIG. 3, and a plurality of computer devices may be systematized and configured.
  • the plurality of computer devices may include computer devices as a group of servers (clouds) that can be used by cloud computing services.
  • Such product review videos are mainly aimed at capturing the performance of the target introducer, such as self-introduction of the target introducer and explanation of the product outline, and performance scenes that are often performed before or after the product introduction scene. It is often composed of a product introduction scene for the purpose of imaging the shape and operation of the product and the actual usage of the product. In the performance scene, it is desirable that focus control is performed for the target introducer who introduces the product, but in the product introduction scene where a specific product is explained, the product is targeted so that the shape of the product can be easily seen. It is desirable that focus control is performed.
  • the target introducer who introduces the product often performs an operation for capturing the video, that is, takes a self-portrait, and the imaging device 1 is imaged stationary. Will be. Therefore, it is difficult for the target introducer to perform an operation of changing the focus control target according to the imaging scene during imaging to switch the focus control target.
  • the target introducer, etc. is reflected in addition to the product, so it is not possible for the imaging device 1 to recognize which product is to be introduced, and it is the target of focus control in the product introduction scene. There is also a problem that focus control is not performed so as to focus on the product to be focused.
  • FIGS. 4 and 5 and 6 and 7 show the distance relationship between the referral target, the target introducer, and the imaging device.
  • FIGS. 8 to 13 show an image pickup display screen 50 displayed as a through image on the display unit in the image pickup of the product review moving image.
  • the target introducer 60 for introducing the product 70 and the product 70 to be introduced are displayed.
  • the subject introducer 60 has a hand 61 and a face 62 as a part of the body. Further, in FIGS. 4 to 13, the portion showing the hand 61, the face 62, and the product 70 is shown as an area surrounded by a broken line for convenience of explanation.
  • the scene determination is performed according to the distance relationship generated from the subject positional relationship.
  • This first embodiment is an example in which a scene is determined based on the distance from the imaging device 1 to the product 70, a target subject corresponding to each scene is selected, and imaging control is performed.
  • the product review video is captured, the product introducer is often positioned in front of the imaging device 1 and does not move, and images are taken at a fixed position. In such a case, the present embodiment is used. Can be applied.
  • the distance Loc from the image pickup apparatus 1 to the product 70 changes according to the scene.
  • the target introducer 60 may explain the product 70 while making the product 70 stand out by bringing the product 70 held in the hand 61 closer to the imaging device 1. Therefore, the subject selection by the scene determination is performed based on the positional relationship between the product 70 and the image pickup apparatus 1, particularly the distance relationship appearing in the distance Loc.
  • the product 70 referred to here is an introduction target specified by the image pickup control device 22. Further, when the product 70 is not recognized, the case where the hand 61 of the target introducer 60 is substituted for the product 70 is also included.
  • the original introduction target is the product 70
  • the hand 61 of the target introducer 60 is specified as the introduction target. This assumes, for example, a situation where the product 70 is too small to be specified in the image, assuming a situation where the hand 61 holds the product 70, and the hand is regarded as the product 70 to specify the position of the product 70 in the image. That's what it means.
  • FIG. 4 shows a case where the value of the distance Loc from the product 70 to the image pickup apparatus 1 is larger than the predetermined value Lth. It is assumed that the distance from the image pickup apparatus 1 to the product 70 is relatively long. Since this is a state in which the target introducer 60 does not bring the product 70 closer to the image pickup device 1 so as to make the product 70 stand out, it is considered that the target introducer 60 performs a performance scene. .. Therefore, the image pickup control device 22 selects the face 62 of the target introducer 60 performing the performance as the target subject, and performs focus control with the face 62 as the target. As a result, in the performance scene, it is possible to perform moving image imaging that draws the viewer to the target introducer 60 who is talking. Although the focus control is performed with the face 62 of the target introducer 60 as the target subject, the focus control may be performed with the eyes of the target introducer 60 as the target subject.
  • the target introducer 60 when the value of the distance Loc from the product 70 to the image pickup device 1 is smaller than the predetermined value Lth1, the target introducer 60 is in a state where the product 70 is brought closer to the image pickup device 1. It can be presumed that there is, and it is considered that the target introducer 60 is introducing the product 70 in the product introduction scene.
  • the image pickup control device 22 selects the product 70 as the target subject and performs focus control with the product 70 as the target. As a result, focus control is performed to focus the product 70 to be introduced by the target introducer 60, and it is possible to perform moving image imaging so as to draw the viewer's attention to the product 70.
  • the scene is determined based on the distance from the image pickup apparatus 1 to the product 70, and the focus control for focusing the target subject according to each scene is performed.
  • the second embodiment will be described with reference to FIGS. 6 and 7.
  • the second embodiment also determines the scene according to the distance relationship generated from the subject positional relationship, but in this second embodiment, the scene is determined based on the distance between the target introducer 60 and the product 70.
  • the target introducer 60 makes the product 70 stand out by bringing the product 70 held in the hand 61 closer to the imaging device 1.
  • This can also be regarded as a change in the distance Lho shown in FIGS. 6 and 7. That is, it can be considered that the distance Lho between the target introducer 60 and the product 70 changes according to the scene. Therefore, the subject selection by the scene determination is performed based on the positional relationship between the target introducer 60 and the product 70, particularly the distance relationship appearing in the distance Lho.
  • FIG. 6 shows a case where the distance Lho is relatively small.
  • the distance Lhc of the target introducer 60 from the image pickup device 1 and the distance Loc of the product 70 from the image pickup device 1 can be measured, thereby obtaining the distance Lho between the target introducer 60 and the product 70.
  • Can be done (Lho Lhc-Loc).
  • the distance Lho is a value smaller than the predetermined value Lth2. This is a state in which the distance from the target introducer 60 to the product 70 is relatively short.
  • the image pickup control device 22 selects the face 62 of the target introducer 60 performing the performance as the target subject, and performs focus control by targeting the face 62 (or eyes or the like). As a result, in the performance scene, it is possible to perform moving image imaging that draws the viewer to the target introducer 60 who is talking.
  • FIG. 7 shows a case where the distance Lho is a value larger than the predetermined value Lth2.
  • This is a state in which the distance from the target introducer 60 to the product 70 is relatively long. Since this is a state in which the target introducer 60 is brought close to the image pickup device 1 so as to make the product 70 stand out, it is considered that the target introducer 60 is introducing the product 70.
  • the image pickup control device 22 selects the product 70 as the target subject and performs focus control with the product 70 as the target. As a result, focus control is performed to focus the product 70 to be introduced by the target introducer 60, and it is possible to perform moving image imaging so as to draw the viewer's attention to the product 70.
  • the scene is determined based on the distance from the target introducer 60 to the product 70, and the focus control corresponding to the target subject corresponding to each scene is performed.
  • the second embodiment and the first embodiment also determine the scene based on the distance relationship, but as in the second embodiment, the distance between the target introducer 60 and the product 70 is Lho.
  • the determination can be made regardless of the movement (position) of the target introducer 60. That is, in the scene determination of the first embodiment, it is necessary that the target introducer 60 does not move (maintains the same distance) with respect to the image pickup device 1. If the target introducer 60 holds the product 70 in his hand and moves back and forth, the scene determination may be inaccurate.
  • the accuracy of the scene determination can be maintained even when the target introducer 60 moves back and forth.
  • the example is to pay attention to the distance Lho and compare the distance Lho with the predetermined value Lth2, but the scene determination may be performed by paying attention to the change in the difference value between the distance Lho and the distance Loc. That is, the performance scene and the product introduction scene are determined based on whether the difference (or ratio) between the distance Lho and the distance Loc is equal to or less than a predetermined value.
  • the behavior of bringing the product 70 closer to the image pickup apparatus 1 is assumed, but it may be better to assume the opposite behavior. That is, in the performance scene, the target introducer 60 may keep the product 70 away from himself / herself, and in the product introduction scene, the target introducer 60 may take the behavior of approaching himself / herself by holding the product 70 in his / her hand. It is also possible to reverse the logic of scene determination so that such behavior can be dealt with. For example, if the distance Lho is longer than the predetermined value Lth2, it is a performance scene, and if the distance Lho is less than the predetermined value Lth2, it is a product introduction scene. For example, the user may be able to select which scene determination logic to use. Further, for each distance, attention was paid to the distance (depth) in the depth direction from the image pickup apparatus 1, but the distance between the target introducer 60 and the product in the vertical and horizontal directions may be taken into consideration.
  • the third embodiment is an example in which the product 70 is specified by the state of the hand 61 of the target introducer 60, particularly the relationship between the hand 61 and the product 70, and the scene is determined.
  • a scene is determined based on the positional relationship between the target introducer 60 and the product 70 based on a state in which the target introducer 60 holds the product 70 in the hand 61, and the target subject selected according to each scene is selected. It indicates that the focus control is performed according to the situation.
  • the state of the hand 61 of the target introducer 60 here includes not only the state of holding the product 70 but also various states in which the hand 61 touches the product 70, such as pinching, grasping, and placing the product 70 on the hand. ..
  • the target introducer 60 does not have the product 70 as shown in FIG. 8, it is considered that the target introducer 60 performs a performance scene. Therefore, focus control is performed with the face 62 of the target introducer 60 as the target subject. As a result, in the performance scene, the viewer can take a moving image so as to pay attention to the target introducer 60 who is talking.
  • the target introducer 60 when the target introducer 60 has the product 70, the product 70 can be specified, and the target introducer 60 makes a specific introduction of the product 70, that is, in the product introduction scene. It is believed that there is.
  • focus control or the like is performed with the product 70 as the target subject. As a result, focus control is performed to focus on the product 70 that the target introducer 60 is trying to introduce, and it is possible to perform video imaging so that the viewer pays attention to the product 70.
  • the scene is determined based on the state of the hand 61 of the target introducer 60, such as holding the product 70, and the focus control is performed to focus on the target subject according to each scene.
  • the product 70 is specified and the scene is determined based on the gesture of the hand 61 of the target introducer 60 such as pointing to the product 70, and the scene is suitable for the target subject selected according to each scene. It is also conceivable to perform imaging control.
  • the gesture referred to here is the state of the hand 61 of the target introducer 60, and may be statically detected as a momentary state of the hand 61, or dynamically detected as an action of the hand 61. It may be a thing.
  • the target introducer 60 does not make a gesture such as pointing to the product 70 as shown in FIG. 10, it is considered that the target introducer 60 performs a performance scene. Therefore, imaging control such as focus control is performed with the face 62 of the target introducer 60 as the target subject. As a result, the viewer can take a moving image so as to pay attention to the target introducer 60 who is talking.
  • the state in which the target introducer 60 makes a gesture such as pointing to the product 70 is considered to be a product introduction scene in which the target introducer 60 is introducing the product 70.
  • the specified product 70 is set as the target subject, and focus control is performed to focus on the product 70.
  • the scene is determined based on the gesture that the target introducer 60 points to the product 70, and the focus is controlled on the target subject selected according to each scene to perform the focus control suitable for each scene. Can be done. Since the relative positional relationship between the target subject 60 and the product 70 is defined from the state in which the hand 61 points to the product 70 by the gesture, the subject selection by this scene determination is the subject positional relationship between the product 70 and the target introducer 60. It can be said that it is done based on. This example is suitable, for example, when the product 70 cannot be held by the hand 61, or when the target introducer 60 introduces the product 70 at a distant position.
  • the target introducer 60 holds or points to the product 70 to identify the product 70 to be introduced and determine the scene.
  • the product 70 is already in the image.
  • the product 70 can be specified for the first time depending on the condition of the hand, and any of these may be used. For example, even if the product 70 cannot be specified, the scene can be determined while specifying the product 70 by recognizing the state in which the target introducer 60 holds or points to a certain object. Further, when the product 70 can be specified, the scene determination can be performed by recognizing the state in which the target introducer 60 holds or points to the product 70.
  • the scene is determined based on the ratio of the region of the product 70 to the entire frame of the captured image, which is generated by the subject positional relationship, and the focus control is performed on the target subject according to each scene. This is an example.
  • the ratio of the product 70 to the image pickup display screen 50 is not large. Therefore, it is considered that the performance scene is not in a state where the target introducer 60 is introducing the product 70. Therefore, when the ratio of the product 70 to the image pickup display screen 50 is smaller than the predetermined value, it is determined that the performance scene is performed, and the focus control is performed with the face 62 or the like of the target introducer 60 as the target subject. As a result, it is possible to take a moving image so as to draw the viewer's attention to the target introducer 60 who is talking.
  • the scene is determined based on the ratio of the area of the product 70 to the area of the captured image, and the imaging control such as focus control suitable for the target subject according to each scene is performed. It can be performed.
  • the change in the ratio of the area of the product 70 to the entire frame of the captured image occurs according to the change in the distance between the product 70 and the image pickup device 1, that is, the change in the positional relationship between the image pickup device 1 and the product 70. Therefore, it can be said that the subject selection based on this scene determination is performed based on the subject positional relationship between the image pickup apparatus 1 and the product 70. In this case, it may be regarded as a change in the subject positional relationship between the target introducer 60 and the product 70.
  • the image pickup control device 22 of the image pickup device 1 identifies the product 70 and the target introducer 60 to be introduced in the captured image data, and determines the scene based on the subject positional relationship. Then, one of the introduction target and the target introducer is selected as the target subject according to the determined scene, and the focus control corresponding to the selected target subject is performed. That is, the imaging control device 22 selects one of the product 70 and the target introducer 60 as the target subject based on the subject positional relationship detected from the captured image data, and performs imaging control suitable for the selected target subject. Do.
  • the imaging mode of the imaging device 1 is provided with an introductory moving image mode in which focus control is performed on a target subject selected according to the determined scene described above.
  • the imaging control device 22 shall execute the process shown in FIG.
  • the introduction moving image mode is set according to the mode setting operation of the target introducer 60 to the imaging device 1, for example, before starting the recording of the moving image.
  • FIG. 14 executed by the image pickup control device 22 will be described.
  • the image pickup control device 22 recognizes the subject in step S101.
  • the image pickup control device 22 acquires image data of one frame or image data of a plurality of frames from the image pickup unit 13 and performs image analysis processing or the like using the image signals of the acquired frames. It recognizes the hand 61, face 62, and product 70 of the target introducer 60 as shown.
  • the image pickup control device 22 recognizes the hand 61 and the face 62 of the target introducer 60, for example, by estimating the posture of the target introducer 60 and extracting the skin color in the image data. Further, the image pickup control device 22 recognizes an object portion in the image of the product 70 to be introduced by shape recognition, pattern recognition, etc., and identifies the product 70 to be introduced by distinguishing it from the target introducer 60, the background, and the like. ..
  • the image pickup control device 22 can specify the product 70 to be introduced based on the recognized state of the hand 61.
  • the image pickup control device 22 recognizes a state in which the hand 61 is in contact with the product 70, such as holding, pinching, or grasping the product 70
  • the image pickup control device 22 identifies the product 70 in contact with the hand 61 as the product 70 to be introduced. ..
  • the product 70 touched by the hand 61 is the product 70 introduced in the product review video in a state where various products and the like arranged at the imaging location are reflected. That is, the product to be introduced is specified based on the positional relationship that the product 70 is in contact with the hand 61.
  • the image pickup control device 22 can recognize the state in which the gesture for identifying the product 70 is performed by the hand 61 of the target introducer 60, and can specify the product 70 to be introduced based on the gesture. ..
  • the product 70 on the extension line of the direction pointed by the hand 61 can be specified as the product 70 to be introduced. That is, the product to be introduced is specified based on the positional relationship that the product 70 exists in the direction pointed by the hand 61.
  • the image pickup control device 22 can specify the product 70 to be introduced by the positional relationship between the target introducer 60 and the product 70.
  • the identification of the product 70 to be introduced here not only specifies the product 70 to be introduced from the recognized product 70, but also determines the position of the product 70 to be introduced based on the position of the hand 61 of the target introducer 60. It also includes identifying by estimating.
  • the image pickup control device 22 estimates that the product 70 to be introduced is at the position of the hand 61 by specifying the hand 61 of the target introducer 60, and specifies the position of the product 70 to be introduced. ..
  • the hand 61 is virtually regarded as the product 70 (assuming that the product 70 is held in the hand), and the original product 70 to be introduced is introduced.
  • the product 70 can be identified by recognizing the hand 61 instead of.
  • the product 70 to be introduced can be specified from the state of the hand 61 of the target introducer 60 detected by the image pickup control device 22, or the hand 61 can be specified as a substitute for the original product 70 to be introduced. Therefore, the product 70 introduced in the product review video can be specified even when various products and the like arranged at the imaging location are reflected.
  • step S102 the image pickup control device 22 performs a scene determination process using the acquired recognition result of each subject.
  • the image pickup control device 22 determines whether the current scene is a performance scene or a product introduction scene based on the subject positional relationship between each recognized subject and the image pickup device 1.
  • the above-mentioned examples of the first to fourth embodiments are assumed. Examples of scene determination processing corresponding to each embodiment will be described later with reference to FIGS. 17 to 21.
  • step S103 the image pickup control device 22 branches the process according to the result of the scene determination process.
  • the image pickup control device 22 proceeds from step S103 to step S104, and selects the product 70 specified in step S101 as the target subject.
  • step S105 the image pickup control device 22 executes image pickup control suitable for the region of the product 70 which is the target subject.
  • imaging control the product 70 is targeted and controlled so that focus control is performed. In the following description, focus control will be used as an example of imaging control.
  • the image pickup apparatus 1 is in a state of performing image pickup focusing on the product 70 in the product introduction scene.
  • the image pickup control device 22 presents and controls a focus-controlled captured image on the entire screen (frame) using the detection information of the region of the product 70 in the frame to the display unit of the image pickup device 1.
  • the image pickup control device 22 narrows the depth of field by performing aperture control that reduces the F value in accordance with the focus control on the product 70 as the image pickup operation control, and the foreground and background of the product 70. May be combined with blurring.
  • the image pickup control device 22 proceeds from step S103 to step S108, and selects the target introducer 60 specified in step S101 as the target subject. Then, in step S109, the image pickup control device 22 executes focus control for focusing the face 62 of the target introducer 60, which is the target subject. As a result, in the performance scene, the image is focused on the face 62 of the target introducer 60.
  • the image pickup control device 22 presents and controls a focus-controlled captured image on the entire screen (frame) using the detection information of the region of the face 62 in the frame to the display unit of the image pickup device 1.
  • the imaging control device 22 proceeds to step S106 to provide information indicating what the scene currently being determined is and the product 70 that is the target of focus control.
  • On-screen display on / off of a specific display unit such as an LED, and presentation control for presenting by voice or the like are performed.
  • the image pickup control device 22 may display an icon or a message indicating that it is a product introduction scene or a performance scene.
  • the image pickup control device 22 in order to show that the focus control is performed on the product 70 in the product introduction scene, the image pickup control device 22 superimposes and displays a focus frame surrounding the product portion on the captured image, or in a performance scene. If there is, in order to show that the focus control is performed on the face 62, a focus frame surrounding the face portion may be superimposed and displayed on the captured image.
  • the image pickup control device 22 associates the metadata in step S107.
  • the imaging control device 22 generates metadata about scene information about the current frame, error flags, imaging control parameters, and the like.
  • the scene information is information indicating whether it is a performance scene or a product introduction scene.
  • the error flag is information described with reference to FIG. 14 described later.
  • the imaging control parameters are the parameters related to the above-mentioned imaging operation control and captured image processing control.
  • the image pickup control device 22 transmits the generated metadata as the metadata corresponding to the current frame to the camera signal processing unit 16 so that the metadata is associated with the captured image data. After that, the image pickup control device 22 returns to step S101 and executes the process.
  • the metadata is associated with the captured image data by being associated with the corresponding frame and incorporated into the image file by, for example, processing by the camera signal processing unit 16, but is not limited to this.
  • a metadata file showing an ID associated with the captured image data (image file) and a corresponding frame may be formed separately from the captured image data and recorded or transmitted. Whatever the form, it suffices that the captured image data and the metadata can be associated with each other at a later point in time.
  • the camera signal processing unit 16 processes for recording the moving image of each frame obtained from the imaging unit 13. Is running.
  • the metadata generated by the image pickup control device 22 in step S107 of FIG. 12 is associated with the frame of the captured image data and recorded on the recording medium.
  • the scene determination information and the parameters of the imaging control corresponding to the scene determination information are associated with the captured image data.
  • the image pickup control device 22 repeatedly executes the process of FIG. 14 until, for example, the target introducer 60 terminates the recording of the moving image or the target introducer 60 changes the imaging mode to a mode other than the introduced moving image mode. To do.
  • the focus control for the target subject according to the scene by the image pickup control device 22 in each embodiment is realized.
  • the product 70 to be introduced is focused
  • the target introducer 60 is focused.
  • the introduction video mode is set according to the mode setting operation on the image pickup apparatus 1 by the target introducer 60, but various modes can be considered for setting the introduction video mode.
  • the digital video camera 1A of FIG. 1 includes an image pickup device main body 2 and a display housing 3 having a display unit, and by moving the display housing 3 with respect to the image pickup device main body 2, the display housing 3 is displayed on the same side as the image pickup lens. It is possible that the display unit of the housing 3 is facing.
  • the introduction moving image mode can be set. That is, when the image pickup control device 22 detects a state in which the display unit of the display housing 3 is directed to the same side as the image pickup lens, the image pickup mode is set to the introduction moving image mode.
  • the target introducer 60 himself can record the product review video by making it possible to confirm the current state of the imaging control according to the content displayed on the display unit during the recording of the product review video. It is possible to decide whether to retake the video or continue it.
  • the image pickup control device 22 describes an example of specifying the product 70 to be introduced based on the recognized state of the hand 61 in the process of step S101, but the voice obtained by the voice input unit is described. It is also possible to specify the product 70 to be introduced based on the data. For example, by associating the name with the product 70 in advance, the image pickup control device 22 acquires voice data from the sound collected from the image pickup device 1, performs language analysis on the acquired voice data, and uses the language analysis. The product 70 corresponding to the acquired name can be specified.
  • the image pickup control device 22 can also specify the product 70 to be introduced based on the line-of-sight direction of the target introducer 60.
  • the image pickup control device 22 recognizes the line-of-sight direction of the target introducer 60 by performing image analysis processing using the acquired frame information, and obtains the product 70 on the extension line of the recognized line-of-sight direction. It can be specified as the product 70 to be introduced.
  • the product 70 to be introduced may be registered through the operation of the target introducer 60.
  • the image pickup control device 22 recognizes the product 70 from the captured image data, and displays the recognized product 70 on the display unit.
  • the target introducer 60 performs an operation of selecting a product 70 to be introduced from the displayed products 70.
  • the image pickup control device 22 registers the product 70 to be introduced from the recognized product 70 according to the selection operation.
  • the image pickup control device 22 may register the recognized product 70 as it is without letting the target introducer 60 select it. In this case, during the recording of the product review moving image, the image pickup control device 22 identifies the product 70 registered before the recording as the introduction target among the products 70 recognized in step S101.
  • the image pickup control for the target subject has been described as the focus control, but various other processes can be considered for the image pickup control for the target subject.
  • the processing proceeds in the order of steps S103, S104, and S105, and AE control is performed so that the exposure of the selected product 70 area is appropriate, and step S102. If it is determined that the scene is a performance scene, the process proceeds in the order of steps S103, S108, and S109, and AE control is performed so that the area of the face 62 of the selected target subject 60 is appropriately exposed.
  • the image pickup control device 22 can also perform the image pickup image processing control corresponding to the target subject as the image pickup control in steps S105 and S109. Specifically, white balance processing control, contrast adjustment control, and the like can be considered.
  • the image pickup control device 22 uses the detection information in the area of the target subject in the frame to perform auto white balance control so that the white balance of the area of the target subject is appropriate, or determines that the contrast of the area of the target subject is appropriate. Image quality correction processing and the like are performed as contrast adjustment so as to be.
  • the processing proceeds in the order of steps S103, S104, and S105, the image pickup image processing control is performed on the selected product 70, and the image determination scene is determined to be a performance scene in step S102. Then, the processing proceeds in the order of steps S103, S108, and S109, and the captured image processing control is performed on the face 62 of the selected target subject 60.
  • the imaging control device 22 can also perform a process for effectively drawing attention to the product 70. For example, if the image pickup control device 22 determines in step S102 that it is a product introduction scene, the process proceeds in the order of steps S103, S104, and S105, and the background other than the selected product 70 is used as the captured image processing control corresponding to the target subject. Image processing that blurs the portion can be performed. For example, on the image pickup display screen 50 of FIG. 15, a portion other than the product 70 is displayed blurry. In FIG. 15, a dash-dotted line indicates a subject that is displayed blurry.
  • the concentrated line means a plurality of lines arranged radially from the center of a certain area.
  • the image pickup control device 22 determines in step S102 that it is a product introduction scene, the process proceeds in the order of steps S103, S104, and S105, and the acquired image pickup image data and the concentrated line are used as the image pickup image processing control corresponding to the target subject.
  • the effect data By synthesizing the effect data, a concentrated line effect image in which a plurality of concentrated lines are arranged around the product 70 is generated.
  • the image pickup control device 22 determines the type of the product 70 by image analysis processing or the like. Then, when the image pickup control device 22 determines that the current scene is the product introduction scene in the scene determination process of step S102, the process proceeds in the order of steps S103 and S104, and the product 70 is selected as the target subject. After that, the image pickup control device 22 transmits the type information of the product 70 determined in step S101 to the cloud server in which the image pickup control information corresponding to the type of the product 70 is stored, and the image control according to the product 70 is performed from the cloud server. Get information. In step S105, the image pickup control device 22 performs image pickup control according to the product 70 based on the image pickup control information acquired from the cloud server. The imaging control information corresponding to the type of the product 70 may be stored in the imaging device 1 in advance.
  • the type of product 70 can be considered for various examples.
  • the type of the product 70 is a television device or a digital camera device provided with a display unit that may cause a flicker phenomenon
  • SS control that changes the shutter speed so that the flicker phenomenon does not occur can be considered.
  • the image pickup control device 22 When it is determined that the current scene is not the product introduction scene but the performance scene while performing these control processes in the case of the product introduction scene, the image pickup control device 22 performs the same as the above-described embodiment. It is conceivable to proceed in the order of steps S103, S108, and S109 to perform focus control for focusing the face 62 of the target introducer 60. For example, it is assumed that blurring of other parts, concentrated line effect, control according to product type, etc. are not performed.
  • FIG. 17 shows an example of scene determination processing according to the first embodiment.
  • the first embodiment is an example in which the scene determination is performed using the distance Loc from the image pickup apparatus 1 to the product 70 as shown in FIGS. 4 and 5.
  • the image pickup control device 22 calculates the distance Loc from the image pickup device 1 to the product 70 to be introduced in step S201.
  • the distance Loc from the image pickup device 1 to the product 70 to be introduced is calculated by acquiring a phase difference signal when acquiring a frame of captured image data and performing a correlation calculation using the acquired phase difference signal.
  • the image pickup control device 22 may calculate the distance Loc from the image pickup device 1 to the product 70 based on the position of the focus lens in the contrast AF, or may use a dedicated distance measurement using a phase difference sensor, an infrared sensor, or the like.
  • the distance Loc from the image pickup apparatus 1 to the product 70 may be calculated using the detection information of the sensor.
  • the image pickup control device 22 determines whether or not the distance Loc from the image pickup device 1 to the product 70 is equal to or greater than the shortest image pickup distance.
  • the shortest imaging distance is the shortest distance from the imaging device 1 to the subject that can be focused and controlled without blurring the subject. Therefore, if the distance Loc is shorter than the shortest imaging distance referred to here, the product 70 will be in a blurred state even if the focus control is performed. For example, when the target introducer 60 tries to emphasize the product 70 and brings it too close to the image pickup apparatus 1, the distance Loc becomes shorter than the shortest image pickup distance.
  • the imaging control device 22 proceeds from step S202 to step S203 and sets the error flag to ON. ..
  • the error flag is a flag indicating whether or not the image is in an appropriate imaging state in which the scene can be determined. When the error flag is ON, it means that the focus controllable range is exceeded, the moving image cannot be captured in an unblurred state, and the target subject selection by the scene determination cannot be executed.
  • step S203 the imaging control device 22 proceeds from step S204 to step S106 of FIG. 14 to perform presentation control indicating that the determination cannot be made. For example, on-screen display of an icon or message indicating an undeterminable state, on / off of a specific display unit such as an LED, or presentation control for presenting an undeterminable state with an error sound or voice is performed.
  • presentation control for presenting an undeterminable state with an error sound or voice is performed.
  • the display unit that displays the captured image is not facing the target introducer 60 side, it is preferable to control the presentation to the target introducer 60 by using a display unit other than this display unit, voice, or the like.
  • the image pickup control device 22 generates metadata indicating that the error flag is on in step S107 of FIG.
  • the generated metadata is transmitted to the camera signal processing unit 16, and is recorded on a recording medium, for example, associated with a corresponding frame of captured image data. After that, the image pickup control device 22 returns to step S101 of FIG. 14 and executes the above-described process.
  • step S210 determines in step S210 whether the error flag is ON, and if the error flag is ON, turns off the error flag in step S205 and proceeds to step S206. If the error flag is confirmed to be OFF in step S210, the image pickup control device 22 proceeds to step S206 without performing the process of step S205.
  • the image pickup control device 22 determines whether or not the calculated distance Loc is shorter than the predetermined value Lth1.
  • the predetermined value Lth1 is a reference value for determining whether the current scene is a performance scene or a product introduction scene. For example, if the distance Loc is shorter than the predetermined value Lth1, it is determined as a product introduction scene, and if the distance Loc is equal to or more than the predetermined value Lth1, it is determined as a performance scene.
  • the predetermined value Lth1 may be arbitrarily set by the person performing the imaging, or may be set in the imaging device 1 in advance.
  • a process may be performed to set a predetermined value Lth1 related to the current imaging from the actual ranging data before the start of imaging or during imaging. For example, it is conceivable to measure the distance to the target introducer 60 and subtract an appropriate distance from the distance to obtain the predetermined value Lth1.
  • the image pickup control device 22 determines in step S206 that the distance Loc is shorter than the predetermined value Lth1, it determines in step S207 that the current scene is the product introduction scene. Then, the image pickup control device 22 proceeds with the processing in the order of step S204 and steps S103 and S104 of FIG. 14, selects the product 70 specified in step S101 as the target subject, and in step S105, the product 70 which is the target subject.
  • the image pickup control for example, focus control is executed.
  • the image pickup control device 22 performs various controls such as SS control, luminance processing, and image effect processing that do not cause the flicker phenomenon, in addition to the focus control, as the image pickup control. You may. After that, the image pickup control device 22 performs the processes of steps S106 and S107.
  • step S206 of FIG. 17 determines that the distance Loc is shorter than the predetermined value Lth1
  • the image pickup control device 22 proceeds in the order of step S204 and steps S103 and S108 of FIG. 14, selects the target introducer 60 specified in step S101 as the target subject, and in step S109, introduces the target as the target subject. For example, focus control or the like is executed as imaging control for the face 62 of the person 60. Then, the image pickup control device 22 performs the processes of steps S106 and S107.
  • the subject positional relationship between the target introducer 60 and the product 70 to be introduced is obtained by performing the scene determination based on the distance Loc from the image pickup device 1 to the product 70. The scene is judged based on.
  • the scene determination process of the second embodiment will be described with reference to FIG.
  • the second embodiment is an example in which the scene determination is performed using the distance Lho from the target introducer 60 to the product 70 as shown in FIGS. 6 and 7.
  • step S251 the image pickup control device 22 calculates the distance Loc from the image pickup device 1 to the product 70 and the distance Lhc from the image pickup device 1 to the target introducer 60. Further, the distance Lho between the target introducer 60 and the product 70 is obtained by calculating the distance Lhc-distance Loc.
  • step S252 the image pickup control device 22 determines whether or not either the distance Loc from the image pickup device 1 to the product 70 or the distance Lhc from the image pickup device 1 to the target introducer 60 is equal to or greater than the shortest image pickup distance. To do.
  • the imaging control device 22 proceeds from step S252 to step S258, sets the error flag to ON, and sets the error flag to ON. It is assumed that the judgment cannot be made. In this case, the image pickup control device 22 proceeds from step S259 to step S106 of FIG. 14 to control the presentation of the undeterminable state. Then, the image pickup control device 22 generates metadata indicating that the error flag is on in step S107 of FIG. 14, and then returns to step S101 to execute the above-described processing.
  • step S252 sets the error flag to ON, and sets the error flag to ON. It is assumed that the judgment cannot be made.
  • the image pickup control device 22 proceeds from step S259 to step S106 of FIG. 14 to control the presentation of the undeterminable state. Then, the image pickup control device 22 generates metadata indicating that the error flag is on in step S107 of FIG. 14, and then returns to step S101 to execute the above-described processing.
  • the above is the same as the first embodiment described with reference to FIG.
  • step S253 determines in step S253 whether the error flag is ON, and if the error flag is ON, in step S254. After turning off the error flag, the process proceeds to step S255. If the error flag is confirmed to be OFF in step S253, the image pickup control device 22 proceeds to step S255 without performing the process of step S254.
  • the image pickup control device 22 determines whether or not the calculated distance Lho is shorter than the predetermined value Lth2.
  • the predetermined value Lth2 is a reference value for determining whether the current scene is a performance scene or a product introduction scene. For example, if the distance Lho is shorter than the predetermined value Lth2, it is determined as a performance scene, and if the distance Lho is equal to or more than the predetermined value Lth2, it is determined as a product introduction scene.
  • the predetermined value Lth2 may be arbitrarily set by the person performing the imaging, or may be set in the imaging device 1 in advance.
  • a process may be performed to set a predetermined value Lth2 related to the current imaging from the actual ranging data before the start of imaging, during imaging, or the like.
  • a predetermined value Lth2 related to the current imaging from the actual ranging data before the start of imaging, during imaging, or the like.
  • step S255 the image pickup control device 22 determines that the current scene is a performance scene in step S257. Then, the image pickup control device 22 proceeds in the order of step S259 and steps S103 and S108 of FIG. 14, selects the target introducer 60 specified in step S101 as the target subject, and in step S109, the target introducer who is the target subject. For example, focus control or the like is executed as imaging control for 60 faces 62. Then, the image pickup control device 22 performs the processes of steps S106 and S107.
  • step S256 If the image pickup control device 22 does not determine in step S255 of FIG. 18 that the distance Lho is shorter than the predetermined value Lth2, it determines in step S256 that the current scene is the product introduction scene. Then, the image pickup control device 22 proceeds with the processing in the order of step S259 and steps S103 and S104 of FIG. 14, selects the product 70 specified in step S101 as the target subject, and in step S105, the product 70 which is the target subject. As the image pickup control, for example, focus control or the like is executed. After that, the image pickup control device 22 performs the processes of steps S106 and S107.
  • the subject position between the target introducer 60 and the product 70 to be introduced is obtained by performing the scene determination based on the distance Lho from the target introducer 60 to the product 70.
  • the scene is judged based on the relationship.
  • step S255 may be reversed. That is, the image pickup control device 22 determines that the current scene is a product introduction scene when the distance Lho becomes shorter than a predetermined value, and if the distance Lho is equal to or more than a predetermined value, the current scene is regarded as a performance scene. Try to judge.
  • the image pickup control device 22 determines the scene based on the distance Loc from the image pickup device 1 to the product 70 or the distance Lho between the target introducer 60 and the product 70. However, it is also conceivable to perform the scene determination based on the distance from the image pickup apparatus 1 to the target introducer 60.
  • the scene determination process of the third embodiment will be described with reference to FIG.
  • the third embodiment is an example in which the scene determination is performed according to the state of a part of the body of the target introducer 60.
  • the scene determination is performed according to the state of the hand 61 of the target introducer 60.
  • the image pickup control device 22 determines the state of the hand 61 of the target introducer 60. That is, the image pickup control device 22 determines whether or not the hand 61 is in the target specific state by performing image analysis processing using the image data of the frame acquired in step S101 of FIG.
  • the target specific state means a state in which the product 70 to be introduced can be identified by the hand 61 of the target introducer 60.
  • the hand 61 such as holding, pinching, or grasping the product 70 with the hand 61 is the product 70.
  • the state of touching the product 70, or the state of making a gesture to identify the product 70 by the hand 61 such as pointing at the product 70 with the hand 61 of the target introducer 60.
  • the image pickup control device 22 determines whether or not the hand 61 is in the target specific state by performing image analysis processing using the acquired image data of one frame, but the image of a plurality of frames. By acquiring data and performing image analysis processing or the like, the movement of the hand 61 is detected from the change in the image data between frames, and it is determined whether or not the hand 61 is in the target specific state based on the movement. May be.
  • step S302 When the image pickup control device 22 determines in step S302 that the hand 61 is in the target specific state, the image pickup control device 22 determines that the current scene is the product introduction scene in step S303. After that, the image pickup control device 22 proceeds with the processing in the order of steps S103 and S104 as shown in FIG. 14, selects the product 70 specified in step S101 as the target subject, and in step S105, the product 70 which is the target subject is in focus. Perform focus control as you do. Then, the image pickup control device 22 performs the processes of steps S106 and S107.
  • the image pickup control device 22 When the hand 61 is in a target-specific state in which the product 70 is touched, such as when the hand 61 holds the product 70, the image pickup control device 22 is suitable for the region of the hand 61 touching the product 70 in step S105. Focus control or the like may be performed. By performing focus control on the area of the hand 61 of the target introducer 60, it is possible to perform moving image imaging in which the product 70 in contact with the hand 61 is also focused. This is particularly effective when the product 70 is too small to control the focus on the product 70 itself.
  • step S302 determines in step S302 that the hand 61 is not in the target specific state
  • step S304 determines in step S304 that the current scene is a performance scene.
  • the image pickup control device 22 proceeds with the processing in the order of steps S103 and S108 of FIG. 14, selects the target introducer 60 specified in step S101 as the target subject, and in step S109, the target introducer 60 which is the target subject. Focus control is executed for the face 62. Then, the image pickup control device 22 performs the processes of steps S106 and S107.
  • the hand 61 of the target introducer 60 and the referral target are used. This means that the scene determination is performed based on the subject positional relationship with a certain product 70.
  • the third embodiment can also take the following form.
  • a modified example of the third embodiment will be described with reference to FIG.
  • the scene is determined based on the subject positional relationship, the state of the hand 61 which is a part of the body of the target introducer 60, and the distance from the image pickup device 1 to the product 70 based on the subject positional relationship. This is an example.
  • the image pickup control device 22 determines the state of the hand 61 of the target introducer 60 in step S401. That is, the image pickup control device 22 performs image analysis processing using the image data of the frame acquired in step S101 of FIG. 14, and determines whether or not the hand 61 is in the target identification state such as holding the product 70. judge.
  • step S402 determines in step S402 that the hand 61 is not in the target specific state, it determines in step S403 that the current scene is a performance scene. After that, the image pickup control device 22 finishes the processing of FIG. 20, proceeds with the processing in the order of steps S103 and S108 of FIG. 14, selects the target introducer 60 specified in step S101 as the target subject, and in step S109, the target subject. Focus control is executed for the area of the face 62 of the target introducer 60. Then, the image pickup control device 22 performs the processes of steps S106 and S107.
  • step S404 calculates the distance Loc from the image pickup device 1 to the product 70 to be introduced.
  • step S405 the image pickup control device 22 determines whether or not the calculated distance Loc is shorter than the predetermined value.
  • the image pickup control device 22 determines in step S405 that the distance Loc is shorter than the predetermined value Lth1, it determines in step S406 that the current scene is the product introduction scene.
  • the image pickup control device 22 finishes the processing of FIG. 20, proceeds with the processing in the order of steps S103 and S104 of FIG. 14, selects the product 70 specified in step S101 as the target subject, and is the target subject in step S105. Focus control is executed for the product 70. Then, the image pickup control device 22 performs the processes of steps S106 and S107.
  • the image pickup control device 22 determines that the current scene is a performance scene in step S403. After that, the image pickup control device 22 finishes the processing of FIG. 20, proceeds with the processing in the order of steps S103 and S108 of FIG. 14, selects the target introducer 60 specified in step S101 as the target subject, and in step S109, the target subject. Focus control is executed for the face 62 of the target introducer 60. Then, the image pickup control device 22 performs the processes of steps S106 and S107.
  • the subject of the target introducer 60 and the product 70 to be introduced is The scene is judged based on the positional relationship.
  • the target introducer 60 may hold the product 70 in his / her hand (that is, be in the target specific state) even when the product 70 is not projected and introduced.
  • the focus control is performed on the hand 61 based on the state of the hand 61 of the target introducer 60, the focus control is performed on the product 70 even though it is actually a performance scene. It may be done.
  • the focus control more reflects the intention of the target introducer. It becomes possible to perform imaging control such as. That is, the accuracy of the scene determination by the image pickup control device 22 can be improved.
  • the image pickup control device 22 in this example calculates the distance Loc from the image pickup device 1 to the product 70 to be introduced in step S404, but the target identification state such that the hand 61 holds the product 70, for example.
  • the distance from the image pickup apparatus 1 to the hand 61 of the target introducer 60 may be calculated. This is because the distance from the image pickup device 1 to the product 70 can be estimated from the distance from the image pickup device 1 to the hand 61 when the hand 61 is in contact with the product 70, such as when the hand 61 holds the product 70. is there.
  • the image pickup control device 22 can also perform focus control on the hand 61 touching the product 70 in step S105. This also makes it possible to realize moving image imaging in which the product 70 is focused.
  • the image pickup control device 22 turns on the error flag indicating that the determination cannot be made. It may be set and an error display may be displayed on the display unit of the image pickup apparatus 1.
  • the scene determination process of the fourth embodiment will be described with reference to FIG.
  • the fourth embodiment is an example in which the scene determination is performed based on the ratio of the region of the product 70 to be introduced to the entire frame of the captured image.
  • the ratio in this case corresponds to the subject positional relationship.
  • step S501 the image pickup control device 22 calculates the ratio of the product 70 to be introduced in the entire frame of the captured image. That is, the image pickup control device 22 calculates the ratio P of the area of the product 70 to the area of the entire frame of the captured image.
  • the image pickup control device 22 determines whether or not the ratio P of the area of the product 70 to the area of the entire frame of the captured image is larger than the predetermined value thP.
  • the predetermined value thP referred to here is a value that serves as a reference for determining whether the current scene is a performance scene or a product introduction scene, and a product introduction scene is determined when the ratio P is larger than the predetermined value thP. Is.
  • the imaging control device 22 determines in step S503 that the current scene is the product introduction scene.
  • the fact that the ratio P of the area of the product 70 increases with respect to the area of the entire frame of the captured image means that the distance between the product 70 and the image pickup device 1 is approaching, so that the target introducer 60 selects the product 70. This is because it can be estimated that the product 70 is being introduced closer to the image pickup device 1.
  • performing the scene determination based on the ratio P occupied by the area of the product 70 as in the present embodiment indirectly determines the scene based on the distance relationship between the product 70 and the image pickup device 1. It can be said that. That is, in the present embodiment, the positional relationship between the product 70 and the image pickup apparatus 1 is detected by a physical quantity different from the distance.
  • the image pickup control device 22 proceeds with the processing in the order of steps S503 and S103 and S104 of FIG. 14, selects the product 70 specified in step S101 as the target subject, and in step S105, the product 70 which is the target subject. To execute focus control. Then, the image pickup control device 22 performs the processes of steps S106 and S107.
  • the imaging control device 22 sets the current scene as a performance scene in step S504. Judge that there is. After that, the image pickup control device 22 proceeds in the order of steps S504 and S103 and S108 of FIG. 14, selects the target introducer 60 specified in step S101 as the target subject, and in step S109, introduces the target as the target subject. Focus control is executed for the face 62 of the person 60. Then, the image pickup control device 22 performs the processes of steps S106 and S107.
  • the scene determination is performed based on the ratio of the product 70 to be introduced to the entire frame of the captured image, the hand 61 of the target introducer 60 and the introduction target The scene determination is performed based on the subject positional relationship with a certain product 70.
  • the image pickup control device 22 determines the scene based on the ratio of the product 70 to be introduced to the entire frame of the captured image, but the area of the target introducer 60 is the captured image.
  • the scene may be determined based on the ratio of the above to the entire frame.
  • the image pickup control device 22 calculates the ratio P1 of the area of the target introducer 60 to the area of the captured image in step S501, and whether or not the ratio P1 is smaller than the predetermined value thP'in step S502. To judge.
  • the predetermined value thP'here is a value that serves as a reference for determining whether the current scene is a performance scene or a product introduction scene, and it is determined that the ratio P1 is smaller than the predetermined value thP'is a product introduction scene. Is what you do.
  • the imaging control device 22 determines in step S503 that the current scene is the product introduction scene.
  • the image pickup control device 22 determines in step S504 that the current scene is a performance scene.
  • the fact that the ratio P1 of the area of the target introducer 60 to the area of the captured image is equal to or greater than the predetermined value thP' can be estimated that the target introducer 60 is approaching the image pickup device 1 in order to perform. Because.
  • the image pickup control device 22 can also perform scene determination based on both the ratio P of the product 70 to be introduced on the captured image and the ratio P1 of the target introducer 60 on the captured image.
  • the ratio P of the area of the product 70 to the area of the captured image is larger than the predetermined value thP
  • the ratio P1 of the area of the target introducer 60 to the area of the captured image is When it is smaller than the predetermined value thP', the current scene can be determined as a product introduction scene, and the other scenes can be determined as a performance scene.
  • the image pickup control device 22 can perform scene determination based not only on the ratio of the product 70 and the target introducer 60 on the captured image but also on the ratio of the area of the product 70 and the target introducer 60.
  • the image pickup control device 22 mounted on the image pickup device 1 of the above embodiment is an introduction target (product 70) and an introduction target (product 70) which are subjects in the image pickup image data obtained by the image pickup unit 13 of the image pickup device 1. Based on the positional relationship between the specific unit 22a that identifies the target introducer 60 to be introduced, the introduction target (product 70), the target introducer 60, and at least one of the image pickup device 1, the introduction target (product).
  • a selection unit 22b that selects one of 70) and the target introducer 60 as the target subject, and an image pickup control unit 22c that controls imaging of the subject selected as the target subject by the selection unit 22b are provided (FIG. 14, FIG. 17 to 21).
  • the target introducer 60 cannot operate the image pickup device 1 such as performing a product review movie or the like away from the image pickup device 1 on which the image pickup control device 22 is mounted, the product is moved, for example.
  • the image pickup control device 22 automatically performs image pickup control suitable for the scene according to the movement of the hand 61 to hold, hold, or point to.
  • the target introducer 60 can capture a moving image in which the image pickup control is performed that reflects the intention of the target introducer 60 without operating the image pickup device 1 during the image capture of the performance.
  • the positional relationship between the referral target, the target introducer, and at least any two of the imaging devices 1 is the positional relationship between the target introducer 60 and the referral target as in the second and third embodiments.
  • the positional relationship between the introduction target and the image pickup device 1 as in the first and fourth embodiments there is also a positional relationship between the image pickup device 1 and the target introducer 60.
  • the ratio P1 of the area of the target introducer 60 to the area of the captured image mentioned in the fourth embodiment is a predetermined value thP'.
  • thP' a predetermined value
  • the positional relationship between the target introducer, the introduced target, and the imaging device is also assumed.
  • the selection unit 22b performs a scene determination process on the captured image based on the subject positional relationship, and depending on the scene determined by the scene determination process, the product 70 to be introduced.
  • One of the target introducers 60 can be selected as the target subject (see step S102 in FIG. 14).
  • imaging control such as focus control corresponding to the target subject suitable for each scene. Therefore, it is possible to realize a moving image imaging that reflects the intention of the target introducer 60 without directly operating the imaging device 1 during the imaging of the moving image.
  • focus control or the like is performed with the product 70 as the target subject, and in the performance scene where the target introducer 60 performs, the target introducer 60 is used. Focus control and the like can be performed as the target subject. This makes it possible to perform focus control and the like suitable for the subject to be noticed in the current scene.
  • the selection unit 22b targets one of the introduction target (product 70) and the target introducer 60 based on the positional relationship between the introduction target (product 70) and the image pickup device 1. Select as the subject. That is, the image pickup control device 22 performs the scene determination process based on the positional relationship between the product 70 and the image pickup device 1 (see S102 and FIG. 17 in FIG. 14). For example, the selection unit 22b selects one of the introduction target (product 70) and the target introducer 60 as the target subject based on the positional relationship of the product 70 with respect to the image pickup apparatus 1. By doing so, it is possible to capture a moving image in which the subject introducer 60 reflects the intention of the target introducer 60 without operating the imaging device 1 during the imaging.
  • the selection unit 22b is the introduction target based on the distance Loc from the image pickup device 1 with respect to the introduction target (product 70) generated by the positional relationship between the introduction target (product 70) and the image pickup device 1.
  • One of (Product 70) and the target introducer 60 is selected as the target subject.
  • the target introducer 60 may bring the product 70 closer to the image pickup lens of the image pickup device 1 in order to draw the viewer attention to the product 70 to be introduced.
  • the current scene is determined to be the product introduction scene, and the current scene is selected as the target subject in the product introduction scene.
  • Imaging control such as focus control corresponding to the area of the product 70 can be executed.
  • distance measurement enables scene determination and control according to the scene determination, which facilitates control.
  • the selection unit 22b selects one of the referral target (product 70) and the target introducer 60 based on the positional relationship between the referral target (product 70) and the target introducer 60. Select as the target subject. That is, the image pickup control device 22 performs the scene determination process based on the positional relationship between the product 70 and the target introducer 60 (see steps S102 and 17 in FIG. 14). The positional relationship between the product 70 and the target introducer 60 can be determined based on the respective distances of the product 70 and the target introducer 60 from the imaging device 1.
  • the target introducer 60 reflects the intention of the target introducer 60 without operating the imaging device 1 during imaging. It is possible to capture a moving image for which imaging control has been performed. Further, the scene judgment and the selection of the target subject based on the positional relationship between the introduction target (product 70) and the target introducer 60 are not easily affected by the front-back movement of the target introducer 60, and the scene judgment and eventually the target. It also means that the accuracy of subject selection can be maintained.
  • the selection unit 22b introduces the referral target (product 70) based on the distance Lho from the target introducer 60 to the referral target (product 70) caused by the positional relationship between the referral target (product 70) and the imaging device 1.
  • One of the target (product 70) and the target introducer 60 is selected as the target subject.
  • the selection unit 22b sets one of the introduction target (product 70) and the target introducer 60 as the target subject based on the state of a part of the body of the target introducer 60. Select and perform imaging control such as focus control suitable for the selected target subject (see FIG. 19).
  • one of the introduction target and the target introducer is selected as the target subject based on the positional relationship between the introduction target (product 70) and the target introducer 60 according to the state of the hand 61 of the target introducer 60.
  • the selection unit 22b selects one of the introduction target (product 70) and the target introducer 60 as the target subject based on the state in which the hand 61 of the target introducer 60 is touching the introduction target (product 70).
  • Imaging control such as focus control suitable for the area of the selected target subject is performed.
  • the state in which the hand 61 of the target introducer 60 does not touch the product 70 is considered to be a performance scene in which the target introducer 60 is performing a performance such as a greeting at the beginning.
  • the focus control is performed on the face 62 with the target introducer 60 as the target subject.
  • the target introducer 60 performing the performance can be made to stand out.
  • the scene being imaged is the product introduction scene for introducing the product 70.
  • the focus control can be performed on the product 70 to be introduced to make the product 70 to be introduced stand out.
  • imaging control suitable for each subject is executed according to each scene. be able to. Therefore, it is possible to capture a moving image that more reflects the intention of the target introducer 60.
  • the selection unit 22b selects one of the referral target (product 70) and the target introducer 60 based on the state in which the hand 61 of the target introducer 60 points to the referral target (product 70). It is selected as a target subject, and imaging control such as focus control is performed on the selected target subject (see FIG. 20).
  • imaging control such as focus control is performed on the selected target subject (see FIG. 20).
  • a state in which the hand 61 of the target introducer 60 does not make a gesture such as pointing a finger is considered to be a performance scene in which the target introducer 60 is performing.
  • the focus control is performed on the face 62 with the target introducer 60 as the target subject.
  • the target introducer 60 performing the performance can be made to stand out.
  • the state in which the hand 61 of the target introducer 60 makes a gesture such as pointing to the product 70 is considered to be a product introduction scene in which the target introducer 60 introduces the product 70. Therefore, by performing focus control on the product 70 to be introduced, the product 70 to be introduced can be made conspicuous. In this way, it is possible to determine the scene even by the state of the gesture such as the hand 61 of the target introducer 60 pointing a finger, and it is possible to execute the imaging control suitable for each subject according to each scene. .. Therefore, it is possible to capture a moving image that more reflects the intention of the target introducer 60.
  • the selection unit 22b has a positional relationship in which the area of the introduction target (product 70) occupies the entire frame of the captured image and the area of the target introducer 60.
  • One of the introduction target (product 70) and the target introducer 60 is selected as the target subject based on one or both of the ratio of the captured image to the entire frame (see FIG. 21).
  • the target introducer 60 may bring the product 70 closer to the image pickup lens of the image pickup device 1 in order to draw the viewer attention to the product 70 to be introduced.
  • the ratio of the product 70 to be introduced on the captured image increases.
  • the current scene is determined as the product introduction scene, and the product 70 is selected as the target subject in the product introduction scene.
  • imaging control such as focus control can be executed.
  • the positional relationship between the target introducer 60, the referral target (product 70), and the image pickup apparatus 1 is regarded as a distance relationship.
  • the distance relationship may be the distance between the target introducer 60, the introduction target (product 70), and the image pickup apparatus 1. That is, the scene determination and the target subject are based on two or all of the distance Lho between the target introducer 60 and the introduction target, the distance Loc between the introduction target and the image pickup device 1, and the distance Lhc between the image pickup device 1 and the target introducer 60.
  • the identification unit 22a specifies the introduction target (product 70) based on the captured image data (see S101 in FIG. 14). That is, the specific unit 22a identifies the product 70 to be introduced from the subject reflected in the image data, for example, by performing image analysis processing of the captured image data acquired from the image capturing unit 13. As a result, the product 70 is specified according to the subject being imaged.
  • the image pickup control device 22 may detect the hand 61 of the target introducer 60 based on the captured image data and specify the referral target (product 70) based on the position of the detected hand 61. is there. As a result, even if the product 70 cannot be detected based on the image data, the product 70 to be introduced can be specified by estimating the position of the product 70 from the position of the hand 61.
  • the specific unit 22a identifies the referral target (product 70) based on the state of a part of the body (hand 61) of the target introducer 60 (FIG. See S101 of 14).
  • the product 70 to be introduced can be specified from the state of holding, grasping, pinching, pointing, etc. the product 70 of the hand 61 which is a part of the body of the target introducer 60. Therefore, even when a plurality of products 70 are reflected in the captured image data, the product 70 to be introduced can be specified based on the state of the hand 61.
  • the specific unit 22a may virtually specify the hand 61 as an introduction target as a substitute for the original introduction target.
  • the identification process is facilitated by specifying the hand as the introduction target instead.
  • the image pickup control is the image pickup operation control, that is, the control of the image pickup operation by the optical system and the image pickup unit 13 for condensing the subject light on the image sensor 14 of the image pickup unit 13.
  • An example is described (see steps S105 and S109 in FIG. 14).
  • autofocus control and AE control aperture control, SS control, gain control
  • AE control aperture control, SS control, gain control
  • by performing autofocus control on a target subject according to the current scene it is possible to take an image in which the product 70 is focused on the product introduction scene and the target introducer 60 is focused on the performance scene in the product review video.
  • the image pickup control is an image pickup image processing control
  • a control of image processing on the captured image data For example, white balance processing control, contrast adjustment processing control, image effect processing control, etc. that match the area of the target subject are performed on the captured image data. Therefore, image signal processing suitable for the current scene is executed, and signal processing that reflects the intention of the target introducer 60 is realized without directly operating the image pickup device 1 during image pickup of a moving image. Will be done.
  • the imaging control device 22 of each embodiment associates metadata related to the selection result of the selection unit 22b with the captured image data (see FIG. 14). This makes it easy to extract performance scenes and product introduction scenes during playback and editing of captured image data as moving images. Further, as the information associated with the captured image data as metadata, the information of the error flag indicating that the selection unit 22b is in the undeterminable state is also included. Therefore, for example, after recording, by deleting the frame with the error flag, it is possible to efficiently delete the section in which an appropriate moving image cannot be captured. That is, the metadata related to the selection result of the selection unit 22b improves the editing efficiency of the captured image data as a moving image, and facilitates the reproduction work for confirmation.
  • the image pickup device 1 of the embodiment is realized as an image pickup device that achieves the above-mentioned effect by providing the above-mentioned image pickup control device 22.
  • the imaging device 1 has a presentation unit 18, and the presentation unit 18 presents that the selection unit 22b is in an undeterminable state (see step S106 in FIG. 14, steps S202, S203, S204, etc. in FIG. 17). ..
  • the display unit of the presentation unit 18 indicates that the determination cannot be made.
  • a sound notifying that the determination cannot be made may be emitted from the voice output of the presentation unit 18. Therefore, the target introducer 60 can know that the image pickup apparatus 1 is in an undeterminable state.
  • the target introducer 60 does not notice that the image pickup device 1 is in an undeterminable state during imaging, the captured moving image may not be image-controlled to reflect the intention of the target introducer 60. is there. In this case, the target introducer 60 needs to capture the moving image from the beginning again, which consumes extra labor and time. Therefore, the convenience of the target introducer 60 can be improved by notifying that the target introducer 60 is in an undeterminable state so as to be noticed on the way. By notifying the target introducer 60 that the determination is impossible by the sound from the speaker of the presenting unit 18, the target introducer 60 is informed even when the display unit of the imaging device 1 is not facing the target introducer 60 side. You can be made aware that.
  • the presentation unit 18 presents that the presentation unit 18 is in an uncontrollable state when the distance Loc from the image pickup apparatus 1 to the introduction target (product 70) is less than the shortest imaging process.
  • the convenience of the target introducer 60 is improved by notifying that the target introducer 60 is in an undecidable state so as to be noticed on the way.
  • by displaying to the target introducer 60 that it is in an uncontrollable state see step S106 or the like in FIG. 14
  • notifying by the display on the display unit of the imaging device 1 instead of the notification by sound it is possible to prevent extra sound from being recorded during imaging.
  • the program of the embodiment is a program for causing, for example, a CPU, a DSP, or a device including these to execute the processes of FIGS. 14 and 17 to 21. That is, the program of the embodiment is a specific process that identifies the introduction target (for example, the product 70) and the target introducer 60 that introduces the introduction target as subjects, based on the captured image data obtained by the image pickup unit 13 of the image pickup device 1. And the selection process of selecting one of the introduction target and the target introducer as the target subject based on the positional relationship of at least one of the introduction target (product 70), the target introducer 60, and the image pickup device 1.
  • the introduction target for example, the product 70
  • the target introducer 60 that introduces the introduction target as subjects
  • the above-mentioned image pickup control device 22 can be realized in an image pickup device 1 such as a digital video camera 1A, a digital still camera 1B having a moving image imaging function, and a mobile terminal 1C such as a smartphone.
  • Such a program can be recorded in advance in an HDD as a recording medium built in a device such as a computer device, a ROM in a microcomputer having a CPU, or the like.
  • a recording medium built in a device such as a computer device, a ROM in a microcomputer having a CPU, or the like.
  • flexible discs CD-ROMs (Compact Disc Read Only Memory), MO (Magnet optical) discs, DVDs (Digital Versatile Discs), Blu-ray discs (Blu-ray Discs (registered trademarks)), magnetic discs, semiconductor memories, It can be temporarily or permanently stored (recorded) on a removable recording medium such as a memory card.
  • a removable recording medium can be provided as so-called package software.
  • it can also be downloaded from a download site via a network such as a LAN (Local Area Network) or the Internet.
  • LAN Local Area Network
  • the imaging control device of the embodiment it is suitable for a wide range of provision of the imaging control device of the embodiment.
  • a program for example, by downloading a program to a personal computer, a portable information processing device, a mobile phone, a game device, a video device, a PDA (Personal Digital Assistant), or the like, the personal computer or the like can function as the imaging control device of the present disclosure. Can be done.
  • the present technology can also adopt the following configurations.
  • a specific unit that identifies the introduction target and the target introducer who introduces the introduction target as subjects, and a specific unit.
  • a selection unit that selects one of the introduction target and the target introducer as a target subject based on the positional relationship between the introduction target, the target introducer, and at least one of the imaging devices.
  • An image pickup control device including an image pickup control unit that performs image pickup control corresponding to a subject selected as the target subject by the selection unit.
  • the selection unit selects one of the introduction target and the target introducer as the target subject based on the positional relationship between the introduction target and the image pickup device.
  • the specific unit identifies the introduction target by recognizing the introduction target based on the captured image data.
  • the specific unit recognizes the hand of the target introducer based on the captured image data, and specifies the introduction target based on the recognition result of the hand. Described in any one of (1) to (4) above. Imaging control device.
  • (6) The imaging control device according to (5) above, wherein the specific unit virtually specifies the hand as the introduction target as a substitute for the original introduction target.
  • the imaging control device (7) The imaging control device according to (5) or (6) above, wherein the specific unit identifies the introduction target based on the state of the hand.
  • the selection unit selects one of the introduction target and the target introducer as the target subject based on the positional relationship between the introduction target and the introduction target and the target introducer according to the state of the hand of the target introducer.
  • the imaging control device according to any one of (5) to (7) above.
  • the imaging control device according to (7) or (8) above, wherein the state of the hand is a state in which the hand of the target introducer is touching the introduction target.
  • the imaging control device according to (7) or (8) above, wherein the state of the hand is a state in which the hand of the target introducer points to the introduction target.
  • the selection unit selects one of the introduction target and the target introducer based on the positional relationship between at least two of the introduction target, the target introducer, and the imaging device.
  • the imaging control device according to (1) above which is selected as a target subject.
  • (12) The image pickup control device according to (11) above, wherein the distance relationship is a distance between the introduction target and the image pickup device.
  • (12) The image pickup control device according to (11) above, wherein the distance relationship is a distance between the target introducer and the introduction target.
  • the distance relationship is a distance between the target introducer, the introduction target, and the image pickup device.
  • the imaging control device 15) The imaging control device according to (11) above, wherein the selection unit detects the distance relationship based on the ratio of the introduction target or at least one region of the target introducer to the entire frame of the captured image data. .. (16) Further provided is a presentation control unit that performs presentation control for presenting to the target introducer that the imaging control is difficult when the distance between the image pickup device and the introduction target is shorter than a predetermined value.
  • the imaging control device according to any one of (1) to (15) above.
  • 17.) The imaging control device according to any one of (1) to (16) above, further comprising an association control unit that performs association control for associating metadata related to the selection result by the selection unit with the captured image data.
  • a selection unit that selects one of the introduction target and the target introducer as a target subject based on the positional relationship between the introduction target, the target introducer, and at least one of the imaging devices.
  • An imaging device including an imaging control unit that controls imaging of a subject selected as the target subject by the selection unit. (19) Based on the captured image data obtained by the imaging unit of the imaging device, the identification process for identifying the referral target and the target introducer who introduces the referral target as subjects, and the identification process.
  • An imaging control method including an imaging control process for performing imaging control corresponding to a subject selected as the target subject by the selection unit. (20) Based on the captured image data obtained by the imaging unit of the imaging device, the identification process for identifying the referral target and the target introducer who introduces the referral target as subjects, and the identification process.
  • a selection process for selecting one of the referral target and the target introducer as a target subject based on the positional relationship between the referral target, the target introducer, and at least one of the imaging devices.
  • An imaging control process that performs imaging control corresponding to a subject selected as the target subject by the selection unit, and Is a program that causes the image control device to execute.
  • imaging device 11 optical system, 13 imaging unit, 14 image sensor, 18 presentation unit, 22 imaging control device, 22a specific unit, 22b selection unit, 22c imaging control unit, 22d presentation control unit, 22e association control unit, 61 hands , 62 faces, 70 products

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Studio Devices (AREA)

Abstract

撮像制御装置は、撮像装置の撮像部により得られる撮像画像データに基づいて、紹介対象及び前記紹介対象を紹介する対象紹介者をそれぞれ被写体として特定する特定部と、紹介対象と対象紹介者と撮像装置のうちの少なくともいずれか2つの位置関係に基づいて紹介対象と対象紹介者の一方を対象被写体として選択する選択部と、選択部で対象被写体として選択された被写体に対して撮像制御を行う撮像制御部と、を備えるものとする。

Description

撮像制御装置、撮像制御方法、プログラム、撮像装置
 本技術は撮像制御装置、撮像制御方法、プログラム、撮像装置に関し、特に被写体に応じた撮像制御についての技術に関する。
 撮像装置で撮像した動画についてのフォーカス制御など、各種の撮像に関する処理を行う技術が知られている。
特開2018-33013号公報
 ところで昨今は、ユーザがデジタルビデオカメラ、或いはスマートフォンなどの撮像装置により、自身で撮像した動画を動画投稿サイトやSNS(Social Networking Service)などへ投稿することが盛んに行われている。
 このような環境下では、ユーザ自身が被写体となることが多く、ユーザ自身が撮像装置の操作をすることが難しいため、撮像装置の動作を適切に調整できないことがある。そこで、オートフォーカス等の自動機能を用いることが多いが、適切に動作させることが難しい場合があった。
 そこで本開示では、撮像に関する機能を適切に動作させることができるようにする技術を提案する。
 本技術に係る撮像制御装置は、撮像装置の撮像部により得られる撮像画像データに基づいて、紹介対象及び前記紹介対象を紹介する対象紹介者をそれぞれ被写体として特定する特定部と、前記紹介対象と、前記対象紹介者と、前記撮像装置のうちの少なくともいずれか2つの位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を対象被写体として選択する選択部と、前記選択部で前記対象被写体として選択された被写体に対応した撮像制御を行う撮像制御部とを備える。
 紹介対象とは例えば被写体となっている物品、商品等であり、対象紹介者とは例えば被写体となっている人物などである。そして紹介対象と対象紹介者と撮像装置のうちのいずれか2つの位置関係によって紹介対象と対象紹介者のどちらが主たる被写体となっているかを推定して撮像制御を決める。
 撮像制御としては、撮像部の撮像動作に関する制御として、例えばオートフォーカス制御、AE(Auto Exposure)制御(絞り制御、SS(Shutter Speed)制御、ゲイン制御)などが想定される。また撮像制御としては、撮像画像データに対する画像処理の制御も考えられ、例えばホワイトバランス処理、コントラスト調整処理などの信号処理制御も想定される。
 なお、紹介対象と、対象紹介者と、撮像装置のうちの少なくともいずれか2つの位置関係とは、対象紹介者と紹介対象の位置関係、紹介対象と撮像装置の位置関係、撮像装置と対象紹介者の位置関係、又は対象紹介者と紹介対象と撮像装置の位置関係などが想定される。
 上記した本技術に係る撮像制御装置においては、前記選択部は、前記紹介対象と前記対象紹介者の位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を前記対象被写体として選択することが考えられる。
 紹介対象と対象紹介者の位置関係によって、シーンや状況が推定できる場合があるためそれを利用して対象被写体を選択する。
 上記した本技術に係る撮像制御装置においては、前記選択部は、前記紹介対象と前記撮像装置の位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を前記対象被写体として選択することが考えられる。
 紹介対象と撮像装置の位置関係によって、シーンや状況が推定できる場合があるためそれを利用して対象被写体を選択する。
 上記した本技術に係る撮像制御装置においては、前記特定部は、前記撮像画像データに基づいて前記紹介対象を認識することで前記紹介対象を特定することが考えられる。
 つまり紹介対象となる物品等を画像認識により直接特定する。
 上記した本技術に係る撮像制御装置においては、前記特定部は、前記撮像画像データに基づいて前記対象紹介者の手を認識し、前記手の認識結果に基づいて、前記紹介対象を特定することが考えられる。
 例えば紹介対象が直接特定できなくとも、或いは直接特定しないで、手の認識結果に基づいて間接的に紹介対象を特定することができる。
 上記した本技術に係る撮像制御装置においては、前記特定部は、前記手を本来の紹介対象の代替として仮想的に前記紹介対象として特定することが考えられる。
 例えば手で紹介対象を持っている場合などを想定する場合、手の認識により紹介対象を特定できる。
 上記した本技術に係る撮像制御装置においては、前記特定部は、前記手の状態に基づいて前記紹介対象を特定することが考えられる。
 例えば対象紹介者の身体の一部である手が物品等を持つ、つまむ、掴む等の状態となることで紹介対象を特定する。
 上記した本技術に係る撮像制御装置においては、前記選択部は、前記紹介対象と、前記対象紹介者の手の状態による前記紹介対象と前記対象紹介者の位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を前記対象被写体として選択することが考えられる。
 この場合も手の状態とは、例えば対象紹介者の身体の一部である手が物品等を持つ、つまむ、掴む等の状態であり、これらの状態に伴う位置関係に基づいて対象被写体の選択を行う。
 上記した本技術に係る撮像制御装置においては、前記手の状態とは、前記対象紹介者の手が紹介対象に触れている状態であることが考えられる。
 物品等に手で触れていることで、その物品等を紹介対象として特定する。
 上記した本技術に係る撮像制御装置においては、前記手の状態とは、前記対象紹介者の手が紹介対象を指し示している状態であることが考えられる。
 物品等に対して手で指し示していることで、その物品等を紹介対象として特定する。
 上記した本技術に係る撮像制御装置においては、前記選択部は、前記位置関係である、前記紹介対象、前記対象紹介者及び前記撮像装置のうちの少なくともいずれか2つの間の距離関係に基づいて、前記紹介対象と前記対象紹介者の一方を対象被写体として選択することが考えられる。
 位置関係は、それぞれの間の距離関係と考えることができる。この場合、距離関係やその変化などにより、紹介対象と対象紹介者のどちらが主たる被写体となっているかを推定して撮像制御を決める。
 上記した本技術に係る撮像制御装置においては、前記距離関係は、前記紹介対象と前記撮像装置の間の距離であることが考えられる。
 紹介対象と撮像装置の距離関係によって、シーンや状況が推定できる場合があるためそれを利用して対象被写体を選択する。
 上記した本技術に係る撮像制御装置においては、前記距離関係は、前記対象紹介者と前記紹介対象との間の距離であることが考えられる。
 紹介対象と対象紹介者の距離関係によって、シーンや状況が推定できる場合があるためそれを利用して対象被写体を選択する。
 上記した本技術に係る撮像制御装置においては、前記距離関係は、前記対象紹介者と前記紹介対象と前記撮像装置の間の距離であることが考えられる。
 紹介対象と対象紹介者と撮像装置のそれぞれの距離関係によっても、シーンや状況が推定できる場合があるため、それを利用して対象被写体を選択する。
 上記した本技術に係る撮像制御装置においては、前記選択部は、前記紹介対象又は前記対象紹介者の少なくとも一方の領域が前記撮像画像データのフレーム全体に対して占める比率に基づいて前記距離関係を検出することが考えられる。
 例えば、紹介対象の撮像画像上で占める比率が所定よりも大きい状態となることをもって、紹介対象を対象被写体と判定し、撮像制御を実行する。
 上記した本技術に係る撮像制御装置においては、前記撮像装置と前記紹介対象との距離が所定の値より短い場合に、前記撮像制御が困難である制御困難状態であることを前記対象紹介者へ提示する提示制御を行う提示制御部をさらに備えることが考えられる。
 例えば被写体が近すぎて適切に撮像できない状態をユーザに通知できるようにする。
 上記した本技術に係る撮像制御装置においては、前記選択部による選択結果に関連するメタデータを前記撮像画像データに関連付ける関連付け制御を行う関連付け制御部をさらに有することが考えられる。
 例えばメタデータにより撮像制御の対象として対象被写体がいずれであるかが、後の再生時等の時点でも確認できるようにする。
 本技術の撮像装置は撮像部と以上の撮像制御装置を有する。例えば撮像装置内の情報処理装置が撮像制御装置として機能する。
 本技術の撮像方法は、撮像装置の撮像部により得られる撮像画像データに基づいて、紹介対象及び前記紹介対象を紹介する対象紹介者をそれぞれ被写体として特定する特定処理と、前記紹介対象と、前記対象紹介者と、前記撮像装置のうちの少なくともいずれか2つの位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を対象被写体として選択する選択処理と、前記選択部で前記対象被写体として選択された被写体に対応した撮像制御を行う撮像制御処理とを含む撮像方法である。これにより撮像時に撮像制御の対象とすべき被写体を適切に設定できるようにする。
 本技術に係るプログラムは、このような撮像制御方法に相当する処理を撮像制御装置に実行させるプログラムである。これにより情報処理装置、マイクロコンピュータ等により上述の撮像制御装置の実現を可能とする。
本技術の実施の形態で用いられる機器の説明図である。 実施の形態の撮像装置のブロック図である。 実施の形態のコンピュータ装置のブロック図である。 第1の実施の形態のシーン判定の第1の説明図である。 第1の実施の形態のシーン判定の第2の説明図である。 第2の実施の形態のシーン判定の第1の説明図である。 第2の実施の形態のシーン判定の第2の説明図である。 第3の実施の形態のシーン判定の第1の説明図である。 第3の実施の形態のシーン判定の第2の説明図である。 第3の実施の形態のシーン判定の第3の説明図である。 第3の実施の形態のシーン判定の第4の説明図である。 第4の実施の形態のシーン判定の第1の説明図である。 第4の実施の形態のシーン判定の第2の説明図である。 各実施の形態の処理例のフローチャートである。 実施の形態の撮像制御の一例を示す図である。 実施の形態の撮像制御の一例を示す図である。 第1の実施の形態の処理例のフローチャートである。 第2の実施の形態の処理例のフローチャートである。 第3の実施の形態の処理例のフローチャートである。 第3の実施の形態の変型例の処理例のフローチャートである。 第4の実施の形態の処理例のフローチャートである。
 以下、実施の形態を次の順序で説明する。
<1.撮像制御装置として適用できる機器の構成>
<2.撮像装置の構成>
<3.シーン判定及び撮像に関する制御の概要>
<4.各実施の形態を実現するための処理>
<5.まとめ及び変形例>
 なお、一度説明した内容、構造については、以下同一符号を付し、説明を省略するものとする。
 本技術は、動画の撮像により得られる撮像画像データ内に基づいて紹介対象及び当該紹介対象を紹介する対象紹介者を特定する。そして例えば、紹介対象と、対象紹介者と、撮像装置のうちの、少なくともいずれか2つの位置関係に基づいて、紹介対象と対象紹介者の一方を対象被写体として選択する。この対象被写体として選択された被写体の領域に適した撮像制御を行うものである。
 本実施の形態では、一例として動画投稿サイトやSNS等に投稿される動画の撮像において、紹介対象又は対象紹介者の画像領域について適切な撮像制御を行う撮像装置について説明する。
 ここでは、投稿される動画の一例として、動画投稿者が商品を紹介する商品レビュー動画を例に挙げて説明する。
 そして商品レビュー動画においては、撮像装置により、紹介対象となる商品と当該商品を紹介する対象紹介者が撮像される。対象紹介者は、主に動画投稿者であり、商品レビュー動画において自身で商品を紹介する者である。
 本実施の形態では、撮像装置を固定した状態で対象紹介者が自分撮りにより商品レビュー動画の撮像を行う場面が想定されている。
 ここで紹介対象とは物品をいい、本実施の形態では物品の一例として商品について説明する。なお、ここでいう物品は商取引の対象とならないものであってもよく、例えば自身で創作した著作物等であってもよい。
 また実施の形態では、商品レビュー動画は、パフォーマンスシーンと商品紹介シーンから構成されることを想定する。
 パフォーマンスシーンは、対象紹介者の自己紹介や商品概要の説明等、対象紹介者のパフォーマンスの撮像を目的とするシーンであり、商品紹介シーンは、商品の形状や動作、商品の実際の使用方法等の撮像を目的とするシーンである。
 本実施の形態の撮像装置は、商品レビュー動画がパフォーマンスシーン又は商品紹介シーンの何れであるかを、例えば紹介対象と対象紹介者と撮像装置のうちの少なくともいずれか2つの位置関係に基づいて判定し、各シーンに応じて対象被写体を選択する。そして選択した対象被写体に応じた撮像制御を行う。
<1.撮像制御装置として適用できる機器の構成>
 以下では、主に撮像装置により本開示に係る撮像制御装置が実現される例を説明する。本開示の実施の形態の撮像制御装置は、各種の機器、特に撮像装置に内蔵される形態をとる。
 図1は、撮像装置1となりうる機器の例を示している。
 撮像装置1となりうる機器は、動画の撮像機能を有する機器であり、デジタルビデオカメラ1Aやデジタルスチルカメラ1B、或いはスマートフォン等の携帯端末1Cなどが想定される。例えば上記に挙げた撮像装置1に撮像制御装置が組み込まれている。
 なお、撮像装置1は上記に挙げた例に限られることはなく、撮像制御装置を含みうる機器や撮像制御装置の制御対象となる機器であればよく、他にも各種考えられる。また、撮像制御装置は、撮像装置1に組み込まれている他、別体として設けられていてもよい。
 撮像装置1では、当該撮像装置1の内部のマイクロコンピュータ等が撮像制御を行う。
 撮像制御とは、撮像装置1の撮像に関する制御をいい、例えば被写体光を撮像部のイメージセンサ(撮像素子)に集光させるための光学系や受光動作に関する制御である撮像動作制御や、撮像画像データに対する信号処理に対する制御である撮像画像処理制御のことである。
 撮像動作制御には、例えばオートフォーカス制御、AE制御(絞り制御、SS制御、ゲイン制御)、ズーム制御などが想定される。
 また撮像画像処理制御には、例えばホワイトバランス処理制御、コントラスト調整処理制御、画像エフェクト処理制御などが想定される。
 撮像装置1では、これらの撮像動作制御、撮像画像処理制御に応じて受光・撮像動作や画像信号処理が行われ、撮像画像が出力される。すなわち撮像画像は記録媒体に記録されたり、表示部で表示されたりする。
 以上のように実施の形態の撮像制御装置として機能する装置は多様であるが、以下では、デジタルビデオカメラ1Aとしての撮像装置1が、本開示の撮像制御装置として実現される例について説明する。
<2.撮像装置の構成>
 撮像装置1としてのデジタルビデオカメラ1Aの構成例を図2を参照して説明する。
 図2に示すように撮像装置1は、光学系11、ドライバ部12、撮像部13、カメラ信号処理部16、記録制御部17、提示部18、出力部19、操作部20、カメラ制御部21、メモリ部23、センサ部24を有する。
 光学系11は、ズームレンズ、フォーカスレンズ等のレンズや絞り機構などを備える。この光学系11により、被写体からの光(入射光)が導かれ撮像部13に集光される。
 ドライバ部12には、例えばズームレンズ駆動モータに対するモータドライバ、フォーカスレンズ駆動モータに対するモータドライバ、絞り機構駆動モータに対するモータドライバ、シャッター駆動モータに対するシャッタードライバ等が設けられている。
 ドライバ部12は、カメラ制御部21やカメラ信号処理部16からの指示に応じて駆動電流を対応するドライバに印加し、フォーカスレンズやズームレンズの移動、絞り機構の絞り羽根の開閉、シャッター動作等を実行させる。
 絞り機構は絞り機構駆動モータによって駆動され、後述する撮像部13への入射光量を制御する。フォーカスレンズはフォーカスレンズ駆動モータによって駆動され、焦点調節に用いられる。ズームレンズはズームレンズ駆動モータによって駆動され、ズームの調節に用いられる。シャッター機構はシャッター駆動モータによって駆動され、シャッター動作が行われる。
 撮像部13は、例えば、CMOS(Complementary Metal Oxide Semiconductor)型やCCD(Charge Coupled Device)型などのイメージセンサ14(撮像素子)を有して構成される。イメージセンサ14は、被写体の画像を撮像するための撮像画素と、被写体の光像の位相差を検出するための像面位相差画素とから構成される。なお、イメージセンサ14は位相差画素を含んでいなくてもよい。
 撮像部13では、イメージセンサ14で受光した光を光電変換して得た電気信号について、例えばCDS(Correlated Double Sampling)処理、AGC(Automatic Gain Control)処理などを実行し、さらにA/D(Analog/Digital)変換処理を行う。撮像部13は、デジタルデータとしての撮像信号を、カメラ信号処理部16やカメラ制御部21に出力する。
 イメージセンサ14は複数の撮像画素を含み、それぞれの撮像画素は受光した光の強度に応じた電荷を蓄える。
 イメージセンサ14は、例えばベイヤー配列のカラーフィルタにより覆われていてもよい。これらの撮像画素群が受光した光を光電変換して得た電気信号から撮像信号を読み出すことができる。
 イメージセンサ14は、撮像信号をカメラ信号処理部16やカメラ制御部21に出力する。
 イメージセンサ14は像面位相差画素を含んでいてもよく、像面位相差画素は位相差情報を検出する。像面位相差画素は一対の位相差信号を検出し、撮像部13は、像面位相差画素により検出した一対の位相差信号を出力する。当該位相差信号は例えば撮像装置1から紹介対象や対象紹介者までの距離を算出するための相関演算に用いられる。
 なお、必ずしもイメージセンサ14に像面位相差画素を設ける必要はない。撮像装置1から紹介対象である商品や対象紹介者までの距離を算出するためにはイメージセンサ14とは別に配置した専用位相差センサやTOF(Time of Flight)センサなどを用いてもよい。また撮像装置1から商品や対象紹介者までの距離については、距離そのものを検出するだけでなく、距離に相当する値を求めるようにしてもよい。例えば撮像された画像内での商品や対象紹介者の領域サイズ(領域に含まれる画素数)や、フォーカスレンズの位置情報などは、撮像装置1からの距離を間接的に表す情報となる。
 撮像部13は、位相差信号をカメラ信号処理部16やカメラ制御部21に出力する。
 カメラ信号処理部16は、例えばDSP(Digital Signal Processor)等により画像処理プロセッサとして構成される。
 カメラ信号処理部16は、撮像部13からのデジタル信号(撮像画像信号)に対して、各種の信号処理を施す。例えばカメラ信号処理部16は、前処理、同時化処理、YC生成処理、各種補正処理、解像度変換処理、コーデック処理等を行う。
 前処理では、撮像部13からの撮像画像信号に対して、R,G,Bの黒レベルを所定の信号レベルにクランプするクランプ処理や、R,G,Bの色チャンネル間の補正処理等を行う。
 同時化処理では、各画素についての画像データが、R,G,B全ての色成分を有するようにする色分離処理を施す。例えば、ベイヤー配列のカラーフィルタを用いた撮像素子の場合は、色分離処理としてデモザイク処理が行われる。
 YC生成処理では、R,G,Bの画像データから、輝度(Y)信号および色(C)信号を生成(分離)する。
 解像度変換処理では、各種の信号処理をする前又は信号処理が施された画像データに対して、解像度変換処理を実行する。
 カメラ信号処理部16におけるコーデック処理では、以上の各種処理が施された画像データについて、例えば記録用や通信用の符号化処理、ファイル生成を行う。例えばMPEG-4準拠の動画・音声の記録に用いられているMP4フォーマットなどとしての画像ファイルMFの生成を行う。また静止画ファイルとしてJPEG(Joint Photographic Experts Group)、TIFF(Tagged Image File Format)、GIF(Graphics Interchange Format)等の形式のファイル生成を行うことも考えられる。
 なお、カメラ信号処理部16は、カメラ制御部21から送信されたメタデータを画像ファイルに付加する処理を行う。
 メタデータとしては、カメラ信号処理部16における各種処理のパラメータや後述するセンサ部24で得られた検出情報が含まれ、例えば動画を構成する各フレームに対応して付加されたり、動画全体に対応して付加されたり、或いはシーン単位などの所定の単に対応して付加されたりする。
 本実施の形態の場合、カメラ制御部21(撮像制御装置22)は、後述のように商品紹介シーンとパフォーマンスシーンの識別に応じた制御を行うことになるが、それに関連するメタデータも生成され、画像ファイルに付加されることが想定される。
 具体的には、各フレームについて商品紹介シーンとパフォーマンスシーンのいずれであるかを示す情報、シーンの識別が成功しているか未識別かを示す情報、紹介対象や対象紹介者の特定の有無の情報、特定された紹介対象や対象紹介者の画像内の領域を示す情報、エラーフラグ(図18等で後述)などがメタデータとして付加されることが考えられる。
 なお、ここではカメラ信号処理部16でメタデータ付加の処理を行う例で説明しているが、メタデータ付加の処理を記録制御部17や出力部19で行う例も考えられる。
 また図2では音声処理系については図示を省略しているが、実際には音声収録系、音声処理系を有し、画像ファイルには動画としての画像データとともに音声データが含まれていてもよい。
 音声収録を行う場合には、図示しないマイクロフォン等の音声入力部より入力された音声信号が音声処理系においてデジタル音声信号に変換された後、カメラ制御部21に送られる。カメラ制御部21は、該デジタル音声信号を画像信号と対応付けて例えば不揮発性メモリによる記録媒体に記録させる制御を行う。
 記録制御部17は、例えば不揮発性メモリによる記録媒体に対して記録再生を行う。記録制御部17は例えば記録媒体に対し動画データや静止画データ等の画像ファイルやサムネイル画像等を記録する処理を行う。
 なお、記録制御部17は、撮像制御装置22に設けられていてもよい。
 記録制御部17の実際の形態は多様に考えられる。例えば記録制御部17は、撮像装置1に内蔵されるフラッシュメモリとその書込/読出回路として構成されてもよいし、撮像装置1に着脱できる記録媒体、例えばメモリカード(可搬型のフラッシュメモリ等)に対して記録再生アクセスを行うカード記録再生部による形態でもよい。また撮像装置1に内蔵されている形態としてHDD(Hard Disk Drive)などとして実現されることもある。
 提示部18は撮像者に対して各種表示を行う表示部を有し、表示部は、例えば撮像装置1の筐体に配置される液晶パネル(LCD:Liquid Crystal Display)や有機EL(Electro-Luminescence)ディスプレイ等のディスプレイデバイスによる表示パネルやビューファインダーとされる。
 また提示部18はスピーカー等の音声出力部を有し、カメラ制御部21により読み出されたデジタル音声信号は、カメラ信号処理部16により音声信号に変換した後、音声出力部により出力される。
 提示部18における表示部は、カメラ制御部21の指示に基づいて表示画面上に各種表示を実行させる。例えば、カメラ信号処理部16で表示用に解像度変換された撮像画像データが供給され、表示部はカメラ制御部21の指示に応じて、当該撮像画像データに基づいて表示を行う。これによりスタンバイ中や記録中の撮像画像である、いわゆるスルー画(被写体のモニタリング画像)が表示される。
 また表示部は、記録制御部17において記録媒体から読み出された撮像画像データの再生画像を表示させる。
 表示部はカメラ制御部21の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を画面上に実行させる。
 出力部19は、外部機器との間のデータ通信やネットワーク通信を有線又は無線で行う。
 例えば外部の表示装置、記録装置、再生装置等に対して撮像画像データ(静止画ファイルや動画ファイル)の送信出力を行う。
 また出力部19はネットワーク通信部であるとして、例えばインターネット、ホームネットワーク、LAN(Local Area Network)等の各種のネットワークによる通信を行い、ネットワーク上のサーバ、端末等との間で各種データ送受信を行うようにしてもよい。
 操作部20は、ユーザが各種操作入力を行うための入力デバイスを総括して示している。具体的には操作部20は撮像装置1の筐体に設けられた各種の操作子(キー、ダイヤル、タッチパネル、タッチパッド等)を示している。
 操作部20によりユーザの操作が検出され、入力された操作に応じた信号はカメラ制御部21へ送られる。
 カメラ制御部21はCPU(Central Processing Unit)を備えたマイクロコンピュータ(演算処理装置)により構成される。
 メモリ部23は、カメラ制御部21が処理に用いる情報等を記憶する。図示するメモリ部23としては、例えばROM(Read Only Memory)、RAM(Random Access Memory)、フラッシュメモリなど包括的に示している。
 メモリ部23はカメラ制御部21としてのマイクロコンピュータチップに内蔵されるメモリ領域であってもよいし、別体のメモリチップにより構成されてもよい。
 カメラ制御部21はメモリ部23のROMやフラッシュメモリ等に記憶されたプログラムを実行することで、この撮像装置1の全体を制御する。
 例えばカメラ制御部21は、撮像部13のシャッタースピードの制御、カメラ信号処理部16における各種信号処理の指示、レンズ情報の取得、ユーザの操作に応じた撮像動作や記録動作、動画記録の開始/終了制御、記録した画像ファイルの再生動作、レンズ鏡筒におけるズーム、フォーカス、露光調整等のカメラ動作、ユーザインタフェース動作等について、必要各部の動作を制御する。
 メモリ部23におけるRAMは、カメラ制御部21のCPUの各種データ処理の際の作業領域として、データやプログラム等の一時的な格納に用いられる。
 メモリ部23におけるROMやフラッシュメモリ(不揮発性メモリ)は、CPUが各部を制御するためのOS(Operating System)や、画像ファイル等のコンテンツファイルの他、各種動作のためのアプリケーションプログラムや、ファームウエア等の記憶に用いられる。
 カメラ制御部21は撮像制御装置22としての機能を有する。撮像制御装置22は例えば特定部22a、選択部22b、撮像制御部22c、提示制御部22d、関連付け制御部22eとしての機能を有するものとされる。これらの機能はマイクロコンピュータ等としてのカメラ制御部21においてソフトウエア(アプリケーションプログラム)によって実現される。
 特定部22aは、撮像装置1の撮像部13により得られる撮像画像データ内に基づいて、被写体である商品及び当該紹介対象を紹介する対象紹介者を特定する処理を行う。例えば特定部22aは、取得した撮像画像データの解析処理を行うことにより商品や対象紹介者の顔を特定する。
 ここでいう商品の特定には、撮像画像データ内に映っている被写体から検出された商品から紹介対象となる商品を選択するものだけでなく、例えば、対象紹介者の手の位置や状態等により、商品の位置を推定することも含まれる。
 選択部22bは、紹介対象である商品と、対象紹介者と、撮像装置1について、例えばいずれか2つの位置関係に基づいて商品と対象紹介者の一方を対象被写体として選択する。より具体的には選択部22bは、この対象被写体の選択のためにシーン判定、即ち現在動画撮像中のシーンがパフォーマンスシーンと商品紹介シーンのいずれであるかの判定を行い、判定したシーンに応じて商品と対象紹介者の一方を対象被写体として選択する。
 本開示では、商品、対象紹介者及び撮像装置1の間の位置関係を被写***置関係と呼ぶが、被写***置関係は、例えば撮像装置1と商品の距離、商品と対象紹介者の距離、撮像装置1と対象紹介者の距離などに基づいて決定される。
 なお、距離は距離そのものでなくともよく、距離と相関のある値を用いても良い。例えば、商品又は対象紹介者の領域が撮像画像のフレーム全体に対して占める比率を距離に相当する値として用いても良い。また、フォーカスレンズの位置情報等を距離に相当する情報として用いても良い。
 撮像制御部22cは、選択部22bで対象被写体として選択された被写体の領域に適した撮像制御を行う。例えば撮像制御部22cは、対象被写体の領域に適したオートフォーカス制御等の撮像動作制御やホワイトバランス処理制御等の撮像画像処理制御を行う。
 提示制御部22dは、撮像装置1と商品との距離が所定の値より短い場合に、撮像制御が困難である制御困難状態であることを対象紹介者へ提示する提示制御を行う。例えば提示制御部22dは、状況に応じて、提示部18における表示部でのメッセージ、アイコン等の出力、警告ランプの点灯や点滅などの実行制御を行うことが想定される。
 関連付け制御部22eは、選択部22bによる選択結果に関連するメタデータを撮像画像データに関連付ける関連付け制御を行う。
 選択部22bによる選択結果に関連するメタデータとは、例えば商品紹介シーンとパフォーマンスシーンのいずれであるかを示す情報、シーンの識別が成功しているか未識別かを示す情報、紹介対象や対象紹介者の特定の有無の情報、特定された紹介対象や対象紹介者の画像内の領域を示す情報、対象被写体の情報(対象紹介者60と商品70のいずれが選択されたかの情報)、紹介対象や対象被写体が何か(物品の種類など)の情報、判定不能状態を示すエラーフラグ(図18等で後述)などが想定される。
 例えば関連付け制御部22eは、このような選択部22bによる選択結果に関連するメタデータをカメラ信号処理部16に送信することで、カメラ信号処理部16において選択部22bによる選択結果に関連するメタデータが画像ファイルに含まれるようにする。
 即ち関連付け制御部22eは、選択部22bのシーン判定や対象被写体選択の結果に応じて、例えばフレーム単位で当該情報をカメラ信号処理部16に提供する。
 関連付け制御部22eがこのようにメタデータを提供し、カメラ信号処理部16においてメタデータを画像ファイルに付加する処理を実行させることで、結果的に選択部22bによる選択結果に関連するメタデータが、撮像画像データと同じ記録媒体に記録されたり、同じファイルに入れられて記録、送信等がなされたりするようになる。もちろん画像ファイルとは別のメタデータファイルとして構成され、各メタデータが、画像ファイル及び画像ファイル内の撮像画像データのフレームに関連づけられてもよい。
 結果として、商品紹介シーンとパフォーマンスシーンを示すメタデータなど、選択部22bによる選択結果に関連するメタデータについては、撮像画像データに対してフレーム単位で関連づけられる状態となる。
 なお選択部22bによる選択結果に関連するメタデータは、撮像画像データのフレームに関連づけられるのではなく、例えばシーン単位で関連づけられてもよい。
 センサ部24は、撮像装置1に搭載される各種のセンサを包括的に示している。センサ部24としては、例えば位置情報センサ、照度センサ、加速度センサ等が搭載されている。
 以上の機能を備えた撮像制御装置22を有するデジタルビデオカメラ1Aにより、本技術を実現するための処理が行われる。
 ところで後述するような撮像制御装置22による制御処理は、デジタルビデオカメラ1Aに限らず、図1に示したスマートフォン等の携帯端末1Cにおいても実現できる。そこで携帯端末1Cの構成例についても説明しておく。
 携帯端末1Cは、例えば図3に示す構成を備えたコンピュータ装置30として実現できる。
 図3において、コンピュータ装置30のCPU(Central Processing Unit)31は、ROM( Read Only Memory)32に記憶されているプログラム、または記憶部39からRAM( Random Access Memory )33にロードされたプログラムに従って各種の処理を実行する。RAM33にはまた、CPU31が各種の処理を実行する上において必要なデータなども適宜記憶される。CPU31には、例えばアプリケーションプログラムにより、上述の撮像制御装置22としての機能構成が設けられる。
 CPU31、ROM32、及びRAM33は、バス34を介して相互に接続されている。このバス34には、入出力インタフェース35も接続されている。
 入出力インタフェース35には入力部36、撮像部37、出力部38、記憶部39、通信部40が接続されている。
 入力部36はキーボード、マウス、タッチパネルなどよりなる。
 撮像部37は、撮像レンズや、絞り、ズームレンズ、フォーカスレンズなどを備えて構成されるレンズ系や、レンズ系に対してフォーカス動作やズーム動作を行わせるための駆動系、さらにレンズ系で得られる撮像光を検出し、光電変換を行うことで撮像信号を生成する固体撮像素子アレイなどから成る。
 出力部38は、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)、有機EL(Electroluminescence)パネルなどよりなるディスプレイ、並びにスピーカーなどよりなる。
 例えば出力部38は、CPU31の指示に基づいて表示画面上に各種の画像処理のための画像や処理対象の動画等の表示を実行する。また出力部38はCPU31の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を行う。
 記憶部39はHDD(Hard Disk Drive)や固体メモリなどより構成され、各種の情報記憶が行われる。
 通信部40は、インターネット等の伝送路を介しての通信処理を行ったり、各種機器との有線/無線通信、バス通信などによる通信を行ったりする。
 入出力インタフェース35にはまた、必要に応じてドライブ41が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体42が適宜装着される。
 ドライブ41により、リムーバブル記録媒体42からは画像ファイル等のデータファイルや、各種のコンピュータプログラムなどを読み出すことができる。読み出されたデータファイルは記憶部39に記憶されたり、データファイルに含まれる画像や音声が出力部38で出力されたりする。またリムーバブル記録媒体42から読み出されたコンピュータプログラム等は必要に応じて記憶部39にインストールされる。
 このコンピュータ装置30では、例えば本開示の撮像制御装置としての処理を実行するためのソフトウエアを、通信部40によるネットワーク通信やリムーバブル記録媒体42を介してインストールすることができる。或いは当該ソフトウエアは予めROM32や記憶部39等に記憶されていてもよい。
 なお、コンピュータ装置30は、図3のように単一で構成されることに限らず、複数のコンピュータ装置がシステム化されて構成されてもよい。複数のコンピュータ装置には、クラウドコンピューティングサービスによって利用可能なサーバ群(クラウド)としてのコンピュータ装置が含まれてもよい。
<3.シーン判定の概要>
 以下、本技術におけるシーン判定の概要について説明する。ここでは、各シーンに応じて撮像装置1による撮像に対して異なる撮像制御が行われる。本実施の形態では、撮像制御の一例として、主にフォーカス制御対象の切り替えについて説明する。
 近年、動画投稿サイトやSNSの普及により個人でも気軽に撮像した動画を投稿することが可能となり、それに伴い、個人で撮像した動画により商品を紹介する商品レビュー動画の投稿者が増加している。
 このような商品レビュー動画は、主に対象紹介者の自己紹介や商品概要の説明等、対象紹介者のパフォーマンスの撮像を目的とし、商品紹介シーンの前や後に行われることが多いパフォーマンスシーンと、商品の形状や動作、商品の実際の使用方法等の撮像を目的とする商品紹介シーンとから構成されることが多い。
 パフォーマンスシーンにおいては、商品を紹介する対象紹介者を対象としてフォーカス制御が行われることが望ましいが、具体的な商品を説明する商品紹介シーンにおいては、商品の形状等が見やすいように、商品を対象としてフォーカス制御が行われることが望ましい。
 しかしながら、個人で商品レビュー動画を撮像する場合には、商品を紹介する対象紹介者自身で動画の撮像のための操作を行う、つまり自分撮りをすることが多く、撮像装置1は据え置きで撮像されることになる。そのため、対象紹介者が、撮像中に撮像シーンに応じてフォーカス制御の対象を変更する操作を行い、フォーカス制御の対象を切り換えることが難しかった。
 また、実際の動画の撮像においては商品に加えて対象紹介者等が映り込むため、どれが紹介する商品かを撮像装置1側で認識することができず、商品紹介シーンにおいてフォーカス制御の対象とすべき商品に合焦させるようなフォーカス制御がされないという問題もある。
 そこで本技術では、撮像中の撮像画像について、現在、パフォーマンスシーンと商品紹介シーンのどちらのシーンであるかを判定し、各シーンに適した被写体を特定したうえでフォーカス制御等の撮像制御を行う。
 具体的なフォーカス制御の概要について、図4から図13を参照して説明する。
 図4と図5、及び図6と図7は、紹介対象、対象紹介者、撮像装置の距離関係を示している。また、図8から図13は、商品レビュー動画の撮像において、表示部にスルー画として表示される撮像表示画面50を示している。撮像表示画面50には、商品70を紹介する対象紹介者60と紹介対象である商品70が表示されている。対象紹介者60は、身体の一部として手61と顔62とを有している。
 また図4から図13では、手61、顔62、商品70を示す部分を説明の便宜上破線で囲まれた領域として示している。
 まず第1の実施の形態について、図4及び図5を参照して説明する。第1の実施の形態では、被写***置関係から生じる距離関係に応じてシーン判定を行う。
 この第1の実施の形態は、撮像装置1から商品70までの距離に基づいてシーンを判定し、各シーンに応じた対象被写体を選択し、撮像制御を行う例である。
 なお、商品レビュー動画の撮像時に、商品紹介者は撮像装置1の前に位置して移動することなく一定の位置にいて撮像を行うことが多いが、本実施の形態は、このような場合に適用することができる。
 撮像装置1から商品70までの距離Locはシーンに応じて変化すると考えることができる。例えば商品レビュー動画の撮像時に、対象紹介者60は、手61に持った商品70を撮像装置1に近付けることで、商品70を目立たせながら説明することがある。
 そこで、シーン判定による被写体選択は、商品70と撮像装置1との位置関係、特には距離Locに表れる距離関係に基づいて行うものとする。
 なお、ここでいう商品70は撮像制御装置22により特定した紹介対象である。また、商品70が認識できていない場合において、対象紹介者60の手61を商品70に代替して特定する場合も含まれる。即ち本来の紹介対象が商品70であるが、それに代替して対象紹介者60の手61を紹介対象として特定する場合である。これは例えば商品70が小さすぎて画像内で特定できない場合などについて、手61で商品70を持っている状況を想定し、手を商品70とみなして商品70の画像内での位置を特定するということである。
 図4は商品70から撮像装置1までの距離Locの値が、所定値Lthよりも大きい値である場合を示している。これは撮像装置1から商品70までの距離が比較的離れている状態であるとする。そしてこれは対象紹介者60が商品70を目立たせるように商品70を撮像装置1に近づけるということはしていない状態であることから、対象紹介者60がパフォーマンスを行うパフォーマンスシーンであると考えられる。
 そのため、撮像制御装置22は、パフォーマンスを行っている対象紹介者60の顔62を対象被写体として選択し、顔62をターゲットとしてフォーカス制御を行うようにする。これによりパフォーマンスシーンにおいては、視聴者を、話をしている対象紹介者60に注目させるような動画撮像を行うことができる。
 なお、対象紹介者60の顔62を対象被写体としてフォーカス制御を行っているが、対象紹介者60の目等を対象被写体としてフォーカス制御を行うこととしてもよい。
 一方で図5のように、商品70から撮像装置1までの距離Locの値が、所定値Lth1よりも小さい値である場合、対象紹介者60が撮像装置1に商品70を近づけている状態であると推定でき、対象紹介者60が商品70を紹介している商品紹介シーンであると考えられる。
 このような商品紹介シーンでは、撮像制御装置22は商品70を対象被写体として選択し、商品70をターゲットとしてフォーカス制御を行う。これにより、対象紹介者60が紹介しようとしている商品70を合焦させるフォーカス制御が行われることとなり、視聴者を商品70に注目させるような動画撮像を行うことができる。
 このように、第1の実施の形態では、撮像装置1から商品70までの距離に基づいてシーンを判定し、各シーンに応じた対象被写体を合焦させるフォーカス制御を行う。
 第2の実施の形態について、図6及び図7を参照して説明する。第2の実施の形態も被写***置関係から生じる距離関係に応じてシーン判定を行うが、この第2の実施の形態は、対象紹介者60と商品70の間の距離に基づいてシーンを判定し、各シーンに応じた対象被写体を選択し、撮像制御を行う例とする。
 上記図4,図5と同じように、例えば商品レビュー動画の撮像時に、対象紹介者60は、手61に持った商品70を撮像装置1に近付けることで、商品70を目立たせながら説明することを想定する。これは、図6、図7に示す距離Lhoの変化としてとらえることもできる。つまり対象紹介者60と商品70の間の距離Lhoはシーンに応じて変化すると考えることができる。
 そこで、シーン判定による被写体選択は、対象紹介者60と商品70との位置関係、特には距離Lhoに表れる距離関係に基づいて行うものとする。
 図6は距離Lhoが比較的小さい場合を示している。
 撮像装置1においては、撮像装置1から対象紹介者60の距離Lhc、撮像装置1から商品70の距離Locを測定することができ、これにより対象紹介者60と商品70との距離Lhoを求めることができる(Lho=Lhc-Loc)。
 この図6の場合、距離Lhoは所定値Lth2よりも小さい値である場合を示している。これは対象紹介者60から商品70までの距離が比較的近い状態である。
 そしてこれは対象紹介者60が、商品70を目立たせるように撮像装置1に近づけるということはしていない状態であることから、対象紹介者60がパフォーマンスを行うパフォーマンスシーンであると考えられる。
 そのため、撮像制御装置22は、パフォーマンスを行っている対象紹介者60の顔62を対象被写体として選択し、顔62(又は目等)をターゲットとしてフォーカス制御を行うようにする。これによりパフォーマンスシーンにおいては、視聴者を、話をしている対象紹介者60に注目させるような動画撮像を行うことができる。
 一方で図7は、距離Lhoは所定値Lth2よりも大きい値である場合を示している。これは対象紹介者60から商品70までの距離が比較的遠くなった状態である。
 そしてこれは対象紹介者60が、商品70を目立たせるように撮像装置1に近づけている状態であることから、対象紹介者60が商品70を紹介している商品紹介シーンであると考えられる。
 このような商品紹介シーンでは、撮像制御装置22は商品70を対象被写体として選択し、商品70をターゲットとしてフォーカス制御を行う。これにより、対象紹介者60が紹介しようとしている商品70を合焦させるフォーカス制御が行われることとなり、視聴者を商品70に注目させるような動画撮像を行うことができる。
 このように、第2の実施の形態では、対象紹介者60から商品70までの距離に基づいてシーンを判定し、各シーンに応じた対象被写体に対応するフォーカス制御を行う。
 この第2の実施の形態と第1の実施の形態は、同じく距離関係によってシーン判定を行うものであるが、第2の実施の形態のようにあくまでも対象紹介者60と商品70の距離Lhoで判定する場合、対象紹介者60の動き(位置)に関わらず判定ができるという利点が生ずる。
 つまり、第1の実施の形態のシーン判定では、対象紹介者60が撮像装置1に対して動かない(同一距離を保つ)ことが必要となる。対象紹介者60が商品70を手に持って前後に動いたような場合、シーン判定が不正確になる可能性がある。
 一方第2の実施の形態の場合、あくまでも対象紹介者60と商品70の距離Lhoに注目して判定することで、対象紹介者60が前後に動く場合でもシーン判定の正確性が維持できる。
 ところで以上では、距離Lhoに注目し、距離Lhoと所定値Lth2を比較するという例としたが、距離Lhoと距離Locの差分値の変化に注目してシーン判定を行うようにしてもよい。即ち距離Lhoと距離Locの差(又は比)が所定値以上/未満によりパフォーマンスシーンと商品紹介シーンを判定するものである。
 また以上の例は、商品紹介シーンでは商品70を撮像装置1に近づけるという挙動を想定したが、逆の挙動を想定した方がよい場合もある。
 即ちパフォーマンスシーンでは、対象紹介者60は商品70を自分から離しておき、商品紹介シーンでは、対象紹介者60が商品70を手に持つなどして自分に近づけるという挙動をとることも考えられる。
 そのような挙動に対処できるように、シーン判定の論理を逆にすることも考えられる。例えば距離Lhoが所定値Lth2より長ければパフォーマンスシーン、距離Lhoが所定値Lth2以下であれば商品紹介シーンなどとする例である。
 例えばユーザがいずれのシーン判定の論理を用いるかを選択できるようにしてもよい。
 また各距離については撮像装置1からの奥行き方向の距離(深度)に注目したが、対象紹介者60と商品の上下左右方向の距離を加味してもよい。
 第3の実施の形態について、図8から図11を参照して説明する。第3の実施の形態は、対象紹介者60の手61の状態、特には手61と商品70の関係により商品70を特定するとともに、シーン判定を行う例である。
 図8及び図9は、対象紹介者60の手61で商品70を持つ等の状態に基づく対象紹介者60と商品70の位置関係によりシーン判定を行い、各シーンに応じて選択した対象被写体に応じたフォーカス制御を行うことを示している。
 ここでの対象紹介者60の手61の状態には、商品70を持った状態だけでなく、商品70をつまむ、掴む、手に乗せる等、商品70に手61が触れる様々な状態が含まれる。
 図8のように対象紹介者60が商品70を持っていない状態では、対象紹介者60がパフォーマンスを行うパフォーマンスシーンであると考えられる。
 そのため対象紹介者60の顔62を対象被写体として、フォーカス制御を行う。これにより、パフォーマンスシーンにおいては、視聴者が、話をしている対象紹介者60に注目するような動画撮像を行うことができる。
 一方、図9のように、対象紹介者60が商品70を持っている状態では、商品70を特定できるとともに、対象紹介者60が商品70の具体的な紹介を行う場面、即ち商品紹介シーンであると考えられる。
 商品紹介シーンでは、商品70の形状等、商品70の具体的な態様を説明することになるため、商品70を対象被写体としてフォーカス制御等を行う。
 これにより、対象紹介者60が紹介しようとしている商品70に合焦させるフォーカス制御が行われることとなり、視聴者が商品70に注目するような動画撮像を行うことができる。
 このように、第3の実施の形態では、商品70を持つといった対象紹介者60の手61の状態に基づいてシーンを判定し、各シーンに応じた対象被写体に合焦させるフォーカス制御を行う。
 また第3の実施の形態では、商品70を指さす等の対象紹介者60の手61のジェスチャに基づいて商品70を特定するとともにシーンを判定し、各シーンに応じて選択した対象被写体に適した撮像制御を行うことも考えられる。
 ここでいうジェスチャは、対象紹介者60の手61の状態であり、手61の一瞬の状態として静的に検出されるものであってもよいし、手61の動作として動的に検出されるものであってもよい。
 図10のように対象紹介者60が商品70を指さすといったジェスチャを行っていない状態では、対象紹介者60がパフォーマンスを行うパフォーマンスシーンであると考えられる。
 そのため、対象紹介者60の顔62を対象被写体として、フォーカス制御等の撮像制御を行う。これにより、視聴者が、話をしている対象紹介者60に注目するような動画撮像を行うことができる。
 一方、図11のように、対象紹介者60が商品70を指さすといったジェスチャを行っている状態は、対象紹介者60が商品70を紹介している商品紹介シーンであると考えられる。
 商品紹介シーンでは、特定した商品70を対象被写体とし、商品70に合焦させるフォーカス制御を行う。これにより、視聴者に、対象紹介者60が紹介しようとしている商品70に注目させるような動画撮像を行うことができる。
 この例では、対象紹介者60が商品70を指さすといったジェスチャに基づいてシーン判定を行い、各シーンに応じて選択した対象被写体にフォーカス制御を行うことで、各シーンに適したフォーカス制御を行うことができる。
 手61がジェスチャにより商品70を指し示す状態から、対象被写体60の商品70との相対的な位置関係が規定されるため、このシーン判定による被写体選択は、商品70と対象紹介者60の被写***置関係に基づいて行われるものといえる。
 本例は、例えば商品70が手61で持てない場合や、対象紹介者60が離れた位置にある商品70を紹介する場合等に適している。
 なお以上の説明では、対象紹介者60が商品70を手に持ったり、指し示したりすることで、紹介対象たる商品70の特定と、シーン判定を行うものとしたが、既に画像内で商品70が特定できている場合もあるし、手の状態により初めて商品70を特定できる場合もあり、これらいずれであってもよい。
 例えば商品70が特定できていなくても、対象紹介者60が或る物体を持ったり指し示したりする状態を認識することで、商品70を特定しつつ、シーン判定を行うことができる。
 また商品70が特定できている状態であれは、対象紹介者60が、その商品70を持ったり指し示したりする状態を認識することでシーン判定を行うことができる。
 第4の実施の形態について、図12及び図13を参照して説明する。第4の実施の形態は、被写***置関係により生じる、商品70の領域が撮像画像のフレーム全体に対して占める比率に基づいてシーンを判定し、各シーンに応じた対象被写体に対しフォーカス制御を行う例である。
 図12のように対象紹介者60が商品70を撮像装置1に近づけていない状態では、撮像表示画面50に占める商品70の比率は大きくない。従って、対象紹介者60が商品70を紹介している状態でないパフォーマンスシーンであると考えられる。
 従って、撮像表示画面50に占める商品70の比率が所定値よりも小さいことをもってパフォーマンスシーンと判定し、対象紹介者60の顔62等を対象被写体とするフォーカス制御を行う。これにより、視聴者に、話をしている対象紹介者60に注目させるような動画撮像を行うことができる。
 一方で図13のように、対象紹介者60が商品70を手に持つなどして、商品70を撮像装置1に近づけた場合は、撮像表示画面50に占める商品70の比率は大きくなる。この場合は、対象紹介者60が商品70を説明しようとしていることが想定される。
 そこで撮像表示画面50に占める商品70の比率が所定値よりも大きくなることをもって商品紹介シーンと判定し、商品70を対象被写体とするフォーカス制御を行う。これにより、視聴者に、商品70に注目させるような動画撮像を行うことができる。
 このように、第4の実施の形態では、撮像画像の面積に対して占める商品70の面積の比率に基づいてシーンを判定し、各シーンに応じた対象被写体に適したフォーカス制御等の撮像制御を行うことができる。
 撮像画像のフレーム全体に対して占める商品70の面積の比率の変化は、商品70と撮像装置1の距離の変化、即ち撮像装置1と商品70との位置関係の変化に応じて生ずる。従ってこのシーン判定による被写体選択は撮像装置1と商品70の被写***置関係に基づいて行われるものといえる。なお、この場合、対象紹介者60と商品70の被写***置関係の変化ととらえるようにしてもよい。
 以上のように、本技術におけるシーン判定及び各シーンに応じた撮像制御には、様々な態様が考えられる。
<4.各実施の形態を実現するための処理>
 上記の各実施の形態の撮像制御を実現するために行われる撮像制御装置の処理を、図14から図21を参照して説明する。
 まず各実施の形態における処理の全体手順について図14を参照して説明する。
 各実施の形態では、撮像装置1の撮像制御装置22が、撮像画像データ内における紹介対象である商品70及び対象紹介者60を特定し、被写***置関係に基づいてシーン判定を行う。そして判定したシーンに応じて紹介対象と対象紹介者の一方を対象被写体として選択し、選択した対象被写体に対応するフォーカス制御を行う。
 即ち、撮像制御装置22は、撮像画像データから検出される被写***置関係に基づいて、商品70と対象紹介者60の一方を対象被写体として選択し、当該選択された対象被写体に適した撮像制御を行う。
 なお、本実施の形態における撮像装置1の撮像モードには、上記した判定したシーンに応じて選択した対象被写体にフォーカス制御を行う紹介動画モードが設けられている。撮像モードが紹介動画モードに設定された状態で、動画の記録が開始された場合に、撮像制御装置22は図14の処理を実行するものとする。
 紹介動画モードは、例えば動画の記録を開始する前に、対象紹介者60の撮像装置1へのモード設定操作に応じて設定される。
 以下、撮像制御装置22が実行する図14の処理について説明する。
 まず撮像制御装置22は、ステップS101において被写体の認識を行う。撮像制御装置22は、撮像部13から1フレームの画像データ又は複数フレームの画像データを取得し、取得したフレームの画像信号を用いて画像解析処理等を行うことで、例えば図4から図13に示したような対象紹介者60の手61や顔62、商品70を認識する。
 具体的には、撮像制御装置22は、例えば対象紹介者60の姿勢推定や、画像データにおける肌色抽出により、対象紹介者60の手61や顔62を認識することが想定される。
 また撮像制御装置22は、紹介対象となる商品70については、形状認識、パターン認識などにより画像内で物体部分を認識し、対象紹介者60や背景等と区別して紹介対象たる商品70を特定する。
 また例えば撮像制御装置22は、認識した手61の状態に基づいて紹介対象となる商品70を特定することもできる。撮像制御装置22は、商品70を持つ、つまむ、掴むなど、手61が商品70と触れている状態を認識した場合に、手61と触れている商品70を紹介対象となる商品70として特定する。これにより、撮像場所に配置された様々な商品等が映り込んだ状態において、手61で触れている商品70が、商品レビュー動画において紹介される商品70であることが特定できる。つまり商品70が手61と触れているという位置関係に基づいて紹介対象となる商品が特定される。
 さらに撮像制御装置22は、対象紹介者60の手61により商品70を特定するためのジェスチャが行われている状態を認識し、当該ジェスチャに基づいて紹介対象となる商品70を特定することもできる。例えば商品70を指さす手61のジェスチャを認識した場合、当該手61で指し示す方向の延長線上にある商品70を、紹介対象となる商品70として特定することができる。つまり商品70が手61で指し示す方向に存在するという位置関係に基づいて紹介対象となる商品が特定される。
 これらのように撮像制御装置22は、対象紹介者60と商品70の位置関係により紹介対象となる商品70を特定することができる。
 なお、ここでの紹介対象となる商品70の特定は、認識した商品70から紹介対象を特定するのみならず、対象紹介者60の手61の位置に基づいて紹介対象となる商品70の位置を推定することにより特定することも含まれる。
 この場合、撮像制御装置22は、対象紹介者60の手61を特定することで、手61の位置に紹介対象となる商品70があると推定し、紹介対象となる商品70の位置を特定する。例えば商品70が小さく、画像上での認識が困難な場合などは、手61を仮想的に商品70とみなし(商品70が手に持たれていると仮定し)、本来の紹介対象たる商品70の代替的に手61を認識することで商品70を特定できる。
 このように、撮像制御装置22が検出した対象紹介者60の手61の状態から紹介対象となる商品70を特定したり、手61を本来の紹介対象の商品70の代替として特定したりすることで、撮像場所に配置された様々な商品等が映り込んだ状態であっても商品レビュー動画において紹介される商品70を特定することができる。
 続いてステップS102で撮像制御装置22は、取得した各被写体の認識結果を用いてシーン判定処理を行う。
 撮像制御装置22は、認識された各被写体や撮像装置1との間の被写***置関係に基づいて、現在のシーンがパフォーマンスシーンであるか、商品紹介シーンであるかを判定する。具体的なシーン判定処理としては、上述の第1から第4の実施の形態の例が想定される。それぞれの実施の形態に相当するシーン判定処理例については後に図17から図21で順次説明する。
 撮像制御装置22はステップS103で、シーン判定処理の結果に応じて処理を分岐する。
 シーン判定処理において商品紹介シーンと判定した場合、撮像制御装置22は、ステップS103からステップS104に処理を進め、ステップS101で特定した商品70を対象被写体として選択する。
 そして、撮像制御装置22は、ステップS105において、対象被写体である商品70の領域に適した撮像制御を実行する。例えば撮像制御の一例として商品70をターゲットとしてフォーカス制御が行われるように制御する。なお、以下の説明では、撮像制御の例としてフォーカス制御を用いて説明する。
 これにより、撮像装置1は、商品紹介シーンにおいては商品70にフォーカスを合わせた撮像を行う状態となる。撮像制御装置22は、フレーム中の商品70の領域の検波情報を用いた画面(フレーム)全体におけるフォーカス制御がされた撮像画像を撮像装置1の表示部に提示制御する。
 なお、撮像制御装置22は、撮像動作制御として、商品70へのフォーカス制御に合わせてF値を小さくするような絞り制御を行うことで、被写界深度を狭くし、商品70の前景や背景をぼやけさせることを合わせて行っても良い。
 一方、シーン判定処理においてパフォーマンスシーンと判定した場合、撮像制御装置22は、ステップS103からステップS108に処理を進め、ステップS101で特定した対象紹介者60を対象被写体として選択する。
 そして、撮像制御装置22は、ステップS109において、対象被写体である対象紹介者60の顔62を合焦させるフォーカス制御を実行する。これにより、パフォーマンスシーンにおいては対象紹介者60の顔62にフォーカスを合わせた撮像を行う状態となる。撮像制御装置22は、フレーム中の顔62の領域の検波情報を用いた画面(フレーム)全体におけるフォーカス制御がされた撮像画像を撮像装置1の表示部に提示制御する。
 以上のステップS105又はステップS109も処理の後、撮像制御装置22は、ステップS106に処理を進め、現在判定しているシーンが何であるかや、フォーカス制御の対象である商品70を示す情報を、オンスクリーン表示や、LED等の特定の表示部のオンオフや、音声等で示す提示を行うための提示制御を行う。
 例えば撮像制御装置22は、商品紹介シーン或いはパフォーマンスシーンであることを示すアイコンやメッセージを表示してもよい。
 また撮像制御装置22は、商品紹介シーンであれば商品70を対象にフォーカス制御を行っていることを示すために、商品部分を囲うようなフォーカス枠を撮像画像に重畳表示させたり、パフォーマンスシーンであれば顔62を対象にフォーカス制御を行っていることを示すために、顔部分を囲うようなフォーカス枠を撮像画像に重畳表示させたりするようにしてもよい。
 そして、撮像制御装置22は、ステップS107において、メタデータの関連付けを行う。例えば撮像制御装置22は、現在のフレームについてのシーン情報、エラーフラグ、撮像制御のパラメータ等についてのメタデータを生成する。
 シーン情報とはパフォーマンスシーンか商品紹介シーンかを示す情報である。エラーフラグは後述の図14で説明する情報である。撮像制御のパラメータとは、上述した撮像動作制御や撮像画像処理制御に関するパラメータである。
 そして撮像制御装置22は生成したメタデータを現フレームに対応するメタデータとしてカメラ信号処理部16に送信することで、メタデータを撮像画像データに関連づけるようにする。その後、撮像制御装置22は、ステップS101に戻り処理を実行する。
 なおメタデータについては、例えばカメラ信号処理部16の処理により、対応するフレームに関連づけられて画像ファイルに組み込まれることで、撮像画像データとの関連付けが行われるが、それに限られない。例えば撮像画像データ(画像ファイル)と関連づけられるIDや対応するフレームが示されたメタデータファイルが撮像画像データとは別に形成されて記録されたり送信されたりしてもよい。どのような形であれ、後の時点で撮像画像データとメタデータの対応付けできる状態とされればよい。
 また図12では動画の記録処理については示していないが、この図12の処理が実行されている期間、カメラ信号処理部16では、撮像部13から得られる各フレームについての動画記録のための処理を実行している。撮像制御装置22が図12のステップS107で生成したメタデータは、撮像画像データのフレームに対応づけられて記録媒体に記録されることになる。これにより、シーン判定情報やそれに応じた撮像制御のパラメータなどが撮像画像データに関連づけられることになる。
 撮像制御装置22は、例えば対象紹介者60により動画の記録の終了操作がされるか、対象紹介者60により撮像モードが紹介動画モード以外のモードに変更されるまで、図14の処理を繰り返し実行する。
 以上の処理により、各実施の形態における撮像制御装置22によるシーンに応じた対象被写体に対するフォーカス制御が実現される。
 これにより、紹介する商品70に注目させたい商品紹介シーンにおいては紹介対象となる商品70にフォーカスを合わせ、対象紹介者60のパフォーマンスに注目させたいパフォーマンスシーンにおいては対象紹介者60にフォーカスを合わせた撮像を行うことで、各シーンにおいて視聴者に注目させたい対象に対して効果的にフォーカス制御を行うことができる。
 なお、本実施の形態では、一例として紹介動画モードが対象紹介者60による撮像装置1へのモード設定操作に応じて設定されることとしたが、紹介動画モードの設定は様々な態様が考えられる。
 例えば、図1のデジタルビデオカメラ1Aは、撮像装置本体2と表示部を有する表示筐体3を備え、撮像装置本体2に対して表示筐体3を移動させることで撮像レンズと同じ側に表示筐体3の表示部を向けた状態とすることが可能であるとする。このような撮像装置1であれば、当該状態にすることをもって、自分撮りをしているものと判断することができるため、これをもって、紹介動画モードに設定することができる。即ち撮像制御装置22は、撮像レンズと同じ側に表示筐体3の表示部を向けた状態を検知すると、撮像モードを紹介動画モードに設定する。
 なお、商品レビュー動画の撮像においては、図4のように対象紹介者60自身が動画の撮像を行うことが一般的である。従って、商品レビュー動画の記録中に対象紹介者60が表示部に表示される内容によって、現在の撮像制御の状態を確認できる状態にしておくことで、対象紹介者60自身が商品レビュー動画の記録中に動画の取り直し、又は続行などを判断することができる。
 また本実施の形態では、撮像制御装置22は、ステップS101の処理において、認識した手61の状態に基づいて紹介対象となる商品70を特定する例を述べたが、音声入力部により得られる音声データに基づいて紹介対象となる商品70を特定することもできる。
 例えば、あらかじめ商品70と名称を対応付けておくことにより、撮像制御装置22は、撮像装置1から集音した音声から音声データを取得し、取得した音声データについて言語解析を行い、当該言語解析により取得した名称に該当する商品70を特定することができる。
 また撮像制御装置22は、対象紹介者60の視線方向に基づいて紹介対象となる商品70を特定することもできる。
 例えば、撮像制御装置22は、ステップS101において、取得したフレーム情報を用いて画像解析処理を行うことで対象紹介者60の視線方向を認識し、当該認識した視線方向の延長線上にある商品70を紹介対象の商品70として特定することができる。
 また紹介動画モードにおいて商品レビュー動画の記録を開始する前に、対象紹介者60の操作を介して紹介対象の商品70を登録することとしてもよい。例えば、撮像制御装置22は、撮像画像データから商品70を認識し、認識した商品70を表示部に表示させる。対象紹介者60は、表示された商品70から紹介対象とする商品70を選択する操作を行う。撮像制御装置22は、認識した商品70から紹介対象となる商品70を当該選択操作に応じて登録する。
 または、撮像制御装置22は、認識した商品70を対象紹介者60に選択させずにそのまま登録しても良い。
 この場合、商品レビュー動画の記録中において、撮像制御装置22は、ステップS101において認識した商品70のうち、記録前に登録しておいた商品70を紹介対象として特定する。
 また本実施の形態では、対象被写体への撮像制御をフォーカス制御として説明したが、対象被写体への撮像制御は、他にも様々な処理が考えられる。
 例えば、撮像制御装置22は、ステップS102で商品紹介シーンと判定するとステップS103,S104,S105の順に処理を進め、選択した商品70の領域の露光が適切となるようにAE制御を行い、ステップS102でパフォーマンスシーンと判定するとステップS103,S108,S109の順に処理を進め、選択した対象被写体60の顔62の領域の露光が適切となるようにAE制御を行う。
 また撮像制御装置22は、ステップS105、S109の撮像制御として、対象被写体に対応する撮像画像処理制御を行うこともできる。具体的には、ホワイトバランス処理制御やコントラスト調整制御などが考えられる。
 撮像制御装置22は、フレーム中の対象被写体の領域における検波情報を用いて、対象被写体の領域のホワイトバランスが適切となるようにオートホワイトバランス制御を行ったり、対象被写体の領域のコントラストが適切となるようにコントラスト調整として画質補正処理等を行う。
 例えば、撮像制御装置22は、ステップS102で商品紹介シーンと判定するとステップS103,S104,S105の順に処理を進め、選択した商品70に対して撮像画像処理制御を行い、ステップS102でパフォーマンスシーンと判定するとステップS103,S108,S109の順に処理を進め、選択した対象被写体60の顔62に対して撮像画像処理制御を行う。
 また撮像制御装置22は、現在のシーンが商品紹介シーンであると判定した場合、商品70を効果的に注目させるための処理を行うこともできる。
 例えば、撮像制御装置22は、ステップS102で商品紹介シーンであると判定すると、ステップS103,S104,S105の順に処理を進め、対象被写体に対応する撮像画像処理制御として、選択した商品70以外の背景部分をぼやけさせるような画像処理を行うことができる。
 例えば図15の撮像表示画面50において、商品70以外の部分がぼやけて表示される。図15では、ぼやけて表示される被写体について一点鎖線で示している。
 また図16に示すように、選択した商品70の周りに複数の集中線を配置することで、商品70を目立たせることもできる。ここで集中線とは、ある領域を中心とし、その中心から放射状に配置された複数の線のことをいう。
 例えば撮像制御装置22は、ステップS102で商品紹介シーンであると判定すると、ステップS103,S104,S105の順に処理を進め、対象被写体に対応する撮像画像処理制御として、取得した撮像画像データと集中線エフェクトのデータを合成することで、商品70の周りに複数の集中線が配置された集中線エフェクト画像を生成する。
 また、商品紹介シーンにおける対象被写体である商品70について、商品70の種別に応じた撮像制御を行うことも可能である。
 このとき、撮像制御装置22は、ステップS101で商品70を特定する際に、画像解析処理などにより商品70の種別を判定しておく。そして撮像制御装置22は、ステップS102のシーン判定処理で現在のシーンが商品紹介シーンであると判定すると、ステップS103,S104の順に処理を進め、商品70を対象被写体として選択する。
 その後、撮像制御装置22は、ステップS101で判定した商品70の種別情報を、商品70の種別に対応する撮像制御情報が記憶されたクラウドサーバに送信し、クラウドサーバから商品70に応じた撮像制御情報を取得する。
 撮像制御装置22は、ステップS105において、クラウドサーバから取得した撮像制御情報に基づいて、商品70に応じた撮像制御を行う。
 なお、商品70の種別に対応する撮像制御情報は、あらかじめ撮像装置1に記憶されていてもよい。
 商品70の種別、及び当該種別に対応する撮像制御には様々な例が考えられる。例えば、商品70の種別が、フリッカ現象が生じるおそれのある表示部を備えるテレビジョン装置やデジタルカメラ装置などである場合に、フリッカ現象の生じないシャッタースピードに変更するSS制御が考えられる。
 なお、商品紹介シーンの場合にこれらの制御処理を行う一方、現在のシーンが商品紹介シーンでなくパフォーマンスシーンであると判定した場合は、撮像制御装置22は、上記した実施の形態と同様に、ステップS103,S108,S109の順に処理を進め、対象紹介者60の顔62を合焦させるフォーカス制御を行うことが考えられる。例えば他の部分のぼかし、集中線エフェクト、商品種別に応じた制御等は行わないとする。
 以下、各実施の形態におけるシーン判定処理について説明する。
 図17は第1の実施の形態のシーン判定処理例を示している。第1の実施の形態は、図4,図5に示したように撮像装置1から商品70までの距離Locを用いてシーン判定が行われる例である。
 まず撮像制御装置22は、ステップS201において、撮像装置1から紹介対象の商品70までの距離Locを算出する。例えば、撮像画像データのフレームを取得する際に位相差信号を取得し、当該取得した位相差信号を用いて相関演算を行うことで、撮像装置1から紹介対象の商品70までの距離Locを算出する。
 なお、撮像制御装置22は、コントラストAFにおけるフォーカスレンズの位置に基づいて撮像装置1から商品70までの距離Locを算出してもよいし、位相差センサや赤外線センサ等を用いた専用の測距センサの検出情報を用いて撮像装置1から商品70までの距離Locを算出してもよい。
 撮像制御装置22は、ステップS202において、撮像装置1から商品70までの距離Locが、最短撮像距離以上であるか否かを判定する。
 最短撮像距離とは、撮像装置1から被写体までの距離のうち、被写体をぼけることなくフォーカス制御することができる最短の距離をいう。従って距離Locがここでいう最短撮像距離より短い場合は、商品70を対象としてフォーカス制御を行ってもぼけた状態となってしまう。例えば対象紹介者60が商品70を強調しようとして、過度に撮像装置1に近づけたような場合、距離Locが最短撮像距離より短くなる。
 このような場合は、適切な撮像ができなくなるため、距離Locが最短撮像距離よりも短い場合には、撮像制御装置22は、ステップS202からステップS203に処理を進め、エラーフラグをONに設定する。
 ここでエラーフラグは、シーン判定を行うことができる適切な撮像状態か否かを示すフラグである。エラーフラグがONであることは、フォーカス制御可能範囲を越え、ぼけない状態での動画撮像が行えず、シーン判定による対象被写体選択を実行することができない判定不能状態であることを示している。
 ステップS203でエラーフラグをオンとした場合、撮像制御装置22は、ステップS204から図14のステップS106に処理を進め、判定不能状態であることの提示制御を行う。例えば判定不能状態であることを示すアイコンやメッセージのオンスクリーン表示や、LED等の特定の表示部のオンオフや、エラー音或いは音声等で判定不能状態を提示するための提示制御を行う。
 なお、撮像画像を表示する表示部が対象紹介者60側に向いていない場合は、この表示部以外の表示部や音声等を用いて対象紹介者60に提示制御を行うことが好ましい。
 そして、撮像制御装置22は、図14のステップS107において、エラーフラグがオンであることを示すメタデータを生成する。生成したメタデータは、カメラ信号処理部16に送信され、例えば撮像画像データの対応するフレームに関連付けられて記録媒体に記録される。その後、撮像制御装置22は、図14のステップS101に戻り、既述の処理を実行する。
 図15のステップS202において距離Locが最短撮像距離よりも長い場合は、特に以上のようなエラーとしての対処を行う必要がない場合である。
 撮像制御装置22は、ステップS210において、エラーフラグがONであるかを判定し、エラーフラグがONである場合は、ステップS205でエラーフラグをOFFとしたうえでステップS206に処理を進める。
 また、ステップS210において、エラーフラグがOFFと確認した場合、撮像制御装置22はステップS205の処理を行うことなくステップS206に処理を進める。
 撮像制御装置22は、ステップS206において、算出した距離Locが所定値Lth1よりも短いか否かを判定する。
 先の図4,図5の説明から理解されるように、所定値Lth1とは、現在のシーンがパフォーマンスシーンか、商品紹介シーンかを判断するための基準となる値である。例えば距離Locが所定値Lth1よりも短い場合、商品紹介シーンと判定され、距離Locが所定値Lth1以上であればパフォーマンスシーンと判定される。
 所定値Lth1は撮像を行う者が任意に設定してもよいし、あらかじめ撮像装置1に設定されていてもよい。或いは、撮像開始前、或いは撮像中などに実際の測距データから今回の撮像に係る所定値Lth1を設定するような処理を行ってもよい。例えば対象紹介者60までの距離を測定し、その距離から適切な距離の減算等をして所定値Lth1を求めることが考えられる。
 撮像制御装置22は、ステップS206において、距離Locが所定値Lth1よりも短いと判定すると、ステップS207において現在のシーンが商品紹介シーンであると判定する。
 すると撮像制御装置22は、ステップS204,図14のステップS103,S104の順に処理を進め、ステップS101で特定した商品70を対象被写体として選択し、ステップS105において、対象被写体である商品70に対して撮像制御として、例えばフォーカス制御を実行する。もちろん上述のように撮像制御装置22は、撮像制御として、フォーカス制御とは別に、または、フォーカス制御に加えてフリッカ現象の生じないSS制御や輝度処理、画像効果処理など様々な制御を行うようにしてもよい。
 その後、撮像制御装置22は、ステップS106,S107の処理を行う。
 撮像制御装置22は、図17のステップS206において、距離Locが所定値Lth1よりも短いと判定しなかった場合は、ステップS208において現在のシーンがパフォーマンスシーンであると判定する。
 その後、撮像制御装置22は、ステップS204,図14のステップS103,S108の順に処理を進め、ステップS101で特定した対象紹介者60を対象被写体として選択し、ステップS109において、対象被写体である対象紹介者60の顔62に対して撮像制御として、例えばフォーカス制御等を実行する。そして撮像制御装置22は、ステップS106,S107の処理を行う。
 以上のように第1の実施の形態によれば、撮像装置1から商品70までの距離Locに基づいてシーン判定を行うことで、対象紹介者60と紹介対象である商品70との被写***置関係に基づいたシーン判定を行うこととなる。
 第2の実施の形態のシーン判定処理について図18を参照して説明する。第2の実施の形態は、図6,図7に示したように対象紹介者60から商品70までの距離Lhoを用いてシーン判定が行われる例である。
 撮像制御装置22は、ステップS251において、撮像装置1から商品70までの距離Loc、及び撮像装置1から対象紹介者60までの距離Lhcを算出する。また距離Lhc-距離Locの演算により対象紹介者60と商品70との距離Lhoを求める。
 撮像制御装置22は、ステップS252において、撮像装置1から商品70までの距離Loc、又は撮像装置1から対象紹介者60までの距離Lhcのいずれかが、最短撮像距離以上であるか否かを判定する。
 距離Loc,距離Lhcのいずれかが最短撮像距離よりも短い場合は、適切な撮像ができなくなるため、撮像制御装置22は、ステップS252からステップS258に処理を進め、エラーフラグをONに設定し、判定不能状態であるとする。
 この場合、撮像制御装置22は、ステップS259から図14のステップS106に処理を進め、判定不能状態であることの提示制御を行う。
 そして、撮像制御装置22は、図14のステップS107において、エラーフラグがオンであることを示すメタデータを生成し、その後、ステップS101に戻り、既述の処理を実行する。以上は図17で説明した第1の実施の形態と同様である。
 図18のステップS252において距離Locが最短撮像距離以上の場合は、撮像制御装置22は、ステップS253において、エラーフラグがONであるかを判定し、エラーフラグがONである場合は、ステップS254でエラーフラグをOFFとした上でステップS255に処理を進める。
 また、ステップS253において、エラーフラグがOFFと確認した場合、撮像制御装置22はステップS254の処理を行うことなくステップS255に処理を進める。
 撮像制御装置22は、ステップS255において、算出した距離Lhoが所定値Lth2よりも短いか否かを判定する。
 先の図6,図7の説明から理解されるように、所定値Lth2は、現在のシーンがパフォーマンスシーンか、商品紹介シーンかを判断するための基準となる値である。例えば距離Lhoが所定値Lth2よりも短い場合、パフォーマンスシーンと判定され、距離Lhoが所定値Lth2以上であれば商品紹介シーンと判定される。
 所定値Lth2は撮像を行う者が任意に設定してもよいし、あらかじめ撮像装置1に設定されていてもよい。或いは、撮像開始前、撮像中などに実際の測距データから今回の撮像に係る所定値Lth2を設定するような処理を行ってもよい。例えばまだ商品紹介に至る前の時点(例えば撮像開始時など)で計測されるシーン距離Lhcと距離Locに基づいて、適切な所定値Lth2を求めることが考えられる。
 撮像制御装置22は、ステップS255において、距離Lhoが所定値Lth2よりも短いと判定すると、ステップS257において現在のシーンがパフォーマンスシーンであると判定する。
 すると撮像制御装置22は、ステップS259,図14のステップS103,S108の順に処理を進め、ステップS101で特定した対象紹介者60を対象被写体として選択し、ステップS109において、対象被写体である対象紹介者60の顔62に対して撮像制御として、例えばフォーカス制御等を実行する。そして撮像制御装置22は、ステップS106,S107の処理を行う。
 撮像制御装置22は、図18のステップS255において、距離Lhoが所定値Lth2よりも短いと判定しなかった場合は、ステップS256において現在のシーンが商品紹介シーンであると判定する。
 すると撮像制御装置22は、ステップS259,図14のステップS103,S104の順に処理を進め、ステップS101で特定した商品70を対象被写体として選択し、ステップS105において、対象被写体である商品70に対して撮像制御として、例えばフォーカス制御等を実行する。その後、撮像制御装置22は、ステップS106,S107の処理を行う。
 以上のように第2の実施の形態によれば、対象紹介者60から商品70までの距離Lhoに基づいてシーン判定を行うことで、対象紹介者60と紹介対象である商品70との被写***置関係に基づいたシーン判定を行うこととなる。
 なお先にも言及したが、対象紹介者60が商品70を紹介するシーンでは、対象紹介者60は手61により商品70を自身に近づけて紹介することが考えられる。そのような挙動を想定する場合は、ステップS255の論理を逆にすればよい。
 即ち、撮像制御装置22は、距離Lhoが所定の値よりも短くなったことをもって、現在のシーンを商品紹介シーンと判定し、距離Lhoが所定の値以上であれば現在のシーンをパフォーマンスシーンと判定するようにする。
 なお、第1、第2の実施の形態では、撮像制御装置22は、撮像装置1から商品70までの距離Loc、或いは対象紹介者60と商品70の間の距離Lhoに基づいてシーン判定を行うこととしたが、撮像装置1から対象紹介者60までの距離に基づいてシーン判定を行うことも考えられる。
 第3の実施の形態のシーン判定処理について図19を参照して説明する。第3の実施の形態は、対象紹介者60の身体の一部の状態に応じてシーン判定が行われる例である。ここでは一例として、対象紹介者60の手61の状態に応じてシーン判定が行われる例を説明する。
 撮像制御装置22は、ステップS301において、対象紹介者60の手61の状態を判定する。即ち、撮像制御装置22は、図14のステップS101で取得したフレームの画像データを用いて画像解析処理を行うことで、手61が対象特定状態であるか否かを判定する。
 ここで対象特定状態とは、紹介対象である商品70が対象紹介者60の手61により特定可能な状態をいい、例えば、手61で商品70を持つ、つまむ、掴む等の手61が商品70に触れている状態や、対象紹介者60の手61で商品70を指さすといった手61により商品70を特定するためのジェスチャをしている状態などのことである。
 なお、撮像制御装置22は、取得した1フレームの画像データを用いて画像解析処理を行うことで、手61が対象特定状態であるか否かを判定することが考えられるが、複数フレームの画像データを取得して画像解析処理等を行うことで、フレーム間における画像データの変化から手61の動きを検出し、当該動きに基づいて手61が対象特定状態であるか否かを判定することとしてもよい。
 撮像制御装置22は、ステップS302において、手61が対象特定状態であると判定すると、ステップS303において現在のシーンが商品紹介シーンであると判定する。
 その後、撮像制御装置22は、図14のようにステップS103,S104の順に処理を進め、ステップS101で特定した商品70を対象被写体として選択し、ステップS105において、対象被写体である商品70が合焦するようにフォーカス制御を実行する。そして撮像制御装置22は、ステップS106,S107の処理を行う。
 なお、手61が商品70を持つなど、手61が商品70に触れている対象特定状態である場合、撮像制御装置22は、ステップS105において、商品70に触れている手61の領域に適したフォーカス制御等を行うこととしてもよい。
 対象紹介者60の手61の領域を対象としてフォーカス制御を行うことで、手61と触れている商品70にもフォーカスを合わせた動画撮像を行うことができる。これは特に、商品70が小さすぎて商品70自体に対するフォーカス制御が困難である場合に有効である。
 一方、撮像制御装置22は、ステップS302において手61が対象特定状態でないと判定すると、ステップS304において現在のシーンがパフォーマンスシーンであると判定する。
 その後、撮像制御装置22は、図14のステップS103,S108の順に処理を進め、ステップS101で特定した対象紹介者60を対象被写体として選択し、ステップS109において、対象被写体である対象紹介者60の顔62に対してフォーカス制御を実行する。そして撮像制御装置22は、ステップS106,S107の処理を行う。
 このように第3の実施の形態によれば、対象紹介者60の手61が対象特定状態であるか否かに基づいてシーン判定を行うことで、対象紹介者60の手61と紹介対象である商品70との被写***置関係に基づいたシーン判定を行っていることになる。
 なお第3の実施の形態は以下の形態をとることもできる。第3の実施の形態の変型例について図20を参照して説明する。
 本例は、被写***置関係に基づいて、対象紹介者60の身体の一部である手61の状態、及び被写***置関係に基づく撮像装置1から商品70までの距離を用いてシーン判定が行われる例である。
 まず撮像制御装置22は、ステップS401において、対象紹介者60の手61の状態を判定する。即ち、撮像制御装置22は、図14のステップS101で取得したフレームの画像データを用いて画像解析処理を行うことで、手61が例えば商品70を持つ等の対象特定状態であるか否かを判定する。
 撮像制御装置22は、ステップS402において、手61が対象特定状態でないと判定すると、ステップS403において現在のシーンがパフォーマンスシーンであると判定する。
 その後、撮像制御装置22は、図20の処理を終え、図14のステップS103,S108の順に処理を進め、ステップS101で特定した対象紹介者60を対象被写体として選択し、ステップS109において、対象被写体である対象紹介者60の顔62の領域を対象としたフォーカス制御を実行する。そして撮像制御装置22は、ステップS106,S107の処理を行う。
 撮像制御装置22は、図20のステップS402において、手61が対象特定状態であると判定すると、ステップS404に処理を進め、撮像装置1から紹介対象の商品70までの距離Locを算出する。
 撮像制御装置22は、ステップS405において、算出した距離Locが所定値よりも短いか否かを判定する。
 撮像制御装置22は、ステップS405において距離Locが所定値Lth1よりも短いと判定すると、ステップS406において現在のシーンが商品紹介シーンであると判定する。
 その後、撮像制御装置22は、図20の処理を終え、図14のステップS103,S104の順に処理を進め、ステップS101で特定した商品70を対象被写体として選択し、ステップS105において、対象被写体である商品70に対してフォーカス制御を実行する。そして撮像制御装置22は、ステップS106,S107の処理を行う。
 撮像制御装置22は、ステップS405において、距離Locが所定値Lth1以上と判定すると、ステップS403において現在のシーンがパフォーマンスシーンであると判定する。
 その後、撮像制御装置22は、図20の処理を終え、図14のステップS103,S108の順に処理を進め、ステップS101で特定した対象紹介者60を対象被写体として選択し、ステップS109において、対象被写体である対象紹介者60の顔62に対してフォーカス制御を実行する。そして撮像制御装置22は、ステップS106,S107の処理を行う。
 以上のように、対象紹介者60の手61の状態、及び商品70から撮像装置1までの距離Locに基づいてシーン判定を行うことで、対象紹介者60と紹介対象である商品70との被写***置関係に基づいたシーン判定を行うことになる。
 例えば商品レビュー動画において、対象紹介者60は、商品70を映して紹介していない時であっても商品70を手61で持つこと(即ち、対象特定状態となること)がある。このような場合、対象紹介者60の手61の持つ等の状態に基づいて手61に対してフォーカス制御を行うこととすると、実際はパフォーマンスシーンであるにも関わらず商品70に対してフォーカス制御が行われてしまうおそれがある。
 そこで、対象紹介者60の手61の状態に加えて、撮像装置1から商品70までの距離Locの状態を加味してシーン判定を行うことで、対象紹介者の意図をより反映させたフォーカス制御等の撮像制御を行うことが可能となる。即ち、撮像制御装置22によるシーン判定の精度を向上させることができる。
 なお、本例における撮像制御装置22は、シーン判定にあたりステップS404において撮像装置1から紹介対象の商品70までの距離Locを算出することとしたが、例えば手61が商品70を持つといった対象特定状態である場合には、撮像装置1から対象紹介者60の手61までの距離を算出することとしてもよい。
 手61が商品70を持つ等、手61が商品70に触れている状態においては、撮像装置1から手61までの距離をもって、撮像装置1から商品70までの距離を推定することができるためである。
 またこのとき、撮像制御装置22は、ステップS105において、商品70に触れている手61に対してフォーカス制御を行うことも可能である。これによっても商品70にフォーカスを合わせた動画撮像を実現できる。
 また本例では説明を省略したが、撮像装置1から商品70までの距離Locが最短撮像距離よりも短い場合には、撮像制御装置22は、判定不能状態であることを示すエラーフラグをONに設定し、撮像装置1の表示部にエラー表示を行うこととしてもよい。
 第4の実施の形態のシーン判定処理について図21を参照して説明する。第4の実施の形態は、紹介対象である商品70の領域が撮像画像のフレーム全体に対して占める比率に基づいてシーン判定が行われる例である。この場合の比率は被写***置関係に相当するものとなる。
 まず撮像制御装置22は、ステップS501において、撮像画像のフレーム全体における紹介対象の商品70の占める比率を算出する。即ち、撮像制御装置22は、撮像画像のフレーム全体の面積に対して占める商品70の面積の比率Pを算出する。
 その後、撮像制御装置22は、ステップS502において、撮像画像のフレーム全体の面積に対して占める商品70の面積の比率Pが所定値thPより大きいか否かを判定する。ここでいう所定値thPとは、現在のシーンがパフォーマンスシーンか、商品紹介シーンかを判断するための基準となる値であり、比率Pが所定値thPより大きいことをもって商品紹介シーンと判定するものである。
 撮像画像のフレーム全体の面積に対して占める商品70の面積の比率Pが所定値thPより大きくなる場合、撮像制御装置22は、ステップS503において、現在のシーンが商品紹介シーンであると判定する。
 撮像画像のフレーム全体の面積に対して、商品70の面積の占める比率Pが増加するということは、商品70と撮像装置1の距離が近づいているといえるため、対象紹介者60が商品70を撮像装置1に近づけて商品70を紹介しようとしていることが推定できるためである。
 このように、本実施の形態のように商品70の面積の占める比率Pに基づいてシーン判定を行うことは、間接的に商品70と撮像装置1の距離関係に基づいてシーン判定を行っているともいえる。つまり、本実施の形態では、商品70と撮像装置1の位置関係を距離とは異なる物理量で検出している。
 その後、撮像制御装置22は、ステップS503,図14のステップS103,S104の順に処理を進め、ステップS101で特定した商品70を対象被写体として選択し、ステップS105において、対象被写体である商品70に対してフォーカス制御を実行する。そして撮像制御装置22は、ステップS106,S107の処理を行う。
 図21のステップS502で撮像画像のフレーム全体の面積に対して占める商品70の面積の比率Pが所定値thP以下である場合、撮像制御装置22は、ステップS504において、現在のシーンがパフォーマンスシーンであると判定する。
 その後、撮像制御装置22は、ステップS504,図14のステップS103,S108の順に処理を進め、ステップS101で特定した対象紹介者60を対象被写体として選択し、ステップS109において、対象被写体である対象紹介者60の顔62に対してフォーカス制御を実行する。そして撮像制御装置22は、ステップS106,S107の処理を行う。
 以上の第4の実施の形態によれば、紹介対象である商品70が撮像画像のフレーム全体に対して占める比率に基づいてシーン判定を行うことで、対象紹介者60の手61と紹介対象である商品70との被写***置関係に基づいたシーン判定を行うことになる。
 なお、本実施の形態では、撮像制御装置22は、紹介対象である商品70が撮像画像のフレーム全体に対して占める比率に基づいてシーン判定を行ったが、対象紹介者60の領域が撮像画像のフレーム全体に対して占める比率に基づいてシーン判定を行うこととしてもよい。
 例えば、撮像制御装置22は、ステップS501において撮像画像の面積に対して占める対象紹介者60の領域の面積の比率P1を算出し、ステップS502で比率P1が所定値thP’よりも小さいか否かを判定する。ここでいう所定値thP’とは、現在のシーンがパフォーマンスシーンか、商品紹介シーンかを判断するための基準となる値であり、比率P1が所定値thP’より小さいことをもって商品紹介シーンと判定するものである。
 撮像画像の面積に対して占める対象紹介者60の面積の比率P1が所定値thP’より小さくなる場合、撮像制御装置22は、ステップS503において、現在のシーンが商品紹介シーンであると判定する。
 また、比率P1が所定値thP’以上の場合、撮像制御装置22は、ステップS504において、現在のシーンがパフォーマンスシーンであると判定する。
 撮像画像の面積に対して対象紹介者60の面積の占める比率P1が所定値thP’以上となるということは、対象紹介者60がパフォーマンスを行うために撮像装置1に近づいていることが推定できるためである。
 また撮像制御装置22は、紹介対象である商品70が撮像画像上で占める比率Pと対象紹介者60が撮像画像上で占める比率P1の両方に基づいてシーン判定を行うこともできる。
 例えば、撮像制御装置22は、撮像画像の面積に対して占める商品70の面積の比率Pが所定値thPより大きくなり、かつ撮像画像の面積に対して占める対象紹介者60の面積の比率P1が所定値thP’より小さくなる場合に、現在のシーンを商品紹介シーンと判定し、それ以外をパフォーマンスシーンと判定することができる。
 また撮像制御装置22は、商品70や対象紹介者60の撮像画像上に占める比率のみならず、商品70と対象紹介者60の面積の比率に基づいてシーン判定を行うことも可能である。
<5.まとめ及び変形例>
 以上の実施の形態の撮像装置1に搭載された撮像制御装置22は、撮像装置1の撮像部13により得られる撮像画像データ内における被写体である紹介対象(商品70)及び紹介対象(商品70)を紹介する対象紹介者60を特定する特定部22aと、紹介対象(商品70)と、対象紹介者60と、撮像装置1のうちの少なくともいずれか2つの位置関係に基づいて、紹介対象(商品70)と対象紹介者60の一方を対象被写体として選択する選択部22bと、選択部22bで対象被写体として選択された被写体に対して撮像制御を行う撮像制御部22cと、を備える(図14、図17から図21参照)。
 従って、例えば対象紹介者60が、当該撮像制御装置22が搭載された撮像装置1から離れて商品レビュー動画等のパフォーマンスを行うなど、撮像装置1を操作できない状態であっても、例えば商品を動かしたり、持ったり、指し示したりする手61の動きに応じて自動的に撮像制御装置22がシーンに適した撮像制御を行うようになる。これにより、パフォーマンスの撮像中に対象紹介者60が撮像装置1を操作することなく、対象紹介者60の意図を反映させた撮像制御がなされた動画を撮像することができる。
 なお、紹介対象と、対象紹介者と、撮像装置1のうちの少なくともいずれか2つの位置関係とは、第2、第3の実施の形態のような対象紹介者60と紹介対象の位置関係、第1、第4の実施の形態のような紹介対象と撮像装置1の位置関係の他、撮像装置1と対象紹介者60の位置関係もある。撮像装置1と対象紹介者60の位置関係に該当する例としては、例えば第4の実施の形態で言及した撮像画像の面積に対して占める対象紹介者60の面積の比率P1が所定値thP’より小さくなるか否かでシーン判定(対象被写体の選択)を行う例がある。もちろん図6の距離Lhcを適切な閾値と比較してシーン判定(対象被写体の選択)をすることも考えられる。
 また位置関係の例としては、対象紹介者と紹介対象と撮像装置の3者の位置関係も想定される。
 各実施の形態の撮像制御装置22において、選択部22bは、被写***置関係に基づいて撮像画像におけるシーン判定処理を行い、当該シーン判定処理で判定したシーンに応じて、紹介対象である商品70と対象紹介者60の一方を対象被写体として選択することができる(図14のステップS102参照)。
 これにより、各シーンに適した対象被写体に対応してフォーカス制御等の撮像制御を行うことができる。従って、動画の撮像中に撮像装置1を直接操作することなしに対象紹介者60の意図を反映させた動画撮像を実現できる。
 例えば、商品レビュー動画において、商品70を紹介する場面である商品紹介シーンでは商品70を対象被写体としてフォーカス制御等を行い、対象紹介者60がパフォーマンスを行う場面であるパフォーマンスシーンでは対象紹介者60を対象被写体としてフォーカス制御等を行うことができる。これにより、現在のシーンで注目されるべき被写体に適したフォーカス制御等を行うことができる。
 第1の実施の形態の撮像制御装置22において、選択部22bは、紹介対象(商品70)と撮像装置1の位置関係に基づいて、紹介対象(商品70)と対象紹介者60の一方を対象被写体として選択する。即ち、撮像制御装置22は、商品70と撮像装置1の位置関係に基づいて、シーン判定処理を行う(図14のS102,図17参照)。
 例えば選択部22bは、撮像装置1に対する商品70の位置関係に基づいて、紹介対象(商品70)と対象紹介者60の一方を対象被写体として選択する。
 このようにすることで、撮像中に対象紹介者60が撮像装置1を操作することなく、対象紹介者60の意図を反映させた撮像制御がなされた動画を撮像することができる。
 特に第1の実施の形態では、選択部22bは、紹介対象(商品70)と撮像装置1の位置関係により生ずる、紹介対象(商品70)に対する撮像装置1からの距離Locに基づいて、紹介対象(商品70)と対象紹介者60の一方を対象被写体として選択する。
 例えば商品レビュー動画において、対象紹介者60は、紹介する商品70を視聴者に注目させるために、商品70を撮像装置1の撮像レンズに近づけることがある。このような場合に、例えば紹介対象の商品70から撮像装置1までの距離が所定の値よりも近づいたことをもって現在のシーンを商品紹介シーンと判定し、商品紹介シーンにおいて対象被写体として選択される商品70の領域に対応したフォーカス制御等の撮像制御を実行することができる。特に距離測定によりシーン判定及びそれに応じた制御が可能となり、制御が容易となる。
 第2の実施の形態の撮像制御装置22において、選択部22bは、紹介対象(商品70)と対象紹介者60の位置関係に基づいて、紹介対象(商品70)と対象紹介者60の一方を対象被写体として選択する。即ち、撮像制御装置22は、商品70と対象紹介者60の位置関係に基づいて、シーン判定処理を行う(図14のステップS102,図17参照)。
 商品70と対象紹介者60の位置関係は、撮像装置1からの商品70、対象紹介者60のそれぞれの距離に基づいて判定できる。
 このように、 商品70と対象紹介者60の位置関係により対象被写体を選択することで、撮像中に対象紹介者60が撮像装置1を操作することなく、対象紹介者60の意図を反映させた撮像制御がなされた動画を撮像することができる。
 また紹介対象(商品70)と対象紹介者60の位置関係に基づいてシーン判定、及び対象被写体の選択を行うことは、対象紹介者60の前後の動きにも左右されにくく、シーン判定、ひいては対象被写体選択の正確性を維持できることにもなる。
 特に第2の実施の形態では、選択部22bは、紹介対象(商品70)と撮像装置1の位置関係により生ずる、紹介対象(商品70)に対する対象紹介者60からの距離Lhoに基づいて、紹介対象(商品70)と対象紹介者60の一方を対象被写体として選択する。
 これにより対象紹介者60と商品70の位置関係を容易に把握してシーン判定ができ、シーンに適した対象被写体を設定して制御を行うことができる。
 第3の実施の形態の撮像制御装置22において、選択部22bは、対象紹介者60の身体の一部の状態に基づいて、紹介対象(商品70)と対象紹介者60の一方を対象被写体として選択し、当該選択した対象被写体に適したフォーカス制御等の撮像制御を行う(図19参照)。特には、対象紹介者60の手61の状態による紹介対象(商品70)と対象紹介者60の位置関係に基づいて、紹介対象と対象紹介者の一方を対象被写体として選択する。
 例えば、選択部22bは、対象紹介者60の手61が紹介対象(商品70)に触れている状態に基づいて、紹介対象(商品70)と対象紹介者60の一方を対象被写体として選択し、当該選択した対象被写体の領域に適したフォーカス制御等の撮像制御を行う。
 対象紹介者60の手61が商品70に触れていない状態は、対象紹介者60が始まりのあいさつ等のパフォーマンスを行っているパフォーマンスシーンであると考えられる。この場合は、対象紹介者60を対象被写体として顔62にフォーカス制御を行う。これにより、パフォーマンスシーンにおいては、パフォーマンスを行っている対象紹介者60を目立たせることができる。
 また一方で、対象紹介者60の手61が商品70を持つ等の商品70に触れている状態は、撮像中のシーンは商品70を紹介する商品紹介シーンである考えられる。そのため、紹介対象の商品70を対象としてフォーカス制御を行い、紹介する商品70を目立たせることができる。
 このように、対象紹介者60の手61の状態に基づいて、商品70と対象紹介者60の一方を対象被写体と判定することで、各シーンに応じて各被写体に適した撮像制御を実行することができる。従って、より対象紹介者60の意図を反映させた動画の撮像が可能となる。
 また第3の実施の形態において選択部22bは、対象紹介者60の手61が紹介対象(商品70)を指し示している状態に基づいて、紹介対象(商品70)と対象紹介者60の一方を対象被写体として選択し、当該選択した対象被写体にフォーカス制御等の撮像制御を行う(図20参照)。
 例えば、対象紹介者60の手61が指をさす等のジェスチャをしていない状態は、対象紹介者60がパフォーマンスを行っているパフォーマンスシーンであると考えられる。この場合は、対象紹介者60を対象被写体として顔62にフォーカス制御を行う。これにより、パフォーマンスを行っている対象紹介者60を目立たせることができる。
 また一方で、対象紹介者60の手61が商品70を指さす等のジェスチャをしている状態は、対象紹介者60が商品70を紹介する商品紹介シーンである考えられる。そのため、紹介対象の商品70を対象としてフォーカス制御を行うことで、紹介する商品70を目立たせることができる。
 このように、対象紹介者60の手61が指をさす等のジェスチャの状態によってもシーン判定を行うことが可能であり、各シーンに応じて各被写体に適した撮像制御を実行することができる。従って、より対象紹介者60の意図を反映させた動画の撮像が可能となる。
 第4の実施の形態の撮像制御装置22において、選択部22bは、位置関係である、紹介対象(商品70)の領域が撮像画像のフレーム全体に対して占める比率と対象紹介者60の領域が撮像画像のフレーム全体に対して占める比率の一方又は両方に基づいて、紹介対象(商品70)と対象紹介者60の一方を対象被写体として選択する(図21参照)。
 例えば商品レビュー動画において、対象紹介者60は、紹介する商品70を視聴者に注目させるために、商品70を撮像装置1の撮像レンズに近づけることがある。このとき、被写***置関係が変化することで、紹介対象の商品70が撮像画像上で占める比率は大きくなる。
 そこで、例えば紹介対象の商品70が撮像画像上で占める比率が所定の値よりも大きくなったことをもって現在のシーンを商品紹介シーンと判定し、商品紹介シーンにおいて対象被写体として選択される商品70に対してフォーカス制御等の撮像制御を実行することができる。
 第1,第2の実施の形態においては、対象紹介者60、紹介対象(商品70)、撮像装置1の間の位置関係は距離関係としてとらえる例を述べた。距離関係を判定することで、距離同士の比較や距離と所定値(閾値)の比較などにより比較的容易にシーン判定及び対象被写体の選択が可能となる。
 また、距離関係としては、対象紹介者60と紹介対象(商品70)と撮像装置1の間の距離であることもある。即ち対象紹介者60と紹介対象の距離Lho、紹介対象と撮像装置1の距離Loc、撮像装置1と対象紹介者60の距離Lhcのうちの2つ、又は全てに基づいてシーン判定及び対象被写体の選択を行うことも考えられる。
 この3者間のそれぞれの距離に基づくシーン判定の例としては、商品70と撮像装置1の距離Locが所定値Lth1以下であっても、対象紹介者60と商品70の距離Lhcが離れすぎていたら紹介シーンではない(別の商品を取りに行っている等)と判断することが考えられる。
 或いはさらにパフォーマンスシーンについて、対象紹介者60と撮像装置1の距離Lhcがある範囲内であることを条件とすることも考えられる。
 各実施の形態の撮像制御装置22において、特定部22aは、撮像画像データに基づいて紹介対象(商品70)を特定する(図14のS101参照)。即ち、特定部22aは、例えば撮像部13から取得した撮像画像データの画像解析処理等を行うことで、画像データ内に映っている被写体から紹介対象となる商品70を特定する。これにより撮像されている被写体に応じた商品70に特定が行われる。
 各実施の形態では、撮像制御装置22は、撮像画像データに基づいて対象紹介者60の手61を検出し、当該検出した手61の位置に基づいて紹介対象(商品70)を特定する場合もある。これにより、画像データに基づいて商品70が検出できない場合であっても、手61の位置から商品70の位置を推定することで、紹介対象となる商品70を特定することができる。
 各実施の形態の撮像制御装置22においては、特定部22aが、対象紹介者60の身体の一部(手61)の状態に基づいて紹介対象(商品70)を特定する例を述べた(図14のS101参照)。
 これにより、例えば対象紹介者60の身体の一部である手61の、商品70を持つ、掴む、つまむ、指さす等の状態から紹介対象である商品70を特定することができる。従って、撮像画像データ内に複数の商品70が映り込んでいた場合であっても、手61の状態に基づいて紹介対象となる商品70を特定することができる。
 また各実施の形態の撮像制御装置22においては、特定部22aが、手61を本来の紹介対象の代替として、仮想的に紹介対象として特定する場合もある。紹介対象とする商品70を特定するときに、手を代替的に紹介対象として特定することで、特定処理を容易化する。
 撮像においては、撮像画面に様々な被写体が映り込むため、例えば商品レビュー動画において、どの商品70が紹介対象であるかを判定することは難しい。そこで、画像解析処理等により検出が容易な対象紹介者60の手61の状態から紹介対象である商品70を特定することで、撮像画像に映り込んだ商品70の中から紹介対象を容易に特定することができる。
 各実施の形態の撮像制御装置22において、撮像制御とは、撮像動作制御、即ち被写体光を撮像部13のイメージセンサ14に集光させるための光学系及び撮像部13による撮像動作の制御である例を述べた(図14のステップS105,S109参照)。
 例えば対象被写体に対応したオートフォーカス制御、AE制御(絞り制御、SS制御、ゲイン制御)などが行われる。よって、動画の撮像中に撮像装置1を直接操作しなくても対象紹介者60の意図を反映させた撮像動作を実現できる。
 例えば現在のシーンに応じた対象被写体にオートフォーカス制御を行うことで、商品レビュー動画において、商品紹介シーンでは商品70に、パフォーマンスシーンでは対象紹介者60にフォーカスを合わせた撮像をすることができる。
 実施の形態の撮像制御装置22において、撮像制御とは、撮像画像処理制御、即ち撮像画像データに対する画像処理の制御である例を述べた(図12のS105,S109参照)。例えば撮像画像データに対して、対象被写体の領域に適合するホワイトバランス処理制御、コントラスト調整処理制御、画像エフェクト処理制御などが行われる。
 従って、現在のシーンに応じて適した画像信号処理が実行されるようになり、動画の撮像中に撮像装置1を直接操作しなくても対象紹介者60の意図を反映させた信号処理が実現される。
 各実施の形態の撮像制御装置22は、選択部22bの選択結果に関連するメタデータを撮像画像データに関連づけるようにしている(図14参照)。
 これにより、動画としての撮像画像データについて、再生や編集の際に、パフォーマンスシーンを抽出したり、商品紹介シーンを抽出したりすることが容易となる。
 またメタデータとして撮像画像データに関連づける情報としては、選択部22bが判定不能状態であることを示すエラーフラグの情報も含まれる。従って、例えば録画後においてはエラーフラグが付されたフレームを削除するなどにより、適切な動画撮像ができなかった区間を効率的に削除することができる。
 つまり選択部22bの選択結果に関連するメタデータにより、動画としての撮像画像データの編集効率を向上させたり、確認のための再生作業が容易になったりする。
 また実施の形態の撮像装置1は、以上の撮像制御装置22を備えることで、上記の効果を奏する撮像装置として実現される。
 その撮像装置1は、提示部18を有し、提示部18は、選択部22bが判定不能状態であることを提示する(図14のステップS106、図17のステップS202,S203,S204等参照)。
 これにより、提示部18の表示部に判定不能状態であることが表示される。また、提示部18の音声出力から判定不能状態であることを通知する音が発せられる場合もある。
 従って、撮像装置1が判定不能状態であることを対象紹介者60が知ることができる。例えば、撮像中に撮像装置1が判定不能状態になっていたことを対象紹介者60が気づかなかった場合、撮像した動画が対象紹介者60の意図が反映された撮像制御になっていないことがある。この場合、対象紹介者60はまた一から動画を撮像する必要があり、余計な労力や時間を消費することになってしまう。そのため、対象紹介者60が途中で気がつくように判定不能状態であることを通知することで、対象紹介者60の利便性の向上を図ることができる。
 なお、提示部18のスピーカーからの音により判定不能状態であることを通知することで、撮像装置1の表示部が対象紹介者60側を向いていないときであっても対象紹介者60にエラーであることを気付かせることができる。
 より具体的には、提示部18では、撮像装置1からの紹介対象(商品70)までの距離Locが最短撮像処理未満のときに制御不能状態であることを提示する。
 例えば、紹介対象の商品70が最短撮像距離より近い距離にある場合、商品70にフォーカスを合わせるようにフォーカスレンズを動かすことができず、商品70にぼけが生じてしまう。そこで対象紹介者60が途中で気がつくように判定不能状態であることを通知することで、対象紹介者60の利便性の向上を図る。
 特に制御不能状態であることを対象紹介者60に対して表示することで(図14のステップS106等参照)、対象紹介者60が視認して判定不能状態であることを知ることができる。また、音による通知ではなく撮像装置1の表示部での表示により通知することで、撮像中に余計な音が録音されることを防止することができる。
 実施の形態のプログラムは、図14、図17から図21の処理を、例えばCPU、DSP等、或いはこれらを含むデバイスに実行させるプログラムである。
 即ち実施の形態のプログラムは、撮像装置1の撮像部13により得られる撮像画像データに基づいて、紹介対象(例えば商品70)及び紹介対象を紹介する対象紹介者60をそれぞれ被写体として特定する特定処理と、紹介対象(商品70)と対象紹介者60と撮像装置1のうちの少なくともいずれか2つの位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を対象被写体として選択する選択処理と、選択処理で対象被写体として選択された被写体に対応した撮像制御を行う撮像制御処理と、を撮像制御装置に実行させるプログラムである。
 このようなプログラムにより、上述した撮像制御装置22を、例えばデジタルビデオカメラ1Aや動画の撮像機能を有するデジタルスチルカメラ1B、スマートフォン等の携帯端末1Cなどの撮像装置1において実現できる。
 このようなプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのHDDや、CPUを有するマイクロコンピュータ内のROM等に予め記録しておくことができる。
 あるいはまた、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)、MO(Magnet optical)ディスク、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc(登録商標))、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。
 またこのようなプログラムによれば、実施の形態の撮像制御装置の広範な提供に適している。例えばパーソナルコンピュータ、携帯型情報処理装置、携帯電話機、ゲーム機器、ビデオ機器、PDA(Personal Digital Assistant)等にプログラムをダウンロードすることで、当該パーソナルコンピュータ等を、本開示の撮像制御装置として機能させることができる。
 なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
 また、本明細書に記載された実施の形態の説明はあくまでも一例であり、本技術が上述の実施の形態に限定されることはない。従って、上述した実施の形態以外であっても、本技術の技術的思想を逸脱しない範囲であれば、設計などに応じて種々の変更が可能なことはもちろんである。
 本技術は以下のような構成も採ることができる。
 (1)
 撮像装置の撮像部により得られる撮像画像データに基づいて、紹介対象及び前記紹介対象を紹介する対象紹介者をそれぞれ被写体として特定する特定部と、
 前記紹介対象と、前記対象紹介者と、前記撮像装置のうちの少なくともいずれか2つの位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を対象被写体として選択する選択部と、
 前記選択部で前記対象被写体として選択された被写体に対応した撮像制御を行う撮像制御部と、を備えた
 撮像制御装置。
 (2)
 前記選択部は、前記紹介対象と前記対象紹介者の位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を前記対象被写体として選択する
 上記(1)に記載の撮像制御装置。
 (3)
 前記選択部は、前記紹介対象と前記撮像装置の位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を前記対象被写体として選択する
 上記(1)に記載の撮像制御装置。
 (4)
 前記特定部は、前記撮像画像データに基づいて前記紹介対象を認識することで前記紹介対象を特定する
 上記(1)から(3)の何れかに記載の撮像制御装置。
 (5)
 前記特定部は、前記撮像画像データに基づいて前記対象紹介者の手を認識し、前記手の認識結果に基づいて、前記紹介対象を特定する
 上記(1)から(4)の何れかに記載の撮像制御装置。
 (6)
 前記特定部は、前記手を本来の紹介対象の代替として仮想的に前記紹介対象として特定する
 上記(5)に記載の撮像制御装置。
 (7)
 前記特定部は、前記手の状態に基づいて前記紹介対象を特定する
 上記(5)又は(6)に記載の撮像制御装置。
 (8)
 前記選択部は、前記紹介対象と、前記対象紹介者の手の状態による前記紹介対象と前記対象紹介者の位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を前記対象被写体として選択する
 上記(5)から(7)のいずれかに記載の撮像制御装置。
 (9)
 前記手の状態とは、前記対象紹介者の手が紹介対象に触れている状態である
 上記(7)又は(8)に記載の撮像制御装置。
 (10)
 前記手の状態とは、前記対象紹介者の手が紹介対象を指し示している状態である
 上記(7)又は(8)に記載の撮像制御装置。
 (11)
 前記選択部は、前記位置関係である、前記紹介対象、前記対象紹介者及び前記撮像装置のうちの少なくともいずれか2つの間の距離関係に基づいて、前記紹介対象と前記対象紹介者の一方を対象被写体として選択する
 上記(1)に記載の撮像制御装置。
 (12)
 前記距離関係は、前記紹介対象と前記撮像装置の間の距離である
 上記(11)に記載の撮像制御装置。
 (13)
 前記距離関係は、前記対象紹介者と前記紹介対象との間の距離である
 上記(11)に記載の撮像制御装置。
 (14)
 前記距離関係は、前記対象紹介者と前記紹介対象と前記撮像装置の間の距離である
 上記(11)に記載の撮像制御装置。
 (15)
 前記選択部は、前記紹介対象又は前記対象紹介者の少なくとも一方の領域が前記撮像画像データのフレーム全体に対して占める比率に基づいて前記距離関係を検出する
 上記(11)に記載の撮像制御装置。
 (16)
 前記撮像装置と前記紹介対象との距離が所定の値より短い場合に、前記撮像制御が困難である制御困難状態であることを前記対象紹介者へ提示する提示制御を行う提示制御部をさらに備える
 上記(1)から(15)の何れかに記載の撮像制御装置。
 (17)
 前記選択部による選択結果に関連するメタデータを前記撮像画像データに関連付ける関連付け制御を行う関連付け制御部をさらに有する
 上記(1)から(16)の何れかに記載の撮像制御装置。
 (18)
 撮像部と、
 前記撮像部により得られる撮像画像データに基づいて、紹介対象及び前記紹介対象を紹介する対象紹介者を特定する特定部と、
 前記紹介対象と、前記対象紹介者と、撮像装置のうちの少なくともいずれか2つの位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を対象被写体として選択する選択部と、
 前記選択部で前記対象被写体として選択された被写体に対して撮像制御を行う撮像制御部と、を備えた
 撮像装置。
 (19)
 撮像装置の撮像部により得られる撮像画像データに基づいて、紹介対象及び前記紹介対象を紹介する対象紹介者をそれぞれ被写体として特定する特定処理と、
 前記紹介対象と、前記対象紹介者と、前記撮像装置のうちの少なくともいずれか2つの位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を対象被写体として選択する選択処理と、
 前記選択部で前記対象被写体として選択された被写体に対応した撮像制御を行う撮像制御処理とを含む
 撮像制御方法。
 (20)
 撮像装置の撮像部により得られる撮像画像データに基づいて、紹介対象及び前記紹介対象を紹介する対象紹介者をそれぞれ被写体として特定する特定処理と、
 前記紹介対象と、前記対象紹介者と、前記撮像装置のうちの少なくともいずれか2つの位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を対象被写体として選択する選択処理と、
 前記選択部で前記対象被写体として選択された被写体に対応した撮像制御を行う撮像制御処理と、
 を撮像制御装置に実行させるプログラム。
 1 撮像装置、11 光学系、13 撮像部、14 イメージセンサ、18 提示部、22 撮像制御装置、22a 特定部、22b 選択部、22c 撮像制御部、22d 提示制御部、22e 関連付け制御部、61 手、62 顔、70 商品

Claims (20)

  1.  撮像装置の撮像部により得られる撮像画像データに基づいて、紹介対象及び前記紹介対象を紹介する対象紹介者をそれぞれ被写体として特定する特定部と、
     前記紹介対象と、前記対象紹介者と、前記撮像装置のうちの少なくともいずれか2つの位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を対象被写体として選択する選択部と、
     前記選択部で前記対象被写体として選択された被写体に対応した撮像制御を行う撮像制御部と、を備えた
     撮像制御装置。
  2.  前記選択部は、前記紹介対象と前記対象紹介者の位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を前記対象被写体として選択する
     請求項1に記載の撮像制御装置。
  3.  前記選択部は、前記紹介対象と前記撮像装置の位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を前記対象被写体として選択する
     請求項1に記載の撮像制御装置。
  4.  前記特定部は、前記撮像画像データに基づいて前記紹介対象を認識することで前記紹介対象を特定する
     請求項1に記載の撮像制御装置。
  5.  前記特定部は、前記撮像画像データに基づいて前記対象紹介者の手を認識し、前記手の認識結果に基づいて、前記紹介対象を特定する
     請求項1に記載の撮像制御装置。
  6.  前記特定部は、前記手を本来の紹介対象の代替として仮想的に前記紹介対象として特定する
     請求項5に記載の撮像制御装置。
  7.  前記特定部は、前記手の状態に基づいて前記紹介対象を特定する
     請求項5に記載の撮像制御装置。
  8.  前記選択部は、前記紹介対象と、前記対象紹介者の手の状態による前記紹介対象と前記対象紹介者の位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を前記対象被写体として選択する
     請求項5に記載の撮像制御装置。
  9.  前記手の状態とは、前記対象紹介者の手が紹介対象に触れている状態である
     請求項7に記載の撮像制御装置。
  10.  前記手の状態とは、前記対象紹介者の手が紹介対象を指し示している状態である
     請求項7に記載の撮像制御装置。
  11.  前記選択部は、前記位置関係である、前記紹介対象、前記対象紹介者及び前記撮像装置のうちの少なくともいずれか2つの間の距離関係に基づいて、前記紹介対象と前記対象紹介者の一方を対象被写体として選択する
     請求項1に記載の撮像制御装置。
  12.  前記距離関係は、前記紹介対象と前記撮像装置の間の距離である
     請求項11に記載の撮像制御装置。
  13.  前記距離関係は、前記対象紹介者と前記紹介対象との間の距離である
     請求項11に記載の撮像制御装置。
  14.  前記距離関係は、前記対象紹介者と前記紹介対象と前記撮像装置の間の距離である
     請求項11に記載の撮像制御装置。
  15.  前記選択部は、前記紹介対象又は前記対象紹介者の少なくとも一方の領域が前記撮像画像データのフレーム全体に対して占める比率に基づいて前記距離関係を検出する
     請求項11に記載の撮像制御装置。
  16.  前記撮像装置と前記紹介対象との距離が所定の値より短い場合に、前記撮像制御が困難である制御困難状態であることを前記対象紹介者へ提示する提示制御を行う提示制御部をさらに備える
     請求項1に記載の撮像制御装置。
  17.  前記選択部による選択結果に関連するメタデータを前記撮像画像データに関連付ける関連付け制御を行う関連付け制御部をさらに有する
     請求項1に記載の撮像制御装置。
  18.  撮像部と、
     前記撮像部により得られる撮像画像データに基づいて、紹介対象及び前記紹介対象を紹介する対象紹介者を特定する特定部と、
     前記紹介対象と、前記対象紹介者と、撮像装置のうちの少なくともいずれか2つの位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を対象被写体として選択する選択部と、
     前記選択部で前記対象被写体として選択された被写体に対して撮像制御を行う撮像制御部と、を備えた
     撮像装置。
  19.  撮像装置の撮像部により得られる撮像画像データに基づいて、紹介対象及び前記紹介対象を紹介する対象紹介者をそれぞれ被写体として特定する特定処理と、
     前記紹介対象と、前記対象紹介者と、前記撮像装置のうちの少なくともいずれか2つの位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を対象被写体として選択する選択処理と、
     前記選択処理で前記対象被写体として選択された被写体に対応した撮像制御を行う撮像制御処理とを含む
     撮像制御方法。
  20.  撮像装置の撮像部により得られる撮像画像データに基づいて、紹介対象及び前記紹介対象を紹介する対象紹介者をそれぞれ被写体として特定する特定処理と、
     前記紹介対象と、前記対象紹介者と、前記撮像装置のうちの少なくともいずれか2つの位置関係に基づいて、前記紹介対象と前記対象紹介者の一方を対象被写体として選択する選択処理と、
     前記選択処理で前記対象被写体として選択された被写体に対応した撮像制御を行う撮像制御処理と、
     を撮像制御装置に実行させるプログラム。
PCT/JP2020/023241 2019-09-03 2020-06-12 撮像制御装置、撮像制御方法、プログラム、撮像装置 WO2021044692A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2021543957A JPWO2021044692A1 (ja) 2019-09-03 2020-06-12
CN202080060004.2A CN114342350A (zh) 2019-09-03 2020-06-12 成像控制装置、成像控制方法、程序以及成像设备
US17/635,936 US12041337B2 (en) 2019-09-03 2020-06-12 Imaging control apparatus, imaging control method, program, and imaging device
EP20861559.1A EP4016988A4 (en) 2019-09-03 2020-06-12 IMAGING CONTROL DEVICE, IMAGING CONTROL METHOD, PROGRAM, AND IMAGING DEVICE

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019160511 2019-09-03
JP2019-160511 2019-09-03

Publications (1)

Publication Number Publication Date
WO2021044692A1 true WO2021044692A1 (ja) 2021-03-11

Family

ID=74853134

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/023241 WO2021044692A1 (ja) 2019-09-03 2020-06-12 撮像制御装置、撮像制御方法、プログラム、撮像装置

Country Status (5)

Country Link
US (1) US12041337B2 (ja)
EP (1) EP4016988A4 (ja)
JP (1) JPWO2021044692A1 (ja)
CN (1) CN114342350A (ja)
WO (1) WO2021044692A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003168021A (ja) * 2001-11-29 2003-06-13 Canon Inc 画像伝送システム、通信制御装置及び通信制御方法
JP2011087183A (ja) * 2009-10-16 2011-04-28 Olympus Imaging Corp 撮影装置、画像処理装置、およびプログラム
JP2018033013A (ja) 2016-08-25 2018-03-01 キヤノン株式会社 制御装置、撮像装置、制御方法、プログラム、および、記憶媒体

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377296B1 (en) 1999-01-28 2002-04-23 International Business Machines Corporation Virtual map system and method for tracking objects
US7028269B1 (en) 2000-01-20 2006-04-11 Koninklijke Philips Electronics N.V. Multi-modal video target acquisition and re-direction system and method
US20030011791A1 (en) * 2001-04-05 2003-01-16 Nikon Corporation Method for image data print control, electronic camera and camera system
JP4078047B2 (ja) * 2001-07-17 2008-04-23 フジノン株式会社 プレゼンテーションシステム
JP2004112511A (ja) * 2002-09-19 2004-04-08 Fuji Xerox Co Ltd 表示制御装置および方法
JP2004298988A (ja) * 2003-03-31 2004-10-28 Honda Motor Co Ltd 移動ロボットの画像送信装置
JP2005351925A (ja) 2004-06-08 2005-12-22 Fuji Photo Film Co Ltd 撮像装置及び合焦制御方法
JP4338047B2 (ja) * 2006-07-25 2009-09-30 富士フイルム株式会社 撮像装置
JP4264663B2 (ja) * 2006-11-21 2009-05-20 ソニー株式会社 撮影装置、画像処理装置、および、これらにおける画像処理方法ならびに当該方法をコンピュータに実行させるプログラム
JP5043736B2 (ja) 2008-03-28 2012-10-10 キヤノン株式会社 撮像装置及びその制御方法
US8300081B1 (en) * 2008-12-11 2012-10-30 Adobe Systems Incorporated Blending video feeds for visual collaboration
JP5235798B2 (ja) * 2009-06-22 2013-07-10 富士フイルム株式会社 撮影装置及びその制御方法
JP5609270B2 (ja) * 2010-05-28 2014-10-22 ソニー株式会社 撮像装置、撮像システム、撮像装置の制御方法およびプログラム
JP5539514B2 (ja) 2010-06-30 2014-07-02 富士フイルム株式会社 撮影装置、プログラム、及び撮影方法
WO2014024475A1 (ja) * 2012-08-10 2014-02-13 パナソニック株式会社 映像提供方法、送信装置および受信装置
JP2014206711A (ja) * 2013-04-16 2014-10-30 キヤノン株式会社 撮像装置およびその制御方法
JP6231869B2 (ja) * 2013-12-12 2017-11-15 キヤノン株式会社 撮像装置、通信機器およびそれらの制御方法、プログラム
JP6504896B2 (ja) * 2015-04-15 2019-04-24 キヤノン株式会社 情報処理装置、情報処理方法及び画像転送システム
US20170330045A1 (en) * 2015-10-28 2017-11-16 Dario B. Crosetto Method and apparatus to build new electronic instruments and devices: the 3d-flow opra to solve applications of fast, real-time, multi-dimension object pattern recognition algorithms (opra) and the 3d-cbs (3-d complete body screening) to accurately measure minimum abnormal biological processes of diseases at an early curable stage such as cancer improving diagnosis and prognoses for maximizing reduction of premature deaths and minimize the cost per each life saved
WO2019056312A1 (zh) 2017-09-22 2019-03-28 深圳市大疆创新科技有限公司 用于跟踪拍摄的方法和设备
CN108093181B (zh) 2018-01-16 2021-03-30 奇酷互联网络科技(深圳)有限公司 图片拍摄方法、装置、可读存储介质及移动终端
WO2021035223A1 (en) * 2019-08-22 2021-02-25 Educational Vision Technologies, Inc. Automatic data extraction and conversion of video/images/sound information from a board-presented lecture into an editable notetaking resource

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003168021A (ja) * 2001-11-29 2003-06-13 Canon Inc 画像伝送システム、通信制御装置及び通信制御方法
JP2011087183A (ja) * 2009-10-16 2011-04-28 Olympus Imaging Corp 撮影装置、画像処理装置、およびプログラム
JP2018033013A (ja) 2016-08-25 2018-03-01 キヤノン株式会社 制御装置、撮像装置、制御方法、プログラム、および、記憶媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4016988A4

Also Published As

Publication number Publication date
US12041337B2 (en) 2024-07-16
US20220337743A1 (en) 2022-10-20
EP4016988A4 (en) 2022-11-02
CN114342350A (zh) 2022-04-12
EP4016988A1 (en) 2022-06-22
JPWO2021044692A1 (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
US20200236281A1 (en) Imaging apparatus, imaging method, and program
US10116864B2 (en) Imaging apparatus, imaging display control method, and program
EP2962455B1 (en) Image processing apparatus, image processing method, and program
KR101772177B1 (ko) 사진을 획득하기 위한 방법 및 장치
JP5056061B2 (ja) 撮像装置
EP3170123B1 (en) System and method for setting focus of digital image based on social relationship
JP6382961B2 (ja) ビデオコンテンツを取得する方法及び機器
US20120044400A1 (en) Image pickup apparatus
US20170054906A1 (en) Method and device for generating a panorama
US20140210941A1 (en) Image capture apparatus, image capture method, and image capture program
US11270407B2 (en) Electronic device, control method, and non-transitory computer readable medium
WO2020195073A1 (ja) 画像処理装置、画像処理方法、プログラム、撮像装置
US8941770B2 (en) Method and apparatus for displaying successively captured images
US20130235233A1 (en) Methods and devices for capturing images
WO2021044692A1 (ja) 撮像制御装置、撮像制御方法、プログラム、撮像装置
WO2020195198A1 (ja) 画像処理装置、画像処理方法、プログラム、撮像装置
CN108933881B (zh) 一种视频处理方法及装置
CN113315903A (zh) 图像获取方法和装置、电子设备、存储介质
JP6128929B2 (ja) 撮像装置及びその制御方法並びにプログラム
EP2637397A1 (en) Methods and devices for capturing images
JP2014153650A (ja) 撮像装置、制御方法、及び、プログラム
CN109862252B (zh) 图像拍摄方法及装置
JP6398239B2 (ja) 撮像装置、表示制御方法、及びプログラム
CN115706848A (zh) 对焦控制方法、装置、电子设备及存储介质
CN112184610A (zh) 图像处理方法及装置、存储介质和电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20861559

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021543957

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020861559

Country of ref document: EP

Effective date: 20220318