WO2023181862A1 - 情報処理装置、情報処理方法、記憶媒体 - Google Patents

情報処理装置、情報処理方法、記憶媒体 Download PDF

Info

Publication number
WO2023181862A1
WO2023181862A1 PCT/JP2023/008152 JP2023008152W WO2023181862A1 WO 2023181862 A1 WO2023181862 A1 WO 2023181862A1 JP 2023008152 W JP2023008152 W JP 2023008152W WO 2023181862 A1 WO2023181862 A1 WO 2023181862A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information
eye
processing
registered
Prior art date
Application number
PCT/JP2023/008152
Other languages
English (en)
French (fr)
Inventor
恵一朗 谷口
紗也加 山崎
正幸 横山
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023181862A1 publication Critical patent/WO2023181862A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B15/00Special procedures for taking photographs; Apparatus therefor
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B17/00Details of cameras or camera bodies; Accessories therefor
    • G03B17/02Bodies
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B7/00Control of exposure by setting shutters, diaphragms or filters, separately or conjointly
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming

Definitions

  • the present technology relates to an information processing device, an information processing method, and a storage medium, and particularly relates to the technical field of user interfaces.
  • Patent Document 1 listed below discloses an information processing device that allows a user to perform input operations without using his or her hands.
  • the present technology proposes a technology that makes it possible to execute a variety of processes by selecting a process based on the shape of the user's eyes and the area around the eyes obtained as an image.
  • the information processing device includes a registered information acquisition unit that acquires registered information in which a process is associated with a motion determined from the shape of the eye and the area around the eye, and an image of the eye and the area around the eye.
  • an image acquisition unit that selects a process included in the registered information based on the registered information and the image, and a control unit that controls so that the process selected by the process selector is performed.
  • Images of the eye and the area around the eye are acquired to determine motion expressed by the eye and the area around the eye. This movement includes not only the movement of the eyes themselves, but also movements around the eyes (for example, eyebrows and wrinkles), and changes in the position of the eyes due to neck movements.
  • a process is selected from the registered information that associates the operation with the process, and the process is controlled to be executed.
  • FIG. 2 is an explanatory diagram of an example of an application device of the information processing device according to the embodiment of the present technology.
  • FIG. 1 is a perspective view of an imaging device according to an embodiment.
  • FIG. 1 is a block diagram of an imaging device according to an embodiment.
  • FIG. 1 is a block diagram of an information processing device according to an embodiment.
  • FIG. 2 is a block diagram of a functional configuration of a calculation unit according to an embodiment. It is an explanatory diagram of registration information of an embodiment. It is an explanatory diagram of registration information of an embodiment.
  • 3 is a flowchart of a processing example according to the first embodiment.
  • FIG. 3 is an explanatory diagram of eye movements recognized in the embodiment.
  • FIG. 1 is a perspective view of an imaging device according to an embodiment.
  • FIG. 1 is a block diagram of an imaging device according to an embodiment.
  • FIG. 1 is a block diagram of an information processing device according to an embodiment.
  • FIG. 2 is a block diagram of a functional configuration of
  • FIG. 6 is an explanatory diagram of an example of determination based on the degree of matching of motions according to the embodiment.
  • FIG. 6 is an explanatory diagram of an example of determination based on the degree of matching of motions according to the embodiment.
  • FIG. 6 is an explanatory diagram of an example of determination based on the degree of matching of motions according to the embodiment.
  • 12 is a flowchart of a processing example according to the second embodiment.
  • 12 is a flowchart of a processing example according to a third embodiment.
  • 12 is a flowchart of a processing example according to the fourth embodiment.
  • 13 is a flowchart of a processing example according to the fifth embodiment.
  • It is an explanatory diagram of an example of operation in an embodiment.
  • FIG. 3 is an explanatory diagram of an example of notification in the embodiment.
  • image refers to both moving images and still images. When specifically distinguishing between them, they are written as “still images” and “videos.” Furthermore, an “image” refers to an image that is actually displayed on a screen, but an “image” refers to image data in the signal processing process and transmission path until it is displayed on a screen.
  • the information processing device of the present disclosure is a device that can perform information processing, and specifically includes a microprocessor, etc., and executes processing to be performed based on an image taken of the user's eyes and the vicinity of the eyes. It is a device that can select and execute the selected process.
  • an image captured of the user's eyes and the area around the eyes will also be referred to as an “eye area image”.
  • the "eye area image” refers to an image that includes the eyes, wrinkles around the eyes, eyebrows, and the like.
  • the "motion" of the eye and the area around the eye is determined based on the image. It is conceivable that the "process" associated with the determined “action” is selected as the process to be executed.
  • a processor itself such as a CPU or DSP that performs such processing, or a device equipped with such a processor serves as an information processing device in the present disclosure.
  • FIG. 1 shows imaging devices 1 and 1A, and a terminal device 100 as specific examples of devices that correspond to information processing devices.
  • the imaging device 1 is a camera equipped with a viewfinder such as an EVF (Electric Viewfinder) 5, and the imaging device 1A is a so-called compact camera without a viewfinder.
  • Examples of the terminal device 100 include a smartphone and a PC (personal computer).
  • Other examples of the terminal device 100 include a tablet device and the like.
  • an imaging device called an "eye sensor camera 42" at a predetermined position for the sake of explanation, so that they can image the area around the user's eyes and obtain an image around the eyes.
  • the imaging device 1 a configuration is assumed in which the eye sensor camera 42 is provided near the EVF 5 and images the eyes of the user looking into the EVF 5 and the surroundings of the eyes.
  • an eye sensor camera 42 is provided at a position around the rear monitor 4, for example, to image the eyes of the user looking at the rear monitor 4 and the periphery of the eyes.
  • an eye sensor camera 42 is provided at a peripheral position of the screen to capture an image of the user's eyes and the area around the eyes while viewing the screen.
  • the internal processor device acquires an image captured by the eye sensor camera 42, that is, an image around the eye, uses the image around the eye and registered information to select a process included in the registered information, and selects the process included in the registered information. Execute.
  • the equipment listed in Figure 1 is only an example.
  • the technology of the present disclosure can be applied to a device that captures an image around the eye and performs processing based on the image.
  • devices that correspond to the information processing device of the present disclosure, such as television receivers, game devices, personal computers, workstations, head-mounted display devices, robots, monitoring devices, and sensor devices.
  • FIG. 2 is a perspective view of the imaging device 1 viewed from the back side.
  • the subject side is the front (front side) and the imager side is the rear (back side).
  • the imaging device 1 includes a camera housing 2 and a lens barrel 3 that is removably attachable to the camera housing 2 and attached to the front portion 2a.
  • the lens barrel 3 may be detachably attached as a so-called interchangeable lens, but may be a lens barrel that cannot be removed from the camera housing 2.
  • a rear monitor 4 is arranged on the rear surface portion 2b of the camera housing 2.
  • the rear monitor 4 displays live view images, reproduced images of recorded images, and the like.
  • the rear monitor 4 is configured by a display device such as a liquid crystal display (LCD) or an organic EL (electro-luminescence) display, for example.
  • LCD liquid crystal display
  • organic EL electro-luminescence
  • the EVF 5 is arranged on the upper surface portion 2c of the camera housing 2.
  • the EVF 5 includes an EVF monitor 5a and a frame-shaped enclosure 5b that protrudes rearward so as to surround the upper and left and right sides of the EVF monitor 5a.
  • the EVF monitor 5a is formed using an LCD, an organic EL display, or the like.
  • an optical view finder ODF
  • the eye sensor camera 42 is placed near the EVF 5, for example inside the enclosure 5b, and captures an image around the eyes of the user looking into the EVF 5.
  • buttons include a shutter button, a playback menu activation button, a decision button, a cross key, a cancel button, a zoom key, a slide key, and the like.
  • operators 6 include various types of operators, such as buttons, dials, and complex operators that can be pressed and rotated.
  • the various types of operators 6 enable, for example, shutter operation, menu operation, playback operation, mode selection/switching operation, focus operation, zoom operation, and parameter selection/setting such as shutter speed and F value.
  • the internal configuration of the imaging device 1 is shown in FIG.
  • the imaging device 1 includes, for example, a lens system 11, an image sensor section 12, a camera signal processing section 13, a recording control section 14, a display section 15, a communication section 16, an operation section 17, a camera control section 18, a memory section 19, and a driver section 22. , a line of sight detection device section 41, an eye sensor camera 42, and a sensor section 43.
  • the lens system 11 includes lenses such as a zoom lens and a focus lens, an aperture mechanism, and the like. Light (incident light) from a subject is guided by this lens system 11 and focused on an image sensor section 12 .
  • the image sensor section 12 includes, for example, an image sensor 12a (image sensor) such as a CMOS (Complementary Metal Oxide Semiconductor) type or a CCD (Charge Coupled Device) type.
  • the image sensor unit 12 performs, for example, CDS (Correlated Double Sampling) processing, AGC (Automatic Gain Control) processing, etc. on the electrical signal obtained by photoelectrically converting the light received by the image sensor 12a, and further performs A/D (Analog/Digital) Perform conversion processing.
  • the imaging signal as digital data is then output to the camera signal processing section 13 and camera control section 18 at the subsequent stage.
  • the camera signal processing unit 13 is configured as an image processing processor using, for example, a DSP (Digital Signal Processor). This camera signal processing section 13 performs various signal processing on the digital signal (captured image signal) from the image sensor section 12. For example, as a camera process, the camera signal processing unit 13 performs preprocessing, synchronization processing, YC generation processing, resolution conversion processing, and the like.
  • DSP Digital Signal Processor
  • the camera signal processing unit 13 performs, for example, compression encoding, formatting, and generation and addition of metadata for recording and communication on the image data that has been subjected to the various processes described above.
  • File generation is performed.
  • an image file in a format such as JPEG (Joint Photographic Experts Group), TIFF (Tagged Image File Format), or GIF (Graphics Interchange Format) is generated as a still image file.
  • JPEG Joint Photographic Experts Group
  • TIFF Tagged Image File Format
  • GIF Graphics Interchange Format
  • the recording control unit 14 performs recording and reproduction on a recording medium such as a nonvolatile memory.
  • the recording control unit 14 performs a process of recording, for example, image files such as moving image data and still image data, and metadata including thumbnail images on a recording medium.
  • the actual form of the recording control section 14 can be considered in various ways.
  • the recording control unit 14 may be configured as a flash memory built into the imaging device 1 and its writing/reading circuit.
  • the recording control unit 14 may also be a card recording/reproducing unit that performs recording/reproducing access to a recording medium that can be attached to and detached from the imaging device 1, such as a memory card (portable flash memory, etc.).
  • the recording control unit 14 may be implemented as a built-in form of the imaging device 1, such as an HDD (Hard Disk Drive).
  • the display unit 15 is a display unit that displays various displays to the photographer, and includes, for example, a liquid crystal panel (LCD) or an organic EL (LCD) as a back monitor 4 or an EVF 5 disposed on the housing of the imaging device 1.
  • Display devices such as Electro-Luminescence (Electro-Luminescence) displays.
  • the display unit 15 executes various displays on the display screen based on instructions from the camera control unit 18. For example, the display unit 15 displays a reproduced image of the image data read from the recording medium by the recording control unit 14.
  • the display section 15 is supplied with image data of the captured image whose resolution has been converted for display by the camera signal processing section 13, and the display section 15 is supplied with the image data of the captured image based on the image data of the captured image in accordance with instructions from the camera control section 18. may be displayed.
  • a so-called through image live view image of the subject
  • the display unit 15 displays various operation menus, icons, messages, etc., ie, a GUI (Graphical User Interface) on the screen based on instructions from the camera control unit 18.
  • the communication unit 16 performs wired or wireless data communication and network communication with external devices. For example, captured image data (still image files and video files) and metadata are transmitted and output to external information processing devices, display devices, recording devices, playback devices, and the like. Furthermore, the communication unit 16 serves as a network communication unit, and is capable of communicating via various networks such as the Internet, a home network, and a LAN (Local Area Network), and transmitting and receiving various data with servers, terminals, etc. on the network. can. Furthermore, the imaging device 1 communicates with a PC, a smartphone, a tablet terminal, a headphone, an earphone, a headset, etc. using the communication unit 16, for example, via Bluetooth (registered trademark), Wi-Fi communication, NFC, etc. Mutual information communication may also be possible through distance wireless communication or infrared communication. Further, the imaging device 1 and other devices may be able to communicate with each other through wired connection communication.
  • the operation unit 17 collectively represents input devices through which the user performs various operation inputs. Specifically, the operation unit 17 indicates various operators (keys, dials, touch panels, touch pads, etc.) provided on the casing of the imaging device 1. For example, it is assumed that the touch panel is provided on the surface of the rear monitor 4. The operation unit 17 detects a user's operation, and a signal corresponding to the input operation is sent to the camera control unit 18.
  • the line of sight detection unit 41 is a device for detecting the user's line of sight, and includes, for example, an infrared LED that irradiates the user's eyes with infrared rays, an infrared camera that images the user's eyes, and the like.
  • a line-of-sight detection device section 41 is placed in the EVF 5 shown in FIG. 2, and by sending an image captured by an infrared camera to the camera control section 18, it is possible to detect the line-of-sight direction of the user looking into the EVF 5. can.
  • a line of sight detection device section 41 may be arranged near the rear monitor 4 so that it can perform imaging for detecting the line of sight direction of the user looking at the rear monitor 4. Note that as an embodiment, a configuration example that does not include the line of sight detection device section 41 is also envisioned.
  • the eye sensor camera 42 is provided within the EVF 5, for example, and images the user's eyes and the area around the eyes.
  • the eye sensor camera 42 includes, for example, a visible light image sensor and an imaging signal processing circuit, and obtains still image data or moving image data as, for example, a color image or a monochrome image. In other words, these still images and moving images are images around the eyes.
  • the eye surrounding image captured by the eye sensor camera 42 is sent to the camera control section 18.
  • the camera control section 18 is constituted by a microcomputer equipped with a CPU (Central Processing Unit).
  • the memory unit 19 stores information and the like used by the camera control unit 18 for processing.
  • the illustrated memory section 19 includes, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), a flash memory, and the like.
  • the memory section 19 may be a memory area built into a microcomputer chip as the camera control section 18, or may be constituted by a separate memory chip.
  • the camera control unit 18 controls the entire imaging device 1 by executing programs stored in the ROM, flash memory, etc. of the memory unit 19. For example, the camera control unit 18 controls the shutter speed of the image sensor unit 12, instructs various signal processing in the camera signal processing unit 13, performs imaging and recording operations in response to user operations, plays back recorded image files, and controls the lens It controls the operations of each necessary part regarding the operations of the lens system 11 such as zoom, focus, and aperture adjustment in the lens barrel, and the operations of the user interface.
  • the camera control section 18 can perform the user's line-of-sight direction detection processing based on the infrared captured image from the line-of-sight detection device section 41.
  • the camera control unit 18 can also perform various controls based on the detected direction of the user's line of sight. For example, it is possible to set a focus area so that the subject in the line-of-sight direction is in just focus according to the line-of-sight direction, or to perform aperture adjustment control depending on the brightness of the subject in the line-of-sight direction.
  • the camera control section 18 has a function as a calculation section 40 using an application program.
  • the calculation unit 40 performs a process of acquiring registered information in which a process is associated with an action determined from the shape of the eye and the area around the eye.
  • the calculation unit 40 also performs processing to obtain an image around the eye from the eye sensor camera 42.
  • the calculation unit 40 performs a process of selecting a process included in the registered information based on the registered information and the image around the eye.
  • the calculation unit 40 also controls the selected process to be executed. Details of the processing of these calculation units 40 will be described later.
  • the camera control unit 18 may perform so-called AI (artificial intelligence) processing for the processing of the calculation unit 40 and other processing.
  • AI artificial intelligence
  • the RAM in the memory unit 19 is used to temporarily store data, programs, etc. as a work area when the CPU of the camera control unit 18 processes various data.
  • the ROM and flash memory (non-volatile memory) in the memory unit 19 contain an OS (Operating System) for the CPU to control each part, content files such as image files, application programs for various operations, and firmware. , used to store various setting information, etc.
  • OS Operating System
  • Various types of setting information include communication setting information, exposure settings, shutter speed settings, mode settings as setting information related to imaging operations, white balance settings, color settings, settings related to image effects, etc. as setting information related to image processing. There is.
  • the memory unit 19 also stores programs for processing using images around the eyes and various calibration processing.
  • the memory unit 19 also stores data used for these processes.
  • the memory unit 19 can also function as a database for selecting a process using images around the eye and registered information. For example, registration information, which will be described later, is stored.
  • the driver section 22 is provided with, for example, a motor driver for a zoom lens drive motor, a motor driver for a focus lens drive motor, a motor driver for an aperture mechanism motor, and the like. These motor drivers apply drive current to the corresponding drivers in response to instructions from the camera control unit 18 to move the focus lens and zoom lens, open and close the aperture blades of the aperture mechanism, and so on.
  • the sensor unit 43 comprehensively shows various sensors installed in the imaging device 1.
  • an IMU intial measurement unit
  • the IMU can detect angular velocity using a three-axis angular velocity (gyro) sensor of pitch, yaw, and roll, and detect acceleration using an acceleration sensor. Thereby, the attitude of the imaging device 1 in the direction of gravity, etc. can be detected.
  • a pressure sensor, a touch sensor, a position information sensor, an illuminance sensor, a distance measurement sensor, etc. may be installed as the sensor section 43.
  • the CPU 71 of the terminal device 100 executes various programs according to a program stored in a ROM 72 or a non-volatile memory section 74 such as an EEP-ROM (Electrically Erasable Programmable Read-Only Memory), or a program loaded into the RAM 73 from a storage section 79. Execute processing.
  • the RAM 73 also appropriately stores data necessary for the CPU 71 to execute various processes.
  • the CPU 71, ROM 72, RAM 73, and nonvolatile memory section 74 are interconnected via a bus 83.
  • An input/output interface 75 is also connected to this bus 83.
  • the terminal device 100 is also expected to perform image processing and AI (artificial intelligence) processing, so instead of the CPU 71 or together with the CPU 71, a GPU (Graphics Processing Unit), GPGPU (General-purpose computing on graphics processing units) ), an AI-dedicated processor, etc. may be provided.
  • a GPU Graphics Processing Unit
  • GPGPU General-purpose computing on graphics processing units
  • AI-dedicated processor etc.
  • the input/output interface 75 is connected to an input section 76 consisting of an operator or an operating device.
  • various operators and operating devices such as a keyboard, a mouse, a key, a dial, a touch panel, a touch pad, and a remote controller are assumed.
  • a user's operation is detected by the input unit 76, and a signal corresponding to the input operation is interpreted by the CPU 71.
  • a microphone is also assumed as the input section 76. Voices uttered by the user can also be input as operation information.
  • various sensing devices such as an image sensor (imaging section), acceleration sensor, angular velocity sensor, vibration sensor, atmospheric pressure sensor, temperature sensor, illumination sensor, etc. are also assumed as the input section.
  • a display section 77 such as an LCD or an organic EL panel, and an audio output section 78 such as a speaker are connected to the input/output interface 75, either integrally or separately.
  • the display unit 77 is a display unit that performs various displays, and is configured by, for example, a display device provided in the housing of the terminal device 100, a separate display device connected to the terminal device 100, or the like.
  • the display unit 77 displays images for various image processing, moving images to be processed, etc. on the display screen based on instructions from the CPU 71. Further, the display unit 77 displays various operation menus, icons, messages, etc., ie, as a GUI (Graphical User Interface), based on instructions from the CPU 71.
  • GUI Graphic User Interface
  • the input/output interface 75 may be connected to a storage section 79 made up of a hard disk, a solid-state memory, or the like, and a communication section 80 made up of a modem or the like.
  • the storage unit 79 stores various programs, data files, and the like.
  • a database may also be constructed.
  • the communication unit 80 performs communication processing via a transmission path such as the Internet, and communicates with various devices by wire/wireless communication, bus communication, etc.
  • a drive 81 is also connected to the input/output interface 75 as required, and a removable recording medium 82 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory is appropriately loaded.
  • the drive 81 can read data files such as image files and various computer programs from the removable recording medium 82 .
  • the read data file is stored in the storage section 79, and images and sounds included in the data file are outputted on the display section 77 and the audio output section 78. Further, computer programs and the like read from the removable recording medium 82 are installed in the storage unit 79 as necessary.
  • software for the processing of this embodiment can be installed via network communication by the communication unit 80 or the removable recording medium 82.
  • the software may be stored in advance in the ROM 72, storage unit 79, or the like.
  • the line of sight detection device section 41 may be connected to the input/output interface 75.
  • the line-of-sight detection unit 41 is a device for detecting the user's line of sight, and includes, for example, an infrared LED that irradiates the user's eyes with infrared rays, or an infrared LED that images the user's eyes. It consists of an infrared camera, etc.
  • the eye sensor camera 42 is connected to the input/output interface 75. As described with reference to FIG. 3, the eye sensor camera 42 also includes, for example, a visible light image sensor and an imaging signal processing circuit, and captures an image around the eye. The captured eye surrounding image is used for processing by the CPU 71.
  • the sensor section 43 may be connected to the input/output interface 75. As the sensor section 23, various sensing devices are assumed, similar to those described in the configuration of the imaging device 1 in FIG.
  • the CPU 71 is provided with a function as the calculation unit 40 by an application program.
  • This calculation unit 40 has the same processing function as the calculation unit 40 described in the imaging device 1 of FIG. 3.
  • the nonvolatile memory section 74, ROM 72, and storage section 79 store information necessary for processing by the calculation section 40. For example, registration information, which will be described later, is stored.
  • FIG. 5 shows the functional configuration of the calculation section 40.
  • the calculation unit 40 includes an image acquisition unit 51, a process selection unit 52, a registered information acquisition unit 53, and a control unit 54 as software functional configurations realized by application programs.
  • the image acquisition unit 51 has a function of acquiring an image captured by the eye sensor camera 42 as a processing target.
  • the eye sensor camera 42 continuously performs an imaging operation at a predetermined frame rate, for example, and supplies image data of each frame as an image around the eye to the camera control unit 18 or the CPU 71.
  • the image acquisition unit 51 sequentially captures the image data of each frame (or intermittent frames) as a processing target.
  • the registration information acquisition unit 53 acquires from the storage unit 55 registration information in which actions determined from the shape of the eye and the area around the eye are associated with the process.
  • the storage unit 55 is configured, for example, as a storage area of the memory unit 19 in the imaging device 1 of FIG. 3, and as a storage area of the nonvolatile memory unit 74 or the storage unit 79 in the terminal device 100 of FIG. The storage unit 55 then stores the registration information.
  • the registration information is information that is registered in advance through a user's registration operation or as preset registration by the manufacturer of the imaging device 1 or the terminal device 100.
  • the registration information stores "actions” and "processes” in association with each other.
  • "Action” is a motion expressed by the shape of the eye and the area around the eye.
  • the motion expressed by the shape of the eye and the area around the eye is also referred to as an "eye gesture.”
  • the specific form of the eye gesture is then registered in the registration information.
  • the action registered in the registration information will be referred to as a "registered action” for purposes of explanation.
  • the example in FIG. 6 shows that "close your eyes tightly,””wink,””startle,””smile,” and “frow your eyebrows" are registered actions as actions expressed by eye gestures.
  • the registration information may be provided for each user as shown in FIG. FIG. 7 shows an example in which registration information is stored for each individual user U1 and U2.
  • registered information regarding user U1 includes user U1's personal identification information as well as registered actions such as “closes eyes tightly,””winks,””startles,””smiles,” and “furrows eyebrows,” as well as “shutter operation” and “AF operation.” Registration processes such as “AE operation,””peakingassist,” and “zoom-in operation” are linked.
  • the registered information regarding user U2 may include user U2's personal identification information, as well as information such as “squint your eyes,””furrow your eyebrows,””close your eyes,””focus on your eyes (glare),””open your eyes,” etc. Registration operations are linked to registration processes such as “decision operation,””shutteroperation,””continuous shooting operation,””zoom-inoperation,” and “zoom-out operation.”
  • a registration operation and a registration process are linked as registration information.
  • the storage unit 55 also stores data for determining whether the eye peripheral image is a registered motion or not. For example, shape data corresponding to motions, data sets of DNN (Deep Neural Network) learning models, pattern data used for object recognition by semantic segmentation, etc. are also stored. Furthermore, the storage unit 55 may also store calibration data corresponding to individual differences in the shape of the eye area and individual differences in movement for each user. In addition, the storage unit 55 stores data for individual recognition when individual registered information is used as shown in FIG. 7, such as code information encoding an iris pattern, eye shape pattern data, etc. In some cases.
  • DNN Deep Neural Network
  • the registration information acquisition unit 53 in FIG. 5 acquires data regarding registration operations from the storage unit 55 as a function of the registration operation acquisition unit 53a. Further, the registration information acquisition unit 53 acquires registration process data from the storage unit 55 as a function of the registration process acquisition unit 53b.
  • the process selection unit 52 has a function of selecting a registration process included in the registration information based on the registration information and the eye surrounding image.
  • the processing selection section 52 performs processing as an encoding section 52a, a matching degree calculation section 52b, and a selection section 52c.
  • the encoding unit 52a encodes the frame of the eye surrounding image acquired by the image acquisition unit 51. This is a process of performing calculations using a machine learning model on one frame of the eye area image, detecting the "state” expressed by the user's eyes and the area around the eyes, and obtaining encoded data indicating the state.
  • the "state” is the state of the shape of the eye and the area around the eye at that moment, or the state of emotion or action estimated from the shape.
  • Examples of algorithms for encoding include image processing such as class classification using machine learning models, edge detection, and difference extraction from previous images. In this way, the "state" of each frame is detected.
  • the coincidence calculation unit 52b calculates the degree of coincidence between the motion expressed in the face peripheral image and each registered motion. For example, information about a continuous "state” for a certain period of time is assumed to be "motion" of a face peripheral image.
  • the matching degree calculation unit 52b regards the “state” obtained by the encoding unit 52a in a predetermined frame period from the present to the past as an “action”, and calculates the matching degree between the “action” and each registered action.
  • the matching degree calculation unit 52b may calculate the matching degree between the video data itself as a plurality of frames and each registered operation, instead of encoding each frame as described above.
  • the selection unit 52c selects the registration process based on the degree of matching calculated by the degree of matching calculation unit 52b. For example, the registration operation with the highest degree of matching is determined, and the registration process associated with that registration operation is selected.
  • the process selection unit 52 selects one registration process, for example, by the processes of the encoding unit 52a, the matching degree calculation unit 52b, and the selection unit 52c as described above.
  • the control unit 54 controls the registration process selected by the process selection unit 52 to be executed in the imaging device 1 and the terminal device 100. For example, when "shutter operation" is selected, the control unit 54 controls the operations of the imaging device 1 and the terminal device 100 so that shutter processing (still image capturing and recording processing) is executed.
  • the registration process in FIGS. 6 and 7 is a process of executing a user's operation
  • the registration process is not limited to a process that corresponds to the operation. Specific examples will be described later, but various auxiliary processes include notification to the user, processing related to the display screen, processing suitable for the shooting situation, etc. Since processing other than such operations is considered as registration processing, the control unit 54 may perform control other than control according to the operation.
  • First embodiment An example of processing in the first embodiment by the arithmetic unit 40 will be described.
  • the registration motion can be determined for each image around the face as a video of multiple frames, or the "state" of each image (one frame) is identified, and the combination of these is defined as a "motion" and the registration motion is determined. It may also be possible to perform a match determination.
  • the "state" of each frame is identified, which is a process with a relatively light load.
  • FIG. 8 shows a processing example of the calculation unit 40.
  • step S101 an application that executes the functions of the calculation unit 40 is started. That is, the eye gesture is determined based on the image around the eyes obtained by the eye sensor camera 42, and processing based on an application program for selecting and executing the corresponding processing is started. With this application program, the processing of each function as the image acquisition section 51, process selection section 52, registered information acquisition section 53, and control section 54 shown in FIG. 5 is executed in the processor as the calculation section 40.
  • calculation unit 40 repeats the processes shown as steps S102 to S109 until it is determined that the application is finished in step S110.
  • step S102 the calculation unit 40 acquires one frame of an image around the user's eyes captured by the eye sensor camera 42.
  • the captured image of one frame acquired may not be an image around the eyes.
  • the imaging device 1 an image around the eyes is obtained when the user is looking through the EVF 5, but an image around the eyes is not obtained when the user is not looking through the EVF 5.
  • the calculation unit 40 does not perform the processing from step S103 onward, and proceeds to acquire the next frame.
  • step S103 the calculation unit 40 acquires the "state" of the user through the processing of the encoding unit 52a described above for the acquired eye peripheral image. That is, as described above, the "state" expressed by the user's eyes and the shape of the area around the eyes is detected using a method such as class classification using a machine learning model.
  • FIG. 9 shows a specific example of the "state” that can be determined from the eye peripheral image. From one frame of eye surrounding images, it is possible to determine the shape of an individual's eyes and whether they are left or right eyes. In other words, shape information for personal identification of the user, information indicating left eye, right eye, etc. are examples of "state” information. Further, from one frame of the eye surrounding image, it is possible to determine the degree of opening of the eyes at that point in time, such as open state, normal state, closed state, and strongly closed state. These are also examples of "state” information.
  • the position, direction, and rotation state of the eyes can be determined from one frame of the eye surrounding image. For example, it is information about the position of the user's eyes looking into the EVF 5, that is, the position and direction of the eyes relative to the EVF 5.
  • Such information includes a normal position, a rotation state shifted in the X direction (horizontal direction) or a Y direction (vertical direction), a state shifted in the Z direction (perspective direction with respect to the EVF 5), and the like.
  • the state when the user looks into the EVF5 from above as shown as “downward” the state when the user looks into the EVF5 from below as shown as “upward”
  • the "state” also includes information such as the shape of wrinkles around the eyes, the shape, position, and angle of eyebrows, and these are also examples of “state” information.
  • step S104 of FIG. 8 the calculation unit 40 updates the user's "action". For example, information on a certain continuous “state”, such as “state” from the current frame to N frames in the past, is defined as the current "action”. In other words, a new “state” is added for each frame, “states” older than a certain period of time are deleted, and a plurality of "states” during that certain period of time are defined as “actions.” Note that if a result that is clearly different from the determination results of the previous and subsequent "states" is detected, it is desirable to perform processing such as correcting it as an outlier.
  • actions resulting from the continuation of a "state” include actions that are of the same type as the "state,” such as “open your eyes” and “close your eyes tightly.” For example, if all states during a certain period of time are “eyes open”, the “action” is also determined to be “eyes open”.
  • actions expressed by changes in “state” include “continuous winks,””winks at regular intervals,””headmovements,” and “facial expressions.” "Continuous wink”, “wink at fixed intervals”, etc. are determined by detecting “states” such as “eyes open” and “eyes closed” during a certain period. Examples of “head movement” include “horizontal movement,””approach,””separation,” and “rotation,” and these can be determined by changes in position, orientation, and rotation as “states” over a certain period of time.
  • Facial expression as a "motion” that can be determined by either the continuation or change of a "state.” Facial expressions include, for example, ⁇ surprise,'' ⁇ smile,'' ⁇ frown,'' ⁇ glare,'' and ⁇ contempt,'' but these are ⁇ states'' that are fixed, such as how wide the eyes are, how wrinkled they are, and the shape and angle of the eyebrows. It can be determined by continuity or change over a period of time.
  • the calculation unit 40 determines the "motion" as in the above example from the "state" of each of the multiple frames of the face peripheral image.
  • step S105 the calculation unit 40 calculates the degree of coincidence of the updated "action" with respect to all registered actions.
  • all registered operations are all registered operations that are stored in the case where the registration is not performed individually as shown in FIG. As shown in FIG. 7, when registration information is prepared for each individual, the user is identified from the image around the eyes, and all registered operations registered for that individual are identified.
  • calculating the degree of matching with all registered actions is just one example; several candidate registered actions estimated from a certain "action", that is, a "state” for a certain period of time are determined, and the registered actions of the candidates are determined. The degree of matching may be calculated for
  • the calculation unit 40 After calculating the degree of coincidence between the "motion" determined from the eye surrounding image and, for example, all registered motions, the calculation unit 40 selects the registered motion for which the degree of coincidence is equal to or greater than the threshold and has the highest degree of coincidence. For this reason, the calculation unit 40 first checks in step S106 whether there is a registration operation with a degree of matching equal to or higher than the threshold value.
  • step S110 If it does not exist, it is determined that no action (eye gesture) corresponding to the registered action is currently being performed, and the process returns to step S102 via step S110. In other words, in this case, the processing control based on the eye gesture is not activated.
  • step S107 If there is a registered operation with a matching degree equal to or greater than the threshold value, the calculation unit 40 checks in step S107 whether there is one registered action with the maximum matching degree. If a plurality of registered motions have the highest degree of coincidence, it is determined that the motion cannot be clearly determined, and the calculation unit 40 returns to step S102 via step S110. In this case as well, the processing control based on the eye gesture is not activated.
  • step S108 selects the registration process associated with that registration operation.
  • step S109 the calculation unit 40 controls the selected registration process to be executed.
  • the selected process is a shutter operation process
  • the arithmetic unit 40 controls so that a still image capturing and recording process corresponding to the shutter operation is executed.
  • step S110 By repeating the process in FIG. 8 until it is determined in step S110 that the application has ended, the user can perform an eye gesture at any time while the application is running, and the corresponding operation process etc. will be executed.
  • step S ⁇ b>108 the calculation unit 40 may display the action determination result or process selection result on the screen as an icon or text to notify the user.
  • the notification may be made with sound effects or voice.
  • the selection may be canceled. For example, when a process that does not match the user's intention is about to be executed, it is possible to cancel the process at step S110 without executing it.
  • FIG. 10 shows the degree of matching calculated for each registered action when there are registered actions such as "close your eyes tightly,””wink,””startle,””smile,” and "frow your eyebrows.” There is.
  • the calculation unit 40 compares the degree of coincidence with the threshold value in step S106.
  • the threshold value is different for each registration operation. This is to adjust the ease of triggering the registration process linked to the registration operation. For example, for registration operations that correspond to registration processes that do not cause any problems even if activated by mistake, such as shutter operation, the threshold value is set lower to make it easier to activate. On the other hand, if there is a registration process such as an image deletion operation, the threshold value is set high for the registration operation that is associated with it, and eye gestures are carefully determined. Of course, this is just an example, and the threshold value may be the same for all registration operations.
  • the calculation unit 40 proceeds to step S107. Furthermore, in this case, the only registered motion with the highest degree of matching is "startle.” Therefore, the calculation unit 40 proceeds to steps S108 and S109, and performs control so that the registration process corresponding to "startle", for example, the process corresponding to the AE operation according to the example of the registration information in FIG. 6, is performed.
  • the example shown in FIG. 11 is a case where there are multiple registered actions such as "close your eyes tightly” and “frow your eyebrows” whose degree of coincidence exceeds the threshold value, and these degrees of coincidence are the same maximum value. In such a case, the calculation unit 40 returns from step S107 to step S102 and does not start the process.
  • the example in FIG. 12 is a case where "smiling" is the registered action with the maximum matching degree, but there is no registered action with the matching degree exceeding the threshold value. In such a case, the calculation unit 40 returns from step S106 to step S102 and does not activate the process.
  • the above processing is an example. For example, if there is a registration operation with the highest degree of matching as shown in FIG. 12, the registration processing associated with the registration operation may be controlled without providing the threshold value determination in step S106. Furthermore, if there are multiple registered operations with the maximum matching degree as shown in FIG. 11, one may be selected and the execution of the corresponding process may be controlled. For example, it is conceivable to prioritize the processes and select one of them based on the priorities.
  • Second embodiment> In the second embodiment, as shown in FIGS. 11 and 12, the user can This is an example of sending a notification.
  • FIG. 13 shows an example of processing by the calculation unit 40. Note that in the flowcharts of the subsequent embodiments, processes that are the same as those already described are given the same step numbers to avoid redundant explanation.
  • step S106 if it is determined in step S106 that there is no registered action with a matching degree equal to or higher than the threshold value, the calculation unit 40 proceeds to step S120 and notifies information regarding the action with the highest matching degree. Perform processing. For example, in the case of FIG. 12, "smile" has the highest matching degree, but since it is lower than the threshold, the certainty of the eye gesture is low. Therefore, the calculation unit 40 displays a message such as "Please squint your eyes and smile" on the display unit 15 such as the EVF 5 to notify the user to smile more clearly. As a result, it can be expected that users will make clearer eye gestures in response to notifications.
  • step S107 If it is determined in step S107 that there are a plurality of registered actions with the highest degree of matching, the calculation unit 40 proceeds to step S121 and performs control to display information for distinguishing each action. For example, as shown in Figure 11, if ⁇ close your eyes tightly'' and ⁇ furrow your eyebrows'' both have the maximum matching value, a notification such as ⁇ Please close your eyes for a longer time or move your eyebrows a little more'' will be sent with text or icons. It is conceivable to control as shown in . This can also be expected to encourage users to make clearer eye gestures.
  • FIG. 14 shows a processing example of the third embodiment. This FIG. 14 is a modification of the process between step S102 and step S106 in FIG. 6 or FIG. 13 above. It is assumed that the registration information is registered for each individual as shown in FIG.
  • the calculation unit 40 determines whether the user is a registered user based on the eye surrounding image in step S130 of FIG. For example, the shape of the eye in the eye surrounding image is compared with the registered eye shape of the user. It may be determined whether the user is a registered user by iris authentication.
  • step S102 If it is determined that the image is not the registered eye surrounding image of the user, the calculation unit 40 returns to step S102 from step S131 via step S110. In other words, if the user is not a registered user, processing according to the eye gesture determination is not activated.
  • the calculation unit 40 determines the "state” and updates the "action” in steps S104 and S105, and acquires the registration information corresponding to the currently determined individual user in step S132. Then, in step S106A, the degree of coincidence between each registered action included in the registration information of the corresponding user and the "action" determined in step S105 is calculated. The calculation unit 40 then performs the processing described in FIG. 6 or FIG. 13 after step S106.
  • FIG. 15 shows a processing example of the fourth embodiment. This FIG. 15 is an example in which the processing between step S109 and step S110 in FIG. 6 or FIG. 13 described above is added.
  • the calculation unit 40 determines a negative action by the user in step S150. For example, during a predetermined period of time (e.g., about 2 seconds) immediately after a process such as a shutter operation, the presence or absence of movements that can be presumed to be negative in response to the process operation, such as frowning or being surprised, are detected from the image around the user's face. judge. If the user shakes his head from side to side, this may be considered a negative action.
  • a predetermined period of time e.g., about 2 seconds
  • step S102 If no particularly negative action is detected, the calculation unit 40 returns to step S102 via step S110. On the other hand, if a negative action is detected, the calculation unit 40 proceeds to step S152 and selects a corresponding process according to the execution process.
  • step S152 If the process is to be canceled by selecting the corresponding process in step S152, the calculation unit 40 proceeds from step S153 to step S154 and performs the cancel process.
  • an inquiry notification as to whether or not to cancel may be made, and the cancellation process may be executed when the user performs an operation (including an eye gesture) that allows cancellation.
  • step S152 the calculation unit 40 proceeds from step S155 to step S156, and performs the necessary notification process to the user. For example, it is notified that shutter processing has been performed using an eye gesture.
  • FIG. 16 shows an example in which the degree of matching is calculated using a plurality of frames of video.
  • step S201 After starting the application in step S201, the calculation unit 40 repeats the processing from step S202 to step S207 until the application ends in step S208.
  • step S202 the calculation unit 40 obtains a moving image as an image around the eyes. In this case, a plurality of frames captured by capturing motion over a certain period of time are processed. Then, in step S203, the calculation unit 40 performs DNN processing or the like on the multiple frames of the video, and calculates the degree of matching with the registered motion.
  • Steps S204 to S207 are similar to steps S106 to S109 in FIG.
  • various processes can be realized in the imaging device 1 and the terminal device 100 according to the eye gesture. For example, the following processing is performed.
  • Examples of combinations of operation and processing include operation and processing of the operating system and processing of the operation assistance system. First, an example of operation and processing of the operating system will be shown.
  • processing as a shutter operation or decision operation can be considered, for example. You can also use continuous shooting depending on how long you are meditating.
  • AF processing and AE processing are performed on the position of a cursor (mouse cursor) in a through image displayed on the EVF 5.
  • AF processing and AE processing may be performed on a subject ahead of the line of sight in a display such as the EVF 5.
  • zoom processing or peaking assist processing there is also an example in which this is executed for the position of a cursor (mouse cursor) in the display image of the EVF 5.
  • the peaking assist process may be performed on a subject ahead of the line-of-sight in a display such as the EVF 5.
  • FIG. 17A shows how the preview image 30 is viewed on the EVF 5.
  • the calculation unit 40 performs a drag operation on the preview image 30. Recognize and move the image. Further, as shown in FIG. 17A
  • the calculation unit 40 recognizes this as an operation to enlarge or reduce the preview image 30, and controls the enlargement or reduction of the image. You may also do so. Further, as shown in FIG. 17E, when the user squints his eyes and shakes his head from side to side, the calculation unit 40 recognizes this as an operation to skip the preview image 30 to the next image, and moves the image on the display. Control may also be performed.
  • the calculation unit 40 performs a process corresponding to a situation estimated from a motion determined to be an eye gesture.
  • Auxiliary processing can also be performed depending on the head position. For example, the position of the head looked into is detected, and the GUI displayed on the EVF 5 or the like, the live view image, and the reproduced image of the recorded image are made to follow the position of the head. Further, when the sight line detection device section 41 is provided, the position of the infrared LED to be lit may be changed depending on the head position in order to improve detection accuracy.
  • Auxiliary processing can also be performed by detecting blinking. For example, if a certain setting value change is made and it is detected that the user has closed his or her eyes at the time when the user is notified of the change, the system will notify the user again after the user's eyes open.
  • auxiliary processing can be performed as a dazzling situation. For example, if the user squints, the exposure is lowered or the brightness of the EVF 5 is lowered.
  • auxiliary processing is performed by determining emotions such as smiling. For example, if a user smiles or expresses surprise when previewing a captured image, processing such as tagging the image as a favorite or setting protection may be performed.
  • a negative emotional movement such as furrowing the eyebrows
  • the following processing examples are available. For example, if a negative emotional movement is detected in response to a system notification (pop-up, etc.), such notification is immediately terminated. Alternatively, the settings are changed so that notifications will not be sent from now on. Additionally, if a negative emotional movement is detected while previewing an image, the preview of that image is immediately ended. Also, if a negative emotional movement is detected during the process of inputting various values or operating dials, the value settings will be returned to their original values.
  • the system determines that the display is small and difficult to see, and performs processing such as enlarging the display or simplifying the display to make it easier to see.
  • the age and appropriate size may be set during calibration depending on the behavior that indicates "difficulty seeing.”
  • the user selects a process that can be executed on a device such as the imaging apparatus 1 or the terminal device 100. Note that even if the operation is the same, different processing may be set for each object (subject, shooting mode, preview time, etc.).
  • the user performs an action (eye gesture) associated with the process.
  • eye gestures it is appropriate to perform them multiple times and perform calibration and learning processing on the system side.
  • information indicating the shape of the eye or the periphery of the eye, or a change in the shape observed from the eye periphery image is used as the registration operation.
  • the user also sets a matching degree threshold (see S106) for the registration operation.
  • the device may store registration information resulting from a combination of registration operation and registration processing as preset data.
  • the registration operation may be settable as a combination of multiple operations. Combining multiple operations is suitable for preventing malfunctions. For example, if you open your eyes and then forcefully close them, you are operating the shutter.
  • eye gestures with other operations (button input, voice input).
  • the user operates the shutter by saying “shutter” and closing the eyes.
  • Calibration may be performed in the background to update the accuracy each time the operation in use is successful.
  • the function of this example may be activated by utilizing the registered information of other users.
  • the imaging device 1 or the like is held vertically or horizontally, for example, the information on the registered motion when held vertically may be rotated and used as data for the registered motion when held horizontally.
  • Straight face data suitable for such situations may be stored separately.
  • the registered behavior may be automatically corrected by updating the straight face.
  • biometric information such as heartbeat, perspiration, goosebumps, etc. can be acquired from images around the eyes or other sensors, registration operations in combination with these information may be stored.
  • the information processing device of the embodiment is realized as an imaging device 1 or a terminal device 100. Alternatively, it is realized as a processor having the functions of the calculation unit 40.
  • the information processing apparatus of this embodiment includes a registered information acquisition unit 53 that acquires registered information in which a process is associated with a motion determined from the shape of the eye and the area around the eye, and a registered information acquisition unit 53 that acquires an image around the eye.
  • an image acquisition unit 51 that selects a registration process included in the registration information based on the registration information and the image around the eyes; ) is provided. That is, the calculation unit 40 acquires an image around the eye and determines an action (eye gesture) caused by the eye and around the eye. Then, in the registration information, a registration process associated with a registration action that matches the eye gesture is selected, and the registration process is controlled to be executed.
  • the information processing device can estimate the user's intention and perform operation assistance processing in accordance with the user's intention. In particular, it determines the movement of the eyes, including not only the eyes but also the surroundings of the eyes. For example, in addition to simply checking the degree to which the eyes are open, the movement of wrinkles and the like around the eyes is also used for identification. This makes it possible to distinguish whether the eyes are closed strongly or lightly, even if the eyes are closed, for example. Also, there is a lot of information that can be obtained from things other than the degree of eye opening. Therefore, more diverse actions can be determined and associated with processing.
  • eye gestures can be determined more accurately, regardless of people's various eye shapes. For example, eye movements can be determined with high accuracy regardless of whether a person has large eyes or small eyes. Furthermore, by comparing eye gestures with registered actions, it is possible to distinguish between eye gestures that are valid as operations, etc., and eye gestures that are invalid (unregistered) as operations, etc.
  • the processing selection unit 52 calculates the degree of coincidence between the motion appearing in the eye peripheral image and the registered motion in the registration information, and links the motion that appears in the eye peripheral image to the registered motion whose degree of coincidence satisfies a certain value (threshold value).
  • a certain value e.g., a certain value (threshold value).
  • the registration process is selected (see FIG. 8, FIG. 13, and FIG. 16).
  • the degree of coincidence between a motion observed in a plurality of frames as a moving image or a still image and each registered motion is determined, and registered motions for which the degree of coincidence is equal to or higher than a certain threshold are determined.
  • a registration process corresponding to the registration operation is selected.
  • registered motions that do not meet the threshold are not selected, so that a highly probable motion can be determined among various motions.
  • the processing selection unit 52 calculates the degree of coincidence between the motion appearing in the image around the eyes and all the registered motions in the registered information, and links the motion to the motion with the highest degree of coincidence among the registered motions.
  • An example of selecting the selected process has been described (see FIGS. 8, 13, and 16). Calculating the degree of coincidence with all registered motions for the captured eye peripheral image is effective in preventing erroneous determination of motions due to the user's original eye shape. For example, the shape, size, and thinness of the eyes, the condition of the eyelids, the way wrinkles form, etc. vary from user to user, but by comparing all the registered movements, we can determine the best This is because a likely registration operation can be determined.
  • the processing selection unit 52 determines and encodes the state of the eye and the surrounding area for each frame of the eye surrounding image, and generates encoded information about the state during a certain period of time.
  • the degree of coincidence with a registered motion is calculated as information on a motion appearing in an image around the eyes (see FIG. 8).
  • the "state" of the eyes and their surroundings is determined and encoded through processing such as class classification using a machine learning model.
  • the state (change in state) at each point in time is defined as an "action”.
  • By comparing the "motion" with the registered motion a likely motion can be determined.
  • the processing load can be significantly reduced compared to inputting a plurality of frames of images to a DNN or the like to determine the operation.
  • the calculation unit 40 controls notification to the user when a plurality of motion candidates are obtained from among the registered motions (see FIG. 13). For example, a notification may be made to prompt the user to make a clearer eye gesture. This can improve the accuracy of operation recognition. It is also possible to provide a notification requesting which of a plurality of options to select.
  • the calculation unit 40 calculates the degree of coincidence between the motion appearing in the eye peripheral image and the registered motion, if the degree of coincidence does not satisfy a certain numerical value (threshold) for any of the registered motions.
  • a certain numerical value threshold
  • the accuracy of operation recognition can be improved by notifying the user to make clearer eye gestures.
  • a notification may be made to select the one with the highest degree of matching, although the degree of matching is low.
  • the registration information includes personal identification information that identifies the user (see FIG. 7). Individual identification is possible based on images of the eyes and their surroundings. By including personal identification information as registered information, it becomes possible to respond in accordance with the user's personal identification.
  • the processing selection unit 52 determines whether the acquired eye area image is the eye area image of a registered user based on the personal identification information, and does not select a process if the user is not a registered user.
  • An example was given (see Figure 14). That is, unless the user is a registered user, processing by eye gesture is not activated. This allows only the registered specific user to perform eye gesture operations, etc. In other words, it is possible to prevent the eye gesture function from being activated and confusing the user when the user does not know the eye gesture function.
  • registration information is associated with actions and processes that are determined from the shape of the eyes and the area around the eyes, corresponding to personal identification information.
  • the process selection unit 52 determines the operation and selects the process using information on the registration operation and registration process in the registration information that corresponds to the user identified based on the personal identification information (Fig. 7, see Figure 14).
  • Calibration data can also be accumulated for each user.
  • arbitrary operations can be registered as eye gestures for each user.
  • necessary auxiliary processing can be set for each user. As described above, even if the device is used by multiple users, it is possible to perform eye gesture compatible processing suitable for each user.
  • the eye area image is an image including the shape of eyebrows or the shape of wrinkles around the eyes.
  • eye gestures can be determined more accurately than solely based on the state of the eyes.
  • the shape of the eyes varies from person to person, including the shape of eyebrows and wrinkles makes it easier to determine the degree to which the eyes are open, the degree to which the eyes are closed, emotional expression, etc.
  • the registration process selected by the process selection unit 52 includes an operation corresponding process according to a user's operation.
  • the eye gesture is recognized as an "operation” such as a shutter operation, and the control unit 54 executes a process corresponding to the operation. This allows the user to perform intentional operations using eye gestures.
  • the registration process selected by the process selection unit 52 includes operation corresponding processes for recording an image captured by the camera, zooming in operation, and zooming out operation.
  • imaging operations can be performed using an eye gesture.
  • the imaging operation includes a shutter operation for still image imaging, a recording start operation for moving image imaging, and the like.
  • zooming operations such as zooming in and zooming out may be possible using an eye gesture. Since these operations are performed relatively frequently, enabling them with eye gestures is effective in improving operability.
  • the registration process selected by the process selection unit 52 includes an operation corresponding process regarding a specific operation image or an image specified by line of sight detection.
  • eye gestures enable operations related to specific operation images such as mouse cursors and icons, icons identified by line-of-sight detection, and images such as still images, such as drag operations and scaling operations. This makes it possible to perform various operations using the GUI using eye gestures.
  • the registration process selected by the process selection unit 52 includes a process corresponding to the situation estimated from the determined motion.
  • the usability and convenience of the device can be improved by automatically responding to the situation estimated from the determined motion. can be done.
  • the display brightness may be lowered depending on the user's behavior that is likely to cause glare. This can be said to be a process that also corresponds to the user's unconscious eye gesture.
  • the process selection unit 52 determines a negative action with respect to the execution of control by the control unit 54 based on the eye peripheral image
  • the process selection unit 52 selects the corresponding process
  • the control unit 54 selects the corresponding process.
  • An example of controlling the processing is given (see FIG. 15).
  • the user may not want to perform the processing.
  • the negative intention at that time is determined from the eyes and images around the eyes, and corresponding processing such as notification or cancellation is performed. This makes it possible to recover from what the user perceives as an unintended operation.
  • the eye shape determined from the image around the eyes is used to identify left/right, portrait-holding, and individuals, and to generate calibration data for line-of-sight detection. It can be configured to switch automatically.
  • line of sight detection involves finding the "reference point” and "moving part (moving point)" of the eye, and detecting the line of sight from the position of the moving point relative to the reference point.
  • the eye is photographed with a point light source irradiated onto the cornea, and the center of corneal curvature determined from this corneal reflection image (Purkinje image) is used as a reference point, and the moving point is used as the pupil. Then, the viewing direction is calculated from the positions of the moving point and the reference point.
  • calibration according to individual differences is required. Therefore, it is effective to improve the accuracy of sight line detection by performing individual identification from images around the eyes and automatically switching calibration data for sight line detection.
  • notifications such as ⁇ The right eye was detected, so the data was switched to the right eye'' or ⁇ vertical holding was detected, so the data was switched'' are sent. If the user has a negative reaction to the notification, such as frowning, the switching may be canceled.
  • a guide notification can be displayed to help you move your head correctly.
  • FIG. 18A it is assumed that the user is looking into the EVF 5 of the imaging device 1 from above, making it difficult to detect the line of sight.
  • FIG. 18B the EVF 5 is displayed so that the user can see the EVF 5 from the front.
  • FIG. 18C Such notification may be performed at the time of line-of-sight detection calibration.
  • the imaging device 1 and the terminal device 100 are cited as information processing devices of the present technology.
  • the present technology can also be implemented in the terminal device 100 such as a smartphone or a PC.
  • the camera that images the user himself/herself is often wide-angle, so the face detection function is used to cut out only the image around the eyes, and the processing in this embodiment is performed using the cut out image around the eyes. Do it like this.
  • the notification may be combined with line of sight detection in a PC or the like. For example, if you stare at a pop-up notification while looking at it, the notification will disappear immediately. Also, if you are annoyed by a pop-up notification, the details of the notification will be displayed. Also, if you close your eyes while looking at a disabled window, it will become enabled.
  • the eye sensor camera 42 in the imaging device 1 and the terminal device 100 has an angle of view that covers the eyebrows from the center of the eye, and may have any configuration and arrangement as long as it can capture the image.
  • a camera for other purposes such as eye proximity detection or line of sight detection may be used as the eye sensor camera 42.
  • a distance sensor, a pressure sensor, a touch sensor, etc. may be installed in the imaging device 1 or the terminal device 100 to detect movements of facial muscles and use them to determine eye gestures.
  • a switch to enable/disable input by eye gesture may be provided as a physical operator or an operator on the system.
  • the program of the embodiment is a program that causes a processor such as a CPU, a DSP, or a device including these to execute the processes shown in FIGS. 8, 13, 14, 15, and 16 described above.
  • the program of the embodiment includes a procedure for acquiring registered information in which an action determined from the shape of the eye and the area around the eye is associated with a process, a procedure for acquiring an image around the eye, and a procedure for acquiring the registered information and the eye.
  • This causes an information processing device to execute a procedure for selecting a registration process included in registration information based on a peripheral image, and a procedure for controlling the selected process to be performed.
  • an information processing device that executes the processing of the arithmetic unit 40 described above can be realized using various computer devices.
  • Such a program can be recorded in advance in an HDD as a recording medium built into equipment such as a computer device, or in a ROM in a microcomputer having a CPU.
  • such programs can be used for flexible discs, CD-ROMs (Compact Disc Read Only Memory), MO (Magneto Optical) discs, DVDs (Digital Versatile Discs), Blu-ray Discs (registered trademark), magnetic It can be stored (recorded) temporarily or permanently in a removable recording medium such as a disk, semiconductor memory, or memory card.
  • a removable recording medium can be provided as so-called package software.
  • a program In addition to installing such a program into a personal computer or the like from a removable recording medium, it can also be downloaded from a download site via a network such as a LAN (Local Area Network) or the Internet.
  • LAN Local Area Network
  • Such a program is suitable for widely providing the information processing apparatus of the embodiment.
  • a program for example, by downloading a program to a personal computer, communication device, mobile terminal device such as a smartphone or tablet, mobile phone, game device, video device, PDA (Personal Digital Assistant), etc., these devices can be used as the information processing device of the present disclosure. It can function as
  • a registered information acquisition unit that acquires registered information in which an action determined from the shape of the eye and the area around the eye is associated with a process
  • an image acquisition unit that acquires images of the eye and its surroundings
  • a process selection unit that selects a process included in the registered information based on the registered information and the image
  • An information processing device comprising: a control unit that controls the process selected by the process selection unit to be performed.
  • the processing selection section includes: The information processing device according to (1) above, which calculates the degree of coincidence between the motion appearing in the image and the motion in the registered information, and selects the process associated with the motion whose degree of coincidence satisfies a certain numerical value.
  • the processing selection section includes: Calculate the degree of coincidence between the motion appearing in the image and all the motions in the registered information, and select the process associated with the motion with the highest degree of coincidence among the registered motions (1) or ( The information processing device according to 2).
  • the processing selection section includes: The encoded information of the state during a certain period of time, obtained by determining and encoding the state of the eye and its surroundings for each frame of the image, is used as the information of the motion appearing in the image, and the motion in the registered information.
  • the information processing device according to any one of (1) to (3) above, further comprising: calculating a degree of coincidence with a person, determining a motion based on the degree of coincidence, and selecting a process associated with the determined motion.
  • the processing selection unit determines a motion based on the degree of coincidence between the motion appearing in the image and the motion in the registered information, and selects a process associated with the determined motion
  • the information processing device according to any one of (1) to (4) above, which controls notification to a user when a plurality of motion candidates are obtained.
  • the processing selection unit determines a motion based on the degree of coincidence between the motion appearing in the image and a certain motion in the registered information, and selects a process linked to the determined motion, The information processing device according to any one of (1) to (5) above, wherein when the degree of matching does not satisfy a certain numerical value for any of the operations in the registered information, notification to the user is controlled.
  • the information processing device includes personal identification information that identifies the user.
  • the processing selection section includes: Based on the personal identification information, it is determined whether the image is an image of a registered user, and if the image is not a registered user, no processing is selected. Information processing according to (7) above. Device. (9) The registered information is associated with an action and a process determined from the shape of the eye and the area around the eye, corresponding to the personal identification information, The processing selection unit determines the action and selects the processing using information on the action and processing in the registered information that corresponds to the user identified based on the personal identification information. ).
  • the information processing device according to any one of (1) to (13), wherein the process selected by the process selection unit includes a process for responding to a situation estimated from a determined motion.
  • the process selection unit selects a corresponding process when determining a negative action with respect to execution of control by the control unit based on the image;
  • the information processing device according to any one of (1) to (14), wherein the control unit controls the corresponding processing to be performed.
  • the information processing device Obtain registration information that associates actions and processes determined from the shape of the eyes and their surroundings, Obtain images of the eye and its surroundings, selecting a process included in the registered information based on the registered information and the image; An information processing method that controls the selected processing to be performed.
  • a procedure for acquiring registered information in which actions determined from the shape of the eye and the surrounding area of the eye are associated with a process a procedure for acquiring images of the eye and its surroundings; a step of selecting a process included in the registered information based on the registered information and the image; a procedure for controlling the selected process to be performed;
  • a computer-readable storage medium that stores a program that causes an information processing device to execute.
  • Imaging device 5 EVF 18 Camera control section 19 Memory section 40 Calculation section 41 Line of sight detection device section 42 Eye sensor camera 43 Sensor section 51 Image acquisition section 52 Processing selection section 52a Encoding section 52b Matching degree calculation section 52b Selection section 53 Registration information acquisition section 53a Registration operation Acquisition unit 53b Registration processing acquisition unit 54 Control unit 55 Storage unit 71 CPU 100 Terminal device

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Studio Devices (AREA)

Abstract

情報処理装置は、目および目の周辺の形状から判定される動作と、処理とが紐づけられた登録情報を取得する登録情報取得部と、目および目の周辺の画像を取得する画像取得部と、登録情報と画像とに基づいて登録情報に含まれる処理を選択する処理選択部と、処理選択部が選択した処理が行われるように制御する制御部と、を備えるようにする。

Description

情報処理装置、情報処理方法、記憶媒体
 本技術は情報処理装置、情報処理方法、記憶媒体に関し、特にはユーザインタフェースについての技術分野に関する。
 例えば撮像装置の分野において、笑顔などの表情や目を閉じる動作などをシャッター操作などと認識し、シャッター処理を行うものが知られている。
 下記特許文献1では、ユーザが手を使わずに入力操作をすることが可能な情報処理装置が開示されている。
特開2013-3647号公報
 撮像装置(カメラ)による撮影を行う際に、片手持ちなど両手が使用できない状況がある。例えば一眼レフカメラなどでは、一般にカメラ本体を左手で把持し、右手で操作を行うため、両手が使えないと撮影が困難である。
 また片手が不自由な障害者においても、カメラ操作は困難である。
 特許文献1のように表情や目を閉じる動作などを操作とすることで、手が使えない状況でも例えばシャッター操作を行うことができるが、多様な操作や処理を実現することは難しい。
 音声入力による操作を認識する技術もあるが、撮影時には声を出せない状況も多々ある。
 そこで本技術は、画像として得られるユーザの目及び目の周辺の形状に基づいて処理を選択することで、多様な処理を実行可能とする技術を提案する。
 本技術に係る情報処理装置は、目および目の周辺の形状から判定される動作と、処理とが紐づけられた登録情報を取得する登録情報取得部と、目および目の周辺の画像を取得する画像取得部と、前記登録情報と前記画像とに基づいて、前記登録情報に含まれる処理を選択する処理選択部と、前記処理選択部が選択した処理が行われるように制御する制御部と、を備える。
 目及び目の周辺の画像を取得して、目及び目の周辺で表現される動作を判定する。この動作とは、目自体の動作だけでなく、目の周辺(例えば眉やしわ)の動きや、首の動きによる目の位置の変化なども含む。そして動作と処理を紐づけた登録情報から、処理を選択し、当該処理が実行されるように制御する。
本技術の実施の形態の情報処理装置の適用装置例の説明図である。 実施の形態の撮像装置の斜視図である。 実施の形態の撮像装置のブロック図である。 実施の形態の情報処理装置のブロック図である。 実施の形態の演算部の機能構成のブロック図である。 実施の形態の登録情報の説明図である。 実施の形態の登録情報の説明図である。 第1の実施の形態の処理例のフローチャートである。 実施の形態で認識する目の動作の説明図である。 実施の形態の動作の一致度による判定の例の説明図である。 実施の形態の動作の一致度による判定の例の説明図である。 実施の形態の動作の一致度による判定の例の説明図である。 第2の実施の形態の処理例のフローチャートである。 第3の実施の形態の処理例のフローチャートである。 第4の実施の形態の処理例のフローチャートである。 第5の実施の形態の処理例のフローチャートである。 実施の形態における操作例の説明図である。 実施の形態における通知例の説明図である。
 以下、実施の形態を次の順序で説明する。
<1.適用装置例>
<2.撮像装置の構成例>
<3.情報処理装置の構成例>
<4.演算部の機能構成及び登録情報>
<5.第1の実施の形態>
<6.第2の実施の形態>
<7.第3の実施の形態>
<8.第4の実施の形態>
<9.第5の実施の形態>
<10.各実施の形態における動作と処理>
<11.まとめ及び変形例>
 なお、本開示では「画像」とは、動画、静止画のいずれをも指す。特に区別する場合は「静止画」「動画」と表記する。
 また「画像」とは、実際に画面に表示される画像を指すが、画面に表示されるまでの信号処理過程や伝送路における「画像」とは画像データを指す。
<1.適用装置例>
 まず本開示の情報処理装置として想定される具体的な装置例を説明する。
 本開示の情報処理装置は、情報処理を行うことができる装置であり、具体的にはマイクロプロセッサ等を備えて、ユーザの目及び目の周辺を撮像した画像を基づいて、実行すべき処理を選択し、選択した処理を実行することができる装置である。
 なお、以下、ユーザの目及び目の周辺を撮像した画像を「目周辺画像」ともいう。実施の形態において「目周辺画像」とは、目と、目の周囲のしわ、眉などを含む画像を意味する。
 目周辺画像に基づいて実行すべき処理を選択することの具体的な例としては、まず画像により目及び目の周辺による「動作」を判定する。そして判定した「動作」に紐づけられている「処理」を、実行する処理として選択することが考えられる。
 例えばこのような処理を行うCPU、DSP等のプロセッサ自体、或いはそのようなプロセッサを備える機器が、本開示でいう情報処理装置となる。
 図1に情報処理装置に該当する具体的な装置例として、撮像装置1、1A、端末装置100を例示している。
 撮像装置1はEVF(Electric Viewfinder)5等のビューファインダを備えたカメラ、撮像装置1Aはビューファインダを備えない、いわゆるコンパクトタイプのカメラを例示している。
 端末装置100としてはスマートフォンやPC(パーソナルコンピュータ)を例示している。端末装置100としては他にタブレット装置なども想定される。
 これらの各種装置では、説明上「アイセンサカメラ42」と呼ぶ撮像装置を所要位置に搭載し、ユーザの目の周辺を撮像して目周辺画像を得ることができるようにしている。
 撮像装置1の場合、アイセンサカメラ42をEVF5の近辺に設け、そのEVF5を覗くユーザの目及び目の周囲を撮像する構成が想定される。
 ビューファインダのない撮像装置1Aの場合、例えば背面モニタ4の周辺位置にアイセンサカメラ42を設け、その背面モニタ4を見ているユーザの目及び目の周辺を撮像する構成が想定される。
 スマートフォンやPC等の端末装置100の場合、画面の周辺位置にアイセンサカメラ42を設け、画面を見ているユーザの目及び目の周囲を撮像する構成が想定される。
 例えばこれらのように、各種の機器においてアイセンサカメラ42を搭載する構成が想定される。その場合、内部のプロセッサ装置において、アイセンサカメラ42による撮像画像、つまり目周辺画像を取得し、その目周辺画像と登録情報を用いて、登録情報に含まれる処理を選択し、当該選択した処理を実行する。
 図1に挙げた機器は一例に過ぎない。目周辺画像の撮像及びそれに基づく処理を行う機器に本開示の技術を適用できる。例えばテレビジョン受像器、ゲーム機器、パーソナルコンピュータ、ワークステーション、ヘッドマウントディスプレイ機器、ロボット、監視装置、センサ装置など、本開示の情報処理装置に相当する機器は極めて多様である。
<2.撮像装置の構成例>
 本開示の情報処理装置の例としての撮像装置1の構成例を説明する。
 図2は撮像装置1を背面側から見た斜視図である。なお説明上、被写体側を前方(正面側)とし撮像者側を後方(背面側)とする。
 撮像装置1は、カメラ筐体2と、カメラ筐体2に対して着脱可能とされ前面部2aに取り付けられるレンズ鏡筒3を備える。なお、レンズ鏡筒3がいわゆる交換レンズとして着脱可能とされるのは一例であり、カメラ筐体2から取り外せないレンズ鏡筒であってもよい。
 カメラ筐体2の後面部2bには、背面モニタ4が配置されている。背面モニタ4には、ライブビュー画像や記録した画像の再生画像などが表示される。
 背面モニタ4は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機EL(Electro-Luminescence)ディスプレイ等の表示デバイスにより構成される。
 カメラ筐体2の上面部2cには、EVF5が配置されている。EVF5は、EVFモニタ5aとEVFモニタ5aの上方及び左右の側方を囲むように後方に突出された枠状の囲い部5bを備えている。
 EVFモニタ5aは、LCDや有機ELディスプレイ等を用いて形成されている。なお、EVFモニタ5aに代わって光学式ファインダー(OVF:Optical View Finder)が設けられていてもよい。
 上述のように、このEVF5の近傍、例えば囲い部5bの内側にアイセンサカメラ42が配置され、EVF5を覗くユーザの目周辺画像を撮像する。
 後面部2bや上面部2cには、各種の操作子6が設けられている。例えば、シャッターボタン、再生メニュー起動ボタン、決定ボタン、十字キー、キャンセルボタン、ズームキー、スライドキー等である。これらの操作子6としては、ボタン、ダイヤル、押圧及び回転可能な複合操作子など、各種の態様のものを含んでいる。各種の態様の操作子6により、例えば、シャッター操作、メニュー操作、再生操作、モード選択/切換操作、フォーカス操作、ズーム操作、シャッタースピードやF値等のパラメータ選択/設定などが可能とされる。
 撮像装置1の内部構成を図3に示す。
 撮像装置1は、例えばレンズ系11、撮像素子部12、カメラ信号処理部13、記録制御部14、表示部15、通信部16、操作部17、カメラ制御部18、メモリ部19、ドライバ部22、視線検出装置部41、アイセンサカメラ42、センサ部43を有する。
 レンズ系11は、ズームレンズ、フォーカスレンズ等のレンズや絞り機構などを備える。このレンズ系11により被写体からの光(入射光)が導かれ撮像素子部12に集光される。
 撮像素子部12は、例えば、CMOS(Complementary Metal Oxide Semiconductor)型やCCD(Charge Coupled Device)型などのイメージセンサ12a(撮像素子)を有して構成される。
 この撮像素子部12では、イメージセンサ12aで受光した光を光電変換して得た電気信号について、例えばCDS(Correlated Double Sampling)処理、AGC(Automatic Gain Control)処理などを実行し、さらにA/D(Analog/Digital)変換処理を行う。そしてデジタルデータとしての撮像信号を、後段のカメラ信号処理部13やカメラ制御部18に出力する。
 カメラ信号処理部13は、例えばDSP(Digital Signal Processor)等により画像処理プロセッサとして構成される。このカメラ信号処理部13は、撮像素子部12からのデジタル信号(撮像画像信号)に対して、各種の信号処理を施す。例えばカメラプロセスとしてカメラ信号処理部13は、前処理、同時化処理、YC生成処理、解像度変換処理等を行う。
 そしてカメラ信号処理部13は、例えば以上の各種処理が施された画像データについて、例えば記録用や通信用の圧縮符号化、フォーマティング、メタデータの生成や付加などを行って記録用や通信用のファイル生成を行う。
 例えば静止画ファイルとしてJPEG(Joint Photographic Experts Group)、TIFF(Tagged Image File Format)、GIF(Graphics Interchange Format)等の形式の画像ファイルの生成を行う。またMPEG-4準拠の動画・音声の記録に用いられているMP4フォーマットなどとしての画像ファイルの生成を行うことも考えられる。
 なおロー(RAW)画像データとして画像ファイルを生成することも考えられる。
 記録制御部14は、例えば不揮発性メモリによる記録媒体に対して記録再生を行う。記録制御部14は例えば記録媒体に対し動画データや静止画データ等の画像ファイルや、サムネイル画像等を含むメタデータを記録する処理を行う。
 記録制御部14の実際の形態は多様に考えられる。例えば記録制御部14は、撮像装置1に内蔵されるフラッシュメモリとその書込/読出回路として構成されてもよい。また記録制御部14は、撮像装置1に着脱できる記録媒体、例えばメモリカード(可搬型のフラッシュメモリ等)に対して記録再生アクセスを行うカード記録再生部による形態でもよい。また記録制御部14は、撮像装置1に内蔵されている形態としてHDD(Hard Disk Drive)などとして実現されることもある。
 表示部15は撮像者に対して各種表示を行う表示部であり、例えば撮像装置1の筐体に配置される背面モニタ4やEVF5などとしての液晶パネル(LCD:Liquid Crystal Display)や有機EL(Electro-Luminescence)ディスプレイ等のディスプレイデバイスとされる。
 表示部15は、カメラ制御部18の指示に基づいて表示画面上に各種表示を実行させる。例えば表示部15は、記録制御部14において記録媒体から読み出された画像データの再生画像を表示させる。
 また表示部15にはカメラ信号処理部13で表示用に解像度変換された撮像画像の画像データが供給され、表示部15はカメラ制御部18の指示に応じて、当該撮像画像の画像データに基づいて表示を行う場合がある。これにより構図確認中や動画記録中などの撮像画像である、いわゆるスルー画(被写体のライブビュー画像)が表示される。
 また表示部15はカメラ制御部18の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を画面上に実行させる。
 通信部16は、外部機器との間のデータ通信やネットワーク通信を有線又は無線で行う。例えば外部の情報処理装置、表示装置、記録装置、再生装置等に対して撮像画像データ(静止画ファイルや動画ファイル)やメタデータの送信出力を行う。
 また通信部16はネットワーク通信部として、例えばインターネット、ホームネットワーク、LAN(Local Area Network)等の各種のネットワークによる通信を行い、ネットワーク上のサーバ、端末等との間で各種データ送受信を行うことができる。
 また撮像装置1は、通信部16により、例えばPC、スマートフォン、タブレット端末、ヘッドフォン、イヤフォン、ヘッドセットなどとの間で、例えばブルートゥース(Bluetooth(登録商標))、Wi-Fi通信、NFC等の近距離無線通信、赤外線通信により、相互に情報通信を行うことも可能とされてもよい。
 また撮像装置1と他の機器が有線接続通信によって相互に通信可能とされてもよい。
 操作部17は、ユーザが各種操作入力を行うための入力デバイスを総括して示している。具体的には操作部17は撮像装置1の筐体に設けられた各種の操作子(キー、ダイヤル、タッチパネル、タッチパッド等)を示している。例えばタッチパネルとしては、背面モニタ4の表面に設けられていることが想定される。
 操作部17によりユーザの操作が検知され、入力された操作に応じた信号はカメラ制御部18へ送られる。
 視線検出装置部41は、ユーザの視線検出のためのデバイスであり、例えばユーザの目に赤外線を照射する赤外線LEDや、ユーザの目を撮像する赤外線カメラなどにより構成される。
 例えばこのような視線検出装置部41が、図2に示したEVF5内に配置され、赤外線カメラの撮像画像をカメラ制御部18に送ることで、EVF5をのぞき込んだユーザの視線方向を検出することができる。またこのような視線検出装置部41が背面モニタ4の近辺に配置されるようにし、背面モニタ4を見ているユーザの視線方向の検出のための撮像を行うことができるようにしてもよい。
 なお実施の形態としては、視線検出装置部41を備えない構成例も想定される。
 アイセンサカメラ42は上述のように例えばEVF5内に設けられてユーザの目及び目の周辺を撮像する。
 アイセンサカメラ42は例えば可視光のイメージセンサと撮像信号処理回路を有してなり、例えばカラー画像或いはモノクロ画像としての静止画データや動画データを得る。即ちこの静止画や動画は目周辺画像である。このアイセンサカメラ42により撮像される目周辺画像はカメラ制御部18に送られる。
 カメラ制御部18はCPU(Central Processing Unit)を備えたマイクロコンピュータにより構成される。
 メモリ部19は、カメラ制御部18が処理に用いる情報等を記憶する。図示するメモリ部19としては、例えばROM(Read Only Memory)、RAM(Random Access Memory)、フラッシュメモリなどを包括的に示している。
 メモリ部19はカメラ制御部18としてのマイクロコンピュータチップに内蔵されるメモリ領域であってもよいし、別体のメモリチップにより構成されてもよい。
 カメラ制御部18はメモリ部19のROMやフラッシュメモリ等に記憶されたプログラムを実行することで、この撮像装置1の全体を制御する。
 例えばカメラ制御部18は、撮像素子部12のシャッタースピードの制御、カメラ信号処理部13における各種信号処理の指示、ユーザの操作に応じた撮像動作や記録動作、記録した画像ファイルの再生動作、レンズ鏡筒におけるズーム、フォーカス、絞り調整等のレンズ系11の動作、ユーザインタフェース動作等について、必要各部の動作を制御する。
 また視線検出装置部41が設けられる場合、カメラ制御部18は、視線検出装置部41からの赤外線撮像画像に基づいてユーザの視線方向検出処理を行うことができる。そしてカメラ制御部18は、検出したユーザの視線方向に基づいて、各種の制御を行うこともできる。例えば視線方向に応じて、視線方向の被写体がジャストフォーカスとなるようにフォーカスエリアを設定することや、視線方向の被写体の明るさに応じて絞り調整制御を行うことなどが可能である。
 カメラ制御部18は、アプリケーションプログラムにより演算部40としての機能を備える。
 演算部40は、目および目の周辺の形状から判定される動作と、処理とが紐づけられた登録情報を取得する処理を行う。また演算部40はアイセンサカメラ42からの目周辺画像を取得する処理を行う。また演算部40は、登録情報と目周辺画像とに基づいて、登録情報に含まれる処理を選択する処理を行う。また演算部40は、選択した処理が実行されるように制御する。
 これらの演算部40の処理の詳細については後述する。
 なおカメラ制御部18は、演算部40の処理や他の処理のためにいわゆるAI(artificial intelligence)処理を行うものとしてもよい。
 メモリ部19におけるRAMは、カメラ制御部18のCPUの各種データ処理の際の作業領域として、データやプログラム等の一時的な格納に用いられる。
 メモリ部19におけるROMやフラッシュメモリ(不揮発性メモリ)は、CPUが各部を制御するためのOS(Operating System)や、画像ファイル等のコンテンツファイルの他、各種動作のためのアプリケーションプログラムや、ファームウエア、各種の設定情報等の記憶に用いられる。
 各種の設定情報としては、通信設定情報や、撮像動作に関する設定情報としての露出設定、シャッタースピード設定、モード設定や、画像処理に係る設定情報としてのホワイトバランス設定、色設定、画像エフェクトに関する設定などがある。
 またメモリ部19には、目周辺画像を用いた処理や各種のキャリブレーション処理のためのプログラムが記憶される。またメモリ部19には、これらの処理に用いるデータも記憶される。例えばメモリ部19は目周辺画像及び登録情報を用いた処理選択のためのデータベースとしても機能することができる。例えば後述の登録情報が記憶される。
 ドライバ部22には、例えばズームレンズ駆動モータに対するモータドライバ、フォーカスレンズ駆動モータに対するモータドライバ、絞り機構のモータに対するモータドライバ等が設けられている。
 これらのモータドライバはカメラ制御部18からの指示に応じて駆動電流を対応するドライバに印加し、フォーカスレンズやズームレンズの移動、絞り機構の絞り羽根の開閉等を実行させることになる。
 センサ部43は、撮像装置1に搭載される各種のセンサを包括的に示している。
 センサ部43としては例えばIMU(inertial measurement unit:慣性計測装置)が搭載される場合がある。IMUにより例えばピッチ、ヨー、ロールの3軸の角速度(ジャイロ)センサで角速度を検出し、加速度センサで加速度を検出することができる。これにより撮像装置1の重力方向に対する姿勢などが検出可能である。
 またセンサ部43としては、例えば圧力センサ、タッチセンサ、位置情報センサ、照度センサ、測距センサ等が搭載される場合もある。
<3.情報処理装置の構成例>
 次に図4で、本開示の情報処理装置の例として図1に示したPCやスマートフォンとしての端末装置100の構成例を説明する。
 端末装置100のCPU71は、ROM72や例えばEEP-ROM(Electrically Erasable Programmable Read-Only Memory)などの不揮発性メモリ部74に記憶されているプログラム、または記憶部79からRAM73にロードされたプログラムに従って各種の処理を実行する。RAM73にはまた、CPU71が各種の処理を実行する上において必要なデータなども適宜記憶される。
 CPU71、ROM72、RAM73、不揮発性メモリ部74は、バス83を介して相互に接続されている。このバス83にはまた、入出力インタフェース75も接続されている。
 なお端末装置100は、画像処理やAI(artificial intelligence)処理を行うことも想定されるため、CPU71に代えて、或いはCPU71と共に、GPU(Graphics Processing Unit)、GPGPU(General-purpose computing on graphics processing units)、AI専用プロセッサ等が設けられてもよい。
 入出力インタフェース75には、操作子や操作デバイスよりなる入力部76が接続される。例えば入力部76としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
 入力部76によりユーザの操作が検知され、入力された操作に応じた信号はCPU71によって解釈される。
 入力部76としてはマイクロフォンも想定される。ユーザの発する音声を操作情報として入力することもできる。
 また入力部としてはイメージセンサ(撮像部)、加速度センサ、角速度センサ、振動センサ、気圧センサ、温度センサ、照度センサなど、各種のセンシングデバイスも想定される。
 入出力インタフェース75には、LCD或いは有機ELパネルなどよりなる表示部77や、スピーカなどよりなる音声出力部78が一体又は別体として接続される。
 表示部77は各種表示を行う表示部であり、例えば端末装置100の筐体に設けられるディスプレイデバイスや、端末装置100に接続される別体のディスプレイデバイス等により構成される。
 表示部77は、CPU71の指示に基づいて表示画面上に各種の画像処理のための画像や処理対象の動画等の表示を実行する。また表示部77はCPU71の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を行う。
 入出力インタフェース75には、ハードディスクや固体メモリなどより構成される記憶部79や、モデムなどにより構成される通信部80が接続される場合もある。
 記憶部79には各種のプログラム、データファイル等が記憶される。データベースが構築される場合もある。
 通信部80は、インターネット等の伝送路を介しての通信処理や、各種機器との有線/無線通信、バス通信などによる通信を行う。
 入出力インタフェース75にはまた、必要に応じてドライブ81が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体82が適宜装着される。
 ドライブ81により、リムーバブル記録媒体82からは画像ファイル等のデータファイルや、各種のコンピュータプログラムなどを読み出すことができる。読み出されたデータファイルは記憶部79に記憶されたり、データファイルに含まれる画像や音声が表示部77や音声出力部78で出力されたりする。またリムーバブル記録媒体82から読み出されたコンピュータプログラム等は必要に応じて記憶部79にインストールされる。
 この端末装置100では、例えば本実施の形態の処理のためのソフトウェアを、通信部80によるネットワーク通信やリムーバブル記録媒体82を介してインストールすることができる。或いは当該ソフトウェアは予めROM72や記憶部79等に記憶されていてもよい。
 入出力インタフェース75には視線検出装置部41が接続される場合もある。視線検出装置部41は図3の撮像装置1の構成で説明したように、ユーザの視線検出のためのデバイスであり、例えばユーザの目に赤外線を照射する赤外線LEDや、ユーザの目を撮像する赤外線カメラなどにより構成される。
 入出力インタフェース75にはアイセンサカメラ42が接続される。アイセンサカメラ42についても図3で説明したように、例えば可視光のイメージセンサと撮像信号処理回路を有してなり、目周辺画像を撮像する。撮像した目周辺画像はCPU71による処理に用いられる。
 入出力インタフェース75には、センサ部43が接続される場合もある。センサ部23としては図3の撮像装置1の構成で説明したものと同様に、各種のセンシングデバイスが想定される。
 この端末装置100では、CPU71は、アプリケーションプログラムにより演算部40としての機能を備えるようにされる。この演算部40は、図3の撮像装置1で述べた演算部40と同様の処理機能である。
 また不揮発性メモリ部74、ROM72、記憶部79は、演算部40の処理に必要な情報の記憶が行われる。例えば後述する登録情報等が記憶される。
<4.演算部の機能構成及び登録情報>
 以上の撮像装置1や端末装置100における演算部40について説明する。
 図5は演算部40の機能構成を示している。演算部40は、アプリケーションプログラムにより実現されるソフトウェア機能構成として、画像取得部51、処理選択部52、登録情報取得部53、制御部54を備える。
 画像取得部51は、アイセンサカメラ42による撮像画像を処理対象として取得する機能である。アイセンサカメラ42は、例えば所定のフレームレートで継続して撮像動作を行っており、目周辺画像としての各フレームの画像データをカメラ制御部18又はCPU71に供給する。画像取得部51はこの各フレーム(或いは間欠的なフレーム)の画像データを逐次、処理対象として取り込む。
 登録情報取得部53は、記憶部55から、目および目の周辺の形状から判定される動作と、処理とが紐づけられた登録情報を取得する。
 記憶部55は、例えば図3の撮像装置1であればメモリ部19の記憶領域、図4の端末装置100であれば不揮発性メモリ部74や記憶部79の記憶領域として構成される。そして記憶部55は登録情報を記憶する。
 登録情報の例を図6に示す。
 登録情報は、ユーザの登録操作によって、或いは撮像装置1や端末装置100の製造者によるプリセット登録などとして、予め登録されている情報である。
 登録情報は、「動作」と「処理」を紐づけて記憶している。
 「動作」とは目及び目の周辺の形状により表現される動作である。説明上、このような目及び目の周辺の形状により表現される動作を「アイジェスチャ」ともいう。そしてアイジェスチャとしての具体的な態様が登録情報に登録される。登録情報に登録された動作を、説明上「登録動作」と呼ぶ。例えばアイジェスチャによって表現される動作として、図6の例では「目を強く瞑る」「ウインク」「驚愕」「笑顔」「眉を顰める」が登録動作とされていることを示している。
 登録情報では、これらの登録動作に対して処理を紐づけている。紐づけられた処理を説明上「登録処理」と呼ぶ。図6の例では、「目を強く瞑る」等の各登録動作に対してそれぞれ、「シャッター操作」「AF(オートフォーカス)操作」「AE(オートエクスポージャ)操作」「ピーキングアシスト操作」「ズームイン操作」の各種の操作の処理が登録処理として紐づけられている。なおピーキングアシストとはスルー画内で合焦位置をハイライトさせて提示する処理である。
 また、登録情報は、図7のようにユーザ毎に設けられるものでもよい。図7ではユーザU1、U2という個人毎に登録情報が記憶されている例を示している。
 例えばユーザU1に関する登録情報は、ユーザU1の個人識別情報とともに、「目を強く瞑る」「ウインク」「驚愕」「笑顔」「眉を顰める」等の登録動作と、「シャッター操作」「AF操作」「AE操作」「ピーキングアシスト」「ズームイン操作」等の登録処理が紐づけられている。
一方、例えばユーザU2に関する登録情報は、ユーザU2の個人識別情報とともに、「目を細める」「眉を顰める」「目を瞑る」「目に力を入れる(睨む)」「目を見開く」等の登録動作と、「決定操作」「シャッター操作」「連写操作」「ズームイン操作」「ズームアウト操作」等の登録処理が紐づけられている。
 例えばこの図6,図7の例のように、登録情報として、登録動作と登録処理が紐づけられている。
 なお記憶部55には、目周辺画像について登録動作との動作判定を行うためのデータも記憶されている。例えば動作に対応する形状データ、DNN(Deep Neural Network)学習モデルのデータセット、セマンティックセグメンテーションによる物体認識に用いるパターンデータなども記憶されている。
 さらに記憶部55には、ユーザ毎の目周辺の形状の個人差や動作の個人差に対応するキャリブレーションデータが記憶される場合もある。
 また記憶部55には、図7のように個人別の登録情報を用いる場合の個人認識のためのデータ、例えば虹彩パターンをコード化したコード情報や、目の形状のパターンデータなどが記憶される場合もある。
 図5の登録情報取得部53は、登録動作取得部53aの機能として、記憶部55から登録動作に関するデータを取得する。
 また登録情報取得部53は、登録処理取得部53bの機能として、記憶部55から登録処理のデータを取得する。
 処理選択部52は、登録情報と、目周辺画像とに基づいて、登録情報に含まれる登録処理を選択する機能である。
 この例では、処理選択部52は、符号化部52a、一致度計算部52b、選択部52cとしての処理を行うものとしている。
 符号化部52aは、画像取得部51が取得した目周辺画像のフレームについて符号化を行う。これは1フレームの目周辺画像について、機械学習モデルを用いた計算を行い、ユーザの目及び目の周辺で表現される「状態」を検出し、状態を示す符号化データを得る処理である。「状態」とは、その瞬間の目及び目の周辺の形状の状態、或いはその形状から推定される、感情・動作の状態である。具体例は後述する。
 符号化を行うアルゴリズムの例としては、機械学習モデルによるクラス分類やエッジ検出、前回画像との差分抽出等の画像処理が考えられる。
 これにより、どのような「状態」であるかをフレーム単位で検出する。
 一致度計算部52bは、顔周辺画像で表現される動作について、各登録動作との一致度を計算する。例えば一定時間の連続した「状態」の情報を顔周辺画像の「動作」とする。つまり一致度計算部52bは、現在から過去の所定フレーム期間において符号化部52aが求めた「状態」を「動作」とし、その「動作」と、各登録動作の間の一致度を計算する。
 なお一致度計算部52bは、上記のようにフレーム毎の符号化を行わず、複数フレームとしての動画データ自体と、各登録動作の一致度を計算するようにしてもよい。
 選択部52cは、一致度計算部52bで計算された一致度に基づいて、登録処理を選択する。例えば一致度が最も高い登録動作を判定し、その登録動作に紐づけられた登録処理を選択する。
 処理選択部52は、例えばこのように符号化部52a、一致度計算部52b、選択部52cの処理により、1つの登録処理を選択する。
 制御部54は、処理選択部52によって選択された登録処理が撮像装置1や端末装置100において実行されるように制御する。例えば「シャッター操作」が選択された場合、制御部54はシャッター処理(静止画の撮像記録処理)が実行されるように撮像装置1や端末装置100の動作制御を行う。
 なお図6,図7において登録処理としてはユーザの操作を実行する処理を例示したが、登録処理は操作に対応する処理に限られない。具体例は後述するが、各種の補助的な処理としてユーザへの通知、表示画面に関する処理、撮影状況に適した処理などもある。そのような操作以外の処理が登録処理とされていることで、制御部54は操作に応じた制御以外の制御を行う場合もある。
<5.第1の実施の形態>
 上記の演算部40による第1の実施の形態の処理例を説明する。登録動作の判定は、複数フレームの動画としての顔周辺画像単位で行ってもよし、一枚の画像(1フレーム)毎に「状態」を識別し、それらの組み合わせを「動作」として、登録動作との一致判定を行うようにしてもよい。第1の実施の形態では、比較的負荷が軽い処理となる、1フレーム毎の「状態」を識別する例で述べる。
 図8に演算部40の処理例を示す。
 ステップS101で演算部40の機能を実行するアプリケーションを開始する。つまり、アイセンサカメラ42により得られる目周辺画像に基づいてアイジェスチャを判定し、対応する処理を選択して実行するためのアプリケーションプログラムに基づく処理を開始する。このアプリケーションプログラムにより図5に示した画像取得部51、処理選択部52、登録情報取得部53、制御部54としての各機能の処理が、演算部40としてのプロセッサにおいて実行される。
 そして演算部40は、アプリケーションがステップS110で終了と判定されるまでは、ステップS102からステップS109として示す処理を繰り返す。
 ステップS102で演算部40は、アイセンサカメラ42により撮像されるユーザの目周辺画像の1フレームを取得する。
 なお取得した1フレームの撮像画像が、目周辺画像とはなっていない場合もある。例えば撮像装置1の場合は、ユーザがEVF5を覗いているときに目周辺画像が得られるが、覗いていないときは、目周辺画像は得られない。
 フローチャートでは示していないが、取得した1フレームが、目が映っていない画像であった場合は、演算部40はステップS103以降の処理を行わず、次のフレームの取得に進むことになる。
 ステップS103で演算部40は、取得した目周辺画像について上述の符号化部52aの処理によりユーザの「状態」を取得する。即ち上述のように機械学習モデルによるクラス分類等の手法で、ユーザの目及び目の周辺の形状で表現される「状態」を検出する。
 目周辺画像から判定できる「状態」の具体例を図9に示す。
 1フレームの目周辺画像からは、個人の目の形状や、左目、右目の別が判定できる。つまりユーザの個人識別のための形状情報や、左目、右目を示す情報などが、「状態」の情報の一例になる。
 また1フレームの目周辺画像からは、その時点の目の開き具合として、見開いた状態、通常の状態、閉じた状態、強く瞑る状態などが判定できる。これらも「状態」の情報の一例になる。
 また1フレームの目周辺画像からは、目の位置、向き、回転の状態が判定できる。例えばEVF5を覗いているユーザの目の位置、つまりEVF5に対する相対的な目の位置や向きの情報である。このような情報として、通常の位置や、X方向(水平方向)又はY方向(垂直方向)にずれた回転の状態、Z方向(EVF5に対する遠近方向)にずれた状態などがある。また、「下向き」として示すようにEVF5に対してユーザが上から覗きこんだときの状態、「上向き」として示すようにEVF5に対してユーザが下から覗き込んだときの状態、「横向き」として示すようにEVF5に対してユーザが左右方向から覗き込んだときの状態などもある。さらに撮像装置1の姿勢、つまりユーザが縦持ち、横持ちのいずれで撮像装置1を持つかによって、縦横が変化し、図の「縦持ち」のような状態もある。これらも「状態」の情報の一例になる。
 さらに「状態」としては、図示していないが、目の周辺のしわの形状や、眉毛の形状、位置、角度などの情報もあり、これらも「状態」の情報の一例になる。
 図8のステップS104で演算部40は、ユーザの「動作」を更新する。例えば今回のフレームから過去のNフレームにおける「状態」というように、一定の連続した「状態」の情報を現時点の「動作」とする。
 つまりフレーム毎に新規に「状態」が加えられ、一定時間以上前の「状態」は削除され、その一定時間における複数の「状態」が「動作」とされる。
 なお、前後の「状態」の判定結果と明らかに異なる結果が検出された場合は、外れ値として修正する等の処理をすることが望ましい。
 動作とは、図9のような「状態」の連続として把握するものであるため、「状態」の変化によって表現される動作や、或いは「状態」の継続によって表現される動作がある。
 例えば「状態」の継続による「動作」としては、「目を見開く」「目を強く瞑る」など、「状態」と同じ種別となる動作がある。例えば一定期間の状態が全て「目を見開く」であれば、「動作」も「目を見開く」と判定される。
 また「状態」の変化によって表現される「動作」としては、「連続ウインク」「一定間隔のウインク」「頭部の移動」「表情」などがある。
 「連続ウインク」「一定間隔のウインク」などは、ある期間において「目を開く」「目を瞑る」の「状態」が検出されたことで判定される。
 「頭部の移動」としては例えば「水平移動」「接近」「離隔」「回転」などがあるが、これらは「状態」としての位置や向きや回転の一定期間における変化によって判定できる。
 また「状態」の継続又は変化のいずれかで判定できる「動作」として「表情」がある。表情としては例えば「驚愕」「笑顔」「眉を顰める」「睨む」「侮蔑」などがあるが、これらは「状態」としての目の開き具合やしわの具合、眉の形状、角度などの一定期間における継続や変化によって判定できる。
 演算部40は、顔周辺画像の複数フレームのそれぞれの「状態」から以上の例のような「動作」を判定する。
 ステップS105で演算部40は、更新した「動作」について、全ての登録動作に対しての一致度を計算する。
 なお全ての登録動作とは、図6のように、個人別に登録していない場合は、記憶されている登録動作の全てである。図7のように、個人別に登録情報が用意されている場合は、目周辺画像からユーザの個人識別を行い、その個人について登録されている登録動作の全てである。
 また、全ての登録動作との一致度計算を行うのは一例であり、ある「動作」即ち一定期間の「状態」から推定されるいくつかの候補の登録動作を判定し、その候補の登録動作について一致度計算を行うようにしてもよい。
 演算部40は、目周辺画像から判定された「動作」と、例えば全ての登録動作との一致度計算を行ったら、一致度が閾値以上で、かつ一致度が最も高い登録動作を選択する。このため演算部40は、まずステップS106で、一致度が閾値以上の登録動作が存在するか否かを確認する。
 存在しなければ、現時点で登録動作に該当する動作(アイジェスチャー)は行われていないとしてステップS110を介してステップS102に戻る。つまりこの場合は、アイジェスチャによる処理制御は発動されない。
 一致度が閾値以上の登録動作が存在した場合は、演算部40はステップS107で、一致度が最大となる1つの登録動作が存在するか否かを確認する。
 複数の登録動作が最大の一致度となっている場合は、明確に動作を判定できていないとして、演算部40は、ステップS110を介してステップS102に戻る。この場合も、アイジェスチャによる処理制御は発動されない。
 一致度が最大となる1つの登録動作が存在した場合は、演算部40はステップS108に進み、その登録動作に紐づけられた登録処理を選択する。
 そしてステップS109で演算部40は、選択した登録処理が実行されるように制御する。例えば選択された処理がシャッター操作の処理であれば、演算部40は、シャッター操作に応じた静止画撮像記録の処理が実行されるように制御する。
 この図8の処理がステップS110でアプリケーション終了と判定されるまで繰り返されることで、アプリケーション発動中は、ユーザが任意の時点でアイジェスチャを行うことで、それに応じた操作処理等が実行される。
 なお、ステップS108の際に演算部40は、動作の判定結果や処理の選択結果をアイコンや文字で画面に表示させ、ユーザに通知するようにしてもよい。効果音や音声で通知しても良い。またこのような通知に対して、ユーザが首を振るなどした場合に、その選択をキャンセルするようにしてもよい。例えばユーザの意図にそぐわない処理が実行されようとしたときに、ステップS110の処理を実行せずにキャンセルできるようにする。
 以上の図8の処理における一致度計算に応じた処理の選択の例を説明する。
 例えば一致度の計算結果が図10のような場合を考える。図10の例は、登録情報として「目を強く瞑る」「ウインク」「驚愕」「笑顔」「眉を顰める」という登録動作が存在する場合において、それぞれに対して算出された一致度を示している。
 演算部40は、ステップS106で一致度と閾値を比較する。
 なお、図10の例では、閾値が登録動作毎に異なるようにしている。これは、登録動作に紐づけられる登録処理として、発動しやすさを調整するためである。例えばシャッター操作など、間違って発動しても特に問題ない登録処理に対応する登録動作は、閾値を低めにし、発動しやすくする。一方、画像の削除操作などの登録処理があった場合、それを紐づけている登録動作については、閾値を高めにし、慎重にアイジェスチャの判定を行うようにする。
 もちろん、これは一例であり、全ての登録動作について閾値を同じとしてもよい。
 図10の例では「驚愕」の一致度が閾値を超えている。従って演算部40は、ステップS107に進む。またこの場合、一致度が最大となる登録動作は「驚愕」のみである。そこで演算部40はステップS108,S109に進み「驚愕」に対応する登録処理、例えば図6の登録情報の例によればAE操作に対応する処理が行われるように制御する。
 図11の例は、一致度が閾値を超える登録動作として「目を強く瞑る」「眉を顰める」のように複数存在し、かつこれらの一致度が最大値で同じ場合である。このような場合、演算部40はステップS107からステップS102に戻り、処理を発動させない。
 図12の例は、一致度が最大値の登録動作として「笑顔」があるが、一致度が閾値を超える登録動作が存在しない場合である。このような場合、演算部40はステップS106からステップS102に戻り、処理を発動させない。
 なお以上の処理は一例である。例えばステップS106の閾値の判定を設けず、図12のように一致度が最大となる登録動作があれば、その登録動作に紐づけられた登録処理の制御を実行してもよい。
 また図11のように一致度が最大値となる登録動作が複数存在する場合は、いずれかを選択して、対応する処理の実行制御を行うようにしてもよい。例えば処理に優先順位をつけておき、その優先順位に照らして、いずれかを選択することが考えられる。
<6.第2の実施の形態>
 第2の実施の形態は、以上の図11,図12のように、一致度が閾値以上となる登録動作が存在しない場合や、一致度が最大値となる登録動作が複数存在する場合にユーザに通知を行う例である。
 図13に演算部40の処理例を示す。なお以降の各実施の形態のフローチャートにおいて、既述の処理と同一の処理は同一のステップ番号を付し、重複説明を避ける。
 この図13の処理例では、ステップS106で、一致度が閾値以上の登録動作が存在しないと判定された場合に、演算部40はステップS120に進み、一致度の最も高い動作に関する情報を通知する処理を行う。
 例えば図12の場合、「笑顔」が最も一致度が高いが、閾値より低いことで、アイジェスチャの確からしさが低い。そこで演算部40は、EVF5等の表示部15などにおいて「目を細めて笑ってください」などのメッセージ表示を実行させ、ユーザによりはっきりした笑顔とするように通知する。これによりユーザが、通知に応じて、よりはっきりしたアイジェスチャを行うようになることが期待できる。
 またステップS107で、一致度が最大となる登録動作が複数存在すると判定した場合は、演算部40はステップS121に進み、各動作を区別するための情報を表示する制御を行う。
例えば図11のように「目を強く瞑る」「眉を顰める」がともに一致度が最大値となった場合、「瞑る時間を長くするか、もう少し眉を動かしてください」といった通知を文字やアイコンで示すように制御することが考えられる。
 これによってもユーザが、よりはっきりしたアイジェスチャを行うようになることが期待できる。
<7.第3の実施の形態>
 第3の実施の形態の処理例を図14に示す。この図14は、上記の図6又は図13におけるステップS102とステップS106の間の処理の変形例である。
 登録情報は図7のように、個人毎に対応して登録されているとする。
 ステップS102で目周辺画像のフレームを取得したら、演算部40は図14のステップS130で、その目周辺画像によりユーザが登録されたユーザか否かの判定を行う。例えば目周辺画像における目の形状を登録されたユーザの目の形状と比較する。虹彩認証によって登録ユーザであるか否かを判定してもよい。
 もし登録されたユーザの目周辺画像ではないと判定したら、演算部40は、ステップS131からステップS110を介してステップS102に戻る。
 つまり登録されたユーザでなければ、アイジェスチャの判定に応じた処理を発動させないようにする。
 一方、登録されたユーザと判定したら、演算部40はステップS104,S105で「状態」の判定及び「動作」の更新を行い、ステップS132で今回判定したユーザ個人に対応する登録情報を取得する。そしてステップS106Aで、その該当ユーザの登録情報に含まれている登録動作のそれぞれと、ステップS105で判定した「動作」との一致度を計算する。そして演算部40は、ステップS106以降、図6又は図13で説明した処理を行う。
 このような図14の処理例により、登録したユーザについてのみ、アイジェスチャによる処理を発動させることができる。
<8.第4の実施の形態>
 第4の実施の形態の処理例を図15に示す。この図15は、上記の図6又は図13におけるステップS109とステップS110の間の処理を加える例である。
 ステップS109で選択した処理の制御を実行した場合に、演算部40は、ステップS150で、ユーザの否定的動作を判定する。
 例えばシャッター操作などの処理が行われた直後の所定時間(例えば2秒程度)において、ユーザの顔周辺画像から、眉を顰める、驚くなど、処理動作に対して否定的と推定できる動作の有無を判定する。ユーザが頭部を左右に振った場合、それを否定的な動作としてもよい。
 特に否定的動作が検出されなければ、演算部40はステップS110を介してステップS102に戻る。一方否定的動作が検出されたら、演算部40はステップS152に進んで、実行処理に応じた対応処理を選択する。
 ユーザが否定的動作を示した場合とは、アイジェスチャに応じて実行した処理が、ユーザの意にそぐわなかった場合と推定する。そこで、その実行した処理のリカバリーをするような対応処理を行う。但し、実行した処理の種別によって適切な対応処理が異なるとして、処理毎に対応処理を選択するものとする。
 例えばシャッター操作に応じて静止画撮像記録処理を実行した場合は、ユーザに対しての大きな損害はないと考えられるため、通知のみとする。一方、画像の削除の処理を実行した場合は、比較的重大な誤動作となるため、削除をキャンセル(削除画像の復元)するとともに通知を行うなどである。AF処理などを実行した場合は、キャンセル(AFの解除)のみでよいとすることもできる。
 ステップS152の対応処理選択によって、処理のキャンセルを実行するとした場合は、演算部40はステップS153からステップS154に進み、キャンセル処理を行う。なおステップS154のキャンセル処理については、キャンセルするか否かの問い合わせ通知を行い、ユーザがキャンセルを許容する操作(アイジェスチャを含む)を行った場合にキャンセル処理を実行するようにしてもよい。
 またステップS152の対応処理選択によって、メッセージ等の通知を実行するとした場合は、演算部40はステップS155からステップS156に進み、ユーザに対して必要な通知処理を行う。例えばアイジェスチャによる処理でシャッター処理を行った旨等を通知する。
 このような図15の処理例により、アイジェスチャによる処理を発動させたことについてユーザにとって適切でなかったと推定した場合にリカバリーすることができる。
<9.第5の実施の形態>
 第5の実施の形態として、複数フレームの動画により一致度計算を行う例を図16に示す。
 演算部40はステップS201でアプリケーションを開始したら、ステップS208でアプリケーション終了となるまで、ステップS202からステップS207の処理を繰り返す。
 ステップS202で演算部40は、目周辺画像としての動画を取得する。この場合、ある一定期間の動作を撮像した複数フレームを処理対象とする。
 そしてステップS203で演算部40は、複数フレームの動画に対してDNN処理などを行い、登録動作との一致度を計算する。
 ステップS204からステップS207は、図8のステップS106からステップS109の処理と同様である。
 このように複数フレームの単位で登録動作との一致度を判定する処理例も想定される。但しその場合、図8のようなフレーム毎に「状態」を判定する処理よりも処理負担が大きくなるという事情があるため、処理能力に余裕がある装置において適用することが望ましい。
<10.各実施の形態における動作と処理>
 以下では、ここまで説明した第1から第5の実施の形態の処理例において適用できる動作と処理について説明する。
 上述のように登録情報を備え、また目周辺画像を取得して動作を判定し、処理を選択することで、撮像装置1や端末装置100においてアイジェスチャに応じた各種の処理が実現できる。例えば次のような処理である。
・目を強く瞑るとシャッター操作として、静止画撮像記録処理が行われる。
・目を大きく見開くとAFやAEが行われる。
・目に力を入れる(睨みつける)とズーム動作やピーキングアシストが行われる。
・笑ったり驚いたりするとシャッター操作として、静止画撮像記録処理が行われる。
・静止画撮像記録の直後の画像プレビュー時に、眉間にしわが寄るとプレビュー画面を即時終了させる。
・画像プレビュー閲覧時にユーザが笑顔であると判定したら、画像にタグをつけたり、プロテクトをかけたりする。
・設定値変更の通知時にユーザが目をつぶっていた場合、目が開いてから再度通知する。
・ダイヤル操作で値を変更する際に、結果を見ながら眉間にしわが寄った場合、値を変更しすぎたと判断して値を戻す。
・眩しくてユーザが目を細めると、露出を下げたり、EVF5の輝度を下げたりする。
 以上はアイジェスチャとしての動作に対応する具体的な処理例である。
 このような動作と処理の組み合わせはユーザ或いは製造者が事前に設定し、登録情報として登録する。
 以下、これら例示した操作と処理について説明する。
 操作と処理の組み合わせの例としては、操作系の動作及び処理と、操作補助系の処理がある。まず操作系の動作及び処理の例を示す。
 目を強く瞑る動作については、例えばシャッター操作、決定操作としての処理が考えられる。瞑っている時間に応じて連写操作としてもよい。
 目を大きく見開く動作については、AF処理、AE処理を対応づけることが考えられる。AF処理、AE処理はEVF5に表示しているスルー画におけるカーソル(マウスカーソル)の位置に対して実行する例がある。
 また視線検出装置部41を備えて視線検出可能な場合は、EVF5等の表示における視線の先の被写体を対象としてAF処理、AE処理を行うようにしてもよい。
 目をほそめて睨みつけるという動作については、例えばズーム処理やピーキングアシスト処理を対応づけることが考えられる。これもEVF5の表示画像におけるカーソル(マウスカーソル)の位置に対して実行する例がある。また視線検出装置部41を備えて視線検出可能な場合は、EVF5等の表示における視線の先の被写体を対象としてピーキングアシスト処理を行うようにしてもよい。
 また操作系の動作として、例えばアイジェスチャによる複合的な動作を登録動作としてもよい。
 例えば「目を細める」という動作と「頭部の動き」という動作を組み合わせる。
 図17Aは、EVF5においてプレビュー画像30を見ている様子を示している。このようなプレビュー画像30に表示状態で、ユーザが図17Bのように目を細めながら、図17Cのように頭部を上下左右に動かすことで、演算部40は、プレビュー画像30のドラッグ操作と認識し、画像を移動させるようにする。
 また図17Dのように、ユーザが目を細めた上で頭部を前後に動かすことに応じて、演算部40は、プレビュー画像30の拡大・縮小操作と認識して画像の拡大・縮小制御を行うようにしてもよい。
 さらに図17Eのように、ユーザが目を細めた上で頭部を左右に振ること応じて、演算部40は、プレビュー画像30を次の画像にスキップする操作と認識して表示上の画像送り制御を行うようにしてもよい。
 次に操作補助系の処理を例示する。例えば演算部40は、アイジェスチャとして判定される動作から推定される状況への対応処理を行うようにする。
 個人識別、目の左右の別、撮像装置1の横持ち/縦持ちなどに応じて、それぞれで保存しているデータを呼び出す処理が考えられる。
 例えば上述のように個人に応じて登録情報が記憶される場合は、個人識別に応じて登録情報を選択して呼び出す。
 また目及び目の周囲の形状は個人毎や、目の左右により異なるため、ある程度キャリブレーションを行うことが想定される。そのようなキャリブレーションデータを記憶する場合は、個人認識や目の左右の認識に応じてキャリブレーションデータを呼び出すようにする。
 横持ち/縦持ちによっても登録情報やキャリブレーションデータを選択することが適切である。
 頭部位置によって補助的な処理を行うこともできる。
 例えば頭部の覗き込み位置を検出して、EVF5等に表示するGUIやライブビュー画像や記録した画像の再生画像を、頭の位置に追従させる。
 また視線検出装置部41を有する場合、検出精度向上のため頭部位置によって点灯する赤外線LEDの位置を変更するようにしてもよい。
 目つぶりの検出によって補助的な処理を行うこともできる。
 例えば何らかの設定値変更を行い、その旨をユーザに通知するタイミングでユーザが目をつぶっていたことを検知した場合、目が開いてから再度通知するようにする。
 目を細めることに対応して、眩しい状況として補助的な処理を行うことができる。例えばユーザが目を細めた場合、露出を下げたり、EVF5の輝度を下げたりする。
 笑顔などの感情の判定により補助的な処理を行う例もある。
 例えば撮影した画像のプレビュー時にユーザが笑顔になったり驚きを示したりした場合、その画像にお気に入りのタグを付けたり、プロテクト設定を行うなどの処理を行ったりする。
 眉間にしわを寄せるなど、否定的な感情の動作を検知した場合は、次のような処理例がある。
 例えばシステム側の通知(ポップアップ等)に対して、否定的感情の動作を検知したら、そのような通知を即時終了させる。或いは以降、通知を行わないような設定変更の処理を行う。
 また画像のプレビュー時に否定的な感情の動作を検知したら、その画像のプレビューを即時に終了させる。
 また各種の値の入力、ダイヤル操作などの過程で否定的な感情の動作を検知したら、値の設定を元に戻す。
 またユーザが目を細めるなど、「見えづらさ」を示す動作を行った場合は、表示が小さくて見えにくいと判定して、表示の拡大や、表示を簡略化して見やすくする処理を行う。
 「見えづらさ」を示す動作に応じて、キャリブレーションの際に、年齢や適正なサイズを設定しても良い。
 以上の例示のような動作と処理の関係は、予め登録情報として記憶させておく。
 動作と処理の登録の手順の例を説明する。
 まずユーザは、撮像装置1や端末装置100としてのデバイス上で実行可能な処理を選択する。
 なお、同じ動作であっても、対象毎(被写体、撮影モード、プレビュー時等)に異なる処理を設定して良い。
 続いてユーザは、その処理に紐づける動作(アイジェスチャ)を行う。アイジェスチャについては、複数回を行い、システム側でキャリブレーションや学習処理を行うことが適切である。
 この場合に目周辺画像から観測される目や目の周辺の形状や、形状の変化を示す情報を登録動作とする。
 またユーザは登録動作について一致度の閾値(S106参照)を設定する。
 ここで、登録動作の入力としてアイジェスチャを実行する場合、まずユーザの真顔を登録することが望ましい。
 その上で、システムが提示する情動(笑い・驚き・怒り等)に応じて、ユーザがアイジェスチャを行う。これを複数回行い、システム側でキャリブレーションや学習を行う。これにより、個人に適合した動作の情報を登録することができる。
 以上のようにユーザ個人が登録を行うようにすることで、そのユーザのアイジェスチャに適合した登録動作が記憶され、またユーザの望む登録処理が紐づけられる。
なおユーザが自身で登録しなくても、デバイスがプリセットデータとして、登録動作と登録処理の組み合わせによる登録情報を記憶していても良い。
 目及び目の周辺の動作(アイジェスチャ)の登録は、実際に使用するデバイス上で行うことが望ましい。
 また登録内容をクラウド上に保存して、別デバイスで呼び出すことができるようにしてもよい。
 登録動作は、複数の動作の組み合わせで設定可能としてもよい。複数の動作の組み合わせとすることで、誤作動防止に適している。例えば目を見開いてから強く瞑るとシャッター操作であるとする。
 アイジェスチャと他の操作(ボタン入力、音声入力)と組み合わせても良い。例えば「シャッター」と発声を行い、かつ目つぶりを行うことでシャッター操作とする。
 登録動作については、ユーザ毎に設定を保存することや、繰り返しキャリブレーションを行うことで精度を向上させることが望ましい。
 使用中の操作が成功する度にバックグラウンドでキャリブレーションを行って精度を更新しても良い。
 登録していないユーザがデバイスを使った場合は、図14のように処理を発動させないのではなく、他のユーザの登録情報を活用して、本例の機能を発動させてもよい。
 また、撮像装置1等で、縦持ち、横持ちが行われる場合、例えば縦持ち時の登録動作の情報を回転させて横持時の登録動作のデータとして利用して良い。
 また太陽光などが眩しい屋外で、真顔状態でも眉間にしわがよってしまう場合は、動作を判定する閾値を変更させて誤作動を防ぐことが考えられる。
 そのような状況に合わせた真顔データを別に保存しておくようにしてもよい。また真顔を更新し、登録動作を自動で修正してもよい。
 また、目周辺画像やその他センサから心拍、発汗、鳥肌など生体情報が取得できる場合はそれらと組み合わせた登録動作を記憶しても良い。
<11.まとめ及び変形例>
 以上の実施の形態によれば次のような効果が得られる。
 実施の形態の情報処理装置は、撮像装置1や端末装置100として実現される。或いは演算部40の機能を有するプロセッサとして実現される。
 このような実施の形態の情報処理装置は、目および目の周辺の形状から判定される動作と、処理とが紐づけられた登録情報を取得する登録情報取得部53と、目周辺画像を取得する画像取得部51と、登録情報と目周辺画像とに基づいて登録情報に含まれる登録処理を選択する処理選択部52と、処理選択部52が選択した処理(登録動作に紐づけられた処理)が行われるように制御する制御部54を備える。
 即ち演算部40は、目周辺画像を取得して、目及び目の周辺による動作(アイジェスチャ)を判定する。そして登録情報においてアイジェスチャに合致する登録動作に紐づけられた登録処理を選択し、当該登録処理が実行されるように制御する。
 これによりユーザは、手がふさがっている状態でもアイジェスチャのみで撮影等に関する操作が可能になる。また情報処理装置は、ユーザの意図を推測しそれに応じた操作補助処理を行うことが可能になる。
 特に、目だけでなく目の周辺も含めて目の動作を判定する。例えば単に目の開き具合だけでなく、目の周辺のしわ等の動きも識別に利用する。これにより、例えば同じ目を閉じた状態であっても、強く目をつぶっているのか、軽く目をつぶっているのか、という識別が可能となる。また、目の開き具合以外から得られる情報も多い。従ってより多様な動作を判定し、処理と結びつけることができる。
 また目の周辺も含めて判定することで、人々の多様な目の形状に関わらず、より精度良くアイジェスチャを判定できる。例えば目の大きい人、細い人などによらず、目の動作を精度良く判定できる。
 またアイジェスチャを登録動作と比較するものであることで、操作等として有効なアイジェスチャと、操作等としては無効(未登録)のアイジェスチャを区別できることにもなる。
 実施の形態では、処理選択部52は、目周辺画像に現れる動作と、登録情報における登録動作との一致度を計算し、一致度が一定の数値(閾値)を満たした登録動作に紐づけられた登録処理を選択する例を挙げた(図8、図13、図16参照)。
 動画或いは静止画としての複数のフレームで観測される動作と、各登録動作の一致度を判定し、一致度が一定の閾値以上の登録動作を判定する。そして、その登録動作に応じた登録処理を選択する。これにより、閾値に満たない登録動作は選択されないので、各種の動作の中で、確からしさの高い動作を判定できる。
 実施の形態では、処理選択部52は、目周辺画像に現れる動作と、登録情報における全ての登録動作との一致度を計算し、登録された動作の中で最も一致度が高い動作に紐づけられた処理を選択する例を述べた(図8、図13、図16参照)。
 撮像した目周辺画像について、全ての登録動作との一致度を計算することで、ユーザの元々の目の形状による動作の誤判定の防止に有効である。例えば目の形状、大きさ、細さ、まぶたの状態、しわの寄り方などは、ユーザ毎に異なるが、全ての登録動作と比較することで、そのユーザの目付近の形状に応じて、最も確からしい登録動作を判定できるためである。
 第1の実施の形態では、処理選択部52は、目周辺画像のフレーム毎に目および目の周辺の状態の判定を行って符号化することで得られる、一定期間における状態の符号化情報を、目周辺画像に現れる動作の情報として、登録動作との一致度を計算する例を挙げた(図8参照)。
 フレーム毎に目および目の周辺の「状態」を機械学習モデルによるクラス分類などの処理により判定して符号化しておく。そして各時点の状態(状態の変化)を「動作」とする。その「動作」を登録動作と比較することで確からしい動作を判定できる。このように静止画毎に「状態」として符号化しておくことによれば複数フレームの画像についてDNN等に入力して動作判定するよりも、処理負担を極めて軽くできる。
 第2の実施の形態では、演算部40は、登録動作のうちで動作の候補が複数得られた場合、ユーザに対する通知の制御を行う例を述べた(図13参照)。
 例えばユーザに対し、よりはっきりしたアイジェスチャを促すような通知を行うようにする。これにより操作認識の正確性を高めることができる。複数のいずれを選択するかを求めるような通知を行っても良い。
 第2の実施の形態では、演算部40は、目周辺画像に現れる動作と登録動作との一致度を算出した際に、登録動作のいずれについても一致度が一定の数値(閾値)を満たさなかった場合、ユーザに対する通知の制御を行う例を述べた(図13参照)。
 例えばユーザに対し、よりはっきりしたアイジェスチャを促すような通知を行うことで、操作認識の正確性を高めることができる。或いは一致度は低いが最大のものを選択する旨の通知を行うようにしてもよい。
 実施の形態では、登録情報には、ユーザの個人を識別する個人識別情報が含まれる例を挙げた(図7参照)。
 目及び目の周辺の画像によれば個人識別が可能となる。登録情報として個人識別情報を含むようにすれば、ユーザの個人識別に応じた対応が可能となる。
 処理選択部52は、個人識別情報に基づいて、取得した目周辺画像が登録されたユーザの目周辺画像であるか否かを判定し、登録されたユーザではない場合は処理の選択を行なわないとする例を挙げた(図14参照)。
 すなわち登録されたユーザでなければ、アイジェスチャによる処理を発動させないようにする。これにより、登録した特定のユーザのみアイジェスチャ操作等が可能となる。換言すれば、アイジェスチャ機能を知らないユーザの使用時に機能を発動させて、そのユーザを混乱させてしまうことを防止できる。
 第3の実施の形態では、登録情報には、個人識別情報に対応して、目および目の周辺の形状から判定される動作と処理とが紐づけられているとした。そして処理選択部52は、登録情報における、個人識別情報に基づいて識別されるユーザに応じた登録動作と登録処理の情報を用いて、動作の判定と処理の選択を行う例を挙げた(図7,図14参照)。
 これによりユーザ毎に目周辺画像で表現されるアイジェスチャを登録動作とすることができ、判定の正確性を向上させることができる。キャリブレーションデータもユーザ毎に蓄積できる。
 またユーザ毎に任意の操作をアイジェスチャとして登録できる。またユーザ毎に必要な補助処理を設定できるようになる。
 以上により、複数のユーザが使用する装置であっても、各ユーザに適したアイジェスチャ対応処理が可能になる。
 実施の形態では、目周辺画像は、眉の形状または目の周辺のしわの形状を含む画像であるとした。
 目及び目の周辺の画像として、眉やしわの形状も含むことで、単に目の状態による判定よりも正確なアイジェスチャの判定ができるようになる。
 特に目の形状が人によって様々であることから、眉やしわの形状を含めることで、目の開き具合、目の閉じ具合、感情表現などが判定しやすくなる。
 実施の形態において処理選択部52が選択する登録処理は、ユーザの操作に応じた操作対応処理を含むものとした。
 つまりアイジェスチャを、シャッター操作などの「操作」として認識し、その操作に対応した処理を制御部54が実行するようにする。これによりユーザは意識的な操作をアイジェスチャにより行うことが可能になる。
 また処理選択部52が選択する登録処理には、カメラについての撮像画像の記録操作、ズームイン操作、ズームアウト操作についての操作対応処理を含むものとした。
 例えばアイジェスチャとして撮像操作を可能とする。撮像操作とは、静止画撮像としてのシャッター操作や、動画撮像のための録画開始操作などである。或いはアイジェスチャとしてズームイン、ズームアウトとしてのズーム操作を可能としてもよい。
 これらは比較的頻繁に行われる操作であるため、アイジェスチャで可能とすることで操作性向上に有効である。
 実施の形態において処理選択部52が選択する登録処理は、特定の操作画像又は視線検出により特定される画像に関する操作対応処理を含むものとした。
 例えばマウスカーソルやアイコンなどの特定の操作画像や、視線検出で特定されるアイコン、静止画などの画像に関する操作、例えばドラッグ操作、拡大縮小操作などを、アイジェスチャにより可能とする。これによりGUIによる操作としての多様な操作をアイジェスチャにより可能とすることができる。
 実施の形態において処理選択部52が選択する登録処理は、判定される動作から推定される状況への対応処理を含むものとした。
 例えば操作補助系の処理例として各種を例示したように、判定される動作から推定される状況に対して自動的に対応するような対応処理を行うことで、装置の使用性、利便性を向上させることができる。例えばユーザのまぶしそうな動作に応じて表示輝度を下げるなどである。これはユーザの無意識のアイジェスチャにも対応する処理といえる。
 第4の実施の形態では、処理選択部52は、目周辺画像により、制御部54による制御の実行に対しての否定的な動作を判定した場合、対応処理を選択し、制御部54は対応処理が行われるように制御する例を挙げた(図15参照)。
 例えばアイジェスチャによる何らかの操作系の処理や操作補助系の処理を実行した際に、ユーザにとって、その処理が本意でない場合がある。その際の否定的な意思を目及び目の周辺の画像から判定し、通知やキャンセル等の対応処理を行う。これにより、ユーザが意図しない操作と認識してしまった場合のリカバリーができるようにする。
 以下、本開示の技術の変形例や応用例をさらに述べる。
 視線検出装置部41が搭載されている撮像装置1や端末装置100の場合、目周辺画像から判定される目の形状によって左右、縦持ち、個人を識別し、視線検出のためのキャリブレーションデータを自動で切り替えるようにすることができる。
 なお視線検出は、目の「基準点」と「動く部分(動点)」を見つけ、基準点に対する動点の位置から視線を検出する。例えば角膜反射法は、点光源を角膜に照射した状態の目を撮影し、この角膜反射像(プルキニエ像)から求まる角膜曲率中心を基準点、動点を瞳孔として計測する。そして動点と基準点の位置から視線方向を算出する。このような視線検出処理を行うためには個人差に応じたキャリブレーションが必要になる。そこで、目周辺画像から個人識別を行い、視線検出のためのキャリブレーションデータを自動で切り替えるようにすることは、視線検出精度の向上に有効である。
 また、この切り替え時に文字またはアイコンでユーザに通知を行うとよい。
 例えば、「右目を検出したので、右目データに切り替えました」「縦持ちを検出したのでデータを切り替えました」等の通知を行う。
 もし通知に対して眉を顰めるなどのユーザのネガティブな反応があった場合は、切り替えを中止するようにしてもよい。
 視線検出時に覗き方が悪く視線検出が行いづらい場合は、頭の位置を正しく移動するようガイド通知を表示することもできる。
 例えば図18Aは、ユーザが撮像装置1のEVF5を上方から覗いており、視線検出が行いづらい状況であるとする。このような頭部の位置は目周辺画像から判定できる。そこで図18BのようにEVF5の表示で、正面からEVF5を覗くような通知を行う。これにより図18Cのようにユーザが頭部の姿勢を正すことが期待できる。
 このような通知は、視線検出のキャリブレーション時に行ってもよい。
 実施の形態では本技術の情報処理装置として撮像装置1や端末装置100を挙げた。目周辺の領域が撮影可能な構成とされることで、スマートフォンやPC等の端末装置100でも本技術を実現できる。
 なお、スマートフォン等では、ユーザ自身を映すカメラが広角である場合が多いため、顔検出機能を用い、目周辺の画像のみを切り出し、切り出した目周辺画像を用いて本実施の形態の処理を行うようにする。
 本開示の技術をスマートフォンに適用する場合、自撮り撮影時は片手で筐体を把持するため、操作が行いづらい。そこで、片目を強く瞑って、その動作終了後にシャッター処理を行うなど、動作と処理を登録することで、使用性を向上させることができる。
 PCの場合、両手で操作を行っている場合が多く、目によるジェスチャ入力が有効である。例えばタイピング中に目を見開いて強く閉じるとスクリーンショットを撮影するなどの例が考えられる。
 またPC等において視線検出と組み合わせるようにしてもよい。
 例えばポップアップ通知を見ながら睨むと、通知が即座に消えるようにする。
 またポップアップ通知を見て驚くと、その通知内容の詳細が表示されるようにする。
 また、無効になっているウインドウを見ながら目を強く瞑ると、有効になるようにする。
 撮像装置1や端末装置100におけるアイセンサカメラ42は、目の中心から眉が入る程度の画角であり、それが撮影可能であればどのような構成でもよく、どのような配置でも良い。接眼検知用、視線検出用などの他用途のカメラをアイセンサカメラ42として利用しても良い。
 また撮像装置1や端末装置100としてのデバイスに測距センサ、圧力センサ、タッチセンサなどを設置し、表情筋の動作を検知して、アイジェスチャの判定に用いてもよい。
 また物理的な操作子、若しくはシステム上の操作子として、アイジェスチャによる入力の有効・無効スイッチを設けてもよい。
 アイジェスチャ入力について、ある登録動作/登録処理を判定した後にユーザによって無効にされたら、その判定は間違いであるという判定をし、学習処理を行うことも適切である。
 実施の形態のプログラムは、上述の図8、図13、図14、図15、図16のような処理を、例えばCPU、DSP等のプロセッサ、或いはこれらを含むデバイスに実行させるプログラムである。
 即ち実施の形態のプログラムは、目および目の周辺の形状から判定される動作と、処理とが紐づけられた登録情報を取得する手順と、目周辺画像を取得する手順と、登録情報と目周辺画像とに基づいて登録情報に含まれる登録処理を選択する手順と、選択した処理が行われるように制御する手順と、を情報処理装置に実行させるプログラムである。
 このようなプログラムにより、上述した演算部40の処理を実行する情報処理装置を、各種のコンピュータ装置により実現できる。
 このようなプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのHDDや、CPUを有するマイクロコンピュータ内のROM等に予め記録しておくことができる。また、このようなプログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)、MO(Magneto Optical)ディスク、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc(登録商標))、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
 また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。
 またこのようなプログラムによれば、実施の形態の情報処理装置の広範な提供に適している。例えばパーソナルコンピュータ、通信機器、スマートフォンやタブレット等の携帯端末装置、携帯電話機、ゲーム機器、ビデオ機器、PDA(Personal Digital Assistant)等にプログラムをダウンロードすることで、これらの装置を本開示の情報処理装置として機能させることができる。
 なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
 なお本技術は以下のような構成も採ることができる。
 (1)
 目および目の周辺の形状から判定される動作と、処理とが紐づけられた登録情報を取得する登録情報取得部と、
 目および目の周辺の画像を取得する画像取得部と、
 前記登録情報と前記画像とに基づいて、前記登録情報に含まれる処理を選択する処理選択部と、
 前記処理選択部が選択した処理が行われるように制御する制御部と、を備える
 情報処理装置。
 (2)
 前記処理選択部は、
 前記画像に現れる動作と、前記登録情報における動作との一致度を計算し、一致度が一定の数値を満たした動作に紐づけられた処理を選択する
 上記(1)に記載の情報処理装置。
 (3)
 前記処理選択部は、
 前記画像に現れる動作と、前記登録情報における全ての動作との一致度を計算し、登録された動作の中で最も一致度が高い動作に紐づけられた処理を選択する
 上記(1)又は(2)に記載の情報処理装置。
 (4)
 前記処理選択部は、
 前記画像のフレーム毎に目および目の周辺の状態の判定を行って符号化することで得られる、一定期間における状態の符号化情報を、前記画像に現れる動作の情報として、前記登録情報における動作との一致度を計算し、一致度に基づいて動作を判定し、判定した動作に紐づけられた処理を選択する
 上記(1)から(3)のいずれかに記載の情報処理装置。
 (5)
 前記処理選択部が前記画像に現れる動作と前記登録情報における動作との一致度に基づいて動作を判定し、判定した動作に紐づけられた処理を選択する場合において、
 複数の動作の候補が得られた場合、ユーザに対する通知の制御を行う
 上記(1)から(4)のいずれかに記載の情報処理装置。
 (6)
 前記処理選択部が前記画像に現れる動作と前記登録情報における或る動作との一致度に基づいて動作を判定し、判定した動作に紐づけられた処理を選択する場合において、
 前記登録情報における動作のいずれについても一致度が一定の数値を満たさなかった場合、ユーザに対する通知の制御を行う
 上記(1)から(5)のいずれかに記載の情報処理装置。
 (7)
 前記登録情報には、ユーザの個人を識別する個人識別情報が含まれる
 上記(1)から(6)のいずれかに記載の情報処理装置。
 (8)
 前記処理選択部は、
 前記個人識別情報に基づいて、前記画像が、登録されたユーザの画像であるか否かを判定し、登録されたユーザではない場合は処理の選択を行なわない
 上記(7)に記載の情報処理装置。
 (9)
 前記登録情報には、前記個人識別情報に対応して、目および目の周辺の形状から判定される動作と処理とが紐づけられており、
 前記処理選択部は、前記登録情報における、前記個人識別情報に基づいて識別されるユーザに応じた動作と処理の情報を用いて、動作の判定と処理の選択を行う
 上記(7)又は(8)に記載の情報処理装置。
 (10)
 目および目の周辺の画像は、眉の形状または目の周辺のしわの形状を含む画像である
 上記(1)から(9)のいずれかに記載の情報処理装置。
 (11)
 前記処理選択部が選択する処理は、ユーザの操作に応じた操作対応処理を含む
 上記(1)から(10)のいずれかに記載の情報処理装置。
 (12)
 前記処理選択部が選択する処理は、カメラについての撮像画像の記録操作、ズームイン操作、ズームアウト操作うちの少なくとも1つの操作についての操作対応処理を含む
 上記(1)から(11)のいずれかに記載の情報処理装置。
 (13)
 前記処理選択部が選択する処理は、特定の操作画像又は視線検出により特定される画像に関する操作対応処理を含む
 上記(1)から(12)のいずれかに記載の情報処理装置。
 (14)
 前記処理選択部が選択する処理は、判定される動作から推定される状況への対応処理を含む
 上記(1)から(13)のいずれかに記載の情報処理装置。
 (15)
 前記処理選択部は、前記画像により、前記制御部による制御の実行に対しての否定的な動作を判定した場合、対応処理を選択し、
 前記制御部は前記対応処理が行われるように制御する
 上記(1)から(14)のいずれかに記載の情報処理装置。
 (16)
 情報処理装置が、
 目および目の周辺の形状から判定される動作と、処理とが紐づけられた登録情報を取得し、
 目および目の周辺の画像を取得し、
 前記登録情報と前記画像とに基づいて、前記登録情報に含まれる処理を選択し、
 前記選択した処理が行われるように制御する
 情報処理方法。
 (17)
 目および目の周辺の形状から判定される動作と、処理とが紐づけられた登録情報を取得する手順と、
 目および目の周辺の画像を取得する手順と、
 前記登録情報と前記画像とに基づいて、前記登録情報に含まれる処理を選択する手順と、
 前記選択した処理が行われるように制御する手順と、
 を情報処理装置に実行させるプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
1 撮像装置
5 EVF
18 カメラ制御部
19 メモリ部
40 演算部
41 視線検出装置部
42 アイセンサカメラ
43 センサ部
51 画像取得部
52 処理選択部
52a 符号化部
52b 一致度計算部
52b 選択部
53 登録情報取得部
53a 登録動作取得部
53b 登録処理取得部
54 制御部
55 記憶部
71 CPU
100 端末装置

Claims (17)

  1.  目および目の周辺の形状から判定される動作と、処理とが紐づけられた登録情報を取得する登録情報取得部と、
     目および目の周辺の画像を取得する画像取得部と、
     前記登録情報と前記画像とに基づいて、前記登録情報に含まれる処理を選択する処理選択部と、
     前記処理選択部が選択した処理が行われるように制御する制御部と、を備える
     情報処理装置。
  2.  前記処理選択部は、
     前記画像に現れる動作と、前記登録情報における動作との一致度を計算し、一致度が一定の数値を満たした動作に紐づけられた処理を選択する
     請求項1に記載の情報処理装置。
  3.  前記処理選択部は、
     前記画像に現れる動作と、前記登録情報における全ての動作との一致度を計算し、登録された動作の中で最も一致度が高い動作に紐づけられた処理を選択する
     請求項1に記載の情報処理装置。
  4.  前記処理選択部は、
     前記画像のフレーム毎に目および目の周辺の状態の判定を行って符号化することで得られる、一定期間における状態の符号化情報を、前記画像に現れる動作の情報として、前記登録情報における動作との一致度を計算し、一致度に基づいて動作を判定し、判定した動作に紐づけられた処理を選択する
     請求項1に記載の情報処理装置。
  5.  前記処理選択部が前記画像に現れる動作と前記登録情報における動作との一致度に基づいて動作を判定し、判定した動作に紐づけられた処理を選択する場合において、
     複数の動作の候補が得られた場合、ユーザに対する通知の制御を行う
     請求項1に記載の情報処理装置。
  6.  前記処理選択部が前記画像に現れる動作と前記登録情報における或る動作との一致度に基づいて動作を判定し、判定した動作に紐づけられた処理を選択する場合において、
     前記登録情報における動作のいずれについても一致度が一定の数値を満たさなかった場合、ユーザに対する通知の制御を行う
     請求項1に記載の情報処理装置。
  7.  前記登録情報には、ユーザの個人を識別する個人識別情報が含まれる
     請求項1に記載の情報処理装置。
  8.  前記処理選択部は、
     前記個人識別情報に基づいて、前記画像が、登録されたユーザの画像であるか否かを判定し、登録されたユーザではない場合は処理の選択を行なわない
     請求項7に記載の情報処理装置。
  9.  前記登録情報には、前記個人識別情報に対応して、目および目の周辺の形状から判定される動作と処理とが紐づけられており、
     前記処理選択部は、前記登録情報における、前記個人識別情報に基づいて識別されるユーザに応じた動作と処理の情報を用いて、動作の判定と処理の選択を行う
     請求項7に記載の情報処理装置。
  10.  目および目の周辺の画像は、眉の形状または目の周辺のしわの形状を含む画像である
     請求項1に記載の情報処理装置。
  11.  前記処理選択部が選択する処理は、ユーザの操作に応じた操作対応処理を含む
     請求項1に記載の情報処理装置。
  12.  前記処理選択部が選択する処理は、カメラについての撮像画像の記録操作、ズームイン操作、ズームアウト操作うちの少なくとも1つの操作についての操作対応処理を含む
     請求項1に記載の情報処理装置。
  13.  前記処理選択部が選択する処理は、特定の操作画像又は視線検出により特定される画像に関する操作対応処理を含む
     請求項1に記載の情報処理装置。
  14.  前記処理選択部が選択する処理は、判定される動作から推定される状況への対応処理を含む
     請求項1に記載の情報処理装置。
  15.  前記処理選択部は、前記画像により、前記制御部による制御の実行に対しての否定的な動作を判定した場合、対応処理を選択し、
     前記制御部は前記対応処理が行われるように制御する
     請求項1に記載の情報処理装置。
  16.  情報処理装置が、
     目および目の周辺の形状から判定される動作と、処理とが紐づけられた登録情報を取得し、
     目および目の周辺の画像を取得し、
     前記登録情報と前記画像とに基づいて、前記登録情報に含まれる処理を選択し、
     前記選択した処理が行われるように制御する
     情報処理方法。
  17.  目および目の周辺の形状から判定される動作と、処理とが紐づけられた登録情報を取得する手順と、
     目および目の周辺の画像を取得する手順と、
     前記登録情報と前記画像とに基づいて、前記登録情報に含まれる処理を選択する手順と、
     前記選択した処理が行われるように制御する手順と、
     を情報処理装置に実行させるプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
PCT/JP2023/008152 2022-03-25 2023-03-03 情報処理装置、情報処理方法、記憶媒体 WO2023181862A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022050278 2022-03-25
JP2022-050278 2022-03-25

Publications (1)

Publication Number Publication Date
WO2023181862A1 true WO2023181862A1 (ja) 2023-09-28

Family

ID=88100685

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/008152 WO2023181862A1 (ja) 2022-03-25 2023-03-03 情報処理装置、情報処理方法、記憶媒体

Country Status (1)

Country Link
WO (1) WO2023181862A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207615A (ja) * 1997-01-22 1998-08-07 Tec Corp ネットワークシステム
JP2005293061A (ja) * 2004-03-31 2005-10-20 Advanced Telecommunication Research Institute International ユーザインタフェース装置およびユーザインタフェースプログラム
JP2013003647A (ja) * 2011-06-13 2013-01-07 Sony Corp 情報処理装置及びプログラム
JP2017528793A (ja) * 2014-07-14 2017-09-28 華為技術有限公司Huawei Technologies Co.,Ltd. ディスプレイ拡張のためのシステム及び方法
JP2021184232A (ja) * 2020-05-21 2021-12-02 株式会社トゥービーソフトTobesoft Co., Ltd. ユーザのハンドジェスチャーを認識して制御命令を実行する電子端末装置およびその動作方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207615A (ja) * 1997-01-22 1998-08-07 Tec Corp ネットワークシステム
JP2005293061A (ja) * 2004-03-31 2005-10-20 Advanced Telecommunication Research Institute International ユーザインタフェース装置およびユーザインタフェースプログラム
JP2013003647A (ja) * 2011-06-13 2013-01-07 Sony Corp 情報処理装置及びプログラム
JP2017528793A (ja) * 2014-07-14 2017-09-28 華為技術有限公司Huawei Technologies Co.,Ltd. ディスプレイ拡張のためのシステム及び方法
JP2021184232A (ja) * 2020-05-21 2021-12-02 株式会社トゥービーソフトTobesoft Co., Ltd. ユーザのハンドジェスチャーを認識して制御命令を実行する電子端末装置およびその動作方法

Similar Documents

Publication Publication Date Title
US9838597B2 (en) Imaging device, imaging method, and program
KR102269526B1 (ko) 정보 처리 장치 및 제어 방법
CN112118380B (zh) 相机操控方法、装置、设备及存储介质
KR20160118001A (ko) 촬영 장치, 그 제어 방법 및 컴퓨터로 판독 가능한 기록매체.
JP2013070164A (ja) 撮像装置及び撮像方法
US11394862B2 (en) Voice input apparatus, control method thereof, and storage medium for executing processing corresponding to voice instruction
EP3761627B1 (en) Image processing method and apparatus
CN113301247B (zh) 一种摄像设备、其控制方法以及存储介质
US20240062583A1 (en) Electronic apparatus and method for controlling the same
US20220368825A1 (en) Image capturing apparatus, method for controlling the same, and storage medium
KR20170030496A (ko) 촬상 제어 장치, 촬상 제어 방법 및 프로그램
JP2009171428A (ja) デジタルカメラ装置および電子ズームの制御方法およびプログラム
US11381732B2 (en) Image-capturing controller and method for controlling same
US11991450B2 (en) Composition control device, composition control method, and program
CN113364945A (zh) 电子装置、控制方法和计算机可读介质
JP2022120681A (ja) 画像処理装置および画像処理方法
WO2023181862A1 (ja) 情報処理装置、情報処理方法、記憶媒体
US20210241765A1 (en) Voice input apparatus, control method thereof, and storage medium for executing processing corresponding to voice instruction
US11483482B2 (en) Electronic device that displays a plurality of display items on a display and method for controlling electronic device
JP7342883B2 (ja) 撮像制御装置、撮像装置、撮像制御方法
CN113315904B (zh) 拍摄方法、拍摄装置及存储介质
CN112040095A (zh) 电子装置、电子装置的控制方法及存储介质
US20240163553A1 (en) Electronic device, and control method of electronic device
WO2022196093A1 (ja) 情報処理装置、視線検出方法、プログラム
US11538191B2 (en) Electronic apparatus using calibration of a line of sight input, control method of electronic apparatus using calibration of a line of sight input, and non-transitory computer readable medium thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23774461

Country of ref document: EP

Kind code of ref document: A1