WO2016132884A1 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2016132884A1
WO2016132884A1 PCT/JP2016/053010 JP2016053010W WO2016132884A1 WO 2016132884 A1 WO2016132884 A1 WO 2016132884A1 JP 2016053010 W JP2016053010 W JP 2016053010W WO 2016132884 A1 WO2016132884 A1 WO 2016132884A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
gaze
camera
detection accuracy
line
Prior art date
Application number
PCT/JP2016/053010
Other languages
English (en)
French (fr)
Inventor
安田 亮平
野田 卓郎
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US15/535,231 priority Critical patent/US20170351327A1/en
Priority to EP16752271.3A priority patent/EP3260951A4/en
Publication of WO2016132884A1 publication Critical patent/WO2016132884A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range

Definitions

  • the present technology relates to an information processing apparatus and method, and a program, and more particularly, to an information processing apparatus and method that can improve usability, and a program.
  • one or two cameras used for detecting the direction of the line of sight are selected from a plurality of cameras.
  • the direction of the camera is the line-of-sight direction.
  • the line-of-sight direction is detected based on images obtained by the two cameras. Is done.
  • Patent Document 2 when detecting the user's line-of-sight direction with a plurality of cameras, a technique for avoiding an eye-gaze direction detection error by detecting the open / closed state of the user's eyes (see, for example, Patent Document 2) or template matching A technique for detecting the user's face direction and feature points and detecting the line-of-sight direction from the detection result has also been proposed (see, for example, Patent Document 3).
  • JP 2012-22646 A Japanese Patent Laid-Open No. 2003-15816 JP 2002-288670 A
  • This technology has been made in view of such a situation, and is intended to improve usability.
  • An information processing apparatus includes a gaze direction detection unit that detects a gaze direction of the user based on a captured image obtained by photographing a user as a subject by a plurality of imaging units, and the user A detection accuracy calculation unit that calculates the detection accuracy of the line-of-sight direction.
  • the detection accuracy calculation unit includes the detection accuracy based on at least one of information on a positional relationship between the imaging unit and the user, information on the imaging unit, information on the captured image, and a gaze time of the user. Can be calculated.
  • the information processing apparatus may further include a first processing unit that executes processing according to the detection accuracy.
  • the first processing unit can display an operation screen that is operated by the user's line of sight in a display form corresponding to the detection accuracy.
  • the first processing unit can display the operation target on the operation screen in different sizes according to the detection accuracy.
  • the first processing unit can display a different number of operation objects on the operation screen according to the detection accuracy.
  • the information processing apparatus may further include a second processing unit that executes processing according to the gaze position on the operation screen of the user obtained from the line-of-sight direction.
  • the first processing unit displays the operation screen on which several operation objects near the gaze position are displayed as operation target candidates corresponding to the gaze position. Can be displayed.
  • the first processing unit may compare the detection accuracy of the line-of-sight direction calculated for each of the plurality of users with a predetermined threshold value, and execute a process according to the comparison result. it can.
  • An information processing method or program detects a user's line-of-sight direction based on a captured image obtained by photographing a user as a subject by a plurality of photographing units, and the user's line of sight Calculating a direction detection accuracy.
  • the gaze direction of the user is detected based on a photographed image obtained by photographing the user as a subject by a plurality of photographing units, and the detection accuracy of the gaze direction of the user is improved. Calculated.
  • the information processing device detects the gaze direction of the user based on at least one of the photographed images obtained by photographing the user as a subject with a plurality of photographing units.
  • a head direction of the user by detecting the head of the user from the photographed images for at least two of the photographed images obtained by the line-of-sight direction detecting unit and the plurality of the photographed units.
  • a head position detection unit that obtains the head position by estimation from a part of the user detected from the captured image when the head position of the user is not detected from the captured image;
  • a gaze position calculation unit that calculates the gaze position of the user based on the gaze direction and the head position of the user obtained for at least two of the captured images; Provided.
  • the line-of-sight direction of the user is detected based on at least one of the photographed images obtained by photographing the user as a subject by a plurality of photographing units
  • the user's head position is obtained by detecting the user's head from the captured image for at least two of the captured images obtained by the plurality of the imaging units, and the imaging
  • the head position is obtained by estimation from a part of the user detected from the captured image, and the user's line-of-sight direction and at least two of the captured images
  • the gaze position of the user is calculated based on the head position of the user obtained for.
  • the gaze position of the user can be detected more firmly.
  • the present technology relates to an information processing system that detects a line-of-sight direction of one or a plurality of users and executes processing according to the detection result.
  • An information processing system to which the present technology is applied mainly detects a gaze direction robustly using a plurality of cameras, calculates a gaze direction detection accuracy, and executes a process according to the detection accuracy.
  • the information processing system to which the present technology is applied detects the gaze direction of each user by using one or more users in a predetermined region R11 as a gaze detection target person, and the detection result Perform the appropriate process.
  • the information processing system is configured to include the cameras CA11-1 to CA11-6, and the information processing system uses the cameras CA11-1 to CA11-6 to use the users in the region R11.
  • the line-of-sight direction of U11 to user U13 is detected.
  • the camera CA11-1 is provided on the ceiling of the space with the region R11 and is a camera capable of photographing a specific region in the region R11.
  • the camera CA11-2 is provided on the ceiling of the space with the region R11, and the region R11. It is considered to be a wide-angle camera that can shoot the whole.
  • the cameras CA11-3 to CA11-5 are cameras fixed at arbitrary positions in the region R11, and the camera CA11-6 is a wearable camera that the user U11 wears on the head.
  • the cameras CA11-1 to CA11-6 are also simply referred to as cameras CA11 unless it is necessary to distinguish them.
  • the information processing system uses not only the camera CA11 fixed in the space such as the ceiling but also the camera CA11 worn by the user, and the users U11 to U13 are subjects with a plurality of cameras CA11. Take a picture. Then, the information processing system detects the line-of-sight directions of the users U11 to U13 based on the captured image obtained as a result of imaging.
  • the gaze direction detection result obtained by the head-mounted device may also be used.
  • the head-mounted device having a gaze direction detection function may be a device having only a gaze direction detection function, a display device having a gaze direction detection function, a wearable camera such as the camera CA11-6, etc. It may be.
  • the information processing system uses the gaze direction of the user U11 detected by the camera CA11-6 as it is as the detection result of the gaze direction of the user U11. To do.
  • the detection accuracy of the gaze direction is also calculated, and the process according to the obtained detection accuracy is executed, thereby improving the usability of the information processing system. ing.
  • the detection accuracy of the user's line-of-sight direction changes.
  • the information processing system calculates the detection accuracy of the line-of-sight direction from the performance of the camera, the combination of cameras, the shooting conditions, the state of the shot image, and the like. Then, the information processing system executes processing according to the obtained detection accuracy.
  • the information processing system displays, as a UI, an operation screen that is operated by a user's line of sight on a predetermined display unit. More specifically, for example, an operation screen as a UI is displayed on the display unit, and a user designates an icon on the operation screen by his / her own line of sight, and executes a predetermined process for the icon. .
  • the detection accuracy of the gaze direction is determined only by the distance between the camera that detects the gaze direction and the user, and the detection accuracy is higher as the distance between the camera and the user is closer.
  • the information processing system switches the display of the operation screen as shown in FIG. 2 according to the detection accuracy of the line-of-sight direction.
  • the information processing system displays the operation screen IF11 indicated by the arrow Q11 when the distance between the camera and the user is close and the detection accuracy of the line-of-sight direction is high. Conversely, the information processing system displays the operation screen IF12 indicated by the arrow Q12 when the distance between the camera and the user is long and the detection accuracy in the line-of-sight direction is low.
  • a total of 15 icons AC11-1 to AC11-15 to be operated are arranged on the screen.
  • the icons AC11-1 to AC11-15 are also simply referred to as icons AC11 when it is not necessary to distinguish them.
  • the user's gaze position ( gaze point) on the operation screen IF11 obtained from the user's gaze direction can be obtained with high accuracy. Therefore, even if a large number of icons AC11 are displayed on the operation screen IF11, it is determined which icon AC11 the user is gazing from the detection result of the user's line of sight, that is, which icon AC11 is selected by the user. It can be accurately identified.
  • the information processing system displays the operation screen IF12 with a small number of icons as indicated by the arrow Q12. .
  • one of the two display patterns that is, one of the operation screen IF11 and the operation screen IF12 is displayed according to the detection accuracy of the line-of-sight direction
  • three or more are displayed according to the detection accuracy. Any one of the display patterns may be selected. That is, the display form of the operation screen may change step by step according to the detection accuracy of the line-of-sight direction.
  • a part of the operation screen may be enlarged and displayed according to the detection accuracy of the line-of-sight direction. Specifically, for example, when the detection accuracy in the line-of-sight direction is sufficiently high, the entire operation screen is displayed, and when the detection accuracy in the line-of-sight direction is low, a part of the entire operation screen is displayed in an enlarged manner.
  • which part of the operation screen is enlarged and displayed may be determined based on the user's gaze position. That is, an area near the user's gaze position may be enlarged and displayed at a magnification determined by the detection accuracy in the line-of-sight direction.
  • the distance between a plurality of icons displayed side by side on the operation screen may be changed according to the detection accuracy of the line-of-sight direction.
  • the moving speed of the cursor operated by the user's line of sight may be changed according to the detection accuracy of the line of sight, or the input device used for information input by the user and the information input method may be changed.
  • all information is displayed in one display area when the detection accuracy in the gaze direction is high, and information is displayed separately in a plurality of display areas when the detection accuracy in the gaze direction is low. You may do it.
  • the user's gaze position that is, the information that the user is gazing can be specified more accurately. become able to.
  • the detection accuracy of the line-of-sight direction is calculated only from the distance between the camera and the user has been described, but the detection accuracy can be obtained by adding a plurality of parameters with weights. Also good.
  • the gaze direction of the user U11 can be detected with high accuracy by the camera CA11-6.
  • a head-mounted device having a gaze direction detection function (hereinafter also referred to as a head-mounted gaze detection device).
  • the detection accuracy may be low when there is no such head-mounted gaze detection device in the camera used for detection of the gaze direction.
  • the operation screen IF11 when there is a head-mounted gaze detection device and the gaze direction detection accuracy is high, for example, the above-described operation screen IF11 is displayed.
  • the operation screen IF12 when all the cameras used for detection of the gaze direction are environment-installed cameras, that is, when there is no head-mounted gaze detection device and the gaze direction detection accuracy is low, the operation screen IF12 is displayed.
  • FIG. 3 is a diagram illustrating a specific embodiment of an information processing system to which the present technology is applied.
  • the information processing system includes a display unit 11 that displays various images, and cameras 12-1 to 12-3 that capture captured images for detecting a user's line-of-sight direction.
  • the cameras 12-1 to 12-3 are also simply referred to as cameras 12 when it is not necessary to distinguish them.
  • Each of the users U21-1 to U21-3 in the space designates an icon or the like that is an operation target displayed on the display unit 11 by looking at the display screen of the display unit 11 that is a gaze target. Then, the process corresponding to the specified icon is executed.
  • the user U21-1 to the user U21-3 are also simply referred to as a user U21 when it is not necessary to distinguish them.
  • three cameras 12 are used to determine the gaze direction of each user U21 who is a subject of gaze direction detection and the detection accuracy of the gaze direction, and according to the gaze direction and detection accuracy. Processing is executed.
  • the information processing system obtains the gaze direction of each user U21 and the detection accuracy of the gaze direction based on each captured image taken by the camera 12, and displays the display unit according to the obtained detection accuracy. 11 changes the operation screen to be displayed.
  • the operation screen displayed on the display unit 11 is a UI that is operated by the line of sight of the user U21 as described above.
  • the information processing system obtains the gaze position (gaze point) of the user U21 on the display unit 11 from the obtained gaze direction, and executes processing according to the icon at the gaze position.
  • the gaze position of the user U21-1 is the position P11
  • the information processing system executes a process according to the icon displayed at the obtained position P11.
  • the process according to the icon may be any process such as a selection / determination operation for a device to be operated, such as a television receiver, a game operation, or an image / audio reproduction process determination operation.
  • the detection of the gaze direction and the gaze position, the calculation of the detection accuracy of the gaze direction, and the processing according to the detection accuracy in such an information processing system will be described more specifically.
  • the user U21 is also simply referred to as a user.
  • a global coordinate system is set on the detection target space in the space where the display unit 11 and each user U21 exist (hereinafter also referred to as detection target space).
  • the global coordinate system is a three-dimensional orthogonal coordinate system with the origin as O and the x axis, the y axis, and the z axis perpendicular to each other.
  • the origin O of the global coordinate system is the global coordinate system.
  • the position is the center of the display screen of the display unit 11 whose position in the coordinate system is known.
  • the positions and orientations of all the cameras 12 in the global coordinate system are set in advance before various processes such as detection of the user's line-of-sight direction and processing according to the detection result are started.
  • the position and orientation of the camera 12 are the arrangement position of the camera 12 in the global coordinate system and the shooting direction of the camera 12. Specifically, for example, in each camera 12, a camera coordinate system based on these cameras 12 is set for each camera 12.
  • a three-dimensional orthogonal with respect to the camera 12-2 having the position of the camera 12-2 as an origin O ′ and axes x ′, y ′, and z ′ perpendicular to each other.
  • a coordinate system is predetermined as the camera coordinate system of the camera 12-2.
  • the origin and axis of the camera coordinate system of an arbitrary camera are not limited to the camera 12-2, and are referred to as an origin O ', x' axis, y 'axis, and z' axis.
  • the position of the origin O ′ of the camera coordinate system defined for the camera 12 is set as the position of the camera 12 in the global coordinate system.
  • the shooting direction determined from the roll angle, pitch angle, and yaw angle of the camera coordinate system defined for the camera 12 is set as the posture of the camera 12.
  • the x ', y', and z 'axes of the camera coordinate system are the same as the x, y, and z axes of the global coordinate system. It is assumed that 12 shooting directions are reference directions.
  • the roll angle of the camera coordinate system refers to how much the camera coordinate system (photographing direction) of the camera 12 is tilted from the reference direction with the z axis as the rotation axis, that is, with the z axis as the rotation axis. It is a rotation angle indicating how much it has been rotated.
  • the pitch angle of the camera coordinate system is a rotation angle indicating how much the camera coordinate system (photographing direction) of the camera 12 is rotated about the x axis as a rotation axis from the reference direction. is there.
  • the yaw angle of the camera coordinate system is a rotation angle indicating how much the camera coordinate system (photographing direction) of the camera 12 is rotated from the reference direction as a rotation axis. It is.
  • the position and orientation of each camera 12 may be set by an input from an administrator or the like, or may be set by reading information indicating the position and orientation of each camera 12 recorded in advance. It may be.
  • the position and orientation of the camera 12 may be set by automatic recognition.
  • a captured image including a plurality of targets such as a background whose position in the global coordinate system is known in advance is captured by the camera 12, and the position and orientation of the camera 12 are determined from the obtained captured image. Desired.
  • the position and orientation of the camera 12 that captured the captured image in the global coordinate system can be obtained.
  • a plurality of cameras 12 whose positions and orientations in the global coordinate system are known in advance are used to shoot captured images including the other cameras 12, and the other cameras 12 are captured from these captured images.
  • the position and orientation on the global coordinate system may be obtained.
  • the face recognition process detects each user's face as a gaze detection target person from the captured image, and the direction of each user's face, The orientation of the user's eyes is detected.
  • the detection of the face from the photographed image may be performed by any method such as detection of a skin color area, detection of a feature point, template matching, or the like.
  • detection of a skin color area detection of a feature point
  • template matching template matching
  • the orientation of the user's face in the captured image is detected by, for example, the position of the left and right eyes detected from the face, the inclination in the captured image, the inclination of the face outline in the captured image, and the like. Further, the orientation of the user's eyes can be specified by the position of the black eye in the entire area of the user's eyes detected in the captured image.
  • the information shown in FIG. 4 is detected as the face orientation and the eye orientation of the user in the captured image.
  • one user FC11 is detected from the photographed image, and the roll angle, pitch angle, and yaw angle with respect to the photographed image, that is, the camera coordinate system, are obtained as the face orientation of the user FC11.
  • These roll angle, pitch angle, and yaw angle are rotation angles based on, for example, a state in which the user FC11 is facing the front with respect to the camera 12.
  • the roll angle is the rotation angle of the face of the user FC11 with the z ′ axis of the camera coordinate system as the rotation axis
  • the pitch angle is the rotation angle of the face of the user FC11 with the x ′ axis of the camera coordinate system as the rotation axis
  • the yaw angle is the rotation angle of the face of the user FC11 with the y ′ axis of the camera coordinate system as the rotation axis.
  • the direction of the eyes of the user FC11 is, for example, the direction of black eyes with respect to the face of the user FC11.
  • the direction of the line of sight of the user FC11 in the captured image that is, in the camera coordinate system indicated by the arrow DR11 in the figure, is obtained from the face direction and the eye direction of the user FC11.
  • the line-of-sight direction of the user FC11 in the global coordinate system is obtained from the line-of-sight direction of the user FC11 in the camera coordinate system thus obtained and the position and orientation of the camera 12, that is, the relationship between the camera coordinate system and the global coordinate system. .
  • the user's head is detected from the captured image by a technique such as human detection.
  • the position (direction) of the user's head on the captured image detected in this manner is used to obtain the user's head position in the global coordinate system.
  • the position of the user's face is the user's face in the photographed image. Used as head position.
  • the eye calibration is performed.
  • the line-of-sight direction may be obtained using data.
  • the line-of-sight calibration data for correcting such a deviation is prepared in advance, the line-of-sight direction of the user can be obtained with higher accuracy by correcting the line-of-sight direction of the user using the line-of-sight calibration data. Can be detected.
  • the user's gaze direction detected by the head-mounted gaze detection device may be used.
  • the position and orientation of the head-mounted gaze detection device in the global coordinate system are set in the same manner as the camera 12.
  • the user's gaze direction in the global coordinate system can be obtained from the user's gaze direction detected by the head-mounted gaze detection device and the position and orientation of the head-mounted gaze detection device.
  • the head-mounted gaze detection device can detect the gaze direction with high accuracy, highly accurate information can be obtained as the gaze direction of the user in the global coordinate system.
  • the gaze position of the user U21 can be obtained.
  • the gaze position P11 of the user U21-1 detected for the camera 12-2 is obtained from the captured images obtained by the camera 12-2 and the camera 12-3.
  • the position in the global coordinate system of the display unit 11 that is the gaze target is known.
  • the position and orientation of the camera 12 are set.
  • the camera 12-2 and the camera 12-3 obtain the position of the head of the user U21-1 in the captured image, that is, the direction in which the head (face) of the user U21-1 viewed from the camera 12 is present.
  • the principle of triangulation is used.
  • the position of the head of user U21-1 in the global coordinate system can be specified.
  • the position of the head of the user U21-1 is obtained in this way, the relationship between the position of the head of the user U21-1 in the global coordinate system and the position of the display unit 11 as the gaze target is obtained. Become. Then, based on the positional relationship between the head of the user U21-1 and the display unit 11 and the line of sight of the user U21-1 in the global coordinate system obtained for the camera 12-2, the user U21-1 on the display unit 11 is displayed. The gaze position P11 is obtained.
  • the user U21 A gaze position of -1 can be obtained.
  • the head position of the user can be detected by at least two cameras 12 out of the plurality of cameras 12, and the user's line-of-sight direction, that is, the user's face can be detected by at least one camera 12.
  • the user's gaze position can be obtained.
  • the user's head position may be estimated from the captured image as necessary in order to improve the robustness of the detection.
  • the gaze position of the user in the global coordinate system it is necessary to detect the user's head position with at least two cameras 12. However, in some cases, for example, the position of the user's head can be detected by only one camera 12.
  • a region of a person (user) is detected from a captured image obtained by the camera 12 for at least one camera 12 for which the user's head position could not be detected, and the detection result is used. Furthermore, the user's head position (head direction) viewed from the camera 12 may be estimated.
  • the user's head position can be detected by only one camera 12. Even when this is not possible, the user's head position in the global coordinate system can be determined. Thereby, a user's gaze position can be detected more firmly.
  • the user's head position in the camera coordinate system can be estimated by tracking.
  • the direction of the user's face in the captured image may be obtained using the captured image closest to the front. This is because the direction of the eyes, that is, the line-of-sight direction can be detected with higher accuracy when the orientation of the user's face on the captured image is closer to the front than when the orientation is on the side.
  • the captured image having the smallest angle is selected, and the user's face is selected from the captured image.
  • a line-of-sight direction is required.
  • the photographed image having the largest area of the user's eye in the photographed image may be selected as the photographed image having the user's face closest to the front.
  • the average value of the user's line-of-sight direction in the global coordinate system obtained for the plurality of cameras 12 is used as the final user's line-of-sight. It may be used as a direction.
  • the user's face is detected by only one camera 12 and the other camera 12 cannot detect the user's face or head, or the user's head position cannot be estimated
  • the user's line-of-sight direction is obtained in the same manner as described above, but the user's head position is obtained by a monocular camera distance measurement method.
  • the position of the user's head in the global coordinate system is determined from the distance thus determined, the position (direction) of the user's face on the captured image, and the position and orientation of the camera 12.
  • the detection accuracy of the user's head position is lower than when using two or more cameras 12, but the user's gaze position at each time can be continuously obtained.
  • the detection accuracy of the line-of-sight direction is calculated based on one or a plurality of information such as information related to the camera 12, information related to the positional relationship between the camera 12 and the user, and information related to the captured image.
  • distance information W11 at least one of distance information W11, face orientation information W12, resolution information W13, brightness information W14, focus degree information W15, detection device information W16, and gaze time information W17, that is, these Based on part or all of the distance information W11 to the gaze time information W17, the detection accuracy of the gaze direction is calculated.
  • the distance information W11 is information indicating the distance from the camera 12 to the user in the detection target space, and the shorter the distance indicated by the distance information W11, the higher the detection accuracy in the line-of-sight direction.
  • the distance between the camera 12 and the user may be calculated from the position of the camera 12 and the user's head position in the global coordinate system, or may be calculated based on the size of the eye area of the user in the captured image. Good.
  • the face orientation information W12 is information indicating the orientation of the user's face with respect to the camera 12, and more specifically, information indicating the degree of frontality of the user's face.
  • the value of the face orientation information W12 is calculated from a roll angle, a pitch angle, a yaw angle, and the like indicating the orientation of the user's face, and increases as the orientation of the user's face relative to the camera 12 is closer to the front. Accordingly, the larger the value of the face orientation information W12, the higher the detection accuracy of the line-of-sight direction.
  • the resolution information W13 is information indicating the resolution of the camera 12, that is, the resolution of the captured image, and the value of the resolution information W13 increases as the resolution of the camera 12 increases. As the resolution of the camera 12 is higher, the user's eye orientation, face orientation, and the like can be detected from the captured image with higher accuracy. Therefore, the larger the resolution information W13, the higher the detection accuracy of the line-of-sight direction.
  • the brightness information W14 is information indicating the brightness of the shooting environment of the shot image, that is, the brightness of the shot image.
  • the value of the brightness information W14 is obtained from, for example, the average luminance of all the pixels of the captured image, and the brightness information W14 increases as the captured image becomes brighter. The brighter the captured image, the more accurately the direction of the user's eyes can be detected from the captured image. Therefore, the greater the brightness information W14, the higher the detection accuracy of the line-of-sight direction.
  • the focus degree information W15 is information indicating the degree of blurring of the user's face area in the captured image.
  • the value of the focus degree information W15 is calculated, for example, by performing edge detection on the captured image, and the edge strength of the user's face area is weak, and becomes smaller as the face area becomes blurred.
  • the smaller the degree of blurring of the user's face area the more accurately the direction of the user's eyes and the direction of the face can be detected. Therefore, the greater the degree-of-focus information W15, the higher the detection accuracy of the line-of-sight direction.
  • the detection device information W16 is information indicating the reliability of the gaze direction detection accuracy caused by the camera 12, and the value of the detection device information W16 is determined by whether or not the camera 12 is a head-mounted gaze detection device.
  • the camera 12 is a head-mounted gaze detection device, that is, the user's gaze direction detected by the head-mounted gaze detection device as the camera 12 is used as the user's gaze direction viewed from the camera 12.
  • the value of the detection device information W16 is a predetermined value.
  • the value of the detection device information W16 is smaller than the value of the detection device information W16 when the camera 12 is a head-mounted gaze detection device. It is said.
  • the gaze direction of the user can be detected with higher accuracy. Therefore, the greater the value of the detection device information W16, the higher the gaze direction detection accuracy.
  • the gaze time information W17 is information indicating the time (gaze time) when the user is gazing at the same gaze position.
  • the gaze time information W17 is calculated based on the variation amount (variation amount) of the gaze position of the same user in the time direction, or the variation amount in the gaze direction, and the time when the gaze position or the variation amount in the gaze direction is less than or equal to the threshold. The longer the gaze time, that is, the longer the gaze time, the greater the value of the gaze time information W17.
  • the user moves the cursor on the UI by the line of sight
  • the user does not move the cursor when the cursor is at the position intended by the user, so the gaze time at the specific position by the user becomes long.
  • the gaze time information W17 since the user's gaze position, that is, the line-of-sight direction should be correctly detected, the larger the value of the gaze time information W17, the higher the detection accuracy of the line-of-sight direction.
  • the gaze direction detection accuracy is calculated for each user using at least one of the distance information W11 to the gaze time information W17.
  • the detection accuracy of the gaze direction is calculated by weighted addition of the distance information W11 to the gaze time information W17.
  • the weight of the distance information W11 having a greater influence larger than the weight of other information.
  • the calculation of the gaze direction detection accuracy is not limited to the example using the distance information W11 to the gaze time information W17, and may be performed using any other information.
  • the information processing system changes the display form (display pattern) of the UI displayed on the display unit 11 according to the detection accuracy.
  • an icon at a user's gaze position is selected and an operation corresponding to the icon is executed in a state where an operation screen as a UI is displayed on the display unit 11.
  • the information processing system displays, for example, the operation screen IF11 shown in FIG. 2 when the detection accuracy of the user's gaze direction (gaze position) is equal to or greater than a predetermined threshold th, and the gaze direction detection accuracy is high. If it is less than the predetermined threshold th, the operation screen IF12 shown in FIG. 2 is displayed. Then, based on the detected gaze position of the user, the icon displayed at the gaze position is selected, or other processing corresponding to the gaze position is executed.
  • the display form of the operation screen of the display unit 11 can be changed as follows, for example.
  • the operation screen IF11 shown in FIG. 2 is displayed.
  • the operation screen IF12 shown in FIG. 2 is displayed.
  • the display form of the operation screen is determined.
  • the operation screen IF11 is displayed, and when the detection accuracy of the user who first gazes at the display unit 11 is less than the threshold th. Displays the operation screen IF12.
  • the operation screen is set according to the detection accuracy of the user with the longest gaze time.
  • the display form is determined, the display form of the operation screen is determined according to the detection accuracy of the user who is closest to the display unit 11, and the average detection accuracy and weighted addition value of the visual line direction of all users
  • the display form of the operation screen may be determined accordingly.
  • the display form of the operation screen may be determined according to the comparison result.
  • any one user may be selected as the user to be processed, and the process according to the user's gaze position may be executed.
  • which user is the processing target user may be displayed on the display unit 11.
  • a user who does not wear a wearable device having a display function in which the user with the longest gazing time is selected as the user to be processed or the same image as the image displayed on the display unit 11 is displayed.
  • the user may be preferentially selected as a processing target user.
  • a cursor or the like operated by those users may be displayed on the display unit 11, and processing may be executed in accordance with a selection operation based on the line of sight (gaze position) of each user.
  • processing may be executed in accordance with a selection operation based on the line of sight (gaze position) of each user.
  • a process such as playing a moving image corresponding to the selected icon is performed in the area where the icon is displayed. Can be done.
  • FIG. 5 is a diagram illustrating a more detailed configuration example of the information processing system to which the present technology is applied.
  • the information processing system shown in FIG. 5 includes cameras 51-1 to 51-N and an information processing device 52.
  • the cameras 51-1 to 51-N correspond to the camera 12 shown in FIG. 3 and photograph a user in the detection target space as a subject, and the resulting captured image is connected by wire or wireless. Is supplied to the information processing device 52.
  • the cameras 51-1 to 51-N are also simply referred to as cameras 51 when it is not necessary to distinguish them.
  • the camera 51 may be fixed to the floor or ceiling of the detection target space as described above, or may be moved as necessary. Further, for example, the camera 51 may be a wearable camera worn by a user in the detection target space, or a head-mounted gaze detection device that photographs a worn user and detects the gaze direction of the user. Good.
  • the information processing apparatus 52 detects the user's line-of-sight direction based on the captured image supplied from the camera 51, and calculates the detection accuracy of the line-of-sight direction and the user's gaze position. Further, the information processing device 52 changes the UI display form according to the detection accuracy of the user's line-of-sight direction, and executes processing according to the user's gaze position.
  • the information processing apparatus 52 includes an acquisition unit 61, a control unit 62, an input unit 63, a display unit 64, and an output unit 65.
  • the acquisition unit 61 acquires a captured image from each camera 51 by wire or wireless and supplies it to the control unit 62. Further, when the camera 51 is a head-mounted gaze detection device having a gaze direction detection function, the acquisition unit 61 obtains a detection result of the user's gaze direction from the camera 51 and supplies the detection result to the control unit 62. To do.
  • the control unit 62 controls the overall operation of the information processing apparatus 52. For example, the control unit 62 detects the user's gaze direction and gaze position based on the captured image supplied from the acquisition unit 61, and calculates the detection accuracy of the gaze direction based on the captured image. In addition, the control unit 62 performs processing according to information from the input unit 63, the detection result of the gaze position, the detection accuracy of the gaze direction, and the like.
  • the control unit 62 includes a camera recognition unit 71, a face detection unit 72, a gaze direction detection unit 73, a gaze position calculation unit 74, a detection accuracy calculation unit 75, and a UI processing unit 76.
  • the camera recognition unit 71 recognizes the position and orientation of each camera 51 based on the information supplied from the input unit 63 and the captured image supplied from the acquisition unit 61.
  • the face detection unit 72 detects the face and head of the user who is the subject of eye gaze detection from the captured images obtained by the respective cameras 51, or from the region of the part of the user's body detected from the captured image. The position of the head is estimated.
  • the gaze direction detection unit 73 is a user who is a gaze detection target person for each camera 51 based on the position and orientation of each camera 51, the captured image supplied from the acquisition unit 61, and the face detection result by the face detection unit 72.
  • the line-of-sight direction is detected every time.
  • the gaze direction detection block that forms the camera 51 also functions as the gaze direction detection unit 73. become.
  • the gaze position calculation unit 74 calculates the gaze position of each user based on the position and orientation of each camera 51 and the detection result of the user's gaze direction.
  • the detection accuracy calculation unit 75 determines the detection result of the gaze direction for each user based on the position and orientation of the camera 51, information obtained when detecting the gaze direction of the user, a captured image supplied from the acquisition unit 61, and the like. The detection accuracy of the line-of-sight direction is calculated.
  • the UI processing unit 76 controls the display unit 64 in accordance with the detection accuracy of the user's line-of-sight direction, and causes the display unit 64 to display an image such as a UI.
  • the input unit 63 includes, for example, a mouse, a keyboard, a controller connected to the control unit 62 wirelessly, and the like, and supplies signals to the control unit 62 according to the operations of the line-of-sight detection target person and the information processing system administrator.
  • the input unit 63 may be configured by a microphone or the like so that the voice of the person to be detected can be picked up and the resultant voice signal can be supplied to the control unit 62.
  • the control unit 62 performs voice recognition processing on the voice signal supplied from the input unit 63, and executes processing according to the result.
  • the display unit 64 includes a liquid crystal display device, for example, and displays an image such as a UI under the control of the control unit 62.
  • the display unit 64 corresponds to the display unit 11 shown in FIG.
  • the output unit 65 includes a speaker, for example, and outputs sound according to the control of the control unit 62.
  • the information processing system starts photographing of the user with the camera 51 when an execution of processing according to the user's gaze position is instructed by an administrator or the like.
  • Each camera 51 sequentially supplies the captured image obtained by the imaging to the information processing apparatus 52.
  • the information processing apparatus 52 performs UI display processing, switches the UI display form according to the detection accuracy of the user's line-of-sight direction, and executes processing according to the user's gaze position.
  • step S11 the camera recognition unit 71 recognizes the position and orientation of each camera 51, and sets the recognition result as the position and orientation of the camera 51.
  • the administrator of the information processing system operates the input unit 63 to set the position and orientation of each camera 51 as the position of the camera 51 in the global coordinate system and the roll angle, pitch angle, and yaw of the camera coordinate system for each camera 51.
  • you enter a corner the administrator of the information processing system operates the input unit 63 to set the position and orientation of each camera 51 as the position of the camera 51 in the global coordinate system and the roll angle, pitch angle, and yaw of the camera coordinate system for each camera 51.
  • the camera recognition unit 71 determines the position of the camera 51 based on the position of the camera 51 in the global coordinate system supplied from the input unit 63 and the roll angle, pitch angle, and yaw angle of the camera coordinate system for each camera 51. And set as posture.
  • the camera recognition unit 71 may set the position and orientation of each camera 51 by reading the position and orientation of each camera 51 from a memory (not shown). Furthermore, as described above as the automatic recognition method, the camera recognition unit 71 detects the position (direction) of the target whose position is known in advance from the captured image supplied from the acquisition unit 61, and from the detection result. The position and orientation of the camera 51 may be recognized.
  • the position and orientation of another camera 51 may be recognized from the captured images obtained by the plurality of cameras 51 whose positions and orientations are known.
  • step S ⁇ b> 12 the line-of-sight direction detection unit 73 is based on the captured image supplied from the acquisition unit 61, and the user who can detect the line-of-sight detection, more specifically, the gaze position, among the line-of-sight detection targets. It is determined whether or not.
  • the camera 51 For a given user, there are two or more cameras 51 that can be used to detect the position of the head of the given user in the camera 51, and one or more cameras 51 that can detect the eye direction (gaze direction) of the given user. In some cases, the direction of the line of sight of the predetermined user can be detected.
  • the camera 51 that can be used for detecting the user's head position includes the user's head, or includes a part of the user's body that can estimate the user's head position. This is a camera 51 obtained by photographing a captured image.
  • the camera 51 capable of detecting the direction of the user's eyes is a camera 51 obtained by photographing a captured image including the user's face or a camera 51 having a gaze direction detection function. .
  • step S13 since it is necessary to detect the user's head and face area from the captured image in order to determine whether there is a user who can detect the line-of-sight direction, the processing in step S13 described later is actually performed.
  • the process of step S12 is performed in parallel with a part of.
  • the predetermined camera 51 when the captured image including the user's face is obtained by the predetermined camera 51, the predetermined camera 51 not only detects the direction of the user's eyes but also the head (face) position. It can also be used for detection. Therefore, in this case, if the user's head position can be detected by the other one camera 51, the user's line-of-sight direction can be detected.
  • the gaze direction of the user in the global coordinate system can be detected.
  • step S12 If it is not determined in step S12 that there is a user capable of detecting the line-of-sight direction, that is, if any user's line-of-sight direction cannot be detected, the process returns to step S12, and the above-described processes are repeated.
  • step S13 the line-of-sight direction detection unit 73 performs camera 51 for each user whose line-of-sight direction can be detected.
  • the direction of the user's line of sight is detected every time. More specifically, the direction of the user's line of sight is detected for each camera 51 in which the user's face area is detected from the captured image.
  • the face detection unit 72 performs face recognition processing on the captured image supplied from the acquisition unit 61 and detects a user's face area from the captured image.
  • the line-of-sight direction detection unit 73 detects the direction of the user's face and the direction of the user's eyes in the captured image based on the detection result of the face area by the face detection unit 72.
  • the gaze direction detection unit 73 obtains the user's gaze direction in the camera coordinate system from the orientation of the user's face and the orientation of the user's eyes. Further, the gaze direction detection unit 73 calculates the gaze direction of the user in the global coordinate system from the gaze direction of the user in the camera coordinate system and the position and orientation of the camera 51.
  • a user's gaze direction was calculated for every camera 51 here, as above-mentioned, a user's gaze direction is calculated only about the camera 51 from which the direction of a user's face was the closest to the front. You may do it.
  • the line-of-sight direction detection unit 73 determines the line of sight of the user in the global coordinate system from the acquired line-of-sight direction of the user and the position and orientation of the camera 51 (or head-mounted line-of-sight detection device). Calculate the direction.
  • the face detection unit 72 detects the user's head from the photographed image obtained by the camera 51, and the user's head on the photographed image. The position, that is, the direction of the user's head in the camera coordinate system is determined.
  • the face detection unit 72 detects a part of the user's body from the captured image, and the user's head position (camera coordinates) is detected from the detection result.
  • the direction of the user's head in the system is determined by estimation.
  • step S14 the gaze position calculation unit 74 calculates the user's head position in the detection target space, that is, the user's head position in the global coordinate system, for each user whose gaze direction can be detected.
  • the gaze position calculation unit 74 captures the user's head position (face position) obtained by detection or estimation from each of two or more captured images, that is, the head direction in the camera coordinate system and the captured images. From the position and orientation of the camera 51, the position of the user's head in the global coordinate system is calculated by the principle of triangulation.
  • step S ⁇ b> 15 the gaze position calculation unit 74 calculates the detection result of the user's gaze direction, the calculation result of the user's head position, and the display unit 64 that is the gaze target for each user whose gaze direction can be detected. Based on the position in the detection target space, the user's gaze position is calculated.
  • any line-of-sight direction of the user's line-of-sight obtained in step S13 may be used as the user's line-of-sight direction.
  • the average value of the user's line-of-sight direction obtained for each camera 51 for the same user may be used as the final user's line-of-sight direction.
  • step S ⁇ b> 16 the detection accuracy calculation unit 75 determines the position and orientation of the camera 51, the information obtained when detecting the user's gaze direction for one or more cameras 51, Based on the captured image or the like, the detection accuracy of the line-of-sight direction is calculated.
  • the detection accuracy calculation unit 75 calculates any one of the distance information W11 to the gaze time information W17 as the detection accuracy in the gaze direction, or some of the distance information W11 to the gaze time information W17. Or a value obtained by weighted addition is calculated as the detection accuracy of the line-of-sight direction.
  • the gaze direction detection accuracy is obtained for each gaze direction of each of the cameras 51.
  • the average value of the detection accuracy may be used as the final gaze direction detection accuracy.
  • step S17 the UI processing unit 76 performs UI display corresponding to the detection accuracy based on the detection accuracy of the line-of-sight direction obtained for each user.
  • the UI processing unit 76 compares the detection accuracy of the line-of-sight direction obtained for each user with the threshold value th, controls the display unit 64 according to the comparison result, and displays the operation screen shown in FIG. IF11 is displayed or the operation screen IF12 shown in FIG. 2 is displayed.
  • the usability can be improved by displaying an operation screen that is easier to operate according to the detection accuracy of the line-of-sight direction.
  • step S18 the control unit 62 executes processing according to the gaze position of each user.
  • control unit 62 displays an image on the display unit 64 or outputs a sound from the output unit 65 in accordance with the icon or button at the user's gaze position on the operation screen displayed on the display unit 64.
  • the process according to the user's gaze position may be any process such as start or stop of reproduction of voice or moving image, or fast-forward.
  • a process may be performed for every gaze position of those all users, or it gazes about some gaze positions of all the user's gaze positions. Processing according to the position may be executed.
  • a wearable device having a predetermined gaze position of a specific user, a gaze position of a user with the longest gaze time, and a display function is attached.
  • a user's gaze position or the like that does not exist may be selected with priority.
  • the information processing apparatus 52 detects the user's line-of-sight direction from the captured image, calculates the detection accuracy of the line-of-sight direction, and executes processing according to the detection accuracy of the line-of-sight direction.
  • usability can be improved by switching the UI display mode according to the detection accuracy of the line-of-sight direction.
  • UI display according to eye-gaze direction detection accuracy ⁇ About UI display according to eye-gaze direction detection accuracy>
  • UI display according to the detection accuracy of the line-of-sight direction an example in which operation screens with different numbers and sizes of operation targets such as icons are displayed as shown in FIG. Any UI display may be performed.
  • UI display is performed in a predetermined display form determined in advance, and when the detection accuracy of the gaze direction is less than a predetermined threshold, Only operation objects such as some icons may be displayed.
  • the display form of the operation screen as the UI is switched as shown in FIG. That is, in a state where the detection accuracy of the user's line-of-sight direction is equal to or greater than the predetermined threshold th, the operation screen IF21 indicated by the arrow Q21 is displayed on the display unit 64.
  • This operation screen IF21 displays 16 icons AC21-1 to AC21-16, which are the operation targets, arranged side by side.
  • icons AC21-1 to AC21-16 are also simply referred to as icons AC21 when it is not necessary to distinguish them.
  • the detection accuracy of the user's gaze direction that is, the detection accuracy of the user's gaze position is equal to or higher than the threshold th and is sufficiently high, even if many icons AC21 are displayed on the operation screen IF21, which icon AC21 the user gazes at Can be accurately identified.
  • the information processing system enlarges and displays the vicinity of the user's gaze position when the detection accuracy of the user's gaze direction is less than the threshold th.
  • the user's gaze position is in the vicinity of the icon AC21-1 while the operation screen IF21 is displayed. In this state, it is assumed that the gaze position of the user is in the vicinity of the icon AC21-1 at the next time, but the detection accuracy of the user's gaze direction is less than the threshold th.
  • the information processing system causes the display unit 64 to display the operation screen IF22 in which only the icon AC21 in the vicinity of the icon AC21-1 is enlarged and displayed, for example, as indicated by an arrow Q22.
  • the display unit 64 causes the display unit 64 to display the operation screen IF22 in which only the icon AC21 in the vicinity of the icon AC21-1 is enlarged and displayed, for example, as indicated by an arrow Q22.
  • the four icons AC21 displayed in this way are the icons AC21 in the vicinity of the user's gaze position, there is a high possibility that they are the icons AC21 that the user tried to operate (specify). In other words, it can be said that it is a candidate for the icon AC21 corresponding to the gaze position of the user.
  • or step S56 is the same as the process of step S11 thru
  • step S57 the UI processing unit 76 determines whether or not the detection accuracy is equal to or greater than a predetermined threshold th based on the detection accuracy of the gaze direction obtained for each user.
  • the detection accuracy of the gaze direction of the user from which the gaze position is selected is high. It may be determined whether it is equal to or greater than the threshold th.
  • the gaze direction detection accuracy obtained for all users, the average value or weighted addition value of the gaze direction detection accuracy of all users, and the gaze direction of the user more than half of the gaze direction detection accuracy of all users May be determined to be greater than or equal to the threshold th in step S57.
  • step S57 If it is determined in step S57 that the detection accuracy of the line-of-sight direction is equal to or higher than the threshold th, the UI processing unit 76 performs UI display in a predetermined display form in step S58.
  • the UI processing unit 76 controls the display unit 64 to display the operation screen IF21 shown in FIG. 7 as the UI.
  • step S58 When the UI display is performed in a predetermined display form in step S58, the process proceeds to step S60.
  • step S57 if it is determined in step S57 that the detection accuracy of the line-of-sight direction is less than the threshold th, in step S59, the UI processing unit 76 displays operation target candidates corresponding to the user's gaze position.
  • the UI processing unit 76 controls the display unit 64 to switch the UI display on the display unit 64 so that only the operation target near the gaze position of a predetermined user is displayed. Thereby, for example, the display is switched from the state in which the operation screen IF21 of FIG. 7 is displayed to the state in which the operation screen IF22 is displayed.
  • the icon AC21 in the vicinity of the gaze position of one user is displayed as a candidate
  • a smaller number of icons AC21 may be displayed as a larger candidate for operation.
  • the displayed icon AC21 may be selected.
  • the icon AC21 in the vicinity of an area where more users are gazing that is, in the vicinity of an area where there are more gazing positions of users, may be displayed as a candidate.
  • the UI processing unit 76 determines that the operation target intended by the user is the icon AC21-1 in step S59. For example, a confirmation screen for confirming whether or not it is displayed on the display unit 64 may be displayed.
  • step S59 When the UI display is switched in step S59, the process proceeds to step S60.
  • step S60 is performed thereafter, but the process of step S60 is the same as the process of step S18 of FIG.
  • step S60 when the process of step S60 is performed, the process returns to step S52, and the above-described process is continuously performed until an instruction to stop the process according to the user's gaze position is issued. Then, when the execution stop of the process according to the user's gaze position is instructed, the UI display process ends.
  • the information processing device 52 detects the user's line-of-sight direction from the captured image and calculates the detection accuracy of the line-of-sight direction.
  • the information processing apparatus 52 is in the vicinity of the gaze position.
  • the display mode of the UI display is switched so that only the operation target is displayed as a candidate. In this way, by switching the display form of the UI display according to the detection accuracy of the line-of-sight direction, erroneous detection and the like can be prevented and usability can be improved.
  • a camera is arranged as shown in FIG. 9, parts corresponding to those in FIG. 3 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • cameras 101-1 to 101-4 are arranged as cameras for taking a photographed image.
  • the cameras 101-1 to 101-4 are also simply referred to as the camera 101 when it is not necessary to distinguish them.
  • the camera 101-1 and the camera 101-2 are fixed to the floor of the detection target space, and the camera 101-3 is a wearable having a gaze direction detection function mounted on the head of the user U21-1. It is a camera. Therefore, the camera 101-3 captures a captured image using another user U21-2, user U21-3, or the like different from the user U21-1 as a subject.
  • the camera 101-4 is a wide-angle camera fixed to the ceiling of the detection target space.
  • This camera 101-4 is a camera whose position and orientation are known and capable of photographing the entire detection target space.
  • the camera 101-1 is also a camera whose position and orientation are known and capable of photographing the entire detection target space.
  • the captured image captured by the camera 101-1 and the camera 101-4 always includes the other camera 101-2 and the camera 101-3 as subjects.
  • step S11 of FIG. 6 and step S51 of FIG. 8 the captured images photographed by the camera 101-1 and the camera 101-4 and the previously known cameras 101-1 and 101 From the position and orientation of the camera 101-4, the positions and orientations of the camera 101-2 and the camera 101-3 are recognized.
  • two cameras 131-1 and 131-2 are arranged in the detection target space as cameras for taking captured images, and these cameras 131-1 and 131-2 are arranged.
  • these cameras 131-1 and 131-2 are connected to the information processing device 52 by wire or wirelessly.
  • a gaze target 132 whose position in the global coordinate system is known is arranged in the detection target space.
  • the information processing device 52 it is possible to identify whether the user U21 is paying attention to the gaze target 132 by detecting the line-of-sight direction of each user U21.
  • the information processing device 52 can execute processing corresponding to the gaze position, such as causing the gaze target 132 that the user U21 is gazing to emit or drive, and the detection accuracy of the user's gaze direction.
  • the light emission pattern and driving method of the gaze target 132 can be changed according to the above.
  • the gaze target 132 when an image or a character is displayed on the gaze target 132 that is noticed by the user U21 among the plurality of gaze targets 132, the image or the character is displayed according to the detection accuracy of the gaze direction of the user U21. For example, the number of gaze objects 132 on which characters are displayed may be changed.
  • the information processing system shown in FIG. 10 is particularly effective when, for example, it is difficult to limit the standing position of each user U21 in the detection target space, or when investigating what is attracting attention in shops, museums, streets, and the like. is there.
  • the information processing system described above is a so-called home appliance such as a home air conditioner or a television receiver when the user's line-of-sight detection result is used in sports or fighting games in which the user moves his / her body greatly.
  • the present invention can be applied to the case where the user selects the home appliance with a line of sight and then controls the home appliance with voice or the like.
  • the series of processes described above can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes, for example, a general-purpose personal computer capable of executing various functions by installing a computer incorporated in dedicated hardware and various programs.
  • FIG. 11 is a block diagram showing an example of a hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 509 includes a network interface or the like.
  • the drive 510 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 to the RAM 503 via the input / output interface 505 and the bus 504 and executes the program, for example. Is performed.
  • the program executed by the computer (CPU 501) can be provided by being recorded on the removable medium 511 as a package medium, for example.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by attaching the removable medium 511 to the drive 510. Further, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508. In addition, the program can be installed in the ROM 502 or the recording unit 508 in advance.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • the present technology can be configured as follows.
  • a gaze direction detection unit that detects the gaze direction of the user based on a captured image obtained by photographing the user as a subject by a plurality of imaging units;
  • An information processing apparatus comprising: a detection accuracy calculation unit that calculates the detection accuracy of the gaze direction of the user.
  • the detection accuracy calculation unit calculates the detection accuracy based on at least one of information on a positional relationship between the imaging unit and the user, information on the imaging unit, information on the captured image, and a gaze time of the user.
  • the information processing apparatus according to [1].
  • [4] The information processing apparatus according to [3], wherein the first processing unit displays an operation screen in which an operation is performed by the user's line of sight in a display form corresponding to the detection accuracy.
  • [5] The information processing apparatus according to [4], wherein the first processing unit displays the operation target on the operation screen in different sizes according to the detection accuracy.
  • [6] The information processing apparatus according to [4] or [5], wherein the first processing unit displays a different number of operation targets on the operation screen according to the detection accuracy.
  • [7] The information processing according to any one of [4] to [6], further including a second processing unit that executes processing according to a gaze position on the operation screen of the user obtained from the line-of-sight direction. apparatus.
  • the first processing unit displays the operation screen in which several operation objects near the gaze position are displayed as operation target candidates corresponding to the gaze position.
  • the information processing apparatus according to [7].
  • the first processing unit compares the detection accuracy of the line-of-sight direction calculated for each of the plurality of users with a predetermined threshold value, and executes a process according to the comparison result. [3] Thru
  • An information processing method including a step of calculating a detection accuracy of the gaze direction of the user.
  • a program for causing a computer to execute processing including a step of calculating detection accuracy of the user's gaze direction.
  • a line-of-sight direction detection unit that detects the line-of-sight direction of the user based on at least one of the photographed images obtained by photographing a user as a subject by a plurality of photographing units;
  • the user's head position is determined by detecting the user's head from the captured images for at least two of the captured images obtained by the plurality of the imaging units, and the imaging If the user's head is not detected from the image, a head detection unit that obtains the head position by estimation from a part of the user detected from the captured image;
  • An information processing apparatus comprising: a gaze position calculation unit that calculates a gaze position of the user based on the gaze direction of the user and the head position of the user obtained for at least two of the captured images.
  • 51-1 to 51 -N 51 camera, 52 information processing device, 61 acquisition unit, 62 control unit, 64 display unit, 71 camera recognition unit, 72 face detection unit, 73 gaze direction detection unit, 74 gaze position calculation unit, 75 detection accuracy calculator, 76 UI processor

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)

Abstract

 本技術は、使い勝手を向上させることができるようにする情報処理装置および方法、並びにプログラムに関する。 情報処理システムは、複数のカメラにより撮影された撮影画像に基づいてユーザの視線方向を検出し、その視線方向から求まるユーザの注視位置に応じた処理を実行する。また、情報処理システムは、ユーザの視線方向の検出精度を算出するとともに、その視線方向の検出精度に応じて、表示させる操作画面の表示形態を切り替える。本技術は情報処理システムに適用することができる。

Description

情報処理装置および方法、並びにプログラム
 本技術は情報処理装置および方法、並びにプログラムに関し、特に、使い勝手を向上させることができるようにした情報処理装置および方法、並びにプログラムに関する。
 近年、カメラを利用してユーザの視線方向を検出し、その検出結果を利用して乗用車の安全運転のための評価やフィードバックを行なったり、UI(User Interface)上のアイコン選択やカーソル移動を行なったりすることが提案されている。
 このようにユーザの視線方向の検出結果を利用して何らかの処理を行う場合には、ユーザの視線方向を高精度に検出することが必要となる。そこで、複数のカメラを利用して視線方向の検出精度を向上させる技術が提案されている(例えば、特許文献1参照)。
 この技術では、複数のカメラのなかから、視線方向の検出に用いる1つまたは2つのカメラが選択される。そして、1つのカメラが選択された場合にはそのカメラの方向が視線方向とされ、2つのカメラが選択された場合には、それらの2つのカメラで得られた画像に基づいて視線方向が検出される。
 また、例えば複数のカメラでユーザの視線方向を検出するにあたり、ユーザの眼の開閉の状態を検出することで、視線方向検出のエラーを回避する技術(例えば、特許文献2参照)や、テンプレートマッチングによりユーザの顔向きと特徴点を検出し、その検出結果から視線方向を検出する技術も提案されている(例えば、特許文献3参照)。
特開2012-22646号公報 特開2003-15816号公報 特開2002-288670号公報
 しかしながら、ユーザの視線方向を検出する際に、ユーザの顔の位置や顔の方向など、ユーザとカメラとの位置関係によっては、ユーザの視線方向を高精度に検出することが困難な場合もある。
 このように視線方向の検出精度が低下してしまう状況では、視線方向の検出結果に応じた処理を実行するときに、ユーザやシステムの管理者等が意図しない処理が行われてしまうこともある。そのため、どのような状況であっても、なるべくユーザやシステムの管理者等の意図に沿った処理が行われるように、視線方向の検出結果を利用して処理を行うシステムの使い勝手の向上が望まれている。
 本技術は、このような状況に鑑みてなされたものであり、使い勝手を向上させることができるようにするものである。
 本技術の第1の側面の情報処理装置は、複数の撮影部によりユーザを被写体として撮影して得られた撮影画像に基づいて、前記ユーザの視線方向を検出する視線方向検出部と、前記ユーザの前記視線方向の検出精度を算出する検出精度算出部とを備える。
 前記検出精度算出部には、前記撮影部と前記ユーザとの位置関係に関する情報、前記撮影部に関する情報、前記撮影画像に関する情報、および前記ユーザの注視時間の少なくとも何れかに基づいて、前記検出精度を算出させることができる。
 情報処理装置には、前記検出精度に応じた処理を実行する第1の処理部をさらに設けることができる。
 前記第1の処理部には、前記ユーザの視線による操作が行われる操作画面を、前記検出精度に応じた表示形態で表示させることができる。
 前記第1の処理部には、前記検出精度に応じて、前記操作画面における操作対象を異なる大きさで表示させることができる。
 前記第1の処理部には、前記検出精度に応じて、前記操作画面上に異なる数の操作対象を表示させることができる。
 情報処理装置には、前記視線方向から求められた、前記ユーザの前記操作画面上の注視位置に応じた処理を実行する第2の処理部をさらに設けることができる。
 前記第1の処理部には、前記検出精度が閾値未満である場合、前記注視位置近傍にあるいくつかの操作対象が、前記注視位置に対応する操作対象の候補として表示される前記操作画面を表示させることができる。
 前記第1の処理部には、複数の前記ユーザのそれぞれについて算出された前記視線方向の前記検出精度と、予め定められた閾値とを比較させ、その比較結果に応じた処理を実行させることができる。
 本技術の第1の側面の情報処理方法またはプログラムは、複数の撮影部によりユーザを被写体として撮影して得られた撮影画像に基づいて、前記ユーザの視線方向を検出し、前記ユーザの前記視線方向の検出精度を算出するステップを含む。
 本技術の第1の側面においては、複数の撮影部によりユーザを被写体として撮影して得られた撮影画像に基づいて、前記ユーザの視線方向が検出され、前記ユーザの前記視線方向の検出精度が算出される。
 本技術の第2の側面の情報処理装置は、複数の撮影部によりユーザを被写体として撮影して得られた撮影画像のうちの少なくとも1つの前記撮影画像に基づいて、前記ユーザの視線方向を検出する視線方向検出部と、前記複数の前記撮影部で得られた前記撮影画像のうちの少なくとも2つの前記撮影画像について、前記撮影画像から前記ユーザの頭部を検出することで、前記ユーザの頭部位置を求め、前記撮影画像から前記ユーザの頭部が検出されなかった場合、前記撮影画像から検出された前記ユーザの一部分から推定により前記頭部位置を求める頭部検出部と、前記ユーザの前記視線方向と、少なくとも2つの前記撮影画像について得られた前記ユーザの前記頭部位置とに基づいて、前記ユーザの注視位置を算出する注視位置算出部とを備える。
 本技術の第2の側面においては、複数の撮影部によりユーザを被写体として撮影して得られた撮影画像のうちの少なくとも1つの前記撮影画像に基づいて、前記ユーザの視線方向が検出され、前記複数の前記撮影部で得られた前記撮影画像のうちの少なくとも2つの前記撮影画像について、前記撮影画像から前記ユーザの頭部を検出することで、前記ユーザの頭部位置が求められ、前記撮影画像から前記ユーザの頭部が検出されなかった場合、前記撮影画像から検出された前記ユーザの一部分から推定により前記頭部位置が求められ、前記ユーザの前記視線方向と、少なくとも2つの前記撮影画像について得られた前記ユーザの前記頭部位置とに基づいて、前記ユーザの注視位置が算出される。
 本技術の第1の側面によれば、使い勝手を向上させることができる。また、本技術の第2の側面によれば、より堅強にユーザの注視位置を検出することができる。
視線方向の検出について説明する図である。 視線方向の検出精度に応じたUI表示について説明する図である。 情報処理システムの構成例を示す図である。 ユーザの顔の向きおよび眼の向きについて説明する図である。 情報処理システムのより詳細な構成例を示す図である。 UI表示処理を説明するフローチャートである。 視線方向の検出精度に応じたUI表示について説明する図である。 UI表示処理を説明するフローチャートである。 情報処理システムの構成例を示す図である。 情報処理システムの構成例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術の概要について〉
 まず、本技術の概要について説明する。本技術は、1または複数のユーザの視線方向を検出し、その検出結果に応じた処理を実行する情報処理システムに関するものである。
 本技術を適用した情報処理システムは、主に、複数のカメラを利用してロバストに視線方向を検出すること、および視線方向の検出精度を算出し、検出精度に応じた処理を実行することを特徴とする。
 例えば図1に示すように、本技術を適用した情報処理システムは、所定の領域R11内にいる1または複数のユーザを視線検出対象者として、各ユーザの視線方向を検出し、その検出結果に応じた処理を実行する。
 すなわち、情報処理システムはカメラCA11-1乃至カメラCA11-6を有する構成とされており、情報処理システムは、それらのカメラCA11-1乃至カメラCA11-6を利用して、領域R11内にいるユーザU11乃至ユーザU13の視線方向を検出する。
 例えば、カメラCA11-1は領域R11のある空間の天井に設けられ、領域R11内の特定領域を撮影可能なカメラとされ、カメラCA11-2は領域R11のある空間の天井に設けられ、領域R11全体を撮影可能な広角カメラとされている。
 また、カメラCA11-3乃至カメラCA11-5は、領域R11内の任意の位置に固定されたカメラとされ、カメラCA11-6はユーザU11が頭部に装着しているウェアラブルカメラとされる。
 なお、以下、カメラCA11-1乃至カメラCA11-6を特に区別する必要のない場合、単にカメラCA11とも称することとする。
 このように情報処理システムは、天井等の空間内に固定されているカメラCA11だけでなく、ユーザが装着しているカメラCA11なども利用し、複数のカメラCA11でユーザU11乃至ユーザU13を被写体として撮影する。そして、情報処理システムは、撮影の結果得られた撮影画像に基づいてユーザU11乃至ユーザU13の視線方向を検出する。
 このように複数のカメラCA11で得られた撮影画像を用いることで、ロバストに各ユーザの視線方向を検出することができる。
 なお、ユーザが視線方向検出機能を有する頭部装着型デバイスを装着している場合には、その頭部装着型デバイスで得られた視線方向の検出結果も用いるようにしてもよい。
 ここで、視線方向検出機能を有する頭部装着型デバイスは、視線方向検出機能のみを有するデバイスであってもよいし、視線方向検出機能を有する表示デバイスや、カメラCA11-6等のウェアラブルカメラなどであってもよい。
 例えばカメラCA11-6に視線方向検出機能が搭載されている場合には、情報処理システムは、カメラCA11-6により検出されたユーザU11の視線方向を、そのままユーザU11の視線方向の検出結果として利用する。
 また、情報処理システムでは、ユーザの視線方向を検出する際に、その視線方向の検出精度も算出し、得られた検出精度に応じた処理を実行することで、情報処理システムの使い勝手を向上させている。
 例えばユーザの視線方向を検出する場合、視線方向検出に用いるカメラの組み合わせ、カメラとユーザの位置関係、解像度等のカメラの性能、明るさ等の撮影条件、被写体のぼけ具合等の撮影画像の状態などによって、ユーザの視線方向の検出精度が変化する。
 そこで、情報処理システムは、カメラの性能や、カメラの組み合わせ、撮影条件、撮影画像の状態などから視線方向の検出精度を算出する。そして、情報処理システムは、得られた検出精度に応じた処理を実行する。
 例えば、情報処理システムが所定の表示部にユーザの視線により操作が行われる操作画面をUIとして表示させるとする。より具体的には、例えば表示部にUIとしての操作画面が表示され、ユーザが操作画面上のアイコンを自身の視線により指定し、そのアイコンに対して定められている処理を実行させるものとする。
 また、ここでは視線方向の検出精度は、視線方向の検出を行うカメラとユーザとの距離のみにより定まり、カメラとユーザとの距離が近いほど検出精度が高いものとする。
 このような場合、例えば情報処理システムは、視線方向の検出精度に応じて図2に示すように操作画面の表示を切り替える。
 すなわち、情報処理システムは、カメラとユーザとの距離が近く、視線方向の検出精度が高い場合には、矢印Q11に示す操作画面IF11を表示させる。逆に、情報処理システムは、カメラとユーザとの距離が遠く、視線方向の検出精度が低い場合には、矢印Q12に示す操作画面IF12を表示させる。
 矢印Q11に示す操作画面IF11には、画面上に操作対象である合計15個のアイコンAC11-1乃至アイコンAC11-15が並べられている。なお、以下、アイコンAC11-1乃至アイコンAC11-15を特に区別する必要のない場合、単にアイコンAC11とも称する。
 この場合、視線方向の検出精度が十分に高いので、ユーザの視線方向から求まる操作画面IF11上のユーザの注視位置(注視点)も高精度に求めることができる。そのため、操作画面IF11上にある程度多くのアイコンAC11を表示しても、ユーザの視線方向の検出結果から、ユーザがどのアイコンAC11を注視しているか、つまりユーザがどのアイコンAC11を選択しているかを正確に特定することができる。
 これに対して、視線方向の検出精度が低い場合には、ユーザの注視位置の検出精度も低くなるので、情報処理システムは、矢印Q12に示すようにアイコンの数が少ない操作画面IF12を表示させる。
 この例では、操作画面IF12には、操作対象である3つのアイコンAC12-1乃至アイコンAC12-3のみが表示されている。なお、以下、アイコンAC12-1乃至アイコンAC12-3を特に区別する必要のない場合、単にアイコンAC12とも称することとする。
 矢印Q12に示す操作画面IF12と、矢印Q11に示す操作画面IF11とを比較すると、操作画面IF12には、操作画面IF11よりも、より少ない数のアイコンAC12が、より大きいサイズで表示されている。したがって、ある程度、視線方向の検出精度が低くてもユーザが指定(選択)したアイコンAC12を正しく検出できるようになっている。
 このように視線方向の検出精度に応じて、操作画面に表示されるアイコンの数や大きさ(サイズ)を変化させることで、ユーザが選択したアイコンの誤検出を防止し、ユーザに誤検出等に起因するストレスを感じさせないUIを提供することができる。換言すれば、操作画面上のアイコンを選択するときの操作性、つまり使い勝手を向上させることができる。
 なお、ここでは視線方向の検出精度に応じて、2通りの表示パターンの何れか、つまり操作画面IF11と操作画面IF12の何れかを表示させる例について説明したが、検出精度に応じて3以上の表示パターンのうちの何れかが選択されるようにしてもよい。つまり、視線方向の検出精度に応じて、段階的に操作画面の表示形態が変化してもよい。
 また、ここでは視線方向の検出精度に応じてアイコンの数と大きさを変化させる例について説明したが、視線方向の検出精度に応じて操作画面の一部が拡大表示されるようにしてもよい。具体的には、例えば視線方向の検出精度が十分高いときには、操作画面全体が表示され、視線方向の検出精度が低いときには、操作画面全体のうちの一部分が拡大表示される。
 このとき、操作画面のどの部分を拡大表示するかは、ユーザの注視位置に基づいて定めればよい。つまり、ユーザの注視位置近傍の領域を視線方向の検出精度により定まる倍率で拡大表示すればよい。
 その他、視線方向の検出精度に応じて、操作画面上に並べられて表示される複数のアイコン間の距離、つまりアイコンの間隔を変化させてもよい。また、視線方向の検出精度に応じて、ユーザの視線により操作されるカーソルの移動速度を変化させたり、ユーザが情報入力に使用する入力デバイスや情報の入力方法を変化させたりしてもよい。
 また、複数の表示領域がある場合には、視線方向の検出精度が高いときには1つの表示領域に全情報を表示させ、視線方向の検出精度が低いときには複数の表示領域に分けて情報を表示させるようにしてもよい。
 この場合、全情報をいくつかの表示領域に分けて表示させれば、視線方向の検出精度が低いときでも、より正確にユーザの注視位置、つまりユーザが注視している情報を特定することができるようになる。
 さらに、説明を簡単にするため、カメラとユーザとの距離のみから視線方向の検出精度が求められる例について説明したが、検出精度は複数のパラメータを重み付き加算するなど、どのようにして求めてもよい。
 例えば図1に示した例において、カメラCA11-6に視線方向検出機能が搭載されている場合には、カメラCA11-6によりユーザU11の視線方向を高精度に検出することができる。
 そこで、例えば視線方向の検出に用いるカメラのなかに視線方向検出機能を有するカメラ、つまり視線方向検出機能を有する頭部装着型デバイス(以下、頭部装着型視線検出デバイスとも称する)がある場合に、検出精度が高いとされ、視線方向の検出に用いるカメラのなかに、そのような頭部装着型視線検出デバイスがない場合に検出精度が低いとされるようにしてもよい。
 この場合、頭部装着型視線検出デバイスがあり、視線方向の検出精度が高いとされたときには、例えば上述した操作画面IF11が表示される。これに対して、視線方向の検出に用いるカメラが全て環境設置カメラのみである、つまり頭部装着型視線検出デバイスがなく、視線方向の検出精度が低いときには、操作画面IF12が表示される。
〈情報処理システムの例〉
 続いて、以上において説明した情報処理システムのより具体的な実施形態について説明する。図3は、本技術を適用した情報処理システムの具体的な実施形態を示す図である。
 この例では、情報処理システムは、各種の画像を表示する表示部11、およびユーザの視線方向検出のための撮影画像を撮影するカメラ12-1乃至カメラ12-3を有している。なお、以下、カメラ12-1乃至カメラ12-3を特に区別する必要のない場合、単にカメラ12とも称することとする。
 空間内にいるユーザU21-1乃至ユーザU21-3は、それぞれ注視対象物である表示部11の表示画面を見ながら、表示部11に表示される操作対象であるアイコン等を視線により指定して、指定したアイコンに応じた処理を実行させる。以下、ユーザU21-1乃至ユーザU21-3を特に区別する必要のない場合、単にユーザU21とも称する。
 この情報処理システムでは、3つのカメラ12が用いられて視線方向検出の対象者である各ユーザU21の視線方向と、その視線方向の検出精度が求められ、それらの視線方向や検出精度に応じた処理が実行される。
 具体的には、情報処理システムは、カメラ12により撮影された各撮影画像に基づいて、各ユーザU21の視線方向と、その視線方向の検出精度を求め、得られた検出精度に応じて表示部11に表示させる操作画面を変化させる。表示部11に表示される操作画面は、上述したようにユーザU21の視線により操作が行われるUIである。
 そして、情報処理システムは、求めた視線方向から、表示部11上におけるユーザU21の注視位置(注視点)を求め、その注視位置にあるアイコンに応じた処理を実行する。例えば、この例ではユーザU21-1の注視位置は、位置P11となっており、情報処理システムは、求められた位置P11に表示されているアイコンに応じた処理を実行する。
 アイコンに応じた処理は、例えばテレビジョン受像機等の操作対象とする機器の選択決定操作、ゲームの操作、画像や音声の再生処理の決定操作など、どのようなものであってもよい。
 次に、このような情報処理システムにおける視線方向や注視位置の検出、視線方向の検出精度の算出、およびその検出精度に応じた処理について、より具体的に説明する。なお、以下では、図3に示した情報処理システムについて説明するときに、ユーザU21を単にユーザとも称することとする。
(カメラの位置と姿勢の認識について)
 図3に示す情報処理システムでは、表示部11や各ユーザU21が存在する空間(以下、検出対象空間とも称する)において、その検出対象空間上にグローバル座標系が設定される。
 図3の例では、グローバル座標系は原点をOとし、互いに垂直なx軸、y軸、およびz軸を軸とする3次元直交座標系とされており、グローバル座標系の原点Oは、グローバル座標系における位置が既知である表示部11の表示画面中心の位置となっている。
 情報処理システムでは、ユーザの視線方向の検出や、その検出結果に応じた処理等の各種の処理を開始する前に、グローバル座標系における全カメラ12の位置と姿勢が予め設定される。
 ここで、カメラ12の位置および姿勢とは、グローバル座標系におけるカメラ12の配置位置と、そのカメラ12の撮影方向である。具体的には、例えば各カメラ12では、それらのカメラ12を基準とするカメラ座標系がカメラ12ごとに設定されている。
 図3に示す例では、カメラ12-2に対して、そのカメラ12-2の位置を原点O’とし、互いに垂直なx’軸、y’軸、およびz’軸を軸とする3次元直交座標系がカメラ12-2のカメラ座標系として予め定められている。
 以下では、特にカメラ12-2に限定せずに、任意のカメラのカメラ座標系の原点と軸を、原点O’、x’軸、y’軸、およびz’軸と称することとする。
 例えばカメラ12の位置と姿勢の設定時には、カメラ12について定められているカメラ座標系の原点O’の位置が、グローバル座標系におけるカメラ12の位置として設定される。また、カメラ12について定められているカメラ座標系のロール角、ピッチ角、およびヨー角のそれぞれの角度から定まる撮影方向がカメラ12の姿勢として設定される。
 ここで、カメラ座標系のx’軸、y’軸、およびz’軸のそれぞれの方向が、グローバル座標系のx軸、y軸、およびz軸のそれぞれの方向と同じである状態を、カメラ12の撮影方向が基準方向である状態とする。
 このとき、カメラ座標系のロール角とは、カメラ12のカメラ座標系(撮影方向)が、基準方向である状態から、z軸を回転軸としてどれだけ傾いているか、つまりz軸を回転軸としてどれだけ回転した状態となっているかを示す回転角度である。
 また、カメラ座標系のピッチ角とは、カメラ12のカメラ座標系(撮影方向)が、基準方向である状態から、x軸を回転軸としてどれだけ回転した状態となっているかを示す回転角度である。
 同様に、カメラ座標系のヨー角とは、カメラ12のカメラ座標系(撮影方向)が、基準方向である状態から、y軸を回転軸としてどれだけ回転した状態となっているかを示す回転角度である。
 なお、各カメラ12の位置と姿勢は、管理者等の入力によって設定されるようにしてもよいし、予め記録されている各カメラ12の位置と姿勢を示す情報を読み込むことで設定されるようにしてもよい。
 さらに、カメラ12のうちの一部または全部については、自動認識によりカメラ12の位置と姿勢が設定されるようにしてもよい。
 自動認識の方法としては、例えばカメラ12で予めグローバル座標系における位置が既知である背景等の複数の目標物が含まれる撮影画像が撮影され、得られた撮影画像からカメラ12の位置および姿勢が求められる。
 すなわち、撮影画像から特徴量を抽出して、撮影画像におけるそれらの目標物の位置と方向を特定すれば、撮影画像を撮影したカメラ12のグローバル座標系における位置と姿勢を求めることができる。
 また、自動認識の方法として、予めグローバル座標系における自身の位置と姿勢が既知である複数のカメラ12により他のカメラ12が含まれる撮影画像を撮影し、それらの撮影画像から、他のカメラ12のグローバル座標系上の位置と姿勢を求めてもよい。
(ユーザの視線方向の検出について)
 また、情報処理システムではユーザの視線方向を検出するにあたり、まず顔認識処理により、撮影画像から視線検出対象者となる各ユーザの顔が検出されるとともに、それらの各ユーザの顔の向きと、ユーザの眼の向きが検出される。
 ここで、撮影画像からの顔の検出は、肌色領域の検出や特徴点の検出、テンプレートマッチングなど、どのようにして行われてもよい。このようにして撮影画像から検出されたユーザの顔の位置、つまり撮影画像内におけるユーザの顔領域から、検出対象空間上におけるカメラ12から見たユーザの顔がある方向が分かる。
 また、撮影画像内におけるユーザの顔の向きは、例えば顔から検出された左右の眼の顔内での位置や撮影画像内での傾き、撮影画像における顔の輪郭の傾きなどにより検出される。さらにユーザの眼の向きは、撮影画像内で検出されたユーザの眼全体の領域における黒目の位置等により特定することができる。
 具体的には、例えば撮影画像内におけるユーザの顔の向きおよび眼の向きとして、図4に示す情報が検出される。
 この例では、撮影画像からは1人のユーザFC11が検出されており、このユーザFC11の顔の向きとして、撮影画像に対する、つまりカメラ座標系に対するロール角、ピッチ角、およびヨー角が求められる。これらのロール角、ピッチ角、およびヨー角は、例えばユーザFC11がカメラ12に対して正面を向いている状態を基準とした回転角度である。
 すなわち、ロール角はカメラ座標系のz’軸を回転軸としたユーザFC11の顔の回転角度であり、ピッチ角はカメラ座標系のx’軸を回転軸としたユーザFC11の顔の回転角度であり、ヨー角はカメラ座標系のy’軸を回転軸としたユーザFC11の顔の回転角度である。また、ユーザFC11の眼の向きは、例えばユーザFC11の顔を基準とした黒目の向きとされる。
 したがって、これらのユーザFC11の顔の向きと眼の向きとから図中、矢印DR11に示す、撮影画像上、つまりカメラ座標系におけるユーザFC11の視線方向が求まる。
 さらに、このようにして求めたカメラ座標系におけるユーザFC11の視線方向と、カメラ12の位置および姿勢、つまりカメラ座標系およびグローバル座標系の関係とから、グローバル座標系におけるユーザFC11の視線方向が求まる。
 なお、顔認識処理により撮影画像からユーザの顔を検出することができない場合には、人検出等の技術により撮影画像からユーザの頭部が検出される。このようにして検出された撮影画像上のユーザの頭部の位置(方向)は、グローバル座標系におけるユーザの頭部位置を求めるために用いられる。
 これに対して、顔認識処理により撮影画像からユーザの顔が検出された場合には、グローバル座標系におけるユーザの頭部位置を求める際には、そのユーザの顔の位置が撮影画像におけるユーザの頭部位置として用いられる。
 また、顔認識等において撮影画像上のユーザが予め登録されたどのユーザであるかを特定することができ、かつ予め登録されたユーザ個人の視線キャリブレーションデータがある場合には、その視線キャリブレーションデータを用いて視線方向を求めてもよい。
 ユーザの視線方向を検出する場合、各ユーザ個人によって、検出された顔の向きおよび眼の向きから求める視線方向と、実際のユーザの視線方向とにはずれが生じる。そこで、そのようなずれを補正するための視線キャリブレーションデータが予め用意されている場合には、視線キャリブレーションデータを用いてユーザの視線方向を補正することで、より高精度にユーザの視線方向を検出することができるようになる。
 さらに、ユーザが眼鏡型等の頭部装着型視線検出デバイスを装着している場合には、その頭部装着型視線検出デバイスにおいて検出されたユーザの視線方向を用いてもよい。
 この場合、頭部装着型視線検出デバイスがカメラ12として機能しないときでも、カメラ12と同様にグローバル座標系における頭部装着型視線検出デバイスの位置および姿勢が設定される。そうすることで、頭部装着型視線検出デバイスで検出されたユーザの視線方向と、頭部装着型視線検出デバイスの位置および姿勢とから、グローバル座標系におけるユーザの視線方向を求めることができる。
 特に、この場合、頭部装着型視線検出デバイスでは高精度に視線方向を検出可能であるから、グローバル座標系におけるユーザの視線方向として精度の高い情報を得ることができる。
(ユーザの注視位置の検出について)
 以上のようにしてグローバル座標系におけるユーザの視線方向が求められると、さらにグローバル座標系におけるユーザの注視位置が求められる。
 ユーザの注視位置を求めるためには、ユーザの視線方向に加え、さらにグローバル座標系における注視対象物とユーザの頭部(顔)との位置関係を検出する必要がある。
 例えば図3に示した例では、撮影により同一のユーザU21の頭部が含まれる撮影画像が得られたカメラ12が少なくとも2つあれば、そのユーザU21の注視位置を求めることができる。
 例えば、カメラ12-2とカメラ12-3とで得られた撮影画像から、カメラ12-2について検出したユーザU21-1の注視位置P11を求めるとする。
 ここで、上述したように注視対象物である表示部11のグローバル座標系における位置は既知である。また、カメラ12-2およびカメラ12-3のそれぞれについて、それらのカメラ12の位置および姿勢が設定されている。
 さらに、カメラ12-2とカメラ12-3とで、撮影画像内におけるユーザU21-1の頭部の位置、つまりカメラ12から見たユーザU21-1の頭部(顔)がある方向が求められているとする。
 このような場合、カメラ12-2とカメラ12-3について得られている、カメラ12の位置および姿勢と、カメラ12から見たユーザU21-1の頭部の方向とから、三角測量の原理によりグローバル座標系におけるユーザU21-1の頭部の位置を特定することができる。
 このようにしてユーザU21-1の頭部の位置が求まると、グローバル座標系におけるユーザU21-1の頭部の位置と、注視対象物である表示部11の位置との関係が求まったことになる。すると、これらのユーザU21-1の頭部と表示部11の位置関係、およびカメラ12-2について求められたグローバル座標系におけるユーザU21-1の視線方向から、表示部11上におけるユーザU21-1の注視位置P11が求まる。
 同様にしてカメラ12-3についても、ユーザU21-1の頭部および表示部11の位置関係と、カメラ12-3について求められたグローバル座標系におけるユーザU21-1の視線方向とから、ユーザU21-1の注視位置を求めることができる。
 以上のように、複数のカメラ12のうち、少なくとも2つのカメラ12でユーザの頭部位置が検出可能であり、かつ少なくとも1つのカメラ12でユーザの視線方向、つまりユーザの顔が検出可能であれば、ユーザの注視位置を求めることができる。
(注視位置検出のロバスト性向上について)
 なお、ユーザの注視位置の検出にあたり、その検出のロバスト性を向上させるために、必要に応じて撮影画像からユーザの頭部位置を推定するようにしてもよい。
 上述したように、グローバル座標系におけるユーザの注視位置を求めるには、少なくとも2つのカメラ12でユーザの頭部位置を検出する必要がある。しかし、場合によっては例えば1つのカメラ12でしかユーザの頭部位置を検出することができないこともある。
 そこで、そのような場合には、ユーザの頭部位置を検出できなかった少なくとも1つのカメラ12について、カメラ12で得られた撮影画像から、人(ユーザ)の領域を検出し、その検出結果から、さらにそのカメラ12から見たユーザの頭部位置(頭部の方向)を推定するようにしてもよい。
 この場合、ユーザの頭部があるであろうおおよその位置を推定可能とする、ユーザの体の一部分を撮影画像から検出することができれば、1つのカメラ12でしかユーザの頭部位置を検出することができないときであっても、グローバル座標系におけるユーザの頭部位置を求めることができる。これにより、より堅強にユーザの注視位置を検出することができる。
 特に、時間的に継続してユーザの注視位置を検出する場合、カメラ12で得られた異なる時刻の撮影画像を用いてユーザの顔領域や体の領域をトラッキングすれば、処理対象の現フレーム(時刻)の撮影画像からユーザの顔(頭部)を検出できなくても、トラッキングによってカメラ座標系におけるユーザの頭部位置を推定することができる。
 また、ユーザの顔が検出された撮影画像が複数ある場合には、それらの複数の撮影画像や、何れか1つの撮影画像からユーザの視線方向を求めるようにするなど、どのようにして最終的な1つの視線方向を求めてもよい。
 例えばユーザの顔が検出された撮影画像が複数ある場合、撮影画像におけるユーザの顔の向きが最も正面に近い撮影画像を用いてユーザの視線方向を求めるようにしてもよい。これは、撮影画像上においてユーザの顔の向きが横向きであるよりも、より正面に近い向きである方が高精度に眼の向き、つまり視線方向を検出できるからである。
 この場合、撮影画像から得られたユーザの顔の向きを示す情報であるロール角、ヨー角、およびピッチ角に基づいて、それらの角度が最も小さい撮影画像が選択され、その撮影画像からユーザの視線方向が求められる。また、ユーザの顔の向きが最も正面に近い撮影画像として、撮影画像におけるユーザの眼の領域の面積が最も大きいものが選択されるようにしてもよい。
 また、複数のカメラ12について、同一ユーザの視線方向が検出された場合には、それらの複数のカメラ12について求めた、グローバル座標系におけるユーザの視線方向の平均値を、最終的なユーザの視線方向として用いるようにしてもよい。
 さらに、1つのカメラ12のみでユーザの顔が検出され、他のカメラ12ではユーザの顔や頭部を検出できなかったり、ユーザの頭部位置の推定もできなかったりする場合には、ユーザの顔が検出された1つのカメラ12の撮影画像から、ユーザの注視位置を求めてもよい。そのような場合、ユーザの視線方向は上述した方法と同様にして求められるが、ユーザの頭部位置は、単眼カメラの距離測定方法により求められる。
 すなわち、単眼カメラの距離測定方法では、例えば撮影画像上におけるユーザの両眼間の距離(間隔)や、顔の特徴点間の距離などから、検出対象空間におけるカメラ12からユーザの頭部までの距離が求められる。
 そして、このようにして求められた距離、撮影画像上におけるユーザの顔の位置(方向)、およびカメラ12の位置と姿勢から、グローバル座標系におけるユーザの頭部位置が求められる。このようにすることで、2以上のカメラ12を用いる場合よりもユーザの頭部位置の検出精度は低くなるが、継続して各時刻におけるユーザの注視位置を求めることができる。
(視線方向の検出精度について)
 また、以上のようにしてユーザの注視位置が求められると、そのユーザの注視位置の検出精度、つまりユーザの視線方向の検出精度が算出される。
 例えば視線方向の検出精度は、カメラ12に関する情報、カメラ12とユーザとの位置関係に関する情報、撮影画像に関する情報など、1または複数の情報に基づいて算出される。
 具体的には、例えば距離情報W11、顔向き情報W12、解像度情報W13、明るさ情報W14、合焦度情報W15、検出デバイス情報W16、および注視時間情報W17の少なくとも何れか1つ、つまりこれらの距離情報W11乃至注視時間情報W17の一部または全部に基づいて、視線方向の検出精度が算出される。
 ここで、距離情報W11は、検出対象空間におけるカメラ12からユーザまでの距離を示す情報であり、距離情報W11により示される距離が短いほど、視線方向の検出精度は高くなる。カメラ12とユーザとの距離は、グローバル座標系におけるカメラ12の位置とユーザの頭部位置から算出されてもよいし、撮影画像におけるユーザの眼の領域の大きさなどに基づいて算出されてもよい。
 また、顔向き情報W12はカメラ12に対するユーザの顔の向きを示す情報、より詳細には、ユーザの顔向きの正面方向らしさの度合いを示す情報である。例えば顔向き情報W12の値は、ユーザの顔の向きを示すロール角、ピッチ角、およびヨー角などから算出され、カメラ12に対するユーザの顔の向きがより正面に近いほど大きくなる。したがって、顔向き情報W12の値が大きいほど、視線方向の検出精度は高くなる。
 解像度情報W13はカメラ12の解像度、つまり撮影画像の解像度を示す情報であり、解像度情報W13の値は、カメラ12の解像度が高いほど大きくなる。カメラ12の解像度が高いほど、撮影画像からユーザの眼の向きや顔の向きなどをより高精度に検出できることから、解像度情報W13が大きいほど視線方向の検出精度は高くなる。
 明るさ情報W14は、撮影画像の撮影環境の明るさ、つまり撮影画像の明るさを示す情報である。明るさ情報W14の値は、例えば撮影画像の全画素の平均輝度などから求められ、撮影画像が明るいほど明るさ情報W14の値は大きくなる。撮影画像が明るいほど、撮影画像から精度よくユーザの眼の向きなどを検出できることから、明るさ情報W14が大きいほど視線方向の検出精度は高くなる。
 また、合焦度情報W15は、撮影画像におけるユーザの顔領域のぼけ具合を示す情報である。合焦度情報W15の値は、例えば撮影画像に対してエッジ検出を行うことで算出され、ユーザの顔領域のエッジ強度が弱く、その顔領域がぼけているほど小さくなる。ユーザの顔領域のぼけ具合が小さいほど、ユーザの眼の向きや顔の向きなどをより高精度に検出できることから、合焦度情報W15が大きいほど視線方向の検出精度は高くなる。
 検出デバイス情報W16はカメラ12に起因する視線方向検出精度の信頼性を示す情報であり、検出デバイス情報W16の値は、カメラ12が頭部装着型視線検出デバイスであるか否かにより定められる。
 例えばカメラ12が頭部装着型視線検出デバイスである場合、つまりカメラ12としての頭部装着型視線検出デバイスで検出されたユーザの視線方向が、カメラ12から見たユーザの視線方向として用いられる場合、検出デバイス情報W16の値は所定の値とされる。
 これに対して、カメラ12が頭部装着型視線検出デバイスでない場合、検出デバイス情報W16の値は、カメラ12が頭部装着型視線検出デバイスである場合における検出デバイス情報W16の値よりも小さい値とされる。
 カメラ12が頭部装着型視線検出デバイスである場合、より高精度にユーザの視線方向を検出可能であるから、検出デバイス情報W16の値が大きいほど視線方向の検出精度は高くなる。
 さらに、注視時間情報W17は、ユーザが同じ注視位置を注視している時間(注視時間)を示す情報である。例えば、注視時間情報W17は時間方向における同一ユーザの注視位置の変動量(変化量)、または視線方向の変動量に基づいて算出され、注視位置や視線方向の変動量が閾値以下である時間が長いほど、つまり注視時間が長いほど注視時間情報W17の値は大きくなる。
 例えばユーザが視線によりUI上のカーソルを移動させる場合などにおいては、ユーザが意図した位置にカーソルがあるときには、ユーザはカーソルを移動させないので、ユーザによる特定位置の注視時間は長くなる。そのような場合、ユーザの注視位置、つまり視線方向は正しく検出されているはずであるから、注視時間情報W17の値が大きいほど視線方向の検出精度は高くなるようにされる。
 情報処理システムでは、距離情報W11乃至注視時間情報W17の少なくとも何れか1つを用いて、ユーザごとに視線方向の検出精度を算出する。例えば視線方向の検出精度は、距離情報W11乃至注視時間情報W17を重み付き加算することにより算出される。この場合、例えば視線方向を検出する際に、より影響が大きい距離情報W11の重みを他の情報の重みよりも大きくすることなどが考えられる。なお、視線方向の検出精度の算出は、距離情報W11乃至注視時間情報W17を用いる例に限らず、他のどのような情報を用いて行うようにしてもよい。
(視線方向の検出精度に応じた処理について)
 さらに、各ユーザの視線方向の検出精度が算出されると、情報処理システムは、それらの検出精度に応じて表示部11に表示させるUIの表示形態(表示パターン)を変化させる。
 例えば情報処理システムにおいて、表示部11にUIとしての操作画面が表示されている状態で、ユーザの注視位置にあるアイコンが選択され、そのアイコンに応じた処理が実行されるとする。
 このとき、情報処理システムは、例えばユーザの視線方向(注視位置)の検出精度が予め定めた閾値th以上である場合には図2に示した操作画面IF11を表示し、視線方向の検出精度が予め定めた閾値th未満である場合には図2に示した操作画面IF12を表示する。そして、検出されたユーザの注視位置に基づいて、その注視位置に表示されているアイコンを選択したり、注視位置に応じた他の処理を実行したりする。
 なお、視線検出対象者としてのユーザが複数いる場合には、例えば以下のようにして表示部11の操作画面の表示形態を変化させることができる。
 すなわち、複数の全ユーザの視線方向の検出精度が閾値th以上である場合には図2に示した操作画面IF11が表示される。また、複数の全ユーザの視線方向の検出精度が閾値th未満である場合には図2に示した操作画面IF12が表示される。
 そして、視線方向の検出精度が閾値th以上であるユーザと、視線方向の検出精度が閾値th未満であるユーザとがいる場合には、最初に表示部11を注視したユーザの検出精度に応じて操作画面の表示形態が定められる。
 すなわち、最初に表示部11を注視したユーザの検出精度が閾値th以上である場合には操作画面IF11が表示され、最初に表示部11を注視したユーザの検出精度が閾値th未満である場合には操作画面IF12が表示される。
 その他、視線方向の検出精度が閾値th以上であるユーザと、視線方向の検出精度が閾値th未満であるユーザとがいる場合には、最も注視時間が長いユーザの検出精度に応じて操作画面の表示形態が定められたり、最も表示部11に近い位置にいるユーザの検出精度に応じて操作画面の表示形態が定められたり、全ユーザの視線方向の検出精度の平均値や重み付き加算値に応じて操作画面の表示形態が定められたりしてもよい。
 また、視線方向の検出精度が閾値th以上であるユーザの数と、視線方向の検出精度が閾値th未満であるユーザの数とのうち、より数が多い方についての検出精度と閾値thとの比較結果に応じて操作画面の表示形態が定められてもよい。
 さらに、ユーザの注視位置に応じた処理を実行するにあたっては、何れか1人のユーザが処理対象のユーザとして選択され、そのユーザの注視位置に応じた処理が実行されるようにしてもよい。
 その際、どのユーザが処理対象のユーザであるかが表示部11に表示されるようにしてもよい。また、最も注視時間が長いユーザが処理対象のユーザとして選択されるようにしたり、表示部11に表示される画像と同じ画像が表示される、表示機能を有するウェアラブルデバイスを装着していないユーザが優先的に処理対象のユーザとして選択されるようにしたりしてもよい。
 また、ユーザごとに、それらのユーザが操作するカーソル等が表示部11に表示され、各ユーザの視線(注視位置)による選択操作に応じて処理が実行されるようにしてもよい。そのような場合、例えば各ユーザによりカーソルが移動され、カーソルによりアイコンが選択された場合、そのアイコンが表示されている領域で、選択されたアイコンに応じた動画像が再生されるなどの処理が行われるようにすることができる。
〈情報処理システムのより詳細な構成例〉
 次に、以上において説明した情報処理システムのより詳細な構成例について説明する。
 図5は、本技術を適用した情報処理システムのより詳細な構成例を示す図である。図5に示す情報処理システムは、カメラ51-1乃至カメラ51-N、および情報処理装置52から構成される。
 カメラ51-1乃至カメラ51-Nは、図3に示したカメラ12に対応し、検出対象空間にいるユーザを被写体として撮影し、その結果得られた撮影画像を、有線または無線により接続されている情報処理装置52に供給する。
 なお、以下、カメラ51-1乃至カメラ51-Nを特に区別する必要のない場合には、単にカメラ51とも称することとする。
 カメラ51は、上述したように検出対象空間の床や天井などに固定されていてもよいし、必要に応じて移動するものであってもよい。また、例えばカメラ51は検出対象空間にいるユーザが装着しているウェアラブルカメラや、装着しているユーザを撮影して、そのユーザの視線方向を検出する頭部装着型視線検出デバイスであってもよい。
 情報処理装置52は、カメラ51から供給された撮影画像に基づいてユーザの視線方向を検出するとともに、その視線方向の検出精度やユーザの注視位置を算出する。また、情報処理装置52は、ユーザの視線方向の検出精度に応じてUIの表示形態を変化させるとともに、ユーザの注視位置に応じた処理を実行する。
 情報処理装置52は、取得部61、制御部62、入力部63、表示部64、および出力部65を有している。
 取得部61は、有線または無線により各カメラ51から撮影画像を取得して制御部62に供給する。また、取得部61は、カメラ51が視線方向検出機能を有する頭部装着型視線検出デバイスである場合には、そのカメラ51からユーザの視線方向の検出結果を取得して、制御部62に供給する。
 制御部62は、情報処理装置52全体の動作を制御する。例えば制御部62は、取得部61から供給された撮影画像に基づいて、ユーザの視線方向や注視位置を検出したり、撮影画像等に基づいて視線方向の検出精度を算出したりする。また、制御部62は、入力部63からの情報や注視位置の検出結果、視線方向の検出精度などに応じて処理を実行したりする。
 制御部62は、カメラ認識部71、顔検出部72、視線方向検出部73、注視位置算出部74、検出精度算出部75、およびUI処理部76を有している。
 カメラ認識部71は、入力部63から供給された情報や取得部61から供給された撮影画像に基づいて、各カメラ51の位置と姿勢を認識する。
 顔検出部72は、各カメラ51で得られた撮影画像から視線検出対象者であるユーザの顔や頭部を検出したり、撮影画像から検出されたユーザの体の一部分の領域から、ユーザの頭部の位置を推定により求めたりする。
 視線方向検出部73は、各カメラ51の位置と姿勢、取得部61から供給された撮影画像、および顔検出部72による顔検出結果に基づいて、各カメラ51について、視線検出対象者であるユーザごとに視線方向を検出する。
 なお、取得部61が、視線方向検出機能を有するカメラ51からユーザの視線方向の検出結果を取得する場合には、そのカメラ51を構成する視線方向検出ブロックも視線方向検出部73として機能することになる。
 注視位置算出部74は、各カメラ51の位置および姿勢と、ユーザの視線方向の検出結果とに基づいて、各ユーザの注視位置を算出する。
 検出精度算出部75は、ユーザごとの視線方向の検出結果について、カメラ51の位置および姿勢や、ユーザの視線方向の検出時に得られた情報、取得部61から供給された撮影画像などに基づいて、視線方向の検出精度を算出する。
 UI処理部76は、ユーザの視線方向の検出精度に応じて表示部64を制御し、表示部64にUI等の画像を表示させる。
 入力部63は、例えばマウスやキーボード、無線により制御部62に接続されたコントローラなどからなり、視線検出対象者や情報処理システムの管理者などの操作に応じた信号を制御部62に供給する。
 また、入力部63がマイクロフォンなどから構成されるようにし、視線検出対象者等の音声を収音して、その結果得られた音声信号を制御部62に供給するようにしてもよい。この場合、制御部62は、入力部63から供給された音声信号に対して、音声認識処理を行い、その結果に応じて処理を実行する。
 表示部64は、例えば液晶表示デバイスなどからなり、制御部62の制御に従ってUI等の画像を表示する。この表示部64は、図3に示した表示部11に対応する。出力部65は、例えばスピーカなどからなり、制御部62の制御に従って音声を出力する。
〈UI表示処理の説明〉
 続いて、図5に示した情報処理システムの動作について説明する。
 情報処理システムは、管理者等によりユーザの注視位置に応じた処理の実行が指示されると、カメラ51でのユーザの撮影を開始する。そして、各カメラ51は、撮影により得られた撮影画像を情報処理装置52へと順次、供給する。また、情報処理装置52は、UI表示処理を行い、ユーザの視線方向の検出精度に応じてUIの表示形態を切り替えるとともに、ユーザの注視位置に応じた処理を実行する。
 以下、図6のフローチャートを参照して、情報処理システムを構成する情報処理装置52により行われるUI表示処理について説明する。
 ステップS11において、カメラ認識部71は、各カメラ51の位置と姿勢を認識し、その認識結果を、カメラ51の位置および姿勢として設定する。
 例えば情報処理システムの管理者が入力部63を操作し、各カメラ51の位置および姿勢として、グローバル座標系におけるカメラ51の位置と、カメラ51ごとのカメラ座標系のロール角、ピッチ角、およびヨー角とを入力したとする。
 この場合、カメラ認識部71は、入力部63から供給されたグローバル座標系におけるカメラ51の位置と、カメラ51ごとのカメラ座標系のロール角、ピッチ角、およびヨー角とを、カメラ51の位置および姿勢として設定する。
 また、その他、カメラ認識部71が図示せぬメモリから各カメラ51の位置および姿勢を読み出すことで、カメラ51の位置および姿勢を設定してもよい。さらに、上述した自動認識方法として説明したように、カメラ認識部71が取得部61から供給された撮影画像から、予め位置が既知である目標物の位置(方向)を検出し、その検出結果からカメラ51の位置および姿勢を認識するようにしてもよい。
 また、位置と姿勢が既知である複数のカメラ51で得られた撮影画像から、他のカメラ51の位置と姿勢を認識してもよい。
 ステップS12において、視線方向検出部73は、取得部61から供給された撮影画像に基づいて、視線検出対象者のなかに、視線方向の検出、より詳細には注視位置の検出が可能なユーザがいるか否かを判定する。
 例えば所定ユーザについて、カメラ51のなかに所定ユーザの頭部位置の検出に使用可能なカメラ51が2以上あり、かつその所定ユーザの眼の向き(視線方向)を検出可能なカメラ51が1以上ある場合、この所定ユーザの視線方向の検出は可能であるとされる。
 ここで、ユーザの頭部位置の検出に使用可能なカメラ51とは、ユーザの頭部が含まれているか、またはユーザの頭部位置を推定可能とするユーザの体の一部が含まれている撮影画像が撮影により得られたカメラ51である。
 また、ユーザの眼の向き(視線方向)を検出可能なカメラ51とは、ユーザの顔が含まれている撮影画像が撮影で得られたカメラ51、または視線方向検出機能を有するカメラ51である。
 したがって、より詳細には視線方向の検出が可能なユーザがいるかの判定には、撮影画像からのユーザの頭部や顔領域の検出結果が必要となるので、実際には後述するステップS13の処理の一部と並行してステップS12の処理が行われることになる。
 なお、所定のカメラ51によりユーザの顔が含まれている撮影画像が得られた場合には、その所定のカメラ51は、ユーザの眼の向きの検出だけでなく、頭部(顔)位置の検出にも使用可能である。そのため、この場合には、他の1つのカメラ51でユーザの頭部位置を検出可能であれば、そのユーザの視線方向の検出が可能となる。
 また、視線方向検出機能を有するカメラ51や頭部装着型視線検出デバイスから、カメラ51または頭部装着型視線検出デバイスから見たユーザの視線方向が取得された場合には、それらのカメラ51や頭部装着型視線検出デバイスの位置および姿勢が設定されているので、グローバル座標系におけるユーザの視線方向の検出が可能となる。
 ステップS12において、視線方向の検出が可能なユーザがいると判定されなかった場合、つまりどのユーザの視線方向も検出できない場合、処理はステップS12に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS12において視線方向の検出が可能なユーザがいると判定された場合、ステップS13において、視線方向検出部73は、視線方向の検出が可能とされた各ユーザについて、カメラ51ごとにユーザの視線方向を検出する。なお、より詳細には、撮影画像からユーザの顔領域が検出された各カメラ51について、ユーザの視線方向が検出される。
 すなわち、顔検出部72は、取得部61から供給された撮影画像に対して顔認識処理を行って、その撮影画像からユーザの顔領域を検出する。また、視線方向検出部73は、顔検出部72による顔領域の検出結果に基づいて、撮影画像におけるユーザの顔の向きと、ユーザの眼の向きを検出する。
 そして、視線方向検出部73は、それらのユーザの顔の向きと、ユーザの眼の向きとから、カメラ座標系におけるユーザの視線方向を求める。さらに視線方向検出部73は、カメラ座標系におけるユーザの視線方向と、カメラ51の位置および姿勢とから、グローバル座標系におけるユーザの視線方向を算出する。
 なお、ここではカメラ51ごとにユーザの視線方向を算出すると説明したが、上述したようにユーザの顔の向きが最も正面に近い撮影画像が得られたカメラ51についてのみユーザの視線方向を算出するようにしてもよい。
 また、例えば視線方向検出機能を有するカメラ51(または頭部装着型視線検出デバイス)から、そのカメラ51(または頭部装着型視線検出デバイス)から見たユーザの視線方向が取得されたとする。そのような場合には、視線方向検出部73は、取得されたユーザの視線方向と、そのカメラ51(または頭部装着型視線検出デバイス)の位置および姿勢とから、グローバル座標系におけるユーザの視線方向を算出する。
 撮影画像からユーザの顔領域が検出されなかったカメラ51については、顔検出部72において、そのカメラ51で得られた撮影画像からユーザの頭部が検出されて、撮影画像上におけるユーザの頭部位置、つまりカメラ座標系におけるユーザの頭部の方向が求められる。
 さらに、このとき撮影画像からユーザの頭部が検出されなかった場合には、顔検出部72において、撮影画像からユーザの体の一部分が検出され、その検出結果からユーザの頭部位置(カメラ座標系におけるユーザの頭部の方向)が推定により求められる。
 ステップS14において、注視位置算出部74は、視線方向の検出が可能とされた各ユーザについて、検出対象空間におけるユーザの頭部位置、つまりグローバル座標系におけるユーザの頭部位置を算出する。
 例えば注視位置算出部74は、2以上の撮影画像のそれぞれから検出または推定により得られたユーザの頭部位置(顔位置)、つまりカメラ座標系における頭部の方向と、それらの撮影画像を撮影したカメラ51の位置および姿勢とから、三角測量の原理によりグローバル座標系におけるユーザの頭部の位置を算出する。
 ステップS15において注視位置算出部74は、視線方向の検出が可能とされた各ユーザについて、ユーザの視線方向の検出結果、ユーザの頭部位置の算出結果、および注視対象物である表示部64の検出対象空間上の位置に基づいて、ユーザの注視位置を算出する。
 ここで、ユーザの視線方向として、ステップS13で得られたユーザの視線方向のうちのどの視線方向を用いてもよい。例えば上述したように、同一ユーザについてカメラ51ごとに求められたユーザの視線方向の平均値を、最終的なユーザの視線方向として用いてもよい。また、検出精度が最も高い視線方向を、最終的なユーザの視線方向として用いるようにしてもよい。
 ステップS16において検出精度算出部75は、各ユーザの視線方向について、カメラ51の位置および姿勢や、1または複数のカメラ51についてのユーザの視線方向の検出時に得られた情報、取得部61からの撮影画像などに基づいて、視線方向の検出精度を算出する。
 具体的には、例えば検出精度算出部75は、距離情報W11乃至注視時間情報W17の何れか1つを視線方向の検出精度として算出したり、距離情報W11乃至注視時間情報W17のうちのいくつかを重み付き加算して得られる値を視線方向の検出精度として算出したりする。
 なお、複数のカメラ51について求めたユーザの視線方向の平均値を最終的なユーザの視線方向として用いた場合には、それらの各カメラ51についての視線方向ごとに、視線方向の検出精度を求め、それらの検出精度の平均値を最終的な視線方向の検出精度としてもよい。
 ステップS17においてUI処理部76は、各ユーザについて求めた視線方向の検出精度に基づいて、それらの検出精度に応じたUI表示を行う。
 例えばUI処理部76は、上述したように各ユーザについて求めた視線方向の検出精度と、閾値thとを比較し、その比較結果に応じて表示部64を制御し、図2に示した操作画面IF11を表示させたり、図2に示した操作画面IF12を表示させたりする。このように、視線方向の検出精度に応じて、より操作しやすい操作画面を表示させることで、使い勝手を向上させることができる。
 ステップS18において、制御部62は、各ユーザの注視位置に応じた処理を実行する。
 例えば制御部62は、表示部64に表示されている操作画面における、ユーザの注視位置にあるアイコンやボタンに応じて、表示部64に画像を表示させたり、出力部65から音声を出力させたりする。その他、ユーザの注視位置に応じた処理は、音声や動画像の再生開始や再生停止、早送りなど、どのような処理であってもよい。
 ここで、複数のユーザについて注視位置が求められている場合、それらの全ユーザの注視位置ごとに処理が実行されてもよいし、全ユーザの注視位置のうちのいくつかの注視位置について、注視位置に応じた処理が実行されてもよい。
 例えば複数のユーザの注視位置のなかから1つの注視位置を選択する場合、予め定められた特定ユーザの注視位置や、最も注視時間が長いユーザの注視位置、表示機能を有するウェアラブルデバイスを装着していないユーザの注視位置などを優先的に選択してもよい。さらに、いくつかのユーザの注視位置が同じ位置である場合には、同じ位置を注視しているユーザの数が最も多い位置を、対応する処理を実行する注視位置として選択してもよい。
 このようにしてユーザの注視位置に応じた処理が実行されると、処理はステップS12に戻り、上述した処理が繰り返し行われる。そして、ユーザの注視位置に応じた処理の実行停止が指示されると、UI表示処理は終了する。
 以上のようにして、情報処理装置52は、撮影画像からユーザの視線方向を検出するとともに、その視線方向の検出精度を算出し、視線方向の検出精度に応じた処理を実行する。このように、視線方向の検出精度に応じてUIの表示形態を切り替えるなどすることで、使い勝手を向上させることができる。
〈第2の実施の形態〉
〈視線方向の検出精度に応じたUI表示について〉
 なお、以上においては視線方向の検出精度に応じたUI表示として、例えば図2に示したようにアイコン等の操作対象の数や大きさが異なる操作画面を表示させる例について説明したが、他のどのようなUI表示を行うようにしてもよい。
 例えば、視線方向の検出精度が十分に高い場合には、予め定められた所定の表示形態でUI表示を行い、視線方向の検出精度が所定の閾値未満となったときには、ユーザの注視位置近傍にあるいくつかのアイコン等の操作対象のみを表示させるようにしてもよい。
 そのような場合、例えば図7に示すようにUIとしての操作画面の表示形態が切り替えられる。すなわち、ユーザの視線方向の検出精度が所定の閾値th以上である状態では、表示部64には矢印Q21に示す操作画面IF21が表示される。
 この操作画面IF21には、操作対象である16個のアイコンAC21-1乃至アイコンAC21-16が並べられて表示されている。
 なお、以下、アイコンAC21-1乃至アイコンAC21-16を特に区別する必要のない場合、単にアイコンAC21とも称することとする。
 この例では、ユーザの注視位置にアイコンAC21がある場合には、ユーザの視線によって、そのアイコンAC21が指定されたとされ、注視位置にあるアイコンAC21に応じた処理が実行される。
 ユーザの視線方向の検出精度、つまりユーザの注視位置の検出精度が閾値th以上であり、十分に高いときには操作画面IF21に多くのアイコンAC21を表示しても、ユーザがどのアイコンAC21を注視しているかを正確に特定することができる。
 しかし、ユーザの視線方向の検出精度が低くなると、検出されたユーザの注視位置と実際にユーザが注視している位置とにずれが生じる。そうすると、例えばアイコンAC21の誤検出が生じることもある。
 そこで、情報処理システムは、ユーザの視線方向の検出精度が閾値th未満となったときには、ユーザの注視位置近傍を拡大して表示させる。
 例えば、操作画面IF21が表示されている状態で、ユーザの注視位置がアイコンAC21-1近傍にあったとする。この状態で、次の時刻においてユーザの注視位置はアイコンAC21-1近傍にあるが、ユーザの視線方向の検出精度が閾値th未満となったとする。
 そのような場合、視線方向の検出精度が十分でないため、ユーザが視線によりアイコンAC21-1を指定(選択)しているのか、または他のアイコンAC21を指定しているのかを正確に特定することができない。
 そこで情報処理システムは、例えば矢印Q22に示すように、アイコンAC21-1近傍にあるアイコンAC21のみが大きく拡大表示された操作画面IF22を表示部64に表示させる。この操作画面IF22には、4つのアイコンAC21-1、アイコンAC21-2、アイコンAC21-5、およびアイコンAC21-6が、操作画面IF21における場合よりも広い間隔で、かつより大きく表示されている。
 このようにして表示された4つのアイコンAC21は、ユーザの注視位置近傍にあるアイコンAC21であるため、ユーザが操作(指定)しようとしていたアイコンAC21である可能性が高い。換言すれば、ユーザの注視位置に対応するアイコンAC21の候補であるということができる。
 このように、ユーザの視線方向の検出精度が十分でない場合には、複数の操作対象としてのアイコンAC21が表示されている状態から、注視位置近傍にあるいくつかのアイコンAC21のみを操作候補として表示することで、誤検出を防止し、使い勝手を向上させることができる。
〈UI表示処理の説明〉
 次に、図8のフローチャートを参照して、図7に示したUI表示が行われる場合に情報処理装置52により行われるUI表示処理について説明する。
 なお、ステップS51乃至ステップS56の処理は、図6のステップS11乃至ステップS16の処理と同様であるので、その説明は省略する。
 ステップS57において、UI処理部76は、各ユーザについて求めた視線方向の検出精度に基づいて、検出精度が予め定めた閾値th以上であるか否かを判定する。
 例えば、情報処理装置52において、1人のユーザの注視位置を選択し、その選択した注視位置に応じた処理が実行される場合には、注視位置が選択されるユーザの視線方向の検出精度が閾値th以上であるか否かが判定されるようにすればよい。
 また、例えば全ユーザについて求めた視線方向の検出精度や、全ユーザの視線方向の検出精度の平均値や重み付き加算値、全ユーザの視線方向の検出精度のうちの半分以上のユーザの視線方向の検出精度などが閾値th以上である場合に、ステップS57において検出精度が閾値th以上であると判定されるようにしてもよい。
 ステップS57において視線方向の検出精度が閾値th以上であると判定された場合、ステップS58において、UI処理部76は予め定められた表示形態でUI表示を行う。
 すなわち、例えばUI処理部76は表示部64を制御し、図7に示した操作画面IF21をUIとして表示させる。
 ステップS58で予め定められた表示形態でのUI表示が行われると、その後、処理はステップS60へと進む。
 これに対して、ステップS57において視線方向の検出精度が閾値th未満であると判定された場合、ステップS59において、UI処理部76はユーザの注視位置に対応する操作対象の候補を表示させる。
 例えば、UI処理部76は表示部64を制御して、所定の1人のユーザの注視位置近傍にある操作対象のみが表示されるように、表示部64におけるUI表示を切り替える。これにより、例えば図7の操作画面IF21が表示されている状態から、操作画面IF22が表示されている状態へと表示が切り替えられる。
 なお、ここでは1人のユーザの注視位置近傍にあるアイコンAC21が候補として表示される例について説明したが、操作対象の候補として、より少ない数のアイコンAC21が、より大きく表示されるようにすれば、どのようにして表示されるアイコンAC21が選択されてもよい。例えば、より多くのユーザが注視している領域近傍、つまりユーザの注視位置がより多くある領域近傍にあるアイコンAC21が候補として表示されてもよい。
 また、例えば注目するユーザの注視位置が図7に示した操作画面IF21のアイコンAC21-1近傍にあるときに、ステップS59において、UI処理部76が、ユーザの意図する操作対象はアイコンAC21-1であるかを確認するための確認画面を表示部64に表示させるなどしてもよい。
 この場合、例えばユーザの操作により、ユーザの意図する操作対象がアイコンAC21-1であると確認されたときにはアイコンAC21-1に応じた処理が実行される。これに対して、ユーザの操作により、ユーザの意図する操作対象がアイコンAC21-1でないとされたときには、例えば図7に示した操作画面IF22へと表示が切り替えられる。
 ステップS59でUI表示の切り替えが行われると、その後、処理はステップS60へと進む。
 ステップS58またはステップS59でUI表示が行われると、その後、ステップS60の処理が行われるが、ステップS60の処理は図6のステップS18の処理と同様であるので、その説明は省略する。
 また、ステップS60の処理が行われると、処理はステップS52に戻り、ユーザの注視位置に応じた処理の実行停止が指示されるまで、継続して上述した処理が繰り返し行われる。そして、ユーザの注視位置に応じた処理の実行停止が指示されると、UI表示処理は終了する。
 以上のようにして、情報処理装置52は、撮影画像からユーザの視線方向を検出するとともに、その視線方向の検出精度を算出し、視線方向の検出精度が十分ではないときには、注視位置近傍にある操作対象のみが候補として表示されるようにUI表示の表示形態を切り替える。このように、視線方向の検出精度に応じてUI表示の表示形態を切り替えることで、誤検出等を防止し、使い勝手を向上させることができる。
〈第3の実施の形態〉
〈カメラの位置と姿勢の認識について〉
 また、上述したようにカメラの位置と姿勢を認識(設定)するときに、グローバル座標系における位置と姿勢が既知であるカメラを用いて、他のカメラの位置と姿勢を認識するようにしてもよい。
 そのような場合、例えば図9に示すようにカメラが配置される。なお、図9において図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図9に示す例では、図3のカメラ12に代えてカメラ101-1乃至カメラ101-4が撮影画像を撮影するためのカメラとして配置されている。なお、以下、カメラ101-1乃至カメラ101-4を特に区別する必要のない場合、単にカメラ101とも称することとする。
 この例では、カメラ101-1およびカメラ101-2は、検出対象空間の床に固定されており、カメラ101-3は、ユーザU21-1の頭部に装着された視線方向検出機能を有するウェアラブルカメラとなっている。そのため、カメラ101-3は、ユーザU21-1とは異なる他のユーザU21-2やユーザU21-3などを被写体として撮影画像を撮影する。
 また、カメラ101-4は、検出対象空間の天井に固定された広角カメラとなっている。このカメラ101-4は、位置および姿勢が既知であり、検出対象空間全体を撮影可能なカメラである。また、例えばカメラ101-1も位置および姿勢が既知であり、検出対象空間全体を撮影可能なカメラであるとする。
 したがって、カメラ101-1およびカメラ101-4により撮影された撮影画像には、必ず他のカメラ101-2およびカメラ101-3が被写体として含まれることになる。
 情報処理装置52のカメラ認識部71では、図6のステップS11や図8のステップS51において、カメラ101-1およびカメラ101-4により撮影された撮影画像と、予め既知であるカメラ101-1およびカメラ101-4の位置と姿勢から、カメラ101-2およびカメラ101-3の位置と姿勢が認識されることになる。
 このようにグローバル座標系における位置と姿勢が既知であるカメラ101を用いて、他のカメラ101のグローバル座標系における位置と姿勢を認識するようにすれば、カメラ101の位置等が変化する場合でも、正確に各カメラ101の位置と姿勢を認識することができる。
〈第4の実施の形態〉
〈情報処理システムの他の例について〉
 また、以上においては注視対象物である表示部でUI表示を行い、ユーザの注視位置に応じた処理を実行する例について説明したが、その他、例えば図10に示すように、情報処理システムの管理者がユーザが注視するものを調査する場合などにも本技術は適用可能である。なお、図10において、図3における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図10に示す例では、検出対象空間には、2つのカメラ131-1およびカメラ131-2が撮影画像を撮影するためのカメラとして配置されており、これらのカメラ131-1およびカメラ131-2が図3のカメラ12に対応する。また、図示はされていないが、これらのカメラ131-1およびカメラ131-2は、有線または無線により情報処理装置52に接続されている。
 この例では、検出対象空間には、グローバル座標系における位置が既知である注視対象物132が配置されている。情報処理装置52では、各ユーザU21の視線方向を検出することで、ユーザU21が注視対象物132に注目しているかを特定することができる。
 また、例えば検出対象空間に注視対象物132を複数配置すれば、情報処理装置52においてユーザU21がどの注視対象物132に注目しているかを特定することができる。その他、情報処理装置52が、ユーザU21が注視している注視対象物132を発光させたり駆動させたりするなど、注視位置に応じた処理を実行させることもできるし、ユーザの視線方向の検出精度に応じて注視対象物132の発光パターンや駆動方法を変化させたりすることもできる。
 さらに、例えば複数の注視対象物132のうち、ユーザU21により注目されている注視対象物132に画像や文字が表示されるときなどには、ユーザU21の視線方向の検出精度に応じて、画像や文字を表示させる注視対象物132の個数を変化させるなどしてもよい。
 図10に示す情報処理システムは、例えば検出対象空間における各ユーザU21の立ち位置を限定することが困難である、店や美術館、街頭などにおいて注目されているものを調査する場合などに特に有効である。
 また、以上において説明した情報処理システムは、例えばユーザが体を大きく動かすスポーツや格闘系のゲームでユーザの視線検出結果を利用する場合、家のエアコンディショナやテレビジョン受像機等のいわゆる家電機器について、ユーザが視線で家電機器を選択した後、音声等で家電機器の制御を行う場合などに適用可能である。
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図11は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
[1]
 複数の撮影部によりユーザを被写体として撮影して得られた撮影画像に基づいて、前記ユーザの視線方向を検出する視線方向検出部と、
 前記ユーザの前記視線方向の検出精度を算出する検出精度算出部と
 を備える情報処理装置。
[2]
 前記検出精度算出部は、前記撮影部と前記ユーザとの位置関係に関する情報、前記撮影部に関する情報、前記撮影画像に関する情報、および前記ユーザの注視時間の少なくとも何れかに基づいて、前記検出精度を算出する
 [1]に記載の情報処理装置。
[3]
 前記検出精度に応じた処理を実行する第1の処理部をさらに備える
 [1]または[2]に記載の情報処理装置。
[4]
 前記第1の処理部は、前記ユーザの視線による操作が行われる操作画面を、前記検出精度に応じた表示形態で表示させる
 [3]に記載の情報処理装置。
[5]
 前記第1の処理部は、前記検出精度に応じて、前記操作画面における操作対象を異なる大きさで表示させる
 [4]に記載の情報処理装置。
[6]
 前記第1の処理部は、前記検出精度に応じて、前記操作画面上に異なる数の操作対象を表示させる
 [4]または[5]に記載の情報処理装置。
[7]
 前記視線方向から求められた、前記ユーザの前記操作画面上の注視位置に応じた処理を実行する第2の処理部をさらに備える
 [4]乃至[6]の何れか一項に記載の情報処理装置。
[8]
 前記第1の処理部は、前記検出精度が閾値未満である場合、前記注視位置近傍にあるいくつかの操作対象が、前記注視位置に対応する操作対象の候補として表示される前記操作画面を表示させる
 [7]に記載の情報処理装置。
[9]
 前記第1の処理部は、複数の前記ユーザのそれぞれについて算出された前記視線方向の前記検出精度と、予め定められた閾値とを比較し、その比較結果に応じた処理を実行する
 [3]乃至[8]の何れか一項に記載の情報処理装置。
[10]
 複数の撮影部によりユーザを被写体として撮影して得られた撮影画像に基づいて、前記ユーザの視線方向を検出し、
 前記ユーザの前記視線方向の検出精度を算出する
 ステップを含む情報処理方法。
[11]
 複数の撮影部によりユーザを被写体として撮影して得られた撮影画像に基づいて、前記ユーザの視線方向を検出し、
 前記ユーザの前記視線方向の検出精度を算出する
 ステップを含む処理をコンピュータに実行させるプログラム。
[12]
 複数の撮影部によりユーザを被写体として撮影して得られた撮影画像のうちの少なくとも1つの前記撮影画像に基づいて、前記ユーザの視線方向を検出する視線方向検出部と、
 前記複数の前記撮影部で得られた前記撮影画像のうちの少なくとも2つの前記撮影画像について、前記撮影画像から前記ユーザの頭部を検出することで、前記ユーザの頭部位置を求め、前記撮影画像から前記ユーザの頭部が検出されなかった場合、前記撮影画像から検出された前記ユーザの一部分から推定により前記頭部位置を求める頭部検出部と、
 前記ユーザの前記視線方向と、少なくとも2つの前記撮影画像について得られた前記ユーザの前記頭部位置とに基づいて、前記ユーザの注視位置を算出する注視位置算出部と
 を備える情報処理装置。
 51-1乃至51-N,51 カメラ, 52 情報処理装置, 61 取得部, 62 制御部, 64 表示部, 71 カメラ認識部, 72 顔検出部, 73 視線方向検出部, 74 注視位置算出部, 75 検出精度算出部, 76 UI処理部

Claims (12)

  1.  複数の撮影部によりユーザを被写体として撮影して得られた撮影画像に基づいて、前記ユーザの視線方向を検出する視線方向検出部と、
     前記ユーザの前記視線方向の検出精度を算出する検出精度算出部と
     を備える情報処理装置。
  2.  前記検出精度算出部は、前記撮影部と前記ユーザとの位置関係に関する情報、前記撮影部に関する情報、前記撮影画像に関する情報、および前記ユーザの注視時間の少なくとも何れかに基づいて、前記検出精度を算出する
     請求項1に記載の情報処理装置。
  3.  前記検出精度に応じた処理を実行する第1の処理部をさらに備える
     請求項1に記載の情報処理装置。
  4.  前記第1の処理部は、前記ユーザの視線による操作が行われる操作画面を、前記検出精度に応じた表示形態で表示させる
     請求項3に記載の情報処理装置。
  5.  前記第1の処理部は、前記検出精度に応じて、前記操作画面における操作対象を異なる大きさで表示させる
     請求項4に記載の情報処理装置。
  6.  前記第1の処理部は、前記検出精度に応じて、前記操作画面上に異なる数の操作対象を表示させる
     請求項4に記載の情報処理装置。
  7.  前記視線方向から求められた、前記ユーザの前記操作画面上の注視位置に応じた処理を実行する第2の処理部をさらに備える
     請求項4に記載の情報処理装置。
  8.  前記第1の処理部は、前記検出精度が閾値未満である場合、前記注視位置近傍にあるいくつかの操作対象が、前記注視位置に対応する操作対象の候補として表示される前記操作画面を表示させる
     請求項7に記載の情報処理装置。
  9.  前記第1の処理部は、複数の前記ユーザのそれぞれについて算出された前記視線方向の前記検出精度と、予め定められた閾値とを比較し、その比較結果に応じた処理を実行する
     請求項3に記載の情報処理装置。
  10.  複数の撮影部によりユーザを被写体として撮影して得られた撮影画像に基づいて、前記ユーザの視線方向を検出し、
     前記ユーザの前記視線方向の検出精度を算出する
     ステップを含む情報処理方法。
  11.  複数の撮影部によりユーザを被写体として撮影して得られた撮影画像に基づいて、前記ユーザの視線方向を検出し、
     前記ユーザの前記視線方向の検出精度を算出する
     ステップを含む処理をコンピュータに実行させるプログラム。
  12.  複数の撮影部によりユーザを被写体として撮影して得られた撮影画像のうちの少なくとも1つの前記撮影画像に基づいて、前記ユーザの視線方向を検出する視線方向検出部と、
     前記複数の前記撮影部で得られた前記撮影画像のうちの少なくとも2つの前記撮影画像について、前記撮影画像から前記ユーザの頭部を検出することで、前記ユーザの頭部位置を求め、前記撮影画像から前記ユーザの頭部が検出されなかった場合、前記撮影画像から検出された前記ユーザの一部分から推定により前記頭部位置を求める頭部検出部と、
     前記ユーザの前記視線方向と、少なくとも2つの前記撮影画像について得られた前記ユーザの前記頭部位置とに基づいて、前記ユーザの注視位置を算出する注視位置算出部と
     を備える情報処理装置。
PCT/JP2016/053010 2015-02-16 2016-02-02 情報処理装置および方法、並びにプログラム WO2016132884A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/535,231 US20170351327A1 (en) 2015-02-16 2016-02-02 Information processing apparatus and method, and program
EP16752271.3A EP3260951A4 (en) 2015-02-16 2016-02-02 Information processing device, method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-027460 2015-02-16
JP2015027460A JP2016151798A (ja) 2015-02-16 2015-02-16 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
WO2016132884A1 true WO2016132884A1 (ja) 2016-08-25

Family

ID=56692198

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/053010 WO2016132884A1 (ja) 2015-02-16 2016-02-02 情報処理装置および方法、並びにプログラム

Country Status (4)

Country Link
US (1) US20170351327A1 (ja)
EP (1) EP3260951A4 (ja)
JP (1) JP2016151798A (ja)
WO (1) WO2016132884A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019128910A (ja) * 2018-01-26 2019-08-01 日本電信電話株式会社 情報出力装置、方法およびプログラム
JP2019128557A (ja) * 2018-01-26 2019-08-01 日本電信電話株式会社 情報出力装置、方法およびプログラム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016191845A (ja) * 2015-03-31 2016-11-10 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2017055178A (ja) * 2015-09-07 2017-03-16 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2018162023A (ja) * 2017-03-27 2018-10-18 株式会社デンソー 操作装置
US11153465B2 (en) * 2017-06-21 2021-10-19 Dell Products L.P. System and method of processing video of a tileable wall
US10812769B2 (en) * 2017-08-21 2020-10-20 International Business Machines Corporation Visualizing focus objects from video data on electronic maps
JP2019121105A (ja) * 2017-12-28 2019-07-22 富士ゼロックス株式会社 制御装置、及び制御プログラム
CN111527466A (zh) 2018-01-04 2020-08-11 索尼公司 信息处理装置、信息处理方法和程序
JP7075237B2 (ja) * 2018-02-23 2022-05-25 ラピスセミコンダクタ株式会社 操作判定装置及び操作判定方法
US10841533B2 (en) * 2018-03-23 2020-11-17 Raja Singh Tuli Telepresence system with virtual reality
TWI704501B (zh) * 2018-08-09 2020-09-11 宏碁股份有限公司 可由頭部操控的電子裝置與其操作方法
CN112817550B (zh) * 2021-02-07 2023-08-22 联想(北京)有限公司 一种数据处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07244556A (ja) * 1994-03-04 1995-09-19 Hitachi Ltd 情報端末
JPH1014882A (ja) * 1996-07-02 1998-01-20 Nippon Telegr & Teleph Corp <Ntt> 非接触視線測定装置
JPH1066678A (ja) * 1996-08-28 1998-03-10 Nippon Telegr & Teleph Corp <Ntt> 非接触視線測定装置
JP2000231447A (ja) * 1999-02-12 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> 視線を利用したコンピュータ操作装置および操作方法ならびに操作方法プログラムを記録した記録媒体
JP2014142882A (ja) * 2013-01-25 2014-08-07 Nikon Corp 視線入力装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2412431B (en) * 2004-03-25 2007-11-07 Hewlett Packard Development Co Self-calibration for an eye tracker
US7423540B2 (en) * 2005-12-23 2008-09-09 Delphi Technologies, Inc. Method of detecting vehicle-operator state
US7860382B2 (en) * 2006-10-02 2010-12-28 Sony Ericsson Mobile Communications Ab Selecting autofocus area in an image
US20120105486A1 (en) * 2009-04-09 2012-05-03 Dynavox Systems Llc Calibration free, motion tolerent eye-gaze direction detector with contextually aware computer interaction and communication methods
WO2010143377A1 (ja) * 2009-06-08 2010-12-16 パナソニック株式会社 注視対象判定装置及び注視対象判定方法
JP2011248548A (ja) * 2010-05-25 2011-12-08 Fujitsu Ltd コンテンツ決定プログラムおよびコンテンツ決定装置
US9135708B2 (en) * 2010-08-09 2015-09-15 National University Corporation Shizuoka University Gaze point detection method and gaze point detection device
WO2012077713A1 (ja) * 2010-12-08 2012-06-14 国立大学法人静岡大学 注視点検出方法及び注視点検出装置
KR101544524B1 (ko) * 2010-12-16 2015-08-17 한국전자통신연구원 차량용 증강현실 디스플레이 시스템 및 차량용 증강현실 디스플레이 방법
JP5510366B2 (ja) * 2011-03-08 2014-06-04 カシオ計算機株式会社 画像表示制御装置及びプログラム
US8625847B2 (en) * 2011-03-21 2014-01-07 Blackberry Limited Login method based on direction of gaze
CN103842941B (zh) * 2011-09-09 2016-12-07 泰利斯航空电子学公司 响应于所感测出的乘客比划动作而执行交通工具娱乐***的控制
JP6165846B2 (ja) * 2012-05-09 2017-07-19 インテル コーポレイション 目のトラッキングに基づくディスプレイの一部の選択的強調
EP2962175B1 (en) * 2013-03-01 2019-05-01 Tobii AB Delay warp gaze interaction
EP3080751B1 (en) * 2013-12-09 2019-08-14 Apple Inc. Method for operating an eye tracking device and eye tracking device for providing an active power management
US20150358594A1 (en) * 2014-06-06 2015-12-10 Carl S. Marshall Technologies for viewer attention area estimation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07244556A (ja) * 1994-03-04 1995-09-19 Hitachi Ltd 情報端末
JPH1014882A (ja) * 1996-07-02 1998-01-20 Nippon Telegr & Teleph Corp <Ntt> 非接触視線測定装置
JPH1066678A (ja) * 1996-08-28 1998-03-10 Nippon Telegr & Teleph Corp <Ntt> 非接触視線測定装置
JP2000231447A (ja) * 1999-02-12 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> 視線を利用したコンピュータ操作装置および操作方法ならびに操作方法プログラムを記録した記録媒体
JP2014142882A (ja) * 2013-01-25 2014-08-07 Nikon Corp 視線入力装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3260951A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019128910A (ja) * 2018-01-26 2019-08-01 日本電信電話株式会社 情報出力装置、方法およびプログラム
JP2019128557A (ja) * 2018-01-26 2019-08-01 日本電信電話株式会社 情報出力装置、方法およびプログラム

Also Published As

Publication number Publication date
EP3260951A1 (en) 2017-12-27
US20170351327A1 (en) 2017-12-07
JP2016151798A (ja) 2016-08-22
EP3260951A4 (en) 2018-09-26

Similar Documents

Publication Publication Date Title
WO2016132884A1 (ja) 情報処理装置および方法、並びにプログラム
US9952667B2 (en) Apparatus and method for calibration of gaze detection
US9697610B2 (en) Information processing device and information processing method
US20120275648A1 (en) Imaging device and imaging method and program
JP2010086336A (ja) 画像制御装置、画像制御プログラムおよび画像制御方法
KR20170031733A (ko) 디스플레이를 위한 캡처된 이미지의 시각을 조정하는 기술들
KR101769177B1 (ko) 시선 추적 장치 및 방법
TWI695309B (zh) 使用臉部偵測來自動調整顯示影像之技術
KR20150048623A (ko) 화면 조작장치 및 화면 조작방법
EP2842075A1 (en) Three-dimensional face recognition for mobile devices
WO2017126172A1 (ja) 情報処理装置、情報処理方法、及び記録媒体
JPWO2012137801A1 (ja) 入力装置及び入力方法並びにコンピュータプログラム
US11367298B2 (en) Tracking system and method
WO2018198499A1 (ja) 情報処理装置、情報処理方法、及び記録媒体
JP2013135341A5 (ja)
WO2020054760A1 (ja) 画像表示制御装置および画像表示制御用プログラム
JP2010205223A (ja) 仮想対象に対するジェスチャーに従う制御を行うシステム及び装置
CN113544626A (zh) 信息处理装置、信息处理方法和计算机可读记录介质
CN110895433B (zh) 用于增强现实中用户交互的方法和装置
JP2005261728A (ja) 視線方向認識装置及び視線方向認識プログラム
JPWO2022074865A5 (ja) 生体検知装置、制御方法、及びプログラム
JP6452585B2 (ja) 情報処理装置および位置情報取得方法
JP6592313B2 (ja) 情報処理装置、表示制御方法、及び表示制御プログラム
US8223220B2 (en) Image processing device, image processing method, and information storage medium
US20210044738A1 (en) Control apparatus, control method, and recording medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16752271

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15535231

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2016752271

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE