WO2017029787A1 - 視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法 - Google Patents

視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法 Download PDF

Info

Publication number
WO2017029787A1
WO2017029787A1 PCT/JP2016/003640 JP2016003640W WO2017029787A1 WO 2017029787 A1 WO2017029787 A1 WO 2017029787A1 JP 2016003640 W JP2016003640 W JP 2016003640W WO 2017029787 A1 WO2017029787 A1 WO 2017029787A1
Authority
WO
WIPO (PCT)
Prior art keywords
viewing state
information
viewer
content
viewing
Prior art date
Application number
PCT/JP2016/003640
Other languages
English (en)
French (fr)
Inventor
昌俊 松尾
中村 剛
忠則 手塚
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to US15/747,651 priority Critical patent/US20180242898A1/en
Publication of WO2017029787A1 publication Critical patent/WO2017029787A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/02Detecting, measuring or recording pulse, heart rate, blood pressure or blood flow; Combined pulse/heart-rate/blood pressure determination; Evaluating a cardiovascular condition not otherwise provided for, e.g. using combinations of techniques provided for in this group with electrocardiography or electroauscultation; Heart catheters for measuring blood pressure
    • A61B5/024Detecting, measuring or recording pulse rate or heart rate
    • A61B5/02416Detecting, measuring or recording pulse rate or heart rate using photoplethysmograph signals, e.g. generated by infrared radiation
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/02Electrically-operated educational appliances with visual presentation of the material to be studied, e.g. using film strip
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2503/00Evaluating a particular growth phase or type of persons or animals
    • A61B2503/12Healthy persons not otherwise provided for, e.g. subjects of a marketing survey
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2576/00Medical imaging apparatus involving image processing or analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0059Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
    • A61B5/0077Devices for viewing the surface of the body, e.g. camera, magnifying lens
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing

Definitions

  • the present disclosure relates to a viewing state detection apparatus and a viewing state detection system for detecting a viewing state such as a degree of concentration and sleepiness of a viewer who is viewing content based on viewer vital information detected in a contactless manner using a camera. And a viewing state detection method.
  • the viewing state (concentration level, sleepiness, etc.) of a viewer who is viewing a certain content to the time-dependent information of the content, it is beneficial because the content can be evaluated.
  • This disclosure makes it possible to detect the viewing state of a viewer who is viewing content with a simple configuration, and to associate the detected viewing state with the time-lapse information of the content.
  • the viewing state detection device is a viewing state detection device that detects a viewer's viewing state from an image including a viewer who is viewing content, and is a temporally continuous captured image and captured image including the viewer.
  • An image input unit for inputting information related to the imaging time, a region detection unit for detecting the viewer's skin region from the captured image, and a vital information extraction unit for extracting the viewer's vital information based on time series data of the skin region
  • a viewing state determination unit that determines a viewer's viewing state based on the extracted vital information, a content information input unit that receives content information including at least content temporal information, and the viewing state as content temporal information
  • a viewing state storage unit that stores the information in association with each other.
  • the present disclosure it is possible to detect the viewing state of the viewer who is viewing the content with a simple configuration, and to associate the detected viewing state with the time-lapse information of the content.
  • FIG. 1 is an overall configuration diagram of a viewing state detection system according to the first embodiment.
  • FIG. 2 is a functional block diagram of the viewing state detection system according to the first embodiment.
  • FIG. 3 is an explanatory diagram of a pulse wave extraction process in the viewing state detection apparatus in FIG.
  • FIG. 4 is an explanatory diagram of pulse wave extraction processing in the viewing state detection apparatus in FIG.
  • FIG. 5 is a diagram illustrating an example of vital information.
  • FIG. 6 is a diagram illustrating an example of content information.
  • FIG. 7 is a diagram illustrating an example in which vital information and content information are associated with the elapsed time of content.
  • FIG. 8 is a diagram illustrating an example of the determination information.
  • FIG. 9A is a diagram illustrating an example of the viewing state output.
  • FIG. 9A is a diagram illustrating an example of the viewing state output.
  • FIG. 9B is a diagram illustrating an example of the viewing state output.
  • FIG. 10 is a flowchart showing the flow of processing by the viewing state detection apparatus according to the first embodiment.
  • FIG. 11 is an overall configuration diagram of a viewing state detection system according to the second embodiment.
  • FIG. 12 is a functional block diagram of the viewing state detection apparatus according to the third embodiment.
  • FIG. 13 is a functional block diagram of the viewing state detection apparatus according to the fourth embodiment.
  • FIG. 14 is a functional block diagram of the viewing state detection apparatus according to the fifth embodiment.
  • FIG. 15 is a functional block diagram of the viewing state detection apparatus according to the sixth embodiment.
  • (First embodiment) 1 and 2 are an overall configuration diagram and a functional block diagram of the viewing state detection system 1 according to the first embodiment of the present disclosure, respectively.
  • This 1st Embodiment has shown the example which applied the viewing-and-listening state detection system concerning this indication to e-learning. That is, the viewing state detection system 1 according to the first embodiment is used to detect the viewing state (concentration level, sleepiness) of an e-learning viewer.
  • the viewing state detection system 1 includes a personal computer 2 or a tablet 2 used by e-learning viewers H1 and H2 (hereinafter, collectively referred to as symbol H). 2.
  • An image pickup device (camera) 3 for picking up at least a part of the viewer H, a display device 4 for displaying e-learning content or a display screen 4 of the tablet 2, a keyboard 5 for operating the personal computer 2, a viewing state A detection device 6 is provided.
  • the viewing state detection system 1 further includes a content information input device 8 and a display device 9 as shown in FIG. 2.
  • the camera 3 and the viewing state detection device 6 are communicably connected via a network 7 such as the Internet or a LAN (Local Area Network).
  • a network 7 such as the Internet or a LAN (Local Area Network).
  • the configuration is not limited thereto, and the imaging device 3 and the viewing state detection device 6 may be directly connected to each other via a known communication cable.
  • the content information input device 8 and the display device 9 are communicably connected to the viewing state detection device 6 via the network 7 or by a known communication cable.
  • the camera 3 is a camera having a known configuration, and forms an image of an image formed by imaging light from a subject (viewer H) obtained through a lens on an image sensor (CCD, CMOS, etc.) (not shown). A video signal obtained by converting light into an electrical signal is output to the viewing state detection device 6.
  • a camera provided in the personal computer 2 or the tablet 2 of the viewer H may be used, or a camera prepared separately may be used. It is also possible to use an image storage device (image recorder) (not shown) instead of the camera 3 and to input a recorded image of the viewer H who is viewing the content from the image storage device to the viewing state detection device 6. Is possible.
  • the content information input device 8 is for inputting content information including at least content aging information to the viewing state detection device 6. Specifically, the elapsed time from the start of the content may be used as the time information of the content.
  • the display device 4 is the display device 4 of the viewer H1 or the display screen 4 of the tablet 2 of the viewer H2, and the display device 9 is, for example, a display device of a content provider.
  • the display devices 4 and 9 display the viewer state detected by the viewing state detection device 6.
  • the viewer state is the degree of concentration and sleepiness of the viewer H.
  • a voice notification device capable of notifying the viewer state by voice or sound in combination with the display device 9 or instead of the display device 9.
  • the viewing state detection device 6 extracts vital information (here, a pulse wave) of the content viewer H based on the captured image input from the imaging device 3, and captures the extracted vital information and content information.
  • the image capturing time can be associated with the content aging information.
  • the viewing state detection device 6 determines the viewing state (concentration level, drowsiness) of the viewer H based on the extracted vital information, and the viewing state of the determined viewer H together with the content information for the viewer H and the content The provider can be notified.
  • the viewing state detection device 6 notifies the viewing state of the viewers H as the viewing state of each viewer, or the viewing state of all or part of the plurality of people. can do.
  • the viewing state detection device 6 receives, from the imaging device 3, temporally continuous captured images including at least a part of the viewer H who is viewing the content and information regarding the imaging time of the captured images.
  • Image input unit 11 a region detection unit 12 that detects a skin region (here, a facial region) of viewer H from the captured image, and time series data of the detected skin region of viewer H
  • the vital information extraction unit 13 for extracting the vital information of the person H, the content information input unit 14 to which content information including at least content time-lapse information is input from the content information input device 8, and the vital information and the content information are captured.
  • An information synchronizer 15 that associates the image capturing time with the content aging information is provided.
  • the viewing state detection device 6 includes an activity index extraction unit 16 that extracts a physiological or neurological activity index of the viewer H from the extracted vital information, and viewing of the viewer H based on the extracted activity index.
  • a viewing state determination unit 17 that determines the state
  • a determination information storage unit 18 that stores determination information used for the determination
  • a viewing state storage that stores the determined viewing state of the viewer H in association with the content information.
  • an information output unit 20 that outputs the viewing state and content information of the viewer H stored in the viewing state storage unit 19 to the display devices 4 and 9.
  • Each unit is controlled by a control unit (not shown).
  • the image input unit 11 is connected to the imaging device 3, and a temporally continuous captured image (frame image data) including at least a part of the viewer H who is viewing the content is received from the imaging device 3 as a video signal. Is entered as In addition, information related to the imaging time of the captured image is also input to the image input unit 11.
  • the imaging time is an elapsed time after the viewer H starts imaging and is associated with the captured image. In the present embodiment, the imaging of the viewer H is assumed to start from the start of reproduction of e-learning content. Accordingly, the imaging time is the same as the elapsed time from the start of content playback.
  • the captured image input to the image input unit 11 is sent to the area detection unit 12.
  • the area detection unit 12 performs detection on each captured image (frame image) acquired from the image input unit 11 by executing face detection processing based on a known statistical learning method using facial feature amounts.
  • the detected face area is detected and tracked as the skin area of the viewer H, and information about the skin area (the number of pixels constituting the skin area) is acquired.
  • Information about the skin area acquired by the area detection unit 12 is sent to the vital information extraction unit 13.
  • a face based on a known pattern recognition method for example, matching with a template prepared in advance
  • a detection process may be used.
  • the region detection unit 12 extracts and extracts the target viewer H using a known detection method. It is assumed that the above processing is performed on the viewer H.
  • the vital information extraction unit 13 calculates the pulse of the viewer H based on the skin region of the captured image acquired from the region detection unit 12. Specifically, for each pixel constituting the skin region extracted in the temporally continuous captured images, for example, pixel values (0-255 gradations) of each component of RGB are calculated and the representative values (here, The average value of each pixel) is generated as a pulse signal. In this case, time-series data can be generated based on the pixel value of only the green component (G) that has a particularly large fluctuation due to pulsation.
  • G green component
  • the generated pixel value (average value) time-series data is, for example, as shown in FIG. 3A, a slight fluctuation (for example, less than one gradation of the pixel value) based on a change in hemoglobin concentration in blood. Fluctuation). Therefore, the vital information extraction unit 13 performs a known filter process (for example, a process using a bandpass filter in which a predetermined pass band is set) on the time-series data based on the pixel value, thereby performing FIG. As shown in (b), the pulse wave from which the noise component has been removed can be extracted as a pulse signal. Then, as shown in FIG.
  • a known filter process for example, a process using a bandpass filter in which a predetermined pass band is set
  • the vital information extracting unit 13 calculates a pulse wave interval (RRI) from the time between two or more adjacent peaks in the pulse wave, and uses the RRI as vital information. As described above, since the imaging time is associated with the captured image, vital information extracted from the captured image is also associated with the imaging time. The vital information (RRI) extracted by the vital information extraction unit 13 is sent to the activity index extraction unit 16.
  • RRI pulse wave interval
  • FIG. 5 is an example of the vital information of the viewer H1 extracted by the vital information extracting unit 13.
  • the vital information 21 includes the ID number 22 of the viewer H1, the imaging time 23 of the captured image, and the RRI value 24 at each imaging time 23.
  • the ID number 22 (in this example, ID: M00251) of the viewer H1 is given by the vital information extraction unit 13 in order to identify the viewer H.
  • the ID number 22 gives a number unrelated to personal information such as the member ID of the viewer H, and the viewer H can know the ID number 22 given to himself / herself. It is desirable not to know the correspondence between the viewer H and the ID number 22.
  • the imaging time 23 is an elapsed time from the start of imaging of the viewer H.
  • the imaging time 23 is “0.782”, “1.560”, “2.334”,. . . RRI 24 at the time of “0.782”, “0.778”, “0.774”,. . . It is.
  • the content information input unit 14 is connected to the content information input device 8, and content information including at least content aging information is input from the content information input device 8.
  • FIG. 6 is an example of content information of the viewer H1 input to the content information input unit 14.
  • the content information 31 includes a content ID number 32, an elapsed time 33 from the start of content playback, and content details 34 at each elapsed time 33.
  • the content ID number 32 (ID: C02020 in this example) is given by the content information input unit 14 in order to identify the content.
  • the content content 34 when the elapsed time 33 is “0.0” is “start”
  • the content content 34 when the elapsed time 33 is “2.0” is “Chapter 1 Section 1”. It is.
  • the information synchronization unit 15 is connected to the vital information extraction unit 13 and the content information input unit 14, and associates (links) the vital information 21 and the content information 31 with the imaging time 23 and the elapsed time 33 of the content.
  • the captured image imaging time 23 see FIG. 5
  • content elapsed time 33 see FIG. 6
  • the vital information 21 and the content information 31 can be associated with each other by the imaging time 23 and the elapsed time 33 of the content.
  • the content elapsed time 33 and the content details 34 are associated with the RRI 24 (see FIG. 5) of the vital information 21.
  • FIG. 7 is an example in which the elapsed time 33 and the content contents 34 of the content are associated with the vital information 21 of the viewer H1.
  • the content elapsed time 33 and the content details 34 are associated with the RRI 24 of the vital information 21.
  • the content information 31 is associated with the vital information 21, that is, the vital information 21 and the content information 31 can be synchronized.
  • the vital information 25 after synchronization with the content information becomes temporal data including the elapsed time 33 of the content.
  • the ID number 26 of the vital information 25 after synchronization with the content information is ID: C02020_M00251.
  • C02020 is a number for identifying the content
  • M00251 is a number for identifying the viewer H.
  • the content elapsed time 33 is used to synchronize the vital information 21 and the content information 31, but instead of the content elapsed time 33, the content viewing time may be used. .
  • the activity index extraction unit 16 extracts the physiological or neurological activity index of the viewer H from the vital information (RRI) acquired from the vital information extraction unit 13.
  • the activity index include RRI, SDNN which is a standard deviation of RRI, heart rate, RMSSD or pNN50 which is an index of vagal tone intensity, and LF / HF which is an index of stress.
  • RRI vital information
  • SDNN standard deviation of RRI
  • RMSSD heart rate
  • pNN50 which is an index of vagal tone intensity
  • LF / HF which is an index of stress.
  • the degree of concentration, sleepiness, etc. can be estimated. For example, changes in RRI over time have been found to reflect sympathetic and parasympathetic activity. Therefore, as shown in the graph of FIG. 4B, the degree of concentration, sleepiness, tension (stress), and the like can be estimated based on changes in RRI with time, that is, fluctuations in RRI.
  • the activity index extracted by the activity index extraction unit 16 is sent to the viewing state determination unit 17.
  • the viewing state determination unit 17 determines the viewing state of the viewer H based on the activity index acquired from the activity index extraction unit 16.
  • the viewing state is a concentration level and sleepiness.
  • the present invention is not limited to this, and may be various other states such as a degree of tension.
  • the viewing state of the viewer H is determined by referring to the judgment information stored in advance in the judgment information storage unit 18 and indicating the relationship between the change in the activity index with time and the viewing state (concentration level and sleepiness). judge.
  • the vital information 25 after synchronization with the content information is time-dependent data including the elapsed time 33 of the content, so the activity index extracted from the vital information 25 after synchronization is the time-dependent information. Is included. Therefore, the change with time of the activity index can be calculated.
  • FIG. 8 is an example of determination information stored in advance in the determination information storage unit 18.
  • the determination information 41 is configured as a table indicating the relationship between changes over time in the activity index, ie, the heart rate 42, SDNN 43, and RMSSD 44, and the viewing state 45.
  • the change over time of each activity index is divided into three stages of “increase (increase)” 46, “no change (0)” 47, and “decrease (decrease)” 48.
  • Heart rate 42, SDNN43, RMSSD44 A combination of the two changes over time is configured to correspond to a specific viewing state 45. For example, the viewing state 45 when the heart rate 42 decreases with time and the RMSSD 44 decreases with time is “state B9” 49.
  • the viewing state 45 corresponding to the state B9 is known in advance by a learning method, an experimental method, or the like
  • the viewing state 45 of the viewer H is determined based on changes over time in the heart rate 42 and the RMSSD 44. Can do.
  • the viewing state of “state B9” is known to be “occurrence of sleepiness” by a learning method or an experimental method. Therefore, when the heart rate 42 decreases with time and the RMSSD 44 decreases with time, it can be determined that the viewing state of the viewer H is drowsiness.
  • the viewing state determined by the viewing state determination unit 17 is sent to the viewing state storage unit 19.
  • the viewing state storage unit 19 stores the viewing state acquired from the viewing state determination unit 17 in association with the content information. As described above with reference to FIG. 7, since vital information is associated with content information, the viewing state of the viewer H determined based on the vital information is also associated with the content information. Therefore, the determined viewing state of the viewer H is stored in the viewing state storage unit 19 as temporal data associated with the elapsed time 33 (see FIG. 7) of the content.
  • the information output unit 20 is connected to the viewing state storage unit 19.
  • the viewing state and content information of the viewer H stored in the viewing state storage unit 19 are displayed on the display device 4 of the viewer H or the content provider. Can be output to the device 9.
  • the information output unit 20 can output the temporal data of the degree of concentration and sleepiness of the viewer H to the display devices 4 and 9.
  • the information output unit 20 outputs the viewing states of the plurality of viewers H to the display devices 4 and 9 as the viewing states of the viewers.
  • it can be output as a viewing state for all or a part of a plurality of persons.
  • a ratio or average value of the viewing state (concentration level, sleepiness) of each viewer it is preferable to use a ratio or average value of the viewing state (concentration level, sleepiness) of each viewer.
  • FIG. 9A is an example in which the temporal concentration data of the viewer H and the sleepiness are output to the display device 4 of the viewer H or the display device 9 of the content provider.
  • a content reproduction screen 52 is provided above the screen 51 of the display device 4, and a viewing state display screen 53 is provided below the screen 51.
  • a content playback button 54 and a time bar 55 indicating an elapsed time after content playback are provided between the content playback screen 52 and the viewing state display screen 53.
  • a selection button 56 is provided between the content reproduction button 54 and the viewing state display screen 53 for selecting a viewing state display target as either an individual or the whole. In FIG. 9A, the display target of the viewing state is selected by an individual.
  • the content reproduction screen 52 displays an e-learning content video
  • the viewing state display screen 53 displays the degree of concentration and sleepiness of the viewer H who is viewing the content. Concentration and drowsiness are given as percentages. In the example of FIG. 9A, the degree of concentration is about 85%, and sleepiness is about 15%.
  • the display state display screen 53 is updated at predetermined time intervals. For example, when the content is a still image having a predetermined time length, the display on the viewing state display screen 53 may be updated in accordance with the timing for switching the still image. In this way, the viewing state (concentration level, sleepiness) of the viewer H can be displayed in real time to the e-learning viewer H or the content provider.
  • FIG. 9B is an example in which the selection button 56 is operated to select the entire display target of the viewing state.
  • the viewing state display screen 53 displays the entire plurality of viewers H (hereinafter “whole viewer”).
  • the viewing state is also displayed.
  • the ratio of the number of persons with a high degree of concentration and the person with a low degree of concentration and the ratio of the number of persons with sleepiness and those without sleepiness in the entire audience are shown.
  • the ratio of the number of persons with high concentration is about 80%
  • the ratio of the number of persons with low concentration is about 20%.
  • the ratio of the number of persons having sleepiness is about 85%
  • the ratio of the number of persons having no sleepiness is about 15%.
  • the viewing state display screen 53 also shows the ratio of the number of times the content has been reproduced among all viewers of the e-learning content.
  • the ratio of the person who has played once is about 90%
  • the ratio of the person who has played twice is about 10%.
  • the viewing state (concentration, sleepiness) of the entire viewer can be displayed in real time to the e-learning viewer H or the content provider.
  • the viewing state for the entire plurality of viewers H is displayed, but the viewing state for a part of the entire plurality of viewers H may be displayed.
  • the time-dependent data of the degree of concentration and sleepiness of each viewer H or a plurality of viewers H can be output to the display device 9 of the content provider at a desired time after the end of the content playback.
  • the viewing state detection device 6 may estimate the understanding level of each viewer H by comparing the state (concentration level, sleepiness).
  • the viewer H may read the viewing state information from the viewing state storage unit 19 using the ID number, and the viewer H may compare the test result with the viewing state by himself / herself. Then, the comparison result (degree of understanding) may be notified to the content provider. In this way, personal information (member ID, viewing state information, test results, etc.) of the viewer H can be protected.
  • the viewing state detection system 1 it is not necessary for the viewer H to attach a contact-type sensor, so the viewer H does not feel bothered.
  • the viewing state detection device 6 as described above can be configured from an information processing device such as a PC (Personal Computer), for example.
  • the viewing state detection device 6 is a CPU (Central Processing Unit) that centrally executes various information processing and control of peripheral devices based on a predetermined control program, a RAM that functions as a work area of the CPU, etc. (Random Access Memory), ROM (Read Only Memory) for storing control programs and data executed by the CPU, network interface for executing communication processing via the network, monitor (image output device), speaker, input device, and HDD (Hard Disk Drive) and the like, and the CPU executes a predetermined control program for at least some of the functions of each part of the viewing state detection device 6 shown in FIG. It can be realized by the. Note that at least part of the functions of the viewing state detection device 6 may be replaced by processing using other known hardware.
  • FIG. 10 is a flowchart showing the flow of processing by the viewing state detection apparatus 6 according to the first embodiment.
  • captured image including the viewer H and information regarding the imaging time of the captured image are input to the image input unit 11 (ST101).
  • the area detection unit 12 detects the skin area of the viewer H from the captured image (ST102), and the vital information extraction unit 13 extracts the vital information of the viewer H based on the time series data of the skin area (ST103). .
  • content information including at least content temporal information is input to the content information input unit 14 (ST104), and the information synchronization unit 15 converts the content information and vital information into the imaging time of the captured image and the content temporal information. (ST105).
  • the imaging time is the same as the elapsed time of the content. Therefore, the content information and the vital information can be associated with the time-lapse information of the content. That is, content information and vital information can be synchronized.
  • the activity index extraction unit 16 extracts the physiological or neurological activity index of the viewer H from the vital information extracted by the vital information extraction unit 13 (ST106).
  • the viewing state determination unit 17 refers to the determination information stored in the determination information storage unit 18 based on the activity index extracted by the activity index extraction unit 16, and determines the viewing state of the viewer H ( ST107).
  • the viewing state information determined by the viewing state determination unit 17 is stored in the viewing state storage unit 19 (ST108).
  • the viewing state information stored in the viewing state storage unit 19 is output from the information output unit 20 to the display device 4 of the viewer H or the display device 9 of the content provider (ST109).
  • the above-described steps ST101 to ST109 are repeatedly executed for the captured images sequentially input from the imaging device 3.
  • FIG. 11 is an overall configuration diagram of the viewing state detection system 1 according to the second embodiment of the present disclosure.
  • This 2nd Embodiment has shown the example which applied the viewing-and-listening state detection system concerning this indication to a lecture.
  • FIG. 10 the same components as those in the first embodiment described above are denoted by the same reference numerals.
  • matters not particularly mentioned below are the same as those in the above-described first embodiment.
  • This second embodiment is used for detecting the viewing state of the viewer H who is viewing the lecture.
  • a camera is used as the content information input device 8.
  • the lecture contents (contents) of the lecturer S are captured by the camera 8, and the captured images are input to the content information input unit 14 (see FIG. 2) of the viewing state detection device 6 together with the time-lapse information of the contents.
  • a plurality of viewers H are imaged by the camera (imaging device) 3.
  • the viewers H3, H4, and H5 may capture images at the same time if they are within the imaging field of view of the camera 3. In that case, each viewer H is extracted by the region detection unit 12 of the viewing state detection device 6.
  • the viewers H3, H4, and H5 may alternately capture images by sequentially changing the imaging angle of the camera 3 using a driving device (not shown). As a result, the viewers H3, H4, and H5 can be imaged almost simultaneously.
  • the image of each viewer H captured by the camera 3 is input to the image input unit 11 (see FIG. 2) of the viewing state detection device 6 for each viewer. Thereafter, the same processing as in the first embodiment described above is performed for each viewer. Note that, as in the first embodiment, the imaging of the viewer H starts from the start of the lecture (content).
  • a notebook personal computer is installed in front of the speaker S as the display device 9 of the content provider, and the viewing state detection device 6 has a concentration degree and sleepiness over time for the entire viewer with respect to the notebook personal computer 9.
  • the target data As a result, the display screen as shown in FIG. 9B described above is displayed on the display screen of the notebook computer 9.
  • the speaker S can view the concentration level and sleepiness data of the entire viewer in real time, and can respond to the concentration level and sleepiness of the entire viewer on the spot. It becomes possible.
  • the temporal data of the degree of concentration and sleepiness of each viewer H or a plurality of viewers H are displayed at a desired point in time after the content reproduction ends at the display device 9 of the content provider. Can also be output.
  • the concentration level and sleepiness of each viewer H or multiple viewers H at each time point of the content of the lecture are verified, and the viewer H shows interest. It is possible to infer the contents of the content and the length of time that the viewer H can concentrate. As a result, it is possible to infer the content that the viewer H is interested in, the length of time that the viewer H can concentrate, and the like.
  • the viewer H reads the viewing state information from the viewing state storage unit 19 using the ID number, and the viewer H compares the test result with the viewing state by himself / herself. It may be.
  • the comparison result (degree of understanding) may be notified to the content provider.
  • personal information member ID, viewing state information, test results, etc.
  • FIG. 12 is a block diagram of the viewing state detection apparatus 6 according to the third embodiment of the present disclosure.
  • the viewing state detection apparatus 6 according to the third embodiment is such that the information synchronization unit 15 is connected to the viewing state determination unit 17 instead of the vital information extraction unit 13, as shown in FIG. This is different from the viewing state detection apparatus 6 according to the above. Since other configurations are the same as those of the first embodiment, the same components are denoted by the same reference numerals, and description thereof is omitted.
  • the information synchronization unit 15 is connected to the viewing state determination unit 17, and information on the determination result (that is, the viewing state) in the viewing state determination unit 17 and the content information 31 (see FIG. 6).
  • the viewing state determined based on the activity index extracted from the captured image is also associated with the imaging time.
  • the imaging time of the captured image is the same as the elapsed time of the content.
  • the determination result (viewing state) in the viewing state determination unit 17 and the content information 31 can be associated by the elapsed time 33 of the content.
  • content viewing time 33 and content details 34 are associated with the viewing state of each viewer H.
  • the configuration in which the information synchronization unit 15 is connected to the viewing state determination unit 17 is beneficial because the degree of freedom of the configuration of the viewing state detection device 6 can be increased.
  • content information captured image of the lecture
  • the camera (content information input device) 8 is used as a viewing state determination unit. It becomes possible to directly relate to the viewing state information determined in 17.
  • FIG. 13 is a block diagram of the viewing state detection apparatus 6 according to the fourth embodiment of the present disclosure.
  • the vital information extraction unit 13 and the activity index extraction unit 16 are connected via a network 7 such as the Internet or a LAN (Local Area Network). It is different from the viewing state detection apparatus 6 according to the first embodiment shown in FIG. Since other configurations are the same as those of the first embodiment, the same components are denoted by the same reference numerals, and description thereof is omitted.
  • the viewing state detection device 6 further includes a network information transmission unit 61 and a network information reception unit 62.
  • the network information transmitting unit 61 is connected to the vital information extracting unit 13, and the network information receiving unit 62 is connected to the activity index extracting unit 16.
  • the network information transmitting unit 61 transmits the vital information 21 (see FIG. 5) extracted by the vital information extracting unit 13 to the network information receiving unit 62 via the network 7.
  • the network information receiving unit 62 receives the vital information 21 from the network information transmitting unit 61 via the network 7.
  • the vital information 21 received by the network information receiving unit 62 is sent to the activity index extracting unit 16.
  • the configuration in which the vital information extraction unit 13 and the activity index extraction unit 16 are connected via the network 7 is beneficial because the degree of freedom of the configuration of the viewing state detection device 6 can be increased.
  • the viewing state detection system 1 according to the present disclosure is applied to e-learning (see FIG. 1), the viewer H's personal computer or tablet 2 performs processing for extracting vital information from the captured image, and then extracts the information. It is good to comprise so that vital information may be transmitted to the activity parameter
  • the viewing state detection system 1 according to the present disclosure is applied to e-learning.
  • the present invention is also useful when the viewing state detection system 1 according to the present disclosure is applied to a lecture.
  • FIG. 14 is a block diagram of the viewing state detection apparatus 6 according to the fifth embodiment of the present disclosure.
  • the activity index extraction unit 16 and the viewing state determination unit 17 are connected via a network 7 such as the Internet or a LAN (Local Area Network). It is different from the viewing state detection apparatus 6 according to the first embodiment shown in FIG. Since other configurations are the same as those of the first embodiment, the same components are denoted by the same reference numerals, and description thereof is omitted.
  • the viewing state detection device 6 further includes a network information transmission unit 61 and a network information reception unit 62.
  • the network information transmission unit 61 is connected to the activity index extraction unit 16, and the network information reception unit 62 is connected to the viewing state determination unit 17.
  • the network information transmission unit 61 transmits the activity index extracted by the activity index extraction unit 16 to the network information reception unit 62 via the network 7.
  • the network information receiving unit 62 receives an activity index from the network information transmitting unit 61 via the network 7.
  • the activity indicator received by the network information receiving unit 62 is sent to the viewing state determining unit 17.
  • the configuration in which the activity index extraction unit 16 and the viewing state determination unit 17 are connected via the network 7 is beneficial because the degree of freedom of the configuration of the viewing state detection device 6 can be increased. Further, in this way, the activity index data is transmitted via the network 7 instead of the captured image data of the viewer H, thereby reducing the amount of data transmitted via the network 7. be able to. Therefore, as in the case of the fourth embodiment described above, it is useful when the viewing state detection system 1 according to the present disclosure is applied to e-learning. Note that the present invention is also useful when the viewing state detection system 1 according to the present disclosure is applied to a lecture.
  • FIG. 15 is a block diagram of the viewing state detection apparatus 6 according to the sixth embodiment of the present disclosure.
  • the viewing state determination unit 17 and the viewing state storage unit 19 are connected via a network 7 such as the Internet or a LAN (Local Area Network). It is different from the viewing state detection apparatus 6 according to the first embodiment shown in FIG. Since other configurations are the same as those of the first embodiment, the same components are denoted by the same reference numerals, and description thereof is omitted.
  • the viewing state detection device 6 further includes a network information transmission unit 61 and a network information reception unit 62.
  • the network information transmission unit 61 is connected to the viewing state determination unit 17, and the network information reception unit 62 is connected to the viewing state storage unit 19.
  • the network information transmitting unit 61 transmits the viewing state information determined by the viewing state determining unit 17 to the network information receiving unit 62 via the network 7.
  • the network information receiving unit 62 receives viewing state information from the network information transmitting unit 61 via the network 7.
  • the viewing state information received by the network information receiving unit 62 is sent to the viewing state storage unit 19.
  • the configuration in which the viewing state determination unit 17 and the viewing state storage unit 19 are connected via the network 7 is advantageous because the degree of freedom of the configuration of the viewing state detection device 6 can be increased.
  • the amount of data transmitted via the network 7 can be reduced. Can do. Therefore, as in the case of the fourth and fifth embodiments described above, it is useful when the viewing state detection system 1 according to the present disclosure is applied to e-learning. Note that the present invention is also useful when the viewing state detection system 1 according to the present disclosure is applied to a lecture.
  • the present disclosure is a viewing state detection device that detects a viewing state of a viewer from an image including a viewer who is viewing content, and includes information regarding a captured image including the viewer and a capturing time of the captured image in time.
  • An image input unit a region detection unit that detects a viewer's skin region from a captured image, a vital information extraction unit that extracts viewer's vital information based on time-series data of the skin region,
  • a viewing state determination unit that determines a viewer's viewing state based on vital information, a content information input unit that receives content information including at least content temporal information, and a viewing that stores the viewing state in association with the content temporal information
  • a state storage unit that stores the viewing state in association with the content temporal information
  • the viewing state of the viewer is detected based on the vital information of the viewer detected from the image including the viewer who is viewing the content, the viewing while viewing the content with a simple configuration. It is possible to detect the viewing state of the person. In addition, since the detected viewing state is associated with the time-lapse information of the content, it is possible to evaluate the content content based on the viewing state.
  • the viewing state may include at least one of a viewer's concentration level and sleepiness.
  • the viewer's interest and understanding level for the content is determined based on the viewer's concentration level and sleepiness while viewing the content. It is possible to estimate.
  • an information output unit that outputs the viewing state information stored in the viewing state storage unit to an external display device may be further included.
  • the viewing state information stored in the viewing state storage unit is output to the external display device, the viewing state of the viewer is displayed to the viewer or the content provider. It is possible to display. Thereby, the viewer or the content provider can grasp the viewing state of the viewer, and can also evaluate the content content based on the viewing state of the viewer.
  • the information output unit may output the viewing state information as the viewing state of each viewer when there are a plurality of viewers.
  • the information output unit is configured so that the viewing state information is used as the viewing state information of each viewer. Or a content provider. Thereby, each viewer or content provider can grasp the viewing state of each viewer in detail.
  • the information output unit of the present disclosure may output the viewing state information as the viewing state information for the whole or a part of the plurality of people.
  • the information output unit is configured to output the viewing status information as the viewing status information for all or a part of the plurality of viewers. Can be displayed to each viewer or content provider. Thereby, each viewer or content provider can grasp in detail the viewing state of a plurality of viewers.
  • the present disclosure also relates to a viewing state detection device, an imaging device that inputs a captured image to the viewing state detection device, and content that inputs content information including at least content time-lapse information to the viewing state detection device.
  • a viewing state detection system including an information input device may be used.
  • the present disclosure may further include a display device that displays the viewing state information output from the viewing state detection device.
  • the viewing state information output from the viewing state detection device is displayed on the display device, the viewing state of the viewer can be displayed to the viewer or the content provider.
  • the viewer or the content provider can grasp the viewing state of the viewer, and can also evaluate the content content based on the viewing state of the viewer.
  • the present disclosure is a viewing state detection method for detecting a viewing state of a viewer from an image including a viewer who is viewing content, and includes a captured image including a viewer and a capturing time of the captured image in time
  • An image input step in which information about the image is input, an area detection step for detecting the skin area of the viewer from the captured image, a vital information extraction step for extracting the vital information of the viewer based on time-series data of the skin area, and extraction
  • a viewing state determination step for determining the viewing state of the viewer based on the vital information, a content information input step for inputting content information including at least content temporal information, and associating the viewing state information with the content temporal information
  • a viewing state storing step for storing.
  • this method it is possible to detect the viewing state of the viewer who is viewing the content with a simple configuration, and to associate the detected viewing state with the time-lapse information of the content.
  • a viewing state detection device, a viewing state detection system, and a viewing state detection method according to the present disclosure make it possible to detect a viewing state of a viewer who is viewing content with a simple configuration, and to detect the detected viewing state. This is useful as a viewing state detection device, a viewing state detection system, a viewing state detection method, and the like that can be associated with time-lapse information of content.
  • Viewing state detection system PC, tablet 3 Imaging device (camera) DESCRIPTION OF SYMBOLS 4 Display apparatus 5 Input apparatus 6 Viewing state detection apparatus 7 Network 8 Content information input apparatus 9 Display apparatus 11 Image input part 12 Area

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Educational Technology (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Cardiology (AREA)
  • Psychiatry (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Developmental Disabilities (AREA)
  • Social Psychology (AREA)
  • Physiology (AREA)
  • Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Computer Networks & Wireless Communication (AREA)

Abstract

視聴状態検出装置(6)は、視聴者を含む時間的に連続する撮像画像およびその撮像画像の撮像時間に関する情報が入力される画像入力部(11)と、撮像画像から視聴者の肌領域を検出する領域検出部(12)と、肌領域の時系列データに基づき視聴者のバイタル情報を抽出するバイタル情報抽出部(13)と、バイタル情報に基づき視聴者の視聴状態を判定する視聴状態判定部(17)と、コンテンツの経時情報を少なくとも含むコンテンツ情報が入力されるコンテンツ情報入力部(14)と、視聴状態をコンテンツの経時情報に関連付けて記憶する視聴状態記憶部(19)とを備えた構成とする。

Description

視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法
 本開示は、カメラを用いて非接触で検出した視聴者のバイタル情報に基づいて、コンテンツを視聴中の視聴者の集中度や眠気などの視聴状態を検出する視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法に関する。
 近年、対象者のバイタル情報から該対象者の心理状態を推定する技術が提案されている。例えば、対象者から複数のバイタル情報(呼吸、脈拍、筋電等)を検出し、検出された測定値とその初期値あるいは標準値から視聴者の心理状態(覚醒度、感情価)およびその強度を推定する生体情報処理装置が知られている(特許文献1参照)。
 しかしながら、対象者のバイタル情報を検出するのに複数の接触型センサおよび非接触型センサを必要とする場合、装置が複雑化しコストが嵩む。特に、接触型センサの使用は、対象者にとって煩わしいものになる。また、対象者が複数人存在する場合は、人数分のセンサが必要となるため、装置がさらに複雑化しコストが嵩む。
 もし、あるコンテンツの視聴中の視聴者の視聴状態(集中度、眠気など)をコンテンツの経時情報に関連付けることができれば、コンテンツ内容の評価が可能となるので有益である。
 本開示は、簡単な構成でコンテンツの視聴中の視聴者の視聴状態を検出することを可能とすると共に、検出された視聴状態をコンテンツの経時情報に関連付けることを可能とする。
特開2006-6355号公報
 本開示の視聴状態検出装置は、コンテンツを視聴中の視聴者を含む画像から視聴者の視聴状態を検出する視聴状態検出装置であって、視聴者を含む時間的に連続する撮像画像および撮像画像の撮像時間に関する情報が入力される画像入力部と、撮像画像から視聴者の肌領域を検出する領域検出部と、肌領域の時系列データに基づき視聴者のバイタル情報を抽出するバイタル情報抽出部と、抽出されたバイタル情報に基づき視聴者の視聴状態を判定する視聴状態判定部と、コンテンツの経時情報を少なくとも含むコンテンツ情報が入力されるコンテンツ情報入力部と、視聴状態をコンテンツの経時情報に関連付けて記憶する視聴状態記憶部とを備える。
 本開示によれば、簡単な構成でコンテンツの視聴中の視聴者の視聴状態を検出することが可能となると共に、検出された視聴状態をコンテンツの経時情報に関連付けることができる。
図1は、第1実施形態に係る視聴状態検出システムの全体構成図である。 図2は、第1実施形態に係る視聴状態検出システムの機能ブロック図である。 図3は、図2中の視聴状態検出装置での脈波抽出処理の説明図である。 図4は、図2中の視聴状態検出装置での脈波抽出処理の説明図である。 図5は、バイタル情報の一例を示す図である。 図6は、コンテンツ情報の一例を示す図である。 図7は、バイタル情報とコンテンツ情報とをコンテンツの経過時間で関連付けた例を示す図である。 図8は、判定情報の一例を示す図である。 図9Aは、視聴状態の出力の一例を示す図である。 図9Bは、視聴状態の出力の一例を示す図である。 図10は、第1実施形態に係る視聴状態検出装置による処理の流れを示すフロー図である。 図11は、第2実施形態に係る視聴状態検出システムの全体構成図である。 図12は、第3実施形態に係る視聴状態検出装置の機能ブロック図である。 図13は、第4実施形態に係る視聴状態検出装置の機能ブロック図である。 図14は、第5実施形態に係る視聴状態検出装置の機能ブロック図である。 図15は、第6実施形態に係る視聴状態検出装置の機能ブロック図である。
 以下、図面を適宜参照して、本開示の実施の形態について、詳細に説明する。
 (実施の形態1)
 <顔認証装置の構成>
 本開示の実施の形態について、図面を参照しながら説明する。
 (第1実施形態)
 図1および図2は、それぞれ本開示の第1実施形態に係る視聴状態検出システム1の全体構成図および機能ブロック図である。この第1実施形態は、本開示に係る視聴状態検出システムをeラーニングに適用した例を示している。すなわち、第1実施形態に係る視聴状態検出システム1は、eラーニングの視聴者の視聴状態(集中度、眠気)の検出に使用される。
 図1に示すように、本開示の第1実施形態に係る視聴状態検出システム1は、eラーニングの視聴者H1、H2(以降、総称する場合は符号Hを用いる)が使用するパソコン2またはタブレット2、視聴者Hの少なくとも一部を撮像する撮像装置(カメラ)3と、eラーニングのコンテンツを表示する表示装置4またはタブレット2の表示画面4、パソコン2を操作するためのキーボード5、視聴状態検出装置6を備えている。また、図1では図示しないが、図2に示すように、視聴状態検出システム1は、コンテンツ情報入力装置8と、表示装置9とをさらに備えている。
 カメラ3および視聴状態検出装置6は、インターネットやLAN(Local Area Network)等のネットワーク7を介して通信可能に接続されている。これに限らず、撮像装置3および視聴状態検出装置6が、公知の通信ケーブルによって通信可能に直接接続される構成であってもよい。同様に、コンテンツ情報入力装置8および表示装置9は、ネットワーク7を介して、あるいは公知の通信ケーブルによって、視聴状態検出装置6に通信可能に接続されている。
 カメラ3は、公知の構成を有するカメラであり、レンズを通して得られる被写体(視聴者H)からの光を図示しないイメージセンサ(CCD、CMOS等)に結像させることにより、その結像した像の光を電気信号に変換した映像信号を視聴状態検出装置6に対して出力する。カメラ3は、視聴者Hのパソコン2またはタブレット2に備え付けのカメラを用いてもよいし、または別途用意したものを用いてもよい。なお、カメラ3の代わりに図示しない画像記憶装置(画像レコーダ)を使用し、画像記憶装置から視聴状態検出装置6に、コンテンツ視聴中の視聴者Hの録画画像を入力するように構成することも可能である。
 コンテンツ情報入力装置8は、コンテンツの経時情報を少なくとも含むコンテンツ情報を、視聴状態検出装置6に入力するためのものである。コンテンツの経時情報としては、具体的には、コンテンツの開始時からの経過時間を用いるとよい。
 表示装置4は、上述したように、視聴者H1の表示装置4または視聴者H2のタブレット2の表示画面4であり、表示装置9は、例えば、コンテンツ提供者のディスプレイ装置である。表示装置4、9には、視聴状態検出装置6で検出された視聴者状態が表示される。視聴者状態は、本実施形態では、視聴者Hの集中度および眠気である。なお、表示装置9と併用してまたは表示装置9の代わりに、視聴者状態を音声や音で通知可能な音声通知装置を使用することも可能である。
 視聴状態検出装置6は、撮像装置3から入力された撮像画像に基づきコンテンツの視聴者Hのバイタル情報(ここでは、脈波)を抽出すると共に、抽出されたバイタル情報とコンテンツ情報とを、撮像画像の撮像時間とコンテンツの経時情報とで関連付けることができる。そして、視聴状態検出装置6は、抽出されたバイタル情報に基づき視聴者Hの視聴状態(集中度、眠気)を判定し、判定された視聴者Hの視聴状態をコンテンツ情報と共に視聴者Hやコンテンツ提供者に対して通知することができる。また、視聴状態検出装置6は、視聴者Hが複数人存在する場合に、視聴者Hの視聴状態を、各視聴者の視聴状態、または複数人の全体またはその一部についての視聴状態として通知することができる。
 図2に示すように、視聴状態検出装置6は、撮像装置3からコンテンツを視聴中の視聴者Hの少なくとも一部を含む時間的に連続する撮像画像および該撮像画像の撮像時間に関する情報が入力される画像入力部11と、その撮像画像から視聴者Hの肌領域(ここでは、顔領域)を検出する領域検出部12と、検出された視聴者Hの肌領域の時系列データに基づき視聴者Hのバイタル情報を抽出するバイタル情報抽出部13と、コンテンツ情報入力装置8からコンテンツの経時情報を少なくとも含むコンテンツ情報が入力されるコンテンツ情報入力部14と、バイタル情報とコンテンツ情報とを、撮像画像の撮像時間とコンテンツの経時情報とで関連付ける情報同期部15とを備えている。
 さらに、視聴状態検出装置6は、抽出されたバイタル情報から視聴者Hの生理学的または神経学的な活動指標を抽出する活動指標抽出部16と、抽出された活動指標に基づき視聴者Hの視聴状態を判定する視聴状態判定部17と、その判定に用いられる判定情報を記憶している判定情報記憶部18と、判定された視聴者Hの視聴状態をコンテンツ情報に関連付けて記憶する視聴状態記憶部19と、視聴状態記憶部19に記憶された視聴者Hの視聴状態およびコンテンツ情報を表示装置4、9に出力する情報出力部20とを備えている。各部は、図示しない制御部によって制御される。
 画像入力部11は、撮像装置3と接続されており、撮像装置3から、コンテンツ視聴中の視聴者Hの少なくとも一部を含む時間的に連続する撮像画像(フレーム画像のデータ)が、映像信号として入力される。また、画像入力部11には、撮像画像の撮像時間に関する情報も入力される。撮像時間は視聴者Hの撮像を開始してからの経過時間であり、撮像画像に関連付けられている。本実施形態では、視聴者Hの撮像は、eラーニングのコンテンツの再生開始時から開始するものとする。したがって、撮像時間は、コンテンツの再生開始時からの経過時間と同一となる。画像入力部11に入力された撮像画像は、領域検出部12に送出される。
 領域検出部12は、画像入力部11から取得した各撮像画像(フレーム画像)に対し、顔の特徴量を用いた公知の統計的学習手法に基づく顔検出処理を実行することにより、その検出された顔領域を視聴者Hの肌領域として検出および追尾し、その肌領域に関する情報(肌領域を構成する画素数)を取得する。領域検出部12によって取得された肌領域に関する情報は、バイタル情報抽出部13に送出される。なお、領域検出部12による肌領域検出処理については、顔の特徴量を用いた公知の統計的学習手法以外にも、公知のパターン認識手法(例えば、予め準備したテンプレートとのマッチング)に基づく顔検出処理を利用してもよい。また、画像入力部11から取得した撮像画像に複数人の視聴者Hが含まれる場合は、領域検出部12は、公知の検出手法を用いて、目標とする視聴者Hを抽出し、抽出した視聴者Hに対して上記の処理を実施するものとする。
 バイタル情報抽出部13は、領域検出部12から取得した撮像画像の肌領域に基づき視聴者Hの脈拍を算出する。具体的には、時間的に連続する撮像画像において抽出された肌領域を構成する各画素に関し、例えばRGBの各成分の画素値(0-255階調)を算出し、その代表値(ここでは、各画素の平均値)の時系列データを脈拍信号として生成する。この場合、脈動による変動が特に大きい緑成分(G)のみの画素値に基づき時系列データを生成することができる。
 生成された画素値(平均値)の時系列データは、例えば、図3(a)に示すように、血液中のヘモグロビン濃度の変化に基づく微少な変動(例えば、画素値の1階調未満の変動)を伴う。そこで、バイタル情報抽出部13は、その画素値に基づく時系列データに対し、公知のフィルタ処理(例えば、所定の通過帯域が設定されたバンドパスフィルタによる処理等)を実施することにより、図3(b)に示すように、ノイズ成分を除去した脈波を脈拍信号として抽出することができる。そして、バイタル情報抽出部13は、図4(a)に示すように、脈波において隣接する2以上のピーク間の時間から脈波間隔(RRI)を算出し、そのRRIをバイタル情報とする。前述したように、撮像時間は撮像画像に関連付けられているので、撮像画像から抽出したバイタル情報も、撮像時間に関連付けられている。バイタル情報抽出部13によって抽出されたバイタル情報(RRI)は、活動指標抽出部16に送出される。
 図5は、バイタル情報抽出部13によって抽出された、視聴者H1のバイタル情報の一例である。図5に示すように、バイタル情報21は、視聴者H1のID番号22と、撮像画像の撮像時間23と、各撮像時間23におけるRRI値24とを含む。視聴者H1のID番号22(この例では、ID:M00251)は、視聴者Hを識別するために、バイタル情報抽出部13により付与される。ID番号22は、視聴者Hの会員ID等の個人情報等とは無関係な番号を付与し、視聴者Hは自分に対して付与されたID番号22を知ることができるが、コンテンツ提供者は視聴者HとID番号22との対応関係を知ることができないようにすることが望ましい。このようにすると、コンテンツ提供者または第三者に対して、視聴者Hの個人情報(会員ID、バイタル情報等)を保護することができる。撮像時間23は、前述したように、視聴者Hの撮像を開始してからの経過時間である。図5の例では、撮像時間23が「0.782」、「1.560」、「2.334」、...のときのRRI24は「0.782」、「0.778」、「0.774」、...である。
 コンテンツ情報入力部14は、コンテンツ情報入力装置8と接続されており、コンテンツ情報入力装置8から、コンテンツの経時情報を少なくとも含むコンテンツ情報が入力される。
 図6は、コンテンツ情報入力部14に入力された、視聴者H1のコンテンツ情報の一例である。図6に示すように、コンテンツ情報31は、コンテンツのID番号32と、コンテンツの再生開始時からの経過時間33と、各経過時間33におけるコンテンツ内容34とを含む。コンテンツのID番号32(この例では、ID:C02020)は、コンテンツを識別するために、コンテンツ情報入力部14により付与される。図6の例では、経過時間33が「0.0」のときのコンテンツ内容34は「スタート」であり、経過時間33が「2.0」のときのコンテンツ内容34は「第1章1節」である。
 情報同期部15は、バイタル情報抽出部13およびコンテンツ情報入力部14と接続されており、バイタル情報21とコンテンツ情報31とを、撮像時間23とコンテンツの経過時間33とで関連付ける(紐付ける)。前述したように、本実施形態では、視聴者Hの撮像はeラーニングのコンテンツの再生開始時から開始するので、撮像画像の撮像時間23(図5参照)とコンテンツの経過時間33(図6参照)は同一の時間となる。したがって、バイタル情報21とコンテンツ情報31とを、撮像時間23とコンテンツの経過時間33とで関連付けることができる。具体的には、バイタル情報21のRRI24(図5参照)に、コンテンツの経過時間33およびコンテンツ内容34(図6参照)が関連付けられる。
 図7は、視聴者H1のバイタル情報21に、コンテンツの経過時間33およびコンテンツ内容34を関連付けた一例である。図7に示すように、バイタル情報21のRRI24に、コンテンツの経過時間33およびコンテンツ内容34が関連付けられている。このようにして、バイタル情報21にコンテンツ情報31を関連付ける、すなわち、バイタル情報21とコンテンツ情報31とを同期させることができる。このことにより、コンテンツ情報と同期後のバイタル情報25は、コンテンツの経過時間33を含む経時的なデータとなる。また、図7の例では、コンテンツ情報と同期後のバイタル情報25のID番号26は、ID:C02020_M00251となる。C02020がコンテンツを識別するための番号であり、M00251が視聴者Hを識別するための番号である。なお、本実施形態では、バイタル情報21とコンテンツ情報31とを同期させるのにコンテンツの経過時間33を用いたが、コンテンツの経過時間33の代わりに、コンテンツの視聴時の時刻を用いてもよい。
 活動指標抽出部16は、バイタル情報抽出部13から取得したバイタル情報(RRI)から、視聴者Hの生理学的または神経学的な活動指標を抽出する。活動指標としては、RRI、RRIの標準偏差であるSDNN、心拍数、迷走神経緊張強度の指標であるRMSSDまたはpNN50、ストレスの指標であるLF/HFなどが挙げられる。これらの活動指標に基づき、集中度や眠気などを推測することができる。例えば、RRIの経時的な変化は、交感神経および副交感神経の活動を反映することが分かっている。したがって、図4(b)のグラフに示すように、RRIの経時的な変化、すなわちRRIの揺らぎに基づき、集中度、眠気度、緊張度(ストレス)などを推測することが可能である。活動指標抽出部16によって抽出された活動指標は、視聴状態判定部17に送出される。
 視聴状態判定部17は、活動指標抽出部16から取得した活動指標に基づき、視聴者Hの視聴状態を判定する。本実施形態では、視聴状態は、集中度および眠気とする。なお、これに限らず、例えば緊張度などの他の様々な状態であってもよい。具体的には、判定情報記憶部18に予め記憶された、活動指標の経時的変化と視聴状態(集中度および眠気)との関係を示す判定情報を参照して、視聴者Hの視聴状態を判定する。図7を参照して上述したように、コンテンツ情報と同期後のバイタル情報25は、コンテンツの経過時間33を含む経時的なデータなので、同期後のバイタル情報25から抽出した活動指標は経時的情報を含んでいる。したがって、活動指標の経時的変化は算出可能である。
 図8は、判定情報記憶部18に予め記憶された判定情報の一例である。図8に示すように、判定情報41は、活動指標である心拍数42、SDNN43、RMSSD44の経時的変化と、視聴状態45との関係を示す表として構成されている。各活動指標の経時的変化は、「増加(増)」46、「変化なし(0)」47、「減少(減)」48の3段階に分けられており、心拍数42、SDNN43、RMSSD44のうちの2つの経時的変化の組み合わせが、特定の視聴状態45に対応するように構成されている。例えば、心拍数42が経時的に低下し、かつRMSSD44が経時的に低下した場合の視聴状態45は「状態B9」49である。したがって、状態B9に対応する視聴状態45が学習的手法や実験的手法などにより予め分かっていれば、心拍数42およびRMSSD44の経時的変化に基づいて、視聴者Hの視聴状態45を判定することができる。例えば、「状態B9」の視聴状態は、学習的手法や実験的手法などにより、「眠気発生」であることが分かっている。したがって、心拍数42が経時的に低下し、かつRMSSD44が経時的に低下した場合は、視聴者Hの視聴状態は眠気発生であると判定することができる。視聴状態判定部17によって判定された視聴状態は、視聴状態記憶部19に送出される。
 視聴状態記憶部19は、視聴状態判定部17から取得した視聴状態を、コンテンツ情報に関連付けて記憶する。図7を参照して上述したように、バイタル情報はコンテンツ情報に関連付けられているので、バイタル情報を元にして判定された視聴者Hの視聴状態も、コンテンツ情報に関連付けられている。したがって、判定された視聴者Hの視聴状態は、コンテンツの経過時間33(図7参照)に関連付けられた経時的データとして、視聴状態記憶部19に記憶される。
 情報出力部20は、視聴状態記憶部19と接続されており、視聴状態記憶部19に記憶された視聴者Hの視聴状態およびコンテンツ情報を、視聴者Hの表示装置4またはコンテンツ提供者の表示装置9に出力することができる。具体的には、情報出力部20は、視聴者Hの集中度および眠気の経時的データを、表示装置4、9に対して出力することができる。
 また、情報出力部20は、視聴者Hが複数人存在する場合に、表示装置4、9に対して、複数人の視聴者Hの視聴状態を、各視聴者の視聴状態として出力するか、または複数人の全体またはその一部についての視聴状態として出力することができる。複数人の全体またはその一部についての視聴状態は、各視聴者の視聴状態(集中度、眠気)の程度の割合や平均値を用いるとよい。
 図9Aは、視聴者Hの集中度および眠気の経時的データを、視聴者Hの表示装置4またはコンテンツ提供者の表示装置9に出力した例である。図9Aに示すように、表示装置4の画面51の上側にコンテンツ再生画面52が設けられており、画面51の下側に視聴状態表示画面53が設けられている。また、コンテンツ再生画面52と視聴状態表示画面53との間に、コンテンツ再生ボタン54と、コンテンツ再生後の経過時間を示すタイムバー55とが設けられている。また、コンテンツ再生ボタン54と視聴状態表示画面53との間に、視聴状態の表示対象を、個人または全体のいずれかに選択するための選択ボタン56が設けられている。図9Aでは、視聴状態の表示対象は、個人に選択されている。
 コンテンツ再生画面52には、eラーニングのコンテンツの映像が表示されており、視聴状態表示画面53には、そのコンテンツを視聴中の視聴者Hの集中度と眠気が表示されている。集中度および眠気は、割合で示されている。図9Aの例では、集中度は約85%であり、眠気は約15%である。なお、視聴状態表示画面53の表示の更新は、所定の時間間隔で行われる。例えば、コンテンツが所定の時間長さを有する静止画像である場合は、静止画像を切り替えるタイミングに合わせて、視聴状態表示画面53の表示を更新するとよい。このようにして、eラーニングの視聴者Hまたはコンテンツ提供者に対して、視聴者Hの視聴状態(集中度、眠気)をリアルタイムで表示することができる。
 図9Bは、選択ボタン56を操作して、視聴状態の表示対象を全体に選択した例であり、視聴状態表示画面53には、複数人の視聴者Hの全体(以降、「視聴者全体」とも称する)についての視聴状態が表示されている。具体的には、視聴者全体における、集中度が高い者および集中度が低い者の人数の割合、並びに、眠気が有る者および眠気が無い者の人数の割合が示されている。図9Bの例では、集中度が高い者の人数の割合は約80%であり、集中度が低い者の人数の割合は約20%である。また、眠気が有る者の人数の割合は約85%であり、眠気が無い者の人数の割合は約15%である。また、視聴状態表示画面53には、eラーニングのコンテンツの視聴者全体におけるコンテンツの再生回数の割合も示されている。図9Bの例では、再生回数が1回の者の割合は約90%であり、再生回数が2回の者の割合は約10%である。このようにして、eラーニングの視聴者Hまたはコンテンツ提供者に対して、視聴者全体としての視聴状態(集中度、眠気)をリアルタイムで表示することができる。なお、図9Bの例では、複数人の視聴者Hの全体についての視聴状態を表示したが、複数人の視聴者Hの全体の一部についての視聴状態を表示するようにしてもよい。
 また、各視聴者Hまたは複数人の視聴者Hの集中度および眠気の経時的データは、コンテンツの再生終了後の所望の時点において、コンテンツ提供者の表示装置9に出力することもできる。この場合、コンテンツの再生終了後に、コンテンツの各時点での、各視聴者Hまたは複数人の視聴者Hの集中度や眠気の経時的変化を検証することが可能となる。これにより、視聴者Hが関心を示した内容や、視聴者Hが集中可能な時間長さなどを推測することが可能となる。また、その推測結果に基づき、コンテンツ内容のクオリティ等を評価したり、コンテンツ内容の改善を図ったりすることも可能となる。また、コンテンツの再生終了後に各視聴者Hに対してコンテンツ内容の理解度を測るための試験を行った場合、その試験の結果と、視聴状態検出装置6によって検出された各視聴者Hの視聴状態(集中度、眠気)とを比較することにより、各視聴者Hの理解度を推定することも可能となる。この場合、視聴者HがID番号を用いて視聴状態記憶部19から視聴状態の情報を読み出して、視聴者Hが自分で試験結果と視聴状態とを比較するようにしてもよい。そして、比較結果(理解度)をコンテンツ提供者に通知するようにしてもよい。このようにすると、視聴者Hの個人情報(会員ID、視聴状態の情報、試験結果等)を保護することができる。なお、本開示の第1実施形態に係る視聴状態検出システム1によれば、視聴者Hに接触型のセンサを取り付ける必要がないので、視聴者Hが煩わしさを感じることはない。
 上述のような視聴状態検出装置6は、例えば、PC(Personal Computer)などの情報処理装置から構成することが可能である。詳細は図示しないが、視聴状態検出装置6は、所定の制御プログラムに基づき各種情報処理や周辺機器の制御などを統括的に実行するCPU(Central Processing Unit)、CPUのワークエリア等として機能するRAM(Random Access Memory)、CPUが実行する制御プログラムやデータを格納するROM(Read Only Memory)、ネットワークを介した通信処理を実行するネットワークインタフェース、モニタ(画像出力装置)、スピーカ、入力デバイス、およびHDD(Hard Disk Drive)などを含むハードウェア構成を有しており、図2に示した視聴状態検出装置6の各部の機能の少なくとも一部については、CPUが所定の制御プログラムを実行することによって実現可能である。なお、視聴状態検出装置6の機能の少なくとも一部を他の公知のハードウェアによる処理によって代替してもよい。
 図10は、第1実施形態に係る視聴状態検出装置6による処理の流れを示すフロー図である。
 まず、画像入力部11に、視聴者Hを含む時間的に連続する撮像画像およびその撮像画像の撮像時間に関する情報が入力される(ST101)。領域検出部12は、撮像画像から視聴者Hの肌領域を検出し(ST102)、バイタル情報抽出部13は、肌領域の時系列データに基づき、視聴者Hのバイタル情報を抽出する(ST103)。
 次に、コンテンツ情報入力部14に、コンテンツの経時情報を少なくとも含むコンテンツ情報が入力され(ST104)、情報同期部15は、コンテンツ情報とバイタル情報とを、撮像画像の撮像時間とコンテンツの経時情報とで関連付ける(ST105)。本実施形態では、視聴者Hの撮像は、コンテンツの再生開始時から開始するので、撮像時間はコンテンツの経過時間と同一である。したがって、コンテンツ情報とバイタル情報とをコンテンツの経時情報で関連付けることができる。すなわち、コンテンツ情報とバイタル情報とを同期させることができる。
 次に、活動指標抽出部16は、バイタル情報抽出部13で抽出されたバイタル情報から、視聴者Hの生理学的または神経学的な活動指標を抽出する(ST106)。続いて、視聴状態判定部17は、活動指標抽出部16で抽出された活動指標に基づき、判定情報記憶部18に記憶された判定情報を参照して、視聴者Hの視聴状態を判定する(ST107)。視聴状態判定部17で判定された視聴状態の情報は、視聴状態記憶部19に記憶される(ST108)。
 そして、視聴状態記憶部19に記憶された視聴状態の情報は、情報出力部20から視聴者Hの表示装置4またはコンテンツ提供者の表示装置9に対して出力される(ST109)。
 なお、視聴状態検出装置6では、上述のステップST101-ST109は、撮像装置3から順次入力される撮像画像に対して繰り返し実行される。
 (第2実施形態)
 図11は、本開示の第2実施形態に係る視聴状態検出システム1の全体構成図である。この第2実施形態は、本開示に係る視聴状態検出システムを、講演会に適用した例を示している。図10において、上述の第1実施形態と同様の構成要素については、同一の符号が付されている。また、第2実施形態では、以下で特に言及しない事項については、上述の第1実施形態の場合と同様とする。
 この第2実施形態は、講演会を視聴している視聴者Hの視聴状態の検出に使用される。また、この第2実施形態では、コンテンツ情報入力装置8として、カメラが用いられる。講演者Sの講演内容(コンテンツ)は、カメラ8により撮像され、その撮像画像は、コンテンツの経時情報と共に視聴状態検出装置6のコンテンツ情報入力部14(図2参照)に入力される。
 複数人の視聴者H(H3、H4、H5)は、カメラ(撮像装置)3により撮像される。視聴者H3、H4、H5は、カメラ3の撮像視野内に収まる場合は同時に撮像してもよい。その場合は、視聴状態検出装置6の領域検出部12において、各視聴者Hを抽出する。また、視聴者H3、H4、H5は、図示しない駆動装置を用いてカメラ3の撮像角度を順次変更することにより交互に撮像してもよい。このことにより、視聴者H3、H4、H5をほぼ同時に撮像することが可能となる。カメラ3で撮像された各視聴者Hの画像は、視聴者毎に視聴状態検出装置6の画像入力部11(図2参照)に入力される。以降、視聴者毎に、上述した第1実施形態の場合と同様の処理が行われる。なお、第1実施形態と同様に、視聴者Hの撮像は講演(コンテンツ)の開始時から開始するものとする。
 また、コンテンツ提供者の表示装置9として、講演者Sの前にノートパソコンが設置されており、視聴状態検出装置6は、ノートパソコン9に対して、視聴者全体についての集中度および眠気の経時的データを送信する。これにより、ノートパソコン9の表示画面に、上述した図9Bのような表示画面が表示される。このことにより、講演者Sは、視聴者全体についての集中度および眠気の経時的データをリアルタイムで視認することができ、視聴者全体における集中度および眠気に対して、その場で対応することが可能となる。例えば、視聴者全体に集中度が低い者の割合が増加した場合、または視聴者全体における眠気を有する者の割合が増加した場合に、話し方(声のトーン、声の大きさ)や講義内容を、視聴者Hの興味を引くように適宜変更することが可能となる。
 また、第1実施形態と同様に、各視聴者Hまたは複数人の視聴者Hの集中度および眠気の経時的データは、コンテンツの再生終了後の所望の時点において、コンテンツ提供者の表示装置9に出力することもできる。これにより、講演会の終了後に、講演会のコンテンツの各時点での、各視聴者Hまたは複数人の視聴者Hの集中度や眠気の経時的変化を検証し、視聴者Hが関心を示した内容や、視聴者Hが集中可能な時間長さなどを推測ことが可能となる。これにより、視聴者Hが関心を示した内容や、視聴者Hが集中可能な時間長さなどを推測することが可能となる。また、その推測結果に基づき、講演内容のクオリティ等を評価したり、次回以降の講演内容の改善を図ったりすることも可能となる。また、講演の代わりに、講義または授業を行う場合は、講義または授業の終了後に各視聴者Hに対して講義または授業のコンテンツ内容の理解度を測るための試験を行った場合、その試験の結果と、視聴状態検出装置6によって検出された各視聴者Hの視聴状態(集中度、眠気)とを比較することにより、各視聴者Hの理解度を推定することも可能となる。この場合、第1実施形態と同様に、視聴者HがID番号を用いて視聴状態記憶部19から視聴状態の情報を読み出して、視聴者Hが自分で試験結果と視聴状態とを比較するようにしてもよい。そして、比較結果(理解度)をコンテンツ提供者に通知するようにしてもよい。このようにすると、視聴者Hの個人情報(会員ID、視聴状態の情報、試験結果等)を保護することができる。なお、本開示の第2実施形態に係る視聴状態検出システム1によれば、視聴者Hに接触型のセンサを取り付ける必要がないので、視聴者Hが煩わしさを感じることはない。
 (第3実施形態)
 図12は、本開示の第3実施形態に係る視聴状態検出装置6のブロック図である。この第3実施形態に係る視聴状態検出装置6は、情報同期部15がバイタル情報抽出部13ではなくて、視聴状態判定部17に接続されている点が、図2に示した第1実施形態に係る視聴状態検出装置6と異なる。その他の構成は第1実施形態と同じであるので、同一の構成部分については同一の符号を付してその説明は省略する。
 図12に示すように、情報同期部15は視聴状態判定部17に接続されており、視聴状態判定部17での判定結果(すなわち、視聴状態)の情報とコンテンツ情報31(図6参照)とを、撮像画像の撮像時間とコンテンツの経過時間とで関連付ける。撮像画像は撮像時間に関連付けられているので、撮像画像から抽出した活動指標に基づき判定された視聴状態も撮像時間に関連付けられている。そして、上述したように、本実施形態では、視聴者Hの撮像はコンテンツの再生時または開始時から開始するので、撮像画像の撮像時間はコンテンツの経過時間と同一の時間となる。したがって、視聴状態判定部17での判定結果(視聴状態)とコンテンツ情報31とを、コンテンツの経過時間33で関連付けることができる。具体的には、各視聴者Hの視聴状態に、コンテンツの経過時間33およびコンテンツ内容34(図6参照)が関連付けられる。
 このように、情報同期部15を視聴状態判定部17に接続する構成にすると、視聴状態検出装置6の構成の自由度を高めることができるので有益である。例えば、本開示に係る視聴状態検出システム1を講演会に適用した場合(図2参照)に、カメラ(コンテンツ情報入力装置)8で撮像したコンテンツ情報(講演の撮像画像)を、視聴状態判定部17で判定された視聴状態の情報に対して直接的に関連付けることが可能となる。
 (第4実施形態)
 図13は、本開示の第4実施形態に係る視聴状態検出装置6のブロック図である。この第4実施形態に係る視聴状態検出装置6は、バイタル情報抽出部13と活動指標抽出部16とが、インターネットやLAN(Local Area Network)等のネットワーク7を介して接続されている点が、図2に示した第1実施形態に係る視聴状態検出装置6と異なる。その他の構成は第1実施形態と同じであるので、同一の構成部分については同一の符号を付してその説明は省略する。
 図13に示すように、視聴状態検出装置6は、ネットワーク情報送信部61と、ネットワーク情報受信部62とをさらに備えている。ネットワーク情報送信部61はバイタル情報抽出部13と接続されており、ネットワーク情報受信部62は活動指標抽出部16と接続されている。ネットワーク情報送信部61は、バイタル情報抽出部13によって抽出されたバイタル情報21(図5参照)を、ネットワーク7を介してネットワーク情報受信部62へ送信する。ネットワーク情報受信部62は、ネットワーク7を介してネットワーク情報送信部61からバイタル情報21を受信する。ネットワーク情報受信部62が受信したバイタル情報21は、活動指標抽出部16に送出される。
 このように、バイタル情報抽出部13と活動指標抽出部16とをネットワーク7を介して接続する構成にすると、視聴状態検出装置6の構成の自由度を高めることができるので有益である。例えば、カメラ3で撮像した視聴者Hの撮像画像のデータを、ネットワーク7を介して視聴状態検出装置6に送信すると、ネットワーク7を介して送信されるデータの量が大きくなるので好ましくない。したがって、本開示に係る視聴状態検出システム1をeラーニングに適用する場合(図1参照)は、視聴者Hのパソコンまたはタブレット2において撮像画像からバイタル情報を抽出する処理を行った後、抽出したバイタル情報を、ネットワーク7を介して、活動指標抽出部16に送信するように構成するとよい。このように、視聴者Hの撮像画像のデータではなく、バイタル情報のデータを、ネットワーク7を介して送信するように構成すると、ネットワーク7を介して送信されるデータの量を小さくすることができる。したがって、本開示に係る視聴状態検出システム1をeラーニングに適用する場合に有益である。なお、本開示に係る視聴状態検出システム1を講演会に適用する場合においても同様に有益である。
 (第5実施形態)
 図14は、本開示の第5実施形態に係る視聴状態検出装置6のブロック図である。この第5実施形態に係る視聴状態検出装置6は、活動指標抽出部16と視聴状態判定部17とが、インターネットやLAN(Local Area Network)等のネットワーク7を介して接続されている点が、図2に示した第1実施形態に係る視聴状態検出装置6と異なる。その他の構成は第1実施形態と同じであるので、同一の構成部分については同一の符号を付してその説明は省略する。
 図14に示すように、視聴状態検出装置6は、ネットワーク情報送信部61と、ネットワーク情報受信部62とをさらに備えている。ネットワーク情報送信部61は活動指標抽出部16と接続されており、ネットワーク情報受信部62は視聴状態判定部17と接続されている。ネットワーク情報送信部61は、活動指標抽出部16によって抽出された活動指標を、ネットワーク7を介してネットワーク情報受信部62へ送信する。ネットワーク情報受信部62は、ネットワーク7を介してネットワーク情報送信部61から活動指標を受信する。ネットワーク情報受信部62が受信した活動指標は、視聴状態判定部17に送出される。
 このように、活動指標抽出部16と視聴状態判定部17とをネットワーク7を介して接続する構成にすると、視聴状態検出装置6の構成の自由度を高めることができるので有益である。また、このように、視聴者Hの撮像画像のデータではなく、活動指標のデータを、ネットワーク7を介して送信するように構成することにより、ネットワーク7を介して送信するデータの量を小さくすることができる。したがって、上述した第4実施形態の場合と同様に、本開示に係る視聴状態検出システム1をeラーニングに適用する場合に有益である。なお、本開示に係る視聴状態検出システム1を講演会に適用する場合においても同様に有益である。
 (第6実施形態)
 図15は、本開示の第6実施形態に係る視聴状態検出装置6のブロック図である。この第6実施形態に係る視聴状態検出装置6は、視聴状態判定部17と視聴状態記憶部19とが、インターネットやLAN(Local Area Network)等のネットワーク7を介して接続されている点が、図2に示した第1実施形態に係る視聴状態検出装置6と異なる。その他の構成は第1実施形態と同じであるので、同一の構成部分については同一の符号を付してその説明は省略する。
 図15に示すように、視聴状態検出装置6は、ネットワーク情報送信部61と、ネットワーク情報受信部62とをさらに備えている。ネットワーク情報送信部61は視聴状態判定部17と接続されており、ネットワーク情報受信部62は視聴状態記憶部19と接続されている。ネットワーク情報送信部61は、は視聴状態判定部17によって判定された視聴状態の情報を、ネットワーク7を介してネットワーク情報受信部62へ送信する。ネットワーク情報受信部62は、ネットワーク7を介してネットワーク情報送信部61から視聴状態の情報を受信する。ネットワーク情報受信部62が受信した視聴状態の情報は、視聴状態記憶部19に送出される。
 このように、視聴状態判定部17と視聴状態記憶部19とをネットワーク7を介して接続する構成にすると、視聴状態検出装置6の構成の自由度を高めることができるので有益である。また、このように、視聴者Hの撮像画像のデータではなく視聴状態の情報を、ネットワーク7を介して送信するように構成することにより、ネットワーク7を介して送信するデータの量を小さくすることができる。したがって、上述した第4および第5の実施形態の場合と同様に、本開示に係る視聴状態検出システム1をeラーニングに適用する場合に有益である。なお、本開示に係る視聴状態検出システム1を講演会に適用する場合においても同様に有益である。
 本開示は、コンテンツを視聴中の視聴者を含む画像から視聴者の視聴状態を検出する視聴状態検出装置であって、視聴者を含む時間的に連続する撮像画像および撮像画像の撮像時間に関する情報が入力される画像入力部と、撮像画像から視聴者の肌領域を検出する領域検出部と、肌領域の時系列データに基づき視聴者のバイタル情報を抽出するバイタル情報抽出部と、抽出されたバイタル情報に基づき視聴者の視聴状態を判定する視聴状態判定部と、コンテンツの経時情報を少なくとも含むコンテンツ情報が入力されるコンテンツ情報入力部と、視聴状態をコンテンツの経時情報に関連付けて記憶する視聴状態記憶部とを備える。
 この構成によれば、コンテンツを視聴中の視聴者を含む画像から検出した視聴者のバイタル情報に基づき、視聴者の視聴状態を検出する構成としたので、簡単な構成でコンテンツの視聴中の視聴者の視聴状態を検出することが可能となる。また、検出された視聴状態をコンテンツの経時情報に関連付ける構成としたので、視聴状態に基づいてコンテンツ内容を評価することが可能となる。
 また、本開示において、視聴状態が、視聴者の集中度および眠気の少なくとも1つを含んでもよい。
 この構成によれば、視聴者の集中度および眠気の少なくとも1つを検出する構成としたので、コンテンツの視聴中の視聴者の集中度および眠気に基づき、コンテンツに対する視聴者の興味や理解度を推定することが可能となる。
 また、本開示において、視聴状態記憶部に記憶された視聴状態の情報を、外部の表示装置に対して出力する情報出力部をさらに含んでもよい。
 この構成によれば、視聴状態記憶部に記憶された視聴状態の情報を、外部の表示装置に対して出力する構成としたので、視聴者またはコンテンツ提供者に対して、視聴者の視聴状態を表示することが可能となる。これにより、視聴者またはコンテンツ提供者が、視聴者の視聴状態を把握することが可能となり、さらには、視聴者の視聴状態に基づきコンテンツ内容を評価することも可能となる。
 また、本開示において、情報出力部は、視聴者が複数人存在する場合に、視聴状態の情報を、各視聴者の視聴状態として出力してもよい。
 この構成によれば、情報出力部は、視聴者が複数人存在する場合に、視聴状態の情報を各視聴者の視聴状態の情報として構成としたので、各視聴者の視聴状態を、各視聴者またはコンテンツ提供者に対して表示することが可能となる。これにより、各視聴者またはコンテンツ提供者が、各視聴者の視聴状態を詳細に把握することが可能となる。
 また、本開示の情報出力部は、視聴者が複数人存在する場合に、視聴状態の情報を、複数人の全体またはその一部についての視聴状態の情報として出力してもよい。
 この構成によれば、情報出力部は、視聴者が複数人存在する場合に、視聴状態の情報を複数人の全体またはその一部についての視聴状態の情報として出力する構成としたので、複数人の全体についての視聴状態または複数人の全体の一部についての視聴状態を、各視聴者またはコンテンツ提供者に対して表示することが可能となる。これにより、各視聴者またはコンテンツ提供者が、複数人の視聴者の視聴状態を詳細に把握することが可能となる。
 また、本開示は、視聴状態検出装置と、視聴状態検出装置に対して、撮像画像を入力する撮像装置と、視聴状態検出装置に対して、コンテンツの経時情報を少なくとも含むコンテンツ情報を入力するコンテンツ情報入力装置とを備える視聴状態検出システムであってもよい。
 この構成によれば、簡単な構成でコンテンツの視聴中の視聴者の視聴状態を検出することを可能とすると共に、検出された視聴状態をコンテンツの経時情報に関連付けることが可能となる。
 また、本開示は、視聴状態検出装置から出力された視聴状態の情報を表示する表示装置をさらに備えてもよい。
 この構成によれば、視聴状態検出装置から出力された視聴状態の情報を表示装置に表示するので、視聴者またはコンテンツ提供者に対して、視聴者の視聴状態を表示することが可能となる。これにより、視聴者またはコンテンツ提供者が、視聴者の視聴状態を把握することが可能となり、さらには、視聴者の視聴状態に基づきコンテンツ内容を評価することも可能となる。
 また、本開示は、コンテンツを視聴中の視聴者を含む画像から視聴者の視聴状態を検出する視聴状態検出方法であって、視聴者を含む時間的に連続する撮像画像および撮像画像の撮像時間に関する情報が入力される画像入力ステップと、撮像画像から視聴者の肌領域を検出する領域検出ステップと、肌領域の時系列データに基づき視聴者のバイタル情報を抽出するバイタル情報抽出ステップと、抽出されたバイタル情報に基づき視聴者の視聴状態を判定する視聴状態判定ステップと、コンテンツの経時情報を少なくとも含むコンテンツ情報が入力されるコンテンツ情報入力ステップと、視聴状態の情報をコンテンツの経時情報に関連付けて記憶する視聴状態記憶ステップとを有してもよい。
 この方法によれば、簡単な構成でコンテンツの視聴中の視聴者の視聴状態を検出することを可能とすると共に、検出された視聴状態をコンテンツの経時情報に関連付けることが可能となる。
 以上、本開示を特定の実施形態に基づいて説明したが、これらの実施形態はあくまでも例示であって、本開示はこれらの実施形態によって限定されるものではない。なお、上記実施形態に示した本開示に係る視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法の各構成要素は、必ずしも全てが必須ではなく、少なくとも本開示の範囲を逸脱しない限りにおいて適宜取捨選択することが可能である。
 本開示に係る視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法は、簡単な構成でコンテンツの視聴中の視聴者の視聴状態を検出することを可能とすると共に、検出された視聴状態をコンテンツの経時情報に関連付けることを可能とする視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法などとして有用である。
 1  視聴状態検出システム
 2  PC,タブレット
 3  撮像装置(カメラ)
 4  表示装置
 5  入力装置
 6  視聴状態検出装置
 7  ネットワーク
 8  コンテンツ情報入力装置
 9  表示装置
 11  画像入力部
 12  領域検出部
 13  バイタル情報抽出部
 14  コンテンツ情報入力部
 15  情報同期部
 16  活動指標抽出部
 17  視聴状態判定部
 18  判定情報記憶部
 19  視聴状態記憶部
 20  情報出力部
 H  視聴者
 S  講演者

Claims (8)

  1.   コンテンツを視聴中の視聴者を含む画像から前記視聴者の視聴状態を検出する視聴状態検出装置であって、
      前記視聴者を含む時間的に連続する撮像画像および前記撮像画像の撮像時間に関する情報が入力される画像入力部と、
      前記撮像画像から前記視聴者の肌領域を検出する領域検出部と、
      前記肌領域の時系列データに基づき前記視聴者のバイタル情報を抽出するバイタル情報抽出部と、
      抽出された前記バイタル情報に基づき前記視聴者の視聴状態を判定する視聴状態判定部と、
      前記コンテンツの経時情報を少なくとも含むコンテンツ情報が入力されるコンテンツ情報入力部と、
      前記視聴状態を前記コンテンツの経時情報に関連付けて記憶する視聴状態記憶部と
     を備えたことを特徴とする視聴状態検出装置。
  2.   前記視聴状態が、前記視聴者の集中度および眠気の少なくとも1つを含むことを特徴とする請求項1に記載の視聴状態検出装置。
  3.   前記視聴状態記憶部に記憶された前記視聴状態の情報を、外部の表示装置に対して出力する情報出力部をさらに含むことを特徴とする請求項1または請求項2に記載の視聴状態検出装置。
  4.   前記情報出力部は、前記視聴者が複数人存在する場合に、前記視聴状態の情報を、前記各視聴者の視聴状態として出力することを特徴とする請求項3に記載の視聴状態検出装置。
  5.   前記情報出力部は、前記視聴者が複数人存在する場合に、前記視聴状態の情報を、前記複数人の全体またはその一部についての視聴状態の情報として出力することを特徴とする請求項3に記載の視聴状態検出装置。
  6.   請求項1から請求項5のいずれかに記載の前記視聴状態検出装置と、
      前記視聴状態検出装置に対して、前記撮像画像を入力する撮像装置と、
      前記視聴状態検出装置に対して、前記コンテンツの経時情報を少なくとも含むコンテンツ情報を入力するコンテンツ情報入力装置と
     を備えたことを特徴とする視聴状態検出システム。
  7.   前記視聴状態検出装置から出力された前記視聴状態の情報を表示する表示装置をさらに備えたことを特徴とする請求項6に記載の視聴状態検出システム。
  8.   コンテンツを視聴中の視聴者を含む画像から前記視聴者の視聴状態を検出する視聴状態検出方法であって、
      前記視聴者を含む時間的に連続する撮像画像および前記撮像画像の撮像時間に関する情報が入力される画像入力ステップと、
      前記撮像画像から前記視聴者の肌領域を検出する領域検出ステップと、
      前記肌領域の時系列データに基づき前記視聴者のバイタル情報を抽出するバイタル情報抽出ステップと、
      抽出された前記バイタル情報に基づき前記視聴者の視聴状態を判定する視聴状態判定ステップと、
      前記コンテンツの経時情報を少なくとも含むコンテンツ情報が入力されるコンテンツ情
     報入力ステップと、
      前記視聴状態の情報を前記コンテンツの経時情報に関連付けて記憶する視聴状態記憶ステップと
     を有することを特徴とする視聴状態検出方法。
PCT/JP2016/003640 2015-08-17 2016-08-08 視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法 WO2017029787A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/747,651 US20180242898A1 (en) 2015-08-17 2016-08-08 Viewing state detection device, viewing state detection system and viewing state detection method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-160546 2015-08-17
JP2015160546A JP6614547B2 (ja) 2015-08-17 2015-08-17 視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法

Publications (1)

Publication Number Publication Date
WO2017029787A1 true WO2017029787A1 (ja) 2017-02-23

Family

ID=58051496

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/003640 WO2017029787A1 (ja) 2015-08-17 2016-08-08 視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法

Country Status (3)

Country Link
US (1) US20180242898A1 (ja)
JP (1) JP6614547B2 (ja)
WO (1) WO2017029787A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019191824A (ja) * 2018-04-23 2019-10-31 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020074947A (ja) * 2018-11-08 2020-05-21 株式会社Nttドコモ 情報処理装置、低次メンタル状態推定システム、及び低次メンタル状態推定方法
JP7224032B2 (ja) * 2019-03-20 2023-02-17 株式会社国際電気通信基礎技術研究所 推定装置、推定プログラムおよび推定方法
CN113631211A (zh) 2019-03-29 2021-11-09 松下知识产权经营株式会社 专注度测量装置、专注度测量方法以及程序
CN111144321B (zh) * 2019-12-28 2023-06-09 北京如布科技有限公司 专注度检测方法、装置、设备和存储介质
JP6856959B1 (ja) * 2020-04-16 2021-04-14 株式会社Theater Guild 情報処理装置、システム、方法及びプログラム
CN111709362B (zh) * 2020-06-16 2023-08-08 百度在线网络技术(北京)有限公司 用于确定重点学习内容的方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293979A (ja) * 2005-03-18 2006-10-26 Advanced Telecommunication Research Institute International コンテンツ提供システム
JP2009081637A (ja) * 2007-09-26 2009-04-16 Brother Ind Ltd 番組情報選択装置および番組情報選択プログラム
JP2011139441A (ja) * 2009-12-03 2011-07-14 Panasonic Corp 視聴端末装置、視聴統計装置、視聴統計処理システムおよび視聴統計処理方法
JP2013070155A (ja) * 2011-09-21 2013-04-18 Nec Casio Mobile Communications Ltd 動画スコアリングシステム、サーバ装置、動画スコアリング方法、動画スコアリングプログラム
WO2014073645A1 (ja) * 2012-11-12 2014-05-15 アルプス電気株式会社 生体情報計測装置及びそれを用いた入力装置
JP2015070339A (ja) * 2013-09-26 2015-04-13 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報取得システム、情報取得方法及びコンピュータプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4432246B2 (ja) * 2000-09-29 2010-03-17 ソニー株式会社 観客状況判定装置、再生出力制御システム、観客状況判定方法、再生出力制御方法、記録媒体
US7284201B2 (en) * 2001-09-20 2007-10-16 Koninklijke Philips Electronics N.V. User attention-based adaptation of quality level to improve the management of real-time multi-media content delivery and distribution
JP3867627B2 (ja) * 2002-06-26 2007-01-10 ソニー株式会社 観客状況推定装置と観客状況推定方法および観客状況推定プログラム
JP2008205861A (ja) * 2007-02-20 2008-09-04 Matsushita Electric Ind Co Ltd 視聴質判定装置、視聴質判定方法、視聴質判定プログラム、および記録媒体
JP5518713B2 (ja) * 2008-12-16 2014-06-11 パナソニック株式会社 情報表示装置及び情報表示方法
KR101403244B1 (ko) * 2012-09-28 2014-06-02 경희대학교 산학협력단 컨텐츠에 대한 관객 그룹의 몰입도 판단 방법
US9525952B2 (en) * 2013-06-10 2016-12-20 International Business Machines Corporation Real-time audience attention measurement and dashboard display
DE112014006082T5 (de) * 2013-12-25 2016-10-27 Asahi Kasei Kabushiki Kaisha Pulswellenmessvorrichtung, Mobilvorrichtung, medizinisches Ausrüstungssystem und biologisches Informations-Kommunikationssystem
US9582879B2 (en) * 2014-10-20 2017-02-28 Microsoft Technology Licensing, Llc Facial skin mask generation for heart rate detection
JP6308161B2 (ja) * 2015-03-31 2018-04-11 株式会社エクォス・リサーチ 脈波検出装置、及び脈波検出プログラム
US20160345832A1 (en) * 2015-05-25 2016-12-01 Wearless Tech Inc System and method for monitoring biological status through contactless sensing
CN106264449B (zh) * 2015-06-29 2022-01-28 松下知识产权经营株式会社 人状态推定方法和人状态推定***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293979A (ja) * 2005-03-18 2006-10-26 Advanced Telecommunication Research Institute International コンテンツ提供システム
JP2009081637A (ja) * 2007-09-26 2009-04-16 Brother Ind Ltd 番組情報選択装置および番組情報選択プログラム
JP2011139441A (ja) * 2009-12-03 2011-07-14 Panasonic Corp 視聴端末装置、視聴統計装置、視聴統計処理システムおよび視聴統計処理方法
JP2013070155A (ja) * 2011-09-21 2013-04-18 Nec Casio Mobile Communications Ltd 動画スコアリングシステム、サーバ装置、動画スコアリング方法、動画スコアリングプログラム
WO2014073645A1 (ja) * 2012-11-12 2014-05-15 アルプス電気株式会社 生体情報計測装置及びそれを用いた入力装置
JP2015070339A (ja) * 2013-09-26 2015-04-13 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報取得システム、情報取得方法及びコンピュータプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019191824A (ja) * 2018-04-23 2019-10-31 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
JP6614547B2 (ja) 2019-12-04
JP2017041673A (ja) 2017-02-23
US20180242898A1 (en) 2018-08-30

Similar Documents

Publication Publication Date Title
JP6614547B2 (ja) 視聴状態検出装置、視聴状態検出システムおよび視聴状態検出方法
US8726304B2 (en) Time varying evaluation of multimedia content
JP6653467B2 (ja) 脈拍推定装置、脈拍推定システムおよび脈拍推定方法
WO2017105720A1 (en) Electroencephalography (eeg) camera control
US20180129871A1 (en) Behavior pattern statistical apparatus and method
JP2018519007A5 (ja)
JP2014036801A (ja) 生体状態観察システム、生体状態観察方法、およびプログラム
JP2007265125A (ja) コンテンツ表示装置
Dosso et al. Eulerian magnification of multi-modal RGB-D video for heart rate estimation
JP2013537748A (ja) ビデオ品質を測定する方法および装置
US11647913B2 (en) Image processing apparatus and pulse estimation system provided therewith, and image processing method
JP5088463B2 (ja) 監視システム
JP2021194476A (ja) 情報処理方法、情報処理システムおよびプログラム
JP6198530B2 (ja) 画像処理装置
US10492678B2 (en) Image capturing apparatus, image processing apparatus and image processing method for secure processing of biological information
WO2022065446A1 (ja) 感情判定装置、感情判定方法及び感情判定プログラム
WO2017154477A1 (ja) 脈拍推定装置、脈拍推定システムおよび脈拍推定方法
JP5941764B2 (ja) コンテンツ評価データ生成システム、コンテンツ評価データ生成方法、およびプログラム
Dautov et al. On the effect of face detection on heart rate estimation in videoplethysmography
US20130006571A1 (en) Processing monitoring data in a monitoring system
JP2011239158A (ja) ユーザ反応推定装置、ユーザ反応推定方法およびユーザ反応推定プログラム
JP2005318372A (ja) 注目度推定方法、注目度推定装置および注目度推定プログラム
WO2022196820A1 (ja) 血圧情報推定装置、血圧情報推定方法、及び血圧情報推定プログラム
KR102285998B1 (ko) 영상 콘텐츠에 대한 공감도 평가 방법 및 장치
JP6937473B2 (ja) 画像処理装置及びこれを備えたバイタル情報取得システムならびに画像処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16836785

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15747651

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16836785

Country of ref document: EP

Kind code of ref document: A1