WO2019069529A1 - 情報処理装置、情報処理方法、および、プログラム - Google Patents

情報処理装置、情報処理方法、および、プログラム Download PDF

Info

Publication number
WO2019069529A1
WO2019069529A1 PCT/JP2018/026381 JP2018026381W WO2019069529A1 WO 2019069529 A1 WO2019069529 A1 WO 2019069529A1 JP 2018026381 W JP2018026381 W JP 2018026381W WO 2019069529 A1 WO2019069529 A1 WO 2019069529A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
sensing
information
output
unit
Prior art date
Application number
PCT/JP2018/026381
Other languages
English (en)
French (fr)
Inventor
真一 河野
広 岩瀬
真里 斎藤
祐平 滝
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/650,030 priority Critical patent/US11996093B2/en
Publication of WO2019069529A1 publication Critical patent/WO2019069529A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/015Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • TTS Text To Speech
  • Patent Document 1 describes a technique for changing the sound output from the device according to the detected person or operation.
  • Patent Document 1 it is not considered to select a sensing result used to estimate a human state from among sensing results by a plurality of devices.
  • the present disclosure proposes a novel and improved information processing apparatus, an information processing method, and a program capable of appropriately determining a sensing result used to estimate a user's state.
  • a determination is made to determine one or more second sensing results used for estimating the state of the user among a plurality of first sensing results received from a plurality of devices based on a predetermined criterion.
  • An information processing apparatus comprising: a unit; and an output control unit configured to control output of information based on the one or more second sensing results.
  • one or more second sensing results used to estimate the state of the user are determined based on a predetermined criterion.
  • An information processing method including: controlling the output of information based on the one or more second sensing results.
  • the computer is determined based on one or more second sensing results used for estimating the state of the user among the plurality of first sensing results received from the plurality of devices.
  • a program is provided to function as a determination unit to be determined based on the above and an output control unit to control the output of information based on the one or more second sensing results.
  • the present disclosure it is possible to appropriately determine the sensing result used to estimate the state of the user.
  • the effect described here is not necessarily limited, and may be any effect described in the present disclosure.
  • a plurality of components having substantially the same functional configuration may be distinguished by attaching different alphabets to the same reference numerals.
  • a plurality of components having substantially the same functional configuration are distinguished as the device 20a and the device 20b as necessary.
  • the same reference numerals will be given.
  • the device 20 when there is no need to distinguish between the device 20a and the device 20b, it is simply referred to as the device 20.
  • the present disclosure can be implemented in various forms, as will be described in detail in “1. first embodiment” to “2. second embodiment” as an example. First, a first embodiment of the present disclosure will be described.
  • the information processing system according to the first embodiment includes a terminal 10 and a plurality of devices 20.
  • the terminal 10 and the plurality of devices 20 are located in a predetermined space 4 (for example, a facility such as a house or an office building, a car, or a predetermined outdoor site). It can.
  • FIG. 1 shows an example in which the terminal 10 and the plurality of devices 20 are located in the same room (within the space 4), the present invention is not limited to this example.
  • the terminal 10 and at least one of the plurality of devices 20 and the others may be located in different rooms (within the space 4) or floors different from each other (within the space 4) It may be located inside.
  • the terminal 10 is an example of an information processing apparatus according to the present disclosure.
  • the terminal 10 is a device capable of outputting various types of information (for example, audio, video, music, etc.).
  • the terminal 10 outputs a voice corresponding to predetermined notification information in a predetermined application service to the user 2 located in the space 4.
  • the terminal 10 outputs a voice of interaction with the user 2 in a predetermined application service.
  • the voice may be, for example, a synthesized voice such as TTS, or may be a recorded voice.
  • TTS synthesized voice
  • the following description will focus on an example in which speech is synthetic speech.
  • the terminal 10 may be, for example, a stationary device or a portable device.
  • the terminal 10 may be a general-purpose PC (Personal Computer), a television receiver, a recording device, an audio device (such as a speaker), a mobile phone such as a smartphone, a tablet terminal, a digital camera, a portable music player, or It may be a robot.
  • PC Personal Computer
  • the terminal 10 is a stationary device having a shape as shown in FIG. 1, for example.
  • the terminal 10 can also communicate with a plurality of devices 20 located in the space 4 by wireless communication and / or wired communication.
  • the device 20 is a device disposed in the space 4 or possessed by the user 2 (in the space 4).
  • the device 20 may be interconnected with other devices 20 and terminals 10 in accordance with a standard such as, for example, DLNA (Digital Living Network Alliance).
  • the device 20 may transmit and receive sound data such as voice to and from another device 20 or the terminal 10 using a communication protocol such as OSC (Open Sound Control), for example.
  • OSC Open Sound Control
  • the device 20 is, for example, a stationary device (for example, a home appliance or an IOT (Internet of Things) device (refrigerator, microwave oven, washing machine, ventilation fan, fixed telephone, router, general purpose PC, television receiver, recording device, Audio devices or robots)), portable devices (eg, mobile phones such as smart phones, tablet devices, digital cameras, or portable music players), or wearable devices (eg, eyewear (HMD) (Such as a Head Mounted Display), a smart watch, a smart band, a headphone, or an earphone).
  • IOT Internet of Things
  • portable devices eg, mobile phones such as smart phones, tablet devices, digital cameras, or portable music players
  • wearable devices eg, eyewear (HMD) (Such as a Head Mounted Display), a smart watch, a smart band, a headphone, or an earphone).
  • HMD eyewear
  • the terminal 10 may not be able to sense the user 2 or sensing may be difficult. In such a case, it is difficult for the terminal 10 to output information such as a voice of notification to the user 2 in a mode suitable for the state of the user 2 only by using the sensing result by the terminal 10. As a result, the content of the information may not be sufficiently transmitted to the user 2.
  • the terminal 10 according to the first embodiment has been created in consideration of the above circumstances.
  • the terminal 10 according to the first embodiment determines one or more selected sensing results to be used for estimating the state of the user from among the plurality of sensing results received from the plurality of devices 20 based on a predetermined criterion. And control the output of information based on the one or more selected sensing results.
  • the selected sensing result is an example of a second sensing result in the present disclosure.
  • FIG. 2 is a functional block diagram showing a configuration example of the device 20 according to the first embodiment.
  • the terminal 10 includes a control unit 200, a communication unit 220, a sensor unit 222, and a storage unit 224.
  • the sensor unit 222 includes, for example, an acceleration sensor, an azimuth sensor, a distance sensor (for example, a time of flight sensor or a stereo camera), a microphone, a temperature sensor, a camera (image sensor), a biological sensor, and an myoelectric sensor Can include at least one of Furthermore, the sensor unit 222 may include, for example, a receiver that receives positioning signals from positioning satellites such as GPS (Global Positioning System) and GLONASS (Global Navigation Satellite System).
  • GPS Global Positioning System
  • GLONASS Global Navigation Satellite System
  • the sensor unit 222 may sense regarding the state of the user. For example, the sensor unit 222 senses (e.g., captures) the movement of the user. As an example, the sensor unit 222 may sense the speed, direction, distance, and the like of movement of the user's entire body. Alternatively, the sensor unit 222 may sense movement of the user's head, hand or neck. Alternatively, the sensor unit 222 may sense the user's face (for example, an expression or the like).
  • the sensor unit 222 senses vital information of the user (for example, the amount of sweat on the hands and feet, the heart rate, the respiration rate, the degree of disturbance of the electroencephalogram, and the like).
  • the sensor unit 222 senses the state of the user's eye (for example, the frequency and the number of blinks, the movement and direction of the sight line, the degree of opening of the pupil, and the like).
  • the sensor unit 222 determines whether or not the user made a sound, and the type of the sound emitted by the user (for example, speech sounds, non-speech sounds (eg, moaning, singing, laughing, etc.), singing or singing, or Sensing non-speech sounds (eg coughing, sneezing etc).
  • the type of the sound emitted by the user for example, speech sounds, non-speech sounds (eg, moaning, singing, laughing, etc.), singing or singing, or Sensing non-speech sounds (eg coughing, sneezing etc).
  • the individual sensors included in the sensor unit 222 may constantly sense, may periodically sense, or in a specific case (for example, when an instruction from the control unit 200 is given, etc.) You may sense only in).
  • Control unit 200 can be configured to include processing circuits such as a central processing unit (CPU) and a graphics processing unit (GPU), for example.
  • the control unit 200 centrally controls the operation of the terminal 10.
  • the control unit 200 controls transmission of information to another device.
  • the control unit 200 causes the communication unit 220 to transmit the sensing result by the sensor unit 222 to the terminal 10 when the provision request for the sensing result is received from the terminal 10 or the like.
  • control unit 200 may perform predetermined recognition on the state of the user based on the sensing result by the sensor unit 222. For example, based on the sensing result (for example, a captured image of the whole body of the user, etc.) of the control unit 200, the control unit 200 makes a gesture of the user (for example, nodding head, waving hand, sitting down, standing) , Running, walking, standing still or violently moving, etc.).
  • the control unit 200 may be capable of recognizing the user's emotion based on the sensing result (for example, a captured image of the user's face, etc.) by the sensor unit 222. For example, based on the sensing result, the control unit 200 recognizes whether the user's emotion is a positive emotion (such as pleasure) or a negative emotion (such as sadness). It is also good.
  • control unit 200 may be able to recognize the concentration degree of the user based on the sensing result by the sensor unit 222. Also, the control unit 200 may be able to recognize the degree of relaxation of the user based on the sensing result by the sensor unit 222. As an example, the control unit 200 first recognizes whether the user is “resting” based on the sensing result. Then, when the user is recognized as "resting”, the control unit 200 may recognize that the degree of relaxation of the user is equal to or higher than a predetermined threshold. On the other hand, when the user is recognized as "not resting", the control unit 200 may recognize that the degree of relaxation of the user is less than the predetermined threshold.
  • the communication unit 220 transmits and receives information to and from another device by, for example, wireless communication and / or wired communication. For example, under the control of the control unit 200, the communication unit 220 transmits, to the terminal 10, sensing results by various sensors (for example, all sensors etc.) included in the sensor unit 222. In addition, the communication unit 220 can receive, from the terminal 10, a request for providing a sensing result by the sensor unit 222, and information described later that indicates the degree of evaluation of the user.
  • Storage unit 224 stores various data and various software. For example, each time information indicating the degree of evaluation of the user is received from the terminal 10, the storage unit 224 stores information indicating the degree of evaluation of the user.
  • FIG. 3 is a functional block diagram showing a configuration example of the terminal 10 according to the first embodiment.
  • the terminal 10 includes a control unit 100, a communication unit 120, a sensor unit 122, an output unit 124, and a storage unit 126.
  • the sensor unit 122 may include one or more cameras (image sensors) and microphones of multiple channels (for example, eight channels). For example, by having the microphones of the plurality of channels, the terminal 10 can estimate the position of the sound source based on the sound collection result by the microphones.
  • the sensor unit 122 may be, for example, one or more of an acceleration sensor, an orientation sensor, a distance sensor (for example, a time of flight sensor or a stereo camera), a temperature sensor, a biological sensor, and an myoelectric sensor. May be included. Furthermore, the sensor unit 122 may include, for example, a receiver that receives positioning signals from positioning satellites such as GPS and GLONASS.
  • the sensor unit 122 may sense the user's condition (eg, the user's movement, the user's eye condition, and the type of sound emitted by the user).
  • the user's condition eg, the user's movement, the user's eye condition, and the type of sound emitted by the user.
  • a part of the content of the specific sensing by the sensor part 122 may be the same as that of the sensor part 122 of the apparatus 20 (described above).
  • the sensor unit 122 (for example, a microphone) further senses the utterance of the feedback. It is also possible. For example, after information such as notification information for the user is output by the output unit 124, the user may utter feedback as to the output of the information. In this case, the sensor unit 122 can sense an utterance of the feedback. Thereby, the terminal 10 can specify the evaluation degree of the user with respect to the output of the above information based on the sensing result.
  • the user may transmit feedback information for the output of the information to the terminal 10 using the predetermined communication terminal (instead of speaking) for the output of the information.
  • the communication unit 120 described later can receive the information on the feedback.
  • the individual sensors included in the sensor unit 122 may constantly sense, may periodically sense, or in a specific case (for example, when an instruction from the control unit 100 is given, etc.) You may sense only in).
  • Control unit 100 The control unit 100 can be configured to include, for example, processing circuits such as a CPU 150 and a GPU described later.
  • the control unit 100 centrally controls the operation of the terminal 10. Further, as shown in FIG. 3, the control unit 100 includes a determination unit 102, a user state estimation unit 104, an output control unit 106, and a transmission control unit 108.
  • control unit 100 may perform predetermined recognition (for example, gesture recognition, emotion recognition, and the like) on the state of the user based on the sensing result by the sensor unit 122.
  • predetermined recognition for example, gesture recognition, emotion recognition, and the like
  • a part of the content of the specific recognition by the control part 100 may be the same as that of the control part 200 of the apparatus 20 (described above).
  • the determination unit 102 determines, from among the plurality of sensing results received from the plurality of devices 20, one or more selected sensing results used to estimate the state of the user based on a predetermined criterion. For example, for each of a plurality of sensing types, the determination unit 102 selects a sensing result corresponding to the sensing type from among a plurality of sensing results received from the plurality of devices 20 based on the predetermined reference. Thus, the one or more selected sensing results are determined.
  • each of the plurality of sensing types may correspond to the type of each sensor.
  • the plurality of sensing types may include imaging, sound collection, acceleration sensing, heart rate sensing, and the like.
  • the determination unit 102 can also determine the one or more selected sensing results based on the predetermined reference among the plurality of sensing results received from the plurality of devices 20 and the sensing results by the sensor unit 122. It is. For example, with respect to each of the plurality of sensing types, the determination unit 102 relates to whether or not the sensing related to the user corresponds to the sensing type by the sensor unit 122 or to the user corresponding to the sensing type related to the sensor unit 122.
  • the sensing result corresponding to the sensing type is the predetermined
  • the one or more selected sensing results may be determined by selecting based on the criteria of.
  • the determination unit 102 determines that sensing related to the user is not possible corresponding to the sensing type by the sensor unit 122, and the sensing type by the sensor unit 122 If the accuracy of the sensing result regarding the user corresponding to the user is lower than the predetermined threshold, the determination unit 102 copes with the sensing type among only the plurality of sensing results received from the plurality of devices 20.
  • the sensing results may be selected based on the predetermined criteria. That is, in this case, the sensing result corresponding to the sensing type by the sensor unit 122 is not selected as the one or more selected sensing results.
  • the judging unit 102 is concerned with the image with respect to the image.
  • One or more of the plurality of images received from the plurality of devices 20 may be selected based on the predetermined reference.
  • the determination unit 102 receives the sound from the plurality of devices 20.
  • One or more of the plurality of sound collection results may be selected based on the predetermined reference.
  • the predetermined reference may include the distance between each of the plurality of devices 20 and the user (hereinafter may be referred to as a first reference).
  • the determination unit 102 receives a plurality of sensing results corresponding to the sensing type by the device 20 closest to the user among the plurality of devices 20 from the plurality of devices 20.
  • the one or more selected sensing results may be determined by selecting each from among the sensing results of the above.
  • the predetermined reference may include performance information of each of the plurality of devices 20 (hereinafter, may be referred to as a second reference).
  • the determination unit 102 detects, among the plurality of devices 20, a sensing result corresponding to the sensing type by the device 20 having a higher sensing performance regarding the sensing type.
  • Each of the plurality of sensing results received from 20 may be selected.
  • an image captured by the device 20 having the highest pixel count of the camera may be selected from among a plurality of images received from the plurality of devices 20. .
  • the above-mentioned predetermined standard may include the reliability of each manufacturer of the plurality of devices 20 (hereinafter, may be referred to as a third standard).
  • the determination unit 102 detects a sensing result corresponding to the sensing type by the device 20 having a higher reliability of a manufacturer (for example, a manufacturer or a manufacturing country) among the plurality of devices 20.
  • a manufacturer for example, a manufacturer or a manufacturing country
  • Each of the plurality of sensing results received from the plurality of devices 20 may be selected.
  • the reliability of each manufacturer may be registered in advance.
  • the reliability of each manufacturer may be stored in advance in the storage unit 126, or an external device (not shown) in which the terminal 10 can communicate via, for example, a predetermined network (such as the Internet) It may be stored.
  • the above-mentioned predetermined standard may include the user's evaluation degree (hereinafter, may be referred to as a fourth standard) associated with each of the plurality of devices 20.
  • the determination unit 102 associates a sensing result corresponding to the sensing type with the device 20 having a higher degree of evaluation of the user stored in association with each of the plurality of devices 20, Each of the plurality of sensing results received from the plurality of devices 20 may be selected.
  • the above-mentioned predetermined standard may be a combination of a plurality of types of standards.
  • the combination may be a combination of any two or more of the four types of criteria described above, or a combination of five or more types of criteria including the four types of criteria.
  • the determination unit 102 performs the sensing based on a combination of the plurality of types of criteria and a priority associated with each of the plurality of types of criteria.
  • the sensing results corresponding to the type may be respectively selected from among a plurality of sensing results received from the plurality of devices 20.
  • the order of high priority is the first criterion (the distance between the device 20 and the user), the second criterion (the performance information of the device 20), the third criterion (the reliability of the manufacturer of the device 20), and
  • the priority of each of the four types of criteria may be set as the fourth criterion (the history of the user's evaluation degree with respect to the device 20).
  • the higher the priority is, the larger the weight (factor) may be set.
  • the determination unit 102 first evaluates, for each of the sensing types, the sensing results based on each of the four types of criteria for each of the plurality of sensing results received from the plurality of devices 20.
  • the weighted sum is calculated using (evaluation value) and the weight set in each of the four types of criteria. Then, the determination unit 102 determines one or more selected sensing results by selecting the sensing result having the highest calculated weighted sum among the plurality of sensing results for each sensing type. It is also good.
  • the priority of each of the four types of criteria may be determined separately for each sensing type. For example, for voice and acceleration sensing, the highest priority standard is the first standard, and for image sensing (camera), the highest priority standard is the second standard. It may be done.
  • the determination unit 102 does not depend on the first reference (the distance between the device 20 and the user), and the captured image in which the user's face is shown
  • the selection may be made preferentially (as a result of the selected sensing) over a captured image in which the user's face is not captured.
  • the terminal 10 may be able to more accurately recognize the user's expression based on the captured image. Therefore, the estimation accuracy of the user's emotion can be improved.
  • the determination unit 102 determines, based on the determination result as to whether the collected user's speech is a direct sound or an indirect sound (such as a reflected sound), One or more of the plurality of sensing results received from the plurality of devices 20 may be selected (as the selected sensing result). For example, the determination unit 102 may select the sound collection result in which the user's speech is collected as the direct sound more than the sound collection result in which the user's speech is collected as the indirect sound (the selected sensing result) ) May be selected preferentially.
  • User state estimation unit 104 uses the one or more selected sensing results determined by the determination unit 102 to estimate the state of the user. For example, a plurality of predetermined states may be defined in advance. In this case, the user state estimation unit 104 estimates which of the plurality of types of predetermined states the user's state is based on the one or more selected sensing results and the predetermined determination criteria. obtain.
  • the predetermined determination criteria include, for example, a determination result of whether or not the user is in an active state, a determination result of the type of sound emitted by the user, a determination result of whether or not the user is resting, and It may include the determination result of the degree of concentration of
  • the plurality of types of predetermined states are, for example, three states of “state to be emphasized and notified”, “state to be notified later”, and “normal state”.
  • the “state to be emphasized and notified” may be a state in which information should be notified to the user by emphasizing the normal setting (in other words, a state in which the user should be excited).
  • the state to be notified later is a state in which no information is currently output to the user, and the information should be notified after a predetermined time has elapsed (in other words, a state in which the user should be kept silent) possible.
  • the “normal state” may be a state in which information should be notified to the user under a normal setting. A specific estimation example will be described later, for example, in “Section 1-7”.
  • the user state estimation unit 104 can further perform determination corresponding to the above-described predetermined determination criterion. For example, the user state estimation unit 104 uses the one or more selected sensing results to determine whether the user is in an active state. As an example, the user state estimation unit 104 can first recognize a moving part of the user's body using the one or more selected sensing results. Then, when the moving part of the body is large, the user state estimation unit 104 determines that the user is in the active state. When the moving part of the body is small, the user state estimation unit 104 determines that the user is inactive.
  • the user state estimation unit 104 determines whether or not the user has made a sound using the one or more selected sensing results (for example, the sound collection result), and the type of the sound emitted by the user It can be judged. For example, the user state estimation unit 104 determines whether the type of the sound emitted by the user is a speech sound, a singing or singing voice, a non-speech sound, or a non-speech.
  • the user state estimation unit 104 may use the one or more selected sensing results to determine whether the user is resting. For example, the user state estimation unit 104 first determines the degree of relaxation of the user using the one or more selected sensing results. Then, when it is determined that the degree of relaxation is equal to or higher than a predetermined threshold value, the user state estimation unit 104 determines that the user is “resting”. When it is determined that the degree of relaxation is less than the predetermined threshold, the user state estimation unit 104 determines that the user is not resting.
  • the user state estimation unit 104 may determine the concentration degree of the user using the one or more selected sensing results (for example, a captured image of a face). For example, the user state estimation unit 104 first determines the number of blinks of the user using the one or more selected sensing results. Then, when the number of blinks of the user is equal to or more than a predetermined threshold, the user state estimation unit 104 determines that the user is not concentrated. If the number of blinks of the user is less than the predetermined threshold, the user state estimation unit 104 determines that the user is not concentrated.
  • the concentration degree of the user using the one or more selected sensing results (for example, a captured image of a face). For example, the user state estimation unit 104 first determines the number of blinks of the user using the one or more selected sensing results. Then, when the number of blinks of the user is equal to or more than a predetermined threshold, the user state estimation unit 104 determines that the user is not concentrated. If the number of blinks of the user is less than
  • Output control unit 106 controls the output of information (for example, video, audio, music, and the like) by the output unit 124 described later. For example, based on the state of the user estimated by the user state estimation unit 104, the output control unit 106 causes the output unit 124 to output information such as notification information for the user.
  • information for example, video, audio, music, and the like
  • the output control unit 106 corresponds to the state of the user estimated by the user state estimation unit 104 with the sound corresponding to the notification information for the user (hereinafter sometimes referred to as “the sound of the notification”). It is output to the output unit 124 in the output mode. Furthermore, the output control unit 106 determines the notification timing of the notification information based on the state of the user estimated by the user state estimation unit 104, and outputs the voice corresponding to the notification information to the notification timing. You may make it output to 124.
  • control example 1 For example, it is assumed that the user state estimation unit 104 estimates that the state of the user is “a state to be emphasized and notified”. In this case, the output control unit 106 may change the speaker (from an ordinary speaker) to, for example, a speaker who speaks high tension or a DJ-like speaker. Alternatively, the output control unit 106 may change the normal speaker to a favorite speaker of the user, which is registered in advance by the user. Furthermore, the output control unit 106 may change the wording of the voice according to the changed speaker.
  • the output control unit 106 may change the output timing of the voice, such as outputting the voice of the notification to the user at, for example, the timing of switching of the movement of the user. Furthermore, the output control unit 106 may change the voice quality (from the normal setting), for example, to increase the pitch, or may make the speech speed faster (than the normal setting), or The volume may be increased (above the normal setting). Furthermore, the output control unit 106 adds another TTS content (for example, TTS content that does not affect the notification, etc.) to the sound of the notification, and outputs the added content to the output unit 124. You may output it.
  • TTS content for example, TTS content that does not affect the notification, etc.
  • the output control unit 106 when the current time comes to the notification timing associated with the notification information to the user, the output control unit 106 firstly transmits, for example, a plain talker or a counselor-like speaker And change the speaker, and output, to the output unit 124, only a TTS for notifying the presence of notification information, such as, for example, "I have a notification but I will do it later.” Then, after a predetermined time has elapsed from the notification timing (or when the state of the user newly estimated by the user state estimation unit 104 has changed to a state other than “to be notified later”), the output control unit 106 The voice corresponding to the notification information is output to the output unit 124.
  • the transmission control unit 108 controls transmission of various types of information to other devices. For example, the transmission control unit 108 causes the communication unit 120 to transmit a sensing result provision request to the plurality of devices 20 (for example, all the devices 20) in the space 4. Furthermore, when feedback is obtained from the user regarding the output of the information after the information is output by the output unit 124, the transmission control unit 108 sets the information indicating the user's evaluation degree corresponding to the feedback to a plurality of devices. 20 causes the communication unit 120 to transmit. For example, the transmission control unit 108 may cause the communication unit 120 to transmit information indicating the evaluation degree of the user only to the individual devices 20 that have sensed each of the one or more selected sensing results.
  • the communication unit 120 may be configured to include a communication device 166 described later.
  • the communication unit 120 transmits and receives information to and from another device by wireless communication and / or wired communication. For example, the communication unit 120 transmits the provision request of the sensing result, the information indicating the evaluation degree of the user, and the like to the plurality of devices 20 according to the control of the transmission control unit 108.
  • the communication unit 120 also receives sensing results from the plurality of devices 20 in the space 4.
  • the output unit 124 can be configured to include an output device 162 described later.
  • the output unit 124 outputs various information (such as video and sound) according to the control of the output control unit 106.
  • the output unit 124 may have an audio output unit.
  • the audio output unit includes, for example, a speaker, an earphone, or a headphone.
  • the voice output unit outputs a sound (voice, music, etc.) according to the control of the output control unit 106.
  • the output unit 124 may have a display unit.
  • the display unit includes, for example, an LCD (Liquid Crystal Display), an OLED (Organic Light Emitting Diode), or the like, a projector, or the like.
  • the display unit displays (projects, etc.) an image according to the control of the output control unit 106.
  • the storage unit 126 may be configured to include a storage device 164 described later.
  • the storage unit 126 stores various data and various software.
  • the storage unit 126 may include information indicating the degree of evaluation of the user regarding the output of information by the output unit 124 acquired by the communication unit 120 or the sensor unit 122, and one or more selected sensing results determined by the determination unit 102.
  • the individual devices 20 that have sensed each are associated and stored.
  • FIG. 4 is a diagram for explaining this application example.
  • the user 2 the terminal 10, a plurality of devices 20 (for example, the refrigerator 20 a, the smartphone 20 b, the smart watch 20 c, and the television receiver 20 d), and a plurality of failures
  • an object 30 for example, a kitchen 30 d, a table 30 b, a wall 30 c, etc. is located in the space 4.
  • the user 2 wears the smartphone 20b around his neck, for example, using a neck strap. Also, the user 2 wears the smart watch 20 c on his arm. Furthermore, as shown in FIG. 4, it is assumed that the user 2 is singing a song.
  • the refrigerator 20a incorporates a high sensitivity microphone, a high sensitivity camera, and a GPS receiver.
  • the refrigerator 20a can pick up the voice of the user 2, image the entire body of the user 2, and sense position information of the refrigerator 20a.
  • the smartphone 20b incorporates a microphone, an acceleration sensor, and a GPS receiver.
  • the smartphone 20b can pick up the voice of the user 2 and can sense the acceleration and position information of the smartphone 20b.
  • the smart watch 20c incorporates a camera, an acceleration sensor, and a GPS receiver.
  • the smart watch 20 c can image the periphery of the smart watch 20 c (including a part of the user 2's body) and sense acceleration and position information of the smartphone 20 b.
  • FIG. 5 is a diagram showing a range that can be sensed by the sensor unit 122 of the terminal 10 in the situation shown in FIG. 4.
  • the user 2 is not located within the angle of view 40 a of the camera of the sensor unit 122. Therefore, the user 2 can not appear in the image captured by the camera. Therefore, the terminal 10 can not recognize the motion of the user 2 using an image captured by the camera.
  • the user 2 is located away from the range 40 b where the microphone of the sensor unit 122 can pick up sound, and between the range 40 b where the sound pick up is possible and the user 2, An obstacle 30c (wall and sliding door) having a certain height is located. Therefore, the microphone can hardly collect the voice of the user 2.
  • the transmission control unit 108 of the terminal 10 requests the provision of sensing results to all the devices 20 in the space 4 in order to collect sensing results available for estimation of the state of the user. Are sent to the communication unit 120.
  • FIG. 7 is a diagram showing a configuration example (provide request data 50) of data of the provision request of the sensing result.
  • the provision request data 50 includes, for example, a transaction ID 500, a transmission source 502, and a transmission destination 504.
  • identification information of the terminal 10 is stored in the transmission source 502.
  • identification information of each device 20 in the example shown in FIG. 7, the refrigerator 20a is stored.
  • each device 20 receives a provision request for sensing results.
  • each device 20 transmits the sensing result (for example, the sensing result at the time of reception of the provision request) to the terminal 10 by the sensor unit 222.
  • FIG. 9 is a diagram showing a configuration example (transmission data 52 of the sensing result) of transmission data of the sensing result by each device 20.
  • the transmission data 52 of the sensing result includes, for example, a transaction ID 520, a transmission source 522, a transmission destination 524, a sensing start date and time 526, a sensing end date and time 528, and sensor information 530.
  • the transmission source 522 identification information of each device 20 (in the example shown in FIG. 9, the refrigerator 20a) is stored.
  • the transmission destination 524 stores identification information of the terminal 10.
  • the sensing start date and time of the corresponding sensing result is recorded in the sensing start date and time 526.
  • the sensing end date 528 the sensing end date of the corresponding sensing result is recorded.
  • the sensor information 530 includes a sensor ID 5300, a sensor type 5302, a vendor 5304, a sensitivity 5306, position information 5308, a past evaluation 5310, and a sensing result 5320.
  • FIG. 9 shows an example in which only data of one type of sensing result (specifically, a sound collection result) is recorded in the sensor information 530, the present invention is not limited to such an example. Data of sensing results by each of all the sensors of the device 20 (the refrigerator 20a in the example shown in FIG. 9) may be recorded.
  • the sensor ID 5300 IDs assigned to the individual sensors of the corresponding device 20 are recorded.
  • the sensor type 5302 the type of sensor of the corresponding ID is recorded.
  • the vendor 5304 records the maker of the sensor (or the corresponding device) of the corresponding ID.
  • performance information such as the sensitivity of the sensor of the corresponding ID is recorded.
  • the position information 5308 for example, the position information of the corresponding device (or the sensor of the corresponding ID) acquired by a GPS receiver or the like is recorded.
  • the past evaluation 5310 stores history information of the user's evaluation corresponding to the sensor of the corresponding ID. More specifically, in the past evaluation 5310, the terminal 10 selects the sensing result by the sensor of the corresponding ID as the selected sensing result, and outputs information to the user based on the sensing result.
  • the history information of the evaluation acquired from the user regarding the output of the information may be stored.
  • the past evaluation 5310 includes an average value 5312 and the number of positives 5314. In the average value 5312, an average value of the degree of evaluation obtained from the user in the past corresponding to the sensor of the corresponding ID is recorded. The number of times of positive evaluation (answer) from the user corresponding to the sensor of the corresponding ID is recorded in the number of times of positive 5314.
  • the sensing result 5320 information related to the sensing result by the sensor of the corresponding ID is recorded.
  • the sensing result 5320 includes, for example, a type 5322, an average volume 5324, an average pitch 5326, and an emotion type 5328.
  • the type 5322 the type of information (for example, sound, image, acceleration, etc.) sensed by the sensor of the corresponding ID is recorded.
  • the emotion type 5328 when the corresponding device 20 can recognize the emotion of the user 2 based on the sensing result by the sensor of the corresponding ID, the recognition result (for example, the type of emotion or the like) is recorded.
  • the determination unit 102 of the terminal 10 selects the sensing result corresponding to the sensing type among the plurality of sensing results received from the plurality of devices 20 based on the predetermined reference. Each selection determines one or more selected sensing results.
  • the distance (first standard) between the apparatus 20 and the user 2 is set to have a higher priority than the performance information (second standard) of the apparatus 20. It is assumed that In the example shown in FIGS. 4 to 8, the performance of the microphone is higher in the refrigerator 20a than in the smartphone 20b. On the other hand, the smartphone 20b is closer to the user 2 than the refrigerator 20a. Therefore, the determination unit 102 selects the sensing result by the smartphone 20b (not the sensing result by the refrigerator 20a) as the selected sensing result regarding the sound collection.
  • the performance information (second standard) of the apparatus 20 has a higher priority than the distance (first standard) between the apparatus 20 and the user (first standard).
  • the smart watch 20c is closer to the user 2 than the refrigerator 20a.
  • the camera built in the refrigerator 20a has a higher resolution than the camera built in the smart watch 20c.
  • the range of the user 2's body accommodated within the angle of view of the camera of the refrigerator 20a is larger than the range of the user 2's body accommodated within the angle of view of the camera of the smart watch 20c. Therefore, the determination unit 102 selects the sensing result by the refrigerator 20a (not the sensing result by the smart watch 20c) as the selected sensing result regarding the imaging.
  • the terminal 10 can use the sensing results of the plurality of devices 20 in a combined manner. For example, first, the terminal 10 indicates that the user 2 is carrying the smart phone 20 b or the smart watch 20 c based on the image (the entire body of the user 2 is photographed) taken by the camera of the refrigerator 20 a. Recognize that you are wearing Next, the terminal 10 specifies the position information of the user 2 by, for example, considering the position information sensed by the smartphone 20b or the position information sensed by the smart watch 20c and the position information of the user 2 to be the same. Do.
  • the terminal 10 calculates the difference between the position information sensed by the other device 20 (for example, the refrigerator 20a and the television receiver 20d) and the position information of the identified user 2, thereby the other device
  • the distance between 20 and user 2 is specified.
  • the terminal 10 may specify the distance between the individual device 20 in the space 4 and the user 2 using known space electronics technology.
  • the user state estimation unit 104 of the terminal 10 estimates the state of the user 2 using the plurality of selected sensing results determined by the determination unit 102.
  • the state of the user 2 is estimated to be “a state to be emphasized and notified”.
  • the output control unit 106 determines the output setting of the notification information for the user 2 based on the estimated user state. For example, the terminal 10 may recognize that the user 2 is singing a song based on the sound sensing result received from the smartphone 20b. Therefore, the output control unit 106 first determines to output sound feedback of a volume larger than normal to the output unit 124 before outputting the voice of the notification to the user. Furthermore, the output control unit 106 causes the pitch of the voice of the notification to be higher than normal, the speed of the voice (speaking speed) to be faster than normal, and the volume of the voice to be larger than normal. , Determine the output setting of the voice.
  • the terminal 10 can recognize that the user is moving based on the captured image received from the refrigerator 20a. Therefore, the output control unit 106 determines the output timing of the voice of the notification to be the timing at which the user's movement becomes smaller. Furthermore, the terminal 10 can recognize that the user wears the smartphone 20b based on, for example, a captured image received from the refrigerator 20a. Therefore, the output control unit 106 determines that the position indicated by the sensing result of the position information received from the smartphone 20b has directivity and causes the output unit 124 to output the sound of the notification.
  • the output control unit 106 makes, for example, the voice 60 of the notification such as “Tonight's night will be a cloudless night sky ...”.
  • the output unit 124 is made to output.
  • the sensor unit 122 of the terminal 10 may pick up the feedback utterance 62.
  • any device 20 for example, the smartphone 20 b or the like may pick up the utterance 62 and transmit the result of the collection to the terminal 10.
  • control unit 100 of the terminal 10 performs speech recognition on the sound collection result by the sensor unit 122 or the sound collection result received from any of the devices 20, and natural language is performed on the result of the speech recognition. Process and understand the process result. Then, the control unit 100 determines whether or not the user has indicated a positive evaluation with respect to the output of the sound 60 of the notification, and the degree of the evaluation based on the result of the intention understanding.
  • the control unit 100 determines that the user has made a positive evaluation, and generates (determines) information indicating the evaluation degree of the user based on the determination result. Furthermore, the control unit 100 associates and stores the information indicating the evaluation degree of the user and the individual devices 20 (the refrigerator 20a and the smartphone 20b) which have sensed each of the plurality of selected sensing results determined by the determination unit 102. It is stored in the part 126. More specifically, the control unit 100 determines that the device 20 that has sensed the image among the plurality of selection sensing results is information indicating the degree of evaluation of the user, the refrigerator 20a, and the plurality of selection sensing results. Among them, the storage unit 126 is stored in association with the fact that the device 20 that has sensed the voice is the smartphone 20 b.
  • the transmission control unit 108 of the terminal 10 corresponds the information indicating the evaluation degree of the user to the identification information of the individual devices 20 that have sensed each of the plurality of selected sensing results.
  • the communication unit 120 is made to transmit data 54 indicating a relationship (hereinafter sometimes referred to as “feedback correspondence relationship data 54”) to all the devices 20.
  • the transmission control unit 108 may cause the communication unit 120 to transmit information indicating the evaluation degree of the user only to the individual devices 20 that have sensed each of the plurality of selected sensing results.
  • the information indicating the evaluation degree of the user can be distributed and stored in a plurality of devices 20 instead of storing all the information in the terminal 10, for example.
  • FIG. 13 is a diagram showing an example of the configuration of feedback correspondence data 54.
  • the feedback correspondence data 54 includes, for example, a transaction ID 540, a transmission source 542, and feedback contents 544.
  • identification information of the terminal 10 is stored in the transmission source 542.
  • the feedback content 544 includes, for example, the device 5440, the sensor ID 5442, the type 5444, and the evaluation degree 5446.
  • identification information of the individual devices 20 (the refrigerator 20a and the smartphone 20b in the example shown in FIG. 13) that have sensed each of the plurality of selected sensing results is recorded.
  • an identification number (serial number) of a sensor type corresponding to the selected sensing result sensed by the corresponding device 20 is recorded.
  • the type 5444 the type (for example, a microphone) of the sensor of the corresponding ID is recorded.
  • the evaluation degree 5446 records information indicating the evaluation degree of the user. The example shown in FIG. 13 indicates that the user has made a positive evaluation and that the degree of the positive evaluation is “5”.
  • FIG. 14 is a sequence diagram showing a part of the flow of processing according to the first embodiment.
  • the control unit 100 of the terminal 10 confirms the presence or absence of notification information to be notified to the user within a predetermined time (S101). While there is no notification information to be notified within the predetermined time (S101: No), the control unit 100 repeats the process of S101.
  • the control unit 100 acquires, from the sensor unit 122, the current sensing result regarding the user by the sensor unit 122. (S103).
  • the communication unit 120 transmits the provision request of the sensing result to the plurality of devices 20 in the space 4 according to the control of the transmission control unit 108 (S105).
  • the sensor unit 222 of each device 20 senses the user (S107). Furthermore, the control unit 200 of each device 20 can recognize the state of the user based on the sensing result in S107. For example, the control unit 200 may recognize the user's gesture, the user's emotion, the user's concentration degree, the user's relaxation degree, or the like based on the sensing result in S107 (S109).
  • each device 20 transmits the sensing result in S107 and the recognition result in S109 to the terminal 10 (S111).
  • the determination unit 102 of the terminal 10 determines the state of the user from among the sensing result received from each device 20 in S111 and the sensing result by the sensor unit 122 in S103.
  • One or more selected sensing results to be used for estimation are determined based on a predetermined criterion (S121).
  • the terminal 10 performs “estimation processing of the state of the user” described later (S123).
  • the output control unit 106 of the terminal 10 determines the output setting of the voice (for example, TTS) corresponding to the notification information acquired in S101 based on the state of the user estimated in S123 (S125). Then, the output control unit 106 causes the output unit 124 to output the voice corresponding to the notification information based on the output setting determined in S125 (S127).
  • the voice for example, TTS
  • the control unit 100 of the terminal 10 receives feedback of the corresponding user regarding output of voice in S127, for example, by sensing by the sensor unit 122 or reception by the communication unit 120. It waits until it acquires (S141: No).
  • the said process may be complete
  • the control unit 100 performs the various recognition processing (for example, voice recognition, intention understanding, etc.) on the feedback to obtain the feedback.
  • the degree of evaluation of the user corresponding to Next the control unit 100 generates information indicating the degree of evaluation of the user based on the determination result.
  • the control unit 100 associates the information indicating the evaluation degree of the user with the individual devices 20 that have sensed each of the one or more selected sensing results determined in S121, and stores them in the storage unit 126 (S143) .
  • the communication unit 120 transmits information indicating the evaluation degree to the plurality of devices 20 in the space 4 according to the control of the transmission control unit 108.
  • the communication unit 120 may transmit information indicating the evaluation degree only to the individual devices 20 that have sensed each of the one or more selected sensing results (S145).
  • each device 20 stores information indicating the received degree of evaluation (S147).
  • the user state estimation unit 104 of the terminal 10 determines whether or not the corresponding user is in the active state based on each of the one or more selected sensing results determined in S121. To do (S201).
  • the user state estimation unit 104 determines, among the one or more selected sensing results, the sensing result of the sound emitted by the user Is determined (S203). When the sensing result of the sound emitted by the user is included (S203: Yes), next, the user state estimation unit 104 uses the sensing result of the sound by using the type of the sound emitted by the user. It determines (S205). If it is determined that the type of the sound emitted by the user is "language sound", the user state estimation unit 104 determines that the state of the user should be notified later (in the following, "state B"). (S207).
  • the user state estimation unit 104 estimates that the state of the user is "a state to be emphasized and notified" (hereinafter referred to as "state A”) (S209).
  • the user state estimation unit 104 determines whether the sensing result of the sound emitted by the user is included in the one or more selected sensing results (S203: No).
  • the user state estimation unit 104 The state of the user is estimated to be "state A" (S209).
  • the user state estimation unit 104 determines whether or not the sensing result of the sound emitted by the user is included in the one or more selected sensing results (S211). .
  • the user state estimation unit 104 determines the state of the user. It is estimated that the "normal state” (hereinafter referred to as "state C") (S213).
  • the user state estimation unit 104 when the sensing result of the sound emitted by the user is included in the one or more selected sensing results (S211: Yes), next, the user state estimation unit 104 generates the sound of the user.
  • the type of the detected sound is determined using the sensing result of the sound (S215). If it is determined that the type of the sound emitted by the user is "language sound", the user state estimation unit 104 estimates the state of the user as "state B" (S217).
  • the user state estimation unit 104 determines that the one or more selected sensing results include It is determined whether the sensing result of the user's vital information is included (S219). When the sensing result of the vital information of the user is not included in the one or more selected sensing results (S219: No), the user state estimation unit 104 sets the state of the user as the “state A”. It estimates (S223).
  • the user state estimation unit 104 next selects vital information of the user. It is determined whether the said user is “resting” using the sensing result of (S221). When it is determined that the user is “resting” (S221: Yes), the user state estimation unit 104 estimates the state of the user as “state A” (S223).
  • the user state estimation unit 104 detects the line of sight of the user among the one or more selected sensing results. It is determined whether the result is included (S225). When the sensing result of the line of sight of the user is not included in the one or more selected sensing results (S225: No), the user state estimation unit 104 estimates the state of the user as the “state C”. (S231).
  • the user state estimation unit 104 senses the line of sight of the user Using the result, it is determined whether the user is "concentrated” (S227). When it is determined that the user is “concentrated” (S227: Yes), the user state estimation unit 104 estimates the state of the user as “state B” (S229).
  • the user state estimation unit 104 estimates the state of the user as the "state C" (S231).
  • the user state estimation unit 104 first performs one or more selected sensings. It is determined whether the sensing result of the vital information of the user is included in the result (S243). When the sensing result of the vital information of the user is not included in the one or more selected sensing results (S 243: No), the user state estimation unit 104 sets the state of the user as “state C”. It estimates (S253).
  • the user state estimation unit 104 next selects vital information of the user. It is judged whether the said user is "resting” using the sensing result of (S245). When it is determined that the user is “resting” (S245: Yes), the user state estimation unit 104 estimates the state of the user as “state C” (S253).
  • the user state estimation unit 104 detects the line of sight of the user among the one or more selected sensing results. It is determined whether the result is included (S247). When the sensing result of the line of sight of the user is not included in the one or more selected sensing results (S247: No), the user state estimation unit 104 estimates the state of the user as the “state C”. (S253).
  • the user state estimation unit 104 senses the line of sight of the user Using the result, it is determined whether the user is "concentrated” (S249). When it is determined that the user is “concentrated” (S249: Yes), the user state estimation unit 104 estimates the state of the user as “state B” (S251). On the other hand, when it is determined that the user is not "concentrated” (S249: No), the user state estimation unit 104 estimates the state of the user as the "state C" (S253).
  • the user state estimation unit 104 first determines, in the one or more selected sensing results, the user It is determined whether the sensing result of the vital information is included (S261). When the sensing result of the vital information of the user is not included in the one or more selected sensing results (S261: No), the user state estimation unit 104 sets the state of the user as the “state B”. It estimates (S267).
  • the user state estimation unit 104 next selects vital information of the user. It is determined whether or not the user is “resting” using the sensing result of (S263). When it is determined that the user is “resting” (S263: Yes), the user state estimation unit 104 estimates the state of the user as “state A” (S265).
  • the user state estimation unit 104 estimates the state of the user as “state B” (S267).
  • the terminal 10 determines, from among the plurality of sensing results received from the plurality of devices 20, one or more selected sensing results used for estimating the state of the user. It determines based on a reference
  • the terminal 10 receives the one or more selected sensings among the plurality of sensing results regarding the user, which are received from the plurality of devices 20. Results can be determined based on the predetermined criteria. Therefore, for example, even when the terminal 10 is in a situation where it is difficult for the user 2 to sense, it is possible to output information such as a voice of notification to the user with an output setting suitable for the state of the user. As a result, the content of the information can be sufficiently transmitted to the user.
  • Example 1 First, specific example 1 will be described with reference to FIG. 20, in the first specific example, it is assumed that the user 2 moves back and forth in the space 4 while carrying the smartphone 20b (for example, putting it in a pocket). For example, the user 2 is cleaning in the space 4. In addition, it is assumed that the user 2 is singing a nasal song.
  • the smartphone 20 b incorporates an acceleration sensor and a microphone.
  • the terminal 10 receives, from the smartphone 20b, the sensing result of the acceleration by the acceleration sensor of the smartphone 20b and the sound collection result by the microphone.
  • the terminal 10 recognizes that the user is moving largely based on the received sensing result of the acceleration, and recognizes that the user 2 is in the active state based on the recognition result.
  • the terminal 10 recognizes that the user is singing a nasal song based on the received sound collection result.
  • Example 2 ⁇ Next, specific example 2 will be described with reference to FIG. As illustrated in FIG. 21, in the second specific example, it is assumed that the user 2 is saying a single word such as “that there is no pudding that should have been bought,” while looking in the refrigerator 20 a. Do.
  • the refrigerator 20a incorporates a camera and a microphone.
  • Example 3 Next, specific example 3 will be described with reference to FIG. As shown in FIG. 22, in the third specific example, it is assumed that the user 2 is sitting on the sofa in the state of wearing the eyewear 20 e. Further, the user 2 concentrates on and enjoys viewing of AR (Augmented Reality) content by the eyewear 20 e. For example, user 2 is excited and laughing.
  • the eyewear 20e incorporates an acceleration sensor, an electroencephalogram sensor, a microphone, and a gaze sensor.
  • the terminal 10 performs eyewear on the result of sensing acceleration by the acceleration sensor of the eyewear 20e, the result of sensing the brainwave by the brainwave sensor, the result of sound collection by the microphone, and the result of sensing the sight line by the sight sensor Receive from 20e.
  • the terminal 10 recognizes that the user 2 hardly moves based on the received sensing result of acceleration, and recognizes that the user 2 is inactive based on the recognition result.
  • the terminal 10 recognizes that the user is emitting a non-speech sound (such as laughter) based on the received sound collection result.
  • the terminal 10 recognizes that the electroencephalogram is activated based on the received sensing result of the electroencephalogram, and recognizes that the user 2 is “not resting” based on the recognition result. Furthermore, the terminal 10 recognizes that the blink frequency of the user 2 is low based on the received sensing result of the sight line, and based on the recognition result, the concentration degree of the user 2 is equal to or higher than a predetermined threshold. Recognize that there is. Then, the terminal 10 estimates that the user 2 is in the “state B” based on the fact that the user 2 is inactive, emits a non-speech sound, and “concentrates without taking a rest”. Do.
  • Example 4 Next, Specific Example 4 will be described with reference to FIG. 23, in the fourth embodiment, the user 2 walks through the hallway 4 of the office with the open ear device 20 f (for example, an earphone type device or a neck speaker) attached. Suppose, for example, that you are lamenting "Uh. Uh.”
  • the open ear device 20 f incorporates an acceleration sensor and a microphone. Also, the open ear device 20 f may have an audio output unit.
  • the terminal 10 receives, from the open ear device 20f, the sensing result of the acceleration by the acceleration sensor of the open ear device 20f and the sound collection result by the microphone. Next, the terminal 10 recognizes that the user 2 is moving largely based on the received sensing result of acceleration, and recognizes that the user 2 is active based on the recognition result. Furthermore, the terminal 10 recognizes that the user 2 is emitting a non-speech sound (such as a moan) based on the received sound collection result. Then, the terminal 10 estimates that the user 2 is in the “state A” based on the fact that the user 2 is in the active state and emits a non-speech sound.
  • a non-speech sound such as a moan
  • Second embodiment >> The above has been described in the first embodiment. Next, the second embodiment will be described. As described later, according to the second embodiment, the server 70 is used to estimate the state of the user from among a plurality of sensing results received by the terminal 10 from the plurality of devices 20 in the space 4. One or more selected sensing results can be determined based on the predetermined criteria.
  • the contents of the second embodiment will be sequentially described in detail below. Hereinafter, only the contents different from the first embodiment will be described, and the description of the same contents will be omitted.
  • the information processing system according to the second embodiment further includes a communication network 22 and a server 70 as compared to the first embodiment shown in FIG. 1.
  • the communication network 22 is a wired or wireless transmission path of information transmitted from a device connected to the communication network 22.
  • the communication network 22 may include a telephone network, the Internet, a public network such as a satellite communication network, various LANs (Local Area Network) including Ethernet (registered trademark), a WAN (Wide Area Network), etc.
  • the communication network 22 may include a dedicated line network such as an IP-VPN (Internet Protocol-Virtual Private Network).
  • the server 70 is an example of an information processing apparatus according to the present disclosure.
  • the server 70 controls the output of various types of information (for example, voice, video, music, etc.) to the terminal 10 via the communication network 22.
  • the server 70 causes the terminal 10 to output a voice corresponding to predetermined notification information in a predetermined application service.
  • the server 70 may cause the terminal 10 to output a voice of interaction with the user 2 in a predetermined application service.
  • FIG. 25 is a functional block diagram showing a configuration example of the terminal 10 according to the second embodiment. As shown in FIG. 25, the terminal 10 does not have the determination unit 102 and the user state estimation unit 104 as compared to the first embodiment shown in FIG. 3. Hereinafter, only components having functions different from those of the first embodiment will be described.
  • Output control unit 106 The output control unit 106 according to the second embodiment transmits various information (for example, voice (TTS, etc.), video, music, etc.) to the output unit 124 based on the control information received from the server 70. Control the output of For example, the output control unit 106 causes the output unit 124 to output information of the type specified by the control information received from the server 70 at the timing specified by the control information.
  • various information for example, voice (TTS, etc.), video, music, etc.
  • the output control unit 106 may control, for example, the video and audio received from the server 70, the audio corresponding to the information received from the server 70 (for example, notification information for the user, and the like) from the server 70. It may be output to the output unit 124 based on the information.
  • FIG. 26 is a functional block diagram showing a configuration example of the server 70 according to the second embodiment.
  • the server 70 includes a control unit 700, a communication unit 720, and a storage unit 722.
  • Control unit 700 The control unit 700 can be configured to include, for example, processing circuits such as a CPU 150 and a GPU described later.
  • the control unit 700 centrally controls the operation of the server 70. Further, as shown in FIG. 26, the control unit 700 includes a determination unit 702, a user state estimation unit 704, an output control unit 706, and a transmission control unit 708.
  • the determination unit 702 determines one or more selected sensing results (described above) from among the plurality of sensing results by the plurality of devices 20 in the space 4 and the sensing results by the terminal 10 received via the terminal 10. Determine based on the criteria of Alternatively, the determination unit 702 may determine the one or more selected sensing results based on the predetermined criteria among only the plurality of sensing results of the plurality of devices 20 received via the terminal 10. Good.
  • the contents of the specific determination by the determination unit 702 are substantially the same as the determination unit 102 according to the first embodiment.
  • the user state estimation unit 704 estimates the state of the user (for example, the target user) using the one or more selected sensing results determined by the determination unit 702.
  • the contents of the specific estimation by the user state estimation unit 704 are substantially the same as the user state estimation unit 104 according to the first embodiment.
  • Output control unit 706 controls the output of information by the terminal 10. For example, the output control unit 706 first generates control information for causing the terminal 10 to output information such as notification information for the user based on the state of the user estimated by the user state estimation unit 704, for example. Then, the output control unit 706 causes the communication unit 720 to transmit the generated control information to the terminal 10.
  • the contents of part of specific output control by the output control unit 706 may be substantially the same as the output control unit 106 according to the first embodiment.
  • Transmission control unit 708 controls transmission of various types of information to other devices.
  • the transmission control unit 708 causes the communication unit 120 to transmit information indicating the degree of evaluation obtained from the user regarding the output of the information after the information is output by the terminal 10 to the plurality of devices 20 in the space 4 It is also good.
  • the transmission control unit 708 may generate control information for transmitting information indicating the evaluation degree to the plurality of devices 20, and may cause the communication unit 720 to transmit the control information.
  • the communication unit 720 can be configured to include, for example, a communication device 166 described later.
  • the communication unit 720 transmits and receives information to and from another device via, for example, the communication network 22.
  • Storage unit 722 can be configured to include, for example, a storage device 164 described later.
  • the storage unit 722 stores various data and various software.
  • FIG. 27 is a sequence diagram showing a part of the flow of processing according to the second embodiment.
  • the control unit 700 of the server 70 confirms the presence or absence of notification information to be notified to the user within a predetermined time (S301). While there is no notification information to be notified within the predetermined time (S301: No), the control unit 700 repeats the process of S301.
  • the communication unit 720 sends information indicating the presence of the notification information to the terminal 10 according to the control of the transmission control unit 708.
  • the information indicating the presence of the notification information may include, for example, identification information of a user to be notified (S303).
  • the terminal 10 performs sensing on the corresponding user (S305). Then, the terminal 10 transmits the sensing result to the server 70 (S307).
  • S309 to S315 shown in FIG. 27 is the same as that of S105 to S111 in the first embodiment (shown in FIG. 14).
  • the terminal 10 transmits, for example, the sensing results and the like received from all the devices 20 in S315 to the server 70 (S317).
  • the determination unit 702 of the server 70 selects the sensing result by the terminal 10 received at S307 and the sensing result by each device 20 received at S317, the user's One or more selected sensing results used to estimate the state are determined based on a predetermined criterion (S321).
  • the user state estimation unit 704 of the server 70 performs “estimate processing of the user state” (S323).
  • the contents of the process of S323 may be substantially the same as the process of S123 in the first embodiment shown in FIGS.
  • the output control unit 706 of the server 70 determines an audio output setting corresponding to the notification information acquired in S301 based on the state of the user estimated in S323 (S325).
  • the output control unit 706 generates control information for causing the voice corresponding to the notification information to be output with the output setting determined in S325 (S327).
  • the communication unit 720 transmits the control information generated in S327 to the terminal 10 according to the control of the output control unit 706 (S329).
  • the output control unit 106 of the terminal 10 causes the output unit 124 to output a voice corresponding to the notification information according to the control information received in S329 (S331).
  • the server 70 according to the second embodiment is used to estimate the state of the user from among a plurality of sensing results received from the plurality of devices 20 in the space 4 via the terminal 10.
  • One or more selected sensing results are determined based on the predetermined criteria, and information is output to the terminal 10 based on the one or more selected sensing results.
  • the second embodiment is not limited to the example described above.
  • the present invention is not limited to such an example, and a function of the server 70 may be realized by cooperative operation of a plurality of computers.
  • the other device is a general-purpose PC, a tablet type terminal, a game machine, a mobile phone such as a smartphone, a portable music player, a speaker, a projector, a wearable device (for example, eyewear or smart watch), an in-vehicle device (car It may be a navigation device or the like) or a robot (for example, a humanoid robot or a drone).
  • the server 70 may not necessarily be installed.
  • the terminal 10 includes a CPU 150, a read only memory (ROM) 152, a random access memory (RAM) 154, a bus 156, an interface 158, an input device 160, an output device 162, a storage device 164, and communication.
  • An apparatus 166 is provided.
  • the CPU 150 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the terminal 10 according to various programs.
  • the CPU 150 also realizes the function of the control unit 100 in the terminal 10.
  • the CPU 150 is configured of a processor such as a microprocessor.
  • the ROM 152 stores programs used by the CPU 150, control data such as calculation parameters, and the like.
  • the RAM 154 temporarily stores, for example, a program executed by the CPU 150, data in use, and the like.
  • the bus 156 is configured of a CPU bus and the like.
  • the bus 156 connects the CPU 150, the ROM 152, and the RAM 154 to one another.
  • the interface 158 connects the input device 160, the output device 162, the storage device 164, and the communication device 166 to the bus 156.
  • the input device 160 includes, for example, an input unit such as a touch panel, a button, a switch, a lever, and a microphone for inputting information by a user, and an input control circuit that generates an input signal based on an input by the user and outputs it to the CPU 150 Configured
  • an input unit such as a touch panel, a button, a switch, a lever, and a microphone for inputting information by a user
  • an input control circuit that generates an input signal based on an input by the user and outputs it to the CPU 150 Configured
  • the output device 162 includes a display such as an LCD or an OLED, or a display such as a projector.
  • the output device 162 also includes an audio output device such as a speaker.
  • the storage device 164 is a device for storing data, which functions as the storage unit 126.
  • the storage device 164 includes, for example, a storage medium, a recording device that records data in the storage medium, a reading device that reads data from the storage medium, or a deletion device that deletes data recorded in the storage medium.
  • the communication device 166 is a communication interface configured by, for example, a communication device (for example, a network card or the like) for connecting to the communication network 22 or the like. Further, the communication device 166 may be a wireless LAN compatible communication device, an LTE (Long Term Evolution) compatible communication device, or a wire communication device performing communication by wire. The communication device 166 functions as the communication unit 120.
  • a communication device for example, a network card or the like
  • LTE Long Term Evolution
  • the terminal 10 detects a plurality of sensings received from the plurality of devices 20 in the space 4.
  • the sensing result used to estimate only the state of the notification target user of the notification information may be determined as the one or more selected sensing results based on the predetermined criteria.
  • the face image of each user in the space 4 may be registered in advance in the terminal 10 (or the server 70).
  • the terminal 10 receives, from among a plurality of users in the space 4, a captured image of the face of one or more users captured by the plurality of devices 20 and the notification target registered in advance.
  • the sensing result corresponding to the user as the notification target may be selected from the plurality of sensing results by comparing with the face image of the user.
  • the terminal 10 estimates only the state of the user as the notification target based on the determined one or more selected sensing results, and the output unit 124 outputs the notification information based on the estimation result. May be output.
  • each step may be processed in an appropriate order.
  • each step may be processed partially in parallel or individually instead of being processed chronologically.
  • some of the described steps may be omitted or additional steps may be added.
  • hardware such as the CPU 150, the ROM 152, and the RAM 154 is equivalent to each configuration of the terminal 10 according to the first embodiment and / or the server 70 according to the second embodiment. It is also possible to provide a computer program for exerting the function. There is also provided a storage medium having the computer program recorded thereon.
  • a determination unit that determines one or more second sensing results used for estimating the state of the user among the plurality of first sensing results received from the plurality of devices based on a predetermined criterion;
  • An output control unit that controls output of information based on the one or more second sensing results;
  • An information processing apparatus comprising: (2) The information processing apparatus according to (1), wherein the output control unit controls the output of the information based on a state of the user estimated using the one or more second sensing results.
  • the one or more second sensing results include sensing results for each of a plurality of sensing types
  • the determination unit is configured to select the sensing result corresponding to the sensing type from among the plurality of first sensing results for each of the plurality of sensing types based on the predetermined reference.
  • the information processing apparatus according to (2) wherein the second sensing result described above is determined.
  • the predetermined criteria include the distance between each of the plurality of devices and the user, performance information of each of the plurality of devices, reliability of each manufacturer of the plurality of devices, and each of the plurality of devices.
  • the information processing apparatus according to (3) including at least one of user evaluation degrees associated with each other.
  • the determination unit determines, regarding each of the plurality of sensing types, a sensing result corresponding to the sensing type by the device located closer to the user among the plurality of devices as the first sensing result of the plurality of first sensing results.
  • the information processing apparatus according to (4) which selects each from among the above.
  • the determination unit relates to each of the plurality of sensing types, the plurality of first sensing results of sensing results corresponding to the sensing type by the device having higher sensing performance among the plurality of devices.
  • the information processing apparatus according to (5) wherein each of the results is selected.
  • the determination unit is configured to determine, among the plurality of first sensing results, a sensing result corresponding to the sensing type by the device having a higher reliability of the manufacturer among the plurality of devices regarding each of the plurality of sensing types.
  • the information processing apparatus according to (5) or (6), which is selected from (8) The determination unit relates to each of the plurality of sensing types, a plurality of sensing results corresponding to the sensing types by the device having a higher degree of evaluation of the user stored in association with each of the plurality of devices.
  • the information processing apparatus according to any one of (5) to (7), wherein each of the first sensing result is selected.
  • the determination unit determines, for each of the plurality of sensing types, a sensing result corresponding to the sensing type among the plurality of first sensing results, a distance between each of the plurality of devices and the user, The one or more devices are selected based on the performance information of each of the plurality of devices, the reliability of the manufacturer of each of the plurality of devices, and the evaluation degree of the user associated with each of the plurality of devices.
  • the information processing apparatus according to any one of (4) to (8), wherein the second sensing result of is determined.
  • the plurality of sensing types include sound sensing,
  • the determination unit prioritizes the sensing result in which the sound of the user's speech is sensed as the direct sound over the sensing result in which the sound of the user's speech is sensed as the indirect sound, the plurality of first sensing results
  • the information processing apparatus according to any one of (4) to (9), wherein the one or more second sensing results are determined by selecting from among them.
  • (11) (4) to (10) wherein the output control unit causes the output unit to output the information in an output mode corresponding to the state of the user estimated using the one or more second sensing results.
  • the information processing apparatus according to any one of the above.
  • the information is notification information for the user
  • the output control unit causes the output unit to output a voice corresponding to notification information for the user in an output mode corresponding to the state of the user estimated using the one or more second sensing results.
  • the information processing apparatus according to (11). (13) The output control unit determines a notification timing of notification information to the user based on the state of the user estimated using the one or more second sensing results, and The information processing apparatus according to (12), causing the output unit to output a voice corresponding to notification information for the user at the determined notification timing.
  • the information processing apparatus according to any one of (11) to (14), further including a transmission control unit configured to (16) The communication unit; A user state estimation unit that estimates the state of the user using the one or more second sensing results; The information processing apparatus according to (15), wherein the communication unit receives the plurality of first sensing results from the plurality of devices.
  • the information processing apparatus according to any one of (11) to (16), wherein the one or more second sensing results are determined by respectively selecting on the basis of.
  • the determination unit selects, from among the plurality of first sensing results, a sensing result corresponding to the sensing type based on the predetermined reference.
  • Reference Signs List 10 terminal 20 equipment 22 communication network 70 server 100, 200, 700 control unit 102, 702 determination unit 104, 704 user state estimation unit 106, 706 output control unit 108, 708 transmission control unit 120, 220, 720 communication unit 122, 222 Sensor unit 124 Output unit 126, 224, 722 Storage unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Dermatology (AREA)
  • Neurology (AREA)
  • Neurosurgery (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ユーザの状態の推定に用いられるセンシング結果を適切に決定することが可能な、情報処理装置、情報処理方法、および、プログラムを提案する。 【解決手段】複数の機器から受信された複数の第1のセンシング結果の中から、ユーザの状態の推定に用いられる一以上の第2のセンシング結果を所定の基準に基づいて決定する判断部と、前記一以上の第2のセンシング結果に基づいて情報の出力を制御する出力制御部と、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、および、プログラム
 本開示は、情報処理装置、情報処理方法、および、プログラムに関する。
 従来、例えばTTS(Text To Speech)などの音声の出力を制御する技術が各種提案されている。
 例えば、下記特許文献1には、機器が、検知した人や動作に応じて出力する音声を変更する技術が記載されている。
特開2016-35614号公報
 しかしながら、特許文献1に記載の技術では、人の状態を推定するために用いられるセンシング結果を、複数の機器によるセンシング結果の中から選択することは考慮されていない。
 そこで、本開示では、ユーザの状態の推定に用いられるセンシング結果を適切に決定することが可能な、新規かつ改良された情報処理装置、情報処理方法、および、プログラムを提案する。
 本開示によれば、複数の機器から受信された複数の第1のセンシング結果の中から、ユーザの状態の推定に用いられる一以上の第2のセンシング結果を所定の基準に基づいて決定する判断部と、前記一以上の第2のセンシング結果に基づいて情報の出力を制御する出力制御部と、を備える、情報処理装置が提供される。
 また、本開示によれば、複数の機器から受信された複数の第1のセンシング結果の中から、ユーザの状態の推定に用いられる一以上の第2のセンシング結果を所定の基準に基づいて決定することと、前記一以上の第2のセンシング結果に基づいて情報の出力をプロセッサが制御することと、を含む、情報処理方法が提供される。
 また、本開示によれば、コンピュータを、複数の機器から受信された複数の第1のセンシング結果の中から、ユーザの状態の推定に用いられる一以上の第2のセンシング結果を所定の基準に基づいて決定する判断部と、前記一以上の第2のセンシング結果に基づいて情報の出力を制御する出力制御部、として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、ユーザの状態の推定に用いられるセンシング結果を適切に決定することができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本開示の第1の実施形態に係る情報処理システムの構成例を示した説明図である。 第1の実施形態に係る機器20の構成例を示した機能ブロック図である。 第1の実施形態に係る端末10の構成例を示した機能ブロック図である。 第1の実施形態の適用例を説明するための図である。 第1の実施形態の適用例を説明するための図である。 第1の実施形態の適用例を説明するための図である。 センシング結果の提供要求のデータの構成例を示した図である。 第1の実施形態の適用例を説明するための図である。 第1の実施形態の適用例におけるセンシング結果の送信データの構成例を示した図である。 第1の実施形態の適用例を説明するための図である。 第1の実施形態の適用例を説明するための図である。 第1の実施形態の適用例を説明するための図である。 第1の実施形態の適用例における、ユーザからのフィードバックの対応関係データの構成例を示した図である。 第1の実施形態に係る処理の流れの一部を示したシーケンス図である。 第1の実施形態に係る処理の流れの一部を示したシーケンス図である。 第1の実施形態に係る処理の流れの一部を示したシーケンス図である。 第1の実施形態に係る「ユーザの状態の推定処理」の流れの一部を示したフローチャートである。 第1の実施形態に係る「ユーザの状態の推定処理」の流れの一部を示したフローチャートである。 第1の実施形態に係る「ユーザの状態の推定処理」の流れの一部を示したフローチャートである。 ユーザの状態の推定の具体例を説明するための図である。 ユーザの状態の推定の具体例を説明するための図である。 ユーザの状態の推定の具体例を説明するための図である。 ユーザの状態の推定の具体例を説明するための図である。 本開示の第2の実施形態に係る情報処理システムの構成例を示した説明図である。 第2の実施形態に係る端末10の構成例を示した機能ブロック図である。 第2の実施形態に係るサーバ70の構成例を示した機能ブロック図である。 第2の実施形態に係る処理の流れの一部を示したシーケンス図である。 第2の実施形態に係る処理の流れの一部を示したシーケンス図である。 各実施形態に共通する端末10のハードウェア構成例を示した説明図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成要素を、必要に応じて機器20aおよび機器20bのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、機器20aおよび機器20bを特に区別する必要が無い場合には、単に機器20と称する。
 また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
 1.第1の実施形態
 2.第2の実施形態
 3.ハードウェア構成
 4.変形例
 本開示は、一例として「1.第1の実施形態」~「2.第2の実施形態」において詳細に説明するように、多様な形態で実施され得る。最初に、本開示の第1の実施形態について説明する。
<<1.第1の実施形態>>
 <1-1.システム構成>
 まず、第1の実施形態に係る情報処理システムの構成例について、図1を参照して説明する。図1に示すように、第1の実施形態に係る情報処理システムは、端末10、および、複数の機器20を有する。例えば、図1に示したように、端末10、および、複数の機器20は、所定の空間4(例えば、家やオフィスビルディングなどの施設、車、または、屋外の所定の敷地など)内に位置し得る。
 なお、図1では、端末10、および、複数の機器20が、(空間4内の)同一の部屋内に位置する例を示しているが、かかる例に限定されない。端末10、および、複数の機器20のうちの少なくとも一つとそれ以外とは、(空間4内の)互いに異なる部屋内に位置していてもよいし、または、(空間4内の)互いに異なるフロア内に位置していてもよい。
 {1-1-1.端末10}
 端末10は、本開示に係る情報処理装置の一例である。端末10は、各種の情報(例えば、音声、映像、または、音楽など)を出力可能な装置である。例えば、端末10は、所定のアプリケーションサービスにおける所定の通知情報に対応する音声を、空間4内に位置するユーザ2に対して出力する。または、端末10は、所定のアプリケーションサービスにおける、ユーザ2との対話の音声を出力する。ここで、音声は、例えばTTSなどの合成音声であってもよいし、録音された音声であってもよい。以下では、音声が合成音声である例を中心に説明を行う。
 この端末10は、例えば、据え置き型の装置、または、携帯型の装置であり得る。一例として、端末10は、汎用PC(Personal Computer)、テレビジョン受信機、録画機器、オーディオ機器(スピーカなど)、例えばスマートフォンなどの携帯電話、タブレット型端末、デジタルカメラ、携帯型音楽プレーヤ、または、ロボットであってもよい。以下では、端末10が、例えば図1に示したような形状の、据え置き型の装置である例を中心として説明を行う。
 また、端末10は、無線通信および/または有線通信により、空間4内に位置する複数の機器20と通信可能である。
 {1-1-2.機器20}
 機器20は、空間4内に配置されていたり、または、(空間4内の)ユーザ2が所持している装置である。機器20は、例えばDLNA(登録商標)(Digital Living Network Alliance)などの規格に沿って、他の機器20や端末10と相互接続され得る。また、機器20は、例えばOSC(OpenSound Control)などの通信プロトコルを用いて、例えば音声などの音のデータを他の機器20や端末10との間で送受信してもよい。
 図1では、機器20の一例として、冷蔵庫20a、スマートフォン20b、および、スマートウォッチ20cを図示しているが、かかる例に限定されない。機器20は、例えば、据え置き型の装置(例えば家電機器やIOT(Internet of Things)デバイスなど(冷蔵庫、電子レンジ、洗濯機、換気扇、固定電話、ルーター、汎用PC、テレビジョン受信機、録画機器、オーディオ機器、または、ロボットなど))、携帯型の装置(例えばスマートフォンなどの携帯電話、タブレット型端末、デジタルカメラ、または、携帯型音楽プレーヤなど)、または、装着型の装置(例えばアイウェア(HMD(Head Mounted Display)など)、スマートウォッチ、スマートバンド、ヘッドフォン、または、イヤフォンなど)であってもよい。
 {1-1-3.課題の整理}
 以上、第1の実施形態に係る情報処理システムの構成について説明した。ところで、ユーザ2は空間4内を自由に移動し得るので、端末10が、ユーザ2に関してセンシングできない、または、センシングが困難な場合が生じ得る。このような場合、端末10は、端末10によるセンシング結果を用いるだけでは、ユーザ2に対する通知の音声などの情報を、ユーザ2の状態に適した態様で出力することが困難である。その結果、当該情報の内容がユーザ2に十分伝わらない恐れがある。
 そこで、上記事情を一着眼点にして、第1の実施形態に係る端末10を創作するに至った。第1の実施形態に係る端末10は、複数の機器20から受信された複数のセンシング結果の中から、ユーザの状態の推定に用いられる一以上の選出センシング結果を所定の基準に基づいて決定し、そして、当該一以上の選出センシング結果に基づいて情報の出力を制御する。これにより、例えば端末10がユーザ2に関してセンシングし難い状況であっても、ユーザの状態に適した態様で情報を出力することができる。ここで、選出センシング結果は、本開示における第2のセンシング結果の一例である。以下、第1の実施形態の内容についてさらに詳細に説明する。
 <1-2.構成:機器20>
 次に、第1の実施形態に係る構成について説明する。図2は、第1の実施形態に係る機器20の構成例を示した機能ブロック図である。図2に示すように、端末10は、制御部200、通信部220、センサ部222、および、記憶部224を有する。
 {1-2-1.センサ部222}
 センサ部222は、例えば、加速度センサ、方位センサ、距離センサ(例えばtime of flight方式のセンサ、または、ステレオカメラなど)、マイクロフォン、温度センサ、カメラ(イメージセンサ)、生体センサ、および、筋電センサのうちの少なくとも一つを含み得る。さらに、センサ部222は、例えばGPS(Global Positioning System)やGLONASS(Global Navigation Satellite System)などの測位衛星から測位信号を受信する受信機を含み得る。
 センサ部222は、ユーザの状態に関してセンシングし得る。例えば、センサ部222は、ユーザの動きに関してセンシング(例えば撮像など)する。一例として、センサ部222は、ユーザの体全体の動きの速度、方向、および、距離などをセンシングしてもよい。または、センサ部222は、ユーザの頭部、手、または、首などの動きをセンシングしてもよい。または、センサ部222は、ユーザの顔(例えば表情など)をセンシングしてもよい。
 または、センサ部222は、ユーザのバイタル情報(例えば、手や足の発汗量、心拍数、呼吸数、または、脳波の乱れ具合など)をセンシングする。または、センサ部222は、ユーザの眼の状態(例えば、瞬きの頻度や回数、視線の動きや方向、瞳孔の開き具合など)をセンシングする。または、センサ部222は、ユーザが音を発した否か、および、ユーザが発した音の種類(例えば、言語音、非言語音(例えばうめき、咆哮、笑いなど)、鼻歌や歌声、または、非音声の音(例えば咳、くしゃみなど)など)をセンシングする。
 なお、センサ部222に含まれる個々のセンサは、常時センシングをしてもよいし、定期的にセンシングしてもよいし、または、特定の場合(例えば制御部200からの指示があった場合など)にのみセンシングしてもよい。
 {1-2-2.制御部200}
 制御部200は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)などの処理回路を含んで構成され得る。制御部200は、端末10の動作を統括的に制御する。例えば、制御部200は、他の装置に対する情報の送信を制御する。詳細については後述するが、端末10からセンシング結果の提供要求が受信された場合などに、制御部200は、センサ部222によるセンシング結果を端末10へ通信部220に送信させる。
 さらに、制御部200は、センサ部222によるセンシング結果に基づいて、ユーザの状態に関する所定の認識を行ってもよい。例えば、制御部200は、センサ部222によるセンシング結果(例えばユーザの全身の撮像画像など)に基づいて、ユーザのジェスチャ(例えば頭部のうなずき、手の振り、座っていること、立っていること、走っていること、歩いていること、じっとしていること、または、激しく動いていることなど)を認識可能であってもよい。また、制御部200は、センサ部222によるセンシング結果(例えばユーザの顔の撮像画像など)に基づいて、ユーザの感情を認識可能であってもよい。例えば、制御部200は、当該センシング結果に基づいて、ユーザの感情がポジティブな感情(喜びなど)であるか否か、または、ネガティブな感情(悲しみなど)であるか否かなどを認識してもよい。
 また、制御部200は、センサ部222によるセンシング結果に基づいて、ユーザの集中度合いを認識可能であってもよい。また、制御部200は、センサ部222によるセンシング結果に基づいて、ユーザのリラックス度合いを認識可能であってもよい。一例として、制御部200は、まず、当該センシング結果に基づいて、ユーザが「休んでいる」か否かを認識する。そして、ユーザが「休んでいる」と認識された場合には、制御部200は、ユーザのリラックス度合いが所定の閾値以上であると認識してもよい。一方、ユーザが「休んでいない」と認識された場合には、制御部200は、ユーザのリラックス度合いが当該所定の閾値未満であると認識してもよい。
 {1-2-3.通信部220}
 通信部220は、例えば無線通信および/または有線通信により、他の装置との間で情報の送受信を行う。例えば、通信部220は、制御部200の制御に従って、センサ部222に含まれる各種のセンサ(例えば全てのセンサなど)によるセンシング結果を端末10へ送信する。また、通信部220は、センサ部222によるセンシング結果の提供要求や、後述する、ユーザの評価度を示す情報を端末10から受信し得る。
 {1-2-4.記憶部224}
 記憶部224は、各種のデータや、各種のソフトウェアを記憶する。例えば、当該ユーザの評価度を示す情報が端末10から受信される度に、記憶部224は、当該ユーザの評価度を示す情報を記憶する。
 <1-3.構成:端末10>
 次に、第1の実施形態に係る端末10の構成例について説明する。図3は、第1の実施形態に係る端末10の構成例を示した機能ブロック図である。図3に示すように、端末10は、制御部100、通信部120、センサ部122、出力部124、および、記憶部126を有する。
 {1-3-1.センサ部122}
 センサ部122は、一以上のカメラ(イメージセンサ)、および、複数チャネル(例えば8chなど)のマイクロフォンを含み得る。例えば、当該複数チャンネルのマイクロフォンを有することにより、端末10は、当該マイクロフォンによる収音結果に基づいて音源の位置を推定することが可能である。
 さらに、センサ部122は、例えば、加速度センサ、方位センサ、距離センサ(例えばtime of flight方式のセンサ、または、ステレオカメラなど)、温度センサ、生体センサ、および、筋電センサのうちの一以上を含んでもよい。さらに、センサ部122は、例えばGPSやGLONASSなどの測位衛星から測位信号を受信する受信機を含んでもよい。
 (1-3-1-1.ユーザに関するセンシング)
 センサ部122は、ユーザの状態(例えば、ユーザの動き、ユーザの眼の状態、および、ユーザが発した音の種類など)に関してセンシングし得る。なお、センサ部122による具体的なセンシングの内容の一部は、(前述した)機器20のセンサ部122と同様であってもよい。
 (1-3-1-2.フィードバックのセンシング)
 図11を参照して後述するように、出力部124による情報の出力に対してユーザがフィードバックの発話をした場合には、センサ部122(例えばマイクロフォン)は、さらに、当該フィードバックの発話をセンシングすることも可能である。例えば、ユーザに対する通知情報などの情報が出力部124により出力された後に、当該情報の出力に対して当該ユーザがフィードバックの発話をし得る。この場合、センサ部122は、当該フィードバックの発話をセンシングし得る。これにより、端末10は、当該センシング結果に基づいて、上記の情報の出力に対するユーザの評価度を特定することができる。
 あるいは、ユーザは、当該情報の出力に対して、(発話する代わりに)所定の通信端末を用いて、当該情報の出力に対するフィードバックの情報を端末10へ送信し得る。この場合、後述する通信部120が、当該フィードバックの情報を受信し得る。
 なお、センサ部122に含まれる個々のセンサは、常時センシングをしてもよいし、定期的にセンシングしてもよいし、または、特定の場合(例えば制御部100からの指示があった場合など)にのみセンシングしてもよい。
 {1-3-2.制御部100}
 制御部100は、例えば、後述するCPU150やGPUなどの処理回路を含んで構成され得る。制御部100は、端末10の動作を統括的に制御する。また、図3に示すように、制御部100は、判断部102、ユーザ状態推定部104、出力制御部106、および、送信制御部108を有する。
 例えば、制御部100は、センサ部122によるセンシング結果に基づいて、ユーザの状態に関する所定の認識(例えば、ジェスチャ認識や感情認識など)を行ってもよい。なお、制御部100による具体的な認識の内容の一部は、(前述した)機器20の制御部200と同様であってもよい。
 {1-3-3.判断部102}
 判断部102は、複数の機器20から受信された複数のセンシング結果の中から、ユーザの状態の推定に用いられる一以上の選出センシング結果を所定の基準に基づいて決定する。例えば、判断部102は、複数のセンシング種類の各々に関して、複数の機器20から受信された複数のセンシング結果の中から、当該センシング種類に対応するセンシング結果を当該所定の基準に基づいてそれぞれ選択することにより、当該一以上の選出センシング結果を決定する。ここで、当該複数のセンシング種類の各々は、各センサの種類と対応し得る。例えば、当該複数のセンシング種類は、撮像、収音、加速度のセンシング、または、心拍数のセンシングなどを含んでもよい。
 または、判断部102は、複数の機器20から受信された複数のセンシング結果およびセンサ部122によるセンシング結果の中から、当該所定の基準に基づいて当該一以上の選出センシング結果を決定することも可能である。例えば、判断部102は、当該複数のセンシング種類の各々に関して、センサ部122による当該センシング種類に対応する、当該ユーザに関するセンシングの可否、または、センサ部122による当該センシング種類に対応する、当該ユーザに関するセンシング結果の精度と、当該所定の基準とに基づいて、当該複数の機器20から受信された複数のセンシング結果およびセンサ部122によるセンシング結果の中から、当該センシング種類に対応するセンシング結果を当該所定の基準に基づいてそれぞれ選択することにより、当該一以上の選出センシング結果を決定してもよい。
 一例として、判断部102は、当該複数のセンシング種類の各々に関して、センサ部122による当該センシング種類に対応する、当該ユーザに関するセンシングが不可能と判定された場合、および、センサ部122による当該センシング種類に対応する、当該ユーザに関するセンシング結果の精度が所定の閾値よりも低い場合には、判断部102は、当該複数の機器20から受信された複数のセンシング結果のみの中から、当該センシング種類に対応するセンシング結果を当該所定の基準に基づいてそれぞれ選択してもよい。つまり、この場合、センサ部122による当該センシング種類に対応するセンシング結果は、当該一以上の選出センシング結果として選択されない。
 例えば、センサ部122のカメラにより撮像された画像に該当のユーザが全く写っていない場合、または、当該ユーザの体の一部しか写っていない場合には、判断部102は、画像に関しては、当該複数の機器20から受信された複数の画像のうちのいずれか一以上を当該所定の基準に基づいて選択してもよい。または、センサ部122のマイクロフォンによる収音結果において該当のユーザが発した音の音量が所定の閾値以下である場合には、判断部102は、音に関しては、当該複数の機器20から受信された複数の収音結果のうちのいずれか一以上を当該所定の基準に基づいて選択してもよい。
 (1-3-3-1.所定の基準)
 ‐第1の基準
 以下では、上記の判断部102の機能(選出センシング結果の決定)についてさらに詳細に説明する。上記の所定の基準は、複数の機器20の各々とユーザとの距離(以下、第1の基準と称する場合もある)を含み得る。例えば、判断部102は、当該複数のセンシング種類の各々に関して、複数の機器20のうち、ユーザに最も近い機器20による当該センシング種類に対応するセンシング結果を、当該複数の機器20から受信された複数のセンシング結果の中からそれぞれ選択することにより、当該一以上の選出センシング結果を決定してもよい。
 ‐第2の基準
 また、上記の所定の基準は、複数の機器20の各々の性能情報(以下、第2の基準と称する場合もある)を含み得る。例えば、判断部102は、当該複数のセンシング種類の各々に関して、複数の機器20のうち、当該センシング種類に関するセンシングの性能がより高い機器20による当該センシング種類に対応するセンシング結果を、当該複数の機器20から受信された複数のセンシング結果の中からそれぞれ選択してもよい。一例として、画像に関しては、複数の機器20のうち、カメラの画素数が最も高い機器20により撮像された画像を、当該複数の機器20から受信された複数の画像の中から選択してもよい。
 ‐第3の基準
 また、上記の所定の基準は、複数の機器20の各々の製造元の信頼度(以下、第3の基準と称する場合もある)を含み得る。例えば、判断部102は、当該複数のセンシング種類の各々に関して、複数の機器20のうち、製造元(例えばメーカーや製造国など)の信頼度がより高い機器20による当該センシング種類に対応するセンシング結果を、当該複数の機器20から受信された複数のセンシング結果の中からそれぞれ選択してもよい。
 なお、各製造元の信頼度は予め登録され得る。例えば、各製造元の信頼度は、記憶部126に予め記憶されていてもよいし、または、端末10が、例えば所定のネットワーク(インターネットなど)を介して通信可能な外部の装置(図示省略)に記憶されていてもよい。
 ‐第4の基準
 また、上記の所定の基準は、複数の機器20の各々に関連付けられているユーザの評価度(以下、第4の基準と称する場合もある)を含み得る。例えば、判断部102は、当該複数のセンシング種類の各々に関して、複数の機器20の各々に関連付けて記憶されているユーザの評価度がより高い機器20による、当該センシング種類に対応するセンシング結果を、当該複数の機器20から受信された複数のセンシング結果の中からそれぞれ選択してもよい。
 ‐組み合わせ
 なお、上記の所定の基準は、複数の種類の基準の組み合わせであってもよい。例えば、当該組み合わせは、前述した4種類の基準のうちのいずれか2以上の組み合わせであってもよいし、または、当該4種類の基準を含む5種類以上の基準の組み合わせであってもよい。これらの場合、判断部102は、当該複数のセンシング種類の各々に関して、当該複数の種類の基準の組み合わせと、当該複数の種類の基準の各々に関連付けられている優先順位とに基づいて、当該センシング種類に対応するセンシング結果を、当該複数の機器20から受信された複数のセンシング結果の中からそれぞれ選択してもよい。
 例えば、優先順位が高い順が、第1の基準(機器20とユーザとの距離)、第2の基準(機器20の性能情報)、第3の基準(機器20の製造元の信頼度)、および、第4の基準(機器20に対するユーザの評価度の履歴)であるように、当該4種類の基準の各々の優先度が定められていてもよい。一例として、当該4種類の基準の各々に関して、優先度がより高い基準ほど、より大きい重み(係数)が設定されていてもよい。この場合、判断部102は、センシング種類ごとに、まず、当該複数の機器20から受信された複数のセンシング結果の各々に関して、当該4種類の基準の各々に基づいて当該センシング結果が評価された値(評価値)と、当該4種類の基準の各々に設定されている重みとを用いて重み付け和を算出する。そして、センシング種類ごとに、判断部102は、当該複数のセンシング結果の中で、算出された重みづけ和が最も高いセンシング結果をそれぞれ選択することにより、当該一以上の選出センシング結果を決定してもよい。
 (1-3-3-2.変形例)
 変形例として、当該4種類の基準の各々の優先順位は、センシング種類ごとに別々に定められていてもよい。例えば、音声や加速度のセンシングに関しては優先順位が最も高い基準は第1の基準であり、かつ、画像のセンシング(カメラ)に関しては、優先順位が最も高い基準は第2の基準であるように定められていてもよい。
 別の変形例として、判断部102は、カメラ(画像のセンシング)に関しては、例えば第1の基準(機器20とユーザとの距離)に依存せずに、ユーザの顔が写っている撮像画像を、ユーザの顔が写っていない撮像画像よりも(当該選出センシング結果として)優先的に選択してもよい。この選択例によれば、端末10は、当該撮像画像に基づいてユーザの表情をより精度高く認識可能になり得る。従って、ユーザの感情の推定精度が向上し得る。
 別の変形例として、判断部102は、音に関しては、収音されたユーザの発話の音が直接音であるか、または、間接音(反射音など)であるかの判定結果に基づいて、当該複数の機器20から受信された複数のセンシング結果の中から一以上を(当該選出センシング結果として)選択してもよい。例えば、判断部102は、ユーザの発話の音が直接音として収音された収音結果を、(ユーザの発話の音が)間接音として収音された収音結果よりも(当該選出センシング結果として)優先的に選択してもよい。
 {1-3-4.ユーザ状態推定部104}
 (1-3-4-1.ユーザの状態の推定)
 ユーザ状態推定部104は、判断部102により決定された一以上の選出センシング結果を用いて、ユーザの状態を推定する。例えば、予め複数の種類の所定の状態が定義され得る。この場合、ユーザ状態推定部104は、当該一以上の選出センシング結果と、所定の判定基準とに基づいて、ユーザの状態が当該複数の種類の所定の状態のうちのいずれであるかを推定し得る。ここで、当該所定の判定基準は、例えば、ユーザが活発状態であるか否かの判定結果、ユーザが発した音の種類の判定結果、ユーザが休んでいるか否かの判定結果、および、ユーザの集中度合いの判定結果などを含み得る。
 ここで、当該複数の種類の所定の状態は、例えば、「強調して通知すべき状態」、「後で通知すべき状態」、および、「通常状態」の3種類である。「強調して通知すべき状態」は、通常の設定よりも強調してユーザに対して情報を通知すべき状態(換言すれば、ユーザを盛り上げるべき状態)であり得る。「後で通知すべき状態」は、ユーザに対して現在は情報を出力せず、かつ、所定の時間経過後に当該情報を通知すべき状態(換言すれば、ユーザをそっとしておくべき状態)であり得る。「通常状態」は、通常の設定で、ユーザに対して情報を通知すべき状態であり得る。なお、具体的な推定例について、例えば「1-7節」において後述する。
 (1-3-4-2.所定の判定基準に関する判定)
 なお、ユーザ状態推定部104は、さらに、上記の所定の判定基準に対応する判定を行うことも可能である。例えば、ユーザ状態推定部104は、当該一以上の選出センシング結果を用いて、ユーザが活発状態であるか否かを判定する。一例として、ユーザ状態推定部104は、まず、当該一以上の選出センシング結果を用いて、ユーザの体のうち動いている部分を認識し得る。そして、体のうち動いている部分が大きい場合には、ユーザ状態推定部104は、当該ユーザが活発状態であると判定する。また、体のうち動いている部分が小さい場合には、ユーザ状態推定部104は、当該ユーザが不活発状態であると判定する。
 さらに、ユーザ状態推定部104は、当該一以上の選出センシング結果(例えば収音結果など)を用いて、ユーザが音を発したか否かを判定し、かつ、ユーザが発した音の種類を判定し得る。例えば、ユーザ状態推定部104は、ユーザが発した音の種類が、言語音、鼻歌・歌声、非言語音、および、非音声のうちのいずれであるかを判定する。
 さらに、ユーザ状態推定部104は、当該一以上の選出センシング結果を用いて、ユーザが休んでいるか否かを判定し得る。例えば、ユーザ状態推定部104は、まず、当該一以上の選出センシング結果を用いて、ユーザのリラックス度合いを判定する。そして、リラックス度合いが所定の閾値以上であると判定された場合には、ユーザ状態推定部104は、当該ユーザが「休んでいる」と判定する。また、リラックス度合いが当該所定の閾値未満であると判定された場合には、ユーザ状態推定部104は、当該ユーザが「休んでいない」と判定する。
 また、ユーザ状態推定部104は、当該一以上の選出センシング結果(例えば顔の撮像画像など)を用いて、ユーザの集中度合いを判定し得る。例えば、ユーザ状態推定部104は、まず、当該一以上の選出センシング結果を用いて、当該ユーザの瞬き数を判定する。そして、当該ユーザの瞬き数が所定の閾値以上である場合には、ユーザ状態推定部104は、当該ユーザが集中していないと判定する。また、当該ユーザの瞬き数が当該所定の閾値未満である場合には、ユーザ状態推定部104は、当該ユーザが集中していないと判定する。
 {1-3-5.出力制御部106}
 出力制御部106は、後述する出力部124による情報(例えば映像、音声、音楽など)の出力を制御する。例えば、出力制御部106は、ユーザ状態推定部104により推定されたユーザの状態に基づいて、例えば当該ユーザに対する通知情報などの情報を出力部124に出力させる。
 一例として、出力制御部106は、当該ユーザに対する通知情報に対応する音声(以下では、「通知の音声」と称する場合がある)を、ユーザ状態推定部104により推定されたユーザの状態に対応する出力態様で出力部124に出力させる。さらに、出力制御部106は、ユーザ状態推定部104により推定されたユーザの状態に基づいて、当該通知情報の通知タイミングを決定し、かつ、当該通知情報に対応する音声を当該通知タイミングに出力部124に出力させてもよい。
 (1-3-5-1.制御例1)
 例えば、ユーザ状態推定部104により、ユーザの状態が「強調して通知すべき状態」であると推定されたとする。この場合、出力制御部106は、(通常の話者から)例えばテンション高く話す話者やDJ調の話者などに、話者を変更してもよい。または、出力制御部106は、予め当該ユーザにより登録されている、当該ユーザの好みの話者に通常の話者から変更してもよい。さらに、出力制御部106は、変更後の話者に応じて、音声の文言を変更してもよい。
 さらに、この場合、出力制御部106は、当該ユーザに対する通知の音声を例えばユーザの動きの切り替わりのタイミングに出力させるなど、当該音声の出力タイミングを変更してもよい。さらに、出力制御部106は、例えばピッチを高くするなど声質を(通常の設定から)変更してもよいし、話速を(通常の設定よりも)速くしてもよいし、または、音声の音量を(通常の設定よりも)大きくしてもよい。さらに、出力制御部106は、当該通知の音声に対して、他のTTS用のコンテンツ(例えば当該通知に影響しないTTS用のコンテンツなど)を付加し、そして、付加後のコンテンツを出力部124に出力させてもよい。
 (1-3-5-2.制御例2)
 別の例として、ユーザ状態推定部104により、ユーザの状態が「後で通知すべき状態」であると推定されたとする。この場合、出力制御部106は、ユーザに対する通知情報に関連付けられている通知タイミングには当該通知情報を出力させず、かつ、当該通知タイミングから所定の時間経過後に当該通知情報を出力部124に出力させてもよい。例えば、現在時刻が、ユーザに対する通知情報に関連付けられている通知タイミングになった際には、出力制御部106は、まず、例えばおっとり話す話者やカウンセラー調の話者などに、(通常の話者から)話者を変更し、かつ、例えば「お知らせがあるけど後にしましょう」などの、通知情報の存在を知らせるためのTTSだけを出力部124に出力させる。そして、当該通知タイミングから所定の時間経過後(あるいは、ユーザ状態推定部104により新たに推定されたユーザの状態が「後で通知すべき状態」以外に変化したタイミング)に、出力制御部106は、当該通知情報に対応する音声を出力部124に出力させる。
 {1-3-6.送信制御部108}
 送信制御部108は、他の装置に対する各種の情報の送信を制御する。例えば、送信制御部108は、センシング結果の提供要求を空間4内の複数の機器20(例えば全ての機器20)へ通信部120に送信させる。さらに、出力部124により情報が出力された後に当該情報の出力に関してユーザからフィードバックが得られた場合には、送信制御部108は、当該フィードバックに対応するユーザの評価度を示す情報を複数の機器20へ通信部120に送信させる。例えば、送信制御部108は、上記の一以上の選出センシング結果の各々をセンシングした個々の機器20に対してのみ、当該ユーザの評価度を示す情報を通信部120に送信させてもよい。
 {1-3-7.通信部120}
 通信部120は、後述する通信装置166を含んで構成され得る。通信部120は、無線通信および/または有線通信により他の装置との間で情報の送受信を行う。例えば、通信部120は、センシング結果の提供要求やユーザの評価度を示す情報などを、送信制御部108の制御に従って複数の機器20へ送信する。また、通信部120は、空間4内の複数の機器20からセンシング結果を受信する。
 {1-3-8.出力部124}
 出力部124は、後述する出力装置162を含んで構成され得る。出力部124は、出力制御部106の制御に従って各種の情報(映像や音など)を出力する。出力部124は、音声出力部を有し得る。当該音声出力部は、例えばスピーカ、イヤフォン、または、ヘッドフォンなどを含んで構成される。当該音声出力部は、出力制御部106の制御に従って、音(音声や音楽など)を出力する。
 さらに、出力部124は、表示部を有し得る。当該表示部は、例えば、LCD(Liquid Crystal Display)、OLED(Organic Light Emitting Diode)など)、または、プロジェクタなどを含んで構成される。当該表示部は、出力制御部106の制御に従って、映像を表示(投影など)する。
 {1-3-9.記憶部126}
 記憶部126は、後述するストレージ装置164を含んで構成され得る。記憶部126は、各種のデータや、各種のソフトウェアを記憶する。例えば、記憶部126は、通信部120またはセンサ部122により取得された、出力部124による情報の出力に関するユーザの評価度を示す情報と、判断部102により決定された一以上の選出センシング結果の各々をセンシングした個々の機器20とを関連付けて記憶する。
 <1-4.適用例>
 以上、第1の実施形態の構成について説明した。次に、第1の実施形態に係る適用例について、図4~図13を参照して説明する。図4は、本適用例を説明するための図である。
 {1-4-1.情報の通知タイミングの到来前}
 図4に示したように、本適用例では、ユーザ2、端末10、複数の機器20(例えば冷蔵庫20a、スマートフォン20b、スマートウォッチ20c、および、テレビジョン受信機20dなど)、および、複数の障害物30(例えばキッチン30d、テーブル30b、および、壁30cなど)が空間4内に位置していることを想定する。
 ここで、ユーザ2は、例えばネックストラップを用いて、スマートフォン20bを首にかけている。また、ユーザ2は、スマートウォッチ20cを腕に装着している。さらに、図4に示したように、ユーザ2は歌を歌っているものとする。
 また、冷蔵庫20aは、高感度マイクロフォン、高感度カメラ、および、GPS受信機を内蔵している。例えば、冷蔵庫20aは、ユーザ2の音声を収音し、ユーザ2の全身を撮像し、かつ、冷蔵庫20aの位置情報をセンシングすることが可能である。スマートフォン20bは、マイクロフォン、加速度センサ、および、GPS受信機を内蔵している。例えば、スマートフォン20bは、ユーザ2の音声を収音し、かつ、スマートフォン20bの加速度および位置情報をセンシングすることが可能である。スマートウォッチ20cは、カメラ、加速度センサ、および、GPS受信機を内蔵している。例えば、スマートウォッチ20cは、スマートウォッチ20cの周辺(ユーザ2の身体の一部を含む)を撮像し、かつ、スマートフォン20bの加速度および位置情報をセンシングすることが可能である。
 図5は、図4に示した状況における、端末10のセンサ部122によるセンシング可能な範囲を示した図である。図5に示したように、センサ部122のカメラの画角内40aにユーザ2は位置していない。このため、当該カメラにより撮像される画像にはユーザ2が写り得ない。従って、端末10は、当該カメラによる撮像画像を用いて、ユーザ2の動きを認識することはできない。
 また、図5に示したように、センサ部122のマイクロフォンが収音可能な範囲40bからユーザ2は離れて位置しており、かつ、収音可能な範囲40bとユーザ2との間には、一定の高さを有する障害物30c(壁および引き戸)が位置している。このため、当該マイクロフォンは、ユーザ2の音声をほとんど収音できない。
 {1-4-2.情報の通知タイミングの到来時}
 図4(および図5)に示した状況において、ユーザ2に対する所定の通知情報の通知タイミングが到来したとする。前述したように、図4に示した状況では、端末10は、ユーザの状態の推定に利用可能なセンシング結果をほとんど取得できていない。そこで、ユーザの状態の推定に利用可能なセンシング結果を収集するために、図6に示したように、端末10の送信制御部108は、空間4内の全ての機器20へセンシング結果の提供要求を通信部120に送信させる。
 図7は、センシング結果の提供要求のデータの構成例(提供要求データ50)を示した図である。図7に示したように、提供要求データ50は、例えば、トランザクションID500、送信元502、および、送信先504を含む。ここで、送信元502には、端末10の識別情報が格納される。送信先504には、各機器20(図7に示した例では冷蔵庫20a)の識別情報が格納される。
 {1-4-3.センシング結果の送信}
 その後、センシング結果の提供要求が各機器20に受信される。この場合、図8に示したように、各機器20は、センサ部222によるセンシング結果(例えば当該提供要求の受信時におけるセンシング結果など)を端末10へ送信する。
 図9は、各機器20によるセンシング結果の送信データの構成例(センシング結果の送信データ52)を示した図である。図9に示したように、センシング結果の送信データ52は、例えば、トランザクションID520、送信元522、送信先524、センシング開始日時526、センシング終了日時528、および、センサ情報530を含む。ここで、送信元522には、各機器20(図9に示した例では冷蔵庫20a)の識別情報が格納される。送信先524には、端末10の識別情報が格納される。センシング開始日時526には、該当のセンシング結果のセンシング開始日時が記録される。センシング終了日時528には、該当のセンシング結果のセンシング終了日時が記録される。このようにセンシング開始日時およびセンシング終了日時が記録されることにより、該当のセンシング結果のセンシング区間が特定可能になる。
 また、図9に示したように、センサ情報530は、センサID5300、センサ種類5302、ベンダー5304、感度5306、位置情報5308、過去の評価5310、および、センシング結果5320を含む。なお、図9では、センサ情報530に一種類のセンシング結果(具体的には、収音結果)のデータだけが記録されている例を示しているが、かかる例に限定されず、例えば該当の機器20(図9に示した例では冷蔵庫20a)が有する全てのセンサの各々によるセンシング結果のデータが記録されていてもよい。
 ここで、センサID5300には、該当の機器20が有する個々のセンサに割り当てられているIDが記録される。センサ種類5302には、該当のIDのセンサの種類が記録される。ベンダー5304には、該当のIDのセンサ(または該当の機器)のメーカーが記録される。感度5306には、該当のIDのセンサの感度などの性能情報が記録される。位置情報5308には、例えばGPS受信機などにより取得された該当の機器(または該当のIDのセンサ)の位置情報が記録される。
 過去の評価5310には、該当のIDのセンサに対応するユーザの評価の履歴情報が格納される。より詳細には、過去の評価5310には、端末10が、該当のIDのセンサによるセンシング結果を選出センシング結果として選択し、かつ、当該センシング結果に基づいてユーザに対して情報を出力した際の、当該情報の出力に関して当該ユーザから取得された評価の履歴情報が格納され得る。図9に示したように、過去の評価5310は、平均値5312、および、positive回数5314を含む。平均値5312には、該当のIDのセンサに対応する、過去にユーザから得られた評価の度合いの平均値が記録される。positive回数5314には、該当のIDのセンサに対応する、過去にユーザからポジティブな評価(回答)が得られた回数が記録される。
 また、センシング結果5320には、該当のIDのセンサによるセンシング結果に関連する情報が記録される。図9に示したように、該当のIDのセンサが「マイクロフォン」である場合、センシング結果5320は、例えば、種類5322、平均ボリューム5324、平均ピッチ5326、および、感情種類5328を含む。ここで、種類5322には、該当のIDのセンサによりセンシングされた情報の種類(例えば音、画像、加速度など)が記録される。感情種類5328には、該当のIDのセンサによるセンシング結果に基づいてユーザ2の感情を該当の機器20が認識可能であった場合に当該認識結果(例えば、感情の種類など)が記録される。
 {1-4-4.選出センシング結果の決定}
 その後、端末10の判断部102は、複数のセンシング種類の各々に関して、複数の機器20から受信された複数のセンシング結果の中から、当該センシング種類に対応するセンシング結果を上記所定の基準に基づいてそれぞれ選択することにより、一以上の選出センシング結果を決定する。
 例えば、音のセンシング(収音)に関しては、機器20の性能情報(第2の基準)よりも、機器20とユーザ2との距離(第1の基準)の方が優先順位が高く定められているとする。図4~図8に示した例では、スマートフォン20bよりも冷蔵庫20aの方がマイクロフォンの性能は高い。一方で、冷蔵庫20aよりもスマートフォン20bの方がユーザ2に近い。そこで、判断部102は、収音に関しては、(冷蔵庫20aによるセンシング結果ではなく)スマートフォン20bによるセンシング結果を選出センシング結果として選択する。
 また、画像のセンシング(撮像)に関しては、機器20とユーザとの距離(第1の基準)よりも、機器20の性能情報(第2の基準)の方が優先順位が高く定められているとする。図4~図8に示した例では、冷蔵庫20aよりもスマートウォッチ20cの方がユーザ2に近い。一方で、スマートウォッチ20cが内蔵するカメラよりも、冷蔵庫20aが内蔵するカメラの方が解像度が高い。さらに、スマートウォッチ20cのカメラの画角内に収まっているユーザ2の体の範囲よりも、冷蔵庫20aのカメラの画角内に収まっているユーザ2の体の範囲の方が大きい。そこで、判断部102は、撮像に関しては、(スマートウォッチ20cによるセンシング結果ではなく)冷蔵庫20aによるセンシング結果を選出センシング結果として選択する。
 なお、端末10は、各機器20とユーザ2との距離を特定するために、複数の機器20によるセンシング結果を複合的に用いることが可能である。例えば、端末10は、まず、冷蔵庫20aのカメラにより撮影された(ユーザ2の全身が写っている)画像に基づいて、ユーザ2がスマートフォン20bを携帯していることや、ユーザ2がスマートウォッチ20cを装着していることを認識する。次に、端末10は、例えば、スマートフォン20bによりセンシングされた位置情報、または、スマートウォッチ20cによりセンシングされた位置情報とユーザ2の位置情報とを同一とみなすことにより、ユーザ2の位置情報を特定する。そして、端末10は、他の機器20(例えば冷蔵庫20aやテレビジョン受信機20d)によりセンシングされた位置情報と、特定されたユーザ2の位置情報との差分を算出することにより、当該他の機器20とユーザ2との距離を特定する。あるいは、端末10は、公知の空間エレクトロニクスに関する技術を用いて、空間4内の個々の機器20とユーザ2との距離を特定してもよい。
 {1-4-5.TTSの出力設定の決定}
 その後、端末10のユーザ状態推定部104は、判断部102により決定された複数の選出センシング結果を用いてユーザ2の状態を推定する。ここでは、ユーザ2の状態が「強調して通知すべき状態」であると推定されたとする。
 そして、出力制御部106は、推定されたユーザの状態に基づいて、ユーザ2に対する通知情報の出力設定を決定する。例えば、端末10は、スマートフォン20bから受信された、音のセンシング結果に基づいて、ユーザ2が歌を歌っていることを認識し得る。そこで、出力制御部106は、まず、ユーザに対する通知の音声を出力する前に、通常よりも大きい音量のサウンドフィードバックを出力部124に出力させることを決定する。さらに、出力制御部106は、当該通知の音声のピッチが通常よりも高くなり、当該音声の速度(話速)が通常よりも速くなり、かつ、当該音声の音量が通常よりも大きくなるように、当該音声の出力設定を決定する。
 また、端末10は、冷蔵庫20aから受信された撮像画像に基づいて、ユーザが動いていることを認識し得る。そこで、出力制御部106は、当該通知の音声の出力タイミングを、ユーザの動きが小さくなったタイミングに決定する。さらに、端末10は、例えば冷蔵庫20aから受信された撮像画像に基づいて、ユーザがスマートフォン20bを装着していることを認識し得る。そこで、出力制御部106は、スマートフォン20bから受信された位置情報のセンシング結果が示す位置へ指向性を持たせて当該通知の音声を出力部124に出力させることを決定する。
 {1-4-6.TTSの出力}
 その後、図10に示したように、出力制御部106は、決定した出力設定に基づいて、例えば「今日の夜は雲一つない夜空となります。・・・」のような当該通知の音声60を出力部124に出力させる。
 {1-4-7.ユーザからのフィードバックの取得・記録}
 その後、図11に示したように、当該通知の音声60の出力に対して、ユーザ2が例えば肯定的なフィードバックの発話62をしたとする。この場合、端末10のセンサ部122は、フィードバックの発話62を収音し得る。あるいは、いずれかの機器20(例えばスマートフォン20bなど)が発話62を収音し、そして、当該収音結果を端末10へ送信してもよい。
 その後、端末10の制御部100は、センサ部122による収音結果、または、いずれかの機器20から受信された収音結果に対して音声認識をし、当該音声認識の結果に対して自然言語処理を行い、そして、当該処理結果に対して意図理解を行う。そして、制御部100は、当該通知の音声60の出力に対してユーザが肯定的な評価を示したか否か、および、評価の度合いを、当該意図理解の結果に基づいて判定する。
 図11に示した例では、制御部100は、ユーザが肯定的な評価をしたと判定し、そして、当該判定結果に基づいて、ユーザの評価度を示す情報を生成(決定)する。さらに、制御部100は、当該ユーザの評価度を示す情報と、判断部102により決定された複数の選出センシング結果の各々をセンシングした個々の機器20(冷蔵庫20aおよびスマートフォン20b)とを関連付けて記憶部126に格納する。より具体的には、制御部100は、当該ユーザの評価度を示す情報と、当該複数の選出センシング結果のうち画像をセンシングした機器20が冷蔵庫20aであることと、当該複数の選出センシング結果のうち音声をセンシングした機器20がスマートフォン20bであることとを関連付けて記憶部126に格納する。
 さらに、図12に示したように、端末10の送信制御部108は、当該ユーザの評価度を示す情報と、当該複数の選出センシング結果の各々をセンシングした個々の機器20の識別情報との対応関係を示すデータ54(以下、「フィードバックの対応関係データ54」と称する場合もある)を全ての機器20へ通信部120に送信させる。あるいは、送信制御部108は、当該複数の選出センシング結果の各々をセンシングした個々の機器20に対してのみ、当該ユーザの評価度を示す情報を通信部120に送信させてもよい。これらの例によれば、当該ユーザの評価度を示す情報を例えば端末10が全て記憶する代わりに、複数の機器20に分散して記憶させることができる。
 図13は、フィードバックの対応関係データ54の構成例を示した図である。図13に示したように、フィードバックの対応関係データ54は、例えば、トランザクションID540、送信元542、および、フィードバック内容544を含む。ここで、送信元542には、端末10の識別情報が格納される。図13に示したように、フィードバック内容544は、例えば、機器5440、センサID5442、種類5444、および、評価度5446を含む。機器5440には、当該複数の選出センシング結果の各々をセンシングした個々の機器20(図13に示した例では冷蔵庫20aおよびスマートフォン20b)の識別情報が記録される。センサID5442には、該当の機器20がセンシングした当該選出センシング結果に対応するセンサの種類の識別番号(連番)が記録される。種類5444には、該当のIDのセンサの種類(例えばマイクロフォンなど)が記録される。評価度5446には、当該ユーザの評価度を示す情報が記録される。図13に示した例では、当該ユーザが肯定的な評価をしたこと、および、当該肯定的な評価の度合いが「5」であることを示している。
 <1-5.処理の流れ>
 以上、第1の実施形態の構成について説明した。次に、第1の実施形態に係る処理の流れの一例について、図14~図19を参照して説明する。
 {1-5-1.処理の全体の流れ}
 図14は、第1の実施形態に係る処理の流れの一部を示したシーケンス図である。図14に示したように、まず、端末10の制御部100は、ユーザに対して所定の時間内に通知すべき通知情報の有無を確認する(S101)。当該所定の時間内に通知すべき通知情報が存在しない間は(S101:No)、制御部100は、S101の処理を繰り返す。
 一方、当該所定の時間内に通知すべき通知情報が存在する場合には(S101:Yes)、まず、制御部100は、センサ部122による当該ユーザに関する現在のセンシング結果をセンサ部122から取得する(S103)。
 続いて、通信部120は、送信制御部108の制御に従って、センシング結果の提供要求を空間4内の複数の機器20へ送信する(S105)。
 その後、各機器20のセンサ部222は、当該ユーザに関してセンシングする(S107)。さらに、各機器20の制御部200は、S107におけるセンシング結果に基づいてユーザの状態に関して認識し得る。例えば、制御部200は、S107におけるセンシング結果に基づいて、ユーザのジェスチャ、ユーザの感情、ユーザの集中度合い、または、ユーザのリラックス度合いなどを認識してもよい(S109)。
 その後、各機器20は、S107におけるセンシング結果およびS109における認識結果を端末10へ送信する(S111)。
 ここで、図15を参照して、S111より後の処理の流れについて説明する。図15に示したように、S111の後、端末10の判断部102は、S111において各機器20から受信されたセンシング結果と、S103におけるセンサ部122によるセンシング結果との中から、ユーザの状態の推定に用いられる一以上の選出センシング結果を所定の基準に基づいて決定する(S121)。
 続いて、端末10は、後述する「ユーザの状態の推定処理」を行う(S123)。
 続いて、端末10の出力制御部106は、S101で取得された通知情報に対応する音声(例えばTTS)の出力設定を、S123で推定されたユーザの状態に基づいて決定する(S125)。そして、出力制御部106は、当該通知情報に対応する音声を、S125で決定された出力設定に基づいて出力部124に出力させる(S127)。
 ここで、図16を参照して、S127より後の処理の流れについて説明する。図16に示したように、端末10の制御部100は、S127における音声の出力に関する該当のユーザのフィードバックが、例えばセンサ部122によりセンシングされること、または、通信部120により受信されることにより取得されるまで待機する(S141:No)。なお、該当のユーザからフィードバックが得られないまま所定の時間が経過した場合には、当該処理は終了し得る。
 一方、該当のユーザのフィードバックが取得された場合には(S141:Yes)、制御部100は、当該フィードバックに対して各種の認識処理(例えば音声認識や意図理解など)を行うことにより、当該フィードバックに対応するユーザの評価度を判定する。次に、制御部100は、当該判定結果に基づいて、当該ユーザの評価度を示す情報を生成する。そして、制御部100は、当該ユーザの評価度を示す情報と、S121で決定された一以上の選出センシング結果の各々をセンシングした個々の機器20とを関連付けて記憶部126に格納する(S143)。
 続いて、通信部120は、送信制御部108の制御に従って、当該評価度を示す情報を空間4内の複数の機器20へ送信する。例えば、通信部120は、当該一以上の選出センシング結果の各々をセンシングした個々の機器20に対してのみ当該評価度を示す情報を送信してもよい(S145)。
 その後、各機器20は、受信された当該評価度を示す情報を記憶する(S147)。
 {1-5-2.ユーザの状態の推定処理}
 ここで、図17~図19を参照して、S123における「ユーザの状態の推定処理」の流れの一例について説明する。図17に示したように、まず、端末10のユーザ状態推定部104は、S121で決定された一以上の選出センシング結果の各々に基づいて、該当のユーザが活発状態であるか否かを判定する(S201)。
 当該ユーザが活発状態であると判定された場合には(S201:Yes)、次に、ユーザ状態推定部104は、当該一以上の選出センシング結果の中に、当該ユーザが発した音のセンシング結果が含まれているか否かを判定する(S203)。当該ユーザが発した音のセンシング結果が含まれている場合には(S203:Yes)、次に、ユーザ状態推定部104は、当該ユーザが発した音の種類を当該音のセンシング結果を用いて判定する(S205)。当該ユーザが発した音の種類が「言語音」であると判定された場合には、ユーザ状態推定部104は、当該ユーザの状態を「後で通知すべき状態」(以下では、「状態B」と称する)と推定する(S207)。一方、当該ユーザが発した音の種類が「言語音」以外の音(具体的には、鼻歌、歌声、非言語音、または、非音声)であると判定された場合には、ユーザ状態推定部104は、当該ユーザの状態を「強調して通知すべき状態」(以下では、「状態A」と称する)と推定する(S209)。
 一方、S203において、当該一以上の選出センシング結果の中に、当該ユーザが発した音のセンシング結果が含まれていないと判定された場合には(S203:No)、ユーザ状態推定部104は、当該ユーザの状態を「状態A」と推定する(S209)。
 ここで、図18を参照して、S201において当該ユーザが活発状態ではない(つまり、不活発状態である)と判定された場合(S201:No)における処理の流れについて説明する。図18に示したように、まず、ユーザ状態推定部104は、当該一以上の選出センシング結果の中に、当該ユーザが発した音のセンシング結果が含まれているか否かを判定する(S211)。当該一以上の選出センシング結果の中に、当該ユーザが発した音のセンシング結果が含まれていないと判定された場合には(S211:No)、ユーザ状態推定部104は、当該ユーザの状態を「通常状態」(以下では、「状態C」と称する)と推定する(S213)。
 一方、当該一以上の選出センシング結果の中に、当該ユーザが発した音のセンシング結果が含まれている場合には(S211:Yes)、次に、ユーザ状態推定部104は、当該ユーザが発した音の種類を当該音のセンシング結果を用いて判定する(S215)。当該ユーザが発した音の種類が「言語音」であると判定された場合には、ユーザ状態推定部104は、当該ユーザの状態を「状態B」と推定する(S217)。
 一方、当該ユーザが発した音の種類が「鼻歌」または「歌声」であると判定された場合には、次に、ユーザ状態推定部104は、当該一以上の選出センシング結果の中に、当該ユーザのバイタル情報のセンシング結果が含まれているか否かを判定する(S219)。当該一以上の選出センシング結果の中に、当該ユーザのバイタル情報のセンシング結果が含まれていない場合には(S219:No)、ユーザ状態推定部104は、当該ユーザの状態を「状態A」と推定する(S223)。
 一方、当該一以上の選出センシング結果の中に、当該ユーザのバイタル情報のセンシング結果が含まれている場合には(S219:Yes)、ユーザ状態推定部104は、次に、当該ユーザのバイタル情報のセンシング結果を用いて、当該ユーザが「休んでいる」か否かを判定する(S221)。当該ユーザが「休んでいる」と判定された場合には(S221:Yes)、ユーザ状態推定部104は、当該ユーザの状態を「状態A」と推定する(S223)。
 一方、当該ユーザが「休んでいない」と判定された場合には(S221:No)、次に、ユーザ状態推定部104は、当該一以上の選出センシング結果の中に、当該ユーザの視線のセンシング結果が含まれているか否かを判定する(S225)。当該一以上の選出センシング結果の中に、当該ユーザの視線のセンシング結果が含まれていない場合には(S225:No)、ユーザ状態推定部104は、当該ユーザの状態を「状態C」と推定する(S231)。
 一方、当該一以上の選出センシング結果の中に、当該ユーザの視線のセンシング結果が含まれている場合には(S225:Yes)、次に、ユーザ状態推定部104は、当該ユーザの視線のセンシング結果を用いて、当該ユーザが「集中している」か否かを判定する(S227)。当該ユーザが「集中している」と判定された場合には(S227:Yes)、ユーザ状態推定部104は、当該ユーザの状態を「状態B」と推定する(S229)。
 一方、当該ユーザが「集中していない」と判定された場合には(S227:No)、ユーザ状態推定部104は、当該ユーザの状態を「状態C」と推定する(S231)。
 ここで、図19を参照して、S215において、当該ユーザが発した音の種類が「非言語音」または「非音声」であると判定された場合における処理の流れについて説明する。図19に示したように、S215において、当該ユーザが発した音の種類が「非言語音」であると判定された場合には、まず、ユーザ状態推定部104は、当該一以上の選出センシング結果の中に、当該ユーザのバイタル情報のセンシング結果が含まれているか否かを判定する(S243)。当該一以上の選出センシング結果の中に、当該ユーザのバイタル情報のセンシング結果が含まれていない場合には(S243:No)、ユーザ状態推定部104は、当該ユーザの状態を「状態C」と推定する(S253)。
 一方、当該一以上の選出センシング結果の中に、当該ユーザのバイタル情報のセンシング結果が含まれている場合には(S243:Yes)、ユーザ状態推定部104は、次に、当該ユーザのバイタル情報のセンシング結果を用いて、当該ユーザが「休んでいる」か否かを判定する(S245)。当該ユーザが「休んでいる」と判定された場合には(S245:Yes)、ユーザ状態推定部104は、当該ユーザの状態を「状態C」と推定する(S253)。
 一方、当該ユーザが「休んでいない」と判定された場合には(S245:No)、次に、ユーザ状態推定部104は、当該一以上の選出センシング結果の中に、当該ユーザの視線のセンシング結果が含まれているか否かを判定する(S247)。当該一以上の選出センシング結果の中に、当該ユーザの視線のセンシング結果が含まれていない場合には(S247:No)、ユーザ状態推定部104は、当該ユーザの状態を「状態C」と推定する(S253)。
 一方、当該一以上の選出センシング結果の中に、当該ユーザの視線のセンシング結果が含まれている場合には(S247:Yes)、次に、ユーザ状態推定部104は、当該ユーザの視線のセンシング結果を用いて、当該ユーザが「集中している」か否かを判定する(S249)。当該ユーザが「集中している」と判定された場合には(S249:Yes)、ユーザ状態推定部104は、当該ユーザの状態を「状態B」と推定する(S251)。一方、当該ユーザが「集中していない」と判定された場合には(S249:No)、ユーザ状態推定部104は、当該ユーザの状態を「状態C」と推定する(S253)。
 一方、S215において、当該ユーザが発した音の種類が「非音声」であると判定された場合には、まず、ユーザ状態推定部104は、当該一以上の選出センシング結果の中に、当該ユーザのバイタル情報のセンシング結果が含まれているか否かを判定する(S261)。当該一以上の選出センシング結果の中に、当該ユーザのバイタル情報のセンシング結果が含まれていない場合には(S261:No)、ユーザ状態推定部104は、当該ユーザの状態を「状態B」と推定する(S267)。
 一方、当該一以上の選出センシング結果の中に、当該ユーザのバイタル情報のセンシング結果が含まれている場合には(S261:Yes)、ユーザ状態推定部104は、次に、当該ユーザのバイタル情報のセンシング結果を用いて、当該ユーザが「休んでいる」か否かを判定する(S263)。当該ユーザが「休んでいる」と判定された場合には(S263:Yes)、ユーザ状態推定部104は、当該ユーザの状態を「状態A」と推定する(S265)。
 一方、当該ユーザが「休んでいない」と判定された場合には(S263:No)、ユーザ状態推定部104は、当該ユーザの状態を「状態B」と推定する(S267)。
 <1-6.効果>
 以上説明したように、第1の実施形態に係る端末10は、複数の機器20から受信された複数のセンシング結果の中から、ユーザの状態の推定に用いられる一以上の選出センシング結果を所定の基準に基づいて決定し、そして、当該一以上の選出センシング結果に基づいて情報の出力を制御する。このため、ユーザの状態の推定に用いられるセンシング結果を適切に決定することができる。その結果、ユーザの状態の推定の精度を向上させることができる。これにより、ユーザに対して情報を出力する際に、ユーザの状態により適した態様で情報を出力することができる。
 例えば、端末10による当該ユーザに関するセンシングが不可能、または、困難である場合に、端末10は、複数の機器20から受信された、当該ユーザに関する複数のセンシング結果の中から当該一以上の選出センシング結果を当該所定の基準に基づいて決定することが可能である。このため、例えば端末10がユーザ2に関してセンシングし難い状況であっても、ユーザの状態に適した出力設定で、例えば当該ユーザに対する通知の音声などの情報を出力することができる。その結果、当該情報の内容が当該ユーザに十分伝達され得る。
 <1-7.具体例>
 次に、前述したユーザ状態推定部104によるユーザの状態の推定の具体例について、「1-7-1.具体例1」~「1-7-4.具体例4」において説明する。
 {1-7-1.具体例1}
 まず、図20を参照して、具体例1について説明する。図20に示したように、具体例1では、ユーザ2は、スマートフォン20bを所持(例えばポケットに入れているなど)しながら、空間4内を行ったり来たりしていることを想定する。例えば、ユーザ2は、空間4内で掃除をしている。また、ユーザ2は、鼻歌を歌っていることを想定する。スマートフォン20bは、加速度センサ、および、マイクロフォンを内蔵しているものとする。
 図20に示した例では、端末10は、まず、スマートフォン20bの加速度センサによる加速度のセンシング結果、および、マイクロフォンによる収音結果をスマートフォン20bから受信する。次に、端末10は、受信された加速度のセンシング結果に基づいて、ユーザが大きく動いていることを認識し、そして、当該認識結果に基づいて、ユーザ2が活発状態であると認識する。さらに、端末10は、受信された収音結果に基づいて、ユーザが鼻歌を歌っていることを認識する。そして、端末10は、ユーザ2が活発状態であり、かつ、鼻歌を歌っていることに基づいて、ユーザ2が「状態A(=強調して通知すべき状態)」であると推定する。
 {1-7-2.具体例2}
 次に、図21を参照して、具体例2について説明する。図21に示したように、具体例2では、ユーザ2は、冷蔵庫20aの中を見ながら、例えば「あれ?買ったはずのプリンが無いなあ。」のような独り言を言っていることを想定する。冷蔵庫20aは、カメラ、および、マイクロフォンを内蔵しているものとする。
 図21に示した例では、端末10は、冷蔵庫20aのカメラによる撮像画像およびマイクロフォンによる収音結果を冷蔵庫20aから受信する。次に、端末10は、受信された撮像画像に基づいて、ユーザ2がほとんど動いていないことを認識し、そして、当該認識結果に基づいて、ユーザ2が不活発状態であると認識する。さらに、端末10は、受信された収音結果に基づいて、ユーザ2が言語音を発していることを認識する。そして、端末10は、ユーザ2が不活発状態であり、かつ、言語音を発していることに基づいて、ユーザ2が「状態B(=後で通知すべき状態)」であると推定する。
 {1-7-3.具体例3}
 次に、図22を参照して、具体例3について説明する。図22に示したように、具体例3では、ユーザ2は、アイウェア20eを装着した状態でソファに座っていることを想定する。また、ユーザ2は、アイウェア20eによるAR(Augmented Reality)コンテンツの視聴に集中しており、かつ、楽しんでいる。例えば、ユーザ2は、興奮して、笑っている。アイウェア20eは、加速度センサ、脳波センサ、マイクロフォン、および、視線センサを内蔵しているものとする。
 図21に示した例では、端末10は、アイウェア20eの加速度センサによる加速度のセンシング結果、脳波センサによる脳波のセンシング結果、マイクロフォンによる収音結果、および、視線センサによる視線のセンシング結果をアイウェア20eから受信する。次に、端末10は、受信された加速度のセンシング結果に基づいて、ユーザ2がほとんど動いていないことを認識し、そして、当該認識結果に基づいて、ユーザ2が不活発状態であると認識する。さらに、端末10は、受信された収音結果に基づいて、ユーザが非言語音(笑い声など)を発していることを認識する。さらに、端末10は、受信された脳波のセンシング結果に基づいて、脳波が活発化していることを認識し、そして、当該認識結果に基づいて、ユーザ2が「休んでいない」ことを認識する。さらに、端末10は、受信された視線のセンシング結果に基づいて、ユーザ2の瞬きの頻度が小さいことを認識し、そして、当該認識結果に基づいて、ユーザ2の集中度合いが所定の閾値以上であることを認識する。そして、端末10は、ユーザ2が不活発状態であり、非言語音を発しており、かつ、「休まずに集中している」ことに基づいて、ユーザ2が「状態B」であると推定する。
 {1-7-4.具体例4}
 次に、図23を参照して、具体例4について説明する。図23に示したように、具体例4では、ユーザ2は、オープンイヤーデバイス20f(例えば、イヤフォン型の装置、または、首掛け型のスピーカなど)を装着した状態でオフィスの廊下4を歩きながら、例えば「うー。うーーー。」などと嘆いていることを想定する。オープンイヤーデバイス20fは、加速度センサ、および、マイクロフォンを内蔵しているものとする。また、オープンイヤーデバイス20fは、音声出力部を有し得る。
 図23に示した例では、端末10は、オープンイヤーデバイス20fの加速センサによる加速度のセンシング結果、および、マイクロフォンによる収音結果をオープンイヤーデバイス20fから受信する。次に、端末10は、受信された加速度のセンシング結果に基づいて、ユーザ2が大きく動いていることを認識し、そして、当該認識結果に基づいて、ユーザ2が活発状態であると認識する。さらに、端末10は、受信された収音結果に基づいて、ユーザ2が非言語音(嘆き声など)を発していることを認識する。そして、端末10は、ユーザ2が活発状態であり、かつ、非言語音を発していることに基づいて、ユーザ2が「状態A」であると推定する。
<<2.第2の実施形態>>
 以上、第1の実施形態に説明した。次に、第2の実施形態に説明する。後述するように、第2の実施形態によれば、サーバ70が、空間4内の複数の機器20から端末10が受信した複数のセンシング結果の中から、(ユーザの状態の推定に用いられる)一以上の選出センシング結果を上記所定の基準に基づいて決定することが可能である。以下、第2の実施形態の内容について順次詳細に説明を行う。以下では、第1の実施形態と異なる内容についてのみ説明を行うこととし、同一の内容については説明を省略する。
 <2-1.システム構成>
 まず、第2の実施形態に係る情報処理システムの構成例について、図24を参照して説明する。図24に示すように、第2の実施形態に係る情報処理システムは、図1に示した第1の実施形態と比較して、通信網22、および、サーバ70をさらに有する。
 {2-1-1.通信網22}
 通信網22は、通信網22に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網22は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網22は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 {2-1-2.サーバ70}
 サーバ70は、本開示に係る情報処理装置の一例である。サーバ70は、通信網22を介して、端末10に対して各種の情報(例えば、音声、映像、または、音楽など)の出力を制御する。例えば、サーバ70は、所定のアプリケーションサービスにおける所定の通知情報に対応する音声を端末10に出力させる。または、サーバ70は、所定のアプリケーションサービスにおけるユーザ2との対話の音声を端末10に出力させてもよい。
 <2-2.構成:端末10>
 以上、第2の実施形態に係る情報処理システムの構成について説明した。次に、第2の実施形態に係る構成について説明する。図25は、第2の実施形態に係る端末10の構成例を示した機能ブロック図である。図25に示すように、端末10は、図3に示した第1の実施形態と比較して、判断部102、および、ユーザ状態推定部104を有しない。以下では、第1の実施形態と異なる機能を有する構成要素についてのみ説明を行う。
 {2-2-1.出力制御部106}
 第2の実施形態に係る出力制御部106は、サーバ70から受信された制御情報に基づいて、出力部124に対して各種の情報(例えば、音声(TTSなど)、映像、または、音楽など)の出力を制御する。例えば、出力制御部106は、サーバ70から受信された制御情報が指定する種類の情報を、当該制御情報が指定するタイミングに出力部124に出力させる。
 または、出力制御部106は、例えばサーバ70から受信された映像や音声自体や、サーバ70から受信された情報(例えばユーザに対する通知情報など)に対応する音声などを、サーバ70から受信された制御情報に基づいて出力部124に出力させてもよい。
 <2-3.構成:サーバ70>
 次に、第2の実施形態に係るサーバ70の構成例について説明する。図26は、第2の実施形態に係るサーバ70の構成例を示した機能ブロック図である。図26に示すように、サーバ70は、制御部700、通信部720、および、記憶部722を有する。
 {2-3-1.制御部700}
 制御部700は、例えば、後述するCPU150やGPUなどの処理回路を含んで構成され得る。制御部700は、サーバ70の動作を統括的に制御する。また、図26に示すように、制御部700は、判断部702、ユーザ状態推定部704、出力制御部706、および、送信制御部708を有する。
 {2-3-2.判断部702}
 判断部702は、端末10を介して受信された、空間4内の複数の機器20による複数のセンシング結果および端末10によるセンシング結果の中から、(前述した)一以上の選出センシング結果を上記所定の基準に基づいて決定する。または、判断部702は、端末10を介して受信された、当該複数の機器20による複数のセンシング結果のみの中から、当該一以上の選出センシング結果を上記所定の基準に基づいて決定してもよい。
 なお、判断部702による具体的な判断の内容に関しては、第1の実施形態に係る判断部102と概略同様である。
 {2-3-3.ユーザ状態推定部704}
 ユーザ状態推定部704は、判断部702により決定された一以上の選出センシング結果を用いてユーザ(例えば、対象のユーザ)の状態を推定する。なお、ユーザ状態推定部704による具体的な推定の内容に関しては、第1の実施形態に係るユーザ状態推定部104と概略同様である。
 {2-3-4.出力制御部706}
 出力制御部706は、端末10による情報の出力を制御する。例えば、出力制御部706は、まず、ユーザ状態推定部704により推定されたユーザの状態に基づいて、例えば当該ユーザに対する通知情報などの情報を端末10に出力させるための制御情報を生成する。そして、出力制御部706は、生成した制御情報を端末10へ通信部720に送信させる。
 なお、出力制御部706による具体的な出力制御の一部の内容に関しては、第1の実施形態に係る出力制御部106と概略同様であり得る。
 {2-3-5.送信制御部708}
 送信制御部708は、他の装置に対する各種の情報の送信を制御する。例えば、送信制御部708は、端末10により情報が出力された後に当該情報の出力に関してユーザから得られた評価度を示す情報を、空間4内の複数の機器20へ通信部120に送信させてもよい。または、送信制御部708は、当該評価度を示す情報を当該複数の機器20へ送信させるための制御情報を生成し、そして、当該制御情報を端末10へ通信部720に送信させてもよい。
 {2-3-6.通信部720}
 通信部720は、例えば、後述する通信装置166を含んで構成され得る。通信部720は、例えば通信網22を介して、他の装置との間で情報の送受信を行う。
 {2-3-7.記憶部722}
 記憶部722は、例えば、後述するストレージ装置164を含んで構成され得る。記憶部722は、各種のデータや、各種のソフトウェアを記憶する。
 <2-4.処理の流れ>
 以上、第2の実施形態の構成について説明した。次に、第2の実施形態に係る処理の流れの一例について、図27および図28を参照して説明する。
 図27は、第2の実施形態に係る処理の流れの一部を示したシーケンス図である。図27に示したように、まず、サーバ70の制御部700は、ユーザに対して所定の時間内に通知すべき通知情報の有無を確認する(S301)。当該所定の時間内に通知すべき通知情報が存在しない間は(S301:No)、制御部700は、S301の処理を繰り返す。
 一方、当該所定の時間内に通知すべき通知情報が存在する場合には(S301:Yes)、通信部720は、送信制御部708の制御に従って、当該通知情報の存在を示す情報を端末10へ送信する。ここで、当該通知情報の存在を示す情報は、例えば、通知対象のユーザの識別情報を含んでもよい(S303)。
 その後、端末10は、該当ユーザに関してセンシングをする(S305)。そして、端末10は、当該センシング結果をサーバ70へ送信する(S307)。
 なお、図27に示したS309~S315の処理は、(図14に示した)第1の実施形態におけるS105~S111と同様である。
 S315の後、端末10は、S315において、例えば全ての機器20から受信されたセンシング結果等をサーバ70へ送信する(S317)。
 ここで、図28を参照して、S317より後の処理の流れについて説明する。図28に示したように、S317の後、サーバ70の判断部702は、S307で受信された端末10によるセンシング結果と、S317で受信された各機器20によるセンシング結果との中から、ユーザの状態の推定に用いられる一以上の選出センシング結果を所定の基準に基づいて決定する(S321)。
 続いて、サーバ70のユーザ状態推定部704は、「ユーザの状態の推定処理」を行う(S323)。なお、S323の処理の内容は、図17~図19に示した第1の実施形態におけるS123の処理と概略同一であってもよい。
 続いて、サーバ70の出力制御部706は、S301で取得された通知情報に対応する音声の出力設定を、S323で推定されたユーザの状態に基づいて決定する(S325)。
 続いて、出力制御部706は、当該通知情報に対応する音声を、S325で決定された出力設定で出力させるための制御情報を生成する(S327)。そして、通信部720は、出力制御部706の制御に従って、S327で生成された制御情報を端末10へ送信する(S329)。
 その後、端末10の出力制御部106は、S329で受信された制御情報に従って、当該通知情報に対応する音声を出力部124に出力させる(S331)。
 なお、S331より後の処理は、(図16に示した)第1の実施形態におけるS141~S147と概略同様である。
 <2-5.効果>
 以上説明したように、第2の実施形態に係るサーバ70は、空間4内の複数の機器20から端末10を介して受信された複数のセンシング結果の中から、ユーザの状態の推定に用いられる一以上の選出センシング結果を上記所定の基準に基づいて決定し、そして、当該一以上の選出センシング結果に基づいて、情報を端末10に出力させる。これにより、「1-6節」で述べた第1の実施形態と概略同様の効果が得られる。
 <2-6.変形例>
 {2-6-1.変形例1}
 第2の実施形態は前述した例に限定されない。例えば、図24では、サーバ70が一台だけ図示されているが、かかる例に限定されず、複数台のコンピュータが協同して動作することにより、サーバ70の機能が実現されてもよい。
 {2-6-2.変形例2}
 別の変形例として、前述した制御部700と同様の機能を有し、かつ、例えば通信網22を介して端末10と通信可能な他の装置が、サーバ70の代わりに、端末10に対して情報の出力を制御してもよい。つまり、当該他の装置は、上記の一以上の選出センシング結果を決定し、そして、当該一以上の選出センシング結果に基づいて情報を端末10に出力させてもよい。一例として、当該他の装置は、汎用PC、タブレット型端末、ゲーム機、スマートフォンなどの携帯電話、携帯型音楽プレーヤ、スピーカ、プロジェクタ、ウェアラブルデバイス(例えばアイウェアやスマートウォッチなど)、車載装置(カーナビゲーション装置など)、または、ロボット(例えばヒューマノイド型ロボットやドローンなど)であってもよい。さらに、この場合、サーバ70は必ずしも設置されなくてもよい。
<<3.ハードウェア構成>>
 次に、各実施形態に共通する端末10のハードウェア構成例について、図29を参照して説明する。図29に示すように、端末10は、CPU150、ROM(Read Only Memory)152、RAM(Random Access Memory)154、バス156、インターフェース158、入力装置160、出力装置162、ストレージ装置164、および、通信装置166を備える。
 CPU150は、演算処理装置および制御装置として機能し、各種プログラムに従って端末10内の動作全般を制御する。また、CPU150は、端末10において制御部100の機能を実現する。なお、CPU150は、マイクロプロセッサなどのプロセッサにより構成される。
 ROM152は、CPU150が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。
 RAM154は、例えば、CPU150により実行されるプログラムや、使用中のデータなどを一時的に記憶する。
 バス156は、CPUバスなどから構成される。このバス156は、CPU150、ROM152、および、RAM154を相互に接続する。
 インターフェース158は、入力装置160、出力装置162、ストレージ装置164、および、通信装置166を、バス156と接続する。
 入力装置160は、例えばタッチパネル、ボタン、スイッチ、レバー、マイクロフォンなどユーザが情報を入力するための入力手段、および、ユーザによる入力に基づいて入力信号を生成し、CPU150に出力する入力制御回路などから構成される。
 出力装置162は、例えばLCDやOLEDなどのディスプレイ、または、プロジェクタなどの表示装置を含む。また、出力装置162は、スピーカなどの音声出力装置を含む。
 ストレージ装置164は、記憶部126として機能する、データ格納用の装置である。ストレージ装置164は、例えば、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、または、記憶媒体に記録されたデータを削除する削除装置などを含む。
 通信装置166は、例えば通信網22などに接続するための通信デバイス(例えばネットワークカードなど)等で構成された通信インターフェースである。また、通信装置166は、無線LAN対応通信装置、LTE(Long Term Evolution)対応通信装置、または有線による通信を行うワイヤー通信装置であってもよい。この通信装置166は、通信部120として機能する。
<<4.変形例>>
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 <4-1.変形例1>
 例えば、ユーザに対する通知情報を出力する場面において、空間4内に複数のユーザが存在する場合には、端末10(またはサーバ70)は、空間4内の複数の機器20から受信された複数のセンシング結果の中から、当該通知情報の通知対象のユーザの状態のみの推定に用いられるセンシング結果を、当該一以上の選出センシング結果として上記所定の基準に基づいて決定してもよい。例えば、空間4内の各ユーザの顔画像が端末10(またはサーバ70)に予め登録され得る。そして、端末10(またはサーバ70)は、空間4内の複数のユーザの中から、複数の機器20により撮像された一以上のユーザの顔の撮像画像と、予め登録されている当該通知対象のユーザの顔画像とを比較することにより、当該通知対象のユーザに対応するセンシング結果を当該複数のセンシング結果の中から選択してもよい。
 さらに、端末10(またはサーバ70)は、決定された当該一以上の選出センシング結果に基づいて当該通知対象のユーザの状態のみを推定し、そして、推定結果に基づいて当該通知情報を出力部124に出力させてもよい。
 <4-2.変形例2>
 前述した各実施形態の処理の流れにおける各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。
 また、前述した各実施形態によれば、CPU150、ROM152、およびRAM154などのハードウェアを、第1の実施形態に係る端末10および/または第2の実施形態に係るサーバ70の各構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、当該コンピュータプログラムが記録された記憶媒体も提供される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 複数の機器から受信された複数の第1のセンシング結果の中から、ユーザの状態の推定に用いられる一以上の第2のセンシング結果を所定の基準に基づいて決定する判断部と、
 前記一以上の第2のセンシング結果に基づいて情報の出力を制御する出力制御部と、
を備える、情報処理装置。
(2)
 前記出力制御部は、前記一以上の第2のセンシング結果を用いて推定された前記ユーザの状態に基づいて、前記情報の出力を制御する、前記(1)に記載の情報処理装置。
(3)
 前記一以上の第2のセンシング結果は、複数のセンシング種類の各々に関するセンシング結果を含み、
 前記判断部は、前記複数のセンシング種類の各々に関して、前記複数の第1のセンシング結果の中から、当該センシング種類に対応するセンシング結果を前記所定の基準に基づいてそれぞれ選択することにより、前記一以上の第2のセンシング結果を決定する、前記(2)に記載の情報処理装置。
(4)
 前記所定の基準は、前記複数の機器の各々と前記ユーザとの距離、前記複数の機器の各々の性能情報、前記複数の機器の各々の製造元の信頼度、および、前記複数の機器の各々に関連付けられているユーザの評価度のうちの少なくとも一つを含む、前記(3)に記載の情報処理装置。
(5)
 前記判断部は、前記複数のセンシング種類の各々に関して、前記複数の機器のうち、前記ユーザのより近くに位置する前記機器による当該センシング種類に対応するセンシング結果を前記複数の第1のセンシング結果の中からそれぞれ選択する、前記(4)に記載の情報処理装置。
(6)
 前記判断部は、前記複数のセンシング種類の各々に関して、前記複数の機器のうち、当該センシング種類に関するセンシングの性能がより高い前記機器による当該センシング種類に対応するセンシング結果を前記複数の第1のセンシング結果の中からそれぞれ選択する、前記(5)に記載の情報処理装置。
(7)
 前記判断部は、前記複数のセンシング種類の各々に関して、前記複数の機器のうち、製造元の信頼度がより高い前記機器による当該センシング種類に対応するセンシング結果を前記複数の第1のセンシング結果の中からそれぞれ選択する、前記(5)または(6)に記載の情報処理装置。
(8)
 前記判断部は、前記複数のセンシング種類の各々に関して、前記複数の機器の各々に関連付けて記憶されているユーザの評価度がより高い前記機器による、当該センシング種類に対応するセンシング結果を前記複数の第1のセンシング結果の中からそれぞれ選択する、前記(5)~(7)のいずれか一項に記載の情報処理装置。
(9)
 前記判断部は、前記複数のセンシング種類の各々に関して、前記複数の第1のセンシング結果の中から、当該センシング種類に対応するセンシング結果を、前記複数の機器の各々と前記ユーザとの距離、前記複数の機器の各々の性能情報、前記複数の機器の各々の製造元の信頼度、および、前記複数の機器の各々に関連付けられているユーザの評価度に基づいてそれぞれ選択することにより、前記一以上の第2のセンシング結果を決定する、前記(4)~(8)のいずれか一項に記載の情報処理装置。
(10)
 前記複数のセンシング種類は、音のセンシングを含み、
 前記判断部は、ユーザの発話の音が直接音としてセンシングされたセンシング結果を、前記ユーザの発話の音が間接音としてセンシングされたセンシング結果よりも優先して前記複数の第1のセンシング結果の中から選択することにより、前記一以上の第2のセンシング結果を決定する、前記(4)~(9)のいずれか一項に記載の情報処理装置。
(11)
 前記出力制御部は、前記一以上の第2のセンシング結果を用いて推定された前記ユーザの状態に対応する出力態様で、前記情報を出力部に出力させる、前記(4)~(10)のいずれか一項に記載の情報処理装置。
(12)
 前記情報は、前記ユーザに対する通知情報であり、
 前記出力制御部は、前記一以上の第2のセンシング結果を用いて推定された前記ユーザの状態に対応する出力態様で、前記ユーザに対する通知情報に対応する音声を前記出力部に出力させる、前記(11)に記載の情報処理装置。
(13)
 前記出力制御部は、前記一以上の第2のセンシング結果を用いて推定された前記ユーザの状態に基づいて、前記ユーザに対する通知情報の通知タイミングを決定し、かつ、
 決定した通知タイミングに、前記ユーザに対する通知情報に対応する音声を前記出力部に出力させる、前記(12)に記載の情報処理装置。
(14)
 前記出力部により前記情報が出力された後に前記情報の出力に関して前記ユーザから得られた評価度を示す情報と、前記一以上の第2のセンシング結果の各々をセンシングした前記機器とを関連付けて記憶する記憶部をさらに備える、前記(11)~(13)のいずれか一項に記載の情報処理装置。
(15)
 前記出力部により前記情報が出力された後に前記情報の出力に関して前記ユーザから得られた評価度を示す情報を、前記一以上の第2のセンシング結果の各々をセンシングした前記機器へ通信部に送信させる送信制御部をさらに備える、前記(11)~(14)のいずれか一項に記載の情報処理装置。
(16)
 前記通信部と、
 前記一以上の第2のセンシング結果を用いて前記ユーザの状態を推定するユーザ状態推定部と、をさらに備え、
 前記通信部は、前記複数の機器から前記複数の第1のセンシング結果を受信する、前記(15)に記載の情報処理装置。
(17)
 前記複数のセンシング種類のうちの一以上の各々に関してセンシングするセンサ部をさらに備え、
 前記判断部は、前記複数のセンシング種類の各々に関して、前記複数の第1のセンシング結果および前記センサ部によるセンシング結果の中から、当該センシング種類に対応する、前記ユーザに関するセンシング結果を前記所定の基準に基づいてそれぞれ選択することにより、前記一以上の第2のセンシング結果を決定する、前記(11)~(16)のいずれか一項に記載の情報処理装置。
(18)
 前記複数のセンシング種類の各々に関して、前記センサ部による当該センシング種類に対応する、前記ユーザに関するセンシングが不可能と判定された場合、または、前記センサ部による当該センシング種類に対応する、前記ユーザに関するセンシング結果の精度が所定の閾値よりも低い場合には、前記判断部は、前記複数の第1のセンシング結果の中から、当該センシング種類に対応するセンシング結果を前記所定の基準に基づいてそれぞれ選択する、前記(17)に記載の情報処理装置。
(19)
 複数の機器から受信された複数の第1のセンシング結果の中から、ユーザの状態の推定に用いられる一以上の第2のセンシング結果を所定の基準に基づいて決定することと、
 前記一以上の第2のセンシング結果に基づいて情報の出力をプロセッサが制御することと、
を含む、情報処理方法。
(20)
 コンピュータを、
 複数の機器から受信された複数の第1のセンシング結果の中から、ユーザの状態の推定に用いられる一以上の第2のセンシング結果を所定の基準に基づいて決定する判断部と、
 前記一以上の第2のセンシング結果に基づいて情報の出力を制御する出力制御部、
として機能させるためのプログラム。
10 端末
20 機器
22 通信網
70 サーバ
100、200、700 制御部
102、702 判断部
104、704 ユーザ状態推定部
106、706 出力制御部
108、708 送信制御部
120、220、720 通信部
122、222 センサ部
124 出力部
126、224、722 記憶部

Claims (20)

  1.  複数の機器から受信された複数の第1のセンシング結果の中から、ユーザの状態の推定に用いられる一以上の第2のセンシング結果を所定の基準に基づいて決定する判断部と、
     前記一以上の第2のセンシング結果に基づいて情報の出力を制御する出力制御部と、
    を備える、情報処理装置。
  2.  前記出力制御部は、前記一以上の第2のセンシング結果を用いて推定された前記ユーザの状態に基づいて、前記情報の出力を制御する、請求項1に記載の情報処理装置。
  3.  前記一以上の第2のセンシング結果は、複数のセンシング種類の各々に関するセンシング結果を含み、
     前記判断部は、前記複数のセンシング種類の各々に関して、前記複数の第1のセンシング結果の中から、当該センシング種類に対応するセンシング結果を前記所定の基準に基づいてそれぞれ選択することにより、前記一以上の第2のセンシング結果を決定する、請求項2に記載の情報処理装置。
  4.  前記所定の基準は、前記複数の機器の各々と前記ユーザとの距離、前記複数の機器の各々の性能情報、前記複数の機器の各々の製造元の信頼度、および、前記複数の機器の各々に関連付けられているユーザの評価度のうちの少なくとも一つを含む、請求項3に記載の情報処理装置。
  5.  前記判断部は、前記複数のセンシング種類の各々に関して、前記複数の機器のうち、前記ユーザのより近くに位置する前記機器による当該センシング種類に対応するセンシング結果を前記複数の第1のセンシング結果の中からそれぞれ選択する、請求項4に記載の情報処理装置。
  6.  前記判断部は、前記複数のセンシング種類の各々に関して、前記複数の機器のうち、当該センシング種類に関するセンシングの性能がより高い前記機器による当該センシング種類に対応するセンシング結果を前記複数の第1のセンシング結果の中からそれぞれ選択する、請求項5に記載の情報処理装置。
  7.  前記判断部は、前記複数のセンシング種類の各々に関して、前記複数の機器のうち、製造元の信頼度がより高い前記機器による当該センシング種類に対応するセンシング結果を前記複数の第1のセンシング結果の中からそれぞれ選択する、請求項5に記載の情報処理装置。
  8.  前記判断部は、前記複数のセンシング種類の各々に関して、前記複数の機器の各々に関連付けて記憶されているユーザの評価度がより高い前記機器による、当該センシング種類に対応するセンシング結果を前記複数の第1のセンシング結果の中からそれぞれ選択する、請求項5に記載の情報処理装置。
  9.  前記判断部は、前記複数のセンシング種類の各々に関して、前記複数の第1のセンシング結果の中から、当該センシング種類に対応するセンシング結果を、前記複数の機器の各々と前記ユーザとの距離、前記複数の機器の各々の性能情報、前記複数の機器の各々の製造元の信頼度、および、前記複数の機器の各々に関連付けられているユーザの評価度に基づいてそれぞれ選択することにより、前記一以上の第2のセンシング結果を決定する、請求項4に記載の情報処理装置。
  10.  前記複数のセンシング種類は、音のセンシングを含み、
     前記判断部は、ユーザの発話の音が直接音としてセンシングされたセンシング結果を、前記ユーザの発話の音が間接音としてセンシングされたセンシング結果よりも優先して前記複数の第1のセンシング結果の中から選択することにより、前記一以上の第2のセンシング結果を決定する、請求項4に記載の情報処理装置。
  11.  前記出力制御部は、前記一以上の第2のセンシング結果を用いて推定された前記ユーザの状態に対応する出力態様で、前記情報を出力部に出力させる、請求項4に記載の情報処理装置。
  12.  前記情報は、前記ユーザに対する通知情報であり、
     前記出力制御部は、前記一以上の第2のセンシング結果を用いて推定された前記ユーザの状態に対応する出力態様で、前記ユーザに対する通知情報に対応する音声を前記出力部に出力させる、請求項11に記載の情報処理装置。
  13.  前記出力制御部は、前記一以上の第2のセンシング結果を用いて推定された前記ユーザの状態に基づいて、前記ユーザに対する通知情報の通知タイミングを決定し、かつ、
     決定した通知タイミングに、前記ユーザに対する通知情報に対応する音声を前記出力部に出力させる、請求項12に記載の情報処理装置。
  14.  前記出力部により前記情報が出力された後に前記情報の出力に関して前記ユーザから得られた評価度を示す情報と、前記一以上の第2のセンシング結果の各々をセンシングした前記機器とを関連付けて記憶する記憶部をさらに備える、請求項11に記載の情報処理装置。
  15.  前記出力部により前記情報が出力された後に前記情報の出力に関して前記ユーザから得られた評価度を示す情報を、前記一以上の第2のセンシング結果の各々をセンシングした前記機器へ通信部に送信させる送信制御部をさらに備える、請求項11に記載の情報処理装置。
  16.  前記通信部と、
     前記一以上の第2のセンシング結果を用いて前記ユーザの状態を推定するユーザ状態推定部と、をさらに備え、
     前記通信部は、前記複数の機器から前記複数の第1のセンシング結果を受信する、請求項15に記載の情報処理装置。
  17.  前記複数のセンシング種類のうちの一以上の各々に関してセンシングするセンサ部をさらに備え、
     前記判断部は、前記複数のセンシング種類の各々に関して、前記複数の第1のセンシング結果および前記センサ部によるセンシング結果の中から、当該センシング種類に対応する、前記ユーザに関するセンシング結果を前記所定の基準に基づいてそれぞれ選択することにより、前記一以上の第2のセンシング結果を決定する、請求項11に記載の情報処理装置。
  18.  前記複数のセンシング種類の各々に関して、前記センサ部による当該センシング種類に対応する、前記ユーザに関するセンシングが不可能と判定された場合、または、前記センサ部による当該センシング種類に対応する、前記ユーザに関するセンシング結果の精度が所定の閾値よりも低い場合には、前記判断部は、前記複数の第1のセンシング結果の中から、当該センシング種類に対応するセンシング結果を前記所定の基準に基づいてそれぞれ選択する、請求項17に記載の情報処理装置。
  19.  複数の機器から受信された複数の第1のセンシング結果の中から、ユーザの状態の推定に用いられる一以上の第2のセンシング結果を所定の基準に基づいて決定することと、
     前記一以上の第2のセンシング結果に基づいて情報の出力をプロセッサが制御することと、
    を含む、情報処理方法。
  20.  コンピュータを、
     複数の機器から受信された複数の第1のセンシング結果の中から、ユーザの状態の推定に用いられる一以上の第2のセンシング結果を所定の基準に基づいて決定する判断部と、
     前記一以上の第2のセンシング結果に基づいて情報の出力を制御する出力制御部、
    として機能させるためのプログラム。
PCT/JP2018/026381 2017-10-02 2018-07-12 情報処理装置、情報処理方法、および、プログラム WO2019069529A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/650,030 US11996093B2 (en) 2017-10-02 2018-07-12 Information processing apparatus and information processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017192362 2017-10-02
JP2017-192362 2017-10-02

Publications (1)

Publication Number Publication Date
WO2019069529A1 true WO2019069529A1 (ja) 2019-04-11

Family

ID=65994334

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/026381 WO2019069529A1 (ja) 2017-10-02 2018-07-12 情報処理装置、情報処理方法、および、プログラム

Country Status (2)

Country Link
US (1) US11996093B2 (ja)
WO (1) WO2019069529A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023286249A1 (ja) * 2021-07-15 2023-01-19 日本電信電話株式会社 コミュニケーション支援システム、コミュニケーション支援方法およびプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11128937B2 (en) * 2019-08-20 2021-09-21 Blackberry Limited Apparatus and method for maintaining parameter ranges for remote sensing devices
US11361754B2 (en) * 2020-01-22 2022-06-14 Conduent Business Services, Llc Method and system for speech effectiveness evaluation and enhancement

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063291A (ja) * 2012-09-20 2014-04-10 Casio Comput Co Ltd コミュニケーション提案装置、コミュニケーション提案方法及びプログラム
WO2016144982A1 (en) * 2015-03-08 2016-09-15 Apple Inc. Competing devices responding to voice triggers

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842299B2 (en) * 2011-01-25 2017-12-12 Telepathy Labs, Inc. Distributed, predictive, dichotomous decision engine for an electronic personal assistant
KR20150009032A (ko) * 2013-07-09 2015-01-26 엘지전자 주식회사 이동 단말기 및 이의 제어방법
US20150112800A1 (en) * 2013-10-18 2015-04-23 State Farm Mutual Automobile Insurance Company Targeted advertising using vehicle information
US20150334346A1 (en) * 2014-05-16 2015-11-19 Elwha Llc Systems and methods for automatically connecting a user of a hands-free intercommunication system
JP6555858B2 (ja) 2014-08-01 2019-08-07 シャープ株式会社 機器、音声出力方法、音声出力プログラム、ネットワークシステム、サーバ、および通信機器
US9834223B2 (en) * 2015-12-15 2017-12-05 Ford Global Technologies, Llc Diagnosing and supplementing vehicle sensor data
KR102489752B1 (ko) * 2016-01-05 2023-01-18 삼성전자주식회사 디스플레이장치 및 그 제어방법
DK179309B1 (en) * 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
KR102497299B1 (ko) * 2016-06-29 2023-02-08 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10216474B2 (en) * 2016-07-06 2019-02-26 Bragi GmbH Variable computing engine for interactive media based upon user biometrics
US10283138B2 (en) * 2016-10-03 2019-05-07 Google Llc Noise mitigation for a voice interface device
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
JP6639444B2 (ja) * 2017-06-07 2020-02-05 本田技研工業株式会社 情報提供装置及び情報提供方法
JP6767322B2 (ja) * 2017-08-18 2020-10-14 ヤフー株式会社 出力制御装置、出力制御方法及び出力制御プログラム
US10817316B1 (en) * 2017-10-30 2020-10-27 Wells Fargo Bank, N.A. Virtual assistant mood tracking and adaptive responses

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014063291A (ja) * 2012-09-20 2014-04-10 Casio Comput Co Ltd コミュニケーション提案装置、コミュニケーション提案方法及びプログラム
WO2016144982A1 (en) * 2015-03-08 2016-09-15 Apple Inc. Competing devices responding to voice triggers

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023286249A1 (ja) * 2021-07-15 2023-01-19 日本電信電話株式会社 コミュニケーション支援システム、コミュニケーション支援方法およびプログラム

Also Published As

Publication number Publication date
US11996093B2 (en) 2024-05-28
US20200279559A1 (en) 2020-09-03

Similar Documents

Publication Publication Date Title
US20220012470A1 (en) Multi-user intelligent assistance
CN111699528B (zh) 电子装置及执行电子装置的功能的方法
CN109427333B (zh) 激活语音识别服务的方法和用于实现所述方法的电子装置
KR102558437B1 (ko) 질의 응답 처리 방법 및 이를 지원하는 전자 장치
US10506073B1 (en) Determination of presence data by devices
US20190013025A1 (en) Providing an ambient assist mode for computing devices
US11031005B2 (en) Continuous topic detection and adaption in audio environments
US8819554B2 (en) System and method for playing media
JP2018190413A (ja) ユーザ発話の表現法を把握して機器の動作やコンテンツ提供範囲を調整し提供するユーザ命令処理方法およびシステム
JP2022171662A (ja) ドメイン分類器を使用したニューラルネットワークにおけるドメイン適応のためのシステム及び方法
CN111163906B (zh) 能够移动的电子设备及其操作方法
KR20160127117A (ko) 개인 존재와 연관된 동작 수행
US12001754B2 (en) Context based media selection based on preferences setting for active consumer(s)
CN107409131B (zh) 用于无缝数据流送体验的技术
US11233490B2 (en) Context based volume adaptation by voice assistant devices
WO2019069529A1 (ja) 情報処理装置、情報処理方法、および、プログラム
JP2017144521A (ja) 情報処理装置、情報処理方法、及びプログラム
US20210383806A1 (en) User input processing method and electronic device supporting same
Lee et al. Situation awareness in a smart home environment
CN109257490A (zh) 音频处理方法、装置、穿戴式设备及存储介质
JP2019012506A (ja) 機械の自動活性のための方法及びシステム
WO2016206646A1 (zh) 使机器装置产生动作的方法及***
WO2020021861A1 (ja) 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
US11743588B1 (en) Object selection in computer vision
US11127400B2 (en) Electronic device and method of executing function of electronic device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18863832

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18863832

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP