WO2019054009A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2019054009A1
WO2019054009A1 PCT/JP2018/024544 JP2018024544W WO2019054009A1 WO 2019054009 A1 WO2019054009 A1 WO 2019054009A1 JP 2018024544 W JP2018024544 W JP 2018024544W WO 2019054009 A1 WO2019054009 A1 WO 2019054009A1
Authority
WO
WIPO (PCT)
Prior art keywords
output
information processing
user
control unit
sentence
Prior art date
Application number
PCT/JP2018/024544
Other languages
English (en)
French (fr)
Inventor
早紀 横山
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2019054009A1 publication Critical patent/WO2019054009A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • Patent Document 1 discloses a technique for selecting a presentation level of information based on a gaze state of a user.
  • Patent Document 1 only selects a presentation level determined in advance based on a gaze state or the like. On the other hand, it is assumed that the usefulness of the information presentation depends on various factors besides the state of gaze. In addition, various output expressions are required according to the above factors.
  • the present disclosure proposes a new and improved information processing apparatus, information processing method, and program that can realize more flexible and effective information presentation.
  • the output control unit controls output of an output sentence in information presentation to the user, and the output control unit is configured to output the output sentence based on the output context acquired when the output sentence is output.
  • An information processing apparatus is provided that dynamically controls such output representation.
  • the processor may control output of an output sentence in information presentation to a user, wherein the controlling is performed based on the output context acquired upon output of the output sentence.
  • An information processing method is provided, further comprising dynamically controlling an output expression associated with an output sentence.
  • the computer is provided with an output control unit that controls an output of an output sentence in information presentation to a user, and the output control unit is configured to output an output sentence based on an output context acquired.
  • a program for functioning as an information processing apparatus, which dynamically controls an output expression related to the output sentence is provided.
  • various devices for presenting information to users have become widespread. Examples of the above-described device include an agent device that presents information to the user using speech and visual information.
  • the agent device can perform, for example, output of news or a message, a response to a user's inquiry, and the like by speech utterance, display of visual information, and the like.
  • the usefulness of the presented information depends on various factors other than the state of gaze.
  • the above factors include, for example, attributes of the user, states such as behavior and emotion, preferences and characteristics, and states of the surrounding environment.
  • An information processing apparatus, an information processing method, and a program according to an embodiment of the present disclosure are conceived based on the above points, and can realize more flexible and effective information presentation.
  • the information processing apparatus for realizing the information processing method according to the present embodiment dynamically controls the output expression related to the output sentence based on the output context acquired when outputting the output sentence to the user. , Is one of the features.
  • the output context refers to various situations when outputting an output sentence.
  • the output context according to the present embodiment includes, for example, a user context indicating user attributes, preferences, characteristics, actions, states, schedules, etc., and an environment context indicating the state of the surrounding environment.
  • FIG. 1 is a diagram for describing an outline of output control according to the present embodiment.
  • the upper part of FIG. 1 shows a user U1 who performs a user utterance UO1a related to a scheduled inquiry and an information processing terminal 10 which executes a response to the user utterance UO1a by a voice utterance SO1a.
  • FIG. 1 In the upper part of FIG. 1, an example is shown in the case where the user U1 is in a state of spare time relatively. Under the present circumstances, the information processing terminal 10 which concerns on this embodiment can output voice utterance SO1a which demonstrates a schedule in detail based on control by the information processing server 20.
  • SO1a voice utterance SO1a which demonstrates a schedule in detail based on control by the information processing server 20.
  • the information processing terminal 10 which concerns on this embodiment can output voice utterance SO1b which demonstrates a plan simply to the user who performed user utterance UO1a based on control by the information processing server 20.
  • the information processing terminal 10 can also transfer detailed schedule information to, for example, a smartphone possessed by the user U1 in order to maintain the integrity of the information.
  • the information processing server 20 may detect that the user U1 is in a hurry, for example, based on the image information captured by the information processing terminal 10. In addition, the information processing server 20 may detect that the user U1 is in a hurry by analyzing sound information on the user utterance UO 1a collected by the information processing server 20.
  • the information processing server 20 determines that the user U1 is in a state of hurry based on, for example, the information of the schedule registered by the user, and the voice utterance SO1b for briefly explaining the schedule is information It can also be output to the processing terminal 10.
  • the information processing server 20 may not necessarily output the voice utterance SO1b as a response to the user utterance UO1a.
  • the information processing server 20 can also cause the information processing terminal 10 to output the voice utterance SO1b spontaneously.
  • the information processing server 20 warns the user U1 by setting the speech utterance SO1 b as an output sentence to which the words “forget not?”, “Hurry up!”, And the like are added. May be As described above, according to the information processing server 20 according to the present embodiment, it is possible to realize more natural and effective information presentation by dynamically controlling the output expression of the output sentence based on the output context. .
  • FIG. 2 is a block diagram showing an exemplary configuration of the information processing system according to the present embodiment.
  • the information processing system according to the present embodiment includes an information processing terminal 10, an information processing server 20, and a sensor device 30.
  • the information processing terminal 10 and the information processing server 20, and the information processing server 20 and the sensor device 30 are connected so as to be able to communicate with each other via the network 40.
  • the information processing terminal 10 is an information processing apparatus that presents information to a user using voice and visual information based on control by the information processing server 20.
  • the information processing terminal 10 according to the present embodiment is characterized in that the information presentation described above is performed based on the output sentence and the output expression dynamically determined by the information processing server 20 based on the output context.
  • the information processing terminal 10 according to the present embodiment can be realized as various devices having a function of outputting voice and visual information.
  • the information processing terminal 10 according to the present embodiment may be, for example, a mobile phone, a smartphone, a tablet, a wearable device, a general-purpose computer, or a dedicated device of a stationary type or an autonomous moving type.
  • the information processing terminal 10 has a function of collecting various information related to the user and the surrounding environment.
  • the information processing terminal 10 collects, for example, sound information including an utterance of the user, image information obtained by imaging the user and the surroundings, and various other sensor information, and transmits the collected information to the information processing server 20.
  • the information processing server 20 is an information processing apparatus having a function of controlling output of an output sentence in information presentation to a user. At this time, the information processing server 20 according to the present embodiment is characterized by dynamically controlling an output expression related to the output sentence based on the output context acquired when outputting the output sentence.
  • the information processing server 20 acquires an output context based on sound information, image information, sensor information and the like collected by the information processing terminal 10 and the sensor device 30, and controls an output expression of an output sentence. it can.
  • the sensor device 30 has a function of collecting sound information, image information, and sensor information used for acquiring an output context by the information processing server 20.
  • Sensor device 30 concerning this embodiment is realized as various devices which have the above-mentioned function.
  • the sensor device 30 may be, for example, a home appliance, a game device, an office device, or the like.
  • the network 40 has a function of connecting the information processing terminal 10 with the information processing server 20 and the information processing server 20 with the sensor device.
  • the network 40 may include the Internet, a public line network such as a telephone network, a satellite communication network, various LANs (Local Area Networks) including Ethernet (registered trademark), a WAN (Wide Area Network), and the like.
  • the network 40 may include a dedicated line network such as an Internet Protocol-Virtual Private Network (IP-VPN).
  • IP-VPN Internet Protocol-Virtual Private Network
  • the network 40 may also include a wireless communication network such as Wi-Fi (registered trademark) or Bluetooth (registered trademark).
  • the configuration example of the information processing system according to the present embodiment has been described above.
  • the configuration described above with reference to FIG. 2 is merely an example, and the configuration of the information processing system according to the present embodiment is not limited to such an example.
  • the functions of the information processing terminal 10 and the information processing server 20 according to the present embodiment may be realized by a single device.
  • the information processing system according to the present embodiment may not necessarily include the sensor device 30.
  • the configuration of the information processing system according to the present embodiment can be flexibly deformed according to the specification and the operation.
  • FIG. 3 is a block diagram showing an example of a functional configuration of the information processing terminal 10 according to the present embodiment.
  • the information processing terminal 10 according to the present embodiment includes a display unit 110, an audio output unit 120, an audio input unit 130, an imaging unit 140, a sensor unit 150, a control unit 160, and a server communication unit 170. .
  • the display unit 110 has a function of outputting visual information such as an image or text.
  • the display unit 110 according to the present embodiment displays, for example, a text corresponding to an output sentence and an image including the output sentence based on control by the information processing server 20.
  • the display unit 110 includes a display device or the like that presents visual information.
  • the display device include a liquid crystal display (LCD) device, an organic light emitting diode (OLED) device, and a touch panel.
  • the display unit 110 according to the present embodiment may output visual information by a projection function.
  • the voice output unit 120 has a function of outputting various sounds including voiced speech.
  • the voice output unit 120 according to the present embodiment outputs a voice utterance corresponding to the output unit, for example, based on control by the information processing server 20.
  • the audio output unit 120 according to the present embodiment includes an audio output device such as a speaker or an amplifier.
  • the voice input unit 130 has a function of collecting sound information such as an utterance by a user and an ambient sound generated around the information processing terminal 10.
  • the sound information collected by the voice input unit 130 is used for voice recognition by the information processing server 20, recognition of the surrounding environment, and the like.
  • the voice input unit 130 according to the present embodiment includes a microphone for collecting sound information.
  • Imaging unit 140 The imaging unit 140 according to the present embodiment has a function of capturing an image of the user or the surrounding environment.
  • the image information captured by the imaging unit 140 is used for action recognition and state recognition of the user by the information processing server 20, and recognition of the surrounding environment.
  • the imaging unit 140 according to the present embodiment includes an imaging device capable of capturing an image. Note that the above image includes moving images as well as still images.
  • Sensor unit 150 The sensor unit 150 according to the present embodiment has a function of collecting various sensor information regarding the surrounding environment, the user's behavior, and the state. The sensor information collected by the sensor unit 150 is used for recognition of the surrounding environment by the information processing server 20, user's action recognition, and state recognition.
  • the sensor unit 150 includes, for example, an optical sensor including an infrared sensor, an acceleration sensor, a gyro sensor, a geomagnetic sensor, a heat sensor, a vibration sensor, a Global Navigation Satellite System (GNSS) signal receiving device, and the like.
  • an optical sensor including an infrared sensor, an acceleration sensor, a gyro sensor, a geomagnetic sensor, a heat sensor, a vibration sensor, a Global Navigation Satellite System (GNSS) signal receiving device, and the like.
  • GNSS Global Navigation Satellite System
  • Control unit 160 The control part 160 which concerns on this embodiment has a function which controls each structure with which the information processing terminal 10 is provided.
  • the control unit 160 controls, for example, start and stop of each component. Further, the control unit 160 inputs a control signal generated by the information processing server 20 to the display unit 110 or the audio output unit 120. Moreover, the control part 160 which concerns on this embodiment may have a function equivalent to the output control part 250 of the information processing server 20 mentioned later.
  • the server communication unit 170 has a function of performing information communication with the information processing server 20 via the network 40. Specifically, the server communication unit 170 transmits, to the information processing server 20, the sound information collected by the voice input unit 130, the image information captured by the imaging unit 140, and the sensor information collected by the sensor unit 150. Also, the server communication unit 170 receives, from the information processing server 20, control signals and the like related to the output statement.
  • the example of the functional configuration of the information processing terminal 10 according to the present embodiment has been described above.
  • the above configuration described with reference to FIG. 3 is merely an example, and the functional configuration of the information processing terminal 10 according to the present embodiment is not limited to such an example.
  • the information processing terminal 10 according to the present embodiment may not necessarily include all of the configurations shown in FIG. 3.
  • the information processing terminal 10 may be configured not to include the display unit 110, the sensor unit 150, and the like.
  • the control unit 160 according to the present embodiment may have the same function as the output control unit 250 of the information processing server 20.
  • the functional configuration of the information processing terminal 10 according to the present embodiment can be flexibly deformed according to the specification and the operation.
  • FIG. 4 is a block diagram showing an example of a functional configuration of the information processing server 20 according to the present embodiment.
  • the information processing server 20 according to the present embodiment includes a user recognition unit 210, an environment recognition unit 220, a speech recognition unit 230, a context acquisition unit 240, an output control unit 250, a user information storage unit 260, and parameter storage. And a communication unit 280.
  • the user recognition unit 210 has a function of performing various recognitions related to the user. For example, the user recognition unit 210 compares the speech or image of the user collected by the information processing terminal 10 or the sensor device 30 with the voice feature or image of the user stored in the user information storage unit 260 in advance. It can do recognition.
  • the user recognition unit 210 can recognize the user's action or state based on the sound information, the image information, and the sensor information collected by the information processing terminal 10 and the sensor device 30.
  • the user recognition unit 210 recognizes the movement and behavior of the user based on, for example, the collected image information and sensor information.
  • the user recognition unit 210 can recognize that the user is jogging, based on the acceleration information and the angular velocity information collected by the information processing terminal 10.
  • the user recognition unit 210 may recognize that the user is playing a game based on the operating status transmitted from the sensor device 30 which is a game device.
  • the user recognition unit 210 also recognizes various states relating to the user based on, for example, image information, sound information, and the like.
  • the user recognition unit 210 may recognize, for example, the user's gaze, expression, emotion, and the like based on the collected image information.
  • the environment recognition unit 220 has a function of performing various recognitions related to the surrounding environment based on sound information, image information, and sensor information collected by the information processing terminal 10 and the sensor device 30.
  • the environment recognition unit 220 may recognize the surrounding noise level based on the sound information collected by the information processing terminal 10, or a third party other than the user may use the surrounding based on the image information and the sensor information. It may be recognized that it exists.
  • the environment recognition unit 220 can also estimate the characteristics of the place where the user is located based on the image information and the sensor information. For example, the environment recognition unit 220 may estimate that the user is on a train or is in a busy street with many people.
  • the voice recognition unit 230 has a function of recognizing the user's speech based on the sound information collected by the information processing terminal 10.
  • the speech recognition unit 230 according to the present embodiment includes a speech zone detection function that detects a zone where a user utters a speech, a speech recognition function that converts sound information into text, and a text after conversion. It has an intention analysis function that analyzes the utterance intention.
  • the speech recognition unit 230 detects the user's speech style.
  • the above-mentioned speech style includes, for example, information such as the length, size, speed, speech and tone of speech.
  • the utterance style includes, for example, information such as the time taken for the user to speak after the output of the speech utterance by the information processing terminal 10, the user performed an interruption (barge-in) to the speech utterance, and the like. It may be
  • the context acquisition unit 240 has a function of acquiring an output context based on the results of various recognition performed by the user recognition unit 210, the environment recognition unit 220, and the speech recognition unit 230.
  • the context acquisition unit 240 according to the present embodiment can dynamically acquire the situation related to the output of the output sentence, that is, the output context, based on the user or the surrounding state, the input user's utterance, and the like.
  • the context acquisition unit 240 may acquire an output context based on information acquired from another application.
  • the context acquisition unit 240 can acquire, for example, user's schedule information, traffic jam information on the user's travel route, and the like from each application and comprehensively acquire an output context.
  • the context acquisition unit 240 may acquire the output context in consideration of the past history of the user's state stored in the user information storage unit 260, habit, characteristics, and the like. For example, even if it is the same action, depending on the user, a case where intention and meaning differ may be assumed. As an example, an action ( ⁇ , facial expression) performed when one user feels anxiety may be an action performed when another user feels angry. For this reason, the context acquiring unit 240 according to the present embodiment can comprehensively acquire the output context in consideration of the past history and habits for each user, thereby making it possible to estimate a situation with higher accuracy. .
  • the output control unit 250 has a function of controlling the output of an output sentence in the information presentation to the user. At this time, the output control unit 250 according to the present embodiment dynamically controls the output expression related to the output sentence based on the output context acquired by the context acquisition unit 240 when outputting the output sentence. Do.
  • the above output expression may include, for example, the sentence content of the output sentence. That is, the output control unit 250 according to the present embodiment may dynamically change the sentence content of the output sentence based on the output context acquired by the context acquisition unit 240. According to the above-described function of the output control unit 250 according to the present embodiment, the content itself of the output sentence can be dynamically changed according to the situation, and more valuable information can be presented to the user. Is possible.
  • the above-mentioned output expression includes an output mode, an output nuance, an output operation, and the like related to the output sentence. That is, based on the output context acquired by the context acquisition unit 240, the output control unit 250 according to the present embodiment can dynamically change the output mode, the output nuance, and the output operation related to the output sentence.
  • the above output mode refers to an auditory or visual expression relating to the output of an output sentence.
  • the output control unit 250 can control, for example, voice quality, size, prosody, output timing, effect, and the like of the voice utterance.
  • the above prosody includes the rhythm of the sound, strength and weakness, long and short, and the like.
  • the output control unit 250 can control, for example, the font, size, color, character decoration, arrangement, animation, etc. of the output sentence. According to the above-described function of the output control unit 250 according to the present embodiment, more effective information presentation can be realized by changing the aural or visual expression of the output sentence according to the situation. It becomes.
  • the above-mentioned output nuance refers to various expressions for conveying the intention included in the output sentence to the user.
  • the output control unit 250 can realize information presentation with a higher expressive power by controlling the output nuance of the output sentence based on the output context.
  • the control of the output nuance may be realized along with the control of the output mode and the output operation.
  • the above-mentioned output operation refers to the physical operation of the information processing terminal 10 related to the output of the output sentence.
  • the output operation may include the movement of parts such as limbs, an expression including sight line or blink, and the like.
  • the output operation includes, for example, various physical operations using light and vibration. According to the above-described function of the output control unit 250 according to the present embodiment, it is possible to cause the information processing terminal 10 to perform an appropriate output operation according to the situation. Further, the output control unit 250 may control an output operation of a character or the like to be displayed as visual information.
  • the user information storage unit 260 stores various information related to the user.
  • the user information storage unit 260 may store, for example, basic information such as the age and gender of the user, images and sounds of the user, preferences, characteristics, and the like. Also, the user information storage unit 260 stores the past history of the output context for each user.
  • the parameter storage unit 270 stores the history by associating the output sentence generated by the output control unit 250 and the output expression related to the output sentence with the output context. That is, it can be said that the parameter storage unit 270 according to the present embodiment stores an output rule of an output sentence according to each situation.
  • the communication unit 280 has a function of performing information communication with the information processing terminal 10 and the sensor device 30 via the network 40. Specifically, the communication unit 280 receives sound information, image information, and sensor information from the information processing terminal 10 and the sensor device 30. The communication unit 280 also transmits a control signal related to the output of the output sentence to the information processing terminal 10.
  • the functional configuration of the information processing server 20 has been described.
  • the above-mentioned functional composition explained using Drawing 4 is an example to the last, and functional composition of information processing server 20 concerning this embodiment is not limited to the example concerned.
  • the information processing server 20 may not necessarily have all of the configurations shown in FIG. 4.
  • the user recognition unit 210, the environment recognition unit 220, the speech recognition unit 230, the context acquisition unit 240, the user information storage unit 260, and the parameter storage unit 270 can be provided in another device different from the information processing server 20.
  • the functional configuration of the information processing server 20 according to the present embodiment can be flexibly deformed according to the specification and the operation.
  • FIG. 5 is a diagram showing an example of output control based on an output context including the state of another user according to the present embodiment.
  • FIG. 5 shows a situation in which the user U2 interacts with the information processing terminal 10 in the state where the user U1 is present in the surroundings.
  • the upper part of FIG. 5 shows an example of the case where the user U1 is in the normal state, and the lower part of FIG. 5 shows an example of the case where the user U1 is in a state of going out.
  • the output control unit 250 can perform different output control based on the output context including the state of the user U1 acquired by the context acquisition unit 240. For example, in the case shown in the upper part of FIG. 5, since the output control unit 250 indicates that the output context indicates that the user U1 is in the normal state, the output control unit 250 responds to the user utterance UO 5a related to the inquiry of the user U2. The output sentence is output as the speech utterance SO5a. At this time, the output control unit 250 can change the quality, the amount, the tone, and the like of the output sentence according to the age and the knowledge level of the user U2.
  • the output control unit 250 since the output control unit 250 indicates that the output context is in a state where the user U1 is in a state of interest, an output that urges preparation for going out.
  • the sentence is output as speech utterance SO5b.
  • the output control unit 250 according to the present embodiment is not only based on the state of the user U2 who interacts with the information processing terminal 10, but also based on the state of the user U1 existing around the user U2, Output expressions can be changed dynamically.
  • the output control unit 250 may not necessarily prioritize the response to the user's inquiry.
  • the output control unit 250 causes the information processing terminal 10 to output, to the information processing terminal 10, an output sentence assumed to be more valuable according to the output context, thereby realizing effective information presentation corresponding to the user's unintended needs. It is possible.
  • the output control unit 250 controls the output expression of the output sentence based on the output context including the history information of the output sentence in the past and the information acquired from the other application besides the user's state. You may
  • FIG. 6A is a diagram showing an example of output control based on an output context including a past history of an output sentence according to the present embodiment.
  • FIG. 6A shows a user U3 who performs a user utterance UO 6a asking a recommended learning course, and the information processing terminal 10 which outputs a voice utterance SO6a as a response to the user utterance UO 6a.
  • the output control unit 250 indicates that the output context has output an output sentence recommending a beginner's class in the past, and that the learning level of the current user U3 is improved compared to the previous output time. Based on the indication, it is possible to cause the information processing terminal 10 to output an output sentence that recommends the intermediate class.
  • FIG. 6B is a diagram showing an example of output control based on an output context including information acquired from another application.
  • FIG. 6B shows a user U3 who performs a user utterance UO 6b related to a weather inquiry and an information processing terminal 10 which outputs a voice utterance SO6b which is a response to the user utterance UO 6b.
  • the context acquisition unit 240 acquires an output context including schedule information acquired from the scheduler application.
  • the output control unit 250 may cause the information processing terminal 10 to output an output sentence including weather information of a business trip destination in addition to the weather of the current location since the output context indicates that the user U3 has a plan for a business trip. .
  • the output expression of the output sentence can be flexibly changed according to various situations indicated by the output context, and more valuable information presentation is realized. It becomes possible.
  • the control of the output expression according to the present embodiment is not limited to such an example.
  • the output control unit 250 according to the present embodiment can change the output nuance of the output sentence without changing the sentence content.
  • FIG. 7A and 7B are diagrams for describing control of output nuance according to the present embodiment.
  • FIG. 7A shows the user U3 who performs the user utterance UO 7a which is an inquiry related to the mood of the user U1, and the information processing terminal 10 which outputs the voice utterance SO7a which is a response to the user utterance UO 7a.
  • the output control unit 250 causes the information processing terminal 10 to output an output sentence corresponding to the answer as the voice utterance SO 7 a by interposing the inquiry related to the user utterance UO 7 a with the user U 1 at a remote place and obtaining an answer from the user U 1 be able to.
  • the output control unit 250 may cause the information processing terminal 10 to output the visual information SV7a related to the state of the user U1 together with the speech utterance SO7a.
  • the output control unit 250 can cause the information processing terminal 10 to output an image obtained by imaging the state of the user U1 or the avatar AU1 of the user U1 as the visual information SV7a.
  • the output control unit 250 indicates that the output context including the image information of the user U1 does not appear to be angry at the user U1, and thus "not angry at all" obtained from the user U1.
  • the answer may be output in a positive output expression.
  • FIG. 7B shows an example of the case where the user U1 makes an angry expression and makes an answer exactly the same as FIG. 7A.
  • the output control unit 250 since the output control unit 250 indicates that the output context included in the image information of the user U1 indicates that the user U1 is an angry expression, an output nuance that suggests that the user U1 is angry, a voice utterance SO7b is output to the information processing terminal 10.
  • the output control unit 250 can express the above suggestion by, for example, changing intonation and intervals related to the speech utterance SO7b while maintaining the same text content as the speech utterance SO7a.
  • the output control unit 250 according to the present embodiment can flexibly change the output nuance of the output sentence without changing the sentence content. According to the above-described function of the output control unit 250 according to the present embodiment, it is possible to realize more colorful expression based on the output context.
  • the above description has mainly focused on an example in which the user who makes a request such as an inquiry and the user who receives information presentation are the same.
  • control of the information presentation concerning this embodiment is not limited to the example concerned.
  • the output control unit 250 according to the present embodiment may control information presentation to a target user different from the request user based on a request by the request user.
  • the output control part 250 which concerns on this embodiment can control the output expression of an output sentence dynamically based on the output context which concerns on a request user, for example.
  • FIG. 8 is a diagram for describing output control based on an output context related to a request user.
  • FIG. 8 shows an example of output control in the case where a user U1 who is a request user who is at a remote location requests to mediate a message for the user U2 who is a target user.
  • the output control unit 250 can dynamically change the output expression including the sentence content of the output sentence based on the output context of the user U1 who is the requesting user.
  • the output control unit 250 may change the output expression of the output sentence, for example, based on the actual state of the user U1 at the time of outputting the output sentence for the user U2.
  • the output control unit 250 since the output context including the state of the user U1 indicates that the user U1 is busy, the output control unit 250 outputs an output statement reflecting the change of the situation of the user U1. It is output to the information processing terminal 10 as the speech utterance SO8a.
  • an output sentence taking into consideration the actual state of the requesting user at the time of output is generated instead of simply transmitting the request user's message to the target user.
  • the output control unit 250 may dynamically control the output expression of the output sentence based on the output context related to the target user.
  • FIG. 9 is a diagram for describing output control based on an output context related to a target user.
  • FIG. 9 shows an example of output control in the case where a user U1 who is a requesting user who is at a remote location requests to relay a message to a user U2 who is a target user.
  • the output control unit 250 can dynamically change the output expression including the sentence content of the output sentence based on the output context of the user U2 who is the target user.
  • the user U1 who is the requesting user is performing the user utterance UO 9a for instructing the action of the user U2 who is the target user.
  • the user utterance UO 9a is a content for instructing the user U2 that the user should not eat a snack until the homework is over.
  • the output control unit 250 may change the output expression of the output sentence based on, for example, the actual state of the user U2 at the time of outputting the output sentence for the user U2.
  • the output control unit 250 indicates that the output context including the state of the user U2 indicates that the user U1 has already finished the homework, so the output sentence reflecting the end of the action is voiced. It is output to the information processing terminal 10 as the utterance SO9a. Specifically, the output control unit 250 gives up having finished the homework, and causes the information processing terminal 10 to perform a speech utterance SO9a indicating that it is acceptable to eat a snack.
  • the output control unit 250 by generating an output sentence taking into consideration the actual state of the target user at the time of output, for example, more positive information presentation for the target user is performed. It is possible to provide value to both the requesting user and the target user.
  • the output control unit 250 may dynamically control the output expression of the output sentence based on the change of the output context with the passage of time.
  • the output control unit 250 according to the present embodiment can dynamically control the output expression, for example, based on the change in the output context at the time of occurrence of a trigger related to the output of the output sentence and at the time of output of the output sentence. .
  • the above-mentioned trigger refers to an event that triggers the output of an output sentence.
  • the trigger according to the present embodiment may be, for example, a request from a user or the like.
  • the output control unit 250 can output an output sentence serving as a response to the request to the information processing terminal 10, for example, triggered by a request from the user.
  • FIG. 10 and 11 are diagrams for describing output control based on a change in output context according to the present embodiment.
  • FIG. 11 shows a user U3 who performs a user utterance UO 10a requesting a remind concerning the bringing of documents and souvenirs, and an information processing terminal 10 outputting an output sentence corresponding to the request as a speech utterance SO10a. .
  • the output control unit 250 is an output including the sentence content of the output sentence based on the change of the output context at the time of detection of the user speech UO 10a, that is, at the trigger occurrence and at the output of the speech speech SO 10a. It is possible to change the expression.
  • the output control unit 250 may change the sentence content of the output sentence based on the change in the possession of the user U3 when the trigger occurs and when the output sentence is output.
  • the output control unit 250 selects the sentence content of the output sentence relating to the remind based on the fact that the user U3 possesses the document which the user U3 did not possess at the time of the trigger occurrence.
  • the changed voice utterance SO10a is output to the information processing terminal 10.
  • FIG. 11 shows a user U3 who performs a user utterance UO11a for requesting an explanation regarding an operation procedure, and an information processing terminal 10 which outputs an output sentence corresponding to the request.
  • the output control unit 250 causes the information processing terminal 10 to output the speech utterance SO11a without omitting all the input procedures set in advance.
  • the operation procedure includes access to a home page, login by user name input, and menu selection.
  • the lower part of FIG. 11 shows an example in which the user U3 voluntarily completes the login process without waiting for an explanation after accessing the home page.
  • the output control part 250 which concerns on this embodiment outputs the output sentence which abbreviate
  • the output control unit 250 can dynamically change the output expression of the output sentence based on the change of the output context that affects the content of at least a part of the output sentence.
  • the output control unit 250 may dynamically change the output expression of the output sentence based on the progress of the predetermined action by the user from the time of occurrence of the trigger to the time of output. .
  • the output control unit 250 can dynamically change the output expression of the output sentence based on the detection of the completion of the predetermined action by the user.
  • the predetermined action may be an action corresponding to at least a part of the output sentence.
  • the output sentence can be flexibly changed according to the change of the output context with the passage of time, and more efficient and high-value information presentation can be realized. It is possible to
  • the output control unit 250 may dynamically control the output expression of the output sentence based on the output contexts of a plurality of users.
  • 12 and 13 are diagrams for describing output control based on output contexts related to a plurality of users.
  • FIG. 12 shows users U2 and U3 who perform user utterances SO12a related to a restaurant inquiry, and the information processing terminal 10 outputting a response to the inquiry by the speech utterance SO12a.
  • FIG. 12 shows an example where the user U2 is on a diet and the user U3 eats a steak for lunch.
  • the output control part 250 which concerns on this embodiment may control the output expression of an output sentence dynamically so that the sum total of the profit of a plurality of users, ie, users U2 and U3, may increase.
  • the output control unit 250 is suitable for the user U2 who is on a diet based on the output context indicating the above-mentioned situation, and has a different taste from the meal that the user U3 takes for lunch
  • An output sentence recommending Japanese food is output as the speech utterance SO12a.
  • the output control unit 250 it is possible to present information that is estimated to be valuable for both the users U2 and U3, and even when there are a plurality of users. It is possible to provide profitable users with more users.
  • FIG. 13 shows the user U1 who performs the user utterance UO 13a asking the crowdedness of a specific restaurant, the user U3, and the information processing terminal 10 which outputs an answer to the user utterance UO 13a by the voice utterance SO13a. .
  • FIG. 13 shows an example where the above-mentioned specific restaurant is relatively crowded, and the user U3 has a meeting plan after one hour.
  • the output control part 250 which concerns on this embodiment may control the output expression of an output sentence dynamically so that the sum total of loss of several users, ie, users U2 and U3, may reduce.
  • the output control unit 250 causes the information processing terminal 10 to output, as the speech utterance SO 13 a, an output sentence that recommends a restaurant with more nearby restaurants based on the output context indicating the above-mentioned situation. .
  • the output control unit 250 may, for example, recommend a restaurant that has been used by the user U1 and has been highly evaluated before based on the past history related to information presentation.
  • information presentation can be performed to prevent the loss of both the users U2 and U3, and even when there are a plurality of users, more can be provided. It is possible to provide users with highly profitable information.
  • the context acquisition unit 240 may include, for example, the above-described diet status, meal content, schedule, and the like in the output context based on information acquired from a scheduler application, a message application, an SNS, etc. it can.
  • FIG. 14 is a flowchart showing the flow of output control by the information processing server 20 according to the present embodiment.
  • the communication unit 280 of the information processing terminal 10 receives collected information from the information processing terminal 10, the sensor device 30, and the like (S1101).
  • the collected information includes sound information, image information, and other sensor information.
  • the output control unit 250 detects a trigger related to the output of the output unit based on the recognition result by the speech recognition unit 230 (S1102).
  • the context acquisition unit 240 acquires an output context at the time of occurrence of a trigger (S1103).
  • the context acquisition unit 240 acquires an output context at the time of output of the output sentence based on the control by the output control unit 250 (S1104).
  • the output control unit 250 executes output control of the output sentence based on the output context acquired by the context acquisition unit 240 in steps S1103 and S1104 (S1105).
  • FIG. 15 is a block diagram illustrating an exemplary hardware configuration of the information processing terminal 10 and the information processing server 20 according to an embodiment of the present disclosure.
  • the information processing terminal 10 and the information processing server 20 include, for example, a CPU 871, a ROM 872, a RAM 873, a host bus 874, a bridge 875, an external bus 876, an interface 877, and an input device 878. , An output device 879, a storage 880, a drive 881, a connection port 882, and a communication device 883.
  • the hardware configuration shown here is an example, and some of the components may be omitted. In addition, components other than the components shown here may be further included.
  • the CPU 871 functions as, for example, an arithmetic processing unit or a control unit, and controls the overall operation or a part of each component based on various programs recorded in the ROM 872, the RAM 873, the storage 880, or the removable recording medium 901.
  • the ROM 872 is a means for storing a program read by the CPU 871, data used for an operation, and the like.
  • the RAM 873 temporarily or permanently stores, for example, a program read by the CPU 871 and various parameters appropriately changed when the program is executed.
  • the CPU 871, the ROM 872, and the RAM 873 are mutually connected via, for example, a host bus 874 capable of high-speed data transmission.
  • host bus 874 is connected to external bus 876, which has a relatively low data transmission speed, via bridge 875, for example.
  • the external bus 876 is connected to various components via an interface 877.
  • Input device 8708 For the input device 878, for example, a mouse, a keyboard, a touch panel, a button, a switch, a lever, and the like are used. Furthermore, as the input device 878, a remote controller (hereinafter, remote control) capable of transmitting a control signal using infrared rays or other radio waves may be used.
  • the input device 878 also includes a voice input device such as a microphone.
  • the output device 879 is a display device such as a CRT (Cathode Ray Tube), an LCD, or an organic EL, a speaker, an audio output device such as a headphone, a printer, a mobile phone, or a facsimile. It is a device that can be notified visually or aurally. Also, the output device 879 according to the present disclosure includes various vibration devices capable of outputting haptic stimulation.
  • the storage 880 is a device for storing various data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like is used.
  • the drive 881 is a device that reads information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information on the removable recording medium 901, for example.
  • a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • the removable recording medium 901 is, for example, DVD media, Blu-ray (registered trademark) media, HD DVD media, various semiconductor storage media, and the like.
  • the removable recording medium 901 may be, for example, an IC card equipped with a non-contact IC chip, an electronic device, or the like.
  • connection port 882 is, for example, a port for connecting an externally connected device 902 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
  • an externally connected device 902 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. is there.
  • the external connection device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, an IC recorder, or the like.
  • the communication device 883 is a communication device for connecting to a network.
  • a communication card for wired or wireless LAN Bluetooth (registered trademark) or WUSB (Wireless USB), a router for optical communication, ADSL (Asymmetric Digital) (Subscriber Line) router, or modem for various communications.
  • Bluetooth registered trademark
  • WUSB Wireless USB
  • ADSL Asymmetric Digital
  • Subscriber Line Subscriber Line
  • the information processing server 20 has a function of controlling output of an output sentence in information presentation to the user. Further, at this time, the information processing server 20 dynamically controls an output expression related to the output sentence based on the output context acquired when outputting the output sentence. According to the configuration, it is possible to realize more flexible and effective information presentation.
  • each step concerning processing of information processing server 20 of this specification does not necessarily need to be processed in chronological order according to the order described in the flowchart.
  • the steps related to the processing of the information processing server 20 may be processed in an order different from the order described in the flowchart or may be processed in parallel.
  • An output control unit that controls output of an output sentence in presenting information to a user; Equipped with The output control unit dynamically controls an output expression related to the output sentence based on an output context acquired when outputting the output sentence.
  • Information processing device (2)
  • the output expression includes at least the sentence content of the output sentence, The output control unit dynamically changes the sentence content of the output sentence based on the output context.
  • the information processing apparatus according to (1).
  • the output representation includes at least one of an output mode, an output nuance, and an output operation according to the output sentence, The output control unit dynamically changes at least one of the output mode, the output nuance, and the output operation based on the output context.
  • the information processing apparatus according to (1) or (2).
  • the output control unit dynamically controls the output expression based on a change in the output context over time.
  • the information processing apparatus according to any one of the above (1) to (3).
  • the output control unit dynamically controls the output expression based on a change in the output context at the time of occurrence of a trigger related to the output of the output sentence and at the time of output of the output sentence.
  • the information processing apparatus according to any one of the above (1) to (4).
  • the output control unit dynamically changes the output expression based on a change in the output context that affects the content of at least a part of the output sentence.
  • the information processing apparatus according to (5).
  • the output control unit dynamically changes the output expression based on the progress of a predetermined action by the user between the occurrence of the trigger and the output.
  • the predetermined action is an action corresponding to at least a part of the output sentence.
  • the output control unit dynamically changes the output expression based on detection of completion of the predetermined action.
  • the output control unit controls information presentation to a target user based on a request by a request user.
  • the output control unit dynamically controls the output expression based on the output context related to the request user.
  • (11) The output control unit dynamically controls the output expression based on the output context of the target user.
  • the requesting user and the target user are located at remote places with each other, The information processing apparatus according to any one of the above (9) to (11).
  • the output control unit dynamically controls the output expression based on output contexts associated with a plurality of users.
  • the output control unit dynamically controls the output expression such that the sum of benefits of a plurality of users increases.
  • the output control unit dynamically controls the output representation such that the sum of losses of a plurality of users is reduced.
  • (16) The output control unit dynamically controls the output expression based on a past history related to the information presentation.
  • the information processing apparatus includes information related to the user's state, behavior, schedule, and / or environmental state.
  • the information processing apparatus according to any one of the above (1) to (16).
  • the output control unit dynamically controls an output expression of a speech utterance related to the output sentence.
  • the information processing apparatus according to any one of the above (1) to (17).
  • the processor controlling the output of the output sentence in the information presentation to the user; Including The controlling may dynamically control an output expression related to the output sentence based on an output context acquired when outputting the output sentence. Further include, Information processing method.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】より柔軟かつ効果的な情報提示を実現する。 【解決手段】ユーザに対する情報提示において出力文の出力を制御する出力制御部、を備え、前記出力制御部は、前記出力文の出力に際し取得された出力コンテキストに基づいて、前記出力文に係る出力表現を動的に制御する、報処理装置が提供される。また、プロセッサが、ユーザに対する情報提示において出力文の出力を制御すること、を含み、前記制御することは、前記出力文の出力に際し取得された出力コンテキストに基づいて、前記出力文に係る出力表現を動的に制御すること、をさらに含む、情報処理方法が提供される。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 近年、ユーザに対し音声や視覚情報を用いて情報提示を行う種々の装置が普及している。また、上記のような情報提示に係るユーザの利便性を向上させる技術も開発されている。例えば、特許文献1には、ユーザの注視状態などに基づいて情報の提示レベルを選択する技術が開示されている。
特開2011-253375号公報
 しかし、特許文献1に記載の技術は、注視状態などに基づいて予め定められた提示レベルの選択を行うに留まっている。一方、情報提示の有益性は、注視状態のほかにも種々の要因により左右することが想定される。また上記の要因に応じた多様な出力表現が求められる。
 そこで、本開示では、より柔軟かつ効果的な情報提示を実現することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。
 本開示によれば、ユーザに対する情報提示において出力文の出力を制御する出力制御部、を備え、前記出力制御部は、前記出力文の出力に際し取得された出力コンテキストに基づいて、前記出力文に係る出力表現を動的に制御する、情報処理装置が提供される。
 また、本開示によれば、プロセッサが、ユーザに対する情報提示において出力文の出力を制御すること、を含み、前記制御することは、前記出力文の出力に際し取得された出力コンテキストに基づいて、前記出力文に係る出力表現を動的に制御すること、をさらに含む、情報処理方法が提供される。
 また、本開示によれば、コンピュータを、ユーザに対する情報提示において出力文の出力を制御する出力制御部、を備え、前記出力制御部は、前記出力文の出力に際し取得された出力コンテキストに基づいて、前記出力文に係る出力表現を動的に制御する、情報処理装置、として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、より柔軟かつ効果的な情報提示を実現することが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係る出力制御の概要について説明するための図である。 同実施形態に係る情報処理システムの構成例を示すブロック図である。 同実施形態に係る情報処理端末の機能構成例を示すブロック図である。 同実施形態に係る情報処理サーバの機能構成例を示すブロック図である。 同実施形態に係る他のユーザの状態を含む出力コンテキストに基づく出力制御の一例を示す図である。 同実施形態に係る過去の出力文の情報を含む出力コンテキストに基づく出力制御の一例を示す図である。 同実施形態に係る他のアプリケーションから取得した情報を含む出力コンテキストに基づく出力制御の一例を示す図である。 同実施形態に係る出力ニュアンスの制御について説明するための図である。 同実施形態に係る出力ニュアンスの制御について説明するための図である。 同実施形態に係る依頼ユーザに関連する出力コンテキストに基く出力制御について説明するための図である。 同実施形態に係る対象ユーザに係る出力コンテキストに基く出力制御について説明するための図である。 同実施形態に係る出力コンテキストの変化に基づく出力制御について説明するための図である。 同実施形態に係る出力コンテキストの変化に基づく出力制御について説明するための図である。 同実施形態に係る複数のユーザの出力コンテキストに基づく出力制御について説明するための図である。 同実施形態に係る複数のユーザの出力コンテキストに基づく出力制御について説明するための図である。 同実施形態に係る情報処理サーバによる出力制御の流れを示すフローチャートである。 本開示の一実施形態に係るハードウェア構成例を示す図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.実施形態
  1.1.概要
  1.2.システム構成例
  1.3.情報処理端末10の機能構成例
  1.4.情報処理サーバ20の機能構成例
  1.5.出力制御の詳細
  1.6.出力制御の流れ
 2.ハードウェア構成例
 3.まとめ
 <1.実施形態>
 <<1.1.概要>>
 近年、ユーザに対し情報提示を行う種々の装置が普及している。上記のような装置には、例えば、音声発話や視覚情報を用いてユーザに情報を提示するエージェント装置が挙げられる。エージェント装置は、例えば、ニュースやメッセージの出力、ユーザの問い合わせに対する応答などを、音声発話や視覚情報の表示などにより行うことができる。
 また、情報提示に係るユーザの利便性を向上させるための技術も多く開発されている。例えば、上述した特許文献1に記載の技術では、ユーザの注視状態に応じて提示する情報のレベル(情報量、モーダル)を制御することで、ユーザにとってより知覚の容易い情報提示を行うことができる。
 しかし、提示する情報の有益性は、注視状態のほかにも種々の要因により左右されることが想定される。上記の要因には、例えば、ユーザの属性、行動や感情などの状態、嗜好や特性、周囲環境の状態などが挙げられる。
 例えば、ユーザが画面を注視している場合であっても、ユーザの状態や嗜好によっては、簡潔な出力文を出力した方がよい場合が考えられる。また、より優れた情報提示を実現するためには、情報量のほか、情報の質や表現などを状況に応じて動的に変化させることが求められる。
 本開示の一実施形態に係る情報処理装置、情報処理方法、およびプログラムは、上記の点に着目して発想されたものであり、より柔軟かつ効果的な情報提示を実現することを可能とする。このために、本実施形態に係る情報処理方法を実現する情報処理装置は、ユーザに対する出力文の出力に際し取得された出力コンテキストに基づいて、当該出力文に係る出力表現を動的に制御すること、を特徴の一つとする。
 ここで、上記の出力コンテキストとは、出力文を出力する際の種々の状況を指す。本実施形態に係る出力コンテキストには、例えば、ユーザの属性、嗜好、特性、行動、状態、スケジュールなどを示すユーザコンテキストや、周囲環境の状態を示す環境コンテキストが含まれる。
 図1は、本実施形態に係る出力制御の概要について説明するための図である。図1の上部には、予定の問い合わせに係るユーザ発話UO1aを行うユーザU1と、ユーザ発話UO1aに対する応答を音声発話SO1aにより実行する情報処理端末10が示されている。
 図1の上部には、ユーザU1が比較的時間に余裕の状態である場合の一例が示されている。この際、本実施形態に係る情報処理端末10は、情報処理サーバ20による制御に基づいて、予定を詳細に説明する音声発話SO1aを出力することができる。
 一方、図1の下部には、ユーザU1が急いでいる状態、すなわち時間に余裕がない状態である場合の一例が示されている。この際、本実施形態に係る情報処理端末10は、情報処理サーバ20による制御に基づいて、ユーザ発話UO1aを行ったユーザに対し、予定を簡潔に説明する音声発話SO1bを出力することができる。また、情報処理端末10は、情報の完全性を保つために、詳細な予定情報を例えばユーザU1が所持するスマートフォンなどに転送することも可能である。
 このように、本実施形態に係る情報処理端末10および情報処理サーバ20によれば、同一のユーザによる同一の問い合わせに対しても、状況に応じたより効果的な出力文の提示を行うことが可能となる。
 なお、図1に示す一例の場合、本実施形態に係る情報処理サーバ20は、例えば、情報処理端末10が撮像した画像情報に基づいて、ユーザU1が急いでいることを検出してもよい。また、情報処理サーバ20は、情報処理サーバ20が収集したユーザ発話UO1aに関する音情報を解析することで、ユーザU1が急いでいることを検出してもよい。
 また、本実施形態に係る情報処理サーバ20は、例えば、ユーザが登録した予定の情報に基づいて、ユーザU1が急ぐべき状態であることを判定し、予定を簡潔に説明する音声発話SO1bを情報処理端末10に出力させることもできる。
 この場合、情報処理サーバ20は、必ずしもユーザ発話UO1aに対する応答として音声発話SO1bを出力させなくてもよい。例えば、登録された予定が差し迫っており、かつユーザU1が移動の素振りを見せない場合、情報処理サーバ20は、自発的に音声発話SO1bを情報処理端末10に出力させることも可能である。この際、情報処理サーバ20は、音声発話SO1bを、「忘れてませんか?」、や「急いで!」、などの文言を付加した出力文とすることで、ユーザU1に対し注意を促してもよい。このように、本実施形態に係る情報処理サーバ20によれば、出力コンテキストに基づいて出力文の出力表現を動的に制御することで、より自然で効果の高い情報提示を実現することができる。
 <<1.2.システム構成例>>
 次に、本実施形態に係る情報処理システムの構成例について説明する。図2は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図2を参照すると、本実施形態に係る情報処理システムは、情報処理端末10、情報処理サーバ20、およびセンサ装置30を備える。また、情報処理端末10と情報処理サーバ20、情報処理サーバ20とセンサ装置30は、ネットワーク40を介して互いに通信が行えるように接続される。
 (情報処理端末10)
 本実施形態に係る情報処理端末10は、情報処理サーバ20による制御に基づいて、ユーザに対し音声や視覚情報を用いた情報提示を行う情報処理装置である。本実施形態に係る情報処理端末10は、情報処理サーバ20が出力コンテキストに基づいて動的に決定した出力文と出力表現に基づいて上記の情報提示を行うことを特徴の一つとする。
 本実施形態に係る情報処理端末10は、音声や視覚情報を出力する機能を有する種々の装置として実現され得る。本実施形態に係る情報処理端末10は、例えば、携帯電話、スマートフォン、タブレット、ウェアラブル装置、汎用コンピュータ、据え置き型または自律移動型の専用装置などであってもよい。
 また、本実施形態に係る情報処理端末10は、ユーザや周囲環境に係る種々の情報を収集する機能を有する。情報処理端末10は、例えば、ユーザの発話を含む音情報、ユーザや周囲を撮像した画像情報、その他の種々のセンサ情報を収集し、情報処理サーバ20に送信する。
 (情報処理サーバ20)
 本実施形態に係る情報処理サーバ20は、ユーザに対する情報提示において出力文の出力を制御する機能を有する情報処理装置である。この際、本実施形態に係る情報処理サーバ20は、出力文の出力に際し取得した出力コンテキストに基づいて、当該出力文に係る出力表現を動的に制御することを特徴の一つとする。
 本実施形態に係る情報処理サーバ20は、情報処理端末10やセンサ装置30が収集した音情報、画像情報、センサ情報などに基づいて出力コンテキストを取得し、出力文の出力表現を制御することができる。
 (センサ装置30)
 本実施形態に係るセンサ装置30は、情報処理サーバ20による出力コンテキストの取得に用いられる音情報、画像情報、センサ情報を収集する機能を有する。本実施形態に係るセンサ装置30は、上記の機能を有する種々の装置として実現される。センサ装置30は、例えば、家電機器、ゲーム機器、オフィス機器などであってもよい。
 (ネットワーク40)
 ネットワーク40は、情報処理端末10と情報処理サーバ20、情報処理サーバ20とセンサ装置を接続する機能を有する。ネットワーク40は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク40は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク40は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
 以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図2を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末10および情報処理サーバ20が有する機能は、単一の装置により実現されてもよい。また、本実施形態に係る情報処理システムは、必ずしもセンサ装置30を備えなくてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.3.情報処理端末10の機能構成例>>
 次に、本実施形態に係る情報処理端末10の機能構成例について説明する。図3は、本実施形態に係る情報処理端末10の機能構成例を示すブロック図である。図3を参照すると、本実施形態に係る情報処理端末10は、表示部110、音声出力部120、音声入力部130、撮像部140、センサ部150、制御部160、およびサーバ通信部170を備える。
 (表示部110)
 本実施形態に係る表示部110は、画像やテキストなどの視覚情報を出力する機能を有する。本実施形態に係る表示部110は、例えば、情報処理サーバ20による制御に基づいて、出力文に対応するテキストや出力文を含む画像を表示する。
 このために、本実施形態に係る表示部110は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、タッチパネルなどが挙げられる。また、本実施形態に係る表示部110は、プロジェクション機能により視覚情報を出力してもよい。
 (音声出力部120)
 本実施形態に係る音声出力部120は、音声発話を含む種々の音を出力する機能を有する。本実施形態に係る音声出力部120は、例えば、情報処理サーバ20による制御に基づいて、出力部に対応する音声発話を出力する。このために、本実施形態に係る音声出力部120は、スピーカやアンプなどの音声出力装置を備える。
 (音声入力部130)
 本実施形態に係る音声入力部130は、ユーザによる発話や、情報処理端末10の周囲で発生する周囲音などの音情報を収集する機能を有する。音声入力部130が収集する音情報は、情報処理サーバ20による音声認識や周囲環境の認識などに用いられる。本実施形態に係る音声入力部130は、音情報を収集するためのマイクロフォンを備える。
 (撮像部140)
 本実施形態に係る撮像部140は、ユーザや周囲環境の画像を撮像する機能を有する。撮像部140が撮像した画像情報は、情報処理サーバ20によるユーザの行動認識や状態認識、周囲環境の認識に用いられる。本実施形態に係る撮像部140は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。
 (センサ部150)
 本実施形態に係るセンサ部150は、周囲環境やユーザの行動、状態に関する種々のセンサ情報を収集する機能を有する。センサ部150が収集したセンサ情報は、情報処理サーバ20による周囲環境の認識やユーザの行動認識、状態認識に用いられる。センサ部150は、例えば、赤外線センサを含む光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、熱センサ、振動センサ、GNSS(Global Navigation Satellite System)信号受信装置などを備える。
 (制御部160)
 本実施形態に係る制御部160は、情報処理端末10が備える各構成を制御する機能を有する。制御部160は、例えば、各構成の起動や停止を制御する。また、制御部160は、情報処理サーバ20により生成される制御信号を表示部110や音声出力部120に入力する。また、本実施形態に係る制御部160は、後述する情報処理サーバ20の出力制御部250と同等の機能を有してもよい。
 (サーバ通信部170)
 本実施形態に係るサーバ通信部170は、ネットワーク40を介して情報処理サーバ20との情報通信を行う機能を有する。具体的には、サーバ通信部170は、音声入力部130が収集した音情報や、撮像部140が撮像した画像情報、センサ部150が収集したセンサ情報を情報処理サーバ20に送信する。また、サーバ通信部170は、情報処理サーバ20から出力文に係る制御信号などを受信する。
 以上、本実施形態に係る情報処理端末10の機能構成例について説明した。なお、図3を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末10の機能構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末10は、図3に示す構成のすべてを必ずしも備えなくてもよい。例えば、情報処理端末10は、表示部110やセンサ部150などを備えない構成をとることもできる。また、上述したように、本実施形態に係る制御部160は、情報処理サーバ20の出力制御部250と同等の機能を有してもよい。本実施形態に係る情報処理端末10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.4.情報処理サーバ20の機能構成例>>
 次に、本実施形態に係る情報処理サーバ20の機能構成例について詳細に説明する。図4は、本実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。図4を参照すると、本実施形態に係る情報処理サーバ20は、ユーザ認識部210、環境認識部220、音声認識部230、コンテキスト取得部240、出力制御部250、ユーザ情報蓄積部260、パラメータ蓄積部270、および通信部280を備える。
 (ユーザ認識部210)
 本実施形態に係るユーザ認識部210は、ユーザに係る種々の認識を行う機能を有する。例えば、ユーザ認識部210は、情報処理端末10やセンサ装置30が収集したユーザの発話や画像と、ユーザ情報蓄積部260に予め記憶されるユーザの音声特徴や画像とを比較することでユーザの認識を行うことができる。
 また、ユーザ認識部210は、情報処理端末10やセンサ装置30が収集した音情報、画像情報、センサ情報に基づいて、ユーザの行動や状態を認識することができる。ユーザ認識部210は、例えば、収集された画像情報やセンサ情報に基づいて、ユーザの移動や行動を認識する。ユーザ認識部210は、情報処理端末10が収集した加速度情報や角速度情報に基づいてユーザがジョギングを行っていることなどを認識することができる。また、ユーザ認識部210は、ゲーム機器であるセンサ装置30から送信される稼働状況に基づいて、ユーザがゲームを行っていることを認識してもよい。
 また、ユーザ認識部210は、例えば、画像情報や音情報などに基づいて、ユーザに係る種々の状態を認識する。ユーザ認識部210は、例えば、収集された画像情報に基づいて、ユーザの視線や表情、感情などを認識してもよい。
 (環境認識部220)
 本実施形態に係る環境認識部220は、情報処理端末10やセンサ装置30が収集した音情報、画像情報、センサ情報に基づいて、周囲環境に係る種々の認識を行う機能を有する。環境認識部220は、例えば、情報処理端末10が収集した音情報に基づいて、周囲の騒音レベルを認識してもよいし、画像情報やセンサ情報に基づいてユーザ以外の第三者が周囲に存在することを認識してもよい。
 また、環境認識部220は、画像情報やセンサ情報に基づいて、ユーザが位置する場所の特性を推定することも可能である。環境認識部220は、例えば、ユーザが電車に乗っていることや、人通りの多い繁華街に居ることなどを推定してもよい。
 (音声認識部230)
 本実施形態に係る音声認識部230は、情報処理端末10が収集した音情報に基づいてユーザの発話を認識する機能を有する。具体的には、本実施形態に係る音声認識部230は、ユーザによる発話が行われた区間を検出する音声区間検出機能、音情報をテキストに変換する音声認識機能、変換後のテキストからユーザの発話意図を解析する意図解析機能を有する。
 また、本実施形態に係る音声認識部230は、ユーザの発話スタイルを検出する。ここで、上記の発話スタイルは、例えば、発話の長さ、大きさ、スピード、語気、口調などの情報を含む。また、発話スタイルには、例えば、情報処理端末10による音声発話の出力後にユーザが発話を行うまでに要した時間、ユーザが音声発話に対して割り込み(バージイン)を行った、などの情報が含まれてもよい。
 (コンテキスト取得部240)
 本実施形態に係るコンテキスト取得部240は、ユーザ認識部210、環境認識部220、および音声認識部230による各種の認識の結果に基づいて出力コンテキストを取得する機能を有する。本実施形態に係るコンテキスト取得部240は、ユーザや周囲の状態、入力されたユーザの発話などに基づいて、出力文の出力に係る状況、すなわち出力コンテキストを動的に取得することができる。
 また、本実施形態に係るコンテキスト取得部240は、上記の認識結果のほか、他のアプリケーションから取得した情報に基づいて、出力コンテキストを取得してよい。コンテキスト取得部240は、例えば、ユーザの予定情報や、ユーザの移動経路における渋滞情報などを各アプリケーションから取得し、総合的に出力コンテキストを取得することができる。
 さらには、本実施形態に係るコンテキスト取得部240は、ユーザ情報蓄積部260に蓄積されるユーザの状態に関する過去の履歴や、習慣、特性などを加味して出力コンテキストを取得してよい。例えば、同一の行動であっても、ユーザによっては、意図や意味が異なる場合も想定される。一例としては、あるユーザが不安を感じているときに行う行動(癖、表情)は、別のユーザにとっては怒りを感じているときに行う行動である可能性もある。このため、本実施形態に係るコンテキスト取得部240がユーザごとに過去の履歴や習慣を加味して総合的に出力コンテキストを取得することで、より精度の高い状況の推定を行うことが可能となる。
 (出力制御部250)
 本実施形態に係る出力制御部250は、ユーザに対する情報提示において出力文の出力を制御する機能を有する。この際、本実施形態に係る出力制御部250は、出力文の出力に際しコンテキスト取得部240が取得した出力コンテキストに基づいて、出力文に係る出力表現を動的に制御することを特徴の一つとする。
 ここで、上記の出力表現は、例えば、出力文の文章内容を含んでよい。すなわち、本実施形態に係る出力制御部250は、コンテキスト取得部240が取得した出力コンテキストに基づいて、出力文の文章内容を動的に変化させてよい。本実施形態に係る出力制御部250が有する上記の機能によれば、状況に応じて出力文の内容自体を動的に変更することができ、ユーザに対しより価値の高い情報提示を実現することが可能となる。
 また、上記の出力表現は、文章内容のほか、出力文に係る出力態様、出力ニュアンス、出力動作などを含む。すなわち、本実施形態に係る出力制御部250は、コンテキスト取得部240が取得した出力コンテキストに基づいて、出力文に係る出力態様、出力ニュアンス、出力動作を動的に変更することができる。
 ここで、上記の出力態様とは、出力文の出力に係る聴覚的または視覚的な表現を指す。出力文を音声発話により出力させる場合、出力制御部250は、例えば、音声発話の声質、大きさ、韻律、出力タイミング、効果などの制御を行うことができる。なお、上記の韻律には、音のリズム、強弱、長短などが含まれる。また、出力文を視覚情報により出力させる場合、出力制御部250は、例えば、出力文のフォント、大きさ、色、文字装飾、配置、アニメーションなどを制御することができる。本実施形態に係る出力制御部250が有する上記の機能によれば、状況に応じて出力文に係る聴覚的または視覚的表現を変化させることで、より効果的な情報提示を実現することが可能となる。
 また、上記の出力ニュアンスとは、出力文が含む意図をユーザに伝えるための種々の表現を指す。例えば、人間同士による会話の場合、発話に係る文章内容がまったく同一である場合でも、表情や間などにより発話のニュアンスが異なる場合が多く見受けられる。このため、本実施形態に係る出力制御部250は、出力コンテキストに基づいて出力文に係る出力ニュアンスを制御することで、より表現力の高い情報提示を実現することが可能である。なお、出力ニュアンスの制御は、出力態様や出力動作の制御に伴い実現されてもよい。
 また、上記の出力動作とは、出力文の出力に係る情報処理端末10の物理的動作を指す。例えば、情報処理端末10が人間や動物を模したロボットである場合、出力動作には、四肢などのパーツの動き、視線やまばたきなどを含む表情などが含まれてよい。また、出力動作には、例えば、光や振動を用いた種々の物理的動作が含まれる。本実施形態に係る出力制御部250が有する上記の機能によれば、情報処理端末10に状況に応じた適切な出力動作を行わせることが可能となる。また、出力制御部250は、視覚情報として表示させるキャラクターなどの出力動作を制御してもよい。
 (ユーザ情報蓄積部260)
 本実施形態に係るユーザ情報蓄積部260は、ユーザに係る種々の情報を記憶する。ユーザ情報蓄積部260は、例えば、ユーザの年齢や性別などの基本情報、ユーザの画像や音声、嗜好、特性などを記憶してよい。また、ユーザ情報蓄積部260は、出力コンテキストの過去履歴をユーザごとに記憶する。
 (パラメータ蓄積部270)
 本実施形態に係るパラメータ蓄積部270は、出力制御部250が生成した出力文および当該出力文に係る出力表現と出力コンテキストとを関連付けて履歴を記憶する。すなわち、本実施形態に係るパラメータ蓄積部270は、状況ごとに応じた出力文の出力ルールを記憶するといえる。
 (通信部280)
 本実施形態に係る通信部280は、ネットワーク40を介して情報処理端末10およびセンサ装置30との情報通信を行う機能を有する。具体的には、通信部280は、情報処理端末10やセンサ装置30から音情報、画像情報、センサ情報を受信する。また、通信部280は、出力文の出力に係る制御信号を情報処理端末10に送信する。
 以上、本実施形態に係る情報処理サーバ20の機能構成例について説明した。なお、図4を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理サーバ20の機能構成は係る例に限定されない。例えば、情報処理サーバ20は、必ずしも図4に示す構成のすべてを備えなくてもよい。ユーザ認識部210、環境認識部220、音声認識部230、コンテキスト取得部240、ユーザ情報蓄積部260、およびパラメータ蓄積部270は、情報処理サーバ20とは異なる別の装置に備えることも可能である。本実施形態に係る情報処理サーバ20の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 <<1.5.出力制御の詳細>>
 次に、本実施形態に係る出力制御部250による出力文の出力制御について具体例を挙げながら詳細に説明する。図1では、出力制御部250が、情報処理端末10との対話を行うユーザの状態を含む出力コンテキストに基づいて出力文の出力表現を制御する場合の一例を説明した。一方、本実施形態に係る出力制御部250は、情報処理端末10と対話を行うユーザとは異なるユーザの状態を含む出力コンテキストに基づいて、出力文の出力表現を制御してもよい。
 図5は、本実施形態に係る他のユーザの状態を含む出力コンテキストに基づく出力制御の一例を示す図である。図5には、ユーザU1が周囲に存在する状態でユーザU2が情報処理端末10との対話を行っている状況が示されている。なお、図5の上段にはユーザU1が通常の状態である場合の一例が、図5の下段にはユーザU1が外出を前に焦っている状態である場合の一例がそれぞれ示されている。
 この際、本実施形態に係る出力制御部250は、コンテキスト取得部240が取得したユーザU1の状態を含む出力コンテキストに基づいて、異なる出力制御を行うことができる。例えば、図5の上段に示す一例の場合、出力制御部250は、出力コンテキストがユーザU1が通常の状態であることを示すことから、ユーザU2の問い合わせに係るユーザ発話UO5aに対し、回答となる出力文を音声発話SO5aとして出力させている。なお、この際、出力制御部250は、ユーザU2の年齢や知識レベルに応じて出力文の質や量、口調などを変化させることができる。
 一方、図5の下段に示す一例の場合、出力制御部250は、出力コンテキストがユーザU1が焦っている状態であることを示すことから、ユーザ発話UO5aに対する回答ではなく、外出の準備を促す出力文を音声発話SO5bとして出力させている。このように、本実施形態に係る出力制御部250は、情報処理端末10との対話を行うユーザU2の状態のみではなく、ユーザU2の周囲に存在するユーザU1の状態に基づいて、出力文の出力表現を動的に変更することができる。
 また、図5に示す一例のように、本実施形態に係る出力制御部250は、ユーザの問い合わせに対する応答を必ずしも優先しなくてよい。出力制御部250は、出力コンテキストに応じてより価値の高いと推測される出力文を情報処理端末10に出力させることで、ユーザの意図しないニーズに対応した効果的な情報提示を実現することが可能である。
 また、本実施形態に係る出力制御部250は、ユーザの状態のほか、過去の出力文の履歴情報や、他のアプリケーションから取得した情報を含む出力コンテキストに基づいて、出力文の出力表現を制御してもよい。
 図6Aは、本実施形態に係る出力文の過去履歴を含む出力コンテキストに基づく出力制御の一例を示す図である。図6Aには、おすすめの学習コースを問うユーザ発話UO6aを行うユーザU3と、ユーザ発話UO6aに対する応答として音声発話SO6aを出力する情報処理端末10が示されている。
 この際、出力制御部250は、出力コンテキストが過去に初級クラスを推薦する出力文を出力したことを示すことや、現在のユーザU3の学習レベルが前回の出力時よりも向上していることを示すことに基づいて、中級クラスを推薦する出力文を情報処理端末10に出力させることができる。
 また、図6Bは、他のアプリケーションから取得した情報を含む出力コンテキストに基づく出力制御の一例を示す図である。図6Bには、天気の問い合わせに係るユーザ発話UO6bを行うユーザU3と、ユーザ発話UO6bに対する応答である音声発話SO6bを出力する情報処理端末10が示されている。また、図6Bに示す一例の場合、コンテキスト取得部240は、スケジューラアプリケーションから取得した予定情報を含む出力コンテキストを取得している。
 この際、出力制御部250は、出力コンテキストがユーザU3に出張の予定があることを示すことから、現在地の天気に加え出張先の天気情報を含む出力文を情報処理端末10に出力させてよい。このように、本実施形態に係る出力制御部250によれば、出力コンテキストが示す種々の状況に応じて出力文の出力表現を柔軟に変更することができ、より価値の高い情報提示を実現することが可能となる。
 なお、図6Aおよび図6Bでは、出力コンテキストに基づいて出力制御部250が主に出力文の文章内容を変更する場合について述べたが、本実施形態に係る出力表現の制御は係る例に限定されない。例えば、本実施形態に係る出力制御部250は、文章内容を変更することなく出力文の出力ニュアンスを変化させることもできる。
 図7Aおよび図7Bは、本実施形態に係る出力ニュアンスの制御について説明するための図である。図7Aには、ユーザU1の機嫌に係る問い合わせであるユーザ発話UO7aを行うユーザU3と、ユーザ発話UO7aに対する応答である音声発話SO7aを出力する情報処理端末10が示されている。出力制御部250は、遠隔地にいるユーザU1にユーザ発話UO7aに係る問い合わせを仲介しユーザU1から回答を得ることで、当該回答に対応する出力文を音声発話SO7aとして情報処理端末10に出力させることができる。
 また、この際、出力制御部250は、ユーザU1の状態に係る視覚情報SV7aを音声発話SO7aと共に情報処理端末10に出力させてもよい。出力制御部250は、例えば、ユーザU1の状態を撮像した画像や、ユーザU1のアバターAU1を視覚情報SV7aとして情報処理端末10に出力させることができる。
 図7Aに示す一例の場合、出力制御部250は、ユーザU1の画像情報を含む出力コンテキストが、ユーザU1に怒った様子がないことを示すことから、ユーザU1から得た「まったく怒っていない」という回答を、肯定的な出力表現で出力させてよい。
 一方、図7Bには、ユーザU1が怒った表情で図7Aとまったく同一の回答を行った場合の一例が示している。この際、出力制御部250は、ユーザU1の画像情報が含む出力コンテキストが、ユーザU1が怒った表情であることを示すことから、ユーザU1が怒っていることを示唆する出力ニュアンスで、音声発話SO7bを情報処理端末10に出力させている。
 この際、出力制御部250は、例えば、音声発話SO7aとまったく同一の文章内容を保ちながら、音声発話SO7bに係る抑揚や間を変更することで、上記の示唆を表現することができる。このように、本実施形態に係る出力制御部250は、文章内容を変更することなく出力文の出力ニュアンスを柔軟に変化させることも可能である。本実施形態に係る出力制御部250が有する上記の機能によれば、出力コンテキストに基づくより多彩な表現を実現することが可能となる。
 なお、上記では主に、問い合わせなどの依頼を行うユーザと情報提示を享受するユーザとが同一である場合の例を中心に説明した。一方、本実施形態に係る情報提示の制御は係る例に限定されない。本実施形態に係る出力制御部250は、依頼ユーザによる依頼に基づいて、当該依頼ユーザとは異なる対象ユーザに対する情報提示を制御してもよい。
 この際、本実施形態に係る出力制御部250は、例えば、依頼ユーザに係る出力コンテキストに基づいて、出力文の出力表現を動的に制御することができる。図8は、依頼ユーザに係る出力コンテキストに基く出力制御について説明するための図である。
 図8には、遠隔地にいる依頼ユーザであるユーザU1が対象ユーザであるユーザU2に対するメッセージの仲介を依頼した場合の出力制御の一例が示されている。この際、本実施形態に係る出力制御部250は、依頼ユーザであるユーザU1に係る出力コンテキストに基づいて、出力文の文章内容を含む出力表現を動的に変化させることが可能である。
 例えば、図8に示す一例の場合、依頼ユーザであるユーザU1は、帰宅時間と帰宅後の予定を対象ユーザであるユーザU2に伝えるためのユーザ発話UO8aを行っている。この場合、本実施形態に係る出力制御部250は、例えば、ユーザU2に対する出力文の出力時におけるユーザU1の実際の状態に基づいて、出力文の出力表現を変化させてよい。
 図8に示す一例の場合、出力制御部250は、ユーザU1の状態を含む出力コンテキストが、ユーザU1が多忙となったことを示すことから、ユーザU1の状況の変化を反映させた出力文を音声発話SO8aとして情報処理端末10に出力させている。
 このように、本実施形態に係る出力制御部250によれば、単純に依頼ユーザのメッセージを対象ユーザに伝えるのではなく、出力時における依頼ユーザの実際の状態を加味した出力文を生成することで、より付加価値の高い情報提示を実現することが可能となる。
 また、本実施形態に係る出力制御部250は、対象ユーザに係る出力コンテキストに基づいて、出力文の出力表現を動的に制御してもよい。図9は、対象ユーザに係る出力コンテキストに基く出力制御について説明するための図である。
 図9には、遠隔地にいる依頼ユーザであるユーザU1が対象ユーザであるユーザU2に対するメッセージの仲介を依頼した場合の出力制御の一例が示されている。この際、本実施形態に係る出力制御部250は、対象ユーザであるユーザU2に係る出力コンテキストに基づいて、出力文の文章内容を含む出力表現を動的に変化させることが可能である。
 例えば、図9に示す一例の場合、依頼ユーザであるユーザU1は、対象ユーザであるユーザU2の行動を指示するためのユーザ発話UO9aを行っている。具体的には、ユーザ発話UO9aは、宿題が終わるまではおやつを食べてはいけないことをユーザU2に指示する内容である。この場合、本実施形態に係る出力制御部250は、例えば、ユーザU2に対する出力文の出力時におけるユーザU2の実際の状態に基づいて、出力文の出力表現を変化させてよい。
 図9に示す一例の場合、出力制御部250は、ユーザU2の状態を含む出力コンテキストが、ユーザU1が既に宿題を終えたことを示すことから、当該行動の終了を反映させた出力文を音声発話SO9aとして情報処理端末10に出力させている。具体的には、出力制御部250は、宿題を終えたことを褒め、おやつを食べてよい旨の音声発話SO9aを情報処理端末10に行わせている。
 このように、本実施形態に係る出力制御部250によれば、出力時における対象ユーザの実際の状態を加味した出力文を生成することで、例えば、対象ユーザにとってより肯定的な情報提示を行うことができ、依頼ユーザおよび対象ユーザの双方に価値を提供することが可能となる。
 また、本実施形態に係る出力制御部250は、時間経過に伴う出力コンテキストの変化に基づいて、出力文の出力表現を動的に制御してもよい。本実施形態に係る出力制御部250は、例えば、出力文の出力に係るトリガー発生時と当該出力文の出力時とにおける出力コンテキストの変化に基づいて、出力表現を動的に制御することができる。
 ここで、上記のトリガーとは、出力文の出力のきっかけとなる事象を指す。本実施形態に係るトリガーは、例えば、ユーザからの問い合わせなどの依頼であってよい。出力制御部250は、例えば、ユーザからの依頼をトリガーとして、当該依頼に対する応答となる出力文を情報処理端末10に出力させることが可能である。
 図10および図11は、本実施形態に係る出力コンテキストの変化に基づく出力制御について説明するための図である。例えば、図11には、書類とお土産の持参に係るリマインドを依頼するユーザ発話UO10aを行うユーザU3と、当該依頼に対応する出力文を音声発話SO10aとして出力する情報処理端末10が示されている。
 この際、本実施形態に係る出力制御部250は、ユーザ発話UO10aの検出時、すなわちトリガー発生時と、音声発話SO10aの出力時における出力コンテキストの変化に基づいて、出力文の文章内容を含む出力表現を変化させることができる。例えば、出力制御部250は、トリガー発生時と出力文の出力時におけるユーザU3の所持物の変化に基づいて、出力文の文章内容を変化させてもよい。
 図10に示す一例の場合、出力制御部250は、トリガー発生時にユーザU3が所持していなかった書類を出力時にユーザU3が所持していることに基づいて、リマインドに係る出力文の文章内容を変化させた音声発話SO10aを情報処理端末10に出力させている。
 また、図11には、操作手順に関する説明を依頼するためのユーザ発話UO11aを行うユーザU3と、当該依頼に対応する出力文を出力する情報処理端末10が示されている。
 例えば、図11の上段に示す一例の場合、出力制御部250は、予め設定された入力手順のすべてを省略することなく音声発話SO11aとして情報処理端末10に出力させている。図11に示す一例の場合、操作手順は、ホームページへのアクセス、ユーザ名入力によるログイン、メニューの選択、から構成される。
 一方、図11の下段には、ユーザU3がホームページへのアクセス後、説明を待たずに自主的にログイン処理を完了させた場合の一例が示されている。この際、本実施形態に係る出力制御部250は、トリガー発生時からの出力コンテキストの変化、すなわちログイン処理の完了に基づいて、当該ログイン処理に係る説明を省略した出力文を音声発話SO11bとして出力させている。
 このように、本実施形態に係る出力制御部250は、出力文の少なくとも一部の内容に影響する出力コンテキストの変化に基づいて、当該出力文の出力表現を動的に変化させることができる。
 より具体的には、本実施形態に係る出力制御部250は、トリガー発生時から出力時までの間におけるユーザによる所定行動の進捗に基づいて、出力文の出力表現を動的に変化させてよい。例えば、出力制御部250は、ユーザによる上記所定行動の完了が検出されたことに基づいて、出力文の出力表現を動的に変化させることができる。ここで、上記の所定行動は、出力文の少なくとも一部に対応する行動であってよい。
 このように、本実施形態に係る出力制御部250によれば、時間経過に伴う出力コンテキストの変化に応じて出力文を柔軟に変化させることができ、より効率的かつ価値の高い情報提示を実現することが可能となる。
 また、本実施形態に係る出力制御部250は、複数のユーザに係る出力コンテキストに基づいて、出力文の出力表現を動的に制御してもよい。図12および図13は、複数のユーザに係る出力コンテキストに基づく出力制御について説明するための図である。
 図12には、レストランの問い合わせに係るユーザ発話SO12aを行うユーザU2およびU3と、当該問い合わせに対する回答を音声発話SO12aにより出力する情報処理端末10とが示されている。
 なお、図12には、ユーザU2がダイエット中であり、またユーザU3が昼食にステーキを食べた場合の一例が示されている。この際、本実施形態に係る出力制御部250は、複数のユーザ、すなわちユーザU2およびU3の利益の総和が増大するように、出力文の出力表現を動的に制御してもよい。
 具体的には、本実施形態に出力制御部250は、出力コンテキストが上記の状況を示すことに基づいて、ダイエット中のユーザU2にとって適するとともに、ユーザU3が昼食にとった食事とは趣の異なる和食を推薦する出力文を音声発話SO12aとして出力させている。
 このように、本実施形態に係る出力制御部250によれば、ユーザU2およびU3の双方にとって価値のあると推定される情報提示を行うことができ、複数のユーザが存在する場合であっても、より多くのユーザに対し利益生の高い情報を提供することが可能となる。
 また、図13には、特定のレストランの込み具合を問うユーザ発話UO13aを行うユーザU1、ユーザU3、およびにユーザ発話UO13a対する回答を音声発話SO13aにより出力する情報処理端末10とが示されている。
 なお、図13には、上記特定のレストランが比較的混んでいる状況であり、またユーザU3には一時間後に会議の予定がある場合の一例が示されている。この際、本実施形態に係る出力制御部250は、複数のユーザ、すなわちユーザU2およびU3の損失の総和が低減するように、出力文の出力表現を動的に制御してもよい。
 具体的には、出力制御部250は、出力コンテキストが上記の状況を示すことに基づいて、より近隣のすいているレストランを推薦する出力文を音声発話SO13aとして情報処理端末10に出力させている。この際、出力制御部250は、例えば、情報提示に係る過去履歴に基づいて以前にユーザU1が利用したことがあり高評価であったレストランを推薦してもよい。
 このように、本実施形態に係る出力制御部250によれば、ユーザU2およびU3の双方の損失を防ぐ情報提示を行うことができ、複数のユーザが存在する場合であっても、より多くのユーザに対し利益生の高い情報を提供することが可能となる。
 なお、本実施形態に係るコンテキスト取得部240は、例えば、スケジューラアプリケーション、メッセージアプリケーション、SNSなどから取得した情報に基づいて、上述したようなダイエット状況、食事内容、スケジュールなどを出力コンテキストに含めることができる。
 <<1.6.出力制御の流れ>>
 次に、本実施形態に係る情報処理サーバ20による出力文の出力制御の流れについて詳細に説明する。図14は、本実施形態に係る情報処理サーバ20による出力制御の流れを示すフローチャートである。
 図14を参照すると、まず、情報処理端末10の通信部280が情報処理端末10やセンサ装置30などから収集情報を受信する(S1101)。ここで、上記の収集情報には、音情報、画像情報、その他のセンサ情報が含まれる。
 次に、出力制御部250が音声認識部230による認識結果などに基づいて、出力部の出力に係るトリガーを検出する(S1102)。
 次に、コンテキスト取得部240がステップS1102におけるトリガー検出に基づいて、トリガー発生時の出力コンテキストを取得する(S1103)。
 また、コンテキスト取得部240は、出力制御部250による制御に基づいて、出力文の出力時における出力コンテキストを取得する(S1104)。
 次に、出力制御部250が、ステップS1103およびS1104においてコンテキスト取得部240が取得した出力コンテキストに基づいて、出力文の出力制御を実行する(S1105)。
 <2.ハードウェア構成例>
 次に、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20に共通するハードウェア構成例について説明する。図15は、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図15を参照すると、情報処理端末10および情報処理サーバ20は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
 (CPU871)
 CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
 (ROM872、RAM873)
 ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
 (ホストバス874、ブリッジ875、外部バス876、インターフェース877)
 CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
 (入力装置878)
 入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
 (出力装置879)
 出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
 (ストレージ880)
 ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
 (ドライブ881)
 ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
 (リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
 (接続ポート882)
 接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
 (外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
 (通信装置883)
 通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
 <3.まとめ>
 以上説明したように、本開示の一実施形態に係る情報処理サーバ20は、ユーザに対する情報提示において出力文の出力を制御する機能を有する。また、この際、情報処理サーバ20は、出力文の出力に際し取得された出力コンテキストに基づいて、当該出力文に係る出力表現を動的に制御することを特徴の一つとする。係る構成によれば、より柔軟かつ効果的な情報提示を実現することが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、本明細書の情報処理サーバ20の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ20の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 ユーザに対する情報提示において出力文の出力を制御する出力制御部、
 を備え、
 前記出力制御部は、前記出力文の出力に際し取得された出力コンテキストに基づいて、前記出力文に係る出力表現を動的に制御する、
情報処理装置。
(2)
 前記出力表現は、少なくとも前記出力文の文章内容を含み、
 前記出力制御部は、前記出力コンテキストに基づいて、前記出力文の文章内容を動的に変化させる、
前記(1)に記載の情報処理装置。
(3)
 前記出力表現は、前記出力文に係る出力態様、出力ニュアンス、または出力動作のうち少なくともいずれかを含み、
 前記出力制御部は、前記出力コンテキストに基づいて、前記出力態様、前記出力ニュアンス、または前記出力動作のうち少なくともいずれかを動的に変化させる、
前記(1)または(2)に記載の情報処理装置。
(4)
 前記出力制御部は、時間経過に伴う前記出力コンテキストの変化に基づいて、前記出力表現を動的に制御する、
前記(1)~(3)のいずれかに記載の情報処理装置。
(5)
 前記出力制御部は、前記出力文の出力に係るトリガー発生時と前記出力文の出力時とにおける前記出力コンテキストの変化に基づいて、前記出力表現を動的に制御する、
前記(1)~(4)のいずれかに記載の情報処理装置。
(6)
 前記出力制御部は、前記出力文の少なくとも一部の内容に影響する前記出力コンテキストの変化に基づいて、前記出力表現を動的に変化させる、
前記(5)に記載の情報処理装置。
(7)
 前記出力制御部は、前記トリガー発生時から前記出力時までの間におけるユーザによる所定行動の進捗に基づいて、前記出力表現を動的に変化させ、
 前記所定行動は、前記出力文の少なくとも一部に対応する行動である、
前記(5)または(6)に記載の情報処理装置。
(8)
 前記出力制御部は、前記所定行動の完了が検出されたことに基づいて、前記出力表現を動的に変化さる、
前記(7)に記載の情報処理装置。
(9)
 前記出力制御部は、依頼ユーザによる依頼に基づいて、対象ユーザに対する情報提示を制御する、
前記(1)~(8)のいずれかに記載の情報処理装置。
(10)
 前記出力制御部は、前記依頼ユーザに係る前記出力コンテキストに基づいて、前記出力表現を動的に制御する、
前記(9)に記載の情報処理装置。
(11)
 前記出力制御部は、前記対象ユーザに係る前記出力コンテキストに基づいて、前記出力表現を動的に制御する、
前記(9)または(10)に記載の情報処理装置。
(12)
 前記依頼ユーザと前記対象ユーザは、互いに遠隔地に位置する、
前記(9)~(11)のいずれかに記載の情報処理装置。
(13)
 前記出力制御部は、複数のユーザに係る出力コンテキストに基づいて、前記出力表現を動的に制御する、
前記(1)~(12)のいずれかに記載の情報処理装置。
(14)
 前記出力制御部は、複数のユーザに係る利益の総和が増大するよう、前記出力表現を動的に制御する、
前記(13)に記載の情報処理装置。
(15)
 前記出力制御部は、複数のユーザに係る損失の総和が低減するよう、前記出力表現を動的に制御する、
前記(13)または(14)に記載の情報処理装置。
(16)
 前記出力制御部は、前記情報提示に係る過去履歴に基づいて、前記出力表現を動的に制御する、
前記(1)~(15)のいずれかに記載の情報処理装置。
(17)
 前記出力コンテキストは、ユーザの状態、行動、スケジュール、または環境の状態のうち少なくともいずれかに係る情報を含む、
前記(1)~(16)のいずれかに記載の情報処理装置。
(18)
 前記出力制御部は、前記出力文に係る音声発話の出力表現を動的に制御する、
前記(1)~(17)のいずれかに記載の情報処理装置。
(19)
 プロセッサが、ユーザに対する情報提示において出力文の出力を制御すること、
 を含み、
 前記制御することは、前記出力文の出力に際し取得された出力コンテキストに基づいて、前記出力文に係る出力表現を動的に制御すること、
 をさらに含む、
情報処理方法。
(20)
 コンピュータを、
 ユーザに対する情報提示において出力文の出力を制御する出力制御部、
 を備え、
 前記出力制御部は、前記出力文の出力に際し取得された出力コンテキストに基づいて、前記出力文に係る出力表現を動的に制御する、
 情報処理装置、
として機能させるためのプログラム。
 10   情報処理端末
 110  表示部
 120  音声出力部
 130  音声入力部
 140  撮像部
 150  センサ部
 160  制御部
 170  サーバ通信部
 20   情報処理サーバ
 210  ユーザ認識部
 220  環境認識部
 230  音声認識部
 240  コンテキスト取得部
 250  出力制御部
 260  ユーザ情報蓄積部
 270  パラメータ蓄積部
 280  通信部
 30   センサ装置

Claims (20)

  1.  ユーザに対する情報提示において出力文の出力を制御する出力制御部、
     を備え、
     前記出力制御部は、前記出力文の出力に際し取得された出力コンテキストに基づいて、前記出力文に係る出力表現を動的に制御する、
    情報処理装置。
  2.  前記出力表現は、少なくとも前記出力文の文章内容を含み、
     前記出力制御部は、前記出力コンテキストに基づいて、前記出力文の文章内容を動的に変化させる、
    請求項1に記載の情報処理装置。
  3.  前記出力表現は、前記出力文に係る出力態様、出力ニュアンス、または出力動作のうち少なくともいずれかを含み、
     前記出力制御部は、前記出力コンテキストに基づいて、前記出力態様、前記出力ニュアンス、または前記出力動作のうち少なくともいずれかを動的に変化させる、
    請求項1に記載の情報処理装置。
  4.  前記出力制御部は、時間経過に伴う前記出力コンテキストの変化に基づいて、前記出力表現を動的に制御する、
    請求項1に記載の情報処理装置。
  5.  前記出力制御部は、前記出力文の出力に係るトリガー発生時と前記出力文の出力時とにおける前記出力コンテキストの変化に基づいて、前記出力表現を動的に制御する、
    請求項1に記載の情報処理装置。
  6.  前記出力制御部は、前記出力文の少なくとも一部の内容に影響する前記出力コンテキストの変化に基づいて、前記出力表現を動的に変化させる、
    請求項5に記載の情報処理装置。
  7.  前記出力制御部は、前記トリガー発生時から前記出力時までの間におけるユーザによる所定行動の進捗に基づいて、前記出力表現を動的に変化させ、
     前記所定行動は、前記出力文の少なくとも一部に対応する行動である、
    請求項5に記載の情報処理装置。
  8.  前記出力制御部は、前記所定行動の完了が検出されたことに基づいて、前記出力表現を動的に変化さる、
    請求項7に記載の情報処理装置。
  9.  前記出力制御部は、依頼ユーザによる依頼に基づいて、対象ユーザに対する情報提示を制御する、
    請求項1に記載の情報処理装置。
  10.  前記出力制御部は、前記依頼ユーザに係る前記出力コンテキストに基づいて、前記出力表現を動的に制御する、
    請求項9に記載の情報処理装置。
  11.  前記出力制御部は、前記対象ユーザに係る前記出力コンテキストに基づいて、前記出力表現を動的に制御する、
    請求項9に記載の情報処理装置。
  12.  前記依頼ユーザと前記対象ユーザは、互いに遠隔地に位置する、
    請求項9に記載の情報処理装置。
  13.  前記出力制御部は、複数のユーザに係る出力コンテキストに基づいて、前記出力表現を動的に制御する、
    請求項1に記載の情報処理装置。
  14.  前記出力制御部は、複数のユーザに係る利益の総和が増大するよう、前記出力表現を動的に制御する、
    請求項13に記載の情報処理装置。
  15.  前記出力制御部は、複数のユーザに係る損失の総和が低減するよう、前記出力表現を動的に制御する、
    請求項13に記載の情報処理装置。
  16.  前記出力制御部は、前記情報提示に係る過去履歴に基づいて、前記出力表現を動的に制御する、
    請求項1に記載の情報処理装置。
  17.  前記出力コンテキストは、ユーザの状態、行動、スケジュール、または環境の状態のうち少なくともいずれかに係る情報を含む、
    請求項1に記載の情報処理装置。
  18.  前記出力制御部は、前記出力文に係る音声発話の出力表現を動的に制御する、
    請求項1に記載の情報処理装置。
  19.  プロセッサが、ユーザに対する情報提示において出力文の出力を制御すること、
     を含み、
     前記制御することは、前記出力文の出力に際し取得された出力コンテキストに基づいて、前記出力文に係る出力表現を動的に制御すること、
     をさらに含む、
    情報処理方法。
  20.  コンピュータを、
     ユーザに対する情報提示において出力文の出力を制御する出力制御部、
     を備え、
     前記出力制御部は、前記出力文の出力に際し取得された出力コンテキストに基づいて、前記出力文に係る出力表現を動的に制御する、
     情報処理装置、
    として機能させるためのプログラム。
PCT/JP2018/024544 2017-09-15 2018-06-28 情報処理装置、情報処理方法、およびプログラム WO2019054009A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-178208 2017-09-15
JP2017178208 2017-09-15

Publications (1)

Publication Number Publication Date
WO2019054009A1 true WO2019054009A1 (ja) 2019-03-21

Family

ID=65722685

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/024544 WO2019054009A1 (ja) 2017-09-15 2018-06-28 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
WO (1) WO2019054009A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007285976A (ja) * 2006-04-19 2007-11-01 Fujitsu Ltd 音声案内装置
JP2014164523A (ja) * 2013-02-25 2014-09-08 Sharp Corp メッセージ通知装置、制御方法、および制御プログラム
JP2015005058A (ja) * 2013-06-19 2015-01-08 ヤフー株式会社 レコメンド装置、レコメンド方法及びレコメンドプログラム
JP2015064689A (ja) * 2013-09-24 2015-04-09 シャープ株式会社 通知サーバ、通知システム、通知方法、プログラム、および記録媒体
WO2016136062A1 (ja) * 2015-02-27 2016-09-01 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2017080374A (ja) * 2015-10-27 2017-05-18 シャープ株式会社 制御装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007285976A (ja) * 2006-04-19 2007-11-01 Fujitsu Ltd 音声案内装置
JP2014164523A (ja) * 2013-02-25 2014-09-08 Sharp Corp メッセージ通知装置、制御方法、および制御プログラム
JP2015005058A (ja) * 2013-06-19 2015-01-08 ヤフー株式会社 レコメンド装置、レコメンド方法及びレコメンドプログラム
JP2015064689A (ja) * 2013-09-24 2015-04-09 シャープ株式会社 通知サーバ、通知システム、通知方法、プログラム、および記録媒体
WO2016136062A1 (ja) * 2015-02-27 2016-09-01 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2017080374A (ja) * 2015-10-27 2017-05-18 シャープ株式会社 制御装置

Similar Documents

Publication Publication Date Title
KR102100742B1 (ko) 디지털 어시스턴트 서비스의 원거리 확장
KR102334942B1 (ko) 돌봄 로봇을 위한 데이터 처리 방법 및 장치
US20220284896A1 (en) Electronic personal interactive device
KR102197869B1 (ko) 자연스러운 어시스턴트 상호작용
JP7418526B2 (ja) 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード
EP3766066B1 (en) Generating response in conversation
JP2019220194A (ja) 情報処理装置、情報処理方法及びプログラム
CN117033578A (zh) 基于设备间对话通信的主动协助
JPWO2019087811A1 (ja) 情報処理装置、及び情報処理方法
WO2016181670A1 (ja) 情報処理装置、情報処理方法及びプログラム
KR20210137118A (ko) 대화 단절 검출을 위한 글로벌 및 로컬 인코딩을 갖는 컨텍스트 풍부 주의 기억 네트워크를 위한 시스템 및 방법
JP2019091387A (ja) 情報処理装置及びプログラム
KR20240007261A (ko) 자동화된 어시스턴트 응답(들) 생성에 대규모 언어 모델 사용
US20230108256A1 (en) Conversational artificial intelligence system in a virtual reality space
WO2020116026A1 (ja) 応答処理装置、応答処理方法及び応答処理プログラム
JPWO2017175442A1 (ja) 情報処理装置、および情報処理方法
US20200234187A1 (en) Information processing apparatus, information processing method, and program
JP7230803B2 (ja) 情報処理装置および情報処理方法
DK180835B1 (en) Spoken notifications
WO2019054009A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JPWO2018116556A1 (ja) 情報処理装置、および情報処理方法
US11935449B2 (en) Information processing apparatus and information processing method
US20220108693A1 (en) Response processing device and response processing method
US20200342870A1 (en) Information processing device and information processing method
WO2019146199A1 (ja) 情報処理装置、及び情報処理方法

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 18855474

Country of ref document: EP

Kind code of ref document: A1