WO2024070651A1 - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
WO2024070651A1
WO2024070651A1 PCT/JP2023/033138 JP2023033138W WO2024070651A1 WO 2024070651 A1 WO2024070651 A1 WO 2024070651A1 JP 2023033138 W JP2023033138 W JP 2023033138W WO 2024070651 A1 WO2024070651 A1 WO 2024070651A1
Authority
WO
WIPO (PCT)
Prior art keywords
participant
conversation
dominance
information processing
unit
Prior art date
Application number
PCT/JP2023/033138
Other languages
English (en)
French (fr)
Inventor
秀憲 青木
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2024070651A1 publication Critical patent/WO2024070651A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working

Definitions

  • This technology relates to an information processing device, an information processing method, and a program, and in particular to an information processing device, an information processing method, and a program that enable appropriate evaluation of the conversation dominance of participants in a conversation without relying solely on the amount of speech.
  • Patent Document 1 discloses a technology for appropriately transmitting information in situations where a user cannot use their hands. Specifically, this technology has a display device that can be worn on the head like a head-mounted display, and an imaging unit that can capture images of the lips and eyes, and identifies words based on lip movement and recognizes facial expressions from the captured image, and transmits stamps associated with the results.
  • Patent Document 2 discloses a technology that stores audio data of a user's voice in advance and recognizes speech based on an image capturing the user's lip movement, and creates speech using the text of the speech recognized by speech recognition and the stored audio data.
  • Patent Document 3 discloses a technology for estimating satisfaction in a conversation between multiple people.
  • the information processing device or program of this technology is an information processing device having a processing unit that estimates the degree of control of a participant in a conversation based on a facial image of the participant, or a program for causing a computer to function as such an information processing device.
  • the information processing method of the present technology is an information processing method having a processing unit, in which the processing unit estimates the degree of control of a participant in a conversation based on a facial image of the participant.
  • the degree of control of participants in a conversation is estimated based on facial images of the participants.
  • FIG. 1 is a block diagram showing a configuration example of an information processing system according to an embodiment to which the present technology is applied. This is a diagram used to explain facial landmark detection. This is a diagram used to explain facial landmark detection.
  • FIG. 11 is a diagram illustrating an example of an operation correspondence table.
  • 2 is a flowchart illustrating a processing procedure of the information processing apparatus of FIG. 1 .
  • 1 is a block diagram showing an example of the configuration of an embodiment of a computer to which the present technology is applied.
  • FIG. 1 is a block diagram showing an example of the configuration of an information processing system according to an embodiment to which the present technology is applied.
  • the information processing system data processing system has terminals 1 and 2, such as a smartphone, tablet, or PC (Personal Computer).
  • terminals 1 and 2 are used in one-to-one video chat using a smartphone.
  • One of terminals 1 and 2 is referred to as local terminal 1, and the other is referred to as remote terminal 2.
  • Local terminal 1 and remote terminal 2 have the same configuration and can perform the same processing, so the configuration and processing of local terminal 1 (also simply referred to as terminal 1) will be explained.
  • remote terminal 2 is not limited to a specific configuration as long as it has a configuration for performing video chat with local terminal 1.
  • the terminal 1 has an imaging unit 11, a voice acquisition unit 12, an image processing unit 13, a display unit 14, a communication unit 15, an image acquisition unit 16, a dialogue state determination unit 17, a voice processing unit 18, a voice output unit 19, and a data learning unit 20.
  • the imaging unit 11 continuously captures a video (image) of a subject and acquires a video consisting of frames at a predetermined time interval.
  • the imaging unit 11 is intended to capture the face of a caller as a subject, and may be, for example, an in-camera that is generally equipped in a smartphone, etc., and captures the face of the user of the terminal 1 (first caller). However, since the out-camera that is generally equipped in a smartphone, etc.
  • the imaging unit 11 may be directed toward the user when talking, or the out-camera may capture the first caller when the photographer and the first caller are different, the imaging unit 11 may be an out-camera.
  • the imaging unit 11 may be any one of one or more cameras equipped in the terminal 1, and the user may specify the camera to be used as the imaging unit 11, or the camera capturing the face may be automatically switched to the imaging unit 11.
  • the image captured by the imaging unit 11 is supplied to the image processing unit 13.
  • the audio capture unit 12 picks up audio around the terminal 1 and captures the audio (audio signal) as an electrical signal.
  • the audio capture unit 12 may be, for example, a microphone that is generally provided in smartphones and the like. However, the audio capture unit 12 may also be an external device connected to the terminal 1, such as a headset or Bluetooth (registered trademark) earphones.
  • the audio captured by the audio capture unit 12 is supplied to the image processing unit 13.
  • the image processing unit 13 performs image processing on the image (also called the self-image) supplied from the imaging unit 11 and the image (also called the other party image) of the other party's terminal 2 supplied from the image acquisition unit 16, and supplies information (evaluation information) for judging (evaluating) the dialogue state between the first caller and the other party (also called the second caller) to the dialogue state judgment unit 17.
  • the image processing unit 13 also generates a display image based on the self-image and the other party image, and supplies it to the display unit 14.
  • the display image may be, for example, a form in which the self-image is superimposed on a part of the other party image, or a form in which the other party image and the self-image are switched.
  • the image processing unit 13 also supplies the voice of the own terminal 1 (also called the own voice) from the voice acquisition unit 12 to the voice processing unit 18 and the data learning unit 20, and supplies the self-image to the communication unit 15 and the data learning unit 20.
  • the image processing unit 13 will be described in detail later.
  • the display unit 14 displays the image for display from the image processing unit 13.
  • the display unit 14 may be, for example, a display that is generally provided in a smartphone or the like.
  • the communication unit 15 controls communication with external devices and communicates with the remote terminal 2.
  • the communication may include, for example, a wired communication network such as a LAN (Local Area Network) or a WAN (Wide Area Network), a wireless communication network such as a mobile communication network or a wireless LAN (WLAN: Wireless Local Area Network), or a combined communication network.
  • the network may include the Internet using a communication protocol such as TCP/IP (Transmission Control Protocol/Internet Protocol).
  • the image acquisition unit 16 acquires the other party image sent from the other party's terminal 2 via the communication unit 15 and supplies it to the image processing unit 13.
  • the dialogue state determination unit 17 determines the dialogue state, such as the degree of conversation dominance, in the current call based on the evaluation information from the image processing unit 13.
  • the dialogue state which is the determination result, is supplied to the image processing unit 13 and the voice processing unit 18.
  • the dialogue state determination unit 17 will be described in detail later.
  • the audio processing unit 18 acquires the audio (also called the other party's audio) transmitted from the other party's terminal 2 via the communication unit 15.
  • the audio processing unit 18 performs audio processing such as audio conversion by applying pitch shift (changing the pitch) or an equalizer (audio effect) to the other party's audio based on the dialogue state from the dialogue state determination unit 17.
  • the other party's audio after audio processing is supplied to the audio output unit 19.
  • the audio processing unit 18 also acquires the user's own audio from the image processing unit 13, and can perform audio processing on the user's own audio based on the dialogue state in the same way as the other party's audio.
  • the user's own audio after audio processing is supplied to the communication unit 15, and transmitted from the communication unit 15 to the other party's terminal 2.
  • the audio output unit 19 outputs the other party's voice from the audio processing unit 18 as sound waves.
  • the audio output unit 19 may be, for example, a speaker that is generally provided in a smartphone or the like. However, the audio output unit 19 may also be an external device connected to the terminal 1, such as a headset or Bluetooth (registered trademark) earphones.
  • the data learning unit 20 learns the facial expressions (facial expression changes) of the first caller that add or subtract points to the dominance of the conversation based on the self-image and voice from the image processing unit 13. The learning results are supplied to the image processing unit 13. Details of the data learning unit 20 will be described later.
  • the image processing unit 13 has a face recognition unit 31, a facial expression recognition unit 32, and a facial expression conversion unit 33.
  • the face recognition unit 31 recognizes the face (facial image) of the first caller included in the self-portrait from the imaging unit 11.
  • the facial expression recognition unit 32 recognizes facial expressions for the face recognized by the face recognition unit 31, and estimates the degree of control of the conversation of the first caller based on the recognized facial expression. Note that the term "facial expression" also includes facial movements.
  • the degree of control of a conversation indicates the degree to which the first and second callers can be regarded as controlling the conversation in a dialogue (conversation) between the first and second callers. For example, the longer the first caller's speaking time, the higher the degree of control of the conversation of the first caller. In addition, even if the first caller is not speaking, if the first caller is "nodding (moving head up and down)" or “listening with a smile (turning the corners of the mouth)", it can be regarded as actively participating in the conversation. Therefore, the more time or number of times the first caller is judged to have shown such active facial expressions (reactions) such as nodding, interjections, and other habits, the higher the degree of control of the first caller.
  • the first caller is not listening, such as "looking in the wrong direction (looking out of the screen)", or “wanting to talk but unable to talk (pushing lips)", it can be regarded as not actively participating in the conversation.
  • the gaze when the gaze is directed outside the screen, it means that the gaze is directed away from the direction of the display unit 14 or the imaging unit 11. The more time or number of times the first caller is judged to have shown such a negative facial expression (reaction) to the conversation, the lower the degree of dominance of the first caller in the conversation.
  • the facial expression recognition unit 32 of the image processing unit 13 can recognize the facial expression of the second caller based on the other party's image, in the same way as the conversation dominance of the first caller, and estimate the conversation dominance of the second caller.
  • the own terminal 1 may estimate the conversation dominance of either the first caller or the second caller, and the other party's terminal 2 may estimate the conversation dominance of the other party.
  • the image processing unit 13 of the own terminal 1 can obtain both the conversation dominance of the first caller and the conversation dominance of the second caller by obtaining the conversation dominance estimated by the other party's terminal 2 via communication.
  • the value of the conversation dominance is added or subtracted under the same conditions (evaluation method) for the first and second callers.
  • the conversation dominance of the first and second callers are represented by x1 and x2, respectively. It is assumed that the conversation dominance of the first or second caller is incremented by 1 every time the first or second caller speaks for 1 second, and the conversation dominance of the first or second caller is incremented by 1 every time the first or second caller makes a backchannel.
  • the value of the conversation dominance of either the first or second caller, x1 or x2 indicates the amount of time or frequency that the first or second caller actively participated (is considered to have participated) in the conversation during the period from the start of the conversation to the present time.
  • the parameters x1 and x2 referred to as dominance are referred to as conversation participation evaluation values x1 and x2, and if the dominance of the conversation of each of the first and second callers is represented by parameters X1 and X2, then dominance X1 may be a value obtained by x1/(x1+x2), and dominance X2 may be a value obtained by x2/(x1+x2).
  • dominance X1 and X2 are values representing their ratio, and may be the respective component ratios of the conversation participation evaluation values x1 and x2 to the total (total) of the conversation participation evaluation values x1 and x2.
  • the facial expression recognition unit 32 estimates the conversation dominance X1 of the first caller (or the conversation participation evaluation value x1) and the conversation dominance X2 of the second caller (or the conversation participation evaluation value x2), and supplies the result to the dialogue state determination unit 17.
  • the dialogue state determination unit 17 compares the dominance X1 of the conversation of the first caller from the facial expression recognition unit 32 with the dominance X2 of the conversation of the second caller, and determines whether there is a gap between them. Whether there is a gap between the dominance X1 and the dominance X2 can be determined, for example, by whether the difference between the dominance X1 and the dominance X2 is equal to or greater than a predetermined critical value.
  • the critical value may be a value that is set or changed by the user (first caller), or may be a fixed value.
  • the dialogue state determination unit 17 determines whether the difference between the dominance X1 and the dominance X2 is equal to or greater than C%.
  • the dialogue state determination unit 17 may determine whether the dominance X1 is equal to or less than (50-C/2)% or equal to or greater than (50+C/2), or may determine whether only one of the conditions is satisfied.
  • the result of the determination by the dialogue state determination unit 17 (determination result) is supplied to the image processing unit 13 and the audio processing unit 18.
  • the facial expression conversion unit 33 of the image processing unit 13 changes the facial expression of the second caller in the other party image by image processing, and induces the user to reduce the gap.
  • the other party image in which the facial expression of the second caller is changed by image processing is the display image displayed on the display unit 14 and visually recognized by the first caller.
  • the facial expression conversion unit 33 changes the facial expression of the second caller so that the dominance X1 of the first caller's conversation increases.
  • the facial expression conversion unit 33 converts the corners of the mouth of the face image of the second caller in the other party image to raise them. As a result, the face of the second caller looks more cheerful and the feeling of positivity increases, and the first caller is induced to increase the amount of speech (dominance X1).
  • the facial expression conversion unit 33 changes the facial expression of the second caller so that the dominance X1 of the conversation of the first caller decreases.
  • the facial expression conversion unit 33 converts the facial image of the second caller in the partner image to lower the corners of the mouth. This increases the impression given by the face of the second caller, which induces a decrease in the amount of speech (dominance X1) of the first caller.
  • the facial expression conversion unit 33 can change the facial expression of the first caller in the self-image taken by the imaging unit 11 through image processing, and can also guide the second caller to reduce the gap.
  • the self-image in which the facial expression of the first caller is changed through image processing is a display image that is displayed on the display unit of the other party's terminal 2 via communication and is visually recognized by the second caller.
  • the facial expression conversion unit 33 changes the facial expression of the first caller so that the dominance X2 of the second caller's conversation decreases.
  • the facial expression conversion unit 33 changes the facial expression of the first caller so that the dominance X2 of the second caller's conversation increases.
  • the user's terminal 1 may perform either the change in the facial expression of the first caller in the user's own image or the change in the facial expression of the second caller in the other party's image, and the other party's terminal 2 may perform the other.
  • the other party's terminal 2 may not have the function of performing such facial expression changes, and the user's terminal 1 may only perform one of the facial expressions.
  • the user's terminal 1 is assumed to have the function of changing only the facial expression of the second caller in the other party's image using the facial expression conversion unit 33.
  • the voice processing unit 18 modifies the sound quality of the other caller's voice from the other caller's terminal 2 by voice processing such as voice conversion applying pitch shift or equalizer (voice effect) to reduce the gap.
  • voice processing such as voice conversion applying pitch shift or equalizer (voice effect) to reduce the gap.
  • the other caller's voice whose sound quality is changed by voice processing is the voice output unit 19 and heard by the first caller.
  • the voice processing unit 18 modifies the voice of the second caller (sound quality of the other caller's voice) so that the dominance X1 of the conversation of the first caller increases.
  • the voice processing unit 18 performs voice conversion to raise the pitch (tone) of the other caller's voice.
  • the voice of the second caller sounds more positive than normal voice, and the first caller is induced to increase the amount of speech (dominance X1).
  • the voice processing unit 18 changes the voice of the second caller (the quality of the other party's voice) so that the dominance X1 of the conversation of the first caller is reduced.
  • the voice processing unit 18 performs voice conversion to lower the pitch of the other party's voice.
  • the voice of the second caller sounds more negative than normal voice, and the first caller's speech volume (dominance X1) is induced to decrease.
  • the voice processing unit 18 can also guide the user to change the sound quality of the user's voice from the voice acquisition unit 12 by voice processing to reduce the gap.
  • the user's voice whose sound quality is changed by voice processing is the voice output from the voice output unit of the other party's terminal 2 via communication and heard by the second caller.
  • the voice processing unit 18 changes the sound quality of the user's voice so that the dominance X2 of the second caller's conversation decreases.
  • the voice processing unit 18 changes the sound quality of the user's voice so that the dominance X2 of the second caller's conversation increases.
  • the user's terminal 1 may change either the sound quality of the other party's voice or the sound quality of the user's own voice, and the other may be performed by the other party's terminal 2.
  • the other party's terminal 2 may not have the function to change the voice in this way, and the user's terminal 1 may only change the sound quality of one of the voices.
  • the user's terminal 1 has the function to change only the sound quality of the other party's voice using the voice processing unit 18.
  • the facial expression recognition unit 32 recognizes the facial expression of the first caller based on the self-image from the imaging unit 11, and estimates the first caller's conversation dominance (conversation participation evaluation value x1) based on the recognized facial expression.
  • the facial expression recognition unit 32 can estimate the second caller's conversation dominance (conversation participation evaluation value x2) similar to the first caller's conversation dominance (conversation participation evaluation value x1) based on the other party's image from the other party's terminal 2.
  • the second caller's conversation dominance is provided by the other party's terminal 2, and a description thereof will be omitted.
  • the facial expression recognition unit 32 has a facial landmark recognition unit 41 and an action correspondence table 42.
  • the facial landmark recognition unit 41 detects (recognizes) facial landmarks in order to recognize the facial expression of the first caller in the self-portrait.
  • the facial landmarks LM represent feature points detected from the facial image FA, and for example, as shown in FIG. 3, 68 feature points are represented.
  • the facial landmarks LM can be detected using the facial recognition application "Openface” (Tadas Baltrusaitis, Peter Robinson, Louis-Philippe Morency, "OpenFace: an open source facial behavior analysis toolkit", 2016 IEEE Winter Conference on Applications of Computer Vision (WACV), pp.1-10, 2016).
  • the detection of the facial landmark LM can be performed using a function such as the application "ARFaceAnchor” (https://developer.apple.com/documentation/arkit/arfaceanchor) used in mobile terminals such as smartphones and tablets, or can be performed using an inference model generated by machine learning technology.
  • the facial landmark recognition unit 41 can obtain the mouth opening degree as a coefficient called jawOpen in addition to the detection of the facial landmark, and can obtain various states of the facial landmark as coefficients, such as 1.0 when the mouth is fully open and 0 when the mouth is not open at all.
  • the facial landmark recognition unit 41 determines that the first caller is in a speaking state when the state of the mouth changes based on the state of the facial landmark. For example, the facial landmark recognition unit 41 increases the value of the first caller's conversation dominance (conversation participation evaluation value x1) by 1 every time the time that the first caller is determined to be in a speaking state continues for, for example, 1 second.
  • the facial landmark recognition unit 41 also detects the facial movement of the first caller from the change in the facial landmark LM.
  • the facial movement is represented by a combination of facial movement elements (e.g., 44 types) called Action Units (AU), which are the smallest unit of facial movement.
  • AU Action Units
  • the action correspondence table 42 specifies conditions under which a facial movement of the first caller is judged to be an active one that can be perceived as an active participant in the conversation even when the first caller is not speaking, and conditions under which a facial movement of the first caller is judged to be a passive one that can be perceived as not actively participating in the conversation.
  • the action correspondence table 42 also specifies values that are added to or subtracted from the first caller's conversation dominance (conversation participation evaluation value x1) when a facial movement that meets the specified conditions is detected.
  • FIG. 4 shows an example of the action correspondence table 42.
  • the facial landmark recognition unit 41 can obtain a coefficient for each Action Unit.
  • the coefficient for each Action Unit corresponds to the proportion of the facial movement of each Action Unit included in the facial movement of the first caller.
  • the facial landmark recognition unit 41 detects the facial movement of the first caller by acquiring a coefficient for each Action Unit, and based on the acquired coefficient for each Action Unit, detects a facial movement that satisfies the conditions among the facial movements in the action correspondence table 42 as shown in FIG. 4.
  • the facial landmark recognition unit 41 deducts 1 point from the first caller's conversation dominance (conversation participation evaluation value x1) as specified in FIG. 4. In other words, it is determined that this is a passive facial movement that can be perceived as the first caller not actively participating in the conversation, and the first caller's conversation dominance (conversation participation evaluation value x1) is deducted 1 point.
  • the face landmark recognition unit 41 adds 1 point to the first caller's conversation dominance (conversation participation evaluation value x1) as specified in FIG. 4. In other words, it is determined that this is an active facial movement that can be perceived as the first caller actively participating in the conversation, and the first caller's conversation dominance (conversation participation evaluation value x1) is added by 1 point.
  • Such data in the action correspondence table 42 may be created in advance, or may be learned during the conversation and added according to the characteristics of the first caller's facial movements.
  • ⁇ Data Creation for Operation Correspondence Table 42 A case will be described where data in the action correspondence table 42 is learned during a conversation and added according to the characteristics of the facial expressions of the first caller.
  • the data learning unit 20 operates when sound components other than a human voice (the speech of the first caller) included in the user's own voice acquired by the voice acquisition unit 12 are below a predetermined level.
  • the data learning unit 20 has a voice recognition unit 51, a voice-to-text unit 52, a sentiment analysis unit 53, and a facial expression learning unit 54.
  • the voice recognition unit 51 acquires the user's own voice acquired by the voice acquisition unit 12 via the image processing unit 13, recognizes (extracts) the human voice (speech sound) from the acquired user's own voice, and supplies it to the voice text conversion unit 52.
  • the voice text conversion unit 52 converts the speech sound from the voice acquisition unit 12 into text, and supplies the text data to the emotion analysis unit 53.
  • the emotion analysis unit 53 detects emotions based on the meaning of the text itself based on the text data from the voice text conversion unit 52 as emotion information, and supplies it to the facial expression learning unit 54.
  • the facial expression learning unit 54 learns the emotional information from the emotion analysis unit 53 and the movement of the facial landmarks in the self-portrait when the emotional information is detected. Information on the facial landmarks in the self-portrait is supplied to the facial expression learning unit 54 from the facial expression recognition unit 32 (facial landmark recognition unit 41) of the image processing unit 13. In this way, the facial expression learning unit 54 can learn the facial movements made by the first caller in response to the emotion of the first caller indicated by the emotional information, and can associate the facial movements of the first caller with the emotion of the first caller at that time. For example, if the first caller mumbles and then utters the negative words "it was difficult," the facial movement of mumbles can be associated with the negative emotion.
  • Data for the action correspondence table 42 can be generated such that, for a facial expression in which the emotion is positive, a point (e.g., +1) is added to the first caller's conversation dominance (conversation participation evaluation value x1), and, for a facial expression in which the emotion is negative, a point (e.g., -1) is subtracted from the first caller's conversation dominance (conversation participation evaluation value x1).
  • the generated data is stored in the data storage unit 61, and is set to a usable state as data for the action correspondence table 42 of the facial expression recognition unit 32 at an appropriate timing.
  • ⁇ Processing procedure for adjusting the degree of control of the conversation at the own terminal 1> 5 is a flowchart showing an example of a processing procedure of the terminal 1. Note that the process of creating data for the operation correspondence table 42 by the data learning unit 20 is omitted.
  • step S1 the imaging unit 11 starts capturing a self-image. After that, capturing of the self-image is performed continuously.
  • step S2 the image processing unit 13 (face recognition unit 31) determines whether or not a face is included in the self-image captured in step S1. If the result in step S2 is negative, the process of step S2 is repeated. If the result in step S2 is positive, the process proceeds to steps S3 and S6. Note that the processes of steps S3 to S5 and the processes of steps S6 and S7 are executed in parallel.
  • step S3 the image processing unit 13 (the facial landmark recognition unit 41 of the facial expression recognition unit 32) detects the facial landmarks of the first caller in the self-portrait and detects the state of the facial landmarks of the lips and mouth.
  • step S4 the image processing unit 13 (the facial landmark recognition unit 41 of the facial expression recognition unit 32) judges whether the values (coordinates) of the facial landmarks of the lips and mouth have changed by a certain value or more. If the result in step S4 is negative, the process of step S4 is repeated. If the result in step S4 is positive, the process proceeds to step S5. In step S5, the image processing unit 13 (the facial landmark recognition unit 41 of the facial expression recognition unit 32) judges that the first caller is in a speaking state.
  • the image processing unit 13 increases the conversation dominance (conversation participation evaluation value x1) of the first caller. For example, the image processing unit 13 adds 1 point to the conversation dominance (conversation participation evaluation value x1) of the first caller, or adds the duration (number of seconds) during which the speaking state was detected.
  • step S6 the image processing unit 13 (the facial landmark recognition unit 41 of the facial expression recognition unit 32) acquires the state of the facial landmark based on the action correspondence table 42 (the facial expression of the first caller that meets the conditions defined in the action correspondence table 42).
  • step S7 the image processing unit 13 (the facial landmark recognition unit 41 of the facial expression recognition unit 32) adds or subtracts points corresponding to the facial expression acquired in step S6 to the first caller's conversation dominance (conversation participation evaluation value x1) based on the action correspondence table 42.
  • step S8 the dialogue state determination unit 17 compares the conversation dominance X1 of the first caller with the conversation dominance X2 of the second caller.
  • step S9 the dialogue state determination unit 17 determines whether there is a gap between the conversation dominance X1 of the first caller and the conversation dominance X2 of the second caller. If the result in step S9 is negative, the process from step S2 is repeated. If the result in step S9 is positive, the process proceeds to step S10.
  • step S10 the image processing unit 13 (facial expression conversion unit 33) converts the facial expression of the second caller in the other party image so as to reduce the gap between the conversation dominance X1 of the first caller and the conversation dominance X2 of the second caller.
  • the voice processing unit 18 converts the sound quality of the other party's voice so as to reduce the gap between the conversation dominance X1 of the first caller and the conversation dominance X2 of the second caller. Note that only one of the facial expression conversion by the image processing unit 13 and the sound quality conversion by the voice processing unit 18 may be performed. After step S10, the process returns to step S2, and the process from step S2 is repeated.
  • the dominance of a conversation taking into account facial reactions such as nodding, interjections, and other habits.
  • accuracy drops when using a different camera, at a different distance, or when looking to the side, but by using the state of facial landmarks, the position and orientation of the face have less impact on accuracy.
  • This technology solves these problems and eliminates conversation bias in one-to-one video calls.
  • the user's state and situation is inferred from facial images, and if it is determined that there is conversation bias, the conversation bias is eliminated through user feedback.
  • the user's situation is determined using images rather than voice.
  • Conversation bias is determined from a value called conversation dominance. Conversation dominance is calculated by adjusting the degree of dominance using facial reactions in addition to the state of speaking. Therefore, even if one person's speech takes up most of the conversation, if the non-speaking party is nodding and making a lot of responses, the system is unlikely to determine that the conversation is biased.
  • an information processing system can automatically select a call partner.
  • a service that selects an optimal call partner such as a matching service
  • matching can be performed based on the degree of dominance of the conversation.
  • a simple conversation volume (amount of speech) is used, but as an application, it is also possible to perform matching based not only on the dominance of the conversation but also on the actions in the action correspondence table, such as using a person who reacts frequently to people who pay close attention to the other party (people who look at the call screen) and a person who does not react much to people who do not pay close attention to the other party.
  • the above-mentioned series of processes can be executed by hardware or software.
  • the programs constituting the software are installed in a computer.
  • the computer includes a computer built into dedicated hardware, and a general-purpose personal computer, for example, capable of executing various functions by installing various programs.
  • FIG. 6 is a block diagram showing an example of the hardware configuration of a computer that executes the above-mentioned series of processes by program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • an input/output interface 205 Further connected to the bus 204 is an input/output interface 205. Connected to the input/output interface 205 are an input unit 206, an output unit 207, a storage unit 208, a communication unit 209, and a drive 210.
  • the input unit 206 includes a keyboard, mouse, microphone, etc.
  • the output unit 207 includes a display, speaker, etc.
  • the storage unit 208 includes a hard disk, non-volatile memory, etc.
  • the communication unit 209 includes a network interface, etc.
  • the drive 210 drives removable media 211 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory.
  • the CPU 201 loads a program stored in the storage unit 208, for example, into the RAM 203 via the input/output interface 205 and the bus 204, and executes the program, thereby performing the above-mentioned series of processes.
  • the program executed by the computer (CPU 201) can be provided by recording it on removable media 211 such as package media, for example.
  • the program can also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • a program can be installed in the storage unit 208 via the input/output interface 205 by inserting the removable medium 211 into the drive 210.
  • the program can also be received by the communication unit 209 via a wired or wireless transmission medium and installed in the storage unit 208.
  • the program can be pre-installed in the ROM 202 or storage unit 208.
  • the program executed by the computer may be a program in which processing is performed chronologically in the order described in this specification, or a program in which processing is performed in parallel or at the required timing, such as when called.
  • the processing performed by a computer according to a program does not necessarily have to be performed in chronological order according to the order described in the flowchart.
  • the processing performed by a computer according to a program also includes processing that is executed in parallel or individually (for example, parallel processing or processing by objects).
  • the program may be processed by one computer (processor), or may be distributed among multiple computers. Furthermore, the program may be transferred to a remote computer for execution.
  • a system refers to a collection of multiple components (devices, modules (parts), etc.), regardless of whether all the components are in the same housing. Therefore, multiple devices housed in separate housings and connected via a network, and a single device in which multiple modules are housed in a single housing, are both systems.
  • the configuration described above as one device (or processing unit) may be divided and configured as multiple devices (or processing units).
  • the configurations described above as multiple devices (or processing units) may be combined and configured as one device (or processing unit).
  • configurations other than those described above may be added to the configuration of each device (or each processing unit).
  • part of the configuration of one device (or processing unit) may be included in the configuration of another device (or other processing unit).
  • this technology can be configured as cloud computing, in which a single function is shared and processed collaboratively by multiple devices via a network.
  • the above-mentioned program can be executed in any device.
  • the device has the necessary functions (functional blocks, etc.) and is able to obtain the necessary information.
  • each step described in the above flowchart can be executed by one device, or can be shared and executed by multiple devices.
  • one step includes multiple processes, the multiple processes included in that one step can be executed by one device, or can be shared and executed by multiple devices.
  • multiple processes included in one step can be executed as multiple step processes.
  • processes described as multiple steps can be executed collectively as one step.
  • processing of the steps that describe a program executed by a computer may be executed chronologically in the order described in this specification, or may be executed in parallel, or individually at the required timing, such as when a call is made. In other words, as long as no contradictions arise, the processing of each step may be executed in an order different from the order described above. Furthermore, the processing of the steps that describe this program may be executed in parallel with the processing of other programs, or may be executed in combination with the processing of other programs.
  • An information processing device comprising: a processing unit that estimates a degree of control of a participant in a conversation based on a face image of the participant.
  • a processing unit estimates the dominance of the participant based on a facial expression of the participant.
  • the processing unit detects a facial expression of the participant based on a facial landmark detected from the face image.
  • the processing unit detects the facial expression of the participant based on a combination of facial expression movement elements.
  • the processing unit acquires a degree of control of the conversation of the other participant who is participating in the conversation,
  • the processing unit includes: The information processing device according to (5), wherein the participant's dominance is increased when the participant's facial expression when not speaking is an expression that is deemed to be an active participant in the conversation.
  • the processing unit includes: The information processing device according to (7), wherein, when the facial expression of the participant is a nod, a response, or a smile, it is determined that the facial expression is regarded as an active participation in the conversation. (9)
  • the processing unit includes: The information processing device according to any one of (5) to (8), further comprising: reducing the degree of dominance of a participant when the facial expression of the participant when not speaking is an expression that is deemed to be a participant not actively participating in the conversation.
  • the processing unit includes: The information processing device described in (9) determines that the facial expression of the participant is an expression of pursing the lips or a gaze away from the direction of an imaging unit that captures the facial image, and that the facial expression is an expression that is considered to be not actively participating in the conversation. (11) a display unit that displays a face image of the other participant who is participating in the conversation; and a conversion unit that converts a facial expression of the other person by changing a part of the facial image of the other person displayed on the display unit according to the participant's degree of control over the conversation. (12) The information processing device according to (11), wherein the conversion unit changes corners of a mouth of the face image of the other person.
  • the information processing device changes a part of a facial image of the participant or a face of the other participant so that the dominance of the participant satisfies a preset condition.
  • a voice output unit that outputs the voice of the other participant who is participating in the conversation;
  • the information processing device according to any one of (1) to (13), further comprising: a voice processing unit that changes a sound quality of the voice of the other party output from the voice output unit according to a degree of dominance of the participant with respect to the conversation.
  • the audio output unit changes a sound quality of the other party's voice by applying a pitch shift or an equalizer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本技術は、ビデオチャット等のオンラインの会話に参加している参加者の会話の支配度を発話量だけによらずに適切に評価できるようにする情報処理装置、情報処理方法、及び、プログラムに関する。 会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度が推定される。本技術はスマートフォン等の端末を用いたビデオチャットなどに適用され得る。

Description

情報処理装置、情報処理方法、及び、プログラム
 本技術は、情報処理装置、情報処理方法、及び、プログラムに関し、特に、会話に参加している参加者の会話の支配度を発話量だけによらずに適切に評価できるようにした情報処理装置、情報処理方法、及び、プログラムに関する。
 特許文献1には、利用者の手が仕様できない状況において適切に情報を送信する技術が開示されている。具体的には特許文献1には、ヘッドマウントディスプレイのように頭部に装着可能な表示装置と、***と目とを撮影可能な撮像部とを有し、***の動きに基づき単語の識別と撮像画像からの表情認識とを行い、その結果から対応付けられたスタンプを送信するという技術である。特許文献2には、ユーザの発する音声の音声データを予め記憶して、前記ユーザの***の動きを撮像した映像に基づき発話を認識する技術であり、発話認識によって認識された発話のテキストと記憶してある音声データとを用いて音声を作成する技術が開示されている。特許文献3には、複数人における会話における満足度を推定する技術が開示されている。
特開2021-157681号公報 特開2019-208138号公報 特開2018-169506号公報
 ビデオチャット等の会話(オンラインチャット)において、発話していない場合でも発話しているのと同様に会話に参加しているとみなされる状況がある。したがって、会話に参加している参加者の会話の支配度は、発話量(発話の時間比率)だけでは適切に評価することはできない。
 本技術はこのような状況に鑑みてなされたものであり、会話に参加している参加者の会話の支配度を発話量だけによらずに適切に評価できるようにする。
 本技術の情報処理装置、又は、プログラムは、会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する処理部を有する情報処理装置、又は、そのような情報処理装置として、コンピュータを機能させるためのプログラムである。
 本技術の情報処理方法は、処理部を有する情報処理方法の前記処理部が、会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する情報処理方法である。
 本技術の情報処理装置、情報処理方法、及び、プログラムにおいては、会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度が推定される。
本技術が適用された実施の形態に係る情報処理システムの構成例を示したブロック図である。 顔ランドマーク(Facial Landmark)の検出についての説明に用いた図である。 顔ランドマーク(Facial Landmark)の検出についての説明に用いた図である。 動作対応表を例示した図である。 図1の情報処理装置の処理手順を例示したフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、図面を参照しながら本技術の実施の形態について説明する。
<<本実施の形態に係るデータ処理システム>>
 図1は、本技術が適用された実施の形態に係る情報処理システムの構成例を示したブロック図である。
 図1において、本実施の形態に係る情報処理システムデータ処理システムは、例えば、スマートフォン、タブレット、PC(Personal Computer)等の端末1及び2を有する。以下の説明では、例えば、スマートフォンによる1対1のビデオチャットでの端末1及び2の利用を想定して説明する。端末1及び2のうちの一方を自端末1とし、他方を相手端末2とも称する。自端末1と相手端末2は、端末1及び2は、同様の構成を有し、同様の処理を行うことができるので自端末1(単に端末1ともいう)の構成及び処理について説明する。ただし、相手端末2は、自端末1とのビデオチャットを行う構成を有しいればよく、特定の構成に限定されない。
 端末1は、撮像部11、音声取得部12、画像処理部13、表示部14、通信部15、画像取得部16、対話状態判断部17、音声処理部18、音声出力部19、及び、データ学習部20を有する。撮像部11は、被写体の映像(画像)を連続的に撮像し、所定時間おきのフレームからなる動画を取得する。撮像部11は、被写体として通話者の顔を撮像することを目的とし、例えば、スマートフォン等に一般的に具備されているインカメラであってよく、自端末1のユーザ(第1通話者)の顔を撮影する。ただし、スマートフォン等に一般的に具備されているアウトカメラを自身に向けて会話する場合や、撮影者と第1通話者が異なる場合にアウトカメラで第1通話者を映すこともあるため、撮像部11は、アウトカメラであるとしてもよい。即ち、撮像部11は、端末1が備える1又は複数のカメラのうちのいずれかであってよく、撮像部11として用いるカメラをユーザが指定するようにしてもよいし、顔を撮像しているカメラが撮像部11として自動的に切り替えられるようにしてもよい。撮像部11で取得された画像は、画像処理部13に供給される。
 音声取得部12は、端末1の周辺の音声を収音し、電気信号としての音声(音声信号)を取得する。音声取得部12は、例えば、スマートフォン等に一般的に具備されているマイクであってよい。ただし、音声取得部12は、ヘッドセットやBluetooth(登録商標)イヤホンなどの端末1に接続される外部機器であってもよい。音声取得部12により取得された音声は、画像処理部13に供給される。
 画像処理部13は、撮像部11から供給される画像(自画像ともいう)と、画像取得部16から供給される相手端末2の画像(相手画像とも)とに対して画像処理を実行し、第1通話者と通話相手(第2通話者ともいう)との対話状態を判断(評価)するための情報(評価情報)を対話状態判断部17に供給する。また、画像処理部13は、自画像と相手画像とに基づいて、表示用画像を生成し、表示部14に供給する。表示用画像は、例えば、相手画像の一部に自画像が重畳された形態であってもよいし、相手画像と自画像とが切り替えられる形態であってもよい。また、画像処理部13は、音声取得部12からの自端末1の音声(自音声ともいう)を音声処理部18とデータ学習部20とに供給し、自画像を通信部15とデータ学習部20とに供給する。なお、画像処理部13についての詳細は後述する。
 表示部14は、画像処理部13からの表示用の画像を表示する。表示部14は、例えば、スマートフォン等に一般的に具備されているディスプレイであってよい。
 通信部15は、外部装置との通信を制御し、相手端末2との通信を行う。通信は、例えば、LAN(Local Area Network)やWAN(Wide Area Network)のような有線通信網、移動通信網や無線LAN(WLAN:Wireless Local Area Network)のような無線通信網、又は、複合通信網を含むことができる。ネットワークとしては、TCP/IP(Transmission Control Protocol/Internet Protocol)などの通信プロトコルを用いたインターネットを含むことができる。
 画像取得部16は、相手端末2から送信される相手画像を通信部15を介して取得し、画像処理部13に供給する。対話状態判断部17は、画像処理部13からの評価情報に基づいて、現在の通話における会話の支配度等の対話状態を判断する。判断結果である対話状態は、画像処理部13及び音声処理部18に供給される。対話状態判断部17について詳細は後述する。
 音声処理部18は、相手端末2から送信される音声(相手音声ともいう)を通信部15を介して取得する。音声処理部18は、対話状態判断部17からの対話状態に基づいて、相手音声に対してピッチシフト(音の高さの変更)やイコライザ(音声エフェクト)を適用した音声変換等の音声処理を行う。音声処理後の相手音声は、音声出力部19に供給される。また、音声処理部18は、画像処理部13からの自音声を取得し、自音声に対しても相手音声と同様に対話状態に基づいて音声処理を行うことができる。音声処理後の自音声は、通信部15に供給され、通信部15から相手端末2に送信される。
 音声出力部19は、音声処理部18からの相手音声を音波として出力する。音声出力部19は、例えば、スマートフォン等に一般的に具備されているスピーカであってよい。ただし、音声出力部19は、ヘッドセットやBluetooth(登録商標)イヤホンなどの端末1に接続される外部機器であってもよい。
 データ学習部20は、画像処理部13からの自画像及び自音声に基づいて、会話の支配度に対して加点又は減点する第1通話者の表情(表情変化)を学習する。学習結果は、画像処理部13に供給される。データ学習部20についての詳細は後述する。
<画像処理部13、対話状態判断部17、音声処理部18の詳細>
 画像処理部13は、顔認識部31、表情認識部32、及び、表情変換部33を有する。顔認識部31は、撮像部11からの自画像に含まれる第1通話者の顔(顔画像)を認識する。表情認識部32は、顔認識部31により認識された顔に対して表情を認識し、認識した表情に基づいて、第1通話者の会話の支配度を推定する。なお、表情という用語には、顔の動きも含まれることとする。
 会話の支配度とは、第1通話者と第2通話者との対話(会話)において、第1通話者と第2通話者のそれぞれが会話を支配しているとみなせる度合いを表す。例えば、第1通話者の会話の支配度は、第1通話者の発話時間が長い程、高くなることとする。また、第1通話者が発話していない場合であっても、第1通話者が、"頷いている(首が上下に動いている)"場合や、"笑顔で聞いている(口角が上がっている)"場合等には、会話に積極的に参加していると捉えることができる。したがって、第1通話者が、会話に対して、このようなうなずき、相槌、その他の癖等の積極的な表情(リアクション)を示したと判断される時間又は回数が多い程、第1通話者の会話の支配度が高くなることとする。反対に、第1通話者が、"目が明後日の方向を向いている(目線が画面の外を向いている)"のように話を聞いていない場合や、"話したいけど話せない(唇を潰す)"場合等には、会話に積極的に参加していないと捉えることができる。なお、目線が画面の外を向いている場合とは、目線が表示部14又は撮像部11の方向から外れていることを意味する。第1通話者が、会話に対して、このような消極的な表情(リアクション)を示したと判断される時間又は回数が多い程、第1通話者の会話の支配度が低くなることとする。
 画像処理部13の表情認識部32は、第1通話者の会話の支配度と同様にして、相手画像に基づいて第2通話者の表情を認識し、第2通話者の会話の支配度を推定することができる。なお、第1通話者と第2通話者のいずれか一方の会話の支配度を自端末1が推定し、他方を相手端末2が推定するようにしてもよい。この場合、自端末1の画像処理部13は、相手端末2で推定された会話の支配度を通信を介して取得することで、第1通話者の会話の支配度と第2通話者の会話の支配度の両方を取得することができる。
 会話の支配度は、第1通話者と第2通話者とで同一の条件(評価方法)により値が加算又は減算されることとする。例えば、第1通話者及び第2通話者のそれぞれの会話の支配度をx1及びx2で表すとする。第1通話者又は第2通話者が1秒発話するごとに、その通話者の会話の支配度x1又はx2が1加算され、第1通話者又は第2通話者が1回分の相槌を行うごとに、その通話者の会話の支配度x1又はx2が1加算されると仮定する。この場合に、第1通話者と第2通話者とのうちの一方の会話の支配度x1又はx2が示す値は、会話を開始してから現時点までの期間において、会話に積極的に参加した(参加したとみなされる)時間又は回数の多さを示す値であるので、正確には、第1通話者と第2通話者とのそれぞれが会話を支配しているとみなせる度合いを直接的に示す値ではない。支配度と称したパラメータx1及びx2を、便宜的に会話参加評価値x1及びx2と称することとし、第1通話者及び第2通話者のそれぞれの会話の支配度をパラメータX1及びX2で表すとすると、支配度X1は、x1/(x1+x2)により得られる値であり、支配度X2は、x2/(x1+x2)により得られる値であるとしてもよい。即ち、支配度X1及びX2は、それらの比率を表した値であり、会話参加評価値x1及びx2の総数(総和)に対する、会話参加評価値x1及びx2のそれぞれの構成比であるとしてもよい。
 表情認識部32は、第1通話者の会話の支配度X1(又は会話参加評価値x1)と、第2通話者の会話の支配度X2(又は会話参加評価値x2)とを推定すると、その結果を、対話状態判断部17に供給する。
 対話状態判断部17は、表情認識部32からの第1通話者の会話の支配度X1と、第2通話者の会話の支配度X2とを比較し、それらに隔たりがあるか否かを判定する。支配度X1と支配度X2とに隔たりがあるか否かは、例えば、支配度X1と支配度X2との差分が予め決められた臨界値以上か否かで判定され得る。臨界値は、ユーザ(第1通話者)により設定又は変更される値であってもよいし、固定値であってもよい。例えば支配度X1及び支配度X2を百分率で表した場合に、臨界値としてC%(例えばCは60)が設定されているときには、対話状態判断部17は、支配度X1と支配度X2との差分がC%以上であるか否かを判定する。又は、対話状態判断部17は、支配度X1が(50-C/2)%以下、又は、(50+C/2)%以上であるか否かを判定してもよいし、いずれか一方のみの条件を満たすか否かを判定してもよい。例えば、第1通話者が、話すのが得意ではないが聞くのが好きという人の場合には、臨界値Cを60%のように比較的大きな値としてし、第1通話者の会話の支配度X1が(50-60/2)=20%以下か否かを判定する場合であってもよい。対話状態判断部17での判断結果(判定結果)は、画像処理部13及び音声処理部18に供給される。
 画像処理部13の表情変換部33は、対話状態判断部17から、第1通話者の会話の支配度X1と第2通話者の会話の支配度X2との隔たりがあるとの判定結果が与えられ場合に、相手画像における第2通話者の表情を画像処理により変更し、それらの隔たりを低減させるように誘導する。画像処理により第2通話者の表情が変更される相手画像は、表示部14に表示されて第1通話者が視認する表示画像である。例えば、支配度X1が支配度X2よりも小さ過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、表情変換部33は、第1通話者の会話の支配度X1が増加するように第2通話者の表情を変更する。具体例としては、表情変換部33は、相手画像における第2通話者の顔画像の口角を上げる変換を行う。これにより、第2通話者の顔が、より笑顔にみえて肯定感が増すので、第1通話者の発話量(支配度X1)が増加するように誘導される。支配度X1が支配度X2よりも大き過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、表情変換部33は、第1通話者の会話の支配度X1が減少するように第2通話者の表情を変更する。具体例としては、表情変換部33は、相手画像における第2通話者の顔画像の口角を下げる変換を行う。これにより、第2通話者の顔から受ける印象として否定感が増すので、第1通話者の発話量(支配度X1)が減少するように誘導される。
 また、表情変換部33は、対話状態判断部17から、第1通話者の会話の支配度X1と第2通話者の会話の支配度X2との隔たりがあるとの判定結果が与えられ場合に、撮像部11からの自画像における第1通話者の表情を画像処理により変更し、それらの隔たりを低減させるように誘導することもできる。この場合に、画像処理により第1通話者の表情が変更される自画像は、通信を介して相手端末2の表示部に表示されて第2通話者が視認する表示画像である。例えば、支配度X1が支配度X2よりも小さ過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、表情変換部33は、第2通話者の会話の支配度X2が減少するように第1通話者の表情を変更する。支配度X1が支配度X2よりも大き過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、表情変換部33は、第2通話者の会話の支配度X2が増加するように第1通話者の表情を変更する。
 なお、自画像における第1通話者の表情の変更と、相手画像における第2通話者の表情の変更のいずれか一方を自端末1が行い、他方を相手端末2が実行するようにしてもよい。相手端末2は、このような表情の変更を行う機能を有していない場合であってもよく、自端末1が一方の表情の変更のみを行う場合であってもよい。本実施の形態では、説明を簡素化するため、自端末1が表情変換部33により相手画像における第2通話者の表情のみの変更を行う機能を有していることとする。
 音声処理部18は、対話状態判断部17から、第1通話者の会話の支配度X1と第2通話者の会話の支配度X2との隔たりがあるとの判定結果が与えられ場合に、相手端末2からの相手音声の音質に対して、ピッチシフトやイコライザ(音声エフェクト)を適用した音声変換等の音声処理により変更し、それらの隔たりを低減させるように誘導する。音声処理により音質が変更される相手音声は、音声出力部19により出力されて第1通話者が聴取する音声である。例えば、支配度X1が支配度X2よりも小さ過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、音声処理部18は、第1通話者の会話の支配度X1が増加するように第2通話者の音声(相手音声の音質)を変更する。具体例としては、音声処理部18は、相手音声のピッチ(音程)をあげる音声変換を行う。これにより、第2通話者の音声が通常の音声に比べて肯定的に聞こえるので、第1通話者の発話量(支配度X1)が増加するように誘導される。支配度X1が支配度X2よりも大き過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、音声処理部18は、第1通話者の会話の支配度X1が減少するように第2通話者の音声(相手音声の音質)を変更する。具体例としては、音声処理部18は、相手音声のピッチをさげる音声変換を行う。これにより、第2通話者の音声が通常の音声に比べて否定的に聞こえるので、第1通話者の発話量(支配度X1)が減少するように誘導される。
 また、音声処理部18は、対話状態判断部17から、第1通話者の会話の支配度X1と第2通話者の会話の支配度X2との隔たりがあるとの判定結果が与えられ場合に、音声取得部12からの自音声の音質を音声処理により変更し、それらの隔たりを低減させるように誘導することもできる。この場合に、音声処理により音質が変更される自音声は、通信を介して相手端末2の音声出力部から出力されて第2通話者が聴取する音声である。例えば、支配度X1が支配度X2よりも小さ過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、音声処理部18は、第2通話者の会話の支配度X2が減少するように自音声の音質を変更する。支配度X1が支配度X2よりも大き過ぎてそれらに隔たりがあるとの判定結果が与えられた場合に、音声処理部18は、第2通話者の会話の支配度X2が増加するように自音声の音質を変更する。
 なお、相手音声の音質の変更と、自音声の音質の変更のいずれか一方を自端末1が行い、他方を相手端末2が実行するようにしてもよい。相手端末2は、このような音声の変更を行う機能を有していない場合であってもよく、自端末1が一方の音声の音質の変更のみを行う場合であってもよい。本実施の形態では、説明を簡素化するため、自端末1が音声処理部18により相手音声の音質のみの変更を行う機能を有していることとする。
<表情認識部32の詳細>
 表情認識部32は、撮像部11からの自画像に基づいて、第1通話者の顔の表情を認識し、認識した表情に基づいて、第1通話者の会話の支配度(会話参加評価値x1)を推定する。なお、表情認識部32は、相手端末2からの相手画像に基づいて、第1通話者の会話の支配度(会話参加評価値x1)と同様に第2通話者の会話の支配度(会話参加評価値x2)を推定することができる。ただし、本実施の形態では、第2通話者の会話の支配度は、相手端末2から与えられることとし、その説明は省略する。
 表情認識部32は、顔ランドマーク認識部41及び動作対応表42を有する。顔ランドマーク認識部41は、自画像における第1通話者の顔の表情を認識するため、顔ランドマーク(Facial Landmark)の検出(認識)を行う。図2に示すように顔ランドマークLMは、顔画像FAから検出される特徴点を表し、例えば図3に示すように68箇所の特徴点を表す。顔ランドマークLMの検出は、顔認識アプリケーションである「Openfece」を用いて行うことができる(Tadas Baltrusaitis, Peter Robinson, Louis-Philippe Morency、「OpenFace: an open source facial behavior analysis toolkit」、2016 IEEE Winter Conference on Applications of Computer Vision (WACV)、pp.1-10、2016)。また、顔ランドマークLMの検出は、スマートフォンやタブレット等の携帯端末で利用されるアプリケーション「ARFaceAnchor」(https://developer.apple.com/documentation/arkit/arfaceanchor)などの機能を用いて行うこともでき、又は、機械学習技術で生成した推論モデルを用いて行うこともできる。「ARFaceAnchor」を用いた場合を例にあげると、顔ランドマーク認識部41は、顔ランドマークの検出と共に、口の開き具合をjawOpenという係数で取得でき、口が最大に開いていると1.0、まったく開いていないと0といったように顔ランドマークの様々な状態を係数として取得することができる。第1通話者が発話するためには口を動かす必要があるため、顔ランドマーク認識部41は、顔ランドマークの状態に基づいて、口の状態が変動した場合、第1通話者が発話状態であると判断する。顔ランドマーク認識部41は、例えば、第1通話者が発話状態であると判断した時間が例えば1秒継続するごとに、第1通話者の会話の支配度(会話参加評価値x1)の値を1ずつ増加させる。
 また、顔ランドマーク認識部41は、顔ランドマークLMの変化から第1通話者の表情動作を検出する。表情動作は、表情動作の最小単位であるAction Unit(AU)と呼ばれる表情運動要素(例えば44種類)の組合せにより表される。動作対応表42には、第1通話者が発話していない場合であっても、第1通話者が会話に積極的に参加していると捉えることができる積極的な表情動作と判断される条件や、第1通話者が会話に積極的に参加していないと捉えることができる消極的な表情動作と判断される条件が規定されている。また、動作対応表42には、それらの規定された条件に該当する表情動作が検出された場合に、第1通話者の会話の支配度(会話参加評価値x1)に対して加点又は減点される値が規定されている。図4には、動作対応表42の一例が示されている。顔ランドマーク認識部41は、例えば、「OpenFace」を用いて表情動作を検出した場合、Action Unitごとの係数を取得することができる。Action Unitごとの係数は、第1通話者の表情動作に含まれる各Action Unitの表情動作の割合に相当する。顔ランドマーク認識部41は、第1通話者の表情動作の検出として、Action Unitごとの係数を取得し、取得したAction Unitごとの係数に基づいて、図4のような動作対応表42の表情動作のうちの条件を満たす表情動作を検出する。例えば、図4において、「唇を潰す」というAction Unitの表情動作の係数が0.3以上で、かつ、2秒以上続いた場合には、1行目に示された表情動作の条件に該当することが検出される。このとき、顔ランドマーク認識部41は、図4で規定されるように、第1通話者の会話の支配度(会話参加評価値x1)を1減点する。即ち、第1通話者が会話に積極的に参加していないと捉えることができる消極的な表情動作であると判断されて、第1通話者の会話の支配度(会話参加評価値x1)が1減点される。
 一方、図4において、「Neck tightener」というAction Unitの表情動作の係数が2秒間の間に0.2以上変化した場合には、2行目に示された表情動作の条件に該当することが検出される。このとき、顔ランドマーク認識部41は、図4で規定されるように、第1通話者の会話の支配度(会話参加評価値x1)を1加点する。即ち、第1通話者が会話に積極的に参加していると捉えることができる積極的な表情動作であると判断されて、第1通話者の会話の支配度(会話参加評価値x1)が1加点される。このような動作対応表42のデータは、事前に作成されている場合であってもよいし、会話中に学習されて第1通話者の表情動作の特性に合わせて追加される場合であってもよい。
<動作対応表42のデータ作成>
 動作対応表42のデータが会話中に学習されて第1通話者の表情動作の特性に合わせて追加される場合について説明する。図1において、データ学習部20は、音声取得部12により取得された自音声に含まれる人の声(第1通話者の発話音)以外の音の成分が所定レベル以下である場合に動作する。データ学習部20は、音声認識部51、音声テキスト化部52、感情分析部53、及び、表情学習部54を有する。
 音声認識部51は、音声取得部12で取得された自音声を画像処理部13を介して取得し、取得した自音声から人の声(発話音)を認識(抽出)して音声テキスト化部52に供給する。音声テキスト化部52は、音声取得部12からの発話音をテキスト化し、そのテキストデータを感情分析部53に供給する。感情分析部53は、音声テキスト化部52からのテキストデータに基づいてテキストそのものが持つ意味による感情を感情情報として検出し、表情学習部54に供給する。
 表情学習部54は、感情分析部53からの感情情報と、その感情情報が検出された際の自画像における顔ランドマークの動きを学習する。自画像における顔ランドマークの情報は、画像処理部13の表情認識部32(顔ランドマーク認識部41)から表情学習部54に供給される。これよって、表情学習部54は、感情情報が示す第1通話者の感情に対して、第1通話者が行う表情動作を学習することができ、第1通話者の表情動作と、そのときの第1通話者の感情とを対応付けることができる。例えば、第1通話者が、口をもごもごした後に「大変だった」いうネガティブな感情の言葉を発した場合、口をもごもごした表情動作と、ネガティブという感情とを対応付けることができる。感情がポジティブの場合の表情動作に対しては、第1通話者の会話の支配度(会話参加評価値x1)に対して加点(例えば+1)を行い、感情がネガティブの場合の表情動作に対しては、第1通話者の会話の支配度(会話参加評価値x1)に対して減点(例えば-1)を行うという、動作対応表42のデータを生成することができる。生成されたデータはデータ蓄積部61に蓄積され、適宜のタイミングで、表情認識部32の動作対応表42のデータとして使用可能な状態に設定される。
<自端末1の会話の支配度調整の処理手順連>
 図5は、自端末1の処理手順例を示したフローチャートである。なお、データ学習部20による動作対応表42のデータ作成についての処理は省略する。
 ステップS1では、撮像部11は、自画像の取得を開始する。以後、自画像の取得は継続的に行われる。ステップS2では、画像処理部13(顔認識部31)は、ステップS1で取得された自画像に顔が入っているか否かを判定する。ステップS2において否定された場合には、ステップS2の処理が繰り返される。ステップS2において肯定された場合には、処理はステップS3とステップS6とに進む。なお、ステップS3乃至ステップS5の処理と、ステップS6及びステップS7の処理とは並列的に実行される。
 ステップS3では、画像処理部13(表情認識部32の顔ランドマーク認識部41)は、自画像における第1通話者の顔ランドマークを検出し、唇や口の顔ランドマークの状態を検出する。ステップS4では、画像処理部13(表情認識部32の顔ランドマーク認識部41)は、唇や口の顔ランドマークの値(座標)が一定値以上で変動したか否かを判定する。ステップS4において否定された場合にはステップS4の処理が繰り返される。ステップS4において肯定された場合には処理はステップS5に進む。ステップS5では、画像処理部13(表情認識部32の顔ランドマーク認識部41)は第1通話者が発話状態であると判断する。このとき、画像処理部13(表情認識部32の顔ランドマーク認識部41)は、第1通話者の会話の支配度(会話参加評価値x1)を増加させる。例えば、画像処理部13は、第1通話者の会話の支配度(会話参加評価値x1)に1加点し、又は、発話状態を検出した継続時間(秒数)を加点する。
 ステップS6では、画像処理部13(表情認識部32の顔ランドマーク認識部41)は、動作対応表42に基づく顔ランドマークの状態(動作対応表42に規定されて条件に該当する第1通話者の表情動作)を取得する。ステップS7では、画像処理部13(表情認識部32の顔ランドマーク認識部41)は、動作対応表42に基づいて、ステップS6で取得した表情動作に対応する加点又は減点を第1通話者の会話の支配度(会話参加評価値x1)に対して行う。ステップS8では、対話状態判断部17は、第1通話者の会話の支配度X1と、第2通話者の会話の支配度X2とを比較する。
 ステップS9では、対話状態判断部17は、第1通話者の会話の支配度X1と、第2通話者の会話の支配度X2との間に隔たりがあるか否かを判定する。ステップS9において否定された場合にはステップS2からの処理が繰り返される。ステップS9において肯定された場合には、処理はステップS10に進む。ステップS10では、画像処理部13(表情変換部33)は、第1通話者の会話の支配度X1と第2通話者の会話の支配度X2との隔たりを減少させるように相手画像における第2通話者の表情を変換する。また、音声処理部18は、第1通話者の会話の支配度X1と第2通話者の会話の支配度X2との隔たりを減少させるように、相手音声の音質を変換する。なお、画像処理部13による表情の変換と、音声処理部18による音質の変換とはいずれか一方のみが行われる場合であってよい。ステップS10の後、ステップS2に戻り、ステップS2からの処理が繰り返される。
 以上の本技術によれば、単純な会話の量(発話量)で、第1通話者(会話の参加者)と第2通話者(参加者の相手)とのどちらが多く話しているかを判断するのではなく、うなずき、相槌、その他の癖などの表情のリアクションを考慮した会話の支配度を推定することができる。また、画像だけで支配度を判断した場合、異なるカメラや異なる距離、横を向いているときは精度が落ちるが、顔ランドマークの状態を利用することにより、顔の位置や向きが精度に与える影響が少ない。
 また、オンライン相談やオンラインの習い事のようにビデオチャットを使って教える側と教わる側が存在するビデオチャットにおいて、教わる側の発話が少ないといったことや教える側が一方的に話し続けるといったことが存在する。そのような状況になると話したかったのにずっと聞くことになった、聞きたいことがあったのに聞くことができなかったりしてユーザの満足度が減少してしまう。また、オンラインキャンパスツアーのような場所を紹介するサービスも存在し、片方(或いは両方)が屋外にいる状態でビデオチャットを使って現地を紹介するということもある。そのような場合にはノイズが多い外部環境でのビデオチャットをするといったことも考えられる。
 本技術によれば、それらの問題が解決され、1対1ビデオ通話において、会話の偏りが解消される。ユーザの状態や状況を顔の画像から推測し、会話に偏りがあると判別されるとユーザフィードバックによって会話の偏りが解消される。屋外での利用が想定される場合に、ユーザ状況については音声ではなく、画像を使って判別される。会話の偏りには会話の支配度という値から判断される。会話の支配度は発話をしている状態に加えて、表情のリアクションで支配度具合を調整することによって算出される。そのため、一方の発話が会話のほとんどを占めていても、話してない側がうなずきや相槌を多数している場合には会話が偏っているとは判断されにくいシステムとなる。
<実施形態(ユースケース)>
 図1等に示した情報処理システムは以下のような実施形態を採用することができる。
(実施形態1)
 オンライン相談やオンライン習い事のようなサービスにおいて、情報処理システムが相手を自動的に選ぶという形態が可能である。又は、マッチングサービスのように最適な通話相手を選ぶサービスにおいて、会話の支配度をもとにしたマッチングを行うという形態が考えられる。会話の支配度の高低の傾向に関して、傾向が反対の人物同士、即ち、会話の支配度が高い人物と、会話の支配度が低い人物とが自動的にマッチングされるようにすることで、話したい人は多く話せて満足することができ、あまり話したくない人は話さなくてもよいので満足することができる。
(実施形態2)
 実施形態1では単純な会話量(発話量)を利用しているが、応用方法として、相手のことをよく見ている人(通話画面を見ている人)にはリアクション回数が多い人物、相手をあまり見ていない人にはリアクションをあまりとらない人でも問題ない、といったように会話の支配度だけではなく、動作対応表の動作をもとにしたマッチングを行うことも可能である。
(実施形態3)
 そのほかにも口の大きく広げて会話する(口の開き具体の係数の平均値が高い人)ははっきり口を開くので声が聞き取りやすいといったパラメータを持たせたりすることによって、マッチングサービスや、又は、そのようなサービスにおいての会話の上手さを指標として利用することによって、質の高いホストへの訓練や教育への応用方法も検討することが可能な技術である。
 <コンピュータの構成例>
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図6は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
 バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、入力部206、出力部207、記憶部208、通信部209、及びドライブ210が接続されている。
 入力部206は、キーボード、マウス、マイクロフォンなどよりなる。出力部207は、ディスプレイ、スピーカなどよりなる。記憶部208は、ハードディスクや不揮発性のメモリなどよりなる。通信部209は、ネットワークインタフェースなどよりなる。ドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア211を駆動する。
 以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205及びバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU201)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア211に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
 また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
 さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 また、例えば、1つの装置(又は処理部)として説明した構成を分割し、複数の装置(又は処理部)として構成するようにしてもよい。逆に、以上において複数の装置(又は処理部)として説明した構成をまとめて1つの装置(又は処理部)として構成されるようにしてもよい。また、各装置(又は各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(又は処理部)の構成の一部を他の装置(又は他の処理部)の構成に含めるようにしてもよい。
 また、例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
 また、例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
 なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
 なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部又は全部を、他の実施の形態において説明した本技術の一部又は全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部又は全部を、上述していない他の技術と併用して実施することもできる。
 <構成の組み合わせ例>
 なお、本技術は以下のような構成も取ることができる。
(1)
 会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する処理部
 を有する情報処理装置。
(2)
 前記処理部は、前記参加者の支配度を、前記参加者の表情動作に基づいて推定する
 前記(1)に記載の情報処理装置。
(3)
 前記処理部は、前記参加者の表情動作を前記顔画像から検出した顔ランドマークに基づいて検出する
 前記(2)に記載の情報処理装置。
(4)
 前記処理部は、前記参加者の表情動作を表情運動要素の組合せにより検出する
 前記(3)に記載の情報処理装置。
(5)
 前記処理部は、前記顔画像に基づいて認識した、前記参加者が発話しているときの前記参加者の表情動作と、前記参加者が発話していないときの前記参加者の表情動作と基づいて、前記支配度を推定する
 前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
 前記処理部は、前記会話に参加している前記参加者の相手の前記会話の支配度を取得し、
 前記参加者の支配度を、前記相手の支配度との比率を表す値として推定する
 前記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)
 前記処理部は、
 前記参加者が発話していないときの前記参加者の表情動作が、前記会話に対して積極的に参加しているとみなされる表情動作の場合に、前記参加者の支配度を増加させる
 前記(5)に記載の情報処理装置。
(8)
 前記処理部は、
 前記参加者の表情動作が、うなずき、相槌、又は、笑顔である場合に、前記会話に対して積極的に参加しているとみなされる表情動作であると判定する
 前記(7)に記載の情報処理装置。
(9)
 前記処理部は、
 前記参加者が発話していないときの前記参加者の表情動作が、前記会話に対して積極的に参加していないとみなされる表情動作の場合に、前記参加者の支配度を減少させる
 前記(5)乃至(8)のいずれかに記載の情報処理装置。
(10)
 前記処理部は、
 前記参加者の表情動作が、唇を潰す表情動作の場合、又は、目線が前記顔画像を撮像する撮像部の方向から外されている場合に、前記会話に対して積極的に参加していないとみなされる表情動作であると判定する
 前記(9)に記載の情報処理装置。
(11)
 前記会話に参加している前記参加者の相手の顔画像を表示する表示部と、
 前記会話に対する前記参加者の支配度に応じて前記表示部に表示される前記相手の顔画像の一部を変更して前記相手の表情を変換する変換部と
 を有する
 前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
 前記変換部は、前記相手の顔画像の口角を変更する
 前記(11)に記載の情報処理装置。
(13)
 前記変換部は、前記参加者の支配度が、事前に設定された条件を満たすように前記参加者又は前記参加者の相手の顔画像の一部を変更する
 前記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
 前記会話に参加している前記参加者の相手の音声を出力する音声出力部と、
 前記会話に対する前記参加者の支配度に応じて前記音声出力部から出力される前記相手の音声の音質を変更する音声処理部と
 を有する
 前記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)
 前記音声出力部は、前記相手の音声の音質をピッチシフト又はイコライザの適用により変更する
 前記(14)に記載の情報処理装置。
(16)
 前記音声処理部は、前記参加者の支配度が、事前に設定された条件を満たすように前記参加者又は前記参加者の相手の音声の音質を変更する
 前記(1)乃至(15)のいずれかに記載の情報処理装置。
(17)
 前記処理部は、前記参加者の支配度に応じて、前記会話に参加する前記参加者の相手をマッチングする
 前記(1)乃至(16)のいずれかに記載の情報処理装置。
(18)
 前記処理部は、前記支配度の高低の傾向に関して、前記参加者と前記傾向が反対の相手を前記会話に参加する前記参加者の相手としてマッチングする
 前記(17)に記載の情報処理装置。
(19)
 処理部を有する
 情報処理装置の
 前記処理部が、会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する
 情報処理方法。
(20)
 コンピュータを
 会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する処理部
 として機能させるためのプログラム。
 なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 1 自端末, 2 相手端末, 11 撮像部, 12 音声取得部, 13 画像処理部, 14 表示部, 15 通信部, 16 画像取得部, 17 対話状態判断部, 18 音声処理部, 19 音声出力部, 20 データ学習部, 31 顔認識部, 32 表情認識部, 33 表情変換部, 41 顔ランドマーク認識部, 42 動作対応表, 51 音声認識部, 52 音声テキスト化部, 53 感情分析部, 54 表情学習部, 61 データ蓄積部

Claims (20)

  1.  会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する処理部
     を有する情報処理装置。
  2.  前記処理部は、前記参加者の支配度を、前記参加者の表情動作に基づいて推定する
     請求項1に記載の情報処理装置。
  3.  前記処理部は、前記参加者の表情動作を前記顔画像から検出した顔ランドマークに基づいて検出する
     請求項2に記載の情報処理装置。
  4.  前記処理部は、前記参加者の表情動作を表情運動要素の組合せにより検出する
     請求項3に記載の情報処理装置。
  5.  前記処理部は、前記顔画像に基づいて認識した、前記参加者が発話しているときの前記参加者の表情動作と、前記参加者が発話していないときの前記参加者の表情動作と基づいて、前記支配度を推定する
     請求項1に記載の情報処理装置。
  6.  前記処理部は、前記会話に参加している前記参加者の相手の前記会話の支配度を取得し、
     前記参加者の支配度を、前記相手の支配度との比率を表す値として推定する
     請求項1に記載の情報処理装置。
  7.  前記処理部は、
     前記参加者が発話していないときの前記参加者の表情動作が、前記会話に対して積極的に参加しているとみなされる表情動作の場合に、前記参加者の支配度を増加させる
     請求項5に記載の情報処理装置。
  8.  前記処理部は、
     前記参加者の表情動作が、うなずき、相槌、又は、笑顔である場合に、前記会話に対して積極的に参加しているとみなされる表情動作であると判定する
     請求項7に記載の情報処理装置。
  9.  前記処理部は、
     前記参加者が発話していないときの前記参加者の表情動作が、前記会話に対して積極的に参加していないとみなされる表情動作の場合に、前記参加者の支配度を減少させる
     請求項5に記載の情報処理装置。
  10.  前記処理部は、
     前記参加者の表情動作が、唇を潰す表情動作の場合、又は、目線が前記顔画像を撮像する撮像部の方向から外されている場合に、前記会話に対して積極的に参加していないとみなされる表情動作であると判定する
     請求項9に記載の情報処理装置。
  11.  前記会話に参加している前記参加者の相手の顔画像を表示する表示部と、
     前記会話に対する前記参加者の支配度に応じて前記表示部に表示される前記相手の顔画像の一部を変更して前記相手の表情を変換する変換部と
     を有する
     請求項1に記載の情報処理装置。
  12.  前記変換部は、前記相手の顔画像の口角を変更する
     請求項11に記載の情報処理装置。
  13.  前記変換部は、前記参加者の支配度が、事前に設定された条件を満たすように前記参加者又は前記参加者の相手の顔画像の一部を変更する
     請求項1に記載の情報処理装置。
  14.  前記会話に参加している前記参加者の相手の音声を出力する音声出力部と、
     前記会話に対する前記参加者の支配度に応じて前記音声出力部から出力される前記相手の音声の音質を変更する音声処理部と
     を有する
     請求項1に記載の情報処理装置。
  15.  前記音声出力部は、前記相手の音声の音質をピッチシフト又はイコライザの適用により変更する
     請求項14に記載の情報処理装置。
  16.  前記音声処理部は、前記参加者の支配度が、事前に設定された条件を満たすように前記参加者又は前記参加者の相手の音声の音質を変更する
     請求項1に記載の情報処理装置。
  17.  前記処理部は、前記参加者の支配度に応じて、前記会話に参加する前記参加者の相手をマッチングする
     請求項1に記載の情報処理装置。
  18.  前記処理部は、前記支配度の高低の傾向に関して、前記参加者と前記傾向が反対の相手を前記会話に参加する前記参加者の相手としてマッチングする
     請求項17に記載の情報処理装置。
  19.  処理部を有する
     情報処理装置の
     前記処理部が、会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する
     情報処理方法。
  20.  コンピュータを
     会話に参加している参加者の顔画像に基づいて、前記会話に対する前記参加者の支配度を推定する処理部
     として機能させるためのプログラム。
PCT/JP2023/033138 2022-09-26 2023-09-12 情報処理装置、情報処理方法、及び、プログラム WO2024070651A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022152175 2022-09-26
JP2022-152175 2022-09-26

Publications (1)

Publication Number Publication Date
WO2024070651A1 true WO2024070651A1 (ja) 2024-04-04

Family

ID=90477464

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/033138 WO2024070651A1 (ja) 2022-09-26 2023-09-12 情報処理装置、情報処理方法、及び、プログラム

Country Status (1)

Country Link
WO (1) WO2024070651A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013008114A (ja) * 2011-06-23 2013-01-10 Hitachi Government & Public Corporation System Engineering Ltd 会議品質評価装置及び会議品質評価方法
JP2019061594A (ja) * 2017-09-28 2019-04-18 株式会社野村総合研究所 会議支援システムおよび会議支援プログラム
JP2020021025A (ja) * 2018-08-03 2020-02-06 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013008114A (ja) * 2011-06-23 2013-01-10 Hitachi Government & Public Corporation System Engineering Ltd 会議品質評価装置及び会議品質評価方法
JP2019061594A (ja) * 2017-09-28 2019-04-18 株式会社野村総合研究所 会議支援システムおよび会議支援プログラム
JP2020021025A (ja) * 2018-08-03 2020-02-06 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
US10586131B2 (en) Multimedia conferencing system for determining participant engagement
JP2022516491A (ja) 音声対話の方法、装置、及びシステム
US9661139B2 (en) Conversation detection in an ambient telephony system
EP2342884B1 (en) Method of controlling a system and signal processing system
TWI703473B (zh) 用於聊天機器人與人類通話的可編程智能代理機
JP2007147762A (ja) 発話者予測装置および発話者予測方法
WO2020026850A1 (ja) 情報処理装置、情報処理方法及びプログラム
Schoenenberg The quality of mediated-conversations under transmission delay
CN107623830B (zh) 一种视频通话方法及电子设备
CN117321984A (zh) 基于内容类型或参与者角色的视频会议电话中的空间音频
CN105874517B (zh) 提供更加安静的开放空间工作环境的服务器
US20240053952A1 (en) Teleconference system, communication terminal, teleconference method and program
CN111901621A (zh) 一种基于直播内容识别的互动直播教学节流装置和方法
TWI811692B (zh) 用於場景音轉換的方法與裝置及電話系統
US20220308825A1 (en) Automatic toggling of a mute setting during a communication session
WO2024070651A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP2006229903A (ja) 会議支援システム及び会議支援方法、並びにコンピュータ・プログラム
Skowronek et al. Conceptual model of multiparty conferencing and telemeeting quality
Takahashi et al. A case study of an automatic volume control interface for a telepresence system
JP7286303B2 (ja) 会議支援システム及び会議用ロボット
WO2024070550A1 (ja) システム、電子機器、システムの制御方法、及びプログラム
Schmitt et al. Mitigating problems in video-mediated group discussions: Towards conversation aware video-conferencing systems
WO2023106350A1 (ja) 記録媒体、遠隔会議実行方法、及び遠隔会議実行装置
US20240094976A1 (en) Videoconference Automatic Mute Control System
Abel et al. Cognitively inspired speech processing for multimodal hearing technology

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23871886

Country of ref document: EP

Kind code of ref document: A1