WO2023135939A1 - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2023135939A1
WO2023135939A1 PCT/JP2022/043118 JP2022043118W WO2023135939A1 WO 2023135939 A1 WO2023135939 A1 WO 2023135939A1 JP 2022043118 W JP2022043118 W JP 2022043118W WO 2023135939 A1 WO2023135939 A1 WO 2023135939A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
user state
score
unit
output
Prior art date
Application number
PCT/JP2022/043118
Other languages
English (en)
French (fr)
Inventor
りんな 金尾
裕麻 平井
大祐 稲石
和樹 落合
正範 勝
和雅 宮崎
かおり 内藤
昌孝 篠田
弦樹 岡田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023135939A1 publication Critical patent/WO2023135939A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program. More specifically, user state estimation processing for estimating emotions of users participating in remote meetings via a communication network such as remote negotiations based on images, voices, etc., and user state change reasons for estimating reasons for user state changes.
  • the present invention relates to an information processing device, an information processing method, and a program that execute estimation processing and the like.
  • the communication terminal of the sales side user who intends to sell products and the communication terminal of the customer who is the customer are connected via a communication network such as the Internet, and images and voices are transmitted between the terminals. Send and receive to conduct business negotiations.
  • Patent Literature 1 International Publication No. WO2019/082687 is a conventional technique disclosing human emotion estimation processing.
  • This patent document 1 discloses a configuration for estimating a person's emotion by analyzing a person's electroencephalogram and calculating a score based on the analysis result.
  • the present disclosure has been made, for example, in view of the above problems, and includes user state estimation processing for estimating states such as emotions of users participating in a remote meeting via a communication network based on images, voices, etc.; It is an object of the present invention to provide an information processing apparatus, an information processing method, and a program that execute a user state change reason estimation process for estimating a state change reason.
  • a first aspect of the present disclosure includes: a user state estimation unit that estimates a user state score indicating a user state based on at least one of image data and voice data of the user; a user state output score calculating unit that calculates a user state output score to be output to a user terminal based on the user state score estimated by the user state estimating unit;
  • the information processing apparatus enables the user terminal to display a graph showing a temporal change in the user state output score calculated by the user state output score calculation unit.
  • a second aspect of the present disclosure is An information processing method executed in an information processing device,
  • the user state estimation unit a user state estimation step of estimating a user state score indicating the user state based on at least one of image data and voice data of the user;
  • the user state output score calculation unit executing a user state output score calculation step of calculating a user state output score to be output to a user terminal based on the user state score estimated in the user state estimation step;
  • the information processing method enables the user terminal to display a graph showing the time change of the user state output score calculated by the user state output score calculation unit.
  • a third aspect of the present disclosure is A program for executing information processing in an information processing device,
  • a user state estimation step for estimating a user state score indicating the user state based on at least one of image data and voice data of the user;
  • a user state output score calculation unit executing a user state output score calculating step for calculating a user state output score to be output to a user terminal based on the user state score estimated in the user state estimating step;
  • the program enables the user terminal to display a graph showing the time change of the user state output score calculated by the user state output score calculation unit.
  • the program of the present disclosure is, for example, a program that can be provided in a computer-readable format to an information processing device or computer system capable of executing various program codes via a storage medium or communication medium.
  • processing according to the program is realized on the information processing device or computer system.
  • a system is a logical collective configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same housing.
  • a configuration is realized in which a time change graph of scores indicating user states of meeting participants and reasons for user state changes are estimated and displayed on the terminals of other meeting participants. Specifically, for example, based on at least one of image data and voice data of a user who participates in a meeting via a communication network, the user's level of interest, level of understanding, or level of fatigue can be determined. Based on the estimated user state score, the user state output score to be output to the user terminals of the users participating in the meeting is calculated. The reason for the state change is displayed on the user terminals of other meeting participants.
  • FIG. 1 is a diagram illustrating the configuration of an information processing system of the present disclosure and an outline of processing to be executed;
  • FIG. 1 is a diagram illustrating the configuration of an information processing system of the present disclosure and an outline of processing to be executed;
  • FIG. It is a figure explaining an example of the data displayed on a user terminal. It is a figure explaining an example of the data displayed on a user terminal.
  • 1 is a diagram illustrating the configuration of an information processing system of the present disclosure and an outline of processing to be executed;
  • FIG. It is a figure explaining the example of composition of the information processor of this indication.
  • It is a figure explaining the structure and process of the user state estimation part of the information processing apparatus of this indication.
  • FIG. 11 is a diagram illustrating an example of setting user state scores; FIG. It is a figure explaining an example of the processing which the information processor of this indication performs. It is a figure explaining an example of the processing which the information processor of this indication performs. It is a figure explaining an example of the processing which the information processor of this indication performs.
  • FIG. 11 is a diagram illustrating an example of calculation processing of a user state score; It is a figure explaining an example of the data displayed on a user terminal. It is a figure explaining UI displayed on a user terminal. It is a figure explaining UI displayed on a user terminal. It is a figure explaining an example of the data displayed on a user terminal.
  • FIG. 11 is a diagram illustrating an example of calculation processing of a user state score; It is a figure explaining an example of the data displayed on a user terminal. It is a figure explaining UI displayed on a user terminal. It is a figure explaining UI displayed on a user terminal. It is a figure explaining an example of the data displayed
  • FIG. 4 is a diagram illustrating an example of the configuration and processing of a user state change reason estimating unit of the information processing apparatus of the present disclosure
  • FIG. 4 is a diagram illustrating an example of the configuration and processing of a user state change reason estimating unit of the information processing apparatus of the present disclosure
  • It is a figure explaining an example of a rule base model.
  • FIG. 7 is a diagram illustrating an example of processing of a user state change reason estimation unit of the information processing apparatus of the present disclosure; It is a figure explaining an example of the data displayed on a user terminal. It is a figure explaining an example of the data displayed on a user terminal. It is a figure explaining an example of the data displayed on a user terminal.
  • FIG. 10 is a diagram illustrating an overview of user state estimation learning model generation processing
  • FIG. 10 is a diagram illustrating an example of processing for inputting a user state score (evaluation value) indicating a user state such as one's emotions during a meeting
  • FIG. 4 is a diagram for explaining an example of data showing a part of data (meeting log) used for machine learning processing in an information processing device
  • FIG. 4 is a diagram illustrating an example of time-series data that can be generated by an information processing apparatus based on user state scores (evaluation values) acquired from customer-side user terminals
  • It is a figure explaining the collection structural example of the data utilized for the machine-learning process which an information processing apparatus performs.
  • FIG. 10 is a diagram illustrating an overview of user state estimation learning model generation processing
  • FIG. 10 is a diagram illustrating an example of processing for inputting a user state score (evaluation value) indicating a user state such as one's emotions during a meeting
  • FIG. 4 is a diagram
  • FIG. 10 is a diagram illustrating a configuration example in which images, voices, and user state scores are acquired only from a customer-side user terminal, and these are applied to learning processing; It is a figure explaining the structure and processing of the machine-learning process which an information processing apparatus performs.
  • FIG. 10 is a diagram illustrating an example of learning processing for generating an interest level estimation learning model
  • FIG. 10 is a diagram illustrating an example of learning processing for generating an interest level estimation learning model
  • FIG. 10 is a diagram illustrating an example of learning processing for generating an interest level estimation learning model
  • FIG. 10 is a diagram illustrating a processing example of outputting an estimated value of interest/interest/favorability score of a user on the customer side using an interest level estimation learning model
  • FIG. 10 is a diagram illustrating a processing example of outputting an estimated value of interest/interest/favorability score of a user on the customer side using an interest level estimation learning model
  • FIG. 10 is a diagram illustrating an overview of user state change reason estimation learning model generation processing
  • FIG. 11 is a diagram illustrating a specific example of a user state change reason
  • FIG. 10 is a diagram illustrating a configuration for performing user state change reason estimation learning model generation processing
  • FIG. 10 is a diagram illustrating a configuration for performing user state change reason estimation learning model generation processing
  • FIG. 10 is a diagram illustrating a configuration for performing user state change reason estimation rule generation processing
  • It is a figure explaining the structural example of an information processing apparatus. It is a figure explaining the example of a structure of an information processing apparatus and a user terminal. It is a figure explaining the hardware configuration example of an information processing apparatus and a user terminal.
  • FIG. 1 is a diagram showing an example of a remote meeting via a communication network.
  • FIG. 1 shows a customer side user 11 who is a customer who wishes to purchase a product, and a sales side user 12 who is a product provider.
  • a customer-side user terminal 21 such as a smartphone and a sales-side user terminal 22 such as a PC are connected via a communication network, and voices and images are mutually transmitted and received between these communication terminals to carry out business negotiations. .
  • a customer side user 11 who is a customer is a person who wishes to purchase an apartment
  • a sales side user 12 is an apartment seller.
  • the sales-side user 12 listens to the customer-side user 11's wishes and explains by selecting an apartment that meets the customer-side user's 11 wishes.
  • the sales side user 12 can observe the customer side user 11 through the screen, but the information obtained from the image is less than the information obtained when actually meeting the customer side user 11 .
  • the sales side user 12 determines whether the customer side user 11 understands the explanation of the sales side user 12, whether the customer side user 11 is interested in the explanation, whether the customer side user 11 is angry, and so on. It becomes difficult to accurately grasp emotions.
  • the information processing apparatus of the present disclosure generates a user state estimator (learning model) for solving this problem, and uses the generated user state estimator (learning model) to evaluate the user's emotion, understanding level, etc. Estimate user state.
  • the information processing apparatus 100 which is a cloud-side device, performs processing for generating a user state estimator (learning model), and uses the generated user state estimator (learning model) to estimate the user state. do.
  • FIG. 2 also shows a customer side user 11 who is a customer who wishes to purchase a product, and a sales side user 12 who is a product provider.
  • a customer-side user terminal 21 such as a smartphone and a sales-side user terminal 22 such as a PC are connected via a communication network. can proceed.
  • the information processing device 100 inputs, for example, the following data via the communication network during the meeting period between the customer user 11 and the sales user 21 .
  • the information processing apparatus 100 inputs these data (A) and (B) to the user state estimator (learning model).
  • a user state estimator (learning model) estimates a user state based on input image and voice data. That is, the user state is estimated based on at least one of image data and voice data of users participating in a meeting via a communication network.
  • the user states estimated by the user state estimator are three user states of the customer side user 11, that is, (User state 1) Interest, Concern, Likeability (User state 2) Understanding, Acceptance, Satisfaction (User state 3) Fatigue, Stress These are estimated scores of these user states.
  • the information processing device 100 transmits time-series data (line graph) of the estimated score (evaluation value) of the user state of the customer side user 11 estimated by the user state estimator (learning model) to the sales side user terminal 22 for display. do.
  • FIG. 3 shows an example of display data of the sales-side user terminal 22.
  • the graph displayed on the display unit of the sales-side user terminal 22 has the elapsed time from the start of the meeting on the horizontal axis and the estimated score (evaluation value) values (1 to 5) for the user states 1 to 3 above on the vertical axis. is a graph showing.
  • the graph ( ⁇ ) (polyline) is a graph showing changes over time in the estimated score (interest score) of “(user state 1) interest, interest, favorable impression”.
  • the ( ⁇ ) graph (line) is a graph showing changes over time in the estimated score (understanding score) of “(user state 2) understanding, consent, satisfaction”.
  • the graph ( ⁇ ) (polyline) is a graph showing changes over time in the estimated score (fatigue score) of “(user state 3) fatigue, stress”.
  • interest, concern, and favorable impression is a user state indicating whether or not the customer side user 11 has an interest, interest, or favorable impression in the explanation and conversation of the sales side user 12 .
  • the score value (evaluation value) becomes higher, ie, closer to 5, as the level of "interest, interest, and favorable impression" of the customer-side user 11 in a meeting such as a business negotiation currently being held is estimated to be higher (higher interest).
  • the score value (evaluation value) becomes lower, that is, closer to 1, as the level of "interest, concern, favorable impression" of the customer-side user 11 is estimated to be lower (lower interest).
  • Fatigue and stress are user states indicating whether or not the customer side user 11 felt fatigue or stress due to the sales side user 12's explanation or conversation.
  • the score value (evaluation value) becomes higher, ie, closer to 5, as the level of “fatigue, stress” of the customer-side user 11 with respect to meetings such as business negotiations currently being held is estimated to be higher (tired).
  • the lower the "fatigue, stress” level of the customer-side user 11 is estimated to be (not tired), the lower the score value (evaluation value), ie, closer to 1.
  • the sales user 12 can easily grasp the transition of the customer's state, and can change the method and content of the explanation according to the grasp result. It is possible to take appropriate measures such as making changes.
  • the information processing apparatus 100 changes the estimated scores (evaluation values) of the user states 1 to 3.
  • the reason for the change in the user state is estimated, and the estimated reason is transmitted to the sales side user terminal 21 and displayed. A specific example is shown in FIG.
  • FIG. 4 shows the time transition data of the user state described with reference to FIG. 4 shows an example of displaying user state change reason explanation data 24, which is the reason why the has changed.
  • the user state change reason explanation data 24 is a reason estimated by the information processing apparatus 100 using, for example, a pre-generated learning model.
  • the sales-side user 12 confirms the user status change mode explanation data 23 and the user status change reason explanation data 24 in conjunction with the graph displayed on the sales-side user terminal 22, thereby understanding changes in the customer's status. It is possible to accurately grasp the problem, and depending on the result of the grasp, it is possible to take an optimum response, such as changing the method or content of the explanation.
  • 1 and 2 are examples in which the information processing device 100 on the cloud is used as an execution device for user state estimation processing using a user state estimator (learning model).
  • this processing is not limited to the device on the cloud, and may be configured to be executed using the sales side user terminal 22, for example. That is, as shown in FIG. 5, the user terminal 22 on the sales side executes user state estimation processing using a user state estimator (learning model). That is, the processing of the information processing apparatus 100 described with reference to FIGS. 1 to 4 may be executed by the sales-side user terminal 22.
  • the information processing apparatus 100 on the cloud executes user state estimation processing using a user state estimator (learning model). Specifically, the information processing device 100 analyzes the user status of the customer side user 11 who is conducting a meeting via the network, and transmits the analysis result to the sales side user terminal 22 for display. For example, the user status information of the customer side user 11 as shown in FIGS. 3 and 4 is displayed.
  • a user state estimator learning model
  • FIG. 6 is a diagram showing a configuration example of the information processing apparatus 100.
  • the information processing apparatus 100 includes a communication unit 101, a user state estimation unit 102, a customer information acquisition unit 103, a meeting information acquisition unit 104, a meeting execution environment information acquisition unit 105, and a user state output score calculation unit 106. , a score calculation algorithm control unit 107 , a user state change reason estimation unit 108 , a customer information database 111 and a meeting (MTG) information database 112 .
  • MMG meeting
  • the communication unit 101 performs communication processing between the customer-side user terminal 21 and the sales-side user terminal 22 and other external devices. For example, image and voice data of each user are input from the customer-side user terminal 21 and the sales-side user terminal 22 during the meeting. Furthermore, processing for transmitting the analysis result of the customer side user's user state analyzed based on these input data to the sales side user terminal 22 is executed.
  • the user state estimating unit 102 estimates the user state of the customer-side user based on the image and voice data of each user from the customer-side user terminal 21 and the sales-side user terminal 22 during the meeting input via the communication unit 101. presume. Specifically, for example, estimation processing for each of the following states is performed.
  • the user state estimation unit 102 estimates the user state of the user on the customer side, for example, using a learning model generated in advance. The details of this processing will be described later.
  • the customer information acquisition unit 103, the meeting information acquisition unit 104, and the meeting execution environment information acquisition unit 105 input customer information, meeting information, and meeting execution environment information from the customer-side user terminal 21 and the sales-side user terminal 22, respectively.
  • the customer information is the user information of the customer-side user 11 who runs the meeting, for example, the information input by the customer-side user 11 to the customer-side user terminal 21 before the start of the meeting.
  • This customer information is recorded in the customer information database 111 .
  • user information such as age, gender, personality, and physical condition is recorded according to the content of the meeting.
  • the customer information database 111 also records information such as the degree of change in facial expression, the degree of change in tone of voice, the vocabulary used, the degree of stress detection, etc., for each customer, and each customer is grouped according to these customer characteristics. registered in the database.
  • the meeting information is, for example, information input to each user terminal by the customer side user 11 or the sales side user 12 before the start of the meeting.
  • the information is as follows. (Meeting information a) Meeting (MTG) genre (Meeting information b) Meeting (MTG) scale (Meeting information c) Fatigue (customer) (Meeting information d) busyness (customer)
  • (Meeting Information a) Meeting (MTG) Genre is information about the genre of the meeting, such as "business talks,” “external meetings,” “internal meetings,” “briefings,” “interviews,” and “classes.” is.
  • Meeting (MTG) scale Enter the scale of the meeting.
  • the meeting size information is "large” if the number of participants is 10 or more, “medium” if the number of participants is 5 to 9, and “small” if the number of participants is 4 or less.
  • the meeting information may be set in three categories, large, medium, and small, or in two categories, large and small. These are preferably set according to predetermined meeting information setting rules.
  • (Meeting information c) fatigue (customer) and (meeting information d) busyness (customer) are the fatigue level and busyness level of the customer side user 11 at the start of the meeting.
  • These meeting information c and d may also be classified into three categories, large, medium, and small, or two categories, large and small. These are preferably performed according to a predetermined meeting information setting rule.
  • the meeting information a to b are input by the sales side user 12, and the meeting information c to d are input by the customer side user 11 acting as a customer.
  • the sales user 12 may listen to the status of the customer user 11 and input all the meeting information a to d.
  • the configuration may be such that only one of the information is used, or the configuration is such that meeting information other than the above information is input.
  • the meeting information is recorded in the meeting information database 112.
  • the meeting execution environment information acquired by the meeting execution environment information acquisition unit 105 is environment in which the meeting is held, such as weather, temperature, and noise. This information is information acquired by microphones and sensors provided to the customer side user 21 and the sales side user 22 during the execution of the meeting.
  • the customer information acquisition unit 103, the meeting information acquisition unit 104, the meeting execution environment information acquisition unit 105, and the information acquired by these information acquisition units are input to the user state output score calculation unit 106, and user state output score calculation processing is performed. used for For example, it is used for calculating weighting parameters. The details of this processing will be described later.
  • the user state output score calculation unit 106 calculates the user state score (evaluation value), which is the output value of the graph indicating the user state of the customer side user 11, which is output to the sales side user terminal 22 described above with reference to FIG. calculate.
  • the user state output score calculation unit 106 calculates the user state of the customer side user 11 estimated by the user state estimation unit 102, that is, (User state 1) Interest, concern, good feeling (User state 2) Understanding, consent, satisfaction (User state 3) Fatigue, stress Based on these user states, the final score (interest comprehension score, fatigue score).
  • the user state output score calculation unit 106 executes score calculation according to the algorithm determined by the score calculation algorithm control unit 107 . Also, as described above, score calculation is performed using the information acquired by the customer information acquisition unit 103, the meeting information acquisition unit 104, and the meeting execution environment information acquisition unit 105. FIG. Details of these processes will be described later.
  • the score calculation algorithm control unit 107 controls the algorithm for calculating the user state score in the user state output score calculation unit 106 .
  • the score calculation algorithm control unit 107 receives control information input by the sales user 12 from the sales user terminal 22 via the communication unit 101, and determines or changes the algorithm based on this information. The details of this processing will also be described later.
  • the user state change reason estimation unit 108 executes a process of estimating the change reason when, for example, the value of the user state output score of the customer side user 11 calculated by the user state output score calculation unit 106 changes significantly. For example, the process of generating the user state change reason explanation data 24 to be output to the sales side user terminal 22 described above with reference to FIG. 4 is performed.
  • the user state change reason estimating unit 108 uses at least one of a pre-generated learning model and a rule-based model to execute a process of estimating the reason for a user state change.
  • the user state change reason estimated by the user state change reason estimation unit 108 is output and displayed on the sales side user terminal 22 as described with reference to FIG. The processing executed by the user state change reason estimation unit 108 will also be described in detail later.
  • FIG. 7 is a diagram showing a configuration example of the user state estimation unit 102 of the information processing apparatus 100.
  • the user state estimation unit 102 has a speech-based user state estimation unit 121 , an image-based user state estimation unit 122 and a vocabulary-based user state estimation unit 123 .
  • the voice-based user state estimation unit 121 generates voice information including the voice of the customer user 11 acquired by the microphone of the customer user terminal 21 and voice information including the voice of the sales user 12 acquired by the microphone of the sales user terminal 22. , at least one of voice information is input, and the user state of the customer side user 11 is estimated based on the input voice information.
  • the image-based user state estimating unit 122 obtains image information including a facial image showing the facial expression of the customer user 11 obtained by the camera of the customer user terminal 21, and the facial expression of the sales user 12 obtained by the camera of the sales user terminal 22. and at least one of the image information is input, and the user state of the customer side user 11 is estimated based on the input image information.
  • the lexical-based user state estimating unit 123 obtains speech information including the speech of the customer user 11 acquired by the microphone of the customer user terminal 21, and speech information including the speech of the sales user 12 acquired by the microphone of the sales user terminal 22. , at least one of voice information is input, and the user state of the customer side user 11 is estimated based on the utterance contents obtained from the input voice information.
  • the vocabulary-based user state estimation unit 123 is provided with a speech analysis unit that converts speech data into text.
  • the user state of the side user 11 is estimated.
  • the speech analysis unit in the vocabulary-based user state estimation unit 123 is, for example, a speech analysis unit using an ASR (Automatic Speech Recognition) function.
  • the speech-based user state estimation unit 121, the image-based user state estimation unit 122, and the vocabulary-based user state estimation unit 123 all perform the following user states of the customer-side user 11, that is, (User state 1) Interest, interest, good feeling (User state 2) Understanding, consent, satisfaction (User state 3) Fatigue, stress These user states are estimated.
  • the voice-based user state estimation unit 121, the image-based user state estimation unit 122, and the vocabulary-based user state estimation unit 123 all use a learning model generated by machine learning processing executed in advance, for example, to estimate the user state. process.
  • a deep neural network (DNN: Deep Neural Network), which is a multilayer neural network, a convolutional neural network (CNN: Convolutional Neural Network), or a recurrent neural network (RNN: Recurrent Neural Network)
  • DNN Deep Neural Network
  • CNN Convolutional Neural Network
  • RNN Recurrent Neural Network
  • the user state estimation unit 102 is not limited to the speech-based user state estimation unit 121, the image-based user state estimation unit 122, and the vocabulary-based user state estimation unit 122, and is capable of estimating user states using information other than images, sounds, and vocabulary.
  • a configuration having a processing unit may be employed.
  • the heartbeat-based user state estimator 124 shown in FIG. 8 can be used.
  • the heartbeat-based user state estimating unit 124 shown in FIG. 8 receives detection information from a heartbeat sensor (heartbeat monitor) worn by the customer-side user 11 via the customer-side user terminal 21, and the received heartbeat information is is used to perform a heartbeat-based user state estimation process.
  • a heartbeat sensor heartbeat monitor
  • the user's heartbeat may be estimated by analyzing the user's face image (moving image) without having the user wear a heartbeat sensor, and the estimated heartbeat information may be used.
  • the information detected by various biosensors worn by the customer-side user 11 and the sales-side user 12 may be applied to the user state estimation process.
  • each estimation unit of the user state estimation unit 102 estimates the following user states of the user 11 on the customer side, that is, (User state 1) Interest, interest, good feeling (User state 2) Understanding, consent, satisfaction (User state 3) Fatigue, stress These user states are estimated.
  • the image-based user state estimating unit 122 uses the image information including the face image showing the facial expression of the customer-side user 11 acquired by the camera of the customer-side user terminal 21, the sales information acquired by the camera of the sales-side user terminal 22, and the sales information acquired by the camera of the sales user terminal 22.
  • Image information including the face image of the side user 12, or at least one of the image information is input, and the user state of the customer side user 11 is estimated based on the input image information.
  • the example shown in FIG. 9 is a processing example in which the image-based user state estimation unit 122 inputs image information including the face image of the customer-side user 11 and estimates the user state of the customer-side user 11 based on the input image information. showing.
  • the image-based user state estimation unit 122 has a neural network type learning model such as DNN, CNN, RNN, etc., as described above, and inputs image information including the face image of the customer-side user 11 to this learning model. , outputs the user state estimation score (evaluation value).
  • the image-based user state estimating unit 122 estimates the following scores (evaluation values) as the user state of the customer user 11 based on image information including the face image of the customer user 11. This is an output example.
  • Scores of Interest, Concern, and Favorability 5 (User state 2)
  • Score of comprehension, consent, and satisfaction 3 (User state 3)
  • the scores (evaluation values) of the user states 1 to 3 are on a scale of 1 to 5.
  • the score of interest, interest, and favorable impression (interest degree score) is higher (closer to 5) as the interest, interest, and favorable impression level of the customer side user 11 to the explanation and conversation of the sales side user 12 is higher ( The score (evaluation value) is lower (closer to 1) as the level of interest, interest, and favorability is lower.
  • Fatigue and stress scores become higher (closer to 5) as the fatigue and stress levels of the customer side user 11 with respect to the explanations and conversations of the sales side user 12 are higher (evaluation value). , fatigue, and stress levels are lower (closer to 1).
  • FIG. 11 shows that the image-based user state estimating unit 122 uses not only image information including the face image of the customer side user 11 but also image information including the face image of the sales side user 12.
  • FIG. 10 is a diagram showing an example of processing for estimating the user state of the side user 11;
  • the image-based user state estimation unit 122 performs processing for estimating the user state of the customer side user 11 using at least one of the face image of the customer side user 11 and the face image of the sales side user 12. conduct.
  • Each estimating unit other than the image-based user state estimating unit 122 of the user state estimating unit 102 is the same. output the estimated score (evaluation value) of (User state 1) Interest, concern, good feeling (User state 2) Understanding, consent, satisfaction (User state 3) Fatigue, stress
  • the estimated scores of the three user states 1 to 3 estimated by each estimation unit of the user state estimation unit 102 are input to the user state output score calculation unit 106.
  • the user state output score calculation unit 106 has an interest, interest, and favorable impression output score calculation unit 131, an understanding, consent, and satisfaction output score calculation unit 132, and a fatigue/stress output score calculation unit 133. .
  • the user state output score calculation unit 106 calculates the user state score (evaluation value) of the customer side user 11 to be output to the sales side user terminal 22 previously described with reference to FIG.
  • the interest, interest, positive impression output score calculation unit 131 calculates the interest, interest, positive impression output score of the customer user 11 in the graph output to the sales side user terminal 22 .
  • the understanding, consent, and satisfaction output score calculation unit 132 calculates the understanding, consent, and satisfaction output score of the customer user 11 in the graph output to the sales side user terminal 22 .
  • the fatigue/stress output score calculator 133 calculates the fatigue/stress score of the customer user 11 in the graph output to the sales-side user terminal 22 .
  • the user state output score calculation unit 106 calculates the estimated score of the user state of the customer side user 11 estimated by each estimation unit of the user state estimation unit 102, that is, (User State 1) Interest, Concern, Good Feeling (User State 2) Understanding, Consent, Satisfaction (User State 3) Fatigue, Stress Estimated scores (interest score, comprehension score, fatigue score) of these user states , the final score (evaluation value) to be output to the sales side user terminal 22 is calculated.
  • the final output score is calculated by executing weighted addition processing of the estimated scores estimated by the respective estimation units of the user state estimation unit 102 .
  • the weighted addition using the weight parameter calculated using the information acquired by the customer information acquiring unit 103, the meeting information acquiring unit 104, and the meeting execution environment information acquiring unit 105 is executed, and the sales side A final score (evaluation value) to be output to the user terminal 22 is calculated.
  • the information acquired by the customer information acquisition unit 103, the meeting information acquisition unit 104, and the meeting execution environment information acquisition unit 105 includes, for example, the elapsed time of the meeting, the climate, the character, physical condition, and action history of the user on the customer side and the user on the sales side. etc., and these information can be used to adjust the weighting parameters.
  • the customer information database 111 records information such as the degree of change in facial expression, the degree of change in tone of voice, the vocabulary used, the degree of stress detection, etc., for each customer, and grouping is performed according to these customer characteristics. ing. For example, for customers belonging to the same group, processing such as setting the same weighting parameter to be used for user state output score calculation processing can be performed.
  • the user state output score calculation unit 106 executes score calculation according to the algorithm determined by the score calculation algorithm control unit 107 .
  • FIG. 13 is a diagram showing a processing example of the interest, interest, and favorable feeling output score calculation unit 131, which is one output score calculation unit in the user state output score calculation unit 106.
  • FIG. 13 is a diagram showing a processing example of the interest, interest, and favorable feeling output score calculation unit 131, which is one output score calculation unit in the user state output score calculation unit 106.
  • the interest, concern, and favorable impression output score calculation unit 131 of the user state output score calculation unit 106 is divided into three user state estimation units of the user state estimation unit 102 in the preceding stage, that is, the voice-based user state estimation unit 121 and the image-based user state estimation unit 121.
  • Unit 122, lexical-based user state estimation unit 123, and three values of interest, interest, and favorability scores estimated by each of these three user state estimation units are input, and these three score values are weighted and added, Calculate the final output score value. That is, it calculates the interest, interest, and favorability score (interest degree score) to be output to the sales side user terminal 22 .
  • the three user state estimating units of the user state estimating unit 102 that is, the speech-based user state estimating unit 121, the image-based user state estimating unit 122, the interest, interest, and
  • the interest, concern, and favorable impression output score calculation unit 131 of the user state output score calculation unit 106 calculates the final output score value according to the following calculation formula (Formula 1). That is, it calculates the interest, concern, and favorability output score to be output to the sales side user terminal 22 .
  • Interest, Interest, Good Feeling Output Score (w 1.5 )+(w 2.3 )+(w 3.4 ) (Formula 1)
  • 5 3, and 4 are the three user state estimating units of the user state estimating unit 102, that is, the voice-based user state estimating unit 121, the image-based user state estimating unit 122, and each of these estimating units is an estimate of interest, concern, and likeability scores estimated by Also, w 1 , w 2 , and w 3 are weighting parameters by which the scores estimated by the three user state estimation units are multiplied.
  • w 1 multiplication weighting coefficient for the voice-based user state score (interest, concern, favorable impression output score, etc.) estimated by the voice-based user state estimation unit 121
  • w 2 image-based user state score estimated by the image-based user state estimation unit 122
  • w 3 Multiplication weighting factor for the vocabulary-based user status score (interest, interest, favorable impression output score, etc.) estimated by the vocabulary-based user status estimation unit 123 .
  • the voice-based user state estimation unit 121 executes user state estimation processing mainly based on tone of voice
  • the image-based user state estimation unit 122 executes user state estimation processing mainly based on facial expressions
  • the vocabulary-based user state estimation unit 122 executes user state estimation processing mainly based on facial expressions.
  • the estimation unit 123 executes user state estimation processing based on the speech content.
  • weight parameters w 1 , w 2 , and w 3 can basically use preset values. It is also possible to make successive changes using the information obtained by for example,
  • ia1, ia2, ib1, . . . id1 are values indicating information acquired by the customer information acquiring unit 103, the meeting information acquiring unit 104, the meeting execution environment information acquiring unit 105, etc.
  • f( ) is a weight calculation function using each of the above information, and weight parameters w 1 , w 2 , and w 3 are calculated by executing this function. Note that the weight calculation function f is defined in advance.
  • the score calculation algorithm control section 107 can be operated from the sales side user terminal 22 via the communication section 101, and the score calculation algorithm can be set and changed by the operation of the sales side user 12.
  • Each of these output score calculation units also performs the same processing as the output score calculation processing of the interest, interest, and favorable impression output score calculation unit 131 described with reference to FIG. 13 .
  • FIG. 14 shows the speech-based user state estimating unit 121, the image-based user state estimating unit 122, and the vocabulary-based user state estimating unit 123 of the user state estimating unit 102 in the preceding stage.
  • the three user state scores were calculated by the interest, concern, and favorable impression output score calculation unit 131, the understanding, consent, and satisfaction output score calculation unit 132, and the fatigue and stress output score calculation unit 133 of the user state output score calculation unit 106. An example of an output score is shown.
  • (1) in the table shown in FIG. 14 is an output score calculation example of the user state output score calculation unit 106's interest, interest, and favorable feeling output score calculation unit 131.
  • FIG. The voice-based user state estimation unit 121, the image-based user state estimation unit 122, and the vocabulary-based user state estimation unit 123 of the user state estimation unit 102 in the preceding stage, and the three interests estimated by these three user state estimation units.
  • Likeability scores are 5, 3, and 4, respectively.
  • (2) in the table shown in FIG. 14 is an example of output score calculation by the understanding, consent, and satisfaction output score calculation unit 132 of the user state output score calculation unit 106 .
  • the voice-based user state estimation unit 121, the image-based user state estimation unit 122, and the vocabulary-based user state estimation unit 123 of the user state estimation unit 102 in the preceding stage, and the three understanding, consent, and Satisfaction scores are 3, 4, 3 respectively.
  • (3) in the table shown in FIG. 14 is an example of output score calculation by the user state output score calculation unit 106 and the stress output score calculation unit 133 .
  • Speech-based user state estimating unit 121, image-based user state estimating unit 122, and vocabulary-based user state estimating unit 123 of user state estimating unit 102 in the preceding stage three fatigue and stress scores estimated by these three user state estimating units are 1, 2, 1, respectively.
  • each of the interest, interest, and positive feeling output score calculation unit 131, the understanding, consent, and satisfaction output score calculation unit 132, and the fatigue and stress output score calculation unit 133 of the user state output score calculation unit weighted addition of the estimated values of the respective user state estimating units of the user state estimating unit 102 to calculate an output score for output to the sales side user terminal 22 . That is, the following output scores are calculated.
  • These output score values calculated by the user state output score calculation unit 106 are output to the sales side user terminal 22 and displayed as a graph.
  • FIG. 15 shows an example of graph display.
  • the graph displayed on the display unit of the sales side user terminal 22 has the elapsed time from the start of the meeting on the horizontal axis and the estimated score (evaluation value) of the above user states 1 to 3 on the vertical axis. It is a graph showing (1 to 5).
  • the user state estimating unit 102 and the user state output score calculating unit 106 of the information processing apparatus 100 continuously execute processing during the meeting using the customer-side user terminal 21 and the sales-side user terminal 22 .
  • the graph is updated.
  • the graph ( ⁇ ) (polyline) is a graph showing changes over time in the estimated score (interest score) of “(user state 1) interest, interest, favorable impression”.
  • the ( ⁇ ) graph (line) is a graph showing changes over time in the estimated score (understanding score) of “(user state 2) understanding, consent, satisfaction”.
  • the graph ( ⁇ ) (polyline) is a graph showing changes over time in the estimated score (fatigue score) of “(user state 3) fatigue, stress”.
  • the sales user 12 can easily grasp the transition of the customer's state, and can change the method and content of the explanation according to the grasp result. It is possible to take appropriate measures such as making changes.
  • the graph generation process may be executed by the user state output score calculation unit 106 of the information processing apparatus 100 or may be executed by the sales side user terminal 22 side.
  • the user state output score calculation unit 106 of the information processing device 100 When the user state output score calculation unit 106 of the information processing device 100 generates a graph, the user state output score calculation unit 106 generates a graph based on the user state output score at each time and transmits the graph to the sales side user terminal 22. do.
  • the user state output score calculation unit 106 sequentially transmits the user state output score for each hour to the sales-side user terminal 22.
  • the sales-side user terminal 22 arranges the user state output scores sequentially received from the user state output score calculation unit 106 along the time axis to generate and display a graph.
  • the display data on the upper right of the display data shown in FIG. 15 is the UI section 25 that can be operated by the sales side user 12 .
  • the sales user 12 can change the score calculation algorithm in the information processing device 100 by operating the UI section 25 . That is, the operation information of the UI unit 25 by the sales side user 12 is transmitted to the information processing device 100 via the network.
  • the UI operation information received by the communication unit 101 of the information processing device 100 is input to the score calculation algorithm control unit 107 of the information processing device 100 .
  • the score calculation algorithm control unit 107 of the information processing device 100 changes and controls the score calculation algorithm according to the operation information of the UI unit 25 by the sales side user 12 .
  • the UI section 25 displays the following UI sections a to e (operation sections a to e): UI section a: Validation (ON) of sales side user's image, voice, and vocabulary , Invalidation (OFF) setting UI part b: Validation (ON), invalidation (OFF) setting of images, voices, and vocabulary of the user on the customer side UI part c: Images, voices, and vocabulary applied to user state output score calculation Setting the weight of each base user state score UI part d: Selection of information used to adjust the weight of each image, voice, and vocabulary-based user state score applied to user state output score calculation UI part e: After weight change Set the range of reflected data (set whether to reflect on the current data or later, or on all data after the start of MTG)
  • the UI part a is a UI for enabling (ON) or disabling (OFF) the image, voice, and vocabulary of the sales side user, and uses the sales side user's image, voice, and vocabulary when calculating the score ( ON) or not (OFF) can be set.
  • the UI unit b is a UI for enabling (ON) and disabling (OFF) settings for images, voices, and vocabulary of the user on the customer side, and uses the images, voices, and vocabulary of the user on the customer side for score calculation (ON) or not (OFF) can be set.
  • the UI part c is a UI for setting the weight of each image, voice, and vocabulary-based user state score applied to the user state output score calculation. 2 , w 3 ) can be changed.
  • Each vertex of the triangle shown in the figure corresponds to the weight value of each image, voice, and vocabulary-based user state score. The weight increases as the vertex is set outward, and the weight decreases as it is moved inward.
  • the UI part d is a UI for selecting information to be used for adjusting the weight of each image, voice, and vocabulary-based user state score applied to the user state output score calculation.
  • Information to be applied to the weight (w 1 , w 2 , w 3 ) calculation process can be selected.
  • weights (w 1 , w 2 , w 3 ) of images, voices, and vocabulary from four types of information: customer information, MTG information, MTG environment, and heartbeat information.
  • customer information MTG information
  • MTG environment MTG environment
  • heartbeat information MTG environment and heartbeat information
  • the UI part e is a UI for setting the range of reflected data after weight change. It is possible to select whether to reflect on the data after the current time or on all the data after the start of MTG.
  • the UI section 25 can be operated by the sales side user 12 at any time.
  • the setting can be changed at any time before the meeting starts or during the meeting, and the change information is transmitted to the information processing device 100 via the network, and the score calculation algorithm control unit 107 of the information processing device 100 Change the scoring algorithm in real time.
  • FIG. 17 shows a setting example of each UI unit 25 (a) before UI adjustment and (b) after UI adjustment.
  • (a) is an example in which the sales side user 12 executes the three operations of steps S01 to S03 shown in the figure before UI adjustment.
  • step S01 the setting of the UI section a is changed from ON to OFF.
  • the UI part a is a UI for setting the validation (ON) or invalidation (OFF) of images, voices, and vocabulary of the user on the sales side.
  • the setting for using the image, voice, and vocabulary of the sales side user (ON) is changed to the setting for not using (OFF).
  • the weight setting of the UI part c is changed.
  • the UI part c is a UI for setting the weight of each image, voice, and vocabulary-based user state score applied to the user state output score calculation. 2 , w 3 ) can be changed.
  • step S02 the vertex of the triangular image is moved outward
  • step S03 the vertex of the vocabulary is moved inward. Due to this setting change, the value of the weight used when calculating the user state score is changed. Specifically, the weight for the vocabulary-based user state score is changed to be smaller, and the weight for the image-based user state score is changed to be larger.
  • the change information is immediately transmitted to the information processing device 100, and the score calculation algorithm control section 107 of the information processing device 100 changes the score calculation algorithm according to the operation information of the sales side user 12.
  • the score calculation algorithm is changed by the operation of the sales-side user 12 on the UI unit 25 described above, for example, the graph being displayed on the sales-side user terminal 22 shown in FIG. It will be displayed after being changed to a graph consisting of scores.
  • the sales user 12 can change the user state estimation score calculation algorithm to a more appropriate mode.
  • the user state change reason estimation unit 108 includes a rule-based user state change reason estimation unit 141, a learning model-based user state change reason estimation unit 142, and a user state change reason estimation result integration processing unit 143. have.
  • the rule-based user state change reason estimating unit 141 uses pre-registered data (rule-based model ).
  • the learning model-based user state change reason estimating unit 142 estimates a user state change reason using a pre-generated learning model based on the voices and images of the customer side user 11 and the sales side user 12 . Further, the reason for the change in the user's state may be estimated using a learning model generated in advance using detection information from other sensors such as a heart rate sensor of the user on the customer side.
  • the user state change reason estimation result integration processing unit 143 inputs the estimation result of the rule-based user state change reason estimation unit 141 and the estimation result of the learning model-based user state change reason estimation unit 142, and selects one of the estimation results. processing, selection processing of both estimation results, or generation processing of a new user state change reason by synthesizing two estimation results, etc., and user state change finally output to the sales side user terminal 22 Generate a reason.
  • the rule-based user state change reason estimation unit 141 has a speech analysis unit 151, a rule-based model 152, and a rule-based user state change reason determining unit 153.
  • FIG. 20 A detailed configuration example of the rule-based user state change reason estimation unit 141 will be described with reference to FIG. 20.
  • the rule-based user state change reason estimating unit 141 has a speech analysis unit 151, a rule-based model 152, and a rule-based user state change reason determining unit 153.
  • Voice data including the voice of the customer side user 11 acquired by the microphone of the customer side user terminal 21 and voice data including the voice of the sales side user 12 acquired by the microphone of the sales side user terminal 22 are input to the voice analysis unit 151 .
  • the speech analysis unit 151 converts the speech data into text and outputs it to the rule-based user state change reason determination unit 153 .
  • the speech analysis unit is, for example, a speech analysis unit using an ASR (Automatic Speech Recognition) function.
  • the rule-based user state change reason determination unit 153 determines a rule based on the text data input from the speech analysis unit 151, that is, the text indicating the utterance content of the customer user 11 or the text indicating the utterance content of the sales user 12.
  • a user state change reason is estimated based on the input utterance text with reference to the base model 152 .
  • the rule-based model 152 is a rule-based model in which various utterance texts of the customer-side user 11 and the sales-side user are associated and recorded with reasons for user state changes. Specifically, for example, data as shown in FIG. 21 is registered.
  • the rule-based user state change reason determining unit 153 refers to the rule-based model 152 in which the data shown in FIG. or the registered data closest to the text indicating the utterance content of the sales side user 12 is selected, and the user state change reason recorded in association with the selected data is acquired.
  • the acquired user state change reason is output to the user state change reason estimation result integration processing unit 143 .
  • the learning model-based user state change reason estimation unit 142 shown in FIG. 19 estimates the user state change reason using a learning model generated in advance.
  • the learning model is a learning model that inputs the voice and image information of the customer side user 11 and the sales side user 12 and outputs the reason for the user state change.
  • sensor detection information such as the customer's user's heartbeat sensor or other biosensors can be obtained, generate a learning model that outputs the reason for user state change by inputting sensor detection information in addition to voice and image information. It may be configured to be used as
  • the learning model is, for example, a deep neural network (DNN) which is a multilayer neural network, a convolutional neural network (CNN), or an algorithm such as a recurrent neural network (RNN).
  • DNN deep neural network
  • CNN convolutional neural network
  • RNN recurrent neural network
  • the user state change reason estimated by the learning model-based user state change reason estimation unit 142 using the learning model is also output to the user state change reason estimation result integration processing unit 143 .
  • the user state change reason estimation result integration processing unit 143 inputs the estimation result of the rule-based user state change reason estimation unit 141 and the estimation result of the learning model-based user state change reason estimation unit 142, and selects one of the estimation results. processing, selection processing of both estimation results, or processing of generating a new user state change reason by synthesizing two estimation results.
  • the user state change reason estimation result integration processing unit 143 finally determines the user state change reason to be output to the sales side user terminal 22 .
  • the user state change reason estimation result integration processing unit 143 calculates the interest, interest, and favorability output score of the user state output score calculation unit 106. Section 131, comprehension/satisfaction/satisfaction output score calculation section 132, fatigue/stress output score calculation section 133, and changes in output scores of these three types of user state output score calculation sections 131 to 133 are verified.
  • the user state change reason estimation result integration processing unit 143 A user state change reason to be output to the user terminal 22 is determined and output.
  • the user state change reason estimation result integration processing unit 143 extracts the customer information input from the customer information acquisition unit 103 and the meeting information acquisition unit 104 as auxiliary information when determining the user state change reason to be output to the sales-side user terminal 22 .
  • the meeting execution environment information inputted from the meeting execution environment information acquisition unit 105 may be used.
  • the user state change reason estimation result integration processing unit 143 generates not only the user state change reason, but also, for example, estimation information on the result of the meeting, recommendation value information for the weight applied to user state score calculation, etc. It may be configured to output to the terminal 22 .
  • FIG. 22 shows an example of data generated by the user state change reason estimation result integration processing unit 143 and output to the sales side user terminal 22 .
  • the user state change reason estimation result integration processing unit 143 outputs the following information to the sales side user terminal 22, for example.
  • (1) User state change reason (2) Meeting result estimation information
  • Weight recommendation information applied to user state score calculation Information is estimated using a learning model or rule-based model generated in advance and output to the sales side user terminal 22 .
  • the user state change reason is output in the following cases, for example, as shown in the specific example column of FIG. (Example 1) If the amount of change in any one of the "interest/interest/favorable output score", “understanding/understanding/satisfaction output score”, and “fatigue/stress output score” is equal to or greater than a prescribed threshold, the user state Output the reason for the change (Example 2) The lowest (1) or highest value of any of the "interest/interest/favorable output score", “understanding/understanding/satisfaction output score", or "fatigue/stress output score” and (5), output the reason for user state change
  • the meeting result estimation information As for the meeting result estimation information, the meeting result estimation information when no measures are taken and the meeting result estimation information when the measures are taken are generated and output. (3) For weight recommendation information applied to user state score calculation, a recommended value of weight (image, voice, vocabulary) to be applied to user state score calculation is output.
  • FIG. 23 shows an example in which the user state change reason, which is the information output from the user state change reason estimation result integration processing unit 143 of the user state change reason estimation unit 108 to the sales side user terminal 22, is displayed on the sales side user terminal 22.
  • FIG. 4 is a diagram showing;
  • FIG. 24 is a diagram showing an example in which meeting result estimation information and weight recommendation information applied to user condition score calculation are displayed on the sales-side user terminal 22 .
  • FIG. 25 is a diagram showing an example in which the sales-side user terminal 22 further displays the reason for presenting the weighted recommendation information applied to the calculation of the user state score.
  • the sales-side user 12 can take appropriate measures such as changing the method of explanation.
  • the above embodiment has been described as an example of processing for analyzing the user status of users participating in a meeting via a communication network and displaying the analysis results on the user terminals of other users participating in the meeting.
  • the processing of the present disclosure described above that is, the processing of analyzing the user state of a user and displaying the analysis results on the user terminals of other users, is used not only for such online meetings, but also for various other purposes. Usage forms are possible.
  • an augmented reality image (AR (Augmented Reality) image) or a virtual reality image (VR (Virtual Reality) image) in which a real object image in the real space is superimposed on a virtual object image that does not exist in the real space is displayed.
  • AR Augmented Reality
  • VR Virtual Reality
  • the present invention can also be applied to processing for displaying analysis results of the user state on a wearable device such as a glasses-type or goggles-type device.
  • the present disclosure can be used in a scene where a plurality of users wearing glasses-type devices hold a face-to-face meeting. It analyzes images and voices input via a camera and a microphone attached to a glasses-type device worn by the user, and estimates the user status of the meeting partner. Furthermore, a graph or the like based on the estimated user state is generated, and the user state analysis result such as the generated graph is displayed as a virtual object on the spectacles type device.
  • the configuration and processing of the present disclosure described above can be used in such various situations.
  • the user state estimation unit 102 of the information processing apparatus 100 receives input from the customer-side user terminal 21 and the sales-side user terminal 22 during the meeting input via the communication unit 101, respectively.
  • the user state of the user on the customer side is estimated based on the user's image, voice data, and the like. Specifically, for example, estimation processing for each of the following states is performed.
  • the user state estimation unit 102 estimates the user state of the user on the customer side using, for example, a learning model generated in advance. A specific example of the learning model generation process used by the user state estimation unit 102 will be described below.
  • FIG. 26 is a diagram showing a configuration of a simulated meeting for acquiring learning data used in the process of generating a learning model used by the user state estimation unit 102.
  • FIG. 26 shows a customer side user 11 who is a customer who wishes to purchase a product, and a sales side user 12 who is a product provider.
  • a customer-side user terminal 21 such as a smartphone and a sales-side user terminal 22 such as a PC are connected via a communication network, and voices and images are mutually transmitted and received between these communication terminals to carry out business negotiations. .
  • the customer user 11 is not an actual customer, but a person who performs the customer's role. For example, an employee or a part-time worker of the same company as the sales side user 12 plays the role of the customer.
  • the sales side user 12 conducts a meeting such as a simulated business negotiation with the customer side user 11 playing the role of the customer via the network.
  • a customer-side user 11 playing the role of a customer inputs his or her user state such as his or her emotions to the customer-side user terminal 21 at any time during execution of the simulated meeting.
  • Input items are, for example, the following three user states as shown in FIG. (User state 1) Interest, concern, good feeling (User state 2) Understanding, consent, satisfaction (User state 3) Fatigue, stress However, regarding "(User state 3) Fatigue, stress" in each user state 1 to 3 above
  • information obtained by analysis of the heartbeat sensor or face image may be used without user input.
  • Interest, Concern, and Favorability are user states indicating whether or not the customer side user 11 has an interest in, interest in, or a favorable impression of the sales side user 12's explanation and conversation.
  • a customer-side user 11 playing the role of a customer judges his/her own interest, concern, and favorability level during a meeting (business negotiation) with a sales-side user 12, and inputs a score (evaluation value) based on the judgment at any time. .
  • the score is on a scale of 1 to 5, and the score (evaluation value) is higher as the interest, concern, and favorability are higher.
  • the customer side user 11 playing the role of the customer during the period of the meeting (business negotiation) with the sales side user 12, at any timing when he feels that the level of "interest, concern, good impression” has changed, he always gives a score (evaluation value). input.
  • (User State 2) Understanding, Consent, and Satisfaction are user states as to whether the customer side user 11 understands, consents, and is satisfied with the explanation of the sales side user 12 .
  • a customer-side user 11 acting as a customer inputs a score (evaluation value) at any time during a meeting (negotiation) with a sales-side user 12 .
  • Fatigue and stress are user states indicating whether or not the customer side user 11 felt fatigue or stress due to the sales side user 12's explanation or conversation.
  • a customer-side user 11 acting as a customer inputs a score (evaluation value) at any time during a meeting (negotiation) with a sales-side user 12 .
  • the customer side user 11 who plays the role of the customer inputs the score (evaluation value) at any time during the meeting (business negotiation) period with the sales side user 12 at any time when the level of "fatigue and stress” changes. .
  • the information processing device 100 further inputs images and voices of each user during the execution of the meeting via the customer-side user terminal 21 and the sales-side user terminal 22 .
  • the information processing apparatus 100 inputs the following data during the execution period of the meeting.
  • the information processing device 100 receives the above data (A) to (C) during the execution period of the meeting, executes learning processing using this input data, and generates a user state estimator (learning model).
  • FIG. 28 shows data input by the information processing device 100 from the customer side user terminal 21 and the sales side user terminal 22, and is part of the data (meeting log) used for machine learning processing in the information processing device 100. It is an example of data showing
  • the recording area [label] at the beginning of the log data (Meeting log) shown in FIG. 28 is a recording area for the score (evaluation value) of the user status input by the customer-side user 11 playing the role of the customer during the meeting.
  • the next recording area is an area for recording meeting conditions set before the start of the meeting.
  • the meeting conditions (MTG tags) include, for example, the following conditions (tags).
  • (Tag c) Fatigue (customer) large, medium, small
  • (Tag d) Busyness (customer ) large, medium, small
  • the information processing device 100 inputs log data (Meeting Log) composed of these data from at least one of the customer side user terminal 21 and the sales side user terminal 22, and performs machine learning using the input data. Execute processing to generate a user state estimator (learning model).
  • the log data shown in FIG. 28 is part of the log data acquired during the meeting period.
  • [Label] data acquired as log data during one meeting time-series data of user state scores (evaluation values) sequentially input by the customer side user 11 during the meeting is generated. can do.
  • FIG. 29 shows an example of time-series data that the information processing apparatus 100 can generate based on the user state score (evaluation value) acquired from the customer-side user terminal 21 .
  • FIG. 29 shows time-series data for each of the following user states.
  • (User state 1) Interest, interest, good feeling (User state 2) Understanding, consent, satisfaction (User state 3) Fatigue, stress
  • the state of the customer-side user terminal 21 during the meeting period can be determined. Detailed analysis of changes becomes possible.
  • the information processing apparatus 100 executes machine learning processing using the log data shown in FIG. 28 to generate a learning model used by the user state estimation unit. The details of the machine learning process executed by the information processing apparatus 100 will be described with reference to FIG. 30 and subsequent figures.
  • FIG. 30 is a diagram showing an example of a configuration for collecting data used for machine learning processing executed by the information processing apparatus 100.
  • the information processing device 100 acquires the following data during the meeting period from the customer-side user terminal 21 .
  • Image data Audio data Score corresponding to user condition 1)
  • Score corresponding to user condition 3) Fatigue, stress score
  • the image data and voice data are the image data including the face image of the customer user 11 acquired by the camera and microphone of the customer user terminal 21 and the voice data of the customer user 11 .
  • the information processing device 100 stores these data in a storage unit (database) within the information processing device 100 .
  • a storage unit database
  • image data and audio data are stored in an image/audio database 161 .
  • the interest, concern, and favorability scores are stored in the interest, interest, and favorability score database 171
  • the understanding, consent, and satisfaction scores are stored in the understanding, consent, and satisfaction score database 172
  • the fatigue and stress scores are stored in the fatigue and stress scores.
  • the information processing device 100 also acquires the following data during the meeting period from the sales side user terminal 22 as well.
  • Image Data Audio Data These image data and audio data are image data including the facial image of the sales user 12 acquired by the camera and microphone of the sales user terminal 22 and speech data of the sales user 12 . These data are also recorded in the image/audio database 161 of the information processing apparatus 100 .
  • the image and sound data recorded in the image/sound database 161 include recording time information such as a time stamp indicating the acquisition time of the image and sound as attribute information, and the image and sound acquired from the user terminal 21 on the customer side.
  • time information such as a time stamp indicating the acquisition time of the image and sound as attribute information
  • User identification information or the like for identifying whether the data is the data of the customer side user 11 or the data of the sales side user 12 acquired from the sales side user terminal 22 is recorded.
  • the heartbeat information of the customer-side user 11 is not collected.
  • the heart rate information of the user 11 on the customer side is also collected, and the learning process including sensor detection information is executed.
  • the image data and voice data during the meeting period are also acquired from the sales side user terminal 22.
  • FIG. image data and voice data from the user terminal 22 on the sales side without obtaining image data and voice data from the user terminal 22 on the customer side. Configurations are also possible.
  • FIG. 32 is a diagram illustrating the configuration and processing of machine learning processing executed by the information processing apparatus 100.
  • the information processing apparatus 100 includes an interest level estimator generation unit (interest level estimation learning model generation unit) 181, an understanding level estimator generation unit (understanding level estimation learning model generation unit) 182, a fatigue level estimation It has a device generation unit (fatigue level estimation learning model generation unit) 183 .
  • An interest level estimator generation unit (interest level estimation learning model generation unit) 181 executes machine learning processing using the data stored in the interest/interest/likeability score database 171 and the data stored in the image/audio database 161 to determine the interest level.
  • a degree estimator (interest degree estimating learning model) 191 is generated.
  • the interest level estimator generation unit (interest level estimation learning model generation unit) 181 executes machine learning processing using the following data to generate the interest level estimator (interest level estimation learning model) 191. .
  • comprehension estimator generation unit (comprehension estimation learning model generation unit) 182 executes machine learning processing using the data stored in the comprehension/satisfaction/satisfaction score database 172 and the data stored in the image/audio database 161.
  • comprehension level estimator (comprehension level estimation learning model) 192 is generated.
  • the comprehension estimator generation unit (comprehension estimation learning model generation unit) 182 executes machine learning processing using the following data to generate the comprehension estimator (comprehension estimation learning model) 192 .
  • the fatigue level estimator generation unit (fatigue level estimation learning model generation unit) 183 executes machine learning processing using the stored data of the fatigue/stress score database 173 and the stored data of the image/audio database 161, A degree estimator (fatigue degree estimation learning model) 193 is generated.
  • the fatigue level estimator generation unit (fatigue level estimation learning model generation unit) 183 executes machine learning processing using the following data to generate the fatigue level estimator (fatigue level estimation learning model) 193 .
  • the learning processing units of the information processing apparatus 100 that is, the interest level estimator generation unit (interest level estimation learning model generation unit) 181, the understanding level estimator generation unit (understanding level estimation learning model generation unit) 182, and the fatigue level estimator
  • the generation unit (fatigue level estimation learning model generation unit) 183 and these learning processing units execute deep learning processing as machine learning processing, for example.
  • the interest level estimator generation unit (interest level estimation learning model generation unit) 181 uses the data stored in the interest/interest/likeability score database 171 and the data stored in the image/audio database 161 as training data for “supervised learning processing. ”.
  • a degree estimator (interest degree estimating learning model) 191 is generated.
  • the comprehension estimator generation unit (comprehension estimation learning model generation unit) 182 uses the data stored in the understanding/satisfaction/satisfaction score database 172 and the data stored in the image/audio database 161 as teacher data for “supervised learning processing. ”.
  • the comprehension/satisfaction/satisfaction score of the customer-side user is estimated based on at least one of image and voice data of the customer-side user and image and voice data of the sales-side user.
  • a degree estimator (understanding degree estimation learning model) 192 is generated.
  • the fatigue level estimator generation unit (fatigue level estimation learning model generation unit) 183 performs “supervised learning processing” using the data stored in the fatigue/stress score database 173 and the data stored in the image/audio database 161 as teacher data. Execute.
  • Fatigue level estimation for estimating the fatigue/stress score of the user on the customer side based on at least one of image and voice data of the user on the customer side and image and voice data on the sales side by this learning process
  • a device (fatigue level estimation learning model) 193 is generated.
  • FIG. 33 is a diagram illustrating an example of learning processing for generating the interest level estimator (interest level estimation learning model) 191 by the interest level estimator generation unit (interest level estimation learning model generation unit) 181 .
  • FIG. 33 shows the following data used as learning data.
  • these data are included in the log data described above with reference to FIG. That is, it is log data recorded in the customer-side user terminal 21 and transmitted to the information processing apparatus 100 during the execution of the meeting.
  • the interest level estimator generation unit (interest level estimation learning model generation unit) 181 first extracts the interest, interest, and favorable impression score database 171 shown in FIG. Get one score (evaluation value). Furthermore, the time stamp of the acquired interest/interest/favorability score (evaluation value) is confirmed, and the image and voice data of the customer side user 11 up to a predetermined time (for example, 30 seconds) before the time matching this time stamp are displayed. It is acquired from the image/sound database 161 .
  • the interest level estimator generation unit (interest level estimation learning model generation unit) 181 acquires the feature amount of the image and voice data of the customer side user 11 acquired from the image/sound database 161, and converts the feature amount into the figure.
  • the learning process uses a data set in which the image and voice data of the customer side user 11 for 30 seconds immediately before the score input is associated with the interest, interest, and favorability score (evaluation value) input by the customer side user 11 as teacher data. to run.
  • the interest/interest/favorability score (evaluation value) input by the customer-side user 11 is used as annotation data (answer metadata) for the image/audio data.
  • the customer-side user 11's interest, interest, and favorability score (evaluation value) can be generated (interest estimation learning model) 191 .
  • the image and voice of the customer side user 11 immediately before inputting the interest/interest/favorability score (evaluation value) 1 shown in FIG. , and voice data such as "Eh ⁇ " and "Hmm ⁇ ” are recorded.
  • the interest level estimator generating unit (interest level estimating learning model generating unit) 181 determines the interest, interest, and favorability of the customer side user 11 when such data is recorded in the image and voice of the customer side user 11 . It can be learned that the score (evaluation value) tends to be low.
  • FIG. 34 shows examples of different learning data.
  • the interest level estimator generation unit (interest level estimation learning model generation unit) 181 calculates the customer-side user's 11 interest/interest/favorability score ( It can be learned that the value of evaluation value) tends to be high.
  • FIG. 35 is an example of learning processing using image and voice data of the sales side user 12 .
  • FIG. 35(a) records the troubled face of the sales side user 12 and the voice data such as "About that matter” and "I'll look into it".
  • the interest level estimator generation unit (interest level estimation learning model generation unit) 181 calculates the customer side user 11's interest/interest/favorability score ( It can be learned that the value of evaluation value) tends to be low.
  • the interest level estimator generation unit (interest level estimation learning model generation unit) 181 generates the interest/concern/likeability score (evaluation value) input by the customer side user 11 during the meeting period, the customer side user 11, Alternatively, the sales side user 12 inputs a large number of learning data composed of at least one of image and voice data, and executes learning processing.
  • the interest level estimator generation unit (interest level estimation learning model generation unit) 181 generates at least one of image and voice data of the user on the customer side or image and voice data of the user on the sales side, and voice data as a result of the learning process. Based on, an interest level estimator (interest level estimation learning model) 191 for estimating the customer side user's interest/concern/favorability score is generated.
  • the interest level estimator generator (interest level estimation learning model generator) 181 generates at least one of image and voice data of the user on the customer side and image and voice data of the user on the sales side.
  • An interest level estimator (interest level estimating learning model) 191 is generated which inputs image and voice data and outputs, as an output, estimated values of customer-side users' interest, interest, and favorability scores.
  • an estimator that estimates the user state based on at least one of image data and voice data of one or more users participating in a meeting via a communication network is generated.
  • the example described with reference to FIGS. 33 to 36 includes learning processing by an interest level estimator generation unit (interest level estimation learning model generation unit) 181 and an interest level estimator generated as a result of this learning (interest level estimation learning model). model) 191.
  • an interest level estimator generation unit interest level estimation learning model generation unit
  • an interest level estimator generated as a result of this learning interest level estimation learning model. model
  • the other comprehension level estimator generation unit (comprehension level estimation learning model generation unit) 182 and fatigue level estimator generation unit (fatigue level estimation learning model generation unit) 183 also execute similar learning processing.
  • An understanding level estimator generation unit (understanding level estimation learning model generation unit) 182 inputs and outputs at least one of image and voice data of the customer side user's image and voice data or the sales side user's image and voice data.
  • an understanding level estimator (understanding level estimating learning model) 192 that outputs an estimated value of the understanding/satisfaction/satisfaction score of the user on the customer side is generated.
  • the fatigue level estimator generation unit (fatigue level estimation learning model generation unit) 183 inputs image and voice data of at least one of the image and voice data of the user on the customer side or the image and voice data of the user on the sales side.
  • a fatigue level estimator (fatigue level estimation learning model) 193 that outputs an estimated fatigue/stress score of the user on the customer side as an output.
  • the user state change reason estimating unit 108 of the information processing apparatus 100 determines whether the user state output score of the customer side user 11 calculated by the user state output score calculating unit 106 is When there is a large change, a process of estimating the reason for the change is executed.
  • the user state change reason estimating unit 108 uses at least one of a pre-generated learning model and a rule-based model to execute a process of estimating the reason for a user state change.
  • the following describes the process of generating learning models and rule-based models used in the user state change reason estimation unit.
  • FIG. 37 is a diagram showing a configuration of a simulated meeting for acquiring learning data used in the process of generating a learning model used in the user state change reason estimating unit.
  • FIG. 37 shows an execution configuration of a simulated meeting for obtaining learning data similar to that of FIG. 26 described above.
  • the customer side user 11 is not an actual customer, but a person who performs the customer's role.
  • the customer user 11 playing the role of the customer inputs the following user status scores during the meeting (negotiation) period with the sales side user 12 .
  • (User state 1) Interest, concern, good feeling (User state 2) Understanding, consent, satisfaction (User state 3) Fatigue, stress
  • the reason (user state change reason) is selected.
  • a plurality of reasons for user status change are prepared in advance, and the reasons for selection candidates are displayed on the customer-side user terminal 21 .
  • the customer-side user 11 selects the applicable reason from the displayed plurality of reasons.
  • the reason for score change to be displayed on the customer-side user terminal 21 is, for example, data as shown in FIG. (User state 1)
  • the reasons why the interest, concern, and favorability score change in a positive direction (positive change) are as follows. (1) Well-balanced speaking rate (2) Understands my intentions (3) Makes me feel good (4) Obtains useful information It is displayed on the terminal 21 .
  • the data input by the customer-side user 11 to the customer-side user terminal 21 during execution of the simulated meeting, that is, the user status score and the selection data of the score change reason are transmitted to the information processing apparatus 100, and the information processing apparatus 100 learns the data.
  • Machine learning for learning model generation is executed in the processing unit.
  • the information processing device 100 acquires the following data during the meeting period from the customer-side user terminal 21 .
  • the user state score includes the following scores.
  • the user state change reasons also include the change reasons for each of the above user state scores.
  • the image data and voice data are the image data including the face image of the customer user 11 acquired by the camera and microphone of the customer user terminal 21 and the voice data of the customer user 11 .
  • the user state score and the user state change reason are the user state score (evaluation value) input by the customer side user 11 to the customer side user terminal 21 during the meeting period, User state change reason.
  • the information processing device 100 stores these data in a storage unit (database) within the information processing device 100 .
  • a storage unit database
  • image data and audio data are stored in an image/audio database 161 .
  • User state scores are stored in user state score database 170 and user state change reasons are stored in user state change reason database 175 .
  • the information processing device 100 also acquires the following data during the meeting period from the sales side user terminal 22 as well.
  • Image Data Audio Data These image data and audio data are image data including the facial image of the sales user 12 acquired by the camera and microphone of the sales user terminal 22 and speech data of the sales user 12 . These data are also recorded in the image/audio database 161 of the information processing apparatus 100 .
  • the image and sound data recorded in the image/sound database 161 include recording time information such as a time stamp indicating the acquisition time of the image and sound as attribute information, and the image and sound acquired from the user terminal 21 on the customer side.
  • time information such as a time stamp indicating the acquisition time of the image and sound as attribute information
  • User identification information or the like for identifying whether it is the data of the customer user 11 who received the data or the data of the sales user 12 obtained from the sales user terminal 22 is recorded.
  • heartbeat information and the like of the customer side user 11 are not collected.
  • the heart rate information of the user 11 on the customer side is also collected, and the learning process including sensor detection information is executed.
  • FIG. 40 is a diagram illustrating the configuration and processing of machine learning processing executed by the information processing apparatus 100. As shown in FIG. As shown in FIG. 40 , the information processing apparatus 100 has a user state change reason estimator generation unit (user state change reason estimation learning model generation unit) 184 .
  • user state change reason estimator generation unit user state change reason estimation learning model generation unit
  • a user state change reason estimator generation unit (user state change reason estimation learning model generation unit) 184 stores data in the user state score database 170, data in the user state change reason database 175, and data in the image/audio database 161. is executed to generate a user state change reason estimator (user state change reason estimation learning model) 194 .
  • the user state change reason database 175 also stores the change reasons for each of the above user state scores individually.
  • a user state change reason estimator generation unit (user state change reason estimation learning model generation unit) 184 executes machine learning processing using the following data to generate a user state change reason estimator (user state change reason estimation learning model generation unit). model) 194.
  • the learning processing unit of the information processing device 100 executes, for example, deep learning processing as machine learning processing.
  • deep learning processing for example, a “supervised learning process” is executed using the user state score input by the customer-side user 11 during the meeting period, the user state change reason, and the data stored in the image/audio database 161 as training data.
  • a user state change reason estimator (user state change reason estimation learning model) 194 for estimation is generated.
  • the user state change reason estimation result integration processing unit 143 not only sends the user state change reason to the sales side user terminal 22, but also the meeting result estimation information and user information.
  • a configuration may be adopted in which weighted recommendation information to be applied to state score calculation is output.
  • the meeting result information and the optimal score calculation application weight are also learned during the learning process by the simulated meeting. Through such a learning process, it is possible to obtain meeting result information and optimum score calculation application weights by applying the learning model.
  • the user state change reason estimating unit 108 of the information processing apparatus 100 determines whether the user state output score of the customer side user 11 calculated by the user state output score calculating unit 106 is When there is a large change, a process of estimating the reason for the change is executed.
  • the user state change reason estimating unit 108 uses at least one of a pre-generated learning model and a rule-based model to execute a process of estimating the reason for a user state change.
  • the rule-based model is, for example, as shown in FIG. 21 described above, a model in which rules are recorded in which various utterance texts of the customer-side user 11 and the sales-side user are associated with reasons for user state changes and recorded. be.
  • the information processing apparatus 100 has an interest degree change reason estimation rule generation unit 185 .
  • the interest degree change reason estimation rule generation unit 185 is a machine that uses the stored data of the interest/interest/likeability score database 171, the stored data of the interest/interest/likeability score change reason database 174, and the stored data of the image/audio database 161. A learning process is executed to generate an interest degree change reason estimation rule (rule base model) 195 .
  • the interest level change reason estimation rule generation unit 185 generates an interest level change reason estimation rule (rule base model) 195 using the following data.
  • the interest degree change reason estimation rule generation unit 185 of the information processing apparatus 100 determines the timing when the user state score input by the customer side user 11 during the meeting period is equal to or greater than a specified threshold value, or when the user state score changes to the minimum value, Alternatively, the image and voice of at least one of the customer-side user 11 and the sales-side user 12 at the timing of the maximum value are obtained, and these data and the user state change reason input by the customer-side user 11 at that timing are obtained. Correspond and record.
  • These data acquisition and recording processes may be configured to be automatically executed according to a predetermined program, or may be executed by an operator. By performing these data acquisition and recording processes, the interest degree change reason estimation rule (rule base model) 195 shown in the figure is generated.
  • the user state change reason estimation result integration processing unit 143 not only sends the user state change reason to the sales side user terminal 22, but also meeting result estimation information and user state score calculation.
  • meeting result information and optimum score calculation application weight are also recorded in the rule to be generated. By generating such a rule, it is possible to obtain meeting result information and optimum score calculation application weight from the generation rule.
  • FIG. 42 is a block diagram showing a configuration example of the information processing apparatus 100 that executes the above-described learning model generation processing and rule-based model generation processing.
  • the information processing apparatus that executes the learning model generation process and the rule-based model generation process is the information processing apparatus 100 described above with reference to FIG. , etc., may be the same device as the information processing device 100, or may be a different device.
  • the same information processing apparatus 100 is used as a device that executes learning processing to generate a learning model and a device that executes user state estimation processing using the generated learning model.
  • the information processing apparatus 100 is an apparatus having both the configuration described above with reference to FIG. 6 and the configuration illustrated in FIG. 42 described below.
  • the configuration shown in FIG. 42 is a partial configuration of the information processing apparatus 100, and shows a configuration for executing learning model generation processing and rule-based model generation processing.
  • the information processing apparatus 100 includes a communication unit 201, a storage unit 202, a first learning processing unit (user state estimation learning model generation unit) 203, a second learning processing unit (user state change reason estimation learning model generation unit). section) 204 and a user state change reason estimation rule generating section 205 .
  • the storage unit 202 includes an image/sound database 211, an interest/interest/likeability score database 212, an understanding/satisfaction/satisfaction score database 213, a fatigue/stress score database 214, an interest/interest/likeability score change reason database 215, and an understanding score database 215.
  • It has a consent/satisfaction score change reason database 216 and a fatigue/stress score change reason database 217 .
  • the communication unit 201 executes communication with the customer side user terminal 21 and the sales side user terminal 22 . Input image and audio data from each terminal.
  • the user state score (evaluation value) input by the customer side user is input from the customer side user terminal 21 .
  • the user state change reason input by the customer side user is input from the customer side user terminal 21 .
  • the image/audio database 211 of the storage unit 202 stores image and audio data transmitted from the customer-side user terminal 21 and the sales-side user terminal 22 .
  • the interest/interest/favorable impression score database 212, the understanding/satisfaction/satisfaction score database 213, and the fatigue/stress score database 214 are each input from the customer-side user terminal 21 when the user state estimator (learning model) generation process is executed. Stores the user state score (evaluation value). As described above, these have time stamps added as attribute data.
  • a first learning processing unit (user state estimation learning model generating unit) 203 executes learning processing using data stored in each database of the storage unit 202 to generate a user state estimation learning model. Specifically, the following three types of user state estimation learning models are generated.
  • the first learning processing unit (user state estimation learning model generation unit) 203 performs learning processing using the data to It also executes the process of updating the model sequentially.
  • a second learning processing unit (user state change reason estimation learning model generation unit) 204 executes learning processing using data stored in each database of the storage unit 202 to generate a user state change reason estimation learning model. Specifically, the following three types of user state change reason estimation learning models are generated.
  • the second learning processing unit (user state change reason estimation learning model generation unit) 204 performs a learning process using the data to generate a new learning model. It also executes processing to sequentially update the learning model of
  • the user state change reason estimation rule generation unit 205 executes rule generation processing using data stored in each database of the storage unit 202 to generate user state change reason estimation rules (rule base model). Specifically, the following three types of user state change reason estimation rules (rule-based models) are generated.
  • the user state change reason estimation rule generation unit 205 when new data is stored in the storage unit 202, the user state change reason estimation rule generation unit 205 also performs rule generation processing using these data to generate user state change reason estimation rules ( rule-based model) are updated sequentially.
  • a configuration example of three devices that constitute the information processing system of the present disclosure, that is, the information processing device 100, the customer-side user terminal 21, and the sales-side user terminal 22 will be described with reference to FIG.
  • the information processing apparatus 100 shown in FIG. 43 is an information processing apparatus 100 having both the configuration of the information processing apparatus 100 described with reference to FIG. 6 and the configuration of the information processing apparatus 100 described with reference to FIG. . Since this configuration has been described with reference to FIGS. 6 and 42, the description thereof will be omitted.
  • the customer-side user terminal 21 has an input section 310 , an output section 320 and a communication section 330 .
  • the input unit 310 has a voice input unit (microphone) 311 , an image input unit (camera) 312 and a user input unit (UI) 313 .
  • the output unit 320 has an audio output unit (speaker) 321 and an image output unit (display unit) 322 .
  • a voice input unit (microphone) 311 of the input unit 310 acquires voice data such as the voice of the user on the customer side. The acquired voice data is transmitted to the sales side user terminal 22 and the information processing device 100 via the communication unit 330 .
  • An image input unit (camera) 312 acquires image data such as a face image of a user on the customer side. The acquired image data is transmitted to the sales side user terminal 22 and the information processing device 100 via the communication unit 330 .
  • the user input unit (UI) 313, for example, when executing the user state estimator (learning model) generation process in the information processing apparatus 100, the user state score (evaluation value) by the customer side user 11, the user state change reason, etc. is an input interface for For example, a touch panel type display unit is used.
  • the user state score (evaluation value) input by the customer-side user 11 and the input data of the user state change reason are transmitted to the information processing apparatus 100 and used for learning model generation processing and the like.
  • the sensor detection value input unit 314 acquires detection values of a biological information acquisition sensor such as a heartbeat sensor attached to the user on the customer side. The acquired data is transmitted to the sales user terminal 22 and the information processing device 100 via the communication unit 330 .
  • the sales side user terminal 22 has an input section 410 , an output section 420 and a communication section 430 .
  • the input unit 410 has an audio input unit (microphone) 411 and an image input unit (camera) 412 .
  • the output unit 420 has an audio output unit (speaker) 421 and an image output unit (display unit) 422 .
  • a voice input unit (microphone) 411 of the input unit 410 acquires voice data such as the voice of the user on the sales side. The acquired voice data is transmitted to the customer-side user terminal 21 and the information processing device 100 via the communication unit 430 .
  • An image input unit (camera) 412 acquires image data such as a face image of a sales user. The obtained image data is transmitted to the customer-side user terminal 21 and the information processing device 100 via the communication unit 430 .
  • a user input unit (UI) 413 is an input interface for setting or changing a weighting parameter to be applied when calculating a user state score in the information processing apparatus 100, for example. For example, a touch panel type display unit is used.
  • FIG. 44 is a diagram showing an example of the hardware configuration of the information processing apparatus 100 of the present disclosure, and the customer-side user terminal 21 and the sales-side user terminal 22 that are user terminals. The hardware configuration shown in FIG. 44 will be described below.
  • a CPU (Central Processing Unit) 501 functions as a control section and a data processing section that execute various processes according to programs stored in a ROM (Read Only Memory) 502 or a storage section 508 . For example, the process according to the sequence described in the above embodiment is executed.
  • a RAM (Random Access Memory) 503 stores programs and data executed by the CPU 501 .
  • These CPU 501 , ROM 502 and RAM 503 are interconnected by a bus 504 .
  • the CPU 501 is connected to an input/output interface 505 via a bus 504.
  • the input/output interface 505 is connected to an input unit 506 including various switches, a keyboard, a mouse, a microphone, sensors, etc., and an output unit 507 including a display, speakers, etc. It is
  • the CPU 501 executes various types of processing in response to commands input from the input unit 506 and outputs processing results to the output unit 507, for example.
  • a storage unit 508 connected to the input/output interface 505 consists of, for example, a hard disk, and stores programs executed by the CPU 501 and various data.
  • a communication unit 509 functions as a transmitting/receiving unit for Wi-Fi communication, Bluetooth (registered trademark) (BT) communication, and other data communication via networks such as the Internet and local area networks, and communicates with external devices.
  • a drive 510 connected to the input/output interface 505 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card to record or read data.
  • a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card to record or read data.
  • the technique disclosed in this specification can take the following configurations.
  • a user state estimation unit that estimates a user state score indicating a user state based on at least one of image data and voice data of the user;
  • a user state output score calculating unit that calculates a user state output score to be output to a user terminal based on the user state score estimated by the user state estimating unit;
  • An information processing device capable of displaying on the user terminal a graph showing a temporal change in the user state output score calculated by the user state output score calculation unit.
  • the user state estimation unit Estimate a user state score of at least one of an interest score indicating the interest level of the user, a comprehension score indicating the understanding level of the user, or a fatigue score indicating the fatigue level of the user (1 ) to (3), the information processing apparatus according to any one of the above.
  • the user state output score calculation unit calculation processing of an interest level output score to be output to the user terminal based on the interest level score estimated by the user state estimation unit; or Calculation processing of an intelligibility output score to be output to the user terminal based on the intelligibility score estimated by the user state estimation unit, or The information according to (4), wherein, based on the fatigue level score estimated by the user state estimation unit, at least one of the fatigue level output score calculation process to be output to the user terminal is executed. processing equipment.
  • the user state estimation unit a voice-based user state estimator that estimates a user state score based on the user's voice; an image-based user state estimator that estimates a user state score based on the image of the user;
  • the information processing apparatus according to any one of (1) to (5), comprising a vocabulary-based user state estimation unit that estimates a user state score based on the user's utterance content.
  • the user state output score calculation unit (a) a user state score estimated by the speech-based user state estimator; (b) a user state score estimated by the image-based user state estimator; (c) the user state score estimated by the vocabulary-based user state estimation unit; (6) calculating a user state output score to be output to the user terminal by performing weighted addition processing in which each of the user state scores (a) to (c) is multiplied by a unique weight parameter and added;
  • the information processing device according to .
  • the user state output score calculation unit The information processing apparatus according to (7), wherein the user state output score is calculated by appropriately changing a weight parameter applied to the weighted addition process.
  • the user state output score calculation unit The information processing according to (7) or (8), wherein a user state output score to be output to the user terminal is calculated by performing weighted addition processing using a weight parameter set by the user of the user terminal on which the graph is displayed. Device.
  • the user terminal has (a) a user state score estimated by the speech-based user state estimator; (b) a user state score estimated by the image-based user state estimator; (c) a user state score estimated by the vocabulary-based user state estimation unit; A weight adjustment UI is displayed that allows individual adjustment of weight parameters corresponding to each of the user state scores, The user state output score calculation unit The information processing according to (9), wherein a user state output score to be output to the user terminal is calculated by weighted addition processing using a weight parameter set by the user on the user terminal side using the weight adjustment UI. Device.
  • the user state estimation unit The information processing apparatus according to any one of (1) to (10), which uses a learning model generated in advance to estimate a user state score indicating a user state.
  • the user state estimation unit The information processing apparatus according to any one of (1) to (12), wherein the user state score is estimated using a detection value of the user's biosensor.
  • the information processing device further includes: a user state change reason estimating unit that estimates a change reason of the user state of the user;
  • a user state change reason estimating unit that estimates a change reason of the user state of the user.
  • the user state change reason estimation unit when the amount of change in the score calculated by the user state output score calculation unit is equal to or greater than a predetermined threshold, or The information processing apparatus according to (14), wherein when the score calculated by the user state output score calculation unit becomes equal to a predetermined value, the process of estimating the user state change reason is executed.
  • the user state change reason estimator The information processing apparatus according to (14) or (15), which uses at least one of a pre-generated learning model and a pre-generated rule to estimate a user state change reason.
  • the user state change reason estimation unit further It is possible to generate at least one of the estimated result information of the meeting in which the user participates and the weight parameter recommendation information applied to user condition score calculation, and display the generated information on the user terminal (14 ) to (16), the information processing apparatus according to any one of the above.
  • the user state estimation unit a user state estimation step of estimating a user state score indicating the user state based on at least one of image data and voice data of the user;
  • the user state output score calculation unit executing a user state output score calculation step of calculating a user state output score to be output to a user terminal based on the user state score estimated in the user state estimation step;
  • An information processing method capable of displaying, on the user terminal, a graph showing temporal changes in the user state output score calculated by the user state output score calculation unit.
  • a program for executing information processing in an information processing device In the user state estimation unit, a user state estimation step for estimating a user state score indicating the user state based on at least one of image data and voice data of the user; In the user state output score calculation unit, executing a user state output score calculating step for calculating a user state output score to be output to a user terminal based on the user state score estimated in the user state estimating step; A program capable of displaying, on the user terminal, a graph showing temporal changes in the user state output score calculated by the user state output score calculation unit.
  • the series of processes described in the specification can be executed by hardware, software, or a composite configuration of both.
  • a program recording the processing sequence is installed in the memory of a computer built into dedicated hardware and executed, or the program is loaded into a general-purpose computer capable of executing various types of processing. It can be installed and run.
  • the program can be pre-recorded on a recording medium.
  • the program can be received via a network such as a LAN (Local Area Network) or the Internet and installed in a recording medium such as an internal hard disk.
  • a system is a logical collective configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same housing.
  • the time change graph of the score indicating the user state of the meeting participant user and the reason for the user state change are estimated and displayed on the terminals of the other meeting participant users.
  • a configuration is realized. Specifically, for example, based on at least one of image data and voice data of a user who participates in a meeting via a communication network, the user's level of interest, level of understanding, or level of fatigue can be determined. Based on the estimated user state score, the user state output score to be output to the user terminals of the users participating in the meeting is calculated. The reason for the state change is displayed on the user terminals of other meeting participants.
  • a configuration is realized in which the time change graph of the score indicating the user state of the meeting participant user and the reason for the user state change are estimated and displayed on the terminals of the other meeting participant users.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Resources & Organizations (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

ミーティング参加ユーザのユーザ状態を示すスコアの時間変化グラフやユーザ状態変化理由を推定して他のミーティング参加ユーザの端末に表示する。通信ネットワークを介したミーティングに参加するユーザの画像データ、または音声データの少なくともいずれかのデータに基づいて、ユーザの興味度、理解度、疲労度いずれかのユーザ状態を示すユーザ状態スコアを推定し、推定したユーザ状態スコアに基づいて、ミーティングに参加するユーザのユーザ端末に出力するユーザ状態出力スコアを算出し、算出したユーザ状態出力スコアの時間変化を示すグラフやユーザ状態変化理由を他のミーティング参加ユーザのユーザ端末に表示する。

Description

情報処理装置、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、および情報処理方法、並びにプログラムに関する。さらに詳細には、リモート商談等、通信ネットワークを介したリモートミーティングの参加ユーザの感情などを画像や音声等に基づいて推定するユーザ状態推定処理や、ユーザ状態の変化理由を推定するユーザ状態変化理由推定処理などを実行する情報処理装置、および情報処理方法、並びにプログラムに関する。
 昨今、ネットワークを介した画像、音声通信を利用したオンライン会議、オンライン商談等、通信端末を利用したリモート型の対話やミーティングが盛んに行われるようになってきた。
 例えばネットワークを介したオンライン商談では、商品販売を行おうとするセールス側ユーザの通信端末と、お客様であるカスタマ側の通信端末とをインターネット等の通信ネットワークで接続し、各端末間で画像や音声を送受信して商談を行う。
 しかし、このような通信端末を利用したリモートミーティングでは、対面形式のミーティングと異なり、相手側の感情や状態を把握しづらいという問題がある。
 セールス側ユーザは、画面を介してお客様(カスタマ)の様子を観察できるが、画面から得られる情報は実際に対面した場合に得られる情報に比較して限られたものになる。例えば微妙な表情の変化などが分かりにくい。
 具体的には、例えば、お客様がセールス側ユーザの説明を理解しているのか理解していないのか、また説明に興味を持っているのか否か、このようなお客様の感情や状態を正確に把握することが困難となる。
 なお、人の感情の推定処理を開示した従来技術として、例えば特許文献1(国際公開WO2019/082687号公報)がある。
 この特許文献1は、人の脳波を解析して解析結果に基づくスコア算出により人の感情を推定する構成を開示している。
 しかし、一般的なリモート会議において参加ユーザの脳波を計測することは困難であり、汎用性がない。
国際公開WO2019/082687号公報
 本開示は、例えば、上記問題点に鑑みてなされたものであり、通信ネットワークを介したリモートミーティングの参加ユーザの感情などの状態を画像や音声等に基づいて推定するユーザ状態推定処理や、ユーザ状態の変化理由を推定するユーザ状態変化理由推定処理などを実行する情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。
 本開示の第1の側面は、
 ユーザの画像データ、または音声データの少なくともいずれかのデータに基づいてユーザ状態を示すユーザ状態スコアを推定するユーザ状態推定部と、
 前記ユーザ状態推定部が推定したユーザ状態スコアに基づいてユーザ端末に出力するユーザ状態出力スコアを算出するユーザ状態出力スコア算出部を有し、
 前記ユーザ状態出力スコア算出部が算出したユーザ状態出力スコアの時間変化を示すグラフを前記ユーザ端末に表示させることを可能とした情報処理装置にある。
 さらに、本開示の第2の側面は、
 情報処理装置において実行する情報処理方法であり、
 ユーザ状態推定部が、
 ユーザの画像データ、または音声データの少なくともいずれかのデータに基づいてユーザ状態を示すユーザ状態スコアを推定するユーザ状態推定ステップと、
 ユーザ状態出力スコア算出部が、
 前記ユーザ状態推定ステップにおいて推定したユーザ状態スコアに基づいてユーザ端末に出力するユーザ状態出力スコアを算出するユーザ状態出力スコア算出ステップを実行し、
 前記ユーザ状態出力スコア算出部が算出したユーザ状態出力スコアの時間変化を示すグラフを前記ユーザ端末に表示させることを可能とした情報処理方法にある。
 さらに、本開示の第3の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 ユーザ状態推定部に、
 ユーザの画像データ、または音声データの少なくともいずれかのデータに基づいてユーザ状態を示すユーザ状態スコアを推定させるユーザ状態推定ステップと、
 ユーザ状態出力スコア算出部に、
 前記ユーザ状態推定ステップにおいて推定したユーザ状態スコアに基づいてユーザ端末に出力するユーザ状態出力スコアを算出させるユーザ状態出力スコア算出ステップを実行させ、
 前記ユーザ状態出力スコア算出部が算出したユーザ状態出力スコアの時間変化を示すグラフを前記ユーザ端末に表示させることを可能としたプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、ミーティング参加ユーザのユーザ状態を示すスコアの時間変化グラフやユーザ状態変化理由を推定して他のミーティング参加ユーザの端末に表示する構成が実現される。
 具体的には、例えば、通信ネットワークを介したミーティングに参加するユーザの画像データ、または音声データの少なくともいずれかのデータに基づいて、ユーザの興味度、理解度、疲労度いずれかのユーザ状態を示すユーザ状態スコアを推定し、推定したユーザ状態スコアに基づいて、ミーティングに参加するユーザのユーザ端末に出力するユーザ状態出力スコアを算出し、算出したユーザ状態出力スコアの時間変化を示すグラフやユーザ状態変化理由を他のミーティング参加ユーザのユーザ端末に表示する。
 本構成により、ミーティング参加ユーザのユーザ状態を示すスコアの時間変化グラフやユーザ状態変化理由を推定して他のミーティング参加ユーザの端末に表示する構成が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
本開示の情報処理システムの構成と実行する処理の概要について説明する図である。 本開示の情報処理システムの構成と実行する処理の概要について説明する図である。 ユーザ端末に表示されるデータの一例について説明する図である。 ユーザ端末に表示されるデータの一例について説明する図である。 本開示の情報処理システムの構成と実行する処理の概要について説明する図である。 本開示の情報処理装置の構成例について説明する図である。 本開示の情報処理装置のユーザ状態推定部の構成と処理について説明する図である。 本開示の情報処理装置のユーザ状態推定部の構成と処理について説明する図である。 本開示の情報処理装置が実行する処理の一例について説明する図である。 ユーザ状態スコアの設定例について説明する図である。 本開示の情報処理装置が実行する処理の一例について説明する図である。 本開示の情報処理装置が実行する処理の一例について説明する図である。 本開示の情報処理装置が実行する処理の一例について説明する図である。 ユーザ状態スコアの算出処理例について説明する図である。 ユーザ端末に表示されるデータの一例について説明する図である。 ユーザ端末に表示されるUIについて説明する図である。 ユーザ端末に表示されるUIについて説明する図である。 ユーザ端末に表示されるデータの一例について説明する図である。 本開示の情報処理装置のユーザ状態変化理由推定部の構成と処理の一例について説明する図である。 本開示の情報処理装置のユーザ状態変化理由推定部の構成と処理の一例について説明する図である。 ルールベースモデルの一例について説明する図である。 本開示の情報処理装置のユーザ状態変化理由推定部の処理の一例について説明する図である。 ユーザ端末に表示されるデータの一例について説明する図である。 ユーザ端末に表示されるデータの一例について説明する図である。 ユーザ端末に表示されるデータの一例について説明する図である。 ユーザ状態推定学習モデル生成処理の概要について説明する図である。 ミーティング中に自己の感情等のユーザ状態を示すユーザ状態スコア(評価値)を入力する処理例について説明する図である。 情報処理装置における機械学習処理に利用するデータ(ミーティングログ:Meeting log)の一部を示すデータ例について説明する図である。 情報処理装置がカスタマ側ユーザ端末から取得するユーザ状態のスコア(評価値)に基づいて生成可能な時系列データの一例について説明する図である。 情報処理装置が実行する機械学習処理に利用するデータの収集構成例について説明する図である。 カスタマ側ユーザ端末のみから、画像、音声、各ユーザ状態スコアを取得して、これらを学習処理に適用する構成例について説明する図である。 情報処理装置が実行する機械学習処理の構成と処理について説明する図である。 興味度推定学習モデルを生成する学習処理の一例について説明する図である。 興味度推定学習モデルを生成する学習処理の一例について説明する図である。 興味度推定学習モデルを生成する学習処理の一例について説明する図である。 興味度推定学習モデルを用いてカスタマ側ユーザの興味・関心・好感スコアの推定値を出力する処理例について説明する図である。 ユーザ状態変化理由推定学習モデル生成処理の概要について説明する図である。 ユーザ状態変化理由の具体例について説明する図である。 ユーザ状態変化理由推定学習モデル生成処理を行う構成について説明する図である。 ユーザ状態変化理由推定学習モデル生成処理を行う構成について説明する図である。 ユーザ状態変化理由推定ルール生成処理を行う構成について説明する図である。 情報処理装置の構成例について説明する図である。 情報処理装置、およびユーザ端末の構成例について説明する図である。 情報処理装置、ユーザ端末のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.本開示の情報処理システムの構成と実行する処理の概要について
 2.情報処理装置の構成と実行する処理の概要について
 3.情報処理装置の実行する処理の詳細について
 3-1.ユーザ状態推定部が実行する処理の詳細について
 3-2.ユーザ状態出力スコア算出部が実行する処理の詳細について
 3-3.スコア算出アルゴリズム制御部の処理の詳細と、セールス側ユーザ端末上の表示UIについて
 3-4.ユーザ状態変化理由推定部が実行する処理の詳細について
 4.その他の実施例について
 5.ユーザ状態推定部において利用する学習モデルの生成処理について
 6.ユーザ状態変化理由推定部において利用する学習モデルとルールベースモデルの生成処理について
 7.情報処理装置、およびユーザ端末の構成例について
 8.情報処理装置、およびユーザ端末のハードウェア構成例について
 9.本開示の構成のまとめ
  [1.本開示の情報処理システムの構成と実行する処理の概要について]
 まず、図1以下を参照して本開示の情報処理システムの構成と実行する処理の概要について説明する。
 図1は、通信ネットワークを介したリモートミーティングの例を示す図である。
 図1には、商品購入希望者であるお客様であるカスタマ側ユーザ11と、商品提供者としてのセールス側ユーザ12を示している。
 スマホ等のカスタマ側ユーザ端末21と、PC等のセールス側ユーザ端末22は通信ネットワークを介して接続され、これらの通信端末間で音声、画像を相互に送受信して会話を行って商談が進められる。
 図1に示す例は、お客様であるカスタマ側ユーザ11はマンションの購入希望者であり、セールス側ユーザ12はマンションの販売業者である。
 セールス側ユーザ12はカスタマ側ユーザ11の希望を聞きながら、カスタマ側ユーザ11の希望に沿ったマンションを選定するなどして説明を行う。
 このような通信端末を利用した商談等のリモートミーティングでは、対面形式のミーティングと異なり、相手側の感情や理解度などのユーザ状態を把握しづらい。
 セールス側ユーザ12は、画面を介してカスタマ側ユーザ11の様子を観察できるが、画像から得られる情報は実際に対面した場合に得られる情報に比較して少なくなる。
 セールス側ユーザ12は、カスタマ側ユーザ11がセールス側ユーザ12の説明を理解しているのか否か、また説明に興味を持っているか否か、怒っていないか等、カスタマ側ユーザ11の状態や感情を正確に把握することが困難となる。
 本開示の情報処理装置は、この問題を解決するためのユーザ状態推定器(学習モデル)を生成し、生成したユーザ状態推定器(学習モデル)を利用して、ユーザの感情や理解度などのユーザ状態を推定する。
 図1に示す例では、クラウド側装置である情報処理装置100がユーザ状態推定器(学習モデル)の生成処理を行い、生成したユーザ状態推定器(学習モデル)を利用して、ユーザ状態を推定する。
 図2を参照してユーザ状態推定器(学習モデル)の利用例について説明する。
 図2にも図1と同様、商品購入希望者であるお客様であるカスタマ側ユーザ11と、商品提供者としてのセールス側ユーザ12を示している。
 スマホ等のカスタマ側ユーザ端末21と、PC等のセールス側ユーザ端末22は通信ネットワークを介して接続され、これらの通信端末間で音声、画像を相互に送受信して会話を行って商談等のミーティングが進められる。
 図2に示す構成において、情報処理装置100は、カスタマ側ユーザ11とセールス側ユーザ21間のミーティング期間中、例えば、以下の各データを通信ネットワークを介して入力する。
 (A)カスタマ側ユーザ端末21から、カスタマ側ユーザ11の画像と音声、
 (B)セールス側ユーザ端末22から、セールス側ユーザ12の画像と音声、
 情報処理装置100は、これらのデータ(A),(B)をユーザ状態推定器(学習モデル)に入力する。
 ユーザ状態推定器(学習モデル)は、入力した画像、音声データに基づいて、ユーザ状態を推定する。
 すなわち、通信ネットワークを介したミーティングに参加するユーザの画像データ、または音声データの少なくともいずれかのデータに基づいてユーザ状態を推定する。
 ユーザ状態推定器(学習モデル)が推定するユーザ状態は、カスタマ側ユーザ11の3つのユーザ状態、すなわち、
 (ユーザ状態1)興味、関心、好感
 (ユーザ状態2)理解、納得、満足
 (ユーザ状態3)疲労、ストレス
 これらのユーザ状態の推定スコアである。
 なお、
 (ユーザ状態1)興味、関心、好感のスコアを興味度スコア、
 (ユーザ状態2)理解、納得、満足のスコアを理解度スコア、
 (ユーザ状態3)疲労、ストレスのスコアを疲労度スコア、
 と呼ぶ。
 情報処理装置100は、ユーザ状態推定器(学習モデル)が推定したカスタマ側ユーザ11のユーザ状態の推定スコア(評価値)の時系列データ(折れ線グラフ)をセールス側ユーザ端末22に送信して表示する。
 図3に、セールス側ユーザ端末22の表示データ例を示す。
 セールス側ユーザ端末22の表示部に表示されるグラフは、横軸にミーティング開始からの経過時間、縦軸に上記のユーザ状態1~3の推定スコア(評価値)の値(1~5)を示したグラフである。
 (●)のグラフ(折れ線)は、「(ユーザ状態1)興味、関心、好感」の推定スコア(興味度スコア)の時間経過に伴う変化を示すグラフである。
 (▲)のグラフ(折れ線)は、「(ユーザ状態2)理解、納得、満足」の推定スコア(理解度スコア)の時間経過に伴う変化を示すグラフである。
 (■)のグラフ(折れ線)は、「(ユーザ状態3)疲労、ストレス」の推定スコア(疲労度スコア)の時間経過に伴う変化を示すグラフである。
 なお、(ユーザ状態1)興味、関心、好感は、カスタマ側ユーザ11が、セールス側ユーザ12の説明や会話に興味、関心、好感を持っているか否かのユーザ状態である。
 現在、行われている商談等のミーティングに対するカスタマ側ユーザ11の「興味、関心、好感」のレベルが高い(興味が高い)と推定されるほど高いスコア値(評価値)、すなわち5に近くなる。一方、カスタマ側ユーザ11の「興味、関心、好感」のレベルが低い(興味が低い)と推定されるほど低いスコア値(評価値)、すなわち1に近くなる。
 (ユーザ状態2)理解、納得、満足は、カスタマ側ユーザ11が、セールス側ユーザ12の説明について理解、納得、満足したか否かのユーザ状態である。
 現在、行われている商談等のミーティングに対するカスタマ側ユーザ11の「理解、納得、満足」のレベルが高い(理解している)と推定されるほど高いスコア値(評価値)、すなわち5に近くなる。一方、カスタマ側ユーザ11の「理解、納得、満足」のレベルが低い(理解していない)と推定されるほど低いスコア値(評価値)、すなわち1に近くなる。
 (ユーザ状態3)疲労、ストレスは、カスタマ側ユーザ11が、セールス側ユーザ12の説明や会話に対して、疲労、ストレスを感じたか否かのユーザ状態である。
 現在、行われている商談等のミーティングに対するカスタマ側ユーザ11の「疲労、ストレス」のレベルが高い(疲れている)と推定されるほど高いスコア値(評価値)、すなわち5に近くなる。一方、カスタマ側ユーザ11の「疲労、ストレス」のレベルが低い(疲れていない)と推定されるほど低いスコア値(評価値)、すなわち1に近くなる。
 セールス側ユーザ12は、セールス側ユーザ端末22上に表示されたグラフを見ることで、カスタマ側の状態の推移を容易に把握することが可能となり、把握結果に応じて、説明の仕方や内容を変更するなど、最適な対応を行うことが可能となる。
 さらに、情報処理装置100は、上記のユーザ状態1~3の推定スコア(評価値)(1~5)に加え、ユーザ状態1~3の推定スコア(評価値)の変化が発生した場合、そのユーザ状態が変化した理由を推定し、推定した理由セールス側ユーザ端末21に送信して表示する。具体例を図4に示す。
 図4には、図3を参照して説明したユーザ状態の時間推移データとともに、ユーザ状態がどのように変化したかを示すユーザ状態変化態様説明データ23と、情報処理装置100が推定したユーザ状態が変化した理由であるユーザ状態変化理由説明データ24を表示した例を示している。
 ユーザ状態変化理由説明データ24は、情報処理装置100が、例えば予め生成した学習モデルを利用して推定した理由である。
 セールス側ユーザ12は、セールス側ユーザ端末22上に表示されたグラフに併せて、ユーザ状態変化態様説明データ23や、ユーザ状態変化理由説明データ24を確認することで、カスタマ側の状態の変化を的確に把握することが可能となり、把握結果に応じて、説明の仕方や内容を変更するなど、最適な対応を行うことが可能となる。
 なお、図1~図2はユーザ状態推定器(学習モデル)を利用したユーザ状態推定処理の実行装置をクラウド上の情報処理装置100とした例である。
 しかし、この処理はクラウド上の装置に限らず、例えばセールス側ユーザ端末22を利用して実行する構成としてもよい。
 すなわち、図5に示すように、セールス側ユーザ端末22において、ユーザ状態推定器(学習モデル)を利用したユーザ状態推定処理を実行する。すなわち図1~図4を参照して説明した情報処理装置100の処理をセールス側ユーザ端末22で実行する構成としてもよい。
 なお、以下では、代表例としてクラウド上の情報処理装置100においてユーザ状態推定器(学習モデル)を利用したユーザ状態推定処理を実行する実施例について説明する。
  [2.情報処理装置の構成と実行する処理の概要について]
 次に、情報処理装置の構成と実行する処理の概要について説明する。
 図2を参照して説明したように、クラウド上の情報処理装置100は、ユーザ状態推定器(学習モデル)を利用したユーザ状態推定処理を実行する。
 具体的には、情報処理装置100は、ネットワークを介したミーティングを実行しているカスタマ側ユーザ11のユーザ状態を解析し、解析結果をセールス側ユーザ端末22に送信して表示させる。例えば、図3、図4に示すようなカスタマ側ユーザ11のユーザ状態情報の表示が行われる。
 図6は、情報処理装置100の構成例を示す図である。
 図6に示すように、情報処理装置100は、通信部101、ユーザ状態推定部102、顧客情報取得部103、ミーティング情報取得部104、ミーティング実行環境情報取得部105、ユーザ状態出力スコア算出部106、スコア算出アルゴリズム制御部107、ユーザ状態変化理由推定部108、顧客情報データベース111、ミーティング(MTG)情報データベース112を有する。
 通信部101は、カスタマ側ユーザ端末21と、セールス側ユーザ端末22等、外部装置との通信処理を行う。
 例えば、ミーティング実行中のカスタマ側ユーザ端末21とセールス側ユーザ端末22から各ユーザの画像や音声データを入力する。さらに、これらの入力データに基づいて解析したカスタマ側ユーザのユーザ状態の解析結果をセールス側ユーザ端末22に送信する処理等を実行する。
 ユーザ状態推定部102は、通信部101を介して入力するミーティング実行中のカスタマ側ユーザ端末21とセールス側ユーザ端末22から各ユーザの画像や音声データ等に基づいて、カスタマ側ユーザのユーザ状態を推定する。具体的には、例えば以下の各状態の推定処理を行う。
 (ユーザ状態1)興味、関心、好感
 (ユーザ状態2)理解、納得、満足
 (ユーザ状態3)疲労、ストレス
 ユーザ状態推定部102は、例えば予め生成した学習モデルを利用してカスタマ側ユーザのユーザ状態を推定する。この処理の詳細については後述する。
 顧客情報取得部103、ミーティング情報取得部104、ミーティング実行環境情報取得部105は、それぞれ、カスタマ側ユーザ端末21やセールス側ユーザ端末22から顧客情報、ミーティング情報、ミーティング実行環境情報を入力する。
 顧客情報は、ミーティングを実行するカスタマ側ユーザ11のユーザ情報であり、例えばミーティング開始前にカスタマ側ユーザ11によってカスタマ側ユーザ端末21に入力した情報である。この顧客情報は、顧客情報データベース111に記録される。具体的には、年齢、性別、性格、体調など、ミーティング内容に応じたユーザ情報が記録される。
 なお、顧客情報データベース111には、さらに各顧客について、表情変化度合、声のトーン変化度合、使用語彙、ストレス検知度等の情報についても記録され、各顧客はこれらの顧客特性に応じてグルーピングされてデータベースに登録される。
 ミーティング情報は、例えばミーティング開始前にカスタマ側ユーザ11やセールス側ユーザ12によって各ユーザ端末に入力される情報である。例えば、以下のような情報である。
 (ミーティング情報a)ミーティング(MTG)ジャンル
 (ミーティング情報b)ミーティング(MTG)規模
 (ミーティング情報c)疲れ(カスタマ)
 (ミーティング情報d)忙しさ(カスタマ)
 「(ミーティング情報a)ミーティング(MTG)ジャンル」は、ミーティングのジャンル、例えば「商談」、「外部との会議」、「社内会議」、「説明会」、「面談」、「授業」などの情報である。
 (ミーティング情報b)ミーティング(MTG)規模は、ミーティングの規模を入力する。例えば、例えば参加者が10人以上であれば「大」、5~9人であれば「中」、4人以下であれば「小」などのミーティング規模情報である。
 なお、ミーティング情報の設定は、大中小の3分類の他、大小の2分類としてもよい、これらは予め規定したミーティング情報設定ルールに従って行うことが好ましい。
 (ミーティング情報c)疲れ(カスタマ)、(ミーティング情報d)忙しさ(カスタマ)は、ミーティング開始時点のカスタマ側ユーザ11の疲れレベルや、忙しさレベルである。
 これらミーティング情報c,dについても大中小の3分類の他、大小の2分類としてもよい、これらは予め規定したミーティング情報設定ルールに従って行うことが好ましい。
 なお、例えば、ミーティング情報a~bは、セールス側ユーザ12が入力し、ミーティング情報c~dはお客様役のカスタマ側ユーザ11が入力する。
 カスタマ側ユーザ11の状態をセールス側ユーザ12が聞いて、セールス側ユーザ12がすべてのミーティング情報a~dを入力してもよい。
 なお、上記のミーティング情報a~dは一例にすぎず、これら全ての情報が必須となるものではない。いずれかの情報のみを利用する構成としてもよく、上記した情報以外のミーティング情報を入力する構成としてもよい。
 なおミーティング情報は、ミーティング情報データベース112に記録される。
 ミーティング実行環境情報取得部105が取得するミーティング実行環境情報は、ミーティングが実行されている環境、例えば天気、温度、騒音などのミーティング実行環境情報である。
 この情報は、ミーティング実行中にカスタマ側ユーザ21、セールス側ユーザ22に備えられたマイクやセンサーによって取得される情報である。
 なお、顧客情報取得部103、ミーティング情報取得部104、ミーティング実行環境情報取得部105、これらの各情報取得部の取得情報は、ユーザ状態出力スコア算出部106に入力され、ユーザ状態出力スコア算出処理に利用される。例えば重みづけパラメータの算出処理に利用される。
 この処理の詳細については後述する。
 ユーザ状態出力スコア算出部106は、先に図3を参照して説明したセールス側ユーザ端末22に出力するカスタマ側ユーザ11のユーザ状態を示すグラフの出力値であるユーザ状態スコア(評価値)を算出する。
 ユーザ状態出力スコア算出部106は、ユーザ状態推定部102が推定したカスタマ側ユーザ11のユーザ状態、すなわち、
 (ユーザ状態1)興味、関心、好感
 (ユーザ状態2)理解、納得、満足
 (ユーザ状態3)疲労、ストレス
 これらのユーザ状態に基づいて、セールス側ユーザ端末22に出力する最終的なスコア(興味度スコア、理解度スコア、疲労度スコア)を算出する。
 なお、ユーザ状態出力スコア算出部106は、スコア算出アルゴリズム制御部107において決定されたアルゴリズムに従ってスコア算出を実行する。また、前述したように、顧客情報取得部103、ミーティング情報取得部104、ミーティング実行環境情報取得部105が取得した情報を利用したスコア算出を行う。
 これらの処理の詳細については後述する。
 スコア算出アルゴリズム制御部107は、ユーザ状態出力スコア算出部106におけるユーザ状態スコアの算出処理のアルゴリズムを制御する。
 スコア算出アルゴリズム制御部107は、通信部101を介してセールス側ユーザ端末22から、セールス側ユーザ12が入力した制御情報を入力し、この情報に基づいてアルゴリズムを決定、変更する処理などを行う。
 この処理の詳細についても後述する。
 ユーザ状態変化理由推定部108は、例えばユーザ状態出力スコア算出部106が算出したカスタマ側ユーザ11のユーザ状態出力スコアの値が大きく変化した場合に、その変化理由を推定する処理を実行する。
 例えば、先に図4を参照して説明したセールス側ユーザ端末22に出力するユーザ状態変化理由説明データ24の生成処理を行う。
 ユーザ状態変化理由推定部108は、予め生成した学習モデル、あるいはルールベースモデルの少なくともいずれかを利用してユーザ状態が変化した理由の推定処理を実行する。
 ユーザ状態変化理由推定部108が推定したユーザ状態変化理由は、図4を参照して説明したようにセールス側ユーザ端末22に出力、表示される。
 このユーザ状態変化理由推定部108の実行する処理についても後段で詳細に説明する。
  [3.情報処理装置の実行する処理の詳細について]
 次に、情報処理装置の実行する処理の詳細について説明する。
 以下では、図6に示す情報処理装置100のユーザ状態推定部102、ユーザ状態出力スコア算出部106、スコア算出アルゴリズム制御部107、ユーザ状態変化理由推定部108、これらの各構成部が実行する処理の詳細について、以下の項目順に順次、説明する。
 3-1.ユーザ状態推定部が実行する処理の詳細について
 3-2.ユーザ状態出力スコア算出部が実行する処理の詳細について
 3-3.スコア算出アルゴリズム制御部の処理の詳細と、セールス側ユーザ端末上の表示UIについて
 3-4.ユーザ状態変化理由推定部が実行する処理の詳細について
  (3-1.ユーザ状態推定部が実行する処理の詳細について)
 まず、情報処理装置100のユーザ状態推定部102が実行する処理の詳細について説明する。
 図7は、報処理装置100のユーザ状態推定部102の一構成例を示す図である。
 図7に示すように、ユーザ状態推定部102は、音声ベースユーザ状態推定部121、画像ベースユーザ状態推定部122、語彙ベースユーザ状態推定部123を有する。
 音声ベースユーザ状態推定部121は、カスタマ側ユーザ端末21のマイクが取得するカスタマ側ユーザ11の声を含む音声情報、セールス側ユーザ端末22のマイクが取得するセールス側ユーザ12の声を含む音声情報、少なくともいずれかの音声情報を入力して、入力した音声情報に基づいて、カスタマ側ユーザ11のユーザ状態を推定する。
 画像ベースユーザ状態推定部122は、カスタマ側ユーザ端末21のカメラが取得するカスタマ側ユーザ11の表情を示す顔画像を含む画像情報、セールス側ユーザ端末22のカメラが取得するセールス側ユーザ12の表情を示す顔画像を含む画像情報、少なくともいずれかの画像情報を入力して、入力した画像情報に基づいて、カスタマ側ユーザ11のユーザ状態を推定する。
 語彙ベースユーザ状態推定部123は、カスタマ側ユーザ端末21のマイクが取得するカスタマ側ユーザ11の発話を含む音声情報、セールス側ユーザ端末22のマイクが取得するセールス側ユーザ12の発話を含む音声情報、少なくともいずれかの音声情報を入力して、入力した音声情報から取得される発話内容に基づいて、カスタマ側ユーザ11のユーザ状態を推定する。
 語彙ベースユーザ状態推定部123内には、音声データをテキスト変換する音声解析部が設けられており、テキスト変換後のカスタマ側ユーザ11の発話内容や、セールス側ユーザ12の発話内容に基づいてカスタマ側ユーザ11のユーザ状態を推定する。
 語彙ベースユーザ状態推定部123内の音声解析部は、例えばASR(Automatic Speech Recognition)機能を利用した音声解析部である。
 なお、音声ベースユーザ状態推定部121と、画像ベースユーザ状態推定部122と、語彙ベースユーザ状態推定部123は、いずれも、カスタマ側ユーザ11の以下のユーザ状態、すなわち、
 (ユーザ状態1)興味、関心、好感
 (ユーザ状態2)理解、納得、満足
 (ユーザ状態3)疲労、ストレス
 これらのユーザ状態を推定する。
 また、音声ベースユーザ状態推定部121と、画像ベースユーザ状態推定部122と、語彙ベースユーザ状態推定部123は、いずれも例えば予め実行した機械学習処理によって生成した学習モデルを利用してユーザ状態推定処理を行う。
 具体的には、例えば多層型のニューラルネットワークであるディープニューラルネットワーク(DNN:Deap Neural Network)や、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)、あるいは再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)などのアルゴリズムを適用した機械学習を実行して生成した学習モデルを利用してユーザ状態推定処理を行う。
 なお、ユーザ状態推定部102は、音声ベースユーザ状態推定部121、画像ベースユーザ状態推定部122、語彙ベースユーザ状態推定部122に限らず、画像、音声、語彙以外の情報を利用したユーザ状態推定処理部を有する構成としてもよい。
 例えば図8に示す心拍ベースユーザ状態推定部124が利用可能である。
 図8に示す心拍ベースユーザ状態推定部124は、カスタマ側ユーザ11が装着した心拍センサー(心拍計)の検出情報をカスタマ側ユーザ端末21経由で情報処理装置100が受信し、受信した心拍情報を用いて心拍ベースのユーザ状態推定処理を実行する。
 なお、ユーザに心拍センサーを装着させることなくユーザの顔画像(動画像)を解析することでユーザの心拍を推定し、推定した心拍情報を用いる構成としてもよい。
 このように、カスタマ側ユーザ11やセールス側ユーザ12に装着した様々な生体センサーの検出情報をユーザ状態推定処理に適用する構成としてもよい。
 前述したように、ユーザ状態推定部102の各推定部はカスタマ側ユーザ11の以下のユーザ状態、すなわち、
 (ユーザ状態1)興味、関心、好感
 (ユーザ状態2)理解、納得、満足
 (ユーザ状態3)疲労、ストレス
 これらのユーザ状態を推定する。
 図9を参照してユーザ状態推定部102の画像ベースユーザ状態推定部122の実行するユーザ状態推定処理の一例について説明する。
 前述したように、画像ベースユーザ状態推定部122は、カスタマ側ユーザ端末21のカメラが取得するカスタマ側ユーザ11の表情を示す顔画像を含む画像情報、セールス側ユーザ端末22のカメラが取得するセールス側ユーザ12の顔画像を含む画像情報、少なくともいずれかの画像情報を入力して、入力した画像情報に基づいて、カスタマ側ユーザ11のユーザ状態を推定する。
 図9に示す例は、画像ベースユーザ状態推定部122がカスタマ側ユーザ11の顔画像を含む画像情報を入力して、入力画像情報に基づいてカスタマ側ユーザ11のユーザ状態を推定する処理例を示している。
 画像ベースユーザ状態推定部122は、前述したように、例えばDNN,CNN,RNN等のニューラルネットワーク型の学習モデルを有し、この学習モデルにカスタマ側ユーザ11の顔画像を含む画像情報を入力し、ユーザ状態推定スコア(評価値)を出力する。
 図9に示す例は、画像ベースユーザ状態推定部122がカスタマ側ユーザ11の顔画像を含む画像情報に基づいて、カスタマ側ユーザ11のユーザ状態として以下の各スコア(評価値)を推定して出力した例である。
 (ユーザ状態1)興味、関心、好感のスコア(興味度スコア)=5
 (ユーザ状態2)理解、納得、満足のスコア(理解度スコア)=3
 (ユーザ状態3)疲労、ストレスのスコア(疲労度スコア)=1
 なお、ユーザ状態1~3のスコア(評価値)は1~5の5段階である。
 図10に(ユーザ状態1~3)のスコア(評価値)=1~5の設定例を示す。
 (ユーザ状態1)興味、関心、好感のスコア(興味度スコア)は、セールス側ユーザ12の説明や会話に対するカスタマ側ユーザ11の興味、関心、好感レベルが高いほど高い(5に近い)スコア(評価値)となり、興味、関心、好感レベルが低いほど低い(1に近い)スコア(評価値)となる。
 (ユーザ状態2)理解、納得、満足のスコア(理解度スコア)は、セールス側ユーザ12の説明や会話に対するカスタマ側ユーザ11の理解、納得、満足レベルが高いほど高い(5に近い)スコア(評価値)となり、理解、納得、満足レベルが低いほど低い(1に近い)スコア(評価値)となる。
 (ユーザ状態3)疲労、ストレスのスコア(疲労度スコア)は、セールス側ユーザ12の説明や会話に対するカスタマ側ユーザ11の疲労、ストレスレベルが高いほど高い(5に近い)スコア(評価値)となり、疲労、ストレスレベルが低いほど低い(1に近い)スコア(評価値)となる。
 図11は、画像ベースユーザ状態推定部122がカスタマ側ユーザ11の顔画像を含む画像情報のみならず、セールス側ユーザ12の顔画像を含む画像情報、これら2種類の画像データを利用してカスタマ側ユーザ11のユーザ状態を推定した処理例を示す図である。
 このように、画像ベースユーザ状態推定部122は、カスタマ側ユーザ11の顔画像、セールス側ユーザ12の顔画像、少なくともいずれかの画像を利用してカスタマ側ユーザ11のユーザ状態を推定する処理を行う。
 ユーザ状態推定部102の画像ベースユーザ状態推定部122以外の各推定部も同様であり、入力する各情報(音声、画像、語彙、心拍等)に基づいて、カスタマ側ユーザ11の以下のユーザ状態の推定スコア(評価値)を出力する。
 (ユーザ状態1)興味、関心、好感
 (ユーザ状態2)理解、納得、満足
 (ユーザ状態3)疲労、ストレス
 ユーザ状態推定部102の各推定部が推定した上記3つのユーザ状態1~3の推定スコアは、ユーザ状態出力スコア算出部106に入力される。
  (3-2.ユーザ状態出力スコア算出部が実行する処理の詳細について)
 次に、ユーザ状態出力スコア算出部が実行する処理の詳細について説明する。
 図12を参照してユーザ状態出力スコア算出部106が実行する処理について説明する。
 図12に示すように、ユーザ状態出力スコア算出部106は、興味、関心、好感出力スコア算出部131と、理解、納得、満足出力スコア算出部132と、疲労、ストレス出力スコア算出部133を有する。
 ユーザ状態出力スコア算出部106は、前述したように先に図3を参照して説明したセールス側ユーザ端末22に出力するカスタマ側ユーザ11のユーザ状態スコア(評価値)を算出する。
 興味、関心、好感出力スコア算出部131は、セールス側ユーザ端末22に出力するグラフ中のカスタマユーザ11の興味、関心、好感出力スコアを算出する。
 理解、納得、満足出力スコア算出部132は、セールス側ユーザ端末22に出力するグラフ中のカスタマユーザ11の理解、納得、満足出力スコアを算出する。
 疲労、ストレス出力スコア算出部133は、セールス側ユーザ端末22に出力するグラフ中のカスタマユーザ11の疲労、ストレススコアを算出する。
 このように、ユーザ状態出力スコア算出部106は、ユーザ状態推定部102の各推定部が推定したカスタマ側ユーザ11のユーザ状態の推定スコア、すなわち、
 (ユーザ状態1)興味、関心、好感
 (ユーザ状態2)理解、納得、満足
 (ユーザ状態3)疲労、ストレス
 これらのユーザ状態の推定スコア(興味度スコア、理解度スコア、疲労度スコア)の値に基づいて、セールス側ユーザ端末22に出力する最終的なスコア(評価値)を算出する。
 具体的には、ユーザ状態推定部102の各推定部が推定した推定スコアの重みづけ加算処理等を実行して最終的な出力スコアを算出する。
 図12に示すように、顧客情報取得部103、ミーティング情報取得部104、ミーティング実行環境情報取得部105が取得した情報を利用して算出した重みパラメータを利用した重みづけ加算を実行してセールス側ユーザ端末22に出力する最終的なスコア(評価値)を算出する。
 顧客情報取得部103、ミーティング情報取得部104、ミーティング実行環境情報取得部105が取得する情報には、例えば、ミーティングの経過時間や、気候、カスタマ側ユーザ、セールス側ユーザの性格、体調、行動履歴などが含まれ、これらの情報を利用して重みパラメータを調整することができる。
 前述したように、例えば顧客情報データベース111には、各顧客対応の表情変化度合、声のトーン変化度合、使用語彙、ストレス検知度等の情報が記録され、これらの顧客特性に応じたグルーピングがなされている。例えば、同じグループに属する顧客については、ユーザ状態出力スコア算出処理に利用する重みパラメータを同一に設定するなどの処理を行うことができる。
 また、ユーザ状態出力スコア算出部106は、スコア算出アルゴリズム制御部107において決定されたアルゴリズムに従ってスコア算出を実行する。
 図13を参照して、ユーザ状態出力スコア算出部106が実行するセールス側ユーザ端末22に出力するための出力スコア(評価値)算出処理例について説明する。
 図13に示す例は、ユーザ状態出力スコア算出部106内の1つの出力スコア算出部である興味、関心、好感出力スコア算出部131の処理例を示す図である。
 ユーザ状態出力スコア算出部106の興味、関心、好感出力スコア算出部131は、前段のユーザ状態推定部102の3つのユーザ状態推定部、すなわち、音声ベースユーザ状態推定部121、画像ベースユーザ状態推定部122、語彙ベースユーザ状態推定部123、これら3つのユーザ状態推定部の各々が推定した3つの興味、関心、好感スコアの値を入力し、これら3つのスコア値を重みづけ加算することで、最終的な出力スコアの値を算出する。すなわちセールス側ユーザ端末22に出力する興味、関心、好感スコア(興味度スコア)を算出する。
 図13に示すように、ユーザ状態推定部102の3つのユーザ状態推定部、すなわち、音声ベースユーザ状態推定部121、画像ベースユーザ状態推定部122、これらの各推定部が推定した興味、関心、好感出力スコアを以下の値とする。
 音声ベースユーザ状態推定部121が推定した興味、関心、好感出力スコア=5、
 画像ベースユーザ状態推定部122が推定した興味、関心、好感出力スコア=3、
 語彙ベースユーザ状態推定部123が推定した興味、関心、好感出力スコア=4。
 この場合、ユーザ状態出力スコア算出部106の興味、関心、好感出力スコア算出部131は、以下の計算式(式1)に従って、最終的な出力スコアの値を算出する。すなわちセールス側ユーザ端末22に出力する興味、関心、好感出力スコアを算出する。
 興味、関心、好感出力スコア=(w・5)+(w・3)+(w・4)・・(式1)
 上記(式1)において、5,3,4は、ユーザ状態推定部102の3つのユーザ状態推定部、すなわち、音声ベースユーザ状態推定部121、画像ベースユーザ状態推定部122、これらの各推定部が推定した興味、関心、好感スコアの推定値である。
 また、w,w,wは、3つのユーザ状態推定部が推定したスコアに乗算する重みパラメータである。
 すなわち、
 w=音声ベースユーザ状態推定部121が推定した音声ベースユーザ状態スコア(興味、関心、好感出力スコア等)に対する乗算重み係数
 w=画像ベースユーザ状態推定部122が推定した画像ベースユーザ状態スコア(興味、関心、好感出力スコア等)に対する乗算重み係数
 w=語彙ベースユーザ状態推定部123が推定した語彙ベースユーザ状態スコア(興味、関心、好感出力スコア等)に対する乗算重み係数
 である。
 なお、音声ベースユーザ状態推定部121は主に声のトーンに基づくユーザ状態推定処理を実行し、画像ベースユーザ状態推定部122は主に表情に基づくユーザ状態推定処理を実行し、語彙ベースユーザ状態推定部123は発話内容に基づくユーザ状態推定処理を実行する。
 また、重みパラメータw,w,wは、基本的には、予め設定した値を利用できるが、例えば、顧客情報取得部103、ミーティング情報取得部104、ミーティング実行環境情報取得部105等が取得した情報を利用して、遂次、変更することも可能である。例えば、
 重みパラメータw,w,wは、以下の式(式2)に従って算出する構成としてもよい。
 (w,w,w)=f(ia1,ia2,ib1,・・・id1)・・・(式2)
 なお、上記(式2)において、
 ia1,ia2,ib1,・・・id1は、顧客情報取得部103、ミーティング情報取得部104、ミーティング実行環境情報取得部105等が取得した情報を示す値であり、
 f()は、上記各情報を利用した重み算出関数であり、この関数を実行することで、重みパラメータw,w,wを算出する。
 なお、重み算出関数fは、予め規定される。また、スコア算出アルゴリズム制御部107の制御によって変更することも可能である。
 スコア算出アルゴリズム制御部107は通信部101を介してセールス側ユーザ端末22から操作可能であり、セールス側ユーザ12の操作によってスコア算出アルゴリズムを設定、変更することができる。
 図13に示す例は、ユーザ状態出力スコア算出部106には、興味、関心、好感出力スコア算出部131の他、理解、納得、満足出力スコア算出部132と、疲労、ストレス出力スコア算出部133を有する。
 これらの各出力スコア算出部も図13を参照して説明した興味、関心、好感出力スコア算出部131の出力スコア算出処理と同様の処理を実行する。
 図14は、前段のユーザ状態推定部102の音声ベースユーザ状態推定部121と、画像ベースユーザ状態推定部122と、語彙ベースユーザ状態推定部123、これら3つのユーザ状態推定部の各々が推定した3つのユーザ状態スコアについて、ユーザ状態出力スコア算出部106の興味、関心、好感出力スコア算出部131と、理解、納得、満足出力スコア算出部132と、疲労、ストレス出力スコア算出部133が算出した出力スコアの一例を示す。
 例えば、図14に示す表の(1)は、ユーザ状態出力スコア算出部106の興味、関心、好感出力スコア算出部131の出力スコア算出例である。前段のユーザ状態推定部102の音声ベースユーザ状態推定部121と、画像ベースユーザ状態推定部122と、語彙ベースユーザ状態推定部123、これら3つのユーザ状態推定部が推定した3つの興味、関心、好感スコアがそれぞれ5,3,4である。
 このとき、ユーザ状態出力スコア算出部106の興味、関心、好感出力スコア算出部131は、
 興味、関心、好感出力スコア
 =(w・5)+(w・3)+(w・4)
 =4
 上記式に従って、興味、関心、好感出力スコア=4を算出する。
 また、図14に示す表の(2)は、ユーザ状態出力スコア算出部106の理解、納得、満足出力スコア算出部132の出力スコア算出例である。前段のユーザ状態推定部102の音声ベースユーザ状態推定部121と、画像ベースユーザ状態推定部122と、語彙ベースユーザ状態推定部123、これら3つのユーザ状態推定部が推定した3つの理解、納得、満足スコアがそれぞれ3,4,3である。
 このとき、ユーザ状態出力スコア算出部106の理解、納得、満足出力スコア算出部132は、
 理解、納得、満足出力スコア
 =(w・3)+(w・4)+(w・3)
 =3
 上記式に従って、理解、納得、満足出力スコア=3を算出する。
 さらに、図14に示す表の(3)は、ユーザ状態出力スコア算出部106の疲れ、ストレス出力スコア算出部133の出力スコア算出例である。前段のユーザ状態推定部102の音声ベースユーザ状態推定部121と、画像ベースユーザ状態推定部122と、語彙ベースユーザ状態推定部123、これら3つのユーザ状態推定部が推定した3つの疲れ、ストレススコアがそれぞれ1,2,1である。
 このとき、ユーザ状態出力スコア算出部106の疲れ、ストレス出力スコア算出部131は、
 疲れ、ストレス出力スコア
 =(w・1)+(w・2)+(w・1)
 =1
 上記式に従って、疲れ、ストレススコア=1を算出する。
 このように、ユーザ状態出力スコア算出部106の興味、関心、好感出力スコア算出部131と、理解、納得、満足出力スコア算出部132と、疲労、ストレス出力スコア算出部133の各々は、それぞれ前段のユーザ状態推定部102の各ユーザ状態推定部の推定値を重みづけ加算して、セールス側ユーザ端末22に出力するための出力スコアを算出する。すなわち、以下の各出力スコアを算出する。
 (ユーザ状態1スコア)興味、関心、好感スコア、
 (ユーザ状態2スコア)理解、納得、満足スコア、
 (ユーザ状態3スコア)疲労、ストレススコア、
 ユーザ状態出力スコア算出部106が算出したこれらの出力スコア値は、セールス側ユーザ端末22に出力され、グラフ化されて表示される。
 図15にグラフ表示例を示す。
 図15に示すようにセールス側ユーザ端末22の表示部に表示されるグラフは、横軸にミーティング開始からの経過時間、縦軸に上記のユーザ状態1~3の推定スコア(評価値)の値(1~5)を示したグラフである。
 情報処理装置100のユーザ状態推定部102、ユーザ状態出力スコア算出部106は、カスタマ側ユーザ端末21とセールス側ユーザ端末22を使用したミーティング期間中、継続して処理を実行する。
 ユーザ状態推定部102が推定したユーザ状態スコアに変化があった場合等に、グラフの更新処理が実行されることになる。
 なお、図15に示すセールス側ユーザ端末22の表示画像の下側に示すグラフ中、
 (●)のグラフ(折れ線)は、「(ユーザ状態1)興味、関心、好感」の推定スコア(興味度スコア)の時間経過に伴う変化を示すグラフである。
 (▲)のグラフ(折れ線)は、「(ユーザ状態2)理解、納得、満足」の推定スコア(理解度スコア)の時間経過に伴う変化を示すグラフである。
 (■)のグラフ(折れ線)は、「(ユーザ状態3)疲労、ストレス」の推定スコア(疲労度スコア)の時間経過に伴う変化を示すグラフである。
 セールス側ユーザ12は、セールス側ユーザ端末22上に表示されたグラフを見ることで、カスタマ側の状態の推移を容易に把握することが可能となり、把握結果に応じて、説明の仕方や内容を変更するなど、最適な対応を行うことが可能となる。
 なお、グラフの生成処理は情報処理装置100のユーザ状態出力スコア算出部106が実行してもよいし、セールス側ユーザ端末22側で実行してもよい。
 情報処理装置100のユーザ状態出力スコア算出部106がグラフを生成する場合は、ユーザ状態出力スコア算出部106が各時間のユーザ状態出力スコアに基づいてグラフを生成してセールス側ユーザ端末22に送信する。
 また、セールス側ユーザ端末22においてグラフを生成して表示する場合は、ユーザ状態出力スコア算出部106は、各時間のユーザ状態出力スコアを順次、セールス側ユーザ端末22に送信する。セールス側ユーザ端末22はユーザ状態出力スコア算出部106から、順次、受信するユーザ状態出力スコアを時間軸に沿って配列してグラフを生成して表示する。
 図15に示す表示データの右上の表示データは、セールス側ユーザ12が操作可能なUI部25である。
 セールス側ユーザ12は、このUI部25を操作することで、情報処理装置100におけるスコア算出アルゴリズムを変更することができる。
 すなわち、セールス側ユーザ12によるUI部25の操作情報は、ネットワークを介して情報処理装置100に送信される。
 情報処理装置100の通信部101が受信したUI操作情報は、情報処理装置100のスコア算出アルゴリズム制御部107に入力される。
 情報処理装置100のスコア算出アルゴリズム制御部107は、セールス側ユーザ12によるUI部25の操作情報に応じてスコア算出アルゴリズムを変更制御する。
  (3-3.スコア算出アルゴリズム制御部の処理の詳細と、セールス側ユーザ端末上の表示UIについて)
 次に、スコア算出アルゴリズム制御部の処理の詳細と、セールス側ユーザ端末上の表示UIについて説明する。
 図16を参照してセールス側ユーザ端末22に表示され、セールス側ユーザ12が操作可能なUI部25の具体的構成例について説明する。
 図16に示すように、UI部25には以下の各UI部a~e(操作部a~e)が表示される
 UI部a:セールス側ユーザの画像、音声、語彙の有効化(ON)、無効化(OFF)設定
 UI部b:カスタマ側ユーザの画像、音声、語彙の有効化(ON)、無効化(OFF)設定
 UI部c:ユーザ状態出力スコア算出に適用する画像、音声、語彙ベースのユーザ状態スコア各々の重み設定
 UI部d:ユーザ状態出力スコア算出に適用する画像、音声、語彙ベースのユーザ状態スコア各々の重みの調整に利用する情報の選択
 UI部e:重み変更後の反映データの範囲を設定(現在以降のデータに反映させるか、MTG開始後の全てのデータに反映させるかを設定)
 UI部aは、セールス側ユーザの画像、音声、語彙の有効化(ON)、無効化(OFF)を設定するUIであり、スコア算出に際して、セールス側ユーザの画像、音声、語彙を利用する(ON)か否か(OFF)を設定することができる。
 UI部bは、カスタマ側ユーザの画像、音声、語彙の有効化(ON)、無効化(OFF)設定を設定するUIであり、スコア算出に際して、カスタマ側ユーザの画像、音声、語彙を利用する(ON)か否か(OFF)を設定することができる。
 UI部cは、ユーザ状態出力スコア算出に適用する画像、音声、語彙ベースのユーザ状態スコア各々の重みを設定するUIであり、スコア算出に際して適用する画像、音声、語彙の重み(w,w,w)を変更することができる。
 図に示す三角形の各頂点が画像、音声、語彙ベースのユーザ状態スコア各々の重みの値に相当する。頂点を外側に設定するほど重みが大きくなり、内側に移動させるほど重みが小さく設定される。
 UI部dは、ユーザ状態出力スコア算出に適用する画像、音声、語彙ベースのユーザ状態スコア各々の重みの調整に利用する情報を選択するUIであり、スコア算出に際して適用する画像、音声、語彙の重み(w,w,w)の算出処理に適用する情報を選択できる。
 図に示す例は、顧客情報、MTG情報、MTG環境、心拍情報の4つから、画像、音声、語彙の重み(w,w,w)の算出処理に適用する情報を選択可能な構成例を示しており、図に示す例は、顧客情報、MTG情報を利用、MTG環境、心拍情報を非利用として設定した例である。
 UI部eは、重み変更後の反映データの範囲を設定するUIである。現在以降のデータに反映させるか、MTG開始後の全てのデータに反映させるかを設定するかを選択できる。
 図17にUI部25の調整例を示す。UI部25はセールス側ユーザ12によっていつでも操作可能である。ミーティング開始前、ミーティング実行中、任意のタイミングで設定を変更することが可能であり、変更情報は、ネットワークを介して情報処理装置100に送信され、情報処理装置100のスコア算出アルゴリズム制御部107はリアルタイムでスコア算出アルゴリズムを変更する。
 図17には、(a)UI調整前と、(b)UI調整後の各UI部25の設定例を示している。
 (a)UI調整前の図に示すステップS01~S03の3つの操作をセールス側ユーザ12が実行した例である。
 ステップS01では、UI部aの設定をONからOFFに変更している。
 UI部aは、セールス側ユーザの画像、音声、語彙の有効化(ON)、無効化(OFF)を設定するUIである。スコア算出に際して、セールス側ユーザの画像、音声、語彙を利用する(ON)設定を利用しない設定(OFF)に変更している。
 ステップS02,S03では、UI部cの重み設定を変更している。
 UI部cは、ユーザ状態出力スコア算出に適用する画像、音声、語彙ベースのユーザ状態スコア各々の重みを設定するUIであり、スコア算出に際して適用する画像、音声、語彙の重み(w,w,w)を変更することができる。
 図に示す例では、ステップS02で、三角形の画像の頂点を外側に移動させ、ステップS03で語彙の頂点を内側に移動させている。
 この設定変更により、ユーザ状態スコア算出時の重みの値が変更される。具体的には、語彙ベースのユーザ状態スコアに対する重みが小さく変更され、画像ベースのユーザ状態スコアに対する重みが大きく変更される。
 前述したように、これらの変更情報は即座に情報処理装置100に送信され、情報処理装置100のスコア算出アルゴリズム制御部107が、セールス側ユーザ12の操作情報に応じてスコア算出アルゴリズムを変更する。
 上述したUI部25に対するセールス側ユーザ12による操作によってスコア算出アルゴリズムが変更されると、例えば図18に示すセールス側ユーザ端末22に表示中のグラフが、変更後のアルゴリズムに従って算出される新たな更新スコアからなるグラフに変更されて表示されることになる。
 セールス側ユーザ12は、セールス側ユーザ端末22上に表示された更新後のグラフを確認しながら、ユーザ状態推定スコアの算出アルゴリズムをより適切と思われる態様に変更することができる。
  (3-4.ユーザ状態変化理由推定部が実行する処理の詳細について)
 次に、ユーザ状態変化理由推定部が実行する処理の詳細について説明する。
 図19以下を参照してユーザ状態変化理由推定部108の構成と処理について説明する。
 図19に示すように、ユーザ状態変化理由推定部108は、ルールベースユーザ状態変化理由推定部141と、学習モデルベースユーザ状態変化理由推定部142、さらにユーザ状態変化理由推定結果統合処理部143を有する。
 ルールベースユーザ状態変化理由推定部141は、カスタマ側ユーザ11の発話とセールス側ユーザ12の発話の少なくともいずれかの発話内容に基づいて、ユーザ状態の変化理由を予め登録されたデータ(ルールベースモデル)を利用して推定する。
 学習モデルベースユーザ状態変化理由推定部142は、カスタマ側ユーザ11とセールス側ユーザ12の音声、画像に基づいて、ユーザ状態の変化理由を予め生成した学習モデルを利用して推定する。
 さらにその他のセンサー、例えばカスタマ側ユーザの心拍センサー等の生体センサーの検出情報を利用してユーザ状態の変化理由を予め生成した学習モデルを利用して推定する構成としてもよい。
 ユーザ状態変化理由推定結果統合処理部143は、ルールベースユーザ状態変化理由推定部141の推定結果と、学習モデルベースユーザ状態変化理由推定部142の推定結果を入力し、いずれかの推定結果の選択処理、あるいは両方の推定結果の選択処理、あるいは、2つの推定結果の合成処理による新たなユーザ状態変化理由の生成処理などを実行して、最終的にセールス側ユーザ端末22に出力するユーザ状態変化理由を生成する。
 図20を参照して、ルールベースユーザ状態変化理由推定部141の詳細構成例について説明する。
 ルールベースユーザ状態変化理由推定部141は図20に示すように、音声解析部151、ルールベースモデル152、ルールベースユーザ状態変化理由決定部153を有する。
 カスタマ側ユーザ端末21のマイクが取得したカスタマ側ユーザ11の声を含む音声データと、セールス側ユーザ端末22のマイクが取得したセールス側ユーザ12の声を含む音声データが音声解析部151に入力される。
 音声解析部151は、音声データをテキスト変換して、ルールベースユーザ状態変化理由決定部153に出力する。
 音声解析部は、例えばASR(Automatic Speech Recognition)機能を利用した音声解析部である。
 ルールベースユーザ状態変化理由決定部153は、音声解析部151から入力したテキストデータ、すなわち、カスタマ側ユーザ11の発話内容を示すテキスト、あるいはセールス側ユーザ12の発話内容を示すテキストに基づいて、ルールベースモデル152を参照して、入力発話テキストに基づいて、ユーザ状態変化理由を推定する。
 ルールベースモデル152は、カスタマ側ユーザ11やセールス側ユーザの様々な発話テキストと、ユーザ状態変化理由とを対応付けて記録したルールベースモデルである。具体的には、例えば、図21に示すようなデータが登録されている。
 ルールベースユーザ状態変化理由決定部153は、図21に示すようなデータが登録されたルールベースモデル152を参照して、音声解析部151から入力したテキストデータ、すなわち、カスタマ側ユーザ11の発話内容を示すテキスト、あるいはセールス側ユーザ12の発話内容を示すテキストに最も近い登録データを選択して選択したデータに対応付けて記録されたユーザ状態変化理由を取得する。取得したユーザ状態変化理由は、ユーザ状態変化理由推定結果統合処理部143に出力される。
 一方、図19に示す学習モデルベースユーザ状態変化理由推定部142は、予め生成した学習モデルを利用してユーザ状態変化理由を推定する。
 学習モデルは、カスタマ側ユーザ11とセールス側ユーザ12の音声、画像情報を入力し、ユーザ状態変化理由を出力する学習モデルである。
 あるいは、例えばカスタマ側ユーザの心拍センサーやその他の生体センサー等のセンサー検出情報が取得できる場合は、音声、画像情報に加えてセンサー検出情報を入力してユーザ状態変化理由を出力する学習モデルを生成して利用する構成としてもよい。
 学習モデルは、例えば多層型のニューラルネットワークであるディープニューラルネットワーク(DNN:Deap Neural Network)や、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)、あるいは再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)などのアルゴリズムを適用した機械学習を実行して生成した学習モデルである。
 なお、学習モデルの生成処理方法の具体例については後段で説明する。
 学習モデルベースユーザ状態変化理由推定部142が学習モデルを利用して推定したユーザ状態変化理由も、ユーザ状態変化理由推定結果統合処理部143に出力される。
 ユーザ状態変化理由推定結果統合処理部143は、ルールベースユーザ状態変化理由推定部141の推定結果と、学習モデルベースユーザ状態変化理由推定部142の推定結果を入力し、いずれかの推定結果の選択処理、あるいは両方の推定結果の選択処理、あるいは、2つの推定結果の合成処理による新たなユーザ状態変化理由の生成処理などを実行する。
 ユーザ状態変化理由推定結果統合処理部143は、最終的にセールス側ユーザ端末22に出力するユーザ状態変化理由を決定する。
 なお、最終的なセールス側ユーザ端末22に出力するユーザ状態変化理由の決定処理に際し、ユーザ状態変化理由推定結果統合処理部143は、ユーザ状態出力スコア算出部106の興味、関心、好感出力スコア算出部131と、理解、納得、満足出力スコア算出部132と、疲労、ストレス出力スコア算出部133、これらの3種類のユーザ状態出力スコア算出部131~133の出力スコアの変化状態を検証する。
 ユーザ状態変化理由推定結果統合処理部143は、例えば、ユーザ状態出力スコア算出部131~133のいずれかが算出した出力スコアの変化量が予め規定したしきい値以上となった場合に、セールス側ユーザ端末22に出力するユーザ状態変化理由を決定して出力する。
 あるいは、ユーザ状態出力スコア算出部131~133のいずれかが算出した出力スコアが最低値(スコア=1)、または最高値(スコア=5)となった場合に、セールス側ユーザ端末22に出力するユーザ状態変化理由を決定して出力する。
 また、ユーザ状態変化理由推定結果統合処理部143は、セールス側ユーザ端末22に出力するユーザ状態変化理由を決定する際の補助情報として顧客情報取得部103から入力する顧客情報、ミーティング情報取得部104から入力するミーティング情報、ミーティング実行環境情報取得部105から入力するミーティング実行環境情報を利用する構成としてもよい。
 さらに、ユーザ状態変化理由推定結果統合処理部143は、ユーザ状態変化理由のみならず、例えばミーティング結果の推定情報や、ユーザ状態スコア算出に適用する重みの推薦値情報などを生成してセールス側ユーザ端末22に出力する構成としてもよい。
 図22にユーザ状態変化理由推定結果統合処理部143が生成しセールス側ユーザ端末22に出力するデータの例をまとめた図を示す。
 図22に示すように、ユーザ状態変化理由推定結果統合処理部143はセールス側ユーザ端末22に対して、例えば以下の情報を出力する。
 (1)ユーザ状態変化理由
 (2)ミーティング結果推定情報
 (3)ユーザ状態スコア算出に適用する重み推薦情報
 ユーザ状態変化理由推定結果統合処理部143は、例えば、これら(1)~(3)の情報を、予め生成した学習モデルやルールベースモデルを利用して推定してセールス側ユーザ端末22に出力する。
 (1)ユーザ状態変化理由については、図22の具体例の欄に示すように、例えば以下の場合に出力する。
 (例1)「興味・関心・好感出力スコア」、「理解・納得・満足出力スコア」、「疲労・ストレス出力スコア」のいずれかの変化量が、規定しきい値以上である場合にユーザ状態変化理由を出力
 (例2)「興味・関心・好感出力スコア」、「理解・納得・満足出力スコア」、「疲労・ストレス出力スコア」のいずれかのスコア値が最低値(1)または最高値と(5)のとき、ユーザ状態変化理由を出力
 (2)ミーティング結果推定情報については、対策を何もしない場合のミーティング結果推定情報と、対策を行った場合のミーティング結果の推定情報を生成して出力する。
 (3)ユーザ状態スコア算出に適用する重み推薦情報については、ユーザ状態スコア算出に適用する重み(画像、音声、語彙)の推薦値を出力する。
 図23は、ユーザ状態変化理由推定部108のユーザ状態変化理由推定結果統合処理部143からセールス側ユーザ端末22に出力される情報であるユーザ状態変化理由をセールス側ユーザ端末22に表示した例を示す図である。
 図24は、ミーティング結果推定情報や、ユーザ状態スコア算出に適用する重み推薦情報をセールス側ユーザ端末22に表示した例を示す図である。
 図25は、さらに、ユーザ状態スコア算出に適用する重み推薦情報の提示理由をセールス側ユーザ端末22に表示した例を示す図である。
 セールス側ユーザ12は、このような表示データを確認することで、説明の仕方などを変更するといった適切な対応を行うことが可能となる。
  [4.その他の実施例について]
 次に、その他の実施例について説明する。
 上述した実施例は、通信ネットワークを介したミーティングに参加するユーザのユーザ状態を解析して、解析結果をそのミーティングに参加する他のユーザのユーザ端末に表示する処理例として説明した。
 上述した本開示の処理、すなわちユーザのユーザ状態を解析して解析結果を他のユーザのユーザ端末に表示する処理は、このようなオンライン型のミーティングにのみ利用されるものではなくその他の様々な利用形態が可能である。
 例えば、実空間の実オブジェクト画像と、実空間上には存在しない仮想オブジェクト画像を重畳した拡張現実画像(AR(Augmented Reality)画像)や、仮想現実画像(VR(Virtual Reality)画像)を表示するメガネ型あるいはゴーグル型デバイス等のウェアラブルデバイス上にユーザ状態の解析結果を表示する処理にも適用可能である。
 具体的には、例えばメガネ型デバイスを装着した複数のユーザが対面型のミーティングを行う場面での利用などが可能である。
 ユーザが装着したメガネ型デバイスに装着されたカメラやマイクを介して入力する画像や音声を解析してミーティング相手のユーザ状態を推定する。さらに、推定したユーザ状態に基づくグラフなどを生成し、生成したグラフなどのユーザ状態解析結果をメガネ型デバイスに仮想オブジェクトとして表示する。
 上述した本開示の構成や処理は、このような様々な場面において利用可能である。
  [5.ユーザ状態推定部において利用する学習モデルの生成処理について]
 次に、ユーザ状態推定部において利用する学習モデルの生成処理について説明する。
 先に図6を参照して説明したように、情報処理装置100のユーザ状態推定部102は、通信部101を介して入力するミーティング実行中のカスタマ側ユーザ端末21とセールス側ユーザ端末22から各ユーザの画像や音声データ等に基づいて、カスタマ側ユーザのユーザ状態を推定する。具体的には、例えば以下の各状態の推定処理を行う。
 (ユーザ状態1)興味、関心、好感
 (ユーザ状態2)理解、納得、満足
 (ユーザ状態3)疲労、ストレス
 ユーザ状態推定部102は、例えば予め生成した学習モデルを利用してカスタマ側ユーザのユーザ状態を推定する。
 以下、ユーザ状態推定部102が利用する学習モデルの生成処理の具体例について説明する。
 図26は、ユーザ状態推定部102が利用する学習モデルの生成処理に利用する学習データを取得するための模擬ミーティング構成を示す図である。
 図26には、商品購入希望者であるお客様であるカスタマ側ユーザ11と、商品提供者としてのセールス側ユーザ12を示している。
 スマホ等のカスタマ側ユーザ端末21と、PC等のセールス側ユーザ端末22は通信ネットワークを介して接続され、これらの通信端末間で音声、画像を相互に送受信して会話を行って商談が進められる。
 ただし、学習モデルの生成処理に利用する学習データを取得するための模擬ミーティングを実行する場合、カスタマ側ユーザ11は実際のお客様ではなく、お客様の役割を実行する人とする。
 例えば、セールス側ユーザ12と同じ会社の社員やアルバイトなどがお客様の役を行う。
 セールス側ユーザ12は、お客様役のカスタマ側ユーザ11とネットワークを介して模擬的な商談等のミーティングを実行する。
 お客様役のカスタマ側ユーザ11は、模擬ミーティングの実行中に自分の感情などのユーザ状態を随時、カスタマ側ユーザ端末21に入力する。
 入力項目は、例えば、図27に示すように以下の3つのユーザ状態である。
 (ユーザ状態1)興味、関心、好感
 (ユーザ状態2)理解、納得、満足
 (ユーザ状態3)疲労、ストレス
 ただし、上記各ユーザ状態1~3中の「(ユーザ状態3)疲労、ストレス」については、心拍センサーを使用する場合や、顔画像からの心拍推定を行う場合は、ユーザ入力を行うことなく、心拍センサーや顔画像の解析によって取得する情報を利用する構成としてもよい。
 (ユーザ状態1)興味、関心、好感は、カスタマ側ユーザ11が、セールス側ユーザ12の説明や会話に興味、関心、好感を持っているか否かのユーザ状態である。
 お客様役のカスタマ側ユーザ11は、セールス側ユーザ12とのミーティング(商談)の実行中に、自分の興味、関心、好感レベルを判断し、その判断に基づくスコア(評価値)を、随時入力する。
 スコア(評価値)は1~5の5段階であり、興味、関心、好感が高いほどスコア(評価値)が高い。
 お客様役のカスタマ側ユーザ11は、セールス側ユーザ12の説明や会話に対する「興味、関心、好感」のレベルが最高レベルにあると感じた場合、そのタイミングでスコア=5を入力する。
 カスタマ側ユーザ端末21のディスプレイはタッチパネルであり、カスタマ側ユーザ11はディスプレイにスコア=5を入力する。
 一方、お客様役のカスタマ側ユーザ11が、セールス側ユーザ12の説明や会話に対する「興味、関心、好感」のレベルが最低レベルにあると感じた場合、そのタイミングで、スコア=1を入力する。
 お客様役のカスタマ側ユーザ11は、セールス側ユーザ12とのミーティング(商談)期間内において、「興味、関心、好感」のレベルが変化したと感じた任意タイミングにおいて、随時、スコア(評価値)を入力する。
 (ユーザ状態2)理解、納得、満足は、カスタマ側ユーザ11が、セールス側ユーザ12の説明について理解、納得、満足したか否かのユーザ状態である。
 お客様役のカスタマ側ユーザ11は、セールス側ユーザ12とのミーティング(商談)の実行中に、随時、スコア(評価値)を入力する。
 お客様役のカスタマ側ユーザ11は、セールス側ユーザ12の説明に対する「理解、納得、満足」のレベルが最高レベルにあると感じた場合、そのタイミングでスコア=5を入力し、最低レベルにあると感じた場合、そのタイミングでスコア=1を入力する。
 お客様役のカスタマ側ユーザ11は、セールス側ユーザ12とのミーティング(商談)期間内において、「理解、納得、満足」のレベルが変化したと感じた任意タイミングにおいて、随時、スコア(評価値)を入力する。
 (ユーザ状態3)疲労、ストレスは、カスタマ側ユーザ11が、セールス側ユーザ12の説明や会話に対して、疲労、ストレスを感じたか否かのユーザ状態である。
 お客様役のカスタマ側ユーザ11は、セールス側ユーザ12とのミーティング(商談)の実行中に、随時、スコア(評価値)を入力する。
 お客様役のカスタマ側ユーザ11は、セールス側ユーザ12の説明や会話に対する「疲労、ストレス」のレベルが最高レベルにある(疲れている、またはストレスが高い)と感じた場合、そのタイミングでスコア=5を入力し、最低レベルにある(疲れていない、またはリラックスしている)と感じた場合、そのタイミングでスコア=1を入力する。
 お客様役のカスタマ側ユーザ11は、セールス側ユーザ12とのミーティング(商談)期間内において、「疲労、ストレス」のレベルが変化したと感じた任意タイミングにおいて、随時、スコア(評価値)を入力する。
 お客様役のカスタマ側ユーザ11が入力した以下の3つのユーザ状態、すなわち、
 (ユーザ状態1)興味、関心、好感
 (ユーザ状態2)理解、納得、満足
 (ユーザ状態3)疲労、ストレス
 これらのユーザ状態のスコア(評価値)は、スコア(評価値)入力タイミングを示すタイムスタンプとともに、カスタマ側ユーザ端末21から情報処理装置100に送信される。
 情報処理装置100は、さらに、カスタマ側ユーザ端末21と、セールス側ユーザ端末22を介して、ミーティングの実行期間中の各ユーザの画像と音声を入力する。
 情報処理装置100は、ミーティングの実行期間中の以下の各データを入力する。
 (A)カスタマ側ユーザ端末21から、カスタマ側ユーザ11の画像と音声、
 (B)セールス側ユーザ端末22から、セールス側ユーザ12の画像と音声、
 (C)カスタマ側ユーザ端末21から、上記(ユーザ状態1~3)のスコア(評価値)データ列
 情報処理装置100は、ミーティングの実行期間中の上記データ(A)~(C)を入力し、この入力データを利用した学習処理を実行してユーザ状態推定器(学習モデル)を生成する。
 図28は、情報処理装置100がカスタマ側ユーザ端末21と、セールス側ユーザ端末22から入力するデータであり、情報処理装置100における機械学習処理に利用するデータ(ミーティングログ:Meeting log)の一部を示すデータ例である。
 図28に示すログデータ(Meeting log)の先頭部分の記録領域[ラベル]は、ミーティング中にお客様役のカスタマ側ユーザ11が入力したユーザ状態のスコア(評価値)の記録領域である。
 この[ラベル]記録領域には、ミーティング中にお客様役のカスタマ側ユーザ11が入力した以下の3つのユーザ状態、すなわち、
 (ユーザ状態1)興味、関心、好感
 (ユーザ状態2)理解、納得、満足
 (ユーザ状態3)疲労、ストレス
 これらのユーザ状態のスコア(評価値)が、ユーザ状態種類を示す状態ラベル名と、スコア(評価値)設定タイミングを示すタイムスタンプとともに記録される。
 次の記録領域[ミーティング条件(MTGタグ)]は、ミーティング開始前に設定されたミーティング条件の記録領域である。ミーティング条件(MTGタグ)には例えば以下のような条件(タグ)が含まれる。
 (タグa)ミーティング(MTG)ジャンル=商談、面談
 (タグb)ミーティング(MTG)規模=大、中、小
 (タグc)疲れ(カスタマ)=大、中、小
 (タグd)忙しさ(カスタマ)=大、中、小
 さらに、最後部にミーティングの実行期間中の各ユーザの画像と音声、すなわちカスタマ側ユーザ11と、セールス側ユーザ12の画像と音声の記録領域が設定されている。
 情報処理装置100は、これらのデータから構成されるログデータ(Meeting Log)を、カスタマ側ユーザ端末21、またはセールス側ユーザ端末22の少なくともいずれかの端末から入力し、入力データを利用した機械学習処理を実行して、ユーザ状態推定器(学習モデル)を生成する。
 なお、図28に示すログデータは、ミーティング期間に取得されるログデータの一部のデータである。1回のミーティング期間中、ログデータとして取得される[ラベル]のデータを利用することで、ミーティング中にカスタマ側ユーザ11が逐次、入力したユーザ状態のスコア(評価値)の時系列データを生成することができる。
 図29に、情報処理装置100がカスタマ側ユーザ端末21から取得するユーザ状態のスコア(評価値)に基づいて生成可能な時系列データの一例を示す。
 図29には、以下のユーザ状態各々の時系列データを示している。
 (ユーザ状態1)興味、関心、好感
 (ユーザ状態2)理解、納得、満足
 (ユーザ状態3)疲労、ストレス
 例えば、この時系列データを解析することで、ミーティング期間におけるカスタマ側ユーザ端末21の状態変化の詳細な解析が可能となる。
 情報処理装置100は、図28に示すログデータを利用した機械学習処理を実行して、ユーザ状態推定部が利用する学習モデルを生成する。
 図30以下を参照して、情報処理装置100が実行する機械学習処理の詳細について説明する。
 図30は、情報処理装置100が実行する機械学習処理に利用するデータの収集構成例を示す図である。
 図30に示すように、情報処理装置100は、カスタマ側ユーザ端末21から、ミーティング期間中の以下の各データを取得する。
 画像データ
 音声データ
 (ユーザ状態1対応スコア)=興味、関心、好感スコア
 (ユーザ状態2対応スコア)=理解、納得、満足スコア
 (ユーザ状態3対応スコア)=疲労、ストレススコア
 画像データ、音声データは、カスタマ側ユーザ端末21のカメラ、マイクによって取得されるカスタマ側ユーザ11の顔画像を含む画像データと、カスタマ側ユーザ11の発話音声データである。
 (ユーザ状態1対応スコア)=興味、関心、好感スコア
 (ユーザ状態2対応スコア)=理解、納得、満足スコア
 (ユーザ状態3対応スコア)=疲労、ストレススコア
 これらのスコアデータは、先に図29を参照して説明したように、カスタマ側ユーザ11がミーティング期間中カスタマ側ユーザ端末21に入力したユーザ状態のスコア(評価値)の時系列データである。
 情報処理装置100は、これらのデータを情報処理装置100内の記憶部(データベース)に格納する。
 図30に示すように、画像データ、音声データは、画像・音声データベース161に格納する。
 興味、関心、好感スコアは、興味、関心、好感スコアデータベース171に格納し、理解、納得、満足スコアは、理解、納得、満足スコアデータベース172に格納し、疲労、ストレススコアは、疲労、ストレススコアデータベース173に格納する。
 情報処理装置100は、さらに、セールス側ユーザ端末22からも、ミーティング期間中の以下の各データを取得する。
 画像データ
 音声データ
 これらの画像データ、音声データは、セールス側ユーザ端末22のカメラ、マイクによって取得されるセールス側ユーザ12の顔画像を含む画像データと、セールス側ユーザ12の発話音声データである。
 これらのデータも、情報処理装置100の画像・音声データベース161に記録される。
 なお、画像・音声データベース161に記録される画像、音声データには、属性情報として、画像、音声の取得時間を示すタイムスタンプ等の記録時間情報、さらに画像、音声がカスタマ側ユーザ端末21から取得したカスタマ側ユーザ11のデータであるか、セールス側ユーザ端末22から取得したセールス側ユーザ12のデータであるかを識別するためのユーザ識別情報等が記録されている。
 なお、図30に示す例では、カスタマ側ユーザ11の心拍情報等の収集は行っていないが、例えばカスタマ側ユーザ11の心拍情報等のセンサー検出情報を利用したユーザ状態推定処理を行う学習モデルを生成する場合には、カスタマ側ユーザ11の心拍情報等の収集も実行し、センサー検出情報も含めた学習処理を実行する。
 また、図30に示す情報処理装置100の学習データ収集例では、セールス側ユーザ端末22からも、ミーティング期間中の画像データと、音声データを取得する構成例であるが、例えば、図31に示すように、セールス側ユーザ端末22からの画像データと、音声データを取得することなく、カスタマ側ユーザ端末21のみから、画像、音声、各ユーザ状態スコアを取得して、これらを学習処理に適用する構成も可能である。
 以下では、図30に示すように、カスタマ側ユーザ端末21、セールス側ユーザ端末22の双方からミーティング期間中のデータを取得して学習処理を実行する処理例について説明する。
 図32は、情報処理装置100が実行する機械学習処理の構成と処理を説明する図である。
 図32に示すように、情報処理装置100は、興味度推定器生成部(興味度推定学習モデル生成部)181、理解度推定器生成部(理解度推定学習モデル生成部)182、疲労度推定器生成部(疲労度推定学習モデル生成部)183を有する。
 興味度推定器生成部(興味度推定学習モデル生成部)181は、興味・関心・好感スコアデータベース171の格納データと、画像音声データベース161の格納データを利用した機械学習処理を実行して、興味度推定器(興味度推定学習モデル)191を生成する。
 すなわち、興味度推定器生成部(興味度推定学習モデル生成部)181は、以下の各データを利用した機械学習処理を実行して、興味度推定器(興味度推定学習モデル)191を生成する。
 (a)ミーティング期間中のカスタマ側ユーザ11、およびセールス側ユーザ12の画像と音声、
 (b)ミーティング期間中にカスタマ側ユーザ11が入力した興味、関心、好感スコア(評価値)、
 また、理解度推定器生成部(理解度推定学習モデル生成部)182は、理解・納得・満足スコアデータベース172の格納データと、画像音声データベース161の格納データを利用した機械学習処理を実行して、理解度推定器(理解度推定学習モデル)192を生成する。
 すなわち、理解度推定器生成部(理解度推定学習モデル生成部)182は、以下の各データを利用した機械学習処理を実行して、理解度推定器(理解度推定学習モデル)192を生成する。
 (a)ミーティング期間中のカスタマ側ユーザ11、およびセールス側ユーザ12の画像と音声、
 (b)ミーティング期間中にカスタマ側ユーザ11が入力した理解、納得、満足スコア(評価値)、
 さらに、疲労度推定器生成部(疲労度推定学習モデル生成部)183は、疲労・ストレススコアデータベース173の格納データと、画像音声データベース161の格納データを利用した機械学習処理を実行して、疲労度推定器(疲労度推定学習モデル)193を生成する。
 すなわち、疲労度推定器生成部(疲労度推定学習モデル生成部)183は、以下の各データを利用した機械学習処理を実行して、疲労度推定器(疲労度推定学習モデル)193を生成する。
 (a)ミーティング期間中のカスタマ側ユーザ11、およびセールス側ユーザ12の画像と音声、
 (b)ミーティング期間中にカスタマ側ユーザ11が入力した疲労、ストレススコア(評価値)、
 なお、情報処理装置100の学習処理部、すなわち興味度推定器生成部(興味度推定学習モデル生成部)181、理解度推定器生成部(理解度推定学習モデル生成部)182、疲労度推定器生成部(疲労度推定学習モデル生成部)183、これらの学習処理部は、例えば機械学習処理としての深層学習処理を実行する。
 例えば、興味度推定器生成部(興味度推定学習モデル生成部)181は、興味・関心・好感スコアデータベース171の格納データと、画像音声データベース161の格納データを教師データとした「教師あり学習処理」を実行する。
 この学習処理によって、カスタマ側ユーザの画像と音声データ、またはセールス側ユーザの画像と音声データの少なくともいずれかの画像、音声データに基づいて、カスタマ側ユーザの興味・関心・好感スコアを推定する興味度推定器(興味度推定学習モデル)191を生成する。
 また、理解度推定器生成部(理解度推定学習モデル生成部)182は、理解・納得・満足スコアデータベース172の格納データと、画像音声データベース161の格納データを教師データとした「教師あり学習処理」を実行する。
 この学習処理によって、カスタマ側ユーザの画像と音声データ、またはセールス側ユーザの画像と音声データの少なくともいずれかの画像、音声データに基づいて、カスタマ側ユーザの理解・納得・満足スコアを推定する理解度推定器(理解度推定学習モデル)192を生成する。
 さらに、疲労度推定器生成部(疲労度推定学習モデル生成部)183は、疲労・ストレススコアデータベース173の格納データと、画像音声データベース161の格納データを教師データとした「教師あり学習処理」を実行する。
 この学習処理によって、カスタマ側ユーザの画像と音声データ、またはセールス側ユーザの画像と音声データの少なくともいずれかの画像、音声データに基づいて、カスタマ側ユーザの疲労・ストレススコアを推定する疲労度推定器(疲労度推定学習モデル)193を生成する。
 図33以下を参照して、具体的な学習処理の例について説明する。
 図33は、興味度推定器生成部(興味度推定学習モデル生成部)181による興味度推定器(興味度推定学習モデル)191を生成するための学習処理の一例を説明する図である。
 図33には、学習データとして用いる以下の各データを示している。
 (a)ミーティング期間中のカスタマ側ユーザ11の画像と音声、
 (b)ミーティング期間中にカスタマ側ユーザ11が入力した興味・関心・好感スコア(評価値)、
 なお、これらは、先に図28を参照して説明したログデータに含まれるデータである。すなわち、ミーティング実行中に、カスタマ側ユーザ端末21において記録され、情報処理装置100に送信されるログデータである。
 興味度推定器生成部(興味度推定学習モデル生成部)181は、まず、図32に示す興味・関心・好感スコアデータベース171から、ミーティング期間中にカスタマ側ユーザ11が入力した興味・関心・好感スコア(評価値)を1つ取得する。さらに、取得した興味・関心・好感スコア(評価値)のタイムスタンプを確認し、このタイムスタンプに一致する時間から所定時間前(例えば30秒前)までのカスタマ側ユーザ11の画像と音声データを画像・音声データベース161から取得する。
 興味度推定器生成部(興味度推定学習モデル生成部)181は、画像・音声データベース161から取得したカスタマ側ユーザ11の画像と音声データの特徴量を取得し、この特徴量に対して、図33(b)に示すカスタマ側ユーザ11が入力した興味・関心・好感スコア(評価値)=1を対応付ける。
 すなわち、スコア入力直前30秒間のカスタマ側ユーザ11の画像と音声データとと、カスタマ側ユーザ11が入力した興味・関心・好感スコア(評価値)を対応付けたデータセットを教師データとした学習処理を実行する。
 カスタマ側ユーザ11が入力した興味・関心・好感スコア(評価値)は、画像音声データに対するアノテーションデータ(回答メタデータ)として利用される。
 このようなデータセットを多数、用いた学習処理を行うことで、一定期間(例えば30秒)のカスタマ側ユーザ11の画像と音声データに基づいてカスタマ側ユーザ11の興味・関心・好感スコア(評価値)を推定する興味度推定器(興味度推定学習モデル)191を生成することができる。
 図33に示す例では、図33(b)に示す興味・関心・好感スコア(評価値)=1を入力する直前のカスタマ側ユーザ11の画像、音声には、カスタマ側ユーザ11の困った顔や、「え~」、「ん~」等の音声データが記録されている。
 例えば、興味度推定器生成部(興味度推定学習モデル生成部)181は、カスタマ側ユーザ11の画像、音声にこのようなデータが記録されている場合、カスタマ側ユーザ11の興味・関心・好感スコア(評価値)の値は低くなる傾向があることを学習することができる。
 図34に異なる学習データの例を示す。
 図34(b)には興味・関心・好感スコアデータベース171から、ミーティング期間中にカスタマ側ユーザ11が入力した興味・関心・好感スコア(評価値)=5を示している。
 図34(a)には、このスコア=5を入力する直前のカスタマ側ユーザ11の画像、音声データを示している。
 図34(a)には、カスタマ側ユーザ11の納得した顔や、「なるほど」、「そうか」等の音声データが記録されている。
 興味度推定器生成部(興味度推定学習モデル生成部)181は、カスタマ側ユーザ11の画像、音声にこのようなデータが記録されている場合、カスタマ側ユーザ11の興味・関心・好感スコア(評価値)の値は高くなる傾向があることを学習することができる。
 図35に示す例は、セールス側ユーザ12の画像と音声データを用いた学習処理の例である。
 図35(b)には興味・関心・好感スコアデータベース171から、ミーティング期間中にカスタマ側ユーザ11が入力した興味・関心・好感スコア(評価値)=1を示している。
 図35(a)には、このスコア=1を入力する直前のセールス側ユーザ12の画像、音声データを示している。
 図35(a)には、セールス側ユーザ12の悩んだ顔や、「その件は」、「調べてみます」等の音声データが記録されている。
 興味度推定器生成部(興味度推定学習モデル生成部)181は、セールス側ユーザ12の画像、音声にこのようなデータが記録されている場合、カスタマ側ユーザ11の興味・関心・好感スコア(評価値)の値は低くなる傾向があることを学習することができる。
 このように、興味度推定器生成部(興味度推定学習モデル生成部)181は、ミーティング期間中にカスタマ側ユーザ11が入力した興味・関心・好感スコア(評価値)と、カスタマ側ユーザ11、またはセールス側ユーザ12、少なくともいずれかの画像、音声データとによって構成される学習データを多数、入力して学習処理を実行する。
 興味度推定器生成部(興味度推定学習モデル生成部)181は、学習処理結果として、カスタマ側ユーザの画像と音声データ、またはセールス側ユーザの画像と音声データの少なくともいずれかの画像、音声データに基づいて、カスタマ側ユーザの興味・関心・好感スコアを推定する興味度推定器(興味度推定学習モデル)191を生成する。
 すなわち、興味度推定器生成部(興味度推定学習モデル生成部)181は、図36に示すように、カスタマ側ユーザの画像と音声データ、またはセールス側ユーザの画像と音声データの少なくともいずれかの画像、音声データを入力し、出力として、カスタマ側ユーザの興味・関心・好感スコアの推定値を出力する興味度推定器(興味度推定学習モデル)191を生成する。
 すなわち、通信ネットワークを介したミーティングに参加する1人以上のユーザの画像データ、または音声データの少なくともいずれかのデータに基づいてユーザ状態を推定する推定器(学習モデル)を生成する。
 図33~図36を参照して説明した例は、興味度推定器生成部(興味度推定学習モデル生成部)181による学習処理と、この学習結果として生成する興味度推定器(興味度推定学習モデル)191の利用例である。
 この他の理解度推定器生成部(理解度推定学習モデル生成部)182、疲労度推定器生成部(疲労度推定学習モデル生成部)183もそれぞれ同様の学習処理を実行する。
 理解度推定器生成部(理解度推定学習モデル生成部)182は、カスタマ側ユーザの画像と音声データ、またはセールス側ユーザの画像と音声データの少なくともいずれかの画像、音声データを入力し、出力として、カスタマ側ユーザの理解・納得・満足スコアの推定値を出力する理解度推定器(理解度推定学習モデル)192を生成する。
 さらに、疲労度推定器生成部(疲労度推定学習モデル生成部)183は、カスタマ側ユーザの画像と音声データ、またはセールス側ユーザの画像と音声データの少なくともいずれかの画像、音声データを入力し、出力として、カスタマ側ユーザの疲労・ストレススコアの推定値を出力する疲労度推定器(疲労度推定学習モデル)193を生成する。
  [6.ユーザ状態変化理由推定部において利用する学習モデルとルールベースモデルの生成処理について]
 次に、ユーザ状態変化理由推定部において利用する学習モデルとルールベースモデルの生成処理について説明する。
 先に図6を参照して説明したように、情報処理装置100のユーザ状態変化理由推定部108は、例えばユーザ状態出力スコア算出部106が算出したカスタマ側ユーザ11のユーザ状態出力スコアの値が大きく変化した場合に、その変化理由を推定する処理を実行する。
 ユーザ状態変化理由推定部108は、予め生成した学習モデル、あるいはルールベースモデルの少なくともいずれかを利用してユーザ状態が変化した理由の推定処理を実行する。
 以下では、ユーザ状態変化理由推定部において利用する学習モデルとルールベースモデルの生成処理について説明する。
 まず、ユーザ状態変化理由推定部において利用する学習モデルの生成処理について説明する。
 図37は、ユーザ状態変化理由推定部において利用する学習モデルの生成処理に利用する学習データを取得するための模擬ミーティング構成を示す図である。
 図37には、先に説明した図26と同様の学習データを取得するための模擬ミーティングの実行構成を示している。カスタマ側ユーザ11は実際のお客様ではなく、お客様の役割を実行する人とする。
 お客様役のカスタマユーザ11は、セールス側ユーザ12とのミーティング(商談)期間内において、以下の各ユーザ状態スコアを入力する。
 (ユーザ状態1)興味、関心、好感
 (ユーザ状態2)理解、納得、満足
 (ユーザ状態3)疲労、ストレス
 さらに、上記のユーザ状態スコアが予め規定したしきい値以上、変化した場合、例えば2段階以上変化した場合に、その理由(ユーザ状態変化理由)を選択する。
 あるいは、上記のユーザ状態スコアが最低スコア(スコア=1)、または最高スコア(スコア=5)となったとき、その理由(ユーザ状態変化理由)を選択する。
 ユーザ状態変化理由は予め複数、用意し、カスタマ側ユーザ端末21に選択候補となる理由を表示する。カスタマ側ユーザ11は、表示された複数の理由から該当する理由を選択する。
 カスタマ側ユーザ端末21に表示するためのスコア変化理由は、例えば図38に示すようなデータである。
 (ユーザ状態1)興味、関心、好感スコアが、良い方向に変化(ポジティブ変化)する理由として、
 (1)発話率バランスがよい
 (2)自分の意図をくみ取ってくれる
 (3)機嫌を取ってくれる
 (4)有益な情報を得られた
 例えば、これらの理由が登録されており、カスタマ側ユーザ端末21に表示される。
 また、(ユーザ状態1)興味、関心、好感スコアが、悪い方向に変化(ネガティブ変化)する理由として、
 (1)説明がくどい
 (2)自分の意図をくみ取ってくれない
 (3)機嫌を取ってくれない
 (4)聞いていないことを答えた
 例えば、これらの理由が登録されており、カスタマ側ユーザ端末21に表示される。
 (ユーザ状態2)理解、納得、満足が、良い方向に変化(ポジティブ変化)する理由として、
 (1)自分の意図通りの回答が得られた
 (2)説明が十分である
 (3)発話率バランスがよい
 例えば、これらの理由が登録されており、カスタマ側ユーザ端末21に表示される。
 また、(ユーザ状態2)理解、納得、満足が、悪い方向に変化(ネガティブ変化)する理由として、
 (1)質問意図と異なる回答があった
 (2)相槌が多い
 (3)説明が足らない
 (4)沈黙が多い
 例えば、これらの理由が登録されており、カスタマ側ユーザ端末21に表示される。
 (ユーザ状態3)疲労、ストレスが、良い方向に変化(ポジティブ変化)する理由として、
 (1)理解できている状態が継続している
 例えば、これらの理由が登録されており、カスタマ側ユーザ端末21に表示される。
 また、(ユーザ状態3)疲労、ストレスが、悪い方向に変化(ネガティブ変化)する理由として、
 (1)休憩がない
 例えば、これらの理由が登録されており、カスタマ側ユーザ端末21に表示される。
 なお、上記した理由は一部であり、この他にも様々な理由が登録され、表示される。
 カスタマユー側ユーザ11が模擬ミーティング実行中にカスタマ側ユーザ端末21に入力したデータ、すなわち、ユーザ状態スコアと、スコア変化理由の選択データは、情報処理装置100に送信され、情報処理装置100の学習処理部において学習モデル生成のための機械学習が実行される。
 図39以下を参照して、情報処理装置100が実行する機械学習処理による学習モデル生成処理例について説明する。
 図39に示すように、情報処理装置100は、カスタマ側ユーザ端末21から、ミーティング期間中の以下の各データを取得する。
 画像データ
 音声データ
 ユーザ状態スコア
 ユーザ状態変化理由
 なお、ユーザ状態スコアには、以下の各スコアが含まれる。
 (ユーザ状態1対応スコア)=興味、関心、好感スコア
 (ユーザ状態2対応スコア)=理解、納得、満足スコア
 (ユーザ状態3対応スコア)=疲労、ストレススコア
 ユーザ状態変化理由にも上記ユーザ状態スコア各々の変化理由が含まれる。
 ユーザ状態変化理由は、上記のユーザ状態スコアのいずれかが予め規定したしきい値以上、変化した場合、例えば2段階以上変化した場合、あるいは、上記のユーザ状態スコアが最低スコア(スコア=1)、または最高スコア(スコア=5)となったときに、カスタマ側ユーザ11が選択した理由である。
 画像データ、音声データは、カスタマ側ユーザ端末21のカメラ、マイクによって取得されるカスタマ側ユーザ11の顔画像を含む画像データと、カスタマ側ユーザ11の発話音声データである。
 ユーザ状態スコアと、ユーザ状態変化理由は、先に図38を参照して説明したように、カスタマ側ユーザ11がミーティング期間中カスタマ側ユーザ端末21に入力したユーザ状態のスコア(評価値)と、ユーザ状態変化理由である。
 情報処理装置100は、これらのデータを情報処理装置100内の記憶部(データベース)に格納する。
 図39に示すように、画像データ、音声データは、画像・音声データベース161に格納する。
 ユーザ状態スコアは、ユーザ状態スコアデータベース170に格納し、ユーザ状態変化理由は、ユーザ状態変化理由データベース175に格納する。
 情報処理装置100は、さらに、セールス側ユーザ端末22からも、ミーティング期間中の以下の各データを取得する。
 画像データ
 音声データ
 これらの画像データ、音声データは、セールス側ユーザ端末22のカメラ、マイクによって取得されるセールス側ユーザ12の顔画像を含む画像データと、セールス側ユーザ12の発話音声データである。
 これらのデータも、情報処理装置100の画像・音声データベース161に記録される。
 なお、画像・音声データベース161に記録される画像、音声データには、属性情報として、画像、音声の取得時間を示すタイムスタンプ等の記録時間情報、さらに画像、音声がカスタマ側ユーザ端末21から取得したカスタマ側ユーザ11のデータであるか、セールス側ユーザ端末22から取得したセールス側ユーザ12のデータであるかを識別するためのユーザ識別情報等が記録されている。
 なお、図39に示す例では、カスタマ側ユーザ11の心拍情報等の収集は行っていないが、例えばカスタマ側ユーザ11の心拍情報等のセンサー検出情報を利用したユーザ状態変化理由推定処理を行う学習モデルを生成する場合には、カスタマ側ユーザ11の心拍情報等の収集も実行し、センサー検出情報も含めた学習処理を実行する。
 図40は、情報処理装置100が実行する機械学習処理の構成と処理を説明する図である。
 図40に示すように、情報処理装置100は、ユーザ状態変化理由推定器生成部(ユーザ状態変化理由推定学習モデル生成部)184を有する。
 ユーザ状態変化理由推定器生成部(ユーザ状態変化理由推定学習モデル生成部)184は、ユーザ状態スコアデータベース170の格納データと、ユーザ状態変化理由データベース175の格納データと、画像音声データベース161の格納データを利用した機械学習処理を実行して、ユーザ状態変化理由推定器(ユーザ状態変化理由推定学習モデル)194を生成する。
 なお、図40に示すユーザ状態スコアデータベース170は、
 (ユーザ状態1対応スコア)=興味、関心、好感スコア
 (ユーザ状態2対応スコア)=理解、納得、満足スコア
 (ユーザ状態3対応スコア)=疲労、ストレススコア
 これらの各ユーザ状態スコアが個別に格納されている。
 ユーザ状態変化理由データベース175にも、上記ユーザ状態スコア各々の変化理由が個別に格納されている。
 ユーザ状態変化理由推定器生成部(ユーザ状態変化理由推定学習モデル生成部)184は、以下の各ユーザ状態に対応する3つのユーザ状態変化理由推定器(ユーザ状態変化理由推定学習モデル)194を生成する。
 (ユーザ状態1)=興味、関心、好感
 (ユーザ状態2)=理解、納得、満足
 (ユーザ状態3)=疲労、ストレス
 ユーザ状態変化理由推定器生成部(ユーザ状態変化理由推定学習モデル生成部)184は、以下の各データを利用した機械学習処理を実行して、ユーザ状態変化理由推定器(ユーザ状態変化理由推定学習モデル)194を生成する。
 (a)ミーティング期間中のカスタマ側ユーザ11、およびセールス側ユーザ12の画像と音声、
 (b)ミーティング期間中にカスタマ側ユーザ11が入力したユーザ状態スコア
 (c)ミーティング期間中にカスタマ側ユーザ11が入力したユーザ状態変化理由
 情報処理装置100の学習処理部は、例えば機械学習処理としての深層学習処理を実行する。
 例えば、ミーティング期間中にカスタマ側ユーザ11が入力したユーザ状態スコアと、ユーザ状態変化理由と、画像音声データベース161の格納データを教師データとした「教師あり学習処理」を実行する。
 この学習処理によって、カスタマ側ユーザの画像と音声データ、またはセールス側ユーザの画像と音声データの少なくともいずれかの画像、音声データに基づいて、カスタマ側ユーザのユーザ状態スコアと、ユーザ状態変化理由を推定するユーザ状態変化理由推定器(ユーザ状態変化理由推定学習モデル)194を生成する。
 なお、先に図22を参照して説明したように、ユーザ状態変化理由推定結果統合処理部143はセールス側ユーザ端末22に対して、ユーザ状態変化理由のみならず、ミーティング結果推定情報や、ユーザ状態スコア算出に適用する重み推薦情報を出力する構成としてもよい。
 このような構成とする場合は、模擬ミーティングによる学習処理に際してミーティング結果情報や、最適なスコア算出適用重みも学習する。このような学習処理によって、ミーティング結果情報や最適なスコア算出適用重みについても学習モデルを適用して取得することが可能となる。
 次に、図41を参照して、情報処理装置100のユーザ状態変化理由推定部108において利用するルールベースモデルの生成処理について説明する。
 先に図6を参照して説明したように、情報処理装置100のユーザ状態変化理由推定部108は、例えばユーザ状態出力スコア算出部106が算出したカスタマ側ユーザ11のユーザ状態出力スコアの値が大きく変化した場合に、その変化理由を推定する処理を実行する。
 ユーザ状態変化理由推定部108は、予め生成した学習モデル、あるいはルールベースモデルの少なくともいずれかを利用してユーザ状態が変化した理由の推定処理を実行する。
 図41を参照して、ユーザ状態変化理由推定部108において利用するルールベースモデルの生成処理について説明する。
 ルールベースモデルは、例えば、先に説明した図21に示すように、カスタマ側ユーザ11やセールス側ユーザの様々な発話テキストと、ユーザ状態変化理由とを対応付けて記録したルールを記録したモデルである。
 ルールベースモデルは、ユーザ状態変化理由推定ルールの記録データであり、
 (ユーザ状態1)=興味、関心、好感
 (ユーザ状態2)=理解、納得、満足
 (ユーザ状態3)=疲労、ストレス
 これらユーザ状態各々の個別のルールベースモデル(ユーザ状態変化理由推定ルール)を生成することになる。
 図41を参照して、
 (ユーザ状態1)=興味、関心、好感
 このユーザ状態1対応のルールベースモデル(ユーザ状態変化理由推定ルール)の生成処理例について説明する。
 図41に示すように、情報処理装置100は、興味度変化理由推定ルール生成部185を有する。
 興味度変化理由推定ルール生成部185は、興味・関心・好感スコアデータベース171の格納データと、興味・関心・好感スコア変化理由データベース174の格納データと、画像音声データベース161の格納データを利用した機械学習処理を実行して、興味度変化理由推定ルール(ルールベースモデル)195を生成する。
 すなわち、興味度変化理由推定ルール生成部185は、以下の各データを利用して、興味度変化理由推定ルール(ルールベースモデル)195を生成する。
 (a)ミーティング期間中のカスタマ側ユーザ11、およびセールス側ユーザ12の画像と音声、
 (b)ミーティング期間中にカスタマ側ユーザ11が入力したユーザ状態スコア
 (c)ミーティング期間中にカスタマ側ユーザ11が入力したユーザ状態変化理由
 情報処理装置100の興味度変化理由推定ルール生成部185は、ミーティング期間中にカスタマ側ユーザ11が入力したユーザ状態スコアが規定しきい値以上、変化したタイミング、あるいは、ユーザ状態スコアが最低値、または最高値となったタイミングのカスタマ側ユーザ11、またはセールス側ユーザ12少なくともいずれかの画像と音声を取得し、これらのデータと、そのタイミングにおけるカスタマ側ユーザ11が入力したユーザ状態変化理由とを対応付けて記録する。
 これらのデータ取得、記録処理は、所定のプログラムに従って自動的に実行する構成としてもよいし、オペレータが実行してもよい。
 これらのデータ取得、記録処理を行うことで、図に示す興味度変化理由推定ルール(ルールベースモデル)195が生成される。
 なお、先に説明した学習モデルと同様、ユーザ状態変化理由推定結果統合処理部143がセールス側ユーザ端末22に対して、ユーザ状態変化理由のみならず、ミーティング結果推定情報や、ユーザ状態スコア算出に適用する重み推薦情報を出力する構成とする場合は、生成するルールにミーティング結果情報や、最適なスコア算出適用重みも記録する。このようなルールを生成することで、ミーティング結果情報や最適なスコア算出適用重みについても生成ルールから取得することが可能となる。
 図42は、上述した学習モデルの生成処理やルールベースモデルの生成処理を実行する情報処理装置100の構成例を示すブロック図である。
 なお、学習モデルの生成処理やルールベースモデルの生成処理を実行する情報処理装置は、先に図6を参照して説明した情報処理装置100、すなわち生成された学習モデルを利用したユーザ状態推定処理等を実行する情報処理装置100と同一の装置としてもよいし、別の装置としてもよい。
 ここでは、学習処理を実行して学習モデルを生成する装置と、生成した学習モデルを利用してユーザ状態推定処理を実行する装置を同一の情報処理装置100とした例について説明する。
 この場合、情報処理装置100は、先に図6を参照して説明した構成と、以下に説明する図42に示す構成を併せて有する装置となる。
 図42に示す構成は、情報処理装置100の一部構成であり、学習モデルの生成処理やルールベースモデルの生成処理を実行する構成を示している。
 図42に示すように情報処理装置100は、通信部201、記憶部202、第1学習処理部(ユーザ状態推定学習モデル生成部)203、第2学習処理部(ユーザ状態変化理由推定学習モデル生成部)204、ユーザ状態変化理由推定ルール生成部205を有する。
 なお、記憶部202は、画像・音声データベース211、興味・関心・好感スコアデータベース212、理解・納得・満足スコアデータベース213、疲労・ストレススコアデータベース214、興味・関心・好感スコア変化理由データベース215、理解・納得・満足スコア変化理由データベース216、疲労・ストレススコア変化理由データベース217を有する。
 通信部201は、カスタマ側ユーザ端末21や、セールス側ユーザ端末22との通信を実行する。各端末から画像、音声データを入力する。
 ユーザ状態推定学習モデルの生成処理を行う場合は、カスタマ側ユーザ端末21から、カスタマ側ユーザの入力したユーザ状態スコア(評価値)を入力する。
 ユーザ状態変化理由推定学習モデルの生成処理を行う場合は、カスタマ側ユーザ端末21から、カスタマ側ユーザの入力したユーザ状態変化理由を入力する。
 記憶部202の画像・音声データベース211には、カスタマ側ユーザ端末21や、セールス側ユーザ端末22から送信される画像、音声データを格納する。
 興味・関心・好感スコアデータベース212、理解・納得・満足スコアデータベース213、疲労・ストレススコアデータベース214の各々には、ユーザ状態推定器(学習モデル)の生成処理実行時にカスタマ側ユーザ端末21から入力したユーザ状態スコア(評価値)を格納する。前述したように、これらはタイムスタンプが属性データとして付加されている。
 興味・関心・好感スコア変化理由データベース215、理解・納得・満足スコア変化理由データベース216、疲労・ストレススコア変化理由データベース217、これらのデータベースには、ユーザ状態変化理由推定学習モデルの生成処理時にカスタマ側ユーザ端末21から入力したユーザ状態変化理由データが格納されている。これらにもタイムスタンプが属性データとして付加されている。
 第1学習処理部(ユーザ状態推定学習モデル生成部)203は、記憶部202の各データベースの格納データを利用した学習処理を実行し、ユーザ状態推定学習モデルを生成する。具体的には、以下の3種類のユーザ状態推定学習モデルを生成する。
 (a)興味・関心・好感スコア推定学習モデル
 (b)理解・納得・満足スコア推定学習モデル
 (c)疲労・ストレススコア推定学習モデル
 なお、第1学習処理部(ユーザ状態推定学習モデル生成部)203は、例えば、新たな学習データが記憶部202に格納された場合、それらのデータを利用した学習処理を行って生成済みの学習モデルを逐次、更新する処理も実行する。
 第2学習処理部(ユーザ状態変化理由推定学習モデル生成部)204は、記憶部202の各データベースの格納データを利用した学習処理を実行し、ユーザ状態変化理由推定学習モデルを生成する。具体的には、以下の3種類のユーザ状態変化理由推定学習モデルを生成する。
 (a)興味・関心・好感スコア変化理由推定学習モデル
 (b)理解・納得・満足スコア変化理由推定学習モデル
 (c)疲労・ストレススコア変化理由推定学習モデル
 なお、第2学習処理部(ユーザ状態変化理由推定学習モデル生成部)204は、例えば、新たな学習データが記憶部202に格納された場合、それらのデータを利用した学習処理を行って生成済みの学習モデルを逐次、更新する処理も実行する。
 ユーザ状態変化理由推定ルール生成部205は、記憶部202の各データベースの格納データを利用したルール生成処理を実行し、ユーザ状態変化理由推定ルール(ルールベースモデル)を生成する。具体的には、以下の3種類のユーザ状態変化理由推定ルール(ルールベースモデル)を生成する。
 (a)興味・関心・好感スコア変化理由推定ルール(ルールベースモデル)
 (b)理解・納得・満足スコア変化理由推定ルール(ルールベースモデル)
 (c)疲労・ストレススコア変化理由推定学ルール(ルールベースモデル)
 なお、ユーザ状態変化理由推定ルール生成部205も、例えば、新たなデータが記憶部202に格納された場合、それらのデータを利用したルール生成処理を行って生成済みのユーザ状態変化理由推定ルール(ルールベースモデル)を逐次、更新する処理を実行する。
  [7.情報処理装置、およびユーザ端末の構成例について]
 次に、情報処理装置、およびユーザ端末の構成例について説明する。
 図43を参照して本開示の情報処理システムを構成する3つの装置、すなわち、情報処理装置100、カスタマ側ユーザ端末21、セールス側ユーザ端末22の構成例について説明する。
 図43に示す情報処理装置100は、先に図6を参照して説明した情報処理装置100の構成と、図42を参照して説明した情報処理装置100の構成を併せ持つ情報処理装置100である。
 この構成は、図6、図42を参照して説明した通りであるので説明を省略する。
 カスタマ側ユーザ端末21は、入力部310と、出力部320、および通信部330を有する。
 入力部310は、音声入力部(マイク)311と、画像入力部(カメラ)312と、ユーザ入力部(UI)313を有する。
 出力部320は、音声出力部(スピーカ)321と、画像出力部(表示部)322を有する。
 入力部310の音声入力部(マイク)311は、カスタマ側ユーザの声などの音声データを取得する。取得音声データは通信部330を介して、セールス側ユーザ端末22と、情報処理装置100に送信される。
 画像入力部(カメラ)312は、カスタマ側ユーザの顔画像などの画像データを取得する。取得画像データは通信部330を介して、セールス側ユーザ端末22と、情報処理装置100に送信される。
 ユーザ入力部(UI)313は、例えば情報処理装置100においてユーザ状態推定器(学習モデル)生成処理を実行する際に、カスタマ側ユーザ11によるユーザ状態スコア(評価値)や、ユーザ状態変化理由などの入力用インタフェースである。例えばタッチパネル形式の表示部が利用される。
 カスタマ側ユーザ11が入力したユーザ状態スコア(評価値)や、ユーザ状態変化理由の入力データは、情報処理装置100に送信され、学習モデル生成処理などに利用される。
 センサー検出値入力部314は、例えば心拍センサー等、カスタマ側ユーザに装着された生体情報取得センサーの検出値を取得する。取得データは通信部330を介して、セールス側ユーザ端末22と、情報処理装置100に送信される。
 次に、セールス側ユーザ端末22の構成について説明する。
 セールス側ユーザ端末22は、入力部410と、出力部420、および通信部430を有する。
 入力部410は、音声入力部(マイク)411と、画像入力部(カメラ)412を有する。
 出力部420は、音声出力部(スピーカ)421と、画像出力部(表示部)422を有する。
 入力部410の音声入力部(マイク)411は、セールス側ユーザの声などの音声データを取得する。取得音声データは通信部430を介して、カスタマ側ユーザ端末21と、情報処理装置100に送信される。
 画像入力部(カメラ)412は、セールス側ユーザの顔画像などの画像データを取得する。取得画像データは通信部430を介して、カスタマ側ユーザ端末21と、情報処理装置100に送信される。
 ユーザ入力部(UI)413は、例えば情報処理装置100におけるユーザ状態スコア算出時に適用する重みパラメータの設定、変更などを行うための入力用インタフェースである。例えばタッチパネル形式の表示部が利用される。
  [8.情報処理装置、およびユーザ端末のハードウェア構成例について]
 次に、情報処理装置、およびユーザ端末のハードウェア構成例について説明する。
 図44は、本開示の情報処理装置100、およびユーザ端末であるカスタマ側ユーザ端末21、セールス側ユーザ端末22のハードウェア構成の一例を示す図である。
 以下、図44に示すハードウェア構成について説明する。
 CPU(Central Processing Unit)501は、ROM(Read Only Memory)502、または記憶部508に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)503には、CPU501が実行するプログラムやデータなどが記憶される。これらのCPU501、ROM502、およびRAM503は、バス504により相互に接続されている。
 CPU501はバス504を介して入出力インタフェース505に接続され、入出力インタフェース505には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部506、ディスプレイ、スピーカーなどよりなる出力部507が接続されている。CPU501は、入力部506から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部507に出力する。
 入出力インタフェース505に接続されている記憶部508は、例えばハードディスク等からなり、CPU501が実行するプログラムや各種のデータを記憶する。通信部509は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース505に接続されているドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア511を駆動し、データの記録あるいは読み取りを実行する。
  [9.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) ユーザの画像データ、または音声データの少なくともいずれかのデータに基づいてユーザ状態を示すユーザ状態スコアを推定するユーザ状態推定部と、
 前記ユーザ状態推定部が推定したユーザ状態スコアに基づいてユーザ端末に出力するユーザ状態出力スコアを算出するユーザ状態出力スコア算出部を有し、
 前記ユーザ状態出力スコア算出部が算出したユーザ状態出力スコアの時間変化を示すグラフを前記ユーザ端末に表示させることを可能とした情報処理装置。
 (2) 前記ユーザ状態推定部によるユーザ状態推定対象ユーザと、
 前記グラフが表示されるユーザ端末側のユーザは、
 異なるユーザであり、
 前記グラフは、該グラフが表示されるユーザ端末側のユーザが他のユーザのユーザ状態を確認可能としたグラフである(1)に記載の情報処理装置。
 (3) 前記ユーザ状態推定部によるユーザ状態推定対象ユーザと、
 前記グラフが表示されるユーザ端末側のユーザは、
 いずれも通信ネットワークを介したミーティングに参加するユーザである(2)に記載の情報処理装置。
 (4) 前記ユーザ状態推定部は、
 前記ユーザの興味度レベルを示す興味度スコア、または前記ユーザの理解度レベルを示す理解度スコア、または前記ユーザの疲労度レベルを示す疲労度スコアの少なくともいずれかのユーザ状態スコアを推定する(1)~(3)いずれかに記載の情報処理装置。
 (5) 前記ユーザ状態出力スコア算出部は、
 前記ユーザ状態推定部が推定した興味度スコアに基づいて、前記ユーザ端末に出力する興味度出力スコアの算出処理、または、
 前記ユーザ状態推定部が推定した理解度スコアに基づいて、前記ユーザ端末に出力する理解度出力スコアの算出処理、または、
 前記ユーザ状態推定部が推定した疲労度スコアに基づいて、前記ユーザ端末に出力する疲労度出力スコアの算出処理の少なくともいずれかのユーザ状態出力スコアの算出処理を実行する(4)に記載の情報処理装置。
 (6) 前記ユーザ状態推定部は、
 前記ユーザの音声に基づいてユーザ状態スコアを推定する音声ベースユーザ状態推定部と、
 前記ユーザの画像に基づいてユーザ状態スコアを推定する画像ベースユーザ状態推定部と、
 前記ユーザの発話内容に基づいてユーザ状態スコアを推定する語彙ベースユーザ状態推定部を有する(1)~(5)いずれかに記載の情報処理装置。
 (7) 前記ユーザ状態出力スコア算出部は、
 (a)前記音声ベースユーザ状態推定部が推定したユーザ状態スコア、
 (b)前記画像ベースユーザ状態推定部が推定したユーザ状態スコア、
 (c)前記語彙ベースユーザ状態推定部が推定したユーザ状態スコア、
 上記各ユーザ状態スコア(a)~(c)各々に対して固有の重みパラメータを乗算して加算する重みづけ加算処理を行って、前記ユーザ端末に出力するユーザ状態出力スコアを算出する(6)に記載の情報処理装置。
 (8) 前記ユーザ状態出力スコア算出部は、
 前記重みづけ加算処理に適用する重みパラメータを適宜、変更して前記ユーザ状態出力スコアを算出する(7)に記載の情報処理装置。
 (9) 前記ユーザ状態出力スコア算出部は、
 前記グラフが表示されるユーザ端末側のユーザが設定した重みパラメータを利用した重みづけ加算処理を行ってユーザ端末に出力するユーザ状態出力スコアを算出する(7)または(8)に記載の情報処理装置。
 (10) 前記ユーザ端末には、
 (a)前記音声ベースユーザ状態推定部が推定するユーザ状態スコア、
 (b)前記画像ベースユーザ状態推定部が推定するユーザ状態スコア、
 (c)前記語彙ベースユーザ状態推定部が推定するユーザ状態スコア、
 上記各ユーザ状態スコア各々に対応する重みパラメータを個別に調整可能とした重み調整用UIが表示され、
 前記ユーザ状態出力スコア算出部は、
 前記ユーザ端末側のユーザが前記重み調整用UIを利用して設定した重みパラメータを利用した重みづけ加算処理を行ってユーザ端末に出力するユーザ状態出力スコアを算出する(9)に記載の情報処理装置。
 (11) 前記ユーザ状態推定部は、
 予め生成した学習モデルを利用して、ユーザ状態を示すユーザ状態スコアを推定する(1)~(10)いずれかに記載の情報処理装置。
 (12) 前記学習モデルは、多層型のニューラルネットワークによって構成される学習モデルである(11)に記載の情報処理装置。
 (13) 前記ユーザ状態推定部は、
 前記ユーザの生体センサーの検出値を利用して前記ユーザ状態スコアを推定する(1)~(12)いずれかに記載の情報処理装置。
 (14) 前記情報処理装置は、さらに、
 前記ユーザのユーザ状態の変化理由を推定するユーザ状態変化理由推定部を有し、
 前記ユーザ状態変化理由推定部が推定したユーザ状態変化理由を前記ユーザ端末に表示させることを可能とした(1)~(13)いずれかに記載の情報処理装置。
 (15) 前記ユーザ状態変化理由推定部は、
 前記ユーザ状態出力スコア算出部が算出したスコアの変化量が予め規定したしきい値以上になった場合、または、
 前記ユーザ状態出力スコア算出部が算出したスコアが予め規定した値に等しくなった場合にユーザ状態変化理由の推定処理を実行する(14)に記載の情報処理装置。
 (16) 前記ユーザ状態変化理由推定部は、
 予め生成した学習モデル、または、予め生成したルールの少なくともいずれかを利用して、ユーザ状態変化理由を推定する(14)または(15)に記載の情報処理装置。
 (17) 前記ユーザ状態変化理由推定部は、さらに、
 前記ユーザが参加するミーティングの結果推定情報、またはユーザ状態スコア算出に適用する重みパラメータ推薦情報の少なくともいずれかの情報を生成し、生成した情報を前記ユーザ端末に表示させることを可能とした(14)~(16)いずれかに記載の情報処理装置。
 (18) 情報処理装置において実行する情報処理方法であり、
 ユーザ状態推定部が、
 ユーザの画像データ、または音声データの少なくともいずれかのデータに基づいてユーザ状態を示すユーザ状態スコアを推定するユーザ状態推定ステップと、
 ユーザ状態出力スコア算出部が、
 前記ユーザ状態推定ステップにおいて推定したユーザ状態スコアに基づいてユーザ端末に出力するユーザ状態出力スコアを算出するユーザ状態出力スコア算出ステップを実行し、
 前記ユーザ状態出力スコア算出部が算出したユーザ状態出力スコアの時間変化を示すグラフを前記ユーザ端末に表示させることを可能とした情報処理方法。
 (19) 情報処理装置において情報処理を実行させるプログラムであり、
 ユーザ状態推定部に、
 ユーザの画像データ、または音声データの少なくともいずれかのデータに基づいてユーザ状態を示すユーザ状態スコアを推定させるユーザ状態推定ステップと、
 ユーザ状態出力スコア算出部に、
 前記ユーザ状態推定ステップにおいて推定したユーザ状態スコアに基づいてユーザ端末に出力するユーザ状態出力スコアを算出させるユーザ状態出力スコア算出ステップを実行させ、
 前記ユーザ状態出力スコア算出部が算出したユーザ状態出力スコアの時間変化を示すグラフを前記ユーザ端末に表示させることを可能としたプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、ミーティング参加ユーザのユーザ状態を示すスコアの時間変化グラフやユーザ状態変化理由を推定して他のミーティング参加ユーザの端末に表示する構成が実現される。
 具体的には、例えば、通信ネットワークを介したミーティングに参加するユーザの画像データ、または音声データの少なくともいずれかのデータに基づいて、ユーザの興味度、理解度、疲労度いずれかのユーザ状態を示すユーザ状態スコアを推定し、推定したユーザ状態スコアに基づいて、ミーティングに参加するユーザのユーザ端末に出力するユーザ状態出力スコアを算出し、算出したユーザ状態出力スコアの時間変化を示すグラフやユーザ状態変化理由を他のミーティング参加ユーザのユーザ端末に表示する。
 本構成により、ミーティング参加ユーザのユーザ状態を示すスコアの時間変化グラフやユーザ状態変化理由を推定して他のミーティング参加ユーザの端末に表示する構成が実現される。
  11 カスタマ側ユーザ
  12 セールス側ユーザ
  21 カスタマ側ユーザ端末
  22 セールス側ユーザ端末
 100 情報処理装置
 101 通信部
 102 ユーザ状態推定部
 103 顧客情報取得部
 104 ミーティング情報取得部
 105 ミーティング実行環境情報取得部
 106 ユーザ状態出力スコア算出部
 107 スコア算出アルゴリズム制御部
 108 ユーザ状態変化理由推定部
 111 顧客情報データベース
 112 ミーティング(MTG)情報データベース
 121 音声ベースユーザ状態推定部
 122 画像ベースユーザ状態推定部
 123 語彙ベースユーザ状態推定部
 124 心拍ベースユーザ状態推定部
 131 興味、関心、好感出力スコア算出部
 132 理解、納得、満足出力スコア算出部
 133 疲労、ストレス出力スコア算出部
 141 ルールベースユーザ状態変化理由推定部
 142 学習モデルベースユーザ状態変化理由推定部
 143 ユーザ状態変化理由推定結果統合処理部
 151 音声解析部
 152 ルールベースモデル
 153 ルールベースユーザ状態変化理由決定部
 161 画像・音声データベース
 171 興味、関心、好感スコアデータベース
 172 理解、納得、満足スコアデータベース
 173 疲労、ストレススコアデータベース
 181 興味度推定器生成部(興味度推定学習モデル生成部)
 182 理解度推定器生成部(理解度推定学習モデル生成部)
 183 疲労度推定器生成部(疲労度推定学習モデル生成部)
 184 ユーザ状態変化理由推定器生成部(ユーザ状態変化理由推定学習モデル生成部)
 185 興味度変化理由推定ルール生成部
 191 興味度推定器(興味度推定学習モデル)
 192 理解度推定器(理解度推定学習モデル)
 193 疲労度推定器(疲労度推定学習モデル)
 194 ユーザ状態変化理由推定器(ユーザ状態変化理由推定学習モデル)
 195 興味度変化理由推定ルール(ルールベースモデル)
 201 通信部
 202 記憶部
 203 第1学習処理部(ユーザ状態推定学習モデル生成部)
 204 第2学習処理部(ユーザ状態変化理由推定学習モデル生成部)
 205 ユーザ状態変化理由推定ルール生成部
 211 画像・音声データベース
 212 興味・関心・好感スコアデータベース
 213 理解・納得・満足スコアデータベース
 214 疲労・ストレススコアデータベース
 215 興味・関心・好感スコア変化理由データベース
 216 理解・納得・満足スコア変化理由データベース
 217 疲労・ストレススコア変化理由データベース
 310 入力部
 311 音声入力部(マイク)
 312 画像入力部(カメラ)
 313 ユーザ入力部(UI)
 314 センサー検出値入力部
 320 出力部
 321 音声出力部(スピーカ)
 322 画像出力部(表示部)
 330 通信部
 410 入力部
 411 音声入力部(マイク)
 412 画像入力部(カメラ)
 420 出力部
 421 音声出力部(スピーカ)
 422 画像出力部(表示部)
 430 通信部
 501 CPU
 502 ROM
 503 RAM
 504 バス
 505 入出力インタフェース
 506 入力部
 507 出力部
 508 記憶部
 509 通信部
 510 ドライブ
 511 リムーバブルメディア

Claims (19)

  1.  ユーザの画像データ、または音声データの少なくともいずれかのデータに基づいてユーザ状態を示すユーザ状態スコアを推定するユーザ状態推定部と、
     前記ユーザ状態推定部が推定したユーザ状態スコアに基づいてユーザ端末に出力するユーザ状態出力スコアを算出するユーザ状態出力スコア算出部を有し、
     前記ユーザ状態出力スコア算出部が算出したユーザ状態出力スコアの時間変化を示すグラフを前記ユーザ端末に表示させることを可能とした情報処理装置。
  2.  前記ユーザ状態推定部によるユーザ状態推定対象ユーザと、
     前記グラフが表示されるユーザ端末側のユーザは、
     異なるユーザであり、
     前記グラフは、該グラフが表示されるユーザ端末側のユーザが他のユーザのユーザ状態を確認可能としたグラフである請求項1に記載の情報処理装置。
  3.  前記ユーザ状態推定部によるユーザ状態推定対象ユーザと、
     前記グラフが表示されるユーザ端末側のユーザは、
     いずれも通信ネットワークを介したミーティングに参加するユーザである請求項2に記載の情報処理装置。
  4.  前記ユーザ状態推定部は、
     前記ユーザの興味度レベルを示す興味度スコア、または前記ユーザの理解度レベルを示す理解度スコア、または前記ユーザの疲労度レベルを示す疲労度スコアの少なくともいずれかのユーザ状態スコアを推定する請求項1に記載の情報処理装置。
  5.  前記ユーザ状態出力スコア算出部は、
     前記ユーザ状態推定部が推定した興味度スコアに基づいて、前記ユーザ端末に出力する興味度出力スコアの算出処理、または、
     前記ユーザ状態推定部が推定した理解度スコアに基づいて、前記ユーザ端末に出力する理解度出力スコアの算出処理、または、
     前記ユーザ状態推定部が推定した疲労度スコアに基づいて、前記ユーザ端末に出力する疲労度出力スコアの算出処理の少なくともいずれかのユーザ状態出力スコアの算出処理を実行する請求項4に記載の情報処理装置。
  6.  前記ユーザ状態推定部は、
     前記ユーザの音声に基づいてユーザ状態スコアを推定する音声ベースユーザ状態推定部と、
     前記ユーザの画像に基づいてユーザ状態スコアを推定する画像ベースユーザ状態推定部と、
     前記ユーザの発話内容に基づいてユーザ状態スコアを推定する語彙ベースユーザ状態推定部を有する請求項1に記載の情報処理装置。
  7.  前記ユーザ状態出力スコア算出部は、
     (a)前記音声ベースユーザ状態推定部が推定したユーザ状態スコア、
     (b)前記画像ベースユーザ状態推定部が推定したユーザ状態スコア、
     (c)前記語彙ベースユーザ状態推定部が推定したユーザ状態スコア、
     上記各ユーザ状態スコア(a)~(c)各々に対して固有の重みパラメータを乗算して加算する重みづけ加算処理を行って、前記ユーザ端末に出力するユーザ状態出力スコアを算出する請求項6に記載の情報処理装置。
  8.  前記ユーザ状態出力スコア算出部は、
     前記重みづけ加算処理に適用する重みパラメータを適宜、変更して前記ユーザ状態出力スコアを算出する請求項7に記載の情報処理装置。
  9.  前記ユーザ状態出力スコア算出部は、
     前記グラフが表示されるユーザ端末側のユーザが設定した重みパラメータを利用した重みづけ加算処理を行ってユーザ端末に出力するユーザ状態出力スコアを算出する請求項7に記載の情報処理装置。
  10.  前記ユーザ端末には、
     (a)前記音声ベースユーザ状態推定部が推定するユーザ状態スコア、
     (b)前記画像ベースユーザ状態推定部が推定するユーザ状態スコア、
     (c)前記語彙ベースユーザ状態推定部が推定するユーザ状態スコア、
     上記各ユーザ状態スコア各々に対応する重みパラメータを個別に調整可能とした重み調整用UIが表示され、
     前記ユーザ状態出力スコア算出部は、
     前記ユーザ端末側のユーザが前記重み調整用UIを利用して設定した重みパラメータを利用した重みづけ加算処理を行ってユーザ端末に出力するユーザ状態出力スコアを算出する請求項9に記載の情報処理装置。
  11.  前記ユーザ状態推定部は、
     予め生成した学習モデルを利用して、ユーザ状態を示すユーザ状態スコアを推定する請求項1に記載の情報処理装置。
  12.  前記学習モデルは、多層型のニューラルネットワークによって構成される学習モデルである請求項11に記載の情報処理装置。
  13.  前記ユーザ状態推定部は、
     前記ユーザの生体センサーの検出値を利用して前記ユーザ状態スコアを推定する請求項1に記載の情報処理装置。
  14.  前記情報処理装置は、さらに、
     前記ユーザのユーザ状態の変化理由を推定するユーザ状態変化理由推定部を有し、
     前記ユーザ状態変化理由推定部が推定したユーザ状態変化理由を前記ユーザ端末に表示させることを可能とした請求項1に記載の情報処理装置。
  15.  前記ユーザ状態変化理由推定部は、
     前記ユーザ状態出力スコア算出部が算出したスコアの変化量が予め規定したしきい値以上になった場合、または、
     前記ユーザ状態出力スコア算出部が算出したスコアが予め規定した値に等しくなった場合にユーザ状態変化理由の推定処理を実行する請求項14に記載の情報処理装置。
  16.  前記ユーザ状態変化理由推定部は、
     予め生成した学習モデル、または、予め生成したルールの少なくともいずれかを利用して、ユーザ状態変化理由を推定する請求項14に記載の情報処理装置。
  17.  前記ユーザ状態変化理由推定部は、さらに、
     前記ユーザが参加するミーティングの結果推定情報、またはユーザ状態スコア算出に適用する重みパラメータ推薦情報の少なくともいずれかの情報を生成し、生成した情報を前記ユーザ端末に表示させることを可能とした請求項14に記載の情報処理装置。
  18.  情報処理装置において実行する情報処理方法であり、
     ユーザ状態推定部が、
     ユーザの画像データ、または音声データの少なくともいずれかのデータに基づいてユーザ状態を示すユーザ状態スコアを推定するユーザ状態推定ステップと、
     ユーザ状態出力スコア算出部が、
     前記ユーザ状態推定ステップにおいて推定したユーザ状態スコアに基づいてユーザ端末に出力するユーザ状態出力スコアを算出するユーザ状態出力スコア算出ステップを実行し、
     前記ユーザ状態出力スコア算出部が算出したユーザ状態出力スコアの時間変化を示すグラフを前記ユーザ端末に表示させることを可能とした情報処理方法。
  19.  情報処理装置において情報処理を実行させるプログラムであり、
     ユーザ状態推定部に、
     ユーザの画像データ、または音声データの少なくともいずれかのデータに基づいてユーザ状態を示すユーザ状態スコアを推定させるユーザ状態推定ステップと、
     ユーザ状態出力スコア算出部に、
     前記ユーザ状態推定ステップにおいて推定したユーザ状態スコアに基づいてユーザ端末に出力するユーザ状態出力スコアを算出させるユーザ状態出力スコア算出ステップを実行させ、
     前記ユーザ状態出力スコア算出部が算出したユーザ状態出力スコアの時間変化を示すグラフを前記ユーザ端末に表示させることを可能としたプログラム。
PCT/JP2022/043118 2022-01-17 2022-11-22 情報処理装置、および情報処理方法、並びにプログラム WO2023135939A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022005191 2022-01-17
JP2022-005191 2022-01-17

Publications (1)

Publication Number Publication Date
WO2023135939A1 true WO2023135939A1 (ja) 2023-07-20

Family

ID=87278916

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/043118 WO2023135939A1 (ja) 2022-01-17 2022-11-22 情報処理装置、および情報処理方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2023135939A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981632A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 情報公開装置
JP2005237668A (ja) * 2004-02-26 2005-09-08 Kazuya Mera コンピュータネットワークにおける感情を考慮した対話装置
WO2016181670A1 (ja) * 2015-05-11 2016-11-17 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2021044001A (ja) * 2015-05-07 2021-03-18 ソニー株式会社 情報処理システム、制御方法、およびプログラム
JP2021125734A (ja) * 2020-02-03 2021-08-30 マルコムホールディングス株式会社 対話ユーザの感情情報の提供装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981632A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 情報公開装置
JP2005237668A (ja) * 2004-02-26 2005-09-08 Kazuya Mera コンピュータネットワークにおける感情を考慮した対話装置
JP2021044001A (ja) * 2015-05-07 2021-03-18 ソニー株式会社 情報処理システム、制御方法、およびプログラム
WO2016181670A1 (ja) * 2015-05-11 2016-11-17 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2021125734A (ja) * 2020-02-03 2021-08-30 マルコムホールディングス株式会社 対話ユーザの感情情報の提供装置

Similar Documents

Publication Publication Date Title
CN106663383B (zh) 分析受试者的方法和***
US9900436B2 (en) Coordinating voice calls between representatives and customers to influence an outcome of the call
US10720175B2 (en) Conferencing system and method for controlling the conferencing system
JP6263308B1 (ja) 認知症診断装置、認知症診断方法、及び認知症診断プログラム
JP6755304B2 (ja) 情報処理装置
TW201935272A (zh) 基於多模態情緒與臉部屬性識別的人機交互方法、系統
CN115413348A (zh) 用于自动验证和量化面试问题回答的***和方法
JP7036046B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP6715410B2 (ja) 評価方法、評価装置、評価プログラム、および、評価システム
Coperich et al. Continuous improvement study of chatbot technologies using a human factors methodology
de Kok et al. A survey on evaluation metrics for backchannel prediction models
WO2023135939A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
CN114566187B (zh) 操作包括电子装置的***的方法、电子装置及其***
US20230290505A1 (en) Context Aware Assessment
EP4020352A1 (en) System and methods for evaluation of interpersonal interactions to predict real world performance
Wei Development and evaluation of an emotional lexicon system for young children
WO2023119992A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
Suzuki et al. VFep: 3D graphic face representation based on voice-based emotion recognition
JP7465040B1 (ja) コミュニケーション可視化システム
US20240202634A1 (en) Dialogue training device, dialogue training system, dialogue training method, and computer-readable medium
CN116760942B (zh) 一种全息互动远程会议方法及***
JP7152825B1 (ja) ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
WO2022145041A1 (ja) ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
WO2022145039A1 (ja) ビデオミーティング評価端末、ビデオミーティング評価システム及びビデオミーティング評価プログラム
WO2022025025A1 (ja) 感情解析システムおよび感情解析装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22920459

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023573875

Country of ref document: JP

Kind code of ref document: A