WO2019102884A1 - ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 - Google Patents

ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 Download PDF

Info

Publication number
WO2019102884A1
WO2019102884A1 PCT/JP2018/041803 JP2018041803W WO2019102884A1 WO 2019102884 A1 WO2019102884 A1 WO 2019102884A1 JP 2018041803 W JP2018041803 W JP 2018041803W WO 2019102884 A1 WO2019102884 A1 WO 2019102884A1
Authority
WO
WIPO (PCT)
Prior art keywords
emotion
utterance
correct
label
learning
Prior art date
Application number
PCT/JP2018/041803
Other languages
English (en)
French (fr)
Inventor
厚志 安藤
歩相名 神山
哲 小橋川
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US16/763,360 priority Critical patent/US11551708B2/en
Priority to JP2019555260A priority patent/JP6933264B2/ja
Publication of WO2019102884A1 publication Critical patent/WO2019102884A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • the present invention relates to a technology for recognizing a speaker's emotion.
  • Recognizing the speaker's emotion from speech is an important technique. For example, by recognizing the emotions of the speaker at the time of counseling, it is possible to visualize the patient's feelings of anxiety and sadness, and it is expected to deepen the understanding of the counselor and improve the quality of the instruction. Also, by recognizing human emotions in human-machine dialogues, it becomes possible to construct a more friendly dialogue system, such as rejoicing if people are happy and encouraging if they are sad. In the following, it is assumed that a certain utterance is an input, and a technique for estimating which of the emotion class (e.g. classified emotions, for example, normal, anger, joy, sadness, etc.) the emotion of the speaker included in the utterance corresponds to Called recognition.
  • the emotion class e.g. classified emotions, for example, normal, anger, joy, sadness, etc.
  • Non-Patent Document 1 discloses a conventional emotion recognition technology (hereinafter referred to as the prior art).
  • an acoustic feature for example, Mel-Frequency Cepstral Coefficient: MFCC, etc.
  • MFCC Mel-Frequency Cepstral Coefficient
  • a Long Short-Term Memory Recurrent Neural Network time series model based on deep learning
  • Emotion class estimation using LSTM-RNN At the time of learning of the LSTM-RNN model, a set of utterance and a set of correct emotion labels of the utterance determined by the result of human listening is used.
  • the correct emotion label is determined by the majority of emotion classes (hereinafter referred to as the correct emotion class for each listener) in which a plurality of persons listen to the utterance and each listener feels the correct answer.
  • the correct emotion label is not decided by the majority decision (for example, when all assign different emotion classes)
  • the utterance is regarded as not having the correct emotion label, and thus can not be used for model learning.
  • the present invention has been made in view of these points, and it is an object of the present invention to improve emotion recognition accuracy using limited learning data.
  • a plurality of emotion classes C 1 listener who listens to the first utterance, ..., and enter the correct emotion class selected from C K as the correct value of a speaker emotional first utterance, emotion class as the correct emotion class C i
  • the number of times n i is selected is obtained, and the ratio of the number n k to the total number of times n 1 ,..., N K or the smoothed value of the ratio is taken as the correct emotion software label t k (s) obtain.
  • emotion recognition accuracy can be improved using limited learning data.
  • FIG. 1 is a block diagram illustrating the functional configuration of the label generation device of the first embodiment.
  • FIG. 2 is a conceptual diagram for explaining the correct emotion soft label of the embodiment.
  • FIG. 3 is a block diagram illustrating the functional configuration of the label generation device of the second embodiment.
  • FIG. 4 is a block diagram illustrating the functional configuration of the label generation device of the third embodiment.
  • the point of the method described in the embodiment aims to use all learning data for model learning, including utterances (voiced speech) for which the correct emotion label can not be determined by majority decision, and in the learning of the emotion recognition model, A correct emotion label (hereinafter referred to as a correct emotion soft label) capable of assigning a correct probability to the correct emotion class is created (FIG. 2).
  • the time-series model based on deep learning in the prior art gives a label such that the correct probability of only one emotion class is 1 and the correct probability of the other emotion class is 0 as correct emotion labels.
  • learning is performed by regarding only one emotion class as a correct answer and another emotion class as completely incorrect.
  • the correct probability probability of joy There is a label such that is 1, the correct probability of the other emotion class is 0.
  • an utterance whose correct emotion class can not be determined by the majority decision can not be determined for which emotion class the correct answer probability is 1 and therefore is not used for learning.
  • a correct emotion soft label is provided such that the correct probability is greater than 0 in a plurality of emotion classes.
  • a correct emotion soft label is given such that the correct answer probability of pleasure is 0.6 and the correct answer probability of ordinary is 0.4.
  • the correct probability is greater than 0 in a plurality of emotion classes.
  • the utterance can not determine the correct emotion class by majority, so that the prior art could not be used for model learning.
  • the utterance may have pleasure and normality, and can be used for model learning as other emotions do not appear.
  • data available for model learning increases, so that a robust model can be constructed as compared with the prior art.
  • Another advantage of the method described in the embodiment is that the similarity between emotion classes can be learned in a model. Since the correct emotion soft label corresponds to the correct probability of the plurality of emotion classes, it represents the similarity of the plurality of emotion classes to the utterance. In the above example, there are listeners who gave an emotion class of joy to a certain utterance and listeners who gave an emotion class of normality, so it can be said that the joy and the normal have a certain degree of similarity. On the other hand, since there is no listener who gave the emotion class of sadness to this utterance, it can be said that the similarity between joy and sadness is low. In this example, although pleasure and normality have some similarity, it is possible to make the model learn that the similarity between pleasure and sadness is low.
  • the above-mentioned emotion correct soft label needs to be a vector that expresses the degree of which emotion a human being feels.
  • the emotion correct soft label is determined from the set of correct emotion classes for each listener given by the listener.
  • the listener is more than one emotion classes C 1 that listening to speech, ..., using the correct emotion class selected from C K as the correct value of a speaker emotional of the speech, emotion class C i is selected as the correct emotion class Find the number of times done i .
  • i is a subscript representing the number of emotion class
  • i 1,..., K
  • K is an integer of 2 or more representing the total number of emotion classes.
  • a ratio of the number n k to the total number of times n 1 ,..., N K or a smoothed value of the ratio is obtained as the correct emotion soft label t k (s) corresponding to the utterance.
  • the correct emotion soft label t k (s) is given based on the following equation (1).
  • the emotions of other emotion classes may actually be felt slightly (Eg, in the above example there may actually be a slight amount of sadness).
  • ⁇ > such slightly felt emotions can also be reflected in the learning data.
  • the utterance of the input utterance is generated from the acoustic feature series of the input utterance
  • An emotion recognition model can be obtained to estimate the emotion of
  • emotion recognition accuracy can be improved using limited learning data.
  • the first embodiment will be described. First, an outline of the first embodiment is shown. ⁇ When calculating the correct emotion soft label> 1.
  • a plurality of listeners listen to each utterance, and give a correct emotion class for each listener to each utterance. That is, each listener who listens to the speech, a plurality of emotion classes C 1, ..., from the C K, to select the correct emotion class (correct emotion class for each listener) as the correct value of a speaker emotional of the speech .
  • One listener may select only one correct emotion class for one utterance. Alternatively, one listener may select one or more correct emotion classes for one utterance.
  • the ratio of the number n k to the total number of times n 1 ,..., N K or the smoothed value of the ratio is obtained as the correct emotion soft label t k (s) corresponding to the speech.
  • the correct emotion soft label t k (s) is obtained, for example, based on the equation (1).
  • the correct emotion soft label t k (s) is obtained for each utterance.
  • the emotion of the speaker of the input speech is estimated from the acoustic feature series of the input speech Get an emotion recognition model.
  • the emotion recognition model is a probability model for obtaining an output value y k regarding the posterior probability of each emotion class C k with respect to the acoustic feature series of the input speech.
  • a time series model based on deep learning can be used as the emotion recognition model.
  • an emotion correct soft label is used instead of the conventional emotion correct label.
  • an output value y k (s) regarding the posterior probability of each emotion class C k is obtained by inputting speech feature sequences of speech as learning data to the emotion recognition model in the learning process, and an output value y 1 ( s) , ..., y K (s)
  • the output value y k (s) is an output value y k obtained by inputting an acoustic feature series corresponding to the learning data to which the correct emotion soft label t k (s) is added to the emotion recognition model.
  • Examples of the function value of the output values y k (s) is a non-decreasing function value for y k (s) (e.g., monotonically increasing function value for y k (s)), examples of the function value of p k (s) is a non-decreasing function value for p k (s) (e.g., monotonically increasing function value for p k (s)).
  • the loss function L s is calculated based on the following equations (4) and (5).
  • the softmax function is used as a loss function of a time series model based on deep learning, but when the softmax function is calculated, correct emotion labels as in the prior art (correct probability of a certain emotion class is 1, other emotion classes
  • the correct emotion soft label t k (s) in the range of 0 to 1 is used in each emotion class C k instead of using a label in which the correct answer probability is 0 ) .
  • the same method as learning of a time series model based on deep learning in the prior art is adopted. For example, model parameter updating is performed by applying an error back propagation method to the loss function L s .
  • the acoustic feature series of the input speech is input to the emotion recognition model obtained by learning, and estimation information of the speaker's emotion of the input speech is obtained.
  • emotion recognition model is a probabilistic model to obtain an output value y k about the posterior probability of each emotion class C k for the acoustic features sequence of input speech
  • estimate of emotion is obtained based on the output value y k.
  • the output value y 1, ..., to y K may be the estimate of emotion
  • the output value y 1, ..., to the function value of y K may be the estimate of emotion
  • the information representing the emotion class C k that maximizes the posterior probability represented by k may be estimated information.
  • Examples of the function value of the output value y k is, y 1, ..., sequence obtained by rearranging the y K to a large order of values, y 1, ..., 2 or more the K selected from y K in descending order of value output values of less than, y 1, ..., the output value exceeding the threshold value or more or the threshold of y K, and the like.
  • the emotion recognition device 1 of the present embodiment includes a model learning device 120, an acoustic feature series extraction unit 131, and an emotion recognition unit 132.
  • the model learning device 120 includes a label generation device 110, an acoustic feature sequence extraction unit 121, a learning unit 122, and a storage unit 123.
  • the label generation device 110 includes a number calculation unit 111 and a correct emotion soft label calculation unit 112.
  • the number-of-times calculation unit 111 receives as input the correct emotion class for each listener for a plurality of persons for utterance (learning data utterance) of learning data, and the number of times the emotion class C i is selected as the correct emotion class for each listener Obtain n i and output.
  • the frequency calculation unit 111 a plurality of listeners who listen to the learning data utterance (first utterance) a plurality of emotion classes C 1, ..., selected from C K as the correct value of a speaker emotional of the utterance correct
  • the correct emotion class for two or more listeners is used, but the more the listener correct answer emotion class for more listeners is used, the more similar the emotion class feels to human beings Sex is expressed as a number.
  • the number calculation unit 111 there are a plurality of learning data utterances.
  • the number n i is obtained for each learning data utterance, and the number n i corresponding to each learning data utterance is sent to the correct emotion soft label calculating unit 112 (step S 111).
  • the correct emotion soft label calculation unit 112 receives the number n k of times corresponding to the learning data utterance, and calculates the ratio of the number n k of times to the total of the number of times n 1 , ..., n K or the smoothed value of the ratio It is calculated and output as a correct emotion soft label t k (s) corresponding to data utterance.
  • the correct emotion soft label calculation unit 112 obtains and outputs a correct emotion soft label t k (s) based on, for example, the above-mentioned equation (1).
  • the number of appearances n k +1 of each new emotion class is new when the value obtained by adding 1 to the number of appearances n k of each emotion class is regarded as the number of appearances of each new emotion class It is a value divided by the total number of appearance times n i +1 of each emotion class (equation (3)).
  • the acoustic feature series extraction unit 121 receives learning data utterance as input, and extracts and outputs an acoustic feature series of the learning data utterance.
  • the acoustic feature series according to the present embodiment refers to one in which learning data utterances are time-divided with a short window, acoustic features are obtained for each short window, and vectors of the acoustic features are arranged in time series.
  • the acoustic features of this embodiment include, for example, MFCC, fundamental frequency, logarithmic power, Harmonics-to-Noise Ratio (HNR), speech probability, number of zero crossings, and any one or more of their first or second derivative. including.
  • the speech probability is determined, for example, by the likelihood ratio of the pre-learned speech / non-speech GMM model.
  • the HNR is obtained, for example, by a cepstrum-based method (Reference 1: Peter Murphy, Olatunji Akande, “Cepstrum-Based Harmonics-to-Noise Ratio Measurement in Voiced Speech,” Lecture Notes in Artificial Intelligence, Nonlinear Speech Modeling and Applications, Vol. 3445, Springer-Verlag, 2005).
  • a cepstrum-based method Reference 1: Peter Murphy, Olatunji Akande, “Cepstrum-Based Harmonics-to-Noise Ratio Measurement in Voiced Speech,” Lecture Notes in Artificial Intelligence, Nonlinear Speech Modeling and Applications, Vol. 3445, Springer-Verlag, 2005.
  • ⁇ Learning unit 122 From the acoustic feature series of the input speech, the learning unit 122 performs learning processing in which a set of sets of the correct emotion software label t k (s) corresponding to the learning data speech and the acoustic feature series of the learning data speech is learning data.
  • An emotion recognition model (first emotion recognition model) for estimating the emotion of the speaker of the input speech is obtained and output.
  • an emotion recognition model structure similar to that of the prior art is adopted. That is, an emotion recognition model configured by a combination of a bidirectional LSTM-RNN and an all connection layer called an attention layer is adopted. What differs from the prior art is the loss function of the emotion recognition model.
  • the sum of the products of the correct emotion soft labels t k (s) is a loss function.
  • the learning unit 122 calculates the loss function L s based on the above-mentioned equations (4) and (5), and updates model parameters of the emotion recognition model in the learning process based on the loss function L s . That is, the learning unit 122 updates model parameters of the emotion recognition model in the learning process so that the loss function L s is minimized. For example, the learning unit 122 updates the model parameters by applying the error back propagation method to the loss function L s (step S122). Information (for example, model parameters) for specifying the obtained emotion recognition model is stored in the storage unit 123 (step S123).
  • the acoustic feature series extraction unit 131 receives an input utterance issued by a speaker who is an estimation target of emotion, and extracts and outputs an acoustic feature series of the input utterance.
  • the process of the acoustic feature series extraction unit 131 is the same as the process of the acoustic feature series extraction unit 121 described above (step S131).
  • the emotion recognition unit 132 applies the acoustic feature series of the input utterance to the emotion recognition model specified by the information read from the storage unit 123, and obtains and outputs estimation information of the speaker's emotion of the input utterance.
  • the emotion recognition model is a probabilistic model for obtaining an output value y k regarding the posterior probability of each emotion class C k with respect to the acoustic feature series of the input utterance
  • the emotion recognition unit 132 determines the acoustic feature series of the input utterance.
  • An output value y k is obtained as an input, and estimated information of emotion based on the output value y k is obtained and output.
  • the emotion recognition unit 132 performs the forward propagation of the emotion recognition model by using the acoustic feature series of the input speech as an input, so that An output vector (y 1 ,..., Y K ) of the emotion recognition model relating to the posterior probability of emotion can be obtained (step S132).
  • Second Embodiment A second embodiment will be described.
  • additional learning of the emotion recognition model is performed using the correct emotion soft label.
  • the learning process using the correct emotion soft label uses the loss function of the same structure (only the correct emotion soft label differs) as the learning process of the emotion recognition model of the prior art, so the total number K of emotion classes C i is the same. If so, additional learning from emotion recognition models learned by the prior art is possible.
  • construction of a highly accurate emotion recognition model can be expected as compared to the first embodiment, based on the emotion recognition model of the prior art.
  • differences from the first embodiment will be mainly described, and the same reference numerals will be used to simplify the description of the matters in common with the first embodiment.
  • the emotion recognition device 2 of this embodiment includes a model learning device 220, an acoustic feature sequence extraction unit 131, and an emotion recognition unit 132.
  • the model learning device 220 includes a correct emotion label calculation unit 201, a learning unit 202, storage units 203 and 223, acoustic feature sequence extraction units 221 and 121, a label generation device 110, and an additional learning unit 222.
  • the correct emotion label calculation unit 201 receives, as an input, the correct emotion class for each listener for a plurality of persons for the utterance of the learning data (the second learning data utterance), and corresponds to the second learning data utterance (the second utterance).
  • the correct emotion label t k (h) is obtained and output.
  • the correct emotion label t k (h) corresponding to the second learning data utterance is a suffix representing the number of the emotion class, i ′, i ′ ′ by the listener who has heard the second learning data utterance
  • a plurality of emotion classes C 1 ,..., C K to emotion class C i ′ ⁇ ⁇ ⁇ C 1 ,..., C K ⁇ with the largest number of times selected as the correct value of the speaker's emotion of the second learning data utterance 'a (h) a positive constant (for example 1), emotion class C 1, ..., emotion class C i among the C K' corresponding correct emotional label t i other than emotional classes C i " ⁇ ⁇ C 1, ...
  • the correct answer emotion label calculating unit 201 calculates the correct emotional label t k (h) in the same way as the prior art. That is, to correct emotional class per listener multiple persons per utterance, most emerging emotion class C i 'corresponding to the correct answer emotion label t i' a (h) and 1, and the other of the correct emotion label t i "a (h) to 0 (equation (6)).
  • n i represents the number of times the emotion class C i has been selected as the correct emotion class for the second learning data utterance.
  • n i ′ represents the number of times that the emotion class C i ′ is selected as the correct emotion class for the second learning data utterance.
  • the second learning data utterance (second utterance) input to the correct emotion label calculation unit 201 may be identical to or identical to the learning data utterance (first utterance) input to the label generation device 110 described above. It may not be (step S201).
  • the acoustic feature series extraction unit 221 receives the second learning data utterance as an input, and extracts and outputs an acoustic feature series of the second learning data utterance.
  • the process of the acoustic feature series extraction unit 221 is the same as the process of the acoustic feature series extraction unit 121 described above (step S221).
  • the learning unit 202 performs the learning process using the set of the correct emotion label t k (h) corresponding to the second learning data utterance and the voice feature series of the second utterance as the learning data.
  • An emotion recognition model (second emotion recognition model) for estimating the emotion of the speaker of the input speech from the feature sequence is obtained and output.
  • the voice feature series of the second learning data utterance for which the correct emotion label t k (h) is not generated is excluded from the learning data.
  • an example is shown in which the same emotion recognition model as that of the prior art is adopted.
  • the learning unit 202 may generate the voice of the second learning data utterance.
  • the function value of p k (h) of K The learning process is performed using the sum of the products of the character and the correct emotion label t k (h) as a loss function.
  • the function value of the output values y k (h) is a non-decreasing function value for y k (h) (e.g., monotonically increasing function value for y k (h))
  • examples of the function value of p k (h) is a non-decreasing function value for p k (h) (e.g., monotonically increasing function value for p k (h)).
  • the learning unit 202 performs a learning process using the following soft max function as the loss function L h .
  • the output value y k (h) is an output value y k obtained by inputting an acoustic feature series corresponding to the learning data to which the correct emotion label t k (h) is added to the emotion recognition model.
  • the learning unit 202 calculates the loss function L h based on the above-mentioned equations (7) and (8), and updates model parameters of the emotion recognition model in the learning process based on the loss function L h (step S202) ).
  • Information (for example, model parameters) specifying the finally obtained emotion recognition model is stored in the storage unit 203 (step S203).
  • the additional learning unit 222 outputs the emotion recognition model read from the storage unit 203, the correct emotion software label t k (s) corresponding to the learning data utterance output from the label generation device 110, and the acoustic feature series extraction unit 121.
  • the acoustic feature series of the said learning data utterance is input.
  • the additional learning unit 222 performs additional learning processing by using, as learning data, a set of sets of a correct emotion software label t k (s) corresponding to learning data utterance (first utterance) and a voice feature series of the learning data utterance.
  • Re-trained emotion recognition model that updates the emotion recognition model (second emotion recognition model) read from the storage unit 203 and estimates the emotion of the speaker of the input utterance from the acoustic feature series of the input utterance Obtain and output.
  • the emotion recognition model is a model for obtaining the output value y k about the posterior probability of each emotion class C k for the acoustic features sequence of input speech, additional learning process, the emotion recognition model
  • Each emotion class is obtained by using (the second emotion recognition model) as an initial value (initial model) of the emotion recognition model in the learning process, and inputting speech feature sequences of learning data utterance (first utterance) into the emotion recognition model in the learning process.
  • a loss function L s is calculated based on the aforementioned equation (4) (5), the model parameters of the emotion recognition model learning process using a back propagation method to the loss function L s It updates and obtains and outputs a re-learned emotion recognition model (step S222).
  • Information for example, model parameters
  • Information for specifying the obtained re-learned emotion recognition model is stored in the storage unit 223 (step S223).
  • the emotion recognition unit 132 applies the acoustic feature series of the input utterance output from the acoustic feature series extraction unit 131 to the re-learned emotion recognition model specified by the information read from the storage unit 223, and the utterer of the input utterance Information of the emotion of the subject is obtained and output (step S132).
  • model learning is performed using the correct emotion label t k (h) and the correct emotion soft label t k (s) simultaneously.
  • two viewpoints of setting criteria (majority decision criteria) of correct emotion labels t k (h) and setting criteria (soft labels criteria) of correct emotion soft labels t k (s) You can optimize the model from As a result, while increasing the estimation probability of the emotion class with the highest probability to be selected, the estimation of the emotion class that appears with a positive probability in the correct emotion soft label t k (s) although the probability is not the maximum It is possible to construct an emotion recognition model that increases the probability. As a result, the accuracy of emotion recognition is improved.
  • the differences between the first and second embodiments will be mainly described below, and the same reference numerals will be used to simplify the description of the matters in common with the first and second embodiments.
  • the emotion recognition device 3 of this embodiment includes a model learning device 320, an acoustic feature sequence extraction unit 131, and an emotion recognition unit 132.
  • the model learning device 320 includes a correct emotion label calculation unit 201, a label generation device 110, acoustic feature sequence extraction units 221 and 121, a learning unit 303, and a storage unit 323.
  • the learning unit 303 uses the correct emotion software label t k (s) corresponding to the learning data utterance (first utterance) output from the label generation device 110 and the learning data utterance output from the acoustic feature sequence extraction unit 121.
  • the correct characteristic emotion label t k (h) corresponding to the acoustic feature series and the second learning data utterance (second utterance) output from the correct emotion label calculation unit 201, and the second output from the acoustic feature series extraction unit 221 (2) Emotion recognition model that estimates the emotion of the speaker of the input utterance from the acoustic feature series of the input utterance by learning processing with the acoustic feature series of the learning data utterance as an input and the set of these sets as learning data Get emotion recognition model) and output.
  • the emotion recognition model deals with the weighted sum of the loss function L s obtained using correct a loss function L h prior approaches feeling soft label t k (s) as a new loss function L learn.
  • the emotion recognition model is a model for obtaining an output value y k regarding the posterior probability of each emotion class C k with respect to the acoustic feature series of the input speech
  • the learning process includes the second learning data utterance (second utterance).
  • an output value y k (h) regarding the posterior probability of each emotion class C k is obtained, and the voice feature sequence of the learning data utterance (first utterance) is obtained in the learning process
  • the output value y k (s) related to the posterior probability of each emotion class C k is obtained by inputting into the emotion recognition model of, and the output values y 1 (h) , ..., y K (h) with respect to the sum of function values
  • the ratio of the function value of the output value y k (h) is the posterior probability p k (h) of each emotion class C k in the second learning data utterance, and the output values y 1 (s) , ..., y K (s)
  • the learning unit 303 calculates the loss function L according to, for example, the following equation (9).
  • is a weight parameter taking values from 0 to 1, and the larger the ⁇ , the stronger the influence of the correct emotion label t k (h) , and the smaller the ⁇ , the influence of the correct emotion soft label t k (s)
  • the emotion recognition model is learned so that For example, the learning unit 303 updates the model parameters of the emotion recognition model in the learning process using the error back propagation method using the loss function L which is the weighted sum, and performs model learning (step S303).
  • Information for example, model parameters for specifying the emotion recognition model finally obtained is stored in the storage unit 323 (step S323).
  • the emotion recognition unit 132 applies the acoustic feature series of the input utterance output from the acoustic feature series extraction unit 131 to the emotion recognition model specified by the information read from the storage unit 323, and detects the emotion of the speaker of the input utterance.
  • the estimated information is obtained and output (step S132).
  • the present invention is not limited to the above-described embodiment.
  • a model other than a time series model based on deep learning may be used as the emotion recognition model.
  • SVM support vector machine
  • HMM hidden Markov model
  • the various processes described above may be performed not only in chronological order according to the description, but also in parallel or individually depending on the processing capability of the apparatus that executes the process or the necessity.
  • the ratio may be smoothed by another method.
  • ⁇ in equation (1) may be replaced by ⁇ i depending on the correct emotion class
  • ⁇ K may be replaced by ⁇ 1 +.
  • Each of the above-described devices is, for example, a general-purpose or dedicated computer including a processor (hardware processor) such as a CPU (central processing unit) and a memory such as a RAM (random-access memory) and a ROM (read-only memory). Is configured by executing a predetermined program.
  • the computer may have one processor or memory, or may have a plurality of processors or memory.
  • This program may be installed in a computer or may be stored in advance in a ROM or the like.
  • an electronic circuit circuitry
  • a part or all of the processing units are configured using an electronic circuit that realizes a processing function without using a program. May be
  • the electronic circuit that constitutes one device may include a plurality of CPUs.
  • the processing content of the function that each device should have is described by a program.
  • the above processing functions are realized on a computer by executing this program on a computer.
  • the program describing the processing content can be recorded in a computer readable recording medium.
  • An example of a computer readable recording medium is a non-transitory recording medium. Examples of such recording media are magnetic recording devices, optical disks, magneto-optical recording media, semiconductor memories and the like.
  • This program is distributed, for example, by selling, transferring, lending, etc. a portable recording medium such as a DVD, a CD-ROM or the like recording the program. Furthermore, this program may be stored in a storage device of a server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first temporarily stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. At the time of execution of processing, this computer reads a program stored in its own storage device and executes processing in accordance with the read program. As another execution form of this program, the computer may read the program directly from the portable recording medium and execute processing in accordance with the program, and further, each time the program is transferred from the server computer to this computer Alternatively, processing may be performed sequentially according to the received program.
  • the configuration described above is also executed by a so-called ASP (Application Service Provider) type service that realizes processing functions only by executing instructions and acquiring results from the server computer without transferring the program to this computer. Good.
  • ASP Application Service Provider
  • At least a part of these processing functions may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

第1発話を聴取した聴取者が複数の感情クラスC1,…,CKから第1発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、正解感情クラスとして感情クラスCiが選択された回数niを得、回数n1,…,nKの総和に対する回数nkの割合または当該割合の平滑化値を、第1発話に対応する正解感情ソフトラベルtk (s)として得る。

Description

ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
 本発明は、発話者の感情を認識する技術に関する。
 発話からの発話者の感情の認識は重要な技術である。例えば、カウンセリング時に発話者の感情の認識を行うことで、患者の不安や悲しみの感情を可視化でき、カウンセラーの理解の深化や指導の質の向上が期待できる。また人間と機械の対話において人間の感情を認識することで、人間が喜んでいれば共に喜ぶ、悲しんでいれば励ますなど、より親しみやすい対話システムの構築が可能となる。以降では、ある発話を入力とし、その発話に含まれる発話者の感情が感情クラス(クラス分けされた感情、例えば、平常、怒り、喜び、悲しみ、など)のいずれに当たるかを推定する技術を感情認識と呼ぶ。
 非特許文献1には、従来の感情認識技術(以降、従来技術)が開示されている。従来技術では、発話から短時間ごとの音響特徴(例えば、Mel-Frequency Cepstral Coefficient: MFCCなど)を抽出し、音響特徴系列から深層学習に基づく時系列モデルであるLong Short-Term Memory Recurrent Neural Network(LSTM-RNN)を用いて感情クラスの推定を行う。LSTM-RNNモデルの学習時には、発話と、人間の聴取結果により決められた当該発話の正解感情ラベルの組の集合を利用する。このとき、正解感情ラベルは、当該発話を複数名が聴取し、聴取者の各々が正解と感じた感情クラス(以降、聴取者ごとの正解感情クラスと呼ぶ)の多数決により決められる。なお、多数決で正解感情ラベルが決められなかった場合(例えば、全員が異なる感情クラスを付与した場合など)、その発話は正解感情ラベルなしとみなされるため、モデル学習には利用できない。
Che-Wei Huang, Shrikanth Narayanan, "Attention Assisted Discovery of Sub-Utterance Structure in Speech Emotion Recognition,"in Interspeech 2016.
 従来技術では、感情認識精度を向上させることが困難であった。例えば、LSTM-RNNモデルなどの深層学習に基づく時系列モデルは高い推定精度を出すことができる一方で、高い推定精度を発揮するためには数万発話といった大量の学習データが必要であるとされる。しかし感情認識の学習データを大量に集めることは非常に困難である。これは、正解感情ラベルの決定には聴取者ごとの正解感情クラスを複数名分集める必要があり、この作業に非常に大きなコストが掛かるためである。このことから、実用上は数百から数千発話の限られた学習データを利用せざるを得ない。さらに、従来技術では学習データのうち多数決で正解感情ラベルが決められた発話しか学習には利用できないため、学習データの一部しかモデル学習に利用できないことがある。この結果、モデル学習に利用できる学習データがさらに少なくなってしまい、深層学習に基づく時系列モデルの識別性能が十分に発揮されず、感情認識精度が低下する。
 本発明はこのような点に鑑みてなされたものであり、限られた学習データを用いて感情認識精度を向上させることを目的とする。
 第1発話を聴取した聴取者が複数の感情クラスC,…,Cから第1発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、正解感情クラスとして感情クラスCが選択された回数nを得、回数n,…,nの総和に対する回数nの割合または割合の平滑化値を、第1発話に対応する正解感情ソフトラベルt (s)として得る。
 正解感情ソフトラベルを利用することで、限られた学習データを用いて感情認識精度を向上させることができる。
図1は第1実施形態のラベル生成装置の機能構成を例示するブロック図である。 図2は実施形態の正解感情ソフトラベルを説明するための概念図である。 図3は第2実施形態のラベル生成装置の機能構成を例示するブロック図である。 図4は第3実施形態のラベル生成装置の機能構成を例示するブロック図である。
 以下、本発明の実施形態を説明する。
 [原理]
 実施形態で説明する手法のポイントは、多数決で正解感情ラベルを決められない発話(発話音声)も含めて全ての学習データをモデル学習に利用することを目的とし、感情認識モデルの学習において、複数の正解感情クラスに正解確率を割り当てることができる正解感情ラベル(以降、正解感情ソフトラベルと呼ぶ)を作成する点にある(図2)。
 従来技術の深層学習に基づく時系列モデルは正解感情ラベルとして、ある感情クラスのみの正解確率が1、他の感情クラスの正解確率が0となるようなラベルを与える。この場合、ある感情クラスのみを正解、別の感情クラスを完全に不正解であるとみなして学習を行う。例えば、図2に例示するように、ある発話に対して5名の聴取者A~Eが平常、喜び、喜び、平常、喜びという聴取者ごとの正解感情クラスを与えた場合、喜びの正解確率が1、他の感情クラスの正解確率が0となるようなラベルが与えられる。この方法では、多数決により正解感情クラスが決められない発話はどの感情クラスの正解確率を1とするかを決められないため、学習には利用されない。
 一方で、実施形態で説明する手法では、複数の感情クラスにおいて正解確率が0より大きいような正解感情ソフトラベルを与える。例えば、図2の例の場合には、喜びの正解確率が0.6、平常の正解確率が0.4となるような正解感情ソフトラベルを与える。この場合、当該発話は喜びの可能性が高いが、平常の可能性もあり、その他の感情クラスの可能性はないとして学習を行う。このように複数の感情クラスに正解確率を割り当てることで、多数決で正解感情ラベルが決められなかった発話であってもモデル学習に利用することが可能となる。
 例えば、聴取者が4名、各聴取者が平常、平常、喜び、喜びという聴取者ごとの正解感情クラスを与えた場合、その発話は多数決により正解感情クラスを決めることができないため、従来の技術ではモデル学習に利用できなかった。一方で、今回の枠組みでは当該発話が喜びと平常の可能性があり、他の感情が表れていないものとしてモデル学習に利用することができる。この結果、モデル学習に利用できるデータが増加するため、従来技術に比べて頑健なモデルが構築できる。
 さらに、実施形態で説明する手法の別の利点として、感情クラス間の類似性をモデルに学習させることができる点が挙げられる。正解感情ソフトラベルは複数の感情クラスの正解確率に対応するため、発話に対する複数の感情クラスの類似性を表す。上記の例では、ある発話に対して喜びという感情クラスを与えた聴取者と平常という感情クラスを与えた聴取者とが存在するため、喜びと平常はある程度の類似性があるといえる。一方、この発話に対して悲しみという感情クラスを与えた聴取者は存在しないため、喜びと悲しみの類似性は低いといえる。この例では、喜びと平常はある程度の類似性があるが、喜びと悲しみの類似性が低いことをモデルに学習させることができる。感情クラス間の類似性を学習させることで特定の感情クラス間で情報が共有され(上記の例では、喜びの感情クラスの学習を行うことで平常の感情クラスも学習が進む)、その結果、学習データが少ない状況において従来技術よりも高精度な感情認識モデルを構築することができると考えられる。
 上記の感情正解ソフトラベルは、人間であればどの感情と感じるか、の度合いを表現するベクトルである必要がある。実施形態では、感情正解ソフトラベルは、聴取者が与えた聴取者ごとの正解感情クラスの集合から決定する。まず、発話を聴取した聴取者が複数の感情クラスC,…,Cから当該発話の発話者の感情の正解値として選択した正解感情クラスを用い、正解感情クラスとして感情クラスCが選択された回数nを求める。ここでiは感情クラスの番号を表す添え字であり、i=1,…,KでありKが感情クラスの総数を表す2以上の整数である。以降、kも同様に感情クラスの番号を表す添え字であり、k=1,…,Kとする。図2の例ではK=4であり、例えば、C=“平常”、C=“喜び”、C=“悲しみ”、C=“怒り”である。次に、回数n,…,nの総和に対する回数nの割合または当該割合の平滑化値を、当該発話に対応する正解感情ソフトラベルt (s)として得る。例えば、以下の式(1)に基づいて正解感情ソフトラベルt (s)が与えられる。
Figure JPOXMLDOC01-appb-M000002

α=0の場合、各感情クラスC,…,Cの出現回数nを聴取者が与えた聴取者ごとの正解感情クラスの出現回数n,…,nの総数で割った値(回数n,…,nの総和に対する回数nの割合)となる(式(2))。例えば、図2の例の発話の正解感情ソフトラベルt (s)は、t (s)=0.4、t (s)=0.6、t (s)=0、t (s)=0となる。
Figure JPOXMLDOC01-appb-M000003

α>0の場合、各感情クラスでの出現回数を(実際の出現回数+α)回とみなしたときの、各感情クラスの出現回数を聴取者が与えた聴取者ごとの正解感情クラスの出現回数の総数で割った値となる。すなわち、α>0の場合には、回数n,…,nの総和に対する回数nの割合の平滑化値が正解感情ソフトラベルt (s)となる。例えば、α=1の場合には以下の式(3)のようになる。
Figure JPOXMLDOC01-appb-M000004

 
聴取者ごとの正解感情クラスの出現回数の総数が少ない場合、得られた聴取者ごとの正解感情クラスには含まれていないものの、実際にはその他の感情クラスの感情も僅かに感じられる可能性がある(例えば、上記の例では実際には悲しみも微量含まれている可能性がある)。α>0とすることで、このような僅かに感じられる感情も学習データに反映させることができる。αが多いほど、聴取者ごとの正解感情クラス以外の感情が含まれている確率が高い感情正解ソフトラベルとなる。このため、聴取者が少ない場合はαを大きくし、聴取者が多い場合はαを小さくする。例えば、聴取者の人数がM人の場合にα=αとし、聴取者の人数がM人の場合にα=αとする。ただし、M>Mおよび0<α<αを満たす。
 発話に対応する正解感情ソフトラベルt (s)と当該発話の音響特徴系列との組を含む集合を学習データとして用いた学習処理を行うことにより、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデルが得られる。この感情認識モデルに入力発話の音響特徴系列を適用することで、当該入力発話の発話者の感情を精度よく推定できる。以上のように、実施形態の手法では、限られた学習データを用いて感情認識精度を向上させることができる。
 [第1実施形態]
 第1実施形態を説明する。まず、第1実施形態の概要を示す。
 <正解感情ソフトラベル算出時>
 1.学習データとして収集した発話において、複数の聴取者が各発話を聴取し、各発話に対して聴取者ごとの正解感情クラスを与える。すなわち、発話を聴取した各聴取者が、複数の感情クラスC,…,Cから、当該発話の発話者の感情の正解値として正解感情クラス(聴取者ごとの正解感情クラス)を選択する。1名の聴取者が1発話に対して1個の正解感情クラスのみを選択することにしてもよい。あるいは、1名の聴取者が1発話に対して1個または2個以上の正解感情クラスを選択することにしてもよい。これは、ある発話を聴取した際に、複数の感情が含まれると感じる(例えば、嫌悪と怒りが含まれる、など)場合があるためである。
 2.発話ごとに得られた聴取者ごとの正解感情クラスを用い、正解感情クラスとして感情クラスCが選択された回数n(ただし、i=1,…,K)を得る。回数n,…,nは発話ごとに得られる。
 3.回数n(ただし、i=1,…,K)を用いて正解感情ソフトラベルt (s)を算出する。すなわち、回数n,…,nの総和に対する回数nの割合または当該割合の平滑化値を、発話に対応する正解感情ソフトラベルt (s)として得る。正解感情ソフトラベルt (s)は、例えば、式(1)に基づいて得られる。正解感情ソフトラベルt (s)は発話ごとに得られる。
 <モデル学習時>
 発話に対応する正解感情ソフトラベルt (s)と当該発話の音声特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデルを得る。正解感情ソフトラベルt (s)を用いて感情認識モデルの学習を行うことで、多数決で正解感情ラベルが決められなかった発話であってもモデル学習に利用することができ、モデル学習に利用できるデータが増えるため、より高精度な感情認識モデルを構築できる。感情認識モデルの例は、入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得る確率モデルである。例えば、感情認識モデルとして深層学習に基づく時系列モデルを用いることができる。この場合、当該モデルの損失関数の計算時に、従来の感情正解ラベルではなく感情正解ソフトラベルを用いる。この学習処理は、学習データである発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)を得、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (s)の関数値と正解感情ソフトラベルt (s)との積の総和を損失関数として、感情認識モデルを学習する処理を含む。なお、出力値y (s)は、正解感情ソフトラベルt (s)が付与された学習データに対応する音響特徴系列を感情認識モデルに入力することで得られる出力値yである。出力値y (s)の関数値の例はy (s)に対する非減少関数値(例えば、y (s)に対する単調増加関数値)であり、p (s)の関数値の例はp (s)に対する非減少関数値(例えば、p (s)に対する単調増加関数値)である。例えば、以下の式(4)(5)に基づいて損失関数Lが計算される。
Figure JPOXMLDOC01-appb-M000005

すなわち、深層学習に基づく時系列モデルの損失関数としてソフトマックス関数を用いるが、ソフトマックス関数の計算時に、従来技術のような正解感情ラベル(ある感情クラスのみの正解確率が1、他の感情クラスの正解確率が0となるラベル)を用いるのではなく、各感情クラスCにおいて0から1までの範囲をとる正解感情ソフトラベルt (s)を用いる。損失関数の計算部分以外は従来技術の深層学習に基づく時系列モデルの学習と同様の方法をとる。例えば、モデルパラメータの更新は損失関数Lに対して誤差逆伝搬法を適用することで実施する。
 <感情認識時>
 学習によって得られた感情認識モデルに入力発話の音響特徴系列を入力し、入力発話の発話者の感情の推定情報を得る。感情認識モデルが入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得る確率モデルである場合、出力値yに基づいて感情の推定情報が得られる。例えば、出力値y,…,yが感情の推定情報であってもよいし、出力値y,…,yの関数値が感情の推定情報であってもよいし、出力値yによって表される事後確率が最大になる感情クラスCを表す情報が推定情報であってもよい。出力値yの関数値の例は、y,…,yを値の大きな順序に並び替えて得られる列、y,…,yから値の大きな順に選択した2個以上K個未満の出力値、y,…,yのうち閾値以上または閾値を超える出力値などである。
 次に、図面を用いて第1実施形態の詳細を説明する。
 <構成および処理>
 図1に例示するように、本形態の感情認識装置1は、モデル学習装置120、音響特徴系列抽出部131、および感情認識部132を有する。モデル学習装置120は、ラベル生成装置110、音響特徴系列抽出部121、学習部122、および記憶部123を有する。ラベル生成装置110は、回数算出部111および正解感情ソフトラベル算出部112を有する。
 <回数算出部111>
 回数算出部111は、学習データの発話(学習データ発話)について複数名分の、聴取者ごとの正解感情クラスを入力とし、当該聴取者ごとの正解感情クラスとして感情クラスCが選択された回数nを得て出力する。すなわち、回数算出部111は、学習データ発話(第1発話)を聴取した複数の聴取者が複数の感情クラスC,…,Cから当該発話の発話者の感情の正解値として選択した正解感情クラス(聴取者ごとの正解感情クラス)を入力とし、当該正解感情クラスとして感情クラスCが選択された回数n(ただし、i=1,…,K)を得て出力する。本実施形態では2名分以上の聴取者ごとの正解感情クラスを利用するが、より多くの聴取者分の聴取者ごとの正解感情クラスを利用するほど、人間が感じている感情クラス間の類似性が数値として表現される。そのため、できるだけ多くの聴取者ごとの正解感情クラスを回数算出部111に入力することが望ましい。また学習データ発話は複数存在する。回数nは学習データ発話ごとに得られ、各学習データ発話に対応する回数nは正解感情ソフトラベル算出部112に送られる(ステップS111)。
 <正解感情ソフトラベル算出部112>
 正解感情ソフトラベル算出部112は、学習データ発話に対応する回数nを入力とし、当該回数n,…,nの総和に対する回数nの割合または当該割合の平滑化値を、当該学習データ発話に対応する正解感情ソフトラベルt (s)として算出して出力する。正解感情ソフトラベル算出部112は、例えば、前述の式(1)に基づいて正解感情ソフトラベルt (s)を得て出力する。式(1)においてα=0の場合、各感情クラスの出現回数を聴取者が与えた聴取者ごとの正解感情クラスの出現回数の総数で割った値(回数n,…,nの総和に対する回数nの割合)となる(式(2))。例えば、K=4、C=“平常”、C=“喜び”、C=“悲しみ”、C=“怒り”であり、聴取者の人数が4名であり、ある発話に対して各聴取者が平常、平常、喜び、平常という聴取者ごとの正解感情クラスを与えた場合、その発話の正解感情ソフトラベルt (s)はt (s)=0.75、t (s)=0.25、t (s)=0、t (s)=0となる。式(1)においてα=1の場合、各感情クラスの出現回数nに1を足した値を新しい各感情クラスの出現回数としたときの、新しい各感情クラスの出現回数n+1を新しい各感情クラスの出現回数n+1の総数で割った値となる(式(3))。例えば、K=4、C=“平常”、C=“喜び”、C=“悲しみ”、C=“怒り”であり、聴取者の人数が4名であり、ある発話に対して各聴取者が平常、平常、喜び、平常という聴取者ごとの正解感情クラスを与えた場合、その発話の正解感情ソフトラベルt (s)はt (s)=0.5、t (s)=0.125、t (s)=0.25、t (s)=0.125となる。正解感情ソフトラベルt (s)は学習データ発話ごとに得られる(ステップS112)。
 <音響特徴系列抽出部121>
 音響特徴系列抽出部121は、学習データ発話を入力とし、当該学習データ発話の音響特徴系列を抽出して出力する。本実施形態の音響特徴系列とは、学習データ発話を短時間窓で時分割し、短時間窓ごとに音響特徴を求め、その音響特徴のベクトルを時系列順に並べたものを指す。本実施形態の音響特徴は、例えば、MFCC、基本周波数、対数パワー、Harmonics-to-Noise Ratio(HNR)、音声確率、ゼロ交差数、およびこれらの一次微分または二次微分のいずれか一つ以上を含む。音声確率は例えば事前学習した音声/非音声のGMMモデルの尤度比により求められる。HNRは例えばケプストラムに基づく手法により求められる(参考文献1:Peter Murphy, Olatunji Akande, “Cepstrum-Based Harmonics-to-Noise Ratio Measurement in Voiced Speech,”Lecture Notes in Artificial Intelligence, Nonlinear Speech Modeling and Applications, Vol. 3445, Springer-Verlag, 2005)。より多くの音響特徴を利用することで、発話に含まれる様々な特徴を表現でき、感情認識精度が向上する傾向にある(ステップS121)。
 <学習部122>
 学習部122は、学習データ発話に対応する正解感情ソフトラベルt (s)と当該学習データ発話の音響特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデル(第1感情認識モデル)を得て出力する。ここでは従来技術と同様の感情認識モデル構造を採用する例を示す。すなわち、双方向LSTM-RNNとattention layerと呼ばれる全結合層との組合せにより構成される感情認識モデルを採用する。従来技術と異なる点は感情認識モデルの損失関数である。本実施形態でも従来技術と同様にソフトマックス関数を損失関数として利用するが、この際に正解感情ソフトラベルt (s)を利用する。すなわち、学習データ発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)を得、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合をp (s)とし、k=1,…,Kについてのp (s)の関数値と正解感情ソフトラベルt (s)との積の総和を損失関数とする。学習部122は、例えば、前述の式(4)(5)に基づいて損失関数Lを計算し、当該損失関数Lに基づいて学習過程の感情認識モデルのモデルパラメータを更新する。すなわち、学習部122は、損失関数Lが最小化されるように学習過程の感情認識モデルのモデルパラメータを更新する。例えば、学習部122は、損失関数Lに対して誤差逆伝搬法を適用することでモデルパラメータを更新する(ステップS122)。得られた感情認識モデルを特定する情報(例えば、モデルパラメータ)は記憶部123に格納される(ステップS123)。
 <音響特徴系列抽出部131>
 音響特徴系列抽出部131は、感情の推定対象となる発話者が発した入力発話を入力とし、当該入力発話の音響特徴系列を抽出して出力する。音響特徴系列抽出部131の処理は、前述の音響特徴系列抽出部121の処理と同一である(ステップS131)。
 <感情認識部132>
 感情認識部132は、記憶部123から読み込んだ情報で特定される感情認識モデルに入力発話の音響特徴系列を適用し、入力発話の発話者の感情の推定情報を得て出力する。前述のように、感情認識モデルが入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得る確率モデルである場合、感情認識部132は、入力発話の音響特徴系列を入力として出力値yを得、当該出力値yに基づく感情の推定情報を得て出力する。出力値yに基づく感情の推定情報の例は、出力値y、出力値yの関数値、または、出力値yによって表される事後確率が最大になる感情クラスCを表す情報である。本実施形態の感情認識モデルの構造は従来技術と同様であるため、感情認識部132は、入力発話の音響特徴系列を入力として感情認識モデルの順伝搬を行うことで、入力発話の発話者の感情の事後確率に関する感情認識モデルの出力ベクトル(y,…,y)を得ることができる(ステップS132)。
 [第2実施形態]
 第2実施形態を説明する。本実施形態では、従来技術によって感情認識モデルを学習した後、正解感情ソフトラベルを用いて感情認識モデルの追加学習を行う。正解感情ソフトラベルを用いた学習処理は従来技術の感情認識モデルの学習処理と同じ構造(正解感情ソフトラベルのみが相違)の損失関数を利用することから、感情クラスCの総数Kが同じであれば、従来技術により学習した感情認識モデルからの追加学習が可能である。本実施形態により、従来技術の感情認識モデルを元に、さらに精度を向上させた感情認識モデルを構築できる。本実施形態では、従来技術の感情認識モデルを元にすることで、第1実施形態に比べて高精度な感情認識モデルの構築が期待できる。以下では第1実施形態との相違点を中心に説明し、第1実施形態と共通する事項については同じ参照番号を用いて説明を簡略化する。
 図面を用いて第2実施形態の詳細を説明する。
 <構成および処理>
 図3に例示するように、本形態の感情認識装置2は、モデル学習装置220、音響特徴系列抽出部131、および感情認識部132を有する。モデル学習装置220は、正解感情ラベル算出部201、学習部202、記憶部203,223、音響特徴系列抽出部221,121、ラベル生成装置110、および追加学習部222を有する。
 <正解感情ラベル算出部201>
 正解感情ラベル算出部201は、学習データの発話(第2学習データ発話)について複数名分の、聴取者ごとの正解感情クラスを入力とし、当該第2学習データ発話(第2発話)に対応する正解感情ラベルt (h)を得て出力する。ただし、第2学習データ発話に対応する正解感情ラベルt (h)は、i’,i”は、感情クラスの番号を表す添え字とすると、当該第2学習データ発話を聴取した聴取者によって複数の感情クラスC,…,Cから当該第2学習データ発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’∈{C,…,C}に対応する正解感情ラベルti’ (h)を正の定数(例えば1)とし、感情クラスC,…,Cのうち感情クラスCi’以外の感情クラスCi”∈{C,…,C}に対応する正解感情ラベルti” (h)を零としたものである。ただし、正解値として選択された回数が最大の感情クラスCi’が1個に定まらない場合、当該第2学習データ発話に対応する正解感情ラベルt (h)は生成されない。例えば、正解感情ラベル算出部201は、従来技術と同じ方法で正解感情ラベルt (h)を算出する。すなわち、発話ごとの複数名分の聴取者ごとの正解感情クラスに対し、最も多く出現した感情クラスCi’に対応する正解感情ラベルti’ (h)を1とし、それ以外の正解感情ラベルti” (h)を0とする(式(6))。最も多く出現した感情クラスが二つ以上存在する場合、当該第2学習データ発話には正解感情ラベルt (h)が生成されない。
Figure JPOXMLDOC01-appb-M000006

ただし、nは、第2学習データ発話に対し、正解感情クラスとして感情クラスCが選択された回数を表す。ni’は、第2学習データ発話に対し、正解感情クラスとして感情クラスCi’が選択された回数を表す。正解感情ラベル算出部201に入力される第2学習データ発話(第2発話)は、前述のラベル生成装置110に入力される学習データ発話(第1発話)と同一であってもよいし、同一でなくてもよい(ステップS201)。
 <音響特徴系列抽出部221>
 音響特徴系列抽出部221は、第2学習データ発話を入力とし、当該第2学習データ発話の音響特徴系列を抽出して出力する。音響特徴系列抽出部221の処理は、前述の音響特徴系列抽出部121の処理と同一である(ステップS221)。
 <学習部202>
 学習部202は、第2学習データ発話に対応する正解感情ラベルt (h)と、当該第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデル(第2感情認識モデル)を得て出力する。このとき、正解感情ラベルt (h)が生成されていない第2学習データ発話の音声特徴系列は学習データから除外される。ここでは従来技術と同じ感情認識モデルを採用する例を示す。例えば、当該感情認識モデルが、入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得る確率モデルである場合、例えば、学習部202は、第2学習データ発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (h)を得、出力値y (h),…,y (h)それぞれの関数値の総和に対する出力値y (h)の関数値の割合を各感情クラスCの事後確率p (h)とし、k=1,…,Kについてのp (h)の関数値と正解感情ラベルt (h)との積の総和を損失関数として学習処理を行う。出力値y (h)の関数値の例はy (h)に対する非減少関数値(例えば、y (h)に対する単調増加関数値)であり、p (h)の関数値の例はp (h)に対する非減少関数値(例えば、p (h)に対する単調増加関数値)である。例えば、学習部202は、損失関数Lとして以下のソフトマックス関数を利用して学習処理を行う。
Figure JPOXMLDOC01-appb-M000007

なお、出力値y (h)は、正解感情ラベルt (h)が付与された学習データに対応する音響特徴系列を感情認識モデルに入力することで得られる出力値yである。学習部202は、例えば、前述の式(7)(8)に基づいて損失関数Lを計算し、当該損失関数Lに基づいて学習過程の感情認識モデルのモデルパラメータを更新する(ステップS202)。最終的に得られた感情認識モデルを特定する情報(例えば、モデルパラメータ)は記憶部203に格納される(ステップS203)。
 <追加学習部222>
 追加学習部222には、記憶部203から読み出した感情認識モデル、ラベル生成装置110から出力された学習データ発話に対応する正解感情ソフトラベルt (s)、および音響特徴系列抽出部121から出力された当該学習データ発話の音響特徴系列が入力される。追加学習部222は、学習データ発話(第1発話)に対応する正解感情ソフトラベルt (s)と当該学習データ発話の音声特徴系列との組の集合を学習データとした追加学習処理によって、記憶部203から読み出した感情認識モデル(第2感情認識モデル)を更新し、入力発話の音響特徴系列から入力発話の発話者の感情を推定する再学習済み感情認識モデル(第1感情認識モデル)を得て出力する。例えば、感情認識モデル(第2感情認識モデル)が、入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得るモデルである場合、追加学習処理は、当該感情認識モデル(第2感情認識モデル)を学習過程の感情認識モデルの初期値(初期モデル)とし、学習データ発話(第1発話)の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)を得、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (s)の関数値と正解感情ソフトラベルt (s)との積の総和を損失関数として学習過程の感情認識モデルを更新し、再学習済み感情認識モデル(第1感情認識モデル)を得る処理を含む。例えば、追加学習部222は、前述の式(4)(5)に基づいて損失関数Lを計算し、当該損失関数Lに誤差逆伝搬法を用いて学習過程の感情認識モデルのモデルパラメータ更新し、再学習済み感情認識モデルを得て出力する(ステップS222)。得られた再学習済み感情認識モデルを特定する情報(例えば、モデルパラメータ)は記憶部223に格納される(ステップS223)。
 <感情認識部132>
 感情認識部132は、記憶部223から読み込んだ情報で特定される再学習済み感情認識モデルに、音響特徴系列抽出部131から出力された入力発話の音響特徴系列を適用し、入力発話の発話者の感情の推定情報を得て出力する(ステップS132)。
 [第3実施形態]
 第3実施形態を説明する。本実施形態では、正解感情ラベルt (h)と正解感情ソフトラベルt (s)とを同時に用いてモデル学習を行う。二つの種類の異なるラベルを同時に学習することで、正解感情ラベルt (h)の設定基準(多数決基準)と正解感情ソフトラベルt (s)の設定基準(ソフトラベル基準)の二つの観点からモデルを最適化することができる。結果として、選択される確率が最大の感情クラスの推定確率を高くしつつ、選択される確率は最大ではないものの正解感情ソフトラベルt (s)に正の確率で表れている感情クラスの推定確率も高くする感情認識モデルが構築できる。この結果、感情認識の精度が向上する。以下では第1,2実施形態との相違点を中心に説明し、第1,2実施形態と共通する事項については同じ参照番号を用いて説明を簡略化する。
 図面を用いて第2実施形態の詳細を説明する。
 <構成および処理>
 図4に例示するように、本形態の感情認識装置3は、モデル学習装置320、音響特徴系列抽出部131、および感情認識部132を有する。モデル学習装置320は、正解感情ラベル算出部201、ラベル生成装置110、音響特徴系列抽出部221,121、学習部303、および記憶部323を有する。
 学習部303は、ラベル生成装置110から出力された学習データ発話(第1発話)に対応する正解感情ソフトラベルt (s)と、音響特徴系列抽出部121から出力された当該学習データ発話の音響特徴系列と、正解感情ラベル算出部201から出力された第2学習データ発話(第2発話)に対応する正解感情ラベルt (h)と、音響特徴系列抽出部221から出力された当該第2学習データ発話の音響特徴系列とを入力とし、これらの組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデル(第1感情認識モデル)を得て出力する。学習部303は、例えば、従来手法の損失関数Lと正解感情ソフトラベルt (s)を用いて得られる損失関数Lとの重み付け和を新たな損失関数Lとして扱って感情認識モデルを学習する。例えば感情認識モデルが、入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得るモデルである場合、当該学習処理は、前記第2学習データ発話(第2発話)の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (h)を得、学習データ発話(第1発話)の音声特徴系列を当該学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)を得、出力値y (h),…,y (h)それぞれの関数値の総和に対する出力値y (h)の関数値の割合を第2学習データ発話における各感情クラスCの事後確率p (h)とし、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を学習データ発話における各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (h)の関数値と正解感情ラベルt (h)との積の総和と、k=1,…,Kについてのp (s)の関数値と正解感情ソフトラベルt (s)との積の総和との重み付け和を損失関数Lとして、感情認識モデルを学習する処理を含む。学習部303は、例えば、以下の式(9)に従って損失関数Lを計算する。
Figure JPOXMLDOC01-appb-M000008

ただし、γは0から1までの値をとる重みパラメータであり、γが大きいほど正解感情ラベルt (h)の影響が強くなり、γが小さいほど正解感情ソフトラベルt (s)の影響が強くなるように感情認識モデルが学習される。学習部303は、例えば、この重み付け和である損失関数Lを利用し、誤差逆伝搬法を用いて学習過程の感情認識モデルのモデルパラメータを更新し、モデル学習を行う(ステップS303)。最終的に得られた感情認識モデルを特定する情報(例えば、モデルパラメータ)は記憶部323に格納される(ステップS323)。
 <感情認識部132>
 感情認識部132は、記憶部323から読み込んだ情報で特定される感情認識モデルに、音響特徴系列抽出部131から出力された入力発話の音響特徴系列を適用し、入力発話の発話者の感情の推定情報を得て出力する(ステップS132)。
 [その他の変形例等]
 なお、本発明は上述の実施形態に限定されるものではない。例えば、深層学習に基づく時系列モデル以外のモデルを感情認識モデルとしてもよい。例えば、サポートベクターマシーン(SVM)、隠れマルコフモデル(HMM)等を感情認識モデルとして用いてもよい。上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、回数n,…,nの総和に対する回数nの割合の平滑化値として式(1)のα>0の場合を例示した。しかし、当該割合を別の方法で平滑化してもよい。例えば、式(1)のαが正解感情クラスに依存するαに置換され、αKがα+・・・+αに置換されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
 上記の各装置は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
 上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
 このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
 コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
1~3 感情認識装置
110 ラベル生成装置
120,220,320 モデル学習装置

Claims (15)

  1.  Kが2以上の整数であり、
     第1発話を聴取した聴取者が複数の感情クラスC,…,Cから前記第1発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、i=1,…,Kであり、前記正解感情クラスとして感情クラスCが選択された回数nを得る回数算出部と、
     回数n,…,nの総和に対する回数nの割合または前記割合の平滑化値を、k=1,…,Kであり、前記第1発話に対応する正解感情ソフトラベルt (s)として得る正解感情ソフトラベル算出部と、
    を有するラベル生成装置。
  2.  請求項1のラベル生成装置であって、
    Figure JPOXMLDOC01-appb-M000001

    であり、前記聴取者の人数がM人の場合にα=αであり、前記聴取者の人数がM人の場合にα=αであり、M>Mおよび0<α<αを満たす、ラベル生成装置。
  3.  請求項1または2のラベル生成装置と、
     前記第1発話に対応する前記正解感情ソフトラベルt (s)と前記第1発話の音声特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る学習部と、を有するモデル学習装置。
  4.  請求項3のモデル学習装置であって、
     前記第1発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)が得られ、
     前記学習処理は、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (s)の関数値と前記正解感情ソフトラベルt (s)との積の総和を損失関数として前記学習過程の感情認識モデルを更新し、前記第1感情認識モデルを得る処理を含む、モデル学習装置。
  5.  請求項1または2のラベル生成装置と、
     第2発話に対応する正解感情ラベルt (h)と、前記第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第2感情認識モデルを得る学習部と、
     前記第1発話に対応する前記正解感情ソフトラベルt (s)と前記第1発話の音声特徴系列との組の集合を学習データとした追加学習処理によって前記第2感情認識モデルを更新し、前記入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る追加学習部と、を有し、
     前記第2発話に対応する正解感情ラベルt (h)は、前記第2発話を聴取した聴取者によって前記複数の感情クラスC,…,Cから前記第2発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’に対応する正解感情ラベルti’ (h)を正の定数とし、前記感情クラスC,…,Cのうち前記感情クラスCi’以外の感情クラスCi”に対応する正解感情ラベルti” (h)を零としたものである、モデル学習装置。
  6.  請求項5のモデル学習装置であって、
     前記第2感情認識モデルが学習過程の感情認識モデルとされ、
     前記第1発話の音声特徴系列を前記学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)が得られ、
     前記追加学習処理は、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (s)の関数値と前記正解感情ソフトラベルt (s)との積の総和を損失関数として前記学習過程の感情認識モデルを更新し、前記第1感情認識モデルを得る処理を含む、モデル学習装置。
  7.  請求項1または2のラベル生成装置と、
     前記第1発話に対応する前記正解感情ソフトラベルt (s)と、前記第1発話の音声特徴系列と、第2発話に対応する正解感情ラベルt (h)と、前記第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る学習部と、を有し、
     前記第2発話に対応する正解感情ラベルt (h)は、前記第2発話を聴取した聴取者によって前記複数の感情クラスC,…,Cから前記第2発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’に対応する正解感情ラベルti’ (h)を正の定数とし、前記感情クラスC,…,Cのうち前記感情クラスCi’以外の感情クラスCi”に対応する正解感情ラベルti” (h)を零としたものであり、
     前記第2発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (h)が得られ、前記第1発話の音声特徴系列を前記学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)が得られ、
     前記学習処理は、出力値y (h),…,y (h)それぞれの関数値の総和に対する出力値y (h)の関数値の割合を前記第2発話における各感情クラスCの事後確率p (h)とし、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を前記第1発話における各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (h)の関数値と前記正解感情ラベルt (h)との積の総和と、k=1,…,Kについてのp (s)の関数値と前記正解感情ソフトラベルt (s)との積の総和との重み付け和を損失関数として前記学習過程の感情認識モデルを更新し、前記第1感情認識モデルを得る処理を含む、モデル学習装置。
  8.  請求項3から7のいずれかのモデル学習装置と、
     前記入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得る前記第1感情認識モデルに前記入力発話の音響特徴系列を適用し、前記出力値y、前記出力値yの関数値、または、前記出力値yによって表される前記事後確率が最大になる感情クラスCを表す情報を出力する感情認識部と、
    を有する感情認識装置。
  9.  Kが2以上の整数であり、
     回数算出部が、第1発話を聴取した聴取者が複数の感情クラスC,…,Cから前記第1発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、i=1,…,Kであり、前記正解感情クラスとして感情クラスCが選択された回数nを得る回数算出ステップと、
     正解感情ソフトラベル算出部が、k=1,…,Kであり、回数n,…,nの総和に対する回数nの割合または前記割合の平滑化値を、前記第1発話に対応する正解感情ソフトラベルt (s)として得る正解感情ソフトラベル算出ステップと、
    を有するラベル生成方法。
  10.  請求項9のラベル生成方法の前記回数算出ステップおよび前記正解感情ソフトラベル算出ステップと、
     学習部が、前記第1発話に対応する前記正解感情ソフトラベルt (s)と前記第1発話の音声特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る学習ステップと、
    を有するモデル学習方法。
  11.  請求項9のラベル生成方法の前記回数算出ステップおよび前記正解感情ソフトラベル算出ステップと、
     学習部が、第2発話に対応する正解感情ラベルt (h)と、前記第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第2感情認識モデルを得る学習ステップと、
     追加学習部が、前記第1発話に対応する前記正解感情ソフトラベルt (s)と前記第1発話の音声特徴系列との組の集合を学習データとした追加学習処理によって前記第2感情認識モデルを更新し、前記入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る追加学習ステップと、を有し、
     前記第2発話に対応する正解感情ラベルt (h)は、前記第2発話を聴取した聴取者によって前記複数の感情クラスC,…,Cから前記第2発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’に対応する正解感情ラベルti’ (h)を正の定数とし、前記感情クラスC,…,Cのうち前記感情クラスCi’以外の感情クラスCi”に対応する正解感情ラベルti” (h)を零としたものである、モデル学習方法。
  12.  請求項9のラベル生成方法の前記回数算出ステップおよび前記正解感情ソフトラベル算出ステップと、
     学習部が、前記第1発話に対応する前記正解感情ソフトラベルt (s)と、前記第1発話の音声特徴系列と、第2発話に対応する正解感情ラベルt (h)と、前記第2発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第1感情認識モデルを得る学習ステップと、を有し、
     前記第2発話に対応する正解感情ラベルt (h)は、前記第2発話を聴取した聴取者によって前記複数の感情クラスC,…,Cから前記第2発話の発話者の感情の正解値として選択された回数が最大の感情クラスCi’に対応する正解感情ラベルti’ (h)を正の定数とし、前記感情クラスC,…,Cのうち前記感情クラスCi’以外の感情クラスCi”に対応する正解感情ラベルti” (h)を零としたものであり、
     前記第2発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (h)が得られ、前記第1発話の音声特徴系列を前記学習過程の感情認識モデルに入力することで各感情クラスCの事後確率に関する出力値y (s)が得られ、
     前記学習処理は、出力値y (h),…,y (h)それぞれの関数値の総和に対する出力値y (h)の関数値の割合を前記第2発話における各感情クラスCの事後確率p (h)とし、出力値y (s),…,y (s)それぞれの関数値の総和に対する出力値y (s)の関数値の割合を前記第1発話における各感情クラスCの事後確率p (s)とし、k=1,…,Kについてのp (h)の関数値と前記正解感情ラベルt (h)との積の総和と、k=1,…,Kについてのp (s)の関数値と前記正解感情ソフトラベルt (s)との積の総和との重み付け和を損失関数として前記学習過程の感情認識モデルを更新し、前記第1感情認識モデルを得る処理を含む、モデル学習方法。
  13.  請求項10から12のいずれかのモデル学習方法の各ステップと、
     感情認識部が、前記入力発話の音響特徴系列に対する各感情クラスCの事後確率に関する出力値yを得る前記第1感情認識モデルに前記入力発話の音響特徴系列を適用し、前記出力値y、前記出力値yの関数値、または、前記出力値yによって表される前記事後確率が最大になる感情クラスCを表す情報を出力する感情認識ステップと、
    を有する感情認識方法。
  14.  請求項1または2の前記ラベル生成装置、請求項3から7のいずれかの前記モデル学習装置、または、請求項8の前記感情認識装置のいずれかとしてコンピュータを機能させるためのプログラム。
  15.  請求項1または2の前記ラベル生成装置、請求項3から7のいずれかの前記モデル学習装置、または、請求項8の前記感情認識装置のいずれかとしてコンピュータを機能させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体。
PCT/JP2018/041803 2017-11-21 2018-11-12 ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 WO2019102884A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/763,360 US11551708B2 (en) 2017-11-21 2018-11-12 Label generation device, model learning device, emotion recognition apparatus, methods therefor, program, and recording medium
JP2019555260A JP6933264B2 (ja) 2017-11-21 2018-11-12 ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017223840 2017-11-21
JP2017-223840 2017-11-21

Publications (1)

Publication Number Publication Date
WO2019102884A1 true WO2019102884A1 (ja) 2019-05-31

Family

ID=66630930

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/041803 WO2019102884A1 (ja) 2017-11-21 2018-11-12 ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体

Country Status (3)

Country Link
US (1) US11551708B2 (ja)
JP (1) JP6933264B2 (ja)
WO (1) WO2019102884A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110379441A (zh) * 2019-07-01 2019-10-25 特斯联(北京)科技有限公司 一种基于对抗型人工智能网络的语音服务方法与***
CN112185389A (zh) * 2020-09-22 2021-01-05 北京小米松果电子有限公司 语音生成方法、装置、存储介质和电子设备
CN112347258A (zh) * 2020-11-16 2021-02-09 合肥工业大学 一种短文本方面级情感分类方法
JPWO2021130936A1 (ja) * 2019-12-25 2021-07-01
JP2021124642A (ja) * 2020-02-06 2021-08-30 本田技研工業株式会社 情報処理装置、車両、プログラム、及び情報処理方法
JPWO2021171552A1 (ja) * 2020-02-28 2021-09-02
US20220027674A1 (en) * 2018-12-03 2022-01-27 Advanced Micro Devices, Inc. Deliberate conditional poison training for generative models
WO2023032016A1 (ja) * 2021-08-30 2023-03-09 日本電信電話株式会社 推定方法、推定装置および推定プログラム
JP7508333B2 (ja) 2020-10-15 2024-07-01 株式会社日立製作所 計算機システム及び学習方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3766066B1 (en) * 2018-04-19 2024-02-21 Microsoft Technology Licensing, LLC Generating response in conversation
US11854538B1 (en) * 2019-02-15 2023-12-26 Amazon Technologies, Inc. Sentiment detection in audio data
CN112489625A (zh) * 2020-10-19 2021-03-12 厦门快商通科技股份有限公司 语音情绪识别方法、***、移动终端及存储介质
US20220138534A1 (en) * 2020-11-03 2022-05-05 Adobe Inc. Extracting entity relationships from digital documents utilizing multi-view neural networks
US11508396B2 (en) * 2020-12-15 2022-11-22 TQINTELLIGENCE, Inc. Acquiring speech features for predicting emotional severity of adverse events on individuals
CN112579745B (zh) * 2021-02-22 2021-06-08 中国科学院自动化研究所 基于图神经网络的对话情感纠错***
CN113380271B (zh) * 2021-08-12 2021-12-21 明品云(北京)数据科技有限公司 情绪识别方法、***、设备及介质
CN115862675B (zh) * 2023-02-10 2023-05-05 之江实验室 一种情感识别方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005199403A (ja) * 2004-01-16 2005-07-28 Sony Corp 情動認識装置及び方法、ロボット装置の情動認識方法、ロボット装置の学習方法、並びにロボット装置
WO2010148141A2 (en) * 2009-06-16 2010-12-23 University Of Florida Research Foundation, Inc. Apparatus and method for speech analysis
US20160162807A1 (en) * 2014-12-04 2016-06-09 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation Emotion Recognition System and Method for Modulating the Behavior of Intelligent Systems

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
H. M. FAYEK ET AL.: "Modeling Subjectiveness in Emotion Recognition with Deep Neural Networks: Ensembles vs Soft Labels", PROC. OF 2016IJCNN, 24 July 2016 (2016-07-24), pages 566 - 570, XP032992216, doi:10.1109/IJCNN.2016.7727250 *
KUMANO, SHIRO ET AL.: "Model for Estimating Empathy/Antipathy from Facial Expressions and gaze in group Meetings and Its Evaluation: How to understand feelings expressed by interlocutor?", IEICE TECHNICAL REPORT, vol. 111, no. 214, 16 September 2011 (2011-09-16), pages 33 - 38 *
STEFAN STEIDL ET AL.: "OF All THINGS THE MEASURE IS MAN'' AUTOMATIC CLASSIFICATION OF EMOTIONS AND INTER-LABELER CONSISTENCY", PROC. OF ICASSP, 23 March 2005 (2005-03-23), pages 1-317 - 1-320, XP010792038 *
TERAOKA, ATSUSHI: "Technology File: 090 Emotion Recognition AI can read 'atmosphere' better than human", NIKKEI BUSINESS PUBLICATIONS, INC., no. 1916, 13 November 2017 (2017-11-13), pages 126 - 128 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220027674A1 (en) * 2018-12-03 2022-01-27 Advanced Micro Devices, Inc. Deliberate conditional poison training for generative models
CN110379441A (zh) * 2019-07-01 2019-10-25 特斯联(北京)科技有限公司 一种基于对抗型人工智能网络的语音服务方法与***
JP7239022B2 (ja) 2019-12-25 2023-03-14 日本電気株式会社 時系列データ処理方法
JPWO2021130936A1 (ja) * 2019-12-25 2021-07-01
WO2021130936A1 (ja) * 2019-12-25 2021-07-01 日本電気株式会社 時系列データ処理方法
JP7413055B2 (ja) 2020-02-06 2024-01-15 本田技研工業株式会社 情報処理装置、車両、プログラム、及び情報処理方法
JP2021124642A (ja) * 2020-02-06 2021-08-30 本田技研工業株式会社 情報処理装置、車両、プログラム、及び情報処理方法
JPWO2021171552A1 (ja) * 2020-02-28 2021-09-02
WO2021171552A1 (ja) * 2020-02-28 2021-09-02 日本電信電話株式会社 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム
JP7420211B2 (ja) 2020-02-28 2024-01-23 日本電信電話株式会社 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム
CN112185389A (zh) * 2020-09-22 2021-01-05 北京小米松果电子有限公司 语音生成方法、装置、存储介质和电子设备
JP7508333B2 (ja) 2020-10-15 2024-07-01 株式会社日立製作所 計算機システム及び学習方法
CN112347258B (zh) * 2020-11-16 2022-09-13 合肥工业大学 一种短文本方面级情感分类方法
CN112347258A (zh) * 2020-11-16 2021-02-09 合肥工业大学 一种短文本方面级情感分类方法
WO2023032016A1 (ja) * 2021-08-30 2023-03-09 日本電信電話株式会社 推定方法、推定装置および推定プログラム

Also Published As

Publication number Publication date
US11551708B2 (en) 2023-01-10
JP6933264B2 (ja) 2021-09-08
US20200302953A1 (en) 2020-09-24
JPWO2019102884A1 (ja) 2020-11-19

Similar Documents

Publication Publication Date Title
WO2019102884A1 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
Huang et al. Joint optimization of masks and deep recurrent neural networks for monaural source separation
Nakashika et al. Voice conversion using RNN pre-trained by recurrent temporal restricted Boltzmann machines
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
JP2002014692A (ja) 音響モデル作成装置及びその方法
Bandela et al. Unsupervised feature selection and NMF de-noising for robust Speech Emotion Recognition
JP6543820B2 (ja) 声質変換方法および声質変換装置
Swain et al. Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition
JP6845489B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
WO2021166207A1 (ja) 認識装置、学習装置、それらの方法、およびプログラム
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
Ons et al. Fast vocabulary acquisition in an NMF-based self-learning vocal user interface
JP6992725B2 (ja) パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
Přibil et al. GMM-based evaluation of emotional style transformation in czech and slovak
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
Kokkinidis et al. An empirical comparison of machine learning techniques for chant classification
Bykov et al. Improvement of the learning process of the automated speaker recognition system for critical use with HMM-DNN component
Gupta et al. Gender and age recognition using audio data—artificial neural networks
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
Dhakal Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms
Bakheet Improving speech recognition for arabic language using low amounts of labeled data
Rajendra Prasad et al. Sampling-based fuzzy speech clustering systems for faster communication with virtual robotics toward social applications
Kokkinidis et al. Finding the optimum training solution for Byzantine music recognition—A Max/Msp approach

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18880106

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019555260

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18880106

Country of ref document: EP

Kind code of ref document: A1