JP7394192B2 - Audio processing device, audio processing method, and program - Google Patents
Audio processing device, audio processing method, and program Download PDFInfo
- Publication number
- JP7394192B2 JP7394192B2 JP2022150288A JP2022150288A JP7394192B2 JP 7394192 B2 JP7394192 B2 JP 7394192B2 JP 2022150288 A JP2022150288 A JP 2022150288A JP 2022150288 A JP2022150288 A JP 2022150288A JP 7394192 B2 JP7394192 B2 JP 7394192B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech
- information
- signal
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 94
- 238000003672 processing method Methods 0.000 title claims description 4
- 230000008451 emotion Effects 0.000 claims description 110
- 230000005236 sound signal Effects 0.000 claims description 62
- 230000001629 suppression Effects 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 43
- 230000002996 emotional effect Effects 0.000 claims description 35
- 230000008909 emotion recognition Effects 0.000 claims description 32
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 6
- 230000010365 information processing Effects 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 description 38
- 238000003786 synthesis reaction Methods 0.000 description 38
- 238000000034 method Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 238000011156 evaluation Methods 0.000 description 15
- 238000001514 detection method Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 206010011469 Crying Diseases 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Description
本発明は、音声処理システム、音声処理装置及び音声処理方法に関する。 The present invention relates to an audio processing system, an audio processing device, and an audio processing method.
従来、顧客満足度(Customer Satisfaction:CS)向上のために、顧客の苦情等に対してオペレータが電話で応対する各種のコールセンターが運用されている。このような顧客応対業務では、顧客がオペレータに対して威圧的な言動や理不尽な要求を行う「カスタマーハラスメント」により、オペレータの精神不調を招いたり、オペレータの離職率が高くなったりすることが問題視されている。 Conventionally, in order to improve customer satisfaction (CS), various call centers have been operated in which operators respond to customer complaints by telephone. In this kind of customer service work, there is a problem with "customer harassment" in which customers make intimidating behavior and unreasonable demands towards operators, which can cause mental health problems for operators and increase the turnover rate of operators. being watched.
近年、このようなカスタマーハラスメントから、企業側が従業員であるオペレータを守るための音声変換システムも検討されている。例えば、特許文献1では、入力音声信号から音量及びピッチ変動量を算出し、音量及びピッチ変動量が所定値を超える場合に、音量及びピッチ変動量が所定内に収まるように音量及びピッチを変換して出力するように制御することが記載されている。
In recent years, voice conversion systems have been considered for companies to protect their employees (operators) from such customer harassment. For example, in
しかしながら、例えば、特許文献1に記載の方法で話し手の発話音声を変換するだけでは、話し手(第1のユーザ)の感情が十分に抑制されず、聞き手(第2のユーザ)のストレスを十分に軽減できない恐れがある。一方、聞き手のストレスを軽減するために、聞き手に出力される話し手の発話音声を変換すると、聞き手が話し手の感情を十分に認識できず、聞き手が適切な応対を行うことができない恐れもある。
However, for example, simply converting the speaker's utterance using the method described in
そこで、本発明は、聞き手のストレスの十分な軽減、及び/又は、聞き手の適切な応対を可能とする音声処理システム、音声処理装置及び音声処理方法を提供する。 Accordingly, the present invention provides a voice processing system, a voice processing device, and a voice processing method that can sufficiently reduce the listener's stress and/or enable the listener to respond appropriately.
本発明の一つの態様に係る音声処理システムは、第1のユーザの発話音声の信号である発話音声信号を取得する取得部と、前記発話音声信号に基づいて抽出される特徴量を音声認識モデルに入力して、一以上の単語からなる単語列を含むテキストデータを生成する音声認識部と、前記テキストデータに基づいて抽出される特徴量を音声合成モデルに入力して、合成音声の信号である合成音声信号を生成する音声合成部と、第2のユーザに対して前記合成音声を出力する音声出力部と、を備える。 A voice processing system according to one aspect of the present invention includes an acquisition unit that acquires a spoken voice signal that is a signal of a first user's spoken voice, and a voice recognition model that uses feature quantities extracted based on the spoken voice signal. A speech recognition unit generates text data including a word string consisting of one or more words, and a speech synthesis model inputs features extracted based on the text data to generate a synthesized speech signal. The apparatus includes a voice synthesis section that generates a certain synthesized voice signal, and a voice output section that outputs the synthesized voice to a second user.
この態様によれば、第1のユーザの発話音声信号に基づいてテキストデータを生成し、当該テキストデータに基づいて生成される合成音声を第2のユーザに出力する。このため、第1のユーザの発話音声に含まれる顧客の感情を十分に抑制した合成音声を第2のユーザに聞かせることができ、第1のユーザの感情的発話に起因する第2のユーザのストレスを十分に軽減できる。 According to this aspect, text data is generated based on the speech signal of the first user, and synthesized speech generated based on the text data is output to the second user. Therefore, the second user can hear the synthesized voice that sufficiently suppresses the customer's emotions included in the first user's utterance, and the second user's voice caused by the first user's emotional utterance can sufficiently reduce stress.
上記音声処理システムにおいて、前記感情認識部は、発話音声信号、当該発話音声信号から抽出した特徴量、当該発話音声信号から生成したテキストデータ、当該テキストデータから抽出された特徴量、又はこれらの少なくとも二つの組み合わせを入力とし、当該発話音声信号の発話者の感情情報を出力するよう機械学習された感情認識モデルに、前記取得部が取得した発話音声信号、当該発話音声信号から抽出した音声特徴量、当該発話音声信号から生成したテキストデータ、当該テキストデータに対応するテキスト特徴量、又はこれらの少なくとも二つの組み合わせを入力することにより、前記取得部が取得した発話音声信号に対応する第1のユーザの感情情報を生成してもよい。 In the above-mentioned speech processing system, the emotion recognition unit is configured to generate a speech audio signal, a feature amount extracted from the speech audio signal, text data generated from the speech audio signal, a feature amount extracted from the text data, or at least one of these. The uttered audio signal acquired by the acquisition unit and the audio features extracted from the uttered audio signal are input to an emotion recognition model machine-learned to output emotion information of the speaker of the uttered audio signal by inputting the combination of the two. , a first user corresponding to the speech audio signal acquired by the acquisition unit by inputting text data generated from the speech audio signal, text features corresponding to the text data, or a combination of at least two of these. emotional information may be generated.
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。 Embodiments of the present invention will be described with reference to the accompanying drawings. In addition, in each figure, those with the same reference numerals have the same or similar configurations.
以下、本実施形態に係る音声処理システムをコールセンター等の顧客応対業務において使用することを想定して説明を行うが、本発明の適用形態はこれに限られない。本実施形態は、第1のユーザの発話音声の信号(以下、「発話音声信号」という)に所定の処理を施して生成される音声を第2のユーザに対して出力するどのような場面にも適用可能である。以下では、第1のユーザが顧客であり、第2のユーザがオペレータであるものとするが、これに限られない。 Although the following description assumes that the voice processing system according to the present embodiment is used in customer service work such as a call center, the application form of the present invention is not limited to this. The present embodiment is applicable to any situation in which a sound generated by subjecting a first user's speech signal (hereinafter referred to as "speech sound signal") to a predetermined process is output to a second user. is also applicable. In the following, it is assumed that the first user is a customer and the second user is an operator, but the present invention is not limited to this.
(音声処理システムの構成)
<全体構成>
図1は、本実施形態に係る音声処理システム1の概略の一例を示す図である。図1に示すように、音声処理システム1は、音声処理装置10と、第2のユーザ(以下、「オペレータ」という)によって使用される端末(以下、「オペレータ端末」という)20と、第1のユーザ(以下、「顧客」という)によって使用される端末(以下、「顧客端末」という)30と、を備える。
(Speech processing system configuration)
<Overall configuration>
FIG. 1 is a diagram schematically showing an example of an
音声処理装置10は、顧客端末30で取得される発話音声信号を、ネットワーク40を介して受信する。ネットワーク40は、インターネット等の外部ネットワークであってもよいし、外部ネットワーク、及び、Local Access Network(LAN)等の内部ネットワークを含んでもよい。音声処理装置10は、顧客の発話音声信号に対して所定の処理を施した音声をオペレータ端末20に送信する。なお、音声処理装置10は、一つ又は複数のサーバで構成されてもよい。
The
オペレータ端末20は、例えば、電話、スマートフォン、パーソナルコンピュータ、タブレット等である。オペレータ端末20は、音声処理装置10で所定の処理で生成される音声信号又は顧客端末30からの発話音声信号に基づいて、音声をオペレータに出力する。
The
顧客端末30は、例えば、電話、スマートフォン、パーソナルコンピュータ、タブレット等である。顧客端末30は、顧客の発話音声をマイクにより収音して、当該発話音声の信号である発話音声信号を音声処理装置10に送信する。
The
<物理構成>
図2は、本実施形態に係る音声処理システム1を構成する各装置の物理構成の一例を示す図である。各装置(例えば、音声処理装置10、オペレータ端末20及び顧客端末30)は、演算部に相当するプロセッサ10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read Only Memory)10cと、通信部10dと、入力部10eと、表示部10fと、カメラ10g、音声入力部10hと、音声出力部10iと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、図2で示す構成は一例であり、各装置はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。
<Physical configuration>
FIG. 2 is a diagram showing an example of the physical configuration of each device configuring the
プロセッサ10aは、例えば、CPU(Central Processing Unit)である。プロセッサ10aは、RAM10b又はROM10cに記憶されているプログラムを実行することにより、各装置における各種処理を制御する制御部である。プロセッサ10aは、各装置が備える他の構成と、プログラムとの協働により、各装置の機能を実現し、処理の実行を制御する。プロセッサ10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10fに表示したり、RAM10bに格納したりする。
The
RAM10b及びROM10cは、各種処理に必要なデータ及び処理結果のデータを記憶する記憶部である。各装置は、RAM10b及びROM10c以外に、ハードディスクドライブ等の大容量の記憶部を備えてもよい。RAM10b及びROM10cは、例えば、半導体記憶素子で構成されてもよい。
The
通信部10dは、各装置を他の機器に接続するインターフェースである。通信部10dは、他の機器と通信する。入力部10eは、ユーザからデータの入力を受け付けるためのデバイスや、各装置の外部からデータを入力するためのデバイスである。入力部10eは、例えば、キーボード、マウス及びタッチパネル等を含んでよい。表示部10fは、プロセッサ10aによる制御に従って、情報を表示するデバイスである。表示部10fは、例えば、LCD(Liquid Crystal Display)により構成されてよい。
The
カメラ10gは、静止画像又は動画像を撮像する撮像素子を含み、所定の領域の撮像により撮像画像(例えば、静止画像又は動画像)を生成する。音声入力部10hは、音声を収音するデバイスであり、例えば、マイクである。音声出力部10iは、音声を出力するデバイスであり、例えば、スピーカーである。
The
各装置を実行させるためのプログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続されるネットワーク40を介して提供されてもよい。各装置では、プロセッサ10aが当該プログラムを実行することにより、各装置を制御するための様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、各装置は、プロセッサ10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。
The program for executing each device may be provided by being stored in a computer-readable storage medium such as the
<機能的構成>
≪音声処理装置≫
図3は、本実施形態に係る音声処理装置10の機能構成の一例を示す図である。音声処理装置10は、記憶部101、送受信部102、音声認識部103、除去部104、音声合成部105、感情認識部106、ストレス認識部107、制御部108、学習部109を含む。
<Functional configuration>
≪Sound processing device≫
FIG. 3 is a diagram showing an example of the functional configuration of the
記憶部101は、各種情報、プログラム、アルゴリズム、モデル、操作ログ等を記憶する。具体的には、記憶部101は、後述する音声認識モデル101a、音声合成モデル101b、感情認識モデル101c、ストレス認識モデル101d、感情抑制切替モデル101e等を記憶する。
The
送受信部102は、オペレータ端末20及び/又は顧客端末30との間で、種々の情報及び/又は信号を送信及び/又は受信する。例えば、送受信部102(取得部)は、顧客端末30で収音された顧客の発話音声の信号である発話音声信号を取得する。送受信部102は、オペレータ端末20に対して、合成音声信号及び/又は発話音声信号を送信する。また、送受信部102は、オペレータ端末20からオペレータによる操作ログを取得してもよい。操作ログにはオペレータによる顧客の感情の主観的評価に関する情報(以下、「主観的評価情報」という)、後述する「ストレスの度合い」、後述する「手動切替履歴データ」が含まれてよい。また、送受信部102は、オペレータ端末20に対して、顧客の感情に関する情報(以下、「感情情報」という)等を送信してもよい。
The transmitting/receiving
音声認識部103は、送受信部102で取得された発話音声信号に基づいて抽出される特徴量(以下、「音声特徴量」という)を音声認識モデル101aに入力して、一以上の単語からなる単語列を含むテキストデータを生成する。具体的には、音声認識部103は、音声認識モデル101aの音響モデルを用いて上記音声特徴量から単語列を生成し、言語モデルを用いた単語列の分析結果に従って上記テキストデータを生成してもよい。音声認識部103は、発話音声信号に対して前処理(例えば、アナログ信号のディジタル化、ノイズの除去、フーリエ変換等)を実施して、音声特徴量を抽出してもよい。
The
音声認識モデル101aは、音声信号に基づいて音声の内容を推定するアルゴリズムである。音声認識モデル101aは、ある単語がどのような音となって現れやすいかということをモデル化した音響モデル、及び/又は、特定の言語においてある単語列がどのくらいの確率で現れるかをモデル化した言語モデルを含んでもよい。音響モデルとしては、例えば、隠れマルコフモデル(Hidden Markov Model:HMM)及び/又はディープニューラルネットワーク(Deep Neural Network:DNN)が用いられてもよい。言語モデルとしては、例えば、nグラム言語モデル等の確率的言語モデルが用いられてもよい。
The
除去部104は、音声認識部103で生成されたテキストデータに含まれる特定の単語列を検出し、当該特定の単語列を除去又は前記特定の単語列を他の単語列に置換したテキストデータを生成し、音声合成部105に出力する。除去部104は、音声認識部103で生成されたテキストデータ内で特定の単語列が検出されない場合、当該テキストデータを音声合成部105に出力してもよい。
The
当該特定の単語列は、例えば、聞き手を侮辱したり、聞き手の人格を否定したりする、聞き手を不快にする等、聞き手に心理的悪影響を与える一以上の単語であってもよい。ここで、各単語は、名詞、動詞、副詞、助詞、形容詞、助動詞等の少なくとも一つの品詞、当該品詞が音変化したもの等を含んでもよい。例えば、特定の単語列は、「お前、ぶっ殺すぞ」というような「文」であってもよいし、「困るっつってんの」の「っつってん」等、乱暴な言葉遣いであることを示す「文の一部」であってもよい。除去部104は、テキストデータ内で検出された特定の単語列のみを他の単語列に置き換えたテキストデータを音声合成部105に出力してもよいし、又は、当該特定の単語列を含む文全体を他の単語列に置き換えたテキストデータを音声合成部105に出力してもよい。当該他の単語列は、空白等であってもよい。
The specific word string may be one or more words that have a negative psychological impact on the listener, such as insulting the listener, denying the listener's personality, or making the listener uncomfortable. Here, each word may include at least one part of speech such as a noun, verb, adverb, particle, adjective, or auxiliary verb, or a sound change of the part of speech. For example, a specific word string may be a sentence such as ``I'm going to kill you,'' or it may be a sentence that uses rough language, such as ``ttsutten'' in ``troubled tsuttenno.'' It may also be a "part of a sentence" shown in the text. The
除去部104は、記憶部101に予め記憶された特定の単語列に基づいて、テキストデータ内の特定の単語列の検出及び/又は他の単語列への置き換えを実施してもよい。
The
或いは、除去部104は、機械学習により学習されたモデルに基づいて、テキストデータ内の特定の単語列の検出、及び/又は、意味的感情を緩和した他の単語列への置き換えを実施してもよい。例えば、テキストデータ内の特定の単語列「お前」は、「あなた」に置換されてもよい。機械学習に基づくモデルに基づいて、テキストデータ内の特定の単語列の検出及び/又は他の単語列への置き換えを実施してもよい。
Alternatively, the
なお、除去部104は、テキストデータ内で特定の単語列が検出される場合、当該特定の単語列の検出に関する情報(以下、「検出情報」という)を生成してもよい。当該検出情報は、例えば、当該特定の単語列が検出されたことを示す情報(例えば、「NGワード」又は「NGワード検出」という文字列)、当該特定の単語列を示す情報、及び、顧客に対する警告に関する情報(以下、「警告情報」という)の少なくとも一つを含んでもよい。当該警告情報は、例えば、オペレータに対する顧客の発話内容が侮辱罪、名誉棄損罪等の刑事告訴対象となり得ることを通知するための情報であってもよい。検出情報は、送受信部102によってオペレータ端末20に送信されてもよい。検出情報が生成された場合、音声処理装置10は、顧客端末30に対して警告情報(例えば、「当社オペレータに対して侮辱罪等の恐れがあります。当社の不手際もあるとは思いますが、当社オペレータに過度な負担になる場合がありますのでご協力を頂けますと幸いです。」)を出力させてもよい。このような警告情報は、カスタマーハラスメントに対する事前告知として利用することができる。
Note that when a specific word string is detected within the text data, the
音声合成部105は、除去部104から入力されるテキストデータに基づいて抽出される特徴量(以下、「テキスト特徴量」という)を音声合成モデル101bに入力して、合成音声の信号(以下、「合成音声信号」という)を生成する。具体的には、除去部104は、テキスト特徴量に基づいて音声合成パラメータを予測し、予測された音声合成パラメータを用いて合成音声信号を生成してもよい。音声合成部105は、合成音声信号を送受信部102に出力する。合成音声信号は、テキストデータの内容を読み上げた音声の信号ともいえる。
The
音声合成モデル101bは、テキストデータを入力として当該テキストデータの内容に対応する合成音声信号を出力するアルゴリズムである。音声合成モデル101bとしては、例えば、上記HMM及び/又はDNNが用いられてもよい。
The
当該音声合成モデル101bは、複数の音声種別に対応してもよい。音声合成部105は、複数の音声種別の中から合成音声信号に用いる音声種別を選択し、選択した音声種別とテキストデータとを音声合成モデル101bに入力して、選択した音声種別の合成音声信号を合成してもよい。当該複数の音声種別は、例えば、抑揚が少ない音声、機械音、キャラクターの音声、芸能人の音声及び声優の音声の少なくとも一つ等であってもよい。音声合成部105は、オペレータからオペレータ端末20を介して音声種別の選択を受け付けてもよい。
The
図4は、本実施形態に係る合成音声信号の生成の一例を示す図である。図4では、送受信部102で取得された発話音声信号S1~S3に基づいて、音声認識部103においてテキストデータT1~T3が生成されるものとする。例えば、図4では、除去部104は、テキストデータT1内で特定の単語列を検出しないので、テキストデータT1をそのまま音声合成部105に出力する。一方、除去部104は、テキストデータT2及びT3内で特定の単語列(T2では「お前、ぶっ殺すぞ」、T3では「っつってん」)を検出するので、当該特定の単語列を除去又は置換したテキストデータT2’及びT3’を音声合成部105に出力する。例えば、テキストデータT2’では、テキストデータT2内の特定の単語列が空白(□)に置換される。また、テキストデータT3’では、テキストデータT3内の特定の単語列「っつってん」が「という」に置換される。音声合成部105は、テキストデータT1、T2及びT3からそれぞれ合成音声信号S1、S2’及びS3’を生成する。
FIG. 4 is a diagram illustrating an example of generation of a synthesized speech signal according to this embodiment. In FIG. 4, it is assumed that text data T1 to T3 are generated in the
感情認識部106は、送受信部102で取得された発話音声信号、音声認識部103で生成されたテキストデータ、及び、送受信部102で受信される主観的評価情報の少なくとも一つに基づいて、顧客の感情情報を生成する。感情認識部106は、発話音声信号に基づいて抽出された音声特徴量(例えば抑揚や音量など)に基づいて顧客の感情情報を生成してよい。感情認識部106は、発話音声信号に基づいて生成されたテキストデータに特定の単語列が検出されたこと、又は、特定の単語列が所定時間以上検出されなかったことに基づいて顧客の感情情報を生成してよい。感情認識部106は、カメラ10gで取得される顧客の撮像画像に基づいて、顧客の感情情報を生成してもよい。感情認識部106は感情認識モデル101cを用いて顧客の感情情報を生成してもよい。
The
感情認識モデル101cは、発話音声信号、当該発話音声信号から抽出した音声特徴量、当該発話音声信号から生成したテキストデータ、テキスト特徴量又はこれらの少なくとも二つの組み合わせを入力とし、当該発話音声信号に対応する顧客の感情である感情情報を出力するモデルである。
The
図5Aは感情認識モデル101cの学習処理の説明図である。例えば、感情認識モデル101cの学習には、発話音声信号から抽出される音声特徴量、テキストデータから抽出されるテキスト特徴量、及び、オペレータによる「主観的評価情報」(又は主観的評価情報から抽出される特徴量)の少なくとも一つをそれぞれ含む複数のデータのセット(以下、「データセット」という)を用いてよい。主観的評価情報は、オペレータが顧客の発話音声信号を聞いて顧客の感情を主観で評価した情報である。例えば、怒りレベル1~10のように、オペレータが複数のレベルで顧客の怒りを評価するものであってもよい。感情認識モデル101cを学習するためのデータセットは例えば以下のように生成されてもよい。オペレータは、顧客の生の発話音声信号を聞いて、当該発話音声信号から推定される顧客の感情をアノテーションする(すなわち発話音声信号に対して「主観的評価情報」を付与する)。これにより、発話音声信号と当該発話音声信号から推定される顧客の感情とが時間軸上で関連付けされた情報が得られる。複数のオペレータが複数の発話音声信号に対して主観的評価情報の付与を行うことにより、このような情報の束であるデータセットが得られる。感情認識モデル101cは、このようなデータセットを用いて教師有り機械学習されてもよい。なお、感情認識モデル101cの学習に用いられるデータセットは、音声特徴量に加えて又は代えて発話音声信号を含んでもよいし、テキスト特徴量に加えて又は代えてテキストデータを含んでもよい。
FIG. 5A is an explanatory diagram of the learning process of the
図5Bは感情認識モデル101cを用いた推定処理の説明図である。例えば、図5Bに示すように、発話音声信号S1から抽出した音声特徴量、及び/又は、当該発話音声信号S1から生成したテキストデータT1から抽出したテキスト特徴量を感情認識モデル101cに入力することにより、入力に対応する出力、すなわち発話音声信号に対応する感情情報が得られる。なお、感情認識モデル101cには、音声特徴量に加えて又は代えて発話音声信号S1が入力されてもよいし、テキスト特徴量に加えて又は代えてテキストデータT1が入力されてもよい。
FIG. 5B is an explanatory diagram of estimation processing using the
主観的評価情報は、一以上の感情(例えば、「幸福」、「驚き」、「恐怖」、「怒り」、「嫌悪」及び「悲しみ」の少なくとも一つ等)の度合を数値で示すものであってもよい。又は、感情情報は、顧客が感じている可能性が高い特定の感情(例えば、「怒り」)を示すものであってもよい。 The subjective evaluation information indicates numerically the degree of one or more emotions (for example, at least one of "happiness," "surprise," "fear," "anger," "disgust," and "sadness," etc.) There may be. Alternatively, the emotion information may indicate a specific emotion (eg, "anger") that the customer is likely to be feeling.
ストレス認識部107は、オペレータのストレス状況に関する情報(以下、「ストレス情報」という)を生成する。例えば、ストレス認識部107は、オペレータの心拍数、発汗量、呼吸量などのバイタルデータあるいは、カメラを用いて収集したオペレータの視線、表情などの画像情報に基づいて、従来周知の方法によってオペレータのストレス状況を推定してよい。例えば、ストレス認識部107は、オペレータによる発話音声に基づいてオペレータのストレス状況を推定してよい。具体的には、ストレス認識部107は、オペレータの発話のトーンやスピードの変化、謝罪に関する単語の出現、顧客の発言に被せて発言すること等に基づいて、オペレータのストレス状況を推定してよい。例えば、ストレス認識部107は、オペレータ端末20の操作ログに基づいてオペレータのストレス状況を推定してよい。具体的には、ストレス認識部107は、マウス等の動きや、操作すべき場面で操作入力が無いことなどに応じて、オペレータのストレス状況を推定してよい。ストレス認識部107は、ストレス認識モデル101dに基づいてストレス情報を生成してよい。ストレス認識モデル101dは、発話音声信号、当該発話音声信号から抽出した音声特徴量、当該発話音声信号から生成したテキストデータ、テキスト特徴量又はこれらの少なくとも二つの組み合わせを入力とし、当該発話音声を聞いているオペレータが感じるストレスの推定値を出力するモデルである。ストレス認識モデル101dの学習には、顧客の発話音声を聞いてオペレータが実際に感じたストレスの実測値を用いてよい。ストレス認識モデル101dを学習するためのデータセットは例えば以下のように生成されてもよい。オペレータは、顧客の発話音声を聞いて感じたストレスの度合い(例えば1~10のようなレベル)をアノテーションする(すなわち発話音声信号に対して自身が感じた「ストレスの度合い」を付与する)。これにより、発話音声信号と当該発話音声信号を聞いた際のオペレータのストレスとが時間軸上で関連付けされた情報が得られる。複数のオペレータが複数の発話音声信号に対してストレスの度合いの付与を行うことにより、このような情報の束であるデータセットが得られる。ストレス認識モデル101dは、このようなデータセットを用いて教師有り機械学習されてもよい。
The
制御部108は、音声処理装置10に関する種々の制御を行う。具体的には、制御部108は、ストレス認識部107において生成されるストレス情報に基づいて、オペレータ端末20において音声合成部105で生成された合成音声又は顧客の発話音声のどちらを出力するかを切り替えてもよい。制御部108は、発話音声信号に基づいて合成音声信号を生成するか否かをストレス情報に基づいて切り替えてもよい。例えば、制御部108は、ストレス情報が示すストレス度数が所定の閾値以上又はより大きい場合、顧客の発話音声ではなく合成音声をオペレータに出力するように制御してもよい。一方、制御部108は、ストレス情報が示すストレス度数が所定の閾値より小さい又は以下である場合、発話音声をオペレータに出力するように制御してもよい。制御部108は、オペレータから感情抑制機能の自動切り替えについての指示情報が入力された場合、ストレス情報に基づいて上記切り替えを行ってもよい。感情抑制機能とは、顧客の発話音声に代えて合成音声をオペレータに出力する機能である。
The
制御部108は、感情情報に基づいて上記切り替えを行ってもよい。制御部108は、当該切り替えを感情抑制切替モデル101eの出力に基づいて行ってもよい。感情抑制切替モデル101eは、発話音声信号、音声特徴量、テキストデータ、テキスト特徴量又はこれらの少なくとも二つの組み合わせを入力として、感情抑制機能のオン・オフを切り替えるタイミングを出力とするモデルである。感情抑制切替モデル101eは更にストレス情報又は感情情報を入力としてもよい。感情抑制切替モデル101eの詳細については後述する。
The
また、制御部108は、オペレータによって入力される切り替え情報に基づいて上記切り替えを行ってもよい。ここで、切り替え情報は、顧客の感情抑制機能の適用(オン)又は非適用(オフ)の切り替えに関する情報である。例えば、制御部108は、切り替え情報が顧客の感情抑制機能の適用を示す場合、合成音声をオペレータに出力するように制御してもよい。一方、制御部108は、切り替え情報が顧客の感情抑制機能の非適用を示す場合、発話音声をオペレータに出力するように制御してもよい。制御部108は、オペレータから感情抑制機能の手動切り替えについての指示情報が入力された場合、上記切り替え情報に基づいて上記切り替えを行ってもよい。
Further, the
学習部109は、感情認識モデル101c、ストレス認識モデル101d及び感情抑制切替モデル101eの学習処理を行ってよい。
The
音声処理装置10は、以下1)乃至7)に示すいずれかの情報、又は、少なくとも二つの情報の組み合わせを時間軸上で関連付け、送受信部102を介して、オペレータ端末20に対して送信してよい。1)顧客の発話音声信号、2)発話音声信号から生成されたテキストデータ、3)除去部104の処理を経たあとのテキストデータ、4)検出情報、5)合成音声信号、6)顧客の発話音声信号から推定される顧客の感情情報、7)感情抑制機能のオン・オフを切り替えるタイミング。感情抑制機能がオンである場合、音声処理装置10は顧客の発話音声信号をオペレータ端末20に送らなくてもよい。感情抑制機能がオフである場合、音声処理装置10は合成音声信号をオペレータ端末20に送らなくてもよい。感情抑制機能のオン・オフに関わらず、音声処理装置10は顧客の発話音声信号と合成音声信号との両方をオペレータ端末20に送ってもよい。
The
≪オペレータ端末≫ ≪Operator terminal≫
図6は、本実施形態に係るオペレータ端末の機能構成の一例を示す図である。オペレータ端末20は、送受信部201、入力受付部202、制御部203を備える。なお、図6に示す機能構成は一例にすぎず、図示しない他の構成を備えてもよい。
FIG. 6 is a diagram showing an example of the functional configuration of the operator terminal according to the present embodiment. The
送受信部201は、音声処理装置10及び/又は顧客端末30との間で、種々の情報及び/又は信号を送信及び/又は受信する。例えば、送受信部201は、顧客端末30で収音された顧客の発話音声の信号である発話音声信号を受信してもよい。送受信部102は、音声処理装置10から、合成音声信号を受信してもよい。また、送受信部201は、音声処理装置10に対して、主観的評価情報を送信してもよい。また、送受信部201は、音声処理装置10から、顧客の感情情報を受信してもよい。
The transmitting/receiving
入力受付部202は、オペレータによる入力部10eの操作に基づいて、種々の情報の入力を受け付ける。例えば、入力受付部202は、感情認識モデル101cやストレス認識モデル101dを学習するためのデータセットを生成するための作業の一環として、顧客の生の発話音声信号に対して主観的評価情報やストレスの度合いの入力を受け付けてもよい。以降、オペレータが、オペレータ端末20において主観的評価情報やストレスの度合いを入力する作業を「アノテーション作業」と呼ぶ。アノテーション作業は、通常のコールセンター業務とは別の業務として位置付けられていてもよい。また、入力受付部202は、顧客の感情抑制機能の切り替え情報の入力を受け付けてもよい。また、入力受付部202は、感情抑制機能の手動切り替え又は自動切り替えのどちらかを指示する指示情報の入力を受け付けてもよい。
The
制御部203は、オペレータ端末20に関する種々の制御を行う。例えば、制御部203は、表示部10fにおける情報及び/又は画像の表示を制御する。また、制御部203は、音声出力部10iにおける音声の出力を制御する。制御部203は、音声処理装置10から送信される情報に基づいて音声の出力を制御してもよいし、入力受付部202が受け付けた情報に基づいて音声の出力を制御してもよい。
The
制御部203は、音声処理装置10から受信した合成音声信号に基づいて合成音声を音声出力部10iから出力させる。制御部203は、顧客端末30からの発話音声信号に基づいて発話音声を音声出力部10iから出力させてもよい。
The
また、制御部203は、音声処理装置10から受信した感情情報に基づいて、合成音声信号に対応する感情情報を表示部10fに表示させてもよい。また、制御部203は、音声処理装置10から受信した合成音声信号に対応するテキストデータを表示部10fに表示させてもよい。例えば、制御部203は、感情情報、テキストデータ及び検出情報の少なくとも一つを含む画面D1を表示部10fに表示させてもよい。また、制御部203は、ストレス情報を表示部10fに表示させてもよい。例えば、制御部203は、ストレス情報を含む画面D2を表示部10fに表示させてもよい。
Further, the
図7は、本実施形態に係る画面D1の一例を示す図である。図7に示すように、画面D1において、制御部203は、音声出力部10iからの合成音声の出力タイミングTに合わせて、感情情報I1を表示部10fに表示させてもよい。合成音声の出力タイミングT毎に感情情報I1を表示させることにより、オペレータは、感情抑制機能により顧客の感情が抑制された合成音声を聞く場合でも、顧客の感情をリアルタイムで認識することができる。
FIG. 7 is a diagram showing an example of the screen D1 according to the present embodiment. As shown in FIG. 7, on the screen D1, the
また、画面D1において、制御部203は、当該合成音声の出力タイミングTに合わせて、当該合成音声に対応するテキストデータI2の内容を表示部10fに表示させてもよい。テキストデータI2の内容を表示させることにより、オペレータは、合成音声だけでなく、視覚的にも顧客の発話内容を把握可能となる。
Further, on the screen D1, the
また、画面D1では、制御部203は、音声処理装置10から受信した検出情報に基づいて、特定の単語列そのものの表示に代えて、特定の単語列の検出を示す情報I3(例えば、「NGワード検出」)を表示部10fに表示させてもよい。この機能を「NGワード非表示機能」と呼ぶ。これにより、心理的悪影響を与える顧客の発話の内容をそのままオペレータに認識させるのを回避できるのでオペレータのストレスを抑制できる。また、当該発話があったことはオペレータに通知できるので、オペレータが顧客に対する応対を適切に行うことができる。
Furthermore, on screen D1, based on the detection information received from the
また、画面D1において、制御部203は、音声処理装置10からの感情情報に基づいて、合成音声の出力タイミングT毎に、顧客の特定の感情のレベルI4を時系列に表示部10fに表示させてもよい。例えば、図7では、合成音声の出力タイミングT毎の顧客の「怒り」のレベルI4が折れ線グラフで示される。これにより、オペレータが顧客の特定の感情(例えば、「怒り」)の遷移を容易に把握できるので、顧客に対するオペレータの応対の満足度を向上できる。
In addition, on the screen D1, the
画面D1において、制御部203は選択ボタンI5を表示部10fに表示させてもよい。
選択ボタンI5は、感情抑制機能の適用(オン)又は非適用(オフ)を自動又は手動のどちらで切り替えるかをオペレータが選択可能とするインターフェースである。オペレータは選択ボタンI5に対してクリック、タップ又はスライド等の操作を行うことにより「自動切換モード」と「手動切替モード」を切り替えることができる。自動切換モードにおいては、例えば感情情報、ストレス情報、又は感情抑制切替モデル101eからの出力等に基づいて感情抑制機能のオン・オフが自動で切り替わる。
On the screen D1, the
The selection button I5 is an interface that allows the operator to select whether to automatically or manually switch application (on) or non-application (off) of the emotion suppression function. The operator can switch between the "automatic switching mode" and the "manual switching mode" by clicking, tapping, or sliding the selection button I5. In the automatic switching mode, the emotion suppression function is automatically switched on and off based on, for example, emotional information, stress information, or the output from the emotion
「手動切替モード」が選択された場合、制御部203は、感情抑制機能の適用又は非適用をオペレータが選択可能とするインターフェースである切替ボタンI6を表示部10fに表示させてよい。オペレータが感情抑制機能のオンとオフを切り替えたタイミングは、顧客の発話音声(及び/又は発話音声に基づいて抽出される各種特徴量)と時間軸上で関連付けされて「手動切替履歴データ」として不図示の記憶部に蓄積される。「手動切替履歴データ」には更にオペレータの識別情報が関連付けられてもよい。
When the "manual switching mode" is selected, the
切り替えボタンI7は、「NGワード非表示機能」のオン・オフを切り替えるためのボタンである。「NGワード非表示機能」がオフの場合には、テキストデータI2の内に特定の単語列が検出された場合でも、除去部104による処理が行われる前のテキストデータI2がそのまま表示部10fに表示される。感情抑制機能をオンにしつつNGワード非表示機能をオフにした場合、オペレータは顧客による特定の単語列を直接聞くことは無いのでストレスが軽減される一方で、顧客の発話内容を正確に把握することにより顧客の感情をより正確に把握することができる。
The switching button I7 is a button for switching the "NG word hiding function" on and off. When the "NG word hiding function" is off, even if a specific word string is detected in the text data I2, the text data I2 before being processed by the
感情抑制切替モデル101eを学習するためのデータセットは、ストレス情報、感情情報、発話音声信号S1、音声特徴量、テキストデータ、テキスト特徴量又はこれらの少なくとも二つの組み合わせと、オペレータが感情抑制機能のオン・オフを切り替えたタイミングとが、時間軸上で関連付けされたデータの束であってよい。感情抑制切替モデル101eを学習する方法は、例えば下記1)から3)に述べるような様々な方法がある。1)感情抑制切替モデル101eはオペレータ毎に学習されてもよい。すなわち、或るオペレータに対して適用される感情抑制切替モデル101eは、そのオペレータによる感情抑制機能の「手動切替履歴データ」のみに基づいて学習されてもよい。この方法によれば、感情抑制切替モデル101eはそのオペレータの好みに合わせたタイミングで感情抑制機能を切り替えることができるようになる。あるいは、2)或るオペレータに対して適用される感情抑制切替モデル101eは、不特定多数のオペレータによる「手動切替履歴データ」に基づいて学習されてもよい。この方法によれば、学習に用いることができるデータが多くなるため、感情抑制切替モデル101eを早く学習することができるようになる。あるいは、3)或るオペレータに対して適用される感情抑制切替モデル101eは、そのオペレータと年齢・性別・その他の特性が類似したオペレータによる「手動切替履歴データ」に基づいて学習されてもよい。この方法によれば、1)の方法と比較して学習に用いることができるデータが多くなるため感情抑制切替モデル101eを早く学習することができ、2)の方法と比較して自分の好みに合った切替タイミングを学習することができるようになる。
The data set for learning the emotion
図8は、本実施形態に係る画面D2の一例を示す図である。画面D2において、制御部203は、音声処理装置10からのストレス情報を表示させてもよい。例えば、図8では、ストレス情報として、オペレータが感じるストレスの推定値を示す情報(例えば、「56%」)と、当該オペレータの平常時の状態からの相対的な評価値を示す情報(例えば、「平常時より8.1%減」)とが表示される。
FIG. 8 is a diagram showing an example of the screen D2 according to the present embodiment. On the screen D2, the
図12は、本実施形態に係る画面D3の一例を示す図である。画面D3において、制御部203は、オペレータがアノテーション作業を行うためのインターフェースI8を表示させてもよい。オペレータは、例えば、顧客の生の音声(サンプル音声)を聞きながら、サンプル音声から感じられる顧客の感情をインターフェースI8から都度選択する。図12において、顧客感情I1はオペレータによる顧客感情の主観的評価情報である。例えば、オペレータが、サンプル音声「今日の夕方までにどうにかして届けてよ」に対して「怒り」という感情をアノテーションしたならば、図12に示すように、「今日の夕方までにどうにかして届けてよ」というサンプル音声と「怒り」という情報が時間軸上で関連付けられる。アノテーションは文単位で行われてもよいし所定の時間間隔ごとに行われてもよい。
FIG. 12 is a diagram showing an example of the screen D3 according to the present embodiment. On the screen D3, the
(音声処理システムの動作)
図9は、本実施形態に係る感情抑制動作の一例を示すフローチャートである。なお、図9は、例示にすぎず、少なくとも一部のステップ(例えば、ステップS106)の順番は入れ替えられてもよいし、不図示のステップが実施されてもよいし、一部のステップが省略されてもよい。
(Operation of audio processing system)
FIG. 9 is a flowchart illustrating an example of emotion suppression operation according to this embodiment. Note that FIG. 9 is only an example, and the order of at least some steps (for example, step S106) may be changed, steps not shown may be performed, or some steps may be omitted. may be done.
音声処理装置10は、顧客端末30の音声入力部10hで収音される顧客の発話音声の信号である発話音声信号を取得する(S101)。
The
音声処理装置10は、S101で取得された発話音声信号に基づいて抽出される特徴量を音声認識モデル101aに入力して、一以上の単語からなる単語列を含むテキストデータを生成する(S102)。
The
音声処理装置10は、S102で生成されたテキストデータ内に特定の単語列が含まれるか否かを判定する(S103)。当該テキストデータ内に特定の単語列が含まれる場合、音声処理装置10は、当該特定の単語列を除去又は前記特定の単語列を他の単語列に変換したテキストデータを生成する(S104)。
The
音声処理装置10は、テキストデータに基づいて抽出される特徴量を音声合成モデル101bに入力して、合成音声の信号である合成音声信号を生成する(S105)。
The
音声処理装置10は、S101で取得された発話音声信号、S102で生成されたテキストデータ、及び、オペレータによって入力される顧客の感情の主観的評価情報の少なくとも一つに基づいて抽出される特徴量を感情認識モデル101cに入力して、顧客の感情情報を生成する(S106)。
The
オペレータ端末20は、S105で生成された合成音声信号に基づいて合成音声を音声出力部10iから出力させるとともに、当該合成音声の出力タイミングTに合わせて当該合成音声に対応する感情情報を表示部10fに表示させる(S107、例えば、図7)。
The
音声処理装置10は、処理を終了するか否かを判定する(S108)。処理を終了しない場合(S108:NO)、音声処理装置10は、処理S101~S107を再び実行する。一方、音声変換処理を終了する場合(S108:YES)、音声処理装置10は、処理を終了する。
The
図10は、本実施形態に係る感情抑制機能の自動切り替え動作を示すフローチャートである。なお、図10は、例示にすぎず、少なくとも一部のステップの順番は入れ替えられてもよいし、不図示のステップが実施されてもよいし、一部のステップが省略されてもよい。 FIG. 10 is a flowchart showing the automatic switching operation of the emotion suppression function according to this embodiment. Note that FIG. 10 is merely an example, and the order of at least some steps may be changed, steps not shown may be performed, or some steps may be omitted.
音声処理装置10は、オペレータのストレス情報を生成する(S201)。
The
音声処理装置10は、ストレス情報が所定の条件を満たすか否かを判定する(S202)。例えば、所定の条件は、ストレス情報が示すストレス度数が所定の閾値以上又はより大きいことであってもよい。
The
音声処理装置10は、ストレス情報が所定の条件を満たす場合(S202:YES)、感情抑制機能を適用(すなわち、オペレータ端末20から合成音声を出力)してもよい(S203)。一方、音声処理装置10は、ストレス情報が所定の条件を満たさない場合(S202:NO)、感情抑制機能を非適用(すなわち、オペレータ端末20から顧客の発話音声を出力)してもよい(S204)。
If the stress information satisfies a predetermined condition (S202: YES), the
音声処理装置10は、処理を終了するか否かを判定する(S205)。処理を終了しない場合(S205:NO)、音声処理装置10は、処理S201~S204を再び実行する。一方、音声変換処理を終了する場合(S205:YES)、音声処理装置10は、処理を終了する。なお、S201及びS202において、音声処理装置10は、感情情報や感情抑制切替モデル101eの出力に基づいて、感情抑制機能を適用するか否を決定してもよい。
The
以上のように、本実施形態に係る音声処理システム1によれば、顧客の発話音声信号に基づいてテキストデータを生成し、当該テキストデータに基づいて生成される合成音声をオペレータに出力する。このため、顧客の発話音声に含まれる顧客の感情を十分に抑制した合成音声をオペレータに聞かせることができ、顧客の感情的発話に起因するオペレータのストレスを軽減できる。本発明の発明者は、約50名の被験者に対して、1)顧客の発話音声そのもの、2)顧客の発話音声の音量を調整した音声、3)顧客の発話音声の声質を変換した音声、4)顧客の発話音声をテキスト化してから生成した合成音声、の4種類の音声を聞き比べてもらい、音声から感じられる怒りの度合いを7段階の尺度で評価してもらう実験を行った。その結果、2)や3)と比較して4)が、被験者に伝わった怒りの軽減度合いが顕著であった。
As described above, according to the
また、本実施形態に係る音声処理システム1によれば、オペレータに対して、合成音声を出力するだけでなく顧客の感情情報を合成音声出力のタイミングに合わせて通知することができるので、合成音声を聞いたオペレータが顧客の感情をリアルタイムに認識でき、顧客に対して適切な応対を行うことができる。
Furthermore, according to the
また、本実施形態に係る音声処理システム1によれば、オペレータのストレス情報又は顧客の感情情報等に基づいて、感情抑制機能を適用するか否か(すなわち、オペレータに対して合成音声又は発話音声のどちらを出力するか)が切り替えられるので、オペレータのストレスと顧客の満足度とのバランスを適切に図ることができる。
Further, according to the
(変更例)
上記音声処理システム1では、音声認識部103は、発話音声信号から、一つ又は複数の文として確定された単語列を含むテキストデータを生成したが、これに限られない。音声認識部103は、発話音声信号から認識された単語列が一つ又は複数の文として確定される前に、一つ又は複数の単語(品詞又は形態素)からなる単語列を含むテキストデータを生成してもよい。除去部104は、当該文として確定されていないテキストデータ内の特定の単語列を除去し、音声合成部105は、当該文として確定されていないテキストデータから合成音声信号を生成してもよい。
(Example of change)
In the above-mentioned
図11は、本実施形態の変更例に係る合成音声信号の生成の一例を示す図である。図11では、送受信部102で取得された発話音声信号S4に基づいて、音声認識部103においてテキストデータT41~T43が生成されるものとする。図11に示すように、テキストデータT41~T43は、「はやく送ってください」という一文の確定前に、意味を持つ形態素単位(「はやく」、「送って」、「ください」)でテキストデータが生成される点で、図4と異なる。除去部104は、テキストデータT41~T43それぞれに対して特定の単語列が含まれるか否かを判定して、当該特定の単語列を除去して音声合成部105に出力する。音声合成部105は、テキストデータT41~T43からそれぞれ合成音声信号S41~S43を生成する。
FIG. 11 is a diagram illustrating an example of generation of a synthesized speech signal according to a modification of the present embodiment. In FIG. 11, it is assumed that text data T41 to T43 are generated in the
図11に示すように、文の確定前に一つ又は複数の形態素単位でテキストデータを生成して合成音声を出力することにより、テキストデータの生成によりオペレータの応答遅延を軽減できる。なお、形態素単位での複数のテキストデータ(又は合成音声)が意味的に不自然でないかを判定するモデルなどが用いられてもよい。 As shown in FIG. 11, by generating text data in units of one or more morphemes and outputting synthesized speech before finalizing a sentence, the operator's response delay can be reduced by generating the text data. Note that a model that determines whether a plurality of text data (or synthesized speech) in units of morphemes is semantically unnatural may be used.
また、応答遅延を軽減するために、図4に示す合成音声信号S1~S3、図11に示す合成音声信号S41~S43それぞれの前及び/又は後に、例えば、「あ~」、「え~」、「まあ」等のフィラー音が追加されてもよい。これにより、オペレータも応答遅延による顧客の満足度の低下を防止できる。 In addition, in order to reduce response delay, for example, "Ah", "Eh" are added before and/or after each of the synthesized speech signals S1 to S3 shown in FIG. 4 and the synthesized speech signals S41 to S43 shown in FIG. 11. , "Well", etc., may be added. This also allows the operator to prevent customer satisfaction from decreasing due to response delays.
また、音声合成部105は、感情認識部106が推定した顧客の感情に基づいて、複数の音声合成モデル101bのうちから顧客の感情に合った音声合成モデル101bを選択してもよい。例えば、感情認識部106が推定した顧客の感情が「激昂」である場合、音声合成部105は、ピッチが速く抑揚が激しい音声合成モデル101bを用いてよい。例えば、感情認識部106が推定した顧客の感情が「号泣」である場合、音声合成部105は、泣き声のような音声を出力する音声合成モデル101bを用いてよい。或いは、音声合成部105は、感情認識部106が推定した顧客の感情に基づいて音声合成モデル101bのパラメータを変更し、顧客の感情に合った音声が出力されるように調整してよい。顧客が激昂している際の生の音声を直接聞いたオペレータは極めて強いストレスを感じてしまう。他方、オペレータは顧客対応業務を適切に遂行するために、顧客の感情をリアルタイムで正確に把握する必要がある。オペレータに発話音声を直接聞かせないことによりオペレータは過剰なストレスを感じることがなく、合成音声に顧客の感情を乗せることにより、オペレータは聴覚を通じて顧客の感情をリアルタイムに把握することができる。
Furthermore, the
(その他の実施形態)
上記実施形態では、顧客の発話音声信号をテキスト化して、合成音声信号をオペレータに出力するものとしたがこれに限られない。音声処理装置10は、顧客の発話音声信号に基づいて抽出される音声特徴量を音声変換モデルに入力して、変換音声の信号を生成し、オペレータ端末20から変換音声を出力してもよい。
(Other embodiments)
In the above embodiment, the customer's uttered voice signal is converted into text and the synthesized voice signal is output to the operator, but the present invention is not limited thereto. The
特許請求の範囲に記載の「音声変換モデル」は、発話音声信号を一旦テキスト化して合成音声として出力するモデルと、発話音声信号をテキスト化せずに声質を変換させて出力するモデルとの両方を包含する概念である。顧客の発話音声に代えて合成音声または変換音声をオペレータに対して出力することにより、効果の程度の差こそあれ、オペレータが感じるストレスを軽減できる。他方で、顧客対応業務の遂行のためには、オペレータが顧客の感情をリアルタイムに把握することも欠かせない。 The "speech conversion model" described in the claims includes both a model that converts a spoken voice signal into text and outputs it as a synthesized voice, and a model that converts the voice quality of the voice signal without converting it to text and outputs it. It is a concept that encompasses By outputting synthesized speech or converted speech to the operator instead of the customer's uttered speech, the stress felt by the operator can be reduced, although the degree of effectiveness may vary. On the other hand, in order to perform customer service operations, it is essential for operators to grasp customer emotions in real time.
本変形例における音声処理装置10は、顧客の発話音声信号に基づいて抽出される音声特徴量を音声変換モデルに入力して、変換音声信号を生成する。音声処理装置10は、1)変換音声信号と、2)顧客の発話音声から推定される顧客の感情情報とを時間軸上で関連付けた情報を生成し、オペレータ端末20に対して送信する。音声処理装置10が送信する情報には、発話音声信号、発話音声信号から生成されたテキストデータ、除去部104の処理を経たあとのテキストデータ、検出情報、感情抑制機能のオン・オフを切り替えるタイミングが関連付けされていてもよい。
The
オペレータ端末20は、音声処理装置10から受信した変換音声の信号を音声出力部10iから出力し、且つ、音声出力部10iからの変換音声の出力タイミングTに合わせて、感情情報を示す情報を表示部10fに表示してよい。オペレータ端末20は更に、音声出力部10iからの変換音声の出力タイミングTに合わせて、テキストデータを表示部10fに表示してよい。かかる表示の態様は図7に図示するようであってよい。
The
本変形例における音声処理装置10は、感情情報に基づいて、感情情報が示す感情が変換音声に反映されるように、変換音声の信号を生成してもよい。例えば感情情報が示す感情が「激昂」である場合、ピッチが速く抑揚が激しい音声変換モデルを用いてよい。例えば感情情報が示す感情が「号泣」である場合、泣き声のような音声を出力する音声変換モデルを用いてよい。音声処理装置10は、感情情報が示す感情が変換音声に反映されるように、変換音声の信号を生成してよい。オペレータに発話音声を直接聞かせないことによりオペレータは過剰なストレスを感じるがことなく、変換音声に顧客の感情を乗せることにより、オペレータは聴覚を通じて顧客の感情をリアルタイムに把握することができる。
The
本変形例における音声処理システム1においては、オペレータによるアノテーション作業は、オペレータによる通常のコールセンター業務中において、変換音声に対して行われても良い。オペレータが変換音声に対して「怒りの感情」をアノテーションした場合、当該アノテーションの結果に基づいて、音声変換モデルがより柔らかい音声を出力するようにリアルタイムに調整されてもよい。
In the
以上説明した実施形態では、第1のユーザが顧客であり、第2のユーザがオペレータであるコールセンターを想定したが、本実施形態の適用場面はコールセンターに限られない。例えば、Webミーティング等、第1のユーザの感情を抑制した音声を第2のユーザに出力するどのような場面にも適用可能である。すなわち、本実施形態は、カスタマーハラスメント対策だけでなく、社内のパワーハラスメント等、様々なハラスメントに対する企業側の対策として利用可能である。 In the embodiment described above, a call center is assumed where the first user is a customer and the second user is an operator, but the application scene of this embodiment is not limited to a call center. For example, the present invention can be applied to any situation, such as a web meeting, in which a first user's emotion-suppressed voice is output to a second user. That is, the present embodiment can be used not only as a countermeasure against customer harassment but also as a countermeasure on the company side against various types of harassment such as internal power harassment.
以上説明した実施形態における、感情情報と合成音声とを「時間軸上で関連付け」する処理は、図7に示すように、合成音声または変換音声の出力タイミングに合わせて、それらの元となった発話音声から推定される感情情報を表示することが実現可能な態様であれば、その具体的な態様を問わない。以上説明した実施形態における「時間軸上で関連付け」する処理は、何時何分何秒といった時刻情報に基づいて関連付けする処理でも良いし、発話音声情報の開始から何分何秒経過時といった情報に基づいて関連付けする処理でも良いし、文単位、単語単位又は形態素単位で関連付けする処理でもよい。 In the embodiment described above, the process of "associating emotional information and synthesized speech on the time axis" is performed in accordance with the output timing of the synthesized speech or converted speech, as shown in FIG. The specific mode is not limited as long as it is possible to display the emotional information estimated from the uttered voice. The process of "associating on the time axis" in the embodiment described above may be a process of associating based on time information such as hours, minutes, and seconds, or based on information such as how many minutes and seconds have passed since the start of the uttered audio information. It may be a process of associating on a per-sentence, word-by-word, or morpheme-by-morpheme basis.
以上説明した実施形態における音声処理システム1において、顧客からは、自身の音声が感情抑制されてオペレータに届いていることが分からないようにしてもよい。すなわち、感情抑制機能がオンになっているかオフになっているかは、顧客からは把握できないようにしてもよい。
In the
アノテーション作業は、オペレータがオペレータ端末20上で行っても良いし、別途、アノテーション作業用の専用のアプリケーションや端末が用意されていてもよい。
The annotation work may be performed by an operator on the
また、以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。また、音声処理装置10の機能として記載した機能をオペレータ端末20が備えていてもよい。また、オペレータ端末20の機能として記載した機能を音声処理装置10が備えていてもよい。
Further, the embodiments described above are for facilitating understanding of the present invention, and are not intended to be interpreted as limiting the present invention. Each element included in the embodiment, as well as its arrangement, material, conditions, shape, size, etc., are not limited to those illustrated, and can be changed as appropriate. Further, it is possible to partially replace or combine the structures shown in different embodiments. Furthermore, the
1…音声処理システム、10…音声処理装置、20…オペレータ端末、30…顧客端末、10a…プロセッサ、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、10g…カメラ、10h…音声入力部、10i…音声出力部、101…記憶部、102…送受信部、103…音声認識部、104…除去部、105…音声合成部、106…感情認識部、107…ストレス認識部、108…制御部、109…学習部、201…送受信部、202…入力受付部、203…制御部 1... Voice processing system, 10... Voice processing device, 20... Operator terminal, 30... Customer terminal, 10a... Processor, 10b... RAM, 10c... ROM, 10d... Communication unit, 10e... Input unit, 10f... Display unit, 10g ...Camera, 10h...Audio input section, 10i...Audio output section, 101...Storage section, 102...Transmission/reception section, 103...Speech recognition section, 104...Removal section, 105...Speech synthesis section, 106...Emotion recognition section, 107... Stress recognition unit, 108...Control unit, 109...Learning unit, 201...Transmission/reception unit, 202...Input reception unit, 203...Control unit
Claims (10)
前記発話音声信号に基づいて抽出される特徴量を音声変換モデルに入力して、変換音声の信号を生成する音声変換部と、
第2のユーザによって入力される切り替え情報に基づいて、前記第2のユーザに対して前記変換音声を出力する音声出力部から前記変換音声又は前記発話音声のどちらを出力するかを切り替える制御部と、
前記第2のユーザによって入力された切り替え情報を、前記切り替え情報が入力された際の発話音声信号と時間軸上で関連付けた情報を生成し、当該情報に基づいて、発話音声信号、当該発話音声信号から抽出した特徴量、当該発話音声信号から生成したテキストデータ、当該テキストデータから抽出された特徴量、又はこれらの少なくとも二つの組み合わせを入力とし、前記変換音声と前記発話音声とを切り替えるタイミングを出力とする感情抑制切替モデルを機械学習する学習部と、を備え、
前記制御部は、前記感情抑制切替モデルに、前記取得部が取得した発話音声信号、当該発話音声信号から抽出した特徴量、当該発話音声信号から生成したテキストデータ、当該テキストデータから抽出された特徴量、又はこれらの少なくとも二つの組み合わせを入力することにより、前記変換音声と前記発話音声とを切り替えるタイミングを生成する、
音声処理装置。 an acquisition unit that acquires a spoken voice signal that is a signal of the first user's spoken voice;
a voice conversion unit that inputs feature quantities extracted based on the uttered voice signal into a voice conversion model to generate a converted voice signal;
a control unit that switches which of the converted voice or the spoken voice is output from an audio output unit that outputs the converted voice to the second user, based on switching information input by the second user; ,
Information is generated that associates the switching information input by the second user with the uttered audio signal when the switching information was input on the time axis, and based on the information, the uttered audio signal and the uttered audio are generated. A feature quantity extracted from a signal, text data generated from the speech audio signal, a feature quantity extracted from the text data, or a combination of at least two thereof is input, and a timing for switching between the converted speech and the speech speech is determined. A learning unit that performs machine learning on the emotion suppression switching model to be output,
The control unit includes, in the emotion suppression switching model, the utterance audio signal acquired by the acquisition unit, the feature amount extracted from the utterance audio signal, text data generated from the utterance audio signal, and features extracted from the text data. generating a timing for switching between the converted voice and the uttered voice by inputting the amount or a combination of at least two of these;
Audio processing device.
前記テキストデータに含まれる特定の単語列を検出し、前記特定の単語列を除去又は前記特定の単語列を他の単語列に置換したテキストデータを生成する除去部と、
をさらに備える、請求項1に記載の音声処理装置。 a speech recognition unit that inputs feature quantities extracted based on the speech audio signal into a speech recognition model to generate text data including a word string consisting of one or more words;
a removal unit that detects a specific word string included in the text data and generates text data in which the specific word string is removed or the specific word string is replaced with another word string;
The audio processing device according to claim 1, further comprising:
前記除去部は、前記特定の単語列が検出される場合、前記第1のユーザに対する警告に関する情報を生成し、
生成された当該情報は、前記第1のユーザが操作する情報処理装置において出力される、請求項5に記載の音声処理装置。 The second user includes a call center operator,
The removing unit generates information regarding a warning to the first user when the specific word string is detected;
The audio processing device according to claim 5, wherein the generated information is outputted in an information processing device operated by the first user.
前記発話音声信号に基づいて抽出される特徴量を音声変換モデルに入力して、変換音声の信号を生成する工程と、
第2のユーザによって入力される切り替え情報に基づいて、前記変換音声又は前記発話音声のどちらを出力するかを切り替える工程と、
前記第2のユーザによって入力された切り替え情報を、前記切り替え情報が入力された際の発話音声信号と時間軸上で関連付けた情報を生成し、当該情報に基づいて、発話音声信号、当該発話音声信号から抽出した特徴量、当該発話音声信号から生成したテキストデータ、当該テキストデータから抽出された特徴量、又はこれらの少なくとも二つの組み合わせを入力とし、前記変換音声と前記発話音声とを切り替えるタイミングを出力とする感情抑制切替モデルを機械学習する工程と、を含み、
前記切り替える工程は、前記感情抑制切替モデルに、取得された前記発話音声信号、当該発話音声信号から抽出した特徴量、当該発話音声信号から生成したテキストデータ、当該テキストデータから抽出された特徴量、又はこれらの少なくとも二つの組み合わせを入力することにより、前記変換音声と前記発話音声とを切り替えるタイミングを生成する、
音声処理方法。 obtaining a spoken voice signal that is a signal of the first user's spoken voice;
inputting feature quantities extracted based on the uttered speech signal into a speech conversion model to generate a converted speech signal;
a step of switching whether to output the converted audio or the uttered audio based on switching information input by a second user;
Information is generated that associates the switching information input by the second user with the uttered audio signal when the switching information was input on the time axis, and based on the information, the uttered audio signal and the uttered audio are generated. A feature quantity extracted from a signal, text data generated from the speech audio signal, a feature quantity extracted from the text data, or a combination of at least two thereof is input, and a timing for switching between the converted speech and the speech speech is determined. A step of machine learning the emotion suppression switching model to be output,
The switching step includes, in the emotion suppression switching model, the acquired utterance audio signal, a feature extracted from the utterance audio signal, text data generated from the utterance audio signal, a feature extracted from the text data, or generating a timing for switching between the converted voice and the uttered voice by inputting a combination of at least two of these;
Audio processing method.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022150288A JP7394192B2 (en) | 2021-11-25 | 2022-09-21 | Audio processing device, audio processing method, and program |
JP2023151074A JP2023164770A (en) | 2021-11-25 | 2023-09-19 | Speech processing device, speech processing method, and, program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021190678A JP7164793B1 (en) | 2021-11-25 | 2021-11-25 | Speech processing system, speech processing device and speech processing method |
JP2022150288A JP7394192B2 (en) | 2021-11-25 | 2022-09-21 | Audio processing device, audio processing method, and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021190678A Division JP7164793B1 (en) | 2021-11-25 | 2021-11-25 | Speech processing system, speech processing device and speech processing method |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023151074A Division JP2023164770A (en) | 2021-11-25 | 2023-09-19 | Speech processing device, speech processing method, and, program |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2023078068A JP2023078068A (en) | 2023-06-06 |
JP2023078068A5 JP2023078068A5 (en) | 2023-08-30 |
JP7394192B2 true JP7394192B2 (en) | 2023-12-07 |
Family
ID=83887082
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021190678A Active JP7164793B1 (en) | 2021-11-25 | 2021-11-25 | Speech processing system, speech processing device and speech processing method |
JP2022150288A Active JP7394192B2 (en) | 2021-11-25 | 2022-09-21 | Audio processing device, audio processing method, and program |
JP2023151074A Pending JP2023164770A (en) | 2021-11-25 | 2023-09-19 | Speech processing device, speech processing method, and, program |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021190678A Active JP7164793B1 (en) | 2021-11-25 | 2021-11-25 | Speech processing system, speech processing device and speech processing method |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023151074A Pending JP2023164770A (en) | 2021-11-25 | 2023-09-19 | Speech processing device, speech processing method, and, program |
Country Status (1)
Country | Link |
---|---|
JP (3) | JP7164793B1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010166324A (en) | 2009-01-15 | 2010-07-29 | Nec Corp | Portable terminal, voice synthesizing method, and program for voice synthesis |
JP2018207143A (en) | 2017-05-30 | 2018-12-27 | 沖電気工業株式会社 | Customer response system, customer response method, customer response device, and program |
JP2019110451A (en) | 2017-12-19 | 2019-07-04 | 日本電気株式会社 | Information processing system, information processing method, and program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117752A (en) | 1999-10-15 | 2001-04-27 | Sony Corp | Information processor, information processing method and recording medium |
WO2019111346A1 (en) | 2017-12-06 | 2019-06-13 | ソースネクスト株式会社 | Full-duplex speech translation system, full-duplex speech translation method, and program |
JP2020021025A (en) | 2018-08-03 | 2020-02-06 | ソニー株式会社 | Information processing device, information processing method and program |
-
2021
- 2021-11-25 JP JP2021190678A patent/JP7164793B1/en active Active
-
2022
- 2022-09-21 JP JP2022150288A patent/JP7394192B2/en active Active
-
2023
- 2023-09-19 JP JP2023151074A patent/JP2023164770A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010166324A (en) | 2009-01-15 | 2010-07-29 | Nec Corp | Portable terminal, voice synthesizing method, and program for voice synthesis |
JP2018207143A (en) | 2017-05-30 | 2018-12-27 | 沖電気工業株式会社 | Customer response system, customer response method, customer response device, and program |
JP2019110451A (en) | 2017-12-19 | 2019-07-04 | 日本電気株式会社 | Information processing system, information processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2023078068A (en) | 2023-06-06 |
JP2023164770A (en) | 2023-11-13 |
JP7164793B1 (en) | 2022-11-02 |
JP2023077444A (en) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102237539B1 (en) | System and method for determining demendia and congnitive ability using voice conversation analysis | |
JP6263308B1 (en) | Dementia diagnosis apparatus, dementia diagnosis method, and dementia diagnosis program | |
JP6755304B2 (en) | Information processing device | |
Oomen et al. | Limitations in processing resources and speech monitoring | |
JP6839333B2 (en) | Selective adaptation and use of noise reduction techniques in call phrase detection | |
JP2012159596A (en) | Information processor, information processing method, information processing system and program | |
KR101534413B1 (en) | Method and apparatus for providing counseling dialogue using counseling information | |
WO2019119279A1 (en) | Method and apparatus for emotion recognition from speech | |
US20160005421A1 (en) | Language analysis based on word-selection, and language analysis apparatus | |
Bleakley et al. | Exploring smart speaker user experience for people who stammer | |
JP5158022B2 (en) | Dialog processing device, dialog processing method, and dialog processing program | |
JP7040593B2 (en) | Customer service support device, customer service support method, and customer service support program | |
JP7394192B2 (en) | Audio processing device, audio processing method, and program | |
JP6943237B2 (en) | Information processing equipment, information processing methods, and programs | |
KR102413860B1 (en) | Voice agent system and method for generating responses based on user context | |
JP6598227B1 (en) | Cat-type conversation robot | |
CN115101053A (en) | Emotion recognition-based conversation processing method and device, terminal and storage medium | |
JP7382760B2 (en) | Medical support equipment and programs | |
JP7123028B2 (en) | Information processing system, information processing method, and program | |
JP7184831B2 (en) | Model and apparatus for estimating emotion by combining linguistic features and emotional features of speech, and method for generating the model | |
Moriya et al. | Estimation of conversational activation level during video chat using turn-taking information. | |
WO2020189340A1 (en) | Information processing device, information processing method, and program | |
JP7257846B2 (en) | Decision support systems and programs | |
JP2017219829A (en) | Recent storage support device and recent storage support program | |
JP2024089406A (en) | Customer service support device and customer service support method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230822 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230822 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230822 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7394192 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |