JP6992725B2 - パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム - Google Patents
パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム Download PDFInfo
- Publication number
- JP6992725B2 JP6992725B2 JP2018198427A JP2018198427A JP6992725B2 JP 6992725 B2 JP6992725 B2 JP 6992725B2 JP 2018198427 A JP2018198427 A JP 2018198427A JP 2018198427 A JP2018198427 A JP 2018198427A JP 6992725 B2 JP6992725 B2 JP 6992725B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- para
- language information
- information estimation
- submodel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 30
- 238000000605 extraction Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000010354 integration Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 35
- 230000008569 process Effects 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000012706 support-vector machine Methods 0.000 description 9
- 230000015654 memory Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000037007 arousal Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Acoustics & Sound (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Psychiatry (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Biophysics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Social Psychology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Description
この発明は、音声からパラ言語情報を推定する技術に関する。
音声からパラ言語情報(例えば、発話意図が疑問か平叙か、感情が喜び・悲しみ・怒り・平静のいずれか)を推定する技術が求められている。パラ言語情報は、例えば、音声翻訳の高度化(例えば、「明日」という日本語の発話に対して、疑問意図「明日?」と理解して「Is it tomorrow?」と英語に翻訳したり、平叙意図「明日。」と理解して「It is tomorrow.」と英語に翻訳したりと、フランクな発話に対しても発話者の意図を正しく理解した日英翻訳ができる)や、音声対話における話し相手の感情を考慮した対話制御(例えば、相手が怒っていれば話題を変える)などに応用可能である。
従来技術として、複数の独立した特徴量を用いたパラ言語情報推定技術が非特許文献1などに示されている。非特許文献1では、音声特徴(音声波形)と映像特徴(複数フレームの画像系列)に基づいて、話者の感情次元値(Valence(感情価):快-不快、Arousal(覚醒度):覚醒-睡眠、の二種)を推定する。また、音声の短時間ごとの声の高さなどの韻律特徴の時系列情報と、話した単語などの言語特徴の時系列情報とに基づいて、話者のパラ言語情報を推定する技術も知られている。これらの複数の特徴量を組み合わせる技術は、特徴量単体を利用する技術に比べて高い精度でパラ言語情報を認識できる。
図1に、複数の独立した特徴量を用いたパラ言語情報推定モデルの従来技術を例示する。このパラ言語情報推定モデル900は、各特徴量からパラ言語情報を推定する特徴量サブモデル101と、それらの出力を統合して最終的なパラ言語情報推定結果を出力する結果統合サブモデル104とで構成される。この構成は、例えば発話意図推定においては、韻律特徴に疑問や平叙の特性が含まれるか(例えば、語尾が上がっているか否か)、言語特徴に疑問や平叙の特性が表れるか(例えば、疑問詞が含まれるか否か)を推定した後、それらの結果を統合して発話意図が疑問か平叙かを推定する処理に相当する。近年では、各サブモデルを深層学習に基づくモデルで構成し、パラ言語情報推定モデル全体を一体的に学習する、深層学習に基づくパラ言語情報推定モデルが主流となっている。
Panagiotis Tzirakis, George Trigeorgis, Mihalis A. Nicolaou, Bjorn W. Schuller, Stefanos Zafeiriou, "End-to-End Multimodal Emotion Recognition Using Deep Neural Networks," IEEE Journal of Selected Topics in Signal Processing, vol. 11, No. 8, pp. 1301-1309, 2017.
パラ言語情報はすべての特徴量にその特性が表れるとは限らず、一部の特徴量だけにパラ言語情報の特性が表れることがある。例えば発話意図では、話し方は語尾上がりだが文章が平叙文である(すなわち、韻律特徴にのみ疑問発話の特性が表れる)発話が存在し、このような発話は疑問発話とみなされる。また、例えば感情では、表情からは平静にみえるが話し方や単語として怒りが強く表れている発話が存在し、このような発話は怒り感情発話とみなされる。
しかしながら、従来技術では、一部の特徴量だけにパラ言語情報の特性が表れる発話を正しく学習することは困難である。これは、従来技術のパラ言語情報推定モデルでは、すべての特徴量が同じパラ言語情報の特性を示すかのようにモデル学習を行うためである。例えば、疑問発話の学習を行う場合、韻律特徴でも言語特徴でも疑問発話の特性が表れているかのように学習を行ってしまう。このため、韻律特徴にのみ疑問発話の特性が表れている発話でも、言語特徴にも疑問発話の特性が表れているとみなしてモデル学習をしてしまい、この発話は言語特徴における疑問発話の特性を正しく学習する上でのノイズとなる。その結果、従来技術において、一部の特徴量だけにパラ言語情報の特性が表れる発話が学習データに含まれると、パラ言語情報推定モデルを正しく学習することができず、パラ言語情報推定精度が低下する。
この発明は、上記のような技術的課題を鑑みて、複数の独立した特徴量を用いたパラ言語情報推定において、一部の特徴量だけにパラ言語情報の特性が表れる発話が学習データに含まれる場合でも、正しくパラ言語情報推定モデルを学習し、正しくパラ言語情報を推定することを目的とする。
上記の課題を解決するために、この発明の一態様のパラ言語情報推定装置は、入力発話からパラ言語情報を推定するパラ言語情報推定装置であって、複数の独立した特徴量を入力としてパラ言語情報推定結果を出力するパラ言語情報推定モデルを記憶するパラ言語情報推定モデル記憶部と、入力発話から複数の独立した特徴量を抽出する特徴量抽出部と、パラ言語情報推定モデルを用いて入力発話から抽出した複数の独立した特徴量から入力発話のパラ言語情報を推定するパラ言語情報推定部と、を含み、パラ言語情報推定モデルは、複数の独立した特徴量ごとにその特徴量のみに基づいてパラ言語情報の推定に用いる情報を出力する特徴量サブモデルと、複数の独立した特徴量ごとに特徴量サブモデルの出力結果に基づいてその特徴量をパラ言語情報の推定に用いるか否かを表す特徴量重みを算出する特徴量重み算出部と、複数の独立した特徴量ごとに特徴量サブモデルの出力結果を特徴量重みで重み付けして出力する特徴量ゲートと、すべての特徴量ゲートの出力結果に基づいてパラ言語情報を推定する結果統合サブモデルと、を含む。
この発明によれば、複数の独立した特徴量を用いたパラ言語情報推定において、一部の特徴量だけにパラ言語情報の特性が表れる発話に対しても、正しくパラ言語情報推定モデルを学習し、正しくパラ言語情報を推定することができるようになる。その結果、パラ言語情報推定の精度が向上する。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
本発明のポイントは、一部の特徴量だけにパラ言語情報の特性が表れる可能性を考慮し、各特徴量の情報をパラ言語情報推定に利用するかどうかを決定する特徴量ゲートを導入する点にある。一部の特徴量だけにパラ言語情報の特性が表れる発話に対してモデル学習を行うためには、特徴量ごとにパラ言語情報推定に利用するかどうかを選択できる機構を導入すればよいと考えられる。例えば、ある特徴量で特定のパラ言語情報の特性が強く表れている場合はその特徴量を利用してパラ言語情報推定を行うが、別の特徴量で特定のパラ言語情報の特性が表れていない場合は、その特徴量を利用せずにパラ言語情報推定を行う、といった機構を導入する。この選択機構を本発明では特徴量ゲートという形で実現する。
図2に、本発明のパラ言語情報推定モデルの例を示す。このパラ言語情報推定モデル100は、従来と同様の特徴量サブモデル101と、特徴量サブモデル101の出力をパラ言語情報推定に利用するか否かを決定する特徴量ゲート103と、特徴量ゲート103の出力に基づいて最終的なパラ言語情報推定結果を出力する結果統合サブモデル104とで構成される。
特徴量ゲート103は、各特徴量サブモデル101の出力を結果統合サブモデル104に入力するかどうかを決定する役割を持つ。特徴量ゲート103は、式(1)に基づいて出力を決定する。
ここで、kは特徴量番号(k=1, 2, …)、ykは特徴量ゲート出力ベクトル、xkは特徴量ゲート入力ベクトル(特徴量サブモデル出力結果)、wkは特徴量ゲート重みベクトル、
は、要素積を表す。特徴量ゲート重みベクトルwkが単位ベクトルのとき、特徴量サブモデル出力結果xkがそのまま結果統合サブモデル104へ出力される。特徴量ゲート重みベクトルwkがゼロベクトルのとき、特徴量サブモデル出力結果xkがゼロに変換されて結果統合サブモデル104へ出力される。このように、各特徴量に対応する特徴量ゲート重みベクトルwkを制御することで、ある特徴量を利用するが別の特徴量は利用しないというようにパラ言語情報推定モデルの学習やパラ言語情報の推定を行うことが可能となる。なお、深層学習に基づくパラ言語情報推定モデルの場合、特徴量ゲート重みベクトルwkもモデルパラメータの一つであるとみなせるため、特徴量ゲート重みベクトルwkも含めてモデル全体を一体学習することが可能である。
具体的には、以下の手順によりパラ言語情報の推定を行う。
1.複数の独立した特徴量を入力とし、特徴量ごとのサブモデル、特徴量ごとの特徴量ゲート、結果統合サブモデルから構成されるパラ言語情報推定モデルを用意する。
2.パラ言語情報推定モデルの学習を行う。深層学習に基づくパラ言語情報推定モデルの場合、特徴量ゲートの重みベクトルを含めたモデル全体を誤差逆伝搬法により一体学習する。それ以外の場合では特徴量ゲートは学習できないため、特徴量ゲートの重みベクトルは人手によるルールで決定する。例えば、特徴量ごとのサブモデルの出力結果が識別平面からの距離の場合、識別平面からの距離の絶対値が0.5以下なら特徴量ゲートの重みベクトルはゼロベクトル、識別平面からの距離の絶対値が0.5より大きいなら特徴量ゲートの重みベクトルは単位ベクトルとする、というルールを定める。この場合、特徴量ごとのサブモデルを先に学習し、その後結果統合サブモデルを学習するという二段階の学習を行う。
3.学習済みのパラ言語情報推定モデルに複数の独立した特徴量を入力し、発話ごとにパラ言語情報推定結果を得る。
[第一実施形態]
本実施形態において、入力発話とは、当該発話の音声波形情報および当該発話の話者の表情(顔)の映像情報の両方を指すものとする。本発明でパラ言語情報推定に用いる特徴量は、人間の発話から抽出できる独立した二以上の特徴量であればよいが、本実施形態では、韻律特徴、言語特徴、および映像特徴の互いに独立な三種類の特徴量を用いるものとする。ただし、これら三種類の特徴量のうち、いずれか二種類の特徴量のみを用いてもよい。また、他特徴量と互いに独立であれば、例えば生体信号情報(脈拍、皮膚電位など)などの情報を用いた特徴量を追加で利用してもよい。
本実施形態において、入力発話とは、当該発話の音声波形情報および当該発話の話者の表情(顔)の映像情報の両方を指すものとする。本発明でパラ言語情報推定に用いる特徴量は、人間の発話から抽出できる独立した二以上の特徴量であればよいが、本実施形態では、韻律特徴、言語特徴、および映像特徴の互いに独立な三種類の特徴量を用いるものとする。ただし、これら三種類の特徴量のうち、いずれか二種類の特徴量のみを用いてもよい。また、他特徴量と互いに独立であれば、例えば生体信号情報(脈拍、皮膚電位など)などの情報を用いた特徴量を追加で利用してもよい。
本実施形態では、特徴量ごとのサブモデルの出力結果として特徴量ごとのパラ言語情報確率を受け取ることもできるが、特徴量ごとのパラ言語情報確率の推定のために必要な中間情報(例えば、ディープニューラルネットワークにおける中間層の出力値)を受け取ることもできる。また、特徴量ゲートの重みベクトルも含めて学習を行う場合、重みベクトルはすべての入力に対して固定値ではなく、入力が変わるたびに動的に重みベクトルを変えることもできる。具体的には、式(2)または式(3)を用いて、入力から重みベクトルを算出することで、重みベクトルを動的に変化させる。
ここで、kは特徴量番号(k=1, 2, …)、xkは特徴量ゲート入力ベクトル(特徴量サブモデル出力結果)、wkは特徴量ゲート重みベクトル、wxは特徴量ゲート重みベクトル算出用行列、bxは特徴量ゲート重みベクトル算出用バイアス、σは活性化関数(例えば、式(4)のシグモイド関数)を表す。wx, bxは予め学習により決定しておく。なお、式(4)においてxがベクトルの場合、ベクトルの各要素に対して式(4)を適用する。
上記のように構成することにより、入力発話の話者や発話環境に応じて特徴量ごとのサブモデルの出力結果の利用度合いを変える(例えば、抑揚にパラ言語情報が表れやすい人では韻律特徴を重視してパラ言語情報推定を行う、など)ことができる。そのため、一般的な特徴量ごとのパラ言語情報確率の重み付け和に基づく推定手法に比べて、より多様な入力に対しても高精度にパラ言語情報を推定することが可能となる。すなわち、多様な発話環境に対するパラ言語情報推定精度が向上する。
<パラ言語情報推定モデル学習装置>
第一実施形態のパラ言語情報推定モデル学習装置は、教師ラベルが付与された発話からパラ言語情報推定モデルを学習する。パラ言語情報推定モデル学習装置は、図3に例示するように、発話記憶部10-1、教師ラベル記憶部10-2、韻律特徴抽出部11-1、言語特徴抽出部11-2、映像特徴抽出部11-3、パラ言語情報推定モデル学習部12、およびパラ言語情報推定モデル記憶部20を備える。以下、韻律特徴抽出部11-1、言語特徴抽出部11-2、および映像特徴抽出部11-3を特徴量抽出部11と総称することもある。特徴量抽出部11はパラ言語情報推定に用いる特徴量の種類に応じて数や処理内容等の構成を変更する。このパラ言語情報推定モデル学習装置が、図4に例示する各ステップの処理を行うことにより第一実施形態のパラ言語情報推定モデル学習方法が実現される。
第一実施形態のパラ言語情報推定モデル学習装置は、教師ラベルが付与された発話からパラ言語情報推定モデルを学習する。パラ言語情報推定モデル学習装置は、図3に例示するように、発話記憶部10-1、教師ラベル記憶部10-2、韻律特徴抽出部11-1、言語特徴抽出部11-2、映像特徴抽出部11-3、パラ言語情報推定モデル学習部12、およびパラ言語情報推定モデル記憶部20を備える。以下、韻律特徴抽出部11-1、言語特徴抽出部11-2、および映像特徴抽出部11-3を特徴量抽出部11と総称することもある。特徴量抽出部11はパラ言語情報推定に用いる特徴量の種類に応じて数や処理内容等の構成を変更する。このパラ言語情報推定モデル学習装置が、図4に例示する各ステップの処理を行うことにより第一実施形態のパラ言語情報推定モデル学習方法が実現される。
パラ言語情報推定モデル学習装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。パラ言語情報推定モデル学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。パラ言語情報推定モデル学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。パラ言語情報推定モデル学習装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。パラ言語情報推定モデル学習装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
発話記憶部10-1には、パラ言語情報推定モデルの学習に用いる発話(以下、「学習発話」ともいう)が記憶されている。本実施形態では、発話は人間の発話音声を収録した音声波形情報と、その発話の話者の表情を収録した映像情報とからなるものとする。発話が具体的にどのような情報から構成されるかはパラ言語情報の推定にどのような特徴量を用いるかに応じて決定される。
教師ラベル記憶部10-2には、発話記憶部10-1に記憶された各発話に付与されるパラ言語情報の正解値を表す教師ラベルが記憶されている。発話に対する教師ラベルの付与は、人手で行ってもよいし、周知のラベル分類技術を用いて行ってもよい。具体的にどのような教師ラベルを付与するかはパラ言語情報の推定にどのような特徴量を用いるかに応じて決定する。
ステップS11-1において、韻律特徴抽出部11-1は、発話記憶部10-1に記憶された各発話の音声波形情報から韻律特徴を抽出する。韻律特徴は、基本周波数、短時間パワー、MFCC(Mel-frequency Cepstral Coefficients)、ゼロ交差率、Harmonics-to-Noise-Ratio(HNR)、メルフィルタバンク出力、のいずれか一つ以上の特徴量を含むベクトルである。また、これらの時間ごと(フレームごと)の系列ベクトルであってもよいし、これらの発話全体の統計量(平均、分散、最大値、最小値、勾配など)のベクトルであってもよい。韻律特徴抽出部11-1は、抽出した韻律特徴をパラ言語情報推定モデル学習部12へ出力する。
ステップS11-2において、言語特徴抽出部11-2は、発話記憶部10-1に記憶された各発話の音声波形情報から言語特徴を抽出する。言語特徴の抽出には、音声認識技術により取得した単語列または音素認識技術により取得した音素列を利用する。言語特徴はこれらの単語列または音素列を系列ベクトルとして表現したものであってもよいし、発話全体での特定単語の出現数などを表すベクトルとしてもよい。言語特徴抽出部11-2は、抽出した言語特徴をパラ言語情報推定モデル学習部12へ出力する。
ステップS11-3において、映像特徴抽出部11-3は、発話記憶部10-1に記憶された各発話の映像情報から映像特徴を抽出する。映像特徴は、各フレームでの顔の特徴点の位置座標、オプティカルフローから算出した小領域ごとの速度成分、局所的な画像勾配のヒストグラム(Histograms of Oriented Gradients: HOG)のいずれか一つ以上を含むベクトルである。また、これらの一定間隔の時間ごと(フレームごと)の系列ベクトルであってもよいし、これらの発話全体の統計量(平均、分散、最大値、最小値、勾配など)のベクトルであってもよい。映像特徴抽出部11-3は、抽出した映像特徴をパラ言語情報推定モデル学習部12へ出力する。
ステップS12において、パラ言語情報推定モデル学習部12は、入力された韻律特徴、言語特徴、および映像特徴と、教師ラベル記憶部10-2に記憶された教師ラベルとを用いて、複数の独立した特徴量を入力としてパラ言語情報推定結果を出力するパラ言語情報推定モデルを学習する。パラ言語情報推定モデル学習部12は、学習済みのパラ言語情報推定モデルをパラ言語情報推定モデル記憶部20へ記憶する。
図5に、本実施形態で利用するパラ言語情報推定モデルの構成例を示す。このパラ言語情報推定モデルは、韻律特徴サブモデル101-1、言語特徴サブモデル101-2、映像特徴サブモデル101-3、韻律特徴重み算出部102-1、言語特徴重み算出部102-2、映像特徴重み算出部102-3、韻律特徴ゲート103-1、言語特徴ゲート103-2、映像特徴ゲート103-3、および結果統合サブモデル104を備える。以下、韻律特徴サブモデル101-1、言語特徴サブモデル101-2、および映像特徴サブモデル101-3を特徴量サブモデル101と、韻律特徴重み算出部102-1、言語特徴重み算出部102-2、および映像特徴重み算出部102-3を特徴量重み算出部102と、韻律特徴ゲート103-1、言語特徴ゲート103-2、および映像特徴ゲート103-3を特徴量ゲート103と総称することもある。特徴量サブモデル101は、入力された特徴量のみに基づいてパラ言語情報の推定を行い、パラ言語推定結果もしくはパラ言語推定の際に生成される中間値(以下、「パラ言語情報の推定に用いる情報」ともいう)を出力する。特徴量重み算出部102は、特徴量サブモデル101の出力結果に基づいてその特徴量をパラ言語情報の推定に用いるか否かを表す特徴量ゲート重みベクトル(以下、「特徴量重み」ともいう)を算出する。特徴量ゲート103は、特徴量サブモデル101の出力結果を特徴量重み算出部102が出力する特徴量ゲート重みベクトルで重み付けして出力する。結果統合サブモデル104は、すべての特徴量ゲート103の出力結果に基づいてパラ言語情報を推定する。
パラ言語情報推定モデルは、例えば深層学習に基づくDeep Neural Network(DNN)であってもよいし、Support Vector Machine(SVM)であってもよい。また、時間ごとの系列ベクトルを特徴量に用いる場合、Long Short-Term Memory Recurrent Neural Network(LSTM-RNN)などの系列を考慮できる推定モデルを用いてもよい。なお、パラ言語情報推定モデルがすべてDNNやLSTM-RNNを含む深層学習に基づく手法によって構成される場合、特徴量ゲートの重みベクトルも含めてモデル全体を単一のネットワーク(分類モデル)と見なすことができるため、パラ言語情報推定モデル全体を誤差逆伝搬法により一体学習することが可能である。
パラ言語情報推定モデルが深層学習に基づく手法以外を含む場合(例えば各特徴量のサブモデルがSVMによって構成される場合)、特徴量ゲートの重みベクトルの数値や重みベクトルの決定規則は人手により与える必要がある。またこの場合、特徴量ごとのサブモデルや結果統合サブモデルは別々に学習する必要がある。このような場合でのパラ言語情報推定モデル学習部12の構成を図6に示す。この場合のパラ言語情報推定モデル学習部12は、韻律特徴サブモデル学習部121-1、言語特徴サブモデル学習部121-2、映像特徴サブモデル学習部121-3、韻律特徴重み算出部122-1、言語特徴重み算出部122-2、映像特徴重み算出部122-3、韻律特徴ゲート処理部123-1、言語特徴ゲート処理部123-2、映像特徴ゲート処理部123-3、および結果統合サブモデル学習部124を備える。
韻律特徴サブモデル学習部121-1は、韻律特徴と教師ラベルとの組から、韻律特徴のみに基づいてパラ言語情報を推定する韻律特徴サブモデルを学習する。韻律特徴サブモデルは例えばSVMを用いるが、クラス分類が可能な他の機械学習手法を用いてもよい。また、韻律特徴サブモデルの出力結果とは、例えば韻律特徴サブモデルがSVMであれば識別平面からの距離を指す。
言語特徴サブモデル学習部121-2および映像特徴サブモデル学習部121-3は、韻律特徴サブモデル学習部121-1と同様にして、言語特徴サブモデルおよび映像特徴サブモデルを学習する。
韻律特徴重み算出部122-1は、特徴量ゲートルールを用いて、韻律特徴サブモデルの出力結果から韻律特徴ゲート重みベクトルを算出する。特徴量ゲートルールとは、特徴量ゲートを決定する規則と、特徴量ゲートの重みベクトルとの組を指す。韻律特徴サブモデルがSVMの例であれば、「韻律特徴サブモデルの出力結果において、識別平面からの距離の絶対値が0.5以下なら韻律特徴ゲート重みベクトルはゼロベクトル、識別平面からの距離の絶対値が0.5より大きいなら韻律特徴ゲート重みベクトルは単位ベクトル」といった、人手により与えたルールを指す。これは、SVMの識別平面からの距離が推定結果の尤もらしさであるとみなし、推定結果が尤もらしい(ある特徴量で特定のパラ言語情報の特性が強く表れている可能性が高い)場合は特徴量ゲート重みベクトルを単位ベクトルに、そうでない場合はゼロベクトルに設定する処理に等しい。この人手により与えたルールを韻律特徴サブモデルの出力結果に適用し、出力結果に対する韻律特徴ゲート重みベクトルを算出する。なお、韻律特徴ゲート重みベクトルの次元数は韻律特徴サブモデル出力結果と同じとする(SVMの例であれば1次元のベクトルとする)。
言語特徴重み算出部122-2および映像特徴重み算出部122-3は、韻律特徴重み算出部122-1と同様にして、言語特徴重みベクトルおよび映像特徴重みベクトルを算出する。
韻律特徴ゲート処理部123-1は、韻律特徴サブモデルの出力結果と、韻律特徴ゲート重みベクトルとを用いて、上記式(1)を計算し、韻律特徴ゲート出力ベクトルを求める。
言語特徴ゲート処理部123-2および映像特徴ゲート処理部123-3は、韻律特徴ゲート処理部123-1と同様にして、言語特徴ゲート出力ベクトルおよび映像特徴ゲート出力ベクトルを算出する。
結果統合サブモデル学習部124は、韻律特徴ゲート出力ベクトル、言語特徴ゲート出力ベクトル、映像特徴ゲート出力ベクトル、および教師ラベルの組から、結果統合サブモデルを学習する。結果統合サブモデルは例えばSVMを用いるが、クラス分類が可能な他の機械学習手法を用いてもよい。
<パラ言語情報推定装置>
第一実施形態のパラ言語情報推定装置は、学習済みのパラ言語情報推定モデルを用いて入力発話からパラ言語情報を推定する。パラ言語情報推定装置は、図7に例示するように、韻律特徴抽出部11-1、言語特徴抽出部11-2、映像特徴抽出部11-3、パラ言語情報推定モデル記憶部20、およびパラ言語情報推定部21を備える。このパラ言語情報推定装置が、図8に例示する各ステップの処理を行うことにより第一実施形態のパラ言語情報推定方法が実現される。
第一実施形態のパラ言語情報推定装置は、学習済みのパラ言語情報推定モデルを用いて入力発話からパラ言語情報を推定する。パラ言語情報推定装置は、図7に例示するように、韻律特徴抽出部11-1、言語特徴抽出部11-2、映像特徴抽出部11-3、パラ言語情報推定モデル記憶部20、およびパラ言語情報推定部21を備える。このパラ言語情報推定装置が、図8に例示する各ステップの処理を行うことにより第一実施形態のパラ言語情報推定方法が実現される。
パラ言語情報推定装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。パラ言語情報推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。パラ言語情報推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。パラ言語情報推定装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。パラ言語情報推定装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
ステップS11-1において、韻律特徴抽出部11-1は、入力発話の音声波形情報から韻律特徴を抽出する。韻律特徴の抽出は、パラ言語情報推定モデル学習装置と同様に行えばよい。韻律特徴抽出部11-1は、抽出した韻律特徴をパラ言語情報推定部21へ出力する。
ステップS11-2において、言語特徴抽出部11-2は、入力発話の音声波形情報から言語特徴を抽出する。言語特徴の抽出は、パラ言語情報推定モデル学習装置と同様に行えばよい。言語特徴抽出部11-2は、抽出した言語特徴をパラ言語情報推定部21へ出力する。
ステップS11-3において、映像特徴抽出部11-3は、入力発話の映像情報から映像特徴を抽出する。映像特徴の抽出は、パラ言語情報推定モデル学習装置と同様に行えばよい。映像特徴抽出部11-3は、抽出した映像特徴をパラ言語情報推定部21へ出力する。
ステップS21において、パラ言語情報推定部21は、入力発話から抽出した韻律特徴、言語特徴、および映像特徴に基づいて、当該発話のパラ言語情報を推定する。推定にはパラ言語情報推定モデル記憶部20に記憶された学習済みのパラ言語情報推定モデルを用いる。パラ言語情報推定モデルが深層学習に基づくモデルである場合、各特徴量を順伝播することでパラ言語情報推定結果が得られる。深層学習に基づくモデルでない場合、各特徴量をそれぞれ特徴量サブモデルに入力し、各特徴量サブモデルの出力結果に特徴量ゲートルールを適用して特徴量ゲート重みベクトルを求め、上記式(1)に従って特徴量ゲート重みベクトルと特徴量サブモデルの出力結果との要素積を取った結果を結果統合サブモデルに入力することでパラ言語情報推定結果が得られる。
[第二実施形態]
第一実施形態では、ある特徴量の特徴量ゲート重みベクトルは、その特徴量の特徴量サブモデルの出力結果から決定している。これは、例えば韻律特徴において特定のパラ言語情報の特性が強く表れていると判断されたとき、韻律特徴をパラ言語情報推定に利用するという構成である。
第一実施形態では、ある特徴量の特徴量ゲート重みベクトルは、その特徴量の特徴量サブモデルの出力結果から決定している。これは、例えば韻律特徴において特定のパラ言語情報の特性が強く表れていると判断されたとき、韻律特徴をパラ言語情報推定に利用するという構成である。
第二実施形態では、ある特徴量の特徴量ゲート重みベクトルは、すべての特徴量の特徴量サブモデルの出力結果から決定する。すべての特徴量の特徴量サブモデルの出力結果を考慮して特徴量ゲート重みベクトルを決定することで、どの特徴量の情報をパラ言語情報推定に利用すべきかを区別しやすくなり、各特徴量にわずかにパラ言語情報の特性が表れる発話に対してもパラ言語情報推定精度が向上する。例えば、韻律特徴でも言語特徴でも特定のパラ言語情報の特性がわずかに表れるような場合、韻律特徴と言語特徴の特性の現れ方を比較し、特性がより強く表れている方の特徴量をパラ言語情報推定に利用できるようになるためである。
第二実施形態のパラ言語情報推定モデルは、図9に示すように、各特徴量サブモデル101(例えば、韻律特徴サブモデル101-1)の出力をすべての特徴量重み算出部102(すなわち、韻律特徴重み算出部102-1、言語特徴重み算出部102-2、および映像特徴重み算出部102-3)に入力するように構成する。各特徴量重み算出部102(例えば、韻律特徴重み算出部102-1)は、すべての特徴量サブモデル101(すなわち、韻律特徴サブモデル101-1、言語特徴サブモデル101-2、および映像特徴サブモデル101-3)の出力を比較して、その特徴量の特徴量ゲート重みベクトル(すなわち、韻律特徴ゲート重みベクトル)を決定する。
第二実施形態のパラ言語情報推定モデル学習装置およびパラ言語情報推定装置は、図9に示すパラ言語情報推定モデルを用いることで、第一実施形態と同様の手順により、パラ言語情報推定モデルの学習やパラ言語情報の推定が可能である。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
10-1 発話記憶部
10-2 教師ラベル記憶部
11 特徴量抽出部
12 パラ言語情報推定モデル学習部
20 パラ言語情報推定モデル記憶部
21 パラ言語情報推定部
100,900 パラ言語情報推定モデル
101 特徴量サブモデル
102 特徴量重みベクトル
103 特徴量ゲート
104 結果統合サブモデル
121 特徴量サブモデル学習部
122 特徴量重み算出部
123 特徴量ゲート処理部
124 結果統合サブモデル学習部
10-2 教師ラベル記憶部
11 特徴量抽出部
12 パラ言語情報推定モデル学習部
20 パラ言語情報推定モデル記憶部
21 パラ言語情報推定部
100,900 パラ言語情報推定モデル
101 特徴量サブモデル
102 特徴量重みベクトル
103 特徴量ゲート
104 結果統合サブモデル
121 特徴量サブモデル学習部
122 特徴量重み算出部
123 特徴量ゲート処理部
124 結果統合サブモデル学習部
Claims (8)
- 入力発話からパラ言語情報を推定するパラ言語情報推定装置であって、
複数の独立した特徴量を入力としてパラ言語情報推定結果を出力するパラ言語情報推定モデルを記憶するパラ言語情報推定モデル記憶部と、
入力発話から上記複数の独立した特徴量を抽出する特徴量抽出部と、
上記パラ言語情報推定モデルを用いて上記入力発話から抽出した上記複数の独立した特徴量から上記入力発話のパラ言語情報を推定するパラ言語情報推定部と、
を含み、
上記パラ言語情報推定モデルは、
上記複数の独立した特徴量ごとにその特徴量のみに基づいてパラ言語情報の推定に用いる情報を出力する特徴量サブモデルと、
上記複数の独立した特徴量ごとに上記特徴量サブモデルの出力結果に基づいてその特徴量をパラ言語情報の推定に用いるか否かを表す特徴量重みを算出する特徴量重み算出部と、
上記複数の独立した特徴量ごとに上記特徴量サブモデルの出力結果を上記特徴量重みで重み付けして出力する特徴量ゲートと、
すべての上記特徴量ゲートの出力結果に基づいて上記パラ言語情報を推定する結果統合サブモデルと、
を含むパラ言語情報推定装置。 - 請求項1に記載のパラ言語情報推定装置であって、
上記特徴量重み算出部は、すべての上記特徴量の上記特徴量サブモデルの出力結果に基づいて上記特徴量重みを算出するものである、
パラ言語情報推定装置。 - 請求項1から3のいずれかに記載のパラ言語情報推定装置であって、
上記パラ言語情報推定モデルは、ニューラルネットワークに基づくモデルであり、
上記特徴量重みは、固定値または入力に応じた関数であり、
上記特徴量サブモデルと上記特徴量重みと上記結果統合サブモデルとは、複数の学習発話から抽出した上記複数の独立した特徴量と上記学習発話に付与された教師ラベルとを用いて一体で学習したものである、
パラ言語情報推定装置。 - 請求項1から3のいずれかに記載のパラ言語情報推定装置であって、
上記特徴量サブモデルは、複数の学習発話から抽出した上記複数の独立した特徴量と上記学習発話に付与された教師ラベルとから学習したものであり、
上記特徴量重みは、上記特徴量ごとにあらかじめ定められたルールに従って算出されるものであり、
上記結果統合サブモデルは、すべての上記特徴量ゲートの出力結果と上記教師ラベルとから学習したものである、
パラ言語情報推定装置。 - 入力発話からパラ言語情報を推定するパラ言語情報推定方法であって、
パラ言語情報推定モデル記憶部に、複数の独立した特徴量を入力としてパラ言語情報推定結果を出力するパラ言語情報推定モデルが記憶されており、
特徴量抽出部が、入力発話から上記複数の独立した特徴量を抽出し、
パラ言語情報推定部が、上記パラ言語情報推定モデルを用いて上記入力発話から抽出した上記複数の独立した特徴量から上記入力発話のパラ言語情報を推定し、
上記パラ言語情報推定モデルは、
上記複数の独立した特徴量ごとにその特徴量のみに基づいてパラ言語情報の推定に用いる情報を出力する特徴量サブモデルと、
上記複数の独立した特徴量ごとに上記特徴量サブモデルの出力結果に基づいてその特徴量をパラ言語情報の推定に用いるか否かを表す特徴量重みを算出する特徴量重み算出部と、
上記複数の独立した特徴量ごとに上記特徴量サブモデルの出力結果を上記特徴量重みで重み付けして出力する特徴量ゲートと、
すべての上記特徴量ゲートの出力結果に基づいて上記パラ言語情報を推定する結果統合サブモデルと、
を含むパラ言語情報推定方法。 - 請求項6に記載のパラ言語情報推定方法であって、
上記パラ言語情報推定モデルは、ニューラルネットワークに基づくモデルであり、
上記特徴量重みは、固定値または入力に応じた関数であり、
上記特徴量サブモデルと上記特徴量重みと上記結果統合サブモデルとは、複数の学習発話から抽出した上記複数の独立した特徴量と上記学習発話に付与された教師ラベルとを用いて一体で学習したものである、
パラ言語情報推定方法。 - 請求項1から5のいずれかに記載のパラ言語情報推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018198427A JP6992725B2 (ja) | 2018-10-22 | 2018-10-22 | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム |
PCT/JP2019/039572 WO2020085070A1 (ja) | 2018-10-22 | 2019-10-08 | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム |
US17/287,102 US11798578B2 (en) | 2018-10-22 | 2019-10-08 | Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018198427A JP6992725B2 (ja) | 2018-10-22 | 2018-10-22 | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020067500A JP2020067500A (ja) | 2020-04-30 |
JP6992725B2 true JP6992725B2 (ja) | 2022-01-13 |
Family
ID=70331153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018198427A Active JP6992725B2 (ja) | 2018-10-22 | 2018-10-22 | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11798578B2 (ja) |
JP (1) | JP6992725B2 (ja) |
WO (1) | WO2020085070A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2022176124A1 (ja) * | 2021-02-18 | 2022-08-25 | ||
CN113380238A (zh) * | 2021-06-09 | 2021-09-10 | 阿波罗智联(北京)科技有限公司 | 处理音频信号的方法、模型训练方法、装置、设备和介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018146898A (ja) | 2017-03-08 | 2018-09-20 | パナソニックIpマネジメント株式会社 | 装置、ロボット、方法、及びプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10515629B2 (en) * | 2016-04-11 | 2019-12-24 | Sonde Health, Inc. | System and method for activation of voice interactive services based on user state |
US10135989B1 (en) * | 2016-10-27 | 2018-11-20 | Intuit Inc. | Personalized support routing based on paralinguistic information |
US10049664B1 (en) * | 2016-10-27 | 2018-08-14 | Intuit Inc. | Determining application experience based on paralinguistic information |
US10475530B2 (en) * | 2016-11-10 | 2019-11-12 | Sonde Health, Inc. | System and method for activation and deactivation of cued health assessment |
US20180032612A1 (en) * | 2017-09-12 | 2018-02-01 | Secrom LLC | Audio-aided data collection and retrieval |
JP7052866B2 (ja) * | 2018-04-18 | 2022-04-12 | 日本電信電話株式会社 | 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム |
US10872602B2 (en) * | 2018-05-24 | 2020-12-22 | Dolby Laboratories Licensing Corporation | Training of acoustic models for far-field vocalization processing systems |
JP7111017B2 (ja) * | 2019-02-08 | 2022-08-02 | 日本電信電話株式会社 | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム |
US20230069908A1 (en) * | 2020-02-21 | 2023-03-09 | Nippon Telegraph And Telephone Corporation | Recognition apparatus, learning apparatus, methods and programs for the same |
US20230147985A1 (en) * | 2020-04-08 | 2023-05-11 | Sony Group Corporation | Information processing apparatus, information processing method, and computer program |
-
2018
- 2018-10-22 JP JP2018198427A patent/JP6992725B2/ja active Active
-
2019
- 2019-10-08 WO PCT/JP2019/039572 patent/WO2020085070A1/ja active Application Filing
- 2019-10-08 US US17/287,102 patent/US11798578B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018146898A (ja) | 2017-03-08 | 2018-09-20 | パナソニックIpマネジメント株式会社 | 装置、ロボット、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020067500A (ja) | 2020-04-30 |
US20210398552A1 (en) | 2021-12-23 |
US11798578B2 (en) | 2023-10-24 |
WO2020085070A1 (ja) | 2020-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
JP6933264B2 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
Yu et al. | Using bidirectional LSTM recurrent neural networks to learn high-level abstractions of sequential features for automated scoring of non-native spontaneous speech | |
Hossain et al. | Implementation of back-propagation neural network for isolated Bangla speech recognition | |
US10008209B1 (en) | Computer-implemented systems and methods for speaker recognition using a neural network | |
Tu et al. | Investigating the role of L1 in automatic pronunciation evaluation of L2 speech | |
US10283142B1 (en) | Processor-implemented systems and methods for determining sound quality | |
JP6992725B2 (ja) | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム | |
El-Moneim et al. | Text-dependent and text-independent speaker recognition of reverberant speech based on CNN | |
JP6845489B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
Das et al. | Optimal prosodic feature extraction and classification in parametric excitation source information for Indian language identification using neural network based Q-learning algorithm | |
Ivanko et al. | An experimental analysis of different approaches to audio–visual speech recognition and lip-reading | |
Punithavathi et al. | [Retracted] Empirical Investigation for Predicting Depression from Different Machine Learning Based Voice Recognition Techniques | |
JP7420211B2 (ja) | 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム | |
JP7111017B2 (ja) | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム | |
Higuchi et al. | Speaker Adversarial Training of DPGMM-Based Feature Extractor for Zero-Resource Languages. | |
Sefara et al. | Gender identification in Sepedi speech corpus | |
US10783873B1 (en) | Native language identification with time delay deep neural networks trained separately on native and non-native english corpora | |
Long et al. | Offline to online speaker adaptation for real-time deep neural network based LVCSR systems | |
Sham-E-Ansari et al. | A neural network based approach for recognition of basic emotions from speech | |
Ajitha et al. | Emotion Recognition in Speech Using MFCC and Classifiers | |
Venkatasubramanian et al. | A Deep Convolutional Neural Network-Based Speech-to-Text Conversion for Multilingual Languages | |
Maddali et al. | Classification of disordered patient’s voice by using pervasive computational algorithms | |
Feijóo Rodríguez | Comparative analysis of methods for the adaptation of Speech Emotion Recognition (SER) systems | |
Egas-López et al. | Identification of Subjects Wearing a Surgical Mask from Their Speech by Means of X-vectors and Fisher Vectors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6992725 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |