JP6996570B2 - 緊急度推定装置、緊急度推定方法、プログラム - Google Patents
緊急度推定装置、緊急度推定方法、プログラム Download PDFInfo
- Publication number
- JP6996570B2 JP6996570B2 JP2019557144A JP2019557144A JP6996570B2 JP 6996570 B2 JP6996570 B2 JP 6996570B2 JP 2019557144 A JP2019557144 A JP 2019557144A JP 2019557144 A JP2019557144 A JP 2019557144A JP 6996570 B2 JP6996570 B2 JP 6996570B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- urgency
- average
- vocal tract
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 29
- 230000001755 vocal effect Effects 0.000 claims description 70
- 238000000605 extraction Methods 0.000 claims description 48
- 238000004364 calculation method Methods 0.000 claims description 35
- 239000006185 dispersion Substances 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 21
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 230000015654 memory Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/75—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Analysis (AREA)
- Psychiatry (AREA)
- Computing Systems (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Child & Adolescent Psychology (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Navigation (AREA)
Description
図1は、複数の留守録模擬音声を用いて、緊急・非緊急の音声での話す速さ(以下、話速という)を分析した結果を示す。この図をみると、話速、すなわち、1モーラ(音韻上の分節)あたりの秒数が緊急音声の方が短いことがわかる。そこで、第一実施形態では、話速を用いて緊急度を推定する。なお、従来から用いられている声道特徴量の統計値も緊急度推定にあわせて用いる。
図6は、複数の留守録模擬音声を用いて、緊急・非緊急の音声での声の高さ(F0)を分析した結果を示す。この図から、緊急時には声が平均的に高くなる傾向があることがわかる。そこで、第二実施形態では、声の高さを用いて緊急度を推定する。なお、声道特徴量の統計値もあわせて用いることは第一実施形態と同様である。
発話音声のパワーは電話の機器によって異なるが、図10A、図10Bからわかるように、1発話辺りのパワーの平均を揃えて緊急度が高い音声と緊急度が低い音声を比較すると、緊急度が高い音声は部分的に声が強くなる傾向がある。そこで、第三実施形態では、パワーの平均を揃えたうえでのパワーの最大値を声の強さとして、声の強さを用いて緊急度を推定する。なお、声道特徴量の統計値もあわせて用いることは第一実施形態と同様である。
第一実施形態では、音声認識を用いて話速を推定したが、発話音声で使われている単語が音声認識に用いるモデルに含まれていないと、正確な音声認識結果が得られないため、話速を正しく推定することができない。そのため、音声認識に用いるモデルに単語を登録するチューニング作業が不可欠となる。しかし、留守番電話に残されたメッセージのような制約のない発話についてあらゆる単語を事前に登録しておくのは現実的ではない。そこで、第四実施形態では、音声認識の音響モデル(入力された音が、どの音素の音であるかを識別するモデル)の事後確率の変化(事後確率系列)から推定した話速を用いて、緊急度を推定する。なお、声道特徴量の統計値もあわせて用いることは第一実施形態と同様である。
第一実施形態から第四実施形態では、声道特徴量統計値に、話速、声の高さ、声の強さ(パワーの大きさ)のいずれか一つの特徴量を組み合わせて緊急度を推定したが、声道特徴量統計値に、話速、声の高さ、声の強さの特徴量のうち、2つ以上の特徴量を組み合わせて緊急度を推定するようにしてもよい。そこで、第五実施形態では、第一実施形態から第四実施形態で用いた特徴量の組み合わせを用いて、緊急度を推定する構成について説明する。ここでは、まず、第一実施形態の話速、第二実施形態の声の高さ、第三実施形態の声の強さを示す3つの特徴量を用いる構成について説明する。
(1)特徴量が発話音声の話速を示す特徴を含む場合、話速を示す特徴が、話速が速いことに対応する場合の方が、話速が遅いことに対応する場合よりも緊急度が高いと推定されやすい。
(2)特徴量が発話音声の声の高さを示す特徴を含む場合、声の高さを示す特徴が、声の高さが高いことに対応する場合の方が、声の高さが低いことに対応する場合よりも緊急度が高いと推定されやすい。
(3)特徴量が発話音声のパワーの大きさを示す特徴を含む場合、パワーの大きさを示す特徴が、パワーが大きいことに対応する場合の方が、パワーが小さいことに対応する場合よりも緊急度が高いと推定されやすい。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (7)
- 発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、
前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、
前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出部と、
前記F0情報から、F0情報の平均と中央値との差分を計算するF0情報統計値計算部と、
発話音声の声道特徴量の平均と分散値、発話音声のF0情報の平均と中央値との差分を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記差分から、前記発話音声の話者の緊急度を推定する緊急度推定部と
を含む緊急度推定装置。 - 発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、
前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、
前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出部と、
前記発話音声から、当該発話音声を分割したフレーム毎にパワーを抽出するパワー抽出部と、
前記F0情報と前記パワーから、パワーの平均を用いて調整した調整済パワーを計算するパワー平均調整部と、
前記調整済パワーから、調整済パワーの最大値であるパワー最大値を計算するパワー最大値計算部と、
発話音声の声道特徴量の平均と分散値、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記パワー最大値から、前記発話音声の話者の緊急度を推定する緊急度推定部と
を含む緊急度推定装置。 - 発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、
前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、
入力音から音素を識別する音声認識音響モデルを用いて、前記発話音声から、当該発話音声を分割したフレームに該当する音が各音素である確率を示す事後確率系列を推定する事後確率系列推定部と、
発話音声の事後確率系列を入力とし、発話音声の話速を出力するように学習された話速推定モデルを用いて、前記事後確率系列から、前記発話音声の話速を推定する第2話速推定部と、
発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記話速から、前記発話音声の話者の緊急度を推定する緊急度推定部と
を含む緊急度推定装置。 - 緊急度推定装置が、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出ステップと、
前記緊急度推定装置が、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算ステップと、
前記緊急度推定装置が、前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出ステップと、
前記緊急度推定装置が、前記F0情報から、F0情報の平均と中央値との差分を計算するF0情報統計値計算ステップと、
前記緊急度推定装置が、発話音声の声道特徴量の平均と分散値、発話音声のF0情報の平均と中央値との差分を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記差分から、前記発話音声の話者の緊急度を推定する緊急度推定ステップと
を含む緊急度推定方法。 - 緊急度推定装置が、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出ステップと、
前記緊急度推定装置が、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算ステップと、
前記緊急度推定装置が、前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出ステップと、
前記緊急度推定装置が、前記発話音声から、当該発話音声を分割したフレーム毎にパワーを抽出するパワー抽出ステップと、
前記緊急度推定装置が、前記F0情報と前記パワーから、パワーの平均を用いて調整した調整済パワーを計算するパワー平均調整ステップと、
前記緊急度推定装置が、前記調整済パワーから、調整済パワーの最大値であるパワー最大値を計算するパワー最大値計算ステップと、
前記緊急度推定装置が、発話音声の声道特徴量の平均と分散値、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記パワー最大値から、前記発話音声の話者の緊急度を推定する緊急度推定ステップと
を含む緊急度推定方法。 - 緊急度推定装置が、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出ステップと、
前記緊急度推定装置が、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算ステップと、
前記緊急度推定装置が、入力音から音素を識別する音声認識音響モデルを用いて、前記発話音声から、当該発話音声を分割したフレームに該当する音が各音素である確率を示す事後確率系列を推定する事後確率系列推定ステップと、
前記緊急度推定装置が、発話音声の事後確率系列を入力とし、発話音声の話速を出力するように学習された話速推定モデルを用いて、前記事後確率系列から、前記発話音声の話速を推定する第2話速推定ステップと、
前記緊急度推定装置が、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記話速から、前記発話音声の話者の緊急度を推定する緊急度推定ステップと
を含む緊急度推定方法。 - 請求項1ないし3のいずれか1項に記載の緊急度推定装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017229013 | 2017-11-29 | ||
JP2017229013 | 2017-11-29 | ||
PCT/JP2018/042323 WO2019107170A1 (ja) | 2017-11-29 | 2018-11-15 | 緊急度推定装置、緊急度推定方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019107170A1 JPWO2019107170A1 (ja) | 2020-11-26 |
JP6996570B2 true JP6996570B2 (ja) | 2022-01-17 |
Family
ID=66664972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019557144A Active JP6996570B2 (ja) | 2017-11-29 | 2018-11-15 | 緊急度推定装置、緊急度推定方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11495245B2 (ja) |
JP (1) | JP6996570B2 (ja) |
WO (1) | WO2019107170A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021019643A1 (ja) * | 2019-07-29 | 2021-02-04 | 日本電信電話株式会社 | 印象推定装置、学習装置、それらの方法、およびプログラム |
KR20210020656A (ko) * | 2019-08-16 | 2021-02-24 | 엘지전자 주식회사 | 인공 지능을 이용한 음성 인식 방법 및 그 장치 |
US11848011B1 (en) | 2021-06-02 | 2023-12-19 | Kudo, Inc. | Systems and methods for language translation during live oral presentation |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006106711A (ja) | 2004-09-10 | 2006-04-20 | Matsushita Electric Ind Co Ltd | 情報処理端末 |
JP2007286377A (ja) | 2006-04-18 | 2007-11-01 | Nippon Telegr & Teleph Corp <Ntt> | 応対評価装置、その方法、プログラムおよびその記録媒体 |
JP2009282824A (ja) | 2008-05-23 | 2009-12-03 | Toyota Central R&D Labs Inc | 感情推定装置及びプログラム |
JP2012137680A (ja) | 2010-12-27 | 2012-07-19 | Fujitsu Ltd | 状態検出装置、状態検出方法および状態検出のためのプログラム |
JP2016076788A (ja) | 2014-10-03 | 2016-05-12 | みずほ情報総研株式会社 | 通話評価システム、通話評価方法及び通話評価プログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3119510B2 (ja) * | 1991-10-28 | 2000-12-25 | 株式会社リコー | 音声認識装置 |
US6275806B1 (en) * | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
WO2006028223A1 (ja) | 2004-09-10 | 2006-03-16 | Matsushita Electric Industrial Co., Ltd. | 情報処理端末 |
CN101136199B (zh) * | 2006-08-30 | 2011-09-07 | 纽昂斯通讯公司 | 语音数据处理方法和设备 |
US20090006085A1 (en) * | 2007-06-29 | 2009-01-01 | Microsoft Corporation | Automated call classification and prioritization |
US9493130B2 (en) * | 2011-04-22 | 2016-11-15 | Angel A. Penilla | Methods and systems for communicating content to connected vehicle users based detected tone/mood in voice input |
US9020822B2 (en) * | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
JP6268916B2 (ja) * | 2013-10-24 | 2018-01-31 | 富士通株式会社 | 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム |
US10706873B2 (en) * | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
-
2018
- 2018-11-15 JP JP2019557144A patent/JP6996570B2/ja active Active
- 2018-11-15 US US16/765,546 patent/US11495245B2/en active Active
- 2018-11-15 WO PCT/JP2018/042323 patent/WO2019107170A1/ja active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006106711A (ja) | 2004-09-10 | 2006-04-20 | Matsushita Electric Ind Co Ltd | 情報処理端末 |
JP2007286377A (ja) | 2006-04-18 | 2007-11-01 | Nippon Telegr & Teleph Corp <Ntt> | 応対評価装置、その方法、プログラムおよびその記録媒体 |
JP2009282824A (ja) | 2008-05-23 | 2009-12-03 | Toyota Central R&D Labs Inc | 感情推定装置及びプログラム |
JP2012137680A (ja) | 2010-12-27 | 2012-07-19 | Fujitsu Ltd | 状態検出装置、状態検出方法および状態検出のためのプログラム |
JP2016076788A (ja) | 2014-10-03 | 2016-05-12 | みずほ情報総研株式会社 | 通話評価システム、通話評価方法及び通話評価プログラム |
Non-Patent Citations (1)
Title |
---|
有本 泰子 他,"感情音声のコーパス構築と音響的特徴の分析",情報処理学会研究報告,日本,社団法人情報処理学会,2008年04月01日,第2008巻 第12号,pp.133~138 |
Also Published As
Publication number | Publication date |
---|---|
US20200312352A1 (en) | 2020-10-01 |
US11495245B2 (en) | 2022-11-08 |
WO2019107170A1 (ja) | 2019-06-06 |
JPWO2019107170A1 (ja) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109545243B (zh) | 发音质量评价方法、装置、电子设备及存储介质 | |
US9275631B2 (en) | Speech synthesis system, speech synthesis program product, and speech synthesis method | |
JP6840858B2 (ja) | 発音誤り検出装置、発音誤り検出方法、プログラム | |
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
JP6996570B2 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
US8645139B2 (en) | Apparatus and method of extending pronunciation dictionary used for speech recognition | |
JP6280074B2 (ja) | 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム | |
JP5007401B2 (ja) | 発音評定装置、およびプログラム | |
JP2018072697A (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
JP2007316330A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP6636374B2 (ja) | 登録発話分割装置、話者らしさ評価装置、話者識別装置、登録発話分割方法、話者らしさ評価方法、プログラム | |
JP4861941B2 (ja) | 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム | |
JP4753412B2 (ja) | 発音評定装置、およびプログラム | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP4922377B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP7028203B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
WO2021044606A1 (ja) | 学習装置、推定装置、それらの方法、およびプログラム | |
CN112837688A (zh) | 语音转写方法、装置、相关***及设备 | |
JP4798606B2 (ja) | 音声認識装置、およびプログラム | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
JP6859283B2 (ja) | 好感度推定装置、好感度推定方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200519 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210805 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6996570 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |