JP7216348B2 - 音声処理装置、音声処理方法、および音声処理プログラム - Google Patents
音声処理装置、音声処理方法、および音声処理プログラム Download PDFInfo
- Publication number
- JP7216348B2 JP7216348B2 JP2021029416A JP2021029416A JP7216348B2 JP 7216348 B2 JP7216348 B2 JP 7216348B2 JP 2021029416 A JP2021029416 A JP 2021029416A JP 2021029416 A JP2021029416 A JP 2021029416A JP 7216348 B2 JP7216348 B2 JP 7216348B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speaker
- signals
- audio
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、本発明の第1の実施形態に係る音声処理装置の構成を示すブロック図である。
図3は、第2の実施形態における音声処理装置200のブロック図である。音声処理装置200は、貢献度推定部11、話者特徴算出部12、音声区間検出部21、および音声統計量算出部22を備える。また、音声処理装置200は、さらに、貢献度記憶部23および貢献度学習部24を備えてもよい。
次に、第2の実施形態における音声処理装置200の動作について、図4のフローチャートを用いて説明する。図4は、音声処理装置200の動作の一例を示すフローチャートである。
以上、説明したように、本実施形態にかかる音声処理装置200によれば、音声処理装置200が算出した話者特徴を用いる話者認識の精度を高めることができる。なぜならば、音声処理装置200は、貢献度推定部11が音声信号の品質を貢献度として算出し、話者特徴算出部12が貢献度を考慮した特徴ベクトルを算出することで、音声信号の品質の高い部分区間に重きを置いた特徴ベクトルを出力するからである。
図5は、本発明の第3の実施形態に係る、音声処理装置の構成の一例を示すブロック図である。
次に、本発明の第3の実施形態に係る音声処理装置300の具体的な応用例について説明する。
以上、実施形態を用いて本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をすることができる。すなわち、本発明は、以上の実施形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
音声処理装置は、ハードウエアによって実現してもよいし、ソフトウエアによって実現してもよい。また、音声処理装置は、ハードウエアとソフトウエアの組み合わせによって実現してもよい。
音声を表す複数の音声信号の入力を受け付ける受付手段と、
前記複数の音声信号の品質に基づいて、前記複数の音声信号から特定の属性情報を認識するための認識特徴量を算出する情報処理手段とを備える、音声処理装置。
前記複数の音声信号に含まれる音の種類の比率を表す音声統計量を算出する音声統計量算出手段をさらに備え、
前記情報処理手段は、前記複数の音声信号の前記音声統計量と、前記複数の音声信号の前記品質とに基づいて、前記認識特徴量を算出する、付記1に記載の音声処理装置。
前記品質は、
前記複数の音声信号の一部が音声か否かを識別して算出した音声らしさを表す値、前記複数の音声信号の一部が話者認識に正解する音声か否かを識別して算出した話者認識の正解しやすさを表す値、前記複数の音声信号の一部が話者認識誤りを起こす音声か否かを識別して算出した話者認識の誤りやすさを表す値の少なくともいずれかひとつである、付記1または2に記載の音声処理装置。
ニューラルネットワークを用いて前記複数の音声信号の前記品質を算出する品質推定手段をさらに備える、付記3に記載の音声処理装置。
前記情報処理手段は、
前記認識特徴量として i-vector を算出する、付記3または4に記載の音声処理装置。
前記認識特徴量に基づいて前記属性情報を認識する属性認識手段を備える、付記1~5のいずれか1つに記載の音声処理装置。
前記特定の属性情報は、
音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格の少なくともいずれか1つを表す情報である、付記1~6のいずれか1つに記載の音声処理装置。
音声を表す複数の音声信号の入力を受け付け、
前記複数の音声信号の品質に基づいて、前記複数の音声信号から特定の属性情報を認識するための認識特徴量を算出する、音声処理方法。
前記複数の音声信号に含まれる音の種類の比率を表す音声統計量をさらに算出し、
前記複数の音声信号の前記音声統計量と、前記複数の音声信号の前記品質とに基づいて、前記認識特徴量を算出する、付記8に記載の音声処理方法。
前記品質は、
前記複数の音声信号の一部が音声か否かを識別して算出した音声らしさを表す値、前記複数の音声信号の一部が話者認識に正解する音声か否かを識別して算出した話者認識の正解しやすさを表す値、前記複数の音声信号の一部が話者認識誤りを起こす音声か否かを識別して算出した話者認識の誤りやすさを表す値の少なくともいずれかひとつである、付記8または9に記載の音声処理方法。
ニューラルネットワークを用いて前記複数の音声信号の前記品質を算出する、付記10に記載の音声処理方法。
前記認識特徴量として i-vector を算出する、付記10または11に記載の音声処理方法。
前記認識特徴量に基づいて前記属性情報を認識する、付記8~12のいずれか1つに記載の音声処理方法。
前記特定の属性情報は、
音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格の少なくともいずれか1つを表す情報である、付記8~13のいずれか1つに記載の音声処理方法。
コンピュータに、
音声を表す複数の音声信号の入力を受け付ける処理と、
前記複数の音声信号の品質に基づいて、前記複数の音声信号から特定の属性情報を認識するための認識特徴量を算出する処理とを実行させる、音声処理プログラム。
前記コンピュータに、
前記複数の音声信号に含まれる音の種類の比率を表す音声統計量をさらに算出する処理と、
前記複数の音声信号の前記音声統計量と、前記複数の音声信号の前記品質とに基づいて、前記認識特徴量を算出する処理とを実行させる、付記15に記載の音声処理プログラム。
前記品質は、
前記複数の音声信号の一部が音声か否かを識別して算出した音声らしさを表す値、前記複数の音声信号の一部が話者認識に正解する音声か否かを識別して算出した話者認識の正解しやすさを表す値、および前記複数の音声信号の一部が話者認識誤りを起こす音声か否かを識別して算出した話者認識の誤りやすさを表す値の少なくともいずれかひとつである、付記15または16に記載の音声処理プログラム。
前記コンピュータに、
ニューラルネットワークを用いて前記複数の音声信号の前記品質を算出する処理を実行させる、付記17に記載の音声処理プログラム。
前記コンピュータに、
前記認識特徴量として i-vector を算出する処理を実行させる、付記17または18に記載の音声処理プログラム。
前記コンピュータに、
前記認識特徴量に基づいて前記属性情報を認識する処理を実行させる、付記15~19のいずれか1つに記載の音声処理プログラム。
前記特定の属性情報は、
音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格の少なくともいずれか1つを表す情報である、付記15~20のいずれか1つに記載の音声処理プログラム。
12・・・話者特徴算出部
13・・・属性認識部
21・・・音声区間検出部
22・・・音声統計量算出部
23・・・貢献度記憶部
24・・・貢献度学習部
100,200,300・・・音声処理装置
400・・・情報処理装置
410・・・制御部(CPU)
420・・・記憶部
430・・・ROM
440・・・RAM
450・・・通信インターフェース
460・・・ユーザインターフェース
Claims (8)
- 音声を表す複数の音声信号の入力を受け付ける受付手段と、
前記複数の音声信号における、話者認識に正解する音声および前記話者認識に誤りを起こす音声の2種類の品質を算出する品質推定手段と、
前記複数の音声信号の前記品質に基づいて、前記複数の音声信号から特定の属性情報を認識するための認識特徴量を算出する情報処理手段と、
前記複数の音声信号に含まれる音の種類の出現度を表す音声統計量を算出する音声統計量算出手段とを備え、
前記情報処理手段は、前記複数の音声信号の前記音声統計量と、前記複数の音声信号の前記品質とに基づいて、前記認識特徴量を算出する、音声処理装置。 - 前記品質は、前記複数の音声信号の一部が音声か否かを識別して算出した音声らしさを表す値である、請求項1に記載の音声処理装置。
- 前記情報処理手段は、
前記認識特徴量として i-vector を算出する、請求項2に記載の音声処理装置。 - 前記認識特徴量に基づいて前記属性情報を認識する属性認識手段を備える、請求項1~3のいずれか1項に記載の音声処理装置。
- 前記特定の属性情報は、
音声信号を発した話者、音声信号を構成する言語、音声信号に含まれる感情表現、音声信号から推定される話者の性格の少なくともいずれか1つを表す情報である、請求項1~4のいずれか1項に記載の音声処理装置。 - 音声を表す複数の音声信号の入力を受け付け、
前記複数の音声信号における、話者認識に正解する音声および前記話者認識に誤りを起こす音声の2種類の品質を算出し、
前記複数の音声信号の前記品質に基づいて、前記複数の音声信号から特定の属性情報を認識するための認識特徴量を算出し、
前記複数の音声信号に含まれる音の種類の出現度を表す音声統計量を算出し、
前記複数の音声信号の前記音声統計量と、前記複数の音声信号の前記品質とに基づいて、前記認識特徴量を算出する、音声処理方法。 - 前記品質は、
前記複数の音声信号の一部が音声か否かを識別して算出した音声らしさを表す値である、請求項6に記載の音声処理方法。 - コンピュータに、
音声を表す複数の音声信号の入力を受け付ける処理と、
前記複数の音声信号における、話者認識に正解する音声および前記話者認識に誤りを起こす音声の2種類の品質を算出する処理と、
前記複数の音声信号の前記品質に基づいて、前記複数の音声信号から特定の属性情報を認識するための認識特徴量を算出する処理と、
前記複数の音声信号に含まれる音の種類の出現度を表す音声統計量を算出する処理と、
前記複数の音声信号の前記音声統計量と、前記複数の音声信号の前記品質とに基づいて、前記認識特徴量を算出する処理とを実行させる、音声処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021029416A JP7216348B2 (ja) | 2021-02-26 | 2021-02-26 | 音声処理装置、音声処理方法、および音声処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021029416A JP7216348B2 (ja) | 2021-02-26 | 2021-02-26 | 音声処理装置、音声処理方法、および音声処理プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019504164A Division JP6845489B2 (ja) | 2017-03-07 | 2017-03-07 | 音声処理装置、音声処理方法、および音声処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021092809A JP2021092809A (ja) | 2021-06-17 |
JP7216348B2 true JP7216348B2 (ja) | 2023-02-01 |
Family
ID=76312595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021029416A Active JP7216348B2 (ja) | 2021-02-26 | 2021-02-26 | 音声処理装置、音声処理方法、および音声処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7216348B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012020591A1 (ja) | 2010-08-09 | 2012-02-16 | 日本電気株式会社 | 個体識別システム、特徴量特定装置、特徴量特定方法および記録媒体 |
US20120303369A1 (en) | 2011-05-26 | 2012-11-29 | Microsoft Corporation | Energy-Efficient Unobtrusive Identification of a Speaker |
JP2016075740A (ja) | 2014-10-03 | 2016-05-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
-
2021
- 2021-02-26 JP JP2021029416A patent/JP7216348B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012020591A1 (ja) | 2010-08-09 | 2012-02-16 | 日本電気株式会社 | 個体識別システム、特徴量特定装置、特徴量特定方法および記録媒体 |
US20120303369A1 (en) | 2011-05-26 | 2012-11-29 | Microsoft Corporation | Energy-Efficient Unobtrusive Identification of a Speaker |
JP2016075740A (ja) | 2014-10-03 | 2016-05-12 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
Non-Patent Citations (4)
Title |
---|
Hitoshi Yamamoto, et al.,Denoising autoencoder-based speaker feature restoration for utterances of short duration,INTERSPEECH 2015,2015年09月06日,1052-1056 |
Lenka Mackova, et al.,Emotion Recognition in I-vector Space,2016 26th International Conference Radioelektronika,2016年04月19日 |
Sri Garimella, et al.,Robust i-vector based Adaptation of DNN Acoustic Model for Speech Recognition,INTERSPEECH 2015,2015年 |
俵 直弘,i-vectorを用いたスペクトラルクラスタリングによる雑音環境下話者クラスタリング,情報処理学会 研究報告 音声言語情報処理(SLP) 2015-SLP-105 [online] ,日本,情報処理学会,2015年02月28日 |
Also Published As
Publication number | Publication date |
---|---|
JP2021092809A (ja) | 2021-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11900947B2 (en) | Method and system for automatically diarising a sound recording | |
US10109280B2 (en) | Blind diarization of recorded calls with arbitrary number of speakers | |
US20200349956A1 (en) | Word-level blind diarization of recorded calls with arbitrary number of speakers | |
JP5229219B2 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
US8990086B2 (en) | Recognition confidence measuring by lexical distance between candidates | |
JP7342915B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
JP2020187211A (ja) | 対話装置、対話方法、及び対話コンピュータプログラム | |
JP2002358096A (ja) | リストからの一パターンの一実現変形例にそれぞれが厳密に関連付けられたパターン認識システムのパラメータを訓練する方法及びシステム | |
Gholamdokht Firooz et al. | Spoken language recognition using a new conditional cascade method to combine acoustic and phonetic results | |
JP7216348B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
Soni et al. | Text-dependent speaker verification using classical LBG, adaptive LBG and FCM vector quantization | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
US20240071367A1 (en) | Automatic Speech Generation and Intelligent and Robust Bias Detection in Automatic Speech Recognition Model | |
Satriawan et al. | Average window smoothing for an Indonesian language online speaker identification system | |
Mary et al. | Modeling and fusion of prosody for speaker, language, emotion, and speech recognition | |
JP2004334024A (ja) | 標準パターン作成方法、作成装置及び作成プログラム | |
You et al. | Self-organized clustering for feature mapping in language recognition | |
JPWO2009122780A1 (ja) | 適応話者選択装置および適応話者選択方法並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210226 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220615 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220809 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221202 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20221202 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20221215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221221 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20221221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230103 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7216348 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |