JP7222828B2 - 音声認識装置、音声認識方法及び記憶媒体 - Google Patents
音声認識装置、音声認識方法及び記憶媒体 Download PDFInfo
- Publication number
- JP7222828B2 JP7222828B2 JP2019116065A JP2019116065A JP7222828B2 JP 7222828 B2 JP7222828 B2 JP 7222828B2 JP 2019116065 A JP2019116065 A JP 2019116065A JP 2019116065 A JP2019116065 A JP 2019116065A JP 7222828 B2 JP7222828 B2 JP 7222828B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speech recognition
- sample
- speech
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
以上のように、上記実施例1~3の音声認識装置は、以下のような構成とすることができる。
2 メモリ
3 ストレージ装置
4 入力装置
5 出力装置
10 音声特徴量算出部
20 話者特徴量抽出部
32 認識用音声データ
33 音響モデル
34 言語モデル
35 話者特徴量抽出用モデル
40 話者サンプル初期値算出部
41 話者サンプル更新部
42 目標話者音声認識部
Claims (9)
- プロセッサとメモリを有する音声認識装置であって、
複数の話者の音声が混合された音声データを受け付けて、前記音声データから話者サンプルの初期値として初期話者サンプルを抽出する話者サンプル初期値算出部と、
前記話者サンプル初期値算出部が抽出した初期話者サンプルに基づいて目標話者音声認識を実施する目標話者音声認識部と、
前記目標話者音声認識の実行結果に基づいて再度話者サンプルを抽出して前記初期話者サンプルを更新する話者サンプル更新部と、を有し、
前記目標話者音声認識部は、
前記話者サンプル更新部で更新された前記話者サンプルに基づいて前記目標話者音声認識を再度実施することを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置であって、
前記目標話者音声認識部と前記話者サンプル更新部は、所定の収束条件を満たすまで繰り返し実行されることを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置であって、
前記話者サンプル更新部は、
前記目標話者音声認識の実行結果から単一の話者が発話している区間を抽出して前記話者サンプルを更新することを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置であって、
前記話者サンプル更新部は、
目標話者音声認識の信頼度を算出し、当該信頼度に基づく重み係数を算出し、当該重み係数を前記話者サンプルに付加することを特徴とする音声認識装置。 - プロセッサとメモリを有する音声認識装置の音声認識方法であって、
前記音声認識装置が、複数の話者の音声が混合された音声データを受け付けて、前記音声データから話者サンプルの初期値を初期話者サンプルとして抽出する話者サンプル初期値算出ステップと、
前記音声認識装置が、抽出された前記初期話者サンプルに基づいて目標話者音声認識を実施する目標話者音声認識ステップと、
前記音声認識装置が、前記目標話者音声認識の実行結果に基づき再度話者サンプルを抽出して前記初期話者サンプルを更新する話者サンプル更新ステップと、を含み、
前記目標話者音声認識ステップは、
前記話者サンプル更新ステップで更新された前記話者サンプルに基づいて前記目標話者音声認識を再度実施することを特徴とする音声認識方法。 - 請求項5に記載の音声認識方法であって、
前記目標話者音声認識ステップと前記話者サンプル更新ステップは、所定の収束条件を満たすまで繰り返し実行されることを特徴とする音声認識方法。 - 請求項5に記載の音声認識方法であって、
前記話者サンプル更新ステップは、
前記目標話者音声認識の実行結果から単一の話者が発話している区間を抽出して前記話者サンプルを更新することを特徴とする音声認識方法。 - 請求項5に記載の音声認識方法であって、
前記話者サンプル更新ステップは、
前記目標話者音声認識の信頼度を算出し、当該信頼度に基づく重み係数を算出し、当該重み係数を前記話者サンプルに付加することを特徴とする音声認識方法。 - プロセッサとメモリを有する計算機で、音声認識を実行させるためのプログラムを格納した記憶媒体であって、
複数の話者の音声が混合された音声データを受け付けて、前記音声データから話者サンプルの初期値を初期話者サンプルとして抽出する話者サンプル初期値算出ステップと、
抽出された前記初期話者サンプルに基づいて目標話者音声認識を実施する目標話者音声認識ステップと、
前記目標話者音声認識の実行結果に基づき再度話者サンプルを抽出して前記初期話者サンプルを更新する話者サンプル更新ステップと、を含み、
前記目標話者音声認識ステップは、
前記話者サンプル更新ステップで更新された前記話者サンプルに基づいて前記目標話者音声認識を再度前記計算機に実行させるためのプログラムを格納した非一時的な計算機読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019116065A JP7222828B2 (ja) | 2019-06-24 | 2019-06-24 | 音声認識装置、音声認識方法及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019116065A JP7222828B2 (ja) | 2019-06-24 | 2019-06-24 | 音声認識装置、音声認識方法及び記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021001988A JP2021001988A (ja) | 2021-01-07 |
JP7222828B2 true JP7222828B2 (ja) | 2023-02-15 |
Family
ID=73994253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019116065A Active JP7222828B2 (ja) | 2019-06-24 | 2019-06-24 | 音声認識装置、音声認識方法及び記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7222828B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102560019B1 (ko) * | 2021-01-15 | 2023-07-27 | 네이버 주식회사 | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009020461A (ja) | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
JP2010032792A (ja) | 2008-07-29 | 2010-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
-
2019
- 2019-06-24 JP JP2019116065A patent/JP7222828B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009020461A (ja) | 2007-07-13 | 2009-01-29 | Yamaha Corp | 音声処理装置およびプログラム |
JP2010032792A (ja) | 2008-07-29 | 2010-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2021001988A (ja) | 2021-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiong et al. | Toward human parity in conversational speech recognition | |
McAuliffe et al. | Montreal forced aligner: Trainable text-speech alignment using kaldi. | |
JP4351385B2 (ja) | 連続および分離音声を認識するための音声認識システム | |
US20110119051A1 (en) | Phonetic Variation Model Building Apparatus and Method and Phonetic Recognition System and Method Thereof | |
JP2017513047A (ja) | 音声認識における発音予測 | |
Bezoui et al. | Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC) | |
KR20050082253A (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
Upadhyaya et al. | Continuous Hindi speech recognition model based on Kaldi ASR toolkit | |
JP6985221B2 (ja) | 音声認識装置及び音声認識方法 | |
Chuctaya et al. | Isolated automatic speech recognition of Quechua numbers using MFCC, DTW and KNN | |
JP4758919B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP4791857B2 (ja) | 発話区間検出装置及び発話区間検出プログラム | |
Hachkar et al. | A comparison of DHMM and DTW for isolated digits recognition system of Arabic language | |
JP7222828B2 (ja) | 音声認識装置、音声認識方法及び記憶媒体 | |
US11580989B2 (en) | Training method of a speaker identification model based on a first language and a second language | |
JP6487650B2 (ja) | 音声認識装置及びプログラム | |
CN112420021A (zh) | 学习方法、说话者识别方法以及记录介质 | |
Singhal et al. | Automatic speech recognition for connected words using DTW/HMM for English/Hindi languages | |
Thalengala et al. | Study of sub-word acoustical models for Kannada isolated word recognition system | |
JP2012053218A (ja) | 音響処理装置および音響処理プログラム | |
Nguyen et al. | Development of a Vietnamese large vocabulary continuous speech recognition system under noisy conditions | |
US20050246172A1 (en) | Acoustic model training method and system | |
Metze et al. | Fusion of acoustic and linguistic features for emotion detection | |
Meftah et al. | A comparative study of different speech features for arabic phonemes classification | |
KR20210081166A (ko) | 다국어 음성 환경에서의 언어 식별 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7222828 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |