JP5544575B2 - 音声言語評価装置、方法、及びプログラム - Google Patents
音声言語評価装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5544575B2 JP5544575B2 JP2011198383A JP2011198383A JP5544575B2 JP 5544575 B2 JP5544575 B2 JP 5544575B2 JP 2011198383 A JP2011198383 A JP 2011198383A JP 2011198383 A JP2011198383 A JP 2011198383A JP 5544575 B2 JP5544575 B2 JP 5544575B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- evaluation
- phoneme
- feature information
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Description
NMFによって音声信号を音素へ分解するイメージを図2に示す。図中Yは、特徴情報抽出部12で抽出されたメルスペクトルを、図中Hは、音素表現(音素毎の基底ベクトルを並べたもの。音素の基底ベクトルを、以下では単に「音素」ともいう)を、図中Uは、各音素がYにどのくらいの比率で配合されているかを示す配合比率を表す。NMFによる繰り返し演算で、メルスペクトルYと、音素表現Hと配合比率Uとの積との差を最小化することにより、適切な音素表現H及び配合比率Uを求めることができる。評価段階では、音素表現Hのみを利用するため、求めた音素表現Hを出力する。
2 学習部
3 評価部
11 音声信号入力部
12 特徴情報抽出部
13 音素表現計算部
14 音素表現記憶部
15 音素配合比率計算部
16 言語類似性評価部
17 表示制御部
Claims (8)
- 言語の種類が未知の評価用音声信号から評価用特徴情報を抽出する抽出手段と、
言語の種類が既知の複数の学習用音声信号から抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより得られた音素毎の基底ベクトルで表された言語の種類毎の音素表現と、前記抽出手段により抽出された評価用特徴情報とに基づいて、該評価用特徴情報に配合された各音素の基底ベクトルの比率を示す配合比率を、言語の種類毎に計算する配合比率計算手段と、
前記評価用特徴情報と、前記配合比率計算手段により計算された言語の種類毎の配合比率と前記言語の種類毎の音素表現との積で示される情報各々との類似度に基づいて、該評価用特徴情報に対応する評価用音声信号が示す言語の種類を評価する評価手段と、
を含む音声言語評価装置。 - 前記音素表現を、時系列構造の音素表現とした請求項1記載の音声言語評価装置。
- 前記評価手段は、前記類似度が最も高くなるときの音素表現に対応する言語の種類を、前記評価用音声信号が示す言語の種類であると識別するか、または、言語の種類毎の類似度に基づいて、言語の種類間の系統的関連性を示す言語系統樹を作成する請求項1または請求項2記載の音声言語評価装置。
- 前記配合比率計算手段は、発話者の性別及び年齢の少なくとも一方が既知の学習用音声信号から抽出された学習用特徴情報より得られた言語の種類並びに性別及び年齢別の少なくとも一方毎の音素表現に基づいて、言語の種類並びに性別及び年齢別の少なくとも一方毎に前記配合比率を計算する請求項1〜請求項3のいずれか1項記載の音声言語評価装置。
- 前記抽出手段は、前記複数の学習用音声信号から前記言語の種類毎の学習用特徴情報を抽出し、
前記抽出手段により抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより前記言語の種類毎の音素表現を計算する音素表現計算手段
を含む請求項1〜請求項4のいずれか1項記載の音声言語評価装置。 - 抽出手段と、配合比率計算手段と、評価手段とを含む音声言語評価装置における音声言語評価方法であって、
前記抽出手段は、言語の種類が未知の評価用音声信号から評価用特徴情報を抽出し、
前記配合比率計算手段は、言語の種類が既知の複数の学習用音声信号から抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより得られた音素毎の基底ベクトルで表された言語の種類毎の音素表現と、前記抽出手段により抽出された評価用特徴情報とに基づいて、該評価用特徴情報に配合された各音素の基底ベクトルの比率を示す配合比率を、言語の種類毎に計算し、
前記評価手段は、前記評価用特徴情報と、前記配合比率計算手段により計算された言語の種類毎の配合比率と前記言語の種類毎の音素表現との積で示される情報各々との類似度に基づいて、該評価用特徴情報に対応する評価用音声信号が示す言語の種類を評価する
音声言語評価方法。 - 前記音声言語評価装置は、音素表現計算手段を更に含み、
前記抽出手段は、前記複数の学習用音声信号から前記言語の種類毎の学習用特徴情報を抽出し、
前記音素表現計算手段は、前記抽出手段により抽出された言語の種類毎の学習用特徴情報を非負値行列分解することにより前記言語の種類毎の音素表現を計算する
請求項6記載の音声言語評価方法。 - コンピュータを、請求項1〜請求項5のいずれか1項記載の音声言語評価装置を構成する各手段として機能させるための音声言語評価プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011198383A JP5544575B2 (ja) | 2011-09-12 | 2011-09-12 | 音声言語評価装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011198383A JP5544575B2 (ja) | 2011-09-12 | 2011-09-12 | 音声言語評価装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013061402A JP2013061402A (ja) | 2013-04-04 |
JP5544575B2 true JP5544575B2 (ja) | 2014-07-09 |
Family
ID=48186140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011198383A Active JP5544575B2 (ja) | 2011-09-12 | 2011-09-12 | 音声言語評価装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5544575B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6057170B2 (ja) * | 2013-02-26 | 2017-01-11 | 日本電信電話株式会社 | 音声言語評価装置、パラメータ推定装置、方法、及びプログラム |
CN105261246B (zh) * | 2015-12-02 | 2018-06-05 | 武汉慧人信息科技有限公司 | 一种基于大数据挖掘技术的英语口语纠错*** |
CN109065059A (zh) * | 2018-09-26 | 2018-12-21 | 新巴特(安徽)智能科技有限公司 | 用音频特征主成分建立的语音群集来识别说话人的方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05282360A (ja) * | 1992-03-31 | 1993-10-29 | Hitachi Ltd | 多国語入力装置 |
DE19636739C1 (de) * | 1996-09-10 | 1997-07-03 | Siemens Ag | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem |
KR100445907B1 (ko) * | 2001-12-26 | 2004-08-25 | 한국전자통신연구원 | 음성언어 식별 장치 및 방법 |
US8190420B2 (en) * | 2009-08-04 | 2012-05-29 | Autonomy Corporation Ltd. | Automatic spoken language identification based on phoneme sequence patterns |
JP5672487B2 (ja) * | 2010-11-11 | 2015-02-18 | 株式会社国際電気通信基礎技術研究所 | 音声言語識別装置の学習装置、音声言語の識別装置、及びそれらのためのプログラム |
-
2011
- 2011-09-12 JP JP2011198383A patent/JP5544575B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013061402A (ja) | 2013-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Noroozi et al. | Vocal-based emotion recognition using random forests and decision tree | |
Gharavian et al. | Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network | |
CN106782560B (zh) | 确定目标识别文本的方法及装置 | |
Ghai et al. | Literature review on automatic speech recognition | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US8478591B2 (en) | Phonetic variation model building apparatus and method and phonetic recognition system and method thereof | |
EP3113176A1 (en) | Speech recognition apparatus, speech recognition method, and electronic device | |
US7966173B2 (en) | System and method for diacritization of text | |
US20120221339A1 (en) | Method, apparatus for synthesizing speech and acoustic model training method for speech synthesis | |
US20090119102A1 (en) | System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework | |
CN111145718A (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
US8583417B2 (en) | Translation device and computer program product | |
Black et al. | Automated evaluation of non-native English pronunciation quality: combining knowledge-and data-driven features at multiple time scales | |
US9390709B2 (en) | Voice recognition device and method, and semiconductor integrated circuit device | |
AU2012388796B2 (en) | Method and system for predicting speech recognition performance using accuracy scores | |
Karpov | An automatic multimodal speech recognition system with audio and video information | |
Lounnas et al. | CLIASR: a combined automatic speech recognition and language identification system | |
US8219386B2 (en) | Arabic poetry meter identification system and method | |
Chuctaya et al. | Isolated automatic speech recognition of Quechua numbers using MFCC, DTW and KNN | |
US20080120108A1 (en) | Multi-space distribution for pattern recognition based on mixed continuous and discrete observations | |
JP5544575B2 (ja) | 音声言語評価装置、方法、及びプログラム | |
Shafran et al. | A comparison of classifiers for detecting emotion from speech | |
HaCohen-Kerner et al. | Language and gender classification of speech files using supervised machine learning methods | |
Escudero et al. | Identifying characteristic prosodic patterns through the analysis of the information of Sp_ToBI label sequences | |
CN115019787A (zh) | 一种交互式同音异义词消歧方法、***、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130813 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130813 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140408 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5544575 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |