JPH0420999A - 標準話者選択装置 - Google Patents

標準話者選択装置

Info

Publication number
JPH0420999A
JPH0420999A JP2126110A JP12611090A JPH0420999A JP H0420999 A JPH0420999 A JP H0420999A JP 2126110 A JP2126110 A JP 2126110A JP 12611090 A JP12611090 A JP 12611090A JP H0420999 A JPH0420999 A JP H0420999A
Authority
JP
Japan
Prior art keywords
speaker
dictionary
standard
vector quantization
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2126110A
Other languages
English (en)
Other versions
JP2561553B2 (ja
Inventor
Tadashi Suzuki
忠 鈴木
Kunio Nakajima
中島 邦男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2126110A priority Critical patent/JP2561553B2/ja
Publication of JPH0420999A publication Critical patent/JPH0420999A/ja
Application granted granted Critical
Publication of JP2561553B2 publication Critical patent/JP2561553B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明株、音声認識において、標準話者母集団の中か
ら複数の標準話者を選択する標準話者選択装置に関する
ものである。
〔従来の技術〕
第2図は例えば、日本音響学会昭和57年度秋季研究発
表会公演論文集2−7−13″距離最小化に基づく単語
マルチテンプレート抽出法″(相用。
鹿野、杉山;昭和57年10月)に示された、従米の標
準話者選択装置を示すブロック図である。
図において、1は標準話者母集団に属する標準話者の一
人が発生した音声が入力される入力端子である。2は入
力端子1よ〕入力された音声を分析して、特徴ベクトル
時系列に変換する音響分析手段であシ、3Fiその特徴
ベクトル時系列を保存する特徴ベクトルメモリである。
4はこの特徴ベクトルメモリ3に保存されていル特徴ベ
クトル時系列を用いてダイナミックプログラミング(以
下DPという)マツチングを行b1マツチング歪を計算
するバタンマツチング手段である。5はこのバタンマツ
チング手段4にて算出されたマツチング歪より平均歪を
計算する平均歪演算手段である。6#iこの平均歪演算
手段5にて算出された平均歪を話者間距離として記憶す
る話者間距離マトリクスメモリであシ、7はこの話者間
距離のマトリクスデータを用いてクラスタリングを行い
、各クラスタのセントロイドに対応する話者番号の出力
を行うクラスタリング手段、8はその話者番号が出力さ
れる出方端子である。
次に動作について説明する。ここでは、標準話者母集団
の大きさをN人とし、その中からM人の標準話者を選択
する場合について説明する。
標準話者母集団において話者番号n(HにlからNO整
数をとる)が付された標準話者が発声したカテゴリ1(
lは1から工の整数で、工はカテゴリ数を示す)の音声
は、入力端子1よシ入力される。入力端子1より入力さ
れた前記カテゴリ1の音声は音響分析手段2において音
響分析され、特徴ベクトル時系列に変換されて特徴ベク
トルメモリ3に記録される。
バタンマツチング手段4は、特徴ベクトルメモリ3に記
録されている話者番号n1が付された標準話者のカテゴ
リlの音声に対応する特徴ベクトル時系列と、話者番号
n2が付された標準話者のカテゴリlの音声に対応する
特徴ベクトル時系列とのDPマツチングを行い、di(
nl 、n2)で表現されるマツチング歪を計算する。
これを、1≦n1≦N、1≦n2≦N、1≦1≦工につ
いて求める。
平均歪演算手段5は、バタンマツチング手段4において
求められたマツチング歪di(nl、n2)を用いて、
(1)式のように平均歪D(nl・n2)を求める。
これによシ求められた平均歪D (n 1 e n 2
 )を話者番号n1が付された標準話者と話者番号n2
が付された標準話者との話者間距離として、話者間距離
マトリクスメモリ6に記録する。とれを、l≦n1≦N
、1≦n2≦Nについて行う。
クラスタリング手段Tは、話者間距離マトリクスメモリ
6の話者間距離データD(nl、n2)(ただし、1≦
n1≦N、1≦n2≦N)を用い、標準話者の選択を以
下のように行う。
標準話者母集団に対し、任意のM人の標準話者を選択し
た時のクラスタリング歪Dqを(2)式のように定義す
る。
ここで、Smは選択され九標準話者に付された話者番号
である。
全ての標準話者選択の組み合わせに対してクラスタリン
グ歪Dqを求め、そのクラスタリ/り歪Dqf:#小化
するM人の標準話者を選択する。クラスタリング手段7
はこのようにして選択したM人の標準話者の話者番号を
出力端子8に出方する。
〔発明が解決しようとする課題〕
従来の標準話者選択装置は以上のように構成されている
ので、話者間距離が各標準話者の発声した同一カテゴリ
音声間のDP歪をもとに定義されることとなシ、話者に
よる音韻スペクトルの差も調音様態の差も含めて標準話
者選択が行われてしまい、このような標準話者選択装置
を、複数の標準話者を学習に用いる話者適応化認識シス
テムに、その学習効率向上のために採用した場合、この
話者適応化認識システムでは、話者による音韻スペクト
ルの差が適応化処理にて取ル除かれてしまい、話者によ
る調音様態の差のみに注目した話者選択が要求されるた
め、選択された話者が最適な標準話者とはならないとい
う課題があった。
この発明は上記のような課題を解消するためになされた
もので、このような話者適応化g鐵システムに適用して
も最適な標準話者の選択が可能な標準話者選択装置を得
ることを目的とする。
〔課題を解決するための手段〕
この発明に係る標準話者選択装置は、標準話者母集団に
属する任意の標準話者が発声した音声の特徴ベクトル時
系列を用いて、ベクトル量子化コードブックと辞書とで
構成されるベクトル量子化辞書を作成するベクトル量子
化辞書作成手段と、前記標準話者母集団に属する任意の
標準話者の音声の特徴ベクトル時系列を用いて、ベクト
ル量子化辞書作成手段によシ作成されたベクトル量子化
辞書のベクトル量子化コードブックの話者適応化を行う
コードブック適応化手段と、前記コードブック適応化手
段の出力である適応化コードブックデータを用いて適応
化コードブックの平均分散値を求め、話者間距離マトリ
クスメモリに書き込む平均分散値演算手段とを設けたも
のである。
〔作用〕
この発明における平均分散値演算手段は、ベクトル量子
化辞書作成手段が、特徴ベクトルメモリに記録されてい
る任意の標準話者が発声した全ての音声の特徴ベクトル
時系列を入力として作成し、ベクトル量子化辞書メモリ
上に記録したクラスタリングによるベクトル量子化コー
ドブックと、このベクトル量子化コードブックを用いた
前記標準話者音声の特徴ベクトル時系列のベクトル量子
化による辞書の2つを構成要素とするベクトル量子化辞
書の任意の標準話者のベクトル量子化辞書に対して、コ
ードブック適応化手段が、前記特徴ベクトルメモリ上の
任意の標準話者を適応対象話者としてその話者の音声の
特徴ベクトル時系列を用いた話者適応化処理を行った適
応化コードブックデータを用いて適応化コードブックの
平均分散値を求め、話者間距離として話者間距離メモリ
に書き込むことによシ、話者適応化認識システムに適用
しても最適な標準話者を選択することができる標準話者
選択装置を集塊する。
〔実施例〕
以下、この発明の一実施例を図について説明する。第1
図において、1は入力端子、2は音響分析手段、3は特
徴ベクトルメモリ、6は話者間距離マトリクスメモリ、
1はクラスタリング手段、8#′i出力端子であシ、第
2図に同一符号を付した従来のそれらと同一、あるいは
相当部分であるため詳細な説明は省略する。
また、9は前記特徴ベクトルメモリ3に保存されている
特徴ベクトル時系列を入力として、クラスタリングによ
るベクトル量子化コードブックの作成と、ベクトル量子
化による辞書の作成を行うベクトル量子化辞書作成手段
である。10はこのベクトル量子化辞書作成手段9にて
作成されたベクトル量子化コードブックと辞書を構成l
!素とするベクトル量子化辞書の保存を行うベクトル量
子化辞書メモリである。
11はこのベクトル量子化辞書メモリ10に記録されて
いる任意の標準話者のベクトル量子化辞書のベクトル量
子化コードブックに対して、前記特徴ベクトルメモリ3
に保存されている、適応対象話者る任意の標準話者の音
声の特徴ベクトル時系列を用いた話者適応化処理を施し
、その適応化コードブックデータを出力するコードブッ
ク適応化手段である。12はこのコードブック適応化手
段11よ多出力される適応化コードブックデータを用い
て適応化コードブックの平均分散値を計算し、算出され
た平均分散値を話者間距離として話者間距離マトリクス
メモリ6に書き込む平均分散値演算手段である。
次に動作について説明する。この場合も、従来の場合と
同様に、標準話者母集団の大きさはN人とする。
ベクトル量子化辞書作成手段9は特徴ベクトルメモリ3
に記録されている標準話者母集団の中のすべての話者の
音声の特徴ベクトル時系列を入力として次に示す一連の
処理を行う。
まず、話者番号n(ただし1≦n≦N)が付されている
標準話者が発声した音声に対応するすべての特徴ベクト
ルを対象としてクラスタリングを行い、各クラスタのセ
ントロイドをコードワードとするベクトル量子化コード
ブックを作成する。続いて、とのべり上ル量子化コード
ブックを用いて、話者番号nが付され九標準話者の音声
に対応する特徴ベクトル時系列をベクトル量子化し、コ
ードラベルの時系列で構成される辞書を作成する。最後
に、上記の処理によシ作成されたベクトル量子化コード
ブックと辞書とを構成要素とし、話者番号nが付され九
標準話者に対応するベクトル量子化辞書Rnを作成して
ベクトル量子化辞書メモリ10に書き込む。
この処理を標準話者母集団に含まれる全話者に対して行
うことで、ベクトル量子化辞書メモリ10の上にベクト
ル量子化辞書群Rn(nは1.、、N)が生成される。
コードブック適応化手段11は、特徴ベクトルメモリ3
に記録されている標準話者母集団の中のすべての話者の
音声の特徴ベクトル時系列と、ベクトル量子化辞書メモ
リ10に記録されている標準話者母集団の中の全ての話
者のベクトル量子化辞書を用いて以下のような処理を行
う。
まず、話者番号nl(ただし、1≦n1≦N)が付され
た標準話者に対応するベクトル量子化辞書Rnlにおい
て、コードラベル時系列(Li(t) l t = 1
、、、Ti )(Tiはラベル数)とベクトル量子化コ
ードブック(Cnl(j)Ij=1−、、J)(JFi
コードブックサイズ)により (Cn1(k)Ik=L
i(t)、 t=1.、、Ti)と表現されるカテゴl
Jiの音声の特徴ベクトル時系列と、話者番号n2(た
だし、1≦n2≦N)が付された標準話者のカテゴリi
の音声に対応する特徴ヘクトル時系列(V”1(s)I
s=1−、Si) (S i #i 系列数)とのDP
マ、チングを行うことで、ふたつの特徴ベクトル時系列
間の時間対応関係を求める。
これをすべてのカテゴリiに対し行り九後、コードワー
ドCn 1(j)との対応がとられたすべての話者番号
n2が付された標準話者の音声の特徴ベクトル(vl)
から、その特徴ベクトルの数NJ特徴ベクトルの各次元
要素の平均を求めて見られる平均特徴ベクトルXj””
3ゝ、各次元要素の2乗平均を求めて見られる2乗平均
ベクトルyj(ml−>ml)、の3つを構成要素とす
る適応化コードブックデータを出力する。
なお、このような話者適応化手法については、例えば日
本音響学会昭和58年度秋季研究発表会講演論文集1−
1−6“大語業音声認識における話者適応化法″(中高
、高橋;昭和58年10月)などで詳しく論じられてい
る。
以上の処理を1≦n1≦N%l≦n2≦Nについて行う
平均分散値演算手段12は、コードブック適応化手段1
1の出力であるところの適応化コードブックデータを用
いて、(3)式を計算する。
ここで、Jはコードブックサイズ、PFiQI徴ベクト
ルの次数、yjφ)は2乗平均特徴ベクトルyJ(ml
−)+a″)のp次元要素、x j (p) Fi平均
特黴ベク(1トンml) トルXj    OP次元要素である。
このようにして求められた平均分散値v(nl、n2)
を、話者番号n1が付された標準話者と話者番号n2が
付された標準話者との話者間距離として話者間距離マト
リクスメモリ6に書き込む。これをl≦nl≦N、1≦
難2≦Nについて行う。
以上述べたように、(3)式で得られる平均分散値v(
nl、n2)は、話者番号n1が付された標準話者のベ
クトル量子化辞書Rnlのベクトル量子化コードブック
において、同一のコードワードCn 1 (j)に対応
づけられた話者番号n2が付された標準話者音声の特徴
ベクトル(vl)から求めているため、話者番号n1が
付された話者と話者番号n2が付され九話者との調音様
態に差があれば、その特徴ベクトル(vllfi ) 
o分散が大きくなル、結果として平均分散値v(nl、
n2)の値も大きくなる。
クラスタリング手段7は、このような平均分散値v(n
l、n2)を話者間距離として生成された話者間距離マ
トリクスを用いてクラスタリングを行い、標準話者を選
択してその話者番号を出力端子8よ)出力する。従りて
、選択された標準話者は、調音*、mの違いにのみ注目
して選択されることとなシ、話者適応化認識システムに
対する学習対象話者として最適になっている。
なお、上記実施例では専用のノ・−ドウエアにて構成す
るものを示したが、汎用の計算機や信号処理プロセッサ
におけるソフトウェア処理によって実現するようにして
もよい。
〔発明の効果〕
以上のようにこの発明によれば、標準話者母集団に属す
る任意の標準話者が発声した音声の特徴ベクトル時系列
を用いて、ベクトル量子化コードブックと辞書とで構成
されるベクトル量子化辞書を作成し、標準話者母集団に
属する任意の標準話者の音声の特徴ベクトル時系列を用
いて、前記ベクトル量子化辞書のベクトル量子化コード
ブックの話者適応化を行い、その適応化コードブックデ
ータを用いて話者間距離としての適応化コードブックの
平均分散値を求めるように構成し九ので、標準話者によ
る調音様態の差を話者間距離とする話者間距離マトリク
スが生成でき、話者適応化認識を考慮した標準話者選択
が行えるようになシ、その結果、複数の標準話者を学習
対象とした話者適応化認識システムにおいて学習の効率
化が実現できる標準話者選択装置が得られる効果がある
【図面の簡単な説明】
第1図はこの発明の一実施例による標準話者選択装置t
−示すプロ、り図、第2図は従来の標準話者選択装置を
示すブロック図である。 2は音響分析手段、3は特徴ベクトルメモリ、6は話者
間距離マトリクスメモリ、7はクラスタリング手段、9
IriIr上ル量子化辞書作成手段、10はベクトル量
子化辞書メモリ、11はコードブック適応化手段、12
は平均分散値演算手段。 なお、図中、同一符号は同一、又は相当部分を示す。 特許出願人  三菱電機株式会社

Claims (1)

    【特許請求の範囲】
  1.  標準話者母集団に属している標準話者の一人が発生し
    た音声を分析して、特徴ベクトル時系列に変換する音響
    分析手段と、前記音響分析手段よ、出力される前記特徴
    ベクトル時系列を保存する特徴ベクトルメモリと、前記
    特徴ベクトルメモリに保存されている特徴ベクトル時系
    列を用いてベクトル量子化コードブックを作成し、さら
    にコードラベル列で登録音声を表す辞書の作成を行うベ
    クトル量子化辞書作成手段と、前記ベクトル量子化辞書
    作成手段にて作成されたベクトル量子化辞書を保存する
    ベクトル量子化辞書メモリと、前記特徴ベクトルメモリ
    に保存されている特徴ベクトル時系列を用いて、前記ベ
    クトル量子化辞書メモリに保存されているベクトル量子
    化辞書のベクトル量子化コードブックの話者適応化を行
    うコードブック適応化手段と、前記コードブック適応化
    手段より出力される適応化コードブックデータを用いて
    適応化コードブックの平均分散値を計算する平均分散値
    演算手段と、前記平均分散値演算手段にて算出された平
    均分散値を話者間距離として記憶する話者間距離マトリ
    クスメモリと、前記話者間距離マトリクスメモリに保存
    されている話者間距離のマトリクスデータを用いてクラ
    スタリングを行い、各クラスタのセントロイドに対応す
    る話者番号を出力するクラスタリング手段とを備えた標
    準話者選択装置。
JP2126110A 1990-05-16 1990-05-16 標準話者選択装置 Expired - Fee Related JP2561553B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2126110A JP2561553B2 (ja) 1990-05-16 1990-05-16 標準話者選択装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2126110A JP2561553B2 (ja) 1990-05-16 1990-05-16 標準話者選択装置

Publications (2)

Publication Number Publication Date
JPH0420999A true JPH0420999A (ja) 1992-01-24
JP2561553B2 JP2561553B2 (ja) 1996-12-11

Family

ID=14926874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2126110A Expired - Fee Related JP2561553B2 (ja) 1990-05-16 1990-05-16 標準話者選択装置

Country Status (1)

Country Link
JP (1) JP2561553B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009122780A1 (ja) * 2008-03-31 2009-10-08 日本電気株式会社 適応話者選択装置および適応話者選択方法並びに記録媒体
CN106469192A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009122780A1 (ja) * 2008-03-31 2009-10-08 日本電気株式会社 適応話者選択装置および適応話者選択方法並びに記録媒体
CN106469192A (zh) * 2016-08-30 2017-03-01 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置

Also Published As

Publication number Publication date
JP2561553B2 (ja) 1996-12-11

Similar Documents

Publication Publication Date Title
CN111837178B (zh) 语音处理***和处理语音信号的方法
WO2020118521A1 (en) Multi-speaker neural text-to-speech synthesis
Ellis et al. Tandem acoustic modeling in large-vocabulary recognition
EP3504703A1 (en) A speech recognition method and apparatus
CN1591567A (zh) 开放式词汇表语音识别
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JPH01291298A (ja) 適応型音声認識装置
WO2002091355A1 (en) High-order entropy error functions for neural classifiers
US6131089A (en) Pattern classifier with training system and methods of operation therefor
JP7329393B2 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
US5864807A (en) Method and apparatus for training a speaker recognition system
JP3014177B2 (ja) 話者適応音声認識装置
Jensen et al. Self-organizing letter code-book for text-to-phoneme neural network model
JPH0420999A (ja) 標準話者選択装置
Liao et al. Personalized Taiwanese speech synthesis using cascaded ASR and TTS framework
JPH0486899A (ja) 標準パターン適応化方式
JP2021189402A (ja) 音声処理プログラム、音声処理装置及び音声処理方法
JP3008520B2 (ja) 標準パタン作成装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
Hu et al. The USTC system for blizzard machine learning challenge 2017-ES2
JP3526549B2 (ja) 音声認識装置、方法及び記録媒体
JPH071434B2 (ja) 標準パタン作成方式
JPH1097270A (ja) 音声認識装置
JPH01211799A (ja) 多言語を扱う音声の規則合成装置
JP2545960B2 (ja) 適応型音声認識用学習方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees