JP3110025B2 - 発声変形検出装置 - Google Patents

発声変形検出装置

Info

Publication number
JP3110025B2
JP3110025B2 JP01195154A JP19515489A JP3110025B2 JP 3110025 B2 JP3110025 B2 JP 3110025B2 JP 01195154 A JP01195154 A JP 01195154A JP 19515489 A JP19515489 A JP 19515489A JP 3110025 B2 JP3110025 B2 JP 3110025B2
Authority
JP
Japan
Prior art keywords
phoneme
information
utterance
utterance deformation
deformed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP01195154A
Other languages
English (en)
Other versions
JPH0358099A (ja
Inventor
真二 古賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP01195154A priority Critical patent/JP3110025B2/ja
Publication of JPH0358099A publication Critical patent/JPH0358099A/ja
Application granted granted Critical
Publication of JP3110025B2 publication Critical patent/JP3110025B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は発声された音声内に生じている発声変形を高
性能で自動的に検出する発声変形検出装置に関するもの
である。
(従来の技術) 従来、未知音声を認識する方法では、あらかじめ発声
した音声データから作成した複数の標準モデル、即ち、
標準パターンと未知音声から求めた音声パターンとの類
似度を求め、最大の類似度を与える標準モデルのカテゴ
リを認識結果とする方法が一般的である。したがって、
標準パターンを作成するための音声データは、当然その
発声内容が既知でなければならず、このことは、認識単
位として音素など単語より小さい単位を用いたとき、よ
り厳密なものとなる。
一方、同じ単語を発声した場合でも、単語の種類によ
っては、無声化や長母音化等の発声変形が生じる場合が
ある。例えば、「拍手」/hakusyu/の2つの単音素/u/は
無声化して発声されることがあり、「映画」/eiga/の/e
i/は/ee/と長母音化して発声されることがある。その結
果、音素単位で比べた場合、単語名からは同じ音素であ
るが、音声パターンが異なるというものがでてくる。な
お、以下、「音素」とは、音韻論的な意味での音声の最
小基本単位という意味だけではなく、音節や複数の音素
の連結をも含む、もっと広い範囲の音声の単位を意味す
る。発声変形の検出方法として、例えば、武田、勾坂、
片桐らの、日本音響学会昭和62年度春季研究発表会講演
論文集Iのページ69−70に掲載の論文「音声データベー
ス構築のための音韻ラベリング」(以下、文献1と称
す)で述べられているような視察による方法が挙げられ
る。ここでは、音声データのスペクトログラム、波形等
をもとに、その音声の音韻ラベルづけを行っており、そ
の際に発声変形の検出を行っている。
(発明が解決しようとする課題) 上述の従来技術として説明したような発声変形の検出
を文献1で述べられているような視察で行う場合、音声
データの数が膨大になると、大変な作業となってしま
う。また、検出結果が検出作業を行った者により異なっ
てしまう可能性もあるという問題があった。
本発明の目的は、以上のような欠点を除き、発声され
た音声内に生じている発声変形を高性能で自動的に検出
する装置を提供することにある。
(課題を解決するための手段) 前述の課題を解決するために本発明による発声変形検
出装置は、音声信号を分析して特徴ベクトル時系列を出
力する特徴分析部と、前記音声信号の発声変形する可能
性がある音素の音素名と予め記憶された発声変形パター
ンの中から想定される発声変形パターンを複数抽出して
発声変形情報として出力する発声変形情報検出部と、音
素を単位とした標準モデルをあらかじめ蓄えておく標準
モデル記憶部と、前記特徴ベクトル時系列と前記発声変
形情報と前記標準モデル記憶部に蓄えられた標準モデル
に基づいて前記発声変形する可能性がある音素の音素名
と発声変形する可能性がある音素の位置情報を抽出し変
形音素情報として出力する変形音素抽出部と、前記変形
音素情報を蓄えておく変形音素情報記憶部と、前記特徴
ベクトル時系列と前記変形音素情報記憶部に蓄えられた
変形音素情報と前記標準モデル記憶部に蓄えられた標準
モデルに基づいて、前記発声変形情報検出部において抽
出された複数の発声変形パターンのうちいずれの発声変
形が発生したかを判定する発声変形検出部とを有する。
(作用) 以下、本発明による発声変形検出装置の作用について
説明する。
本発明は、発声された入力音声に対して、発声変形す
る可能性がある音素(以下、変形可能音素と呼ぶ)に対
する音声区間を切り出し、その音素に対する標準モデル
とその区間の音声パターンから入力音声の発声の発声変
形の有無を自動的に検出するものである。
入力音声の発声変形を検出するには、まず、その発声
内容に対して発生する可能性がある発生変形パターンを
求めなければならない。多くの発声変形、特に異音によ
る発声変形は、前後の音素のコンテキストにより変形の
生じ易さをルール化することができる。「無声子音、語
尾に挟まれた母音/i/,/u/は無声化し易い」「二重母音/
ei/,/ou/は、それぞれ/ee/,/oo/に長母音化し易い」等
がその例として挙げられる。そして、これらのルールに
より作成されたパターンやそれ以外の経験的に発声変形
することがわかっているパターンを、発声変形パターン
とする。
変形可能要素の入力音声中での位置を求めるには、例
えば、入力音声の発声内容に対応した複数個の発声変形
パターンをもとに音素を単位とした標準モデル(以下、
音素モデルと呼ぶ)を連結させて、それぞれのパターン
に対するモデル(以下、変形モデルと呼ぶ)を作成する
(例えば、「映画」という発声内容に対応する変形モデ
ルは、/eiga/,/eega/の2つである)。音素モデルとし
て、例えば、S.E.Levinson、L.R.Rabiner、およびM.M.S
ondhiらの、The Bell System Technical Journal、Vol.
62、No.4、1983年4月のページ1035−1074に掲載の論文
“An Introduction to the Application of the Theory
of Probabilistic Functions of Markov Process to A
utomatic Speech Recognition"(以下、文献2と称す)
に述べられているような隠れマルコフモデル(以下、HM
Mと呼ぶ)を用いることができる。HMMは、状態遷移ネッ
トワークの一種で、各状態には状態遷移確率とベクトル
出現確率とが定義されている。そして、HMMのパラメー
タは、学習用音声を用いて、文献2に述べられているよ
うなフォワード・バックワード(forward−backward)
アルゴリズムによって推定される。
変形モデルを作成した後、入力音声から求めた特徴ベ
クトル時系列を用いて、変形可能音素の位置を各モデル
毎に求める(「映画」の場合、/ei/と/ee/の位置を求め
ることになる)。ここで、特徴ベクトル時系列の求め方
として、例えば、古井著、1985年、東海大学出版会発行
の「デジタル音声処理」(以下、文献3と称す)のペー
ジ154−160に述べられているメルケプストラムによる方
法やLPC分析法などを用いることができる。
また、ある変形モデルに対する変形可能音素の位置
は、例えば、文献2で述べられているビタービ(Viterb
i)アルゴリズムを用いて、モデル内での最適な状態遷
移パスを求め、そのパス上での変形可能音素に対する音
素モデル(以下、変形可能音素モデルと呼ぶ)のパスに
対応する入力音声中の区間として求められる。
発声変形の有無は、例えば、各変形可能音素モデル
(「映画」の場合、/ei/および/ee/に対する音素モデ
ル)に対してフォワード・バックワードアルゴリズムま
たはビタービアルゴリズムにより、それぞれのモデルに
対して先に求められた音声区間の音声パターンの出現確
率を求め、確率が最も高いモデルをその区間の音素とし
て判定することができる。
(実施例) 次に本発明による発声変形検出装置の実施例について
図面を参照して説明する。
第1図は本発明の一実施例を示す構成図である。
標準モデル記憶部3の中には、文献2で述べられてい
るようなHMMを用いた音素モデルMが保持されている。
これらは、文献2で述べられているフォワード・バック
ワードアルゴリズムにより、多量の音声データから作成
できる。
入力された音声信号Sは、特徴分析部1および発声変
形情報検出部2へ入力される。
特徴分析部1では、文献3で述べられているようなメ
ルケプストラムによる方法を用いて、音声信号Sが特徴
ベクトル時系列Vに変換される。
発声変形情報検出部2では、音声信号Sの発声内容に
対して発生する可能性がある発声変形パターがルールに
従って求められ、発声内容中での変形可能音素名ととも
に発声変形情報Pとして出力される。
発声変形パターンは、この方法以外に、入力されるす
べての音声の発声変形パターンをすべて網羅したメモリ
をあらかじめ用意しておき、そのメモリから必要なパタ
ーンを抽出することによっても求められる。
変形音素抽出部4では、特徴ベクトル時系列V、発声
変形情報Pおよび標準モデル記憶部3に保持されている
音素モデルMを受け、発声変形パターン毎に、音素モデ
ルMが連結されて変形モデルが作成され、文献2で述べ
られているビタービアルゴリズムを用いて特徴ベクトル
時系列Vに対する最適な状態遷移パスが求められ、その
パス上で変形可能音素モデルが占有するパスに対応する
特徴ベクトル時系列V中の区間の始端と終端が変形可能
音素の位置情報として求められ、変形可能音素名ととも
に、変形音素情報Iとして出力される。
この変形音素情報Iは、変形音素情報記憶部5に蓄え
られる。
発声変形検出部6では、変形音素情報記憶部5に蓄え
られた変形音素情報I′、入力音声信号の特徴ベクトル
時系列V、音素モデルMを受け、変形音素情報I′内の
変形可能音素名に対応する音素モデル毎に、それぞれの
モデルに対する変形音素情報I′内の変形可能音素の位
置情報をもとに切り出された特徴ベクトル時系列Vの部
分系列の出現確率が、フォワード・バックワードアルゴ
リズムにより求められ、確率が最も高いモデルがその区
間の音素と判定され、音素名Rが検出結果として出力さ
れる。
(発明の効果) 以上説明したように、本発明は入力音声に対して発声
変形する可能性がある音素に対する音声区間を切り出
し、その音素に対する標準モデルとその区間の音声パタ
ーンから入力音声の発声変形の有無を自動的に検出する
ので、検出者の作業を軽減した高性能な発声変形検出装
置を実現することができる。
【図面の簡単な説明】
第1図は本発明による一実施例を示す構成図である。 1……特徴分析部、2……発声変形情報検出部、 3……標準モデル記憶部、4……変形音素抽出部、 5……変形音素情報記憶部、6……発声変形検出部。
フロントページの続き (56)参考文献 特開 昭63−5395(JP,A) 特開 昭63−205699(JP,A) 特開 平1−126694(JP,A) The Bell System T echical Journal Vo l.62,No.4,April 1983, P.1035−1074

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】音声信号を分析して特徴ベクトル時系列を
    出力する特徴分析部と、前記音声信号の発声変形する可
    能性がある音素の音素名と予め記憶された発声変形パタ
    ーンの中から想定される発声変形パターンを複数抽出し
    て発声変形情報として出力する発声変形情報検出部と、
    音素を単位とした標準モデルをあらかじめ蓄えておく標
    準モデル記憶部と、前記特徴ベクトル時系列と前記発声
    変形情報と前記標準モデル記憶部に蓄えられた標準モデ
    ルに基づいて前記発声変形する可能性がある音素の音素
    名と発声変形する可能性がある音素の位置情報を抽出し
    変形音素情報として出力する変形音素抽出部と、前記変
    形音素情報を蓄えておく変形音素情報記憶部と、前記特
    徴ベクトル時系列と前記変形音素情報記憶部に蓄えられ
    た変形音素情報と前記標準モデル記憶部に蓄えられた標
    準モデルに基づいて、前記発声変形情報検出部において
    抽出された複数の発声変形パターンのうちいずれの発声
    変形が発生したかを判定する発声変形検出部とを有する
    ことを特徴とする発声変形検出装置。
JP01195154A 1989-07-27 1989-07-27 発声変形検出装置 Expired - Lifetime JP3110025B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01195154A JP3110025B2 (ja) 1989-07-27 1989-07-27 発声変形検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01195154A JP3110025B2 (ja) 1989-07-27 1989-07-27 発声変形検出装置

Publications (2)

Publication Number Publication Date
JPH0358099A JPH0358099A (ja) 1991-03-13
JP3110025B2 true JP3110025B2 (ja) 2000-11-20

Family

ID=16336331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01195154A Expired - Lifetime JP3110025B2 (ja) 1989-07-27 1989-07-27 発声変形検出装置

Country Status (1)

Country Link
JP (1) JP3110025B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4550207B2 (ja) * 2000-02-29 2010-09-22 クラリオン株式会社 音声認識装置および音声認識ナビゲーション装置
JP6622681B2 (ja) * 2016-11-02 2019-12-18 日本電信電話株式会社 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
The Bell System Techical Journal Vol.62,No.4,April 1983,P.1035−1074

Also Published As

Publication number Publication date
JPH0358099A (ja) 1991-03-13

Similar Documents

Publication Publication Date Title
US5333275A (en) System and method for time aligning speech
Zissman et al. Automatic language identification
US6553342B1 (en) Tone based speech recognition
WO2020029404A1 (zh) 语音处理方法及装置、计算机装置及可读存储介质
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JPH09500223A (ja) 多言語音声認識システム
JPWO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
Hirose et al. Detection of prosodic word boundaries by statistical modeling of mora transitions of fundamental frequency contours and its use for continuous speech recognition
JP2745562B2 (ja) ノイズ適応形音声認識装置
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JPS6138479B2 (ja)
JP3110025B2 (ja) 発声変形検出装置
Cettolo et al. Automatic detection of semantic boundaries based on acoustic and lexical knowledge.
JP2813209B2 (ja) 大語彙音声認識装置
JP3277579B2 (ja) 音声認識方法および装置
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
JP4236502B2 (ja) 音声認識装置
Huckvale 14 An Introduction to Phonetic Technology
Hirose et al. Continuous speech recognition of Japanese using prosodic word boundaries detected by mora transition modeling of fundamental frequency contours
JP3277522B2 (ja) 音声認識方法
JP2760096B2 (ja) 音声認識方式
JP3457578B2 (ja) 音声合成を用いた音声認識装置および音声認識方法
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090914

Year of fee payment: 9

EXPY Cancellation because of completion of term