JP3110025B2

JP3110025B2 - 発声変形検出装置

Info

Publication number: JP3110025B2
Application number: JP01195154A
Authority: JP
Inventors: 真二古賀
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1989-07-27
Filing date: 1989-07-27
Publication date: 2000-11-20
Anticipated expiration: 2015-11-20
Also published as: JPH0358099A

Description

【発明の詳細な説明】（産業上の利用分野）本発明は発声された音声内に生じている発声変形を高
性能で自動的に検出する発声変形検出装置に関するもの
である。

（従来の技術）従来、未知音声を認識する方法では、あらかじめ発声
した音声データから作成した複数の標準モデル、即ち、
標準パターンと未知音声から求めた音声パターンとの類
似度を求め、最大の類似度を与える標準モデルのカテゴ
リを認識結果とする方法が一般的である。したがって、
標準パターンを作成するための音声データは、当然その
発声内容が既知でなければならず、このことは、認識単
位として音素など単語より小さい単位を用いたとき、よ
り厳密なものとなる。

一方、同じ単語を発声した場合でも、単語の種類によ
っては、無声化や長母音化等の発声変形が生じる場合が
ある。例えば、「拍手」/hakusyu/の２つの単音素/u/は
無声化して発声されることがあり、「映画」/eiga/の/e
i/は/ee/と長母音化して発声されることがある。その結
果、音素単位で比べた場合、単語名からは同じ音素であ
るが、音声パターンが異なるというものがでてくる。な
お、以下、「音素」とは、音韻論的な意味での音声の最
小基本単位という意味だけではなく、音節や複数の音素
の連結をも含む、もっと広い範囲の音声の単位を意味す
る。発声変形の検出方法として、例えば、武田、勾坂、
片桐らの、日本音響学会昭和62年度春季研究発表会講演
論文集Ｉのページ69−70に掲載の論文「音声データベー
ス構築のための音韻ラベリング」（以下、文献１と称
す）で述べられているような視察による方法が挙げられ
る。ここでは、音声データのスペクトログラム、波形等
をもとに、その音声の音韻ラベルづけを行っており、そ
の際に発声変形の検出を行っている。

（発明が解決しようとする課題）上述の従来技術として説明したような発声変形の検出
を文献１で述べられているような視察で行う場合、音声
データの数が膨大になると、大変な作業となってしま
う。また、検出結果が検出作業を行った者により異なっ
てしまう可能性もあるという問題があった。

本発明の目的は、以上のような欠点を除き、発声され
た音声内に生じている発声変形を高性能で自動的に検出
する装置を提供することにある。

（課題を解決するための手段）前述の課題を解決するために本発明による発声変形検
出装置は、音声信号を分析して特徴ベクトル時系列を出
力する特徴分析部と、前記音声信号の発声変形する可能
性がある音素の音素名と予め記憶された発声変形パター
ンの中から想定される発声変形パターンを複数抽出して
発声変形情報として出力する発声変形情報検出部と、音
素を単位とした標準モデルをあらかじめ蓄えておく標準
モデル記憶部と、前記特徴ベクトル時系列と前記発声変
形情報と前記標準モデル記憶部に蓄えられた標準モデル
に基づいて前記発声変形する可能性がある音素の音素名
と発声変形する可能性がある音素の位置情報を抽出し変
形音素情報として出力する変形音素抽出部と、前記変形
音素情報を蓄えておく変形音素情報記憶部と、前記特徴
ベクトル時系列と前記変形音素情報記憶部に蓄えられた
変形音素情報と前記標準モデル記憶部に蓄えられた標準
モデルに基づいて、前記発声変形情報検出部において抽
出された複数の発声変形パターンのうちいずれの発声変
形が発生したかを判定する発声変形検出部とを有する。

（作用）以下、本発明による発声変形検出装置の作用について
説明する。

本発明は、発声された入力音声に対して、発声変形す
る可能性がある音素（以下、変形可能音素と呼ぶ）に対
する音声区間を切り出し、その音素に対する標準モデル
とその区間の音声パターンから入力音声の発声の発声変
形の有無を自動的に検出するものである。

入力音声の発声変形を検出するには、まず、その発声
内容に対して発生する可能性がある発生変形パターンを
求めなければならない。多くの発声変形、特に異音によ
る発声変形は、前後の音素のコンテキストにより変形の
生じ易さをルール化することができる。「無声子音、語
尾に挟まれた母音/i/,/u/は無声化し易い」「二重母音/
ei/,/ou/は、それぞれ/ee/,/oo/に長母音化し易い」等
がその例として挙げられる。そして、これらのルールに
より作成されたパターンやそれ以外の経験的に発声変形
することがわかっているパターンを、発声変形パターン
とする。

変形可能要素の入力音声中での位置を求めるには、例
えば、入力音声の発声内容に対応した複数個の発声変形
パターンをもとに音素を単位とした標準モデル（以下、
音素モデルと呼ぶ）を連結させて、それぞれのパターン
に対するモデル（以下、変形モデルと呼ぶ）を作成する
（例えば、「映画」という発声内容に対応する変形モデ
ルは、/eiga/,/eega/の２つである）。音素モデルとし
て、例えば、S.E.Levinson、L.R.Rabiner、およびM.M.S
ondhiらの、The Bell System Technical Journal、Vol.
62、No.4、1983年４月のページ1035−1074に掲載の論文
“An Introduction to the Application of the Theory
of Probabilistic Functions of Markov Process to A
utomatic Speech Recognition"（以下、文献２と称す）
に述べられているような隠れマルコフモデル（以下、HM
Mと呼ぶ）を用いることができる。HMMは、状態遷移ネッ
トワークの一種で、各状態には状態遷移確率とベクトル
出現確率とが定義されている。そして、HMMのパラメー
タは、学習用音声を用いて、文献２に述べられているよ
うなフォワード・バックワード（forward−backward）
アルゴリズムによって推定される。

変形モデルを作成した後、入力音声から求めた特徴ベ
クトル時系列を用いて、変形可能音素の位置を各モデル
毎に求める（「映画」の場合、/ei/と/ee/の位置を求め
ることになる）。ここで、特徴ベクトル時系列の求め方
として、例えば、古井著、1985年、東海大学出版会発行
の「デジタル音声処理」（以下、文献３と称す）のペー
ジ154−160に述べられているメルケプストラムによる方
法やLPC分析法などを用いることができる。

また、ある変形モデルに対する変形可能音素の位置
は、例えば、文献２で述べられているビタービ（Viterb
i）アルゴリズムを用いて、モデル内での最適な状態遷
移パスを求め、そのパス上での変形可能音素に対する音
素モデル（以下、変形可能音素モデルと呼ぶ）のパスに
対応する入力音声中の区間として求められる。

発声変形の有無は、例えば、各変形可能音素モデル
（「映画」の場合、/ei/および/ee/に対する音素モデ
ル）に対してフォワード・バックワードアルゴリズムま
たはビタービアルゴリズムにより、それぞれのモデルに
対して先に求められた音声区間の音声パターンの出現確
率を求め、確率が最も高いモデルをその区間の音素とし
て判定することができる。

（実施例）次に本発明による発声変形検出装置の実施例について
図面を参照して説明する。

第１図は本発明の一実施例を示す構成図である。

標準モデル記憶部３の中には、文献２で述べられてい
るようなHMMを用いた音素モデルＭが保持されている。
これらは、文献２で述べられているフォワード・バック
ワードアルゴリズムにより、多量の音声データから作成
できる。

入力された音声信号Ｓは、特徴分析部１および発声変
形情報検出部２へ入力される。

特徴分析部１では、文献３で述べられているようなメ
ルケプストラムによる方法を用いて、音声信号Ｓが特徴
ベクトル時系列Ｖに変換される。

発声変形情報検出部２では、音声信号Ｓの発声内容に
対して発生する可能性がある発声変形パターがルールに
従って求められ、発声内容中での変形可能音素名ととも
に発声変形情報Ｐとして出力される。

発声変形パターンは、この方法以外に、入力されるす
べての音声の発声変形パターンをすべて網羅したメモリ
をあらかじめ用意しておき、そのメモリから必要なパタ
ーンを抽出することによっても求められる。

変形音素抽出部４では、特徴ベクトル時系列Ｖ、発声
変形情報Ｐおよび標準モデル記憶部３に保持されている
音素モデルＭを受け、発声変形パターン毎に、音素モデ
ルＭが連結されて変形モデルが作成され、文献２で述べ
られているビタービアルゴリズムを用いて特徴ベクトル
時系列Ｖに対する最適な状態遷移パスが求められ、その
パス上で変形可能音素モデルが占有するパスに対応する
特徴ベクトル時系列Ｖ中の区間の始端と終端が変形可能
音素の位置情報として求められ、変形可能音素名ととも
に、変形音素情報Ｉとして出力される。

この変形音素情報Ｉは、変形音素情報記憶部５に蓄え
られる。

発声変形検出部６では、変形音素情報記憶部５に蓄え
られた変形音素情報Ｉ′、入力音声信号の特徴ベクトル
時系列Ｖ、音素モデルＭを受け、変形音素情報Ｉ′内の
変形可能音素名に対応する音素モデル毎に、それぞれの
モデルに対する変形音素情報Ｉ′内の変形可能音素の位
置情報をもとに切り出された特徴ベクトル時系列Ｖの部
分系列の出現確率が、フォワード・バックワードアルゴ
リズムにより求められ、確率が最も高いモデルがその区
間の音素と判定され、音素名Ｒが検出結果として出力さ
れる。

（発明の効果）以上説明したように、本発明は入力音声に対して発声
変形する可能性がある音素に対する音声区間を切り出
し、その音素に対する標準モデルとその区間の音声パタ
ーンから入力音声の発声変形の有無を自動的に検出する
ので、検出者の作業を軽減した高性能な発声変形検出装
置を実現することができる。

【図面の簡単な説明】

第１図は本発明による一実施例を示す構成図である。１……特徴分析部、２……発声変形情報検出部、３……標準モデル記憶部、４……変形音素抽出部、５……変形音素情報記憶部、６……発声変形検出部。

フロントページの続き (56)参考文献特開昭63−5395（ＪＰ，Ａ) 特開昭63−205699（ＪＰ，Ａ) 特開平１−126694（ＪＰ，Ａ) ＴｈｅＢｅｌｌＳｙｓｔｅｍＴｅｃｈｉｃａｌＪｏｕｒｎａｌＶｏｌ．62，Ｎｏ．４，Ａｐｒｉｌ 1983, Ｐ．1035−1074

Claims

(57)【特許請求の範囲】

【請求項１】音声信号を分析して特徴ベクトル時系列を
出力する特徴分析部と、前記音声信号の発声変形する可
能性がある音素の音素名と予め記憶された発声変形パタ
ーンの中から想定される発声変形パターンを複数抽出し
て発声変形情報として出力する発声変形情報検出部と、
音素を単位とした標準モデルをあらかじめ蓄えておく標
準モデル記憶部と、前記特徴ベクトル時系列と前記発声
変形情報と前記標準モデル記憶部に蓄えられた標準モデ
ルに基づいて前記発声変形する可能性がある音素の音素
名と発声変形する可能性がある音素の位置情報を抽出し
変形音素情報として出力する変形音素抽出部と、前記変
形音素情報を蓄えておく変形音素情報記憶部と、前記特
徴ベクトル時系列と前記変形音素情報記憶部に蓄えられ
た変形音素情報と前記標準モデル記憶部に蓄えられた標
準モデルに基づいて、前記発声変形情報検出部において
抽出された複数の発声変形パターンのうちいずれの発声
変形が発生したかを判定する発声変形検出部とを有する
ことを特徴とする発声変形検出装置。