JPS63236098A - ラベリングシステム - Google Patents

ラベリングシステム

Info

Publication number
JPS63236098A
JPS63236098A JP62070924A JP7092487A JPS63236098A JP S63236098 A JPS63236098 A JP S63236098A JP 62070924 A JP62070924 A JP 62070924A JP 7092487 A JP7092487 A JP 7092487A JP S63236098 A JPS63236098 A JP S63236098A
Authority
JP
Japan
Prior art keywords
labeling
phoneme
section
phonemes
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62070924A
Other languages
English (en)
Inventor
康弘 小森
哲夫 小坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP62070924A priority Critical patent/JPS63236098A/ja
Publication of JPS63236098A publication Critical patent/JPS63236098A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 不特定話者・大語量を対象とした連続音声認識の研究及
び認識装置の開発には、音声データベースの構築が必要
であり、その構築には、ラベリングシステムが必要とな
る。本発明はそのラベリングシステムに関するものであ
る。
〔従来の技術〕
従来からの特定話者認識や限定単語認識装置の作成には
、大量データを扱う音声データベースの必要性が無かっ
た。このため、音声データのラベリングは音声の専門的
な知識のある者により、時間をかけて含入りに手動にて
行われていた。このラベリングに使用されるラベルには
、従来、音声における言語的な最小単位である音素を用
いるものが多い。
〔発明が解決しようとしている問題点〕ところで、不特
定話者・大語案を対象とした連続音声認識の研究及び認
識装置の開発は、近年、急激に盛んになってきたもので
ある。
しかし、前述した様にラベリングを手作業で行った場合
、以下に示す二つの大きな問題がある。
1)作業時間の問題 不特定話者用に信頼度の高い標準パタンを作成し、高精
度の音声認識を実現するためには、大量の音声データと
ラベルデータを有する音声データベースが必要である。
従来は、音声のラベリングは音声の専門的な知識のある
者により、時間をかけて含入りに行われていたが、不特
定話者認識用の大量の音声データのラベリングは、手動
によるラベリングでは実際問題として非現実的である。
2)人手により生ずる問題 ラベリングを行う人の音声に対する専門的な知識の量に
よりラベリング精度が左右される。同一個人でも時間の
経過とともにラベリングの基準点が異ってくる。明らか
な人為的なミスが生ずる。
又、前述した様に、現在のところ一般的に、ラベルとし
ては音素が用いられている。しかし、音素は音声におけ
る言語的な最小単位であるため音響的特徴を充分に表わ
すことが出来ない。このため音素を単位とした標準パタ
ーンにより音声認識を行っても充分に高い認識率は期待
できない、という欠点があった。
〔問題点を解決するための手段(及び作用)〕以上の点
に鑑みて、本発明ではラベリングシステムに自動ラベリ
ング部を導入した。ラベリングを自動化することで、作
業時間短縮・人手による手間・曖昧性などの問題を解決
する。
又、音素より更に細かい単位のラベルである音響境界ラ
ベルを用いることにより音響的特徴を音素ラベルより更
によく表わすことが出来るようにした。ある音素内でも
幾つかのスペクトルパターンに時間的に分けられたり、
同じ音素でも音韻環境により全(異なったスペクトルパ
ターンを持つ。
ここにおける音響的特徴とは音韻を考慮したパワーやス
ペクトルの変化等により決定する特徴である。
〔作用〕
これにより音素を単位とした標準パターンによる音声認
識を行うより、音素より更に細か(音響的特徴を更によ
く表わすことができる音響境界ラベルという単位を設定
し、その単位とした標準パターンによる音声認識を行う
方が高い認識率が期待できる。
〔実施例〕
以下、図面を参照し、本願発明について詳細に説明する
。まず自動ラベリングについて説明する。
〔自動ラベリング〕
自動ラベリング手法について述べる。本手法には、 ■任意の文節・単語・単音節のラベリングが可能。
■不特定話者のラベリングが可能。
■音素より更に細かい単位である音響境界ラベル(Ac
oustic Boundary Label、 AB
L)によるラベリングが可能。
などの特徴を有する。
ラベリングの特徴として、一般に不特定話者を対象とす
るが話者はランダムに入れ換わるということはデータベ
ースの性質からして普通はありえない。つまり、同じ話
者の発生がしばらく続(わけである。このため話者が変
わるごとに、標準パターンを入れ換えたり、話者の音声
を学習することにより話者への適応などの方法により、
不特定話者への対応が可能となってくる。標準パターン
を入れ換える方法とか同じ学習でも教師付き学習の場合
は、やはりあらかじめラベリングデータが必要なので初
めての話者には対応しに(い。これに対し、教師なし学
習ではその必要がない。本アルゴリズムではこの教師な
し学習による話者への適応化と統計的な手法の利用によ
り不特定話者に対応している。また、現在行われている
ラベリングは、はとんど音素によるラベリングであるが
、ここでは認識率向上を考えて、音素より、細かい単位
であるABLによってラベリングを行う。ラベリング手
法の特徴としては、始めからABLによってラベリング
をしてしまうわけではな(、一旦音素によりラベリング
を行った後に、その音素によるラベリング情報を基にし
て、ABLによるラベリングを行う2段階方式を用いて
いる。以下、ABLの基準点・音素のラベリング、AB
Lのラベリングの手段の順に説明する。
〔音響境界ラベル(ABL)の基準点〕現在のところ、
一般にラベルとしては、音素が用いられている。しかし
、音素では音声中の音響的特徴を正確に表現しきれない
。なぜならば、音素とは文章・文・文節・単語・音節・
音素とくる言語学的な最小単位であって、直接音響的な
特徴と結びつくものではない。例えば、同じ「ざ」打音
の音素/Z/でも、バズ(buzz ;のどのうなり)
部が見られるものと、見られないものが存在する(第3
図参照)。これらのものをひとまとめにして音素として
扱っているので、標準パターンを設計する際サンプルの
分散が大きく、これが誤認識につながることが多かった
。また、音素ラベルのサンプルの分散が大きくなる他の
原因としては、音響的な環境を表わせないことも挙げら
れる。
これは、例えば同じ/に/の音でも、後続母音の違うも
のではそのスペクトルは一般に異なったものとなる。ラ
ベルとしては、このような環境の違いも表わせるものが
望ましい。このように、細かい単位による認識を目指し
、音素より細かいラベルによってラベリングすることに
した。
ラベルに用いられる記号は参考表1に示す通りである。
この記号を2種類組み合せることにより、各ラベルを表
現する。このラベルを音響境界ラベル(ABL)と呼ぶ
ことにする。ラベルの種類は、約300 it類である
。このラベルの基準点の詳細を参考表2に示す。
実際にこのラベルを用いて、「−水彩」という単語のラ
ベリングした例を第4図に示す。ここで同じ記号の組み
合せ、例えば[u] [sS] [−一]は定常的特徴
を表わすラベルを、異なる記号の例[=I][QP]な
どは過渡的な特徴を表わすラベルである。
〔音素ラベリング(第1次ラベリング) (33))第
1次ラベリングの音素ラベリング手段についてのべる。
音素の検出が基本的には線形判別関数を用いる。また母
音に関しては不特定話者に対応するために、判別関数の
重み係数の学習を行って話者への適応化を図る。この音
素ラベリングの結果は、ABLラベリングのための補助
的な情報として用いることを目的とする。
音素のラベリングは、音素存在区間・音素検出・音素ラ
ベリングの手順で行い、以下その説明をする。
(音素存在区間の推定(S6)) 単語や文節を発生した場合の一般的な性質として、−発
声内でのモーラ継続時間(モーラ基)は、語頭で短(、
語尾で長くなる傾向がある。この伸縮が線形に変化する
と仮定すると、−発声の継続時間とモーラ数から、各モ
ーラの時間的な存在位置を推定することができる。この
場合各モーラ長は次式で表わされる。
ti t−(L/n) [Rmin+(Rmax−Rr
mn) x (i−1)/(n−1)] ・・−・・・
■但し、nニー発声内のモーラ数 Lニー発声の継続時間 2m10=最小変化率 Rmax:最大変化率 Ai  :4番目のモーラ基(i−1,2,・・・、n
)L / nは平均モーラ基と呼ばれ、単語内のlモー
ラの平均的な長さを与えるものである。語頭では平均モ
ーラ基のRmin倍、語尾ではRmax倍だけ伸縮する
ラベリングにおいては、発生された内容は既知のもので
あり、音素記号系列によって与えられている。これによ
り発生に用いられた音素記号の種類と前後関係が分かる
ので、モーラの伸縮も考えたうえで大まかな音素の存在
範囲を推定することができる。
(推定区間内における音素の検出(S7))音素推定区
間内で、その音素が有すると思われる特徴を抽出し、も
し、その特徴が現われていれば、現われた所にその音素
が存在すると判定する。
この判定はフレーム毎に行われる。
音素の特徴抽出は基本的には線形判別関数で行う。例外
として、 ■母音は、個人によって音響的特徴の変動が大きいので
個人性の学習を行い、各話者に適応した。
これにより、不特定話者に対応したラベリングが可能と
なる。学習方法としては、パーセプトロン学習を用いる
■無音・流台・無声摩擦は、VUS (有声/無声/無
音)判定に基づいて検出する。
■摩擦音/Z/h/については、VUS判定・判別関数
・対数スペクトルパワーの方法の組み合せで求める。
(音素ラベリング(S8)) 得られた音素存在フレームの記号と音素系列とのDP−
マツチングを行い各フレームの音素レベルのラベリング
をする。本方式のDPマツチングは記号間で距離を決定
する記号レベルのDPマツチングである。
[ABLのラベリング(第2次ラベリング) (S4)
)音響境界ラベル(AFL)のラベリングの手段を述べ
る。ABLは音素ラベリングの結果をトップダウン情報
として用いてラベリングを行う。ラベルの位置決めの基
本的な特徴量としては、セグメント特徴を用いる。
ABLのラベリングはセグメント特徴の検出、セグメン
ト特徴の選択・正規化・ラベル区間の決定・ラベル位置
の決定の順に行い、以下その説明をする。
(セグメント特徴の検出(S9)) セグメント特徴の検出には、周波数情報と時間情報を同
時に表現できるスペクトルの時間変化パターン(T i
 m e  S p e c t r u m  P 
a t t e r n 、 T S P )を用いる
。ただし、このままでは、標準パタンの次元数が非常に
大きなものとなるので、計算量・安定性を考えた特徴の
圧縮を行う。特徴圧縮の方法としては、K−L (Ka
rhunen−Loeve)展開を用いる。更に、各フ
レームの相互の尤度を比較するため、事後確率を求める
ことにより、時軸方向に対する尤度の正規化を行う。
(トップダウン情報を用いたセグメント特徴の選択・正
規化(SIO)) 入力されたデータに対して、フレーム毎にセグメント特
徴が検出されるが、非常に付加が多い。ラベリングの場
合入力音素記号列(セグメント特徴記号列)は、あらか
じめ分っているため、セグメント特徴の選択が可能とな
る。また記号の位置については、前述の1次ラベリング
の結果を用いれば、大まかなところを決めることができ
る。ここにおいて、音素ラベリングの結果をトップダウ
ン情報として用いてセグメント特徴の選択を行い、選択
された結果をフレーム毎に正規化する。
(DPマツチングによるラベル存在区間の決定)選択・
正規化されたセグメント特徴は、はぼ、セグメンテーシ
ョンされた状態で現われる。つまり、特徴から特徴への
遷移がはっきりしている。そこで、この結果と、入力音
系列をセグメント特徴の記号列に展開し、この記号列と
選択されたセグメントのDPによるマツチングを行い1
フレーム毎にセグメント特徴の記号のラベルを付ける。
(ラベル位置の決定) ABLの位置は、マハラノビス距離、■US(有声/無
声/無音)判定、パワーなどのパラメータにより、一番
最もらしいところに決定し、セグメント特徴の記号を基
にABLラベルを自動的に生成する。
以上詳述した様に、ABL基準点、音素ラベリング、A
BLラベリングの3つの手段を用いて自動ラベリングを
実現する。
次に、図面を参照し、更に詳細に説明する。
第1図は本発明適用のラベリングシステムの概略図であ
る。第1図の1は、音声データベース部で、音素表記さ
れた単語・文節などの単語辞書ファイル2と発話された
データに音響処理を施した音声データファイル3と音声
データのラベリング結果を格納するラベルファイル4の
三つのファイルより構成される。出力部5は、音声デー
タベース部lのデータをラベリングをする際、使用する
各パラメータの動きやラベリング結果を表示するための
ものである。6はラベリングするための各コマンドを入
力する入力部、7は入力されたコマンドを解釈するユー
ザインタフェース部、8は、データベースの管理を行う
データマネージメント部、自動ラベリング部9、手動ラ
ベリング部10で構成されるラベリング部11を有する
ラベリングシステムである。
以上の構成の元で第2図はラベリングシステムの操作手
順の概略を示す図である。ラベリングシステムは太き(
は二つの手順に別れ、まず音声データベースより音声デ
ータと発声データの音素記号列を入力し、自動ラベリン
グ部にて自動ラベリングを行9てから(Sl)、手動ラ
ベリング部にて手動ラベリングによる修正を行う(S2
)。
自動ラベリング部は、二段階に分かれており第1段階の
音素ラベリング部(第1次ラベリング)S3と第2段階
の音響境界ラベリング(ABLラベリング)部(第2次
ラベリング)S4から成る。
音素ラベリング部は、話者が指定されるとその話者の母
音の学習を母音の判別関数に対して行なう(S5)。音
声データベースより音声データと発声データの音素記号
列から、−発声内のモーラ長の伸縮を線形に伸縮すると
仮定し、大まかな音素の存在範囲の推定を音素区間推定
にて行ない(S6)、推定した音素の存在範囲内におい
て分析フレーム毎に各パラメータ(主に判別関数の出力
結果)により推定された音素の存在可能性を示す記号系
列を音素検出にて求め(S7)、その記号系列と発声リ
ストの音素記号列とのDP−matchingにより分
析フレーム毎に、音素のラベリングを行なう(S8)。
音響境界ラベリング(ABLラベリング)部(第2次ラ
ベリング)S4は、セグメント特徴のTSPパターンを
用いた標準パターンで分析フレーム毎に、TSPパター
ンを計算し、セグメント特徴の検出を行う(S9)。検
出されたセグメント特徴に音素ラベリング部の結果をt
op−downの情報として用い、セグメント特徴の選
択と正規化を分析フレーム毎に行い(SIO)、その結
果と単語辞書の音素記号列から作成されるセグメント特
徴記号列とのDP−matchingにより、音響境界
ラベルとその位置を決定する音響境界ラベリング(AB
Lラベリング)を行う(Sll)。手動ラベリング部は
、自動ラベリング部の結果を手動により修正を行うもの
である(512)。
【音素ラベリング部(S3)] (母音の学習(S5)) 前述しました母音の学習(S5)は以下の手順で行う。
1)母音学習フレームの自動検出 学習用データとして次の発声リストを用意した。
・アカサタナハマヤラワ/akasatanahama
yarawa/拳イキシチニヒミイリイ/ikisic
inihimiirii/・ウクスツヌフムユルウ/u
kusucunuhumuyuruu/・エケセテネへ
メエレエ/ekesetenehemeeree/・オ
コソトノホモヨロヲ10kosotonohomoyo
rowo/これらのデータは1種類の母音しかないし、
母音が規則的に入っているので母音区間を検出し易い。
これらのデータから母音区間を自動的に検出し、母音の
学習データとして用いる。母音の検出は、まず数フレー
ムにわたるパワーの局所的最大値を母音の中心フレーム
として、そのフレームのスペクトルとその近隣のフレー
ムとのスペクトル距離を求め、その差がある閾値内にあ
るフレームを学習サンプルのフレームとする。閾値は中
心フレームから離れるほどきびしい値をとるように設定
した。
2)学習法 ■)で自動的に切り出した母音の学習データを用いてパ
ーセプトロン学習と呼ばれている誤り訂正学習法で母音
の学習を行う。
[音素存在区間の推定(S6)コ モーラ長は前述の式■で表わされる。この式をグラフで
示すと第5図のようになる。
音素の存在範囲を推定するアルゴリズムは以下のように
なる。
■前述のモーラ長推定アルゴリズムにより、各モーラの
位置と長さを決定する。
■各モーラ内の音素数で、モーラ内での各音素の位置と
長さを決定する。これを厳密予測区間とする。
■上記の厳密予測区間では、区間予測誤りの危険性が大
きいため、厳密予測区間のA長のゆるめを、各区間の前
後に置いて、音素存在可能な推定区間とする。第6図に
/ k y a n o N /という単語における区
間推定の例を示す。
[推定区間内における音素の検出(S7)]各音素での
特徴抽出・判定方法を以下にまとめて示す。
[母音] / a i u e o /母音の判定は話
者毎に学習した5母音の判別関数の出力を用いる。判定
はフレーム毎に行い、出力が正値であるフレームは、そ
の母音が存在すると判定する。
[半母音] /j、w/ 特に、存在を判定する特徴を抽出することができないの
でこの判定は行わない。
[鼻部] N、m、n/ [有声破裂音コ/ b 、 
d 、 g 、 (v ) /[無声破裂音] /p、
t、に/ 各音素グループ用の判別関数を用いて、出力が正値のフ
レームに各音素が存在すると判定する。
[無音]/Q/ VUS判定において無音と判定されたフレームに無音の
音素が存在するとする。
[流台]/r/ 低域/高域のパワー比がある閾値を越えたフレームを/
r/の音素が存在すると判定する。
[無声摩擦音] /s、c、(f) /vUS判定によ
り無声(U)と判定されたフレームに無声摩擦音が存在
すると判定する。
[その他] /Z/、/h/ /Z/・/h/は有声と判定されたり、無声と判定され
たりするため、無声と判定された場合は、前後の母音と
区別できるため、そのフレームに/Z/または/h/が
存在すると判定できるが、有声の場合は、前後の母音と
の区別が難しい。このため、推定区間が全て有声と判定
された場合は摩擦性の判別関数の推定区間内の最大値を
捜したり、推定区間内の対数スペクトルパワーの極小値
を求め、その近傍に/Z/や/h/が存在すると仮定す
る。
以上の方法で各音素の推定区間内の音素存在フレームを
判定し、特徴抽出できないフレームは、どの音素とも判
定できないと見なす。第7図に各判別関数の出力の動き
、VUS判定及び音素存在判定の結果の例を示す。
[音素のラベリング(S8)] DPの計算の漸化式を以下に示す。
・・・・・・・・・・・・・・・・・■但し、 d (i、j) : ’番目の音素記号とj番目のデー
タとの得点 g (i、D :累積得点 PI、P2 :状態に応じたペナルティを課す関数DP
のパスを第8図に示す。
DPに用いられる得点d (i、Dは、一般的に使用さ
れる類似度ではなく、記号と記号のマツチングにより決
定する得点法を用いた。d (i、j)は入力音素記号
列のi番目の音素記号と入力データのj番目に存在する
可能性のある音素記号によって決まる得点である。d 
(i、Dは得点テーブルを参照することにより決定され
る。
PI、P2は、状態に応じてペナルティを返す関数であ
る。以下にその規則を記す。
Pl:音素に応じて、その音素の継続長より短かい場合
、加点し、長すぎるときは減点する。
P2:前の音素の継続長が短かい場合は減点し長すぎる
場合は加点する。
PI、P2いずれの音素種類により点数が異なる。
以上により、DPのパスはPI、P2のペナルティの値
により、状態に応じて選択的に選らばれることになる。
DPの窓かけは、前述したモーラ長の変化に基づいて推
定した音素存在区間に基づいて決定する。DPの窓がけ
の範囲は、推定音素存在区間とその前後に、推定区間長
の外の長さを加えた区間により構成される。又、本来の
推定区間内のDPマツチングの得点d (i、Dは1倍
し、前後に加える区間には、d (i、Dで決定する得
点の%の得点を与えるようにし、本来の区間に重みをつ
けた。
【音響境界(ABL)ラベリング部(S4)](セグメ
ント特徴検出(S9)) セグメント特徴検出の構成図を第9図に示す。またセグ
メント特徴の検出例を第10図に示す。
(トップダウン情報を用いたセグメント特徴の選択・正
規化(SIO)) セグメント特徴の選択は、以下の要領で行う。(第iフ
レームのセグメント特徴の選択を行う場合)■音素ラベ
リング部の音素ラベルのiフレームの音素記号及び、i
フレームから前後にそれぞれ±15フレームに存在する
音素記号を捜しに行く。
■この音素記号がiフレームも含めて前方向・後方向に
それぞれ3音素記号、計5個(最大候補数)まで捜す。
但し、音素記号が無音・無声音と有声音とのグループか
ら他のグループに移ったら、その方向における候補はそ
こで打ち切る(移った音素は候補に入れる)。
■■によって選ばれた音素記号をセグメント特徴の候補
に展開する。
■■で選択されたiフレームのセグメント特徴の出力で
ある事後確率の値を選らばれたものはそのまま、選ばれ
なかったものは0を代入する。
■選らばれたセグメント特徴の事後確率が最大を与える
ものを1とするように正規化する。
第10図に選択されたセグメント特徴の例を示す。
このようにセグメント特徴を選択することにより、ラベ
ルのための特徴がはっきりすることができる。
[DPマツチングによるラベリング存在区間の決定(S
ll)] 各音素は、参考表3を基にセグメント特徴記号列に展開
される。展開されたセグメント特徴記号列と選択された
セグメント特徴のDP−matchingは以下の漸化
式で行う(両端固定)。
・・・・・・・・・・・・・■ 但し、d (11j) : iフレームの選択されたセ
グメント特徴の記号列と、iフレームの 展開されたセグメント特徴記号 列の類似度 g (i、D :累積した類似度 P:    ペナルティ この時のDPのパスを第11図に示す。DPパスは非対
称型になっている。ここでパス■はその特徴の継続を、
パス■は次の特徴への遷移を、パス■は特徴の脱落を表
わす。ただし、脱落が許されるのはバス音/*/と無音
/Q/のみである。また、。
ペナルティPは/*/では0、/Q/では小さい負の数
を、その他は非常に大きい負の数をペナルティとして与
えた。
DPの窓としては、音素ラベリング部の出力結果である
音素ラベルより、各音素の始端・終端を捜し、それぞれ
に±15フレームのゆとりをもたせた範囲の窓をかける
。また、類似度は、選択され・正規化されたセグメント
特徴の値に更に、そのフレームが音素のラベルの該当音
素区間に入っている場合は1倍、入っていない場合1倍
と重みをかけて求める。
〔ラベルポイントの決定〕
ラベルポイントは以下のようにして定める。
[母音・撥音・鼻音定常部] 連続して、同じセグメント特徴の記号でラベルされた母
音・撥音・鼻音においては、その特徴のマハラノビス距
離が最大となるポイントの値を求める。その値をVAL
とすると、このラベル区間においてVAL/TH(TH
は成る値)が閾値より大きい値をとるフレームを定常フ
レームと判定する。
[半母音] ラベルされている区間のマハラノビス距離が最大となる
ポイントを変化最大フレームとする。
[鼻音出わたり・有声破裂音] マハラノビス距離の最大を与えるポイントに定める。
[無声破裂音] 無音区間から有音区間に移ったポイントとする。
[無音部] VUS判定が無音(S)であるフレーム。
[流台] ラベル区間においてパワーの値が最小となるポイント。
[バズ部] (BUZZ) ラベル区間において選択されたセグメント特徴にバズが
最大値を与えるフレーム。
[有声・無声摩擦音] 連続して同じセグメント特徴の記号でラベルされた摩擦
音においては、その特徴のマハラノビス距離が最大とな
るポイントを求め、その値をVALとする。このラベル
区間においてVAL/THR(THRはある値)がある
閾値より大きい値をとるフレームを定常フレームと判定
する。
[無声化母音・無声化拗音コ 母音及び拗音/j/はVUSが無声(U)と判定された
フレームは小文字(無声化母音のラベル)に変更する。
以上の処理を行った後に、定常的な特徴についてはスム
ージングを行い、各特徴の区間が定まった後、それぞれ
のポイントの特徴に応じて参考表2に示す音響境界ラベ
ル(ABL)を付ける。第12図に自動ラベル(音素及
びABL)と手動ラベルの例を示す。
〔発明の効果〕
本発明によりラベリングを手作業で行った場合に生じる
〔l〕作業時間の問題〔2〕入手により生じる問題や音
素が音声における言語的な最小単位であるため音響的特
徴を充分に表わすことが出来ないという問題を解決し、
音素より更に細か(音響的特徴を音素ラベルより更によ
く表わすことができる音響境界ラベルを単位とした標準
パターンによる音声認識を行う方が音素を単位とした標
準パターンによる音声認識を行うよりも、高い認識率が
期待できる。更に、音響境界ラベルが2つの音素の組み
合せによる正書法であるため、単語辞書の登録・追加・
変更が容易である。
【図面の簡単な説明】
第1図はラベリングシステムの概略図 第2図は操作手順の説明図 第3図は同一話者における音素/Z/の音響的特徴の変
動の例を示す図 第4図はABLのラベルの例を示す口 笛5図はモーラ長の推定方法を示す図 第6図は音素区間推定の例を示す図 第7図は音素の検出例を示す図 第8図はDPパス(音素用)を示す図 第9図はセグメント特徴検出法の構成図第1O図はセグ
メント特徴の検出及び選択例を示す図 第11図はDPパス(ABL用)を示す口笛12図はラ
ベリングの例を示す図 11・・・ラベリング部 12・・・データベース部 入力@?テ°゛−夕 操イ1F手円狗の貌日月 第2図 buzz’;rし          →フレーム、同
−規A耐l:31する酩/zノの音響台U乍遣奪Cχ屹
動の例第3図 嘉       ABムのラベ゛ツノの4列第4図 損)6図   色ノに四囲キ負ビカーのイグ1]−。 第8図 DPパス(音卑用) 七グ又ント的敬倹比法の鳩成図 夕J m−1−l −組層 11声晰致の纒穐 〔2)次の特徴Nの遣ネタ CC−−−

Claims (1)

  1. 【特許請求の範囲】 1)発生されたデータに音響処理を施した音声データフ
    ァイルを有した音声データベース部、 上記音声データベース部に記憶された音声データに対し
    て、分析フレーム毎に音素のラベリングを行う音素ラベ
    リング部と、この音素ラベリング部の結果をTop−d
    ownの情報として用いて、音素より更に細かいラベル
    のラベリングを行う音響境界ラベリング部の二段階のラ
    ベリング部により、音素より細かいラベリング(音響境
    界ラベリング)を行うことを特徴とするラベリングシス
    テム。 2)音声における言語的な最小単位である音素よりも、
    音響的特徴を充分に表わすことができる、音素より更に
    細かい単位(以下音響境界ラベル、ABLと呼ぶ)のラ
    ベルを音響的特徴の変化する位置に決定する手段を有す
    ることを特徴とする自動ラベリング部を有する特許請求
    の範囲第1項記載のラベリングシステム。 3)統計的手法を用いて設計した一段目の音素ラベリン
    グ部では判別関数を、二段目の音響境界ラベリング部で
    は時間周波数パターン(TSP)を用いたベース判定を
    、それぞれ用いたことを特徴とする特許請求の範囲第1
    項記載のラベリングシステム。 4)音素の自動ラベリングを行う際、母音の判定に用い
    る個人別の母音判別関数学習部を有することを特徴とす
    る特許請求の範囲第3項記載のラベリングシステム。 5)音素の自動ラベリングを行う際、この一発声内のモ
    ーラ長の伸縮を線形に伸縮すると仮定し、音声データの
    音素記号列により、大まかな音素の存在の範囲を推定し
    たうえで、推定した音素の存在範囲内において、分析フ
    レーム毎に各パラメータにより推定された音素の存在可
    能性を示す記号系列を求め、その記号系列と単語辞書の
    音素記号列とのDP−matchingにより、分析フ
    レーム毎に音素のラベリングを行うことを特徴とする音
    素ラベリング部を有する特許請求の範囲第3項記載のラ
    ベリングシステム。 6)分析フレーム毎に各パラメータにより推定された音
    素の存在可能性を示す記号系列と単語辞書の音素記号列
    とのDP−matchingを行う際に、モーラ長によ
    る大まかな音素の存在範囲をそのまま用いてDP−窓幅
    とする方法を有する音素ラベリング部を有する特許請求
    の範囲第5項記載のラベリングシステム。 7)分析フレーム毎に、TSPのパターンを計算し、セ
    グメント特徴の検出を行い、音素ラベリング部の結果を
    top−downの情報として用い、セグメント特徴の
    選択を行った後に、その選択されたセグメント特徴の正
    規化及び重み掛けを分析フレーム毎に行い、その結果及
    び単語辞書の音素記号列から作成するセグメント特徴記
    号列とのDP−matchingにより各セグメント特
    徴の位置を決定した後、マハラノビス距離やパワーなど
    により音響境界ラベル及びその位置を決定することを特
    徴とする音響境界ラベリング部を有する特許請求の範囲
    第3項記載のラベリングシステム。 8)選択・正規化されたセグメント特徴の結果と単語辞
    書の音素記号列から作成するセグメント特徴記号列との
    DP−matchingを行う際に、音素ラベリング部
    の情報を用いてDP−窓幅を決定する方法を有する音響
    境界ラベリング部を有する特許請求の範囲第7項記載の
    ラベリングシステム。
JP62070924A 1987-03-25 1987-03-25 ラベリングシステム Pending JPS63236098A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62070924A JPS63236098A (ja) 1987-03-25 1987-03-25 ラベリングシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62070924A JPS63236098A (ja) 1987-03-25 1987-03-25 ラベリングシステム

Publications (1)

Publication Number Publication Date
JPS63236098A true JPS63236098A (ja) 1988-09-30

Family

ID=13445542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62070924A Pending JPS63236098A (ja) 1987-03-25 1987-03-25 ラベリングシステム

Country Status (1)

Country Link
JP (1) JPS63236098A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728491A (ja) * 1993-07-12 1995-01-31 Atr Jido Honyaku Denwa Kenkyusho:Kk 韻律境界の自動的ラベリング法
JP2008180750A (ja) * 2007-01-23 2008-08-07 Oki Electric Ind Co Ltd 音声ラベリング支援システム
JP2011053427A (ja) * 2009-09-01 2011-03-17 Nippon Telegr & Teleph Corp <Ntt> 無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728491A (ja) * 1993-07-12 1995-01-31 Atr Jido Honyaku Denwa Kenkyusho:Kk 韻律境界の自動的ラベリング法
JP2008180750A (ja) * 2007-01-23 2008-08-07 Oki Electric Ind Co Ltd 音声ラベリング支援システム
JP2011053427A (ja) * 2009-09-01 2011-03-17 Nippon Telegr & Teleph Corp <Ntt> 無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム

Similar Documents

Publication Publication Date Title
US5333275A (en) System and method for time aligning speech
Arora et al. Automatic speech recognition: a review
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
CN101436403B (zh) 声调识别方法和***
Obin et al. Syll-O-Matic: An adaptive time-frequency representation for the automatic segmentation of speech into syllables
EP2891147B1 (en) Method and system for predicting speech recognition performance using accuracy scores
Greenberg et al. Linguistic dissection of switchboard-corpus automatic speech recognition systems
Ramteke et al. Phoneme boundary detection from speech: A rule based approach
Fosler-Lussier et al. Incorporating contextual phonetics into automatic speech recognition
Metze Articulatory features for conversational speech recognition
JPH0250198A (ja) 音声認識システム
Lamel et al. Continuous speech recognition at LIMSI
JPS63236098A (ja) ラベリングシステム
Byrne et al. Automatic generation of pronunciation lexicons for Mandarin spontaneous speech
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
Golda Brunet et al. Transcription correction using group delay processing for continuous speech recognition
Huang et al. Speech-Based Interface for Visually Impaired Users
Ramteke et al. Classification of aspirated and unaspirated sounds in speech using excitation and signal level information
Shafie et al. Sequential classification for articulation and Co-articulation classes of Al-Quran syllables pronunciations based on GMM-MLLR
Yao et al. Overlapped di-tone modeling for tone recognition in continuous Cantonese speech
Adam et al. Analysis of Momentous Fragmentary Formants in Talaqi-like Neoteric Assessment of Quran Recitation using MFCC Miniature Features of Quranic Syllables
JP3277522B2 (ja) 音声認識方法
Sharma Implementation of ZCR and STE techniques for the detection of the voiced and unvoiced signals in Continuous Punjabi Speech
Manjunath et al. Improvement of phone recognition accuracy using source and system features
Kurian Development of Speech corpora for different Speech Recognition tasks in Malayalam language