JPS63237098A - 多層ラベルを持つ音声データベース構成方法 - Google Patents

多層ラベルを持つ音声データベース構成方法

Info

Publication number
JPS63237098A
JPS63237098A JP62072847A JP7284787A JPS63237098A JP S63237098 A JPS63237098 A JP S63237098A JP 62072847 A JP62072847 A JP 62072847A JP 7284787 A JP7284787 A JP 7284787A JP S63237098 A JPS63237098 A JP S63237098A
Authority
JP
Japan
Prior art keywords
layer
labels
speech
label
multilayer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62072847A
Other languages
English (en)
Other versions
JP2709385B2 (ja
Inventor
芳典 匂坂
一哉 武田
尚夫 桑原
滋 片桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R JIDO HONYAKU DENWA KENKYUSHO KK
A T R SHICHIYOUKAKU KIKO KENKYUSHO KK
ATR AUDITORY VISUAL PERCEPTION
ATR JIDO HONYAKU DENWA
Original Assignee
A T R JIDO HONYAKU DENWA KENKYUSHO KK
A T R SHICHIYOUKAKU KIKO KENKYUSHO KK
ATR AUDITORY VISUAL PERCEPTION
ATR JIDO HONYAKU DENWA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R JIDO HONYAKU DENWA KENKYUSHO KK, A T R SHICHIYOUKAKU KIKO KENKYUSHO KK, ATR AUDITORY VISUAL PERCEPTION, ATR JIDO HONYAKU DENWA filed Critical A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP62072847A priority Critical patent/JP2709385B2/ja
Publication of JPS63237098A publication Critical patent/JPS63237098A/ja
Application granted granted Critical
Publication of JP2709385B2 publication Critical patent/JP2709385B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は多層ラベルを持つ音声゛データベース構成方
式に関し、特に、音声信号波形をディジタル化し、信号
の特徴に基づいて音声波形を音素ごとに区分を行ない、
各音素にラベルを付与したような多層ラベルを持つ音声
データベース構成方式[従来の技術および発明が解決し
ようとする問題点] 音声認識アルゴリズム、音声合成アルゴリズム。
話者認識・適応アルゴリズムなどのように音声処理を行
なう諸技術を向上させるためには、種々の環境下におけ
る音韻特徴の変動を収集整理する必要がある。そのため
には、音韻ラベル付けのされた音声データベースの整備
が不可欠である。
従来の音声データベースは主として、音声認識装置など
の音声処理装置の性能評価用と、音声研究開発用の2種
類に大別される。前者としては、たとえば都市名の単8
iやその他からなる音声データベースがあるが、アナロ
グ音声を収録したものにすぎず、ラベル付けされていな
い。一方、後者の研究用音声データベースとしては、ラ
ベル付けされていても、音素あるいはそれに準する単位
の記号のみのラベルであるため、音声事象を効率良く選
択することができないという欠点があった。
それゆえに、この発明の主たる目的は、種々の音声特徴
ラベルを階層的に付与することにより、ラベル情報を基
にして、音声データの選択や抽出の効率化および音声に
対する種々の研究目的に利用できるような音声データベ
ースの構成方式を提供することである。
[問題点を解決するための手段] この発明は音声信号波形をディジタル化し、信号の特徴
に基づいて音声波形を音素ごとに区分し、各音素にラベ
ルを付与した音声f−タベースを構成する方式であって
、音素ラベルが付与された部分を1つの層とし、実際の
音声現象を反映する種々の音声特徴を複数の種類にわた
って記述し、それぞれの特徴に対応する層を設けて、各
音素内あるいは音素間にわたって各層ごとにそれぞれ記
述するラベルを付与して、ディジタル化された音声波形
とその物理的特徴を記述する多層ラベルとの対応づけを
行なうようにしたものである。
「作用] この発明に係る多層ラベルを持つ音声データベース構成
方式では、ディジタル化された音声波形に対して階層的
な種々の音声特徴ラベルを付与することにより、ラベル
情報を基にして音声データの選択や抽出の効率化および
音声に対する種々の研究目的に利用できる。
[J?i明の実施例] 第1図はこの発明にJ3ける音声信号の音素ごと、音素
内および音素間にわたって付与された各層におジノるλ
ベルの例を示す図であり、第2図は各層におけるラベル
表示方法を示す図であり、第3図はイベント層における
表記方法とその記号を示す図であり、第4図は異a化層
における表記方法とその記号を示す図であり、第5図は
計算機内部でのラベルファイルのデータ形式を示す図で
ある。
以下、第1図ないし第5図を参照して、この発明につい
て説明する。第1図は音声Ot弓の波形とスペクトル変
化率とパワーに対応してラベル付【プを行なったもので
あり、ラベルとしては、第2図に示ずように第一層とし
ての音声記号層と、第二層としてのイベント層と、第三
層としての異音化層と、第四膚としての融合化層と、第
五層としての母音中心層と、第六層としてのコメント層
とからなる。音声記号層は発声した音用のスペクトル変
化を手がかりにして音素ごとのセグメンテーションを行
ない、ヘボン式ローマ字表記を母音部と子音部とに分割
し、対応する音声区間に記述したものである。たとえば
、” atoshimatsu”の音声を発音したとさ
、各音素の母音部と子音部を分割し、1laI1.“[
)l 、  110+1 、 1131111 、  
II i II。
11、lZ&a″、“tsu ”を記述する。このよう
に、発声したき声の母音部と子音部とをそれぞれ音声区
間に対応づけすることにより、言語環境の表現を容易に
実現できる。ただし、異音化や融合化により、8素境界
が決められない場合には、第二層以下でそれに相当する
記号を付与する。
イベント層は音声記号層で区分された各音素区間に対し
て、スペクトルの変化に応じて複数に分割し、実際の発
声をよく反映するようにラベルを付与したものであって
、第3図に示すような表記記号で表わされる。すなわち
、r* < Ifは母音への入りわたりを示し、i?i
頭の母音(半母音を含む)に伴なう′A渡区間(低域に
エネルギが存在ザるにもかかわらずホルマント構造が未
だ整っていない区間)を表わしている。ti 〉prは
母音からの出わたりを示し、語尾および比較的長い無音
前の母音(撥音を含む)に伴なう過渡区間(低域にエネ
ルギが存在するにもかかわらず、ホルマント構造が崩れ
ている区間)を示している。
“ゞ〉”は母音から有声子音への出わたりを示し、母音
部(撥音を含む)から有声子音部へ遷移していく過渡区
間である。1llrltは何らかの原因でスペクトルパ
ターンに乱れが生じている区間である。
“c l 、 ”c l″は破裂(破擦)音に伴なう閉
鎖(クロジャ)区間J5よび促音に伴なう休止区間であ
り、*は有声の場合を示している。“p、  t、  
k、  b。
d、g”は破裂音内のクロージャ以外の区間を示してい
る。“nv”は鼻子音区間であり、”pau″は単語境
界における休止区間である。”s、 h、 sh。
Z、 dj、 f”は摩擦音区間であり、’w、y”は
半母音区間であり、“、 IIは温合区間であり、”a
、i。
u、 e、 o ”は母a区間であり、tlJ)lは拗
音区間であり、“N 11は撥音区間であり、”ts、
 ch”は破擦音内のクロージャ以外の区間を示してい
る。
上述のイベント層について第1図を参照してより具体的
に説明すると、最初の母音“a Nが発音されるまでの
区間は母音への立ち上がりを示す過渡区間であるため、
゛〈″が付与される。母音1iasに続く区間は母音1
1a11の語尾に伴なう過渡区間であるために“〉″が
付与される。その次の区間は破裂音に伴なうクロージャ
として’at”が付与され、その次の区間では破裂音内
の閉鎖区間以外の区間として“℃”が付与される。その
次の区間は母音ll011であり、その後摩擦音区間と
してIJhllが付与される。さらに、次の区]nは母
音11i11であり、続いて鼻子音区間“”Ilm”、
母音IfaN、母音“aIIに続く過渡区間として゛〉
”が付与され、その後破擦音に伴なう閉鎖区間として1
1 CI 11が付与され、ざらに破擦音内の開鎖区間
以外の区間として°’ts”が付与される。
イベント層の次は異音化層であり、ローマ字表記とは異
なるいわゆる異音化が生じている場合にセグメントを設
け、記号を付与する。異音化としては、無声化および摩
擦音化の二棟類の区間を記述する。異音化が発生してい
る場合は、音声記号層の境界に拘わらず、異音化発生時
点から終了時点までをセグメントとする。表記記号は第
4図に示ずように、無声化している区間どして記号11
d■IIと、母音が後続の摩擦音の影響により摩擦音化
している区間として’fr”が付与される。第1図に示
した例では、音素110ITと’ sh”との間に’r
r”が付与され、最後の音素“u”が無声化しているた
めに“d v ”が付与されている。なお、異音化現象
の一つである母音または有声破裂音のLH化は、スペク
トル上での判断が困難であるため、異音化層には含めて
いない。
第41?ilは融合化層であり、連続する音素が融合し
、スペクトログラム上で分離不可能な連続部分を記述す
る。セグメントの境界は音声信号層のそれを用いる。第
1図に示した例では、最後の2つの音素“ts”、  
“u”のスベクトロダラムが連続して区別できないため
に、記号”tsu’が付与される。
第5層は母音中心層であり、音声記号層でセグメントさ
れた音素が明確な母音の特徴を保持している中心を示す
ポインタを記述する。第1図に示した例では、母音“t
aPl、“10II 、  Ill Il、“′a″の
それぞれの中心を示すポインタが記述されている。第6
層はコメント層であり、上述の第1層ないし第5111
では記述できない現象についてのコメントが記述される
なお、各ラベル層と音声波形との対応関係は第5図に示
すように対応づけされる。すなわち、ラベル記号は、そ
のスタートの時刻を示す開始値と終わりの時刻を示す終
了値で挾まれて記入される。
そして、実際の音声波形とのリンクは、発声者。
単語の種類などを示す記号を指定することにより、音声
データファイルを引出し、この開始時刻と終了時刻とに
より、そのラベルと音声波形との対応づGJを行なう。
第6図はこの発明による多層ラベルを持つ音声データベ
ースを構成するためのA/D変換からラベルデータを入
力するまでのフロー図である。
次に、この発明による多層ラベルを持つ音声データベー
スを構成する方法について説明する。収録条件としては
、録音スタジオなどのできるだけ静かな環境で、単語ご
とに区切って明瞭に発声し、一旦磁気テープにPCM録
音する。そして、オフラインにより、計算機ワークステ
ージ1ンを介して、磁気テープにPCM録音された音声
信号を20kHzのサンプリングにより、16ビツトで
△/D変換して、磁気ディスクに格納する。イして、格
納された音声データを単5nごとに切出し、512ポイ
ントのFFT(rs速フーリーL変換)を行なうととも
に、フレーム周期2.5IIsecによりスペクトル分
析し、その結果をレーデプリンタで濃淡表示を行なう。
その結果は、第1図に示すようなツナグラフとして表わ
される。
この濃淡表示を児て、音素の区分とラベル付けを行ない
、ラベルデータをキーボードから入力する。すなわち、
第1図に示す音声波形のスペクトラムに従って、音声記
号層、イベント層、異音化層、融合化層、母音中心層、
コメント層についてそれぞれ前述の第1図ないし第4図
に従ってラベル付けする。そして、計算機のターミナル
のキーボードからラベル付けしたデータを入力し、各ラ
ベルに対して、第5図に示したように、各ラベルで表わ
される区間開始時刻と終了時刻を同時に記録することに
よって、波形データとの対応づけを行なう。
[発明の効果] 以上のように、この発明によれば、音声データベースと
して、音素のローマ字表記による単なる表層的なラベル
のみでなく、実際の発声現象を詳細に記述した多層のラ
ベル構造を持つため、音声の様々な研究目的に用いるこ
とができる。たとえば、音声認識では、!il!識アル
ゴリズムの開発や評価および誤りの解析に適用でき、音
声合成では、合成規則の構成や2僅に適用でき、知覚で
は、音声の響きと物理量との対応づけなどに適用できる
【図面の簡単な説明】
第1図はこの発明における音声信号の各層に付与された
ラベルの例を示す図である。第2図は各層におけるラベ
ル表示方法を示す図である。第3図はイベント層におけ
る表記方法とその記号を示す図である。第4図は異音化
層における表記方法とその記号を示ず図である。第5図
は計t3機内部でのラベルファイルのデータ形式を示す
図である。 第6図はこの発明による多層ラベルを持つ音声データベ
ースを構成するためのΔ/D変換からラベルデータを入
力するまでのフロー図である。 特許出願人 株式会社エイ・ティ・アール自動翻訳電話
研究所 株式会社エイφティ・アール 第3図 注l:長母皆は母音1文字で記述する。 第4図 第6図

Claims (8)

    【特許請求の範囲】
  1. (1)音声信号波形をディジタル化し、信号の特徴に基
    づいて音声波形を音素ごとに区分を行ない、各音素にラ
    ベルを付与した構成を持つ音声データベースにおいて、 音素ラベルが付与された部分を1つの層とし、実際の音
    声現象を反映する種々の音声の特徴を複数の種類にわた
    つて記述し、それぞれの特徴に対応する層を設けて、各
    音素内あるいは音素間にわたつて各層ごとにそれぞれを
    記述するラベルを付与して、ディジタル化された音声波
    形とその物理的特徴を記述する多層ラベルとの対応づけ
    を行なうことを特徴とする、多層ラベルを持つ音声デー
    タベース構成方式。
  2. (2)前記ディジタル化された音声信号波形は、音声デ
    ータファイルに記憶されておりかつ各ラベルはラベルフ
    ァイルに記憶されていて、前記各ラベルは前記音声デー
    タファイルの各音素の記憶番地に対応した値が付与され
    ていて、その値と音声波形との対応をとることによつて
    音声データファイルとラベルファイルとをリンクさせる
    ことを特徴とする、特許請求の範囲第1項記載の多層ラ
    ベルを持つ音声データベース構成方式。
  3. (3)前記多層ラベルの1つは、各音素単位ごとにロー
    マ字表示された音声記号層を含むことを特徴とする、特
    許請求の範囲第1項記載の多層ラベルを持つ音声データ
    ベース構成方式。
  4. (4)前記多層ラベルの1つは、前記音声記号層で区分
    された各区間に対して、音声特徴の変化に応じて複数に
    分割し、実際の発音をよく反映するようにラベルを付与
    したイベント層を含む、特許請求の範囲第3項記載の多
    層ラベルを持つ音声データベース構成方式。
  5. (5)前記多層ラベルの1つは、無声化および摩擦音化
    の区間を記述する異音化層を含むことを特徴とする、特
    許請求の範囲第3項記載の多層ラベルを持つ音声データ
    ベース構成方式。
  6. (6)前記多層ラベルの1つは、連続する音素が融合し
    、分離不可能な連続部分を記述した融合化層を含む、特
    許請求の範囲第3項記載の多層ラベルを持つ音声データ
    ベース構成方式。
  7. (7)前記多層ラベルの1つは、母音の中心を示すポイ
    ンタを記述した母音中心層を含む、特許請求の範囲第3
    項記載の多層ラベルを持つ音声データベース構成方式。
  8. (8)前記多層ラベルの1つは前記音声記号層、イベン
    ト層、異音化層、融合化層および母音中心層で記述でき
    ない現象についてコメントを記述したコメント層を含む
    、特許請求の範囲第3項ないし第7項のいずれかに記載
    の多層ラベルを持つ音声データベース構成方式。
JP62072847A 1987-03-25 1987-03-25 多層ラベルを持つ音声データベース構成方法 Expired - Lifetime JP2709385B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62072847A JP2709385B2 (ja) 1987-03-25 1987-03-25 多層ラベルを持つ音声データベース構成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62072847A JP2709385B2 (ja) 1987-03-25 1987-03-25 多層ラベルを持つ音声データベース構成方法

Publications (2)

Publication Number Publication Date
JPS63237098A true JPS63237098A (ja) 1988-10-03
JP2709385B2 JP2709385B2 (ja) 1998-02-04

Family

ID=13501184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62072847A Expired - Lifetime JP2709385B2 (ja) 1987-03-25 1987-03-25 多層ラベルを持つ音声データベース構成方法

Country Status (1)

Country Link
JP (1) JP2709385B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02252000A (ja) * 1989-03-27 1990-10-09 Nippon Telegr & Teleph Corp <Ntt> 波形素片作成方法
JP2007322835A (ja) * 2006-06-01 2007-12-13 Oki Electric Ind Co Ltd 音声データベースおよび音声合成装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61296396A (ja) * 1985-06-25 1986-12-27 松下電工株式会社 音声コ−ド作成方法
JPS62160497A (ja) * 1986-01-09 1987-07-16 日本電気株式会社 会話処理制御方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61296396A (ja) * 1985-06-25 1986-12-27 松下電工株式会社 音声コ−ド作成方法
JPS62160497A (ja) * 1986-01-09 1987-07-16 日本電気株式会社 会話処理制御方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02252000A (ja) * 1989-03-27 1990-10-09 Nippon Telegr & Teleph Corp <Ntt> 波形素片作成方法
JP2007322835A (ja) * 2006-06-01 2007-12-13 Oki Electric Ind Co Ltd 音声データベースおよび音声合成装置

Also Published As

Publication number Publication date
JP2709385B2 (ja) 1998-02-04

Similar Documents

Publication Publication Date Title
US7890330B2 (en) Voice recording tool for creating database used in text to speech synthesis system
JP3408477B2 (ja) フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ
Macchi Issues in text-to-speech synthesis
Zue et al. Transcription and alignment of the TIMIT database
US20020152073A1 (en) Corpus-based prosody translation system
Streefkerk Acoustical correlates of prominence: A design for research
US20070203706A1 (en) Voice analysis tool for creating database used in text to speech synthesis system
Matoušek et al. ARTIC: a new czech text-to-speech system using statistical approach to speech segment database construciton
US20070219799A1 (en) Text to speech synthesis system using syllables as concatenative units
JP2583074B2 (ja) 音声合成方法
US20080077407A1 (en) Phonetically enriched labeling in unit selection speech synthesis
Carlson Synthesis: Modeling variability and constraints
JPS63237098A (ja) 多層ラベルを持つ音声データベース構成方法
Zhang et al. Speech recognition using syllable patterns
Carlson et al. The KTH speech database
Dusterho Synthesizing fundamental frequency using models automatically trained from data
US20070203705A1 (en) Database storing syllables and sound units for use in text to speech synthesis system
Zhang et al. Tone nucleus-based multi-level robust acoustic tonal modeling of sentential F0 variations for Chinese continuous speech tone recognition
Datta et al. Epoch Synchronous Overlap Add (ESOLA)
RU2119196C1 (ru) Способ лексической интерпретации слитной речи и система для его реализации
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
Huckvale 14 An Introduction to Phonetic Technology
Chowdhury Concatenative Text-to-speech synthesis: A study on standard colloquial bengali
JPS58154900A (ja) 文章音声変換装置
Datta et al. Introduction to ESOLA

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071024

Year of fee payment: 10