JP4150645B2 - 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム - Google Patents

音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム Download PDF

Info

Publication number
JP4150645B2
JP4150645B2 JP2003302646A JP2003302646A JP4150645B2 JP 4150645 B2 JP4150645 B2 JP 4150645B2 JP 2003302646 A JP2003302646 A JP 2003302646A JP 2003302646 A JP2003302646 A JP 2003302646A JP 4150645 B2 JP4150645 B2 JP 4150645B2
Authority
JP
Japan
Prior art keywords
data
labeling
waveform data
phoneme
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003302646A
Other languages
English (en)
Other versions
JP2005070604A (ja
Inventor
利佳 久米
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Priority to JP2003302646A priority Critical patent/JP4150645B2/ja
Priority to US10/920,454 priority patent/US7454347B2/en
Priority to DE04020133T priority patent/DE04020133T1/de
Priority to DE602004000898T priority patent/DE602004000898T2/de
Priority to EP04020133A priority patent/EP1511009B1/en
Publication of JP2005070604A publication Critical patent/JP2005070604A/ja
Application granted granted Critical
Publication of JP4150645B2 publication Critical patent/JP4150645B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephonic Communication Services (AREA)

Description

この発明は、音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラムに関する。
近年、音声合成の技術により合成された音声が広く利用されている。具体的には、たとえば、テキスト読み上げソフトウェアや、電話番号案内や、株式案内、旅行案内、店舗案内、交通情報など、多くの場面で利用されている。
音声合成の手法には、大別して、規則合成方式と、波形編集方式(コーパスベース方式)とがある。
規則合成方式は、音声を合成する対象のテキストについて形態素解析を行い、解析の結果に基づき、テキストに音韻論的処理を施すことにより音声を生成する手法である。規則合成方式では、音声合成に用いるテキストの内容についての制約が少なく、多様な内容のテキストを音声合成に用いることができる。しかし、規則合成方式では、コーパスベース方式に比べ、出力される音声の品質が劣っている。
一方、コーパスベース方式は、人間が実際に発話した音声を録音して、録音した音声の波形を細分化して得られる構成部分の集合(音声コーパス)を用意し、波形の構成要素に、その波形が表す音声の種類(例えば、音素の種類など)のデータを対応付けておく(構成要素をラベリングする)等しておき、音声を合成する際はこれらの構成部分を検索し、つなぎ合わせることにより、目的とする音声を得る、という手法である。コーパスベース方式は、音声の品質の点で規則合成方式より有利であり、肉声感のある音声が得られる。
コーパスベース方式で自然な合成音声を得るためには、音声コーパスが多数の音声の構成部分を含んでいる必要がある。しかし、多数の構成要素を含む音声コーパスほど、その構築は手間のかかる作業となる。そこで、音声コーパスを効率的に構築する手法として、波形の構成要素へのラベリングを、音声認識の結果に基づいて自動的に行う技術が考えられている(例えば、特許文献1参照)。
特開平6−266389号公報
しかし、音声認識の結果に基づく自動的なラベリングを行う手法においては、種々の改良にもかかわらず依然としてラベリングの誤りが生じやすい。自然な合成音声を得るためにはラベリングの誤りを訂正する必要があるが、従来はラベリングの誤りを手作業で検証しており、これは極めて手間のかかる作業である。このため、ラベリングを自動的に行っても、ラベリングの正しい音声コーパスの構築が必ずしも容易にはなっていなかった。
この発明は上記実状に鑑みてなされたものであり、音声を表すデータに対して行われたラベリングの誤りを自動的に検出するための音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラムを提供することを目的とする。
上記目的を達成するため、この発明の第1の観点に係る音声ラベリングエラー検出装置は、
単位音声の波形を表す波形データと、当該単位音声の種類を識別するラベリングデータとを取得するデータ取得手段と、
前記データ取得手段が取得したラベリングデータに基づいて、前記データ取得手段が取得した波形データを単位音声の種類別に分類する分類手段と、
前記データ取得手段が取得した波形データが表す各々の単位音声のフォルマントの周波数を特定し、特定した周波数に基づいて当該波形データの評価値を決定する評価値決定手段と、
同一種類に分類された波形データの集合のうちから、当該集合内での評価値の偏差が所定量に達している波形データを、ラベリングにエラーのある波形データとして検出し、検出された当該波形データを示すデータを出力するエラー検出手段と、を備える、
ことを特徴とする。
前記評価値は、当該評価値を求める対象の波形データが表す単位音声の第kフォルマント(ただしkは正の整数)の周波数をF(k)とし、当該波形データと同一種類に分類された各波形データが表す単位音声の第kフォルマントの周波数の平均値をf(k)とした場合における値{|f(k)−F(k)|}を複数のkの値について求め互いに線形結合したものに相当する値をとるものであってもよい。
あるいは、前記評価値は、取得した波形データのスペクトルの複数のフォルマントの周波数を互いに線形結合したものに相当する値をとるものであってもよい。
前記評価値決定手段は、波形データのスペクトルの極大値を与える周波数を、当該波形データが表す単位音声のフォルマントの周波数として扱うものであってもよい。
前記評価値決定手段が波形データの評価値の決定に用いるフォルマントの次数は、波形データが表す単位音声の種類であるものとしてラベリングデータが示している種類に対応付けて指定されていてもよい。
前記エラー検出手段は、無音状態を表すラベリングデータが対応付けられている波形データについては、当該波形データが表す音声の大きさが所定量に達している波形データを、ラベリングにエラーのある波形データとして検出するものであってもよい。
前記分類手段は、隣接する2個の波形データが無音状態を表すデータを挟むような態様で、同一種類に分類した各波形データを互いに連結する手段を備えるものであってもよい。
また、この発明の第2の観点に係る音声ラベリングエラー検出方法は、
単位音声の波形を表す波形データと、当該単位音声の種類を識別するラベリングデータとを取得し、
取得したラベリングデータに基づいて、取得した波形データを単位音声の種類別に分類し、
波形データが表す各々の単位音声のフォルマントの周波数を特定し、特定した周波数に基づいて当該波形データの評価値を決定し、
同一種類に分類された波形データの集合のうちから、当該集合内での評価値の偏差が所定量に達している波形データを、ラベリングにエラーのある波形データとして検出し、検出された当該波形データを示すデータを出力する、
ことを特徴とする。
また、この発明の第3の観点に係るプログラムは、
コンピュータを、
単位音声の波形を表す波形データと、当該単位音声の種類を識別するラベリングデータとを取得するデータ取得手段と、
前記データ取得手段が取得したラベリングデータに基づいて、前記データ取得手段が取得した波形データを単位音声の種類別に分類する分類手段と、
前記データ取得手段が取得した波形データが表す各々の単位音声のフォルマントの周波数を特定し、特定した周波数に基づいて当該波形データの評価値を決定する評価値決定手段と、
同一種類に分類された波形データの集合のうちから、当該集合内での評価値の偏差が所定量に達している波形データを、ラベリングにエラーのある波形データとして検出し、検出された当該波形データを示すデータを出力するエラー検出手段と、
して機能させるためのものであることを特徴とする。
この発明によれば、音声を表すデータに対して行われたラベリングの誤りを自動的に検出するための音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラムが実現される。
以下に、図面を参照して、この発明の実施の形態を、音声ラベリングシステムを例として説明する。
図1は、この音声ラベリングシステムの構成を示すブロック図である。図示するように、この音声ラベリングシステムは、音声データベース1と、テキスト入力部2と、ラベリング部3と、音素切出部4と、フォルマント抽出部5と、統計処理部6と、エラー検出部7と、より構成されている。
音声データベース1は、ハードディスク装置等からなる記憶装置より構成されており、互いに同一の発話者により発声された一続きの音声の波形を表す多数の音声データをユーザの操作等に従って記憶し、また、これらの音声の発話者が発声する音声一般の特徴(例えば、声の高さなど)を示すデータである音響モデルをユーザの操作等に従って記憶する。音声データは、例えばPCM(Pulse Code Modulation)変調されたディジタル信号の形式を有していればよく、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。
音声データベース1が記憶する音声データの集合は、コーパスベース方式の音声合成における音声コーパスとして機能するものである。この集合に属する音声データは、例えば、1個の音声データ全体を合成音声の波形の構成要素として用いることができる場合は、当該音声データ全体がそのまま構成要素として用いられ、その他の場合は、音声データを後述のラベリング部3が区切ることにより得られる音素データが構成要素として用いられる。
テキスト入力部2は、例えば、記録媒体(例えば、フロッピー(登録商標)ディスクやCD(Compact Disc)など)に記録されたデータを読み取る記録媒体ドライブ装置(フロッピー(登録商標)ディスクドライブや、CDドライブなど)等より構成されている。テキスト入力部2は、文字列を表す文字列データを入力して、ラベリング部3に供給する。文字列データのデータ形式は任意であり、例えばテキスト形式等のデータからなっていればよい。なお、この文字列は、音声データベース1に記憶されている音声データが表す音声の種類を示す文字列であるものとする。
ラベリング部3、音素切出部4、フォルマント抽出部5、統計処理部6及びエラー検出部7は、それぞれ、CPU(Central Processing Unit)やDSP(Digital Signal Processor)等のプロセッサと、RAM(Random Access Memory)やハードディスク装置等のメモリとより構成されている。なお、同一のプロセッサが、ラベリング部3、音素切出部4、フォルマント抽出部5、統計処理部6及びエラー検出部7の一部又は全部の機能を行うようにしてもよい。
ラベリング部3は、テキスト入力部2より供給された文字列データが表す文字列を解析し、この文字列データが表す音声を構成する各音素及びこの音声の韻律を特定し、特定したそれぞれの音素の種類を示すデータである音素ラベルの列と、特定した韻律を示すデータである韻律ラベルの列とを生成する。
例えば、音声データベース1が、「アシノヤヲ」と読み上げる音声を表す第1の音声データを記憶しており、当該第1の音声データが、図2(a)に示す波形を有しているとする。また、音声データベース1は、「カマクラヲ」と読み上げる音声を表す第2の音声データも記憶しており、当該第2の音声データが図2(b)に示す波形を有しているとする。一方、テキスト入力部2が、第1の音声データの読みを表す第1の文字列データとして「アシノヤヲ」という文字列を表すデータを入力し、また、第2の音声データの読みを表す第2の文字列データとして「カマクラヲ」という文字列を表すデータを入力し、入力したこれらのデータをラベリング部3に供給したとする。この場合、ラベリング部3は、第1の文字列データを解析して、例えば、'a', 'sh', 'i', 'n', 'o', 'y', 'a'及び'o'の順で配列された各音素を表す音素ラベルの列を生成し、またこれらの各音素の韻律を表す韻律ラベルの列を生成する。また、ラベリング部3は、第2の文字列データを解析して、例えば、'k', 'a', 'm', 'a', 'k', 'u', 'r', 'a'及び'o'の順で配列された各音素を表す音素ラベルの列を生成し、またこれらの各音素の韻律を表す韻律ラベルの列を生成する。
また、ラベリング部3は、音声データベース1が記憶する音声データを、個々の音素の波形を表すデータ(音素データ)へと区切る。例えば、「アシノヤヲ」を表す上述の第1の音声データならば、図2(a)に示すように、先頭から順に音素'a', 'sh', 'i', 'n', 'o', 'y', 'a'及び'o'の波形を表す8個の音素データへと区切る。また、「カマクラヲ」を表す上述の第2の音声データの場合は、図2(b)に示すように、先頭から順に音素'k', 'a', 'm', 'a', 'k', 'u', 'r', 'a'及び'o'の波形を表す9個の音素データへと区切る。なお、区切りの位置は、例えば、自ら作成した音素ラベルと、音声データベース1に記憶されている音響モデルとに基づいて決定すればよい。
なお、ラベリング部3は、文字列データの解析の結果無音状態になると特定された部分には、無音を表す音素ラベルを割り当てるものとする。また、音声データに無音状態を表す連続した区間が含まれている場合、当該部分も、音素を表す部分と同様に1個の音素ラベルを対応付けられるべき区間として区切るものとする。
そして、ラベリング部3は、得られたそれぞれの音素データについて、当該音素データが表す音素を示す上述の音素ラベルと、当該音素の韻律を示す上述の韻律ラベルとを、当該音素データに対応付ける形で、音声データベース1に記憶させる。すなわち、音素データを音素ラベル及び韻律ラベルによってラベリングし、これにより、この音素データが表す音素及びこの音素の韻律を、音素ラベルや韻律ラベルによって識別できるようにする。
具体的には、ラベリング部3は、例えば上述の第1の文字列データを解析して得られた音素ラベルの列及び韻律ラベルの列を、8個の音素データへと区切られた上述の第1の音声データに対応付けて記憶させる。また、上述の第2の文字列データを解析して得られた音素ラベルの列及び韻律ラベルの列を、9個の音素データへと区切られた上述の第2の音声データに対応付けて記憶させる。この場合、第1(又は第2)の音声データに対応付けられた音素ラベルの列及び韻律ラベルの列は、第1(又は第2)の音声データ内の音素データが表す音素とその並び順を示すものとなっている。このようにして、第1(又は第2)の音声データの先頭からk番目(kは正の整数)の音素データが、この音声データに対応付けられた音素ラベルの列の先頭からk番目の音素ラベルと、この音声データに対応付けられた韻律ラベルの列の先頭からk番目の韻律ラベルとによりラベリングされる。すなわち、第1(又は第2)の音声データの先頭からk番目(kは正の整数)の音素データが表す音素及びこの音素の韻律が、この音声データに対応付けられた音素ラベルの列の先頭からk番目の音素ラベルと、この音声データに対応付けられた韻律ラベルの列の先頭からk番目の韻律ラベルとによって識別されるようになる。
音素切出部4は、音素ラベル及び韻律ラベルのラベリングが完了した各音素データを用い、これらの音素データを同一の音素を表すもの毎に互いに結合したものに相当するデータ(音素別音声データ)を、各音素データが表す音素の種類の数だけ作成し、フォルマント抽出部5へと供給する。
例えば、図2(a)及び(b)に示す波形を有する上述の第1及び第2の音声データとを用いて音素別音声データを作成した場合は、音素別音声データとして、音素'a'の波形5個を結合したものにあたるデータ、音素'o'の波形3個を結合したものにあたるデータ、音素'k'の波形2個を結合したものにあたるデータ、音素'sh'の波形を表すデータ、音素'i'の波形を表すデータ、音素'n'の波形を表すデータ、音素'y'の波形を表すデータ、音素'm'の波形を表すデータ、音素'u'の波形を表すデータ、及び音素'r'の波形を表すデータの計10個を作成する。
ただし、複数の音素データを含んだ音素別音声データ内では、互いに結合されるべき音素データ同士は、一定時間の無音状態を表す音声データを挟む形で互いに結合されるものとする。すなわち、例えば、図2(a)及び(b)に示す波形を有する上述の第1及び第2の音声データを用いて音素別音声データを作成した場合、音素'a'の波形5個を表す音素別音声データ、音素'o'の波形3個を表す音素別音声データ、及び、音素'k'の波形2個を表す音素別音声データは、順に、図3(a)、(b)及び(c)に示すような波形を有するものとなる。
また、音素切出部4は、音素別音声データに含まれるそれぞれの音素データが、音声データベース1が記憶するどの音声データのどの位置にあるかを示すデータも作成し、フォルマント抽出部5へと供給するものとする。
フォルマント抽出部5は、音素切出部4より供給されたそれぞれの音素別音声データについて、当該音素別音声データに含まれるそれぞれの音素データが表す音素のフォルマントの周波数を特定し、統計処理部6へと通知する。
音素のフォルマントは、音素のピッチ成分(基本周波数成分)に起因して生じる、音素のスペクトルのピークを与える周波数成分であり、ピッチ成分のk倍の倍音成分(kは2以上の整数)が第(k−1)フォルマント((k−1)次のフォルマント)である。従ってフォルマント抽出部5は、具体的には、例えば音素データのスペクトルを、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求め、このスペクトルの極大値を与える周波数を、フォルマントの周波数として特定し、通知すればよい。
なお、周波数を特定する対象とするフォルマントの最低の次数は1次とし、最高の次数は、音素毎に(音素ラベルにより識別される音素毎に)予め指定されているものとする。それぞれの音素データについて周波数を特定する対象とするフォルマントの最高の次数は任意であるものの、音素ラベルにより識別される音素が母音である場合は3次程度とし、子音である場合は5〜6次程度とすると良好な結果が得られる。
また、音素が摩擦音の場合は、ピッチ成分やこれに起因する成分がスペクトルに多く含まれず、一方で、周波数が高く規則性に乏しい成分がスペクトルに多く含まれるため、フォルマントの特定が困難である。しかし、この場合も、フォルマント抽出部5は、当該音素のスペクトルに現れたピークを形成する成分をフォルマントとみなすものとする。このように扱うことで、この音声ラベリングシステムは、摩擦音についても十分正確にラベリングのエラーを検出することができる、
ただし、フォルマント抽出部5は、無音状態を表す音素データからなる音素別音声データについては、音素データのフォルマントの周波数を特定する代わりに、当該音素別音声データに含まれる音素データ(無音状態を表す音素データ)が表す音声の大きさを特定し、エラー検出部7へ通知するものとする。具体的には、例えば、音声のスペクトルが通常含まれる帯域以外を実質的に除去するように当該音素別音声データをフィルタリングした上で、当該音素別音声データに含まれるそれぞれの音素データをフーリエ変換し、得られる各スペクトル成分の強度(あるいは音圧の絶対値)の総和を、当該音素データが表す音声の大きさとして特定し、エラー検出部7へと通知するようにすればよい。
統計処理部6は、フォルマント抽出部5より通知されたフォルマントの周波数に基づいて、数式1に示す評価値Hを音素データ毎に求める。ただし、F(k)は、評価値Hを求める対象の音素データが表す音素の第kフォルマントの周波数であり、f(k)は、当該音素と同一種類の音素を表すすべての音素データ(つまり、評価値Hを求める対象の音素データが属する音素別音声データに含まれるすべての音素データ)より得られるF(k)の値の平均値であり、W(1)〜W(n)は重み係数であり、nは当該音素のフォルマントであって評価値Hの算出に用いるもののうちもっとも周波数が高いフォルマントの次数である。すなわち、評価値Hは、kの値を1からnまでの各整数として値{|f(k)−F(k)|}を求め、互いに線形結合したものに相当する。
Figure 0004150645
そして、統計処理部6は、例えば、同一種類の音素を表す各音素データの評価値Hの集合を母集団として、当該母集団内での平均値からの偏差を、当該母集団内の評価値H毎に求める。統計処理部6は、評価値Hの偏差を求めるこの処理を、すべての種類の音素を表す音素データについて行う。そして、統計処理部6は、すべての音素データについての評価値H及びその偏差をエラー検出部7に通知する。
エラー検出部7は、統計処理部6より、各音素データの評価値Hおよびその偏差を通知されると、通知された内容に基づき、評価値Hの偏差が所定量(例えば、評価値Hの標準偏差の値)に達している音素データを特定する。そして、特定した音素データのラベリングに誤りがある(つまり、実際の波形が表す音素とは異なる音素を示す音素ラベルでラベリングされている)旨を示すデータを作成し、外部に出力する。
ただし、エラー検出部7は、無音状態を表す音素データについては、フォルマント抽出部5より通知された音声の大きさが所定量に達しているものを特定し、特定した無音状態の音素データのラベリングに誤りがある(つまり、実際の波形は無音状態でないにもかかわらず無音状態を示す音素ラベルでラベリングされている)旨を示すデータを作成し、外部に出力するものとする。
以上説明した動作を行うことにより、この音声ラベリングシステムは、ラベリング部3が行った音声データへのラベリングにエラーがあるか否かを自動的に判別し、エラーがあればその旨を外部に通知する。このため、手作業でラベリングのエラーをチェックする手間が省け、データ量の大きな音声コーパスを容易に構築することができるようになる。
なお、この音声ラベリングシステムの構成は上述のものに限られない。
例えば、テキスト入力部2は、USB(Universal Serial Bus)インターフェース回路やLAN(Local Area Network)インターフェース回路等からなるインターフェース部を備えていてもよく、このインターフェース部を介して外部より文字列データを取得してラベリング部3に供給するようにしてもよい。
また、音声データベース1は記録媒体ドライブ装置を備えていてもよく、記録媒体に記録された音声データをこの記録媒体ドライブ装置を介して読み取り、記憶するようにしてもよい。また、音声データベース1はUSBインターフェース回路やLANインターフェース回路等からなるインターフェース部を備えていてもよく、このインターフェース部を介して外部より音声データを取得し、記憶するようにしてもよい。また、テキスト入力部2を構成する記録媒体ドライブ装置やインターフェース部が、音声データベース1の記録媒体ドライブ装置やインターフェース部の機能を兼ねて行ってもよい。
また、音素切出部4は記録媒体ドライブ装置を備えていてもよく、記録媒体に記録されたラベリング済みの音声データをこの記録媒体ドライブ装置を介して読み取り、音素別音声データの作成に用いてもよい。また、音素切出部4はUSBインターフェース回路やLANインターフェース回路等からなるインターフェース部を備えていてもよく、このインターフェース部を介し、外部より、ラベリング済みの音声データを取得し、音素別音声データの作成に用いてもよい。また、音声データベース1あるいはテキスト入力部2を構成する記録媒体ドライブ装置やインターフェース部が、音素切出部4の記録媒体ドライブ装置やインターフェース部の機能を兼ねて行ってもよい。
また、ラベリング部3は、音声データを必ずしも音素毎に区切る必要はなく、表音記号や韻律記号を用いたラベリングが可能となるような任意の基準に従って区切ってよい。従って、例えば、単語毎に区切ってもよいし、単位モーラ毎に区切ってもよい。
また、音素切出部4は必ずしも音素別音声データを作成しなくてもよく、また、音素別音声データを作成する場合も、音素別音声データ内で隣接する2個の音素データ間には、必ずしも無音状態を表す波形を挿入する必要はない。ただ、無音状態を表す波形を音素データ間に挿入した場合、音素別音声データ内での音素データ同士の境界の位置が明瞭になり、音素別音声データが表す音声を再生して人が聴き取ることによっても音素データ同士の境界の位置を識別できるようになる、という利点がある。
フォルマント抽出部5は、音素データのフォルマントの周波数の値を特定するためにケプストラム分析を行ってもよい。ケプストラム分析の具体的な処理として、フォルマント抽出部5は、例えば、音素データが表す波形の強度を、元の値の対数に実質的に等しい値へと変換する。(対数の底は任意であり、例えば常用対数などでよい。)そして、値が変換された音素データのスペクトル(すなわち、ケプストラム)を、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。そして、このケプストラムの極大値を与える周波数を、この音素データのフォルマントの周波数として特定する。
また、上述のf(k)の値は、必ずしもF(k)の値の平均値である必要はなく、例えば、評価値Hを求める対象の音素データが属する音素別音声データに含まれるすべての音素データより得られるF(k)の値の中央値あるいは最頻値であってもよい。
また、統計処理部6は、数式1に示す評価値Hを求める代わりに、数式2に示す評価値hを音素データ毎に求め、エラー検出部7が評価値hを評価値Hと同様に扱うものとしてもよい。ただし、F(k)は、評価値hを求める対象の音素データが表す音素の第kフォルマントの周波数であり、w(1)〜w(n)は重み係数であり、nは当該音素のフォルマントであって評価値hの算出に用いるもののうちもっとも周波数が高いフォルマントの次数である。すなわち、評価値hは、音素データの複数の第1〜第nフォルマントの周波数を互いに線形結合したものに相当する値をとる。
Figure 0004150645
以上、この発明の実施の形態を説明したが、この発明にかかる音声ラベリングエラー検出装置は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、パーソナルコンピュータに上述の音声データベース1、テキスト入力部2、ラベリング部3、音素切出部4、フォルマント抽出部5、統計処理部6及びエラー検出部7の動作を実行させるためのプログラムを格納した媒体(CD、MO、フロッピー(登録商標)ディスク等)から該プログラムをインストールすることにより、上述の処理を実行する音声ラベリングシステムを構成することができる。
そして、このプログラムを実行するパーソナルコンピュータが、図1の音声ラベリングシステムの動作に相当する処理として、例えば、図4に示す処理を行うものとする。図4は、このパーソナルコンピュータが実行する処理を示すフローチャートである。
すなわち、このパーソナルコンピュータは、音声コーパスをなす音声データと音響データとを記憶した上、記録媒体に記録された文字列データを読み取ると(図4、ステップS101)、まず、この文字列データが表す文字列を解析して、この文字列データが表す音声を構成する各音素及びこの音声の韻律を特定し、上述した音素ラベルの列と、特定した韻律を示すデータである韻律ラベルの列とを作成する(ステップS102)。
そして、このパーソナルコンピュータは、ステップS101で記憶した音声データを音素データへと区切り、得られた音素データを音素ラベル及び韻律ラベルによってラベリングする(ステップS103)。
次に、このパーソナルコンピュータは、音素ラベル及び韻律ラベルのラベリングが完了した各音素データを用い、上述の音素別音声データを作成し(ステップS104)、それぞれの音素別音声データについて、当該音素別音声データに含まれるそれぞれの音素データが表す音素のフォルマントの周波数を特定する(ステップS105)。ただし、ステップS105でこのパーソナルコンピュータは、無音状態を表す音素データからなる音素別音声データについては、音素データのフォルマントの周波数を特定する代わりに、無音状態を表す音素データが表す音声の大きさを特定するものとする。
次に、このパーソナルコンピュータは、ステップS105で特定したフォルマントの周波数に基づいて、上述した評価値Hあるいは評価値hを音素データ毎に求める(ステップS106)。そして、例えば、同一種類の音素を表す各音素データの評価値H(又は評価値h)の集合を母集団として、当該母集団内での平均値(あるいは中央値、最頻値など)からの偏差を、当該母集団内の評価値H(又は評価値h)毎に求め(ステップS107)、求めた偏差が所定量に達している音素データを特定する(ステップS108)。そして、特定した音素データのラベリングに誤りがある旨を示すデータを作成し、外部に出力する(ステップS109)。ただし、ステップS109でこのパーソナルコンピュータは、無音状態を表す音素データについては、ステップS105で求めた音声の大きさが所定量に達しているものを特定し、特定した無音状態の音素データのラベリングに誤りがある旨を示すデータを作成し、外部に出力するものとする。
なお、パーソナルコンピュータに上述の音声ラベリングシステムの機能を行わせるプログラムは、例えば、通信回線の掲示板(BBS)にアップロードし、これを通信回線を介して配信してもよく、また、このプログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調してこのプログラムを復元するようにしてもよい。そして、このプログラムを起動し、OSの制御下に、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行することができる。
なお、OSが処理の一部を分担する場合、あるいは、OSが本願発明の1つの構成要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラムを格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実行する各機能又はステップを実行するためのプログラムが格納されているものとする。
この発明の実施の形態に係る音声ラベリングシステムを示す図である。 (a)及び(b)は、音声データが区切られた状態を模式的に示す図である。 (a)〜(c)は、複数の音素データを含んだ音素別音声データのデータ構造を模式的に示す図である。 この発明の実施の形態に係る音声ラベリングシステムの機能を行うパーソナルコンピュータが実行する処理を示すフローチャートである。
符号の説明
1 音声データベース
2 テキスト入力部
3 ラベリング部
4 音素切出部
5 フォルマント抽出部
6 統計処理部
7 エラー検出部

Claims (9)

  1. 単位音声の波形を表す波形データと、当該単位音声の種類を識別するラベリングデータとを取得するデータ取得手段と、
    前記データ取得手段が取得したラベリングデータに基づいて、前記データ取得手段が取得した波形データを単位音声の種類別に分類する分類手段と、
    前記データ取得手段が取得した波形データが表す各々の単位音声のフォルマントの周波数を特定し、特定した周波数に基づいて当該波形データの評価値を決定する評価値決定手段と、
    同一種類に分類された波形データの集合のうちから、当該集合内での評価値の偏差が所定量に達している波形データを、ラベリングにエラーのある波形データとして検出し、検出された当該波形データを示すデータを出力するエラー検出手段と、を備える、
    ことを特徴とする音声ラベリングエラー検出装置。
  2. 前記評価値は、当該評価値を求める対象の波形データが表す単位音声の第kフォルマント(ただしkは正の整数)の周波数をF(k)とし、当該波形データと同一種類に分類された各波形データが表す単位音声の第kフォルマントの周波数の平均値をf(k)とした場合における値{|f(k)−F(k)|}を複数のkの値について求め互いに線形結合したものに相当する値をとる、
    ことを特徴とする請求項1に記載の音声ラベリングエラー検出装置。
  3. 前記評価値は、取得した波形データのスペクトルの複数のフォルマントの周波数を互いに線形結合したものに相当する値をとる、
    ことを特徴とする請求項1に記載の音声ラベリングエラー検出装置。
  4. 前記評価値決定手段は、波形データのスペクトルの極大値を与える周波数を、当該波形データが表す単位音声のフォルマントの周波数として扱う、
    ことを特徴とする請求項1、2又は3に記載の音声ラベリングエラー検出装置。
  5. 前記評価値決定手段が波形データの評価値の決定に用いるフォルマントの次数は、波形データが表す単位音声の種類であるものとしてラベリングデータが示している種類に対応付けて指定されている、
    ことを特徴とする請求項1乃至4のいずれか1項に記載の音声ラベリングエラー検出装置。
  6. 前記エラー検出手段は、無音状態を表すラベリングデータが対応付けられている波形データについては、当該波形データが表す音声の大きさが所定量に達している波形データを、ラベリングにエラーのある波形データとして検出する、
    ことを特徴とする請求項1乃至5のいずれか1項に記載の音声ラベリングエラー検出装置。
  7. 前記分類手段は、隣接する2個の波形データが無音状態を表すデータを挟むような態様で、同一種類に分類した各波形データを互いに連結する手段を備える、
    ことを特徴とする請求項1乃至6のいずれか1項に記載の音声ラベリングエラー検出装置。
  8. 単位音声の波形を表す波形データと、当該単位音声の種類を識別するラベリングデータとを取得し、
    取得したラベリングデータに基づいて、取得した波形データを単位音声の種類別に分類し、
    波形データが表す各々の単位音声のフォルマントの周波数を特定し、特定した周波数に基づいて当該波形データの評価値を決定し、
    同一種類に分類された波形データの集合のうちから、当該集合内での評価値の偏差が所定量に達している波形データを、ラベリングにエラーのある波形データとして検出し、検出された当該波形データを示すデータを出力する、
    ことを特徴とする音声ラベリングエラー検出方法。
  9. コンピュータを、
    単位音声の波形を表す波形データと、当該単位音声の種類を識別するラベリングデータとを取得するデータ取得手段と、
    前記データ取得手段が取得したラベリングデータに基づいて、前記データ取得手段が取得した波形データを単位音声の種類別に分類する分類手段と、
    前記データ取得手段が取得した波形データが表す各々の単位音声のフォルマントの周波数を特定し、特定した周波数に基づいて当該波形データの評価値を決定する評価値決定手段と、
    同一種類に分類された波形データの集合のうちから、当該集合内での評価値の偏差が所定量に達している波形データを、ラベリングにエラーのある波形データとして検出し、検出された当該波形データを示すデータを出力するエラー検出手段と、
    して機能させるためのプログラム。
JP2003302646A 2003-08-27 2003-08-27 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム Expired - Lifetime JP4150645B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2003302646A JP4150645B2 (ja) 2003-08-27 2003-08-27 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
US10/920,454 US7454347B2 (en) 2003-08-27 2004-08-18 Voice labeling error detecting system, voice labeling error detecting method and program
DE04020133T DE04020133T1 (de) 2003-08-27 2004-08-25 System zur Erkennung von Fehlern in der Sprachklassifizierung, und Verfahren und Programm dazu
DE602004000898T DE602004000898T2 (de) 2003-08-27 2004-08-25 System zur Erkennung von Fehlern in der Sprachklassifizierung, und Verfahren und Programm dazu
EP04020133A EP1511009B1 (en) 2003-08-27 2004-08-25 Voice labeling error detecting system, and method and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003302646A JP4150645B2 (ja) 2003-08-27 2003-08-27 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2005070604A JP2005070604A (ja) 2005-03-17
JP4150645B2 true JP4150645B2 (ja) 2008-09-17

Family

ID=34101192

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003302646A Expired - Lifetime JP4150645B2 (ja) 2003-08-27 2003-08-27 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム

Country Status (4)

Country Link
US (1) US7454347B2 (ja)
EP (1) EP1511009B1 (ja)
JP (1) JP4150645B2 (ja)
DE (2) DE04020133T1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4158937B2 (ja) * 2006-03-24 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕修正装置
JP4981519B2 (ja) * 2007-05-25 2012-07-25 日本電信電話株式会社 学習データのラベル誤り候補抽出装置、その方法及びプログラム、その記録媒体
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与***
US9824684B2 (en) * 2014-11-13 2017-11-21 Microsoft Technology Licensing, Llc Prediction-based sequence recognition
JP6585022B2 (ja) * 2016-11-11 2019-10-02 株式会社東芝 音声認識装置、音声認識方法およびプログラム
JP7259988B2 (ja) * 2019-11-25 2023-04-18 日本電信電話株式会社 検知装置、その方法、およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5796916A (en) * 1993-01-21 1998-08-18 Apple Computer, Inc. Method and apparatus for prosody for synthetic speech prosody determination
JPH06266389A (ja) 1993-03-10 1994-09-22 N T T Data Tsushin Kk 音素ラベリング装置
JPH1138989A (ja) * 1997-07-14 1999-02-12 Toshiba Corp 音声合成装置及び方法
US6411932B1 (en) * 1998-06-12 2002-06-25 Texas Instruments Incorporated Rule-based learning of word pronunciations from training corpora
AU772874B2 (en) * 1998-11-13 2004-05-13 Scansoft, Inc. Speech synthesis using concatenation of speech waveforms
JP3841596B2 (ja) * 1999-09-08 2006-11-01 パイオニア株式会社 音素データの生成方法及び音声合成装置
JP2003271182A (ja) * 2002-03-18 2003-09-25 Toshiba Corp 音響モデル作成装置及び音響モデル作成方法
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
US7280967B2 (en) * 2003-07-30 2007-10-09 International Business Machines Corporation Method for detecting misaligned phonetic units for a concatenative text-to-speech voice

Also Published As

Publication number Publication date
EP1511009A1 (en) 2005-03-02
JP2005070604A (ja) 2005-03-17
DE602004000898T2 (de) 2006-09-14
US7454347B2 (en) 2008-11-18
EP1511009B1 (en) 2006-05-17
DE602004000898D1 (de) 2006-06-22
DE04020133T1 (de) 2005-07-14
US20050060144A1 (en) 2005-03-17

Similar Documents

Publication Publication Date Title
Zwicker et al. Automatic speech recognition using psychoacoustic models
EP0680653B1 (en) A method for training a tts system, the resulting apparatus, and method of use thereof
US20050171778A1 (en) Voice synthesizer, voice synthesizing method, and voice synthesizing system
CN109313891B (zh) 用于语音合成的***和方法
JP4516863B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
WO2009026270A2 (en) Hmm-based bilingual (mandarin-english) tts techniques
CN105609097A (zh) 语音合成装置及其控制方法
CN102473416A (zh) 音质变换装置及其方法、元音信息制作装置及音质变换***
KR20060008330A (ko) 음성 합성 장치, 음성 합성 방법 및 프로그램
JP2012141354A (ja) 音声合成方法、音声合成装置及び音声合成プログラム
CN1956057B (zh) 一种基于决策树的语音时长预测装置及方法
JPWO2016103652A1 (ja) 音声処理装置、音声処理方法、およびプログラム
US7089187B2 (en) Voice synthesizing system, segment generation apparatus for generating segments for voice synthesis, voice synthesizing method and storage medium storing program therefor
JP4150645B2 (ja) 音声ラベリングエラー検出装置、音声ラベリングエラー検出方法及びプログラム
JP4287785B2 (ja) 音声合成装置、音声合成方法及びプログラム
EP2062252B1 (en) Speech synthesis
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
US20070100627A1 (en) Device, method, and program for selecting voice data
JP2005018036A (ja) 音声合成装置、音声合成方法及びプログラム
JP2536169B2 (ja) 規則型音声合成装置
EP1589524B1 (en) Method and device for speech synthesis
US9251782B2 (en) System and method for concatenate speech samples within an optimal crossing point
JP2009271190A (ja) 音声素片辞書作成装置及び音声合成装置
JP3881970B2 (ja) 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051017

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080617

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080630

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4150645

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130704

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term