JPH08166798A - Phoneme dictionary forming device and its method - Google Patents

Phoneme dictionary forming device and its method

Info

Publication number
JPH08166798A
JPH08166798A JP6311593A JP31159394A JPH08166798A JP H08166798 A JPH08166798 A JP H08166798A JP 6311593 A JP6311593 A JP 6311593A JP 31159394 A JP31159394 A JP 31159394A JP H08166798 A JPH08166798 A JP H08166798A
Authority
JP
Japan
Prior art keywords
phoneme
unit
section
speaker
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6311593A
Other languages
Japanese (ja)
Inventor
Yoshiaki Teramoto
良明 寺本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6311593A priority Critical patent/JPH08166798A/en
Publication of JPH08166798A publication Critical patent/JPH08166798A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

PURPOSE: To provide a technique for automatically forming a phoneme dictionary which is used for a non-specific speaker speech recognizing device based on phonemes and in which the phonemes of many persons are previously stored. CONSTITUTION: The data of the elementary piece waveforms of the many phonemes segmented from speech data of words, etc., uttered by many speakers of several tens persons or above are previously stored in an elementary piece waveform storage section 13. Speech synthesis is executed sequentially by each phoneme group in certain specified time (for example, at every other one second) in a phoneme synthesizing section 14. The speeches are outputted from a speaker 12. The speeches picked up by a microphone 20 are converted to digital data by an A/D conversion section 21. The digital data is subjected to calculation processing of recognition parameters in real time in a parameter conversion section 22 for recognition. The parameters of stationary parts between the speech sections for one second uttered in the speech synthesizing section are segmented by a phoneme segmenting section 23 and are stored into a phoneme dictionary storage section 34, by which the phoneme dictionary is formed.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、音素辞書作成装置に関
する。近年、自動車内でのナビゲーションシステムの入
力手段、電話回線を通じてコンピュータ上のデータベー
スをアクセスする際の検索情報の入力手段、或いは、無
線装置を通してする工場内での製品の検査結果の入力手
段の如く、キーボード・マウスなどの通常のコンピュー
タの入力手段が使用出来ない分野でそれに代わる入力手
段として、音声認識装置の適用が期待されている。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a phoneme dictionary creating device. In recent years, such as an input means of a navigation system in an automobile, an input means of search information when accessing a database on a computer through a telephone line, or an input means of an inspection result of a product in a factory through a wireless device, It is expected that a voice recognition device will be applied as an alternative input means in the field where the usual computer input means such as a keyboard and mouse cannot be used.

【0002】音声認識技術としては、単語単位の音声を
登録し、登録されている音声と入力された音声のマッチ
ングを行ない認識結果を出力する全登録型の方式と、音
節もしくは音素という音声の構成単位で音声を登録して
おき、その構成単位の組合せと入力された音声のマッチ
ングを行ない認識結果を出力する方式がある。また、使
用する話者の音声データを必ず登録する必要がある特定
話者認識方式と、あらかじめ多数の話者の音声データが
登録されていて使用する話者の音声を登録する必要がな
い不特定話者音声認識の2種類の方式がある。本発明
は、音素を基礎とした不特定話者音声認識装置に使用す
るところの、多人数の音素を格納しておく音素辞書を自
動的に作成する技術に関するものである。
As a voice recognition technique, a voice is registered in word units, a registered voice is matched with an input voice and a recognition result is output, and a voice structure called a syllable or a phoneme. There is a system in which voices are registered in units, the combination of the constituent units is matched with the input voice, and the recognition result is output. In addition, the specific speaker recognition method that requires the voice data of the speaker to be used must be registered, and the voice data of a large number of speakers that are registered in advance so that the voices of the speakers to be used need not be registered There are two types of speaker voice recognition. The present invention relates to a technique for automatically creating a phoneme dictionary for storing phonemes of a large number of people, which is used in a phoneme-based unspecified speaker voice recognition device.

【0003】[0003]

【従来の技術】一般的な音声認識装置の構成図を図10に
示す。図中、10は人間で、発声者を表す、20はマイクロ
フォン(以下、マイクと略する。)で、音声を電気信号
に変換するもの、21はA/D変換部で、アナログデータ
を、デジタルデータに変換するもの、22は認識用パラメ
ータ変換部で、波形データを操作することで、音声認識
として使用される認識用パラメータに変換を行なうも
の、34は音素辞書蓄積部で、音素毎に認識パラメータを
格納するもの、51は音素ラティス生成部で、認識用パラ
メータを音素辞書とマッチングすることにより、音素ラ
ティス(音声区間の各入力フレームと各音素との類似度
を求めた類似度行列を言う。)を生成するもの、52は認
識語彙蓄積部で、認識対象となる語彙の読み情報などを
蓄積しておくもの、53は単語照合部で、単語照合を行い
認識結果を得るもの、54は認識結果表示装置で、認識結
果を利用者に提示するための表示装置手段である。以
下、図10を用いて従来の音素単位の音声認識装置の説明
を行なう。
2. Description of the Related Art A block diagram of a general voice recognition device is shown in FIG. In the figure, 10 is a human being, which represents a speaker, 20 is a microphone (hereinafter, abbreviated as a microphone), which converts voice into an electric signal, 21 is an A / D converter, which converts analog data into digital data. Data is converted into data, 22 is a recognition parameter conversion unit, which converts waveform data into recognition parameters used for speech recognition, and 34 is a phoneme dictionary storage unit, which recognizes each phoneme. A phoneme lattice generator 51 stores parameters, and refers to a phoneme lattice (similarity matrix obtained by calculating the similarity between each input frame and each phoneme in a speech section by matching the recognition parameter with a phoneme dictionary). .) Is generated, 52 is a recognition vocabulary storage unit that stores reading information of the vocabulary to be recognized, 53 is a word matching unit, which performs word matching to obtain a recognition result, and 54 is Recognition In the display device, a display device means for presenting the recognition result to the user. Hereinafter, a conventional phoneme-based speech recognition device will be described with reference to FIG.

【0004】先ず、人間10が発声した単語単位の音声
は、マイク20から入力され、A/D変換部21によりデジ
タルデータに変換される。さらに、認識パラメータ変換
部22によって、一定間隔(例えば、5ms 、15ms)毎に認
識パラメータに変換される。認識パラメータとしては一
般的に、メルスペクトルや、LPCパラメータなどが良
く使用される。
First, a word-based voice uttered by the human 10 is input from the microphone 20 and converted into digital data by the A / D converter 21. Furthermore, the recognition parameter conversion unit 22 converts the recognition parameters into recognition parameters at regular intervals (for example, 5 ms and 15 ms). In general, mel spectra, LPC parameters, etc. are often used as the recognition parameters.

【0005】計算された入力単語の認識パラメータは、
あらかじめ用意してある音素辞書蓄積部34から登録され
ている各音素の認識用登録パターンを得て、音素ラティ
ス生成部51で各音素毎の最小距離を計算し音素ラティス
を生成する。
The calculated recognition parameter of the input word is
The registration pattern for recognition of each registered phoneme is obtained from the phoneme dictionary storage unit 34 prepared in advance, and the phoneme lattice generation unit 51 calculates the minimum distance for each phoneme to generate the phoneme lattice.

【0006】さらに、認識語彙蓄積部52に格納されてい
る全ての単語に対して、単語照合部53では、音素ラティ
スの距離を累積した累積距離を算出し、一番距離の小さ
いものを認識結果として、認識結果表示装置54に出力す
る。
Further, with respect to all the words stored in the recognition vocabulary accumulating section 52, the word collating section 53 calculates a cumulative distance obtained by accumulating the distances of the phoneme lattices, and the one having the smallest distance is recognized. Is output to the recognition result display device 54.

【0007】次に、音素辞書作成の従来例を図11に示
す。図中、11はテープレコーダ、12はスピーカである。
31は音声自動セグメンテーション部で、音素毎にラベル
づけするもの、32は音声ラベルで、入力となる音声デー
タを音素記号列で表現したデータを蓄積したもの、33は
音素切り出し部で、得られた認識パラメータを切り出し
て音素辞書蓄積部に格納するものである。その他の要素
は図10に示すと同じである。
FIG. 11 shows a conventional example of phoneme dictionary creation. In the figure, 11 is a tape recorder and 12 is a speaker.
Reference numeral 31 is an automatic speech segmentation unit, which labels each phoneme, 32 is a speech label, which is data obtained by accumulating data that represents input voice data as a phoneme symbol string, and 33 is a phoneme segmentation unit. The recognition parameters are cut out and stored in the phoneme dictionary storage unit. The other elements are the same as those shown in FIG.

【0008】先ず、図11に示す従来例と同様にして、人
間があらかじめ定めておいた単語を発声するか、或い
は、あらかじめ人間が発声した音声を録音したデータを
テープレコーダにより再生し、スピーカにより出力す
る。図1には示されていない人間によって直接発声され
た音声或いはスピーカ12から出力された音声は、マイク
20によって集音され、A/D変換部21によりディジタル
データに変換された後、認識パラメータ変換部22によっ
て、認識パラメータに変換される。認識用パラメータ変
換は認識時と全く同一の性質のものである。
First, in the same manner as in the conventional example shown in FIG. 11, a human utters a predetermined word, or data recorded in advance by a human is recorded by a tape recorder and reproduced by a speaker. Output. The voice directly uttered by a person not shown in FIG. 1 or the voice output from the speaker 12 is a microphone.
The sound is collected by 20 and converted into digital data by the A / D converter 21 and then converted into recognition parameters by the recognition parameter converter 22. The recognition parameter conversion has exactly the same property as that at the time of recognition.

【0009】その認識用パラメータは、31の音声自動セ
グメンテーション部によって、音素毎にラベルづけされ
る。例えば、/shima/ という単語が発声された場合は、
[sh]-[i]-[m]-[a]という4つの音素からなるという情報
を32の音素ラベルから得て、各々のフレームがどの音素
に対応するかという情報を求める。このセグメンテーシ
ョンを行なう方法としては、認識のアルゴリズムを使用
して自動的に行なう方法の他に、人手による目視セグメ
ンテーションを行なう場合もある。
The recognition parameters are labeled for each phoneme by 31 speech automatic segmentation units. For example, if the word / shima / is spoken,
The information that four phonemes of [sh]-[i]-[m]-[a] are formed is obtained from the 32 phoneme labels, and the information as to which phoneme each frame corresponds to is obtained. As a method of performing this segmentation, there is a case of performing visual segmentation by hand, in addition to a method of automatically using a recognition algorithm.

【0010】音素切り出し部33では、切り出し規則に応
じて各音素の認識用パラメータを1個ないし数個切り出
して、音素辞書蓄積部34に蓄積する動作を行なう。通常
は、以上のような過程を経て音素辞書が作成されるが、
本格的な音素辞書を作成するためには、何百人もの話者
が何千単語も発声する必要があるため、非常に手間のか
かる作業になってくる。というのも、認識技術がまだ未
完全なため切り出し誤りを必ず生じるため、その部分に
人手によるチェックが必要であるからである。
The phoneme cutout unit 33 cuts out one or several recognition parameters of each phoneme according to the cutout rule and stores the cutout parameters in the phoneme dictionary storage unit 34. Usually, a phoneme dictionary is created through the above process,
In order to create a full-fledged phoneme dictionary, hundreds of speakers need to utter thousands of words, which is a very troublesome task. This is because the recognition technology is still incomplete, and a cut-out error will always occur, so that part must be checked manually.

【0011】[0011]

【発明が解決しようとする課題】音声認識装置を使用す
る環境が異なると、色々な要因のために人間の発声する
音声が認識装置まで到達する間のアナログ特性の違いに
より、得られる認識用パラメータにかなりの違いが生じ
てくる場合も考えられる。
When the environment in which the voice recognition device is used is different, the recognition parameters obtained by the difference in the analog characteristics during the time when the voice uttered by a human reaches the recognition device due to various factors. It is possible that there will be a considerable difference between the two.

【0012】すなわち、入力手段の存在する場所によっ
てマイク系および音声信号の伝達系の周波数特性が違っ
ていたり、マイクなどが十分なダイナミックレンジを持
たないことや低周波のノイズの影響により音声信号に歪
みが見られる場合、周囲から混入してくる定常ノイズの
影響、などが考えられる。
That is, the frequency characteristics of the microphone system and the transmission system of the audio signal differ depending on the location of the input means, the microphone does not have a sufficient dynamic range, and the influence of low frequency noise affects the audio signal. When distortion is observed, it is considered that stationary noise is mixed in from the surroundings.

【0013】実際の音声認識装置は、例えば、カラオケ
用のマイクを流用して認識を行なう場合、雑音の多い場
所のために指向特性を持ったマイクを使用する場合、電
話の受話器および電話回線を通した音声を使用する場
合、遠隔値で使用するために無線装置を経由する場合な
ど、さまざまな方面で使用されることが予想されるため
に、その使用される場面に応じてアナログ特性は変化す
ると考えるのは妥当であろう。
In an actual voice recognition device, for example, when a microphone for karaoke is used for recognition, when a microphone having directional characteristics is used for a noisy place, a telephone receiver and a telephone line are connected. It is expected to be used in various fields, such as when using voice that is passed through and when passing through a wireless device to use at a remote value.Therefore, the analog characteristics change depending on the usage scene. It seems reasonable to think so.

【0014】このような多種の使用環境で用いられる場
合でも、例えば登録パターンと、入力パターンとをマッ
チングさせて、認識結果を出力する、単語登録型認識装
置では、使用環境で登録を行なえば問題は解決される。
Even when used in such various usage environments, a word registration type recognition apparatus that matches a registration pattern with an input pattern and outputs a recognition result has a problem if registration is performed in the usage environment. Is resolved.

【0015】しかし不特定話者の音素を使用した、音声
認識装置では、あらかじめ不特定多数の話者が発声した
音声データから抽出した音素辞書を用意しておくため
に、収録の際のアナログ系と、装置を使用する際のアナ
ログ系が違うとすると、基本となる音素の特徴量が異な
ってくるために、結果として十分な認識率が得られない
場合が生じる。
However, in a voice recognition device using phonemes of unspecified speakers, an analog system at the time of recording is prepared in order to prepare a phoneme dictionary extracted from speech data uttered by an unspecified number of speakers in advance. If the analog system when using the device is different, the basic phoneme feature amount is different, and as a result, a sufficient recognition rate may not be obtained.

【0016】すなわち、認識装置を使用する環境によっ
て、音素辞書を差し替えるのが、認識率を低下させない
一番の方法ではある。しかし、従来、音素辞書を作成す
るためには、非常に大きな人手と手間がかかるという問
題があった。その原因は、従来例の音素自動セグメンテ
ーション部22は認識と同等もしくはそれ以上の膨大な計
算量を必要とするため、動作に時間がかかり、また自動
とはいえ現在の技術レベルでは必ず間違う可能性がある
ため、人間のチェックが不可欠になってくるためであ
る。
That is, replacing the phoneme dictionary depending on the environment in which the recognition device is used is the first method that does not reduce the recognition rate. However, conventionally, there has been a problem that it takes a great deal of labor and time to create a phoneme dictionary. The cause is that the phoneme automatic segmentation unit 22 of the conventional example requires a huge amount of calculation equivalent to or more than recognition, so it takes time to operate, and even though it is automatic, there is a possibility that it will be wrong at the current technical level. This is because human check becomes indispensable.

【0017】本発明は、人手による修正・チェック等の
作業を必要とせずに音素辞書作成をすることを目的とす
る。
An object of the present invention is to create a phoneme dictionary without the need for manual correction / checking work.

【0018】[0018]

【課題を解決するための手段】図1は、本発明の原理説
明図である。図中、12はスピーカで、合成装置からの出
力を音声に変換するもの、13は素片波形蓄積部で、音声
合成を行なう際に使用する音素片のデータを蓄積してお
くもの、14は音素合成部で、音素片を接続する計算を行
なうことで任意の音素波形を合成するもの、20はマイク
で音声を電気信号に変換するもの、21はA/D変換部
で、アナログデータをサンプリングしてディジタル値に
変換することでデジタルデータに変換するもの、22は認
識用パラメータ変換部で、波形データを操作することで
音声認識として使用される認識用パラメータに変換を行
なうもの、33は音素切り出し部で、得られた認識パラメ
ータを切り出して音素辞書蓄積部に格納するもの、34は
音素辞書蓄積部で、音素毎に認識パラメータを格納する
ものである。
FIG. 1 is a diagram for explaining the principle of the present invention. In the figure, 12 is a speaker, which converts the output from the synthesizer into speech, 13 is a unit waveform storage unit, which stores the data of the phonemes used when performing voice synthesis, and 14 is A phoneme synthesizer that synthesizes arbitrary phoneme waveforms by performing calculations to connect phoneme pieces, 20 is a microphone that converts voice into an electrical signal, 21 is an A / D converter that samples analog data To convert it to digital data by converting it to digital data, 22 is a recognition parameter conversion unit that converts waveform data into recognition parameters used for speech recognition, and 33 is a phoneme. The cutout unit cuts out the obtained recognition parameters and stores them in the phoneme dictionary storage unit, and 34 is a phoneme dictionary storage unit that stores the recognition parameters for each phoneme.

【0019】先ず、人間もしくはテープレコーダを通し
て発声する単語単位の音声の代わりに、音素合成部14を
新たに追加する。最近では、波形合成方式の方式のよう
な、十分な明瞭性を持ち、その合成音声の持つ特徴量が
人間の発声した音声とほとんど変わらないレベルにまで
達している。音素合成部14から、ある定められた一定時
間、音素を合成させ、スピーカ12からその合成した音素
を鳴らすようにする。
First, a phoneme synthesis unit 14 is newly added in place of a word-based voice uttered by a human or a tape recorder. Recently, it has sufficient clarity like the waveform synthesis method, and the feature amount of the synthesized speech has reached a level almost the same as the voice uttered by humans. The phoneme synthesizer 14 synthesizes the phonemes for a certain fixed time, and the speaker 12 sounds the synthesized phonemes.

【0020】音素の種類として、母音([a], [i], [u],
[e], [o]) 、鼻音([m], [n])、有声摩擦音([j], [z])、
無声摩擦音([sh], [s], [h], [f]) 、有声破裂音([b],
[d],[g]) および無声破裂音([p], [t], [k]) などがあ
る。この中で母音の場合だけは、人間は音素を定常的に
発声出来るが、その他の音素に関しては、一般に人間は
音素を定常的に発声出来ない。たとえ発声出来たとして
も、不自然な発声になってしまい認識の際に使用できる
かどうかは不明である。
Vowels ([a], [i], [u],
[e], [o]), nasal sounds ([m], [n]), voiced fricatives ([j], [z]),
Unvoiced fricatives ([sh], [s], [h], [f]), voiced plosives ([b],
[d], [g]) and unvoiced plosives ([p], [t], [k]). Among these, only in the case of vowels, humans can steadily utter phonemes, but with respect to other phonemes, generally humans cannot steadily utter phonemes. Even if it can be uttered, it is unclear whether it can be used for recognition because it becomes unnatural utterance.

【0021】これに対して合成された音素では、人間が
発声した音声の中から切り出した素片を使用しているた
めに、各々の音素に対して、安定した発声を行なわせる
ことが可能である。本発明では、マイク20からの入力単
位が、音素毎であるために、音声の自動セグメンテーシ
ョン部31が不必要になってくる。その結果、多くの計算
量が必要であったり、間違いを人手によって修正しなけ
ればならない等の音声の自動セグメンテーションの有す
る欠点が無くなる。
On the other hand, in the synthesized phoneme, since the segment cut out from the voice uttered by a human being is used, it is possible to make each phoneme perform stable utterance. is there. In the present invention, since the input unit from the microphone 20 is each phoneme, the automatic speech segmentation unit 31 becomes unnecessary. As a result, the disadvantages of automatic segmentation of speech, such as requiring a large amount of calculation and having to manually correct mistakes, are eliminated.

【0022】音素の合成方式の例として、波形合成方式
の説明図を図2に示す。周期性のある( ピッチを持って
いる) 音素に関しては、人間の発声した音声から、1ピ
ッチ分もしくは2ピッチ分の素片波形をあらかじめ切り
出しておき、そのデータを使用する。
FIG. 2 shows an explanatory diagram of a waveform synthesizing method as an example of the phoneme synthesizing method. For a phoneme with a periodicity (having a pitch), a segment waveform for one pitch or two pitches is cut out in advance from the voice uttered by a human and the data is used.

【0023】さらに音声の素片データに、窓掛けを行な
うことによって接続を滑らかに行なう。窓掛けの形状と
しては、例えばハニング窓などが使用される。なお、ハ
ニング窓とは、w(t) =0.5+0.5×cos(2π
t/T)の計算式で与えられる窓のことであり、波形を
連続的に接続する際に、窓を使用しないと合成された波
形に不連続な箇所が生じる場合があるため、中心付近で
1、最端で0になめらかに移行するような重みを乗じて
から接続するために使用されることが多い。この素片波
形をピッチ毎の時間間隔で接続することによって、図の
ように元の音声波形と同じ性質を持った音素波形を合成
することが出来る。
Further, windowing is performed on the voice segment data to make the connection smooth. As the window hanging shape, for example, a Hanning window or the like is used. The Hanning window is w (t) = 0.5 + 0.5 × cos (2π
t / T) is the window given by the formula, and when connecting waveforms continuously, a discontinuous portion may occur in the synthesized waveform unless a window is used. It is often used to connect after being multiplied by a weight that smoothly transitions to 1 and 0 at the end. By connecting the segment waveforms at time intervals of each pitch, it is possible to synthesize a phoneme waveform having the same properties as the original speech waveform as shown in the figure.

【0024】また、ピッチを持たない無声摩擦音に関し
ては、その対応する摩擦音の音声パターンをある一定長
( 例えば、100ms 等) 分を切り出し、そのまま持ってお
き、その素片パターンを繰り返すことで音声を合成す
る。
For an unvoiced fricative having no pitch, the voice pattern of the corresponding fricative is set to a certain length.
(For example, 100 ms) is cut out, held as it is, and the speech is synthesized by repeating the segment pattern.

【0025】ただし、この場合も同様で、2つの素片波
形の接続時に不自然さが生じないように、素片波形の端
の部分にハニング窓のようななめらかな窓を掛けてなめ
らかに接続を行なうようにする。
However, in this case as well, a smooth window such as a Hanning window is hung on the end portions of the element waveforms to smoothly connect them so that no unnaturalness occurs when the two element waveforms are connected. To do.

【0026】なお、無声破裂音のような定常的でない過
渡特性を有する音素もあるが、これに対しても、破裂部
のパターンを持っておき、繰り返し音素合成部で合成す
ることで、音素の合成を行なうことが出来る。
Some phonemes have non-stationary transient characteristics such as unvoiced plosives. Against this, the pattern of the plosive part is held and synthesized by the repeated phoneme synthesis part to obtain the phoneme of the phoneme. Synthesis can be performed.

【0027】[0027]

【作用】以下、図1から図9を用いて各請求項の発明の
作用を説明する。図中、15は音量可変部で、合成音声を
出力する際の音量レベルを変更するもの、16はホワイト
ノイズ生成部で、ホワイトノイズを生成するもの、17は
スピーカ特性補正フィルタで、スピーカの周波数特性を
補正して適正な総合特性を得るもの、23は入力音量検出
部で、入力信号のレベルを求め入力音声の音量を検出す
るもの、24は周波数帯域検出部で、入力されたホワイト
ノイズの周波数特性を求めることで伝送系全体について
の周波数帯域を検出するもの、25は周波数分割計算部
で、周波数帯域を分割して各チャンネル毎に分割された
周波数帯域を計算するもの、26はスピーカ特性補正部
で、スピーカの特性を補正するもの、35は認識/登録モ
ード切替え部で、認識モードと登録モードの2つのモー
ドに応じて認識用パラメータの使用方法を変更するため
に使用方法を変更するもの、36は切り出しタイミング制
御部で、音素合成部と音素切り出し部とのタイミングを
制御するもの、37はピッチ可変制御部で、音素の合成を
行なう場合に外部からピッチの制御を行なえるようにす
るためのものである。その他の要素はこれまでに説明し
た通りである。
The operation of the present invention will be described below with reference to FIGS. 1 to 9. In the figure, reference numeral 15 is a volume variable section, which changes the volume level when outputting the synthesized voice, 16 is a white noise generation section, which generates white noise, 17 is a speaker characteristic correction filter, and is a speaker frequency. Correcting the characteristics to obtain proper overall characteristics, 23 is an input sound volume detection unit that detects the volume of the input sound by obtaining the level of the input signal, and 24 is a frequency band detection unit that detects the input white noise. Detects the frequency band for the entire transmission system by obtaining the frequency characteristics, 25 is a frequency division calculation unit, which divides the frequency band and calculates the frequency band divided for each channel, 26 is the speaker characteristic A correction unit for correcting the characteristics of the speaker, and 35 is a recognition / registration mode switching unit, which changes the usage method of the recognition parameters according to the two modes of the recognition mode and the registration mode. 36 is a cutout timing control unit, which controls the timing between the phoneme synthesis unit and the phoneme cutout unit, and 37 is a pitch variable control unit, which is externally used when synthesizing phonemes. This is to enable control of the pitch. The other elements are as described above.

【0028】請求項1の発明では、図1に示す如く、あ
らかじめ数十人以上の多数話者の発声した単語などの音
声データから切り出した数多くの音素の素片波形のデー
タを素片波形蓄積部13に蓄えておき、図3に示す如く、
ある一定時間( 例えば1秒おき) に音素グループ毎に順
番に音声合成を音素合成部14で行ない、その音声をスピ
ーカ12から出力する。マイク20で拾われた音声は、A/
D変換部21によってディジタルデータに変換された後、
認識用パラメータ変換部22でリアルタイムで認識パラメ
ータの計算処理が行なわれ、音声合成部で発声された1
秒間の音声区間の中間の、定常的な部分のパラメータを
音素切り出し部33が切り出し、音素辞書蓄積部34に格納
することによって、音素辞書を作成する。
According to the first aspect of the present invention, as shown in FIG. 1, a large number of phoneme unit waveform data extracted from voice data such as words uttered by a plurality of dozens or more speakers in advance is stored as a unit waveform. Stored in the section 13, and as shown in FIG.
At a certain fixed time (every 1 second, for example), the phoneme synthesis unit 14 sequentially performs voice synthesis for each phoneme group, and outputs the voice from the speaker 12. The voice picked up by the microphone 20 is A /
After being converted into digital data by the D conversion unit 21,
The recognition parameter conversion unit 22 performs recognition parameter calculation processing in real time, and the uttered voice is generated by the voice synthesis unit 1.
A phoneme dictionary is created by the phoneme cutout unit 33 cutting out the parameters of the stationary part in the middle of the voice section for one second and storing them in the phoneme dictionary storage unit 34.

【0029】請求項2の発明では、音素辞書作成装置の
スピーカ12とマイク20とを音素辞書作成装置の使用され
る環境下に配置し、音素合成部14で音素毎に繰り返して
合成された音声を前記環境下でスピーカ12から出力し、
そのスピーカ出力音声をマイク20などの音声入力手段か
ら入力して音素辞書を作成する。
According to the second aspect of the present invention, the speaker 12 and the microphone 20 of the phoneme dictionary creating device are arranged in an environment in which the phoneme dictionary creating device is used, and the speech synthesized by the phoneme synthesizer 14 is repeated for each phoneme. Is output from the speaker 12 under the environment,
The speaker output voice is input from voice input means such as the microphone 20 to create a phoneme dictionary.

【0030】請求項3の発明では、図4に示す如く、音
素合成部14と音素切り出し部33との間に、切り出しタイ
ミング制御部36を設けて、過渡的な特徴を有する音素の
切り出しを行なう。
In the third aspect of the invention, as shown in FIG. 4, a cutout timing control section 36 is provided between the phoneme synthesis section 14 and the phoneme cutout section 33 to cut out a phoneme having a transient characteristic. .

【0031】請求項4では、図5に示す如く、ピッチ可
変制御部37を設け、素片波形を接続する間隔である合成
ピッチを操作し、音素の合成ピッチを変更させた音素パ
ターンを使用して音素辞書を作成する。
According to a fourth aspect of the present invention, as shown in FIG. 5, a pitch variable control unit 37 is provided, and a phoneme pattern in which the phoneme composite pitch is changed by operating the compound pitch which is an interval for connecting the element waveforms is used. Create a phoneme dictionary.

【0032】請求項5では、図6に示す如く、音量可変
部15を設け、音素合成部より出力する音量を操作し、音
量を変更させた際の音素パターンを使用して音素辞書を
作成する。
According to a fifth aspect, as shown in FIG. 6, a volume varying section 15 is provided, the volume output from the phoneme synthesis section is operated, and a phoneme dictionary is created using the phoneme pattern when the volume is changed. .

【0033】請求項6では、図7に示す如く、ホワイト
ノイズ発生部16と、周波数帯域検出部24、周波数分割計
算部25とを設け、音素辞書作成に先んじてアナログ系の
周波数帯域を求め、その周波数帯域に応じたチャンネル
分割の特徴パラメータを計算して音素辞書作を作成す
る。
In the sixth aspect, as shown in FIG. 7, a white noise generating section 16, a frequency band detecting section 24, and a frequency division calculating section 25 are provided to obtain an analog frequency band prior to the creation of the phoneme dictionary. A phoneme dictionary is created by calculating the characteristic parameters of channel division according to the frequency band.

【0034】請求項7では、図8に示す如く、スピーカ
特性補正フィルタ17を設け、スピーカの特性を補償し
て、好ましい総合特性の発声システムを構成して、これ
を通して音素辞書を作成する。
According to a seventh aspect of the present invention, as shown in FIG. 8, a speaker characteristic correction filter 17 is provided to compensate the speaker characteristic to construct a voicing system having a preferable total characteristic, and a phoneme dictionary is created through this.

【0035】[0035]

【実施例】図3に第1の実施例を示す。本実施例は、図
10に示す音声認識装置と、図1に示す音素辞書作成装置
をまとめて、共通の部分を一つに統合したものである。
EXAMPLE FIG. 3 shows a first example. This example shows
The speech recognition device shown in FIG. 10 and the phoneme dictionary creation device shown in FIG. 1 are put together and the common parts are integrated into one.

【0036】先ず、多数話者の音素を合成するための機
能としては、素片波形蓄積部13、音声合成部14、スピー
カ12が、新しく追加されている。さらに音声認識装置に
対する追加の機能として、認識/登録モード切替え部35
および、音素切り出し部33がある。認識/登録モード切
替え部35により音声認識モードおよび音素辞書作成モー
ドの二種類の機能を各々切替えることが出来る。音声認
識モードの場合は、認識パラメータ変換部22で得られた
認識パラメータは、音素ラティス生成部51にそのまま送
られ、音素辞書蓄積部34の音素データは、音素ラティス
を生成するために使用される。音素辞書作成モードの場
合は、認識パラメータ変換部22で得られた認識パラメー
タは、音素切り出し部33に送られ、音素辞書蓄積部34の
音素辞書データに追加される。
First, as a function for synthesizing phonemes of a large number of speakers, a segment waveform accumulating unit 13, a voice synthesizing unit 14, and a speaker 12 are newly added. As an additional function to the voice recognition device, the recognition / registration mode switching unit 35
Also, there is a phoneme cutout unit 33. The recognition / registration mode switching unit 35 can switch between two types of functions, a voice recognition mode and a phoneme dictionary creation mode. In the case of the voice recognition mode, the recognition parameter obtained by the recognition parameter conversion unit 22 is sent as it is to the phoneme lattice generation unit 51, and the phoneme data of the phoneme dictionary storage unit 34 is used to generate the phoneme lattice. . In the phoneme dictionary creation mode, the recognition parameters obtained by the recognition parameter conversion unit 22 are sent to the phoneme cutout unit 33 and added to the phoneme dictionary data in the phoneme dictionary storage unit 34.

【0037】図4に第2の実施例を示す。これ以外の部
分は、上記第1の実施例と同じである。音声合成部で
は、破裂音などの時間的に定常な性質を持たない音素の
合成を行なう。この場合の説明は、子音+母音の音節単
位での合成の例を説明する。(例えば[p]+[i] で /ピ/
という音節を合成する) その子音の一番特徴を持った時
間位置( 例えば、破裂音の場合は破裂開始時点) に合わ
せて、切り出すようにする。切り出しタイミング制御部
36では、音声合成、音声の伝達経路、認識パラメータの
計算などの時間的遅延を計算に入れて、丁度子音の一番
特徴を持った位置の音素を切り出す。
FIG. 4 shows a second embodiment. The other parts are the same as those in the first embodiment. The speech synthesis unit synthesizes phonemes that do not have temporally stationary properties such as plosive sounds. In this case, an example of synthesizing consonant + vowel in syllable units will be described. (For example, [p] + [i] / /
The syllable is synthesized.) The consonant is cut out according to the time position that has the most characteristic of the consonant (for example, in the case of a plosive sound, the time when the plosive starts). Cutout timing control unit
In 36, the time delays such as voice synthesis, voice transfer path, and recognition parameter calculation are taken into account, and the phoneme at the position having the most characteristic consonant is cut out.

【0038】このようにすると、定常的な性質を持たな
い、過渡的な特徴量を有する無声破裂子音などの音素に
ついても、実際に使用される環境に近い発声から認識用
音素パラメータを作成することが可能になる。
In this way, even for phonemes such as unvoiced plosive consonants that have transient characteristics and do not have stationary properties, phoneme parameters for recognition must be created from vocalizations that are close to the environment in which they are actually used. Will be possible.

【0039】図5に第3の実施例を示す。これ以外の部
分は、上記第1の実施例と同じである。この実施例で
は、ピッチ可変制御部37が、追加されている。このピッ
チ可変制御部37を使用することで、周期性を持つ音素
(有声音)を登録する際に、数種類の異なるピッチで音
素の合成を行なうことが出来るために、ピッチを変更さ
せた場合の音素を音素辞書蓄積部34に登録することが可
能になる。
FIG. 5 shows a third embodiment. The other parts are the same as those in the first embodiment. In this embodiment, a variable pitch controller 37 is added. By using the pitch variable control unit 37, when registering a phoneme (voiced sound) having periodicity, it is possible to synthesize the phonemes at several different pitches. Phonemes can be registered in the phoneme dictionary storage unit 34.

【0040】通常音声認識では、有声音のピッチの情報
は使用しない場合が多い。しかし、ピッチの変化に応じ
て、ホルマントの形状が変化したりする場合も多い。実
際に各種単語を発声する場合には、単語におけるフレー
ズ成分やアクセント成分の影響で、各音素のピッチ情報
は、変化することが予想される。
In normal speech recognition, information about the pitch of voiced sound is often not used. However, there are many cases where the formant shape changes in accordance with the change in pitch. When actually uttering various words, it is expected that the pitch information of each phoneme will change due to the influence of the phrase component and accent component in the word.

【0041】そのため、ピッチを色々と変化させた場合
の音素パターンを登録することも、認識時に得られる音
素になるべく近い音素が登録出来るという点から見て、
音声認識率を上げるための有効な手段になる。
Therefore, in terms of registering phoneme patterns when the pitch is changed variously, from the viewpoint that a phoneme as close as possible to a phoneme obtained at the time of recognition can be registered,
It is an effective way to increase the voice recognition rate.

【0042】図6に第4の実施例を示す。これ以外の部
分は、上記第1の実施例と同じである。この実施例にお
いては、音量可変部15および入力音量検出部23が追加さ
れている。先ず、音量可変部15によって、音量の出力レ
ベルを変化させた音素を合成することが出来る。さら
に、入力音量検出部23の情報を、音量可変部15にフィー
ドバックすることによって、スピーカからマイクに至る
までのアナログ系の減衰の程度に関わらず、A/D変換
部21の入力時のレベルに応じた音量調節が可能になる。
すなわち、この音量調整の機構を使用することで、数種
類の異なる音量で発声させた場合から抽出した音素を図
6では表示が省略されている音素辞書蓄積部に登録する
ことが出来る。音素を登録する場合、音声の大きさの情
報も大切である。基本的には、音声認識用のパラメータ
としては、音声の発声の大きさが変化しても、変化しな
いように大きさの情報で正規化したパラメータを使用す
るのが一般的である。しかし例えば、周囲雑音レベルが
大きい環境において、小さな声で発声すると、S/N が悪
くなるために、大きな声で発声した音声とは、音声パラ
メータの形状が変化する。また、ダイナミックレンジの
大きくないマイクに対して、大きな声で発声した場合に
は、音声がクリップしてしまい、歪みを生じ、音声パラ
メータの形状が変化してしまうという場合も考えられ
る。このような色々な要因のために、音声を発声する大
きさによって、音素の認識用パラメータが変化する場合
がある。
FIG. 6 shows a fourth embodiment. The other parts are the same as those in the first embodiment. In this embodiment, a volume varying section 15 and an input volume detecting section 23 are added. First, the volume varying unit 15 can synthesize phonemes with different volume output levels. Further, by feeding back the information of the input sound volume detection unit 23 to the sound volume changing unit 15, the level at the time of input of the A / D conversion unit 21 can be obtained regardless of the degree of attenuation of the analog system from the speaker to the microphone. The volume can be adjusted accordingly.
That is, by using this volume adjusting mechanism, it is possible to register the phonemes extracted from the case where a voicing is made at several different volumes in the phoneme dictionary storage unit, which is not shown in FIG. When registering a phoneme, information about the loudness of the voice is also important. Basically, as a parameter for voice recognition, it is general to use a parameter that is normalized by size information so that it does not change even if the size of the voice utterance changes. However, for example, when a small voice is uttered in an environment with a high ambient noise level, the S / N deteriorates, so that the shape of the voice parameter changes from the voice uttered with a loud voice. In addition, when a loud voice is uttered to a microphone having a small dynamic range, the voice may be clipped, causing distortion, and the shape of the voice parameter may change. Due to such various factors, the phoneme recognition parameters may change depending on the size of the voice.

【0043】このような事態に対処するため、小さい声
から大きな声まで、数種類の音量で発声させた音声から
抽出した音素を登録しておくということも、音声認識率
を上げるための有効な手段になる。
In order to deal with such a situation, registering phonemes extracted from voices uttered at several kinds of volume, from a low voice to a high voice, is an effective means for increasing the voice recognition rate. become.

【0044】図7に第5の実施例を示す。これ以外の部
分は、上記第1の実施例の場合と同じである。この実施
例においては、ホワイトノイズ生成部16で、ランダム雑
音であるホワイトノイズが生成される。このホワイトノ
イズのデータスピーカ12から出力させ、A/D変換後の
ディジタルデータを、周波数帯域検出部24によって、ア
ナログ系の周波数帯域が計算される。周波数帯域の検出
の方法としては、例えば簡単な方法としては、得られた
ディジタルデータをFFT などで各周波数毎のスペクトル
の強さに変換し、その値があるしきい値以上の区間を、
アナログ系の周波数帯域とする。さらに周波数分割計算
部25で、得られた周波数帯域をログ軸で等分するなどの
方法によって、周波数分割情報を得る。その周波数分割
情報は、認識パラメータ変換部22に送られ、音素辞書生
成の際、および音声認識時の両方で使用される。使用す
るアナログ系によっては、音声の通過する周波数帯域が
かなり狭いことがある。例えば、電話回線を通した音声
や、無線装置を経由した場合などである。このような場
合に、認識用パラメータとしてスペクトルパターンを使
用する場合などは、音声の帯域に応じたチャンネル分割
を行なった方が認識率が上がる。
FIG. 7 shows a fifth embodiment. The other parts are the same as in the case of the first embodiment. In this embodiment, the white noise generator 16 generates white noise that is random noise. The frequency band detecting section 24 calculates the analog frequency band of the digital data output from the white noise data speaker 12 and subjected to A / D conversion. As a method of detecting the frequency band, for example, as a simple method, the obtained digital data is converted into the spectrum intensity for each frequency by FFT and the section whose value is above a certain threshold is
Use analog frequency band. Further, the frequency division calculation unit 25 obtains the frequency division information by a method of equally dividing the obtained frequency band on the log axis. The frequency division information is sent to the recognition parameter conversion unit 22 and used both at the time of phoneme dictionary generation and at the time of speech recognition. Depending on the analog system used, the frequency band through which voice passes may be quite narrow. For example, it may be voice through a telephone line or a wireless device. In such a case, when a spectral pattern is used as a recognition parameter, the recognition rate is improved by performing channel division according to the voice band.

【0045】例えば、サンプリング周波数が16kHz の場
合には、0Hz〜8kHz までの周波数範囲の音声パラメー
タを計算することが出来る。しかし、もしアナログ伝送
系が例えば、3kHz までの周波数帯域しか持っていない
場合には、認識用パラメータも、その範囲のみ(3kHz)で
計算する方が、情報量を持たない余分な帯域を持った認
識パラメータを使用するよりも望ましい。この方法を使
用することによって、周波数帯域の狭いアナログ系に関
しても認識率を保つような音素辞書を得ることが可能に
なる。
For example, when the sampling frequency is 16 kHz, the voice parameter in the frequency range of 0 Hz to 8 kHz can be calculated. However, if the analog transmission system has only a frequency band up to 3 kHz, then the recognition parameters have an extra band that does not have the amount of information if calculated only in that range (3 kHz). Better than using recognition parameters. By using this method, it is possible to obtain a phoneme dictionary that maintains the recognition rate even for an analog system with a narrow frequency band.

【0046】図8に第6の実施例を示す。これ以外の部
分は、上記第1の実施例の場合と同じである。上記第1
の実施例では、スピーカ12として、理想的な信号の出力
特性がフラットであるものと考えている。本実施例で、
そのような理想的な特性を持った高価なスピーカを用い
ずに、周波数特性補性することで、通常のスピーカを使
用することが可能な構成とした。
FIG. 8 shows a sixth embodiment. The other parts are the same as in the case of the first embodiment. The first
In this embodiment, it is considered that the speaker 12 has flat output characteristics of ideal signals. In this embodiment,
Instead of using an expensive speaker having such ideal characteristics, it is possible to use a normal speaker by complementing the frequency characteristics.

【0047】音素合成部14とスピーカ12の間にスピーカ
特性補性フィルタ17が追加されている。この補性フィル
タに関しては、スピーカの特性をあらかじめ調べてお
き、その特性の逆特性を持つディジタルもしくはアナロ
グフィルタを設計することで作成する。このフィルタ操
作を行なうことで、スピーカ12から出力される音声波形
が理想的なスピーカから出力される場合とほぼ一致す
る。
A speaker characteristic compliment filter 17 is added between the phoneme synthesizer 14 and the speaker 12. This complementary filter is created by examining the characteristics of the speaker in advance and designing a digital or analog filter having the inverse characteristics of the characteristics. By performing this filter operation, the audio waveform output from the speaker 12 substantially matches that output from the ideal speaker.

【0048】図9に第7の実施例を示す。これは、認識
用パラメータに対してスピーカの特性補性を行なう、ス
ピーカ特性補正部26を追加したものである。認識用パラ
メータ計算の際に直接スピーカ特性を補性する機能を追
加しても良い。
FIG. 9 shows a seventh embodiment. This is the addition of a speaker characteristic correction unit 26 that complements the characteristics of the speaker with respect to the recognition parameters. A function that directly complements the speaker characteristics may be added when the recognition parameters are calculated.

【0049】このスピーカ特性補正部26の動作として
は、例えば、認識用パラメータにFFTなどで計算した
対数スペクトルを使用する場合には、スピーカの周波数
特性に変換して対数を取った値を、各々のスペクトルか
ら引くことによって、結果として、音素辞書蓄積部34に
格納される認識用パラメータに、スピーカ12の特性の影
響が及ばないようにすることが出来る。
As an operation of the speaker characteristic correction unit 26, for example, when a logarithmic spectrum calculated by FFT or the like is used as a recognition parameter, a value obtained by converting into a frequency characteristic of the speaker and taking a logarithm is used. As a result, it is possible to prevent the characteristics of the speaker 12 from affecting the recognition parameters stored in the phoneme dictionary storage unit 34.

【0050】このように、音素合成部とスピーカの間、
もしくは、認識パラメータ変換部の前または後に、スピ
ーカ特性補正部を入れることで、理想特性を持たないス
ピーカでも使用可能である。
In this way, between the phoneme synthesizer and the speaker,
Alternatively, a speaker having no ideal characteristic can be used by inserting a speaker characteristic correcting section before or after the recognition parameter converting section.

【0051】[0051]

【発明の効果】以上説明した様に、本発明によれば、色
々な環境のアナログ特性に応じた、不特定話者用音声認
識装置の音素辞書を、人手による修正、チェックなどの
手作業を必要とせずに作成することが出来るため、認識
装置を使用する環境が変化した場合においても、品質の
高い音素辞書を容易に作成することができ、その結果音
声認識装置において高い認識率を得ることが可能とな
る。
As described above, according to the present invention, it is possible to manually correct or check the phoneme dictionary of the voice recognition device for an unspecified speaker according to the analog characteristics of various environments. Since it can be created without the need, a high-quality phoneme dictionary can be easily created even when the environment in which the recognition device is used changes, and as a result, a high recognition rate can be obtained in the speech recognition device. Is possible.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の原理図である。FIG. 1 is a principle diagram of the present invention.

【図2】 波形合成方式の説明図である。FIG. 2 is an explanatory diagram of a waveform synthesizing method.

【図3】 第1の実施例である。FIG. 3 is a first example.

【図4】 第2の実施例である。FIG. 4 is a second embodiment.

【図5】 第3の実施例である。FIG. 5 is a third embodiment.

【図6】 第4の実施例である。FIG. 6 is a fourth embodiment.

【図7】 第5の実施例である。FIG. 7 is a fifth example.

【図8】 第6の実施例である。FIG. 8 is a sixth embodiment.

【図9】 第7の実施例である。FIG. 9 is a seventh embodiment.

【図10】 音声認識装置の構成図である。FIG. 10 is a configuration diagram of a voice recognition device.

【図11】 音素辞書作成の従来例である。FIG. 11 is a conventional example of creating a phoneme dictionary.

【符号の説明】[Explanation of symbols]

10 人間 11 テープレコーダ 12 スピーカ 13 素片波形蓄積部 14 音素合成部 15 音量可変部 16 ホワイトノイズ生成部 17 スピーカ特性補正フィルタ 20 マイクロフォン (マイク) 21 A/D変換部 22 認識用パラメタ変換部 23 入力音量検出部 24 周波数帯域検出部 25 周波数分割計算部 26 スピーカ特性補正部 31 音声自動セグメンテーション部 32 音声ラベル 33 音素切り出し部 34 音素辞書蓄積部 35 認識/登録モード切替え部 36 切り出しタイミング制御部 37 ピッチ可変制御部 51 音素ラティス生成部 52 認識語彙蓄積部 53 単語照合部 54 認識結果表示装置 10 Human 11 Tape recorder 12 Speaker 13 Unit waveform storage 14 Phoneme synthesis 15 Volume variable 16 White noise generator 17 Speaker characteristic correction filter 20 Microphone (microphone) 21 A / D converter 22 Recognition parameter converter 23 Input Volume detection unit 24 Frequency band detection unit 25 Frequency division calculation unit 26 Speaker characteristic correction unit 31 Speech automatic segmentation unit 32 Speech label 33 Phoneme cutout unit 34 Phoneme dictionary storage unit 35 Recognition / registration mode switching unit 36 Cutout timing control unit 37 Pitch variable Control unit 51 Phoneme lattice generation unit 52 Recognition vocabulary storage unit 53 Word matching unit 54 Recognition result display device

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 素片波形蓄積部と、音声合成部と、スピ
ーカと、マイクと、A/D変換部と、認識パラメータ変
換部と、音素切り出し部と、音素辞書蓄積部とを有し、 前記素片波形蓄積部は多数話者の発声した音声から特徴
量を抽出した音声データベースを蓄積するものであり、
前記音声合成部は前記素片波形蓄積部に蓄積された情報
の素片波形を繰り返して接続することで合成音声を作成
するものであり、スピーカは前記合成音を発声するもの
であり、前記マイクは前記スピーカの発する合成音を電
気信号に変換するものであり、前記A/D変換部は前記
電気信号をディジタルデータに変換するものであり、前
記認識パラメータ変換部は認識パラメータの計算処理を
行なうものであり、前記音素切り出し部は音声区間の中
間の定常的な部分パラメータを切り出して音素辞書を作
成するもので、前記音素辞書蓄積部は前記部分パラメー
タを蓄積するものであることを特徴とする音素辞書作成
装置。
1. A segment waveform storage section, a voice synthesis section, a speaker, a microphone, an A / D conversion section, a recognition parameter conversion section, a phoneme cutout section, and a phoneme dictionary storage section. The segment waveform storage unit stores a voice database in which feature quantities are extracted from voices uttered by multiple speakers,
The voice synthesis unit is for creating a synthetic voice by repeatedly connecting the unit waveforms of the information stored in the unit waveform storage unit, and the speaker is for uttering the synthesized sound. Is for converting a synthetic sound emitted from the speaker into an electric signal, the A / D converting section is for converting the electric signal into digital data, and the recognition parameter converting section is for calculating a recognition parameter. The phoneme cutout unit cuts out a stationary partial parameter in the middle of a speech section to create a phoneme dictionary, and the phoneme dictionary storage unit stores the partial parameter. Phoneme dictionary creation device.
【請求項2】 請求項1の音素辞書作成装置のスピーカ
とマイクとを音素辞書作成装置の使用される環境下に配
置し、音声データベースの情報を前記環境下で発声し、
前記環境の影響を受けた音声データをマイクで集音する
ことを特徴とする音素辞書作成方法。
2. The speaker and the microphone of the phoneme dictionary creating apparatus according to claim 1 are arranged in an environment where the phoneme dictionary creating apparatus is used, and information of a voice database is uttered in the environment.
A method for creating a phoneme dictionary, comprising collecting voice data affected by the environment with a microphone.
【請求項3】 音素合成部と音素切り出し部との間に切
り出しタイミング制御部を配し、 前記切り出しタイミング制御部は前記音素合成部と前記
音素切り出し部とのタイミングを制御することを特徴と
する請求項1の音素辞書作成装置。
3. A cutout timing control unit is arranged between the phoneme synthesis unit and the phoneme cutout unit, and the cutout timing control unit controls the timing between the phoneme synthesis unit and the phoneme cutout unit. The phoneme dictionary creating device according to claim 1.
【請求項4】 音素合成部に接続してピッチ可変部を配
し、 前記ピッチ可変部は素片波形を接続する間隔である合成
ピッチを操作するものであり、 音素の合成ピッチを変更させた際の音素パターンを使用
することを特徴とする請求項1の音素辞書作成装置。
4. A pitch variable section is arranged so as to be connected to a phoneme synthesis section, and the pitch variable section operates a synthesis pitch, which is an interval for connecting element waveforms, and a synthesis pitch of a phoneme is changed. The phoneme dictionary creating apparatus according to claim 1, wherein a phoneme pattern at the time of use is used.
【請求項5】 音素合成部に接続して合成音量可変部を
配し、 前記合成音量可変部は音素合成部より出力する音量を操
作するものであり、 前記音量を変更させた際の音素パターンを使用すること
を特徴とする請求項1の音素辞書作成装置。
5. A synthesized sound volume varying unit is connected to a phoneme synthesizer, and the synthesized sound volume varying unit operates a sound volume output from the phoneme synthesizer, and the phoneme pattern when the sound volume is changed. The phoneme dictionary creating apparatus according to claim 1, wherein:
【請求項6】 ホワイトノイズ発生部と、周波数帯域検
出部と周波数分割計算部とを有し、 前記ホワイトノイズ発生部はホワイトノイズを生成する
ものであり、前記周波数帯域検出部は音素辞書作成に先
んじてアナログ系の周波数帯域を求めるものであり、前
記周波数分割計算部は、前記周波数帯域に応じたチャン
ネル分割を求めるものであり、 前記周波数帯域に応じたチャンネル分割の特徴パラメー
タを計算することを特徴とする請求項1の音素辞書作成
装置。
6. A white noise generating section, a frequency band detecting section, and a frequency division calculating section, wherein the white noise generating section generates white noise, and the frequency band detecting section is used for creating a phoneme dictionary. The frequency division calculation unit obtains the frequency band of the analog system in advance, the frequency division calculation unit obtains the channel division according to the frequency band, and calculates the characteristic parameter of the channel division according to the frequency band. The phoneme dictionary creating device according to claim 1.
【請求項7】 スピーカ特性補正部を有し、 前記スピーカ特性補正部はスピーカの周波数応答特性を
適性に補正するものであり、 前記スピーカ特性補正部は音素合成部とスピーカとの
間、認識パラメータ変換部の入力側、認識パラメータ変
換部の出力側のいずれかの位置に挿入されて構成される
ことを特徴とする請求項1の音素辞書作成装置。
7. A speaker characteristic correction unit is provided, wherein the speaker characteristic correction unit appropriately corrects the frequency response characteristic of the speaker, and the speaker characteristic correction unit is provided between the phoneme synthesis unit and the speaker, and a recognition parameter. The phoneme dictionary creating device according to claim 1, wherein the phoneme dictionary creating device is configured to be inserted into either the input side of the conversion unit or the output side of the recognition parameter conversion unit.
JP6311593A 1994-12-15 1994-12-15 Phoneme dictionary forming device and its method Withdrawn JPH08166798A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6311593A JPH08166798A (en) 1994-12-15 1994-12-15 Phoneme dictionary forming device and its method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6311593A JPH08166798A (en) 1994-12-15 1994-12-15 Phoneme dictionary forming device and its method

Publications (1)

Publication Number Publication Date
JPH08166798A true JPH08166798A (en) 1996-06-25

Family

ID=18019114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6311593A Withdrawn JPH08166798A (en) 1994-12-15 1994-12-15 Phoneme dictionary forming device and its method

Country Status (1)

Country Link
JP (1) JPH08166798A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012252303A (en) * 2011-06-07 2012-12-20 Yamaha Corp Voice synthesizer

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012252303A (en) * 2011-06-07 2012-12-20 Yamaha Corp Voice synthesizer

Similar Documents

Publication Publication Date Title
JP3180655B2 (en) Word speech recognition method by pattern matching and apparatus for implementing the method
US8706488B2 (en) Methods and apparatus for formant-based voice synthesis
US5970453A (en) Method and system for synthesizing speech
Zwicker et al. Automatic speech recognition using psychoacoustic models
EP1168299B1 (en) Method and system for preselection of suitable units for concatenative speech
JP2826215B2 (en) Synthetic speech generation method and text speech synthesizer
US6553342B1 (en) Tone based speech recognition
EP2048655A1 (en) Context sensitive multi-stage speech recognition
JPH1091183A (en) Method and device for run time acoustic unit selection for language synthesis
Heldner Spectral emphasis as an additional source of information in accent detection
US20160104477A1 (en) Method for the interpretation of automatic speech recognition
JPH0632020B2 (en) Speech synthesis method and apparatus
JPH11175082A (en) Voice interaction device and voice synthesizing method for voice interaction
JP5574344B2 (en) Speech synthesis apparatus, speech synthesis method and speech synthesis program based on one model speech recognition synthesis
JPH08211897A (en) Speech recognition device
Mannell Formant diphone parameter extraction utilising a labelled single-speaker database.
JPH08166798A (en) Phoneme dictionary forming device and its method
Bosch On the automatic classification of pitch movements
Park et al. Automatic speech synthesis unit generation with MLP based postprocessor against auto-segmented phoneme errors
EP1589524A1 (en) Method and device for speech synthesis
JP2013195928A (en) Synthesis unit segmentation device
KR101095867B1 (en) Apparatus and method for producing speech
JP2862306B2 (en) Voice recognition device
Shah et al. Influence of various asymmetrical contextual factors for TTS in a low resource language
Edmondson et al. Pseudo-articulatory representations in speech synthesis and recognition

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020305