JPS6054000A - Sound/soundless discrimination of voice - Google Patents

Sound/soundless discrimination of voice

Info

Publication number
JPS6054000A
JPS6054000A JP58163535A JP16353583A JPS6054000A JP S6054000 A JPS6054000 A JP S6054000A JP 58163535 A JP58163535 A JP 58163535A JP 16353583 A JP16353583 A JP 16353583A JP S6054000 A JPS6054000 A JP S6054000A
Authority
JP
Japan
Prior art keywords
voiced
unvoiced
parameter
sounds
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58163535A
Other languages
Japanese (ja)
Inventor
森井 秀司
二矢田 勝行
藤井 諭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58163535A priority Critical patent/JPS6054000A/en
Publication of JPS6054000A publication Critical patent/JPS6054000A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識装置及び音声合成のための音声分析装
置に利用される音声の有声・無声判定方法に関するもの
である。
DETAILED DESCRIPTION OF THE INVENTION Field of Industrial Application The present invention relates to a voiced/unvoiced determination method for use in a speech recognition device and a speech analysis device for speech synthesis.

従来例の構成とその問題点 従来のこの種の判定方法としては一音声信号の高域と低
域のエネルギー差を用いる方式があげられる0これは、
新美康永著「音声認識」(共立出版−1979年)に述
べられている。
Configuration of conventional example and its problems A conventional determination method of this type is a method that uses the energy difference between the high and low frequencies of an audio signal.
This is described in Yasunaga Niimi's ``Speech Recognition'' (Kyoritsu Shuppan, 1979).

この方式は、声帯音源の周波数スペクトルの概形は−1
2〜−18dB10ctの傾斜をしているため、有声音
では低い周波数のエネルギー成分が優勢となるのに対し
、無声音では高い周波数のエネルギー成分が優勢となる
ことを利用したものである。この方式の構成は第1図に
示すように、2種類の帯域通過濾波器(100〜90o
IIzと3700〜5oooHz)と2つの整流器、そ
して比較器で構成される。以下、第1図にそって従来例
の方法を説明する。
In this method, the approximate shape of the frequency spectrum of the vocal cord sound source is -1
Since the slope is 2 to -18 dB10 ct, the energy components of low frequencies are dominant in voiced sounds, whereas the energy components of high frequencies are dominant in unvoiced sounds. The configuration of this system, as shown in Figure 1, consists of two types of bandpass filters (100~90°
IIz and 3700-5oooHz), two rectifiers, and a comparator. The conventional method will be explained below with reference to FIG.

マイク等より入力された音声信号は第1図の1及び2に
示す帯域濾波器に送られる。帯域濾波器1は低域成分(
1oo[z〜9oo[z)のみを通過させるもので、帯
域濾波器2は高域成分(3500Hz〜5oooHz)
のみを通過させるものである。
An audio signal input from a microphone or the like is sent to a bandpass filter shown at 1 and 2 in FIG. Bandpass filter 1 filters the low frequency component (
It passes only 1oo[z to 9oo[z], and the bandpass filter 2 passes high frequency components (3500Hz to 5oooHz).
It only allows the passage of

この帯域濾波器1,2を通過した音声信号の低域成分及
び高域成分は、それぞれ整流器3.4に送られ整流、平
滑化が施され、低域電圧、高域電圧に変換される。この
低域及び高域の2つの電圧は比較器5に送られ、低域電
圧が高域電圧より高ければ有声、逆に高域電圧が低域電
圧より高ければ無声と判定される。
The low-frequency components and high-frequency components of the audio signal that have passed through the bandpass filters 1 and 2 are sent to a rectifier 3.4, where they are rectified and smoothed, and converted into a low-frequency voltage and a high-frequency voltage. These two voltages, one for the low range and the other for the high range, are sent to the comparator 5, and if the low range voltage is higher than the high range voltage, it is determined that there is voice, and conversely, if the high range voltage is higher than the low range voltage, it is determined that there is no voice.

前記のような従来例における問題点の1つとして一低域
のエネルギーが優勢な環境騒音に弱いことがあげられる
。無声音のエネルギーは有声音に比べ低いため騒音の影
響を受けやすい。しかもその騒音が低域成分にエネルギ
ーが集中しているようなものであると、高域エネルギー
が低域エネルギーよシ優勢であるという無声音の特徴が
弱められてしまうため無声音の判別誤シが大きくなる。
One of the problems with the conventional example as described above is that it is vulnerable to environmental noise in which low-frequency energy is dominant. Unvoiced sounds have lower energy than voiced sounds, so they are more susceptible to noise. Moreover, if the noise is such that energy is concentrated in the low-frequency components, the characteristic of unvoiced sounds in which high-frequency energy is predominant over low-frequency energy is weakened, making it more likely that unvoiced sounds will be misidentified. Become.

また、室内騒音のほとんどは低域エネルギーが優勢な騒
音であるため、実際の使用環境で十分高い判別精度を得
ることがむずかしい。
Furthermore, since most of the indoor noise is noise in which low-frequency energy is dominant, it is difficult to obtain sufficiently high discrimination accuracy in an actual usage environment.

第2番目の問題点として、電話回線を通した音声のよう
に周波数帯域に制限を受けた音声に対しては十分な判別
精度が得られないことがあげられる。これは、無声音の
エネルギーのピークは350011z 〜700 oH
zぐらいであるのに対し。
The second problem is that sufficient discrimination accuracy cannot be obtained for voices whose frequency band is limited, such as voices transmitted through telephone lines. This means that the peak energy of unvoiced sound is 350011z ~ 700oH
Whereas it is about z.

電話回線の帯域は300IIZ〜34001Izぐらい
しかないため、高域エネルギーが優勢であるという無声
音の特徴が得られにくくなるためである。
This is because the band of a telephone line is only about 300IIZ to 34001IZ, so it becomes difficult to obtain the characteristic of unvoiced sound in which high-frequency energy is predominant.

以上述べたように、従来例による音声の有声・無声判定
方式は、簡単なノ・−ドウエアにより実現することが可
能であるという利点はあるが、使用する環境の騒音の影
響を受けやすく、さらに、電話回線を通った音声罠はあ
まり高い精度が得られないというように使用環境に制限
があるという問題がある。
As mentioned above, the conventional method for determining voiced/unvoiced speech has the advantage that it can be implemented using simple hardware, but it is susceptible to the effects of noise in the environment in which it is used. However, there are limitations to the environment in which it can be used, as voice traps transmitted through telephone lines cannot achieve very high accuracy.

発明の目的 本発明の目的は、従来例に見られる問題点を改善するも
ので、適応出来る環境を拡大し、騒音の影響を受けにく
く高い精度の有声・無声判定を実現することを目的とす
る。
Purpose of the Invention The purpose of the present invention is to improve the problems seen in the conventional examples, and to expand the applicable environments and realize highly accurate voiced/unvoiced determination that is less affected by noise. .

発明の構成 本発明は上記目的を達成するもので、音声の有声音・無
声音の平均的なスペクトル形状を表わす二つの標準パタ
ーンをあらかじめ用意しておき。
Structure of the Invention The present invention achieves the above object by preparing in advance two standard patterns representing the average spectral shapes of voiced and unvoiced sounds.

特徴パラメータとして入力音声の線形予測分析により得
られるに一パラメータを非線形変換したものを用い、前
記特徴パラメータと二つの標進パターンとを照合し統計
的距離尺度により有声・無声の判定を行うもので、この
ような構成によシ高い精度で音声の有声・無声の判定を
行なうものであるO 実施例の説明 まず本発明の基本的な考え方について説明する。
A non-linear transformation of one parameter obtained by linear predictive analysis of input speech is used as a feature parameter, and the feature parameter is compared with two heading patterns to determine voiced/unvoiced using a statistical distance measure. With this configuration, it is possible to determine voiced/unvoiced speech with high accuracy.Description of Embodiments First, the basic idea of the present invention will be explained.

従来例にみられる問題点は音声の有声・無声の特徴を示
す周波数スペクトル構造の相異のうち。
The problem with conventional examples is the difference in the frequency spectrum structure, which indicates the voiced/unvoiced characteristics of speech.

特定の周波数帯域でのエネルギーレベルの相異という一
部の特徴しか利用していないために生ずる。
This occurs because only a portion of the characteristics, namely differences in energy levels in specific frequency bands, are utilized.

したがって、有声音、無声音のスペクトル全体の構造の
相異によシ判別するならば、一部の周波数帯域に影響を
与える騒音が重畳されても、その影響は少なく、高い判
別精度が得られる。本発明による方式は、上述のような
考えに基づくもので。
Therefore, if voiced and unvoiced sounds are discriminated based on the difference in structure of the entire spectrum, even if noise that affects some frequency bands is superimposed, the influence will be small and high discrimination accuracy will be obtained. The method according to the present invention is based on the above-mentioned idea.

(1)有声区間、無声区間が既知である多数の音声より
有声音、無声音のスペクトル上の特徴を表す2つの標章
パターンを予め作成しておく。
(1) Two symbol patterns representing the spectral characteristics of voiced and unvoiced sounds are created in advance from a large number of voices whose voiced and unvoiced sections are known.

営)有声・無声が未知の入力音声よシスベクトルの特徴
を表わす特徴パラメータを抽出する。
(Operation) Extract feature parameters representing the characteristics of cisvectors from input speech whose voiced and unvoiced characteristics are unknown.

(3)抽出された特徴パラメータと有声音、無声音の2
つの標準パターンを照合し、どちらの標準パターンに類
似しているかをめ、有声・無声を判別する。
(3) Extracted feature parameters and voiced and unvoiced sounds
It compares two standard patterns, determines which standard pattern it is similar to, and determines whether it is voiced or unvoiced.

という方式である。そして、スペクトルの特徴を表す特
徴パラメータとして、音声の線形予測分析により得られ
るに一パラメータを非線形変換したものを用い、標章パ
ターンとの類似度の尺度としてベイズ判定に基づく尺度
や線形判別関数などの統計的距離尺度を用いることを特
徴とした方式である。
This is the method. Then, as a feature parameter representing the spectral characteristics, a non-linear transformation of a single parameter obtained by linear predictive analysis of speech is used, and a Bayesian-based measure or a linear discriminant function is used as a measure of similarity with the mark pattern. This method is characterized by using a statistical distance measure.

K−パラメータはPARCOR係数とも呼ばれ。K-parameter is also called PARCOR coefficient.

その算出法、性質については、新美康永著「音声認識」
(共立出版−1979年)に述べられている。このに−
パラメータは声道の音響管モデルにおける反射係数と額
応し、音声スペクトルの特徴を少ないパラメーjで表現
する。10Ktlzのサンプリング周波数でム/D変換
された音声の場合−有声音で100次程、無声音では6
次程度のに一パラメータで音声のスペクトルを表現する
ことが出来るものである。
For information on its calculation method and properties, see "Speech Recognition" by Yasunaga Niimi.
(Kyoritsu Shuppan - 1979). Kononi-
The parameters correspond to the reflection coefficients in the acoustic tube model of the vocal tract, and the characteristics of the speech spectrum are expressed with a small number of parameters j. In the case of audio converted to M/D at a sampling frequency of 10 Ktlz - 100 orders for voiced sounds and 6 orders for unvoiced sounds.
It is possible to express the spectrum of speech with one parameter of the following order.

第2図は有声音、無声音の1次のに一パラメータの分布
を示したものである。6及びγは、無声音及び有声音に
おける1次のに一パラメータの値の頻度分布である。こ
のに−パラメータに非線形変換を施すと、第3図に示す
ように、パラメータが正規分布に近い形で分布する。8
は無声音、9は有声音の場合であり1点線は正規分布曲
線を示す。この非線形変換の例として式(1)に示すよ
うなものがある。
Figure 2 shows the distribution of first-order parameters for voiced and unvoiced sounds. 6 and γ are the frequency distributions of the values of the first-order parameter in unvoiced sounds and voiced sounds. When this -parameter is subjected to nonlinear transformation, the parameter is distributed in a form close to a normal distribution, as shown in FIG. 8
9 is for unvoiced sounds, 9 is for voiced sounds, and the one-dot line indicates a normal distribution curve. An example of this nonlinear transformation is shown in equation (1).

l:パラメータの次数 C:定数 第3図は式(1)において0=3.0の場合の変換例で
ある。
l: degree of parameter C: constant Figure 3 is an example of conversion when 0=3.0 in equation (1).

このように−に−パラメータに非線形変換したパラメー
タは有声音、無声音の2つのクラスにおいてそれぞれ正
規分布に近い頻度分布となる。したがって、この非線形
変換を施したパラメータを特徴パラメータとすると、パ
ラメータの分布が正規分布であるという仮定に基づく統
計的距離にょシ有声音・無声音の高い精度の判別が可能
となる。
Parameters non-linearly transformed into − to − parameters in this manner have frequency distributions close to normal distributions in the two classes of voiced and unvoiced sounds. Therefore, if the parameters subjected to this nonlinear transformation are used as feature parameters, it becomes possible to discriminate between voiced and unvoiced sounds with high accuracy based on the statistical distance based on the assumption that the distribution of the parameters is a normal distribution.

このような統計的距離として、ベイズ判定、マハラノビ
ス距離線形判別関数がある。ベイズ判定による判別を例
として、有声・無声の判別法を説明する。
Such statistical distances include Bayesian judgment and Mahalanobis distance linear discriminant function. The voiced/unvoiced discrimination method will be explained using Bayesian judgment as an example.

ベイズ判定による類似度は式営)にょシ算出することが
出来る。
Similarity can be calculated using Bayesian judgment.

ただし、T:転置行列を示す −1:逆行、列を示す 式(2)において添字Cは有声あるいは無声を表す。However, T: indicates the transposed matrix -1: indicates retrograde, column In equation (2), the subscript C represents voiced or unvoiced.

また、Xは入力音声よシ算出される特徴ベクトルを表わ
し+ mQ は有声あるいは無声の特徴ベクトルの平均
値ベクトルでろ、!l) −Weは有声及び無声の特徴
ベクトルの共分散行列である。mC、wcは有声あるい
は無声の標漁パターンを構成するもので。
Also, X represents the feature vector calculated from the input voice, and + mQ is the average value vector of the voiced or unvoiced feature vectors! l) -We is the covariance matrix of voiced and unvoiced feature vectors. mC and wc constitute a voiced or unvoiced target fishing pattern.

あらかじめ有声・無声の区間が既知である多数の音声デ
ータより算出される。式(2)をmQ 、 Weが有声
から得られたもの−そして無声から得られたものの2つ
の標準パターンについて計算する。式(2)のdc値が
大きいほどその標準パターンに対する類似度が高いこと
になシ、有声・無声を判別することが出来る。
It is calculated from a large amount of audio data whose voiced and unvoiced sections are known in advance. Equation (2) is calculated for two standard patterns, one where mQ, We are obtained from voiced - and one obtained from unvoiced. The larger the dc value in equation (2), the higher the degree of similarity to the standard pattern, which makes it possible to discriminate between voiced and unvoiced patterns.

したがって特徴パラメータとして音声スペクトルの特徴
を少ない次数で表現するに一パラメータを非線形変換し
、その分布が正規分布に近くなるようなパラメータを用
い、統計的距離尺度により判定するという方法は、少な
いパラメータで、高い判別精度が得られるという利点が
おる〇このような考え方に基づく本発明の実施例のブロ
ック図を第4図に示す。
Therefore, in order to express the features of the speech spectrum with a small number of orders as a feature parameter, a method of non-linearly transforming one parameter whose distribution is close to a normal distribution, and making a judgment using a statistical distance scale is a method that uses only a small number of parameters. , there is an advantage that high discrimination accuracy can be obtained. A block diagram of an embodiment of the present invention based on this idea is shown in FIG. 4.

本実施例は、入力音声をフレームと呼ばれるある一定区
間長(例えば10m5eC毎)に分割し−その分割され
た区間の各々に対し有声・無声の判定を行ない、有声・
無声の判別結果の時系列を得るものである。そしてその
判別結果は音声認識装置あるいは音声合成のための音声
分析装置に送られ利用される。以下第4図に沿って本実
施例を説明する。
In this embodiment, the input audio is divided into a certain period length called a frame (for example, every 10m5eC), and each of the divided sections is judged as voiced or unvoiced.
This is to obtain a time series of silent discrimination results. The discrimination results are then sent to a speech recognition device or a speech analysis device for speech synthesis and used. The present embodiment will be described below with reference to FIG.

マイク等よ多入力される音声信号はA/D変換部10に
おいてディジタル信号の時系列に変換される〇ディジタ
ル信号に変換された音声信号はバッファメモリ11に送
られ一時的に格納される。格納されたデータはフレーム
長毎(本実施例では10m sec毎)に一定サンプル
数(1フレ一ム分のサンプル数)まとめて線形予測分析
部12に送られに一パラメータが算出される。線形予測
分析部12は信号処理用の高速マイクロプロセッサで構
成され、1フレ一ム分の音声データより10m3ec以
下の処理時間でに一パラメータを算出することが出来る
。算出されたに一パラメータは有声・無声判足部13に
より、例えば前述の式(1)を用いて非線形変換される
。そしてこの値と標準パターン格納用メモリ14に予め
格納されている有声・無声の2つの標準パターンの類似
度を算出し有声・無声が判別される。有声・無声判定部
13も信号処理用の高速マイクロプロセッサで構成され
ており1’0m5cc以下の処理時間で判定を行うこと
が出来る。ただし−この場合の類似度計算は式(2)の
両辺の対数をとった式(3)に示す算出法により行って
いる0 1 丁 −1 Dc= −−(X−me)Wc (X−mc)−A・・
=一式(3)そして1式(2)と同様DCの値の大きい
方が類似度が高いということで有声・無声の判定を行な
う。
Multiple audio signals input from microphones and the like are converted into time series digital signals in the A/D converter 10. The audio signals converted to digital signals are sent to the buffer memory 11 and temporarily stored. The stored data is sent together to a linear prediction analysis unit 12 with a fixed number of samples (number of samples for one frame) for each frame length (in this embodiment, every 10 m sec), and one parameter is calculated. The linear prediction analysis unit 12 is composed of a high-speed microprocessor for signal processing, and can calculate one parameter from one frame of audio data in a processing time of 10 m3ec or less. The calculated second parameter is nonlinearly transformed by the voiced/unvoiced leg unit 13 using, for example, the above-mentioned equation (1). Then, the degree of similarity between this value and two standard patterns, voiced and unvoiced, stored in advance in the standard pattern storage memory 14 is calculated to determine whether the pattern is voiced or unvoiced. The voiced/unvoiced determination section 13 is also constructed of a high-speed microprocessor for signal processing, and can perform determination in a processing time of 1'0 m5 cc or less. However, the similarity calculation in this case is performed by the calculation method shown in equation (3), which takes the logarithm of both sides of equation (2). mc)-A...
=Setup (3) and 1Sequence (2) Similar to equation (2), voiced/unvoiced is determined based on the fact that the larger the DC value, the higher the degree of similarity.

第6図は本実施例のバッフ1メモリ11.m形予測分析
部12.有声・無声判定部13の処理のタイミングを示
したもので1本実施例では入力された音声に対し実時間
でフレーム毎の有声・無声判定結果を得ることが出来る
FIG. 6 shows the buffer 1 memory 11 of this embodiment. m-type prediction analysis section 12. This shows the processing timing of the voiced/unvoiced determining unit 13. In this embodiment, it is possible to obtain voiced/unvoiced determination results for each frame in real time for input audio.

本実施例の利点は、有声・無声の判定をスペクトル全体
の構造の相異により行なうため、騒音の影響が少なく精
度よく行うことが出来る。また。
The advantage of this embodiment is that since the voiced/unvoiced determination is made based on the difference in the structure of the entire spectrum, the influence of noise is small and the determination can be made with high accuracy. Also.

スペクトルの特徴を表すパラメータとしてに一パラメー
タという少ない次数で表現するパラメータを基にしてい
るため、パラメータ数が少なくてすみ一実時間で処理可
能であるという利点がある。
Since it is based on a parameter that expresses the characteristics of a spectrum with a small order of one parameter, it has the advantage that the number of parameters is small and it can be processed in real time.

さらにもう一つの利点として1判別方法が標準パターン
との類似度によるものであるため、電話回線を通った音
声等環境の変化に対しても、その環境下の音声により標
準パターンを作成しなおすことによシ対処することが出
来るというように、環境への適応性が良いことがあげら
れる。
Another advantage is that the first discrimination method is based on the similarity to the standard pattern, so even if the environment changes, such as the voice transmitted through the telephone line, the standard pattern can be recreated using the voice in that environment. It is said that it has good adaptability to the environment, such as being able to cope with difficult situations.

前記実施例をあらかじめ目視によるラベル付けが施され
ている音声データに適用し一式(4)に示す10m5e
c長毎(フレーム毎)の判別率をめた結果91.3%で
あった。
By applying the above embodiment to audio data that has been visually labeled in advance, 10m5e as shown in set (4) is obtained.
The discrimination rate for each c length (each frame) was 91.3%.

この判別率の値は、男性10名9女性10名の計20名
の話者がそれぞれ1秒程度の単語を200単語発声した
大量の音声データを用い、そして。
This discrimination rate value was calculated using a large amount of audio data in which a total of 20 speakers (10 men, 9 women, 10 people) uttered 200 words each lasting about 1 second.

パラメータは1次から8次のに一パラメータを非線形変
換したものを用いた時の結果である0この結果について
誤ったものを調べてみると有声・無声の境界付近のフレ
ームの誤りが大部分であり一本実施例による有声・無声
の判定は高い精度であることが確かめられた。
The parameter is the result when one parameter is non-linearly transformed from the 1st to the 8th order.0When we investigated the errors in this result, we found that most of the errors were in frames near the voiced/unvoiced boundary. It was confirmed that the voiced/unvoiced determination according to this example has high accuracy.

また、前記音声データのうち、男性話者1名が発声した
200単語に一低域にピークをもつHOTH雑音を信号
雑音比が15dB程度になるように重畳した音声データ
に対し本実施例を適用した結果フレーム毎の判別率は0
.2%程度しか低下しなかつ7?:0 発明の効果 以上型するに本発明は、音声の有声音・無声音の平均的
なスペクトル形状を表わす二つの標準パターンをあらか
じめ用意して丸・き−特徴パラメータとして入力音声の
線形予測分析により得られるに一パラメータを非線形変
換したものを用い一前記特徴パラメータと二つの標準パ
ターンとを照合し統計的距離尺度により有声・無声の判
定を行うことを特徴とする音声の有声・無声判定方法を
提供するもので、少ないパラメータで高い判別精度を得
ることが出来、しかも騒音に対しても性能劣化が少ない
という利点を有する。
Furthermore, among the aforementioned audio data, this embodiment is applied to audio data in which HOTH noise having a peak in the low frequency range is superimposed on 200 words uttered by one male speaker so that the signal-to-noise ratio is approximately 15 dB. As a result, the discrimination rate for each frame is 0.
.. It only decreased by about 2% and it was 7? :0 Effects of the Invention To summarize, the present invention prepares in advance two standard patterns representing the average spectral shapes of voiced and unvoiced sounds, and uses them as round/ki feature parameters through linear predictive analysis of input speech. A method for determining voiced/unvoiced speech is characterized in that the resultant parameter is non-linearly transformed, and one characteristic parameter is compared with two standard patterns to determine voiced/unvoiced based on a statistical distance measure. This method has the advantage that high discrimination accuracy can be obtained with a small number of parameters, and there is little performance deterioration in response to noise.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は従来例における有声・無声判定方法を示すブロ
ック図、第2図は有声音・無声音における1次のに一パ
ラメータの頻度分布図、第3図は1次のに一パラメータ
に対し式(1)に示す非線形変換を施した場合の有声音
・無声音に対する頻度分布図−第4図は本発明における
実施例である有声・無声判定方法を示すブロック図−第
5図は本実地例における処理のタイミング図である。 10・・・・・・A/n変換部−11・・・・・・バッ
フ1メモリー12・・・・・・線形予測分析部、13・
・・・・・有声・無声判定部、14・・・・・・標単パ
ターン格納用メモリ。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
Figure 1 is a block diagram showing a conventional voiced/unvoiced determination method, Figure 2 is a frequency distribution diagram of the first-order parameter in voiced and unvoiced sounds, and Figure 3 is the formula for the first-order parameter. Frequency distribution diagram for voiced and unvoiced sounds when the non-linear transformation shown in (1) is applied - Figure 4 is a block diagram showing the voiced/unvoiced determination method according to the embodiment of the present invention - Figure 5 is the frequency distribution diagram for voiced and unvoiced sounds in the case of applying the non-linear transformation shown in (1) It is a timing diagram of processing. 10...A/n conversion unit-11...Buffer 1 memory 12...Linear prediction analysis unit, 13.
. . . Voiced/unvoiced determination section, 14 . . . Memory for storing single pattern. Name of agent: Patent attorney Toshio Nakao and 1 other person No. 1
figure

Claims (1)

【特許請求の範囲】[Claims] 音声の有声音・無声音の平均的なスペクトル形状を表わ
す二つの標単パターンをあらかじめ用意しておき、特徴
パラメータとして入力音声の線形予測分析により得られ
るに一パラメータを非線形変換したものを用い、前記特
徴パラメータと二つの標単ハターンとを照合し統計的距
離尺度により有声・無声の判定を行うことを特徴とする
音声の有声・無声判定方法。
Two standard patterns representing the average spectral shape of voiced and unvoiced sounds are prepared in advance, and a non-linear transformation of one parameter obtained by linear predictive analysis of input speech is used as a feature parameter. A voiced/unvoiced method for determining whether a voice is voiced or not by comparing a feature parameter with two standalone patterns and using a statistical distance measure.
JP58163535A 1983-09-05 1983-09-05 Sound/soundless discrimination of voice Pending JPS6054000A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58163535A JPS6054000A (en) 1983-09-05 1983-09-05 Sound/soundless discrimination of voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58163535A JPS6054000A (en) 1983-09-05 1983-09-05 Sound/soundless discrimination of voice

Publications (1)

Publication Number Publication Date
JPS6054000A true JPS6054000A (en) 1985-03-28

Family

ID=15775722

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58163535A Pending JPS6054000A (en) 1983-09-05 1983-09-05 Sound/soundless discrimination of voice

Country Status (1)

Country Link
JP (1) JPS6054000A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63120597A (en) * 1986-11-10 1988-05-24 Matsushita Electric Ind Co Ltd Interactive type dynamic microphone

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63120597A (en) * 1986-11-10 1988-05-24 Matsushita Electric Ind Co Ltd Interactive type dynamic microphone

Similar Documents

Publication Publication Date Title
KR101101384B1 (en) Parameterized temporal feature analysis
US8036884B2 (en) Identification of the presence of speech in digital audio data
EP1252621B1 (en) System and method for modifying speech signals
KR101269296B1 (en) Neural network classifier for separating audio sources from a monophonic audio signal
Rabiner et al. A comparative performance study of several pitch detection algorithms
US4933973A (en) Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US7567900B2 (en) Harmonic structure based acoustic speech interval detection method and device
JP4624552B2 (en) Broadband language synthesis from narrowband language signals
JP5961950B2 (en) Audio processing device
JP4572218B2 (en) Music segment detection method, music segment detection device, music segment detection program, and recording medium
JPH02242298A (en) Speaker identifying device based on glottis waveform
Dubuisson et al. On the use of the correlation between acoustic descriptors for the normal/pathological voices discrimination
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
JP2002123298A (en) Method and device for encoding signal, recording medium recorded with signal encoding program
JP3354252B2 (en) Voice recognition device
JPS60114900A (en) Voice/voiceless discrimination
JPS6054000A (en) Sound/soundless discrimination of voice
JP3046029B2 (en) Apparatus and method for selectively adding noise to a template used in a speech recognition system
JPS63502304A (en) Frame comparison method for language recognition in high noise environments
Alku et al. Parameterization of the voice source by combining spectral decay and amplitude features of the glottal flow
JP4603727B2 (en) Acoustic signal analysis method and apparatus
JPH1097288A (en) Background noise removing device and speech recognition system
JPS59131997A (en) Voiced/voiceless state discriminator for voice