JP2557497B2 - 男女声の識別方法 - Google Patents

男女声の識別方法

Info

Publication number
JP2557497B2
JP2557497B2 JP63251416A JP25141688A JP2557497B2 JP 2557497 B2 JP2557497 B2 JP 2557497B2 JP 63251416 A JP63251416 A JP 63251416A JP 25141688 A JP25141688 A JP 25141688A JP 2557497 B2 JP2557497 B2 JP 2557497B2
Authority
JP
Japan
Prior art keywords
value
male
female
amplitude
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63251416A
Other languages
English (en)
Other versions
JPH0298000A (ja
Inventor
雅幸 海野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP63251416A priority Critical patent/JP2557497B2/ja
Publication of JPH0298000A publication Critical patent/JPH0298000A/ja
Application granted granted Critical
Publication of JP2557497B2 publication Critical patent/JP2557497B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、男女声の識別方法に関する。
[従来の技術] 従来、男女声を識別する方法としては、特開昭61−27
600合公報に記載される如くのピッチ周波数の男女差を
用いるもの、あるいは特開昭60−162298号公報に記載さ
れる如くの第1および第2ホルマント周波数の男女差を
用いるもの等がある。
[発明が解決しようとする課題] しかしながら、上記のいずれの方法も、複雑で演算時
間が長く、さらに男女声の周波数軸上での重なりの部分
が大きいために識別能力が高いとは言えず一般用途への
展開に困難がある。
また、ホルマント周波数による識別方法にあっては、
専用のハードウェア(複数のバンドパスフィルタ)を用
いてホルマント周波数を検出することにより演算時間を
短縮できるが、ホルマントではない極をホルマントの極
として誤検出することがあり、高い識別能力を期待でき
ない。
本発明は、男女声を識別するに際し、簡易な方法で高
い識別能力を達成することを目的とする。
[課題を解決するための手段] 請求項1に記載の本発明は、入力信号の参照軸交差数
と波形の振幅分布に関する値とを特徴パラメータとして
算出し、この算出結果を、男女の有声音の辞書データと
比較し、入力信号が男女いずれの発声によるものかを判
定するようにしたものであり、前記波形の振幅分布に関
する値として、例えば次式で表わされる波高値Pを用い
るようにしたものである。
P=20×log10(VP/Vrms) ただし、VP:一定時間間隔内の振幅の絶対値の最大値 Vrms:同一定時間間隔内の振幅の実効値 請求項2に記載の本発明は、入力信号の参照軸交差数
と波形の振幅分布に関する値とを特徴パラメータとして
算出し、この算出結果を、男女の有声音の辞書データと
比較し、入力信号が男女いずれの発声によるものかを判
定する男女声の識別方法であって、前記波形の振幅分布
に関する値として、例えば次式で表わされる波高値Pを
用いるようにしたものである。
P=20×log10(VP/Va) ただし、VP:一定時間間隔内の振幅の絶対値の最大値 Va:同一定時間間隔内の振幅の絶対値の平均値 請求項3に記載の本発明は、入力信号の参照軸交差数
と波形の振幅分布に関する値とを特徴パラメータとして
算出し、この算出結果を、男女の有声音の辞書データと
比較し、入力信号が男女いずれの発声によるものかを判
定する男女声の識別方法であって、前記波形の振幅分布
に関する値として振幅が一定時間間隔内に実効値を目安
とするしきい値を越える時間(超基準振幅時間と呼ぶ)
を用いるようにしたものである。
[作用] 請求項1に記載の本発明であっては、男女声を以下の
如く識別する。なお、本発明にあっては、有声音(母
音、半母音、鼻音等の声帯の振動をともなう音であり、
人間が発声する殆どすべての音声には有声音が含まれて
いる)をもって音声とする。
(1)男声と女声について、それらの信号の一定時間間
隔内における参照軸交差数(零レベル等、予め定めた参
照レベルを横切る回数)と波形の振幅分布に関する値と
を特徴パラメータとする辞書データを用意する。
なお、上記辞書データは、音響データを特徴パラメー
タ化した数値データ、数値データを統計処理した平均
値、分散等の統計的データ、もしくは統計的データに基
づいて定まる境界方程式等の判別式データ等の各種態様
にて用意できる。
(2)入力信号を採取し、この入力信号の一定時間間隔
内における参照軸交差数と波形の振幅分布に関する値と
を特徴パラメータとして算出する。
(3)上記(2)で算出した特徴パラメータと、上記
(1)で定めた辞書データが規定する標準パターンと
を、パラメータ空間上で比較し、入力信号が男声か女声
かをパターン認識により判定する。
すなわち、辞書データで規定されるカテゴリー「男
声」とカデゴリー「女声」とでパラメーター空間は2分
され、一般的なパターン認識方法を用いて、入力音声の
特徴パラメータがどちらのカテゴリーに属するかを判定
することによって男声か女声かを判定する。なお、辞書
データは代表的な有声音についての十分な数の特徴パラ
メータの組である。
しかして、請求項1に記載の本発明にあっては、特徴
パラメータとして参照軸交差数と波形の振幅分布に関す
る値の2つのパラメータを用い、 波形の振幅分布に関する値として、前述した如くの波
高値を用いたから、波形の先鋭度において男女間の顕著
な差を呈するパラメータ値を用いることとなり、男女声
の識別性が向上するというメリットがある。
請求項2に記載の本発明によれば、波形の振幅分布に
関する値として、前述した如くの波高値を用いたから、
請求項1に記載の本発明に比して演算量を少なくでき、
かつ波形の先鋭度において男女間で顕著な差を呈するパ
ラメータ値を用いることとなり、男女声の識別性が向上
するというメリットがある。なお、演算量が少ないとい
うことは応答速度が速いことを意味する。
請求項3に記載の本発明によれば、波形の振幅分布に
関する値として、前述した如くの超基準振幅時間を用い
たから、請求項1または2に記載の本発明に比して演算
量をより少なくできるというメリットがある。
[実施例] 第1図は本発明の実施例に用いられる男女声識別装置
の一例を示すブロック図、第2図は本発明の特徴パラメ
ータによって形成されるパラメータ空間を示す模式図で
ある。
第1図において、11はマイク、12は増幅器、13はロー
パスフィルタ、14はA/Dコンバータ、15はパラメータ計
算部、16は辞書データ記憶部、17は判定部、18は結果出
力部である。この実施例にあっては、男女声を以下の如
く検出する。
(1)男女の代表的な有声音[ア]について、それらの
信号の20mS間における参照軸交差数X1と、波形の振幅分
布に関する値X2とを特徴パラメータとする辞書データを
用意し、これを辞書データ記憶部16に記憶せしめる。
ここで、波形の振幅分布に関する値X2としては、下記
、、のいずれかを用いることができる。
下式で表わされる波高値P。
P=20×log10(VP/Vrms) ただし、VP:一定時間間隔内の振幅の絶対値の最大値 Vrms:同一定時間間隔内の振幅の実効値 下式で表わされる波高値P。
P=20×log10(VP/Va) ただし、VP:一定時間間隔内の振幅の絶対値の最大値 Va:同一定時間間隔内の振幅の絶対値の平均値 振幅が一定時間間閣内に実効値を目安とするしきい値
を越える時間(超基準振幅時間)。
上記の波高値を用いる場合には、波形の先鋭度にお
いて男女間で顕著な差を呈するパラメータ値を用いるこ
ととなり、男女声の識別性が向上するというメリットが
ある。
上記の波高値を用いる場合には、上記の波高値に
比して演算量を少なくでき、かつ波形の先鋭度において
男女間で顕著な差を呈するパラメータ値を用いることと
なり、男女声の識別性が向上するというメリットがあ
る。
上記の波高値を用いる場合には、上記、の波高
値に比して演算量をより少なくできるというメリットが
ある。
(2)マイク11にて入力信号を採取し、この入力信号
を、増幅器12で増幅し、ローパスフィルタ13を通すこと
によって4.2KHz以上の成分はカットし、A/Dコンバータ1
4によって標本化周波数10KHz、変換ビット数16bitのデ
ジタル信号に変換し、パラメータ計算部15に送り込む。
パラメータ計算部15は、上記入力信号の20mS間における
参照軸交差数X1と、波形の振幅分布に関する値X2とを特
徴パラメータとして算出する。
(3)上記(2)で算出した特徴パラメータと、上記
(1)で定めた辞書データが規定する標準パターンと
を、判定部17において比較し、入力信号が男声か女声か
を判定し、この判定結果を結果出力部18から出力する。
ここで、前述の辞書データを用いたパターン認識は、
例えば第2図のパラメータ空間上で以下の如くなされ
る。
すなわち、第2図は零交差数(参照軸レベルを零レベ
ルに設定したもの)と波高値の2つの特徴パラメータを
それぞれX1軸とX2軸にとったものである。第2図におい
て、μ、σ11、σ12はそれぞれ男声の辞書パラメータ
の平均値、X1軸成分の標準偏差、X2軸成分の標準偏差を
表わし、μ、σ21、σ22はそれぞれ女声の辞書パラメ
ータについて同様の値を表わす。
破線Aはμとσで規定されるカテゴリー「男声」の概
念を表わし、破線Bは同カデゴリー「女声」の概念を表
わす。
また、境界Cは特徴パラメータ空間をカテゴリー「男
声」とカテゴリー「女声」に2分する境界であり、男声
の辞書データの平均値μを含む側がカデゴリー「男
声」となる。境界Cはカテゴリー「男声」とカテゴリー
「女声」に対す尤度が等しい点の集まりである。この実
施例の場合には、男声辞書データの標準偏差が、女声辞
書データの標準偏差より小さいので、カテゴリー「男
声」が閉じた空間になっている。計算部15に取り込まれ
た入力音声から算出された特徴パラメータが特徴パラメ
ータ空間上で上記の境界Cのμ側に属した時、入力音
声が男声であると判定する。
しかして、上記実施例にあっては、特徴パラメータと
して参照軸交差数と波形の振幅分布に関する値の2つの
パラメータを用いたから、カテゴリー「男声」とカテゴ
リー「女声」とをパラメータ空間において明瞭に分離で
きる。したがって、男声と女声とを高い識別率で簡易に
識別できる。さらに、上記特徴パラメータは、特別なハ
ードウエアを用いることなく短い演算時間で算出でき、
一般用途への展開が容易である。
なお、上記実施例においては、特徴パラメータ空間上
で標準パターンを規定する境界線として2つのカテゴリ
ーに対する尤度が等しくなる点の集まりを用いたが、本
発明の実施においては、もちろん他の一般的なパターン
認識の手法を用いることができる。例えば、カテゴリー
「男声」とカテゴリー「女声」に対する尤度が等しくな
る点の集まりの代わりに、Maharanobis距離やEuclid距
離が等しくなる点の集まり等を用いることができる。
[発明の効果] 以上のように本発明によれば、男女声を識別するに際
し、短い演算時間かつ特別のハードウエアを用いない簡
易な方法で、高い識別能力を達成することができる。
【図面の簡単な説明】
第1図は本発明の実施に用いられる男女声識別装置の一
例を示すブロック図、第2図は本発明の特徴パラメータ
によって形成されるパラメータ空間を示す模式図であ
る。 11……マイク、 15……パラメータ計算部、 16……辞書データ記憶部、 17……判定部、 18……結果出力部。

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】入力信号の参照軸交差数と波形の振幅分布
    に関する値とを特徴パラメータとして算出し、この算出
    結果を、男女の有声音の辞書データと比較し、入力信号
    が男女いずれの発声によるものかを判定する男女声の識
    別方法であって、前記波形の振幅分布に関する値として
    一定時間間隔内の振幅の絶対値の最大値に対する該一定
    時間間隔内の振幅の実効値の比で表される波高値を用い
    る男女声の識別方法。
  2. 【請求項2】入力信号の参照軸交差数と波形の振幅分布
    に関する値とを特徴パラメータとして算出し、この算出
    結果を、男女の有声音の辞書データと比較し、入力信号
    が男女いずれの発声によるものかを判定する男女声の識
    別方法であって、前記波形の振幅分布に関する値として
    一定時間間隔内の振幅の絶対値の最大値に対する該一定
    時間間隔内の振幅の絶対値の平均値の比で表される波高
    値を用いる男女声の識別方法。
  3. 【請求項3】入力信号の参照軸交差数と波形の振幅分布
    に関する値とを特徴パラメータとして算出し、この算出
    結果を、男女の有声音の辞書データと比較し、入力信号
    が男女いずれの発声によるものかを判定する男女声の識
    別方法であって、前記波形の振幅分布に関する値として
    振幅が一定時間間隔内に実効値を目安とするしきい値を
    越える時間を用いる男女声の識別方法。
JP63251416A 1988-10-05 1988-10-05 男女声の識別方法 Expired - Lifetime JP2557497B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63251416A JP2557497B2 (ja) 1988-10-05 1988-10-05 男女声の識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63251416A JP2557497B2 (ja) 1988-10-05 1988-10-05 男女声の識別方法

Publications (2)

Publication Number Publication Date
JPH0298000A JPH0298000A (ja) 1990-04-10
JP2557497B2 true JP2557497B2 (ja) 1996-11-27

Family

ID=17222521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63251416A Expired - Lifetime JP2557497B2 (ja) 1988-10-05 1988-10-05 男女声の識別方法

Country Status (1)

Country Link
JP (1) JP2557497B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4784016B2 (ja) * 2001-08-10 2011-09-28 大日本印刷株式会社 周波数解析方法および音響信号の符号化方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5852696A (ja) * 1981-09-25 1983-03-28 大日本印刷株式会社 音声認識装置
JPS6127600A (ja) * 1984-07-17 1986-02-07 日本電気株式会社 音声識別回路
JPS6280960U (ja) * 1985-11-12 1987-05-23

Also Published As

Publication number Publication date
JPH0298000A (ja) 1990-04-10

Similar Documents

Publication Publication Date Title
Kamble et al. Novel energy separation based instantaneous frequency features for spoof speech detection
WO1990011593A1 (en) Method and apparatus for speech analysis
Gu et al. A new robust algorithm for isolated word endpoint detection
Howard Peak‐picking fundamental period estimation for hearing prostheses
JPS60200300A (ja) 音声の始端・終端検出装置
JP2002236494A (ja) 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP2557497B2 (ja) 男女声の識別方法
Blomberg et al. Auditory models in isolated word recognition
JPH0449952B2 (ja)
JP2992324B2 (ja) 音声区間検出方法
JP2968976B2 (ja) 音声認識装置
JP2559475B2 (ja) 音声検出方式
JPH0430040B2 (ja)
JPH0285897A (ja) 音声検出方式
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
JP2951333B2 (ja) 音声信号の区間判別方法
JP2599974B2 (ja) 音声検出方式
JPH0285898A (ja) 音声検出方式
MacKinnon et al. Realtime recognition of unvoiced fricatives in continuous speech to aid the deaf
JP2891259B2 (ja) 音声区間検出装置
JP3008404B2 (ja) 音声認識装置
JPH02232698A (ja) 音声認識装置
JPH0316038B2 (ja)
Zhijie et al. A new method for the voiced/unvoiced decision based on pattern classification theory
JPS59205680A (ja) 音声パターン比較方法