JP3298188B2 - 音声検出方法 - Google Patents

音声検出方法

Info

Publication number
JP3298188B2
JP3298188B2 JP32832992A JP32832992A JP3298188B2 JP 3298188 B2 JP3298188 B2 JP 3298188B2 JP 32832992 A JP32832992 A JP 32832992A JP 32832992 A JP32832992 A JP 32832992A JP 3298188 B2 JP3298188 B2 JP 3298188B2
Authority
JP
Japan
Prior art keywords
power
frame
spectrum
audio
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP32832992A
Other languages
English (en)
Other versions
JPH06175693A (ja
Inventor
公彰 山下
晃二 岡崎
喜一 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP32832992A priority Critical patent/JP3298188B2/ja
Publication of JPH06175693A publication Critical patent/JPH06175693A/ja
Application granted granted Critical
Publication of JP3298188B2 publication Critical patent/JP3298188B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声信号が有意なレベ
ルであるか否かを判定する音声検出方法に係り、特に、
人間の聴覚特性を参照して有音と無音を判定し、判定の
結果を利用して行なう音声パケット通信の効率を上げつ
つ、通信品質を保つことができる音声検出方法に関す
る。
【0002】通信には、伝送レートが一定な通信と、伝
送レートが時間的に変化する通信とがある。前者の最も
典型的な例は通常の電話音声の伝送で、符号化・帯域圧
縮などの処理における一定遅延時間を除けば、実時間伝
送が行なわれている。一方、データ伝送においては、極
端な遅延さえなければ、一定の遅延時間で伝送する必要
性は元々少ない。従って、所定符号長のパケットを単位
にして、パケットが満たされたら送出し、かつ、経路を
任意に選択して伝送を行ない、受信側で送信データを再
構築する方式のパケット通信方式も採用されている。
【0003】このパケット通信方式が通常の電話音声の
伝送に適用できるには、伝送・交換の容量と速度が十分
にあり、パケットの遅延時間のばらつきが少なく、実質
的に実時間伝送が行なわれているのと等価な通信システ
ムが必要である。
【0004】現在開発中の広帯域ISDNにおいては、
高速光伝送路と高速・大容量の交換機、及び、通信制御
の高速化によって、パケットに似たセルを単位に、画
像、音声、データの統合的な通信が可能になっている。
【0005】このような通信システムでの音声伝送にお
いては、音声が有意なレベルにある時(有音)のみ、音
声をセル化して伝送し、音声のレベルが有意でない時
(無音)には、当該音声のセルは送出せずに、他の音声
やデータを伝送し、受信側で、当該音声の有音区間のセ
ルと無音区間のセル(実際には送信されない)を組み合
わせて、入力音声に近い音声を再生するという技術を適
用して、回線の利用効率を高めることが可能である。
又、ボイスメールなど、受信音声を一旦蓄積する場合に
は、有音区間のみをメモリに記憶すればよく、同一記憶
容量のメモリで、より長時間のメッセージを蓄積するこ
とが可能になる。
【0006】しかし、この方式の通信品質を一定水準に
保つには、有音と無音の判定を正しく行なうことができ
る、音声検出方法の実現が前提になる。
【0007】
【従来の技術】図9は、従来の音声検出方法を示す原理
図である。図9において、1はスペクトル算出手段、3
は比較手段である。スペクトル算出手段には、線型PC
M化された音声信号が印加され、該音声信号は電力スペ
クトルに変換された後、比較手段において平均電力を算
出される。この算出理論については、例えば、今井 聖
著「デジタル信号処理」(産報出版)に述べられてい
る。その算出された平均電力を、所定の電力閾値と比較
し、該電力閾値より大きければ有音と判定し、それより
小さければ無音と判定する。
【0008】しかし、耳で聴いた感じでは有音と感じな
くても、電力的には大きな背景雑音があると、会話の上
では無音であっても、有音と誤判定することがある。こ
の時には、会話上では無音であるのに符号化してパケッ
トを送出するために、回線利用効率が低下する。その誤
判定を避けるために、比較手段に印加する電力閾値を上
げると、話頭や話尾が切断されて、再生音が聞き苦しい
ものになるばかりでなく、固有名詞、数値などは正確に
伝わらないという問題が生ずる。特に、エネルギー的に
は小さいが、大切な情報を有することが多い破擦音が話
頭にくる時には、話頭切断の影響が大きい。
【0009】これを避けるために、平均電力算出と、破
擦音に多い零交差数の検出を組み合わせる方法が提案さ
れているが、本質的な改善には至っていない。
【0010】
【発明が解決しようとする課題】本発明は、かかる問題
に対処して、有音と無音の判定を正確に行なう方法の提
供を目的とし、以て、電話音声の伝送を、回線利用効率
を高めつつ、高い伝送品質で行なう方式の基礎技術を確
立しようとするものである。
【0011】
【課題を解決するための手段】図1は、本発明の原理を
示す図である。図1において、1はスペクトル算出手
段、2は可聴成分検出手段、3は比較手段である。本発
明の特徴は、最小可聴閾を超える成分を検出する、可聴
成分検出手段を設けたことにある。
【0012】
【作用】電話音声の通信は、人間が耳で聴いてはじめて
成立する通信である。にもかかわらず、従来の技術は人
間の耳の特性を考慮しておらず、単に音声のエネルギー
の大小で有音と無音の判定をしている所に問題がある。
【0013】図10は、耳で聴いた時の最小可聴閾と単
一スペクトルの聞こえ方について示した模式図である。
図10において、aは最小可聴閾の周波数特性の概要を
描いたもので、個人差、体調による変動はあるにして
も、100Hz以下では周波数が低くなるにつれて段々
聴こえにくくなり、100Hzから数KHzは聴こえ易
く、数KHz以上で再び聴こえにくくなる傾向は一般的
である。又、bとcは単一スペクトルの信号で、等しい
レベルである。しかし、bの音は最小可聴閾より低いた
めに聴こえず、cの音は最小可聴閾より高いので聴こえ
る。即ち、同じレベルでも聴こえる音と聴こえない音が
ある。
【0014】図1の方法においては、入力の音声信号の
スペクトルを算出し、そのスペクトルの内で最小可聴閾
を超えるスペクトルについてエネルギーを算出し、その
算出結果が所定の電力閾値を超えるか否かを判定する。
つまり、聴こえ易さに着目した音声検出方法であり、耳
の特性を参照しているので、前記のように、耳には聴こ
えない音を有音としてセルにして送信する非効率は起こ
らず、又、有音の判定レベルをあげることによる伝送品
質の低下も起こらない。
【0015】
【実施例】図2は、本発明の実施例を示すブロックダイ
アグラム表示である。図2において、11は変換部、1
2は電力スペクトル算出部で、スペクトル算出手段1を
構成する。21は可聴成分電力検出部で、可聴成分検出
手段2の構成要素である。又、31は第一のフレーム電
力算出部、32は判定部で、比較手段3を構成する。
【0016】入力の線型PCM化音声信号は、所定期間
のフレームに切り出され、演算において信号の連続性を
保つために、所定のウェイトをかけられる。この所定期
間のウェイト付けをウィンドウをかけると言い、通常は
ハミングウィンドウ、ハニングウィンドウなどが適用さ
れる。このウィンドウをかけられた,PCM化音声信号
に対してデジタル・フーリエ変換を行なって、電力スペ
クトルを算出する。以上の処理を変換部11と、電力ス
ペクトル算出部12にて行なう。該算出された電力スペ
クトルを最小可聴電力閾値と比較して、最小可聴電力閾
値を超えた成分を、可聴成分電力検出部21で取り出
す。取り出された、最小可聴電力閾値を超える可聴成分
の電力の和を、第一のフレーム電力算出部31によって
求め、求められたフレーム電力と所定の電力閾値を比較
し、フレーム電力が所定の電力閾値より大きければ当該
フレームは有音、小さければ当該フレームは無音と判定
する。この電力の比較と音の有無の判定を、判定部32
において行なう。
【0017】図3は、上記動作の内、フレーム電力を算
出するフローチャートを図示したものある。以下、図3
に従って説明する。 A.電力スペクトル算出部にて、入力PCM音声の電力
スペクトルを算出する。
【0018】B.計数子kと、電力値を格納するレジス
タの値PWを0にする。 C.格納されている最小可聴電力閾値THp(k)と、
算出された電力スペクトルP(k)を比較する。最小可
聴電力閾値が小さい時(No)にはDへ、大きい時(Y
es)にはEへ移行する。
【0019】D.最小可聴電力閾値THp(k)が電力
スペクトルP(k)より小さい時には、レジスタの値に
P(k)を加えて、格納する。 E.kの値を1大きくする。
【0020】F.kがnに等しいか否か判定して、等し
くない時(No)には、Cに戻る。kがnに等しいこと
は、全てのサンプルに対して演算をしたことを表すの
で、Gに移行する。
【0021】G.レジスタの値PWをnで割って、フレ
ーム電力値を求める。このように、最小可聴電力閾値を
参照して音の有無を判定することにより、人間の耳に聴
こえないにも関わらず、符号化してパケットを送出する
非効率な処理は行なわれず、かつ、電力が小さくても耳
が敏感に反応する破擦音を検出して、正しく符号化する
ことができる。
【0022】又、上記の処理はマイクロプロセッサを用
いて、所謂プログラム技術を利用して行なうことが可能
で、現在ではこの手段で行なうのが一般的である。図4
は、本発明の第二の実施例を示すブロックダイアグラム
表示である。
【0023】図4において、11は変換部、12は電力
スペクトル算出部、21は可聴成分電力検出部、33は
振幅スペクトル算出部、34は逆変換部、35は第二の
フレーム電力算出部、32は判定部である。11、1
2、21、32は図2と同様である。振幅スペクトル算
出部33は、可聴電力成分電力検出部が出力する可聴成
分の電力スペクトルを振幅スペクトルに変換する。この
振幅スペクトルを、逆変換部34によって、振幅情報を
表示する線型PCM音声信号に変換し、このPCM音声
信号を入力して、第二のフレーム電力算出部35によっ
てフレームの電力を求める。そして、判定部32によっ
て、フレーム電力と所定の電力閾値を比較、音の有無を
判定する。尚、フレーム電力の算出は、図3のフローチ
ャートと本質的に同じであるが、図3のDに対応するス
テップでは、電力値のレジスタ値であるPWに、振幅値
の2乗を加える点だけが異なる。
【0024】第二の実施例においては、一旦振幅スペク
トルに変換して、PCM化音声信号を求めることが特徴
であるが、音の有無の判定まで音声情報を記憶しておく
メモリの容量を縮減できる利点がある。
【0025】図5は、本発明の第三の実施例を示すブロ
ックダイアグラム表示である。図5において、11は変
換部、13は振幅スペクトル算出部、22は可聴成分振
幅検出部、35は第三のフレーム電力算出部、32は判
定部である。第三の実施例においては、デジタル・フー
リエ変換出力を利用して、振幅スペクトルを求め、最小
可聴振幅閾値を超える可聴成分の振幅を求め、その結果
からフレーム電力を算出して、所定の電力閾値との大小
を比較して、音の有無を判定する。本実施例の特徴は、
振幅ベースで演算することである。フレーム電力の算出
フローチャートは図3と本質的に同一であるが、電力値
のレジスタ値PWに振幅の2乗を加える点だけが異な
る。
【0026】図6は、本発明の第四の実施例を示すブロ
ックダイアグラム表示である。図6において、11は変
換部、13は振幅スペクトル算出部、22は可聴成分振
幅検出部、34は逆変換部、35は第二のフレーム電力
算出部、32は判定部である。第四の実施例は、振幅ベ
ースで演算することと、音の有無を判定するまで音声情
報を記憶しておくメモリの容量を縮減できることを特徴
とする。
【0027】図7は、本発明の第五の実施例を示すブロ
ックダイアグラム表示である。図7において、14は帯
域通過ろ波器、12は電力スペクトル算出部、21は可
聴成分電力検出部、31は第一のフレーム電力算出部、
36は加算部、32は判定部である。第五の実施例にお
いては、入力音声信号をデジタル的な帯域通過ろ波器1
4で複数の帯域に分割し、帯域分割された音声信号の各
々に対して、電力スペクトルを求め、可聴成分電力スペ
クトルを抽出して、フレーム電力を算出し、この帯域毎
のフレーム電力を力加算部36で加算し、その結果を所
定の電力閾値と比較して、音の有無を判定する。
【0028】本実施例は、入力音声を複数の帯域に分割
してから処理するので構成は複雑になるが、図10によ
って説明した如く、耳の聴こえ易さには周波数特性があ
るので、狭い帯域毎に電力を求めて処理する方が、耳の
特性をより精密に参照でき、一層正確に音の有無を判定
できる利点がある。
【0029】尚、図7の構成では、一つの可聴成分電力
算出部に対して、一つの第一のフレーム電力算出部を設
けてフレーム電力を算出しているが、複数の可聴成分電
力検出部の出力を一つの第一のフレーム電力算出部に印
加して、フレーム電力を算出することも可能である。
【0030】図8は、本発明の第六の実施例を示すブロ
ックダイアグラム表示である。図8において、14は帯
域通過ろ波器、12は電力スペクトル算出部、21は可
聴成分電力検出部、31は第一のフレーム電力算出部、
32は判定部、37は論理和処理部である。
【0031】本実施例は、基本的に第五の実施例と同様
な構成であるが、複数に分割した帯域毎に音声の有無を
判定し、各帯域での判定結果の論理和処理をして、音の
有無を判定することに特徴がある。各帯域毎に音の有無
を判定するので、第五の実施例より、更に、耳の特性を
精密に参照できる利点がある。
【0032】
【発明の効果】以上説明した如く、人間の耳の周波数特
性を参照して、エネルギーが大きくても耳に聴こえない
音は無音と判定し、エネルギーが小さくても耳が敏感に
感ずる音(例:破擦音)は有音と判定することが可能に
なる。
【0033】この技術によって、音声のパケット伝送の
回線効率向上と、品質確保を同時に実現できる効果は大
きなものである。
【図面の簡単な説明】
【図1】 本発明の原理。
【図2】 本発明の実施例。
【図3】 本発明の実施例におけるフレーム電力算出フ
ローチャート。
【図4】 本発明の第二の実施例。
【図5】 本発明の第三の実施例。
【図6】 本発明の第四の実施例。
【図7】 本発明の第五の実施例。
【図8】 本発明の第六の実施例。
【図9】 従来の音声検出方法。
【図10】 最小可聴閾と単一スペクトルの聴こえ方。
【符号の説明】
1 スペクトル算出手段 2 可聴成分検出手段 3 比較手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松田 喜一 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内 (56)参考文献 特開 昭58−95797(JP,A) 特開 昭58−175157(JP,A) 特開 昭60−200300(JP,A) 特開 昭63−115200(JP,A) 特開 昭63−142399(JP,A) 特開 平3−105399(JP,A) 特開 平3−132700(JP,A) 特開 平3−223798(JP,A) 特開 平3−247011(JP,A) 特開 平3−253899(JP,A) 特開 平4−24693(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 11/02 G10L 15/02 - 15/04 H04B 14/04 H04M 11/00

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声信号を入力し、該音声信号を所定の
    フレームに分割して音声信号のスペクトルを算出し
    (1)、 該算出されたスペクトルが最小可聴スペクトルを超える
    可聴成分スペクトルを検出し、該検出された可聴成分ス
    ペクトルからフレーム電力を算出し(2)、 該フレーム電力と所定の電力閾値を比較して、フレーム
    電力が所定の電力閾値を超えている場合には当該フレー
    ムを有音と判定し(3)、算出されたフレーム電力が所
    定の電力閾値を超えない場合には当該フレームを無音と
    判定する(3)ことを特徴とする音声検出方法。
  2. 【請求項2】 請求項1記載の音声検出方法であって、 音声信号の電力スペクトルの、最小可聴電力スペクトル
    を超える可聴成分電力スペクトルを検出し、該可聴成分
    電力スペクトルからフレーム電力を算出し、該算出され
    たフレーム電力を所定の電力閾値と比較して、当該フレ
    ームの有音と無音を判定することを特徴とする音声検出
    方法。
  3. 【請求項3】 請求項1記載の音声検出方法であって、 音声信号の電力スペクトルの、最小可聴電力スペクトル
    を超える可聴成分電力スペクトルを検出し、該可聴成分
    電力スペクトルを可聴成分振幅スペクトルに変換し、該
    可聴成分振幅スペクトルを音声信号に逆変換して該音声
    信号のフレーム電力を算出し、該算出されたフレーム電
    力を所定の電力閾値と比較して、当該フレームの有音と
    無音を判定することを特徴とする音声検出方法。
  4. 【請求項4】 請求項1記載の音声検出方法であって、 音声信号の振幅スペクトルの、最小可聴振幅スペクトル
    を超える可聴成分振幅スペクトルを検出し、該可聴成分
    振幅スペクトルからフレーム電力を算出し、該算出され
    たフレーム電力を所定の電力閾値と比較して、当該フレ
    ームの有音と無音を判定することを特徴とする音声検出
    方法。
  5. 【請求項5】 請求項1記載の音声検出方法であって、 音声信号の振幅スペクトルの、最小可聴振幅スペクトル
    を超える可聴成分振幅スペクトルを検出し、該可聴成分
    振幅スペクトルを音声信号に逆変換して該音声信号のフ
    レーム電力を算出し、該算出されたフレーム電力を所定
    の電力閾値と比較して、当該フレームの有音と無音を判
    定することを特徴とする音声検出方法。
  6. 【請求項6】 請求項1記載の音声検出方法であって、 音声信号を複数の帯域に分割し、分割された各々の帯域
    の音声信号の可聴成分電力スペクトルを検出し、該各々
    の帯域の可聴成分電力スペクトルから各々の帯域のフレ
    ーム電力を算出し、該各々の帯域のフレーム電力を加算
    して全帯域のフレーム電力を求め、該全帯域のフレーム
    電力と所定の電力閾値を比較して、当該フレームの有音
    と無音を判定することを特徴とする音声検出方法。
  7. 【請求項7】 請求項1記載の音声検出方法であって、 音声信号を複数の帯域に分割し、分割された各々の帯域
    の音声信号の可聴成分電力スペクトルを検出し、該各々
    の帯域の可聴成分電力スペクトルから各々の帯域のフレ
    ーム電力を算出し、該各々の帯域のフレーム電力を各々
    の帯域の所定の電力閾値と比較して、各々の帯域毎に当
    該フレームの有音と無音の判定結果を得て、該判定結果
    の論理和をとって、全帯域について当該フレームの有音
    と無音を判定することを特徴とする音声検出方法。
JP32832992A 1992-12-09 1992-12-09 音声検出方法 Expired - Fee Related JP3298188B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32832992A JP3298188B2 (ja) 1992-12-09 1992-12-09 音声検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32832992A JP3298188B2 (ja) 1992-12-09 1992-12-09 音声検出方法

Publications (2)

Publication Number Publication Date
JPH06175693A JPH06175693A (ja) 1994-06-24
JP3298188B2 true JP3298188B2 (ja) 2002-07-02

Family

ID=18209019

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32832992A Expired - Fee Related JP3298188B2 (ja) 1992-12-09 1992-12-09 音声検出方法

Country Status (1)

Country Link
JP (1) JP3298188B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172283A (ja) 1998-12-01 2000-06-23 Nec Corp 有音検出方式及び方法
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
CN112637423A (zh) * 2019-09-24 2021-04-09 鼎桥通信技术有限公司 一种实现音频数据监控的方法和装置

Also Published As

Publication number Publication date
JPH06175693A (ja) 1994-06-24

Similar Documents

Publication Publication Date Title
EP0910065B1 (en) Speaking speed changing method and device
US6889187B2 (en) Method and apparatus for improved voice activity detection in a packet voice network
RU2146394C1 (ru) Способ и устройство вокодирования переменной скорости при пониженной скорости кодирования
JP3104400B2 (ja) オーディオ信号符号化装置及び方法
JP4630876B2 (ja) 話速変換方法及び話速変換装置
KR100302370B1 (ko) 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
JP2002237785A (ja) 人間の聴覚補償によりsidフレームを検出する方法
CN101647059A (zh) 娱乐音频中的语音增强
JPS62274941A (ja) 音声符号化方式
US9489958B2 (en) System and method to reduce transmission bandwidth via improved discontinuous transmission
JP3298188B2 (ja) 音声検出方法
JP2000152394A (ja) 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置
US5651089A (en) Block size determination according to differences between the peaks of adjacent and non-adjacent blocks in a transform coder
JP2776300B2 (ja) 音声信号処理回路
JPH09198089A (ja) 再生速度変換装置
US5642428A (en) Method and apparatus for determining playback volume in a messaging system
JP3420831B2 (ja) 骨伝導音声のノイズ除去装置
JP2965788B2 (ja) 音声用利得制御装置および音声記録再生装置
JP2905112B2 (ja) 環境音分析装置
JPH07111527A (ja) 音声の加工方法およびそれを用いた装置
Dimolitsas et al. Dependence of opinion scores on listening sets used in degradation category rating assessments
JP2002297200A (ja) 話速変換装置
WO2024131371A1 (zh) 一种语音处理方法、装置和电子设备
JPH0698398A (ja) 音声の無音区間検出伸長装置及び音声の無音区間検出伸長方法
CA2392849C (en) Speech interval detecting method and device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020319

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080419

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090419

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090419

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100419

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees