JP2010026323A - 話速検出装置 - Google Patents

話速検出装置 Download PDF

Info

Publication number
JP2010026323A
JP2010026323A JP2008188950A JP2008188950A JP2010026323A JP 2010026323 A JP2010026323 A JP 2010026323A JP 2008188950 A JP2008188950 A JP 2008188950A JP 2008188950 A JP2008188950 A JP 2008188950A JP 2010026323 A JP2010026323 A JP 2010026323A
Authority
JP
Japan
Prior art keywords
speech speed
envelope
speech
peak
linear prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008188950A
Other languages
English (en)
Inventor
Teppei Washi
哲平 鷲
Keiichi Yoshida
恵一 吉田
Katsuhiko Kimura
克彦 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Panasonic Electric Works Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Electric Works Co Ltd filed Critical Panasonic Electric Works Co Ltd
Priority to JP2008188950A priority Critical patent/JP2010026323A/ja
Publication of JP2010026323A publication Critical patent/JP2010026323A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

【課題】環境ノイズなどの影響を受けにくく、話者の話速をより正確に検出しうる話速検出装置を提供する。
【解決手段】音声信号に対して線形予測を行い、線形予測係数の変化量を演算する線形予測計数変化量演算部11と、線形予測計数の変化量の総和のエンベロープを求める第1エンベロープ演算部12と、エンベロープのピークを検出する第1ピーク検出部13と、検出されたピークの数から、単位時間あたりのピーク数を演算する第1話速演算部14と、音声信号の絶対値を求める音声絶対値演算部21と、エンベロープを求める第2エンベロープ演算部22と、エンベロープのピークを検出する第2ピーク検出部23と、検出されたピークの数から、単位時間あたりのピーク数を演算する第2話速演算部24と、2つの単位時間あたりのピーク数に基づいて話速を演算する総合話速演算部10を備える。
【選択図】図2

Description

本発明は、インターホンなどのリアルタイム型の通話装置に用いられ、話速変換のために、話者の話す速度(話速)を検出する話速検出装置に関する。
従来から、ICレコーダなどの分野において、ディジタル化された音声信号を時間軸上で圧縮/伸長処理を行い、圧縮/伸長された音声信号をアナログ信号に変換してスピーカから出力することにより、音声速度を変換することが行われている。周知のように、話者によって話速はさまざまであり、同じ話者が話している場合であっても、その間の話速は一定ではない。そのため、音声信号に対して一定の圧縮/伸長率で話速変換を行うと、再生される音声はユーザ(聴者)が所望する話速よりも速く又は遅くなり、ユーザにとって聞き取りにくくなる可能性がある。
そのため、実際の話者の話速を検出し、検出した話速に応じて圧縮/伸長率を設定して話速変換を行う方法が提案されている。例えば特許文献1では、音声の時間軸波形のエンベロープにスムージング処理を施し、単位時間あたりの波形のピークの数をカウントして話速を演算し、その値に応じて話速変換を行っている。ところが、音声の変化は振幅だけでなく周波数にも現れるため、このような方法では話速の検出精度が低く、再生される音声が不自然に聞こえる場合がある。
ところで、インターホンなどのようにリアルタイムで通話を行うような装置の場合、通話を行う両者が互いに面識がなく、相手がどのような話速で話すのか予測がつかない場合が多く、通話開始時において、相手の話の内容を聞き逃す可能性が高い。そのため、リアルタイム型の通話装置において、話者の話速をより正確に検出することが要求されている。
特開平7−64597号公報
本発明は、上記従来例の問題を解決するためになされたものであり、話者の話速をより正確に検出しうる話速検出装置を提供することを目的とする。
上記目的を達成するために請求項1の発明は、話速検出装置であって、入力される音声信号に対して線形予測分析を行い、得られた予測係数の変化量の総和のエンベロープを求め、エンベロープにおける単位時間あたりのピーク数を第1話速パラメータとし、前記音声信号の絶対値のエンベロープをとり、エンベロープにおける単位時間あたりのピーク数を第2話速パラメータとし、前記第1話速パラメータ及び前記第2話速パラメータにそれぞれ所定の寄与率を掛けて足し算したものに基づいて話速を演算することを特徴とする。
請求項2の発明は、話速演算装置であって、入力される音声信号に対して線形予測を行い、線形予測係数の変化量を演算する線形予測計数変化量演算部と、前記線形予測計数変化量演算部により得られた前記線形予測計数の変化量の総和のエンベロープを求める第1エンベロープ演算部と、前記第1エンベロープ演算部により得られたエンベロープのピークを検出する第1ピーク検出部と、前記第1ピーク検出部により検出されたピークの数から、単位時間あたりのピーク数を演算し、得られたピーク数を第1話速パラメータとして出力する第1話速演算部と、前記入力される音声信号の絶対値を求める音声絶対値演算部と、前記音声絶対値演算部により得られた音声絶対値のエンベロープを求める第2エンベロープ演算部と、前記第2エンベロープ演算部により得られたエンベロープのピークを検出する第2ピーク検出部と、前記第2ピーク検出部により検出されたピークの数から、単位時間あたりのピーク数を演算し、得られたピーク数を第2話速パラメータとして出力する第2話速演算部と、前記第1話速パラメータと、前記第2話速パラメータにそれぞれ所定の寄与率を掛けて足し算したものに基づいて話速を演算する総合話速演算部を備えたことを特徴とする。
請求項3の発明は、請求項2に記載の話速演算装置において、入力される音声信号から音声区間を検出する音声区間検出部をさらに備え、前記音声区間検出部が音声区間であると判断した区間に対してのみ、前記第1話速演算部及び前記第2話速演算部は、それぞれ単位時間あたりのピーク数の演算を行うことを特徴とする。
請求項4の発明は、請求項2に記載の話速演算装置において、前記第1ピーク検出部及び前記第2ピーク検出部は、エンベロープの極大値から極小値への変化量が所定の設定値よりも小さい場合、その極大値をピークとしては検出しないことを特徴とする。
請求項1又は2の発明によれば、線形予測係数の変化量のエンベロープから音声の周波数特性などの変化を抽出することができる。一方、線形予測係数の変化量は、振幅の小さい信号に対しては変動が小さく、音声の特徴の変化を抽出できない場合がある。そのため、信号レベルの小さい音声の変化も抽出することができる音声絶対値のエンベロープを組み合わせることにより、精度の高い話速検出を実現することができる。
請求項3の発明によれば、音声信号のうち、話者が実際に話している音声区間に対してだけ話速検出処理を行うので、話者が話していない非音声区間における環境ノイズなどによる影響を排除することができ、より精度の高い話速検出を行うことができる。
請求項4の発明によれば、変化の大きいピークのみを検出するので、ノイズなどによる影響を低減することができ、精度の高い話速検出を行うことができる。
本発明の一実施形態に係る話速検出装置について、図面を参照しつつ説明する。はじめに、話速検出装置1の使用例を図1に示す。例えばマイクロホン(図示せず)などから入力される音声信号は、話速検出装置1に入力され、以下に説明する処理が行われ、話者の話速が検出される。検出された話速は、話速パラメータとして音声伸長率決定部2に入力され、音声伸長率が決定される。音声信号は、話速変換装置1とパラレルに話速変換部3に入力され、音声伸長率決定部2により決定された音声伸長率に基づいて音声信号の話速変換が行われる。そして、話速変換が行われた音声信号は、スピーカ4から音声に変換されて出力される。話速変換装置1は、電話やインターホンなどの話速変換機能を備えた通話装置の回路の一部として構成されていてもよいし、専用のICとしてモジュール化されていてもよい。
図2は、本実施形態に係る話速検出装置1の一構成例を示す。また、図3は、話速検出装置1の他の構成例を示す。話速検出装置1は、入力される音声信号に対して線形予測を行い、線形予測係数の変化量を演算する線形予測計数変化量演算部11と、線形予測計数変化量演算部11により得られた線形予測計数の変化量の総和のエンベロープを求める第1エンベロープ演算部12と、第1エンベロープ演算部12により得られたエンベロープのピークを検出する第1ピーク検出部13と、第1ピーク検出部13により検出されたピークの数から、単位時間あたりのピーク数を演算し、得られたピーク数を第1話速パラメータとして出力する第1話速演算部14と、入力される音声信号の絶対値を求める音声絶対値演算部21と、音声絶対値演算部21により得られた音声絶対値のエンベロープを求める第2エンベロープ演算部22と、第2エンベロープ演算部22により得られたエンベロープのピークを検出する第2ピーク検出部23と、第2ピーク検出部23により検出されたピークの数から、単位時間あたりのピーク数を演算し、得られたピーク数を第2話速パラメータとして出力する第2話速演算部24と、第1話速パラメータと、前記第2話速パラメータにそれぞれ所定の寄与率を掛けて足し算したものに基づいて話速を演算する総合話速演算部10を備えている。図2に示す構成例では、さらに入力される音声信号から音声区間を検出する音声区間検出部20を備えている。
これら線形予測計数変化量演算部11、第1エンベロープ演算部12、第1ピーク検出部13、第1話速演算部14、音声絶対値演算部21、第2エンベロープ演算部22、第2ピーク検出部23、第2話速演算部24、総合話速演算部10及び音声区間検出部20は、それぞれ個別の回路で構成されていてもよく、あるいは同一のCPU、ROM及びRAMなどで構成されていてもよく、ディジタル化された音声信号に所定の処理を行う。
図2又は図3から明らかなように、本実施形態に係る話速検出装置1では、入力される音声信号に対して線形予測分析を行い、得られた予測係数の変化量の総和のエンベロープを求め、エンベロープにおける単位時間あたりのピーク数を第1話速パラメータとして出力する第1話速演算系統と、音声信号の絶対値のエンベロープをとり、エンベロープにおける単位時間あたりのピーク数を第2話速パラメータとして出力する第2話速演算系統の2系統を備えており、最終的に第1話速パラメータ及び第2話速パラメータにそれぞれ所定の寄与率を掛けて足し算したものに基づいて話速を演算する。
線形予測計数変化量演算部11では、FIRフィルタに音声信号を入力し、フィルタ係数に対してLMSアルゴリズムなどを用いることで線形予測係数を求める。時刻nでのM次線形予測フィルタにおける線形予測係数の時間変化量の総和he(n)は、以下の式から求まる。h(n)は、時刻nでのm番目の線形予測係数である。
Figure 2010026323
第1エンベロープ演算部12は、予測係数の変化量の総和のエンベロープをとり、第1ピーク検出部13は、音節特徴量としてエンベロープピーク数を検出し、第1話速演算部14は、単位時間あたりのピーク数をカウントし、カウントした単位時間あたりのピーク数を第1話速パラメータとして出力する。定常的な信号に対する線形予測分析を行った場合、得られた線形予測係数は時間により変化せず一定の値になるので、入力信号が音声信号に定常雑音が重畳したものであっても、音節特徴量を抽出することができるので、雑音環境下でも安定して話速を検出することができる。
一方、音声絶対値演算部21は、入力される音声信号の絶対値を求め、第2エンベロープ演算部22は、音声信号の絶対値のエンベロープをとる。第2ピーク検出部23は、音節特徴量としてエンベロープピーク数を検出し、第2話速演算部24は、単位時間あたりのピーク数をカウントし、カウントした単位時間あたりのピーク数を第2話速パラメータとして出力する。総合話速演算部10は、第1話速パラメータと、第2話速パラメータにそれぞれ所定の寄与率(例えば3:7、4:6、5:5、6:4、7:3など)を掛けて足し算したものに基づいて話速を演算する。
図4(a)に入力信号の時間波形を、図4(b)に、入力信号の時間波形と線形予測係数の時間変化量の総和に対してエンベロープをかけた波形の一例を、図4(c)に入力信号の時間波形の信号絶対値にエンベロープをかけた波形の一例を示す。
前述のように、線形予測係数の変化量のエンベロープから音声の周波数特性などの変化を抽出することができるけれども、線形予測係数の変化量は、振幅の小さい信号に対しては変動が小さく、音声の特徴の変化を抽出できない場合がある。例えば図4(b)の円A及び図4(c)の円Bに注目すると、話速検出のために線形予測係数の変化量のエンベロープを用いた場合、信号絶対値のエンベロープからでは抽出できないような音声の変化を検出することができる。それに対して、図4(a)の円C、図4(b)の円D及び図4(c)の円Eに注目すると、音声の振幅が小さい部分(円C)では、線形予測係数の変化量のエンベロープからは音声に変化を抽出することはできないが(円D)、信号絶対値のエンベロープからは音声の変化を抽出することができる(円E)。このように、線形予測係数の変化量のエンベロープと信号絶対値のエンベロープを併用することにより、互いに他方の欠点を補完し合うため、精度の高い話速検出を実現することができる。
図3に示す構成例では、音声区間検出部20により、入力される音声信号から音声区間を検出し、音声区間検出部20が音声区間であると判断した区間に対してのみ、すなわち、音声区間フラグがオンしている期間のみ、第1話速演算部14及び第2話速演算部24は、それぞれ単位時間あたりのピーク数の演算を行う。すなわち、音声信号のうち、話者が実際に話している音声区間に対してだけ話速検出処理を行うので、話者が話していない非音声区間における環境ノイズなどによる影響を排除することができ、より精度の高い話速検出を行うことができる。なお、音声区間検出部20は、特開2005−156886号公報に記載された方法などにより、音声区間と非音声区間の区別及び音声区間の検出を行うものとし、その詳細な説明は省略する。
なお、図5に示すように、第1ピーク検出部13及び第2ピーク検出部23において、エンベロープの極大値から極小値への変化量が所定の設定値(閾値)よりも小さい場合、その極大値をピークとしては検出しないように構成してもよい。線形予測係数の変化量のエンベロープ及び信号絶対値のエンベロープでは、交互に極大値と極小値が連続する。図5中×印を付けたピークに着目すると、極小値から極大値への変化が比較的大きくても、極大値から極小値への変化は非常に小さい。従って、極大値から極小値への変化量を所定の設定値と比較し、変化量が設定値よりも小さい場合はピークとしてカウントしないようにすれば、変化の大きいピークのみが検出され、ノイズなどによる影響を低減することができ、その結果として、精度の高い話速検出を行うことができる。
図1に示す音声伸長率決定部2は、総合話速演算部10により演算された話速パラメータに基づいて音声信号を再生する際の音声伸長率を決定する。また、話速変換部3は、音声伸長率決定部2により決定された音声伸長率に基づいて、音声信号の話速変換を行う。話速演算アルゴリズムとしては、例えばPICOLA(Pointer Interval Controlled OverLap and Add)アルゴリズムなどを用いることができる。
なお、本発明は、上記実施形態の記載に限定されるものではなく、発明の趣旨を逸脱しない範囲で様々な変形や応用が可能である。例えば、本発明は、電話やインターホンなどのリアルタイム型の通話装置だけでなくICレコーダなどの音声再生装置の話速検出に用いることことができることはいうまでもない。
本発明の一実施形態に係る話速検出装置の使用例を示すブロック図。 本実施形態に係る話速検出装置の一構成例を示すブロック図。 本実施形態に係る話速検出装置の他の構成例を示すブロック図。 (a)は入力信号の時間波形を示す図、(b)は入力信号の時間波形にエンベロープをかけた波形の一例を示す図、(c)は入力信号の時間波形と線形予測係数の時間変化量の総和に対してエンベロープをかけた波形の一例を示す図。 エンベロープにおける極大値から極小値への変化が小さい場合にピークとしてカウントしないようにした変形例を説明するための波形図。
符号の説明
1 話速検出装置
10 総合話速演算部
11 線形予測係数変化量演算部
12 第1エンベロープ演算部
13 第1ピーク検出部
14 第1話速演算部
20 音声区間検出部
21 音声絶対値演算部
22 第2エンベロープ演算部
23 第2ピーク検出部
24 第2話速演算部

Claims (4)

  1. 入力される音声信号に対して線形予測分析を行い、得られた予測係数の変化量の総和のエンベロープを求め、エンベロープにおける単位時間あたりのピーク数を第1話速パラメータとし、
    前記音声信号の絶対値のエンベロープをとり、エンベロープにおける単位時間あたりのピーク数を第2話速パラメータとし、
    前記第1話速パラメータ及び前記第2話速パラメータにそれぞれ所定の寄与率を掛けて足し算したものに基づいて話速を演算することを特徴とする話速検出装置。
  2. 入力される音声信号に対して線形予測を行い、線形予測係数の変化量を演算する線形予測計数変化量演算部と、
    前記線形予測計数変化量演算部により得られた前記線形予測計数の変化量の総和のエンベロープを求める第1エンベロープ演算部と、
    前記第1エンベロープ演算部により得られたエンベロープのピークを検出する第1ピーク検出部と、
    前記第1ピーク検出部により検出されたピークの数から、単位時間あたりのピーク数を演算し、得られたピーク数を第1話速パラメータとして出力する第1話速演算部と、
    前記入力される音声信号の絶対値を求める音声絶対値演算部と、
    前記音声絶対値演算部により得られた音声絶対値のエンベロープを求める第2エンベロープ演算部と、
    前記第2エンベロープ演算部により得られたエンベロープのピークを検出する第2ピーク検出部と、
    前記第2ピーク検出部により検出されたピークの数から、単位時間あたりのピーク数を演算し、得られたピーク数を第2話速パラメータとして出力する第2話速演算部と、
    前記第1話速パラメータと、前記第2話速パラメータにそれぞれ所定の寄与率を掛けて足し算したものに基づいて話速を演算する総合話速演算部を備えたことを特徴とする話速演算装置。
  3. 入力される音声信号から音声区間を検出する音声区間検出部をさらに備え、前記音声区間検出部が音声区間であると判断した区間に対してのみ、前記第1話速演算部及び前記第2話速演算部は、それぞれ単位時間あたりのピーク数の演算を行うことを特徴とする請求項2に記載の話速演算装置。
  4. 前記第1ピーク検出部及び前記第2ピーク検出部は、エンベロープの極大値から極小値への変化量が所定の設定値よりも小さい場合、その極大値をピークとしては検出しないことを特徴とする請求項2に記載の話速演算装置。
JP2008188950A 2008-07-22 2008-07-22 話速検出装置 Withdrawn JP2010026323A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008188950A JP2010026323A (ja) 2008-07-22 2008-07-22 話速検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008188950A JP2010026323A (ja) 2008-07-22 2008-07-22 話速検出装置

Publications (1)

Publication Number Publication Date
JP2010026323A true JP2010026323A (ja) 2010-02-04

Family

ID=41732200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008188950A Withdrawn JP2010026323A (ja) 2008-07-22 2008-07-22 話速検出装置

Country Status (1)

Country Link
JP (1) JP2010026323A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101541606B1 (ko) 2013-11-21 2015-08-04 연세대학교 산학협력단 초음파 신호의 포락선 검출 방법 및 그 장치
US9620149B2 (en) 2014-01-28 2017-04-11 Fujitsu Limited Communication device
CN112466332A (zh) * 2020-11-13 2021-03-09 阳光保险集团股份有限公司 一种语速评分方法、装置、电子设备及存储介质
WO2021166158A1 (ja) * 2020-02-20 2021-08-26 三菱電機株式会社 話速変換装置、話速変換方法、プログラム及び記録媒体

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101541606B1 (ko) 2013-11-21 2015-08-04 연세대학교 산학협력단 초음파 신호의 포락선 검출 방법 및 그 장치
US9506896B2 (en) 2013-11-21 2016-11-29 Industry-Academic Cooperation Foundation, Yonsei University Method and apparatus for detecting an envelope for ultrasonic signals
US9620149B2 (en) 2014-01-28 2017-04-11 Fujitsu Limited Communication device
WO2021166158A1 (ja) * 2020-02-20 2021-08-26 三菱電機株式会社 話速変換装置、話速変換方法、プログラム及び記録媒体
CN112466332A (zh) * 2020-11-13 2021-03-09 阳光保险集团股份有限公司 一种语速评分方法、装置、电子设备及存储介质
CN112466332B (zh) * 2020-11-13 2024-05-28 阳光保险集团股份有限公司 一种语速评分方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
JP5453740B2 (ja) 音声強調装置
CN105118522B (zh) 噪声检测方法及装置
JP2004272052A (ja) 音声区間検出装置
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
CN113766073A (zh) 会议***中的啸叫检测
JPWO2017141317A1 (ja) 音響信号強調装置
CN103109320A (zh) 噪声抑制装置
Hendriks et al. Optimal near-end speech intelligibility improvement incorporating additive noise and late reverberation under an approximation of the short-time SII
CN112053702B (zh) 一种语音处理的方法、装置及电子设备
JP2011033717A (ja) 雑音抑圧装置
US20160365099A1 (en) Method and system for consonant-vowel ratio modification for improving speech perception
JP2013250548A (ja) 処理装置、処理方法、プログラム及び処理システム
JP2005266797A (ja) 音源信号分離装置及び方法、並びにピッチ検出装置及び方法
JP2010026323A (ja) 話速検出装置
CN105869656B (zh) 一种语音信号清晰度的确定方法及装置
JP2009296298A (ja) 音声信号処理装置および方法
JP2008309955A (ja) ノイズサプレス装置
JP2010102129A (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
JP2005189518A (ja) 有音無音判定装置および有音無音判定方法
EP1229517B1 (en) Method for recognizing speech with noise-dependent variance normalization
JP6197367B2 (ja) 通話装置及びマスキング音生成プログラム
US8306828B2 (en) Method and apparatus for audio signal expansion and compression
KR101340757B1 (ko) 위상차이와 스펙트럼의 에너지를 이용한 잡음제거 방법 및장치
JP2009265422A (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20111004