JP6891736B2 - 音声処理プログラム、音声処理方法および音声処理装置 - Google Patents

音声処理プログラム、音声処理方法および音声処理装置 Download PDF

Info

Publication number
JP6891736B2
JP6891736B2 JP2017164725A JP2017164725A JP6891736B2 JP 6891736 B2 JP6891736 B2 JP 6891736B2 JP 2017164725 A JP2017164725 A JP 2017164725A JP 2017164725 A JP2017164725 A JP 2017164725A JP 6891736 B2 JP6891736 B2 JP 6891736B2
Authority
JP
Japan
Prior art keywords
frequency
spectrum
frequency spectrum
unit
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017164725A
Other languages
English (en)
Other versions
JP2019045527A (ja
Inventor
紗友梨 中山
紗友梨 中山
太郎 外川
太郎 外川
猛 大谷
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017164725A priority Critical patent/JP6891736B2/ja
Priority to US16/113,125 priority patent/US10636438B2/en
Publication of JP2019045527A publication Critical patent/JP2019045527A/ja
Application granted granted Critical
Publication of JP6891736B2 publication Critical patent/JP6891736B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephone Function (AREA)

Description

本発明は、音声処理プログラム等に関する。
近年、多くの企業では、顧客の満足度等を推定し、マーケティングを有利に進めるために、応答者と顧客との会話から、顧客(あるいは、応答者)の感情等に関する情報を獲得したいというニーズがある。人の感情は声に現れることが多く、たとえば、声の高さ(ピッチ周波数)は、人の感情を捉える場合に重要な要素の一つとなる。
ピッチ周波数を推定する従来技術の一例について説明する。図18は、従来技術を説明するための図(1)である。図18に示すように、この従来技術では、周波数変換部10と、相関算出部11と、探索部12とを有する。
周波数変換部10は、入力音声をフーリエ変換することで、入力音声の周波数スペクトルを算出する処理部である。周波数変換部10は、入力音声の周波数スペクトルを、相関算出部11に出力する。以下の説明では、入力音声の周波数スペクトルを、入力スペクトルと表記する。
相関算出部11は、様々な周波数のコサイン波と、入力スペクトルとの相関値を周波数毎にそれぞれ算出する処理部である。相関算出部11は、コサイン波の周波数と相関値とを対応づけた情報を、探索部12に出力する。
探索部12は、複数の相関値の内、最大の相関値に対応づけられたコサイン波の周波数を、ピッチ周波数として出力する処理部である。
図19は、従来技術を説明するための図(2)である。図19において、入力スペクトル5aは、周波数変換部10から出力された入力スペクトルである。入力スペクトル5aの横軸は周波数に対応する軸であり、縦軸はスペクトルの大きさに対応する軸である。
コサイン波6a,6bは、相関算出部11が受け付けるコサイン波の一部である。コサイン波6aは、周波数軸上で周波数f[Hz]とその倍数にピークを持つコサイン波である。コサイン波6bは、周波数軸上で周波数2f[Hz]とその倍数にピークを持つコサイン波である。
相関算出部11は、入力スペクトル5aと、コサイン波6aとの相関値「0.95」を算出する。相関算出部11は、入力スペクトル5aと、コサイン波6bとの相関値「0.40」を算出する。
探索部12は、各相関値を比較し、最大値となる相関値を探索する。図19に示す例では、相関値「0.95」が最大値となるため、探索部12は、相関値「0.95」に対応する周波数f「Hz」を、ピッチ周波数として出力する。
特表2002−516420号公報 特表2002−515609号公報
しかしながら、上述した従来技術では、ピッチ周波数の推定精度を向上させることができないという問題がある。
たとえば、電話の帯域制限や、周囲環境の影響により、入力スペクトルの低域や一部の倍音が適正な値よりも小さくなる場合があり、このような場合においては、ピッチ周波数を正確に推定することが難しい。
図20は、従来技術の問題を説明するための図である。図20において、入力スペクトル5bは、周波数変換部10から出力された入力スペクトルである。この入力スペクトル5bは、帯域制限、周囲環境等の影響により、周波数fに対応する大きさが、適正な値よりも小さくなっている。
相関算出部11は、入力スペクトル5bと、コサイン波6aとの相関値「0.70」を算出する。相関算出部11は、入力スペクトル5bと、コサイン波6bとの相関値「0.80」を算出する。
探索部12は、各相関値を比較し、最大値となる相関値を探索する。図20に示す例では、相関値「0.70」が最大値となるため、探索部12は、相関値「0.80」に対応する周波数2f「Hz」を、ピッチ周波数として出力する。
ここで、入力スペクトル5bでは、スペクトルの大きさが適正な値よりも小さくなっているものの、低域側の極大値に対応する周波数がfであるため、ピッチ周波数はfが正しいものとなる。従って、探索部12から出力されるピッチ周波数は誤っている。
1つの側面では、本発明は、ピッチ周波数の推定精度を向上させることができる音声処理プログラム、音声処理方法および音声処理装置を提供することを目的とする。
第1の案では、コンピュータに下記の処理を実行させる。コンピュータは、入力音声を取得し、入力音声から第1周波数スペクトルを検出する。コンピュータは、第1周波数スペクトルの包絡に基づく第2周波数スペクトルを算出する。コンピュータは、第1周波数スペクトルの第1の大きさと、第2周波数スペクトルの第2の大きさとの比較に基づいて、第1の大きさを補正する。コンピュータは、補正した第1周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、入力音声のピッチ周波数を推定する。
ピッチ周波数の推定精度を向上させることができる。
図1は、本実施例1に係る音声処理装置の構成を示す機能ブロック図である。 図2は、本実施例1に係る補正部の処理を説明するための図(1)である。 図3は、関数g(D(l,k))を説明するための図である。 図4は、本実施例1に係る補正部の処理を説明するための図(2)である。 図5は、表示部に表示される画面情報の一例を示す図である。 図6は、本実施例1に係る音声処理装置の処理手順を示すフローチャートである。 図7は、本実施例1の音声処理装置の効果を説明するための図である。 図8は、基準スペクトルを算出するその他の処理を説明するための図(1)である。 図9は、本実施例2に係る音声処理システムの構成を示す図である。 図10は、本実施例2に係る音声処理装置の構成を示す機能ブロック図である。 図11は、本実施例2に係る音声処理装置の処理手順を示すフローチャートである。 図12は、本実施例3に係る音声処理システムの構成を示す図である。 図13は、本実施例3に係る音声処理装置の構成を示す機能ブロック図である。 図14は、ピッチ検出部の構成を示す機能ブロック図である。 図15は、基準スペクトルを算出するその他の処理を説明するための図(2)である。 図16は、本実施例3に係るピッチ検出部の処理手順を示すフローチャートである。 図17は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。 図18は、従来技術を説明するための図(1)である。 図19は、従来技術を説明するための図(2)である。 図20は、従来技術の問題を説明するための図である。
以下に、本願の開示する音声処理プログラム、音声処理方法および音声処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
図1は、本実施例1に係る音声処理装置の構成を示す機能ブロック図である。図1に示すように、この音声処理装置100は、マイク50aおよび表示部50bに接続される。音声処理装置100は、AD(Analog-to-Digital)変換部110、音声ファイル化部115、検出部120、算出部130、補正部140、推定部150、記憶部160、出力部170を有する。
マイク50aは、集音した音声の情報を、音声処理装置100に入力する装置である。以下の説明では、マイク50aが音声処理装置100に入力する音声の情報を「音声信号」と表記する。音声信号は、入力音声の一例である。
表示部50bは、音声処理装置100から出力される情報を表示する表示装置である。表示部50bは、液晶ディスプレイ、タッチパネルなどに対応する。
AD変換部110は、マイク50aから音声信号を受信し、AD変換を実行する処理部である。具体的には、AD変換部110は、音声信号(アナログ信号)を、音声信号(デジタル信号)に変換する。AD変換部110は、音声信号(デジタル信号)を、音声ファイル化部115、検出部120に出力する。以下の説明では、AD変換部110から出力される音声信号(デジタル信号)を単に音声信号と表記する。
音声ファイル化部115は、音声信号を所定の音声ファイルフォーマットにより、音声ファイルに変換する処理部である。たとえば、音声ファイルは、各時刻と、音声信号の強さとをそれぞれ対応づけた情報を含む。音声ファイル化部115は、音声ファイルを、記憶部160の音声ファイルテーブル160aに格納する。
検出部120は、音声信号から周波数スペクトルを検出する処理部である。検出部120は、周波数スペクトルの情報を、算出部130および補正部140に出力する。以下の説明では、音声信号から検出した周波数スペクトルを「入力スペクトル」と表記する。
検出部120は、フレーム毎に区分された音声信号x(t−T)〜x(t)をそれぞれ短時間離散フーリエ変換(STFT:Short Time Discreate Fourier Transform)することで、各入力スペクトルX(l,k)を検出する。1フレームの長さは、予め設定された所定の長さTとする。
上記の変数t、l、k、x(t)、x(l,k)について説明する。「t」は、時間を示す変数である。「l」は、フレーム番号を示す変数である。「k」は、帯域[bin]を示す変数である。(k=0、1、・・・、T−1)とする。x(t)は、n番目の音声信号を示すものである。X(l,k)は、n番目の入力スペクトルを示すものである。
算出部130は、入力スペクトルの包絡に基づく基準スペクトルを算出する処理部である。たとえば、算出部130は、入力スペクトルX(l,k)を周波数方向に平滑化することで、基準スペクトルを算出する。算出部130は、基準スペクトルの情報を、補正部140に出力する。
たとえば、算出部130は、入力スペクトルX(l,k)を周波数方向に平滑化するために、フィルタ長Qのハミング窓W(m)を利用する。ハミング窓W(m)は、式(1)により定義される。変数mは、ハミング窓を入力スペクトル上に配置した場合の、帯域[bin]に対応する変数である。
Figure 0006891736
算出部130は、式(2)に基づいて、基準スペクトルを求める。ここでは一例として、ハミング窓を利用する場合について説明するが、ハミング窓の代わりに、ガウス窓、ブラックマン窓を利用してもよい。
Figure 0006891736
補正部140は、入力スペクトルの大きさと、基準スペクトルの大きさとの比較に基づいて、入力スペクトルを補正する処理部である。以下の説明では、補正された入力スペクトルを「補正スペクトル」と表記する。補正部140は、補正スペクトルの情報を、推定部150に出力する。
図2は、本実施例1に係る補正部の処理を説明するための図(1)である。図2に示すように、グラフ7およびグラフ8の横軸は、周波数に対応する軸であり、縦軸は、スペクトルの大きさに対応する軸である。グラフ7では、入力スペクトル7aと、基準スペクトル7bとを示す。
補正部140は、式(3)に基づいて、入力スペクトルと、基準スペクトルとの差分D(l,k)を算出する。図2を用いて説明すると、入力スペクトル7aと、基準スペクトル7bとの差分を取ることで、差分スペクトル8aが求められる。差分スペクトル8aでは、入力スペクトル7aに含まれているノイズ成分が取り除かれ、極大点の位置が明確となる。
Figure 0006891736
補正部140は、差分スペクトルの値を示すD(l,k)を、式(4)に代入することにより、補正スペクトルY(l,k)を算出する。式(4)において、g(D(l,k))は、予め定められた関数である。
Figure 0006891736
図3は、関数g(D(l,k))を説明するための図である。図3のグラフにおいて、横軸は、D(l,k)の値に対応する軸である。縦軸は、g(D(l,k))の値に対応する軸である。図3に示すように、差分D(l,k)の値がα未満である場合には、g(D(l,k))の値はBとなる。D(l,k)の値がβより大きい場合には、g(D(l,k))の値はAとなる。α、β、A、Bの値は、予め設定される。
図4は、本実施例1に係る補正部の処理を説明するための図(2)である。図4に示すように、グラフ8およびグラフ9の横軸は、周波数に対応する軸であり、縦軸は、スペクトルの大きさに対応する軸である。グラフ8では、差分スペクトル8aを示す。補正部140は、この差分スペクトルと、式(4)とを基にして、補正スペクトル9aを算出する。たとえば、式(4)に示すAの値を「1」、Bの値を「−1」とし、αとβとの間隔を小さくすることで、−1〜1に変化する補正スペクトル9aが得られる。ここでは一例として、Aの値を「1」、Bの値を「−1」としたが、これに限定されるものではなく、たとえば、Aの値を「1」、Bの値を「−0.5」等にしてもよい。
図4に示すように、補正スペクトル9aは、差分スペクトル8aが極大値となる周波数f、2f、3f、4fにおいて、「1」となる。
図1の説明に戻る。推定部150は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との相関に基づいて、音声信号のピッチ周波数を推定する処理部である。たとえば、推定部150は、ピッチ周波数の情報を、ピッチ周波数テーブル160bに格納する。
推定部150が利用する周期信号を、式(5)に示す信号とする。ここでは、周期信号として、コサイン波を用いるが、コサイン波以外の周期信号を用いてもよい。式(5)において、変数pの範囲は「a≦p≦b」となる。たとえば、a、bは、50〜1000Hzのbin数に対応する値であり、予め設定される。
Figure 0006891736
推定部150は、式(6)に基づいて、補正スペクトルY(l,k)と、周期信号S(p,k)との相関値C(p)を算出する。推定部150は、pの値をaからbまで変化させつつ、各pに応じた相関値C(p)を算出する。
Figure 0006891736
推定部150は、式(7)に基づいて最大値Mを算出する。推定部150は、最大値Mとなるpの値を、ピッチ周波数Pとして推定する。なお、推定部150は、最大値Mが閾値TH以上である場合に、ピッチ周波数Pを出力する。推定部150は、最大値Mが閾値TH未満である場合には、ピッチ周波数を0として出力する。
Figure 0006891736
推定部150は、フレーム毎に、上記処理を繰り返し実行し、フレーム番号と、ピッチ周波数とを対応づけて、ピッチ周波数テーブル160bに登録する。
記憶部160は、音声ファイルテーブル160aと、ピッチ周波数テーブル160bとを有する。記憶部160は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
音声ファイルテーブル160aは、音声ファイル化部115から出力される音声ファイルを保持するテーブルである。
ピッチ周波数テーブル160bは、推定部150から出力されるピッチ周波数の情報を保持するテーブルである。たとえば、ピッチ周波数テーブル160bは、フレーム番号と、ピッチ周波数とを対応づける。
出力部170は、ピッチ周波数に関する画面情報を、表示部50bに出力することで、画面情報を、表示部50bに表示させる処理部である。
図5は、表示部に表示される画面情報の一例を示す図である。出力部170は、推定部150に推定された順番に、ピッチ周波数を画面情報60に表示させる。たとえば、出力部170は、ピッチ周波数が大きいほど、高い位置に黒丸をプロットする。出力部150は、ピッチ周波数が0である場合には、黒丸をプロットすることを抑止する。
また、出力部170は、ピッチ周波数テーブル160bに格納された各ピッチ周波数を基にして、音声信号の評価を行い、評価結果を画面情報60に設定して表示させてもよい。たとえば、出力部170は、選択した2点のピッチ周波数の差が閾値以上となった場合に、声に抑揚があり、好印象であるため、「Good!」なる評価結果60aを、画面情報60に設定する。その他の評価については、出力部170は、ピッチ周波数の変化の特徴と、評価結果とを対応づけたテーブル(図示略)を基にして、評価を行う。
ところで、図1に示したAD変換部110、音声ファイル化部115、検出部120、算出部130、補正部140、推定部150、出力部170は、制御部に対応する。制御部は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
次に、本実施例1に係る音声処理装置の処理手順の一例について説明する。図6は、本実施例1に係る音声処理装置の処理手順を示すフローチャートである。図6に示すように、この音声処理装置100のAD変換部110は、マイク50aから音声信号を受信する(ステップS101)。音声処理装置100の検出部120は、音声信号に基づいて、入力スペクトルを検出する(ステップS102)。
音声処理装置100の算出部130は、基準スペクトルを算出する(ステップS103)。音声処理装置100の補正部140は、入力スペクトルを補正することで、補正スペクトルを算出する(ステップS104)。
音声処理装置100の推定部150は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との相関値をそれぞれ算出する(ステップS105)。推定部150は、各相関値を基にして、相関値が最大値となるピッチ周波数を推定する(ステップS106)。
音声処理装置100の出力部170は、各ピッチ周波数を基にして、音声信号の評価を行う(ステップS107)。出力部170は、画面情報を生成し、画面情報を表示部50bに出力する(ステップS108)。
音声処理装置100は、音声が終了したか否かを判定する(ステップS109)。音声処理装置100は、音声が終了していない場合には(ステップS109,No)、ステップS101に移行する。一方、音声処理装置100は、音声が終了した場合には(ステップS109,Yes)、処理を終了する。
次に、本実施例1に係る音声処理装置100の効果について説明する。音声処理装置100は、音声信号の入力スペクトルの包絡に基づく基準スペクトルを算出し、入力スペクトルと基準スペクトルとを比較することで、補正スペクトルを算出する。音声処理装置100は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との各相関値に基づいて、音声信号のピッチ周波数を推定する。ここで、補正スペクトルは、入力スペクトルの極大値を一律の大きさで表すスペクトルであるため、入力スペクトルの低域や一部倍音が低減していても、極大値であれば、一律の値に揃えられるため、相関値に影響を与えない。このため、ピッチ周波数の推定精度を向上させることができる。
図7は、本実施例1の音声処理装置の効果を説明するための図である。図7において、従来技術では、入力スペクトル7aと、各周期信号との相関値を直接算出することで、ピッチ周波数を推定している。このため、入力スペクトル7aの低域(たとえばf)のスペクトルが低減していると、適切な相関値を算出することができず、適切なピッチ周波数を求めることが難しい。図7に示す例では、周波数f[Hz]と入力スペクトル7aとの相関値が「0.7」となり、周波数2f[Hz]と入力スペクトル7aとの相関値が「0.8」となる。正解のピッチ周波数はf[Hz]であるが、最大の相関値が、2f[Hz]に対応する相関値「0.8」であるため、従来技術では、ピッチ周波数を2f[Hz]と誤判定する。
一方、本実施例1の音声処理装置100では、入力スペクトル7aを補正することで、補正スペクトル9aを算出し、この補正スペクトル9aと、各周期信号との相関値を算出することで、ピッチ周波数を推定している。補正スペクトル9aは、入力スペクトル7aの低域や一部倍音が低減していても、極大値であれば、一律の値に揃えるスペクトルである。このため、入力スペクトル7aの低域や一部倍音が低減していても、適切にピッチ周波数を求めることができる。図7に示す例では、周波数f[Hz]と補正スペクトル9aとの相関値が「0.9」となり、周波数2f[Hz]と補正スペクトル9aとの相関値が「0.7」となる。従って、音声処理装置100では、ピッチ周波数をf[Hz]と判定することができる。
なお、本実施例1に係る音声処理装置100の算出部130は、入力スペクトルを周波数方向に平滑化することで、基準スペクトルを算出していたが、その他の処理により、基準スペクトルを算出してもよい。
図8は、基準スペクトルを算出するその他の処理を説明するための図(1)である。算出部130は、入力スペクトル7aの微分値を求めることで、極大値を特定する。たとえば、算出部130は、入力スペクトル7aの微分値が増加から減少に変わる境目を、極大値として算出する。たとえば、算出部130は、入力スペクトル7aから、極大値15a、15b、15c、15dを算出する。算出部130は、各極大値15a〜15dを繋いだスペクトル15を求める。算出部130は、スペクトル15を下方向に平行移動させたものを、基準スペクトル16として算出する。
図8に示した処理とは別に、算出部130は、基準スペクトルを算出してもよい。たとえば、算出部130は、入力スペクトルのスペクトル包絡を算出し、算出したスペクトル包絡を、下方に平行移動させたものを、基準スペクトルとして算出してもよい。算出部130が、スペクトル包絡を算出する場合には、LPC(Liner Predictive Coding)分析や、ケプストラム分析などを利用する。
図9は、本実施例2に係る音声処理システムの構成を示す図である。図9に示すように、この音声処理システムは、携帯端末2a、端末装置2b、分岐コネクタ3、収録機器66、クラウド67を有する。携帯端末2aは、電話網65aを介して、分岐コネクタ3に接続される。端末装置2bは、分岐コネクタ3に接続される。分岐コネクタ3は、収録機器66に接続される。収録機器66は、インターネット網65bを介して、クラウド67に接続される。たとえば、クラウド67には、音声処理装置200が含まれる。図示を省略するが、音声処理装置200は、複数のサーバによって構成されていてもよい。携帯端末2aおよび端末装置2bは、マイク(図示略)に接続される。
話者1aによる音声は、携帯端末2aのマイクにより集音され、集音された音声信号は、分岐コネクタ3を介して、収録機器66に送信される。以下の説明では、話者1aの音声信号を、「第1音声信号」と表記する。
話者1bによる音声は、端末装置2bのマイクにより集音され、集音された音声信号は、分岐コネクタ3を介して、収録機器66に送信される。以下の説明では、話者1bの音声信号を、「第2音声信号」と表記する。
収録機器66は、第1音声信号および第2音声信号を収録する装置である。たとえば、収録機器66は、第1音声信号を受信すると、第1音声信号を、所定の音声ファイルフォーマットにより、音声ファイルに変換し、第1音声信号の音声ファイルを、音声処理装置200に送信する。以下の説明では、適宜、第1音声信号の音声ファイルを「第1音声ファイル」と表記する。
収録機器66は、第2音声信号を受信すると、第2音声信号を、所定の音声ファイルフォーマットにより、音声ファイルに変換し、第2音声信号の音声ファイルを、音声処理装置200に送信する。以下の説明では、適宜、第2音声信号の音声ファイルを「第2音声ファイル」と表記する。
音声処理装置200は、第1音声ファイルの第1音声信号のピッチ周波数を推定する。また、音声処理装置200は、第2音声ファイルの第2音声信号のピッチ周波数を推定する。第1音声信号のピッチ周波数を推定する処理と、第2音声信号のピッチ周波数を推定する処理は同様の処理であるため、ここでは、第1音声信号のピッチ周波数を推定する処理について説明する。また、以下では、第1音声信号および第2音声信号をまとめて、適宜、音声信号と表記する。
図10は、本実施例2に係る音声処理装置の構成を示す機能ブロック図である。図10に示すように、この音声処理装置200は、受信部210と、記憶部220と、検出部230と、算出部240と、補正部250と、推定部260とを有する。
受信部210は、収録機器66から、音声ファイルを受信する処理部である。受信部210は、受信した音声ファイルを、記憶部220の音声ファイルテーブル220aに登録する。受信部210は、通信装置に対応する。
記憶部220は、音声ファイルテーブル220aと、ピッチ周波数テーブル220bを有する。記憶部220は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
検出部230は、音声ファイルテーブル220aから、音声ファイル(音声信号)を取得し、取得した音声信号から入力スペクトル(周波数スペクトル)を検出する処理部である。検出部230は、検出した入力スペクトルの情報を、算出部240および補正部250に出力する。検出部230が、音声信号から入力スペクトルを検出する処理は、実施例1で説明した検出部120の処理と同様である。
算出部240は、入力スペクトルの包絡に基づく基準スペクトルを算出する処理部である。算出部240は、基準スペクトルの情報を、補正部250に出力する。算出部240が、入力スペクトルに基づいて基準スペクトルを算出する処理は、実施例1で説明した算出部130の処理と同様である。
補正部250は、入力スペクトルの大きさと、基準スペクトルの大きさとの比較に基づいて、入力スペクトルを補正する処理部である。補正部250が、入力スペクトルを補正して補正スペクトルを算出する処理は、実施例1で説明した補正部140の処理と同様である。補正部250は、補正スペクトルの情報を、推定部260に出力する。
推定部260は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との相関に基づいて、音声信号のピッチ周波数を推定する処理部である。推定部260は、実施例1で説明した推定部150と同様にして、補正スペクトルと、各周期信号との相関値C(p)を算出し、相関値C(p)が最大値Mとなるpを特定する。以下の説明では、相関値C(p)が最大値Mとなるpを「P」と表記する。
更に、推定部260は、下記の条件1および条件2を満たす場合に、Pをピッチ周波数として推定する。一方、条件1または条件2のいずれか一方を満たさない場合には、ピッチ周波数を0として出力する。条件2について、X(l,P)は、現在の分析対象とするフレーム番号「l」の入力スペクトルにおける、周波数Pのスペクトルの大きさを示すものである。
条件1:最大値Mが閾値TH1以上である。
条件2:X(l,P)、X(l,2P)、X(l,3P)が閾値TH2以上である。
推定部260は、フレーム番号と、ピッチ周波数とを対応づけて、ピッチ周波数テーブル220bに登録する。
上記の検出部230、算出部240、補正部250、推定部260は、音声ファイルの分析位置を更新しつつ、上記処理を繰り返し実行する。たとえば、現在の分析開始位置をuとすると、次の分析開始位置を、u+Tに更新する。Tは、予め設定された1フレームの長さを示すものである。
次に、本実施例2に係る音声処理装置の処理手順の一例について説明する。図11は、本実施例2に係る音声処理装置の処理手順を示すフローチャートである。図11に示すように、この音声処理装置200の検出部230は、音声ファイルテーブル220aから音声信号(音声ファイル)を取得する(ステップS201)。音声処理装置200は、分析開始位置を設定する(ステップS202)。
検出部230は、入力スペクトルを検出する(ステップS203)。音声処理装置200の算出部240は、基準スペクトルを算出する(ステップS204)。音声処理装置200の補正部250は、入力スペクトルを補正することで、補正スペクトルを算出する(ステップS205)。
音声処理装置200の推定部260は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との相関値をそれぞれ算出する(ステップS206)。推定部260は、各相関値を基にして、相関値が最大値となるピッチ周波数を推定する(ステップS207)。ステップS207において、推定部260は、条件1および条件2を満たす場合に、相関値が最大値となる周波数を、ピッチ周波数として推定する。
音声処理装置200は、音声が終了したか否かを判定する(ステップS208)。音声処理装置200は、音声が終了していない場合には(ステップS208,No)、分析開始位置を更新し(ステップS209)、ステップS203に移行する。一方、音声処理装置200は、音声が終了した場合には(ステップS208,Yes)、処理を終了する。
次に、本実施例2に係る音声処理装置200の効果について説明する。音声処理装置200は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との各相関値に基づいて、音声信号のピッチ周波数を推定する。ここで、補正スペクトルは、入力スペクトルの極大値を一律の大きさで表すスペクトルであるため、入力スペクトルの低域や一部倍音が低減していても、極大値であれば、一律の値に揃えられるため、相関値に影響を与えない。このため、ピッチ周波数の推定精度を向上させることができる。
また、音声処理装置200は、ピッチ周波数の整数倍に対応する、入力スペクトルの大きさに基づいて、ピッチ周波数を修正する。たとえば、X(l,P)、X(l,2P)、X(l,3P)が閾値TH2以上であれば、入力スペクトル上のピッチ周波数Pの位置が極大値の位置に対応しており、ピッチ周波数が適切であるため、ピッチ周波数をそのまま出力する。一方、X(l,P)、X(l,2P)、X(l,3P)が閾値TH2未満であれば、ピッチ周波数の位置が極大値の位置からずれており、ピッチ周波数が適切ではない。このため、上記処理を行うことで、適切であると判定できたピッチ周波数のみを出力し、それ以外は、0を出力することができる。
図12は、本実施例3に係る音声処理システムの構成を示す図である。図12に示すように、この音声評価システムは、マイク30a,30b,30c、音声処理装置300、クラウド68を有する。マイク30a〜30cは、音声処理装置300に接続される。音声処理装置300は、インターネット網65bを介して、クラウド68に接続される。たとえば、クラウド68には、サーバ400が含まれる。
話者1Aによる音声は、マイク30aにより集音され、集音された音声信号は、音声処理装置300に出力される。話者1Bによる音声は、マイク30bにより集音され、集音された音声信号は、音声処理装置300に出力される。話者1Cによる音声は、マイク30cにより集音され、集音された音声信号は、音声処理装置300に出力される。
以下の説明では、話者1Aの音声信号を、「第1音声信号」と表記する。話者1Bの音声信号を、「第2音声信号」と表記する。話者1Cの音声信号を、「第3音声信号」と表記する。
たとえば、第1音声信号には、話者1Aの話者情報が付与される。話者情報は、話者を一意に識別する情報である。第2音声信号には、話者1Bの話者情報が付与される。第3音声信号には、話者1Cの話者情報が付与される。
音声処理装置300は、第1音声信号、第2音声信号、第3音声信号を収録する装置である。また、音声処理装置300は、各音声信号のピッチ周波数を検出する処理を実行する。音声処理装置300は、話者情報と、所定区間毎のピッチ周波数とを対応づけて、サーバ400に送信する。
サーバ400は、音声処理装置300から受信する各話者情報のピッチ周波数を記憶する装置である。
図13は、本実施例3に係る音声処理装置の構成を示す機能ブロック図である。図13に示すように、この音声処理装置300は、AD変換部310a〜310bと、ピッチ検出部320と、ファイル化部330と、送信部340とを有する。
AD変換部310aは、マイク30aから第1音声信号を受信し、AD変換を実行する処理部である。具体的には、AD変換部310aは、第1音声信号(アナログ信号)を、第1音声信号(デジタル信号)に変換する。AD変換部310aは、第1音声信号(デジタル信号)を、ピッチ検出部320に出力する。以下の説明では、AD変換部310aから出力される第1音声信号(デジタル信号)を単に第1音声信号と表記する。
AD変換部310bは、マイク30bから第2音声信号を受信し、AD変換を実行する処理部である。具体的には、AD変換部310bは、第2音声信号(アナログ信号)を、第2音声信号(デジタル信号)に変換する。AD変換部310bは、第2音声信号(デジタル信号)を、ピッチ検出部320に出力する。以下の説明では、AD変換部310bから出力される第2音声信号(デジタル信号)を単に第2音声信号と表記する。
AD変換部310cは、マイク30cから第3音声信号を受信し、AD変換を実行する処理部である。具体的には、AD変換部310cは、第3音声信号(アナログ信号)を、第3音声信号(デジタル信号)に変換する。AD変換部310cは、第3音声信号(デジタル信号)を、ピッチ検出部320に出力する。以下の説明では、AD変換部310cから出力される第3音声信号(デジタル信号)を単に第3音声信号と表記する。
ピッチ検出部320は、音声信号を周波数解析することで、所定区間毎のピッチ周波数を算出する処理部である。たとえば、ピッチ検出部320は、第1音声信号を周波数解析することで、第1音声信号の第1ピッチ周波数を検出する。ピッチ検出部320は、第2音声信号を周波数解析することで、第2音声信号の第2ピッチ周波数を検出する。ピッチ検出部320は、第3音声信号を周波数解析することで、第3音声信号の第3ピッチ周波数を検出する。
ピッチ検出部320は、話者1Aの話者情報と、所定区間毎の第1ピッチ周波数とを対応づけて、ファイル化部330に出力する。ピッチ検出部320は、話者1Bの話者情報と、所定区間毎の第2ピッチ周波数とを対応づけて、ファイル化部330に出力する。ピッチ検出部320は、話者1Cの話者情報と、所定区間毎の第3ピッチ周波数とを対応づけて、ファイル化部330に出力する。
ファイル化部330は、ピッチ検出部320から受け付ける情報をファイル化することで、「音声ファイル情報」を生成する処理部である。この音声ファイル情報には、話者情報と、所定区間毎のピッチ周波数とを対応づけた情報を含む。具体的に、音声ファイル情報は、話者1Aの話者情報と、所定区間毎の第1ピッチ周波数とを対応づけた情報を含む。音声ファイル情報は、話者1Bの話者情報と、所定区間毎の第2ピッチ周波数とを対応づけた情報を含む。音声ファイル情報は、話者1Cの話者情報と、所定区間毎の第3ピッチ周波数とを対応づけた情報を含む。ファイル化部330は、音声ファイル情報を、送信部340に出力する。
送信部340は、ファイル化部330から音声ファイル情報を取得し、取得した音声ファイル情報を、サーバ400に送信する。
続いて、図13に示したピッチ検出部320の構成について説明する。図14は、ピッチ検出部の構成を示す機能ブロック図である。図14に示すように、このピッチ検出部320は、検出部321、算出部322、補正部323、推定部324、記憶部325を有する。以下の説明では、ピッチ検出部320が、第1音声信号のピッチ周波数を推定する処理について説明する。第2音声信号、第3音声信号のピッチ周波数を推定する処理は、第1音声信号のピッチ周波数を推定する処理と同様である。また、以下の説明では、便宜的に、第1音声信号を、単に、音声信号と表記する。
検出部321は、音声信号を取得し、取得した音声信号から入力スペクトル(周波数スペクトル)を検出する処理部である。検出部321は、検出した入力スペクトルの情報を、算出部322および補正部323に出力する。検出部321が、音声信号から入力スペクトルを検出する処理は、実施例1で説明した検出部120の処理と同様である。
算出部322は、入力スペクトルの包絡に基づく基準スペクトルを算出する処理部である。算出部322は、基準スペクトルの情報を、補正部323に出力する。算出部322が、入力スペクトルに基づいて基準スペクトルを算出する処理は、実施例1で説明した算出部130の処理と同様であっても良いし、次の処理を実行することで、基準スペクトルを算出してもよい。
図15は、基準スペクトルを算出するその他の処理を説明するための図(2)である。算出部322は、入力スペクトルX(l,k)の各kにおいて、傾きを算出し、傾きが正から負に変化したところを極大値Lm1、Lm2、Lm3、Lm4として算出する。極大値Lm1、Lm2、Lm3、Lm4以外の極大値の図示を省略する。
算出部322は、入力ペクトルX(l,k)の集合平均AVEを式(8)に基づいて算出する。
Figure 0006891736
算出部322は、各極大値の内、集合平均AVEよりも大きい極大値のみを選択し、選択した極大値を線形補間することで、スペクトル17を算出する。たとえば、集合平均AVEよりも大きい極大値を、極大値Lm1、Lm2、Lm3、Lm4とする。算出部322は、スペクトル包絡の大きさの方向に−J1[dB]平行移動させることで、基準スペクトルを算出する。
補正部323は、入力スペクトルの大きさと、基準スペクトルの大きさとの比較に基づいて、入力スペクトルを補正する処理部である。補正部323が、入力スペクトルを補正して補正スペクトルを算出する処理は、実施例1で説明した補正部140の処理と同様である。補正部323は、補正スペクトルの情報を、推定部324に出力する。
推定部324は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との相関に基づいて、音声信号のピッチ周波数を推定する処理部である。推定部324は、実施例1で説明した推定部150と同様にして、補正スペクトルと、各周期信号との相関値C(p)を算出し、相関値C(p)が最大値Mとなるpを特定する。以下の説明では、相関値C(p)が最大値Mとなるpを「P」と表記する。
更に、推定部324は、下記の条件3および条件4を満たす場合に、Pをピッチ周波数として推定する。一方、条件3または条4のいずれか一方を満たさない場合には、ピッチ周波数を0として出力する。
条件3:最大値Mが閾値TH1以上である。
条件4:過去qフレーム以内に出力したピッチ周波数を、P1、P2、・・・、Pqとした場合、P−P1、P−P2、・・・、P−Pqのうち、いずれかの値が閾値TH3未満である。
推定部324は、話者の話者情報と、ピッチ周波数とを対応づけて、ファイル化部330に出力する。また、推定部324は、ピッチ周波数を推定する度に、推定したピッチ周波数の情報を、記憶部325に格納する。
記憶部325は、ピッチ周波数の情報を記憶する記憶部である。記憶部325は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
次に、本実施例3に係るピッチ検出部320の処理手順の一例について説明する。図16は、本実施例3に係るピッチ検出部の処理手順を示すフローチャートである。図16に示すように、ピッチ検出部320の検出部321は、音声信号を取得する(ステップS301)。検出部321は、音声信号に基づいて、入力スペクトルを検出する(ステップS302)。ピッチ検出部320の算出部322は、基準スペクトルを算出する(ステップS303)。ピッチ検出部320の補正部323は、入力スペクトルを補正することで、補正スペクトルを算出する(ステップS304)。
ピッチ検出部320の推定部324は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との相関値をそれぞれ算出する(ステップS305)。推定部324は、各相関値を基にして、相関値が最大値となるピッチ周波数を推定する(ステップS306)。
ピッチ検出部320は、音声が終了したか否かを判定する(ステップS307)。ピッチ検出部320は、音声が終了していない場合には(ステップS307,No)、ステップS301に移行する。一方、ピッチ検出部320は、音声が終了した場合には(ステップS307,Yes)、処理を終了する。
次に、本実施例3に係る音声処理装置300の効果について説明する。音声処理装置300は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との各相関値に基づいて、音声信号のピッチ周波数を推定する。ここで、補正スペクトルは、入力スペクトルの極大値を一律の大きさで表すスペクトルであるため、入力スペクトルの低域や一部倍音が低減していても、極大値であれば、一律の値に揃えられるため、相関値に影響を与えない。このため、ピッチ周波数の推定精度を向上させることができる。
また、音声処理装置300は、過去qフレーム以内に出力したピッチ周波数をP1、P2、・・・、Pqとした場合において、P−P1、P−P2、・・・、P−Pqのうち、いずれかの値が閾値TH3未満である場合において、ピッチ周波数Pを出力する。たとえば、ノイズ等の影響により、ピッチ周波数Pがずれると、上記の条件を満たさなくなるため、誤ったピッチ周波数Pを出力することを抑止することができる。
次に、上記実施例に示した音声処理装置100,200,300と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図17は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図17に示すように、コンピュータ500は、各種演算処理を実行するCPU501と、ユーザからのデータの入力を受け付ける入力装置502と、ディスプレイ503とを有する。また、コンピュータ500は、記憶媒体からプログラム等を読み取る読み取り装置504と、有線または無線ネットワークを介して収録機器等との間でデータの授受を行うインターフェース装置505とを有する。コンピュータ500は、マイク506を有する。コンピュータ500は、各種情報を一時記憶するRAM507と、ハードディスク装置508とを有する。そして、各装置501〜508は、バス509に接続される。
ハードディスク装置508は、検出プログラム508a、算出プログラム508b、補正プログラム508c、推定プログラム508cを有する。CPU501は、検出プログラム508a、算出プログラム508b、補正プログラム508c、推定プログラム508cを読み出してRAM507に展開する。
検出プログラム508aは、検出プロセス507aとして機能する。算出プログラム508bは、算出プロセス507bとして機能する。補正プログラム508cは、補正プロセス507cとして機能する。推定プログラム508dは、推定プロセス507dとして機能する。
検出プロセス507aの処理は、検出部120、230、321の処理に対応する。算出プロセス507bの処理は、算出部130、240、322の処理に対応する。補正プロセス507cの処理は、補正部140、250、323の処理に対応する。推定プロセス507dの処理は、推定部150、260、324の処理に対応する。
なお、各プログラム508a〜508dについては、必ずしも最初からハードディスク装置508に記憶させておかなくても良い。例えば、コンピュータ500に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ500が各プログラム508a〜508dを読み出して実行するようにしても良い。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)入力音声を取得し、
前記入力音声から第1周波数スペクトルを検出し、
前記第1周波数スペクトルの包絡に基づく第2周波数スペクトルを算出し、
前記第1周波数スペクトルの第1の大きさと、前記第2周波数スペクトルの第2の大きさとの比較に基づいて、前記第1の大きさを補正し、
補正した前記第1周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
(付記2)前記第2周波数スペクトルを算出する処理は、前記第1周波数スペクトルを平滑化することで、前記第2周波数スペクトルを算出することを特徴とする付記1に記載の音声処理プログラム。
(付記3)前記第2周波数スペクトルを算出する処理は、前記第1周波数スペクトルの各極大値を繋いだスペクトルを平行移動させ、平行移動させたスペクトルを、前記第2周波数スペクトルとして算出することを特徴とする付記1に記載の音声処理プログラム。
(付記4)前記第2周波数スペクトルを算出する処理は、前記第1周波数スペクトルのスペクトル包絡線を算出し、前記スペクトル包絡線を平行移動させ、平行移動させたスペクトル包絡線を、前記第2周波数スペクトルとして算出することを特徴とする付記1に記載の音声処理プログラム。
(付記5)前記ピッチ周波数を推定する処理は、前記第1周波数スペクトルとの相関の値が最大値となり、かつ、前記相関の値が閾値以上である場合に、前記第1周波数スペクトルとの相関の値が最大値となる周期信号の周波数を、ピッチ周波数として推定することを特徴とする付記1〜4のうちいずれか一つに記載の音声処理プログラム。
(付記6)前記ピッチ周波数の整数倍の周波数に対応する、前記第1周波数スペクトルの大きさに基づいて、前記ピッチ周波数を修正する処理を更に実行することを特徴とする付記1〜5のうちいずれか一つに記載の音声処理プログラム。
(付記7)推定された前記ピッチ周波数の情報を記憶装置に順次記憶し、前記記憶装置に記憶された過去の所定期間に推定された複数の前記ピッチ周波数を基にして、今後推定されるピッチ周波数を修正する処理を更に実行することを特徴とする付記1〜6のうちいずれか一つに記載の音声処理プログラム。
(付記8)前記記憶装置に記憶された複数のピッチ周波数に基づいて、前記入力音声を評価し、評価結果を表示する処理を更に実行することを特徴とする付記7に記載の音声処理プログラム。
(付記9)コンピュータが実行する音声処理方法であって、
入力音声を取得し、
前記入力音声から第1周波数スペクトルを検出し、
前記第1周波数スペクトルの包絡に基づく第2周波数スペクトルを算出し、
前記第1周波数スペクトルの第1の大きさと、前記第2周波数スペクトルの第2の大きさとの比較に基づいて、前記第1の大きさを補正し、
補正した前記第1周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する
処理を実行することを特徴とする音声処理方法。
(付記10)前記第2周波数スペクトルを算出する処理は、前記第1周波数スペクトルを平滑化することで、前記第2周波数スペクトルを算出することを特徴とする付記9に記載の音声処理方法。
(付記11)前記第2周波数スペクトルを算出する処理は、前記第1周波数スペクトルの各極大値を繋いだスペクトルを平行移動させ、平行移動させたスペクトルを、前記第2周波数スペクトルとして算出することを特徴とする付記9に記載の音声処理方法。
(付記12)前記第2周波数スペクトルを算出する処理は、前記第1周波数スペクトルのスペクトル包絡線を算出し、前記スペクトル包絡線を平行移動させ、平行移動させたスペクトル包絡線を、前記第2周波数スペクトルとして算出することを特徴とする付記9に記載の音声処理方法。
(付記13)前記ピッチ周波数を推定する処理は、前記第1周波数スペクトルとの相関の値が最大値となり、かつ、前記相関の値が閾値以上である場合に、前記第1周波数スペクトルとの相関の値が最大値となる周期信号の周波数を、ピッチ周波数として推定することを特徴とする付記9〜12のうちいずれか一つに記載の音声処理方法。
(付記14)前記ピッチ周波数の整数倍の周波数に対応する、前記第1周波数スペクトルの大きさに基づいて、前記ピッチ周波数を修正する処理を更に実行することを特徴とする付記9〜13のうちいずれか一つに記載の音声処理方法。
(付記15)推定された前記ピッチ周波数の情報を記憶装置に順次記憶し、前記記憶装置に記憶された過去の所定期間に推定された複数の前記ピッチ周波数を基にして、今後推定されるピッチ周波数を修正する処理を更に実行することを特徴とする付記9〜14のうちいずれか一つに記載の音声処理方法。
(付記16)前記記憶装置に記憶された複数のピッチ周波数に基づいて、前記入力音声を評価し、評価結果を表示する処理を更に実行することを特徴とする付記15に記載の音声処理方法。
(付記17)入力音声を取得し、前記入力音声から第1周波数スペクトルを検出する検出部と、
前記第1周波数スペクトルの包絡に基づく第2周波数スペクトルを算出する算出部と、
前記第1周波数スペクトルの第1の大きさと、前記第2周波数スペクトルの第2の大きさとの比較に基づいて、前記第1の大きさを補正する補正部と、
補正した前記第1周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する推定部と
を有することを特徴とする音声処理装置。
(付記18)前記算出部は、前記第1周波数スペクトルを平滑化することで、前記第2周波数スペクトルを算出することを特徴とする付記17に記載の音声処理装置。
(付記19)前記算出部は、前記第1周波数スペクトルの各極大値を繋いだスペクトルを平行移動させ、平行移動させたスペクトルを、前記第2周波数スペクトルとして算出することを特徴とする付記17に記載の音声処理装置。
(付記20)前記算出部は、前記第1周波数スペクトルのスペクトル包絡線を算出し、前記スペクトル包絡線を平行移動させ、平行移動させたスペクトル包絡線を、前記第2周波数スペクトルとして算出することを特徴とする付記17に記載の音声処理装置。
(付記21)前記推定部は、前記第1周波数スペクトルとの相関の値が最大値となり、かつ、前記相関の値が閾値以上である場合に、前記第1周波数スペクトルとの相関の値が最大値となる周期信号の周波数を、ピッチ周波数として推定することを特徴とする付記17〜20のうちいずれか一つに記載の音声処理装置。
(付記22)前記推定部は、前記ピッチ周波数の整数倍の周波数に対応する、前記第1周波数スペクトルの大きさに基づいて、前記ピッチ周波数を修正する処理を更に実行することを特徴とする付記17〜21のうちいずれか一つに記載の音声処理装置。
(付記23)前記推定部は、推定された前記ピッチ周波数の情報を記憶装置に順次記憶し、前記記憶装置に記憶された過去の所定期間に推定された複数の前記ピッチ周波数を基にして、今後推定されるピッチ周波数を修正する処理を更に実行することを特徴とする付記17〜22のうちいずれか一つに記載の音声処理装置。
(付記24)前記記憶装置に記憶された複数のピッチ周波数に基づいて、前記入力音声を評価し、評価結果を表示する出力部を更に有することを特徴とする付記17に記載の音声処理装置。
50a マイク
50b 表示部
100,200 音声処理装置
110 AD変換部
115 音声ファイル化部
120,230,321 検出部
130,240,322 算出部
140,250,323 補正部
150,260,324 推定部
160,220,325 記憶部
170 出力部
210 受信部
320 ピッチ検出部

Claims (10)

  1. 入力音声を取得し、
    前記入力音声から第1周波数スペクトルを検出し、
    前記第1周波数スペクトルの包絡に基づく第2周波数スペクトルを算出し、
    前記第1周波数スペクトルの第1の大きさと、前記第2周波数スペクトルの第2の大きさとの比較に基づいて、前記第1の大きさを補正し、
    補正した前記第1周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する
    処理をコンピュータに実行させることを特徴とする音声処理プログラム。
  2. 前記第2周波数スペクトルを算出する処理は、前記第1周波数スペクトルを平滑化することで、前記第2周波数スペクトルを算出することを特徴とする請求項1に記載の音声処理プログラム。
  3. 前記第2周波数スペクトルを算出する処理は、前記第1周波数スペクトルの各極大値を繋いだスペクトルを平行移動させ、平行移動させたスペクトルを、前記第2周波数スペクトルとして算出することを特徴とする請求項1に記載の音声処理プログラム。
  4. 前記第2周波数スペクトルを算出する処理は、前記第1周波数スペクトルのスペクトル包絡線を算出し、前記スペクトル包絡線を平行移動させ、平行移動させたスペクトル包絡線を、前記第2周波数スペクトルとして算出することを特徴とする請求項1に記載の音声処理プログラム。
  5. 前記ピッチ周波数を推定する処理は、前記第1周波数スペクトルとの相関の値が最大値となり、かつ、前記相関の値が閾値以上である場合に、前記第1周波数スペクトルとの相関の値が最大値となる周期信号の周波数を、ピッチ周波数として推定することを特徴とする請求項1〜4のうちいずれか一つに記載の音声処理プログラム。
  6. 前記ピッチ周波数の整数倍の周波数に対応する、前記第1周波数スペクトルの大きさに基づいて、前記ピッチ周波数を修正する処理を更に実行することを特徴とする請求項1〜5のうちいずれか一つに記載の音声処理プログラム。
  7. 推定された前記ピッチ周波数の情報を記憶装置に順次記憶し、前記記憶装置に記憶された過去の所定期間に推定された複数の前記ピッチ周波数を基にして、今後推定されるピッチ周波数を修正する処理を更に実行することを特徴とする請求項1〜6のうちいずれか一つに記載の音声処理プログラム。
  8. 前記記憶装置に記憶された複数のピッチ周波数に基づいて、前記入力音声を評価し、評価結果を表示する処理を更に実行することを特徴とする請求項7に記載の音声処理プログラム。
  9. コンピュータが実行する音声処理方法であって、
    入力音声を取得し、
    前記入力音声から第1周波数スペクトルを検出し、
    前記第1周波数スペクトルの包絡に基づく第2周波数スペクトルを算出し、
    前記第1周波数スペクトルの第1の大きさと、前記第2周波数スペクトルの第2の大きさとの比較に基づいて、前記第1の大きさを補正し、
    補正した前記第1周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する
    処理を実行することを特徴とする音声処理方法。
  10. 入力音声を取得し、前記入力音声から第1周波数スペクトルを検出する検出部と、
    前記第1周波数スペクトルの包絡に基づく第2周波数スペクトルを算出する算出部と、
    前記第1周波数スペクトルの第1の大きさと、前記第2周波数スペクトルの第2の大きさとの比較に基づいて、前記第1の大きさを補正する補正部と、
    補正した前記第1周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する推定部と
    を有することを特徴とする音声処理装置。
JP2017164725A 2017-08-29 2017-08-29 音声処理プログラム、音声処理方法および音声処理装置 Active JP6891736B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017164725A JP6891736B2 (ja) 2017-08-29 2017-08-29 音声処理プログラム、音声処理方法および音声処理装置
US16/113,125 US10636438B2 (en) 2017-08-29 2018-08-27 Method, information processing apparatus for processing speech, and non-transitory computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017164725A JP6891736B2 (ja) 2017-08-29 2017-08-29 音声処理プログラム、音声処理方法および音声処理装置

Publications (2)

Publication Number Publication Date
JP2019045527A JP2019045527A (ja) 2019-03-22
JP6891736B2 true JP6891736B2 (ja) 2021-06-18

Family

ID=65434401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017164725A Active JP6891736B2 (ja) 2017-08-29 2017-08-29 音声処理プログラム、音声処理方法および音声処理装置

Country Status (2)

Country Link
US (1) US10636438B2 (ja)
JP (1) JP6891736B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070884B (zh) * 2019-02-28 2022-03-15 北京字节跳动网络技术有限公司 音频起始点检测方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3276732D1 (en) * 1982-04-27 1987-08-13 Philips Nv Speech analysis system
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
EP0993674B1 (en) 1998-05-11 2006-08-16 Philips Electronics N.V. Pitch detection
GB9811019D0 (en) 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
JP5223786B2 (ja) * 2009-06-10 2013-06-26 富士通株式会社 音声帯域拡張装置、音声帯域拡張方法及び音声帯域拡張用コンピュータプログラムならびに電話機
US20110313762A1 (en) * 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
EP2915068A4 (en) * 2012-11-02 2016-08-03 Fido Labs Inc METHOD AND SYSTEM FOR NATURAL LANGUAGE PROCESSING
KR101610151B1 (ko) * 2014-10-17 2016-04-08 현대자동차 주식회사 개인음향모델을 이용한 음성 인식장치 및 방법

Also Published As

Publication number Publication date
JP2019045527A (ja) 2019-03-22
US10636438B2 (en) 2020-04-28
US20190066714A1 (en) 2019-02-28

Similar Documents

Publication Publication Date Title
JP5998603B2 (ja) 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム
JP5732994B2 (ja) 楽曲検索装置および方法、プログラム、並びに記録媒体
KR20180063282A (ko) 음성 검측 방법, 장치 및 기억 매체
JP2010224321A (ja) 信号処理装置
US11232810B2 (en) Voice evaluation method, voice evaluation apparatus, and recording medium for evaluating an impression correlated to pitch
JP6182895B2 (ja) 処理装置、処理方法、プログラム及び処理システム
JP6891736B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
US10885931B2 (en) Voice processing method, voice processing apparatus, and non-transitory computer-readable storage medium for storing voice processing computer program
US20200107144A1 (en) Acoustical performance evaluation method
JP7000757B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
JP2009211021A (ja) 残響時間推定装置及び残響時間推定方法
JP4505597B2 (ja) 雑音除去装置
US11004463B2 (en) Speech processing method, apparatus, and non-transitory computer-readable storage medium for storing a computer program for pitch frequency detection based upon a learned value
US20140140519A1 (en) Sound processing device, sound processing method, and program
CN111415681B (zh) 一种基于音频数据确定音符的方法及装置
JP6907859B2 (ja) 音声処理プログラム、音声処理方法および音声処理装置
JP2011027972A (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
CN113470674B (zh) 语音降噪方法、装置、存储介质及计算机设备
JP2018180482A (ja) 音声検出装置及び音声検出プログラム
JP2005284016A (ja) 音声信号の雑音推定方法およびそれを用いた雑音除去装置
JP6759927B2 (ja) 発話評価装置、発話評価方法、および発話評価プログラム
JP6213324B2 (ja) 音声信号処理装置及びプログラム
JP6221463B2 (ja) 音声信号処理装置及びプログラム
JP2021157082A (ja) 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム
CN117524240A (zh) 语音变声方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210427

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210510

R150 Certificate of patent or registration of utility model

Ref document number: 6891736

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150