JP6891736B2

JP6891736B2 - 音声処理プログラム、音声処理方法および音声処理装置

Info

Publication number: JP6891736B2
Application number: JP2017164725A
Authority: JP
Inventors: 紗友梨中山; 太郎外川; 猛大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2021-06-18
Anticipated expiration: 2037-08-29
Also published as: JP2019045527A; US10636438B2; US20190066714A1

Description

本発明は、音声処理プログラム等に関する。

近年、多くの企業では、顧客の満足度等を推定し、マーケティングを有利に進めるために、応答者と顧客との会話から、顧客（あるいは、応答者）の感情等に関する情報を獲得したいというニーズがある。人の感情は声に現れることが多く、たとえば、声の高さ（ピッチ周波数）は、人の感情を捉える場合に重要な要素の一つとなる。

ピッチ周波数を推定する従来技術の一例について説明する。図１８は、従来技術を説明するための図（１）である。図１８に示すように、この従来技術では、周波数変換部１０と、相関算出部１１と、探索部１２とを有する。

周波数変換部１０は、入力音声をフーリエ変換することで、入力音声の周波数スペクトルを算出する処理部である。周波数変換部１０は、入力音声の周波数スペクトルを、相関算出部１１に出力する。以下の説明では、入力音声の周波数スペクトルを、入力スペクトルと表記する。

相関算出部１１は、様々な周波数のコサイン波と、入力スペクトルとの相関値を周波数毎にそれぞれ算出する処理部である。相関算出部１１は、コサイン波の周波数と相関値とを対応づけた情報を、探索部１２に出力する。

探索部１２は、複数の相関値の内、最大の相関値に対応づけられたコサイン波の周波数を、ピッチ周波数として出力する処理部である。

図１９は、従来技術を説明するための図（２）である。図１９において、入力スペクトル５ａは、周波数変換部１０から出力された入力スペクトルである。入力スペクトル５ａの横軸は周波数に対応する軸であり、縦軸はスペクトルの大きさに対応する軸である。

コサイン波６ａ，６ｂは、相関算出部１１が受け付けるコサイン波の一部である。コサイン波６ａは、周波数軸上で周波数ｆ［Ｈｚ］とその倍数にピークを持つコサイン波である。コサイン波６ｂは、周波数軸上で周波数２ｆ［Ｈｚ］とその倍数にピークを持つコサイン波である。

相関算出部１１は、入力スペクトル５ａと、コサイン波６ａとの相関値「０．９５」を算出する。相関算出部１１は、入力スペクトル５ａと、コサイン波６ｂとの相関値「０．４０」を算出する。

探索部１２は、各相関値を比較し、最大値となる相関値を探索する。図１９に示す例では、相関値「０．９５」が最大値となるため、探索部１２は、相関値「０．９５」に対応する周波数ｆ「Ｈｚ」を、ピッチ周波数として出力する。

特表２００２−５１６４２０号公報特表２００２−５１５６０９号公報

しかしながら、上述した従来技術では、ピッチ周波数の推定精度を向上させることができないという問題がある。

たとえば、電話の帯域制限や、周囲環境の影響により、入力スペクトルの低域や一部の倍音が適正な値よりも小さくなる場合があり、このような場合においては、ピッチ周波数を正確に推定することが難しい。

図２０は、従来技術の問題を説明するための図である。図２０において、入力スペクトル５ｂは、周波数変換部１０から出力された入力スペクトルである。この入力スペクトル５ｂは、帯域制限、周囲環境等の影響により、周波数ｆに対応する大きさが、適正な値よりも小さくなっている。

相関算出部１１は、入力スペクトル５ｂと、コサイン波６ａとの相関値「０．７０」を算出する。相関算出部１１は、入力スペクトル５ｂと、コサイン波６ｂとの相関値「０．８０」を算出する。

探索部１２は、各相関値を比較し、最大値となる相関値を探索する。図２０に示す例では、相関値「０．７０」が最大値となるため、探索部１２は、相関値「０．８０」に対応する周波数２ｆ「Ｈｚ」を、ピッチ周波数として出力する。

ここで、入力スペクトル５ｂでは、スペクトルの大きさが適正な値よりも小さくなっているものの、低域側の極大値に対応する周波数がｆであるため、ピッチ周波数はｆが正しいものとなる。従って、探索部１２から出力されるピッチ周波数は誤っている。

１つの側面では、本発明は、ピッチ周波数の推定精度を向上させることができる音声処理プログラム、音声処理方法および音声処理装置を提供することを目的とする。

第１の案では、コンピュータに下記の処理を実行させる。コンピュータは、入力音声を取得し、入力音声から第１周波数スペクトルを検出する。コンピュータは、第１周波数スペクトルの包絡に基づく第２周波数スペクトルを算出する。コンピュータは、第１周波数スペクトルの第１の大きさと、第２周波数スペクトルの第２の大きさとの比較に基づいて、第１の大きさを補正する。コンピュータは、補正した第１周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、入力音声のピッチ周波数を推定する。

ピッチ周波数の推定精度を向上させることができる。

図１は、本実施例１に係る音声処理装置の構成を示す機能ブロック図である。図２は、本実施例１に係る補正部の処理を説明するための図（１）である。図３は、関数ｇ（Ｄ（ｌ，ｋ））を説明するための図である。図４は、本実施例１に係る補正部の処理を説明するための図（２）である。図５は、表示部に表示される画面情報の一例を示す図である。図６は、本実施例１に係る音声処理装置の処理手順を示すフローチャートである。図７は、本実施例１の音声処理装置の効果を説明するための図である。図８は、基準スペクトルを算出するその他の処理を説明するための図（１）である。図９は、本実施例２に係る音声処理システムの構成を示す図である。図１０は、本実施例２に係る音声処理装置の構成を示す機能ブロック図である。図１１は、本実施例２に係る音声処理装置の処理手順を示すフローチャートである。図１２は、本実施例３に係る音声処理システムの構成を示す図である。図１３は、本実施例３に係る音声処理装置の構成を示す機能ブロック図である。図１４は、ピッチ検出部の構成を示す機能ブロック図である。図１５は、基準スペクトルを算出するその他の処理を説明するための図（２）である。図１６は、本実施例３に係るピッチ検出部の処理手順を示すフローチャートである。図１７は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図１８は、従来技術を説明するための図（１）である。図１９は、従来技術を説明するための図（２）である。図２０は、従来技術の問題を説明するための図である。

以下に、本願の開示する音声処理プログラム、音声処理方法および音声処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１は、本実施例１に係る音声処理装置の構成を示す機能ブロック図である。図１に示すように、この音声処理装置１００は、マイク５０ａおよび表示部５０ｂに接続される。音声処理装置１００は、ＡＤ（Analog-to-Digital）変換部１１０、音声ファイル化部１１５、検出部１２０、算出部１３０、補正部１４０、推定部１５０、記憶部１６０、出力部１７０を有する。

マイク５０ａは、集音した音声の情報を、音声処理装置１００に入力する装置である。以下の説明では、マイク５０ａが音声処理装置１００に入力する音声の情報を「音声信号」と表記する。音声信号は、入力音声の一例である。

表示部５０ｂは、音声処理装置１００から出力される情報を表示する表示装置である。表示部５０ｂは、液晶ディスプレイ、タッチパネルなどに対応する。

ＡＤ変換部１１０は、マイク５０ａから音声信号を受信し、ＡＤ変換を実行する処理部である。具体的には、ＡＤ変換部１１０は、音声信号（アナログ信号）を、音声信号（デジタル信号）に変換する。ＡＤ変換部１１０は、音声信号（デジタル信号）を、音声ファイル化部１１５、検出部１２０に出力する。以下の説明では、ＡＤ変換部１１０から出力される音声信号（デジタル信号）を単に音声信号と表記する。

音声ファイル化部１１５は、音声信号を所定の音声ファイルフォーマットにより、音声ファイルに変換する処理部である。たとえば、音声ファイルは、各時刻と、音声信号の強さとをそれぞれ対応づけた情報を含む。音声ファイル化部１１５は、音声ファイルを、記憶部１６０の音声ファイルテーブル１６０ａに格納する。

検出部１２０は、音声信号から周波数スペクトルを検出する処理部である。検出部１２０は、周波数スペクトルの情報を、算出部１３０および補正部１４０に出力する。以下の説明では、音声信号から検出した周波数スペクトルを「入力スペクトル」と表記する。

検出部１２０は、フレーム毎に区分された音声信号ｘ（ｔ−Ｔ）〜ｘ（ｔ）をそれぞれ短時間離散フーリエ変換（ＳＴＦＴ：Short Time Discreate Fourier Transform）することで、各入力スペクトルＸ（ｌ，ｋ）を検出する。１フレームの長さは、予め設定された所定の長さＴとする。

上記の変数ｔ、ｌ、ｋ、ｘ（ｔ）、ｘ（ｌ，ｋ）について説明する。「ｔ」は、時間を示す変数である。「ｌ」は、フレーム番号を示す変数である。「ｋ」は、帯域［ｂｉｎ］を示す変数である。（ｋ＝０、１、・・・、Ｔ−１）とする。ｘ（ｔ）は、ｎ番目の音声信号を示すものである。Ｘ（ｌ，ｋ）は、ｎ番目の入力スペクトルを示すものである。

算出部１３０は、入力スペクトルの包絡に基づく基準スペクトルを算出する処理部である。たとえば、算出部１３０は、入力スペクトルＸ（ｌ，ｋ）を周波数方向に平滑化することで、基準スペクトルを算出する。算出部１３０は、基準スペクトルの情報を、補正部１４０に出力する。

たとえば、算出部１３０は、入力スペクトルＸ（ｌ，ｋ）を周波数方向に平滑化するために、フィルタ長Ｑのハミング窓Ｗ（ｍ）を利用する。ハミング窓Ｗ（ｍ）は、式（１）により定義される。変数ｍは、ハミング窓を入力スペクトル上に配置した場合の、帯域［ｂｉｎ］に対応する変数である。

算出部１３０は、式（２）に基づいて、基準スペクトルを求める。ここでは一例として、ハミング窓を利用する場合について説明するが、ハミング窓の代わりに、ガウス窓、ブラックマン窓を利用してもよい。

補正部１４０は、入力スペクトルの大きさと、基準スペクトルの大きさとの比較に基づいて、入力スペクトルを補正する処理部である。以下の説明では、補正された入力スペクトルを「補正スペクトル」と表記する。補正部１４０は、補正スペクトルの情報を、推定部１５０に出力する。

図２は、本実施例１に係る補正部の処理を説明するための図（１）である。図２に示すように、グラフ７およびグラフ８の横軸は、周波数に対応する軸であり、縦軸は、スペクトルの大きさに対応する軸である。グラフ７では、入力スペクトル７ａと、基準スペクトル７ｂとを示す。

補正部１４０は、式（３）に基づいて、入力スペクトルと、基準スペクトルとの差分Ｄ（ｌ，ｋ）を算出する。図２を用いて説明すると、入力スペクトル７ａと、基準スペクトル７ｂとの差分を取ることで、差分スペクトル８ａが求められる。差分スペクトル８ａでは、入力スペクトル７ａに含まれているノイズ成分が取り除かれ、極大点の位置が明確となる。

補正部１４０は、差分スペクトルの値を示すＤ（ｌ，ｋ）を、式（４）に代入することにより、補正スペクトルＹ（ｌ，ｋ）を算出する。式（４）において、ｇ（Ｄ（ｌ，ｋ））は、予め定められた関数である。

図３は、関数ｇ（Ｄ（ｌ，ｋ））を説明するための図である。図３のグラフにおいて、横軸は、Ｄ（ｌ，ｋ）の値に対応する軸である。縦軸は、ｇ（Ｄ（ｌ，ｋ））の値に対応する軸である。図３に示すように、差分Ｄ（ｌ，ｋ）の値がα未満である場合には、ｇ（Ｄ（ｌ，ｋ））の値はＢとなる。Ｄ（ｌ，ｋ）の値がβより大きい場合には、ｇ（Ｄ（ｌ，ｋ））の値はＡとなる。α、β、Ａ、Ｂの値は、予め設定される。

図４は、本実施例１に係る補正部の処理を説明するための図（２）である。図４に示すように、グラフ８およびグラフ９の横軸は、周波数に対応する軸であり、縦軸は、スペクトルの大きさに対応する軸である。グラフ８では、差分スペクトル８ａを示す。補正部１４０は、この差分スペクトルと、式（４）とを基にして、補正スペクトル９ａを算出する。たとえば、式（４）に示すＡの値を「１」、Ｂの値を「−１」とし、αとβとの間隔を小さくすることで、−１〜１に変化する補正スペクトル９ａが得られる。ここでは一例として、Ａの値を「１」、Ｂの値を「−１」としたが、これに限定されるものではなく、たとえば、Ａの値を「１」、Ｂの値を「−０．５」等にしてもよい。

図４に示すように、補正スペクトル９ａは、差分スペクトル８ａが極大値となる周波数ｆ、２ｆ、３ｆ、４ｆにおいて、「１」となる。

図１の説明に戻る。推定部１５０は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との相関に基づいて、音声信号のピッチ周波数を推定する処理部である。たとえば、推定部１５０は、ピッチ周波数の情報を、ピッチ周波数テーブル１６０ｂに格納する。

推定部１５０が利用する周期信号を、式（５）に示す信号とする。ここでは、周期信号として、コサイン波を用いるが、コサイン波以外の周期信号を用いてもよい。式（５）において、変数ｐの範囲は「ａ≦ｐ≦ｂ」となる。たとえば、ａ、ｂは、５０〜１０００Ｈｚのｂｉｎ数に対応する値であり、予め設定される。

推定部１５０は、式（６）に基づいて、補正スペクトルＹ（ｌ，ｋ）と、周期信号Ｓ（ｐ，ｋ）との相関値Ｃ（ｐ）を算出する。推定部１５０は、ｐの値をａからｂまで変化させつつ、各ｐに応じた相関値Ｃ（ｐ）を算出する。

推定部１５０は、式（７）に基づいて最大値Ｍを算出する。推定部１５０は、最大値Ｍとなるｐの値を、ピッチ周波数Ｐとして推定する。なお、推定部１５０は、最大値Ｍが閾値ＴＨ以上である場合に、ピッチ周波数Ｐを出力する。推定部１５０は、最大値Ｍが閾値ＴＨ未満である場合には、ピッチ周波数を０として出力する。

推定部１５０は、フレーム毎に、上記処理を繰り返し実行し、フレーム番号と、ピッチ周波数とを対応づけて、ピッチ周波数テーブル１６０ｂに登録する。

記憶部１６０は、音声ファイルテーブル１６０ａと、ピッチ周波数テーブル１６０ｂとを有する。記憶部１６０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

音声ファイルテーブル１６０ａは、音声ファイル化部１１５から出力される音声ファイルを保持するテーブルである。

ピッチ周波数テーブル１６０ｂは、推定部１５０から出力されるピッチ周波数の情報を保持するテーブルである。たとえば、ピッチ周波数テーブル１６０ｂは、フレーム番号と、ピッチ周波数とを対応づける。

出力部１７０は、ピッチ周波数に関する画面情報を、表示部５０ｂに出力することで、画面情報を、表示部５０ｂに表示させる処理部である。

図５は、表示部に表示される画面情報の一例を示す図である。出力部１７０は、推定部１５０に推定された順番に、ピッチ周波数を画面情報６０に表示させる。たとえば、出力部１７０は、ピッチ周波数が大きいほど、高い位置に黒丸をプロットする。出力部１５０は、ピッチ周波数が０である場合には、黒丸をプロットすることを抑止する。

また、出力部１７０は、ピッチ周波数テーブル１６０ｂに格納された各ピッチ周波数を基にして、音声信号の評価を行い、評価結果を画面情報６０に設定して表示させてもよい。たとえば、出力部１７０は、選択した２点のピッチ周波数の差が閾値以上となった場合に、声に抑揚があり、好印象であるため、「Ｇｏｏｄ！」なる評価結果６０ａを、画面情報６０に設定する。その他の評価については、出力部１７０は、ピッチ周波数の変化の特徴と、評価結果とを対応づけたテーブル（図示略）を基にして、評価を行う。

ところで、図１に示したＡＤ変換部１１０、音声ファイル化部１１５、検出部１２０、算出部１３０、補正部１４０、推定部１５０、出力部１７０は、制御部に対応する。制御部は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

次に、本実施例１に係る音声処理装置の処理手順の一例について説明する。図６は、本実施例１に係る音声処理装置の処理手順を示すフローチャートである。図６に示すように、この音声処理装置１００のＡＤ変換部１１０は、マイク５０ａから音声信号を受信する（ステップＳ１０１）。音声処理装置１００の検出部１２０は、音声信号に基づいて、入力スペクトルを検出する（ステップＳ１０２）。

音声処理装置１００の算出部１３０は、基準スペクトルを算出する（ステップＳ１０３）。音声処理装置１００の補正部１４０は、入力スペクトルを補正することで、補正スペクトルを算出する（ステップＳ１０４）。

音声処理装置１００の推定部１５０は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との相関値をそれぞれ算出する（ステップＳ１０５）。推定部１５０は、各相関値を基にして、相関値が最大値となるピッチ周波数を推定する（ステップＳ１０６）。

音声処理装置１００の出力部１７０は、各ピッチ周波数を基にして、音声信号の評価を行う（ステップＳ１０７）。出力部１７０は、画面情報を生成し、画面情報を表示部５０ｂに出力する（ステップＳ１０８）。

音声処理装置１００は、音声が終了したか否かを判定する（ステップＳ１０９）。音声処理装置１００は、音声が終了していない場合には（ステップＳ１０９，Ｎｏ）、ステップＳ１０１に移行する。一方、音声処理装置１００は、音声が終了した場合には（ステップＳ１０９，Ｙｅｓ）、処理を終了する。

次に、本実施例１に係る音声処理装置１００の効果について説明する。音声処理装置１００は、音声信号の入力スペクトルの包絡に基づく基準スペクトルを算出し、入力スペクトルと基準スペクトルとを比較することで、補正スペクトルを算出する。音声処理装置１００は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との各相関値に基づいて、音声信号のピッチ周波数を推定する。ここで、補正スペクトルは、入力スペクトルの極大値を一律の大きさで表すスペクトルであるため、入力スペクトルの低域や一部倍音が低減していても、極大値であれば、一律の値に揃えられるため、相関値に影響を与えない。このため、ピッチ周波数の推定精度を向上させることができる。

図７は、本実施例１の音声処理装置の効果を説明するための図である。図７において、従来技術では、入力スペクトル７ａと、各周期信号との相関値を直接算出することで、ピッチ周波数を推定している。このため、入力スペクトル７ａの低域（たとえばｆ）のスペクトルが低減していると、適切な相関値を算出することができず、適切なピッチ周波数を求めることが難しい。図７に示す例では、周波数ｆ［Ｈｚ］と入力スペクトル７ａとの相関値が「０．７」となり、周波数２ｆ［Ｈｚ］と入力スペクトル７ａとの相関値が「０．８」となる。正解のピッチ周波数はｆ［Ｈｚ］であるが、最大の相関値が、２ｆ［Ｈｚ］に対応する相関値「０．８」であるため、従来技術では、ピッチ周波数を２ｆ［Ｈｚ］と誤判定する。

一方、本実施例１の音声処理装置１００では、入力スペクトル７ａを補正することで、補正スペクトル９ａを算出し、この補正スペクトル９ａと、各周期信号との相関値を算出することで、ピッチ周波数を推定している。補正スペクトル９ａは、入力スペクトル７ａの低域や一部倍音が低減していても、極大値であれば、一律の値に揃えるスペクトルである。このため、入力スペクトル７ａの低域や一部倍音が低減していても、適切にピッチ周波数を求めることができる。図７に示す例では、周波数ｆ［Ｈｚ］と補正スペクトル９ａとの相関値が「０．９」となり、周波数２ｆ［Ｈｚ］と補正スペクトル９ａとの相関値が「０．７」となる。従って、音声処理装置１００では、ピッチ周波数をｆ［Ｈｚ］と判定することができる。

なお、本実施例１に係る音声処理装置１００の算出部１３０は、入力スペクトルを周波数方向に平滑化することで、基準スペクトルを算出していたが、その他の処理により、基準スペクトルを算出してもよい。

図８は、基準スペクトルを算出するその他の処理を説明するための図（１）である。算出部１３０は、入力スペクトル７ａの微分値を求めることで、極大値を特定する。たとえば、算出部１３０は、入力スペクトル７ａの微分値が増加から減少に変わる境目を、極大値として算出する。たとえば、算出部１３０は、入力スペクトル７ａから、極大値１５ａ、１５ｂ、１５ｃ、１５ｄを算出する。算出部１３０は、各極大値１５ａ〜１５ｄを繋いだスペクトル１５を求める。算出部１３０は、スペクトル１５を下方向に平行移動させたものを、基準スペクトル１６として算出する。

図８に示した処理とは別に、算出部１３０は、基準スペクトルを算出してもよい。たとえば、算出部１３０は、入力スペクトルのスペクトル包絡を算出し、算出したスペクトル包絡を、下方に平行移動させたものを、基準スペクトルとして算出してもよい。算出部１３０が、スペクトル包絡を算出する場合には、ＬＰＣ（Liner Predictive Coding）分析や、ケプストラム分析などを利用する。

図９は、本実施例２に係る音声処理システムの構成を示す図である。図９に示すように、この音声処理システムは、携帯端末２ａ、端末装置２ｂ、分岐コネクタ３、収録機器６６、クラウド６７を有する。携帯端末２ａは、電話網６５ａを介して、分岐コネクタ３に接続される。端末装置２ｂは、分岐コネクタ３に接続される。分岐コネクタ３は、収録機器６６に接続される。収録機器６６は、インターネット網６５ｂを介して、クラウド６７に接続される。たとえば、クラウド６７には、音声処理装置２００が含まれる。図示を省略するが、音声処理装置２００は、複数のサーバによって構成されていてもよい。携帯端末２ａおよび端末装置２ｂは、マイク（図示略）に接続される。

話者１ａによる音声は、携帯端末２ａのマイクにより集音され、集音された音声信号は、分岐コネクタ３を介して、収録機器６６に送信される。以下の説明では、話者１ａの音声信号を、「第１音声信号」と表記する。

話者１ｂによる音声は、端末装置２ｂのマイクにより集音され、集音された音声信号は、分岐コネクタ３を介して、収録機器６６に送信される。以下の説明では、話者１ｂの音声信号を、「第２音声信号」と表記する。

収録機器６６は、第１音声信号および第２音声信号を収録する装置である。たとえば、収録機器６６は、第１音声信号を受信すると、第１音声信号を、所定の音声ファイルフォーマットにより、音声ファイルに変換し、第１音声信号の音声ファイルを、音声処理装置２００に送信する。以下の説明では、適宜、第１音声信号の音声ファイルを「第１音声ファイル」と表記する。

収録機器６６は、第２音声信号を受信すると、第２音声信号を、所定の音声ファイルフォーマットにより、音声ファイルに変換し、第２音声信号の音声ファイルを、音声処理装置２００に送信する。以下の説明では、適宜、第２音声信号の音声ファイルを「第２音声ファイル」と表記する。

音声処理装置２００は、第１音声ファイルの第１音声信号のピッチ周波数を推定する。また、音声処理装置２００は、第２音声ファイルの第２音声信号のピッチ周波数を推定する。第１音声信号のピッチ周波数を推定する処理と、第２音声信号のピッチ周波数を推定する処理は同様の処理であるため、ここでは、第１音声信号のピッチ周波数を推定する処理について説明する。また、以下では、第１音声信号および第２音声信号をまとめて、適宜、音声信号と表記する。

図１０は、本実施例２に係る音声処理装置の構成を示す機能ブロック図である。図１０に示すように、この音声処理装置２００は、受信部２１０と、記憶部２２０と、検出部２３０と、算出部２４０と、補正部２５０と、推定部２６０とを有する。

受信部２１０は、収録機器６６から、音声ファイルを受信する処理部である。受信部２１０は、受信した音声ファイルを、記憶部２２０の音声ファイルテーブル２２０ａに登録する。受信部２１０は、通信装置に対応する。

記憶部２２０は、音声ファイルテーブル２２０ａと、ピッチ周波数テーブル２２０ｂを有する。記憶部２２０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

検出部２３０は、音声ファイルテーブル２２０ａから、音声ファイル（音声信号）を取得し、取得した音声信号から入力スペクトル（周波数スペクトル）を検出する処理部である。検出部２３０は、検出した入力スペクトルの情報を、算出部２４０および補正部２５０に出力する。検出部２３０が、音声信号から入力スペクトルを検出する処理は、実施例１で説明した検出部１２０の処理と同様である。

算出部２４０は、入力スペクトルの包絡に基づく基準スペクトルを算出する処理部である。算出部２４０は、基準スペクトルの情報を、補正部２５０に出力する。算出部２４０が、入力スペクトルに基づいて基準スペクトルを算出する処理は、実施例１で説明した算出部１３０の処理と同様である。

補正部２５０は、入力スペクトルの大きさと、基準スペクトルの大きさとの比較に基づいて、入力スペクトルを補正する処理部である。補正部２５０が、入力スペクトルを補正して補正スペクトルを算出する処理は、実施例１で説明した補正部１４０の処理と同様である。補正部２５０は、補正スペクトルの情報を、推定部２６０に出力する。

推定部２６０は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との相関に基づいて、音声信号のピッチ周波数を推定する処理部である。推定部２６０は、実施例１で説明した推定部１５０と同様にして、補正スペクトルと、各周期信号との相関値Ｃ（ｐ）を算出し、相関値Ｃ（ｐ）が最大値Ｍとなるｐを特定する。以下の説明では、相関値Ｃ（ｐ）が最大値Ｍとなるｐを「Ｐ」と表記する。

更に、推定部２６０は、下記の条件１および条件２を満たす場合に、Ｐをピッチ周波数として推定する。一方、条件１または条件２のいずれか一方を満たさない場合には、ピッチ周波数を０として出力する。条件２について、Ｘ（ｌ，Ｐ）は、現在の分析対象とするフレーム番号「ｌ」の入力スペクトルにおける、周波数Ｐのスペクトルの大きさを示すものである。

条件１：最大値Ｍが閾値ＴＨ１以上である。
条件２：Ｘ（ｌ，Ｐ）、Ｘ（ｌ，２Ｐ）、Ｘ（ｌ，３Ｐ）が閾値ＴＨ２以上である。

推定部２６０は、フレーム番号と、ピッチ周波数とを対応づけて、ピッチ周波数テーブル２２０ｂに登録する。

上記の検出部２３０、算出部２４０、補正部２５０、推定部２６０は、音声ファイルの分析位置を更新しつつ、上記処理を繰り返し実行する。たとえば、現在の分析開始位置をｕとすると、次の分析開始位置を、ｕ＋Ｔに更新する。Ｔは、予め設定された１フレームの長さを示すものである。

次に、本実施例２に係る音声処理装置の処理手順の一例について説明する。図１１は、本実施例２に係る音声処理装置の処理手順を示すフローチャートである。図１１に示すように、この音声処理装置２００の検出部２３０は、音声ファイルテーブル２２０ａから音声信号（音声ファイル）を取得する（ステップＳ２０１）。音声処理装置２００は、分析開始位置を設定する（ステップＳ２０２）。

検出部２３０は、入力スペクトルを検出する（ステップＳ２０３）。音声処理装置２００の算出部２４０は、基準スペクトルを算出する（ステップＳ２０４）。音声処理装置２００の補正部２５０は、入力スペクトルを補正することで、補正スペクトルを算出する（ステップＳ２０５）。

音声処理装置２００の推定部２６０は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との相関値をそれぞれ算出する（ステップＳ２０６）。推定部２６０は、各相関値を基にして、相関値が最大値となるピッチ周波数を推定する（ステップＳ２０７）。ステップＳ２０７において、推定部２６０は、条件１および条件２を満たす場合に、相関値が最大値となる周波数を、ピッチ周波数として推定する。

音声処理装置２００は、音声が終了したか否かを判定する（ステップＳ２０８）。音声処理装置２００は、音声が終了していない場合には（ステップＳ２０８，Ｎｏ）、分析開始位置を更新し（ステップＳ２０９）、ステップＳ２０３に移行する。一方、音声処理装置２００は、音声が終了した場合には（ステップＳ２０８，Ｙｅｓ）、処理を終了する。

次に、本実施例２に係る音声処理装置２００の効果について説明する。音声処理装置２００は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との各相関値に基づいて、音声信号のピッチ周波数を推定する。ここで、補正スペクトルは、入力スペクトルの極大値を一律の大きさで表すスペクトルであるため、入力スペクトルの低域や一部倍音が低減していても、極大値であれば、一律の値に揃えられるため、相関値に影響を与えない。このため、ピッチ周波数の推定精度を向上させることができる。

また、音声処理装置２００は、ピッチ周波数の整数倍に対応する、入力スペクトルの大きさに基づいて、ピッチ周波数を修正する。たとえば、Ｘ（ｌ，Ｐ）、Ｘ（ｌ，２Ｐ）、Ｘ（ｌ，３Ｐ）が閾値ＴＨ２以上であれば、入力スペクトル上のピッチ周波数Ｐの位置が極大値の位置に対応しており、ピッチ周波数が適切であるため、ピッチ周波数をそのまま出力する。一方、Ｘ（ｌ，Ｐ）、Ｘ（ｌ，２Ｐ）、Ｘ（ｌ，３Ｐ）が閾値ＴＨ２未満であれば、ピッチ周波数の位置が極大値の位置からずれており、ピッチ周波数が適切ではない。このため、上記処理を行うことで、適切であると判定できたピッチ周波数のみを出力し、それ以外は、０を出力することができる。

図１２は、本実施例３に係る音声処理システムの構成を示す図である。図１２に示すように、この音声評価システムは、マイク３０ａ，３０ｂ，３０ｃ、音声処理装置３００、クラウド６８を有する。マイク３０ａ〜３０ｃは、音声処理装置３００に接続される。音声処理装置３００は、インターネット網６５ｂを介して、クラウド６８に接続される。たとえば、クラウド６８には、サーバ４００が含まれる。

話者１Ａによる音声は、マイク３０ａにより集音され、集音された音声信号は、音声処理装置３００に出力される。話者１Ｂによる音声は、マイク３０ｂにより集音され、集音された音声信号は、音声処理装置３００に出力される。話者１Ｃによる音声は、マイク３０ｃにより集音され、集音された音声信号は、音声処理装置３００に出力される。

以下の説明では、話者１Ａの音声信号を、「第１音声信号」と表記する。話者１Ｂの音声信号を、「第２音声信号」と表記する。話者１Ｃの音声信号を、「第３音声信号」と表記する。

たとえば、第１音声信号には、話者１Ａの話者情報が付与される。話者情報は、話者を一意に識別する情報である。第２音声信号には、話者１Ｂの話者情報が付与される。第３音声信号には、話者１Ｃの話者情報が付与される。

音声処理装置３００は、第１音声信号、第２音声信号、第３音声信号を収録する装置である。また、音声処理装置３００は、各音声信号のピッチ周波数を検出する処理を実行する。音声処理装置３００は、話者情報と、所定区間毎のピッチ周波数とを対応づけて、サーバ４００に送信する。

サーバ４００は、音声処理装置３００から受信する各話者情報のピッチ周波数を記憶する装置である。

図１３は、本実施例３に係る音声処理装置の構成を示す機能ブロック図である。図１３に示すように、この音声処理装置３００は、ＡＤ変換部３１０ａ〜３１０ｂと、ピッチ検出部３２０と、ファイル化部３３０と、送信部３４０とを有する。

ＡＤ変換部３１０ａは、マイク３０ａから第１音声信号を受信し、ＡＤ変換を実行する処理部である。具体的には、ＡＤ変換部３１０ａは、第１音声信号（アナログ信号）を、第１音声信号（デジタル信号）に変換する。ＡＤ変換部３１０ａは、第１音声信号（デジタル信号）を、ピッチ検出部３２０に出力する。以下の説明では、ＡＤ変換部３１０ａから出力される第１音声信号（デジタル信号）を単に第１音声信号と表記する。

ＡＤ変換部３１０ｂは、マイク３０ｂから第２音声信号を受信し、ＡＤ変換を実行する処理部である。具体的には、ＡＤ変換部３１０ｂは、第２音声信号（アナログ信号）を、第２音声信号（デジタル信号）に変換する。ＡＤ変換部３１０ｂは、第２音声信号（デジタル信号）を、ピッチ検出部３２０に出力する。以下の説明では、ＡＤ変換部３１０ｂから出力される第２音声信号（デジタル信号）を単に第２音声信号と表記する。

ＡＤ変換部３１０ｃは、マイク３０ｃから第３音声信号を受信し、ＡＤ変換を実行する処理部である。具体的には、ＡＤ変換部３１０ｃは、第３音声信号（アナログ信号）を、第３音声信号（デジタル信号）に変換する。ＡＤ変換部３１０ｃは、第３音声信号（デジタル信号）を、ピッチ検出部３２０に出力する。以下の説明では、ＡＤ変換部３１０ｃから出力される第３音声信号（デジタル信号）を単に第３音声信号と表記する。

ピッチ検出部３２０は、音声信号を周波数解析することで、所定区間毎のピッチ周波数を算出する処理部である。たとえば、ピッチ検出部３２０は、第１音声信号を周波数解析することで、第１音声信号の第１ピッチ周波数を検出する。ピッチ検出部３２０は、第２音声信号を周波数解析することで、第２音声信号の第２ピッチ周波数を検出する。ピッチ検出部３２０は、第３音声信号を周波数解析することで、第３音声信号の第３ピッチ周波数を検出する。

ピッチ検出部３２０は、話者１Ａの話者情報と、所定区間毎の第１ピッチ周波数とを対応づけて、ファイル化部３３０に出力する。ピッチ検出部３２０は、話者１Ｂの話者情報と、所定区間毎の第２ピッチ周波数とを対応づけて、ファイル化部３３０に出力する。ピッチ検出部３２０は、話者１Ｃの話者情報と、所定区間毎の第３ピッチ周波数とを対応づけて、ファイル化部３３０に出力する。

ファイル化部３３０は、ピッチ検出部３２０から受け付ける情報をファイル化することで、「音声ファイル情報」を生成する処理部である。この音声ファイル情報には、話者情報と、所定区間毎のピッチ周波数とを対応づけた情報を含む。具体的に、音声ファイル情報は、話者１Ａの話者情報と、所定区間毎の第１ピッチ周波数とを対応づけた情報を含む。音声ファイル情報は、話者１Ｂの話者情報と、所定区間毎の第２ピッチ周波数とを対応づけた情報を含む。音声ファイル情報は、話者１Ｃの話者情報と、所定区間毎の第３ピッチ周波数とを対応づけた情報を含む。ファイル化部３３０は、音声ファイル情報を、送信部３４０に出力する。

送信部３４０は、ファイル化部３３０から音声ファイル情報を取得し、取得した音声ファイル情報を、サーバ４００に送信する。

続いて、図１３に示したピッチ検出部３２０の構成について説明する。図１４は、ピッチ検出部の構成を示す機能ブロック図である。図１４に示すように、このピッチ検出部３２０は、検出部３２１、算出部３２２、補正部３２３、推定部３２４、記憶部３２５を有する。以下の説明では、ピッチ検出部３２０が、第１音声信号のピッチ周波数を推定する処理について説明する。第２音声信号、第３音声信号のピッチ周波数を推定する処理は、第１音声信号のピッチ周波数を推定する処理と同様である。また、以下の説明では、便宜的に、第１音声信号を、単に、音声信号と表記する。

検出部３２１は、音声信号を取得し、取得した音声信号から入力スペクトル（周波数スペクトル）を検出する処理部である。検出部３２１は、検出した入力スペクトルの情報を、算出部３２２および補正部３２３に出力する。検出部３２１が、音声信号から入力スペクトルを検出する処理は、実施例１で説明した検出部１２０の処理と同様である。

算出部３２２は、入力スペクトルの包絡に基づく基準スペクトルを算出する処理部である。算出部３２２は、基準スペクトルの情報を、補正部３２３に出力する。算出部３２２が、入力スペクトルに基づいて基準スペクトルを算出する処理は、実施例１で説明した算出部１３０の処理と同様であっても良いし、次の処理を実行することで、基準スペクトルを算出してもよい。

図１５は、基準スペクトルを算出するその他の処理を説明するための図（２）である。算出部３２２は、入力スペクトルＸ（ｌ，ｋ）の各ｋにおいて、傾きを算出し、傾きが正から負に変化したところを極大値Ｌｍ１、Ｌｍ２、Ｌｍ３、Ｌｍ４として算出する。極大値Ｌｍ１、Ｌｍ２、Ｌｍ３、Ｌｍ４以外の極大値の図示を省略する。

算出部３２２は、入力ペクトルＸ（ｌ，ｋ）の集合平均ＡＶＥを式（８）に基づいて算出する。

算出部３２２は、各極大値の内、集合平均ＡＶＥよりも大きい極大値のみを選択し、選択した極大値を線形補間することで、スペクトル１７を算出する。たとえば、集合平均ＡＶＥよりも大きい極大値を、極大値Ｌｍ１、Ｌｍ２、Ｌｍ３、Ｌｍ４とする。算出部３２２は、スペクトル包絡の大きさの方向に−Ｊ１［ｄＢ］平行移動させることで、基準スペクトルを算出する。

補正部３２３は、入力スペクトルの大きさと、基準スペクトルの大きさとの比較に基づいて、入力スペクトルを補正する処理部である。補正部３２３が、入力スペクトルを補正して補正スペクトルを算出する処理は、実施例１で説明した補正部１４０の処理と同様である。補正部３２３は、補正スペクトルの情報を、推定部３２４に出力する。

推定部３２４は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との相関に基づいて、音声信号のピッチ周波数を推定する処理部である。推定部３２４は、実施例１で説明した推定部１５０と同様にして、補正スペクトルと、各周期信号との相関値Ｃ（ｐ）を算出し、相関値Ｃ（ｐ）が最大値Ｍとなるｐを特定する。以下の説明では、相関値Ｃ（ｐ）が最大値Ｍとなるｐを「Ｐ」と表記する。

更に、推定部３２４は、下記の条件３および条件４を満たす場合に、Ｐをピッチ周波数として推定する。一方、条件３または条４のいずれか一方を満たさない場合には、ピッチ周波数を０として出力する。

条件３：最大値Ｍが閾値ＴＨ１以上である。
条件４：過去ｑフレーム以内に出力したピッチ周波数を、Ｐ１、Ｐ２、・・・、Ｐｑとした場合、Ｐ−Ｐ１、Ｐ−Ｐ２、・・・、Ｐ−Ｐｑのうち、いずれかの値が閾値ＴＨ３未満である。

推定部３２４は、話者の話者情報と、ピッチ周波数とを対応づけて、ファイル化部３３０に出力する。また、推定部３２４は、ピッチ周波数を推定する度に、推定したピッチ周波数の情報を、記憶部３２５に格納する。

記憶部３２５は、ピッチ周波数の情報を記憶する記憶部である。記憶部３２５は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

次に、本実施例３に係るピッチ検出部３２０の処理手順の一例について説明する。図１６は、本実施例３に係るピッチ検出部の処理手順を示すフローチャートである。図１６に示すように、ピッチ検出部３２０の検出部３２１は、音声信号を取得する（ステップＳ３０１）。検出部３２１は、音声信号に基づいて、入力スペクトルを検出する（ステップＳ３０２）。ピッチ検出部３２０の算出部３２２は、基準スペクトルを算出する（ステップＳ３０３）。ピッチ検出部３２０の補正部３２３は、入力スペクトルを補正することで、補正スペクトルを算出する（ステップＳ３０４）。

ピッチ検出部３２０の推定部３２４は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との相関値をそれぞれ算出する（ステップＳ３０５）。推定部３２４は、各相関値を基にして、相関値が最大値となるピッチ周波数を推定する（ステップＳ３０６）。

ピッチ検出部３２０は、音声が終了したか否かを判定する（ステップＳ３０７）。ピッチ検出部３２０は、音声が終了していない場合には（ステップＳ３０７，Ｎｏ）、ステップＳ３０１に移行する。一方、ピッチ検出部３２０は、音声が終了した場合には（ステップＳ３０７，Ｙｅｓ）、処理を終了する。

次に、本実施例３に係る音声処理装置３００の効果について説明する。音声処理装置３００は、補正スペクトルと、所定の帯域内の周波数に対応する周期信号との各相関値に基づいて、音声信号のピッチ周波数を推定する。ここで、補正スペクトルは、入力スペクトルの極大値を一律の大きさで表すスペクトルであるため、入力スペクトルの低域や一部倍音が低減していても、極大値であれば、一律の値に揃えられるため、相関値に影響を与えない。このため、ピッチ周波数の推定精度を向上させることができる。

また、音声処理装置３００は、過去ｑフレーム以内に出力したピッチ周波数をＰ１、Ｐ２、・・・、Ｐｑとした場合において、Ｐ−Ｐ１、Ｐ−Ｐ２、・・・、Ｐ−Ｐｑのうち、いずれかの値が閾値ＴＨ３未満である場合において、ピッチ周波数Ｐを出力する。たとえば、ノイズ等の影響により、ピッチ周波数Ｐがずれると、上記の条件を満たさなくなるため、誤ったピッチ周波数Ｐを出力することを抑止することができる。

次に、上記実施例に示した音声処理装置１００，２００，３００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１７は、音声処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図１７に示すように、コンピュータ５００は、各種演算処理を実行するＣＰＵ５０１と、ユーザからのデータの入力を受け付ける入力装置５０２と、ディスプレイ５０３とを有する。また、コンピュータ５００は、記憶媒体からプログラム等を読み取る読み取り装置５０４と、有線または無線ネットワークを介して収録機器等との間でデータの授受を行うインターフェース装置５０５とを有する。コンピュータ５００は、マイク５０６を有する。コンピュータ５００は、各種情報を一時記憶するＲＡＭ５０７と、ハードディスク装置５０８とを有する。そして、各装置５０１〜５０８は、バス５０９に接続される。

ハードディスク装置５０８は、検出プログラム５０８ａ、算出プログラム５０８ｂ、補正プログラム５０８ｃ、推定プログラム５０８ｃを有する。ＣＰＵ５０１は、検出プログラム５０８ａ、算出プログラム５０８ｂ、補正プログラム５０８ｃ、推定プログラム５０８ｃを読み出してＲＡＭ５０７に展開する。

検出プログラム５０８ａは、検出プロセス５０７ａとして機能する。算出プログラム５０８ｂは、算出プロセス５０７ｂとして機能する。補正プログラム５０８ｃは、補正プロセス５０７ｃとして機能する。推定プログラム５０８ｄは、推定プロセス５０７ｄとして機能する。

検出プロセス５０７ａの処理は、検出部１２０、２３０、３２１の処理に対応する。算出プロセス５０７ｂの処理は、算出部１３０、２４０、３２２の処理に対応する。補正プロセス５０７ｃの処理は、補正部１４０、２５０、３２３の処理に対応する。推定プロセス５０７ｄの処理は、推定部１５０、２６０、３２４の処理に対応する。

なお、各プログラム５０８ａ〜５０８ｄについては、必ずしも最初からハードディスク装置５０８に記憶させておかなくても良い。例えば、コンピュータ５００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ５００が各プログラム５０８ａ〜５０８ｄを読み出して実行するようにしても良い。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）入力音声を取得し、
前記入力音声から第１周波数スペクトルを検出し、
前記第１周波数スペクトルの包絡に基づく第２周波数スペクトルを算出し、
前記第１周波数スペクトルの第１の大きさと、前記第２周波数スペクトルの第２の大きさとの比較に基づいて、前記第１の大きさを補正し、
補正した前記第１周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する
処理をコンピュータに実行させることを特徴とする音声処理プログラム。

（付記２）前記第２周波数スペクトルを算出する処理は、前記第１周波数スペクトルを平滑化することで、前記第２周波数スペクトルを算出することを特徴とする付記１に記載の音声処理プログラム。

（付記３）前記第２周波数スペクトルを算出する処理は、前記第１周波数スペクトルの各極大値を繋いだスペクトルを平行移動させ、平行移動させたスペクトルを、前記第２周波数スペクトルとして算出することを特徴とする付記１に記載の音声処理プログラム。

（付記４）前記第２周波数スペクトルを算出する処理は、前記第１周波数スペクトルのスペクトル包絡線を算出し、前記スペクトル包絡線を平行移動させ、平行移動させたスペクトル包絡線を、前記第２周波数スペクトルとして算出することを特徴とする付記１に記載の音声処理プログラム。

（付記５）前記ピッチ周波数を推定する処理は、前記第１周波数スペクトルとの相関の値が最大値となり、かつ、前記相関の値が閾値以上である場合に、前記第１周波数スペクトルとの相関の値が最大値となる周期信号の周波数を、ピッチ周波数として推定することを特徴とする付記１〜４のうちいずれか一つに記載の音声処理プログラム。

（付記６）前記ピッチ周波数の整数倍の周波数に対応する、前記第１周波数スペクトルの大きさに基づいて、前記ピッチ周波数を修正する処理を更に実行することを特徴とする付記１〜５のうちいずれか一つに記載の音声処理プログラム。

（付記７）推定された前記ピッチ周波数の情報を記憶装置に順次記憶し、前記記憶装置に記憶された過去の所定期間に推定された複数の前記ピッチ周波数を基にして、今後推定されるピッチ周波数を修正する処理を更に実行することを特徴とする付記１〜６のうちいずれか一つに記載の音声処理プログラム。

（付記８）前記記憶装置に記憶された複数のピッチ周波数に基づいて、前記入力音声を評価し、評価結果を表示する処理を更に実行することを特徴とする付記７に記載の音声処理プログラム。

（付記９）コンピュータが実行する音声処理方法であって、
入力音声を取得し、
前記入力音声から第１周波数スペクトルを検出し、
前記第１周波数スペクトルの包絡に基づく第２周波数スペクトルを算出し、
前記第１周波数スペクトルの第１の大きさと、前記第２周波数スペクトルの第２の大きさとの比較に基づいて、前記第１の大きさを補正し、
補正した前記第１周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する
処理を実行することを特徴とする音声処理方法。

（付記１０）前記第２周波数スペクトルを算出する処理は、前記第１周波数スペクトルを平滑化することで、前記第２周波数スペクトルを算出することを特徴とする付記９に記載の音声処理方法。

（付記１１）前記第２周波数スペクトルを算出する処理は、前記第１周波数スペクトルの各極大値を繋いだスペクトルを平行移動させ、平行移動させたスペクトルを、前記第２周波数スペクトルとして算出することを特徴とする付記９に記載の音声処理方法。

（付記１２）前記第２周波数スペクトルを算出する処理は、前記第１周波数スペクトルのスペクトル包絡線を算出し、前記スペクトル包絡線を平行移動させ、平行移動させたスペクトル包絡線を、前記第２周波数スペクトルとして算出することを特徴とする付記９に記載の音声処理方法。

（付記１３）前記ピッチ周波数を推定する処理は、前記第１周波数スペクトルとの相関の値が最大値となり、かつ、前記相関の値が閾値以上である場合に、前記第１周波数スペクトルとの相関の値が最大値となる周期信号の周波数を、ピッチ周波数として推定することを特徴とする付記９〜１２のうちいずれか一つに記載の音声処理方法。

（付記１４）前記ピッチ周波数の整数倍の周波数に対応する、前記第１周波数スペクトルの大きさに基づいて、前記ピッチ周波数を修正する処理を更に実行することを特徴とする付記９〜１３のうちいずれか一つに記載の音声処理方法。

（付記１５）推定された前記ピッチ周波数の情報を記憶装置に順次記憶し、前記記憶装置に記憶された過去の所定期間に推定された複数の前記ピッチ周波数を基にして、今後推定されるピッチ周波数を修正する処理を更に実行することを特徴とする付記９〜１４のうちいずれか一つに記載の音声処理方法。

（付記１６）前記記憶装置に記憶された複数のピッチ周波数に基づいて、前記入力音声を評価し、評価結果を表示する処理を更に実行することを特徴とする付記１５に記載の音声処理方法。

（付記１７）入力音声を取得し、前記入力音声から第１周波数スペクトルを検出する検出部と、
前記第１周波数スペクトルの包絡に基づく第２周波数スペクトルを算出する算出部と、
前記第１周波数スペクトルの第１の大きさと、前記第２周波数スペクトルの第２の大きさとの比較に基づいて、前記第１の大きさを補正する補正部と、
補正した前記第１周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する推定部と
を有することを特徴とする音声処理装置。

（付記１８）前記算出部は、前記第１周波数スペクトルを平滑化することで、前記第２周波数スペクトルを算出することを特徴とする付記１７に記載の音声処理装置。

（付記１９）前記算出部は、前記第１周波数スペクトルの各極大値を繋いだスペクトルを平行移動させ、平行移動させたスペクトルを、前記第２周波数スペクトルとして算出することを特徴とする付記１７に記載の音声処理装置。

（付記２０）前記算出部は、前記第１周波数スペクトルのスペクトル包絡線を算出し、前記スペクトル包絡線を平行移動させ、平行移動させたスペクトル包絡線を、前記第２周波数スペクトルとして算出することを特徴とする付記１７に記載の音声処理装置。

（付記２１）前記推定部は、前記第１周波数スペクトルとの相関の値が最大値となり、かつ、前記相関の値が閾値以上である場合に、前記第１周波数スペクトルとの相関の値が最大値となる周期信号の周波数を、ピッチ周波数として推定することを特徴とする付記１７〜２０のうちいずれか一つに記載の音声処理装置。

（付記２２）前記推定部は、前記ピッチ周波数の整数倍の周波数に対応する、前記第１周波数スペクトルの大きさに基づいて、前記ピッチ周波数を修正する処理を更に実行することを特徴とする付記１７〜２１のうちいずれか一つに記載の音声処理装置。

（付記２３）前記推定部は、推定された前記ピッチ周波数の情報を記憶装置に順次記憶し、前記記憶装置に記憶された過去の所定期間に推定された複数の前記ピッチ周波数を基にして、今後推定されるピッチ周波数を修正する処理を更に実行することを特徴とする付記１７〜２２のうちいずれか一つに記載の音声処理装置。

（付記２４）前記記憶装置に記憶された複数のピッチ周波数に基づいて、前記入力音声を評価し、評価結果を表示する出力部を更に有することを特徴とする付記１７に記載の音声処理装置。

５０ａマイク
５０ｂ表示部
１００，２００音声処理装置
１１０ＡＤ変換部
１１５音声ファイル化部
１２０，２３０，３２１検出部
１３０，２４０，３２２算出部
１４０，２５０，３２３補正部
１５０，２６０，３２４推定部
１６０，２２０，３２５記憶部
１７０出力部
２１０受信部
３２０ピッチ検出部

Claims

入力音声を取得し、
前記入力音声から第１周波数スペクトルを検出し、
前記第１周波数スペクトルの包絡に基づく第２周波数スペクトルを算出し、
前記第１周波数スペクトルの第１の大きさと、前記第２周波数スペクトルの第２の大きさとの比較に基づいて、前記第１の大きさを補正し、
補正した前記第１周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
前記第２周波数スペクトルを算出する処理は、前記第１周波数スペクトルを平滑化することで、前記第２周波数スペクトルを算出することを特徴とする請求項１に記載の音声処理プログラム。
前記第２周波数スペクトルを算出する処理は、前記第１周波数スペクトルの各極大値を繋いだスペクトルを平行移動させ、平行移動させたスペクトルを、前記第２周波数スペクトルとして算出することを特徴とする請求項１に記載の音声処理プログラム。
前記第２周波数スペクトルを算出する処理は、前記第１周波数スペクトルのスペクトル包絡線を算出し、前記スペクトル包絡線を平行移動させ、平行移動させたスペクトル包絡線を、前記第２周波数スペクトルとして算出することを特徴とする請求項１に記載の音声処理プログラム。
前記ピッチ周波数を推定する処理は、前記第１周波数スペクトルとの相関の値が最大値となり、かつ、前記相関の値が閾値以上である場合に、前記第１周波数スペクトルとの相関の値が最大値となる周期信号の周波数を、ピッチ周波数として推定することを特徴とする請求項１〜４のうちいずれか一つに記載の音声処理プログラム。
前記ピッチ周波数の整数倍の周波数に対応する、前記第１周波数スペクトルの大きさに基づいて、前記ピッチ周波数を修正する処理を更に実行することを特徴とする請求項１〜５のうちいずれか一つに記載の音声処理プログラム。
推定された前記ピッチ周波数の情報を記憶装置に順次記憶し、前記記憶装置に記憶された過去の所定期間に推定された複数の前記ピッチ周波数を基にして、今後推定されるピッチ周波数を修正する処理を更に実行することを特徴とする請求項１〜６のうちいずれか一つに記載の音声処理プログラム。
前記記憶装置に記憶された複数のピッチ周波数に基づいて、前記入力音声を評価し、評価結果を表示する処理を更に実行することを特徴とする請求項７に記載の音声処理プログラム。
コンピュータが実行する音声処理方法であって、
入力音声を取得し、
前記入力音声から第１周波数スペクトルを検出し、
前記第１周波数スペクトルの包絡に基づく第２周波数スペクトルを算出し、
前記第１周波数スペクトルの第１の大きさと、前記第２周波数スペクトルの第２の大きさとの比較に基づいて、前記第１の大きさを補正し、
補正した前記第１周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する
処理を実行することを特徴とする音声処理方法。
入力音声を取得し、前記入力音声から第１周波数スペクトルを検出する検出部と、
前記第１周波数スペクトルの包絡に基づく第２周波数スペクトルを算出する算出部と、
前記第１周波数スペクトルの第１の大きさと、前記第２周波数スペクトルの第２の大きさとの比較に基づいて、前記第１の大きさを補正する補正部と、
補正した前記第１周波数スペクトルと所定の帯域内の周波数に対応する周期信号との相関に基づいて、前記入力音声のピッチ周波数を推定する推定部と
を有することを特徴とする音声処理装置。