JP6996570B2

JP6996570B2 - 緊急度推定装置、緊急度推定方法、プログラム

Info

Publication number: JP6996570B2
Application number: JP2019557144A
Authority: JP
Inventors: 歩相名神山; 哲小橋川; 厚志安藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-11-29
Filing date: 2018-11-15
Publication date: 2022-01-17
Anticipated expiration: 2038-11-15
Also published as: US20200312352A1; US11495245B2; WO2019107170A1; JPWO2019107170A1

Description

本発明は、発話音声から通話の緊急度を推定する技術に関する。

留守番電話に残された音声から通話の緊急性を推定できるようになると、優先的に対応すべき通話を選別することができるようになる。

従来の通話緊急度推定では、例えば、”Help”のような特定の単語を対象に、MFCC(Mel-Frequency Cepstral Coefficients：メル周波数ケプストラム係数)やPNCC(Power Normalized Cepstral Coefficients)といった声道特徴量からその通話の緊急・非緊急を推定していた（非特許文献１）。

E. Principi, S. Squartini, E. Cambria, F. Piazza,"Acoustic template-matching for automatic emergency state detection: An ELM based algorithm", Neurocomputing, Vol.149, Part A, pp.426-434, 2015．

しかし、非特許文献１では、特定の単語の声道特徴量を用いるため、当該単語を含まない音声から緊急度を推定することができないという問題があった。

そこで本発明では、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定する緊急度推定技術を提供することを目的とする。

本発明の一態様は、発話音声から、当該発話の特徴量を抽出する特徴量抽出部と、予め定められた、発話音声から抽出された特徴量と発話音声の話者の緊急度との関係性に基づいて、前記特徴量から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含み、前記特徴量は、発話音声の話速を示す特徴、発話音声の声の高さを示す特徴、発話音声のパワーの大きさを示す特徴のうち少なくとも１つの特徴を含むものである。

本発明の一態様は、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、前記発話音声から、当該発話音声に含まれる発話区間毎の読み、発話開始時刻、発話終了時刻の組を生成する音声認識部と、前記読み、発話開始時刻、発話終了時刻の組から、前記発話音声の話速を推定する第１話速推定部と、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記話速から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含む。

本発明の一態様は、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出部と、前記F0情報から、F0情報の平均と中央値との差分を計算するF0情報統計値計算部と、発話音声の声道特徴量の平均と分散値、発話音声のF0情報の平均と中央値との差分を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記差分から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含む。

本発明の一態様は、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出部と、前記発話音声から、当該発話音声を分割したフレーム毎にパワーを抽出するパワー抽出部と、前記F0情報と前記パワーから、パワーの平均を用いて調整した調整済パワーを計算するパワー平均調整部と、前記調整済パワーから、調整済パワーの最大値であるパワー最大値を計算するパワー最大値計算部と、発話音声の声道特徴量の平均と分散値、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記パワー最大値から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含む。

本発明の一態様は、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、入力音から音素を識別する音声認識音響モデルを用いて、前記発話音声から、当該発話音声を分割したフレームに該当する音が各音素である確率を示す事後確率系列を推定する事後確率系列推定部と、発話音声の事後確率系列を入力とし、発話音声の話速を出力するように学習された話速推定モデルを用いて、前記事後確率系列から、前記発話音声の話速を推定する第２話速推定部と、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記話速から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含む。

本発明によれば、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定することが可能となる。

緊急音声と非緊急音声の話速（１モーラあたりの秒数）の違いの一例を示す図である。緊急度推定装置１００の構成の一例を示すブロック図である。緊急度推定装置１００の動作の一例を示すフローチャートである。声道特徴量の一例を示す図である。音声認識結果の一例を示す図である。緊急音声と非緊急音声のF0の平均・中央値・平均と中央値との差分の一例を示す図である。緊急度推定装置２００の構成の一例を示すブロック図である。緊急度推定装置２００の動作の一例を示すフローチャートである。 F0情報の一例を示す図である。緊急音声のパワーの変化の一例を示す図である。非緊急音声のパワーの変化の一例を示す図である。緊急度推定装置３００の構成の一例を示すブロック図である。緊急度推定装置３００の動作の一例を示すフローチャートである。事後確率系列の一例を示す図である。緊急度推定装置４００の構成の一例を示すブロック図である。緊急度推定装置４００の動作の一例を示すフローチャートである。緊急度推定装置５００の構成の一例を示すブロック図である。緊急度推定装置５００の動作の一例を示すフローチャートである。緊急度推定装置５０１の構成の一例を示すブロック図である。緊急度推定装置５０１の動作の一例を示すフローチャートである。緊急度推定装置５０２の構成の一例を示すブロック図である。緊急度推定装置５０２の動作の一例を示すフローチャートである。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜第一実施形態＞
図１は、複数の留守録模擬音声を用いて、緊急・非緊急の音声での話す速さ（以下、話速という）を分析した結果を示す。この図をみると、話速、すなわち、１モーラ（音韻上の分節）あたりの秒数が緊急音声の方が短いことがわかる。そこで、第一実施形態では、話速を用いて緊急度を推定する。なお、従来から用いられている声道特徴量の統計値も緊急度推定にあわせて用いる。

以下、図２～図３を参照して緊急度推定装置１００について説明する。図２は、緊急度推定装置１００の構成を示すブロック図である。図３は、緊急度推定装置１００の動作を示すフローチャートである。図２に示すように緊急度推定装置１００は、声道特徴量抽出部１１０、声道特徴量統計値計算部１２０、音声認識部１３０、第１話速推定部１４０、緊急度推定部１５０、記録部１９０を含む。記録部１９０は、緊急度推定装置１００の処理に必要な情報を適宜記録する構成部である。

緊急度推定装置１００は、緊急度推定モデル１８０を読み込み、処理を実行する。なお、緊急度推定モデル１８０は、図２のように外部の記録部に記録するよう構成してもよいし、記録部１９０に記録するよう構成してもよい。

緊急度推定装置１００は、発話音声s(t)（t=0, 1, 2, …, T、tはサンプル番号を表す）から、発話音声s(t)の話者の緊急度を推定し、出力する。発話音声s(t)は、単位時間毎にサンプリングされた音声信号であり、例えば、留守番電話に残されたメッセージの音声である。

図３に従い緊急度推定装置１００の動作について説明する。声道特徴量抽出部１１０は、発話音声s(t)（t=0, 1, 2, …, T）を入力とし、当該発話音声s(t)を分割したフレーム毎に声道特徴量c(i)（i=0, 1, 2, …, I、iはフレーム番号を表す）を抽出し、出力する（Ｓ１１０）。声道特徴量として、例えば、MFCCやケプストラムを用いることができる。また、その抽出にはどのような方法を用いてもよい。声道特徴量c(i)は、例えば図４に示すような、音声の時間長に応じたベクトル系列として求めることができる。図４では、系列の長さが総フレーム数Iとなっている。

声道特徴量統計値計算部１２０は、Ｓ１１０で抽出した声道特徴量c(i)（i=0, 1, 2, …, I）から、発話音声s(t)の声道特徴量統計値として平均mean(c)と分散値var(c)を計算し、出力する（Ｓ１２０）。平均mean(c)、分散値var(c)は、それぞれ次式で計算できる。

音声認識部１３０は、発話音声s(t)（t=0, 1, 2, …, T）から、当該発話音声s(t)に含まれる発話区間毎の音声認識結果W(j)（j=1, 2, …,J、jは発話区間番号を表す）を生成し、出力する（Ｓ１３０）。ここで、音声認識結果W(j)（j=1, 2, …,J）は、発話音声s(t)から所定の方法により検出した発話区間の音声認識結果である。音声認識には、どのような方法を用いてもよいが、音声認識結果として通常生成される漢字・仮名まじりの文章の代わりに、その付加情報に相当する、発話区間jの読みw(j)、発話開始時刻s(j)、発話終了時刻e(j)の組を音声認識結果W(j)とする（図５参照）。読みw(j)は、発音している音をカナで記述した文である。また、発話開始時刻s(j)、発話終了時刻e(j)は、それぞれ発話区間jの音声信号の開始時刻（秒）、終了時刻（秒）を示す値である。なお、発話音声s(t)の開始時刻を0秒として、各発話区間の発話開始時刻と発話終了時刻を表示している。換言すると、音声認識部１３０は、発話音声s(t)（t=0, 1, 2, …, T）から、当該発話音声s(t)に含まれる発話区間毎の読みw(j)、発話開始時刻s(j)、発話終了時刻e(j)の組（j=1, 2, …,J）を生成し、出力する（Ｓ１３０）。

第１話速推定部１４０は、Ｓ１３０で生成した音声認識結果W(j)（つまり、読みw(j)、発話開始時刻s(j)、発話終了時刻e(j)の組）（j=1, 2, …,J）から、発話音声s(t)の話速mean(r)を推定し、出力する（Ｓ１４０）。話速mean(r)の推定には、読みw(j)に含まれる拗音（「ャ」、「ュ」、「ョ」）を除いた文字数をモーラ数と考えて、発話時間とモーラ数からmean(r)[秒/mora]を求める。読みw(j)に含まれる拗音を除いた文字数をlen(w(j))とすると、話速mean(r)は、次式により求めることができる。

ここで、e(j)－s(j)が、読みw(j)の発話に要する時間（発話時間）である。

この式から話速mean(r)は発話音声の平均的な話速であることがわかる。

緊急度推定部１５０は、緊急度推定モデル１８０を用いて、Ｓ１２０で計算した平均mean(c)と分散値var(c)、Ｓ１４０で推定した話速mean(r)から、発話音声s(t)（t=0, 1, 2,…, T）の話者の緊急度を推定し、出力する（Ｓ１５０）。緊急度推定モデル１８０は、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力する。

緊急度推定モデルは、例えば、サポートベクターマシン（SVM: Support Vector Machine）、ランダムフォレスト（Random Forest）、ニューラルネットワークなどの機械学習により生成する。具体的には、まず、緊急度が事前に分かっている音声信号から求めた特徴量（ここでは、平均mean(c)、分散値var(c)、話速mean(r)）と当該音声信号の緊急度を示す情報（正解ラベル）の組の集合を学習用データとして用意しておく。次に、この学習用データを用いて、特徴量を入力として、緊急度推定モデルを用いて緊急度を推定し、推定結果である緊急度と正解ラベルの緊急度の誤差が小さくなるように緊急度推定モデルのパラメータを更新する。なお、緊急度推定モデルの学習開始時には、緊急度推定モデルのパラメータとして適当な初期値を与えるものとする。そして、所定の条件を満たすことをもってパラメータの更新（つまり、学習）を終了する。なお、正解ラベルは、緊急／非緊急の２段階でもよいし、緊急度を３段階以上のランクに分けたものであってもよい。

＜第二実施形態＞
図６は、複数の留守録模擬音声を用いて、緊急・非緊急の音声での声の高さ（F0）を分析した結果を示す。この図から、緊急時には声が平均的に高くなる傾向があることがわかる。そこで、第二実施形態では、声の高さを用いて緊急度を推定する。なお、声道特徴量の統計値もあわせて用いることは第一実施形態と同様である。

なお、声の平均的な高さは性別や個人によって異なるため、F0の平均のみから緊急・非緊急の別を推定することは難しい。そこで、ここでは、緊急・非緊急の音声におけるF0の中央値は大きくは変わらないという特性を利用して、F0の平均と中央値との差分を推定のための特徴量として用いることにする。これにより、F0の個人性を吸収して緊急度を推定することができるようになる。

以下、図７～図８を参照して緊急度推定装置２００について説明する。図７は、緊急度推定装置２００の構成を示すブロック図である。図８は、緊急度推定装置２００の動作を示すフローチャートである。図７に示すように緊急度推定装置２００は、声道特徴量抽出部１１０、声道特徴量統計値計算部１２０、F0情報抽出部２１０、F0情報統計値計算部２２０、緊急度推定部２５０、記録部２９０を含む。記録部２９０は、緊急度推定装置２００の処理に必要な情報を適宜記録する構成部である。

緊急度推定装置２００は、緊急度推定モデル２８０を読み込み、処理を実行する。なお、緊急度推定モデル２８０は、図７のように外部の記録部に記録するよう構成してもよいし、記録部２９０に記録するよう構成してもよい。

緊急度推定装置２００は、発話音声s(t)（t=0, 1, 2, …, T、tはサンプル番号を表す）から、発話音声s(t)の話者の緊急度を推定し、出力する。

図８に従い緊急度推定装置２００の動作について説明する。声道特徴量抽出部１１０は、発話音声s(t)（t=0, 1, 2, …, T）を入力とし、当該発話音声s(t)を分割したフレーム毎に声道特徴量c(i)（i=0, 1, 2, …, I、iはフレーム番号を表す）を抽出し、出力する（Ｓ１１０）。声道特徴量統計値計算部１２０は、Ｓ１１０で抽出した声道特徴量c(i)（i=0, 1, 2, …, I）から、発話音声s(t)の声道特徴量統計値として平均mean(c)と分散値var(c)を計算し、出力する（Ｓ１２０）。

F0情報抽出部２１０は、発話音声s(t)（t=0, 1, 2, …, T）を入力とし、当該発話音声s(t)を分割したフレーム毎にF0情報f(k)（k=0, 1, 2, …, K、kはフレーム番号を表す）を抽出し、出力する（Ｓ２１０）。F0情報f(k)はフレームkにおける声の高さの特徴量である。F0情報の抽出にはどのような方法を用いてもよい。図９は、抽出したF0情報の一例を示す。

F0情報統計値計算部２２０は、Ｓ２１０で抽出したF0情報f(k)（k=0, 1, 2, …, K）から、F0情報の平均と中央値との差分medave(f)を計算し、出力する（Ｓ２２０）。図９からわかるように、有声音ではない区間（無声音または無音の区間）では、F0の値が0となる。F0の値が0となる区間を含めて平均や中央値を求めると、発話音声の以外の特徴も含まれることになるため、有声音の区間のみを用いて、F0情報の平均ave(f)と中央値med(f)を求める。具体的には、以下のようにして求める。まず、フレームkが有声音区間であるか否かを示す有声無声判定結果v(f(k))を次式により定義する。

次に、F0情報の中央値med(f)を、F0情報の最小値min(f)とF0情報の最大値max(f)の平均として計算する。

また、F0情報の平均値ave(f)を次式により計算する。

そして、差分medave(f)を次式により計算する。

緊急度推定部２５０は、緊急度推定モデル２８０を用いて、Ｓ１２０で計算した平均mean(c)と分散値var(c)、Ｓ２２０で計算した差分medave(f)から、発話音声s(t)（t=0, 1, 2, …, T）の話者の緊急度を推定し、出力する（Ｓ２５０）。緊急度推定モデル２８０は、発話音声の声道特徴量の平均と分散値、発話音声のF0情報の平均と中央値との差分を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル２８０の学習方法は、第一実施形態と同様でよい。

＜第三実施形態＞
発話音声のパワーは電話の機器によって異なるが、図１０Ａ、図１０Ｂからわかるように、１発話辺りのパワーの平均を揃えて緊急度が高い音声と緊急度が低い音声を比較すると、緊急度が高い音声は部分的に声が強くなる傾向がある。そこで、第三実施形態では、パワーの平均を揃えたうえでのパワーの最大値を声の強さとして、声の強さを用いて緊急度を推定する。なお、声道特徴量の統計値もあわせて用いることは第一実施形態と同様である。

以下、図１１～図１２を参照して緊急度推定装置３００について説明する。図１１は、緊急度推定装置３００の構成を示すブロック図である。図１２は、緊急度推定装置３００の動作を示すフローチャートである。図１１に示すように緊急度推定装置３００は、声道特徴量抽出部１１０、声道特徴量統計値計算部１２０、F0情報抽出部２１０、パワー抽出部３１０、パワー平均調整部３２０、パワー最大値計算部３３０、緊急度推定部３５０、記録部３９０を含む。記録部３９０は、緊急度推定装置３００の処理に必要な情報を適宜記録する構成部である。

緊急度推定装置３００は、緊急度推定モデル３８０を読み込み、処理を実行する。なお、緊急度推定モデル３８０は、図１１のように外部の記録部に記録するよう構成してもよいし、記録部３９０に記録するよう構成してもよい。

緊急度推定装置３００は、発話音声s(t)（t=0, 1, 2, …, T、tはサンプル番号を表す）から、発話音声s(t)の話者の緊急度を推定し、出力する。

図１２に従い緊急度推定装置３００の動作について説明する。声道特徴量抽出部１１０は、発話音声s(t)（t=0, 1, 2, …, T）を入力とし、当該発話音声s(t)を分割したフレーム毎に声道特徴量c(i)（i=0, 1, 2, …, I、iはフレーム番号を表す）を抽出し、出力する（Ｓ１１０）。声道特徴量統計値計算部１２０は、Ｓ１１０で抽出した声道特徴量c(i)（i=0, 1, 2, …, I）から、発話音声s(t)の声道特徴量統計値として平均mean(c)と分散値var(c)を計算し、出力する（Ｓ１２０）。F0情報抽出部２１０は、発話音声s(t)（t=0, 1, 2, …, T）を入力とし、当該発話音声s(t)を分割したフレーム毎にF0情報f(k)（k=0, 1, 2, …, K、kはフレーム番号を表す）を抽出し、出力する（Ｓ２１０）。

パワー抽出部３１０は、発話音声s(t)（t=0, 1, 2, …, T）を入力とし、当該発話音声s(t)を分割したフレーム毎にパワーp(k)（k=0, 1, 2, …, K、kはフレーム番号を表す）を抽出し、出力する（Ｓ３１０）。パワーp(k)はフレームkにおける声の強さの特徴量である。パワーの抽出にはどのような方法を用いてもよい。

パワー平均調整部３２０は、Ｓ２１０で抽出したF0情報f(k)（k=0, 1, 2, …, K）とＳ３１０で抽出したパワーp(k)（k=0, 1, 2, …, K）から、パワーの平均を用いて調整した調整済パワーp'(k)（k=0, 1, 2, …, K）を計算し、出力する（Ｓ３２０）。発話音声は無音区間（つまり、何も音声が入っていない区間）を含む。そのため、パワーの平均を計算する際に、無音区間も含めて計算してしまうと、無音区間が多いフレームkではパワーの平均が小さく算出されやすくなり、調整済パワーp'(k)が大きく算出されてしまう場合がある。そこで、確実に音声があると考えられる有声音区間（f(k)>0となるフレーム）についてのパワーの平均でパワーを除することによりパワーを揃えることで、無音区間の時間長に依らずに、電話機の録音レベルの違いを吸収したパワー（つまり、調整済パワー）を求めることができる。具体的には、以下のようにする。まず、フレームkが有声音区間であるか否かを示す有声無声判定結果v(f(k))を次式により定義する。

そして、調整済パワーp'(k)を次式により計算する。

パワー最大値計算部３３０は、Ｓ３２０で計算した調整済パワーp'(k)（k=0, 1, 2, …, K）から、調整済パワーの最大値であるパワー最大値max(p)を計算し、出力する（Ｓ３３０）。パワー最大値max(p)は次式により求めることができる。

緊急度推定部３５０は、緊急度推定モデル３８０を用いて、Ｓ１２０で計算した平均mean(c)と分散値var(c)、Ｓ３３０で計算したパワー最大値max(p)から、発話音声s(t)（t=0, 1, 2, …, T）の話者の緊急度を推定し、出力する（Ｓ３５０）。緊急度推定モデル３８０は、発話音声の声道特徴量の平均と分散値、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル３８０の学習方法は、第一実施形態と同様でよい。

＜第四実施形態＞
第一実施形態では、音声認識を用いて話速を推定したが、発話音声で使われている単語が音声認識に用いるモデルに含まれていないと、正確な音声認識結果が得られないため、話速を正しく推定することができない。そのため、音声認識に用いるモデルに単語を登録するチューニング作業が不可欠となる。しかし、留守番電話に残されたメッセージのような制約のない発話についてあらゆる単語を事前に登録しておくのは現実的ではない。そこで、第四実施形態では、音声認識の音響モデル（入力された音が、どの音素の音であるかを識別するモデル）の事後確率の変化（事後確率系列）から推定した話速を用いて、緊急度を推定する。なお、声道特徴量の統計値もあわせて用いることは第一実施形態と同様である。

図１３は、事後確率系列の一例を示す。図１３の表は、横方向が音素情報、縦方向が時間（フレーム番号）であり、各欄の値は、各フレームの音に対応する音素がどの程度の確率で正しいかを示した値である。話速が速いときはこの事後確率の遷移が速くなり、話速が遅いときはこの事後確率の遷移が遅くなる。この遷移の速さの特徴を捉えて、近似的に話速を求めることにより、正確な音声認識結果が得られなくても、話速を推定することが可能となる。

以下、図１４～図１５を参照して緊急度推定装置４００について説明する。図１４は、緊急度推定装置４００の構成を示すブロック図である。図１５は、緊急度推定装置４００の動作を示すフローチャートである。図１４に示すように緊急度推定装置４００は、声道特徴量抽出部１１０、声道特徴量統計値計算部１２０、事後確率系列推定部４１０、第２話速推定部４２０、緊急度推定部４５０、記録部４９０を含む。記録部４９０は、緊急度推定装置４００の処理に必要な情報を適宜記録する構成部である。

緊急度推定装置４００は、緊急度推定モデル４８０、音声認識音響モデル４８２、話速推定モデル４８４を読み込み、処理を実行する。なお、緊急度推定モデル４８０、音声認識音響モデル４８２、話速推定モデル４８４は、図１４のように外部の記録部に記録するよう構成してもよいし、記録部４９０に記録するよう構成してもよい。

緊急度推定装置４００は、発話音声s(t)（t=0, 1, 2, …, T、tはサンプル番号を表す）から、発話音声s(t)の話者の緊急度を推定し、出力する。

図１５に従い緊急度推定装置４００の動作について説明する。声道特徴量抽出部１１０は、発話音声s(t)（t=0, 1, 2, …, T）を入力とし、当該発話音声s(t)を分割したフレーム毎に声道特徴量c(i)（i=0, 1, 2, …, I、iはフレーム番号を表す）を抽出し、出力する（Ｓ１１０）。声道特徴量統計値計算部１２０は、Ｓ１１０で抽出した声道特徴量c(i)（i=0, 1, 2, …, I）から、発話音声s(t)の声道特徴量統計値として平均mean(c)と分散値var(c)を計算し、出力する（Ｓ１２０）。

事後確率系列推定部４１０は、入力音から音素を識別する音声認識音響モデル４８２を用いて、発話音声s(t)（t=0, 1, 2, …, T）から、当該発話音声s(t)を分割したフレームkに該当する音が各音素である確率を示す事後確率系列P(k)（k=0, 1, 2, …, K、kはフレーム番号を表す）を推定し、出力する（Ｓ４１０）。事後確率系列P(k)は、その要素がフレームkに該当する音が各音素である確率であるベクトルである。したがって、事後確率系列P(k)の各要素の値は、0以上1以下の値であり、その合計は1になる。事後確率系列は、深層ニューラルネットワーク（DNN: Deep Neural Network）や長・短期記憶再帰型ネットワーク（LSTM: Long Short-Term Memory Network）のような音声認識の一般的なモデルを用いて推定する。図１３の事後確率系列は、モノフォン・１状態の事後確率系列であるが、音声認識で一般的に使われるトライフォン・３状態のDNN-HMM(Hybrid Deep Neural Network-Hidden Markov Model)の出力を用いてもよい。

第２話速推定部４２０は、話速推定モデル４８４を用いて、Ｓ４１０で推定した事後確率系列P(k)（k=0, 1, 2, …, K）から、発話音声s(t)の話速mean(r2)を推定し、出力する（Ｓ４２０）。話速推定モデル４８４は、発話音声の事後確率系列を入力とし、発話音声の話速を出力する。話速推定モデル４８４は、LSTMのような時系列モデルなどのニューラルネットワークを用いて構成することができる。具体的には、以下のようにして話速推定モデル（ニューラルネットワーク）のパラメータを学習する。まず、話速推定モデルの学習に用いる音声信号を複数用意する。次に、各音声信号に対して、事後確率系列推定部４１０と同様の方法により事後確率系列を求める。この事後確率系列が学習対象である話速推定モデルの入力となる。また、各音声信号に対して、書き起こしデータを作成し、書き起こしデータを構成する各音素の開始時刻と終了時刻を求め、第１話速推定部１４０と同様の方法により音声信号の話速を求める。その際、第１話速推定部１４０で用いる読みの代わりに、書き起こしデータを用いればよい。ここで求めた話速が正解ラベルとなる。そして、事後確率系列を入力として、話速推定モデルを用いて話速を推定し、推定結果である話速と正解ラベルの話速の誤差が小さくなるように話速推定モデルのパラメータを更新する。

緊急度推定部４５０は、緊急度推定モデル４８０を用いて、Ｓ１２０で計算した平均mean(c)と分散値var(c)、Ｓ４２０で推定した話速mean(r2)から、発話音声s(t)（t=0, 1, 2, …, T）の話者の緊急度を推定し、出力する（Ｓ４５０）。緊急度推定モデル４８０は、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル４８０の学習方法は、第一実施形態と同様でよい。

＜第五実施形態＞
第一実施形態から第四実施形態では、声道特徴量統計値に、話速、声の高さ、声の強さ（パワーの大きさ）のいずれか一つの特徴量を組み合わせて緊急度を推定したが、声道特徴量統計値に、話速、声の高さ、声の強さの特徴量のうち、２つ以上の特徴量を組み合わせて緊急度を推定するようにしてもよい。そこで、第五実施形態では、第一実施形態から第四実施形態で用いた特徴量の組み合わせを用いて、緊急度を推定する構成について説明する。ここでは、まず、第一実施形態の話速、第二実施形態の声の高さ、第三実施形態の声の強さを示す３つの特徴量を用いる構成について説明する。

以下、図１６～図１７を参照して緊急度推定装置５００について説明する。図１６は、緊急度推定装置５００の構成を示すブロック図である。図１７は、緊急度推定装置５００の動作を示すフローチャートである。図１６に示すように緊急度推定装置５００は、声道特徴量抽出部１１０、声道特徴量統計値計算部１２０、音声認識部１３０、第１話速推定部１４０、F0情報抽出部２１０、F0情報統計値計算部２２０、パワー抽出部３１０、パワー平均調整部３２０、パワー最大値計算部３３０、緊急度推定部５５０、記録部５９０を含む。記録部５９０は、緊急度推定装置５００の処理に必要な情報を適宜記録する構成部である。

緊急度推定装置５００は、緊急度推定モデル５８０（図示しない）を読み込み、処理を実行する。緊急度推定モデル５８０は、事前に記録部５９０に記録しているものとする。

緊急度推定装置５００は、発話音声s(t)（t=0, 1, 2, …, T、tはサンプル番号を表す）から、発話音声s(t)の話者の緊急度を推定し、出力する。

図１７に従い緊急度推定装置５００の動作について説明する。Ｓ１１０からＳ３３０までの処理は、第一実施形態から第三実施形態までのそれと同じである。そこで、以下、Ｓ５５０について説明する。

緊急度推定部５５０は、緊急度推定モデル５８０を用いて、Ｓ１２０で計算した平均mean(c)と分散値var(c)、Ｓ１４０で推定した話速mean(r)、Ｓ２２０で計算した差分medave(f)、Ｓ３３０で計算したパワー最大値max(p)から、発話音声s(t)（t=0, 1, 2, …, T）の話者の緊急度を推定し、出力する（Ｓ５５０）。緊急度推定モデル５８０は、発話音声の声道特徴量の平均と分散値、発話音声の話速、発話音声のF0情報の平均と中央値との差分、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル５８０の学習方法は、第一実施形態と同様でよい。

緊急度推定装置５００では、第一実施形態の話速を用いたが、第一実施形態の話速の代わりに、第四実施形態の話速を用いてもよい。ここでは、第四実施形態の話速、第二実施形態の声の高さ、第三実施形態の声の強さを示す３つの特徴量を用いる構成について説明する。

以下、図１８～図１９を参照して緊急度推定装置５０１について説明する。図１８は、緊急度推定装置５０１の構成を示すブロック図である。図１９は、緊急度推定装置５０１の動作を示すフローチャートである。図１８に示すように緊急度推定装置５０１は、声道特徴量抽出部１１０、声道特徴量統計値計算部１２０、事後確率系列推定部４１０、第２話速推定部４２０、F0情報抽出部２１０、F0情報統計値計算部２２０、パワー抽出部３１０、パワー平均調整部３２０、パワー最大値計算部３３０、緊急度推定部５５１、記録部５９０を含む。記録部５９０は、緊急度推定装置５０１の処理に必要な情報を適宜記録する構成部である。

緊急度推定装置５０１は、緊急度推定モデル５８１（図示しない）、音声認識音響モデル４８２（図示しない）、話速推定モデル４８４（図示しない）を読み込み、処理を実行する。緊急度推定モデル５８１、音声認識音響モデル４８２、話速推定モデル４８４は、事前に記録部５９０に記録しているものとする。

緊急度推定装置５０１は、発話音声s(t)（t=0, 1, 2, …, T、tはサンプル番号を表す）から、発話音声s(t)の話者の緊急度を推定し、出力する。

図１９に従い緊急度推定装置５０１の動作について説明する。Ｓ１１０からＳ３３０までの処理は、第二実施形態から第四実施形態までのそれと同じである。そこで、以下、Ｓ５５１について説明する。

緊急度推定部５５１は、緊急度推定モデル５８１を用いて、Ｓ１２０で計算した平均mean(c)と分散値var(c)、Ｓ４２０で推定した話速mean(r2)、Ｓ２２０で計算した差分medave(f)、Ｓ３３０で計算したパワー最大値max(p)から、発話音声s(t)（t=0, 1, 2, …, T）の話者の緊急度を推定し、出力する（Ｓ５５１）。緊急度推定モデル５８１は、発話音声の声道特徴量の平均と分散値、発話音声の話速、発話音声のF0情報の平均と中央値との差分、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル５８１の学習方法は、第一実施形態と同様でよい。

緊急度推定装置５００や緊急度推定装置５０１では、声道特徴量統計値に加えて、話速、声の高さ、声の強さを示す３つの特徴量すべてを用いて、緊急度を推定したが、必ずしも３つの特徴量すべてを用いる必要はない。３つの特徴量のうち、２つの特徴量を用いて緊急度推定を行うようにしてもよい。この場合は、緊急度推定装置５００や緊急度推定装置５０１に含まれる構成部のうち、推定に用いる特徴量の計算に必要となる構成部、緊急度推定部、記録部を含むように緊急度推定装置を構成すればよい。

以下、図２０～図２１を参照して、そのような構成の一例である緊急度推定装置５０２について説明する。図２０は、緊急度推定装置５０２の構成を示すブロック図である。図２１は、緊急度推定装置５０２の動作を示すフローチャートである。図２０に示すように緊急度推定装置５０２は、特徴量抽出部５１０、緊急度推定部５５２、記録部５９０を含む。記録部５９０は、緊急度推定装置５０２の処理に必要な情報を適宜記録する構成部である。

緊急度推定装置５０２は、発話音声s(t)（t=0, 1, 2, …, T、tはサンプル番号を表す）から、発話音声s(t)の話者の緊急度を推定し、出力する。

図２１に従い緊急度推定装置５０２の動作について説明する。特徴量抽出部５１０は、発話音声s(t)（t=0, 1, 2, …, T）を入力とし、当該発話音声s(t)の特徴量を抽出し、出力する（Ｓ５１０）。ここで、特徴量とは、発話音声の話速を示す特徴、発話音声の声の高さを示す特徴、発話音声のパワーの大きさを示す特徴のうち少なくとも１つの特徴を含むものである。また、発話音声の話速を示す特徴とは、例えば、第一実施形態の話速や第四実施形態の話速のことであり、発話音声の声の高さを示す特徴とは、例えば、第二実施形態の声の高さのことであり、発話音声のパワーの大きさを示す特徴とは、例えば、第三実施形態の声の強さ（パワーの大きさ）のことである。特徴量が、特徴として、例えば、第一実施形態の話速を含む場合は、特徴量抽出部５１０は音声認識部１３０と第１話速推定部１４０を含むとよいし、第三実施形態の声の強さを含む場合は、特徴量抽出部５１０はF0情報抽出部２１０とパワー抽出部３１０とパワー平均調整部３２０とパワー最大値計算部３３０を含むとよい。

緊急度推定部５５２は、予め定められた、発話音声から抽出された特徴量と発話音声の話者の緊急度との関係性に基づいて、Ｓ５１０で抽出した特徴量から、発話音声s(t)（t=0, 1, 2, …, T）の話者の緊急度を推定し、出力する（Ｓ５５２）。特徴量と緊急度との関係性は、例えば、発話音声から抽出された特徴量を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルにより与えられる。また、当該関係性は、以下のような性質を有する。
（１）特徴量が発話音声の話速を示す特徴を含む場合、話速を示す特徴が、話速が速いことに対応する場合の方が、話速が遅いことに対応する場合よりも緊急度が高いと推定されやすい。
（２）特徴量が発話音声の声の高さを示す特徴を含む場合、声の高さを示す特徴が、声の高さが高いことに対応する場合の方が、声の高さが低いことに対応する場合よりも緊急度が高いと推定されやすい。
（３）特徴量が発話音声のパワーの大きさを示す特徴を含む場合、パワーの大きさを示す特徴が、パワーが大きいことに対応する場合の方が、パワーが小さいことに対応する場合よりも緊急度が高いと推定されやすい。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims

発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、
前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、
前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出部と、
前記F0情報から、F0情報の平均と中央値との差分を計算するF0情報統計値計算部と、
発話音声の声道特徴量の平均と分散値、発話音声のF0情報の平均と中央値との差分を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記差分から、前記発話音声の話者の緊急度を推定する緊急度推定部と
を含む緊急度推定装置。
発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、
前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、
前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出部と、
前記発話音声から、当該発話音声を分割したフレーム毎にパワーを抽出するパワー抽出部と、
前記F0情報と前記パワーから、パワーの平均を用いて調整した調整済パワーを計算するパワー平均調整部と、
前記調整済パワーから、調整済パワーの最大値であるパワー最大値を計算するパワー最大値計算部と、
発話音声の声道特徴量の平均と分散値、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記パワー最大値から、前記発話音声の話者の緊急度を推定する緊急度推定部と
を含む緊急度推定装置。
発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、
前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、
入力音から音素を識別する音声認識音響モデルを用いて、前記発話音声から、当該発話音声を分割したフレームに該当する音が各音素である確率を示す事後確率系列を推定する事後確率系列推定部と、
発話音声の事後確率系列を入力とし、発話音声の話速を出力するように学習された話速推定モデルを用いて、前記事後確率系列から、前記発話音声の話速を推定する第２話速推定部と、
発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記話速から、前記発話音声の話者の緊急度を推定する緊急度推定部と
を含む緊急度推定装置。
緊急度推定装置が、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出ステップと、
前記緊急度推定装置が、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算ステップと、
前記緊急度推定装置が、前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出ステップと、
前記緊急度推定装置が、前記F0情報から、F0情報の平均と中央値との差分を計算するF0情報統計値計算ステップと、
前記緊急度推定装置が、発話音声の声道特徴量の平均と分散値、発話音声のF0情報の平均と中央値との差分を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記差分から、前記発話音声の話者の緊急度を推定する緊急度推定ステップと
を含む緊急度推定方法。
緊急度推定装置が、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出ステップと、
前記緊急度推定装置が、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算ステップと、
前記緊急度推定装置が、前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出ステップと、
前記緊急度推定装置が、前記発話音声から、当該発話音声を分割したフレーム毎にパワーを抽出するパワー抽出ステップと、
前記緊急度推定装置が、前記F0情報と前記パワーから、パワーの平均を用いて調整した調整済パワーを計算するパワー平均調整ステップと、
前記緊急度推定装置が、前記調整済パワーから、調整済パワーの最大値であるパワー最大値を計算するパワー最大値計算ステップと、
前記緊急度推定装置が、発話音声の声道特徴量の平均と分散値、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記パワー最大値から、前記発話音声の話者の緊急度を推定する緊急度推定ステップと
を含む緊急度推定方法。
緊急度推定装置が、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出ステップと、
前記緊急度推定装置が、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算ステップと、
前記緊急度推定装置が、入力音から音素を識別する音声認識音響モデルを用いて、前記発話音声から、当該発話音声を分割したフレームに該当する音が各音素である確率を示す事後確率系列を推定する事後確率系列推定ステップと、
前記緊急度推定装置が、発話音声の事後確率系列を入力とし、発話音声の話速を出力するように学習された話速推定モデルを用いて、前記事後確率系列から、前記発話音声の話速を推定する第２話速推定ステップと、
前記緊急度推定装置が、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記話速から、前記発話音声の話者の緊急度を推定する緊急度推定ステップと
を含む緊急度推定方法。
請求項１ないし３のいずれか１項に記載の緊急度推定装置としてコンピュータを機能させるためのプログラム。