JP7062966B2

JP7062966B2 - 音声解析装置、音声解析システム、及びプログラム

Info

Publication number: JP7062966B2
Application number: JP2018007349A
Authority: JP
Inventors: 旋羅
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2022-05-09
Anticipated expiration: 2038-01-19
Also published as: JP2019124897A; US20190228765A1

Description

本発明は、音声解析装置、音声解析システム、及びプログラムに関する。

音声を解析することにより重要な部分を抽出する技術が知られている。例えば特許文献１には、発話音声中の強調に該当する音声区間を自動抽出する技術が開示されている。特許文献２には、会議の時間における所定区間毎に、所定区間に発言されたセンテンスに含まれる各トピックの名称の数に基づいて、所定区間に話し合われたトピックを判別する技術が開示されている。特許文献３には、発話された複数の単語の出現頻度パターンに基づいてトピックを認識する技術が開示されている。

特許第５８７５５０４号公報特許第４４５８８８８号公報特許第５３８６６９２号公報

上述した特許文献１では、単に強調された音声区間が抽出されるだけであり、音声の話題が推定されるわけではない。また、上述した特許文献２及び３のように、音声の話題に関連する単語の出現数又は出現頻度だけを用いて音声の話題を推定した場合には、正しい話題が推定されない場合がある。
本発明は、音声の話題を精度よく決定することを目的とする。

請求項１に係る発明は、音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、前記分割部により分割された前記区間に対応する音声の話者による強調の程度を示す強調度を算出する第１算出部と、音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも１つについて予め定められた重みと、前記第１算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第２算出部と、前記第２算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部とを備える音声解析装置である。

請求項２に係る発明は、請求項１記載の音声解析装置において、前記第２算出部は、前記重みと前記強調度とを乗ずることにより、前記指標を算出する。

請求項３に係る発明は、音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、前記分割部により分割された前記区間の強調度を算出する第１算出部と、音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも１つについて予め定められた重みと、前記第１算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第２算出部と、前記第２算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部と、前記第１算出部により算出された前記強調度に応じて、前記区間を有効区間又は無効区間に設定する設定部を備え、前記音声認識部は、前記有効区間に設定された区間に前記音声認識に施すことにより当該区間に対応する単語を認識する音声解析装置を提供する。

請求項４に係る発明は、請求項３に記載の音声解析装置において、前記第１算出部は、前記音取得装置により前記音声の話者から取得された他の音声を示す他の音声信号を用いて、前記他の音声の強調度の下限値を算出し、前記設定部は、前記第１算出部により算出された前記強調度が前記下限値以上である場合には、前記区間を前記有効区間に設定する。

請求項５に係る発明は、音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、前記分割部により分割された前記区間の強調度を算出する第１算出部と、音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも１つについて予め定められた重みと、前記第１算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第２算出部と、前記第２算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部と、前記第１算出部により算出された前記強調度に応じて、前記区間を有効区間又は無効区間に設定する設定部を備え、前記音声認識部は、前記無効区間に設定された区間には前記音声認識を施さない音声解析装置である。

請求項６に係る発明は、請求項５に記載の音声解析装置において、前記第１算出部は、前記音取得装置により前記音声の話者から取得された他の音声を示す他の音声信号を用いて、前記他の音声の強調度の下限値を算出し、前記設定部は、前記第１算出部により算出された前記強調度が前記下限値より小さい場合には、前記区間を前記無効区間に設定する。

請求項７に係る発明は、音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、前記分割部により分割された前記区間の強調度を算出する第１算出部と、音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも１つについて予め定められた重みと、前記第１算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第２算出部と、前記第２算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部とを備え、前記第１算出部は、前記区間に対応する音声の強度、長さ、及び高さのうち少なくとも１つを用いて前記強調度を算出する音声解析装置を提供する。

請求項８に係る発明は、音声を取得する音取得装置と、音声解析装置とを備え、前記音声解析装置は、前記音取得装置により取得された前記音声を示す音声信号を単語毎の区間に分割する分割部と、前記分割部により分割された前記区間に対応する音声の話者による強調の程度を示す強調度を算出する第１算出部と、音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも１つについて予め定められた重みと、前記第１算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第２算出部と、前記第２算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部とを有する音声解析システムを提供する。

請求項９に係る発明は、コンピュータに、音取得装置により取得された音声を示す音声信号を単語毎の区間に分割するステップと、前記分割された区間に対応する音声の話者による強調の程度を示す強調度を算出するステップと、音声認識を施すことにより前記区間に対応する単語を認識するステップと、前記認識された単語に対して、複数の話題の少なくとも１つについて予め定められた重みと、前記算出された強調度とを用いて、前記話題に関する指標を算出するステップと、前記算出された指標に応じて、前記複数の話題の中から前記音声の話題を決定するステップとを実行させるためのプログラムである。

請求項１に係る発明によれば、音声の話題を精度よく決定することができる。
請求項２に係る発明によれば、音声の話題を精度よく決定することができる。
請求項３に係る発明によれば、全ての区間の単語を認識する場合に比べて、音声認識の処理量を減らすことができる。
請求項４に係る発明によれば、話者によって音声の強調の基準が異なる場合でも、話者に応じた無効部分音声を設定することができる。
請求項５に係る発明によれば、全ての区間の単語を認識する場合に比べて、音声認識の処理量を減らすことができる。
請求項６に係る発明によれば、話者によって音声の強調の基準が異なる場合でも、話者に応じた無効部分音声を設定することができる。
請求項７に係る発明によれば、音声の強度、長さ、及び高さを用いずに強調度を算出する場合に比べて、強調度の精度を高めることができる。
請求項８に係る発明によれば、音声の話題を精度よく決定することができる。
請求項９に係る発明によれば、音声の話題を精度よく決定することができる。

実施形態に係る音声解析システム１の構成の一例を示す図である。音声解析装置１０のハードウェア構成の一例を示す図である。音声解析装置１０の機能構成の一例を示す図である。設定情報１０９の作成処理の一例を示すフローチャートである。音声信号Ｇ１の一例を示す図である。設定情報１０９の一例を示す図である。話題推定処理の一例を示すフローチャートである。音声信号Ｇ２の一例を示す図である。区間Ｆ１からＦ７の強調度の一例を示す図である。関連テーブル４０の一例を示す図である。話題情報の表示例を示す図である。

１．構成
図１は、実施形態に係る音声解析システム１の構成の一例を示す図である。音声解析システム１は、端末装置２０から入力された音声を解析し、音声の話題を推定するシステムである。この話題とは、話の題材又は要約をいう。音声解析システム１は、音声解析装置１０と端末装置２０とを備える。なお、図１に示す例では、音声解析装置１０の数及び端末装置２０の数は、それぞれ単数であるが、複数であってもよい。音声解析装置１０及び端末装置２０は、通信回線３０を介して接続される。

図２は、音声解析装置１０のハードウェア構成の一例を示す図である。音声解析装置１０は、プロセッサ１１、メモリ１２、ストレージ１３、及び通信装置１４を備えるコンピュータである。これらの装置は、バス１５を介して接続されている。

プロセッサ１１は、プログラムをメモリ１２に読み出して実行することにより、各種の処理を実行する。例えばプロセッサ１１は、ＣＰＵ（Central Processing Unit）により構成されてもよい。メモリ１２は、プロセッサ１１により実行されるプログラムを記憶する。例えばメモリ１２は、ＲＯＭ（Read Only Memory）又はＲＡＭ（Random Access Memory）により構成されてもよい。ストレージ１３は、各種のデータ及びプログラムを記憶する。例えばストレージ１３は、ハードディスクドライブ又はフラッシュメモリにより構成されてもよい。通信装置１４は、通信回線３０に接続された通信インタフェースである。通信装置１４は、通信回線３０を介してデータ通信を行う。

端末装置２０は、ユーザの音声の入力に用いられる。端末装置２０は、音声解析装置１０と同様の構成に加え、入力受付装置（図示せず）と、表示装置（図示せず）と、音取得装置２１とを備えるコンピュータである。入力受付装置は、各種の情報の入力に用いられる。例えば入力受付装置は、キーボード、マウス、物理ボタン、又はタッチセンサにより構成されてもよい。表示装置は、各種の情報を表示する。例えば表示装置は、液晶ディスプレイにより構成されてもよい。音取得装置２１は、音声を取得する。音取得装置２１は、例えばサラウンドマイクロフォンであり、左右からの音声を収集して２チャンネルの音声信号に変換する。

図３は、音声解析装置１０の機能構成の一例を示す図である。音声解析装置１０は、分割部１０１と、第１算出部１０２と、話者認識部１０３と、作成部１０４と、設定部１０５と、音声認識部１０６と、第２算出部１０７と、決定部１０８として機能する。これらの機能は、メモリ１２に記憶されたプログラムと、このプログラムを実行するプロセッサ１１との協働により、プロセッサ１１が演算を行い又は通信装置１４による通信を制御することにより実現される。

分割部１０１は、音取得装置２１により取得された音声を示す音声信号を単語毎の区間に分割する。この区間の分割には、例えば単語分割（speech segmentation）技術が用いられてもよい。

第１算出部１０２は、分割部１０１により分割された区間の強調度を算出する。この強調度とは、強調の程度をいう。この強調度の算出には、例えば音声の強度、長さ、及び高さのうち少なくとも１つが用いられてもよい。これは、例えば音声の強度が大きい程、単語の長さが長い程、又は音声の高さが高いほど、強調の程度が高いと考えられるためである。

話者認識部１０３は、音取得装置２１により取得された音声を示す音声信号を用いて、音声の話者を認識する。この話者の認識には、例えば周知の話者認識技術が用いられてもよい。

作成部１０４は、話者認識部１０３により認識された話者の設定情報１０９を作成する。この設定情報１０９には、例えば話者の音声の強調度の特徴を示す情報、例えば強調度の上限値及び下限値が含まれてもよい。

設定部１０５は、設定情報１０９に含まれる話者の音声の強調度の特徴を示す情報、例えば強調度の上限値及び下限値を用いて、分割部１０１により分割された区間を強調区間、普通区間、又は漠然区間に設定する。この実施形態では、強調区間及び普通区間は有効区間として用いられ、漠然区間は無効区間として用いられる。

音声認識部１０６は、音声認識を施すことにより強調区間及び普通区間に対応する単語を認識する。この単語の認識には、周知の音声認識技術が用いられてもよい。一方、音声認識部１０６は、漠然区間には音声認識を施さない。すなわち、音声認識部１０６は、漠然区間に対応する単語の認識は行わない。

第２算出部１０７は、音声認識部１０６により認識された単語に対して、複数の話題の少なくとも１つについて予め定められた重みと、第１算出部１０２により算出された強調度とを用いて、この話題に関する指標を算出する。単語の重みは、例えば話題との関連の度合を示す値であり、話題における単語の出現頻度に基づいて予め定められてもよい。指標は、例えば音声の主要な話題である可能性を示す値である。この指標の算出は、例えば単語の重みと強調度とを乗ずることにより行われてもよい。

決定部１０８は、第２算出部１０７により算出された指標に応じて、複数の話題の中から音声の話題を決定する。例えば最も指標が大きい話題が決定されてもよい。

２．動作
２．１設定情報の作成
話者によって、音声の強調の基準が異なる場合がある。このような場合であっても、音声の話題を精度よく推定するために、音声の話題を推定する処理に先立って、話者の設定情報１０９を作成する。この設定情報１０９とは、プロファイルとも呼ばれ、話者毎の設定を示す情報である。

図４は、設定情報１０９の作成処理の一例を示すフローチャートである。ユーザは、設定情報１０９を作成するために、音取得装置２１を用いて自分の音声を入力する。ここでは、ユーザは、図５に示すように、３：００：００から３：０１：００までの１分間、自分の音声を入力した場合を想定する。この音声は、例えば予め定められた文章を読む声であってもよい。音取得装置２１に音声が入力されると、この音声を示す音声信号Ｇ１が端末装置２０から音声解析装置１０に送信される。

ステップＳ１１１において、音声信号Ｇ１が受信されると、分割部１０１は、この音声信号Ｇ１を固定長の複数の区間に分割する。

ステップＳ１１２において、第１算出部１０２は、以下の（１）式により、区間毎に音声の強調度を算出する。（１）式において、word_stress_iはi番目（iは自然数）の区間に対応する音声の強調度である。W_istart及びW_iendは、それぞれ、i番目の区間の開始時間及び終了時間である。X₁(t)及びX₂(t)は、それぞれ、第１のチャンネル及び第２のチャンネルの音声信号の振幅である。P₁(t)、P_２(t)は、それぞれ、第１のチャンネル及び第２のチャンネルの音声信号のピッチである。α、β、γは、それぞれ、音声の強度、単語の長さ、及びピッチの重みであり、例えば０以上の数である。例えば音声の強度だけを用いる場合には、αを１とし、β及びγを０としてもよい。なお、「＊」は乗算記号を意味する。

ステップＳ１１３において、第１算出部１０２は、ステップＳ１１２において算出された音声の強調度の正規分布を求め、その平均値と標準偏差とを算出する。

ステップＳ１１４において、第１算出部１０２は、以下の（２）式及び（３）式により、音声の強調度の下限値及び上限値をそれぞれ算出する。（２）式及び（３）式において、stressMin及びstressMaxは、それぞれ、音声の強調度の下限値及び上限値である。μは、音声の強調度の平均値であり、σは標準偏差である。なお、（２）式及び（３）式では、係数として２が用いられているが、２以外の自然数が係数として用いられてもよい。

ステップＳ１１５において、話者認識部１０３は、受信された音声信号Ｇ１を分析して話者を認識する。なお、ステップＳ１１５の処理は、ステップＳ１１１～Ｓ１１４の処理の前に行われてもよいし、ステップＳ１１１～Ｓ１１４の処理と並行して行われてもよい。

ステップＳ１１６において、作成部１０４は、ステップＳ１１４において算出された下限値及び上限値と、ステップＳ１１５において認識された話者とに基づいて、話者の設定情報１０９を作成する。

図６は、設定情報１０９の一例を示す図である。設定情報１０９には、ステップＳ１１５において認識された話者を識別するユーザＩＤと、ステップＳ１１４において算出された下限値及び上限値とが対応付けて含まれる。ユーザＩＤは、例えばユーザＩＤを管理する管理装置から取得されてもよい。

このようにして、各話者の設定情報１０９が作成される。作成された設定情報１０９は、例えばストレージ１３に格納されてもよい。

２．２話題推定処理
次に、話者の音声からその話題を推定する処理について説明する。図７は、話題推定処理の一例を示すフローチャートである。話者は、設定情報１０９が作成された後、音取得装置２１を用いて自分の音声を入力する。ここでは、ユーザＩＤが「Ｕ３０５１１」の話者によって３：０１：００から音声が入力された場合を想定する。音取得装置２１に音声が入力されると、この音声を示す音声信号Ｇ２が端末装置２０から音声解析装置１０に送信される。

ステップＳ２１１において、音声信号Ｇ２が受信されると、分割部１０１は、この音声信号Ｇ２を単語毎に複数の区間に分割する。

図８は、音声信号Ｇ２の一例を示す図である。図８に示す例では、音声信号Ｇ２が区間Ｆ１からＦ７に分割される。区間Ｆ１からＦ７には、それぞれ単一の単語が含まれる。

ステップＳ２１２において、第１算出部１０２は、区間毎に音声の強調度を算出する。第１算出部１０２は、音声の強度、単語の長さ、及び音声のピッチのうち少なくともいずれか１つを用いて強調度を算出する。

音声の強度は、以下の（４）式により算出される。（４）式において、stressWeight_intensityは、音声の強度である。W_start及びW_endは、それぞれ、区間の開始時間及び終了時間である。X₁(t)及びX₂(t)は、それぞれ、第１のチャンネル及び第２のチャンネルの音声信号の振幅である。

単語の長さは、以下の（５）式により算出される。（５）式において、stressWeight_durationは、単語の長さである。W_start及びW_endは、それぞれ、区間の開始時間及び終了時間である。

音声のピッチは、以下の（６）式により算出される。（６）式において、stressWeight_pitchは、音声のピッチである。P₁(t)及びP₂(t)は、第１のチャンネル及び第２のチャンネルの音声信号のピッチである。

音声の強調度は、以下の（７）式により算出される。（７）式において、stressWeight_allは、音声の強度、単語の長さ、及びピッチのうち少なくともいずれかを用いた音声の強調度である。α、β、γは、それぞれ、音声の強度、単語の長さ、及びピッチの重みであり、例えば０以上の数である。例えば音声の強度だけを用いる場合には、αを１とし、β及びγを０としてもよい。

図９は、区間Ｆ１からＦ７の強調度の一例を示す図である。図９に示す例では、区間Ｆ１からＦ７の強調度は、それぞれ、１．８、１．７、４．７、４．６、４．５、０．８、及び０．９である。

ステップＳ２１３において、設定部１０５は、ステップＳ２１２において算出された強調度と話者の設定情報１０９とに基づいて、各区間を強調区間、普通区間、又は漠然区間に設定する。例えば区間の強調度が、設定情報１０９に含まれる上限値より大きい場合、その区間は強調区間に設定される。区間の強調度が、設定情報１０９に含まれる下限値より小さい場合、その区間は漠然区間に設定される。区間の強調度が、設定情報１０９に含まれる下限値以上且つ上限値以下である場合、その区間は普通区間に設定される。

図６に示す例では、ユーザＩＤが「Ｕ３０５１１」の話者の音声の強調度の下限値は１．６であり、上限値は４．０である。図９に示す例では、区間Ｆ３からＦ５は、いずれも、強調度が上限値の４．０より大きいため、強調区間に設定される。区間Ｆ６及びＦ７は、いずれも、強調度が下限値の１．６より小さいため、漠然区間に設定される。区間Ｆ１及びＦ２は、いずれも、強調度が下限値の１．６以上、且つ、上限値の４．０以下であるため、普通区間に設定される。

ステップＳ２１４において、音声認識部１０６は、ステップＳ２１３において強調区間又は普通区間に設定された区間に音声認識を施し、この区間に対応する単語を認識する。図９に示す例では、区間Ｆ１からＦ５が強調区間又は普通区間に設定される。そのため、図８に示すように、これらの区間Ｆ１からＦ５に対応する「私は」「いつも」「給料」「が」「変わる」という単語が認識される。なお、音声認識部１０６は、ステップＳ２１３において漠然区間に設定された区間に対応する単語は認識しない。図９に示す例では、区間Ｆ６及びＦ７が漠然区間に設定されるため、この区間Ｆ６及びＦ７については音声認識が行われない。

ステップＳ２１５において、第２算出部１０７は、関連テーブル４０を参照して、以下の（８）式により、複数の話題の各々について音声の主要な話題である可能性を示す指標を算出する。（８）式において、S(T_i)は、i番目の話題の指標である。topic_word_ijは、i番目の話題におけるｊ番目の単語の重みである。word_stress_jはj番目の単語の強調度である。M_iは、i番目の話題に関連する単語の数である。

図１０は、関連テーブル４０の一例を示す図である。この関連テーブル４０は、各種の話題について、その話題に関連する単語とその話題における単語の重みとを示すデータを格納する。関連テーブル４０は、例えば通信回線３０に接続された外部装置に記憶されていてもよい。この場合、関連テーブル４０は、通信回線３０を介して外部装置にアクセスすることにより用いられてもよいし、外部装置からダウンロードすることにより用いられてもよい。

関連テーブル４０には、各話題を識別する話題ＩＤと、話題の内容と、その話題における単語の重みとが対応付けられている。例えば、「人事」という話題には、「給料」という単語が対応付けられており、「人事」という話題における「給料」という単語の重みは「０．０７」である。これは、「給料」という単語は、「人事」の話題に関連があり、その関連の度合は他の単語よりも高いことを示す。また、「スポーツ」という話題にも、「給料」という単語が対応付けられており、「スポーツ」という話題における「給料」という単語の重みは「０．０２１」である。これは、「給料」という単語は、「スポーツ」の話題にも関連があるものの、その関連の度合は他の単語よりも低いことを示す。このように、同一の単語が複数の話題に関連してもよい。また、同一の単語であっても、話題によって単語の重みが変わってもよい。

図８及び図１０に示す例では、ステップＳ２１４において認識された単語のうち、「人事」という話題に関連する単語は「給料」及び「変わる」である。「人事」という話題において、「給料」という単語の重みは０．０７であり、「変わる」という単語の重みは０．０１である。また、図９に示す例では、「給料」という単語に対応する区間Ｆ３の強調度は４．７であり、「変わる」という単語に対応する区間Ｆ５の強調度は４．５である。この場合、「人事」という話題の指標は、４．７＊０．０７＋４．５＊０．０１＝０．３７４となる。

また、図８及び図１０に示す例では、ステップＳ２１４において認識された単語のうち、「スポーツ」という話題に関連する単語は「給料」である。「スポーツ」という話題において、「給料」という単語の重みは０．０２１である。また、図９に示す例では、「給料」という単語に対応する区間Ｆ３の強調度は４．７である。この場合、「スポーツ」という話題の指標は、４．７＊０．０２１＝０．０９８７となる。このようにして、関連テーブル４０に含まれる各話題について指標が算出される。

ステップＳ２１６において、決定部１０８は、ステップＳ２１５において算出された指標のうち、最も大きい指標の話題を音声の話題として決定する。例えば、「人事」という話題の指標が最も大きい場合には、「人事」という話題が決定される。このようにして決定された話題は、出力されてもよい。例えば、決定された話題を示す話題情報が端末装置２０に送信され、端末装置２０の表示装置に表示されてもよい。

以上説明した実施形態によれば、各区間の強調度と各話題における単語の重みとを用いて音声の話題が決定されるため、音声の話題が精度よく決定される。また、複数の話題が話された場合でも、話者がより強調して話した話題が決定されるため、音声の話題を決定する精度が向上する。また、上述した実施形態では、強調区間又は普通区間に設定された区間だけに音声認識が施されて単語が認識されるため、全ての区間に音声認識を施して単語を認識する場合に比べて、音声認識の処理量が減る。さらに、上述した実施形態では、話者の設定情報１０９に基づいて強調区間、普通区間、又は漠然区間が設定されるため、話者によって強調の基準が異なる場合でも、話者に合わせてこれらの区間が適切に設定される。さらに、上述した実施形態では、音声の強度、単語の長さ、及び音声の高さのうちの少なくとも１つを用いて強調度が算出されるため、これらを用いずに強調度を算出する場合に比べて、強調度の精度が高くなる。

３．変形例
上述した実施形態は、本発明の一例である。本発明は、上述した実施形態に限定されない。例えば上述した実施形態を以下のように変形してもよい。また、以下の２つ以上の変形例を組み合わせて実施してもよい。

上述した実施形態では、最も指標の高い話題だけが決定されていたが、指標が予め定められた指標よりも高い複数の話題が決定されてもよい。この場合、これらの複数の話題が異なる形式で出力されてもよい。

上述した実施形態において説明した話題推定処理は、話者が話し終わった後に行われてもよいし、話者が話している最中にリアルタイムで行われてもよい。また、話題推定処理は、予め定められた音声の区切り毎に行われてもよい。この区切りは、１文であってもよいし、１段落であってもよいし、予め定められた時間であってもよい。この場合、話題情報は、時系列に沿って表示されてもよい。

図１１は、話題情報の表示例を示す図である。図１１に示す例では、３：１０：００に対応する領域には、「人事」と記載された画像Ｍ１と、「スポーツ」と記載された画像Ｍ２とが表示される。また、３：４０：００に対応する領域には、「スポーツ」と記載された画像Ｍ３が表示される。画像Ｍ１からＭ３は、指標に応じたサイズを有し、指標が大きくなるほどサイズが大きくなる。図１１に示す例は、３：１０：００から３：４０：００までは人事とスポーツの話題が話されており、そのうち人事が主要な話題であり、スポーツが準主要な話題であったが、３：４０：００からはスポーツが主要な話題として話されていたことを示す。この変形例によれば、話題の遷移及び重要度が容易に認識される。

上述した実施形態では、音声の強度、単語の長さ、及び音声のピッチのうち少なくとも１つを用いて音声の強調度を算出していたが、音声の強調度を算出する方法はこれに限定されない。音声の強調度は、音声の強調の程度を示すものであれば、他の方法により算出されてもよい。

上述した実施形態では、漠然区間に設定された区間には、音声認識が施されていなかったが、この区間にも音声認識が施されてもよい。例えば漠然区間の一部だけに音声認識が施されてもよい。

上述した実施形態において、設定情報１０９を作成する場合においても、単語分割の技術を用いて音声が単語毎に複数の区間に分割されてもよい。

音声解析システム１又は音声解析装置１０において行われる処理のステップは、上述した実施形態で説明した例に限定されない。この処理のステップは、矛盾のない限り、入れ替えられてもよい。また、本発明は、音声解析システム１又は音声解析装置１０において行われる処理のステップを備える音声解析方法として提供されてもよい。

本発明は、音声解析装置１０において実行されるプログラムとして提供されてもよい。このプログラムは、インターネットなどの通信回線を介してダウンロードされてもよいし、磁気記録媒体（磁気テープ、磁気ディスクなど）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリなどの、コンピュータが読取可能な記録媒体に記録した状態で提供されてもよい。

１：音声解析システム、１０：音声解析装置、２０：端末装置、２１：音取得装置、１０１：分割部、１０２：第１算出部、１０３：話者認識部、１０４：作成部、１０５：設定部、１０６：音声認識部、１０７：第２算出部、１０８：決定部

Claims

音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、
前記分割部により分割された前記区間に対応する音声の話者による強調の程度を示す強調度を算出する第１算出部と、
音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも１つについて予め定められた重みと、前記第１算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第２算出部と、
前記第２算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部と
を備える音声解析装置。
前記第２算出部は、前記重みと前記強調度とを乗ずることにより、前記指標を算出する
請求項１記載の音声解析装置。
音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、
前記分割部により分割された前記区間の強調度を算出する第１算出部と、
音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも１つについて予め定められた重みと、前記第１算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第２算出部と、
前記第２算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部と、
前記第１算出部により算出された前記強調度に応じて、前記区間を有効区間又は無効区間に設定する設定部とを備え、
前記音声認識部は、前記有効区間に設定された区間に前記音声認識に施すことにより当該区間に対応する単語を認識する
音声解析装置。
前記第１算出部は、前記音取得装置により前記音声の話者から取得された他の音声を示す他の音声信号を用いて、前記他の音声の強調度の下限値を算出し、
前記設定部は、前記第１算出部により算出された前記強調度が前記下限値以上である場合には、前記区間を前記有効区間に設定する
請求項３に記載の音声解析装置。
音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、
前記分割部により分割された前記区間の強調度を算出する第１算出部と、
音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも１つについて予め定められた重みと、前記第１算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第２算出部と、
前記第２算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部と、
前記第１算出部により算出された前記強調度に応じて、前記区間を有効区間又は無効区間に設定する設定部とを備え、
前記音声認識部は、前記無効区間に設定された区間には前記音声認識を施さない
音声解析装置。
前記第１算出部は、前記音取得装置により前記音声の話者から取得された他の音声を示す他の音声信号を用いて、前記他の音声の強調度の下限値を算出し、
前記設定部は、前記第１算出部により算出された前記強調度が前記下限値より小さい場合には、前記区間を前記無効区間に設定する
請求項５に記載の音声解析装置。
音取得装置により取得された音声を示す音声信号を単語毎の区間に分割する分割部と、
前記分割部により分割された前記区間の強調度を算出する第１算出部と、
音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも１つについて予め定められた重みと、前記第１算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第２算出部と、
前記第２算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部とを備え、
前記第１算出部は、前記区間に対応する音声の強度、長さ、及び高さのうち少なくとも１つを用いて前記強調度を算出する
音声解析装置。
音声を取得する音取得装置と、
音声解析装置とを備え、
前記音声解析装置は、
前記音取得装置により取得された前記音声を示す音声信号を単語毎の区間に分割する分割部と、
前記分割部により分割された前記区間に対応する音声の話者による強調の程度を示す強調度を算出する第１算出部と、
音声認識を施すことにより前記区間に対応する単語を認識する音声認識部と、
前記音声認識部により認識された前記単語に対して、複数の話題の少なくとも１つについて予め定められた重みと、前記第１算出部により算出された前記強調度とを用いて、前記話題に関する指標を算出する第２算出部と、
前記第２算出部により算出された前記指標に応じて、前記複数の話題の中から前記音声の話題を決定する決定部とを有する
音声解析システム。
コンピュータに、
音取得装置により取得された音声を示す音声信号を単語毎の区間に分割するステップと、
前記分割された区間に対応する音声の話者による強調の程度を示す強調度を算出するステップと、
音声認識を施すことにより前記区間に対応する単語を認識するステップと、
前記認識された単語に対して、複数の話題の少なくとも１つについて予め定められた重みと、前記算出された強調度とを用いて、前記話題に関する指標を算出するステップと、
前記算出された指標に応じて、前記複数の話題の中から前記音声の話題を決定するステップと
を実行させるためのプログラム。