JPH08286693A

JPH08286693A - 情報処理装置

Info

Publication number: JPH08286693A
Application number: JP7088201A
Authority: JP
Inventors: Masabumi Matsumura; 正文松村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1995-04-13
Filing date: 1995-04-13
Publication date: 1996-11-01

Abstract

(57)【要約】【目的】入力した音声データに各種解析を施し、時間情
報のみならずその解析結果に基づいた検索、再生を行う
ことを可能とする情報処理装置を提供する。【構成】音声データを入力する音声データ入力部２と、
この音声データの時間情報を取得する属性情報付加部６
と、音声データを解析する音声データ解析部１３と、こ
の解析結果に従って音声データを話者別に振り分け、こ
の振り分けられた音声データ群単位に話者識別情報を割
り付ける話者振分部１４と、音声データに時間情報及び
話者識別情報を関連づけて管理するデータ管理部７と、
時間情報及び話者識別情報によりデータ管理部７により
管理される音声データを検索、再生する音声データ検索
再生部１２とを具備してなることを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、テキストデータ、図形
データ、イメージデータ、動画データ及び音声データな
どを取り扱う情報処理装置に係り、特に入力した音声を
簡単な操作で効率的に検索し再生することを可能とする
情報処理装置に関する。

【０００２】

【従来の技術】近年、携帯が容易でバッテリにより動作
可能なノートブックタイプやラップトップタイプなどの
情報処理装置が飛躍的に普及され、それに伴い種々の情
報処理装置が開発されている。そして、最近では音声を
入力する機能を備え、音声データの取り込みとともにテ
キストデータなどの入力を行い、このテキストデータな
どの入力をメモとして位置づけて、このメモをとった時
間を起点として音声データを検索、再生するといった情
報処理装置も現れてきている。

【０００３】この情報処理装置によれば、例えば会議に
おいて発せられる音声を取り込んでおき、後にこの音声
を再生する際に、会議中にメモをとったあたりに重要な
発言があったものとして、このメモをとった時間を起点
として音声データを検索、再生するといった操作を行う
ことができる。

【０００４】しかしながら、このような機能を備えた情
報処理装置であっても、音声データの検索のみに着目し
てみると、音声データの内容には全く依存せずに時間情
報のみを拠り所として検索、再生しているため、必ずし
も取扱者が必要としている音声データを効率良く検索す
ることができるものではなかった。

【０００５】また、発声者の感情の起伏などをその音声
データから所定の評価法により評価して、その評価値に
基づいて検索、再生を行ったり、発声者の性別をその音
声データから判定して、その判定結果に基づいて音声デ
ータの検索、再生を行うなどといった処理を行うものは
なかった。

【０００６】

【発明が解決しようとする課題】上述したように、従来
の音声データを取り扱う情報処理装置においては、時間
情報のみを拠り所として検索、再生しているため、必ず
しも取扱者が必要としている音声データを効率良く検索
することができるものではなかったといった問題があっ
た。

【０００７】本発明は上記実情に鑑みなされたものであ
り、入力した音声データに各種解析を施して、時間情報
のみならずその解析結果に基づいた検索、再生を行うこ
とにより簡単な操作で効率的な音声データの検索、再生
を可能とする情報処理装置を提供することを目的とす
る。

【０００８】

【課題を解決するための手段】本発明は、音声データを
入力する手段と、この音声データの時間情報を取得する
手段と、上記音声データを解析する手段と、この解析結
果に従って上記音声データを話者別に振り分け、この振
り分けられた音声データ群単位に話者識別情報を割り付
ける手段と、上記音声データに上記時間情報及び話者識
別情報を関連づけて管理する手段と、上記時間情報及び
話者識別情報により上記管理される音声データを検索、
再生する手段とを具備してなることを特徴とする。

【０００９】また、本発明は、さらに上記入力された音
声データの無音部を検知し、有音部のみを一単位の音声
データとして切り出す手段を具備してなることを特徴と
する。

【００１０】また、本発明は、さらに上記時間情報及び
話者識別情報に従って上記音声データを所定のイメージ
で時間軸に沿って話者を識別可能に表示する手段を具備
してなることを特徴とする。

【００１１】また、本発明は、上記検索再生手段が、上
記管理手段により管理される音声データの中から特定の
話者識別情報を持つ音声データのみを選択して所定の順
番で検索、再生する手段を含むことを特徴とする。

【００１２】また、本発明は、さらに個人辞書を備え、
上記解析手段の解析結果をこの個人辞書に登録する手段
を具備してなることを特徴とする。また、本発明は、上
記解析手段が、上記音声データの時系列ピッチデータ
（基本周波数）を抽出する手段を含み、さらに上記抽出
された時系列ピッチデータの分布がガウス分布となるも
のと仮定して、話者別にその平均及び分散を求めて話者
固有の時系列ピッチ分布データを算出する手段を具備し
てなることを特徴とする。

【００１３】また、本発明は、上記登録手段が、上記話
者固有の時系列ピッチ分布データを個人辞書として登録
する手段を含むことを特徴とする。また、本発明は、さ
らに上記算出された話者固有の時系列ピッチ分布データ
から所定の評価に用いられるしきい値を話者別に算出す
る手段と、上記抽出された時系列ビッチデータが所定の
単位時間内に上記算出されたしきい値を超えた回数を求
め、この回数によって所定の評価値を求める手段とを設
け、上記管理手段は、上記所定の評価値をその音声デー
タに関連づけて管理する手段を含むことを特徴とする。

【００１４】また、本発明は、上記表示手段が、上記所
定の評価値に従って上記音声データを所定のイメージで
時間軸に沿って表示する手段を含むことを特徴とする。
また、本発明は、上記検索再生手段が、上記所定の評価
値により上記音声データを検索、再生する手段を含むこ
とを特徴とする。

【００１５】また、本発明は、上記登録手段が、上記算
出した話者別のしきい値を個人辞書として登録する手段
を含むことを特徴とする。また、本発明は、さらに上記
音声データそれぞれについて、その時系列ピッチデータ
の分布がガウス分布となるものと仮定して、その平均及
び分散を求める手段と、この求めた平均と上記算出した
話者別の時系列ピッチデータの平均とを比較して、声の
高さを示す情報を取得する手段とを設け、上記管理手段
は、この声の高さを示す情報をその音声データに関連づ
けて管理する手段を含むことを特徴とする。

【００１６】また、本発明は、上記表示手段が、上記声
の高さを示す情報に従って上記音声データを所定のイメ
ージで時間軸に沿って表示する手段を具備してなること
を特徴とする。

【００１７】また、本発明は、上記検索再生手段が、上
記声の高さを示す情報により上記音声データを検索、再
生する手段を含むことを特徴とする。また、本発明は、
上記解析手段が、上記音声データの振幅の平均、分散及
び最大値を含むパラメータを算出する手段を含み、さら
に上記算出されたパラメータから話者別の音声データの
振幅の平均、分散及び最大値をを含むパラメータを算出
する手段を具備してなることを特徴とする。

【００１８】また、本発明は、上記登録手段が、上記話
者別の振幅のパラメータを個人辞書に登録する手段を含
むことを特徴とする。また、本発明は、さらに上記音声
データの振幅のパラメータと上記算出された話者別の振
幅のパラメータとを比較して、声の大きさを示す情報を
取得する手段を設け、上記管理手段は、この声の大きさ
を示す情報をその音声データに関連づけて管理する手段
を含むことを特徴とする。

【００１９】また、本発明は、上記表示手段が、上記声
の大きさを示す情報に従って上記音声データを所定のイ
メージで時間軸に沿って表示する手段を含むことを特徴
とする。

【００２０】また、本発明は、上記検索再生手段が、上
記声の大きさを示す情報により上記音声データを検索、
再生する手段を含むことを特徴とする。また、本発明
は、上記解析手段は、所定の補間多項式を用いて上記音
声データ間を補間する手段と、この補間された音声デー
タすべてに対し所定の時間をもつローパスフィルタもし
くはそれに類する時系列ピッチデータの長時間的変動を
抽出する手段とを含み、上記管理手段は、この長時間的
変動を示す情報をその音声データに関連づけて管理する
手段を含むことを特徴とする。

【００２１】また、本発明は、上記表示手段が、上記長
時間的変動を示す情報に従って上記音声データを所定の
イメージで時間軸に沿って表示する手段を含むことを特
徴とする。

【００２２】また、本発明は、上記検索再生手段が、上
記長時間的変動を示す情報により上記音声データを検
索、再生する手段を含むことを特徴とする。また、本発
明は、さらに上記抽出された時系列ピッチデータからそ
の音声データの話者の性別を判定する手段を設け、上記
管理手段は、この判定された性別を示す情報をその音声
データに関連づけて管理する手段を含むことを特徴とす
る。

【００２３】また、本発明は、上記表示手段が、上記性
別を示す情報に従って上記音声データを所定のイメージ
で時間軸に沿って表示する手段を具備してなることを特
徴とする。

【００２４】また、本発明は、上記検索再生手段が、上
記性別を示す情報により上記音声データを検索、再生す
る手段を含むことを特徴とする。また、本発明は、上記
割付手段が、上記抽出された時系列ピッチデータから上
記音声データを話者別に振り分け、この振り分けられた
音声データ群単位に話者識別情報を割り付ける手段を含
むことを特徴とする。

【００２５】

【作用】本発明の情報処理装置によれば、入力手段が音
声データを入力し、時間情報取得手段が、この音声デー
タの時間情報を取得する。この時間情報としては、タイ
ムスタンプなどが適用される。また、解析手段は、この
入力された音声データに対して所定の解析を施し、割付
手段が、この解析手段による解析の結果に従って音声デ
ータを話者別に振り分け、この振り分けられた音声デー
タ群単位に話者識別情報を割り付ける。この話者識別
は、必ずしも特定の話者を認識するものである必要はな
く、例えば３人の話者により行われた会議の音声を入力
したときに、これらの話者による音声データを「話者
Ａ」、「話者Ｂ」及び「話者Ｃ」といったように識別す
ることができればよい。

【００２６】この音声情報は、管理手段によって上述し
た時間情報及び話者識別情報が関連づけられて管理され
る。そして、検索再生手段は、この時間情報と話者識別
情報とにより音声データを検索、再生する。

【００２７】すなわち、従来であれば、例えばメモをと
った時間を起点として音声データを検索、再生していた
ものを、本発明の情報処理装置においては、時間情報の
みならず話者識別情報を使用して検索を行うために、例
えばメモをとった時点に発言していた話者の音声データ
について、その先頭（所定数だけ溯ったところなどから
などでも構わない）から再生するといったことができる
ことになる。

【００２８】また、本発明の情報処理装置によれば、切
り出し手段が、入力手段により入力された音声データの
無音部を検知し、有音部のみを一単位の音声データとし
て切り出す。

【００２９】例えば、伝言などの音声を取り扱う場合で
あれば、入力された音声データを一つの単位として上述
した各種情報を付加し、その後の検索や再生などを行え
ばよいが、会議などの音声を入力する場合であって、こ
れらの音声が冗長的に入力されるような場合には、この
ような処理では効率的な検索や再生を実現するのはむず
かしい。

【００３０】そこで、この切り出し手段が上述した切り
出しを行い、この切り出された音声データそれぞれを一
単位の音声データとして取り扱えば、上述と同様に効率
的な検索、再生を実現することが可能となる。

【００３１】また、本発明の情報処理装置によれば、表
示手段が、この音声データを所定のイメージで時間軸に
沿って話者を識別可能に表示する。例えば、図３に示し
たような表示を行えば、取扱者はイメージ２１ａ〜２１
ｃにより所望の音声データを検索し再生するといったこ
とが可能となる。

【００３２】また、本発明の情報処理装置によれば、個
人辞書を備え、登録手段が解析手段の解析結果をこの個
人辞書に登録する。これにより、この個人辞書への登録
後に再度同じ話者の音声データが入力された場合に、例
えば図３に示した「話者Ａ」、「話者Ｂ」及び「話者
Ｃ」といった話者を不定とした表示に換えて、個人辞書
に登録された話者名を表示するといった処理が可能とな
る。

【００３３】また、本発明の情報処理装置によれば、解
析手段が音声データの時系列ピッチデータ（基本周波
数）を抽出する。そして、時系列ピッチ分布データ算出
手段がこの時系列ピッチデータの分布がガウス分布とな
るものと仮定して、話者別にその平均及び分散を求めて
話者固有の時系列ピッチ分布データを算出する。この話
者固有の時系列ピッチ分布データは、しきい値算出手段
に渡され、例えば感情の高ぶりなど評価するためのしき
い値を算出する。そして、音声データそれぞれについ
て、その時系列ビッチデータが所定の単位時間内に先程
算出したしきい値を超えた回数を求め、この回数によっ
て所定の評価値を求める。例えば、この評価値を感情の
起伏としてとらえ、さらに感情が高ぶっている状態で発
声された音声は重要度が高いものであるととらえると、
この評価値により検索、再生を行う機能をもつことは有
意義である。また、この評価値に従って音声データの表
示を行えば（例えば所定のマークを表示する、色分けを
する、など）、上述したイメージを参照しての検索、再
生においても適用可能となる。

【００３４】また、感情の起伏を声の高さで評価するこ
とも有効である。このために、本発明の情報処理装置で
は、音声データそれぞれについて、その時系列ピッチ分
布データの平均及び分散を求め、この求めた平均と先程
算出した話者別の時系列ピッチデータの平均とを比較し
て、声の高さを示す情報を取得する。

【００３５】同様に、感情の起伏を声の大きさで評価す
ることも有効である。このために、本発明の情報処理装
置では、話者別の音声データの振幅の平均、分散及び最
大値を含むパラメータを算出し、音声データそれぞれに
ついて求めたこれらパラメータと比較して、声の大きさ
を示す情報を取得する。

【００３６】さらに、感情の起伏を時系列ピッチデータ
の変動により評価することも有効である。このために、
本発明の情報処理装置では、補間手段が所定の補間多項
式を用いて音声データ間を補間し、長時間的変動抽出手
段がこの補間された音声データすべてに対し所定の時間
をもつローパスフィルタをかけ、もしくはそれに類する
処理を施し時系列ピッチデータの長時間的変動を抽出す
る。そして、この抽出された変動が所定の感情起伏時に
現われる特徴的なものであった場合に、所定の評価値を
設定する。

【００３７】なお、上述と同様に、これらの情報及び評
価値により検索、再生を行う、これらの情報及び評価値
に従って音声データの表示を行う、などの処理は当然に
有意義である。そして、これらの話者別の情報は、登録
手段により個人辞書に登録可能である。

【００３８】また、本発明の情報処理装置によれば、判
定手段が、抽出された時系列ピッチデータからその音声
データの話者の性別を判定する。これにより、例えば伝
言などの件数について、男性ｍ件、女性ｎ件といった件
数把握をするような処理が行え、また、検索、再生処理
においても、男性のみ、女性のみといった性別での検
索、再生が行え、さらに、性別で色を変えて音声データ
を表示するといったことも可能となる。

【００３９】また、性別のみならず、この抽出された時
系列ピッチデータが所定の範囲内にあるものは同一の話
者から発せられたものであるといった識別を行うことに
よって、上述のような「話者Ａ」、「話者Ｂ」及び「話
者Ｃ」といった話者識別を行う。これにより、上述した
ような識別話者別の検索、再生、及び表示が可能とな
る。

【００４０】

【実施例】以下図面を参照して本発明の実施例を説明す
る。（第１実施例）図１は同実施例に係る情報処理装置の概
略構成を示す図である。

【００４１】図１に示したように、同実施例に係る情報
処理装置１は、音声データ入力部２、テキストデータ入
力部３、指示入力部４、制御部５、属性情報付加部６、
データ管理部７、表示部１１、音声データ検索再生部１
２、音声データ解析部１３、及び話者振分部１４の各処
理部を有しており、また、記憶装置８を備えてテキスト
データ９及び音声データ１０を保持している。

【００４２】音声データ入力部２は、伝言や会議などの
音声を音声データとして入力するところであり、会議な
どの冗長的な音声を入力した場合に、その無音部を検知
して有音部のみを一つの音声データとして切り出す機能
を有する。テキストデータ入力部３は、取扱者がペン、
マウスなどの各種入力デバイスを用いて入力する文字、
図形などを取り込むところである。指示入力部４は、同
実施例に係る情報処理装置１に対して取扱者が行う作業
指示を取り込むところである。

【００４３】また、制御部５は、同実施例に係る情報処
理装置１の全体の制御を司るところである。属性情報付
加部６は、音声データ入力部２により入力された音声デ
ータの時間情報を含む各種属性情報を取得し、この音声
データに付加するところである。データ管理部７は、記
憶装置８に保持されたテキストデータ９及び音声データ
１０を管理するところである。表示部１１は、取扱者が
必要とする音声データを検索する画面、各種の音声情報
およびその内容、システムのメッセージ等の各種情報を
表示するところである。音声データ検索再生部１２は、
指定された音声データを検索し、再生するところであ
る。

【００４４】また、音声データ解析部１３は、データ管
理部７により記憶装置８に保持されて管理される音声デ
ータに対して各種の解析を施すところであり、話者振分
部１４は、この音声データ解析部１３の解析結果にした
がって発生話者の振り分けを行うところである。

【００４５】音声データ入力部２により入力された音声
データ、及びテキストデータ入力部３により入力された
文字、図形などのテキストデータは、それぞれに並列に
入力される。そして、これらの音声データ及びテキスト
データには、属性情報付加部６によりその入力時間や入
力開始時からの相対的な時間等の情報が付加される。ま
た、この音声データは、音声データ入力部２により有音
部のみからなる複数のセンテンスに分割された後、最終
的に音声データ解析部１３及び話者振分部１４により発
声話者を認識するための解析処理及び振分処理が施され
る。ここでセンテンスとは、ある話者の一発声を指す。
一つのセンテンスは、音声データと音声情報とから成
り、さらに音声情報は、時間情報と属性情報から成る。
この構成を図２に示す。なお、これらの音声情報は、属
性情報付加部６によって付加されるものである。

【００４６】音声データには実際の音声信号が格納され
ており、時間情報には音声データの時間的な長さ、入力
開始時からの相対的な時間等の情報が格納されている。
また、属性情報には、ある特定の個人を識別するための
話者識別情報や、話者の違いを識別する情報が格納され
ている。

【００４７】取扱者は情報処理装置１内に取り込んだ音
声を音として再生する際、上述した２つの情報によって
必要な音声を再生することができる。また、情報処理装
置１は、音声信号を取り込みながらメモをとっていたよ
うな場合に、そのメモを入力情報として入力内容とその
入力時間とを得ることができる。一方、音声情報として
は、その発声話者や発声時間を得ることができる。そこ
で、取扱者がメモを入力していた時の音声を再生するよ
うに指定すると、上述のように取得された音声情報及び
入力情報に基づいて、その時に発声していた話者の音声
データのみを再生することが可能となる。このときの音
声データとメモとの関係を、図３を参照して詳述する。

【００４８】図３は、音声データとメモとを時間軸に沿
って表現したものであり、２１ａは話者Ａが発声した音
声データ、２１ｂは話者Ｂが発声した音声データ、及び
２１ｃは話者Ｃが発声した音声データをそれぞれ示して
いる。また、２２は、メモが入力されていた期間を示す
ものである。

【００４９】ここで、取扱者がメモ２２を指定して音声
の再生を要求すると、情報処理装置１は、このときに取
得されていた音声データを音声データ検索再生部１２に
よりまず検索する。図３の例では２１ｂの音声データが
検索されることになる。そして、音声データ検索再生部
１２は、この音声データを先頭から再生する。このと
き、音声データはすでに話者別に識別されているため
に、この話者の音声データのみ複数データ分遡って再生
するなどの処理も容易に行うことができる。

【００５０】これにより取扱者は、必要とする音声デー
タを簡単な操作で効率的に検索再生することができるこ
ととなる。図４を参照して同実施例の動作を説明する。

【００５１】図４は同実施例の動作を説明するためのフ
ローチャートである。情報処理装置１は、音声データ入
力部２およびテキストデータ入力部３により音声データ
およびテキストデータを入力すると（図４のステップＡ
１）、属性情報付加部６がタイムスタンプなどの時間情
報を取得して、その音声データに属性情報として付加す
る（図４のステップＡ２）。次に、この音声データにつ
いて音声データ解析部１３による各種解析が施され、か
つ話者振分部１４による話者振り分けが行われる（図４
のステップＡ３）。そして、データ管理部７がこれらの
結果とともに音声データを記憶装置８内にそれぞれ格納
する（図４のステップＡ４）。

【００５２】一方、情報処理装置１は、指示入力部４に
よりいずれかのメモが選択されその時点での音声データ
の再生が要求されたときに（図４のステップＡ５）、音
声データ検索再生部１２が、記憶装置８内に保持された
音声データ１０の中から対応する音声データ１０を検索
し再生する（図４のステップＡ６）。そして、指示入力
部４から入力される検索再生指示にしたがって（図４の
ステップＡ７）、時間単位、話者単位の検索再生を行う
（図４のステップＡ８）。

【００５３】これにより取扱者は所望の音声データを簡
単な操作で効率よく検索し再生することが可能となる。（第２実施例）一般に発声者の感情が高ぶっているとき
は、アクセントやイントネーションが顕著になる、すな
わち、声帯の振動の基本周波数（ピッチ）の幅が広くな
るなどの現象が音声データ中に現れ、また逆のときは、
ピッチの幅が狭くなる現象などが現れる。そこで、同実
施例では、発声者の感情の起伏と音声データとの間に存
在するこのような相関関係に着眼し、第１実施例に加え
て発声者の長時間音声データを解析することによって得
られる時系列ピッチデータをさらに解析することにより
感情の起伏に関する情報を取得し、また、その情報を利
用して音声データを検索し再生する情報処理装置につい
て説明する。

【００５４】ここで、図５を参照して音声データを解析
して感情の起伏を抽出する際の動作手順を説明する。同
実施例に係る情報処理装置１では、音声データ解析部１
３が、さらにそれぞれの音声データ１０について声帯の
振動の基本周波数（以下ピッチという）を抽出する（図
５のステップＢ１）。このピッチは音声波形に対しその
相関関係を求めるなどの相関処理を施すことにより抽出
される。

【００５５】次に、音声データ解析部１３は、これらそ
れぞれの音声データ１０について抽出したピッチを話者
別に分類し、話者別のビッチの分布を求める（図５のス
テップＢ２）。そして、それぞれの音声データ１０にお
けるピッチとその話者別のビッチの分布とを比較して、
感情の起伏についての評価値を得る（図５のステップＢ
３）。

【００５６】この評価値は、属性情報付加部６によりデ
ータ管理部７を介して記憶装置８内の音声データ１０に
属性情報として付加される。これにより、例えば、感情
が高まっているときに発声された音声データは重要なデ
ータである蓋然性が高いといった前提を立てれば、その
感情の高低（すなわちデータの重要度）に基づいた検
索、再生を音声データ検索再生部１２は容易に行うこと
ができることになる。

【００５７】また、アクセントやイントネーションなど
の情報は、ピッチの時間的な変化により得ることができ
る。したがって、ピッチの時系列データを解析すること
により感情の起伏に関する情報を取得することが可能で
ある。

【００５８】ここで、図６乃至図１０を参照してピッチ
の時系列データを解析することにより感情の起伏を抽出
する際の動作手順を説明する。まず、音声データ解析部
１３は、音声データ１０を解析することによって得られ
るセンテンス単位の時系列ピッチデータから（図６のス
テップＣ１、図７にその典型例を示す）、全センテンス
のピッチに対する平均と分散を求める（図６のステップ
Ｃ２）。そして、この発声者のピッチの分布がガウス分
布であると仮定し（図６のステップＣ３）、その得られ
た平均値と分散とによりその発声者のピッチの分布を求
める（図６のステップＣ４、図８にその典型例を示
す）。

【００５９】この分布は、その発声者が発するピッチの
確率分布に対応しているため、それぞれのセンテンスに
おいて感情の起伏に関する情報を抽出する際、発声者自
身のピッチにおける基準として用いることが可能であ
る。

【００６０】次に、このようにして作成されたピッチ分
布のデータに対し、所定の規則にしたがってしきい値を
設定する（図９に例を示す）。一般に感情のテンション
が高い時は、アクセントやイントネーションなどが強調
されるため、しきい値以上のピッチが頻繁に出現するよ
うになる。したがって、しきい値以上のピッチの出現頻
度が感情の起伏と比例していると解釈することが可能で
あるため、それぞれのセンテンスに対して単位時間あた
りのしきい値を越えたピッチデータ数を算出することに
より、感情の起伏に関する情報（ここでは感情の高ぶり
ととらえる）を得ることができる（図１０に例を示
す）。

【００６１】この情報は、属性情報付加部６によりデー
タ管理部７を介して記憶装置８内の音声データ１０に属
性情報として付加される。そして、この情報により音声
データ検索再生部１２は、感情の高ぶりに基づいた検
索、再生を容易に行うことができることになる。

【００６２】また、このように作成されたピッチ分布デ
ータと（図１１のステップＤ１）、各々のセンテンスの
時系列ピッチデータに対して求められた平均及び分散と
を比較する（図１１のステップＤ２）。アクセントやイ
ントネーションなどのメリハリをつけず、淡々と声を発
したセンテンスに対してはピッチデータの分散が小さ
く、また、逆の場合は大きい。また、センテンス内で声
が高い時は平均が大きく、逆の場合は小さい。たとえ
ば、あるセンテンスにおいて、声が低く、また、淡々と
喋っているような時は、冷静に言葉を発していると解釈
することができる。よってこれらの情報を得ることで、
感情の高ぶり、もしくは穏やかさに対するさらに詳細な
情報を得ることができる（図１１のステップＤ３）。

【００６３】また、このように得られた感情に関する情
報に対し、全センテンスの音声データの振幅の平均と分
散、最大値等を求める（図１２のステップＥ１〜ステッ
プＥ２）。音声データの振幅は声の大きさに比例してい
るため、声の大きさの時系列データを得ることで、さら
に詳細な感情に関する情報を得ることができる。一般的
に声が大きいときは、感情のテンションが高いと解釈で
き、また、逆の時は、低い、もしくは冷静だと解釈する
ことができる（図１２のステップＥ３）。

【００６４】また、上述の場合においては、センテンス
毎にピッチデータの平均値を求めていたため、センテン
ス単位でしかピッチに関する情報が得られず、時間的に
長いセンテンスに関しては、ピッチの時間的変動に関す
る情報を得ることができない。

【００６５】そこで、時系列順に並んだ全センテンスの
時系列ピッチデータに対し（図１３のステップＦ１）、
センテンス間を補間多項式を用いて滑らかに補間し（図
１３のステップＦ２）、長時間のローパスフィルタをか
ける、もしくはそれに類する処理を施す（図１３のステ
ップＦ３）。このことにより、時系列順に並んだセンテ
ンスから、ピッチの時間的変動を抽出することができる
（図１３のステップＦ４）。

【００６６】例えばピッチの時間的変動が右肩上がりの
場合、これは時間とともに声の高さが高くなっている、
つまり感情が高ぶってきていることを意味し、逆の場合
は、穏やかになっていることを意味する。したがってこ
のように、感情の起伏の時間的変化に関する情報を抽出
することができる。

【００６７】上述のようにセンテンスを解析することに
よって得られ種々の感情に関する情報は、属性情報付加
部６及びデータ管理部７により、図１４に示すようなフ
ォーマットで記憶装置８に保持される。そして、これに
より音声データ検索再生部１２は、感情を検索の単位と
してそれぞれのセンテンスを検索することが可能となう
る。

【００６８】すなわち、上述したように感情が高ぶって
いるところがその発声者が話したもっとも重要な部分で
あることが多く、取扱者は「感情の高ぶり度」を基準と
して求めるセンテンスを検索することが可能となる。一
方、取扱者が「冷静に淡々として話していた」部分を検
索したい時は、それをキーワードとして検索することも
可能となる。

【００６９】さらに、同実施例に係る情報処理装置１
は、これらのセンテンスを解析することによって得られ
た種々の感情に関する情報をもとにして、発声者名とと
もに個人感情辞書（図示せず）として登録作業を行う。
これにより、後に音声を入力した際に、それを解析して
個人感情辞書と比較することにより、その話者個人の感
情の状態に関する情報を得ることができる。

【００７０】図１５を参照してこのときの動作を説明す
る。同実施例に係る情報処理装置１は、まず、音声デー
タ検索再生部１２が音声データ１０すべてを解析し（図
１５のステップＧ１）、感情に関する情報を抽出する
（図１５のステップＧ２）。そして、テキストデータ入
力部３及び指示入力部４により入力、指示された発声話
者名とともにこれらの情報を個人感情辞書に登録する
（図１５のステップＧ３）。

【００７１】一方、音声データ入力部２を介して音声デ
ータを入力したときは（図１５のステップＧ４）、この
取り込んだ音声データを音声データ解析部１３が解析す
るとともに（図１５のステップＧ５）、テキストデータ
入力部３及び指示入力部４により発声話者名を入力する
（図１５のステップＧ６）。そして、この入力した発声
話者名が個人感情辞書に辞書登録されているかどうかを
判定し（図１５のステップＧ７）、登録されていたとき
には（図１５のステップＧ７のＹ）、その登録情報との
比較により感情に関する情報を取扱者に提示する（図１
５のステップＧ８）。

【００７２】これにより、特定話者の音声について感情
の起伏などの分析が容易に行えることになる。（第３実施例）次に、上述のように抽出したピッチによ
り自動的に発声話者の性別などを判定し、かつ、この判
定結果に基づいて音声データを検索し再生する情報処理
装置について説明する。

【００７３】同実施例に係る情報処理装置１では、音声
データ解析部１３が、さらにそれぞれの音声データ１０
について抽出されたピッチから男女の性別判定を行う。
図１６を参照して性別判定を行う際の動作を説明する。

【００７４】男性の声のピッチの平均値、標準偏差はそ
れぞれ、およそ１２５Ｈｚ、２０．５Ｈｚであり、女性
のそれは男性のおよそ２倍に等しい。したがって、得ら
れたピッチの時系列データの平均値を算出することによ
り（図１６のステップＨ１〜ステップＨ２）、男女判定
を行うことが可能である（図１６のステップＨ３）。判
定の際には、解析した音声が男性であるのか女性である
かを確率的に判定する。この解析結果も併せて、図１７
に示したようなフォーマットによりセンテンスのヘッダ
ーに性別情報として付加する。

【００７５】これにより音声データ検索再生部１２は、
性別単位で音声データを検索し再生することが可能であ
る。したがって、センテンスのヘッダーに付加されてい
る時間情報と組み合わせて検索することにより、時間軸
方向に性別単位で音声データを検索することが可能であ
る。

【００７６】また、図１７の（ｂ）に示したような各セ
ンテンスのヘッダーに対し、図１８に示したように新た
にピッチの最大値、最小値、平均値、標準偏差等のデー
タをピッチ情報として付加する。これにより、例えば、
男性で声の高い音声データ、もしくは女性で声の高い音
声データなど、より詳細な単位で音声データを時間軸の
前後方向に探索することが可能となる。

【００７７】

【発明の効果】以上詳述したように本発明の情報処理装
置によれば、取扱者は、音声データを時間情報のみなら
ず発声話者別に検索、再生することが可能となり、さら
に、発声話者ごとに感情の起伏など、所定の解析により
得られる評価に基づいた検索、再生が可能となる。

【００７８】これにより、取扱者は所望の音声データを
簡単な操作により効率よく、かつ適格に検索し再生する
ことができ、作業効率を飛躍的に向上させることが可能
となる。

【図面の簡単な説明】

【図１】本発明の実施例に係る情報処理装置の概略構成
を示す図。

【図２】本発明の実施例に係る音声データのフォーマッ
トを示す図。

【図３】本発明の実施例に係る音声データとメモとの関
係を示す図。

【図４】本発明の実施例に係る音声データの入力する
際、及び検索、再生する際の動作を説明するためのフロ
ーチャート。

【図５】本発明の実施例に係る音声データを解析して感
情の起伏を抽出する際の動作手順を説明するためのフロ
ーチャート。

【図６】本発明の実施例に係るピッチ分布データの作成
手順を説明するためのフローチャート。

【図７】時系列ピッチデータの典型例を示す図。

【図８】ピッチ分布データの典型例を示す図。

【図９】本発明の実施例に係るしきい値の設定を示す
図。

【図１０】本発明の実施例に係る感情の高ぶり度を示す
図。

【図１１】本発明の実施例に係るそれぞれのセンテンス
から感情に関する情報を抽出する手順を説明するための
フローチャート。

【図１２】本発明の実施例に係る振幅をもとに感情に関
する情報を抽出する手順を説明するためのフローチャー
ト。

【図１３】本発明の実施例に係る感情の高ぶりの時間的
変化に関する情報を抽出する手順を説明するためのフロ
ーチャート。

【図１４】本発明の実施例に係る音声データのフォーマ
ットを示す図。

【図１５】本発明の実施例に係る個人感情辞書への登録
および音声データの解析の手順を説明するためのフロー
チャート。

【図１６】本発明の実施例に係る性別の判定をする際の
手順を説明するためのフローチャート。

【図１７】本発明の実施例に係る音声データのフォーマ
ットを示す図。

【図１８】本発明の実施例に係る音声データのフォーマ
ットを示す図。

【符号の説明】

１…情報処理装置、２…音声データ入力部、３…テキス
トデータ入力部、４…指示入力部、５…制御部、６…属
性情報付加部、７…データ管理部、８…記憶装置、９…
テキストデータ、１０…音声データ、１１…表示部、１
２…音声データ検索再生部、１３…音声データ解析部、
１４…話者振分部、２１ａ，２１ｂ，２１ｃ…音声デー
タの表示イメージ、２２…メモの表示イメージ。

Claims

【特許請求の範囲】

【請求項１】音声データを入力する手段と、この音声
データの時間情報を取得する手段と、上記音声データを
解析する手段と、この解析結果に従って上記音声データ
を話者別に振り分け、この振り分けられた音声データ群
単位に話者識別情報を割り付ける手段と、上記音声デー
タに上記時間情報及び話者識別情報を関連づけて管理す
る手段と、上記時間情報及び話者識別情報により上記管
理される音声データを検索、再生する手段とを具備して
なることを特徴とする情報処理装置。
【請求項２】さらに上記入力された音声データの無音
部を検知し、有音部のみを一単位の音声データとして切
り出す手段を具備してなることを特徴とする請求項１記
載の情報処理装置。
【請求項３】さらに上記時間情報及び話者識別情報に
従って上記音声データを所定のイメージで時間軸に沿っ
て話者を識別可能に表示する手段を具備してなることを
特徴とする請求項１又は２記載の情報処理装置。
【請求項４】上記検索再生手段は、上記管理手段によ
り管理される音声データの中から特定の話者識別情報を
持つ音声データのみを選択して所定の順番で検索、再生
する手段を含むことを特徴とする請求項１又は２記載の
情報処理装置。
【請求項５】さらに個人辞書を備え、上記解析手段の
解析結果をこの個人辞書に登録する手段を具備してなる
ことを特徴とする請求項１又は２記載の情報処理装置。
【請求項６】上記解析手段は、上記音声データの時系
列ピッチデータ（基本周波数）を抽出する手段を含み、
さらに上記抽出された時系列ピッチデータの分布がガウ
ス分布となるものと仮定して、話者別にその平均及び分
散を求めて話者固有の時系列ピッチ分布データを算出す
る手段を具備してなることを特徴とする請求項１又は２
記載の情報処理装置。
【請求項７】上記登録手段は、上記話者固有の時系列
ピッチ分布データを個人辞書として登録する手段を含む
ことを特徴とする請求項６記載の情報処理装置。
【請求項８】さらに上記算出された話者固有の時系列
ピッチ分布データから所定の評価に用いられるしきい値
を話者別に算出する手段と、上記抽出された時系列ビッ
チデータが所定の単位時間内に上記算出されたしきい値
を超えた回数を求め、この回数によって所定の評価値を
求める手段とを設け、上記管理手段は、上記所定の評価
値をその音声データに関連づけて管理する手段を含むこ
とを特徴とする請求項６記載の情報処理装置。
【請求項９】上記表示手段は、上記所定の評価値に従
って上記音声データを所定のイメージで時間軸に沿って
表示する手段を含むことを特徴とする請求項８記載の情
報処理装置。
【請求項１０】上記検索再生手段は、上記所定の評価
値により上記音声データを検索、再生する手段を含むこ
とを特徴とする請求項８記載の情報処理装置。
【請求項１１】上記登録手段は、上記算出した話者別
のしきい値を個人辞書として登録する手段を含むことを
特徴とする請求項８記載の情報処理装置。
【請求項１２】さらに上記音声データそれぞれについ
て、その時系列ピッチデータの分布がガウス分布となる
ものと仮定して、その平均及び分散を求める手段と、こ
の求めた平均と上記算出した話者別の時系列ピッチデー
タの平均とを比較して、声の高さを示す情報を取得する
手段とを設け、上記管理手段は、この声の高さを示す情
報をその音声データに関連づけて管理する手段を含むこ
とを特徴とする請求項６記載の情報処理装置。
【請求項１３】上記表示手段は、上記声の高さを示す
情報に従って上記音声データを所定のイメージで時間軸
に沿って表示する手段を具備してなることを特徴とする
請求項１２記載の情報処理装置。
【請求項１４】上記検索再生手段は、上記声の高さを
示す情報により上記音声データを検索、再生する手段を
含むことを特徴とする請求項１２記載の情報処理装置。
【請求項１５】上記解析手段は、上記音声データの振
幅の平均、分散及び最大値を含むパラメータを算出する
手段を含み、さらに上記算出されたパラメータから話者
別の音声データの振幅の平均、分散及び最大値をを含む
パラメータを算出する手段を具備してなることを特徴と
する請求項１又は２記載の情報処理装置。
【請求項１６】上記登録手段は、上記話者別の振幅の
パラメータを個人辞書に登録する手段を含むことを特徴
とする請求項１５記載の情報処理装置。
【請求項１７】さらに上記音声データの振幅のパラメ
ータと上記算出された話者別の振幅のパラメータとを比
較して、声の大きさを示す情報を取得する手段を設け、
上記管理手段は、この声の大きさを示す情報をその音声
データに関連づけて管理する手段を含むことを特徴とす
る請求項１５記載の情報処理装置。
【請求項１８】上記表示手段は、上記声の大きさを示
す情報に従って上記音声データを所定のイメージで時間
軸に沿って表示する手段を含むことを特徴とする請求項
１７記載の情報処理装置。
【請求項１９】上記検索再生手段は、上記声の大きさ
を示す情報により上記音声データを検索、再生する手段
を含むことを特徴とする請求項１７記載の情報処理装
置。
【請求項２０】上記解析手段は、所定の補間多項式を
用いて上記音声データ間を補間する手段と、この補間さ
れた音声データすべてに対し所定の時間をもつローパス
フィルタもしくはそれに類する時系列ピッチデータの長
時間的変動を抽出する手段とを含み、上記管理手段は、
この長時間的変動を示す情報をその音声データに関連づ
けて管理する手段を含むことを特徴とする請求項１又は
２記載の情報処理装置。
【請求項２１】上記表示手段は、上記長時間的変動を
示す情報に従って上記音声データを所定のイメージで時
間軸に沿って表示する手段を含むことを特徴とする請求
項２０記載の情報処理装置。
【請求項２２】上記検索再生手段は、上記長時間的変
動を示す情報により上記音声データを検索、再生する手
段を含むことを特徴とする請求項２０記載の情報処理装
置。
【請求項２３】さらに上記抽出された時系列ピッチデ
ータからその音声データの話者の性別を判定する手段を
設け、上記管理手段は、この判定された性別を示す情報
をその音声データに関連づけて管理する手段を含むこと
を特徴とする請求項６記載の情報処理装置。
【請求項２４】上記表示手段は、上記性別を示す情報
に従って上記音声データを所定のイメージで時間軸に沿
って表示する手段を具備してなることを特徴とする請求
項２３記載の情報処理装置。
【請求項２５】上記検索再生手段は、上記性別を示す
情報により上記音声データを検索、再生する手段を含む
ことを特徴とする請求項２３記載の情報処理装置。
【請求項２６】上記割付手段は、上記抽出された時系
列ピッチデータから上記音声データを話者別に振り分
け、この振り分けられた音声データ群単位に話者識別情
報を割り付ける手段を含むことを特徴とする請求項６記
載の情報処理装置。