JPH08286693A - 情報処理装置 - Google Patents

情報処理装置

Info

Publication number
JPH08286693A
JPH08286693A JP7088201A JP8820195A JPH08286693A JP H08286693 A JPH08286693 A JP H08286693A JP 7088201 A JP7088201 A JP 7088201A JP 8820195 A JP8820195 A JP 8820195A JP H08286693 A JPH08286693 A JP H08286693A
Authority
JP
Japan
Prior art keywords
voice data
speaker
data
information processing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7088201A
Other languages
English (en)
Inventor
Masabumi Matsumura
正文 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP7088201A priority Critical patent/JPH08286693A/ja
Publication of JPH08286693A publication Critical patent/JPH08286693A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】入力した音声データに各種解析を施し、時間情
報のみならずその解析結果に基づいた検索、再生を行う
ことを可能とする情報処理装置を提供する。 【構成】音声データを入力する音声データ入力部2と、
この音声データの時間情報を取得する属性情報付加部6
と、音声データを解析する音声データ解析部13と、こ
の解析結果に従って音声データを話者別に振り分け、こ
の振り分けられた音声データ群単位に話者識別情報を割
り付ける話者振分部14と、音声データに時間情報及び
話者識別情報を関連づけて管理するデータ管理部7と、
時間情報及び話者識別情報によりデータ管理部7により
管理される音声データを検索、再生する音声データ検索
再生部12とを具備してなることを特徴とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、テキストデータ、図形
データ、イメージデータ、動画データ及び音声データな
どを取り扱う情報処理装置に係り、特に入力した音声を
簡単な操作で効率的に検索し再生することを可能とする
情報処理装置に関する。
【0002】
【従来の技術】近年、携帯が容易でバッテリにより動作
可能なノートブックタイプやラップトップタイプなどの
情報処理装置が飛躍的に普及され、それに伴い種々の情
報処理装置が開発されている。そして、最近では音声を
入力する機能を備え、音声データの取り込みとともにテ
キストデータなどの入力を行い、このテキストデータな
どの入力をメモとして位置づけて、このメモをとった時
間を起点として音声データを検索、再生するといった情
報処理装置も現れてきている。
【0003】この情報処理装置によれば、例えば会議に
おいて発せられる音声を取り込んでおき、後にこの音声
を再生する際に、会議中にメモをとったあたりに重要な
発言があったものとして、このメモをとった時間を起点
として音声データを検索、再生するといった操作を行う
ことができる。
【0004】しかしながら、このような機能を備えた情
報処理装置であっても、音声データの検索のみに着目し
てみると、音声データの内容には全く依存せずに時間情
報のみを拠り所として検索、再生しているため、必ずし
も取扱者が必要としている音声データを効率良く検索す
ることができるものではなかった。
【0005】また、発声者の感情の起伏などをその音声
データから所定の評価法により評価して、その評価値に
基づいて検索、再生を行ったり、発声者の性別をその音
声データから判定して、その判定結果に基づいて音声デ
ータの検索、再生を行うなどといった処理を行うものは
なかった。
【0006】
【発明が解決しようとする課題】上述したように、従来
の音声データを取り扱う情報処理装置においては、時間
情報のみを拠り所として検索、再生しているため、必ず
しも取扱者が必要としている音声データを効率良く検索
することができるものではなかったといった問題があっ
た。
【0007】本発明は上記実情に鑑みなされたものであ
り、入力した音声データに各種解析を施して、時間情報
のみならずその解析結果に基づいた検索、再生を行うこ
とにより簡単な操作で効率的な音声データの検索、再生
を可能とする情報処理装置を提供することを目的とす
る。
【0008】
【課題を解決するための手段】本発明は、音声データを
入力する手段と、この音声データの時間情報を取得する
手段と、上記音声データを解析する手段と、この解析結
果に従って上記音声データを話者別に振り分け、この振
り分けられた音声データ群単位に話者識別情報を割り付
ける手段と、上記音声データに上記時間情報及び話者識
別情報を関連づけて管理する手段と、上記時間情報及び
話者識別情報により上記管理される音声データを検索、
再生する手段とを具備してなることを特徴とする。
【0009】また、本発明は、さらに上記入力された音
声データの無音部を検知し、有音部のみを一単位の音声
データとして切り出す手段を具備してなることを特徴と
する。
【0010】また、本発明は、さらに上記時間情報及び
話者識別情報に従って上記音声データを所定のイメージ
で時間軸に沿って話者を識別可能に表示する手段を具備
してなることを特徴とする。
【0011】また、本発明は、上記検索再生手段が、上
記管理手段により管理される音声データの中から特定の
話者識別情報を持つ音声データのみを選択して所定の順
番で検索、再生する手段を含むことを特徴とする。
【0012】また、本発明は、さらに個人辞書を備え、
上記解析手段の解析結果をこの個人辞書に登録する手段
を具備してなることを特徴とする。また、本発明は、上
記解析手段が、上記音声データの時系列ピッチデータ
(基本周波数)を抽出する手段を含み、さらに上記抽出
された時系列ピッチデータの分布がガウス分布となるも
のと仮定して、話者別にその平均及び分散を求めて話者
固有の時系列ピッチ分布データを算出する手段を具備し
てなることを特徴とする。
【0013】また、本発明は、上記登録手段が、上記話
者固有の時系列ピッチ分布データを個人辞書として登録
する手段を含むことを特徴とする。また、本発明は、さ
らに上記算出された話者固有の時系列ピッチ分布データ
から所定の評価に用いられるしきい値を話者別に算出す
る手段と、上記抽出された時系列ビッチデータが所定の
単位時間内に上記算出されたしきい値を超えた回数を求
め、この回数によって所定の評価値を求める手段とを設
け、上記管理手段は、上記所定の評価値をその音声デー
タに関連づけて管理する手段を含むことを特徴とする。
【0014】また、本発明は、上記表示手段が、上記所
定の評価値に従って上記音声データを所定のイメージで
時間軸に沿って表示する手段を含むことを特徴とする。
また、本発明は、上記検索再生手段が、上記所定の評価
値により上記音声データを検索、再生する手段を含むこ
とを特徴とする。
【0015】また、本発明は、上記登録手段が、上記算
出した話者別のしきい値を個人辞書として登録する手段
を含むことを特徴とする。また、本発明は、さらに上記
音声データそれぞれについて、その時系列ピッチデータ
の分布がガウス分布となるものと仮定して、その平均及
び分散を求める手段と、この求めた平均と上記算出した
話者別の時系列ピッチデータの平均とを比較して、声の
高さを示す情報を取得する手段とを設け、上記管理手段
は、この声の高さを示す情報をその音声データに関連づ
けて管理する手段を含むことを特徴とする。
【0016】また、本発明は、上記表示手段が、上記声
の高さを示す情報に従って上記音声データを所定のイメ
ージで時間軸に沿って表示する手段を具備してなること
を特徴とする。
【0017】また、本発明は、上記検索再生手段が、上
記声の高さを示す情報により上記音声データを検索、再
生する手段を含むことを特徴とする。また、本発明は、
上記解析手段が、上記音声データの振幅の平均、分散及
び最大値を含むパラメータを算出する手段を含み、さら
に上記算出されたパラメータから話者別の音声データの
振幅の平均、分散及び最大値をを含むパラメータを算出
する手段を具備してなることを特徴とする。
【0018】また、本発明は、上記登録手段が、上記話
者別の振幅のパラメータを個人辞書に登録する手段を含
むことを特徴とする。また、本発明は、さらに上記音声
データの振幅のパラメータと上記算出された話者別の振
幅のパラメータとを比較して、声の大きさを示す情報を
取得する手段を設け、上記管理手段は、この声の大きさ
を示す情報をその音声データに関連づけて管理する手段
を含むことを特徴とする。
【0019】また、本発明は、上記表示手段が、上記声
の大きさを示す情報に従って上記音声データを所定のイ
メージで時間軸に沿って表示する手段を含むことを特徴
とする。
【0020】また、本発明は、上記検索再生手段が、上
記声の大きさを示す情報により上記音声データを検索、
再生する手段を含むことを特徴とする。また、本発明
は、上記解析手段は、所定の補間多項式を用いて上記音
声データ間を補間する手段と、この補間された音声デー
タすべてに対し所定の時間をもつローパスフィルタもし
くはそれに類する時系列ピッチデータの長時間的変動を
抽出する手段とを含み、上記管理手段は、この長時間的
変動を示す情報をその音声データに関連づけて管理する
手段を含むことを特徴とする。
【0021】また、本発明は、上記表示手段が、上記長
時間的変動を示す情報に従って上記音声データを所定の
イメージで時間軸に沿って表示する手段を含むことを特
徴とする。
【0022】また、本発明は、上記検索再生手段が、上
記長時間的変動を示す情報により上記音声データを検
索、再生する手段を含むことを特徴とする。また、本発
明は、さらに上記抽出された時系列ピッチデータからそ
の音声データの話者の性別を判定する手段を設け、上記
管理手段は、この判定された性別を示す情報をその音声
データに関連づけて管理する手段を含むことを特徴とす
る。
【0023】また、本発明は、上記表示手段が、上記性
別を示す情報に従って上記音声データを所定のイメージ
で時間軸に沿って表示する手段を具備してなることを特
徴とする。
【0024】また、本発明は、上記検索再生手段が、上
記性別を示す情報により上記音声データを検索、再生す
る手段を含むことを特徴とする。また、本発明は、上記
割付手段が、上記抽出された時系列ピッチデータから上
記音声データを話者別に振り分け、この振り分けられた
音声データ群単位に話者識別情報を割り付ける手段を含
むことを特徴とする。
【0025】
【作用】本発明の情報処理装置によれば、入力手段が音
声データを入力し、時間情報取得手段が、この音声デー
タの時間情報を取得する。この時間情報としては、タイ
ムスタンプなどが適用される。また、解析手段は、この
入力された音声データに対して所定の解析を施し、割付
手段が、この解析手段による解析の結果に従って音声デ
ータを話者別に振り分け、この振り分けられた音声デー
タ群単位に話者識別情報を割り付ける。この話者識別
は、必ずしも特定の話者を認識するものである必要はな
く、例えば3人の話者により行われた会議の音声を入力
したときに、これらの話者による音声データを「話者
A」、「話者B」及び「話者C」といったように識別す
ることができればよい。
【0026】この音声情報は、管理手段によって上述し
た時間情報及び話者識別情報が関連づけられて管理され
る。そして、検索再生手段は、この時間情報と話者識別
情報とにより音声データを検索、再生する。
【0027】すなわち、従来であれば、例えばメモをと
った時間を起点として音声データを検索、再生していた
ものを、本発明の情報処理装置においては、時間情報の
みならず話者識別情報を使用して検索を行うために、例
えばメモをとった時点に発言していた話者の音声データ
について、その先頭(所定数だけ溯ったところなどから
などでも構わない)から再生するといったことができる
ことになる。
【0028】また、本発明の情報処理装置によれば、切
り出し手段が、入力手段により入力された音声データの
無音部を検知し、有音部のみを一単位の音声データとし
て切り出す。
【0029】例えば、伝言などの音声を取り扱う場合で
あれば、入力された音声データを一つの単位として上述
した各種情報を付加し、その後の検索や再生などを行え
ばよいが、会議などの音声を入力する場合であって、こ
れらの音声が冗長的に入力されるような場合には、この
ような処理では効率的な検索や再生を実現するのはむず
かしい。
【0030】そこで、この切り出し手段が上述した切り
出しを行い、この切り出された音声データそれぞれを一
単位の音声データとして取り扱えば、上述と同様に効率
的な検索、再生を実現することが可能となる。
【0031】また、本発明の情報処理装置によれば、表
示手段が、この音声データを所定のイメージで時間軸に
沿って話者を識別可能に表示する。例えば、図3に示し
たような表示を行えば、取扱者はイメージ21a〜21
cにより所望の音声データを検索し再生するといったこ
とが可能となる。
【0032】また、本発明の情報処理装置によれば、個
人辞書を備え、登録手段が解析手段の解析結果をこの個
人辞書に登録する。これにより、この個人辞書への登録
後に再度同じ話者の音声データが入力された場合に、例
えば図3に示した「話者A」、「話者B」及び「話者
C」といった話者を不定とした表示に換えて、個人辞書
に登録された話者名を表示するといった処理が可能とな
る。
【0033】また、本発明の情報処理装置によれば、解
析手段が音声データの時系列ピッチデータ(基本周波
数)を抽出する。そして、時系列ピッチ分布データ算出
手段がこの時系列ピッチデータの分布がガウス分布とな
るものと仮定して、話者別にその平均及び分散を求めて
話者固有の時系列ピッチ分布データを算出する。この話
者固有の時系列ピッチ分布データは、しきい値算出手段
に渡され、例えば感情の高ぶりなど評価するためのしき
い値を算出する。そして、音声データそれぞれについ
て、その時系列ビッチデータが所定の単位時間内に先程
算出したしきい値を超えた回数を求め、この回数によっ
て所定の評価値を求める。例えば、この評価値を感情の
起伏としてとらえ、さらに感情が高ぶっている状態で発
声された音声は重要度が高いものであるととらえると、
この評価値により検索、再生を行う機能をもつことは有
意義である。また、この評価値に従って音声データの表
示を行えば(例えば所定のマークを表示する、色分けを
する、など)、上述したイメージを参照しての検索、再
生においても適用可能となる。
【0034】また、感情の起伏を声の高さで評価するこ
とも有効である。このために、本発明の情報処理装置で
は、音声データそれぞれについて、その時系列ピッチ分
布データの平均及び分散を求め、この求めた平均と先程
算出した話者別の時系列ピッチデータの平均とを比較し
て、声の高さを示す情報を取得する。
【0035】同様に、感情の起伏を声の大きさで評価す
ることも有効である。このために、本発明の情報処理装
置では、話者別の音声データの振幅の平均、分散及び最
大値を含むパラメータを算出し、音声データそれぞれに
ついて求めたこれらパラメータと比較して、声の大きさ
を示す情報を取得する。
【0036】さらに、感情の起伏を時系列ピッチデータ
の変動により評価することも有効である。このために、
本発明の情報処理装置では、補間手段が所定の補間多項
式を用いて音声データ間を補間し、長時間的変動抽出手
段がこの補間された音声データすべてに対し所定の時間
をもつローパスフィルタをかけ、もしくはそれに類する
処理を施し時系列ピッチデータの長時間的変動を抽出す
る。そして、この抽出された変動が所定の感情起伏時に
現われる特徴的なものであった場合に、所定の評価値を
設定する。
【0037】なお、上述と同様に、これらの情報及び評
価値により検索、再生を行う、これらの情報及び評価値
に従って音声データの表示を行う、などの処理は当然に
有意義である。そして、これらの話者別の情報は、登録
手段により個人辞書に登録可能である。
【0038】また、本発明の情報処理装置によれば、判
定手段が、抽出された時系列ピッチデータからその音声
データの話者の性別を判定する。これにより、例えば伝
言などの件数について、男性m件、女性n件といった件
数把握をするような処理が行え、また、検索、再生処理
においても、男性のみ、女性のみといった性別での検
索、再生が行え、さらに、性別で色を変えて音声データ
を表示するといったことも可能となる。
【0039】また、性別のみならず、この抽出された時
系列ピッチデータが所定の範囲内にあるものは同一の話
者から発せられたものであるといった識別を行うことに
よって、上述のような「話者A」、「話者B」及び「話
者C」といった話者識別を行う。これにより、上述した
ような識別話者別の検索、再生、及び表示が可能とな
る。
【0040】
【実施例】以下図面を参照して本発明の実施例を説明す
る。 (第1実施例)図1は同実施例に係る情報処理装置の概
略構成を示す図である。
【0041】図1に示したように、同実施例に係る情報
処理装置1は、音声データ入力部2、テキストデータ入
力部3、指示入力部4、制御部5、属性情報付加部6、
データ管理部7、表示部11、音声データ検索再生部1
2、音声データ解析部13、及び話者振分部14の各処
理部を有しており、また、記憶装置8を備えてテキスト
データ9及び音声データ10を保持している。
【0042】音声データ入力部2は、伝言や会議などの
音声を音声データとして入力するところであり、会議な
どの冗長的な音声を入力した場合に、その無音部を検知
して有音部のみを一つの音声データとして切り出す機能
を有する。テキストデータ入力部3は、取扱者がペン、
マウスなどの各種入力デバイスを用いて入力する文字、
図形などを取り込むところである。指示入力部4は、同
実施例に係る情報処理装置1に対して取扱者が行う作業
指示を取り込むところである。
【0043】また、制御部5は、同実施例に係る情報処
理装置1の全体の制御を司るところである。属性情報付
加部6は、音声データ入力部2により入力された音声デ
ータの時間情報を含む各種属性情報を取得し、この音声
データに付加するところである。データ管理部7は、記
憶装置8に保持されたテキストデータ9及び音声データ
10を管理するところである。表示部11は、取扱者が
必要とする音声データを検索する画面、各種の音声情報
およびその内容、システムのメッセージ等の各種情報を
表示するところである。音声データ検索再生部12は、
指定された音声データを検索し、再生するところであ
る。
【0044】また、音声データ解析部13は、データ管
理部7により記憶装置8に保持されて管理される音声デ
ータに対して各種の解析を施すところであり、話者振分
部14は、この音声データ解析部13の解析結果にした
がって発生話者の振り分けを行うところである。
【0045】音声データ入力部2により入力された音声
データ、及びテキストデータ入力部3により入力された
文字、図形などのテキストデータは、それぞれに並列に
入力される。そして、これらの音声データ及びテキスト
データには、属性情報付加部6によりその入力時間や入
力開始時からの相対的な時間等の情報が付加される。ま
た、この音声データは、音声データ入力部2により有音
部のみからなる複数のセンテンスに分割された後、最終
的に音声データ解析部13及び話者振分部14により発
声話者を認識するための解析処理及び振分処理が施され
る。ここでセンテンスとは、ある話者の一発声を指す。
一つのセンテンスは、音声データと音声情報とから成
り、さらに音声情報は、時間情報と属性情報から成る。
この構成を図2に示す。なお、これらの音声情報は、属
性情報付加部6によって付加されるものである。
【0046】音声データには実際の音声信号が格納され
ており、時間情報には音声データの時間的な長さ、入力
開始時からの相対的な時間等の情報が格納されている。
また、属性情報には、ある特定の個人を識別するための
話者識別情報や、話者の違いを識別する情報が格納され
ている。
【0047】取扱者は情報処理装置1内に取り込んだ音
声を音として再生する際、上述した2つの情報によって
必要な音声を再生することができる。また、情報処理装
置1は、音声信号を取り込みながらメモをとっていたよ
うな場合に、そのメモを入力情報として入力内容とその
入力時間とを得ることができる。一方、音声情報として
は、その発声話者や発声時間を得ることができる。そこ
で、取扱者がメモを入力していた時の音声を再生するよ
うに指定すると、上述のように取得された音声情報及び
入力情報に基づいて、その時に発声していた話者の音声
データのみを再生することが可能となる。このときの音
声データとメモとの関係を、図3を参照して詳述する。
【0048】図3は、音声データとメモとを時間軸に沿
って表現したものであり、21aは話者Aが発声した音
声データ、21bは話者Bが発声した音声データ、及び
21cは話者Cが発声した音声データをそれぞれ示して
いる。また、22は、メモが入力されていた期間を示す
ものである。
【0049】ここで、取扱者がメモ22を指定して音声
の再生を要求すると、情報処理装置1は、このときに取
得されていた音声データを音声データ検索再生部12に
よりまず検索する。図3の例では21bの音声データが
検索されることになる。そして、音声データ検索再生部
12は、この音声データを先頭から再生する。このと
き、音声データはすでに話者別に識別されているため
に、この話者の音声データのみ複数データ分遡って再生
するなどの処理も容易に行うことができる。
【0050】これにより取扱者は、必要とする音声デー
タを簡単な操作で効率的に検索再生することができるこ
ととなる。図4を参照して同実施例の動作を説明する。
【0051】図4は同実施例の動作を説明するためのフ
ローチャートである。情報処理装置1は、音声データ入
力部2およびテキストデータ入力部3により音声データ
およびテキストデータを入力すると(図4のステップA
1)、属性情報付加部6がタイムスタンプなどの時間情
報を取得して、その音声データに属性情報として付加す
る(図4のステップA2)。次に、この音声データにつ
いて音声データ解析部13による各種解析が施され、か
つ話者振分部14による話者振り分けが行われる(図4
のステップA3)。そして、データ管理部7がこれらの
結果とともに音声データを記憶装置8内にそれぞれ格納
する(図4のステップA4)。
【0052】一方、情報処理装置1は、指示入力部4に
よりいずれかのメモが選択されその時点での音声データ
の再生が要求されたときに(図4のステップA5)、音
声データ検索再生部12が、記憶装置8内に保持された
音声データ10の中から対応する音声データ10を検索
し再生する(図4のステップA6)。そして、指示入力
部4から入力される検索再生指示にしたがって(図4の
ステップA7)、時間単位、話者単位の検索再生を行う
(図4のステップA8)。
【0053】これにより取扱者は所望の音声データを簡
単な操作で効率よく検索し再生することが可能となる。 (第2実施例)一般に発声者の感情が高ぶっているとき
は、アクセントやイントネーションが顕著になる、すな
わち、声帯の振動の基本周波数(ピッチ)の幅が広くな
るなどの現象が音声データ中に現れ、また逆のときは、
ピッチの幅が狭くなる現象などが現れる。そこで、同実
施例では、発声者の感情の起伏と音声データとの間に存
在するこのような相関関係に着眼し、第1実施例に加え
て発声者の長時間音声データを解析することによって得
られる時系列ピッチデータをさらに解析することにより
感情の起伏に関する情報を取得し、また、その情報を利
用して音声データを検索し再生する情報処理装置につい
て説明する。
【0054】ここで、図5を参照して音声データを解析
して感情の起伏を抽出する際の動作手順を説明する。同
実施例に係る情報処理装置1では、音声データ解析部1
3が、さらにそれぞれの音声データ10について声帯の
振動の基本周波数(以下ピッチという)を抽出する(図
5のステップB1)。このピッチは音声波形に対しその
相関関係を求めるなどの相関処理を施すことにより抽出
される。
【0055】次に、音声データ解析部13は、これらそ
れぞれの音声データ10について抽出したピッチを話者
別に分類し、話者別のビッチの分布を求める(図5のス
テップB2)。そして、それぞれの音声データ10にお
けるピッチとその話者別のビッチの分布とを比較して、
感情の起伏についての評価値を得る(図5のステップB
3)。
【0056】この評価値は、属性情報付加部6によりデ
ータ管理部7を介して記憶装置8内の音声データ10に
属性情報として付加される。これにより、例えば、感情
が高まっているときに発声された音声データは重要なデ
ータである蓋然性が高いといった前提を立てれば、その
感情の高低(すなわちデータの重要度)に基づいた検
索、再生を音声データ検索再生部12は容易に行うこと
ができることになる。
【0057】また、アクセントやイントネーションなど
の情報は、ピッチの時間的な変化により得ることができ
る。したがって、ピッチの時系列データを解析すること
により感情の起伏に関する情報を取得することが可能で
ある。
【0058】ここで、図6乃至図10を参照してピッチ
の時系列データを解析することにより感情の起伏を抽出
する際の動作手順を説明する。まず、音声データ解析部
13は、音声データ10を解析することによって得られ
るセンテンス単位の時系列ピッチデータから(図6のス
テップC1、図7にその典型例を示す)、全センテンス
のピッチに対する平均と分散を求める(図6のステップ
C2)。そして、この発声者のピッチの分布がガウス分
布であると仮定し(図6のステップC3)、その得られ
た平均値と分散とによりその発声者のピッチの分布を求
める(図6のステップC4、図8にその典型例を示
す)。
【0059】この分布は、その発声者が発するピッチの
確率分布に対応しているため、それぞれのセンテンスに
おいて感情の起伏に関する情報を抽出する際、発声者自
身のピッチにおける基準として用いることが可能であ
る。
【0060】次に、このようにして作成されたピッチ分
布のデータに対し、所定の規則にしたがってしきい値を
設定する(図9に例を示す)。一般に感情のテンション
が高い時は、アクセントやイントネーションなどが強調
されるため、しきい値以上のピッチが頻繁に出現するよ
うになる。したがって、しきい値以上のピッチの出現頻
度が感情の起伏と比例していると解釈することが可能で
あるため、それぞれのセンテンスに対して単位時間あた
りのしきい値を越えたピッチデータ数を算出することに
より、感情の起伏に関する情報(ここでは感情の高ぶり
ととらえる)を得ることができる(図10に例を示
す)。
【0061】この情報は、属性情報付加部6によりデー
タ管理部7を介して記憶装置8内の音声データ10に属
性情報として付加される。そして、この情報により音声
データ検索再生部12は、感情の高ぶりに基づいた検
索、再生を容易に行うことができることになる。
【0062】また、このように作成されたピッチ分布デ
ータと(図11のステップD1)、各々のセンテンスの
時系列ピッチデータに対して求められた平均及び分散と
を比較する(図11のステップD2)。アクセントやイ
ントネーションなどのメリハリをつけず、淡々と声を発
したセンテンスに対してはピッチデータの分散が小さ
く、また、逆の場合は大きい。また、センテンス内で声
が高い時は平均が大きく、逆の場合は小さい。たとえ
ば、あるセンテンスにおいて、声が低く、また、淡々と
喋っているような時は、冷静に言葉を発していると解釈
することができる。よってこれらの情報を得ることで、
感情の高ぶり、もしくは穏やかさに対するさらに詳細な
情報を得ることができる(図11のステップD3)。
【0063】また、このように得られた感情に関する情
報に対し、全センテンスの音声データの振幅の平均と分
散、最大値等を求める(図12のステップE1〜ステッ
プE2)。音声データの振幅は声の大きさに比例してい
るため、声の大きさの時系列データを得ることで、さら
に詳細な感情に関する情報を得ることができる。一般的
に声が大きいときは、感情のテンションが高いと解釈で
き、また、逆の時は、低い、もしくは冷静だと解釈する
ことができる(図12のステップE3)。
【0064】また、上述の場合においては、センテンス
毎にピッチデータの平均値を求めていたため、センテン
ス単位でしかピッチに関する情報が得られず、時間的に
長いセンテンスに関しては、ピッチの時間的変動に関す
る情報を得ることができない。
【0065】そこで、時系列順に並んだ全センテンスの
時系列ピッチデータに対し(図13のステップF1)、
センテンス間を補間多項式を用いて滑らかに補間し(図
13のステップF2)、長時間のローパスフィルタをか
ける、もしくはそれに類する処理を施す(図13のステ
ップF3)。このことにより、時系列順に並んだセンテ
ンスから、ピッチの時間的変動を抽出することができる
(図13のステップF4)。
【0066】例えばピッチの時間的変動が右肩上がりの
場合、これは時間とともに声の高さが高くなっている、
つまり感情が高ぶってきていることを意味し、逆の場合
は、穏やかになっていることを意味する。したがってこ
のように、感情の起伏の時間的変化に関する情報を抽出
することができる。
【0067】上述のようにセンテンスを解析することに
よって得られ種々の感情に関する情報は、属性情報付加
部6及びデータ管理部7により、図14に示すようなフ
ォーマットで記憶装置8に保持される。そして、これに
より音声データ検索再生部12は、感情を検索の単位と
してそれぞれのセンテンスを検索することが可能となう
る。
【0068】すなわち、上述したように感情が高ぶって
いるところがその発声者が話したもっとも重要な部分で
あることが多く、取扱者は「感情の高ぶり度」を基準と
して求めるセンテンスを検索することが可能となる。一
方、取扱者が「冷静に淡々として話していた」部分を検
索したい時は、それをキーワードとして検索することも
可能となる。
【0069】さらに、同実施例に係る情報処理装置1
は、これらのセンテンスを解析することによって得られ
た種々の感情に関する情報をもとにして、発声者名とと
もに個人感情辞書(図示せず)として登録作業を行う。
これにより、後に音声を入力した際に、それを解析して
個人感情辞書と比較することにより、その話者個人の感
情の状態に関する情報を得ることができる。
【0070】図15を参照してこのときの動作を説明す
る。同実施例に係る情報処理装置1は、まず、音声デー
タ検索再生部12が音声データ10すべてを解析し(図
15のステップG1)、感情に関する情報を抽出する
(図15のステップG2)。そして、テキストデータ入
力部3及び指示入力部4により入力、指示された発声話
者名とともにこれらの情報を個人感情辞書に登録する
(図15のステップG3)。
【0071】一方、音声データ入力部2を介して音声デ
ータを入力したときは(図15のステップG4)、この
取り込んだ音声データを音声データ解析部13が解析す
るとともに(図15のステップG5)、テキストデータ
入力部3及び指示入力部4により発声話者名を入力する
(図15のステップG6)。そして、この入力した発声
話者名が個人感情辞書に辞書登録されているかどうかを
判定し(図15のステップG7)、登録されていたとき
には(図15のステップG7のY)、その登録情報との
比較により感情に関する情報を取扱者に提示する(図1
5のステップG8)。
【0072】これにより、特定話者の音声について感情
の起伏などの分析が容易に行えることになる。 (第3実施例)次に、上述のように抽出したピッチによ
り自動的に発声話者の性別などを判定し、かつ、この判
定結果に基づいて音声データを検索し再生する情報処理
装置について説明する。
【0073】同実施例に係る情報処理装置1では、音声
データ解析部13が、さらにそれぞれの音声データ10
について抽出されたピッチから男女の性別判定を行う。
図16を参照して性別判定を行う際の動作を説明する。
【0074】男性の声のピッチの平均値、標準偏差はそ
れぞれ、およそ125Hz、20.5Hzであり、女性
のそれは男性のおよそ2倍に等しい。したがって、得ら
れたピッチの時系列データの平均値を算出することによ
り(図16のステップH1〜ステップH2)、男女判定
を行うことが可能である(図16のステップH3)。判
定の際には、解析した音声が男性であるのか女性である
かを確率的に判定する。この解析結果も併せて、図17
に示したようなフォーマットによりセンテンスのヘッダ
ーに性別情報として付加する。
【0075】これにより音声データ検索再生部12は、
性別単位で音声データを検索し再生することが可能であ
る。したがって、センテンスのヘッダーに付加されてい
る時間情報と組み合わせて検索することにより、時間軸
方向に性別単位で音声データを検索することが可能であ
る。
【0076】また、図17の(b)に示したような各セ
ンテンスのヘッダーに対し、図18に示したように新た
にピッチの最大値、最小値、平均値、標準偏差等のデー
タをピッチ情報として付加する。これにより、例えば、
男性で声の高い音声データ、もしくは女性で声の高い音
声データなど、より詳細な単位で音声データを時間軸の
前後方向に探索することが可能となる。
【0077】
【発明の効果】以上詳述したように本発明の情報処理装
置によれば、取扱者は、音声データを時間情報のみなら
ず発声話者別に検索、再生することが可能となり、さら
に、発声話者ごとに感情の起伏など、所定の解析により
得られる評価に基づいた検索、再生が可能となる。
【0078】これにより、取扱者は所望の音声データを
簡単な操作により効率よく、かつ適格に検索し再生する
ことができ、作業効率を飛躍的に向上させることが可能
となる。
【図面の簡単な説明】
【図1】本発明の実施例に係る情報処理装置の概略構成
を示す図。
【図2】本発明の実施例に係る音声データのフォーマッ
トを示す図。
【図3】本発明の実施例に係る音声データとメモとの関
係を示す図。
【図4】本発明の実施例に係る音声データの入力する
際、及び検索、再生する際の動作を説明するためのフロ
ーチャート。
【図5】本発明の実施例に係る音声データを解析して感
情の起伏を抽出する際の動作手順を説明するためのフロ
ーチャート。
【図6】本発明の実施例に係るピッチ分布データの作成
手順を説明するためのフローチャート。
【図7】時系列ピッチデータの典型例を示す図。
【図8】ピッチ分布データの典型例を示す図。
【図9】本発明の実施例に係るしきい値の設定を示す
図。
【図10】本発明の実施例に係る感情の高ぶり度を示す
図。
【図11】本発明の実施例に係るそれぞれのセンテンス
から感情に関する情報を抽出する手順を説明するための
フローチャート。
【図12】本発明の実施例に係る振幅をもとに感情に関
する情報を抽出する手順を説明するためのフローチャー
ト。
【図13】本発明の実施例に係る感情の高ぶりの時間的
変化に関する情報を抽出する手順を説明するためのフロ
ーチャート。
【図14】本発明の実施例に係る音声データのフォーマ
ットを示す図。
【図15】本発明の実施例に係る個人感情辞書への登録
および音声データの解析の手順を説明するためのフロー
チャート。
【図16】本発明の実施例に係る性別の判定をする際の
手順を説明するためのフローチャート。
【図17】本発明の実施例に係る音声データのフォーマ
ットを示す図。
【図18】本発明の実施例に係る音声データのフォーマ
ットを示す図。
【符号の説明】
1…情報処理装置、2…音声データ入力部、3…テキス
トデータ入力部、4…指示入力部、5…制御部、6…属
性情報付加部、7…データ管理部、8…記憶装置、9…
テキストデータ、10…音声データ、11…表示部、1
2…音声データ検索再生部、13…音声データ解析部、
14…話者振分部、21a,21b,21c…音声デー
タの表示イメージ、22…メモの表示イメージ。

Claims (26)

    【特許請求の範囲】
  1. 【請求項1】 音声データを入力する手段と、この音声
    データの時間情報を取得する手段と、上記音声データを
    解析する手段と、この解析結果に従って上記音声データ
    を話者別に振り分け、この振り分けられた音声データ群
    単位に話者識別情報を割り付ける手段と、上記音声デー
    タに上記時間情報及び話者識別情報を関連づけて管理す
    る手段と、上記時間情報及び話者識別情報により上記管
    理される音声データを検索、再生する手段とを具備して
    なることを特徴とする情報処理装置。
  2. 【請求項2】 さらに上記入力された音声データの無音
    部を検知し、有音部のみを一単位の音声データとして切
    り出す手段を具備してなることを特徴とする請求項1記
    載の情報処理装置。
  3. 【請求項3】 さらに上記時間情報及び話者識別情報に
    従って上記音声データを所定のイメージで時間軸に沿っ
    て話者を識別可能に表示する手段を具備してなることを
    特徴とする請求項1又は2記載の情報処理装置。
  4. 【請求項4】 上記検索再生手段は、上記管理手段によ
    り管理される音声データの中から特定の話者識別情報を
    持つ音声データのみを選択して所定の順番で検索、再生
    する手段を含むことを特徴とする請求項1又は2記載の
    情報処理装置。
  5. 【請求項5】 さらに個人辞書を備え、上記解析手段の
    解析結果をこの個人辞書に登録する手段を具備してなる
    ことを特徴とする請求項1又は2記載の情報処理装置。
  6. 【請求項6】 上記解析手段は、上記音声データの時系
    列ピッチデータ(基本周波数)を抽出する手段を含み、
    さらに上記抽出された時系列ピッチデータの分布がガウ
    ス分布となるものと仮定して、話者別にその平均及び分
    散を求めて話者固有の時系列ピッチ分布データを算出す
    る手段を具備してなることを特徴とする請求項1又は2
    記載の情報処理装置。
  7. 【請求項7】 上記登録手段は、上記話者固有の時系列
    ピッチ分布データを個人辞書として登録する手段を含む
    ことを特徴とする請求項6記載の情報処理装置。
  8. 【請求項8】 さらに上記算出された話者固有の時系列
    ピッチ分布データから所定の評価に用いられるしきい値
    を話者別に算出する手段と、上記抽出された時系列ビッ
    チデータが所定の単位時間内に上記算出されたしきい値
    を超えた回数を求め、この回数によって所定の評価値を
    求める手段とを設け、上記管理手段は、上記所定の評価
    値をその音声データに関連づけて管理する手段を含むこ
    とを特徴とする請求項6記載の情報処理装置。
  9. 【請求項9】 上記表示手段は、上記所定の評価値に従
    って上記音声データを所定のイメージで時間軸に沿って
    表示する手段を含むことを特徴とする請求項8記載の情
    報処理装置。
  10. 【請求項10】 上記検索再生手段は、上記所定の評価
    値により上記音声データを検索、再生する手段を含むこ
    とを特徴とする請求項8記載の情報処理装置。
  11. 【請求項11】 上記登録手段は、上記算出した話者別
    のしきい値を個人辞書として登録する手段を含むことを
    特徴とする請求項8記載の情報処理装置。
  12. 【請求項12】 さらに上記音声データそれぞれについ
    て、その時系列ピッチデータの分布がガウス分布となる
    ものと仮定して、その平均及び分散を求める手段と、こ
    の求めた平均と上記算出した話者別の時系列ピッチデー
    タの平均とを比較して、声の高さを示す情報を取得する
    手段とを設け、上記管理手段は、この声の高さを示す情
    報をその音声データに関連づけて管理する手段を含むこ
    とを特徴とする請求項6記載の情報処理装置。
  13. 【請求項13】 上記表示手段は、上記声の高さを示す
    情報に従って上記音声データを所定のイメージで時間軸
    に沿って表示する手段を具備してなることを特徴とする
    請求項12記載の情報処理装置。
  14. 【請求項14】 上記検索再生手段は、上記声の高さを
    示す情報により上記音声データを検索、再生する手段を
    含むことを特徴とする請求項12記載の情報処理装置。
  15. 【請求項15】 上記解析手段は、上記音声データの振
    幅の平均、分散及び最大値を含むパラメータを算出する
    手段を含み、さらに上記算出されたパラメータから話者
    別の音声データの振幅の平均、分散及び最大値をを含む
    パラメータを算出する手段を具備してなることを特徴と
    する請求項1又は2記載の情報処理装置。
  16. 【請求項16】 上記登録手段は、上記話者別の振幅の
    パラメータを個人辞書に登録する手段を含むことを特徴
    とする請求項15記載の情報処理装置。
  17. 【請求項17】 さらに上記音声データの振幅のパラメ
    ータと上記算出された話者別の振幅のパラメータとを比
    較して、声の大きさを示す情報を取得する手段を設け、
    上記管理手段は、この声の大きさを示す情報をその音声
    データに関連づけて管理する手段を含むことを特徴とす
    る請求項15記載の情報処理装置。
  18. 【請求項18】 上記表示手段は、上記声の大きさを示
    す情報に従って上記音声データを所定のイメージで時間
    軸に沿って表示する手段を含むことを特徴とする請求項
    17記載の情報処理装置。
  19. 【請求項19】 上記検索再生手段は、上記声の大きさ
    を示す情報により上記音声データを検索、再生する手段
    を含むことを特徴とする請求項17記載の情報処理装
    置。
  20. 【請求項20】 上記解析手段は、所定の補間多項式を
    用いて上記音声データ間を補間する手段と、この補間さ
    れた音声データすべてに対し所定の時間をもつローパス
    フィルタもしくはそれに類する時系列ピッチデータの長
    時間的変動を抽出する手段とを含み、上記管理手段は、
    この長時間的変動を示す情報をその音声データに関連づ
    けて管理する手段を含むことを特徴とする請求項1又は
    2記載の情報処理装置。
  21. 【請求項21】 上記表示手段は、上記長時間的変動を
    示す情報に従って上記音声データを所定のイメージで時
    間軸に沿って表示する手段を含むことを特徴とする請求
    項20記載の情報処理装置。
  22. 【請求項22】 上記検索再生手段は、上記長時間的変
    動を示す情報により上記音声データを検索、再生する手
    段を含むことを特徴とする請求項20記載の情報処理装
    置。
  23. 【請求項23】 さらに上記抽出された時系列ピッチデ
    ータからその音声データの話者の性別を判定する手段を
    設け、上記管理手段は、この判定された性別を示す情報
    をその音声データに関連づけて管理する手段を含むこと
    を特徴とする請求項6記載の情報処理装置。
  24. 【請求項24】 上記表示手段は、上記性別を示す情報
    に従って上記音声データを所定のイメージで時間軸に沿
    って表示する手段を具備してなることを特徴とする請求
    項23記載の情報処理装置。
  25. 【請求項25】 上記検索再生手段は、上記性別を示す
    情報により上記音声データを検索、再生する手段を含む
    ことを特徴とする請求項23記載の情報処理装置。
  26. 【請求項26】 上記割付手段は、上記抽出された時系
    列ピッチデータから上記音声データを話者別に振り分
    け、この振り分けられた音声データ群単位に話者識別情
    報を割り付ける手段を含むことを特徴とする請求項6記
    載の情報処理装置。
JP7088201A 1995-04-13 1995-04-13 情報処理装置 Pending JPH08286693A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7088201A JPH08286693A (ja) 1995-04-13 1995-04-13 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7088201A JPH08286693A (ja) 1995-04-13 1995-04-13 情報処理装置

Publications (1)

Publication Number Publication Date
JPH08286693A true JPH08286693A (ja) 1996-11-01

Family

ID=13936291

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7088201A Pending JPH08286693A (ja) 1995-04-13 1995-04-13 情報処理装置

Country Status (1)

Country Link
JP (1) JPH08286693A (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083984A (ja) * 1999-09-09 2001-03-30 Alpine Electronics Inc インタフェース装置
WO2002044991A1 (en) * 2000-11-30 2002-06-06 Digital Agent, Inc. Method and system for emotion perception from text
JP2002258873A (ja) * 2001-03-01 2002-09-11 Sony Corp 音楽認識装置及び音楽サービスシステム
JP2004514178A (ja) * 2000-11-17 2004-05-13 フォルスカーパテント アイ エスワイディ アクチボラゲット 音声の分析の方法及び装置
JP2005049878A (ja) * 2003-07-29 2005-02-24 Lucent Technol Inc コンテンツ識別システム
JP2007108541A (ja) * 2005-10-14 2007-04-26 Nec Corp メタデータ付き通話音声データ提供システム、方法、プログラム、サーバー及び携帯端末
JP2008170588A (ja) * 2007-01-10 2008-07-24 Kenwood Corp 音声記録装置及び音声記録方法
JP2008204193A (ja) * 2007-02-20 2008-09-04 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム
WO2008126355A1 (ja) * 2007-03-29 2008-10-23 Panasonic Corporation キーワード抽出装置
JP2009058548A (ja) * 2007-08-30 2009-03-19 Oki Electric Ind Co Ltd 音声検索装置
JPWO2007043679A1 (ja) * 2005-10-14 2009-04-23 シャープ株式会社 情報処理装置およびプログラム
WO2010024426A1 (ja) * 2008-08-29 2010-03-04 ヤマハ株式会社 録音装置
JP2012159596A (ja) * 2011-01-31 2012-08-23 Internatl Business Mach Corp <Ibm> 情報処理装置、情報処理方法、情報処理システム、およびプログラム
JP2012168296A (ja) * 2011-02-10 2012-09-06 Fujitsu Ltd 音声による抑圧状態検出装置およびプログラム
WO2013175665A1 (ja) * 2012-05-24 2013-11-28 Necカシオモバイルコミュニケーションズ株式会社 通信装置
JP2014170132A (ja) * 2013-03-04 2014-09-18 Fujitsu Ltd 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083984A (ja) * 1999-09-09 2001-03-30 Alpine Electronics Inc インタフェース装置
JP2004514178A (ja) * 2000-11-17 2004-05-13 フォルスカーパテント アイ エスワイディ アクチボラゲット 音声の分析の方法及び装置
USRE43406E1 (en) 2000-11-17 2012-05-22 Transpacific Intelligence, Llc Method and device for speech analysis
WO2002044991A1 (en) * 2000-11-30 2002-06-06 Digital Agent, Inc. Method and system for emotion perception from text
JP2002258873A (ja) * 2001-03-01 2002-09-11 Sony Corp 音楽認識装置及び音楽サービスシステム
JP4506004B2 (ja) * 2001-03-01 2010-07-21 ソニー株式会社 音楽認識装置
JP2005049878A (ja) * 2003-07-29 2005-02-24 Lucent Technol Inc コンテンツ識別システム
JPWO2007043679A1 (ja) * 2005-10-14 2009-04-23 シャープ株式会社 情報処理装置およびプログラム
JP2007108541A (ja) * 2005-10-14 2007-04-26 Nec Corp メタデータ付き通話音声データ提供システム、方法、プログラム、サーバー及び携帯端末
JP2008170588A (ja) * 2007-01-10 2008-07-24 Kenwood Corp 音声記録装置及び音声記録方法
JP2008204193A (ja) * 2007-02-20 2008-09-04 Nippon Telegr & Teleph Corp <Ntt> コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム
US8370145B2 (en) 2007-03-29 2013-02-05 Panasonic Corporation Device for extracting keywords in a conversation
JP4838351B2 (ja) * 2007-03-29 2011-12-14 パナソニック株式会社 キーワード抽出装置
WO2008126355A1 (ja) * 2007-03-29 2008-10-23 Panasonic Corporation キーワード抽出装置
JP2009058548A (ja) * 2007-08-30 2009-03-19 Oki Electric Ind Co Ltd 音声検索装置
WO2010024426A1 (ja) * 2008-08-29 2010-03-04 ヤマハ株式会社 録音装置
JP2012159596A (ja) * 2011-01-31 2012-08-23 Internatl Business Mach Corp <Ibm> 情報処理装置、情報処理方法、情報処理システム、およびプログラム
JP2012168296A (ja) * 2011-02-10 2012-09-06 Fujitsu Ltd 音声による抑圧状態検出装置およびプログラム
US8935168B2 (en) 2011-02-10 2015-01-13 Fujitsu Limited State detecting device and storage medium storing a state detecting program
WO2013175665A1 (ja) * 2012-05-24 2013-11-28 Necカシオモバイルコミュニケーションズ株式会社 通信装置
JP2014170132A (ja) * 2013-03-04 2014-09-18 Fujitsu Ltd 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム
US10074384B2 (en) 2013-03-04 2018-09-11 Fujitsu Limited State estimating apparatus, state estimating method, and state estimating computer program

Similar Documents

Publication Publication Date Title
US11455985B2 (en) Information processing apparatus
US6697564B1 (en) Method and system for video browsing and editing by employing audio
US20170084295A1 (en) Real-time speaker state analytics platform
JPH08286693A (ja) 情報処理装置
US7627475B2 (en) Detecting emotions using voice signal analysis
US10347250B2 (en) Utterance presentation device, utterance presentation method, and computer program product
JP2003508805A (ja) 複数の音声信号パラメータの分析を通して音声信号の感情を検出する装置、方法、及び、製造物品
JP4495907B2 (ja) 音声の分析の方法及び装置
KR20080019278A (ko) 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램
JPWO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
KR20120038000A (ko) 대화의 주제를 결정하고 관련 콘텐트를 획득 및 제시하는 방법 및 시스템
JP4587854B2 (ja) 感情解析装置、感情解析プログラム、プログラム格納媒体
JP2008032825A (ja) 発言者表示システム、発言者表示方法および発言者表示プログラム
JP3437617B2 (ja) 時系列データ記録再生装置
Demenko et al. Analysis of voice stress in call centers conversations
JP6728116B2 (ja) 音声認識装置、音声認識方法およびプログラム
Toivanen et al. Emotions in [a]: a perceptual and acoustic study
JP2897701B2 (ja) 効果音検索装置
JP2005049773A (ja) 音楽再生装置
JP6314884B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JP3846300B2 (ja) 録音原稿作成装置および方法
JP2006251042A (ja) 情報処理装置、情報処理方法およびプログラム
JP3664499B2 (ja) 音声情報の処理方法及びその装置
JP6511380B2 (ja) 記録システムのための制御装置、記録システム、記録システムのための制御方法及び記録システムのための制御プログラム
JP2555009B2 (ja) 音声フアイル装置