JP2000075894A

JP2000075894A - 音声認識方法及び装置、音声対話システム、記録媒体

Info

Publication number: JP2000075894A
Application number: JP10246624A
Authority: JP
Inventors: Atsuji Nagahara; 敦示永原; Toshihiro Isobe; 俊洋磯部
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 1998-09-01
Filing date: 1998-09-01
Publication date: 2000-03-14

Abstract

(57)【要約】【課題】認識対象の音響的特徴が酷似し、単語出現頻
度もほぼ同一である場合であっても高精度な認識結果が
得られる音声認識装置を提供する。【解決手段】第１感性情報処理部１２では、韻律的感
性モデル１２１から入力音声データの韻律特徴に対応す
る感情価Ｑk が選び出す。音声認識部１３では、音響モ
デル１３１及び言語モデル１３２を利用して、入力音声
データの音声認識を行い、候補の単語のスコアＳwnを導
き、Ｓwnが最も高い単語候補Ｗn としてＮ個を選び出
す。第２感性情報処理部１４では、意味的感性モデル１
４１を用いてＮ個の単語候補Ｗn それぞれの感情価Ｒwn
を求める。感性状態統合部１５では、Ｎ個の単語候補Ｗ
n について、感情価Ｑk 、Ｒwnを用いて単語候補スコア
Ｓwnを重み付けすることで認識スコアＴwnを算出する。
認識結果出力部１６は認識スコアＴwnが最も高い単語候
補Ｗn を認識結果として出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、感性を伴う発話者
の音声を正しく認識する音声認識方法、音声認識装置、
及び音声認識装置を応用した音声対話システムに関す
る。

【０００２】

【従来の技術】従来の音声認識装置は、音声認識単位
毎、つまり音素や単語等に保有された音響モデルと、単
語列等の単語出現頻度に基づいて作成された言語モデル
とを利用して音声認識を行っている。音響モデルは、予
め大量の音声データから作成され、音声の音響的特徴を
保有しており、言語モデルは、予め大量のテキストデー
タから作成され、認識する単語の出現頻度及び連鎖確率
を保持している。

【０００３】このような音声認識装置による音声認識
は、以下のようにして行われる。まず入力された音声を
音素毎に分割してそれぞれ特徴ベクトルに置換する。そ
して、各特徴ベクトルをそれぞれ音響モデルと照合し、
最も照合スコアの高い単語を選出することで、入力音声
を音素／単語列化する。このとき、言語モデルによっ
て、次に出現しそうな単語列を推定する。これにより、
ただ単に音素列の検索を行うだけではなく、次に出現し
そうなものを検索することによって、認識精度を高めて
いる。これらの一連の認識処理を経ることによって、入
力音声に対する文字列の照合スコアを算出し、この照合
スコアが最大となる文字列を認識結果としている。

【０００４】

【発明が解決しようとする課題】従来の音声認識装置で
は、「成績が上がる」や「成績が下がる」等のように、
認識対象の音響的特徴が酷似し、なおかつ、単語出現頻
度もほぼ同一である場合においては、間違った認識結果
を導く可能性がある。特に、雑音等により音声の劣化が
著しい場合、この現象は顕著に見られる。また、音声認
識を対話処理に利用する場合に、対話の流れに矛盾した
認識結果を導いてしまう場合があった。

【０００５】そこで本発明の課題は、認識対象の音響的
特徴が酷似し、単語出現頻度もほぼ同一である場合であ
っても高精度な認識結果が得られ、音声認識を対話処理
に利用する場合に、対話の流れに矛盾しない認識結果を
得ることのできる、改良された音声認識方法を提供する
ことにある。本発明の他の課題は、上記音声認識方法の
実施に適した音声認識装置及びこの方法をコンピュータ
装置に実行させるための記録媒体を提供することにあ
る。本発明の他の課題は、上記音声認識方法を応用した
音声対話システムを提供することにある。

【０００６】

【課題を解決するための手段】上記課題を解決する本発
明の音声認識方法は、基本的に、発話音声データから韻
律情報を抽出して発話者の感性状態を推定し、音声認識
処理によって候補として挙げられる単語候補の中から推
定された感性状態に矛盾した認識結果を抑圧することに
より、高精度な音声認識を実現する。

【０００７】ここでいう感性状態とは、快、不快や喜怒
哀楽のような人間の気持ちを表現する状態をいう。音響
的特徴や言語的特徴（出現頻度等）の酷似への対処とし
て、発話音声全体の韻律的特徴に基づく感性状態と認識
候補単語の言語的意味に基づく感性状態とを求め、それ
ぞれの感性状態が矛盾するものの優先度を低減させる。
これにより、発話内容に矛盾した認識候補を軽減させ、
発話内容により一致した音声認識が期待できる。

【０００８】本発明の音声認識方法は、コンピュータ装
置上で下記の処理を実行することにより具現化される。（１）発話者の音声を入力してデジタルの音声データに
変換する音声入力処理、（２）前記音声入力処理により得られた音声データから
韻律情報を抽出してこの韻律情報に対応する韻律的感情
価を導出する第１感性情報処理、（３）前記音声入力処理により得られた音声データの認
識を行い、認識出現率の高い単語候補を選び出す音声認
識処理、（４）前記音声認識処理により得られた単語候補のそれ
ぞれの意味的感情価を導出する第２感性情報処理、（５）前記音声認識処理で得られた単語候補のそれぞれ
について、前記第１感性情報処理により得られた韻律的
感情価と前記音声認識処理により得られた単語候補スコ
アと前記第２感性情報処理で得られた意味的感情価とを
用いて重み付けすることで発話者の感性状態を加味した
認識スコアを導出する感性状態統合処理、（６）前記感性状態統合処理により得られた認識スコア
が最も高い単語候補を選出し、認識結果として出力する
認識結果出力処理。

【０００９】上記他の課題を解決する本発明の記録媒体
は、上記処理をコンピュータ装置に実行させるためのプ
ログラムが記録されたコンピュータ読取可能な記録媒体
である。

【００１０】上記他の課題を解決する本発明の音声認識
装置は、発話者の音声を入力してデジタル音声データに
変換する音声入力手段と、前記音声入力手段で得られた
入力音声データから韻律情報を抽出してこの韻律情報に
対応する韻律的感情価を求める第１感性情報処理手段
と、前記音声入力手段で得られた入力音声データの認識
を行い、認識出現率の高い単語候補を選び出す音声認識
手段と、前記音声認識手段で得られた単語候補のそれぞ
れの意味的感情価を求める第２感性情報処理手段と、前
記音声認識手段で得られた単語候補のそれぞれについ
て、前記第１感性情報処理手段で得られた韻律的感情価
と前記音声認識手段で得られた単語候補スコアと前記第
２感性情報処理手段で得られた意味的感情価とを用いて
重み付けすることで、発話者の感性状態を加味した認識
スコアを算出する感性状態統合手段と、前記感性状態統
合手段で得られた認識スコアが最も高い単語候補を選出
し、認識結果として出力する認識結果出力手段とを具備
したことを特徴とする。

【００１１】前記感性状態統合手段は、例えば、前記韻
律的感情価と意味的感情価との差に基づいて前記単語候
補スコアを重み付けすることで、韻律的な感性状態に矛
盾する意味的な感性状態に該当する単語候補を抑圧する
ように構成する。

【００１２】上記音声認識装置は、より具体的には、前
記音声入力手段で得られた入力音声データから韻律特徴
ベクトルＸIを抽出し、現在の特徴ベクトルＸiと最も近
いベクトルＸjに対応する韻律的感情価Ｑkを選び出す第
１感性情報処理手段と、前記音声入力手段で得られた入
力音声データの認識を行い、候補として挙げられる単語
のスコアＳwnを導き出し、そのスコアＳwnが最も高い単
語Ｎ個を単語候補Ｗnとして選び出す音声認識手段と、
前記音声認識手段で得られたＮ個の単語候補Ｗn のそれ
ぞれの意味的感情価Ｒwnを求める第２感性情報処理手段
と、前記音声認識手段で得られたＮ個の単語候補Ｗn の
それぞれについて、前記第１感性情報処理手段で得られ
た韻律的感情価Ｑkと、前記音声認識手段で得られた単
語候補スコアＳwnと、前記第２感性情報処理手段で得ら
れた意味的感情価Ｒwnとを用いて、認識スコアＴwnを、Ｔwn＝Ｓwn×α（Ｑk −Ｒwn）＾（−β）（但し、α、βは正の定数）により算出する感性状態統合手段と、前記感性状態統合
手段で得られた認識スコアＴwnが最も高い単語候補Ｗn
を選出し、認識結果として出力する認識結果出力手段と
を具備して構成する。

【００１３】また、前記第１感性情報処理手段は、大量
の音声データを用いて予め求めた韻律特徴ベクトルＸk
と感情価Ｑkとの対応関係を示すテーブルとして韻律的
感性モデルを備えており、この韻律的感性モデルを参照
して入力音声データに対応する韻律的感情価ＱKを導出
するように構成し、前記第２の感性情報処理手段は、大
量のテキストデータを用いて予め求められた単語Ｗjと
感情価Ｒwjとの対応関係を示すテーブルとして意味的感
性モデルを備えており、この意味的感性モデルを参照し
て単語Ｗnの意味的感情価Ｒwnを求めるように構成す
る。

【００１４】本発明の音声認識手法を応用した音声対話
システムは、音声認識機能において、「音情報（音響的
特徴及び言語的特徴に基づく情報）」と「感性情報（韻
律的特徴に基づく情報）」の２種類の情報を利用して認
識結果を絞りこむことで、認識誤りを軽減させ、発話者
の感性状態に則したユーザフレンドリーな音声認識を可
能にする。

【００１５】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。図１は本発明の音声認識装
置の一実施形態を示すものである。本実施形態では、
「感性状態」という概念を用いる。「感性状態」は、
快、不快や喜怒哀楽のような人間の気持ちを表現する状
態であり、ｋ個のカテゴリの感性度合いで表現される。
それぞれのカテゴリの感性度合は、連続数値で表すこと
にする。例えば、快、不快というカテゴリに対しては、
不快を“１”、快を“５”とした１軸上の数値として表
現する。これらの各カテゴリの連続数値を統合したベク
トルのことを総称して感情価（単語についての感情価、
特徴ベクトルについての感情価がある）と呼ぶことにす
る。

【００１６】図１において、音声入力部１１は、マイク
ロフォン等を通じて発話者のアナログ音声信号を取り込
み、これをデジタルの入力音声データに変換して出力す
る。ここで得られた入力音声データは、第１感性情報処
理部１２及び音声認識部１３に送られる。

【００１７】第１感性情報処理部１２は、図２に示すよ
うに、発話音声中に含まれる韻律情報（例えば、ピッチ
情報等）を表す特徴ベクトル（例えば、第１フォルマン
ト、第２フォルマント等）と感情価（特徴ベクトルにつ
いての感情価）との対応関係を示す韻律的感性モデル１
２１を備えている。この韻律的感性モデル１２１は、大
量の音声データを用いた心理実験から予め求められた韻
律特徴ベクトルと感情価との対応関係を示すテーブルで
ある。そして、入力音声データに公知のＦＦＴやｌｐｃ
解析等の処理を施して韻律特徴ベクトルを抽出し、現在
の特徴ベクトルと最も近いベクトルを上記韻律的感性モ
デル１２１から導き出し、当該モデル１２１を参照して
対応する感情価を選び出す。ここで選出された感情価
は、感性状態統合部１５に送られる。

【００１８】音声認識部１３は、音声認識単位毎（音素
や単語等）に保有された音響モデル１３１及び単語列等
の単語出現頻度に基づいて作成された言語モデル１３２
を備えている。そして、これらのモデルを利用して入力
音声データについて音声認識を行い、候補として挙げら
れる単語のスコアを導き出す。音声認識は、従来からの
音声認識技術を利用することができる。このとき、認識
スコアが高い１または複数の単語を単語候補として選び
出す。ここで得られた単語候補は第２感性情報処理部１
４及び感性状態統合部１５に、単語候補のスコアは感性
状態統合部１５にそれぞれ送られる。

【００１９】第２感性情報処理部１４は、図３に示すよ
うに、単語と感情価（単語についての感情価）との対応
関係を示す意味的感性モデル１４１を備えている。この
意味的感性モデル１４１は、大量のテキストデータを用
いた心理実験から予め求められた単語と感情価との対応
関係を示すテーブルである。そして、この意味的感性モ
デル１４１を用いて音声認識部１３から渡された単語候
補のそれぞれの感情価を求める。ここで得られた感情価
は、感性状態統合部１５に送られる。

【００２０】感性状態統合部１５は、音声認識部１３か
らの単語候補のそれぞれについて、第１感性情報処理部
１２からの感情価と、音声認識部１３からの単語候補ス
コアと、第２感性情報処理部１４からの感情価とを用い
て認識スコアを算出する。この認識スコアは認識結果出
力部１６に送られる。認識結果出力部１６は、認識スコ
アが最も高い単語候補を選び出し、これを認識結果とし
て出力する。

【００２１】なお、上記機能を有する本実施形態の音声
認識装置は、例えば磁気ディスク、光ないし光磁気ディ
スク、半導体メモリなどに記録されたコンピュータプロ
グラム、あるいは通信媒体を通じて伝送されたコンピュ
ータプログラムによって動作が制御されるコンピュータ
装置によって実施が可能である。また、信号処理プロセ
ッサを用いても実施が可能である。

【００２２】次に、上記音声認識装置を用いた音声認識
方法について説明する。この方法は、具体的には、以下
の手順で行われる。まず、音声入力部１１から発話者の
入力音声データを取り込む。この入力音声データは、発
話者の感性状態を反映したものである。

【００２３】第１感性情報処理部１２は、入力音声デー
タから韻律特徴ベクトルＸIを抽出し、現在の特徴ベク
トルＸi と最も近いベクトルＸj を韻律的感性モデル１
２１から導き出して、対応する感情価Ｑk を選び出す。
音声認識部１３では、入力音声データの音声認識を行っ
て単語候補の認識スコアＳwnを導き、この認識スコアＳ
wnが高いＮ個の単語候補Ｗn を選び出す。そして、これ
らの単語候補Ｗn を、第２感性情報処理部１４に入力す
る。第２感性情報処理部１４は、Ｎ個の単語候補Ｗn の
それぞれの感情価Ｒwnを求め、これらを感性状態統合部
１５に送る。

【００２４】感性状態統合部１５は、音声認識部１３か
ら渡されたＮ個の単語候補Ｗn のそれぞれについて、第
１感性情報処理部１２で得られた感情価Ｑk と、音声認
識部１３で得られた単語候補スコアＳwnと、第２感性情
報処理部１４で得られた感情価Ｒwnとを用いて、以下の
計算式により認識スコアＴwnを算出する。このとき、
α、βは正の定数とする。Ｔwn＝Ｓwn×α（Ｑk −Ｒwn）＾（−β）

【００２５】Ｎ個の単語候補Ｗn のそれぞれの認識スコ
アＴwnは認識結果出力部１６に送られる。認識結果出力
部１６では、以下の式からスコアＴwnが最も高い単語候
補Ｗn を選び出し、認識結果として出力する。Ｗn ＝｛Ｗn ｜ argwn max（Ｔwn）｝ここで、 γ＝α（Ｑk −Ｒwn）＾（−β）とおけば、認識結果は以下のように表現できる。Ｗn ＝｛Ｗn ｜ argwn max（Ｓwn×γ）｝

【００２６】このように、本実施形態では、入力音声デ
ータから発話者の感性状態に相当する感情価を推定し、
第２感性情報処理部１４にて音声認識部１３の処理によ
って得られた認識結果候補のそれぞれの単語の持つ感情
価を求め、感性状態統合部１５にて、単語候補の中から
推定された感性状態に矛盾した認識結果を抑圧するよう
にしたので、感性状態を反映した入力音声データの認識
を高精度に行うことができるようになる。

【００２７】また、音響的特徴や言語的特徴（出現頻度
等）の酷似への対処として、発話音声全体の韻律的特徴
に基づく感性状態と認識候補単語の言語的意味に基づく
感性状態とを求め、それぞれの感性状態が矛盾するもの
の優先度を低減させている。したがって、発話内容に矛
盾した認識候補を抑圧することができ、発話内容により
一致した音声認識が期待できるようになる。具体的に
は、従来の音声認識で利用していた認識スコアＳwnに感
性状態に基づくスコアγを下式のように掛け合わせるこ
とによって、発声内容に矛盾した認識結果を抑圧するこ
とができる。Ｗn ＝｛Ｗn ｜ argwn max（Ｓwn×γ）｝

【００２８】図４は、上記音声認識方法を、コンピュー
タ装置にコンピュータプログラムを読み込ませて実行さ
せることにより実現する場合の処理手順例を示した図で
ある。この場合、上記各種モデル１２１、１３１、１３
２、１４１は、外部記録媒体に格納しておく。

【００２９】図４において、認識対象となる音声が入力
されると（Ｓ１）、韻律的感性モデルを参照し、音声中
の韻律情報に対応する特徴ベクトルＸk と感情価Ｑk を
求める（Ｓ２）。次に、音響モデル、言語モデルを参照
し、認識した単語候補Ｗ1 〜Ｗn を抽出し、それぞれの
認識スコアＳw1〜Ｓwnを求める（Ｓ３）。さらに、意味
的感性モデルを参照して、単語候補単語候補Ｗ1 〜Ｗn
それぞれの感情価Ｒw1〜Ｒwnを求める（Ｓ４）。次い
で、単語候補Ｗ1 〜Ｗn のそれぞれについて、対応する
意味的感情価Ｒw1〜Ｒwn、単語候補スコアＳw1〜Ｓwn、
韻律的感情価Ｑk から認識スコアＴw1〜Ｔwnを求め（ス
テップＳ５）、認識スコアＴw1〜Ｔwnから最も高い単語
候補を選択し、識別結果として出力する（ステップＳ
６）。

【００３０】次に、本発明の音声認識装置を応用した音
声対話システムについて説明する。図５はこの音声対話
システムの構成を示すもので、音声認識装置２１は図１
にその構成例を示した本実施形態の音声認識装置であ
る。この音声認識装置２１で順次認識された単語列は、
応答処理装置２２に送られる。この応答処理装置２２
は、入力した単語列からその意味を把握し、音声辞書フ
ァイル２３から該当する応答音声データを抽出し、音声
合成装置２４へ出力する。

【００３１】音声合成装置２４は、入力した応答音声デ
ータをアナログ音声信号に変換し、スピーカ２５により
音声出力する。また、応答処理装置２２は、応答音声デ
ータを抽出する際、キャラクタファイル２６から該当す
るアニメーション等のキャラクタ情報を選択し、適宜デ
ィスプレイ２７に表示する。

【００３２】以下、音声認識の具体例として、「上がっ
た」、「下がった」の２単語を認識する場合について説
明する。まず、ユーザ（発話者）が「今日、テストの成
績が上がったんだよ。」と音声入力したとする。このと
き、音声認識装置２１では、以下のような処理を行う
（機能ブロックの符号については図１参照）。音声入力
部１１で、アナログ音声をデジタルの入力音声データに
変換する。また、第１感性情報処理部１２での韻律特徴
抽出の結果、韻律特徴ベクトルＸk が得られ、それに対
応した感情価Ｑk が選出される。この感情価Ｑk は感性
状態統合部１５に渡される。

【００３３】ここで、「上がった」部分の認識に着目す
ると、音声認識部１３では、「上がった（Ｗ1 ）」「下
がった（Ｗ2 ）」が認識結果の単語候補として導出され
る。これらの単語候補Ｗ1 、Ｗ2 は第２感性情報処理部
１４に渡される。また、音声認識処理部１３で得られる
単語候補各々の認識スコアＳw1，Ｓw2は、感性情報統合
部１５に渡される。

【００３４】第２感性情報処理部１４では、「上がった
（Ｗ1 ）」の感情価Ｒw1、「下がった（Ｗ2 ）」の感情
価Ｒw2が意味的感性モデル１４１との比較によって導き
出される。これらの感情価Ｒw1、Ｒw2は、感性状態統合
部１５に渡される。感性状態統合処理部１５では、第１
感性情報処理部１２、音声認識部１３、第２感性情報処
理部１４の各処理結果から認識スコアＴw1，Ｔw2を計算
し、計算結果を認識結果出力部１６に渡す。認識結果出
力部１６では、認識スコアＴw1，Ｔw2で大きい方を認識
結果とする。ここではＴw1＜Ｔw2となり、認識結果は
「上がった」となる。

【００３５】応答処理装置２２は認識結果の「上がっ
た」に着目し、音声辞書ファイル２３から「よかった
ね。」という応答音声データを抽出し、音声合成装置２
４を通じてスピーカ２５より音声出力するようになる。

【００３６】一方、ユーザが「今日、テストの成績が下
がったんだよ。」と音声入力した場合、音声認識装置２
１では上記認識スコアＴw1，Ｔw2がＴw1＞Ｔw2となり、
認識結果は「下がった」となる。このとき、応答処理装
置２２は認識結果の「下がった」に着目し、音声辞書フ
ァイル２３から「残念だったね。」という応答音声デー
タを抽出し、音声合成装置２４を通じてスピーカ２５よ
り音声出力するようになる。

【００３７】ここで、ノイズ等の影響により、「上がっ
た」、「下がった」の部分が不明瞭となり、「今日、テ
ストの成績が×がったんだよ。」（×部分が欠落）の音
声が入力されたとする。この場合、従来の方法では「上
がった」、「下がった」の出現率が同一であるため、正
しい応答を期待することができない。これに対し、本発
明の方法によれば、韻律的な抑揚から感性状態を推定し
てうれしい表現なのか、悲しい表現なのかを把握し、こ
れを感情価として重み付けする。

【００３８】この方法によれば、うれしい表現として把
握された場合には、認識スコアがＴw1＜Ｔw2となり、認
識結果は「上がった」となって、「よかったね。」とい
う応答音声が出力されるようになる。また、悲しい表現
として把握された場合には、認識スコアがＴw1＞Ｔw2と
なり、認識結果は「下がった」となって、「残念だった
ね。」という応答音声が出力されるようになる。従っ
て、音声入力が不明瞭となって基本的な単語の一部が情
報として欠落しても、韻律的感性状態に合致しない選択
肢が排除されるため、正しい応答を出力する確率は格段
に向上するようになる。

【００３９】このように、マン・マシン・インターフェ
ースとして音声認識を利用し、音声を認識してコンピュ
ータが何らかのリアクションを実行するものとし、リア
クションとして、表情等をアニメーションで出力する
等、ユーザフレンドリなインターフェース構築を目指す
場合に、認識対象の音響的特徴が酷似し、単語出現頻度
もほぼ同一である場合でも高精度な認識率を期待できる
本発明を適用することは極めて有効であると考えられ
る。

【００４０】

【発明の効果】以上の説明から明らかなように、本発明
によれば、認識対象の音響的特徴が酷似し、なおかつ、
単語出現頻度もほぼ同一である場合であっても高精度な
認識結果が得られる効果がある。また、音声認識を対話
処理に利用する場合に、対話の流れに矛盾しない認識結
果が得られる効果がある。

【図面の簡単な説明】

【図１】本発明の音声認識装置の実施の形態の構成を示
す機能ブロック図。

【図２】本実施形態に用いられる韻律的感性モデルの具
体例を示す図。

【図３】本実施形態に用いられる意味的感性モデルの具
体例を示す図。

【図４】本発明に係る音声認識方法の処理の流れを示す
フローチャート。

【図５】本発明の音声認識装置を利用した音声対話シス
テムの構成を示すブロック図。

【符号の説明】

１１音声入力部１２第１感性情報処理部１２１韻律的感性モデル１３音声認識部１３１音響モデル１３２言語モデル１４第２感性情報処理部１４１意味的感性モデル１５感性状態統合部１６認識結果出力部２１音声認識装置２２応答処理装置２３音声辞書ファイル２４音声合成装置２５スピーカ２６キャラクタファイル２７ディスプレイ

Claims

【特許請求の範囲】

【請求項１】入力音声データから韻律情報を抽出して
発話者の感性状態を推定する過程と、音声認識処理により候補として挙げられた単語候補の中
から前記推定された感性状態に矛盾した認識結果を特定
する過程と、特定した認識結果を抑圧する過程とを含む音声認識方
法。
【請求項２】発話者の音声を入力してデジタル音声デ
ータに変換する音声入力処理と、前記音声入力処理により得られた音声データから韻律情
報を抽出してこの韻律情報に対応する韻律的感情価を導
出する第１感性情報処理と、前記音声入力処理により得られた音声データの認識を行
い、認識出現率の高い単語候補を選び出す音声認識処理
と、前記音声認識処理により得られた単語候補のそれぞれの
意味的感情価を導出する第２感性情報処理と、前記音声認識処理で得られた単語候補のそれぞれについ
て、前記第１感性情報処理により得られた韻律的感情価
と前記音声認識処理により得られた単語候補スコアと前
記第２感性情報処理で得られた意味的感情価とを用いて
重み付けすることで、発話者の感性状態を加味した認識
スコアを導出する感性状態統合処理と、前記感性状態統合処理により得られた認識スコアが最も
高い単語候補を選出し、認識結果として出力する認識結
果出力処理とをコンピュータ装置において実行すること
を特徴とする音声認識方法。
【請求項３】発話者の音声を入力してデジタル音声デ
ータに変換する音声入力手段と、前記音声入力手段で得られた入力音声データから韻律情
報を抽出してこの韻律情報に対応する韻律的感情価を求
める第１感性情報処理手段と、前記音声入力手段で得られた入力音声データの認識を行
い、認識出現率の高い単語候補を選び出す音声認識手段
と、前記音声認識手段で得られた単語候補のそれぞれの意味
的感情価を求める第２感性情報処理手段と、前記音声認識手段で得られた単語候補のそれぞれについ
て、前記第１感性情報処理手段で得られた韻律的感情価
と前記音声認識手段で得られた単語候補スコアと前記第
２感性情報処理手段で得られた意味的感情価とを用いて
重み付けすることで、発話者の感性状態を加味した認識
スコアを算出する感性状態統合手段と、前記感性状態統
合手段で得られた認識スコアが最も高い単語候補を選出
し、認識結果として出力する認識結果出力手段と、を具備したことを特徴とする音声認識装置。
【請求項４】前記感性状態統合手段は、前記韻律的感
情価と意味的感情価との差に基づいて前記単語候補スコ
アを重み付けすることで、韻律的な感性状態に矛盾する
意味的な感性状態に該当する単語候補を抑圧することを
特徴とする、請求項３記載の音声認識装置。
【請求項５】発話者の音声を入力してデジタル音声デ
ータに変換する音声入力手段と、前記音声入力手段で得られた入力音声データから韻律特
徴ベクトルＸIを抽出し、現在の特徴ベクトルＸiと最も
近いベクトルＸjに対応する韻律的感情価Ｑkを選び出す
第１感性情報処理手段と、前記音声入力手段で得られた入力音声データの認識を行
い、候補として挙げられる単語のスコアＳwnを導き出
し、そのスコアＳwnが最も高い単語Ｎ個を単語候補Ｗn
として選び出す音声認識手段と、前記音声認識手段で得られたＮ個の単語候補Ｗn のそれ
ぞれの意味的感情価Ｒwnを求める第２感性情報処理手段
と、前記音声認識手段で得られたＮ個の単語候補Ｗn のそれ
ぞれについて、前記第１感性情報処理手段で得られた韻
律的感情価Ｑkと、前記音声認識手段で得られた単語候
補スコアＳwnと、前記第２感性情報処理手段で得られた
意味的感情価Ｒwnとを用いて、認識スコアＴwnを、Ｔwn＝Ｓwn×α（Ｑk −Ｒwn）＾（−β）（但し、α、βは正の定数）により算出する感性状態統合手段と、前記感性状態統合手段で得られた認識スコアＴwnが最も
高い単語候補Ｗnを選出し、認識結果として出力する認
識結果出力手段とを具備したことを特徴とする、音声認識装置。
【請求項６】前記第１感性情報処理手段は、大量の音
声データを用いて予め求めた韻律特徴ベクトルＸkと感
情価Ｑkとの対応関係を示すテーブルとして韻律的感性
モデルを備えており、この韻律的感性モデルを参照して
入力音声データに対応する韻律的感情価ＱKを導出する
ように構成されていることを特徴とする、請求項５記載の音声認識装置。
【請求項７】前記第２の感性情報処理手段は、大量の
テキストデータを用いて予め求められた単語Ｗjと感情
価Ｒwjとの対応関係を示すテーブルとして意味的感性モ
デルを備えており、この意味的感性モデルを参照して単
語Ｗnの意味的感情価Ｒwnを求めるように構成されてい
ることを特徴とする、請求項５記載の音声認識装置。
【請求項８】請求項３乃至７のいずれかの項記載の音
声認識装置と、この音声認識装置の認識結果に対応する
意味の応答音声データを出力する応答処理装置と、前記
応答音声データをアナログ音声信号に変換して出力する
音声出力手段とを備え、感性を伴う入力音声に対する自
動応答を行うことを特徴とする音声対話システム。
【請求項９】表情を伴うアニメーション等のキャラク
タ情報を保持するキャラクタ情報保持手段と、特定のキ
ャラクタ情報を表示させる表示手段とをさらに備え、前
記応答処理手段は、前記応答音声データに対応するキャ
ラクタ情報を前記キャラクタ情報保持手段より選択して
前記表示手段に表示させることを特徴とする、請求項８
記載の音声対話システム。
【請求項１０】発話者の音声を入力してデジタル音声
データに変換する音声入力処理、前記音声入力処理により得られた音声データから韻律情
報を抽出してこの韻律情報に対応する韻律的感情価を導
出する第１感性情報処理、前記音声入力処理により得られた音声データの認識を行
い、認識出現率の高い単語候補を選び出す音声認識処
理、前記音声認識処理により得られた単語候補のそれぞれの
意味的感情価を導出する第２感性情報処理、前記音声認識処理で得られた単語候補のそれぞれについ
て、前記第１感性情報処理により得られた韻律的感情価
と前記音声認識処理により得られた単語候補スコアと前
記第２感性情報処理で得られた意味的感情価とを用いて
重み付けすることで、発話者の感性状態を加味した認識
スコアを導出する感性状態統合処理、前記感性状態統合処理により得られた認識スコアが最も
高い単語候補を選出し、認識結果として出力する認識結
果出力処理をコンピュータ装置に実行させるためのプロ
グラムが記録されたコンピュータ読取可能な記録媒体。