JP2000075894A - 音声認識方法及び装置、音声対話システム、記録媒体 - Google Patents

音声認識方法及び装置、音声対話システム、記録媒体

Info

Publication number
JP2000075894A
JP2000075894A JP10246624A JP24662498A JP2000075894A JP 2000075894 A JP2000075894 A JP 2000075894A JP 10246624 A JP10246624 A JP 10246624A JP 24662498 A JP24662498 A JP 24662498A JP 2000075894 A JP2000075894 A JP 2000075894A
Authority
JP
Japan
Prior art keywords
recognition
voice
word
speech
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10246624A
Other languages
English (en)
Inventor
Atsuji Nagahara
敦示 永原
Toshihiro Isobe
俊洋 磯部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP10246624A priority Critical patent/JP2000075894A/ja
Publication of JP2000075894A publication Critical patent/JP2000075894A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 認識対象の音響的特徴が酷似し、単語出現頻
度もほぼ同一である場合であっても高精度な認識結果が
得られる音声認識装置を提供する。 【解決手段】 第1感性情報処理部12では、韻律的感
性モデル121から入力音声データの韻律特徴に対応す
る感情価Qk が選び出す。音声認識部13では、音響モ
デル131及び言語モデル132を利用して、入力音声
データの音声認識を行い、候補の単語のスコアSwnを導
き、Swnが最も高い単語候補Wn としてN個を選び出
す。第2感性情報処理部14では、意味的感性モデル1
41を用いてN個の単語候補Wn それぞれの感情価Rwn
を求める。感性状態統合部15では、N個の単語候補W
n について、感情価Qk 、Rwnを用いて単語候補スコア
Swnを重み付けすることで認識スコアTwnを算出する。
認識結果出力部16は認識スコアTwnが最も高い単語候
補Wn を認識結果として出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、感性を伴う発話者
の音声を正しく認識する音声認識方法、音声認識装置、
及び音声認識装置を応用した音声対話システムに関す
る。
【0002】
【従来の技術】従来の音声認識装置は、音声認識単位
毎、つまり音素や単語等に保有された音響モデルと、単
語列等の単語出現頻度に基づいて作成された言語モデル
とを利用して音声認識を行っている。音響モデルは、予
め大量の音声データから作成され、音声の音響的特徴を
保有しており、言語モデルは、予め大量のテキストデー
タから作成され、認識する単語の出現頻度及び連鎖確率
を保持している。
【0003】このような音声認識装置による音声認識
は、以下のようにして行われる。まず入力された音声を
音素毎に分割してそれぞれ特徴ベクトルに置換する。そ
して、各特徴ベクトルをそれぞれ音響モデルと照合し、
最も照合スコアの高い単語を選出することで、入力音声
を音素/単語列化する。このとき、言語モデルによっ
て、次に出現しそうな単語列を推定する。これにより、
ただ単に音素列の検索を行うだけではなく、次に出現し
そうなものを検索することによって、認識精度を高めて
いる。これらの一連の認識処理を経ることによって、入
力音声に対する文字列の照合スコアを算出し、この照合
スコアが最大となる文字列を認識結果としている。
【0004】
【発明が解決しようとする課題】従来の音声認識装置で
は、「成績が上がる」や「成績が下がる」等のように、
認識対象の音響的特徴が酷似し、なおかつ、単語出現頻
度もほぼ同一である場合においては、間違った認識結果
を導く可能性がある。特に、雑音等により音声の劣化が
著しい場合、この現象は顕著に見られる。また、音声認
識を対話処理に利用する場合に、対話の流れに矛盾した
認識結果を導いてしまう場合があった。
【0005】そこで本発明の課題は、認識対象の音響的
特徴が酷似し、単語出現頻度もほぼ同一である場合であ
っても高精度な認識結果が得られ、音声認識を対話処理
に利用する場合に、対話の流れに矛盾しない認識結果を
得ることのできる、改良された音声認識方法を提供する
ことにある。本発明の他の課題は、上記音声認識方法の
実施に適した音声認識装置及びこの方法をコンピュータ
装置に実行させるための記録媒体を提供することにあ
る。本発明の他の課題は、上記音声認識方法を応用した
音声対話システムを提供することにある。
【0006】
【課題を解決するための手段】上記課題を解決する本発
明の音声認識方法は、基本的に、発話音声データから韻
律情報を抽出して発話者の感性状態を推定し、音声認識
処理によって候補として挙げられる単語候補の中から推
定された感性状態に矛盾した認識結果を抑圧することに
より、高精度な音声認識を実現する。
【0007】ここでいう感性状態とは、快、不快や喜怒
哀楽のような人間の気持ちを表現する状態をいう。音響
的特徴や言語的特徴(出現頻度等)の酷似への対処とし
て、発話音声全体の韻律的特徴に基づく感性状態と認識
候補単語の言語的意味に基づく感性状態とを求め、それ
ぞれの感性状態が矛盾するものの優先度を低減させる。
これにより、発話内容に矛盾した認識候補を軽減させ、
発話内容により一致した音声認識が期待できる。
【0008】本発明の音声認識方法は、コンピュータ装
置上で下記の処理を実行することにより具現化される。 (1)発話者の音声を入力してデジタルの音声データに
変換する音声入力処理、 (2)前記音声入力処理により得られた音声データから
韻律情報を抽出してこの韻律情報に対応する韻律的感情
価を導出する第1感性情報処理、 (3)前記音声入力処理により得られた音声データの認
識を行い、認識出現率の高い単語候補を選び出す音声認
識処理、 (4)前記音声認識処理により得られた単語候補のそれ
ぞれの意味的感情価を導出する第2感性情報処理、 (5)前記音声認識処理で得られた単語候補のそれぞれ
について、前記第1感性情報処理により得られた韻律的
感情価と前記音声認識処理により得られた単語候補スコ
アと前記第2感性情報処理で得られた意味的感情価とを
用いて重み付けすることで発話者の感性状態を加味した
認識スコアを導出する感性状態統合処理、 (6)前記感性状態統合処理により得られた認識スコア
が最も高い単語候補を選出し、認識結果として出力する
認識結果出力処理。
【0009】上記他の課題を解決する本発明の記録媒体
は、上記処理をコンピュータ装置に実行させるためのプ
ログラムが記録されたコンピュータ読取可能な記録媒体
である。
【0010】上記他の課題を解決する本発明の音声認識
装置は、発話者の音声を入力してデジタル音声データに
変換する音声入力手段と、前記音声入力手段で得られた
入力音声データから韻律情報を抽出してこの韻律情報に
対応する韻律的感情価を求める第1感性情報処理手段
と、前記音声入力手段で得られた入力音声データの認識
を行い、認識出現率の高い単語候補を選び出す音声認識
手段と、前記音声認識手段で得られた単語候補のそれぞ
れの意味的感情価を求める第2感性情報処理手段と、前
記音声認識手段で得られた単語候補のそれぞれについ
て、前記第1感性情報処理手段で得られた韻律的感情価
と前記音声認識手段で得られた単語候補スコアと前記第
2感性情報処理手段で得られた意味的感情価とを用いて
重み付けすることで、発話者の感性状態を加味した認識
スコアを算出する感性状態統合手段と、前記感性状態統
合手段で得られた認識スコアが最も高い単語候補を選出
し、認識結果として出力する認識結果出力手段とを具備
したことを特徴とする。
【0011】前記感性状態統合手段は、例えば、前記韻
律的感情価と意味的感情価との差に基づいて前記単語候
補スコアを重み付けすることで、韻律的な感性状態に矛
盾する意味的な感性状態に該当する単語候補を抑圧する
ように構成する。
【0012】上記音声認識装置は、より具体的には、前
記音声入力手段で得られた入力音声データから韻律特徴
ベクトルXIを抽出し、現在の特徴ベクトルXiと最も近
いベクトルXjに対応する韻律的感情価Qkを選び出す第
1感性情報処理手段と、前記音声入力手段で得られた入
力音声データの認識を行い、候補として挙げられる単語
のスコアSwnを導き出し、そのスコアSwnが最も高い単
語N個を単語候補Wnとして選び出す音声認識手段と、
前記音声認識手段で得られたN個の単語候補Wn のそれ
ぞれの意味的感情価Rwnを求める第2感性情報処理手段
と、前記音声認識手段で得られたN個の単語候補Wn の
それぞれについて、前記第1感性情報処理手段で得られ
た韻律的感情価Qkと、前記音声認識手段で得られた単
語候補スコアSwnと、前記第2感性情報処理手段で得ら
れた意味的感情価Rwnとを用いて、認識スコアTwnを、 Twn=Swn×α(Qk −Rwn)^(−β) (但し、α、βは正の定数) により算出する感性状態統合手段と、前記感性状態統合
手段で得られた認識スコアTwnが最も高い単語候補Wn
を選出し、認識結果として出力する認識結果出力手段と
を具備して構成する。
【0013】また、前記第1感性情報処理手段は、大量
の音声データを用いて予め求めた韻律特徴ベクトルXk
と感情価Qkとの対応関係を示すテーブルとして韻律的
感性モデルを備えており、この韻律的感性モデルを参照
して入力音声データに対応する韻律的感情価QKを導出
するように構成し、前記第2の感性情報処理手段は、大
量のテキストデータを用いて予め求められた単語Wjと
感情価Rwjとの対応関係を示すテーブルとして意味的感
性モデルを備えており、この意味的感性モデルを参照し
て単語Wnの意味的感情価Rwnを求めるように構成す
る。
【0014】本発明の音声認識手法を応用した音声対話
システムは、音声認識機能において、「音情報(音響的
特徴及び言語的特徴に基づく情報)」と「感性情報(韻
律的特徴に基づく情報)」の2種類の情報を利用して認
識結果を絞りこむことで、認識誤りを軽減させ、発話者
の感性状態に則したユーザフレンドリーな音声認識を可
能にする。
【0015】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。図1は本発明の音声認識装
置の一実施形態を示すものである。本実施形態では、
「感性状態」という概念を用いる。「感性状態」は、
快、不快や喜怒哀楽のような人間の気持ちを表現する状
態であり、k個のカテゴリの感性度合いで表現される。
それぞれのカテゴリの感性度合は、連続数値で表すこと
にする。例えば、快、不快というカテゴリに対しては、
不快を“1”、快を“5”とした1軸上の数値として表
現する。これらの各カテゴリの連続数値を統合したベク
トルのことを総称して感情価(単語についての感情価、
特徴ベクトルについての感情価がある)と呼ぶことにす
る。
【0016】図1において、音声入力部11は、マイク
ロフォン等を通じて発話者のアナログ音声信号を取り込
み、これをデジタルの入力音声データに変換して出力す
る。ここで得られた入力音声データは、第1感性情報処
理部12及び音声認識部13に送られる。
【0017】第1感性情報処理部12は、図2に示すよ
うに、発話音声中に含まれる韻律情報(例えば、ピッチ
情報等)を表す特徴ベクトル(例えば、第1フォルマン
ト、第2フォルマント等)と感情価(特徴ベクトルにつ
いての感情価)との対応関係を示す韻律的感性モデル1
21を備えている。この韻律的感性モデル121は、大
量の音声データを用いた心理実験から予め求められた韻
律特徴ベクトルと感情価との対応関係を示すテーブルで
ある。そして、入力音声データに公知のFFTやlpc
解析等の処理を施して韻律特徴ベクトルを抽出し、現在
の特徴ベクトルと最も近いベクトルを上記韻律的感性モ
デル121から導き出し、当該モデル121を参照して
対応する感情価を選び出す。ここで選出された感情価
は、感性状態統合部15に送られる。
【0018】音声認識部13は、音声認識単位毎(音素
や単語等)に保有された音響モデル131及び単語列等
の単語出現頻度に基づいて作成された言語モデル132
を備えている。そして、これらのモデルを利用して入力
音声データについて音声認識を行い、候補として挙げら
れる単語のスコアを導き出す。音声認識は、従来からの
音声認識技術を利用することができる。このとき、認識
スコアが高い1または複数の単語を単語候補として選び
出す。ここで得られた単語候補は第2感性情報処理部1
4及び感性状態統合部15に、単語候補のスコアは感性
状態統合部15にそれぞれ送られる。
【0019】第2感性情報処理部14は、図3に示すよ
うに、単語と感情価(単語についての感情価)との対応
関係を示す意味的感性モデル141を備えている。この
意味的感性モデル141は、大量のテキストデータを用
いた心理実験から予め求められた単語と感情価との対応
関係を示すテーブルである。そして、この意味的感性モ
デル141を用いて音声認識部13から渡された単語候
補のそれぞれの感情価を求める。ここで得られた感情価
は、感性状態統合部15に送られる。
【0020】感性状態統合部15は、音声認識部13か
らの単語候補のそれぞれについて、第1感性情報処理部
12からの感情価と、音声認識部13からの単語候補ス
コアと、第2感性情報処理部14からの感情価とを用い
て認識スコアを算出する。この認識スコアは認識結果出
力部16に送られる。認識結果出力部16は、認識スコ
アが最も高い単語候補を選び出し、これを認識結果とし
て出力する。
【0021】なお、上記機能を有する本実施形態の音声
認識装置は、例えば磁気ディスク、光ないし光磁気ディ
スク、半導体メモリなどに記録されたコンピュータプロ
グラム、あるいは通信媒体を通じて伝送されたコンピュ
ータプログラムによって動作が制御されるコンピュータ
装置によって実施が可能である。また、信号処理プロセ
ッサを用いても実施が可能である。
【0022】次に、上記音声認識装置を用いた音声認識
方法について説明する。この方法は、具体的には、以下
の手順で行われる。まず、音声入力部11から発話者の
入力音声データを取り込む。この入力音声データは、発
話者の感性状態を反映したものである。
【0023】第1感性情報処理部12は、入力音声デー
タから韻律特徴ベクトルXIを抽出し、現在の特徴ベク
トルXi と最も近いベクトルXj を韻律的感性モデル1
21から導き出して、対応する感情価Qk を選び出す。
音声認識部13では、入力音声データの音声認識を行っ
て単語候補の認識スコアSwnを導き、この認識スコアS
wnが高いN個の単語候補Wn を選び出す。そして、これ
らの単語候補Wn を、第2感性情報処理部14に入力す
る。第2感性情報処理部14は、N個の単語候補Wn の
それぞれの感情価Rwnを求め、これらを感性状態統合部
15に送る。
【0024】感性状態統合部15は、音声認識部13か
ら渡されたN個の単語候補Wn のそれぞれについて、第
1感性情報処理部12で得られた感情価Qk と、音声認
識部13で得られた単語候補スコアSwnと、第2感性情
報処理部14で得られた感情価Rwnとを用いて、以下の
計算式により認識スコアTwnを算出する。このとき、
α、βは正の定数とする。 Twn=Swn×α(Qk −Rwn)^(−β)
【0025】N個の単語候補Wn のそれぞれの認識スコ
アTwnは認識結果出力部16に送られる。認識結果出力
部16では、以下の式からスコアTwnが最も高い単語候
補Wn を選び出し、認識結果として出力する。 Wn ={Wn | argwn max(Twn)} ここで、 γ=α(Qk −Rwn)^(−β) とおけば、認識結果は以下のように表現できる。 Wn ={Wn | argwn max(Swn×γ)}
【0026】このように、本実施形態では、入力音声デ
ータから発話者の感性状態に相当する感情価を推定し、
第2感性情報処理部14にて音声認識部13の処理によ
って得られた認識結果候補のそれぞれの単語の持つ感情
価を求め、感性状態統合部15にて、単語候補の中から
推定された感性状態に矛盾した認識結果を抑圧するよう
にしたので、感性状態を反映した入力音声データの認識
を高精度に行うことができるようになる。
【0027】また、音響的特徴や言語的特徴(出現頻度
等)の酷似への対処として、発話音声全体の韻律的特徴
に基づく感性状態と認識候補単語の言語的意味に基づく
感性状態とを求め、それぞれの感性状態が矛盾するもの
の優先度を低減させている。したがって、発話内容に矛
盾した認識候補を抑圧することができ、発話内容により
一致した音声認識が期待できるようになる。具体的に
は、従来の音声認識で利用していた認識スコアSwnに感
性状態に基づくスコアγを下式のように掛け合わせるこ
とによって、発声内容に矛盾した認識結果を抑圧するこ
とができる。 Wn ={Wn | argwn max(Swn×γ)}
【0028】図4は、上記音声認識方法を、コンピュー
タ装置にコンピュータプログラムを読み込ませて実行さ
せることにより実現する場合の処理手順例を示した図で
ある。この場合、上記各種モデル121、131、13
2、141は、外部記録媒体に格納しておく。
【0029】図4において、認識対象となる音声が入力
されると(S1)、韻律的感性モデルを参照し、音声中
の韻律情報に対応する特徴ベクトルXk と感情価Qk を
求める(S2)。次に、音響モデル、言語モデルを参照
し、認識した単語候補W1 〜Wn を抽出し、それぞれの
認識スコアSw1〜Swnを求める(S3)。さらに、意味
的感性モデルを参照して、単語候補単語候補W1 〜Wn
それぞれの感情価Rw1〜Rwnを求める(S4)。次い
で、単語候補W1 〜Wn のそれぞれについて、対応する
意味的感情価Rw1〜Rwn、単語候補スコアSw1〜Swn、
韻律的感情価Qk から認識スコアTw1〜Twnを求め(ス
テップS5)、認識スコアTw1〜Twnから最も高い単語
候補を選択し、識別結果として出力する(ステップS
6)。
【0030】次に、本発明の音声認識装置を応用した音
声対話システムについて説明する。図5はこの音声対話
システムの構成を示すもので、音声認識装置21は図1
にその構成例を示した本実施形態の音声認識装置であ
る。この音声認識装置21で順次認識された単語列は、
応答処理装置22に送られる。この応答処理装置22
は、入力した単語列からその意味を把握し、音声辞書フ
ァイル23から該当する応答音声データを抽出し、音声
合成装置24へ出力する。
【0031】音声合成装置24は、入力した応答音声デ
ータをアナログ音声信号に変換し、スピーカ25により
音声出力する。また、応答処理装置22は、応答音声デ
ータを抽出する際、キャラクタファイル26から該当す
るアニメーション等のキャラクタ情報を選択し、適宜デ
ィスプレイ27に表示する。
【0032】以下、音声認識の具体例として、「上がっ
た」、「下がった」の2単語を認識する場合について説
明する。まず、ユーザ(発話者)が「今日、テストの成
績が上がったんだよ。」と音声入力したとする。このと
き、音声認識装置21では、以下のような処理を行う
(機能ブロックの符号については図1参照)。音声入力
部11で、アナログ音声をデジタルの入力音声データに
変換する。また、第1感性情報処理部12での韻律特徴
抽出の結果、韻律特徴ベクトルXk が得られ、それに対
応した感情価Qk が選出される。この感情価Qk は感性
状態統合部15に渡される。
【0033】ここで、「上がった」部分の認識に着目す
ると、音声認識部13では、「上がった(W1 )」「下
がった(W2 )」が認識結果の単語候補として導出され
る。これらの単語候補W1 、W2 は第2感性情報処理部
14に渡される。また、音声認識処理部13で得られる
単語候補各々の認識スコアSw1,Sw2は、感性情報統合
部15に渡される。
【0034】第2感性情報処理部14では、「上がった
(W1 )」の感情価Rw1、「下がった(W2 )」の感情
価Rw2が意味的感性モデル141との比較によって導き
出される。これらの感情価Rw1、Rw2は、感性状態統合
部15に渡される。感性状態統合処理部15では、第1
感性情報処理部12、音声認識部13、第2感性情報処
理部14の各処理結果から認識スコアTw1,Tw2を計算
し、計算結果を認識結果出力部16に渡す。認識結果出
力部16では、認識スコアTw1,Tw2で大きい方を認識
結果とする。ここではTw1<Tw2となり、認識結果は
「上がった」となる。
【0035】応答処理装置22は認識結果の「上がっ
た」に着目し、音声辞書ファイル23から「よかった
ね。」という応答音声データを抽出し、音声合成装置2
4を通じてスピーカ25より音声出力するようになる。
【0036】一方、ユーザが「今日、テストの成績が下
がったんだよ。」と音声入力した場合、音声認識装置2
1では上記認識スコアTw1,Tw2がTw1>Tw2となり、
認識結果は「下がった」となる。このとき、応答処理装
置22は認識結果の「下がった」に着目し、音声辞書フ
ァイル23から「残念だったね。」という応答音声デー
タを抽出し、音声合成装置24を通じてスピーカ25よ
り音声出力するようになる。
【0037】ここで、ノイズ等の影響により、「上がっ
た」、「下がった」の部分が不明瞭となり、「今日、テ
ストの成績が×がったんだよ。」(×部分が欠落)の音
声が入力されたとする。この場合、従来の方法では「上
がった」、「下がった」の出現率が同一であるため、正
しい応答を期待することができない。これに対し、本発
明の方法によれば、韻律的な抑揚から感性状態を推定し
てうれしい表現なのか、悲しい表現なのかを把握し、こ
れを感情価として重み付けする。
【0038】この方法によれば、うれしい表現として把
握された場合には、認識スコアがTw1<Tw2となり、認
識結果は「上がった」となって、「よかったね。」とい
う応答音声が出力されるようになる。また、悲しい表現
として把握された場合には、認識スコアがTw1>Tw2と
なり、認識結果は「下がった」となって、「残念だった
ね。」という応答音声が出力されるようになる。従っ
て、音声入力が不明瞭となって基本的な単語の一部が情
報として欠落しても、韻律的感性状態に合致しない選択
肢が排除されるため、正しい応答を出力する確率は格段
に向上するようになる。
【0039】このように、マン・マシン・インターフェ
ースとして音声認識を利用し、音声を認識してコンピュ
ータが何らかのリアクションを実行するものとし、リア
クションとして、表情等をアニメーションで出力する
等、ユーザフレンドリなインターフェース構築を目指す
場合に、認識対象の音響的特徴が酷似し、単語出現頻度
もほぼ同一である場合でも高精度な認識率を期待できる
本発明を適用することは極めて有効であると考えられ
る。
【0040】
【発明の効果】以上の説明から明らかなように、本発明
によれば、認識対象の音響的特徴が酷似し、なおかつ、
単語出現頻度もほぼ同一である場合であっても高精度な
認識結果が得られる効果がある。また、音声認識を対話
処理に利用する場合に、対話の流れに矛盾しない認識結
果が得られる効果がある。
【図面の簡単な説明】
【図1】本発明の音声認識装置の実施の形態の構成を示
す機能ブロック図。
【図2】本実施形態に用いられる韻律的感性モデルの具
体例を示す図。
【図3】本実施形態に用いられる意味的感性モデルの具
体例を示す図。
【図4】本発明に係る音声認識方法の処理の流れを示す
フローチャート。
【図5】本発明の音声認識装置を利用した音声対話シス
テムの構成を示すブロック図。
【符号の説明】
11 音声入力部 12 第1感性情報処理部 121 韻律的感性モデル 13 音声認識部 131 音響モデル 132 言語モデル 14 第2感性情報処理部 141 意味的感性モデル 15 感性状態統合部 16 認識結果出力部 21 音声認識装置 22 応答処理装置 23 音声辞書ファイル 24 音声合成装置 25 スピーカ 26 キャラクタファイル 27 ディスプレイ

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力音声データから韻律情報を抽出して
    発話者の感性状態を推定する過程と、 音声認識処理により候補として挙げられた単語候補の中
    から前記推定された感性状態に矛盾した認識結果を特定
    する過程と、 特定した認識結果を抑圧する過程とを含む音声認識方
    法。
  2. 【請求項2】 発話者の音声を入力してデジタル音声デ
    ータに変換する音声入力処理と、 前記音声入力処理により得られた音声データから韻律情
    報を抽出してこの韻律情報に対応する韻律的感情価を導
    出する第1感性情報処理と、 前記音声入力処理により得られた音声データの認識を行
    い、認識出現率の高い単語候補を選び出す音声認識処理
    と、 前記音声認識処理により得られた単語候補のそれぞれの
    意味的感情価を導出する第2感性情報処理と、 前記音声認識処理で得られた単語候補のそれぞれについ
    て、前記第1感性情報処理により得られた韻律的感情価
    と前記音声認識処理により得られた単語候補スコアと前
    記第2感性情報処理で得られた意味的感情価とを用いて
    重み付けすることで、発話者の感性状態を加味した認識
    スコアを導出する感性状態統合処理と、 前記感性状態統合処理により得られた認識スコアが最も
    高い単語候補を選出し、認識結果として出力する認識結
    果出力処理とをコンピュータ装置において実行すること
    を特徴とする音声認識方法。
  3. 【請求項3】 発話者の音声を入力してデジタル音声デ
    ータに変換する音声入力手段と、 前記音声入力手段で得られた入力音声データから韻律情
    報を抽出してこの韻律情報に対応する韻律的感情価を求
    める第1感性情報処理手段と、 前記音声入力手段で得られた入力音声データの認識を行
    い、認識出現率の高い単語候補を選び出す音声認識手段
    と、 前記音声認識手段で得られた単語候補のそれぞれの意味
    的感情価を求める第2感性情報処理手段と、 前記音声認識手段で得られた単語候補のそれぞれについ
    て、前記第1感性情報処理手段で得られた韻律的感情価
    と前記音声認識手段で得られた単語候補スコアと前記第
    2感性情報処理手段で得られた意味的感情価とを用いて
    重み付けすることで、発話者の感性状態を加味した認識
    スコアを算出する感性状態統合手段と、前記感性状態統
    合手段で得られた認識スコアが最も高い単語候補を選出
    し、認識結果として出力する認識結果出力手段と、 を具備したことを特徴とする音声認識装置。
  4. 【請求項4】 前記感性状態統合手段は、前記韻律的感
    情価と意味的感情価との差に基づいて前記単語候補スコ
    アを重み付けすることで、韻律的な感性状態に矛盾する
    意味的な感性状態に該当する単語候補を抑圧することを
    特徴とする、請求項3記載の音声認識装置。
  5. 【請求項5】 発話者の音声を入力してデジタル音声デ
    ータに変換する音声入力手段と、 前記音声入力手段で得られた入力音声データから韻律特
    徴ベクトルXIを抽出し、現在の特徴ベクトルXiと最も
    近いベクトルXjに対応する韻律的感情価Qkを選び出す
    第1感性情報処理手段と、 前記音声入力手段で得られた入力音声データの認識を行
    い、候補として挙げられる単語のスコアSwnを導き出
    し、そのスコアSwnが最も高い単語N個を単語候補Wn
    として選び出す音声認識手段と、 前記音声認識手段で得られたN個の単語候補Wn のそれ
    ぞれの意味的感情価Rwnを求める第2感性情報処理手段
    と、 前記音声認識手段で得られたN個の単語候補Wn のそれ
    ぞれについて、前記第1感性情報処理手段で得られた韻
    律的感情価Qkと、前記音声認識手段で得られた単語候
    補スコアSwnと、前記第2感性情報処理手段で得られた
    意味的感情価Rwnとを用いて、認識スコアTwnを、 Twn=Swn×α(Qk −Rwn)^(−β) (但し、α、βは正の定数) により算出する感性状態統合手段と、 前記感性状態統合手段で得られた認識スコアTwnが最も
    高い単語候補Wnを選出し、認識結果として出力する認
    識結果出力手段とを具備したことを特徴とする、 音声認識装置。
  6. 【請求項6】 前記第1感性情報処理手段は、大量の音
    声データを用いて予め求めた韻律特徴ベクトルXkと感
    情価Qkとの対応関係を示すテーブルとして韻律的感性
    モデルを備えており、この韻律的感性モデルを参照して
    入力音声データに対応する韻律的感情価QKを導出する
    ように構成されていることを特徴とする、 請求項5記載の音声認識装置。
  7. 【請求項7】 前記第2の感性情報処理手段は、大量の
    テキストデータを用いて予め求められた単語Wjと感情
    価Rwjとの対応関係を示すテーブルとして意味的感性モ
    デルを備えており、この意味的感性モデルを参照して単
    語Wnの意味的感情価Rwnを求めるように構成されてい
    ることを特徴とする、請求項5記載の音声認識装置。
  8. 【請求項8】 請求項3乃至7のいずれかの項記載の音
    声認識装置と、この音声認識装置の認識結果に対応する
    意味の応答音声データを出力する応答処理装置と、前記
    応答音声データをアナログ音声信号に変換して出力する
    音声出力手段とを備え、感性を伴う入力音声に対する自
    動応答を行うことを特徴とする音声対話システム。
  9. 【請求項9】 表情を伴うアニメーション等のキャラク
    タ情報を保持するキャラクタ情報保持手段と、特定のキ
    ャラクタ情報を表示させる表示手段とをさらに備え、前
    記応答処理手段は、前記応答音声データに対応するキャ
    ラクタ情報を前記キャラクタ情報保持手段より選択して
    前記表示手段に表示させることを特徴とする、請求項8
    記載の音声対話システム。
  10. 【請求項10】 発話者の音声を入力してデジタル音声
    データに変換する音声入力処理、 前記音声入力処理により得られた音声データから韻律情
    報を抽出してこの韻律情報に対応する韻律的感情価を導
    出する第1感性情報処理、 前記音声入力処理により得られた音声データの認識を行
    い、認識出現率の高い単語候補を選び出す音声認識処
    理、 前記音声認識処理により得られた単語候補のそれぞれの
    意味的感情価を導出する第2感性情報処理、 前記音声認識処理で得られた単語候補のそれぞれについ
    て、前記第1感性情報処理により得られた韻律的感情価
    と前記音声認識処理により得られた単語候補スコアと前
    記第2感性情報処理で得られた意味的感情価とを用いて
    重み付けすることで、発話者の感性状態を加味した認識
    スコアを導出する感性状態統合処理、 前記感性状態統合処理により得られた認識スコアが最も
    高い単語候補を選出し、認識結果として出力する認識結
    果出力処理をコンピュータ装置に実行させるためのプロ
    グラムが記録されたコンピュータ読取可能な記録媒体。
JP10246624A 1998-09-01 1998-09-01 音声認識方法及び装置、音声対話システム、記録媒体 Pending JP2000075894A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10246624A JP2000075894A (ja) 1998-09-01 1998-09-01 音声認識方法及び装置、音声対話システム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10246624A JP2000075894A (ja) 1998-09-01 1998-09-01 音声認識方法及び装置、音声対話システム、記録媒体

Publications (1)

Publication Number Publication Date
JP2000075894A true JP2000075894A (ja) 2000-03-14

Family

ID=17151178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10246624A Pending JP2000075894A (ja) 1998-09-01 1998-09-01 音声認識方法及び装置、音声対話システム、記録媒体

Country Status (1)

Country Link
JP (1) JP2000075894A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178063A (ja) * 2004-12-21 2006-07-06 Toyota Central Res & Dev Lab Inc 対話処理装置
JP2006208460A (ja) * 2005-01-25 2006-08-10 Honda Motor Co Ltd 音声認識型機器制御装置および車両
JP2012159596A (ja) * 2011-01-31 2012-08-23 Internatl Business Mach Corp <Ibm> 情報処理装置、情報処理方法、情報処理システム、およびプログラム
CN104103278A (zh) * 2013-04-02 2014-10-15 北京千橡网景科技发展有限公司 一种实时语音去噪的方法和设备
JP2017211586A (ja) * 2016-05-27 2017-11-30 Necソリューションイノベータ株式会社 心理分析装置、心理分析方法、およびプログラム
CN110728983A (zh) * 2018-07-16 2020-01-24 科大讯飞股份有限公司 一种信息显示方法、装置、设备及可读存储介质
CN111898377A (zh) * 2020-07-07 2020-11-06 苏宁金融科技(南京)有限公司 一种情感识别方法、装置、计算机设备及存储介质
WO2024014324A1 (ja) * 2022-07-14 2024-01-18 日本電気株式会社 音声認識装置、音声認識方法、プログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178063A (ja) * 2004-12-21 2006-07-06 Toyota Central Res & Dev Lab Inc 対話処理装置
JP2006208460A (ja) * 2005-01-25 2006-08-10 Honda Motor Co Ltd 音声認識型機器制御装置および車両
JP4722499B2 (ja) * 2005-01-25 2011-07-13 本田技研工業株式会社 音声認識型機器制御装置および車両
JP2012159596A (ja) * 2011-01-31 2012-08-23 Internatl Business Mach Corp <Ibm> 情報処理装置、情報処理方法、情報処理システム、およびプログラム
CN104103278A (zh) * 2013-04-02 2014-10-15 北京千橡网景科技发展有限公司 一种实时语音去噪的方法和设备
JP2017211586A (ja) * 2016-05-27 2017-11-30 Necソリューションイノベータ株式会社 心理分析装置、心理分析方法、およびプログラム
CN110728983A (zh) * 2018-07-16 2020-01-24 科大讯飞股份有限公司 一种信息显示方法、装置、设备及可读存储介质
CN110728983B (zh) * 2018-07-16 2024-04-30 科大讯飞股份有限公司 一种信息显示方法、装置、设备及可读存储介质
CN111898377A (zh) * 2020-07-07 2020-11-06 苏宁金融科技(南京)有限公司 一种情感识别方法、装置、计算机设备及存储介质
WO2024014324A1 (ja) * 2022-07-14 2024-01-18 日本電気株式会社 音声認識装置、音声認識方法、プログラム

Similar Documents

Publication Publication Date Title
KR102265972B1 (ko) 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
KR102668866B1 (ko) 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
US11496582B2 (en) Generation of automated message responses
US11062694B2 (en) Text-to-speech processing with emphasized output audio
US20230043916A1 (en) Text-to-speech processing using input voice characteristic data
JP4085130B2 (ja) 感情認識装置
US7280968B2 (en) Synthetically generated speech responses including prosodic characteristics of speech inputs
Ten Bosch Emotions, speech and the ASR framework
US7720683B1 (en) Method and apparatus of specifying and performing speech recognition operations
WO2007010680A1 (ja) 声質変化箇所特定装置
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
JP2007219286A (ja) 音声のスタイル検出装置、その方法およびそのプログラム
Pouget et al. HMM training strategy for incremental speech synthesis
CN112735371A (zh) 一种基于文本信息生成说话人视频的方法及装置
JP2001188779A (ja) 情報処理装置および方法、並びに記録媒体
JP2000075894A (ja) 音声認識方法及び装置、音声対話システム、記録媒体
JP3050832B2 (ja) 自然発話音声波形信号接続型音声合成装置
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
CN111078937B (zh) 语音信息检索方法、装置、设备和计算机可读存储介质
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
JPS63165900A (ja) 会話音声認識方式
JP2753255B2 (ja) 音声による対話型情報検索装置
JP2016142936A (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
Georgila 19 Speech Synthesis: State of the Art and Challenges for the Future
Richter et al. Different Speech Applications—Part B