JP2003036094A - 音声対話装置及び音声対話処理方法 - Google Patents

音声対話装置及び音声対話処理方法

Info

Publication number
JP2003036094A
JP2003036094A JP2001221080A JP2001221080A JP2003036094A JP 2003036094 A JP2003036094 A JP 2003036094A JP 2001221080 A JP2001221080 A JP 2001221080A JP 2001221080 A JP2001221080 A JP 2001221080A JP 2003036094 A JP2003036094 A JP 2003036094A
Authority
JP
Japan
Prior art keywords
voice
processing
information
recognition result
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001221080A
Other languages
English (en)
Inventor
Masaki Matsudaira
正樹 松平
Mayumi Harada
真弓 原田
Shinji Hayakawa
慎司 早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2001221080A priority Critical patent/JP2003036094A/ja
Publication of JP2003036094A publication Critical patent/JP2003036094A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Telephone Function (AREA)

Abstract

(57)【要約】 【課題】 入力された音声に対する認識結果について、
分岐判断を行い後処理を決定することにより、効率が良
く、且つ信頼性の高い音声対話処理を行う。 【解決手段】 通信回線103を介して利用者の電話機
101に接続された音声対話処理部105を具える音声
対話装置100において音声対話処理を行うにあたり、
電話機101から入力された音声を確定するための複数
の候補とそれぞれの候補に対する尤度とを認識結果とし
て決定し、且つ、判断を行う際に用いるため予め設定さ
れた基準値と尤度とを比較することによって、分岐判断
を行い、この分岐判断によって認識結果をどのように処
理するか決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、電話による音声
対話装置及び音声対話処理方法に関するものである。こ
の発明によれば、利用者の音声を認識してデータ化する
音声認識機能および利用者の音声を録音する音声録音機
能を有する装置において、音声対話処理を行う。
【0002】
【従来の技術】従来の音声対話装置の一例が、特開平1
0−70613号公報に開示されている。この文献によ
れば、利用者は、音声等の手段によって、電話機より音
声対話装置へ入力を行う。電話機より入力される情報
は、音声対話装置において、音声認識が容易とされる項
目と、音声認識が困難とされる項目に分けられる。
【0003】音声認識が容易とされる項目について、音
声対話装置は、音声認識処理を行う。一方、音声認識が
困難とされる項目は、音声対話装置において、一旦音声
を録音し、オフラインで人手を介してデータ化(上記文
献では「聞き起こし」)する。このオフラインで人手を
介してデータ化する作業は、具体的に、次のようなもの
である。
【0004】まず、利用者の有する電話機には、音声対
話装置からガイダンスメッセージが送られてくる。利用
者は、このガイダンスメッセージに従って、住所、名
字、名前等を発声する。利用者から発声された音声は、
電話機を介して、音声対話装置に入力される。入力され
た音声は、音声対話装置において一旦録音される。
【0005】その後、録音された音声について、音声対
話装置が音声認識を行う。そして、認識された音声に基
づいて、住所及び氏名等について、複数の候補が決定さ
れる。決定された複数の候補は、コンピュータ端末の画
面等に表示される。
【0006】コンピュータ端末の画面等に表示された複
数の候補について、オペレータ(人)が、聞き起こしの
作業を行う。そして、コンピュータ端末の画面等に表示
された複数の候補の中から、住所、氏名等の情報が確定
される。
【0007】なお、上記文献によれば、聞き起こしで行
われる作業は、次のようなものである。一旦録音された
利用者の音声は、適当な手段によって再生される。オペ
レータ(人)は、再生された音声を聞きながら、コンピ
ュータ端末の画面等に表示された複数の候補について、
データの確認を行う。
【0008】
【発明が解決しようとする課題】従来の音声対話装置で
は、音声認識が困難とされる項目について入力された音
声は、音声認識装置で正しく認識されていても、オペレ
ータがすべて聞き起こしの作業を行っていた。
【0009】また、利用者は、音声認識が容易とされる
項目について音声入力するとき、音声認識装置が一度で
認識しなかった場合、音声認識装置が認識するまで、再
入力を繰り返さなければならなかった。
【0010】従来の音声対話装置は、以上のような問題
点を有していた。このため、入力された音声に対し、効
率良く、しかも信頼性良く、認識処理等の音声対話処理
を行う音声対話装置の出現が望まれていた。
【0011】
【課題を解決するための手段】そこで、この出願に係る
発明者等は、上述したような問題点を解消すべく、種々
の研究や思考を繰り返し行った。そして、利用者の入力
が次の設問の分岐条件になるか否かの判断を行い、後処
理を決定すれば、効率が良く且つ信頼性の高い音声対話
処理を行うことが出来るという結論に達し、この発明に
到った。
【0012】この発明の音声対話装置は、通信回線を介
して利用者の電話機に接続された音声対話処理部を具え
ている。そして、この発明の音声対話装置は、つぎのよ
うな方法に従って、音声対話処理を行う。
【0013】まず、音声対話処理部が、利用者の電話機
と音声対話を行い、利用者の音声を電話機から受信す
る。続いて、音声対話処理部は、受信した音声を確定す
るための複数の候補と、それぞれの候補に対する尤度と
を認識結果として決定する。その後、音声対話処理部
は、基準値と尤度とを比較し、認識結果について分岐判
断を行う。分岐判断の結果、認識結果をどのように処理
するかが決定される。即ち、この発明における分岐判断
とは、認識結果について、どのような処理をすべきかの
判断のことである。尚、基準値は、予め音声対話処理部
内に設定され、分岐判断に用いられるものである。
【0014】以上述べたように、この発明の音声対話装
置及び音声対話処理方法によれば、入力された音声に対
する認識結果について、分岐判断が行われる。そして、
この分岐判断の結果、認識結果をどのように処理するか
が決定される。よって、入力された音声に対して、音声
対話装置で正しい認識結果が得られた場合は、人手を介
する作業を省くことができる。
【0015】さらに、この発明の音声対話装置及び音声
対話処理方法によれば、分岐判断を行うことによって、
入力された音声が正しく音声認識されない場合について
も、適した処理を決定することができる。この結果、従
来の音声対話装置と比較して、利用者による再入力の処
理等の負担を軽減することができる。
【0016】即ち、この発明の音声対話装置及び音声対
話処理方法によれば、尤度と基準値との比較に基づい
て、認識結果に対して的確な分岐判断が行われる。よっ
て、この発明の音声対話装置及び音声対話処理方法によ
れば、効率が良く、且つ信頼性の高い音声対話処理を実
現することができる。
【0017】
【発明の実施の形態】以下、図を参照して、この発明の
音声対話装置における実施の形態について説明する。
尚、以下の説明に用いる各図は、この発明を理解できる
程度に概略的に示してあるに過ぎず、従って、この発明
が図示例のみに限定されるものでないことは理解された
い。また、説明に用いる各図において、同様な構成成分
については同一の符号を付して示し、重複する説明を省
略することもある。
【0018】[実施の形態の構成]この発明の実施の形
態における音声対話装置100の構成について、図1を
参照して説明する。図1に、この発明の実施の形態にお
ける音声対話装置100の構成を示す。
【0019】音声対話装置100は、通信回線103を
介して利用者の電話機101に接続された音声対話処理
部105を具えている。
【0020】音声対話処理部105は、電話機101か
ら入力された音声について、この音声を確定するための
複数の候補と、それぞれの候補に対する尤度とを認識結
果として決定する。その後、音声対話処理部105は、
基準値と尤度とを比較し、認識結果について分岐判断を
行う。この分岐判断の結果、認識結果をどのように処理
するかが決定される。
【0021】ここで、認識結果における複数の候補と
は、詳しくは、入力された音声の特性を確定するための
ものである。認識結果における複数の候補は、例えば、
入力された音声から抽出された周波数スペクトル等の物
理的特徴に基づいて、決定される。
【0022】また、音声対話装置100は、記憶部10
7を具えている。この記憶部107には、音声対話処理
に利用される音声処理情報137が予め格納されてい
る。
【0023】音声処理情報137には、第1情報群と第
2情報群が含まれている。第1情報群は、認識結果の決
定に利用される第1情報と第2情報とを有する。また、
第2情報群は、分岐判断に利用される第3情報を有す
る。第1情報群と第2情報群に含まれる第1〜第3情報
について、詳細は後述する。
【0024】次に、音声対話処理部105の構成につい
て説明する。
【0025】音声対話処理部105は、通信回線103
を介して電話機101に接続された回線処理部109
と、音声対話制御部111と、認識結果を決定する音声
処理部113とを具えている。
【0026】音声対話制御部111は、回線処理部10
9、記憶部107及び音声処理部113と音声や所要の
情報のやり取りを行い、分岐判断の結果を出力する機能
を有している。音声対話制御部111には、基本処理部
115と、分岐判断部117と、基準値を格納するため
のメモリ119とが設けられている。
【0027】基本処理部115は、第1及び第2情報
を、記憶部107からメモリ119に読み込む。そして
基本処理部115は、第1情報を利用して、回線処理部
109を介して電話機101と音声対話を行い、電話機
101からの音声を受信する。
【0028】音声処理部113は、電話機101からの
音声と第2情報とを基本処理部115から受信する。そ
して音声処理部113は、第2情報を利用して認識結果
を決定し、この認識結果を基本処理部115に送信す
る。
【0029】分岐判断部117は、認識結果を基本処理
部115から受信する。そして分岐判断部117は、記
憶部107から第3情報を、メモリ119から基準値
を、それぞれ読み出す。続いて、分岐判断部117は、
尤度と基準値との比較、及び第3情報に基づいて、分岐
判断を行う。
【0030】尚、この実施の形態において、基準値は、
認識結果における尤度に対して設定されることが好まし
い。更に、基準値は、第1閾値、第2閾値、第1閾値
差、第2閾値差の4つの基準値として設定されることが
最適である。
【0031】ところで、音声処理部113は、音声認識
部121と音声録音部123とで構成されることが好ま
しい。
【0032】音声認識部121は、電話機101からの
音声を受信し、この音声に対する音声認識処理を行っ
て、認識結果を出力する機能を有する。よって、認識結
果における尤度は、音声認識部121の装置構成に依存
する値となる。また、尤度に対して設定される基準値も
音声認識部121の装置構成に依存する値となる。
【0033】一方、音声録音部123は、電話機101
からの音声を受信し、この音声に対する録音処理を行っ
て、音声録音ファイルを作成する機能を有する。
【0034】以上説明したように、この実施の形態の音
声対話処理部105の装置構成によれば、音声認識部1
21は、音声対話装置に入力される音声について、音声
認識を行い、認識結果を決定する。この認識結果におけ
る尤度と基準値とを比較することによって、分岐判断部
117は、音声認識について認識性能を評価することが
できる。この実施の形態による尤度と基準値との比較に
ついて、詳細は後述する。
【0035】また、音声対話処理部105における各部
構成要素は、音声対話処理に適した任意好適な装置構成
とすることができる。このとき、基準値は、音声認識部
121の装置構成にあわせた所望の値を設定することが
できる。
【0036】尚、この実施の形態における音声対話装置
100は、複数のハードウェアから構成されるコンピュ
ータ装置とすることが最適である。更に、音声対話処理
部105における各部構成要素は、プログラムを有する
ハードウェアを用いることが望ましい。
【0037】次に、記憶部107の構成について説明す
る。記憶部107には、音声処理情報137が格納され
るとともに、データベース部135が設けられている。
【0038】音声処理情報137は、複数のファイルを
有する。この複数のファイルは、音声対話シーケンス1
25、音声メッセージ127、確認認識文法129、確
認音声メッセージ131、再入力メッセージ133を含
むものである。
【0039】ここで、音声対話シーケンス125、及び
音声メッセージ127は、音声対話装置100を用いて
音声対話サービスを提供する組織が作成するものである
ことが好ましい。尚、音声メッセージ127は、音声に
よるメッセージを収録した複数のファイルを含むもので
ある。音声対話シーケンス125については、後に詳し
く説明する。
【0040】また、確認認識文法129は、音声として
「はい」もしくは「いいえ」が入力されたときに、この
音声を音声認識するために用いられる。即ち、確認認識
文法129は、「はい」もしくは「いいえ」という入力
音声に対し、この音声を認識するための文法を記述した
ファイルであることが望ましい。
【0041】また、確認音声メッセージ131は、利用
者に認識結果を確認するための音声メッセージを収録し
たファイルであることが好ましい。
【0042】更に、再入力メッセージ133は、電話機
101を有する利用者に再入力を促すための音声メッセ
ージを収録したファイルとすることが最適である。
【0043】尚、データベース部135は、音声対話装
置100において提供するサービスに必要なデータ、及
び認識結果等を格納するものである。
【0044】記憶部107の各ファイル125、12
7、129、131、133は、実際には、コンピュー
タディスクに格納されていることが好ましい。また、1
25、127、129、131、及び133の各ファイ
ルとデータベース部135は、同じ記憶装置に格納され
る構成であってもよい。ここで、この実施の形態におけ
る音声対話装置100は、上述したような音声対話処理
部105を構成する各ハードウェアと、各ファイル及び
データベース部を有する記憶装置とから構成されるコン
ピュータ装置であることが好ましい。
【0045】上述したような記憶部107の構成によれ
ば、音声対話シーケンス125と音声メッセージ127
を、任意好適なファイル構成とすることができる。従っ
て、この実施の形態では、利用者に対して様々な音声対
話サービスを行うことができる。また、この実施の形態
では、音声対話サービスの内容に適した音声対話処理を
行うことも可能である。
【0046】尚、記憶部107に格納されている各ファ
イルは、必要に応じて更新されるものとすることが好ま
しい。
【0047】次に、音声対話シーケンス125につい
て、図2を参照して説明する。図2は、音声対話シーケ
ンス125の構成について示す図である。この実施の形
態によれば、音声対話シーケンス125は、複数の対話
セル201と、複数のグローバル変数215とを有する
構成であることが望ましい。
【0048】各対話セル201は、音声対話装置100
で行われる一連の対話の最小単位である。そして、音声
対話処理の際、音声対話制御部111は、初期対話セル
より以降、各対話セルの処理を繰り返し行う。ここで、
初期対話セルとは、音声対話処理を開始する際、音声対
話制御部111が最初に処理を行う対話セルのことであ
る。
【0049】対話セルは、第1情報群219と、第2情
報群217とを有する。既に説明したように、第1情報
群219には、第1情報と第2情報とが含まれている。
また、第2情報群217には、第3情報が含まれる。こ
の第3情報は、対話セルの処理を決定する対話セルモー
ド203とすることが望ましい。このとき、分岐判断部
117による分岐判断は、尤度と基準値との比較、及び
対話セルモード203に基づいて行われることが好適で
ある。対話セルモード203について、詳細は後述す
る。
【0050】第1情報群219は、第1情報としての音
声ファイル名211と、第2情報としての認識文法21
3とを含むものとすることが好ましい。
【0051】音声ファイル名211は、電話機101へ
送信する音声メッセージのファイル名を、音声メッセー
ジ127の中から指定するものである。既に説明したよ
うに、音声メッセージ127は、音声によるメッセージ
を収録した複数のファイルを含むものである。音声メッ
セージ127に含まれる複数のファイルのうち、音声フ
ァイル名211によって指定されたファイルに該当する
音声メッセージが、電話機101へ送信される。
【0052】この実施の形態によれば、電話機101に
送信された音声メッセージに対し、利用者は音声により
回答を行う。利用者の音声は、認識文法213を用い
て、音声対話装置100によって認識される。
【0053】また、第2情報群217は、対話セルモー
ド203のほかに、前処理プログラム205と、後処理
プログラム207と、次セルポインタ209とを含むこ
ととすることが最適である。
【0054】前処理プログラム205は、音声対話に必
要な前処理を記述するものである。前処理とは、例え
ば、時刻の獲得、利用者の電話機101からの着信アカ
ウントなどの処理である。
【0055】更に、後処理プログラム207は、例えば
音声認識結果に対する処理等、音声対話に必要な後処理
を記述するものである。
【0056】また、次セルポインタ209は、1つの対
話セルにおける全ての処理が終了された後、次に進むべ
き対話セルを指定するものである。
【0057】ここで、対話セルモード203は、複数の
フラグ列から構成されるものであることが好ましい。そ
して、各対話セルにおいて、対話セルモード203は、
前処理プログラム205、後処理プログラム207、及
び次セルポインタ209に依存する。
【0058】即ち、対話セルモード203を構成する複
数のフラグ列は、(イ)その対話セルが音声認識処理を
含むかどうか、(ロ)その対話セルにおいて、次の対話
セルへの分岐があるかどうか、(ハ)後処理プログラム
207が、認識結果について、グローバル変数215に
代入するかどうか、(ニ)後処理プログラム207が、
認識結果について、データベース部135に登録するか
どうか、(ホ)後処理プログラム207が、認識結果に
ついて、グローバル変数215、或いはデータベース部
135内のカウンタ値を増やす処理を行うかどうか、を
示すものであること望ましい。
【0059】ここで、グローバル変数215、或いはデ
ータベース部135内のカウンタ値を増やす処理につい
て説明する。例えば、音声対話装置100にて、何らか
の選択型アンケートを行う音声対話サービスが提供され
る場合を考える。このとき、利用者の有する電話機10
1から、順次アンケートに対する解答が、音声対話装置
100に入力される。例えば、選択型アンケートにおい
ては、利用者による選択項目が、音声対話装置100に
入力される。そして、グローバル変数215もしくはデ
ータベース部135において、入力された選択項目がカ
ウント、即ち集計される。
【0060】次に、グローバル変数215について説明
する。グローバル変数215は、各対話セル201が共
通して利用する変数である。例えば、音声対話装置10
0が、旅行等の予約サービスを提供するためのものであ
るとする。そして、この予約サービスでは、住所、氏
名、予約する日付等の情報について、利用者の回答を求
める対話が行われるものとする。よって、このときの対
話セル201は、住所の入力を促すための対話セル、氏
名の入力を促すための対話セル、及び予約する日付の入
力を促すための対話セル等を含むものとなる。そして、
各対話セルについて、利用者の音声による回答が、順次
音声対話装置100に入力されると、各グローバル変数
に代入されるようにする。グローバル変数に代入された
情報は、各対話セルにおいて共通に利用されるため、正
確な値を代入する必要がある。
【0061】[実施の形態の動作]次に、図1及び図2
の他、図3〜図10に示す各フローチャートを参照し
て、この発明の実施の形態における各部構成要素の動作
について説明する。図3〜図10のフローチャートで
は、音声対話制御部111、回線処理部109、音声認
識部121、及び音声録音部123にて行われる動作
を、それぞれ、対話制御プロセス、回線制御プロセス、
音声認識プロセス、及び音声録音プロセスに分けて説明
する。尚、利用者の電話機101によって行われる動作
は、単に利用者の電話機と名付けるプロセスで説明す
る。また、図中、各処理のステップを記号Sに番号を添
えて示してある。
【0062】1.音声対話処理 この実施の形態において行われる音声対話処理につい
て、図3に示すフローチャートを参照して説明する。
【0063】まず、図1に示したこの実施の形態の構成
において、音声対話処理部105に対して、サービス提
供者が従来既知の始動方法で、音声対話制御部111を
起動する。音声対話制御部111は起動されると、音声
対話処理を開始する。
【0064】(S301)音声対話制御部111は、回
線処理部109を起動する。音声対話制御部111にお
いて、具体的には、基本処理部115が回線処理部10
9を起動する。
【0065】(S302)音声対話制御部111におい
て、基本処理部115は、回線処理部109を介して、
回線状態の変化待ちとなる。回線状態の変化待ちとは、
即ち、電話機101からの着信待ちの状態である。
【0066】(S303)一方、起動された回線処理部
109は、通信回線103の状態を監視する動作を開始
する。
【0067】(S304)しかる後、利用者が電話機1
01から音声対話装置100に発呼する(電話をかけ
る)。電話機101からの発呼は、回線処理部109に
おいて着信される。そして、回線処理部109は、音声
対話制御部111に着信通知を行う。ここで、着信通知
とは、電話機101からの発呼を着信した旨の通知のこ
とである。
【0068】(S305)音声対話制御部111は、着
信通知を受け取ると、音声対話シーケンス125の初期
対話セルの処理を行う。
【0069】音声対話制御部111において、具体的
に、着信通知は、基本処理部115によって受信され
る。そして、基本処理部115は、着信通知に応答し
て、音声対話シーケンス125の初期対話セルの情報
を、記憶部107からメモリ119に読み込む。メモリ
119に読み込まれた情報に基づいて、基本処理部11
5は、初期対話セルの処理を行う。
【0070】(S306)初期対話セルにおける全ての
処理が終了されると、音声対話制御部111において、
次セルポインタ209の有無が判断される。次セルポイ
ンタ209の有無は、音声対話処理における一連の対話
を終了するか否かの判断となる。具体的には、音声対話
制御部111において、基本処理部115が、次セルポ
インタ209の有無を判断する。
【0071】初期対話セル内に次セルポインタ209が
存在しない場合、基本処理部115は、音声対話処理の
全ての対話は終了されるものみなす。そして、基本処理
部115は、後述するS307の処理を行う。
【0072】一方、初期対話セル内に次セルポインタ2
09が存在する場合、音声対話制御部111における動
作は、S305の処理へ戻る。具体的には、基本処理部
115が、次セルポインタ209をメモリ119に読み
出す。その後、基本処理部115は、次セルポインタ2
09で指定された対話セルの処理を行う。各対話セルの
処理については後述する。
【0073】尚、音声対話シーケンス125を構成する
複数の対話セル201が、それぞれIDを有している場
合、次セルポインタ209とは、各対話セルのIDを指
定するものである。また、次セルポインタ209が存在
しない対話セルを、最後の対話セルと呼ぶことにする。
【0074】(S307)最後の対話セルの処理を終了
すると、音声対話制御部111は回線処理部109に回
線切断の旨を通知し、再び、着信待ちの状態になる。具
体的には、音声対話制御部111において、基本処理部
115が、回線処理部109に回線切断の旨を通知す
る。そして、基本処理部115は、再び、着信待ちの状
態となる。ここで、回線切断の旨の通知を、切断通知と
よぶことにする。
【0075】切断通知を受信した回線処理部109は、
利用者の電話機101との回線を切断し、再び回線状態
の変化待ちになる。ここで、ひとりの利用者の1回の通
話に対する音声対話処理は終了される。
【0076】2.各対話セルの処理 次に、図3に示すフローチャート中、S305の処理、
即ち各対話セルの処理について、図4に示すフローチャ
ートを参照して説明する。
【0077】(S401)先ず、音声対話制御部111
は、対話セルの前処理プログラム205を実行する。前
処理プログラム205が実行されると、このプログラム
に記述されている前処理が行われる。
【0078】具体的には、音声対話制御部111におい
て、基本処理部115が、前処理プログラム205をメ
モリ119に読み込む。メモリ119に読み込まれた前
処理プログラム205は、基本処理部115によって実
行される。
【0079】(S402)次に、音声対話制御部111
は、対話セルの音声ファイル名211で指定された音声
メッセージを、回線処理部109を介して利用者の電話
機101に送信する。
【0080】具体的には、音声対話制御部111におい
て、基本処理部115が、対話セルの音声ファイル名2
11を記憶部107からメモリ119に読み込む。続い
て、基本処理部115は、読み込んだ音声ファイル名2
11で指定されたメッセージを、音声メッセージ127
の中からメモリ119に読み出す。その後、読み出され
たメッセージは、基本処理部115によって、回線処理
部109を介して、利用者の電話機101に送信され
る。
【0081】(S403)電話機101は回線処理部1
09から、メッセージを受信し、これを再生する。例え
ば、回線処理部109から、「こちらは××です。お客
様の年齢を20代、30代のようにお答えください。」
というメッセージを受信すると、これを電話機101は
再生する。
【0082】(S404)その後、電話機101によっ
て再生されたメッセージに対し、利用者が回答を音声で
行う。電話機101は、利用者の音声を音声対話装置1
00に送信する。
【0083】(S405)電話機101から、利用者の
音声を、通信回線103を介して、回線処理部109が
受信する。回線処理部109は、受信した利用者の音声
を音声対話制御部111に送信する。その後、音声対話
制御部111は入力処理をおこなう。ただし、この利用
者の回答および音声対話制御部111の入力処理は、存
在しない場合もある。例えば、コマーシャルのような音
声メッセージを送信、再生するだけの場合である。入力
処理については後述する。
【0084】(S406)入力処理終了後、音声対話制
御部111は、対話セルの後処理プログラム207を実
行し、対話セルの処理を終了する。
【0085】具体的に、音声対話制御部111におい
て、基本処理部115が、対話セルの後処理プログラム
207を、記憶部107からメモリ119に読み込み、
実行する。後処理プログラム207が実行されると、こ
のプログラムに記述されている後処理が行われる。
【0086】3.入力処理 以上説明した図4のフローチャート中、S405の処
理、即ち入力処理について、図5及び図6に示すフロー
チャートを参照して説明する。まずは、図5に示すフロ
ーチャートを参照して、S501からS506までの処
理について説明する。
【0087】(S501)まず、音声対話制御部111
は、音声処理部113における音声認識部121に、対
話セルの認識文法213を渡して、音声認識開始の旨を
通知する。音声認識部121は、認識文法213を用い
て音声認識処理を開始する。
【0088】具体的には、音声対話制御部111におい
て、基本処理部115が、記憶部107から、対話セル
の認識文法213をメモリ119に読み出す。そして、
メモリ119に読み出された認識文法213は、基本処
理部115によって、音声認識部121に送信される。
【0089】(S502)また、音声対話制御部111
において、基本処理部115は、音声録音部123に、
音声録音開始の旨を通知する。音声録音部123は音声
録音処理を開始する。
【0090】(S503)その後、音声対話制御部11
1は、音声認識部121及び音声録音部123からの結
果待ち状態になる。ここで、結果待ち状態とは、音声認
識部121及び音声録音部123から、音声処理の結果
が送信されるのを待つ状態である。ここで、音声処理と
は、音声認識部121で行われる音声認識、及び音声録
音部123で行われる音声録音の両方の処理を含めたも
のを意味する。
【0091】(S504)次に、図4のフローチャート
を参照すれば、S403において電話機101は、音声
対話装置100から受信したメッセージを再生する。こ
のメッセージに対し、利用者が回答を音声で行う。電話
機101は、利用者の音声を音声対話装置100に送信
する。
【0092】(S505)音声認識部121は、利用者
が行った回答についての音声を、音声対話制御部111
から受信する。具体的には、音声対話制御部111にお
いて、基本処理部115が、回線処理部109から利用
者の音声を受信する。そして、基本処理部115が、音
声認識部121に利用者の音声を送信する。
【0093】次に、音声認識部121は、受信した音声
を確定するために、従来既知の方法によって音声認識を
行う。音声認識の結果、即ち認識結果は、複数の候補と
それぞれの候補に対する尤度として決定される。ここ
で、音声認識部121は、音声認識処理を終了する。ま
た、認識結果は、音声認識部121によって音声対話制
御部111に送信される。
【0094】例えば、利用者が音声により「サンジュウ
ダイ」と回答した場合、利用者の音声に対する認識結果
は、次のようなものとなる。即ち、第1候補:「30
代」、第1候補の尤度0.987;第2候補:「40
代」、第2候補の尤度0.765;第3候補:「10
代」、第3候補の尤度0.543のようになる。
【0095】ここで、この実施の形態において、第1候
補とは最も高い尤度を有するものである。そして、以
下、尤度の高い順から、第2候補、第3候補・・・のよ
うに決定される。
【0096】(S506)音声録音部123は、音声対
話制御部111から、利用者が行った回答についての音
声を受信する。このとき、音声対話制御部111におい
て行われる具体的な手順は、S505で説明したものと
同様である。よって、ここでは、重複する説明について
記載を省略する。
【0097】次に、音声録音部123は、受信した音声
に対し録音処理を行う。そして、音声録音部123は、
録音した音声について音声録音ファイルを作成する。こ
こで、音声録音部123は音声録音処理を終了し、その
旨を音声対話制御部111に通知する。
【0098】尚、この実施の形態の音声対話装置100
において、上述したS501とS502の処理、及びS
505とS506の処理は並行して行われることが好ま
しい。
【0099】次に図6に示すフローチャートを参照し
て、入力処理において行われるS507以降の処理につ
いて説明する。
【0100】(S507)音声対話制御部111におい
て、基本処理部115は、音声認識部121、音声録音
部123からそれぞれ認識結果、音声録音処理終了の通
知を受信する。そして、基本処理部115は、認識結果
を分岐判断部117に送信する。
【0101】分岐判断部117は、認識結果を受信する
と、メモリ119より基準値を読み出す。既に説明した
ように、基準値は、第1閾値、第1閾値差、第2閾値、
第2閾値差の4つの基準値として設定されている。そし
て、分岐判断部117は、認識結果における複数の候補
のうち、第1候補の尤度及び第1候補の尤度と第2候補
の尤度との差について、それぞれ各閾値、各閾値差と比
較を行う。
【0102】ここで、第1候補の尤度と第2候補の尤度
の差と各閾値差との比較は、次のような判断に基づいて
行われることが望ましい。即ち、第1候補と第2候補の
尤度の差が大きいほど、第1候補は入力された音声を確
定するための信頼性が高い結果であると判断される。
【0103】また、このステップにおいて、対話セルの
対話セルモード203が、分岐判断部117によって、
記憶部107からメモリ119に読み込まれる。
【0104】そして、分岐判断部117は、上述したよ
うな各基準値と尤度との比較か、もしくは、対話セルモ
ード203に基づいて分岐判断を行う。
【0105】尚、分岐判断部117による分岐判断は、
認識結果について、(a)そのまま利用するか、(b)
確認処理をおこなうか、(c)再入力処理をおこなう
か、(d)音声録音ファイルだけを保存するか、(e)
認識結果を破棄するか、を判断するものであることが好
ましい。分岐判断部117によって行われる分岐判断に
ついて、詳細は後述する。
【0106】次に、(a)〜(e)の判断の結果行われ
るS508〜S512の処理について説明する。
【0107】(S508)分岐判断部117が、(a)
によって、認識結果をそのまま利用すると判断した場合
は、音声対話制御部111において、第1候補がそのま
ま利用される。そして、入力処理は終了される。
【0108】(S509)分岐判断部117が、(b)
によって、確認処理をおこなうと判断した場合は、音声
対話制御部111において、確認処理が行われる。確認
処理について、詳細は後述する。
【0109】(S510)分岐判断部117が、(c)
によって、再入力処理をおこなうと判断した場合、音声
対話制御部111において、再入力処理が行われる。再
入力処理について、詳細は後述する。
【0110】(S511)分岐判断部117が、(d)
によって、音声録音ファイルを保存すると判断した場
合、音声対話制御部111において基本処理部115
が、音声録音ファイルへのポインタを認識結果として代
用する。そして、基本処理部115は、音声録音ファイ
ルをデータベース部135に保存する。
【0111】尚、音声録音ファイルへのポインタとは、
例えば、図5に示すフローチャートにおいて、S506
の処理で作成される音声録音ファイルのファイル名を示
すものである。そして、このポインタを代用するとは、
例えば、音声対話制御部111において基本処理部11
5が、認識結果を破棄し、音声録音ファイルのファイル
名を認識結果のかわりに用いて、入力処理を終了するこ
とを意味する。
【0112】またデータベース部135に保存された音
声録音ファイルは、必要に応じて、取り出され、確認作
業が行われることが好ましい。この確認作業は、既に説
明した聞き起こし、もしくは、音声認識部121での音
声認識処理等、所望の手段によって行われるものであ
る。
【0113】(S512)分岐判断部117が、(e)
によって、認識結果を破棄すると判断した場合は、音声
対話制御部111において、認識結果なしとして入力処
理を終了する。
【0114】4.分岐判断 以上説明した図6のフローチャート中、S507の処理
について、図11、及び図7と図8に示すフローチャー
トを参照して説明する。
【0115】S507の処理とは、分岐判断で行われる
処理である。図11は、この分岐判断の手順について
(A)〜(F)の5つに場合分けをし、それぞれの場合
について、上述したような判断(a)〜(e)のうち、
どの判断が成されるのか、その対応関係を示したもので
ある。ここで、図11、図7及び図8において、第1候
補の尤度、第2候補の尤度をそれぞれ、尤度(1)、尤
度(2)とする。また、図11において、尤度差とは、
第1候補の尤度と第2候補の尤度との差を示すものであ
る。
【0116】まずは、図7に示すフローチャートにおけ
るS601からS607までの処理について説明する。
【0117】分岐判断部117は、基本処理部115か
ら認識結果を受信するとともに、メモリ119から基準
値を読み出す。更に、分岐判断部117は、対話セルモ
ード203を記憶部107からメモリ119に読み込
む。そして、分岐判断部117は、分岐判断を開始す
る。尚、対話セルモード203を構成する、(イ)〜
(ホ)の複数のフラグ列については既に説明した通りで
ある。
【0118】(S601)、(S602)分岐判断部1
17は、S601において、第1候補の尤度が第1閾値
より大きく、且つS602において、第1候補と第2候
補との尤度の差が第1閾値差より大きい場合、第1候補
をそのまま利用する判断(a)を行う。
【0119】図11を参照すれば、(S601)と(S
602)の処理において、(a)の判断が行われる場合
は(A)に該当する。
【0120】(S603)次に、(A)以外の場合で、
且つ対話セルモード203におけるフラグ列が、(イ)
且つ((ロ)又は(ハ))であるとき、分岐判断部11
7は、S604の処理を行う。
【0121】ここで、フラグ列が(イ)且つ((ロ)又
は(ハ))であるとは、即ち、音声認識処理に応じた次
の対話セルへの分岐があることを示しているか、或い
は、後処理プログラム207について、認識結果をグロ
ーバル変数215に代入することを示している場合であ
る。
【0122】(S604)分岐判断部117は、第1候
補の尤度と第1閾値を比較する。そして、第1候補の尤
度が、第1閾値より大きい場合、分岐判断部117は、
S605の処理を続けて行う。
【0123】(S605)分岐判断部117は、第1候
補と第2候補との尤度の差と第2閾値差とを比較する。
そして、第1候補と第2候補との尤度の差が第2閾値差
より大きい場合、分岐判断部117は、第1候補につい
て確認処理をする判断を行う(b)。
【0124】尚、(S604)において第1候補の尤度
が、第1閾値より大きい場合以外は、S606の処理に
移る。
【0125】(S606)分岐判断部117は、第1候
補の尤度と第2閾値を比較し、第1候補の尤度が、第2
閾値より大きい場合、S607の処理を続けて行う。
【0126】(S607)分岐判断部117は、第1候
補と第2候補との尤度の差と第1閾値差とを比較する。
そして、第1候補と第2候補との尤度の差が第1閾値差
より大きい場合、分岐判断部117は、第1候補につい
て確認処理をする判断を行う(b)。
【0127】ここで、図11を参照すれば、(S60
3)〜(S607)の処理において、(b)の判断が行
われる場合は(B)に該当する。
【0128】尚、図7に示すフローチャートを参照すれ
ば、分岐判断部117は、(B)以外の場合において、
第1候補について再入力処理をする判断(c)を行う。
図11を参照すれば、このときの場合分けは、(C)に
該当する。
【0129】次に、図8に示すフローチャートを参照し
て、S608からS612までの処理について説明す
る。
【0130】(S608)(C)以外の場合において、
且つ対話セルモード203におけるフラグ列が、(イ)
且つ(ホ)であるとき、分岐判断部117は、S609
の処理を行う。フラグ列が(イ)且つ(ホ)であると
は、即ち後処理プログラム207について、認識結果に
応じたグローバル変数215のカウンタ値を増やす処理
を行うことを示している場合である。
【0131】(S609)分岐判断部117は、第1候
補の尤度と第1閾値を比較し第1候補の尤度が、第1閾
値より大きい場合、S610の処理を行う。
【0132】(S610)分岐判断部117は、第1候
補と第2候補との尤度の差と第2閾値差とを比較する。
そして、第1候補と第2候補との尤度の差が第2閾値差
より大きい場合、分岐判断部117は、第1候補をその
まま利用する判断(a)を行う。
【0133】尚、S609において、第1候補の尤度が
第1閾値より大きい場合以外は、S611の処理に移
る。
【0134】(S611)分岐判断部117は、第1候
補の尤度と第2閾値を比較し、第1候補の尤度が、第2
閾値より大きい場合、S612の処理を続けて行う。
【0135】(S612)分岐判断部117は、第1候
補と第2候補との尤度の差と第1閾値差と比較する。そ
して、第1候補と第2候補との尤度の差が第1閾値差よ
り大きい場合、分岐判断部117は、第1候補をそのま
ま利用する判断(a)を行う。
【0136】ここで、図11を参照すれば、(S60
8)〜(S612)の処理において、(a)の判断が行
われる場合は、(D)に該当する。
【0137】そして、図8に示すフローチャートを参照
すれば、分岐判断部117は、(D)以外の場合におい
て、認識結果を破棄し次の処理に進む判断(e)を行
う。図11において、この場合は(E)に該当する。
【0138】更に、図8において、(E)以外の場合
は、認識結果を破棄し、音声録音ファイルを認識結果と
して代用し、データベース部に保存する判断(d)が、
分岐判断部117によって行われる。この場合は、図1
1において、(F)に場合分けされる。
【0139】以上、図11、図7及び図8を参照して説
明した、分岐判断部117が行う分岐判断の手順につい
て、例えば、認識結果が、第1候補:「30代」、第1
候補の尤度0.987;第2候補:「40代」、第2候
補の尤度0.765;第3候補:「10代」、第3候補
の尤度0.543であった場合について考える。
【0140】ここで、メモリ119に格納されている基
準値について、第1閾値が0.800、第2閾値が0.
600、第1閾値差が0.200、第2閾値差が0.1
00のように設定されているものとする。
【0141】このとき、第1候補の尤度、及び第1候補
と第2候補との尤度の差は、それぞれ0.987、0.
222である。よって、第1候補の尤度は、第1閾値
0.800より大きく、且つ第1候補と第2候補との尤
度の差は、第1閾値差より大きい。即ち、このとき、図
7に示すフローチャートにおけるS601とS602の
処理において、分岐判断部117によって、(a)の判
断が行われる。これは、既に説明した(A)の場合に相
当する。
【0142】尚、ここでは、第1候補の尤度、及び第1
候補と第2候補の尤度の差と、各閾値、各閾値差との比
較を行い、分岐判断を行うことについて説明したが、各
候補の尤度及びそれぞれの尤度の差と、各閾値、及び各
閾値差について比較する場合があってもよい。
【0143】5.確認入力処理 次に、図6に示したフローチャート中、S509の処
理、即ち確認入力処理について、図9に示すフローチャ
ートを参照して説明する。
【0144】ここで、既に説明したように、図6に示し
たフローチャート中、S509の処理で、分岐判断部1
17が確認処理を行うと判断した場合、音声対話制御部
111において確認入力処理が開始される。
【0145】(S701)基本処理部115は、確認音
声メッセージ131を、記憶部107からメモリ119
に読み出す。続いて、基本処理部115は、認識結果の
第1候補に確認音声メッセージ131を付与する。そし
て、第1候補に付与された確認音声メッセージは、回線
処理部109を介し基本処理部115によって、利用者
の電話機101に送信される。
【0146】ここで、第1候補に付与された確認音声メ
ッセージは、認識結果における第1候補が、入力された
音声を確定するものであるか、確認を行うものである。
例えば、認識結果における第1候補が「30代」である
場合、この第1候補に付与された確認音声メッセージ
は、「30代でよろしいですか。はい、いいえでお答え
ください。」というようなものとなる。即ち、この実施
の形態で行われる確認処理において、利用者からの回答
は「はい」、もしくは「いいえ」で行われるものとす
る。
【0147】(S702)電話機101は、回線処理部
109からメッセージを受信し、これを再生する。
【0148】(S703)音声対話制御部111におい
て、基本処理部115は、「はい」もしくは「いいえ」
だけを認識する確認認識文法129を、記憶部107か
らメモリ119に読み込む。そして、基本処理部115
は、音声認識部121に確認認識文法129を送信する
とともに、音声認識開始の旨を通知する。音声認識部1
21は確認認識文法129を用いて音声認識処理を開始
する。
【0149】(S704)その後、音声対話制御部11
1は、音声認識部121からの結果待ち状態となる。こ
こで、結果待ち状態とは、音声認識部121から認識結
果が送信されるのを待つ状態である。
【0150】(S705)S702において、電話機1
01で再生されたメッセージに対して、利用者は音声で
回答する。電話機101は、利用者の音声を音声対話装
置100に送信する。
【0151】(S706)電話機101から、利用者の
音声を回線処理部109が受信する。続いて、基本処理
部115が回線処理部109から利用者の音声を受信す
る。基本処理部115は、音声認識部121に、利用者
の音声を送信する。
【0152】音声認識部121は、利用者の音声を受信
すると、この音声に対して音声認識を行う。音声認識の
手順は、確認認識文法129を用いて行われること以外
は、既に説明したものと同様である。そして、決定され
た認識結果は、音声認識部121から基本処理部115
に通知される。決定された認識結果の通知を結果通知と
いう。
【0153】例えば、利用者からの音声による回答が、
「はい」であるとすると、音声認識部121によって決
定された認識結果は、第1候補:「はい」、第1候補の
尤度0.990のようになる。
【0154】(S707)基本処理部115は、認識結
果を受信すると、分岐判断部117にこれを送信する。
分岐判断部117は、この認識結果の第1候補が「いい
え」ならば、S708の処理、即ち再入力処理を行う判
断をする。S708の処理についての詳細な説明は、後
述する。
【0155】一方、認識結果の第1候補が「はい」なら
ば、分岐判断部117は、全ての確認入力処理を終了す
る判断をする。このとき、音声対話制御部111におい
て、この認識結果の第1候補はそのまま利用され、処理
される。
【0156】6.再入力処理 ここで、図9に示すフローチャートにおけるS708の
処理、即ち再入力処理について、図10に示すフローチ
ャートを参照して説明する。尚、図6のフローチャート
におけるS510の処理は、これより説明する再入力処
理と同様のものであり、同様の手順によって行われる。
【0157】(S801)まず、音声対話制御部111
において、基本処理部115は、再入力メッセージ13
3を、記憶部107からメモリ119に読み出す。続い
て、回線処理部109を介して、基本処理部115より
利用者の電話機101に、再入力メッセージが送信され
る。
【0158】再入力メッセージは、例えば、「もう一
度、お答えを発声してください。」というように、利用
者に対して、電話機101における音声の再入力を促す
ものである。
【0159】(S802)電話機101は、回線処理部
109からメッセージを受信し、これを再生する。
【0160】(S803)利用者は、電話機101から
の再入力メッセージに対して、回答を音声で行う。電話
機101は利用者の音声を音声対話装置100に送信す
る。
【0161】(S804)電話機101から、利用者の
音声を回線処理部109が受信する。続いて、基本処理
部115は、回線処理部109から利用者の音声を受信
する。その後、音声対話制御部111において、利用者
の音声に対する入力処理が行われる。この入力処理は既
に説明したものと同様の手順によって行われる。
【0162】入力処理終了後、この実施の形態の動作
は、図4に示すフローチャートにて既に説明したよう
な、S406以降の処理に移る。ここでは、重複する記
載について説明を省略する。
【0163】以上、この実施の形態の音声対話処理によ
れば、音声対話シーケンス125における各対話セル2
01の処理が、繰り返し行われる。そして、この対話セ
ルの処理では、分岐判断部117は、対話セルモード2
03、及び認識結果における尤度と基準値との比較に基
づいて、入力された音声に対して分岐判断を行う。そし
て、この分岐判断によって、認識結果について適した処
理が行われる。即ち、この実施の形態によれば、各対話
セルにおいて、最も適した音声対話処理が行われる。
【0164】よって、従来は人手による聞き起こしの作
業が必要であった認識結果に対して、この実施の形態で
は、人手を介する作業を省くことができる場合もある。
さらに、音声認識が様々な事由によってうまく行われな
い場合においても、分岐判断によって適した処理が決定
され、行われる。
【0165】また、認識結果における尤度と基準値を比
較することによって、分岐判断部117は、音声認識に
ついて認識性能を評価することができる。即ち分岐判断
部117は、認識結果について、音声処理部113の装
置構成を考慮した的確な分岐判断を行っているといえ
る。
【0166】
【発明の効果】以上、この発明の音声対話装置及び音声
対話処理方法によれば、入力された音声に対する認識結
果について、音声対話制御部において、分岐判断部が分
岐判断を行い、最も適した処理を決定する。この際、分
岐判断部において、基準値と尤度とを比較することによ
り、音声認識の認識性能を評価することができる。即ち
分岐判断部は、音声処理部における認識結果について的
確な分岐判断を行っている。よって、この発明の音声対
話装置及び音声対話処理方法によれば、効率が良く、且
つ信頼性の高い音声対話処理を実現することができる。
【図面の簡単な説明】
【図1】この発明の実施の形態における音声対話装置の
構成を示すブロック図である。
【図2】音声対話シーケンスの構成を示すブロック図で
ある。
【図3】この実施の形態における音声対話処理を示すフ
ローチャートである。
【図4】この実施の形態による各対話セルの処理を示す
フローチャートである。
【図5】この実施の形態による入力処理を示すフローチ
ャートである。
【図6】この実施の形態による入力処理を示すフローチ
ャートである。
【図7】この実施の形態による分岐判断における処理を
示すフローチャートである。
【図8】この実施の形態による分岐判断における処理を
示すフローチャートである。
【図9】この実施の形態による確認処理を示すフローチ
ャートである。
【図10】この実施の形態による再入力処理を示すフロ
ーチャートである。
【図11】この実施の形態による分岐判断部における分
岐判断を説明するための図である。
【符号の説明】 100:音声対話装置 101:利用者の電話機 103:通信回線 105:音声対話処理部 107:記憶部 109:回線処理部 111:音声対話制御部 113:音声処理部 115:基本処理部 117:分岐判断部 119:メモリ 121:音声認識部 123:音声録音部 125:音声対話シーケンス 127:音声メッセージ 129:確認認識文法 131:確認音声メッセージ 133:再入力メッセージ 135:データベース部 137:音声処理情報 201:対話セル 203:対話セルモード(第3情報) 205:前処理プログラム 207:後処理プログラム 209:次セルポインタ 211:音声ファイル名(第1情報) 213:認識文法(第2情報) 215:グローバル変数 217:第2情報群 219:第1情報群
フロントページの続き (72)発明者 早川 慎司 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内 Fターム(参考) 5D015 KK02 KK04 LL10 5D045 AB04 AB26 5K027 BB01 HH20

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 通信回線を介して利用者の電話機に接続
    され、該電話機からの音声を受信し、音声対話処理を行
    う音声対話装置において、 前記電話機から入力された音声について、該音声を確定
    するための複数の候補とそれぞれの候補に対する尤度と
    を認識結果として決定し、且つ、判断を行う際に用いる
    ため予め設定された基準値と前記尤度とを比較すること
    によって、分岐判断を行い、前記認識結果をどのように
    処理するか決定する音声対話処理部を具えることを特徴
    とする音声対話装置。
  2. 【請求項2】 請求項1に記載の音声対話装置におい
    て、 前記認識結果の決定に利用される第1情報と第2情報と
    を含む第1情報群と、 前記分岐判断に利用される第3情報を含む第2情報群と
    を有する音声処理情報が、予め格納されている記憶部を
    具えることを特徴とする音声対話装置。
  3. 【請求項3】 請求項2に記載の音声対話装置におい
    て、 前記音声対話処理部は、 前記電話機に接続された回線処理部と、 基本処理部、分岐判断部、及び前記基準値を格納するた
    めのメモリを有する音声対話制御部と、 前記認識結果を決定する音声処理部とを具え、 前記基本処理部は、前記第1情報と前記第2情報とを、
    前記記憶部から前記メモリに読み込み、該第1情報を利
    用して、前記回線処理部を介して前記電話機と音声対話
    を行い、及び前記電話機からの音声を受信し、 前記音声処理部は、前記電話機からの音声と前記第2情
    報とを、前記基本処理部から受信し、前記第2情報を利
    用して前記認識結果を決定し、及び該認識結果を前記基
    本処理部に送信し、 前記分岐判断部は、前記認識結果を前記基本処理部から
    受信し、及び前記記憶部から前記第3情報を、前記メモ
    リから前記基準値を、それぞれ読み出すとともに、 前記尤度と前記基準値との比較、及び前記第3情報に基
    づいて、前記分岐判断を行うことを特徴とする音声対話
    装置。
  4. 【請求項4】 請求項3に記載の音声対話装置におい
    て、 前記音声処理部は、 前記認識結果の決定を行うための音声認識部と、 前記電話機からの音声に対し、録音処理を行い、音声録
    音ファイルを作成する音声録音部とを具えることを特徴
    とする音声対話装置。
  5. 【請求項5】 請求項4に記載の音声対話装置におい
    て、 前記記憶部に予め格納された前記音声処理情報には、複
    数の対話セルを有する音声対話シーケンスが含まれてお
    り、 前記対話セルは、 前記第1情報群と、該対話セルの処理を決定する前記第
    3情報としての対話セルモードを含む前記第2情報群と
    を有しており、 前記分岐判断は、前記尤度と前記基準値との比較、及び
    前記対話セルモードに基づいて行われることを特徴とす
    る音声対話装置。
  6. 【請求項6】 請求項5に記載の音声対話装置におい
    て、 前記音声処理情報には、音声によるメッセージを収録し
    た複数のファイルを有する音声メッセージが含まれてお
    り、 前記第1情報群は、 前記電話機と前記音声対話を行う際に利用されるファイ
    ルを、前記複数のファイルから指定する前記第1情報と
    しての音声ファイル名と、 前記認識結果を決定する際に利用される前記第2情報と
    しての認識文法とを含み、 前記第2情報群は、前記対話セルモードのほかに、 前記音声対話処理に必要な前処理を記述する前処理プロ
    グラムと、 前記音声対話処理に必要な後処理を記述する後処理プロ
    グラムと、 該対話セルにおける処理の終了後、次に進むべき対話セ
    ルを指定する次セルポインタとを含み、 前記対話セルモードは、 前記前処理プログラムと、前記後処理プログラムと、前
    記次セルポインタとに依存することを特徴とする音声対
    話装置。
  7. 【請求項7】 請求項6に記載の音声対話装置におい
    て、 前記音声対話シーケンスは、前記対話セルに対応して設
    定されたグローバル変数を有しており、且つ、前記対話
    セルモードは、複数のフラグ列から構成されており、 該フラグ列は、 (イ)前記対話セルモードが音声認識処理を含むかどう
    か、 (ロ)前記対話セルにおいて、次の対話セルへの分岐が
    あるかどうか、 (ハ)前記後処理プログラムが、前記認識結果につい
    て、前記グローバル変数に代入するかどうか、 (ニ)前記後処理プログラムが、前記認識結果につい
    て、前記記憶部に設置されたデータベース部に登録する
    かどうか、又は、 (ホ)前記後処理プログラムが、前記認識結果につい
    て、前記グローバル変数或いは前記データベース部内の
    カウンタ値を増やす処理を行うかどうか、を示すもので
    あることを特徴とする音声対話装置。
  8. 【請求項8】 請求項7に記載の音声対話装置におい
    て、 前記分岐判断部は、前記分岐判断の結果、前記認識結果
    について、 そのまま利用するか、破棄するか、確認処理を行うか、
    再入力処理を行うか、又は、前記音声録音ファイルを前
    記認識結果として代用し前記データベース部に保存する
    か、のいずれかの処理を決定することを特徴とする音声
    対話装置。
  9. 【請求項9】 請求項8に記載の音声対話装置におい
    て、 前記認識結果について、そのまま利用するか、破棄する
    か、確認処理を行うか、再入力処理を行うか、又は、前
    記音声録音ファイルを前記認識結果として代用し前記デ
    ータベース部に保存するか、の判断を行う際に用いられ
    る前記基準値は、第1閾値、第2閾値、第1閾値差、及
    び第2閾値差の4つの基準値として設定されていること
    を特徴とする音声対話装置。
  10. 【請求項10】 請求項9に記載の音声対話装置におい
    て、 前記分岐判断部は、前記分岐判断において、前記複数の
    候補のうち第1候補の尤度、及び該第1候補と第2候補
    との尤度の差について、 (A)前記第1候補の尤度が前記第1閾値より大きく、
    且つ前記尤度の差が前記第1閾値差より大きい場合、前
    記第1候補をそのまま利用する判断を行い、 (B)(A)以外の場合で、且つ前記対話セルモードに
    おけるフラグ列が、前記対話セルについて、前記音声認
    識処理に応じた前記次の対話セルへの分岐があることを
    示しているか、或いは、前記後処理プログラムについ
    て、前記認識結果を前記グローバル変数に代入すること
    を示しているとき、 前記第1候補の尤度が、前記第1閾値より大きく、且つ
    前記尤度の差が前記第2閾値差より大きい場合、 或いは前記第1候補の尤度が、前記第2閾値より大き
    く、且つ前記尤度の差が前記第1閾値差より大きい場合
    において、前記第1候補について確認処理をする判断を
    行い、 (C)(B)以外の場合において、前記第1候補につい
    て再入力処理をする判断を行い、 (D)(C)以外の場合において、且つ前記対話セルモ
    ードにおけるフラグ列が、前記後処理プログラムについ
    て、前記認識結果に応じた前記グローバル変数のカウン
    タ値を増やす処理を行うことを示しているとき、 前記第1候補の尤度が、前記第1閾値より大きく、且つ
    前記尤度の差が前記第2閾値差より大きい場合、 或いは前記第1候補の尤度が、前記第2閾値より大き
    く、且つ前記尤度の差が前記第1閾値差より大きい場合
    において、前記第1候補をそのまま利用する判断を行
    い、 (E)(D)以外の場合、前記認識結果を破棄し、次の
    処理に進む判断を行い、 (F)(E)以外の場合、前記認識結果を破棄し、前記
    音声録音ファイルを前記認識結果として代用し前記デー
    タベース部に保存する判断を行うことを特徴とする音声
    対話装置。
  11. 【請求項11】 通信回線を介して利用者の電話機に接
    続された音声対話処理部を具える音声対話装置において
    音声対話処理を行うにあたり、 前記電話機から入力された音声を確定するための複数の
    候補とそれぞれの候補に対する尤度とを認識結果として
    決定し、且つ、判断を行う際に用いるため予め設定され
    た基準値と前記尤度とを比較することによって、分岐判
    断を行い、該分岐判断によって前記認識結果をどのよう
    に処理するか決定することを特徴とする音声対話処理方
    法。
  12. 【請求項12】 請求項11に記載の音声対話処理方法
    において、 第1及び第2情報を含む第1情報群と、第3情報を含む
    第2情報群とを有する音声処理情報を予め記憶部に格納
    しておくとき、 前記第1及び第2情報を前記記憶部から読み出して、該
    第1及び第2情報を利用し前記認識結果を決定し、 前記第3情報を前記記憶部から読み出して、該第3情報
    を利用し前記分岐判断を行うことを特徴とする音声対話
    処理方法。
  13. 【請求項13】 請求項12に記載の音声対話処理方法
    において、 前記第1及び第2情報を前記記憶部からメモリに読み出
    し、 該読み出された第1情報を利用して、回線処理部を介し
    て基本処理部と前記電話機との間で音声対話を行い、及
    び前記電話機からの音声を前記回線処理部を介して前記
    基本処理部で受信し、 前記メモリに読み出された前記第2情報を利用して前記
    認識結果を決定し、 前記第3情報を前記記憶部から読み出すとともに、前記
    メモリに予め格納されている前記基準値を読み出し、 前記尤度と前記基準値との比較、及び前記第3情報に基
    づいて、前期分岐判断を行うことを特徴とする音声対話
    処理方法。
  14. 【請求項14】 請求項13に記載の音声対話処理方法
    において、 前記電話機からの音声に対して、音声録音部において、
    録音処理を行って音声録音ファイルを作成することを特
    徴とする音声対話処理方法。
  15. 【請求項15】 請求項14に記載の音声対話処理方法
    において、 前記記憶部に予め格納された前記音声処理情報は、複数
    の対話セルを有する音声対話シーケンスを含み、 前記対話セルは、前記第1情報群と、前記対話セルの処
    理を決定する前記第3情報としての対話セルモードを含
    む前記第2情報群とを有しており、 前記分岐判断は、前記尤度と前記基準値との比較、及び
    前記対話セルモードに基づいて行われることを特徴とす
    る音声対話処理方法。
  16. 【請求項16】 請求項15に記載の音声対話処理方法
    において、 前記音声処理情報には、音声によるメッセージを収録し
    た複数のファイルを有する音声メッセージが含まれてお
    り、 前記第1情報群は、 前記基本処理部と前記電話機との間で前記音声対話を行
    う際に利用されるファイルを、前記複数のファイルから
    指定する前記第1情報としての音声ファイル名と、 前記認識結果を決定する際に利用される前記第2情報と
    しての認識文法とを含み、 前記第2情報群は、前記対話セルモードのほかに、 前記音声対話処理に必要な前処理を記述する前処理プロ
    グラムと、 前記音声対話処理に必要な後処理を記述する後処理プロ
    グラムと、 該対話セルにおける処理の終了後、次に進むべき対話セ
    ルを指定する次セルポインタとを含み、 前記対話セルモードは、 前記前処理プログラムと、前記後処理プログラムと、前
    記次セルポインタとに依存することを特徴とする音声対
    話処理方法。
  17. 【請求項17】 請求項16に記載の音声対話処理方法
    において、 前記音声対話シーケンスは、前記対話セルに対応して設
    定されたグローバル変数を有しており、且つ、前記対話
    セルモードは、複数のフラグ列から構成されており、 該フラグ列は、 (イ)前記対話セルモードが音声認識処理を含むかどう
    か、 (ロ)前記対話セルにおいて、次の対話セルへの分岐が
    あるかどうか、 (ハ)前記後処理プログラムが、前記認識結果につい
    て、前記グローバル変数に代入するかどうか、 (ニ)前記後処理プログラムが、前記認識結果につい
    て、前記記憶部に設置されたデータベース部に登録する
    かどうか、又は、 (ホ)前記後処理プログラムが、前記認識結果につい
    て、前記グローバル変数或いは前記データベース部内の
    カウンタ値を増やす処理を行うかどうか、を示すもので
    あることを特徴とする音声対話処理方法。
  18. 【請求項18】 請求項17に記載の音声対話処理方法
    において、 前記基準値を、第1閾値、第2閾値、第1閾値差、第2
    閾値差の4つの基準値として設定しておき、前記分岐判
    断は、前記複数の候補のうち第1候補の尤度、及び該第
    1候補と第2候補との尤度の差について、 (A)前記第1候補の尤度が前記第1閾値より大きく、
    且つ前記尤度の差が前記第1閾値差より大きい場合、前
    記第1候補をそのまま利用する処理を決定し、 (B)(A)以外の場合で、且つ前記対話セルモードに
    おけるフラグ列が、前記対話セルについて、前記音声認
    識処理に応じた前記次の対話セルへの分岐があることを
    示しているか、或いは、前記後処理プログラムについ
    て、前記認識結果を前記グローバル変数に代入すること
    を示しているとき、 前記第1候補の尤度が、前記第1閾値より大きく、且つ
    前記尤度の差が前記第2閾値差より大きい場合、或いは
    前記第1候補の尤度が、前記第2閾値より大きく、且つ
    前記尤度の差が前記第1閾値差より大きい場合におい
    て、前記第1候補について確認処理を行う決定をし、 (C)(B)以外の場合において、前記第1候補につい
    て再入力処理をする決定をし、 (D)(C)以外の場合において、且つ前記対話セルモ
    ードにおけるフラグ列が、前記後処理プログラムについ
    て、前記認識結果に応じた前記グローバル変数のカウン
    タ値を増やす処理を行うことを示しているとき、 前記第1候補の尤度が、前記第1閾値より大きく、且つ
    前記尤度の差が前記第2閾値差より大きい場合、 或いは前記第1候補の尤度が、前記第2閾値より大き
    く、且つ前記尤度の差が前記第1閾値差より大きい場合
    において、前記第1候補をそのまま利用する処理を決定
    し、 (E)(D)以外の場合、前記認識結果を破棄し、次の
    処理に進む決定をし、 (F)(E)以外の場合、前記認識結果を破棄し、前記
    音声録音ファイルを前記認識結果として代用し前記デー
    タベース部に保存する処理を決定することを特徴とする
    音声対話処理方法。
JP2001221080A 2001-07-23 2001-07-23 音声対話装置及び音声対話処理方法 Withdrawn JP2003036094A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001221080A JP2003036094A (ja) 2001-07-23 2001-07-23 音声対話装置及び音声対話処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001221080A JP2003036094A (ja) 2001-07-23 2001-07-23 音声対話装置及び音声対話処理方法

Publications (1)

Publication Number Publication Date
JP2003036094A true JP2003036094A (ja) 2003-02-07

Family

ID=19054802

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001221080A Withdrawn JP2003036094A (ja) 2001-07-23 2001-07-23 音声対話装置及び音声対話処理方法

Country Status (1)

Country Link
JP (1) JP2003036094A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7303932B2 (en) 2003-10-30 2007-12-04 Nichia Corporation Support body for semiconductor element, method for manufacturing the same and semiconductor device
JP2008046570A (ja) * 2006-08-21 2008-02-28 Aioi Kiso Kenkyusho:Kk 音声入力システム
WO2009147927A1 (ja) * 2008-06-06 2009-12-10 株式会社レイトロン 音声認識装置、音声認識方法および電子機器
JP2016048338A (ja) * 2014-08-28 2016-04-07 アルパイン株式会社 音声認識装置及びコンピュータプログラム
JP2016102823A (ja) * 2014-11-27 2016-06-02 アルパイン株式会社 情報処理システム、音声入力装置及びコンピュータプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7303932B2 (en) 2003-10-30 2007-12-04 Nichia Corporation Support body for semiconductor element, method for manufacturing the same and semiconductor device
US7795624B2 (en) 2003-10-30 2010-09-14 Nichia Corporation Support body for semiconductor element, method for manufacturing the same and semiconductor device
JP2008046570A (ja) * 2006-08-21 2008-02-28 Aioi Kiso Kenkyusho:Kk 音声入力システム
WO2009147927A1 (ja) * 2008-06-06 2009-12-10 株式会社レイトロン 音声認識装置、音声認識方法および電子機器
JPWO2009147927A1 (ja) * 2008-06-06 2011-10-27 株式会社レイトロン 音声認識装置、音声認識方法および電子機器
JP5467043B2 (ja) * 2008-06-06 2014-04-09 株式会社レイトロン 音声認識装置、音声認識方法および電子機器
JP2016048338A (ja) * 2014-08-28 2016-04-07 アルパイン株式会社 音声認識装置及びコンピュータプログラム
JP2016102823A (ja) * 2014-11-27 2016-06-02 アルパイン株式会社 情報処理システム、音声入力装置及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
EP0935378B1 (en) System and methods for automatic call and data transfer processing
US10678501B2 (en) Context based identification of non-relevant verbal communications
US20200092422A1 (en) Post-Teleconference Playback Using Non-Destructive Audio Transport
US6651042B1 (en) System and method for automatic voice message processing
US6775651B1 (en) Method of transcribing text from computer voice mail
US8326624B2 (en) Detecting and communicating biometrics of recorded voice during transcription process
JPH1031497A (ja) 音声対話制御方法および音声対話システム
CN110557451B (zh) 对话交互处理方法、装置、电子设备和存储介质
JP4960596B2 (ja) 音声認識の方法およびシステム
CN108846127A (zh) 一种语音交互方法、装置、电子设备和存储介质
US20120016674A1 (en) Modification of Speech Quality in Conversations Over Voice Channels
JPH0883091A (ja) 音声認識装置
WO2011088049A2 (en) Intelligent and parsimonious message engine
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
WO2020198799A1 (en) Instant messaging/chat system with translation capability
WO2023082752A1 (zh) 基于多模态特征的语音对话处理方法、装置和电子设备
JP2006507530A (ja) 音声認識装置及び方法
JP2003036094A (ja) 音声対話装置及び音声対話処理方法
JP4486235B2 (ja) 音声認識装置
CN112435669B (zh) 一种机器人多轮对话语音交互方法、***和终端设备
KR101042499B1 (ko) 음성인식 성능의 향상을 위한 음성인식 처리 장치 및 그 방법
CN110619870B (zh) 一种人机对话方法、装置、家用电器和计算机存储介质
JP2004151562A (ja) 音声対話制御方法および音声対話制御装置
JP2023125442A (ja) 音声認識装置
CN111554316A (zh) 语音处理装置、方法和介质

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081007