JP3597398B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP3597398B2
JP3597398B2 JP29325898A JP29325898A JP3597398B2 JP 3597398 B2 JP3597398 B2 JP 3597398B2 JP 29325898 A JP29325898 A JP 29325898A JP 29325898 A JP29325898 A JP 29325898A JP 3597398 B2 JP3597398 B2 JP 3597398B2
Authority
JP
Japan
Prior art keywords
speaker
unit
speech
voice
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP29325898A
Other languages
English (en)
Other versions
JP2000122692A (ja
Inventor
哲也 室井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP29325898A priority Critical patent/JP3597398B2/ja
Publication of JP2000122692A publication Critical patent/JP2000122692A/ja
Application granted granted Critical
Publication of JP3597398B2 publication Critical patent/JP3597398B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、通信経路を通して行われる会話における音声認識装置、特に会話中の音声を認識し、認識した音声をキーワードとして情報を検索して、検索した情報を話者に提供することに関するものである。
【0002】
【従来の技術】
例えば商品の注文を受けたり、あるいは商品の問い合わせに答えるというような会話を電話で行うときに、音声認識を利用して情報提供や操作支援を行う音声認識方法が例えば特開平8−24897号公報に開示されている。特開平8−24897号公報に示された音声認識方法は、話者Aと話者Bとが会話を行っている通信経路から、話者Aのみの音声信号を抽出して音声認識し、音声認識した結果を用いて話者Aに提供する情報を決定するようにしている。例えば音声認識装置が置かれている側の話者Aが「はい、商品Cの値段ですね、少しお待ちください」という発話から「商品C」という言葉を認識して、商品Cの情報をディスプレイに表示し、それを確認した話者Aが話者Bに商品Cの値段を答えることができる。
【0003】
しかしながら、音声認識装置を常に動作モードにしておくと、仮に音声認識結果が正しくとも、話者Aが意図しないときに音声認識装置が反応してしまい、予期せぬ画面切り替えが起こってしまったりする。このため音声を認識するためのタイミングを指示するタイミング指示手段を設けている。このため話者Aは話者Bとの会話をしているときに、スイッチなどで音声認識を開始する合図を指示する必要があり、操作が煩雑になって話者Bに対する対話がおろそかになる場合が生じる。
【0004】
この発明はかかる短所を改善し、音声認識を常に動作モードにしておいても的確なタイミングで情報提供や操作支援を行えることができる音声認識装置を提供することを目的とするものである。
【0005】
【課題を解決するための手段】
この発明に係る音声認識装置は、話者と話者とが会話を行っている通信経路から音声信号を抽出して音声認識を行う音声認識部と、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果を比較し、2つの音声認識結果があらかじめ定められた条件であった場合のみ、話者に情報提供あるいは操作支援を行う認識結果比較部とを有することを特徴とする。
【0006】
上記認識結果比較部は、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果が同一であった場合のみ、話者に情報提供あるいは操作支援を行うと良い。
【0007】
また、上記認識結果比較部は、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果が同じ意味であった場合のみ、話者に情報提供あるいは操作支援を行っても良い。
【0008】
【発明の実施の形態】
この発明の音声認識装置は、送信音声入力部と受信音声入力部と送信音声認識部と受信音声認識部と情報格納部と認識結果比較部及び表示部を有し、話者Aと話者Bが電話機などの音声入出力部により公衆回線などの通信経路を介して会話を行う話者Aの音声入出力部側に接続されている。
【0009】
例えば話者Bが音声入出力部から話者Aの音声入出力部に発呼して商品の問い合わせをしたときに、受信音声入力部は話者Bからの受信音声を抽出して受信認識部に送る。受信音声認識部は送られた受信音声から、その商品を特定するキーワードを認識し、認識した結果を認識結果比較部へ送る。一方、話者A側の音声入出力部を介して受信音声を聴いた話者Aは情報提供が必要だと判断した場合には、その商品を特定するキーワードを含む応答の送信音声を発話する。この送信音声を送信音声入力部で抽出して送信認識部に送る。送信音声認識部は送られた送信音声から商品を特定するキーワードを認識し、認識した結果を認識結果比較部へ送る。認識結果比較部は受信音声認識部で認識したキーワードと送信音声認識部で認識したキーワードとを比較し、同一の結果であった場合のみ、情報格納部からその商品の価格や性能などの情報を読み出して表示部に表示して話者Aに伝える。話者Aは表示部に表示された商品の情報を確認して話者Bに伝える。
【0010】
【実施例】
図1はこの発明の一実施例の構成を示すブロック図である。図に示すように、話者Aと話者Bは電話機などの音声入出力部1a,1bにより公衆回線などの通信経路2を介して会話を行う。話者Aは、例えば商品の注文を受けたり、質問を受けたりする側であり、話者Bは商品の注文をしたり、質問をしたりする。話者Aの音声入出力部1aには音声認識装置3が接続されている。音声認識装置3は送信音声入力部4と受信音声入力部5と送信音声認識部6と受信音声認識部7と情報格納部8と認識結果比較部9及び表示部10を有する。送信音声入力部4は音声マイクロフォンなどからなり、話者Aが音声入出力部1aで通話したときの送信音声を抽出して入力し、送信音声入力部5は通信経路2に接続され、話者Bが音声入出力部1bで通話したとき通信経路2を介して受信した受信音声を抽出して入力する。送信音声認識部6は送信音声入力部4から入力した送信音声を認識するものであり、話者Aがあらかじめ特定できるので、特定話者方式あるいは話者適応によって話者Aにチューニングされた音声認識を行い、認識性能の向上を図る。受信音声認識部7は受信音声入力部5から入力した受信音声を認識するものであり、話者が特定できないので、話者に依存しない形で音声が認識できる不特定話者方式の音声認識方式により音声を認識する。情報格納部8には、例えば各種商品の情報があらかじめ格納されている。認識結果比較部9は送信音声認識部6と受信音声認識部8の音声認識結果があらかじめ定められた条件であった場合のみ、音声認識結果に応じた情報を情報格納部8から読み出して表示部10に表示する。
【0011】
上記のように構成された音声認識装置3で、話者Bから話者Aに対して例えば商品に対する問い合わせがあったときの動作を説明する。
【0012】
話者Bが音声入出力部1bから音声入出力部1aに発呼して通信経路が接続され、例えば話者Bが話者Aに対して「商品Cの値段を教えて欲しいんですけど」というような発話をした場合に、受信音声入力部5は話者Bの「商品Cの値段を教えて欲しいんですけど」という受信音声を抽出して受信認識部7に送る。受信音声認識部7は送られた受信音声から「商品C」というキーワードを認識し、認識した結果を認識結果比較部9へ送る。一方、音声入出力部1aを介して「商品Cの値段を教えて欲しいんですけど」という音声を聴いた話者Aは情報提供が必要だと判断した場合には、「はい、商品Cの価格でございますね、少しお待ちください」という送信音声を発話する。この送信音声を送信音声入力部4で抽出して送信認識部6に送る。送信音声認識部6は送られた送信音声から「商品C」というキーワードを認識し、認識した結果を認識結果比較部9へ送る。この受信音声認識部5と送信音声認識部4で音声認識するための文法などの言語モデルは、例えば図2に示すように商品名等を表示した言語モデル21を用い、商品名等を発話中から例えばワードスポッティング、すなわち、あらかじめ定めた言葉だけを自動的に抽出し、他を無視する方法で単語や音節を認識したり、単語を連続して発声した音声を認識する連続音声認識のように発話全体を認識してから、図2に示すような商品名を抽出したりする。
【0013】
認識結果比較部9は受信音声認識部7で認識したキーワード「商品C」と送信音声認識部6で認識したキーワード「商品C」とを比較し、同一の結果であった場合のみ、情報格納部8から「商品C」の価格や性能などの情報を読み出して表示部10に表示して話者Aに伝える。話者Aは表示部10に表示された商品の情報を確認して話者Bに伝える。
【0014】
また、話者Bが、例えば「値段が100万円以下の商品はありますか」という発話を行い、これに対して話者Aが「商品Cでしたら98万円でお求めいただけます」のような対話をした場合、受信音声認識部7では認識するキーワードがなく、送信音声認識部6は「商品C」というキーワードを認識するが、認識結果比較部9で受信音声認識部7の認識結果と送信音声認識部6の認識結果が異なるので「商品C」の情報を表示部10に表示しないようにする。
【0015】
上記実施例は受信音声認識部7で認識した結果と送信音声認識部6で認識した結果が同一の場合の認識結果比較部9から該当する情報を表示部10に表示した場合について説明したが、受信音声認識部7で認識した結果と送信音声認識部6で認識した結果が同じ意味の場合に、認識結果比較部9から該当する情報を表示部10に表示するようにしても良い。
【0016】
例えば認識結果比較部9に、図3に示すように、正式名称「NT95」なる商品が、消費者にわかりやすいように、「おとぼけくん」なる愛称がつけられている場合、「エヌティーきゅうごう」,「エヌティーきゅうじゅうご」,「おとぼけくん」という読みは、全て同じ「NT95」という意味(商品)を表すというような意味と読みの変換テーブル91をあらかじめ設けておき、話者Bの発話を受信音声認識部7で認識した結果が「エヌティーきゅうごう」であり、話者Aの発話を送信音声認識部6で認識した結果が「エヌティーきゅうじゅうご」であった場合、読みは異なるが同じ意味「NT95」を表すと認識結果比較部9で判定して、「NT95」の情報を表示部10に表示する。このにして適切な情報を話者Aから話者Bに伝えることができる。
【0017】
また、上記実施例は送信音声入力部4と受信音声入力部5を別個に設け、送信音声認識部6と受信音声認識部7も別個に設けた場合について説明したが、送信音声入力部4と受信音声入力部5を共通にし、送信音声認識部6と受信音声認識部7も共通にして不特定話者方式で受信音声と送信音声を認識したり、音響モデルだけを話者Aと話者Bで切り替えるようにしても良い。このようにして装置の簡素化を図ることができる。
【0018】
【発明の効果】
この発明は以上説明したように、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果を比較し、2つの音声認識結果があらかじめ定められた条件であった場合だけ、情報提供あるいは操作支援を行うようにしたから、音声認識装置を常に動作モードにしておいて、認識するタイミングを指示しなくとも情報提供が必要な場合にだけ情報提供や操作支援を行うことができる。
【0019】
また、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果が同一であった場合のみ、話者に情報提供あるいは操作支援を行うことにより、誤った情報提供等を行うことを防止でき、正確な情報を提供することができる。
【0020】
さらに、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果が同じ意味であった場合に、話者に情報提供あるいは操作支援を行うから、ある商品に対する名称や読みが複数ある場合に、話者の発話の読みが異なっていても、その意味が共通であれば的確なタイミングで情報提供等を行うことができ、型番などの数詞表現などでは、各種の読みがなされるときでも正確な情報提供を行うことができる。
【図面の簡単な説明】
【図1】この発明の実施例の構成を示すブロック図である。
【図2】言語モデルを示す説明図である。
【図3】意味と読みの変換テーブルの構成図である。
【符号の説明】
1 音声入出力部
2 通信経路
3 音声認識装置
4 送信音声入力部
5 受信音声入力部
6 送信音声認識部
7 受信音声認識部
8 情報格納部
9 認識結果比較部
10 表示部

Claims (3)

  1. 話者と話者とが会話を行っている通信経路から音声信号を抽出して音声認識を行う音声認識部と、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果を比較し、2つの音声認識結果があらかじめ定められた条件であった場合のみ、話者に情報提供あるいは操作支援を行う認識結果比較部とを有することを特徴とする音声認識装置。
  2. 上記認識結果比較部は、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果が同一であった場合のみ、話者に情報提供あるいは操作支援を行う請求項1記載の音声認識装置。
  3. 上記認識結果比較部は、片方の話者の発話の音声認識結果と他方の話者の発話の音声認識結果が同じ意味であった場合のみ、話者に情報提供あるいは操作支援を行う請求項1記載の音声認識装置。
JP29325898A 1998-10-15 1998-10-15 音声認識装置 Expired - Fee Related JP3597398B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29325898A JP3597398B2 (ja) 1998-10-15 1998-10-15 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29325898A JP3597398B2 (ja) 1998-10-15 1998-10-15 音声認識装置

Publications (2)

Publication Number Publication Date
JP2000122692A JP2000122692A (ja) 2000-04-28
JP3597398B2 true JP3597398B2 (ja) 2004-12-08

Family

ID=17792507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29325898A Expired - Fee Related JP3597398B2 (ja) 1998-10-15 1998-10-15 音声認識装置

Country Status (1)

Country Link
JP (1) JP3597398B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343642A (ja) * 2005-06-10 2006-12-21 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、音声認識装置、プログラム、記録媒体
US8370145B2 (en) 2007-03-29 2013-02-05 Panasonic Corporation Device for extracting keywords in a conversation
JP2009182432A (ja) * 2008-01-29 2009-08-13 Seiko Epson Corp コールセンターの情報提供システム、情報提供装置、情報提供方法及び情報提供プログラム

Also Published As

Publication number Publication date
JP2000122692A (ja) 2000-04-28

Similar Documents

Publication Publication Date Title
JP3444486B2 (ja) 音声認識手段を使用する自動音声応答システムおよび方法
US5651056A (en) Apparatus and methods for conveying telephone numbers and other information via communication devices
US9361888B2 (en) Method and device for providing speech-to-text encoding and telephony service
US8909538B2 (en) Enhanced interface for use with speech recognition
JP2003044091A (ja) 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム
WO2008084476A2 (en) Vowel recognition system and method in speech to text applications
CN105210355A (zh) 用于在电话呼叫的接收者判断不适合说话时应答电话呼叫的设备和相关方法
US20050124322A1 (en) System for communication information from a server via a mobile communication device
US20070047708A1 (en) Voice call reply using voice recognition and text to speech
JP3597398B2 (ja) 音声認識装置
JP3526101B2 (ja) 音声認識装置
JP2000165489A (ja) 電話機
JP2000101705A (ja) 無線電話機
EP1269722B1 (en) Telephonic device for deaf-mutes
WO2006042042A1 (en) Silent accept for incoming telephone calls
JP3519259B2 (ja) 音声認識作動装置
JP2002101204A (ja) 通話仲介システム及び聴覚障害者用電話機
JP3975343B2 (ja) 電話番号登録システム、電話機、および電話番号登録方法
JP3278595B2 (ja) 携帯電話
KR940011237B1 (ko) 음성 다이얼링 장치 및 방법
JP2005123869A (ja) 通話内容書き起こしシステムおよび通話内容書き起こし方法
JP2000184077A (ja) ドアホンシステム
JP2002252705A (ja) 話者id検出方法及び装置
CA2256781A1 (en) Method and apparatus for automatically dialling a desired telephone number using speech commands
JPS62132459A (ja) 電話装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040908

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080917

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080917

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090917

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090917

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100917

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110917

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120917

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees