JP4101365B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP4101365B2 JP4101365B2 JP21077198A JP21077198A JP4101365B2 JP 4101365 B2 JP4101365 B2 JP 4101365B2 JP 21077198 A JP21077198 A JP 21077198A JP 21077198 A JP21077198 A JP 21077198A JP 4101365 B2 JP4101365 B2 JP 4101365B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- utterance
- speaker
- input
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声認識装置に係り、特に認識不能時における動作に関する。
【0002】
【従来の技術】
近年、種々の電子機器に音声認識装置が採用されており、特に車載用においては、非常に便利なものになっている。例えば、運転者がナビゲーション機器やオーディオ機器等を操作するに際して、運転中のスイッチ操作による負担を軽減するために、運転者(発話者)の発声した音声を認識して接続された電子機器(メインシステム)に適切な操作指示を行う音声認識装置がある。
【0003】
認識処理を確実にするためには、発話者の発声タイミング(発声開始、発声終了)と適切な発声長さが重要である。音声認識装置側では発声タイミングを示するために発声開始音(以下、開始音と称す)を出し、発話者は開始音を聞いてから発声する。理想的な発声開始、発声終了、発声長さについて図4を用いて説明する。
【0004】
図4は音声認識装置における認識開始・タイムアウト・規定長と発話者の発声開始・発声終了・発声長さの関係を示す図である。以下、図に従って説明する。音声認識装置より発声開始の合図として、「ピッという音に後にお話下さい」とメッセージされる。このピッという音が開始音(受付開始)で、ここからタイムアウト(受付終了)までの間が受付可能期間(例えば、5秒間)であり、発話者はこの間に発声を終了しなければならない。また、この受付可能期間のうち最初に発声を検知した時点(認識開始)から所定時間内(規定長と称し、認識可能期間に相当するもので、例えば3秒間)に発声を終わらなければ発話者の音声は認識されない。つまり、発話者の発声開始が開始音(ピッ)よりも早い場合、発声終了がタイムアウトよりも遅い場合、発声長さが規定長よりも長い場合はいずれも音声認識できず認識エラーとなる。
【0005】
もし、音声認識装置が発話者の音声を認識できなかった時は、「認識できませんでした。もう一度お話下さい」等のメッセージを出す。発話者はメッセージに従って再度発声して認識させる。
【0006】
【発明が解決しようとする課題】
従来の音声認識装置では、音声認識装置が発話者の音声を認識できなかったので再発声を要求するが、そのメッセージは発声が極端に不適切であっても同じであるため、発話者はどのような発声方法の改善を行えばよいか判らず、同じような発声を繰り返すことになる。その結果、何度も同じような失敗を繰り返すので音声認識率が向上しないという問題がある。
【0007】
本発明は、発話者の発声の仕方の問題点に応じて発話者に発声について適切なメッセージを与え、音声認識率の向上を図った音声認識装置を提供することを目的とする。
【0008】
【課題を解決するための手段】
上記目的を達成するために本発明は、音声入力の受付開始時点から受付終了時点までの受付可能期間内の音声入力について音声認識を行う音声認識装置において、発話者の発声開始時点と音声入力の受付開始時点とを検出する音声入力手段を備え、該音声入力手段で検出された前記発話者の発声開始時点が前記受付開始時点よりも早い場合には、前記発声開始時点と前記受付開始時点の時間差に応じて、前記発話者に再音声入力を要求するためのメッセージの内容を変更する第1のメッセージ変更手段を備えたことを特徴とするものである。
【0009】
また、音声入力の受付開始時点から受付終了時点までの受付可能期間内の音声入力について音声認識を行う音声認識装置において、発話者の発声終了時点と音声入力の受付終了時点とを検出する検出手段を備え、該検出手段により検出された前記発話者の発声終了時点が前記受付終了時点よりも遅い場合には、前記発声終了時点と前記受付終了時点の時間差に応じて、前記発話者に再音声入力を要求するためのメッセージの内容を変更する第2のメッセージ変更手段を備えたことを特徴とするものである。
【0010】
また、音声入力の受付開始時点から受付終了時点までの受付可能期間内の音声入力について音声認識を行う音声認識装置において、発話者の入力音声の時間長と受付開始時点からの所定時間を検出する検出手段を備え、該検出手段により検出された前記入力音声の時間長が前記所定時間よりも長い場合には、前記入力音声の時間長と前記所定時間の時間差に応じて、前記発話者に再音声入力を要求するためのメッセージの内容を変更する第3のメッセージ変更手段を備えたことを特徴とするものである。
【0011】
【実施例】
図3は音声認識装置の構成を示すブロック図である。以下、図に従って説明する。
1は運転者や同乗者の音声を電気信号に変換する所定の位置に配置された音声入力部で、マイクロフォンから入力された音声は雑音除去用フィルタを通過後、A/D変換され認識処理部2に入力される。2は発話者の音声を認識する認識処理部で、音響処理部21と単語照合部22で構成され、音響処理部21では音声の特徴を抽出し音素辞書23と照合して単語に、そして単語照合部22で単語辞書24と照合して入力された音声を認識する。3は認識処理部2の認識結果に基いて操作されるナビゲーション装置等のメインシステムで、人工衛星からの電波を受信するGPS受信機31、地図情報が記憶されたCD−ROM及びその読取装置からなる地図データベース32、車両の位置を特定する処理及びメインシステム全体の制御を行うマイクロコンピュータにより構成された制御部33、地図情報を表示する液晶表示器等で構成された表示部34、キースイッチ等により入力指示を行う操作部35、音声認識結果に基づき適切なメッセージを音声合成して音声出力部37に出力する音声合成部36、音声合成されたメッセージを音声出力する増幅器、スピーカ等から構成される音声出力部37から構成される。
【0012】
図1は本発明の一実施例の音声認識装置の処理のフローチャートである。図2は音声認識装置における認識開始・タイムアウト・規定長と発話者の発声開始・発声終了・発声長さの関係を示す図で、(a)は発声開始が開始音よりも早い場合、(b)は発声終了がタイムアウトよりも遅い場合、(c)は発声長さが規定長よりも長い場合である。以下、図に従って音声認識装置における動作を説明する。
【0013】
ステップS1では、発声開始が開始音よりも早いか否かを判断して発声開始が早ければステップS2に移り、発声開始が早くなければステップS5に移る。この判断は音声認識装置が発話者に発声を促す合図である開始音「ピッ」を発した時点と、発話者の音声を音声入力部1が検出した時点のいずれが早いかで判断する。
【0014】
ステップS2では、発声開始が開始音よりも極端に早いか否かを判断して極端に早ければステップS3に移り、極端に早くなければ(開始音の直前に発声を検出した時)ステップS4に移る。つまり、発話者の発声開始が開始音よりどの程度早いかを判断するもので、例えば開始音「ピッ」を発した時点と発話者の音声を音声入力部1が検出した時点の時間差の大小で判断する(例えば、1秒以上を極端に早い、1秒未満を早いとする)。図2(a)において、▲1▼は発声開始が開始音よりも極端に早い場合であり、▲2▼は発声開始が開始音の直前(僅かに早い)の場合である。
【0015】
ステップS3では、「ピッという音を確認してからお話し下さい。」とメッセージを発して処理を終える。つまり、発声開始が極端に早いので再発声を要求するメッセージに「確認してから」という言葉を用いて、発話者に開始音を聞いてから発声するように注意を促す。ステップS4では、「ピッという音の後にもう少し遅くお話し下さい。」とメッセージを発して処理を終える。つまり、発声開始が開始音よりも僅かに早いだけなので再発声を要求するメッセージに「少し遅く」という言葉を用いて、極端に発声が遅くならないように配慮する。
【0016】
このように、発声開始の早さの程度に応じて発話者へのメッセージの内容を変更する。発話者は適切なメッセージにより発声開始のタイミングの調整を図ることができ、認識処理の確率が向上する。尚、本例では発声開始の早さの程度を2段階に分けて説明したが、さらに多くの段階に分けて適切なメッセージを発するようにすると、より一層の効果が期待できる。
【0017】
ステップS5では、発声開始がタイムアウトの直前であるか否かを判断してタイムアウトの直前であればステップS7に移り、タイムアウトの直前でなければステップS6に移る。つまり、発話者の発声開始が開始音よりどの程度遅いかを判断するもので、例えば開始音「ピッ」を発した時点と発話者の音声を音声入力部1が検出した時点の時間差の大小で判断する。図3(c)において、▲1▼は発声の開始が音声認識タイムアウトの直前の場合である。
【0018】
ステップS6では、発声終了がタイムアウトの直後であるか否かを判断してタイムアウトの直後であればステップS8に移り、タイムアウトの直後でなければステップS9に移る。つまり、発話者の発声終了がタイムアウトよりどの程度遅いかを判断するものである。図3(c)において、▲2▼は発声の終了が音声認識タイムアウトの直後の場合である。
【0019】
ステップS7では、「ピッという音の後○○秒以内にお話し下さい。」とメッセージを発して処理を終える。つまり、発声開始が極端に遅く、そのために発声終了がタイムアウト(受付終了)を超えてしまったので再発声を要求するメッセージに「ピッという音の○○秒以内」という言葉を用いて、発話者に具体的に発声のタイミングを指示する。ステップS8では、「ピッという音の後にもう少し早くお話し下さい。」とメッセージを発して処理を終える。つまり、発声終了が受付終了よりも僅かに遅いだけなので再発声を要求するメッセージに「少し早く」という言葉を用いて、極端に発声が早くならないように配慮する。
【0020】
このように、発声終了の遅さの程度に応じて発話者へのメッセージの内容を変更する。発話者は適切なメッセージにより発声開始(結果として発声終了)のタイミングの調整を図ることができ、認識処理の確率が向上する。
ステップS9では、発声長さが規定長よりも極端に長いか否かを判断して規定長よりも極端に長ければステップS10に移り、規定長よりも少し長ければステップS11に移る。つまり、発話者の発声開始から発声終了までの期間が規定長よりをどれ程超えてるかを判断するものである。規定長は音声を一時記憶しておくメモリの容量等により制限されるもので、受付可能期間内であっても1つの音声入力が規定長よりも長いと認識できなくなる。図3(d)において、▲1▼は規定長よりも極端に長い場合であり、▲2▼は規定長よりも少し長い場合である。
【0021】
ステップS10では、「ピッという音の後に短くお話し下さい。」とメッセージを発して処理を終える。つまり、発声長さが規定長よりも極端に長く、そのために認識できないので再発声を要求するメッセージに「短く」という言葉を用いて、発話者に充分に短く話すように指示する。ステップS11では、「ピッという音の後にもう少し短くお話し下さい。」とメッセージを発して処理を終える。つまり、発声長さが規定長よりも僅かに長いだけなので再発声を要求するメッセージに「少し短く」という言葉を用いて、極端に発声が短くならないように配慮する。
【0022】
このように、発声長さの程度に応じて発話者へのメッセージの内容を変更する。発話者は適切なメッセージにより発声長さの調整を図ることができ、認識処理の確率が向上する。
以上のように本実施例では、音声認識部が認識できなかった理由を発声開始、発声終了、発声長さに区別し、さらに、その程度に応じて発話者に対して、発声の仕方等の問題点に解消するような適切なメッセージが発せられ、発話者は具体的な指示に基いて発声するので再入力された音声の認識率が向上できる。
【0023】
【発明の効果】
以上説明したように、本発明では、発話者の発声の仕方の問題点に応じて発話者に発声についての適切なメッセージを与え、音声認識率の向上を図った音声認識装置が提供できる。
【図面の簡単な説明】
【図1】本発明の一実施例の音声認識装置の処理のフローチャートである。
【図2】音声認識装置における認識開始・タイムアウト・規定長と発話者の発声開始・発声終了・発声長さの関係を示す図である。
【図3】音声認識装置の構成を示すブロック図である。
【図4】音声認識装置における認識開始・タイムアウト・規定長と発話者の発声開始・発声終了・発声長さの関係を示す図である。
【符号の説明】
1・・・・音声入力部、 31・・・GPS受信機、
2・・・・認識処理部、 32・・・地図データベース、
21・・・音響処理部、 33・・・制御部、
22・・・単語照合部、 34・・・表示部、
23・・・音素辞書、 35・・・操作部、
24・・・単語辞書、 36・・・音声合成部、
3・・・・メインシステム、 37・・・音声出力部。
Claims (3)
- 音声入力の受付開始時点から受付終了時点までの受付可能期間内の音声入力について音声認識を行う音声認識装置において、
発話者の発声開始時点と音声入力の受付開始時点とを検出する音声入力手段を備え、
該音声入力手段で検出された前記発話者の発声開始時点が前記受付開始時点よりも早い場合には、前記発声開始時点と前記受付開始時点の時間差に応じて、前記発話者に再音声入力を要求するためのメッセージの内容を変更する第1のメッセージ変更手段を備えたことを特徴とする音声認識装置。 - 音声入力の受付開始時点から受付終了時点までの受付可能期間内の音声入力について音声認識を行う音声認識装置において、
発話者の発声終了時点と音声入力の受付終了時点とを検出する検出手段を備え、
該検出手段により検出された前記発話者の発声終了時点が前記受付終了時点よりも遅い場合には、前記発声終了時点と前記受付終了時点の時間差に応じて、前記発話者に再音声入力を要求するためのメッセージの内容を変更する第2のメッセージ変更手段を備えたことを特徴とする音声認識装置。 - 音声入力の受付開始時点から受付終了時点までの受付可能期間内の音声入力について音声認識を行う音声認識装置において、
発話者の入力音声の時間長と受付開始時点からの所定時間を検出する検出手段を備え、
該検出手段により検出された前記入力音声の時間長が前記所定時間よりも長い場合には、前記入力音声の時間長と前記所定時間の時間差に応じて、前記発話者に再音声入力を要求するためのメッセージの内容を変更する第3のメッセージ変更手段を備えたことを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21077198A JP4101365B2 (ja) | 1998-07-27 | 1998-07-27 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21077198A JP4101365B2 (ja) | 1998-07-27 | 1998-07-27 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000047689A JP2000047689A (ja) | 2000-02-18 |
JP4101365B2 true JP4101365B2 (ja) | 2008-06-18 |
Family
ID=16594876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21077198A Expired - Fee Related JP4101365B2 (ja) | 1998-07-27 | 1998-07-27 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4101365B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008309966A (ja) * | 2007-06-13 | 2008-12-25 | Fujitsu Ten Ltd | 音声入力処理装置および音声入力処理方法 |
JP2018142329A (ja) * | 2018-03-27 | 2018-09-13 | 株式会社ユピテル | システム及びプログラム |
-
1998
- 1998-07-27 JP JP21077198A patent/JP4101365B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000047689A (ja) | 2000-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8639508B2 (en) | User-specific confidence thresholds for speech recognition | |
US8756062B2 (en) | Male acoustic model adaptation based on language-independent female speech data | |
US20030083874A1 (en) | Non-target barge-in detection | |
WO2007069377A1 (ja) | 音声認識装置 | |
JP2004506971A (ja) | 音声入出力の制御方法 | |
JP2004126413A (ja) | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム | |
US8438030B2 (en) | Automated distortion classification | |
JP2004536329A (ja) | 分散型音声認識システムにおける音声認識のためのシステム及び方法 | |
US20070198268A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
US9473094B2 (en) | Automatically controlling the loudness of voice prompts | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
US7328159B2 (en) | Interactive speech recognition apparatus and method with conditioned voice prompts | |
JPH11126092A (ja) | 音声認識装置および車両用音声認識装置 | |
JPH1152976A (ja) | 音声認識装置 | |
JP3916861B2 (ja) | 音声認識装置 | |
JP4101365B2 (ja) | 音声認識装置 | |
JP2006058390A (ja) | 音声認識装置 | |
JP4178931B2 (ja) | 音声認識装置 | |
JPH08263092A (ja) | 応答音声生成方法および音声対話システム | |
US10127910B2 (en) | Speech recognition apparatus and computer program product for speech recognition | |
JP6966374B2 (ja) | 音声認識システム及びコンピュータプログラム | |
JPH11109989A (ja) | 音声認識装置 | |
JPH11184495A (ja) | 音声認識装置 | |
JP4979336B2 (ja) | 音声出力装置 | |
JP2003330488A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050616 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080318 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080319 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110328 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110328 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120328 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120328 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130328 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130328 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140328 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140328 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |