JP2005181358A - 音声認識合成システム - Google Patents

音声認識合成システム Download PDF

Info

Publication number
JP2005181358A
JP2005181358A JP2003417388A JP2003417388A JP2005181358A JP 2005181358 A JP2005181358 A JP 2005181358A JP 2003417388 A JP2003417388 A JP 2003417388A JP 2003417388 A JP2003417388 A JP 2003417388A JP 2005181358 A JP2005181358 A JP 2005181358A
Authority
JP
Japan
Prior art keywords
user
script
speech recognition
voice
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003417388A
Other languages
English (en)
Inventor
Hiroaki Iso
浩明 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2003417388A priority Critical patent/JP2005181358A/ja
Publication of JP2005181358A publication Critical patent/JP2005181358A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】 日常的に人間が使う文章による音声コマンド入力を可能とし、より人間同士の会話に近い音声入力で機器制御を可能とする音声認識合成システムを提供する。
【解決手段】 従来の音声認識・合成装置の機能に加えて、ユーザによる所定の機器の操作履歴を格納する履歴データベース107と、データベースを解析しスクリプトを生成する手段108と、ユーザが複数であるとき、音声認識処理部102での認識結果に基づいてユーザを特定する手段と、ユーザごとに履歴データベースに格納された操作履歴を解析し、特定のキーワード同士の関連付けを行い、関連付けた情報から所定の機器の操作手順のスクリプトを生成又は更新する手段(101、110、107、108)とを設けている。
【選択図】 図1

Description

本発明は、音声認識や音声合成を使い、対話形式でユーザにコマンドを音声入力させ機器制御するシステムに関する。
現在、コンピュータや電子機器の分野において、ユーザの音声による命令を認識して機器制御ができるものや文字入力を音声によってできるものがある。また、そのような機器では、音声を認識するだけでなく、音声を合成しユーザに対して音声でコマンド内容の確認や動作の開始終了を伝達するといったことも行われている。
カーナビゲーション(以下カーナビと言う)を例に、機器制御の一連の動作を説明する。
以下にカーナビに目的地を音声入力するときのユーザとカーナビとのやり取りの一例を示す。
(カーナビ)「行き先を入力ください」
(ユーザ)「東京都」
(カーナビ)「東京都のどちらですか?」
(ユーザ)「世田谷区」
(カーナビ)「世田谷区のどちらですか?」
・・・・
というやり取りを機器と行うことによって、ユーザは運転中に手などを使うことなく、声だけで目的地を入力し、目的地の地図表示や目的地までの経路探索などをカーナビに行わせることができる。また、近年では、音声認識技術の発達により、単語の認識だけでなく連続した単語の認識もできるようになり、例えば、目的地入力において「東京都世田谷区世田谷1丁目に行く」という文章を入力することによって、目的地までの経路探索を行わせることもできるようになってきている。
ところで、このような音声入力による機器の操作ができるシステムでは、ユーザと機器間のやり取りの定義、すなわち、どのような言葉が入力されたら、次にどのような機器動作をするのか、例えば、ある言葉の入力待ちになったり、経路探索の実行を開始したり、それと同時に音声合成によってユーザに返答をするなどという動作手順のシナリオが重要となる。このシナリオをプログラムによってアプリケーションに実装する方法もあるが、現在では、テキストファイルベースのスクリプトを定義し、それを音声認識エンジンや音声合成エンジンを持つブラウザプログラムでそのスクリプトファイルを読み込み、順次実行するといった技術がある。すなわち、下記の特許文献1(発明の名称:音声命令システム、音声命令装置、音声命令方法及び音声命令プログラム)に開示された技術では、HTMLベースでこのスクリプトを記述している。また、下記の非特許文献1に開示された技術では、、W3Cにおいては、XMLベースでこのスクリプトを記述するvoiceXMLという規格も標準化されている。
また、特定の自然言語を扱う修正型音声認識・合成システムは、下記の特許文献2に記載されているように、広く知られている。
特開2002−366344号公報 特表2003−521750号公報(請求項77、78) Voice eXtensible Markup Language(VoiceXML)version 1.0 W3C Note 05-May-2000 (http://www.w3.org/TR/2000/NOTE-voicexml-20000505)
さて、上述のスクリプトファイルを用いた音声認識合成システムでは、あらかじめ用意されたいろいろなユーザの操作場面を想定したスクリプトファイルに定義された手順に従って機器動作がなされる。よって、同じ動作をさせるときは一連の音声のやりとりを行う必要がある。例えば、従来例のように「東京都世田谷区世田谷1丁目」に、また行きたいときには、再び「東京都世田谷区世田谷1丁目」を入力しなければならない。このようにユーザに何度も同じことを繰り返させることは、ユーザにとって利便性が悪いことは言うまでもない。また、このように何度も同じことを機器が尋ねたりすることによって、人間同士の自然な会話とかけ離れるものとなり、音声認識合成システムの普及の妨げにもなっている。
また、上記特許文献2に記載のシステムは、スピーチシステムであり、コマンドの伝達に応用できるものではなかった。
そこで、本発明では、ユーザの過去の音声入力履歴や機器の操作履歴を基に人間がよく日常で使う言葉として「いつもの」「この前の」などという言葉に対応する処理を適宜スクリプトファイルに反映させることにより、「いつものところへ行く」「この前のお店に行く」などという日常的に人間が使う文章による音声コマンド入力を可能とし、より人間同士の会話に近い音声入力で機器制御を可能とする音声認識合成システムを提供することを目的とする。
本発明は上記目的を達成するための手段として、音声認識処理部及び音声合成処理部を備え、ユーザから入力される音声命令に対応する被制御機器における操作手順が定義されているスクリプトの内容を実行させるための操作コマンドを、前記被制御機器に送出し、前記ユーザの音声命令によって前記被制御機器に対して所望の操作を実行させる音声認識合成システムにおいて、
前記ユーザが複数であるとき、前記音声認識処理部での認識結果に基づいて前記ユーザを特定する手段と、
複数の前記ユーザによる前記被制御機器の操作履歴を前記特定する手段により特定された各ユーザと対応させて格納するデータベースと、
前記データベースを解析しスクリプトを生成する手段と、
その特定された前記ユーザごとに前記データベースに格納された前記操作履歴を解析し、特定のキーワード同士の関連付けを行い、前記関連付けた情報から前記被制御機器の操作手順のスクリプトを生成又は更新する手段とを、
有することを特徴とする音声認識合成システムを提供するものである。
本発明の音声認識合成システムでは、ユーザの過去の操作履歴を解析し、回数の最も多い操作に関するキーワードや、最後に行った操作に関するキーワードと、「いつもの」や「この前の」といった特別なキーワードとを関連付けることによって、ユーザからの「いつものXXX」「この前のXXX」といったコマンド入力に対応することが可能となり、何度も同じ住所を入力させるなど、繰り返し同じ音声コマンドをユーザに要求することもなくなる。
さらに、音声認識の際に話者の特徴を抽出し話者を特定し、ユーザごとの履歴が反映されたスクリプトを生成することにより、ユーザごとに「いつもの」や「この前の」といったコマンドに対して最適な動作をすることが可能となる。
また、日常的に人間が使う文章に近いコマンド入力が使えることにより、機械と話すという抵抗感も、より軽減されるという効果を得ることができる。
本発明の音声認識合成システムは、ユーザごとの過去の操作履歴を解析し、回数の最も多い操作に関するキーワードや、最後に行った操作に関するキーワードと、「いつもの」や「この前の」といった特別なキーワードと関連付けることによって、ユーザからの「いつものXXX」「この前のXXX」といったコマンド入力に対応を可能とした。
図1は、本発明の音声認識・合成システムの実施の形態を示す構成図である。なお、本実施の形態では、操作対象の機器の一例としてカーナビゲーションを想定した。
voiceXMLインタプリタ101は、voiceXMLスクリプト109を読み込み実行する。voiceXMLスクリプト109は、システム内のハードディスクやRAMなど書き換え可能な媒体に格納されている。音声認識エンジン102は、ユーザがマイク104を使い入力した音声を認識し、文字列としてvoiceXMLインタプリタ101に送信する。また、音声認識エンジン102は話者を特定してその話者情報をユーザ管理部110に送信する。音声合成エンジン103は、voiceXMLインタプリタ101から送信された文字列を音声に変換し、スピーカ105に出力し、ユーザに対して応答をする。
例えば、voiceXMLスクリプト109に、「行き先はどこですか?」という音声を出力後、ユーザからの音声入力待ちとなり、行き先が入力された後に、その行き先について経路探索するという記述がされていた場合、voiceXMLインタプリタ101は、まず、音声合成エンジン103に「行き先はどこですか?」という文字列を送信し、音声を出力させる。
その後、音声認識エンジン102からの文字列待ちになる。そして、音声認識エンジン102から文字列が送信されてきた場合、その単語を解釈し、機器操作処理部106に経路探索の指示を出す。機器操作処理部106は、経路探索結果をユーザに表示するなどの処理を完了した後、その操作履歴とユーザ管理部110からの情報を履歴データベース107に格納する。その後、履歴アナライザ108は、更新された履歴データベース107に格納された情報を基に解析を始める。例えば、最後に経路探索した場所や過去探索回数が最も多い場所などをユーザ別に検索する。また、ジャンルなど属性別にも同様な検索を行う。その結果を基に「いつもの店」「この前行った店」「いつものところ」といった特別なキーワードとの関連付けをユーザ別に行い、voiceXMLスクリプト109を更新する。その後再度voiceXMLスクリプト109が実行されると、ユーザから「いつもの店」「この前行った店」といったコマンドが入力された場合、voiceXMLインタプリタ101は、ユーザ管理部110から話者情報とvoiceXMLスクリプト109の内容を参照し、ユーザに応じた経路探索の処理を行う。
ここで、図2の履歴データベースの一例を用いて、詳細に説明すると、履歴データベースには、探索場所、探索日時、属性1、属性2、探索回数(探索履歴)、ユーザ名(ユーザ情報)といった項目が保存されている。このデータベースを参照すると、「いつもの店」に関連付けられるキーワードとしては、ユーザAの場合、「店」という属性を持つ項目の探索場所の中で、最も探索回数が多い「XXコンビニエンス」が該当する。また、「この前の店」に関連付けられるキーワードは、「店」という属性を持つ探索場所の中で、探索日時が直近の「XXレストラン」が当てはまる。一方、ユーザBの場合は、「店」という属性を持つ項目の探索場所の中で、最も探索回数が多い「BBスーパー」が該当する。また、「この前の店」に関連付けられるキーワードは、「店」という属性を持つ探索場所の中で、探索日時が直近の「ラーメンBB」が当てはまる。
このように履歴データベースを解析するとともに、さらにその関連付けから、「いつもの店」という音声コマンドがユーザから発行されたら、ユーザAであれば「XXコンビニエンス」、また、ユーザBであれば「BBスーパー」を案内するよう定義されたvoiceXMLスクリプトに現存のvoiceXMLスクリプトを更新する。
図3は、更新前のvoiceXMLスクリプトの一例である。「行き先はどこですか?」と音声を出力後、ユーザからの音声入力待ちになり、入力後経路探索処理が始まる。
一方、図4は、更新後のvoiceXMLスクリプトの一例であり、ユーザが音声を入力後、「いつもの店」や「この前の店」といったキーワードが入力された場合は、ユーザ別の操作履歴に応じた動作をするように定義されている。
このように過去の操作履歴をvoiceXMLスクリプトに反映させることにより、機器が「行き先はどこですか?」と尋ねた後、ユーザから「いつもの店」や「この前の店」という返答があった場合に過去の操作履歴に応じた店を案内することが実現できる。
なお、本実施の形態ではカーナビゲーションの経路探索を想定しているが、他のコマンドにも応用が可能であるとともに、他分野の音声認識合成を用いるシステムに応用も可能である。また、本実施の形態では、スクリプトとしてvoiceXMLを使用したが、HTMLや他のスクリプトを利用することも可能である。
図1に示した実施の形態では、機器操作処理部106が設けられていて、本発明の音声認識・合成システムを用いて操作を制御する対象の機器の一部が組み込まれた形となっている。しかし、制御対象の機器の一部を含まない構成とする場合は、図1中の機器操作処理部106に代えて制御対象の機器を制御するための制御信号を送出するとともに、制御対象の機器の状態を示す信号を受け付けるインターフェイスなどを設けることができる。
図1に構成を示した本発明の実施の形態中のマイク104、スピーカ105を除いた部分は、コンピュータの構成要素であるCPU(中央演算処理装置)、RAM、ROM、インターフェイス、バスラインなどで構成することができる。したがって、上記実施の形態で説明した本発明にかかる装置中の各機能は、コンピュータプログラムとして具現し、コンピュータに実行させることができる。かかるコンピュータプログラムは、所定の記録媒体に記録して供給されてコンピュータに取り込まれるようにすることもできるし、インターネットなどの通信ネットワークを介して伝送されてコンピュータに取り込まれるようにすることもできる。
本発明の音声認識合成システムは、ユーザからの「いつものXXX」「この前のXXX」といったコマンド入力への対応が可能となり、何度も同じ住所を入力させるなど、繰り返し同じ音声コマンドをユーザに要求することもなくなるので、本実施の形態で説明したカーナビゲーションシステムのみならず、音声認識合成を用いてユーザが機器操作する様々なシステム全般において有用である。
本発明の音声認識合成システムの実施の形態を示す構成図である。 本発明の音声認識合成システムの実施の形態に用いる履歴データベースの構造の一例を示す図である。 本発明の音声認識合成システムの実施の形態に用いるvoiceXMLスクリプトの一例である(更新前)。 本発明の音声認識合成システムの実施の形態に用いるvoiceXMLスクリプトの一例である(更新後)。
符号の説明
101 voiceXMLインタプリタ(ユーザ管理部、履歴データベース、履歴アナライザと共にスクリプトを生成又は更新する手段を構成する)
102 音声認識エンジン(音声認識処理部)
103 音声合成エンジン
104 マイク
105 スピーカ
106 機器操作処理部
107 履歴データベース
108 履歴アナライザ(スクリプトを生成する手段)
109 voiceXMLスクリプト
110 ユーザ管理部

Claims (1)

  1. 音声認識処理部及び音声合成処理部を備え、ユーザから入力される音声命令に対応する被制御機器における操作手順が定義されているスクリプトの内容を実行させるための操作コマンドを、前記被制御機器に送出し、前記ユーザの音声命令によって前記被制御機器に対して所望の操作を実行させる音声認識合成システムにおいて、
    前記ユーザが複数であるとき、前記音声認識処理部での認識結果に基づいて前記ユーザを特定する手段と、
    複数の前記ユーザによる前記被制御機器の操作履歴を前記特定する手段により特定された各ユーザと対応させて格納するデータベースと、
    前記データベースを解析しスクリプトを生成する手段と、
    その特定された前記ユーザごとに前記データベースに格納された前記操作履歴を解析し、特定のキーワード同士の関連付けを行い、前記関連付けた情報から前記被制御機器の操作手順のスクリプトを生成又は更新する手段とを、
    有することを特徴とする音声認識合成システム。
JP2003417388A 2003-12-16 2003-12-16 音声認識合成システム Withdrawn JP2005181358A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003417388A JP2005181358A (ja) 2003-12-16 2003-12-16 音声認識合成システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003417388A JP2005181358A (ja) 2003-12-16 2003-12-16 音声認識合成システム

Publications (1)

Publication Number Publication Date
JP2005181358A true JP2005181358A (ja) 2005-07-07

Family

ID=34779898

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003417388A Withdrawn JP2005181358A (ja) 2003-12-16 2003-12-16 音声認識合成システム

Country Status (1)

Country Link
JP (1) JP2005181358A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101429138B1 (ko) * 2012-09-25 2014-08-11 주식회사 금영 복수의 사용자를 위한 장치에서의 음성 인식 방법
JP2018097201A (ja) * 2016-12-14 2018-06-21 トヨタ自動車株式会社 音声対話装置および対話方法
WO2020165933A1 (ja) * 2019-02-12 2020-08-20 三菱電機株式会社 機器制御装置、機器制御システム、機器制御方法、及び機器制御プログラム
JP2020187689A (ja) * 2019-05-17 2020-11-19 三菱電機株式会社 音声制御システムおよび音声制御装置
JP2021105636A (ja) * 2019-12-26 2021-07-26 本田技研工業株式会社 エージェントシステム、エージェント方法、及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101429138B1 (ko) * 2012-09-25 2014-08-11 주식회사 금영 복수의 사용자를 위한 장치에서의 음성 인식 방법
JP2018097201A (ja) * 2016-12-14 2018-06-21 トヨタ自動車株式会社 音声対話装置および対話方法
WO2020165933A1 (ja) * 2019-02-12 2020-08-20 三菱電機株式会社 機器制御装置、機器制御システム、機器制御方法、及び機器制御プログラム
JPWO2020165933A1 (ja) * 2019-02-12 2021-03-25 三菱電機株式会社 機器制御装置、機器制御システム、機器制御方法、及び機器制御プログラム
JP2020187689A (ja) * 2019-05-17 2020-11-19 三菱電機株式会社 音声制御システムおよび音声制御装置
JP7432996B2 (ja) 2019-05-17 2024-02-19 三菱電機株式会社 音声制御システムおよび音声制御装置
JP2021105636A (ja) * 2019-12-26 2021-07-26 本田技研工業株式会社 エージェントシステム、エージェント方法、及びプログラム
JP7254689B2 (ja) 2019-12-26 2023-04-10 本田技研工業株式会社 エージェントシステム、エージェント方法、及びプログラム

Similar Documents

Publication Publication Date Title
US8380516B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
KR100661687B1 (ko) 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신 판독가능 매체 및 대화형 음성 응답 시스템
JPH10275162A (ja) プロセッサに基づくホスト・システムを制御する無線音声起動制御装置
US20040025115A1 (en) Method, terminal, browser application, and mark-up language for multimodal interaction between a user and a terminal
JP2004310748A (ja) ユーザ入力に基づくデータの提示
WO1999048088A1 (en) Voice controlled web browser
JP3814566B2 (ja) 情報処理装置、情報処理方法、制御プログラム
JP2005321730A (ja) 対話システム、対話システム実行方法、及びコンピュータプログラム
JP2004021791A (ja) 自然言語による既存データの記述方法及びそのためのプログラム
JP2008129692A (ja) 回答支援装置、回答支援システム、回答支援方法および回答支援プログラム
JP6179971B2 (ja) 情報提供装置及び情報提供方法
JP3542578B2 (ja) 音声認識装置及びその方法、プログラム
JP2005249829A (ja) 音声認識を行うコンピュータネットワークシステム
JPH10124293A (ja) 音声指令可能なコンピュータとそれ用の媒体
JP2005181358A (ja) 音声認識合成システム
JP2003030187A (ja) 自動通訳システム、会話学習装置、自動通訳装置及びその方法並びにそのプログラム
JP5338298B2 (ja) ページ閲覧装置およびプログラム
JP2003108566A (ja) エージェントを用いた情報検索方法および情報検索装置
JP2007164732A (ja) コンピュータ実行可能なプログラム、および情報処理装置
JP2002175175A (ja) 音声駆動可能なユーザインターフェイス
JP3785439B2 (ja) 自然言語処理装置とその自然言語処理方法、及び自然言語処理プログラム
JP2000214874A (ja) 音声合成装置及びその方法、コンピュ―タ可読メモリ
JP2009086597A (ja) テキスト音声変換サービスシステム及び方法
JP2005266009A (ja) データ変換プログラムおよびデータ変換装置
JP2003196306A (ja) 画像検索装置及びその方法、プログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070306