JP2005181358A

JP2005181358A - 音声認識合成システム

Info

Publication number: JP2005181358A
Application number: JP2003417388A
Authority: JP
Inventors: Hiroaki Iso; 浩明磯
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 2003-12-16
Filing date: 2003-12-16
Publication date: 2005-07-07

Abstract

【課題】日常的に人間が使う文章による音声コマンド入力を可能とし、より人間同士の会話に近い音声入力で機器制御を可能とする音声認識合成システムを提供する。
【解決手段】従来の音声認識・合成装置の機能に加えて、ユーザによる所定の機器の操作履歴を格納する履歴データベース１０７と、データベースを解析しスクリプトを生成する手段１０８と、ユーザが複数であるとき、音声認識処理部１０２での認識結果に基づいてユーザを特定する手段と、ユーザごとに履歴データベースに格納された操作履歴を解析し、特定のキーワード同士の関連付けを行い、関連付けた情報から所定の機器の操作手順のスクリプトを生成又は更新する手段（１０１、１１０、１０７、１０８）とを設けている。
【選択図】図１

Description

本発明は、音声認識や音声合成を使い、対話形式でユーザにコマンドを音声入力させ機器制御するシステムに関する。

現在、コンピュータや電子機器の分野において、ユーザの音声による命令を認識して機器制御ができるものや文字入力を音声によってできるものがある。また、そのような機器では、音声を認識するだけでなく、音声を合成しユーザに対して音声でコマンド内容の確認や動作の開始終了を伝達するといったことも行われている。

カーナビゲーション（以下カーナビと言う）を例に、機器制御の一連の動作を説明する。
以下にカーナビに目的地を音声入力するときのユーザとカーナビとのやり取りの一例を示す。
（カーナビ）「行き先を入力ください」
（ユーザ）「東京都」
（カーナビ）「東京都のどちらですか？」
（ユーザ）「世田谷区」
（カーナビ）「世田谷区のどちらですか？」
・・・・
というやり取りを機器と行うことによって、ユーザは運転中に手などを使うことなく、声だけで目的地を入力し、目的地の地図表示や目的地までの経路探索などをカーナビに行わせることができる。また、近年では、音声認識技術の発達により、単語の認識だけでなく連続した単語の認識もできるようになり、例えば、目的地入力において「東京都世田谷区世田谷１丁目に行く」という文章を入力することによって、目的地までの経路探索を行わせることもできるようになってきている。

ところで、このような音声入力による機器の操作ができるシステムでは、ユーザと機器間のやり取りの定義、すなわち、どのような言葉が入力されたら、次にどのような機器動作をするのか、例えば、ある言葉の入力待ちになったり、経路探索の実行を開始したり、それと同時に音声合成によってユーザに返答をするなどという動作手順のシナリオが重要となる。このシナリオをプログラムによってアプリケーションに実装する方法もあるが、現在では、テキストファイルベースのスクリプトを定義し、それを音声認識エンジンや音声合成エンジンを持つブラウザプログラムでそのスクリプトファイルを読み込み、順次実行するといった技術がある。すなわち、下記の特許文献１（発明の名称：音声命令システム、音声命令装置、音声命令方法及び音声命令プログラム）に開示された技術では、HTMLベースでこのスクリプトを記述している。また、下記の非特許文献１に開示された技術では、、W3Cにおいては、XMLベースでこのスクリプトを記述するvoiceXMLという規格も標準化されている。
また、特定の自然言語を扱う修正型音声認識・合成システムは、下記の特許文献２に記載されているように、広く知られている。
特開２００２−３６６３４４号公報特表２００３−５２１７５０号公報（請求項７７、７８） Voice eXtensible Markup Language（VoiceXML）version 1.0 W3C Note 05-May-2000 (http://www.w3.org/TR/2000/NOTE-voicexml-20000505)

さて、上述のスクリプトファイルを用いた音声認識合成システムでは、あらかじめ用意されたいろいろなユーザの操作場面を想定したスクリプトファイルに定義された手順に従って機器動作がなされる。よって、同じ動作をさせるときは一連の音声のやりとりを行う必要がある。例えば、従来例のように「東京都世田谷区世田谷１丁目」に、また行きたいときには、再び「東京都世田谷区世田谷１丁目」を入力しなければならない。このようにユーザに何度も同じことを繰り返させることは、ユーザにとって利便性が悪いことは言うまでもない。また、このように何度も同じことを機器が尋ねたりすることによって、人間同士の自然な会話とかけ離れるものとなり、音声認識合成システムの普及の妨げにもなっている。
また、上記特許文献２に記載のシステムは、スピーチシステムであり、コマンドの伝達に応用できるものではなかった。

そこで、本発明では、ユーザの過去の音声入力履歴や機器の操作履歴を基に人間がよく日常で使う言葉として「いつもの」「この前の」などという言葉に対応する処理を適宜スクリプトファイルに反映させることにより、「いつものところへ行く」「この前のお店に行く」などという日常的に人間が使う文章による音声コマンド入力を可能とし、より人間同士の会話に近い音声入力で機器制御を可能とする音声認識合成システムを提供することを目的とする。

本発明は上記目的を達成するための手段として、音声認識処理部及び音声合成処理部を備え、ユーザから入力される音声命令に対応する被制御機器における操作手順が定義されているスクリプトの内容を実行させるための操作コマンドを、前記被制御機器に送出し、前記ユーザの音声命令によって前記被制御機器に対して所望の操作を実行させる音声認識合成システムにおいて、
前記ユーザが複数であるとき、前記音声認識処理部での認識結果に基づいて前記ユーザを特定する手段と、
複数の前記ユーザによる前記被制御機器の操作履歴を前記特定する手段により特定された各ユーザと対応させて格納するデータベースと、
前記データベースを解析しスクリプトを生成する手段と、
その特定された前記ユーザごとに前記データベースに格納された前記操作履歴を解析し、特定のキーワード同士の関連付けを行い、前記関連付けた情報から前記被制御機器の操作手順のスクリプトを生成又は更新する手段とを、
有することを特徴とする音声認識合成システムを提供するものである。

本発明の音声認識合成システムでは、ユーザの過去の操作履歴を解析し、回数の最も多い操作に関するキーワードや、最後に行った操作に関するキーワードと、「いつもの」や「この前の」といった特別なキーワードとを関連付けることによって、ユーザからの「いつものＸＸＸ」「この前のＸＸＸ」といったコマンド入力に対応することが可能となり、何度も同じ住所を入力させるなど、繰り返し同じ音声コマンドをユーザに要求することもなくなる。

さらに、音声認識の際に話者の特徴を抽出し話者を特定し、ユーザごとの履歴が反映されたスクリプトを生成することにより、ユーザごとに「いつもの」や「この前の」といったコマンドに対して最適な動作をすることが可能となる。
また、日常的に人間が使う文章に近いコマンド入力が使えることにより、機械と話すという抵抗感も、より軽減されるという効果を得ることができる。

本発明の音声認識合成システムは、ユーザごとの過去の操作履歴を解析し、回数の最も多い操作に関するキーワードや、最後に行った操作に関するキーワードと、「いつもの」や「この前の」といった特別なキーワードと関連付けることによって、ユーザからの「いつものＸＸＸ」「この前のＸＸＸ」といったコマンド入力に対応を可能とした。
図１は、本発明の音声認識・合成システムの実施の形態を示す構成図である。なお、本実施の形態では、操作対象の機器の一例としてカーナビゲーションを想定した。

voiceXMLインタプリタ１０１は、voiceXMLスクリプト１０９を読み込み実行する。voiceXMLスクリプト１０９は、システム内のハードディスクやRAMなど書き換え可能な媒体に格納されている。音声認識エンジン１０２は、ユーザがマイク１０４を使い入力した音声を認識し、文字列としてvoiceXMLインタプリタ１０１に送信する。また、音声認識エンジン１０２は話者を特定してその話者情報をユーザ管理部１１０に送信する。音声合成エンジン１０３は、voiceXMLインタプリタ１０１から送信された文字列を音声に変換し、スピーカ１０５に出力し、ユーザに対して応答をする。

例えば、voiceXMLスクリプト１０９に、「行き先はどこですか？」という音声を出力後、ユーザからの音声入力待ちとなり、行き先が入力された後に、その行き先について経路探索するという記述がされていた場合、voiceXMLインタプリタ１０１は、まず、音声合成エンジン１０３に「行き先はどこですか？」という文字列を送信し、音声を出力させる。

その後、音声認識エンジン１０２からの文字列待ちになる。そして、音声認識エンジン１０２から文字列が送信されてきた場合、その単語を解釈し、機器操作処理部１０６に経路探索の指示を出す。機器操作処理部１０６は、経路探索結果をユーザに表示するなどの処理を完了した後、その操作履歴とユーザ管理部１１０からの情報を履歴データベース１０７に格納する。その後、履歴アナライザ１０８は、更新された履歴データベース１０７に格納された情報を基に解析を始める。例えば、最後に経路探索した場所や過去探索回数が最も多い場所などをユーザ別に検索する。また、ジャンルなど属性別にも同様な検索を行う。その結果を基に「いつもの店」「この前行った店」「いつものところ」といった特別なキーワードとの関連付けをユーザ別に行い、voiceXMLスクリプト１０９を更新する。その後再度voiceXMLスクリプト１０９が実行されると、ユーザから「いつもの店」「この前行った店」といったコマンドが入力された場合、voiceXMLインタプリタ１０１は、ユーザ管理部１１０から話者情報とvoiceXMLスクリプト１０９の内容を参照し、ユーザに応じた経路探索の処理を行う。

ここで、図２の履歴データベースの一例を用いて、詳細に説明すると、履歴データベースには、探索場所、探索日時、属性１、属性２、探索回数（探索履歴）、ユーザ名（ユーザ情報）といった項目が保存されている。このデータベースを参照すると、「いつもの店」に関連付けられるキーワードとしては、ユーザＡの場合、「店」という属性を持つ項目の探索場所の中で、最も探索回数が多い「ＸＸコンビニエンス」が該当する。また、「この前の店」に関連付けられるキーワードは、「店」という属性を持つ探索場所の中で、探索日時が直近の「ＸＸレストラン」が当てはまる。一方、ユーザＢの場合は、「店」という属性を持つ項目の探索場所の中で、最も探索回数が多い「ＢＢスーパー」が該当する。また、「この前の店」に関連付けられるキーワードは、「店」という属性を持つ探索場所の中で、探索日時が直近の「ラーメンＢＢ」が当てはまる。

このように履歴データベースを解析するとともに、さらにその関連付けから、「いつもの店」という音声コマンドがユーザから発行されたら、ユーザＡであれば「ＸＸコンビニエンス」、また、ユーザＢであれば「ＢＢスーパー」を案内するよう定義されたvoiceXMLスクリプトに現存のvoiceXMLスクリプトを更新する。

図３は、更新前のvoiceXMLスクリプトの一例である。「行き先はどこですか？」と音声を出力後、ユーザからの音声入力待ちになり、入力後経路探索処理が始まる。
一方、図４は、更新後のvoiceXMLスクリプトの一例であり、ユーザが音声を入力後、「いつもの店」や「この前の店」といったキーワードが入力された場合は、ユーザ別の操作履歴に応じた動作をするように定義されている。
このように過去の操作履歴をvoiceXMLスクリプトに反映させることにより、機器が「行き先はどこですか？」と尋ねた後、ユーザから「いつもの店」や「この前の店」という返答があった場合に過去の操作履歴に応じた店を案内することが実現できる。

なお、本実施の形態ではカーナビゲーションの経路探索を想定しているが、他のコマンドにも応用が可能であるとともに、他分野の音声認識合成を用いるシステムに応用も可能である。また、本実施の形態では、スクリプトとしてvoiceXMLを使用したが、HTMLや他のスクリプトを利用することも可能である。

図１に示した実施の形態では、機器操作処理部１０６が設けられていて、本発明の音声認識・合成システムを用いて操作を制御する対象の機器の一部が組み込まれた形となっている。しかし、制御対象の機器の一部を含まない構成とする場合は、図１中の機器操作処理部１０６に代えて制御対象の機器を制御するための制御信号を送出するとともに、制御対象の機器の状態を示す信号を受け付けるインターフェイスなどを設けることができる。

図１に構成を示した本発明の実施の形態中のマイク１０４、スピーカ１０５を除いた部分は、コンピュータの構成要素であるＣＰＵ（中央演算処理装置）、ＲＡＭ、ＲＯＭ、インターフェイス、バスラインなどで構成することができる。したがって、上記実施の形態で説明した本発明にかかる装置中の各機能は、コンピュータプログラムとして具現し、コンピュータに実行させることができる。かかるコンピュータプログラムは、所定の記録媒体に記録して供給されてコンピュータに取り込まれるようにすることもできるし、インターネットなどの通信ネットワークを介して伝送されてコンピュータに取り込まれるようにすることもできる。

本発明の音声認識合成システムは、ユーザからの「いつものＸＸＸ」「この前のＸＸＸ」といったコマンド入力への対応が可能となり、何度も同じ住所を入力させるなど、繰り返し同じ音声コマンドをユーザに要求することもなくなるので、本実施の形態で説明したカーナビゲーションシステムのみならず、音声認識合成を用いてユーザが機器操作する様々なシステム全般において有用である。

本発明の音声認識合成システムの実施の形態を示す構成図である。本発明の音声認識合成システムの実施の形態に用いる履歴データベースの構造の一例を示す図である。本発明の音声認識合成システムの実施の形態に用いるvoiceXMLスクリプトの一例である（更新前）。本発明の音声認識合成システムの実施の形態に用いるvoiceXMLスクリプトの一例である（更新後）。

符号の説明

１０１ voiceXMLインタプリタ（ユーザ管理部、履歴データベース、履歴アナライザと共にスクリプトを生成又は更新する手段を構成する）
１０２音声認識エンジン（音声認識処理部）
１０３音声合成エンジン
１０４マイク
１０５スピーカ
１０６機器操作処理部
１０７履歴データベース
１０８履歴アナライザ（スクリプトを生成する手段）
１０９ voiceXMLスクリプト
１１０ユーザ管理部

Claims

音声認識処理部及び音声合成処理部を備え、ユーザから入力される音声命令に対応する被制御機器における操作手順が定義されているスクリプトの内容を実行させるための操作コマンドを、前記被制御機器に送出し、前記ユーザの音声命令によって前記被制御機器に対して所望の操作を実行させる音声認識合成システムにおいて、
前記ユーザが複数であるとき、前記音声認識処理部での認識結果に基づいて前記ユーザを特定する手段と、
複数の前記ユーザによる前記被制御機器の操作履歴を前記特定する手段により特定された各ユーザと対応させて格納するデータベースと、
前記データベースを解析しスクリプトを生成する手段と、
その特定された前記ユーザごとに前記データベースに格納された前記操作履歴を解析し、特定のキーワード同士の関連付けを行い、前記関連付けた情報から前記被制御機器の操作手順のスクリプトを生成又は更新する手段とを、
有することを特徴とする音声認識合成システム。