JP2006235671A

JP2006235671A - 会話装置及びコンピュータ読み取り可能な記録媒体。

Info

Publication number: JP2006235671A
Application number: JP2005044948A
Authority: JP
Inventors: Norinaga Tsukiji; 則長築地
Original assignee: Individual
Current assignee: Individual
Priority date: 2005-02-22
Filing date: 2005-02-22
Publication date: 2006-09-07

Abstract

【課題】利用者のテキスト入力または音声入力に対し、動画で表現された仮想人物がテキスト表示または音声で対応する会話装置において、利用者が自分の嗜好により仮想人物の映像やテキスト等のリンクを簡単に設定でき、背景音や肉声を容易に使用できるようにする。
【解決手段】利用者が入力したテキスト、または入力した音声から認識されたテキストの中から所定のキーワードを検索し、このキーワードにリンクされた仮想人物の動画ファイル、テキストファイル、音声ファイルなどをデータ格納部７から取得して合成した合成ファイルをもとに、仮想人物がテキストまたは音声を伴って答える映像を、表示部によって表示する。その際に、キーワードを任意に設定し、複数の仮想人物の動画の中から任意の動画ファイルを選択し、複数のテキストファイルまたは複数の音声ファイルの中から任意のファイルを選択し、リンク関係を記憶部に記憶する。
【選択図】図１

Description

この発明は、利用者の音声入力などに対し、映像で表現された仮想人物が音声などで答える会話装置に関する。

利用者の音声入力などに対し、映像で表現された仮想人物（ロボット）が音声などで答える会話装置には、例えば、下記の特許文献１が存在する。
特開2000-259601 この特許文献１の装置では、コンピュータを用いて、利用者が音声入力を行うと、その入力を音声認識部が認識して、応答文構築部が応答文を構築し、その応答文をもとにして合成された音声と、応答文に応じた仮想人物の動作の映像が生成されて、ディスプレイなどに表示される。

しかしながら、前記特許文献１の装置では、
（１）利用者が各キーワードに対する映像や文章等のリンクを簡単に設定することができない。
すなわち、前記特許文献１では、応答に関する台本等のデータ書き換えを行う記載があるものの、この書き換えに関しては、利用者が仮想人物を自分の嗜好性に合うように変えたいと思ったときに、どのような手続および手段でそれをなし得るのかが不明である。また、この仮想人物をどこまで自分の好みに近づけられるかは不明である。

つまり、利用者ＹがＡという言葉を含んだ文章を入力した際、それに対して映像で示される仮想人物Ｂに、Ｃという表情およびしぐさを伴いつつ、Ｄという言葉を返して欲しいと考え、なおかつその場面の背景にＧという効果音を伴った表現をこの仮想人物に求めたとする。さらにこの利用者Ｙは、自分がこの仮想人物Ｂに話しかける際、自分の話しかけのひとつひとつに対し、自分の好むとおりの表情、しぐさ、言葉、背景等を変化させて完全に自分の嗜好性に合うような対応をこの仮想人物Ｂに実行させたいと考えたとする。

そして、上記利用者Ｙは、この特許文献１のソフトを利用してすぐに人物Ｂの表情や言葉等の対応を自分の好みに完全に合うように、自分の決めたひとつひとつのキーワードごとにこの人格の書き換えを行おうとしたとする。そのＹ氏が、プログラム等の知識はまったく持たないとすると、このようなきめ細かい書き換え作業は、この前記特許文献１では不可能である。その理由を下記に書きに記す。

[1] 前記特許文献１の段落「００１６」には、映像ロボットの動作の選択は、利用者入力文のキーワードによるか、もしくは、入力文を形態素解析するとある。そして、この形態素解析の方法については、段落「００２０」に具体的方法の記載があが、このようにプログラム解析を用いて選択された動作が、利用者の仮想人物に望んだ動作と完全に一致することは不可能である。そこでもし利用者が選択された動作の変更を望んだ場合、それに対応することはプログラムの変更を伴うため、非常に困難かまたは不可能である。

[2] 上記[1]のキーワードによる動作の変更については、ある特定のキーワードに特定の動作を１つずつリンクさせていく必要があるはずである。ところが、この特許文献１の中には、リンク設定部に関する記述がまったく無い。請求項などで列挙された変更可能部分はすべて、映像のデータそのものの変更のみであり、これは文章のリンク設定についても同様である。

一連の装置の中にリンク設定部を設けなければ、特定キーワードに対する文章や映像のリンクはすべて各データベース内で行われることとなる。すなわち、この特許文献１による装置を用いる利用者は、キーワードを１つ追加するたびに文章と映像それぞれのデータベースを別個に書き換えなければならない。しかもこのデータはどのような形でデータベース内に保管されているかはまったく不明なので、利用者の意図どおりの変更が可能かどうかは不明である。一例として、あるキーワードに２つの動作を連続して仮想人物に行わせ、その２つの動作にあわせて２つの文章を出力させたいと考えたとする。このような連続した動作がひとつのキーワードに対して可能なのか、また可能だとしてもそれぞれの動作にタイミングを合わせて文章を出力することが可能なのかが不明である。

（２）この特許文献１では、音声ファイルが扱えない。
音声変換装置は、今の技術レベルではその感情表現の豊かさ等において肉声に遠く及ばない。そこでもし利用者が波音等の背景音や肉声を使用したいと考えた場合、この特許文献１ではそれに対応できない。
（３）この特許文献１の段落「００２１」には、この特許文献１の別プログラム内での使用に関する記述があるが、別プログラムやインターネット上の別サイト等（以下、単に「別サイト等」という。）へリンクする装置はどこにも無い。したがってこの特許文献１による装置では、仮想人物等の会話以外のことはほとんど何もできず、それを可能にしたければまた別の装置が必要になるのである。このことは実用上たいへんな違いである。

すなわち、もしこの特許文献１による装置が別サイト等へのリンクが可能であり、かつこの装置（プログラムソフト）がインターネット上のサーバーに置かれていたとする。すると利用者は、携帯電話等を使ってこのサーバーにアクセスし、あたかも人間の秘書に命ずるようにこの仮想人物へ様々な指示を出すことが可能となる。この仮想人物は、与えられたキーワードに対応するサイト等へリンク可能であるので、そのリンク先サイト等内にある様々なプログラムを実行し、その結果を利用者携帯に表示することができる。これら一連の作業を、人間的な受け答えを伴って実行できることとなる。したがってこの特許文献１は、ＩＴ利用者に対して新しい会話型インターフェースを提供できることとなる。
この発明は、以上の問題点を解決するために、（１）利用者が各キーワードに対する映像や文章等のリンクを簡単に設定でき、よって、利用者が仮想人物の応答を自分の嗜好性に合うように変えることができ、（２）背景音や肉声を容易に使用でき、（３）あたかも人間の秘書に命ずるように仮想人物へ様々な指示を出し、この仮想人物は、与えられたキーワードに対応してサイト等内にある様々なプログラムを実行し、その結果を利用者へ表示することができる会話装置を提供することを目的とする。

以上の課題を解決するために、第一発明は、利用者のテキスト入力または音声入力に対し、動画で表現された仮想人物がテキスト表示または音声で答える会話装置であって、利用者がテキストまたは音声を入力する入力部と、この入力の内容の中から所定のキーワードを検索するキーワード検索部と、前記キーワードを設定し、複数の仮想人物の動画の中から任意の動画ファイルを選択し、利用者が自分で応答用のテキストファイルを作成し又は複数の音声ファイルの中から任意のファイルを選択し、前記設定したキーワード、前記選択した動画ファイル、及び前記作成したテキストファイルまたは音声ファイルをリンクするキーワードリンク設定部と、その設定された動画ファイルやテキストファイルおよび音声ファイルを表示する表示部と、前記複数の仮想人物の動画ファイル、前記複数のテキストファイルまたは複数の音声ファイルを格納するデータ格納部と、前記キーワード、及びこれらの前記リンクの関係を記憶する記憶部と、を有することを特徴とする会話装置である。

第二発明は、さらに、前記キーワードにリンクされるファイルには、別プログラムやインターネット上の別サイトへアクセスしてプログラムを実行し結果を記録して表示するアクセス実行プログラムファイルが含まれ、このアクセス実行プログラムを実行できるアクセス装置を備えたことを特徴とする会話装置である。

第三発明は、利用者のテキスト入力または音声入力に対し、動画で表現された仮想人物がテキスト表示または音声で答える会話装置として機能するためコンピュータが読み取り可能な記録媒体であって、利用者が入力部から入力したテキスト、または音声から認識されたテキストの中から所定のキーワードを検索する手順と、前記キーワードを設定し、複数の仮想人物の動画の中から任意の動画ファイルを選択し、利用者が自分で応答用のテキストファイルを作成し又は複数の音声ファイルの中から任意のファイルを選択し、前記設定したキーワード、前記選択した動画ファイル、及び前記作成したテキストファイルまたは音声ファイルをリンクする手順と、その設定された動画ファイルやテキストファイルおよび音声ファイルを表示する手順と、前記複数の仮想人物の動画ファイル、前記複数のテキストファイルまたは複数の音声ファイルを格納するデータ格納部と、前記キーワード、及びこれらの前記リンクの関係を記憶する手順と、が実行できるプログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体である。

第四発明は、さらに、前記キーワードにリンクされるファイルには、アクセス装置を介して別プログラムやインターネット上の別サイトへアクセスしてプログラムを実行し結果を記録して表示するアクセス実行プログラムファイルが含まれることを特徴とするコンピュータ読み取り可能な記録媒体である。

第一、第二、第三、又は第四発明によれば、以下の効果を得る。
（１）キーワードリンク設定部により、利用者は各キーワードに対する仮想人物の動画、及び、テキストまたは音声の少なくとも一方、のリンクを簡単に設定することができ、これにより、利用者が仮想人物の対応を自分の嗜好性に高度に合うように容易に変えることができる。

また、キーワードリンク設定部を設け、そこで設定したリンク関係を記憶する記憶部を、仮想人物の動画、テキストまたは音声を格納するデータ格納部と別に設ければ、リンク作業はデータ格納部が通常設けられるデータベースの外で行うことができる。よって、利用者は、データベースを別個に書き換えなくても、仮想人物の対応を容易に細かく、意図どおりに変更が可能となる。

（２）さらに、肉声などの音声ファイルを扱い、リンク関係に入れるので、音声変換装置による機械声よりも豊かな肉声が使用でき、さらに、波音等の背景音を使用することも容易に行える。
次に、第二、または第四発明によれば、さらに、以下の効果を得る。
（３）利用者は、あたかも人間の秘書に命ずるように仮想人物へ様々な指示をテキスト入力または音声入力によって出し、この入力の内容の中から検索されたキーワードにリンクされたアクセス実行プログラムが、別プログラムやインターネット上の別サイトへアクセスしてプログラムを実行し結果を記録して表示させることができる。

この発明の実施形態に係る装置を、図１〜図６に示す。
（装置）
図１〜図３において、この会話装置１を説明する。この会話装置１はコンピュータによって実現される。
この会話装置１（図１に示す）は、利用者のテキスト入力または音声入力に対し、動画で表現された仮想人物がテキスト表示や音声で応答する装置である。
仮想人物３（図６下方参照）が表現される動画ファイル５は多数がデータ格納部７に格納されている。仮想人物３のキャラクターも複数が用意され、キャラ１、キャラ２、・・・とされる。図２に示すように、各キャラクターにはそれぞれ、泣く、笑う、挨拶、お辞儀、怒る、驚き、誤る、・・・などの表情およびしぐさの動画が用意される。

また、応答に用いられるテキストファイル９及び音声ファイル１１も多数が、データ格納部７に格納されている。「おはようございます」「こんにちは」「こんばんわ」「お元気ですか」「いい天気ですね」「あいにくの雨ですね」・・・など、日常の挨拶で使用されるものを中心にほとんどの言葉がテキストファイル９や音声ファイル１１に含まれる。

音声ファイル１１には、仮想人物３の声としての音声ファイルだけではなく、背景音として、波の音、鳥の声、・・・などの自然音、バックグランドミュージックなどの効果音のファイルが含まれる。音声は、肉声、自然音、楽器や電子楽器による音楽、機械的な音声、合成音声、などを広く含む。
キーワードリンク設定部１３では、キーワードをテキストなどで作って、あるいは選択して設定し、その設定したキーワードに対し、複数の仮想人物３の動画の中から任意の動画ファイル５を選択し、複数のテキストファイル９または複数の音声ファイル１１の中から任意のファイルを選択し、これらをリンクする。これらの選択が容易なように、各ファイルのアドレスが編集用データ一覧（図３右上部参照）として準備される。

以上のキーワード１４、及びこれらのリンク関係は、リンク関係一覧（図３右下部参照）としてまとめられ、編集用データ一覧とともに編集用データ１５として、記憶部に記憶する。この記憶部は、この実施形態では、データ格納部７の一部が兼ねる。
テキスト入力部１７では、利用者はテキストを入力して仮想人物３に話しかける。
音声入力部１９では、利用者は自分の音声を入力して仮想人物３に話しかける。音声は音声認識部２１によりテキストに認識される。

キーワード検索部２３は、この入力の内容の中から所定のキーワードを検索する。
合成ファイル作成部２５は、検索されたキーワードにリンクされた仮想人物３の動画ファイル５、テキストファイル９、音声ファイル１１を合成し、合成ファイルを作成する。

音声表示部２７は、この合成ファイルをもとに仮想人物３の音声及び効果音などの音声を表出する。
映像テキスト表示部２９は、この合成ファイルをもとに仮想人物３の動画や文字（テキスト）を映像として表示する。

（装置の利用手順）
（１）仮想人物３としてのある特定の人物もしくはアニメキャラクターの動画を、様々な表情やしぐさごとに細かく分類し、分類された部分をファイルにしてそれぞれデータ格納部７の中に別々のアドレスを付けてあらかじめ保管しておく（図３右上部参照）。

（２）上記（１）で分類した動画ファイル５のひとつひとつにタイトルをつけ、各タイトルとそのアドレスの一覧を編集用データ一覧に保管しておく。その他、効果音等の音声ファイル１１も同様に編集用データ一覧に保管しておく（図３右下部参照）。
（３）利用者３０はキーワードリンク設定部１３でリンクを設定する。このとき実際の操作は、コンピュータの表示部に表示される画面（図４）により、左端のキーワード設定窓に、直接にテキストを入力するか、その下方のキーワード一覧の窓から選択するかして入力し、設定する。

このようにして設定したキーワードに対し、応答に使用したい仮想人物３の動画ファイル５を選択し、テキストファイル９や音声ファイル１１を選択する。この音声ファイル１１は、利用者が予め自分で自由に作成しておくことができるものとする。そして、これらをリンクする。実際の操作は、コンピュータの表示部に表示される画面（図４）により、各ファイルにチェックマークを付けることで選択すれば、自動的にリンクがなされる（図３右下部、図５参照）。

（４）利用者３０は、テキスト入力部１７でテキストを入力するか、または、音声入力部１９で自分の音声を入力するかして、仮想人物３に話しかける。実際の操作は、例えば、コンピュータの表示部に表示される画面（図６）により、文章入力窓（図６上部）に、テキストを入力し、送信ボタンをクリックする。

（５）キーワードにリンクされた仮想人物３の動画ファイル５、テキストファイル９、音声ファイル１１などから合成された合成ファイルをもとに、音声表示部２７から、仮想人物３の音声及び効果音などの音声が表出され、映像テキスト表示部２９から、仮想人物３の動画や文字（テキスト）が映像として表示される。

実際の表示は、例えば、コンピュータの表示部に表示される画面（図６）の映像・テキスト表示窓に、仮想人物３の動画（図6下部左）やテキスト（図6下部右）が表示され、同時に、音声が流れる。

（その他）
テキスト入力や音声入力において、キーワードを先頭にもってくるような入力を行う。また、これらによって入力された言葉の途中にキーワードがある場合には、テキスト入力であれば、その直前で改行し、キーワードを２行目の先頭にもってくるようにする。またキーワード検索の際には、文字数の多いキーワードから優先して選択させるようにする。

「実施形態の効果」
この実施形態によれば、以下の効果を得る。
（１）キーワードリンク設定部１３により、利用者は各キーワードに対する仮想人物３の動画、テキスト、音声などのリンクを簡単に設定することができ、これにより、利用者が仮想人物３の対応を自分の嗜好性に高度に合うように容易に変えることができる。
例えば、利用者３０が自分の嗜好性に高度に合うように、Ａという言葉を含んだテキストまたは音声を入力した際、それに対して動画で示される仮想人物Ｂに、Ｃという表情およびしぐさを伴いつつ、Ｄという言葉を返して欲しいと考え、なおかつその場面の背景にＧという効果音を伴った表現をこの仮想人物３に求めるときには、キーワードＡに、仮想人物Ｂが行うＣという表情およびしぐさの動画、及び、テキストＤや音声の少なくとも一方、のリンクを簡単に設定できる。

さらに、テキストや音声で話しかけた言葉（キーワードを含む）に対するそのような自分の好むとおりの表情、しぐさ、言葉、背景等のリンク関係を、自分の話しかけのひとつひとつに対し、変化させて格納でき、よって、プログラム等の知識はまったく持たない利用者３０であっても、より完全に自分の嗜好性に合うような対応をこの仮想人物Ｂに実行させることが可能となる。

また、キーワードリンク設定部１３を設け、そこで設定したリンク関係を記憶する記憶部を、仮想人物３の動画、テキストまたは音声を格納するデータ格納部７と別に設ければ、リンク作業はデータ格納部７が通常設けられるデータベースの外で行うことができる。よって、利用者は、データベースを別個に書き換えなくても、仮想人物３の対応を容易に細かく、意図どおりに変更が可能となる。

一例として、ある一つのキーワードに２つの動作を連続して仮想人物３に行わせ、その２つの動作にあわせて２つの文章を出力させることも、容易に行える。
（２）さらに、音声ファイル１１を扱い、リンク関係に入れるので、音声変換装置による機械声よりも豊かな肉声が使用でき、さらに、波音等の背景音を使用することも容易に行える。

「他の実施形態」
以上の実施形態では、画像は、複数の仮想人物３の動画の中から任意の動画を選択するものであったが、他の実施形態では、仮想人物３の背景画を静止画ファイルとして選択できるようにしても良い。

以上の実施形態では、データ格納部７の一部が、リンク関係一覧と編集用データ一覧とからなる編集用データ１５を記憶する記憶部を形成するものであったが、他の実施形態では、この記憶部は別に設けられるものとすることができる。これによりリンクの変更が、データ格納部７の内部の変更を伴わずに行えるという効果がある。この効果は、データ格納部７が独立したデータベース内に構築されるときに、特に有効である。

以上の実施形態では、データ格納部７は会話装置１の内部に設けられるものであったが、他の実施形態では、会話装置１の外部に設けられ、インターネットを介して利用することも可能である。
すなわち、動画ファイル５などが格納されたデータ格納部７を、外部のインターネット上のサーバーが管理するデータベースに構築する。このとき、編集用データ１５を記憶する記憶部は装置１内に設ける。また、検索されたキーワードにリンクする動画ファイル５のアドレスは、外部のサーバーアドレスとなる。

そして、別サイトアクセス装置３７（図１参照）により、入力された音声などから検索されたキーワードがリンクするサーバーアドレスへアクセスし、テキストファイル９、音声ファイル１１、動画ファイル５を用いて、動画データと合成して合成ファイルを作成する。

利用者は、この作成された合成ファイルを、このサーバーにアクセスしたコンピュータ３１や携帯電話３３等のモニターで閲覧する。
なお、１つのキーワードにリンクするサーバーアドレスや各ファイルは複数を可能とする。すなわち、１つのキーワードに対し２つ以上の動画ファイル５を連続して表示できることとする。これにより、１つのキーワードで、仮想人格に複数の表情や動作を組み合わせた複雑な動作を行わせることができる。

以上の実施形態では、キーワードにリンクするファイルは、動画ファイル５や音声ファイル１１であったが、他の実施形態では、別プログラムやインターネット３５上の別サイトへアクセスしてプログラムを実行し結果を記録して表示するアクセス実行プログラムファイルを含ませることができる。この別サイトへのアクセスは、別サイトアクセス装置３７（図１参照）によって行う。

このようにして、別のサイトへアクセスし、そこにあるプログラムを実行することが可能となるので、これを会話装置１のモニターに映すと、サーバー上の仮想人物３が利用者の命令で様々な仕事を実行しているように見える。
つまり、利用者は、あたかも人間の秘書に命ずるように仮想人物３へ様々な指示をテキストや音声によって出し、この入力の内容の中から検索されたキーワードにリンクされたアクセス実行プログラムが、別プログラムやインターネット３５上の別サイトへアクセスしてプログラムを実行し、結果を記録して表示させることができる。
以上の実施形態では、合成ファイル作成部２５が、動画ファイル５、テキストファイル９、音声ファイル１１を合成し、この合成ファイルを作成した後に、音声表示部２７や映像テキスト表示部２９が表示を行っていたが、他の実施形態では、合成ファイル作成部２５を設けずに、動画ファイル５、テキストファイル９、音声ファイル１１を直接に音声表示部２７や映像テキスト表示部２９で表示しても良い。

この発明の一実施形態に係る会話装置の全体概略ブロック図である。図1のデータ格納部に格納される動画ファイルのファイルイメージ図である。図1のデータ格納部に格納される編集用データのイメージ図である。図1のキーワードリンク設定部の操作画面を示す図である。図1のデータ格納部に格納されるファイルなどのリンクを示すイメージ図である。図1のテキスト入力部、映像テキスト表示部を兼ねる画面を示す図である。

符号の説明

１…会話装置、３…仮想人物、５…動画ファイル、７…データ格納部、９…テキストファイル、１１…音声ファイル、１３…キーワードリンク設定部、１５…編集用データ、１７…テキスト入力部、１９…音声入力部、２１…音声認識部、２３…キーワード検索部、２５…合成ファイル作成部、２７…音声表示部、２９…映像テキスト表示部、３０・・利用者、３１…コンピュータ、３３…携帯電話、３５…インターネット、３７…別サイトアクセス装置。

Claims

利用者のテキスト入力または音声入力に対し、動画で表現された仮想人物がテキスト表示または音声で答える会話装置であって、利用者がテキストまたは音声を入力する入力部と、この入力の内容の中から所定のキーワードを検索するキーワード検索部と、前記キーワードを設定し、複数の仮想人物の動画の中から任意の動画ファイルを選択し、利用者が自分で応答用のテキストファイルを作成し又は複数の音声ファイルの中から任意のファイルを選択し、前記設定したキーワード、前記選択した動画ファイル、及び前記作成したテキストファイルまたは音声ファイルをリンクするキーワードリンク設定部と、その設定された動画ファイルやテキストファイルおよび音声ファイルを表示する表示部と、前記複数の仮想人物の動画ファイル、前記複数のテキストファイルまたは複数の音声ファイルを格納するデータ格納部と、前記キーワード、及びこれらの前記リンクの関係を記憶する記憶部と、を有することを特徴とする会話装置。
前記キーワードにリンクされるファイルには、別プログラムやインターネット上の別サイトへアクセスしてプログラムを実行し結果を記録して表示するアクセス実行プログラムファイルが含まれ、このアクセス実行プログラムを実行できるアクセス装置を備えたことを特徴とする会話装置。
利用者のテキスト入力または音声入力に対し、動画で表現された仮想人物がテキスト表示または音声で答える会話装置として機能するためコンピュータが読み取り可能な記録媒体であって、利用者が入力部から入力したテキスト、または音声から認識されたテキストの中から所定のキーワードを検索する手順と、前記キーワードを設定し、複数の仮想人物の動画の中から任意の動画ファイルを選択し、利用者が自分で応答用のテキストファイルを作成し又は複数の音声ファイルの中から任意のファイルを選択し、前記設定したキーワード、前記選択した動画ファイル、及び前記作成したテキストファイルまたは音声ファイルをリンクする手順と、その設定された動画ファイルやテキストファイルおよび音声ファイルを表示する手順と、前記複数の仮想人物の動画ファイル、前記複数のテキストファイルまたは複数の音声ファイルを格納するデータ格納部と、前記キーワード、及びこれらの前記リンクの関係を記憶する手順と、が実行できるプログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。
前記キーワードにリンクされるファイルには、アクセス装置を介して別プログラムやインターネット上の別サイトへアクセスしてプログラムを実行し結果を記録して表示するアクセス実行プログラムファイルが含まれることを特徴とするコンピュータ読み取り可能な記録媒体。