JP2006048218A - 音声動画応答方法および音声動画応答システム - Google Patents

音声動画応答方法および音声動画応答システム Download PDF

Info

Publication number
JP2006048218A
JP2006048218A JP2004225572A JP2004225572A JP2006048218A JP 2006048218 A JP2006048218 A JP 2006048218A JP 2004225572 A JP2004225572 A JP 2004225572A JP 2004225572 A JP2004225572 A JP 2004225572A JP 2006048218 A JP2006048218 A JP 2006048218A
Authority
JP
Japan
Prior art keywords
voice
image
speech
data
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004225572A
Other languages
English (en)
Inventor
Kiyoyuki Suzuki
清幸 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Media Inc
Original Assignee
Advanced Media Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Media Inc filed Critical Advanced Media Inc
Priority to JP2004225572A priority Critical patent/JP2006048218A/ja
Publication of JP2006048218A publication Critical patent/JP2006048218A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 本発明は、音声入力、前記音声の認識、音声認識に基づいた答え、前記答えに合った動作を選択された画像に行なわせることができる音声動画応答方法および音声動画応答システムを提供する。
【解決手段】 情報処理装置は、前記画像選択手段により選択された画像を表示させる表示手段が備えられているとともに、前記マイクロホンから入力された音声を認識する音声認識手段と、前記音声による答えを合成する音声合成手段が予め記憶装置に記憶されている。前記音声認識手段により音声を認識することにより音声の内容に合った答えは、予め記憶手段に記憶されている前記データファイルのテーブルを参照して出力される。マイクロホンから入力された音声は、音声認識手段により音声データとなり、前記テーブルから音声に基づいて予め記憶されている音声に合った答えと動画とを出力させる。
【選択図】 図1

Description

本発明は、音声の入力に基づいた答えと、前記答えに合った画像の動作が出力できる音声動画応答方法および音声動画応答システムに関するものである。
情報処理装置の表示手段には、動く画像が声や音を出して使用者に喚起を与えるというものがある。たとえば、前記表示手段に表示されたイルカは、頭を下げて「ごめんなさい」の表情をするとともに、音または声を出す。
また、特開2002−208024号公報におけるエージェントキャラクタ動画データセット生成方法は、自分の好みに合った部品データを選択してキャラクタを生成し、前記キャラクタに動作を行わせることができるものである。
特開2002−208024号公報
前記イルカの例は、動きと音または声がいつも同じで、使用者が飽きるという問題を有する。また、マイクロホンに向かってしゃべった音声が理解されて、前記音声に合った答えとともに、画像に前記答えに合った動作をさせるという技術は、音声認識手段、音声合成手段、画像、画像の動作プログラム、音声認識した結果の内容を判断する知識等が必要であった。
そのため、前記音声の入力と、前記音声に合った答え、および前記答えに合った画像の動作で応答する方法およびシステムは、音声認識技術、音声合成技術、画像処理技術、動作プログラム技術をそれぞれ異なる専門家により開発しなければならないため、前記発想そのものがなかった。
以上のような課題を解決するために、本発明は、音声入力、前記音声の認識、音声認識に基づいた答え、前記答えに合った動作を選択された画像に行なわせることにより、情報処理装置を楽しく使用することができる音声動画応答方法および音声動画応答システムを提供することを目的とする。
本発明は、簡単なデータファイルをもつだけで、音声の入力により、前記音声に合った答えと、前記答えに合った画像の動作を出力することができ、情報処理装置とのつきあいに深みができるだけでなく、飽きずに長く仕事等を行うことができる音声動画応答方法および音声動画応答システムを提供することを目的とする。
(第1発明)
第1発明の音声動画応答方法は、選択された画像を表示させる表示手段と、音声を認識する音声認識手段と、前記音声認識手段により音声を認識することにより音声の内容に合った答えと前記表示手段に表示されている画像に合わせた画像データとをそれぞれ対応させた「画像−音声入力−音声出力−動作プログラム」が記憶されているデータファイルと、からなる情報処理装置において、前記音声認識された音声に基づいて予め記憶されている前記データファイルから音声に合った答えと画像とを出力することを特徴とする。
(第2発明)
第2発明の音声動画応答方法は、サーバーと通信手段を介して接続できる情報処理装置から構成され、前記通信手段を介してサーバーに接続した後、音声を認識する音声認識手段と、前記音声認識手段で音声を認識することにより音声の内容に合った答えと前記答えに合わせた画像データとをそれぞれ対応させた「画像−音声入力−音声出力−動作プログラム」が記憶されているデータファイルとを前記情報処理装置にダウンロードし、前記情報処理装置からの音声が前記音声認識手段によって音声認識された音声データに基づいて、前記データファイルから前記音声に合った答えと画像とを前記情報処理装置における出力手段に出力することを特徴とする。
(第3発明)
第3発明の音声動画応答方法は、音声を認識する音声認識手段と、前記音声認識手段により音声を認識することにより音声の内容に合った答えとなる音声データと、前記答えに合わせた画像データとをそれぞれ対応させた「画像−音声入力−音声出力−動作プログラム」が記憶されているデータファイルとを備えているサーバーと;
前記サーバーに接続できる通信手段と、画像を表示させる表示手段と、出力手段とを少なくとも備えている情報処理装置と;
から構成されており、
前記通信手段を介してサーバーに接続した後、前記情報処理装置からの音声がサーバー側の音声認識手段によって音声認識された音声データに基づいて、予めサーバー側に記憶されている前記データファイルから前記音声に合った答えと画像とを前記通信手段を介して情報処理装置側の前記表示手段および出力手段に出力することを特徴とする。
(第4発明)
第4発明の音声動画応答システムは、画像選択手段と、前記画像選択手段によって選択された画像を表示させる表示手段と、音声を認識する音声認識手段と、前記音声認識手段により音声を認識することにより音声の内容に合った答えとなる音声データと、前記表示手段に表示されている画像を動かすための画像データとをそれぞれ対応させた「画像−音声入力−音声出力−動作プログラム」からなるデータファイルが記憶されている記憶手段と、前記音声認識された音声データに基づいて予め記憶されている前記データファイルから音声に合った答えと、前記答えに合った画像とが出力するように制御を行う制御手段とを少なくとも備えていることを特徴とする。
(第5発明)
第5発明の音声動画応答システムは、画像を表示させる表示手段と、前記表示手段に所望の画像を選択して表示させる画像選択手段と、通信手段と、マイクロホンおよびスピーカーからなる入出力手段と、を少なくとも備えている情報処理装置と;
音声を認識する音声認識手段と、前記音声認識手段により音声を認識することにより音声の内容に合った答えとなる音声データと、画像を動かすための画像データとをそれぞれ対応させた「画像−音声入力−音声出力−動作プログラム」からなるデータファイルとが記憶されている記憶手段と、通信手段とを少なくとも備えているサーバーと;
から構成されている音声動画応答システムにおいて、
前記情報処理装置で選択した画像およびマイクロホンからの音声に対する答えが前記サーバー側の前記音声認識手段、および前記データファイルにより、前記音声に合った答えと前記答えに合った画像となって、前記通信手段を介して前記表示手段および入出力手段から出力することを特徴とする。
(第6発明)
第6発明の音声動画応答システムは、画像を表示させる表示手段と、前記表示手段に所望の画像を選択して表示させる画像選択手段と、スピーカーからなる出力手段と、前記音声認識手段により音声を認識することにより音声の内容に合った答えとなる音声データと、前記選択された画像を動かすための画像データとをそれぞれ対応させた「情報−画像−音声入力−音声出力−動作プログラム」からなるデータファイルとが記憶されている記憶手段と、サーバーの情報配信手段に記憶されている情報を選択する情報選択手段と、前記サーバーの情報配信手段に接続するための通信手段とを少なくとも備えている情報処理装置を用いた音声動画応答システムにおいて、前記情報処理装置で選択した情報および前記情報を伝える画像が前記データファイルに基づいて、表示手段に画像を表示させるとともに、前記情報を出力することを特徴とする。
(第7発明)
第7発明の音声動画応答システムは、第4発明から第6発明における音声認識手段によって音声を認識し、認識された前記音声の内容に合った答えを音声合成手段を用いて出力することを特徴とする。
(第8発明)
第8発明の音声動画応答システムは、第4発明から第7発明において、音声認識手段、音声認識対象語彙データ、音声合成手段、音声合成対象文のデータ、前記データファイルの中の少なくとも一つが通信手段を介して情報処理装置にダウンロードされることを特徴とする。
(第9発明)
第9発明の音声動画応答システムは、第5発明における情報処理装置がマイクロホンから入力された音声を音声認識手段により音声データとし、前記サーバーから所望の情報を表示手段および/またはスピーカーから出力することを特徴とする。
(第10発明)
第10発明の音声動画応答システムは、第5発明から第9発明の情報処理装置がサーバーと通信手段を接続した状態で、画像と音声に対する答えとをダウンロードすることを特徴とする。
(第11発明)
第11発明の音声動画応答システムは、第5発明から第10発明のサーバーにダウンロード回数を数えるダウンロードカウンターを備えていることを特徴とする。
(第12発明)
第12発明の音声動画応答システムは、第5発明から第11発明のサーバーにおいて、通信手段に接続することにより課金する課金手段が設けられていることを特徴とする。
(第13発明)
第13発明の音声動画応答システムは、第5発明から第12発明の情報処理装置がパーソナルコンピュータ、携帯電話機、モバイル機器、固定電話機、ディジタルテレビジョンセットの内の少なくとも一つであることを特徴とする。
(第14発明)
第14発明の携帯電話機を用いた音声動画応答システムは、発呼者からの信号を認識する着信手段と、前記着信手段によって得られた発呼者からの電話番号を認識する電話番号認識手段と、前記電話番号認識手段により認識した電話番号に合った発呼者に対応させた音声データと、前記発呼者の画像データとをそれぞれ対応させた「情報−画像−音声入力−音声出力−動作プログラム」からなるデータファイルとが記憶されている記憶手段と、前記記憶手段に記憶されている音声データを出力するスピーカーと、前記記憶手段に記憶されている画像データを出力する表示手段とを少なくとも備えていることを特徴とする。
(第15発明)
第15発明の携帯電話機を用いた音声動画応答システムは、第5発明から第12発明におけるサーバーが一部のデータを他のサーバーから得ることを特徴とする。
(第16発明)
第16発明の携帯電話機を用いた音声動画応答システムは、第15発明における他のサーバーがインターネットによるオンラインサービスを提供することを特徴とする。
本発明によれば、「画像−音声入力−音声出力−動作プログラム」をそれぞれ対応させたデータファイルを持つことで、話しかけた会話に対して、選択した画像が動作しながら前記会話に対して答えてくれるため、情報処理装置が楽しく、かつ癒しにもなる。
本発明によれば、「情報−画像−音声入力−音声出力−動作プログラム」をそれぞれ対応させたデータファイルを持つことで、情報を求めると、選択した画像が動作しながら情報を提供してくれるため、情報処理装置に対するアクセスが楽しく、飽きずに仕事や勉強を楽しくできる。
本発明によれば、音声認識手段、音声合成手段、あるいは、前記データファイル等がサーバーに記憶されており、これらを情報処理装置にダウンロードしたり、あるいは、サーバーと通信しながら実施できるため、手持ちの情報処理装置にそれぞれ対応させることが容易である。
本発明によれば、携帯電話機に電話番号と当該電話番号の持ち主の画像との関連を記憶する手段を持つだけで、相手の顔等を見ながら電話を楽しくすることができる。
本発明によれば、携帯電話機からサーバーに接続して、前記サーバーに記憶されている画像と前記画像に関連するデータとを容易に得ることができる。
本発明によれば、情報処理装置をインターネットに接続するだけで、要求した情報の内容と、前記情報に関連した画像とを得ることができる。
(第1発明)
第1発明の音声動画応答方法は、たとえば、少なくとも画像選択手段、音声認識手段、データファイル記憶手段、表示手段およびマイクロホンとスピーカー等の入出力手段を備えている情報処理装置を用いて行うものであり、前記音声認識手段、および前記データファイルにより、音声に合った答えと、前記答えに合った動きをする画像とが出力される。
たとえば、前記情報処理装置は、前記画像選択手段により選択された画像を表示させる表示手段が備えられているとともに、前記マイクロホンから入力された音声を認識する音声認識手段とを備えている。
前記音声認識手段により音声を認識することにより音声の内容に合った答えは、予め記憶手段に記憶されている前記データファイルのテーブルを参照して出力される。前記データファイルのテーブルは、たとえば、画像を表示手段に表示させるための画像データ、前記音声認識手段により認識された音声データ、前記音声の内容に合った音声データ、前記表示手段に表示されている画像を前記答えに合わせて動かすための動作プログラムから構成されている。
すなわち、前記データは、「画像−音声入力−音声出力−動作プログラム」をそれぞれ対応させたデータファイルとが予め記憶手段に記憶されている。マイクロホンから入力された音声は、音声認識手段により音声データとなり、前記テーブルから音声に基づいて予め記憶されている音声に合った答えと画像とを出力する。
第1発明は、予め画像記憶手段に記憶されている画像を選択して、表示手段に表示するとともに、マイクロホンから予め記憶されている音声を入力することにより、前記音声に合った答えをスピーカーから出力し、さらに、前記答えに合った動作を行う前記画像を前記表示手段に表示する。第1発明は、好みの画像を選択し、選択された画像に自分の話しかけた簡単な会話に対して、表情や動作を加えて答えさせることにより、情報処理装置を楽しく使用することができる。本明細書でいう画像とは、動画像および静止画像を含む。
(第2発明)
第2発明の音声動画応答方法は、第1発明の情報処理装置に音声認識手段、画像記憶手段、テーブル記憶手段等が備えられていたのに対し、前記音声認識手段、画像記憶手段、「画像−音声入力−音声出力−動作プログラム」をそれぞれ対応させたテーブルからなるデータファイルを記憶する記憶手段等をサーバーから通信手段を介してダウンロードして使用しようとするものである。
(第3発明)
第3発明の音声動画応答方法は、サーバーと情報処理装置とを通信手段に接続した状態で、前記情報処理装置からの音声がサーバー側の音声認識手段によって音声認識された音声データに基づいて、予めサーバー側に記憶されているデータファイルから前記音声に合った答えと画像とを前記通信手段を介して情報処理装置側の表示手段および出力手段に出力する。
前記サーバーは、音声を認識する音声認識手段と、前記音声認識により認識された音声の答えと、前記答えに合った画像の動きを行わせるためのテーブルからなるデータファイルを記憶する記憶手段を備えている。前記テーブルは、たとえば、前記音声認識手段による音声データ、音声の内容に合った答えからなる音声データ、前記答えに合わせて画像を動かすための動作プログラムの組み合わせから構成されている。すなわち、前記テーブルは、「画像−音声入力−音声出力−動作プログラム」をそれぞれ対応させたデータファイルである。
前記情報処理装置は、前記サーバーに接続できる通信手段と、画像を表示させる表示手段と、スピーカー等の出力手段とを少なくとも備えている。前記情報処理装置は、前記通信手段を介してサーバーに接続した後、前記情報処理装置からの音声がサーバー側の音声認識手段によって音声認識された音声データとなる。
前記音声データは、予めサーバー側に記憶されている前記データファイルから前記音声に合った答えと画像を動かすプログラムを選択し、データとして前記通信手段を介して情報処理装置側の前記表示手段および出力手段において出力することができる。
前記音声動画応答方法は、前記音声認識手段によって認識された音声の内容に合った答えを音声合成手段によって合成することにより出力する。前記音声動画応答方法は、サーバー側に音声合成手段を備えるようにしたため、情報処理装置側の負荷を軽減することができる。
前記音声動画応答方法は、サーバーに情報配信手段があり、選択された情報に基づいて答えが、前記答えに合わせて画像を動かすこともできる。たとえば、前記情報は、野球やサッカーの結果であり、ファンの選手の表情や動作とともに前記結果をしゃべらすことができる。
情報処理装置には、情報選択手段が少なくとも備えられており、所望の情報を得るための選択を行う。前記選択された情報は、サーバー側の情報配信手段から答えが取り出され、通信手段を介して前記情報処理装置から出力するとともに、前記答えに合った画像が表示される。
前記音声動画応答方法は、サーバーに各種画像を記憶させておき、情報処理装置から任意の画像がダウンロードできる。音声を入力した者は、多数の画像の中から、自分の好みにあった動物、運動選手、アイドル、芸能人を使い、自分の音声に対する回答と動作とを交えて行わせることができる。
(第4発明)
第4発明の音声動画応答システムは、画像選択手段、表示手段、音声認識手段、音声合成手段、テーブル記憶手段、制御手段とから少なくとも構成されている。前記画像選択手段は、予め入力した音声に対する答えと、前記答えに合った動作をさせる画像を選択することができる。
表示手段は、前記画像選択手段によって選択された画像を表示させるとともに、後述する答えに合った動作を表示させる。前記音声認識手段は、話しかけた音声を認識して、前記音声データに対する答えを予め備えておくことができる。
前記記憶手段には、前記音声認識手段により音声を認識することにより音声の内容に合った答えとなる音声データと、前記表示手段に表示されている画像を動かすためのプログラム等が記憶されている。すなわち、記憶手段は、「画像−音声入力−音声出力−動作プログラム」をそれぞれ対応させたデータファイルと、少なくとも一つの画像データが記憶されている。
前記制御手段は、画像選択手段により選択された画像が前記音声認識された音声データに基づいて予め記憶されている前記データファイルから音声に合った答えと、前記答えに合った画像とを取り出して出力するように制御する。
(第5発明)
第5発明の音声動画応答システムは、音声認識手段、データファイルを通信手段を介して情報処理装置にダウンロードする。前記ダウンロードされた各手段は、たとえば、圧縮手段等により圧縮されて保存される。
第5発明の音声動画応答システムは、表示手段、画像選択手段、通信手段、入出力手段を少なくとも備えている情報処理装置と、音声認識手段、画像データ・音声データ・前記音声に対する答えデータ・前記答えに合った動作プログラムをデータファイルとして記憶する記憶手段、通信手段を少なくとも備えているサーバーとから構成されている。
前記情報処理装置の使用者は、前記画像選択手段により画像を選択した後、マイクロホンを用いて画像に話しかける。前記話しは、通信手段を介してサーバーにおける音声を認識する音声認識手段により音声データとなる。制御手段は、前記音声データに基づいて、前記記憶手段に記憶されている前記答えに合わせて画像を動かすための「画像−音声入力−音声出力−動作プログラム」をそれぞれ対応させたデータファイルから前記音声データに合った答えと、前記答えに合った動作プログラムを選択する。
制御手段は、選択された答えに基づいて、音声合成手段により音声を合成させるとともに、前記音声に合った画像の動きデータを取り出す。前記音声に合った答えと、前記答えに合った画像は、前記通信手段を介して前記表示手段および入出力手段から出力される。
(第6発明)
第5発明または第6発明の音声動画応答システムは、サーバーの情報配信手段に記憶されている情報を選択する情報選択手段と、前記サーバーの情報配信手段に接続するための通信手段と、を少なくとも備えている情報処理装置である点で、第4発明の音声動画応答システムと異なっている。
前記情報選択手段は、所望の情報が選択されることにより、サーバーの情報配信手段に記憶されている情報を取り出す。前記情報処理装置で選択した情報および前記情報に合った動画は、「情報−画像−音声入力−音声出力−動作プログラム」をそれぞれ対応させたデータファイルに基づいて、表示手段に動画を表示させるとともに、情報を出力する。前記データファイルは、情報に基づくキーワードにより、予め動画プログラムを作成しておき、これに基づいて表示手段における画像を動かす。
(第7発明)
第4発明から第6発明の音声動画応答システムは、音声認識手段によって認識された音声に対する内容に合った答えを音声合成手段によって合成させて、出力する。第4発明は、予め前記答えを音声として記憶させておかずに、音声データとして記憶している場合である。
(第8発明)
第4発明から第7発明の音声動画応答システムは、音声認識手段、音声認識対象語彙データ、音声合成手段、音声合成対象文のデータ、および前記データファイルの中の少なくとも一つがサーバー等に記憶されており、通信手段を介して、情報処理装置にダウンロードされる。第4発明から第7発明は、情報処理装置の容量が小さい場合であっても、サーバー側の前記各手段を使用することで音声動画応答システムを容易に使用することができる。また、前記音声合成対象文のデータとは、音声合成の対象となる単語および文章が含まれる。
(第9発明)
第9発明の音声動画応答システムは、情報選択手段による情報の選択を第8発明のマイクロホンによって行う。また、前記マイクロホンから入力された音声は、音声認識手段によって音声データとなり、サーバーから所望の情報を選択する。選択された情報は、動画とともに表示手段および/またはスピーカーから出力する。
(第10発明)
第5発明から第10発明の音声動画応答システムは、サーバーと通信手段が接続された状態で、前記情報処理装置に動画のプログラムと音声に対する答えとをダウンロードする。第5発明から第10発明は、記憶容量の少ない情報処理装置に適している。
(第11発明)
第5発明から第10発明の音声動画応答システムは、サーバーにダウンロード回数を数えるダウンロードカウンターが備えられている。前記ダウンロードカウンターは、記憶されている画像、特に、芸能人やプロ選手等の人気等を速く察知することができ、商品の販売合戦を勝ち抜くための価値ある情報となる。
(第12発明)
第5発明から第11発明の音声動画応答システムは、サーバーに接続することにより課金する課金手段が設けられている。第5発明から第11発明は、サーバーに接続することにより課金することで、画像、画像のプログラム、音声に対する答え等の種類を増加し、品質の高いサービスを提供することができる。
(第13発明)
第5発明から第12発明の音声動画応答システムは、情報処理装置として、パーソナルコンピュータ、携帯電話機、モバイル機器、固定電話機、ディジタルテレビジョンセットの内の少なくとも一つを使用することができる。すなわち、第5発明ないし第12発明は、所定の記憶容量と入出力手段コンピュータ機能を有する情報処理装置により行うことができる。
(第14発明)
第14発明の音声動画応答システムは、携帯電話機を用いた場合である。電話機による発呼者からの信号は、前記携帯電話機における着信手段によって認識される。前記携帯電話機における電話番号認識手段は、前記着信手段によって得られた発呼者からの電話番号を認識する。
前記携帯電話機における記憶手段は、前記電話番号認識手段により認識した電話番号に合った発呼者に対応させた音声データと、前記発呼者の画像データとをそれぞれ対応させた「情報−画像−音声入力−音声出力−動作プログラム」からなるデータファイルとが記憶されている。
前記データファイルに記憶されて関連付けられた音声データおよび画像データは、スピーカーから出力するとともに、表示手段によって表示する。たとえば、携帯電話機の持ち主は、発呼者の顔の画像や声を効きながら電話をかけることができる。
前記音声動画応答システムは、携帯電話機により、サーバーに記憶された音声および画像を得ることができる。サーバーは、前記携帯電話機からの音声信号を着信手段によって受信する。前記着信手段によって得られた発呼者からの音声信号は、音声認識手段によって認識される。
音声解析手段は、前記音声認識手段により認識した音声データの内容を解析する。たとえば、前記音声解析手段は、前記音声信号が天気予報あるいは野球の結果であるのかを解析する。また、サーバーには、前記音声解析手段によって解析された音声データの答えとなるデータと画像データとをそれぞれ対応させた「情報−画像−音声入力−音声出力−動作プログラム」からなるデータファイルとが記憶されている記憶手段を備えている。
たとえば、携帯電話機からの音声が天気予報と東京の要求であった場合、前記データファイルにおける東京地方の天気予報を自動的に抽出して、画像送信手段により、前記音声データに関連した画像データ等を前記発呼者に送信する。前記画像データは、たとえば、天気図や音声等も添えて送ることにより、楽しい天気予報が容易に得られる。
前記音声認識手段によって前記発呼者の音声データを認識し、認識された前記音声データの内容に合った答えを音声合成手段を用いて出力する。すなわち、前記音声データは、音声合成手段によって作成できるため、データを圧縮することにより多くの答え等を記憶させることができる。
(第15発明)
第8発明から第12発明は、音声動画応答システムに記憶されたデータのみでサービスを行うと、データに限りがある。そこで、第8発明から12発明は、音声動画応答システムのサーバー以外のサーバーにもアクセスできるようにしている。たとえば、前記他のサーバーは、野球やサッカーの結果が判るテレビ局や新聞社関係のものに接続できるようにする。
(第16発明)
第16発明の携帯電話機を用いた音声動画応答システムは、インターネットによるオンラインサービスと接続することができる。携帯電話機によりインターネットに接続した者は、単に、天気予報や野球等の結果を見たり聞いたりするのではなく、たとえば、好きなキャラクターの表情等とともに楽しむことがでる。
図1は本発明の第1実施例で、情報処理装置を用い、音声を認識し、前記音声の答えと、前記答えに合った動作を選択された画像に行なわせるためのブロック構成図である。図1において、情報処理装置10は、たとえば、パーソナルコンピュータ、ディジタルテレビジョンセット、固定電話機、モバイル機器、携帯電話機等である。
また、前記情報処理装置10は、画像選択手段11と、「画像−音声入力−音声出力−動作プログラム」をそれぞれ対応させたデータファイルがテーブルとして記憶された画像記憶手段12と、前記画像を表示する表示手段13と、音声を入力するマイクロホン14と、前記音声を認識する音声認識手段15と、入力された音声の答えを出力するための音声合成手段16と、前記音声合成手段16によって合成された音声を出力するスピーカー17と、前記各手段を制御する制御手段18とから構成されている。
図2は本発明の第1実施例におけるデータファイルを説明するためのテーブルである。図2に示されたテーブルは、予め前記画像記憶手段12に記憶されており、選択できる複数種類の画像と、情報処理装置10のマイクロホン14に向かってしゃべる音声入力データと、前記音声入力データに合った答えとなる音声出力データと、前記選択された画像を前記答えに合わせて動作させる動作プログラムデータとから構成されたデータファイルである。
図2に示す例は、単なる一例に過ぎないが、画像としてイルカ、妻または恋人、野球の選手があげられている。たとえば、前記データファイルは、単身赴任で離ればなれになっている妻または恋人の簡単な会話(音声入力データ)、前記会話に基づいて当然予測される答え(音声出力データ)、および前記妻または恋人の画像とともに、前記答えに合った動作プログラムデータがそれぞれ記憶されている。
前記画像の種類、音声入力および音声出力の種類、また、それぞれの画像に合った動作プログラムは、近年、情報処理装置の記憶容量が大きくなったことにより多く、また多様化することができる。前記テーブルが記憶されたデータファイルは、好みに合った画像を選択して入力する以外、予めソフトウエアとして記憶しておくことができる。
図1および図2を参照して音声動画応答システムについて説明する。画像選択手段11は、たとえば、画像記憶手段12に好みの画像または前記のように妻または恋人を選択しておく。家に帰った後、情報処理装置10のマイクロホン14に向かって、「ただいま」と話しかける。マイクロホン14は、前記「ただいま」という音声信号を音声認識手段15に送る。前記音声認識手段15は、前記音声を認識して音声データとする。
前記制御手段18は、前記音声データに基づいて、データファイルにおけるテーブルから、その答えは「お帰りなさい」であり、動作は「ニコニコ顔」であることが判る。前記制御手段18は、前記「お帰りなさい」という音声データを音声合成手段16により音声に変換させ、スピーカー17から出力させる。また、前記制御手段18は、前記テーブルから妻または恋人に「ニコニコ顔」を行なわせる動作プログラムデータにしたがって表示手段13に画像を送るとともに、答えと動作を同期させる。
なお、前記音声データが音声そのものが記憶されている場合は、前記音声合成手段16が不要になる。
たとえば、近年、携帯電話機に内蔵されている記憶手段の容量は、年々大きくなって来ている。前記携帯電話機の記憶手段に前記各手段を設けた場合、何時何処でも、恋人の画像と話しかけに対する答えを動作とともに聞くことができ、離ればなれになっていても、一体感を味わうことができ、癒し効果を上げることができる。
図3は本発明の第2実施例で、情報処理装置とサーバーを用い、音声を認識し、前記音声の答えと、前記答えに合った動作を選択された画像に行なわせるためのブロック構成図である。図3において、情報処理装置30は、サーバー32と通信を行なう通信手段31と、サーバー32からダウンロードされたデータファイルを記憶する画像記憶手段12、音声認識手段15、音声合成手段16等を取り込む際に各データを圧縮するための圧縮手段33を備えている点で第1実施例と異なっている。
なお、前記音声合成手段16は、必要に応じて設けられる。たとえば、データファイルにおける音声データを音声そのものにすれば、前記音声合成手段16が不要になる。
前記情報処理装置30側は、サーバー32から前記各手段をソフトウエアとしてダウンロードすることにより、有料または無料によりサービスを受けることができる。前記サーバー32は、画像を多数記憶させておき、ユーザーの好みにあった画像および動作プログラムのみを自分の画像記憶手段12にダウンロードすることができるため、画像記憶手段12の容量に負担がかからない。
図4は本発明の第3実施例で、音声認識手段等をサーバー側に備えておき、サーバーと情報処理装置とを通信手段を介して、前記音声の答えと、前記答えに合った動作を選択された画像に行なわせるためのブロック構成図である。図4において、サーバー41は、通信手段411と、前記データファイルがテーブルとして記憶されている画像記憶手段412と、通信手段411を介して送られて来た音声を音声認識して音声データにする音声認識手段413と、前記テーブルから得られた答えとなる音声データを音声合成する音声合成手段414と、前記音声認識された音声データに基づいて前記データファイルのテーブルから前記音声に合った答えと、前記答えに合った動作プログラムデータを選択する等の制御を行なう制御手段417とから少なくとも構成されている。
また、前記サーバー41には、後述の情報処理装置42からのダウンロード回数をカウントするダウンロード回数カウンター415、およびダウンロードに対して課金する課金手段416を必要に応じて設けることができる。前記ダウンロード回数カウンター415は、画像記憶手段412に記憶されている画像またはキャラクターの人気度合いや負荷の予測等を知ることができ、サーバー41の運用や広告等に利用できる。また、課金手段416は、安価な料金を徴収することで、サーバー41の維持および品質の高いサービスを行なうことができる。
情報処理装置42は、画像記憶手段、音声認識手段、音声合成手段等を備えておく必要がなく、既に備えている通信手段422と、表示手段423と、マイクロホン424と、スピーカー425と、制御手段426の他に、好みの画像を選択する画像選択手段421だけで済み、メモリの負荷を少なくすることができるため、携帯電話機やその他のモバイル機器に適用することができる。
図5は本発明の第4実施例で、音声認識手段等を情報処理装置側に備えておき、サーバーと情報処理装置とを通信手段を介して、情報を選択することにより情報の結果と、前記情報の結果に合った動作を選択された画像に行なわせるためのブロック構成図である。図6は本発明の第4実施例に使用するデータファイルとして記憶されているテーブルを説明するための図である。
図5において、情報処理装置52は、好みの画像を選択できる画像選択手段521と、前記サーバー51から所望の情報を選択する情報選択手段522と、サーバー51と通信を行なう通信手段523と、前記通信手段523を介してサーバー51からダウンロードする後述のデータファイルを記憶する画像記憶手段524と、前記データファイルの音声データを音声にする音声合成手段526と、スピーカー527と、前記各手段を制御する制御手段528とから少なくとも構成されている。
図6は本発明の第4実施例に使用するデータファイルとして記憶されているテーブルを説明するための図である。図6において、図2に示されたデータファイルと異なるところは、テーブルが「情報−画像−音声入力−音声出力−動作プログラム」から構成されている点である。しかし、前記テーブルは、必ずしも上記のような組み合わせである必要がない。たとえば、前記テーブルは、「画像−音声入力(情報)−音声出力−動作プログラム」とすることができる。
前記テーブルは、情報と画像の選択により、情報の結果または内容が前記選択された画像の動きにより知ることができるものであれば良い。したがって、前記テーブルにおける組み合わせは、図6に示されたものに限らず、いろいろな情報の組み合わせを考えることができる。
前記情報処理装置52のユーザーは、サーバー51に記憶されている野球の結果を、たとえば、長島茂雄にしゃべらせたい場合、画像選択手段521に予め記憶されている長島茂雄を選択するとともに、情報選択手段522により野球を選択した後、マイクロホン14に向かって、「巨人対阪神戦の結果」を入力する。前記情報選択手段522は、サーバー51から本日の「巨人対阪神戦の結果」を通信手段523を介して、スピーカー527から出力または表示手段525に表示することができる。
また、同時に、前記画像選択手段521は、長島茂雄の選択により、サーバー51または画像記憶手段524におけるデータファイルのテーブルから長島茂雄の画像および動作プログラムデータが選択されるとともに、表示手段525およびスピーカー527から前記「巨人対阪神戦の結果」とともに長島茂雄のニコニコ顔で戦績を聞くことができる。前記情報選択手段522は、情報処理装置52のキーボードまたは、図示されていない、マイクロホンと音声認識手段とすることもできる。
前記情報の選択は、大学受験講座であり、音声入力で大きな声で「東大受験」と叫ぶことにより、東大受験用のテキストがダウンロードされ、好きな人の激励画像および励ましの言葉を聞きながら勉強をすることができ、学習効果を向上させることができる。
図7は本発明の第5実施例で、情報処理装置として携帯電話機を用いた場合、情報に合った動作と画像が出力するためのブロック構成図である。図8は本発明の第5実施例に使用するデータファイルとして記憶されているテーブルを説明するための図である。図7において、携帯電話機71は、着信手段711と、番号認識手段712と、画像記憶手段(画像・動作データファイル)713と、表示手段714と、スピーカー715とから少なくとも構成されている。
携帯電話機71の着信手段711は、発呼者からかけられた電話番号を番号認識手段712によりデータとして認識する。画像記憶手段(画像・動作データファイル)713は、図8に示すようなデータファイルからなる。すなわち、前記番号認識手段712は、前記データファイルの中の発振電話番号を検索する。
前記データファイルに記憶されているデータの中の、画像(たとえば、発振人の顔)と動き(ニコニコ顔)は、表示手段714から、音声出力(今日は)は、スピーカー715から出力する。前記番号認識手段712および画像記憶手段713は、携帯電話機71にダウンロードしたり、サーバーに接続して使用することができる。また、前記データファイルは、作成ソフトウエアにより、作成して幾種類かを備えておくこともできる。
図9は本発明の第6実施例で、情報処理装置として携帯電話機を用いた場合、インターネットを通じて情報に合った動作と画像が出力するためのブロック構成図である。図10は本発明の第6実施例に使用するデータファイルとして記憶されているテーブルを説明するための図である。図9において、サーバー91は、着信手段911と、音声認識手段912と、音声解析手段913と、画像記憶手段(画像・動作データファイル)914と、画像・音声送信手段915とから少なくとも構成されている。
携帯電話をかける者は、たとえば、図示されていない、インターネットを介してサーバー91に接続する。前記サーバー91の着信手段911は、携帯電話機からの本サービスにアクセスしたことを理解し、前記携帯電話機からの音声を音声認識手段912に送る。
前記音声認識手段912は、前記音声を認識して音声データとする。音声解析手段913は、前記音声データを解析し、前記画像記憶手段(画像・動作データファイル)914におけるデータファイルに同じ音声データがあるか否かを検索する。前記データファイルは、たとえば、図10に示すような内容のものからなる。
たとえば、前記音声データが東京の天気である場合は、前記データファイルに記憶されているデータの中の、「今日は、日中晴れ、遅くなって雨、傘をもってお出かけください。」という音声とともに、画像(たとえば、芸能人の顔)と動き(芸能人の顔が笑顔から曇り顔になる)が検索された後、前記画像・音声送信手段915から前記携帯電話機に送信される。
前記サーバー91は、前記音声認識手段912の音声データによって、インターネットを介してリアルタイムの情報を提供しているサイトに接続できるようになっている。
以上、本実施例を詳述したが、本発明は、前記本実施例に限定されるものではない。そして、本発明は、特許請求の範囲に記載された本発明を逸脱することがなければ、種々の設計変更を行うことが可能である。本発明の音声認識処理部等ブロック構成図の具体的技術は、周知または公知の技術を使用することができるため、詳細が省略されている。
本発明の第2実施例ないし第4実施例は、一部の手段をサーバーと情報処理装置の間でそれぞれ変えて備えることができる。たとえば、図3におけるサーバーにデータファイルを記憶する手段を有し、情報処理装置に音声認識手段および音声合成手段、あるいは、音声認識手段のみを有するようにすることもできる。
情報処理装置は、前記データファイルを記憶する手段を有し、サーバーに音声認識手段、音声合成手段等を有するようにすることもできる。すなわち、本発明は、音声動画応答システムの各手段の全部または一部をサーバー側あるいは情報処理側のいずれに記憶させておいても良い。
本発明の実施例におけるデータファイルは、図2および図6に記載されたテーブルに限定されず、任意の画像、任意の音声入力、任意の音声出力、任意の動作プログラム、任意の情報、あるいは、これらの組み合わせによるテーブルとすることができる。
本発明の実施例は、音声を音声認識することにより、サービスが開始されるが、音声の代わりに電話番号を認識することにより、同様なサービスを開始することができる。
本発明の第1実施例で、情報処理装置を用い、音声を認識し、前記音声の答えと、前記答えに合った動作を選択された画像に行なわせるためのブロック構成図である。(実施例1) 本発明の第1実施例におけるデータファイルを説明するためのテーブルである。 本発明の第2実施例で、情報処理装置とサーバーを用い、音声を認識し、前記音声の答えと、前記答えに合った動作を選択された画像に行なわせるためのブロック構成図である。(実施例2) 本発明の第3実施例で、音声認識手段等をサーバー側に備えておき、サーバーと情報処理装置とを通信手段を介して、前記音声の答えと、前記答えに合った動作を選択された画像に行なわせるためのブロック構成図である。(実施例3) 本発明の第4実施例で、音声認識手段等を情報処理装置側に備えておき、サーバーと情報処理装置とを通信手段を介して、情報を選択することにより情報の結果と、前記情報の結果に合った動作を選択された画像に行なわせるためのブロック構成図である。(実施例4) 本発明の第4実施例に使用するデータファイルとして記憶されているテーブルを説明するための図である。 本発明の第5実施例で、情報処理装置として携帯電話機を用いた場合、情報に合った動作と画像が出力するためのブロック構成図である。(実施例5) 本発明の第5実施例に使用するデータファイルとして記憶されているテーブルを説明するための図である。 本発明の第6実施例で、情報処理装置として携帯電話機を用いた場合、インターネットを通じて情報に合った動作と画像が出力するためのブロック構成図である。(実施例6) 本発明の第6実施例に使用するデータファイルとして記憶されているテーブルを説明するための図である。
符号の説明
10・・・情報処理装置
11・・・画像選択手段
12・・・画像記憶手段
13・・・表示手段
14・・・マイクロホン
15・・・音声認識手段
16・・・音声合成手段
17・・・スピーカー
18・・・制御手段
30・・・情報処理装置
31・・・通信手段
32・・・サーバー
33・・・圧縮手段
41・・・サーバー
411・・・通信手段
412・・・画像記憶手段(画像・動作データファイル)
413・・・音声認識手段
414・・・音声合成手段
415・・・ダウンロード回数カウンター
416・・・課金手段
417・・・制御手段
42・・・情報処理装置
421・・・画像選択手段
422・・・通信手段
423・・・表示手段
424・・・マイクロホン
425・・・スピーカー
426・・・制御手段

Claims (16)

  1. 選択された画像を表示させる表示手段と、音声を認識する音声認識手段と、前記音声認識手段により音声を認識することにより音声の内容に合った答えと前記表示手段に表示されている画像に合わせた画像データとをそれぞれ対応させた「画像−音声入力−音声出力−動作プログラム」が記憶されているデータファイルと、からなる情報処理装置における音声動画応答方法において、
    前記音声認識された音声に基づいて予め記憶されている前記データファイルから音声に合った答えと画像とを出力することを特徴とする音声動画応答方法。
  2. サーバーと通信手段を介して接続できる情報処理装置から構成される音声動画応答方法において、
    前記通信手段を介してサーバーに接続した後、音声を認識する音声認識手段と、前記音声認識手段で音声を認識することにより音声の内容に合った答えと前記答えに合わせた画像データとをそれぞれ対応させた「画像−音声入力−音声出力−動作プログラム」が記憶されているデータファイルとを前記情報処理装置にダウンロードし、
    前記情報処理装置からの音声が前記音声認識手段によって音声認識された音声データに基づいて、前記データファイルから前記音声に合った答えと画像とを前記情報処理装置における出力手段に出力することを特徴とする音声動画応答方法。
  3. 音声を認識する音声認識手段と、前記音声認識手段により音声を認識することにより音声の内容に合った答えとなる音声データと、前記答えに合わせた画像データとをそれぞれ対応させた「画像−音声入力−音声出力−動作プログラム」が記憶されているデータファイルとを備えているサーバーと;
    前記サーバーに接続できる通信手段と、画像を表示させる表示手段と、出力手段とを少なくとも備えている情報処理装置と;
    から構成されている音声動画応答方法において、
    前記通信手段を介してサーバーに接続した後、前記情報処理装置からの音声がサーバー側の音声認識手段によって音声認識された音声データに基づいて、予めサーバー側に記憶されている前記データファイルから前記音声に合った答えと画像とを前記通信手段を介して情報処理装置側の前記表示手段および出力手段に出力することを特徴とする音声動画応答方法。
  4. 画像選択手段と、
    前記画像選択手段によって選択された画像を表示させる表示手段と、
    音声を認識する音声認識手段と、
    前記音声認識手段により音声を認識することにより音声の内容に合った答えとなる音声データと、前記表示手段に表示されている画像を動かすための画像データとをそれぞれ対応させた「画像−音声入力−音声出力−動作プログラム」からなるデータファイルが記憶されている記憶手段と、
    前記音声認識された音声データに基づいて予め記憶されている前記データファイルから音声に合った答えと、前記答えに合った画像とが出力するように制御を行う制御手段と、
    を少なくとも備えていることを特徴とする音声動画応答システム。
  5. 画像を表示させる表示手段と、
    前記表示手段に所望の画像を選択して表示させる画像選択手段と、
    通信手段と、
    マイクロホンおよびスピーカーからなる入出力手段と、
    を少なくとも備えている情報処理装置と;
    音声を認識する音声認識手段と、
    前記音声認識手段により音声を認識することにより音声の内容に合った答えとなる音声データと、画像を動かすための画像データとをそれぞれ対応させた「画像−音声入力−音声出力−動作プログラム」からなるデータファイルとが記憶されている記憶手段と、
    通信手段と、
    を少なくとも備えているサーバーと;
    から構成されている音声動画応答システムにおいて、
    前記情報処理装置で選択した画像およびマイクロホンからの音声に対する答えが前記サーバー側の前記音声認識手段、および前記データファイルにより、前記音声に合った答えと前記答えに合った画像となって、前記通信手段を介して前記入出力手段および表示手段から出力することを特徴とする音声動画応答システム。
  6. 画像を表示させる表示手段と、
    前記表示手段に所望の画像を選択して表示させる画像選択手段と、
    スピーカーからなる出力手段と、
    前記音声認識手段により音声を認識することにより音声の内容に合った答えとなる音声データと、前記選択された画像を動かすための画像データとをそれぞれ対応させた「情報−画像−音声入力−音声出力−動作プログラム」からなるデータファイルとが記憶されている記憶手段と、
    サーバーの情報配信手段に記憶されている情報を選択する情報選択手段と、
    前記サーバーの情報配信手段に接続するための通信手段と、
    を少なくとも備えている情報処理装置を用いた音声動画応答システムにおいて、
    前記情報処理装置で選択した情報および前記情報を伝える画像が前記データファイルに基づいて、表示手段に画像を表示させるとともに、前記情報を出力することを特徴とする音声動画応答システム。
  7. 前記音声認識手段によって音声を認識し、認識された前記音声の内容に合った答えを音声合成手段を用いて出力することを特徴とする請求項4から請求項6のいずれか1項に記載された音声動画応答システム。
  8. 前記音声認識手段、音声認識対象語彙データ、音声合成手段、音声合成対象文のデータ、前記データファイルの中の少なくとも一つは、通信手段を介して情報処理装置にダウンロードされることを特徴とする請求項4から請求項7のいずれか1項に記載された音声動画応答システム。
  9. 前記情報処理装置は、マイクロホンから入力された音声を音声認識手段により音声データとし、前記サーバーから所望の情報を表示手段および/またはスピーカーから出力することを特徴とする請求項5に記載された音声動画応答システム。
  10. 前記情報処理装置は、サーバーと通信手段を接続した状態で、画像と音声に対する答えとをダウンロードすることを特徴とする請求項5から請求項9のいずれか1項に記載された音声動画応答システム。
  11. 前記サーバーには、ダウンロード回数を数えるダウンロードカウンターを備えていることを特徴とする請求項5から請求項10のいずれか1項に記載された音声動画応答システム。
  12. 前記サーバーには、通信手段に接続することにより課金する課金手段が設けられていることを特徴とする請求項5から請求項11のいずれか1項に記載された音声動画応答システム。
  13. 前記情報処理装置は、パーソナルコンピュータ、携帯電話機、モバイル機器、固定電話機、ディジタルテレビジョンセットの内の少なくとも一つであることを特徴とする請求項5から請求項12のいずれか1項に記載された音声動画応答システム。
  14. 発呼者からの信号を認識する着信手段と、
    前記着信手段によって得られた発呼者からの電話番号を認識する電話番号認識手段と、
    前記電話番号認識手段により認識した電話番号に合った発呼者に対応させた音声データと、
    前記発呼者の画像データとをそれぞれ対応させた「情報−画像−音声入力−音声出力−動作プログラム」からなるデータファイルとが記憶されている記憶手段と、
    前記記憶手段に記憶されている音声データを出力するスピーカーと、
    前記記憶手段に記憶されている画像データを出力する表示手段と、
    を少なくとも備えていることを特徴とする携帯電話機を用いた音声動画応答システム。
  15. 前記サーバーは、一部のデータを他のサーバーから得ることを特徴とする請求項5から請求項12のいずれか1項に記載された携帯電話機を用いた音声動画応答システム。
  16. 前記他のサーバーは、インターネットによるオンラインサービスであることを特徴とする請求項15に記載された携帯電話機を用いた音声動画応答システム。
JP2004225572A 2004-08-02 2004-08-02 音声動画応答方法および音声動画応答システム Pending JP2006048218A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004225572A JP2006048218A (ja) 2004-08-02 2004-08-02 音声動画応答方法および音声動画応答システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004225572A JP2006048218A (ja) 2004-08-02 2004-08-02 音声動画応答方法および音声動画応答システム

Publications (1)

Publication Number Publication Date
JP2006048218A true JP2006048218A (ja) 2006-02-16

Family

ID=36026715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004225572A Pending JP2006048218A (ja) 2004-08-02 2004-08-02 音声動画応答方法および音声動画応答システム

Country Status (1)

Country Link
JP (1) JP2006048218A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013257700A (ja) * 2012-06-12 2013-12-26 Ntt Comware Corp 要求コントロールサーバ、エージェント装置、要求コントロールサーバの動作方法およびコンピュータプログラム
JPWO2015029304A1 (ja) * 2013-08-29 2017-03-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
JP2017515134A (ja) * 2014-01-15 2017-06-08 マイクロソフト テクノロジー ライセンシング,エルエルシー 模写によるデジタル携帯情報端末の対話、および応答時のリッチなマルチメディア

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0541894A (ja) * 1991-01-12 1993-02-19 Sony Corp 電子機器の制御装置
JPH07302351A (ja) * 1994-05-09 1995-11-14 Canon Inc 画像・音声応答装置及び画像・音声応答方法
JP2002163171A (ja) * 2000-11-28 2002-06-07 Sanyo Electric Co Ltd ユーザ支援装置およびシステム
JP2003248841A (ja) * 2001-12-20 2003-09-05 Matsushita Electric Ind Co Ltd バーチャルテレビ通話装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0541894A (ja) * 1991-01-12 1993-02-19 Sony Corp 電子機器の制御装置
JPH07302351A (ja) * 1994-05-09 1995-11-14 Canon Inc 画像・音声応答装置及び画像・音声応答方法
JP2002163171A (ja) * 2000-11-28 2002-06-07 Sanyo Electric Co Ltd ユーザ支援装置およびシステム
JP2003248841A (ja) * 2001-12-20 2003-09-05 Matsushita Electric Ind Co Ltd バーチャルテレビ通話装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013257700A (ja) * 2012-06-12 2013-12-26 Ntt Comware Corp 要求コントロールサーバ、エージェント装置、要求コントロールサーバの動作方法およびコンピュータプログラム
JPWO2015029304A1 (ja) * 2013-08-29 2017-03-02 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
US10446151B2 (en) 2013-08-29 2019-10-15 Panasonic Intellectual Property Corporation Of America Speech recognition method and speech recognition apparatus
JP2017515134A (ja) * 2014-01-15 2017-06-08 マイクロソフト テクノロジー ライセンシング,エルエルシー 模写によるデジタル携帯情報端末の対話、および応答時のリッチなマルチメディア

Similar Documents

Publication Publication Date Title
CN110941954B (zh) 文本播报方法、装置、电子设备及存储介质
CN109447234B (zh) 一种模型训练方法、合成说话表情的方法和相关装置
CN110097890B (zh) 一种语音处理方法、装置和用于语音处理的装置
US7664645B2 (en) Individualization of voice output by matching synthesized voice target voice
JP4489121B2 (ja) 移動通信網における3dキャラクターを利用したニュース情報を提供する方法及びニュース情報提供サーバ
CN111294463B (zh) 一种智能应答方法及***
US7774194B2 (en) Method and apparatus for seamless transition of voice and/or text into sign language
US10741089B2 (en) Interactive immersion system for movies, television, animation, music videos, language training, entertainment, video games and social networking
CN107040452B (zh) 一种信息处理方法、装置和计算机可读存储介质
KR20110025720A (ko) 아바타 기반 화상 통화 방법 및 시스템, 이를 지원하는 단말기
CN114401417B (zh) 直播流对象跟踪方法及其装置、设备、介质
JP2003037826A (ja) 代理画像表示装置およびテレビ電話装置
JP2008085421A (ja) テレビ電話機、通話方法、プログラム、声質変換・画像編集サービス提供システム、および、サーバ
US11354520B2 (en) Data processing method and apparatus providing translation based on acoustic model, and storage medium
KR20170135598A (ko) 특정인의 합성된 가상 음성을 이용한 음성 대화 시스템 및 방법
JP2006048218A (ja) 音声動画応答方法および音声動画応答システム
JP2002330365A (ja) 対人会話型ナビゲーション装置
JP5423970B2 (ja) 音声メール実現システム、音声メール実現サーバ、その方法及びそのプログラム
CN112565913A (zh) 视频通话方法、装置和电子设备
JP2001357414A (ja) アニメーション通信方法およびシステム並びにそれに用いる端末装置
CN114514576A (zh) 数据处理方法、装置和存储介质
JP2007251581A (ja) 音声送信端末および音声再生端末
KR100596001B1 (ko) 사용자 단말기에 소정의 콘텐츠를 제공하기 위한 방법 및그 시스템
US10839801B2 (en) Configuration for remote multi-channel language interpretation performed via imagery and corresponding audio at a display-based device
CN110460719B (zh) 一种语音通话方法及移动终端

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100330