JP2003521750A - Speech system - Google Patents

Speech system

Info

Publication number
JP2003521750A
JP2003521750A JP2001557023A JP2001557023A JP2003521750A JP 2003521750 A JP2003521750 A JP 2003521750A JP 2001557023 A JP2001557023 A JP 2001557023A JP 2001557023 A JP2001557023 A JP 2001557023A JP 2003521750 A JP2003521750 A JP 2003521750A
Authority
JP
Japan
Prior art keywords
message
audio
text
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001557023A
Other languages
Japanese (ja)
Inventor
フリーランド、ワーウィック・ピーター
ブライエン、グレン・チャールズ
ディクソン、イアン・エドワード
Original Assignee
ファモイス・テクノロジー・ピーティーワイ・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AUPQ5406A external-priority patent/AUPQ540600A0/en
Priority claimed from AUPQ8775A external-priority patent/AUPQ877500A0/en
Application filed by ファモイス・テクノロジー・ピーティーワイ・リミテッド filed Critical ファモイス・テクノロジー・ピーティーワイ・リミテッド
Publication of JP2003521750A publication Critical patent/JP2003521750A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

(57)【要約】 【解決手段】 通信ネットワーク(4)を通じて、少なくとも部分的にはユーザにとって広く認識可能なキャラクタのボイスを表すオーディオメッセージを生成するシステム。オーディオメッセージを構成するのに、ボイスメッセージまたはテキストベースのメッセージのどちらかが用いられてもよい。よく知られたキャラクタの特定の記録は記憶手段(14、213)に記憶され、背景サウンド効果をデータベース(14、215)に記憶されたオーディオメッセージに挿入することができる。このオーディオメッセージは処理手段(12、212、214)のいずれか1つによって構成され、処理端末上で再生するために受信者に送信される。 A system for generating, via a communication network (4), an audio message representing a voice of a character that is at least partially widely recognizable to a user. Either a voice message or a text-based message may be used to compose the audio message. The particular record of the well-known character is stored in the storage means (14, 213), and the background sound effect can be inserted into the audio message stored in the database (14, 215). This audio message is constituted by any one of the processing means (12, 212, 214) and transmitted to the recipient for playback on the processing terminal.

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】 この発明はスピーチの生成に関し、デジタル通信システムおよび情報システム
またはアミューズメントおよび新規玩具と関連するような特にエンターテインメ
ント目的のため、デジタルオーディオフォーマットでのメッセージの再生を含む
スピーチ生成システムおよび方法に特にしかし排他的でなく関する。 【0002】 【従来の技術】 高度な知識のコンピュータソフトウエア、パワーの増加するハードウエアは、
ディジタルプラットフォームでの増大するエンターテインメント機会の可能性を
切り開いた。これはパーソナルコンピュータまたはゲーム操作機、デジタルテレ
ビジョンおよび無線用途、デジタル電話などの装置を介してアクセスされる、例
えばインターネットを含む。 【0003】 特に、eメールシステム、(ICQおよび他のような)チャットルーム、(S
MSのような)他のインスタントメッセージサービスおよびマルチユーザドメイ
ンの使用の増加だけでなくコンピュータゲームの複雑化において大きく発展して
きていた。殆どの場合、これらのタイプのアプリケーションはテキストベース化
され、または少なくともテキストの使用に依存するところがおおきい。しかしな
がら、現在のところ、これらアプリケーションはこれらの技術の幅広い利用性に
もかかわらず、それらのタイプのアプリケーションのユーザ経験度を高めるため
テキストボイス技術の有意な利用をなされなかった。 【0004】 コンピュータ生成音声が使用されていたアプリケーションでは、この技術は主
として未処理ボイス信号のキャリアとして使用されていた。例えば、インターネ
ットベース化チャットルーム(例えば、ネット会議)が存在する。これによって
二人以上のユーザがタイプされたメッセージを介する代わりにそれ自身の音声で
通信できる。テキスト音声技術が使用されていたアプリケーション(例えば、e
メール読み取りプログラム)では、ボイスのエンターテインメント値は通常1つ
のボイスだけ、または少数の一般ボイス(例えば、米国の英国男性)の供給によ
り低くなってしまった。 【0005】 おしゃべり玩具はあるエンターテインメント値を有するが、既存玩具は通常、
予め記録されたメッセージの固定したシーケンスまたはランダム選択に限定され
る。いくつかの玩具では、利用できるメッセージのシーケンスが一組の供給され
たメッセージからの選択により決定できる。他のケースでは、ユーザは玩具と共
に使用するため一般のカセットレコーダまたはカラオケ装置のような自らのボイ
スを記録する機会を持っている。 【0006】 そのようなおしゃべり玩具のユーザは既存のオプションとしてそれらの新規な
値に直ぐに飽きてしまい、ユーザに利用できる適度なアミューズメントオプショ
ンだけがあるのでそれらの種々の組み合わせが限定されたエンターテインメント
の可能性を保有する。 【0007】 【発明が解決しようとする課題】 従来技術のこれらおよび他の限定に取り組むことに少なくとも試みることがこ
の発明の目的である。特に、テキストおよびオーディオメッセージ、特にデジタ
ル通信または情報システムによって生成されまたは処理されるメッセージと関連
するアミューズメント値と関係してこれらおよび他の欠陥に取り組むことがこの
発明の目的である。 【0008】 おしゃべり玩具と関係してエンターテインメント目的のためのオーディオメッ
セージと関連するアミューズメント値に関係してこれらおよび他の欠陥に取り組
むことがこの発明の目的である。 【0009】 【課題を解決するための手段】 この発明の概念はテキストが周知のエンターテインメントパーソナリティのよ
うな特定の文字または架空の文字を表すボイスに所望に変換できる認識にある。
この概念は例えば、テキストベース化メッセージと関係して使用する種々の文脈
で種々の発明の適用を有する。一例として、IRCまたはICQのようなeメー
ルまたはチャートベース化システムのようなテキスト通信がソフトウエアアプリ
ケーションまたは特定の文字のボイスでテキストベース化メッセージの再生を可
能にする機能を用いて発明の概念に従って高めることができる。他の例として、
発明の概念に従って、文字のボイスで1以上のメッセージまたは玩具のスタイリ
スティックデザインによって表されるパーソナリティ(例えば、エルヴィスプレ
スリーまたはホーマシンプソン)をユーザがプレイするように構成できる物理玩
具を提供することができる。いずれの場合においても、テキストベース化メッセ
ージは所望のオーディオメッセージを表すテキストメッセージを印字またはさも
なければ構成することによってユーザによって構成できる。 【0010】 この発明の第1局面によると、テキストベースメッセージを提供するステップ
と、 前記テキストベースメッセージに基づいたオーディオメッセージを生成するス
テップとから成り、 前記オーディオメッセージは少なくとも部分的には、ユーザに一般的に認識で
きる文字を表すボイスである、音声メッセージを生成する方法が提供される。 【0011】 この発明の第2局面によると、テキストベースメッセージを提供する手段と、 前記テキストベースメッセージに基づいたオーディオメッセージを生成する手
段とで構成され、 前記オーディオメッセージは少なくとも部分的には、ユーザに一般的に認識で
きる文字を表すボイスである、オーディオメッセージ生成システムが提供される
。 【0012】 この発明の第3局面によると、通信ネットワークにリンクしたテキストベース
メッセージを提供する手段と、 前記テキストベースメッセージに基づいて前記オーディオメッセージを生成す
る手段と出構成され、 前記オーディオメッセージは少なくとも部分的には、ユーザに一般的に認識で
きる文字を表すボイスである、通信ネットワークを用いるオーディオメッセージ
を生成するシステムが提供される。 【0013】 好ましくは、オーディオメッセージが生成されるボイスの文字はユーザに一般
的に認識できる文字の予め定義されたリストから選択される。 【0014】 好ましくは、オーディオメッセージはスピーチ単位(語、句およびサブ語句)
をこれらスピーチ単位を表す対応オーディオ記録で索印する原文データベースを
用いてテキストベースメッセージに基づいて生成される。好ましくは、オーディ
オメッセージはスピーチ単位の1以上のオーディオ記録を共に連結して生成され
、連結オーディオ記録のシーケンスはこのシーケンスにおける1以上のオーディ
オ記録と関連する索引スピーチ単位を参照して決定される。 【0015】 好ましくは、適切なスピーチ単位の対応オーディオ記録を持たないテキストベ
ースメッセージの語は対応オーディオ記録を持つ代替え語と置き換えられる。好
ましくは、代替え語はテキストベースメッセージの文脈においてオリジナル語に
近い類所の文法的意味を持っている。 【0016】 好ましくは、多数の語を代わりの語で索印するシソーラスがこの代替えを達成
するために使用される。好ましくは、オリジナル語は関連オーディオ記録を適正
に持っている置き換え支援語と置き換えられる。好ましくは、シソーラスは関連
オーディオ記録を適正に有する支援語を最終的に見つけるため代替え語を繰り返
し探索できる。好ましくは、シソーラスの使用はテキストベースメッセージの文
法ベース処理またはテキストベースメッセージの辞書ベース処理を含むよう拡張
できる。択一的に、非支援語は適切なアトミックスピーチ素子(例えば、複音)
のオーディオ記録のシーケンスを再生し、その自然性を高めるためこのシーケン
スに信号処理を適応することによって合成できる。 【0017】 好ましくは、関連適正オーディオ記録を有する支援語は一般通信用に一般に適
切である特定言語で共通に使用される語の集まりである。好ましくは、原文デー
タベースは更に音節と句を索印する。好ましくは、句は目標言語に共通に使用さ
れ、または文字の句特性である句である。いくつかのケースでは、句は目的を持
ってまたは意図的に文字からの句である。 【0018】 好ましくは、オーディオメッセージの生成は与えられたテキストベースメッセ
ージを、オリジナルテキストベースメッセージの慣用的表現である対応するテキ
ストベースメッセージに変換する予備ステップを随意的に含む。 【0019】 好ましくは、いくつかの実施形態においては、対応するテキストベースメッセ
ージは文字に起因し、文字と関連しまたは少なくとも互換性あるイディオムであ
る。 【0020】 好ましくは、他の実施形態では、対応するテキストベースメッセージは文字と
意図的に互換性あり、ユーザに一般的に認識できる異なる文字に起因し、または
関連するイディオムである。 【0021】 好ましくは、テキストベースメッセージは多重会話文字が現れる物語を含み、
オーディオメッセージは各々がユーザに一般的に認識できる異なる文字を表す個
々の多重ボイスで生成できる。 【0022】 好ましくは、オリジナルテキストベースメッセージから、フランス語および英
語のような2つの確定した人間言語間の翻訳を含む対応テキストベースメセージ
への変換がある。もちろん、翻訳は文字(例えば、ポケモン言語)に起因し、関
連し少なくとも互換性ある構成または処置された言語である原語または目標言語
のいずれかを含んでも良い。言語間の翻訳は選択的であっても良いし、文字のイ
ディオムへの代替えに付加されても良い。 【0023】 好ましくは、テキストベースメッセージはユーザによって与えられる。好まし
くは、テキストは例えば、文字数字キーボードを用いて一連のコードとしてユー
ザによって入力される。 【0024】 好ましくは、ユーザにより与えられるテキストベースメッセージは語または特
定のテキストベース要素の所定のリストから選択される他のテキストベース要素
を含むことができる。テキストベース要素のこのリストは例えば、共通句または
表現だけでなく語を含む。これらの語、句または表現の1つ以上は特定の文字に
限定されても良い。テキストベース要素は文字に起因し、関連し、または少なく
とも互換性ある音声表現を含むことができる。 【0025】 好ましくは、テキストベース要素は個々のテキストベース要素を表す特定コー
ドでテキストベースメッセージに表される。好ましくは、これはテキストベース
要素の該当コードに追従される予備エスケイプコードシーケンスを用いて達成さ
れる。テキストベース要素はユーザによって挿入でき、またはテキストベースメ
ッセージの、例えば文に句読点を自動的に付けるために挿入される。あるいは、
オーディオメッセージの生成はオーディオメッセージを構成するある所定のオー
ディオ記録間の特定の音声表現のランダム挿入を含むことができる。 【0026】 好ましくは、このコード化シーケンスはエモーションを表し、文字識別での変
化を特徴付け、バックグラウンド音を記録済み表現をテキストベースメッセージ
に挿入するために使用される。好ましくは、このコード化シーケンスはHTML
またはXMLに基づいている。 【0027】 好ましくは、原文データベースは適正と考えられないある語を除去し、それに
より生成オーディオメッセージはある程度まで検閲できる。 【0028】 好ましくは、テキストベースメッセージはボイス認識技術を用いてオーディオ
メッセージから生成され、次いで一般認識可能文字を表すボイスでオーディオメ
ッセージを生成するための基として使用される。 【0029】 好ましくは、ユーザは1以上の音響効果をオーディオメッセージに与えること
ができる。これら効果は、例えばオーディオメッセージの音特性を変えるために
使用でき、それ故に、例えば、あたかも文字が水中にあるか、または冷気などを
有するごとく音を出す。あるいは、随意的に、スピーチ信号(例えば、“F0”
信号、または音声および韻律モデル)の特性はボイスの特性を実質的に若干変え
るために意図的に変更されまたは置換されても良い。例えば、羊がエルヴィスプ
レスリーとして認識できるボイスで話してもよい。好ましくは、テキストベース
メッセージはASCII(American Standard Code for Information Interchan
ge)のようなデジタルコンピュータによって使用できる形式で表される。 【0030】 好ましくは、上述した発明方法はこれらの方法を行なうことができるソフトウ
ェアを実行できる適正な動作システムを組み込まれたコンピュータ装置を用いて
行っても良い。好ましくは、前記方法はユーザのローカルコンピュータ装置を用
いて行われ、またはユーザがネットワークを介して遠隔的に通信できるコンピュ
ータ装置を用いて行われる。好ましくは、多数のユーザがテキストベースメッセ
ージを、インターネットに接続されワールドワイドウエブ(WWW)サイトを用
いてアクセスできるセントラルコンピュータ装置に提供し、オーディオメッセー
ジをインターネットを介して受ける。オーディオメッセージはFTPまたはHT
TPプロトコルを用いてインターネットを介して、例えば伝送される標準オーデ
ィオファイル形式のファイルまたはeメールメッセージへの添付として受けるこ
とができる。あるいは、オーディオメッセージは一人以上のユーザにストリーミ
ングオーディオブロードキャスト提供しても良い。 【0031】 オーディオメッセージがコンピュータ装置によって生成される実施形態では、
オプションは好ましくはオーディオメッセージに対応する添付動画像を生成する
ために設けられる。好ましくは、このオプションはオーディオメッセージがユー
ザローカルコンピュータ装置によって生成される場合に利用できる。好ましくは
、オーディオメッセージおよびアニメーションはマイクロソフトAVIフォーマ
ットまたはアップルクイックタイムフォーマットのような単一のオーディオ/ビ
ジュアルコンピュータインタープレタブルファイルフォーマットによって提供さ
れる。好ましくは、アニメーションはオーディオメッセージを“発話する”文字
の視覚表現であり、文字はオーディオメッセージに従って移動する。例えば、動
画文字は好ましくはオーディオメッセージに応答して口および/または他の顔的
または身体的特徴を移動する。好ましくは、動画文字の動きはオーディオメッセ
ージの所定のオーディオまたはスピーチ事象に同期される。これは例えば、語の
始終端またはあるキーフレイズの使用または署名音を含めても良い。 【0032】 この発明の実施形態は好ましくはネットワークを用いて容易にされる。このネ
ットワークはユーザ間でテキストベースメッセージおよび/またはオーディオメ
ッセージの通信を許容する。好ましくは、ネットワークサーバがこの発明の実施
形態に従って生成される1以上のオーディオメッセージを分配するために使用で
きる。 【0033】 好ましくは、発明の方法はeメール(電子メール)または電子挨拶状またはI
RC(Internet relay chat)のようなチャットベースシステムまたはICQ(
または他のIP-to-IPメッセージシステム)のようなテキストベース通信またはメ
ッセージシステムと共に使用される。これらのケースでは、テキストベースメッ
セージが設けられ、少なくともeメールメッセージ、電子挨拶状またはチャット
ラインのテキストメッセージのテキストから抽出される。 【0034】 好ましくは、前記発明の方法はeメールまたは同様な非同期メッセージシステ
ムと共に使用されるとき、オーディオメッセージは送信されるメッセージ内に全
体的に埋め込まれても良い。あるいは、オーディオメッセージへのハイパーリン
クまたは他の適正な参照がeメールメッセージ内に設けてもよい。オーディオメ
ッセージがトータル的または参照によって設けられるかにかかわらず、オーディ
オメッセージは直ちにプレイされてもよいし、後日プレイするために記憶媒体に
格納されてもよい。オーディオメッセージは多くの受信者にブロードキャストさ
れてもよいし、必要なら受信者間に送られてもよい。メッセージは例えば、受信
者のメッセージに関するバースデーメッセージを所定のルールに基づいてある受
信者へ自動的に送信してもよい。他の実施形態では、オーディオメッセージの送
信が受信者のコンピュータターミナルでオーディオメッセージに変換されるテキ
ストメッセージの送信に置き換えてもよい。送信されたテキストメセージが読み
出されるべきボイスは好ましくは送信者によって特定付けできる。好ましくは、
上記種類の送信はデジタル挨拶メッセージとして提示される。 【0035】 好ましくは、この発明の方法がチャットルーム或いは同様の同期メッセージシ
ステムに関連して用いられた場合には、入力及び/又は出力メッセージは、特定
キャラクタの音声のオーディオメッセージに変換される。チャットルームでやり
取りされるメッセージは、ユーザによって与えられたテキストから直接変換され
ることが可能であり、これは、チャットルームのユーザの会話を処理するスピー
チ認識手段を介して付加的に導き出されても良い。好ましくは、各チャットルー
ムのユーザは、ユーザのメッセージが付与されている特定のキャラクタ音声(ボ
イス)を少なくともデフォルトのレベルで特定することができる。幾つかの実施
例では、各ユーザが特定のキャラクタ音声(ボイス)を他のチャットルームのユ
ーザに割り当てることが出来ることが好ましい。他の実施例において、特定のチ
ャットルームユーザが自動的に特定のキャラクタ音声に割り当てられても良い。
この場合には、特定のチャットルームのユーザは、特有のテーマを有するキャラ
クタによって概念的に占められても良い。(例えば、有名なアメリカ政界の大物
達がいるチャットルームがある。) 好ましくは、この発明の方法は、コンピュータオペレーティングシステムによ
って与えられるようなグラフィカルなユーザインターフェース、或いは、ワール
ドワイドウエッブのような特定のアプリケーションに関連して用いられる。ある
実施例は、認識可能なキャラクタ音声で喋るテキストベースメッセージを用いる
ナビゲーションエージェントを提供してグラフィカルインターフェースユーザを
ナビゲート(案内)するようにユーザを助けても良い。 【0036】 好ましくは、ボイスメールのように、他のメッセージシステムを用いるように
この方法は、拡張させることができる。これは、ボイスメールサービス上に残っ
ているボイスメッセージのテキスト表記を派生させる例を含む。これは、発生さ
れたオーディオメッセージを基としているテキストベースメッセージを引き出し
、或いは、提供するに用いることが出来る。 【0037】 好ましくは、この方法は、応答装置或いはサービスにおける挨拶のメッセージ
を記録する文脈に応用させることができる。あるユーザは、電話回線網、応答装
置或いはサービスを介して或いは直接的に、この発明の方法に従って発生された
オーディオメッセージを用いるように構成されたコンピュータ装置を有すること
ができる。 【0038】 好ましくは、インターネット上の中央処理装置がユーザによってアクセスされ
て電話回線網を介して応答装置或いはサービスに通信することができ、その結果
、応答装置或いはサービスが発生されたオーディオメッセージの記録を記憶する
ことができる。このオーディオメッセージは、ユーザによって中央処理装置に与
えられたテキストベースメッセージに基づき、応答装置或いはサービスによって
用いられた存在している挨拶メッセージのスピーチ認識を介して推論されること
ができる。 【0039】 好ましくは、テキストメッセージが入れられた言語及び話し言葉の言語は、ア
メリカ英語のようなスタンダードな英語のバリエーションがある。 【0040】 好ましくは、メッセージの韻律及びアクセント(ピッチ及び会話の速度)及び
付加的に文字の選定は、ユーザの経験レベル、ユーザのネイティブなアクセント
、迅速な応答の必要性等、ネットワークの混雑度、及びユーザの場所のようなフ
ァクタに依存している。 【0041】 好ましくは、認識可能な文字の”音声(ボイス)フォント”は、最適な技術及
び装置を用いることによってテキスト・対・会話に用いるそのような文字音声を
記録することによって拡張することが出来る。 【0042】 好ましくは、多くのユーザは、この実施例に従って提供されるシステムに相互
に作用している。好ましくは、メッセージのデータベースは、ユーザに対して最
新のテキストを再呼出或いは再送付することを許可することとなる。 【0043】 好ましくは、この方法は、殆どがテキスト形式のジョーク、広範囲の知識、物
語、広告、或いは、歌の部分をオーディオフォーマットに変換することに基づい
て、オーディオを基にしたジョーク、広範囲の知識、物語、広告、良く知られて
いるキャラクタの音声から引き出された歌の部分の定期的に更新されるデータベ
ースを供給している。好ましくは、このジョーク、広範囲の知識、物語、広告或
いは歌の部分は、インターネットのようなコンピュータネットワークを用いて1
又は多数のユーザに配られる。 【0044】 好ましくは、韻律は、テキストを基にしたメッセージの文法構造から推測され
る。変形例として、韻律は、ユーザ自体の声の記録中に構築されている抑揚、速
度及び感情表現の全てを伴って入力されたテキストを人が読む際にそのユーザの
声のオーディオ波形を分析することによって訓練させることができる。この韻律
モデルは、テキストを会話変換工程に導く際に用いられる。変形例として、韻律
は、会話中のユーザ自体の声から情報をシステムに引き出すことによって訓練す
ることが出来る。これらの韻律発生方法のそれぞれにおいては、韻律は、テキス
トを基にしたメッセージ中に感情的な印或いは合図を含ませることによってより
向上させることが出来る。好ましくは、コーパス(記録データバースを作り上げ
る記録されたテキストの記述)は、コーパスの記録中に用いられる感情的な表現
の記述を含むように書き加えられる(例えば、エスケープコード、HTML、S
ABLE、XML等)。 【0045】 好ましくは、オーディオフォーマットファイルを生成するキャラクタ音声TT
Sは、暗号化或いは時間的遅れ技術、好ましくは、エンコーダ及びデコーダープ
ログラムによって多目的使用或いは未承認使用から保護させることができる。 【0046】 好ましくは、この発明の方法は、ユーザのコンピュータ或いは玩具で物語を話
させる為に用いることができる。キャラクタ及び/又は物語の話し手の夫々或い
は任意の部分を再生するキャラクタ音声は、ユーザによって好ましいものに変え
ることができる。物語の一部部分は、望ましいキャラクタで記録された言葉、フ
レーズ及びセンテンスのサウンド部分から構成されても良く、或いは、付加的に
TTSシステムを用いて部分的或いは全体的に構成されても良い。 【0047】 好ましくは、この方法は、ウエッブ(Web)のようなメディアシステムに対
して案内的な支援を与えても良い。好ましくは、ウエッブ(Web)サイトは、
サイトを案内する場合にユーザを助けるように有名なキャラクタの声の使用を含
むことができる。キャラクタの声は、サイト中に含まれる情報を与えるだけでな
く、ウエッブサイトによって与えられる情報に補助的な注釈を与えることが出来
る。キャラクタの声は、ユーザが質問するかもしれないインターラクティブなエ
ージェントとして機能しても良い。他の実施例では、ウエッブサイトは、ユーザ
の経験の一部として異なるキャラクタ間での会話を与えても良い。会話は、自動
的に始まり、或いは、ユーザから与えられる評価によって筆記されても良い。 【0048】 好ましくは、電話を基にした案内システム、即ち、インターラクティブな音声
応答(IVR)システムのようなシステムは、システムに与えられたテキストを
基にする認識可能な音声を発することができる。同様に、無線応用プロトコル(
WAP)によって与えられるような狭帯域案内システムは、そのようなシステム
のユーザに対してテキストに変えて認識可能な音声を用いることができる。 【0049】 好ましくは、実施例は、放送テキストメッセージを認識可能なキャラクタの声
で読み上げるオーディオメッセージに変換する、例えば、デジタルラジオ及びデ
ィジタルテレビのようなデジタル放送システムと共に用いることができる。 【0050】 好ましくは、実施例は、シュミュレーション或いはバーチャル世界の偶像或い
は化身によってテキストが認識可能な声で喋られているようなシュミュレーショ
ン或いはバーチャル世界に用いることができる。好ましくは、このような世界の
化身は、音声テキストメッセージが雰囲気を与えているところの認識可能なキャ
ラクタの演出に相当する可視的な演出を施している。 【0051】 好ましくは、この発明の実施例に関連して用いられるテキストメッセージは、
テキストメッセージを有名なキャラクタの声に変換する為に付記言語中にタグ或
いは他の同様な注釈を用いてマークを付しても良い。このように定められた言語
は、異なる有名なキャラクタの声を特定し、オーディオで再生されるべきテキス
ト中の異なる感情を特定できることが可能となる。キャラクタを特定する特徴は
、どのように特定のテキストメッセージがオーディオになるかを詳細に特定する
ことに用いることが出来る。好ましくは、これらの特徴を与える環境を計算する
ために自動ツールが用意される。 【0052】 好ましくは、この発明の実施例は、オーディオメッセージを与えている声のキ
ャラクタの可視像に同期してオーディオメッセージを与えることが出来る。この
点に関して、キャラクタのデジタル的な描写が採用され、表現された顔の表情は
、連続する用語、表現、及びそのようなキャラクタによって喋られる他の聴覚的
な要素を反映している。 【0053】 好ましくは、実施例は、例えば、ウエッブサイトを参照することによって、個
人的なメッセージをユーザに与えることができる。好ましくは、個人的なメッセ
ージは、そのようなユーザに贈り物をする文脈中にユーザに対して与えられる。
好ましくは、メッセージは、ある人から他の人への挨拶に関係し、有名なキャラ
クタの声で伝えられる。挨拶のメッセージは、例えば、誕生日のような特定タイ
プの挨拶の場面を想定して異なる有名キャラクタ間の会話で表されても良い。 【0054】 好ましくは、本発明に係る実施の形態では、一般に1回のボイスの使用(use
)が記述される。しかしながら、一般に、実施の形態は異なるそれぞれの認識可
能な文字の多重ボイスの使用に等しく適している。 【0055】 好ましくは、具体的に上述したそれらよりも広く様々な異なった形態や内容で
実施の形態を使用することができる。例えば、実際のニュース読者、オーディオ
漫画、マルチメディア提示、グラフィック・ユーザーインタフェース・プロンプ
トなどは発明の実施の形態に従ってテキストをスピーチの機能性に取り入れるこ
とができる。 【0056】 好ましくは、直接又はネットワークを介して計算装置に接続可能な玩具と関連
して上述の方法を使用することができる。好ましくは、玩具が計算装置と関連し
て使用されるときに、適宜上述した発明方法を達成するのに要求される機能性を
共有するのに、玩具と計算装置を使用することができる。 【0057】 従って、本発明は、更に上述した発明方法を実行するための計算装置によって
解釈可能なコード化された指示を含む。また、本発明は媒体で提供されるコンピ
ュータプログラムを含み、当該媒体は、上述した発明方法を実行するために適用
される計算装置によって解釈可能なコード化された指示を記録している。本発明
は、指示に従って上述した発明方法を実行するための計算装置によって解釈可能
なコード化された指示を、分配するか、又はネットワークを介した分配のために
提供することを更に含む。また、本発明は上述した発明方法を実行するか、また
は実行するために適用される計算装置を含む。 【0058】 本発明の第4の局面によれば、オーディオ信号を再生するスピーカー手段と、
テキストベースメッセージを格納する記憶手段と、前記記憶手段と前記スピーカ
ー手段を作動的に接続し、前記スピーカー手段によって再生するための前記オー
ディオ信号を生成する制御手段とにより構成され、前記制御手段は使用中に、少
なくとも部分的に、ユーザに一般的に認識できる文字を表すボイスであるオーデ
ィオメッセージを生成する玩具が提供される。 【0059】 本発明の第5の局面によれば、オーディオ信号を再生するためのスピーカー手
段と、オーディオメッセージを記憶するための記憶手段と、前記記憶手段および
前記スピーカー手段を作動的に接続し、前記スピーカー手段によって再生するた
めの前記オーディオ信号を生成する制御手段とにより構成され、前記制御手段は
使用中に、少なくとも部分的に、ユーザに一般的に認識できる文字を表すボイス
である前記オーディオメッセージを生成する玩具が提供される。 【0060】 好ましくは、玩具は、1つ以上の上述の好ましい方法を、適用可能なものとし
て、実行するために適用される。 【0061】 好ましくは、前記制御手段は前記玩具をコンピュータ装置と通信させる接続手
段と作動的に接続される。好ましくは、前記コンピュータ装置は前記接続手段を
介してケーブルによって前記玩具に接続されるコンピュータである。 【0062】 また、接続方法は、直接,または,インターネットなどのネットワークを介し
てコンピュータに無線接続を提供するように使用されても良い。 【0063】 好ましくは、前記接続手段はeメールのようなテキストベースメッセージまた
は記録オーディオメッセージを前記スピーカー手段を介して再生のため前記玩具
へ提供させる。 【0064】 また、前記接続手段はオーディオ信号を、オーディオメッセージの再生のため
の前記スピーカー手段へ直接に供給させる。 【0065】 好ましくは、前記玩具は前記文字の形態を有する。好ましくは、前記玩具は前
記オーディオメッセージに応答して、および/または他の顔または身体の特徴を
動かすために用いられる。好ましくは、前記玩具の動きは前記オーディオメッセ
ージの所定のスピーチ事象に同期される。これは、例えば、単語の始めと終わり
、またはある主要な句、または識別音(signature sounds)の使用を含むかもし
れない。 【0066】 好ましくは、前記玩具はマイクロプロセッサベース制御手段および不揮発性記
憶手段を有する。好ましくは、オーディオを記録再生させる手段を有する。好ま
しくは、前記玩具によって記録されるオーディオはテキストベースメッセージに
変換され、このテキストベースメッセージに基づいてオーディオメッセージを生
成するために使用され、前記オーディオメッセージは一般的に認識できる文字の
ボイスで発話される。上述した発明方法の好ましい特徴は、類似して、本発明の
玩具と関連するような適切なところに適用される。 【0067】 また、玩具がコネクションを含むとき、スピーカー手段を介したオーディオメ
ッセージの再生に接続方法を使用して、オーディオメッセージを直接玩具に供給
することができる。この場合、玩具が直接接続された計算装置、又はインターネ
ットなどのネットワークを介して接続された計算装置によって、テキストベース
のメッセージをオーディオメッセージに変えることができる。玩具に供給される
オーディオメッセージはメモリ手段に格納されて、スピーカー手段によって再生
される。この構成の利点は、コントローラ手段の処理パワーがより少ないことと
、玩具のメモリ手段の記憶容量がより少ないことである。例えば、もし、テキス
トからオーディオへの処理がインターネットに接続された中央計算装置で実行さ
れるのであれば、中央計算装置で実行されるソフトウェアが拡張されたテキスト
からオーディオへの機能性を提供するのに要求されるものとして修正(modified
)され得るように、テキストベースのメッセージをオーディメッセージに変換可
能な方法において、より柔軟性を持たせることができる。 【0068】 本発明の第6の局面によれば、少なくとも部分的に、ユーザによって一般的に
認識できる文字を表すボイスであるオーディオメッセージを生成するシステムで
あって、通信ネットワークを介してメッセージ要求を送信する手段と、前記メッ
セージ要求を受けるメッセージ処理手段とで構成され、前記処理手段は前記メッ
セージ要求を処理し、少なくとも部分的に、ユーザに一般的に認識できる文字を
表すボイスである前記オーディオメッセージを構成し、構成されたオーディオメ
ッセージを前記通信ネットワークを介して1以上の受信者に送るシステムが提供
される。 【0069】 本発明の第7の局面によれば、少なくとも部分的に、ユーザに一般的に認識で
きる文字を表すボイスであるオーディオメッセージを生成する方法であって、通
信ネットワークを介してメッセージ要求を送信するステップと、前記メッセージ
要求を処理し、少なくとも部分的に、ユーザに一般的に認識できる文字を表すボ
イスで前記オーディオメッセージを構成するステップと、前記構成されたオーデ
ィオメッセージを前記通信ネットワークを介して1以上の発信者に送るステップ
とによって構成されるオーディオメッセージ生成方法が提供される。 【0070】 本発明の第8の局面によれば、所定のフォーマットでオーディオメッセージを
生成する要求を出すステップと、前記要求に基づいて前記オーディオメッセージ
を生成するステップとで構成され、前記オーディオメッセージは少なくとも部分
的に、ユーザに一般的に認識できる文字の代表的なボイスである、オーディオメ
ッセージ生成方法が提供される。 【0071】 【発明の実施の形態】 いくつかの実施形態を以下に詳細に示す。テキストを音声に変換するシステム
としては、TTSシステムが引用される。ある実施形態では、ユーザは、聞き取
れる音声或いはユーザが話すのに望まれる言語構成で書かれた文章を表すテキス
トを入力、或いは引き出すことができる。TTSシステムは、このテキストベー
スのメッセージを処理し、また音声メッセージを生成するために、メッセージに
変換操作を実行する。その音声メッセージは、有名な漫画のキャラクタ(例えば
Homer Simpson)や実在する有名人(たとえばElvis Presley)のようなほとんど
のユーザが認識できる性質の声である。一方、ステロ版のキャラクタは、RAP
アーティスト(たとえばPuffy)が話すような特有の声のメッセージが使わ
れるかもしれない。あるいは、その声は、“granny”(おばあさん)や“spaced
”(麻薬でぼうっとなった人)や“sexy”な声である。その他たくさんのステロ
版のキャラクタを使うことができる。 【0072】 音声変換操作のテキストは、テキストメッセージをたくさんのよく知られた特
有の声(例えば、Elvis PresleyやDaffy Duck)、或いは特有な声の物まねのう
ち1つが話されたメッセージを表現する音声フォーマットメッセージに変換する
。ソフトウェアで実行される実施形態として、選ばれたキャラクタは、自動的に
またはユーザによって、サポートされたキャラクタ群のデータベースから選択さ
れる。音声メッセージを生成する変換過程は、“TTSシステム”の項目で詳細
に示す。玩具の実施例では、声は、玩具の視覚デザインと、クリップでとめた構
成要素のような玩具の補助部とが互換性があるのが望ましい。ユーザは、玩具の
接続手段を使用した互換性あるコンピュータに玩具を接続することができる。そ
のソフトウェアは、むしろ音声フォーマットメッセージを、接続手段を介して不
揮発性のメモリに音声フォーマットメッセージを移す互換性あるコンピュータに
ダウンロードする。ユーザは、互換性コンピュータから玩具を抜くことができる
。そのときユーザは、音声フォーマットメッセージをプレイまたはリプレイする
ために玩具に制御手段を実行させる。 【0073】 ソフトウェアは、モデムを接続してインターネットを介してユーザの互換性コ
ンピュータに音声フォーマットメッセージをダウンロードする。音声フォーマッ
トメッセージは、標準の音声フォーマット(例えば、マイクロソフトのWAVあ
るいはリアルオーディオのAUフォーマット)である。そして、メッセージは、
それに合った音声リプレイソフトウェアパッケージ(例えばマイクロソフトサウ
ンドレコーダー)を使ったコンピュータのスピーカーを通してリプレイされる。 【0074】 TTSシステム 好ましい実施形態として、ハイブリッドTTSシステムは、テキストベースメ
ッセージを音声フォーマットメッセージに変換するのによく使われる。ハイブリ
ッドTTSシステム(例えばフェスティバル)は、制限されたドメインスロット
と、ユニットセレクションTTSシステムと合成TTSシステムとからなるフィ
ラーTTSシステムとを結合する。制限されたドメインスロットとフィラーTT
Sシステムは、制限されたドメインに優れた音質を与える。ユニットセレクショ
ンTTSシステムは、広範囲のドメインに非常によい音質を与える。しかし、録
音された音声データの大きいセットを必要とする。合成TTSシステムは、通話
要素(例えば、二重音声)録音の小さいセットから無制限のテキストドメインま
で非常に広く供給するが、より低い音質に悩まされる。ユニットセレクションT
TSシステムは、連鎖TTSシステムの強化された型である。それによって、そ
のシステムは、テキストの望ましい音声と韻律的な構造がよく合ったことばを録
音する大きい(あるいは小さい)セクションを選択することができる。 【0075】 連鎖或いは合成TTSシステムは、ハイブリッドTTSシステムの代わりとし
て使用することができるのは評価すべきである。好ましい実施形態では、ハイブ
リッドTTSシステムのおのおのの構成の活動は、おのおののテキストメッセー
ジ変換にとって可能な限り最も良い音質を与えるために最適化される。 【0076】 連鎖TTSシステム 好ましい実施形態として、連鎖TTSシステムは、ハイブリッドTTSシステ
ムの代わりとして、テキストベースメッセージを音声フォーマットメッセージに
変換するのに使われる。この過程において、テキストメッセージは、独特の言葉
やフレーズをメッセージに含む“サポートされた言語ベース“と呼ばれるデータ
ベースのうち独特の索引にデコードされる。その時、特性TTSシステムは、サ
ポートされた言語ベースからおのおの独特の言葉やフレーズと、選ばれたキャラ
クタ或いは選ばれたキャラクタの声の物まねを前もって録音しておいた音声フォ
ーマットサンプルと呼ばれる完全な通話メッセージを表現する単一の音声フォー
マットサンプルと一緒にこれらのサンプルを加えた連鎖を抽出するためにこれら
の索引を使用する。 【0077】 特性TTSシステムのソフトウェアは、オプションとして、個々の音声フォー
マットサンプルや音声フォーマットメッセージの明瞭さと自然さを増すための音
声フォーマットサンプルのシーケンスの実行プロセスを行ってもよい。むしろ、
そのプロセスは、最終の音声フォーマットメッセージが録音された通話音声フォ
ーマットメッセージと、完全な音声フォーマットメッセージが自然な音を出すこ
とができるように、これらのサンプルの間のギャップとしてレートを改善する音
律調整アルゴリズムを含むようにしてもよい。他のオプションプロセスステップ
としては、テキストメッセージの文法構造と話されたメッセージのピッチの連続
的な変化とオプションとして自然な言葉とぴったり合う韻律とを解析する音調ア
ルゴリズムを含む。 【0078】 合成TTSシステム ハイブリッドTTSシステムが好ましい間は、合成TTSシステムもまた使用
可能である。 【0079】 合成TTSシステムは、TTSシステムによって理解されるフレーズやセンテ
ンスの範囲を増すための音声と文法のプロセスとしてのアドバンストテキストを
使用する。合成TTSシステムは、連鎖TTSシステムが行なうよりも、より小
さい範囲の前もって録音した言葉やフレーズを頼りにするが、むしろ、選ばれた
キャラクタの声と個々の音素或いは二重音声録音の蓄積された理論上のモデルを
基にした音声出力を合成する。 【0080】 図1は音声メッセージを生成するために使用されるシステムを示す。このシス
テムは、一般に、通信ネットワーク4を含む。この通信ネットワーク4はインタ
ーネット、或いは例えばメッセージ発信者により使用されるコンピュータ処理手
段6に接続するためのPSTNと、メッセージの受信に使用されるコンピュータ
処理手段8と、記憶手段12或いは外部に結合されたデータベース14を備えた
サーバ手段10とを含む。通常、ユーザがバックグラウンドの効果、或いはよく
知られたキャラクタの声を含んだメッセージを送信したい場合、選ばれたよく知
られたキャラクタの声として録音された音声要素と一緒にメッセージの一部或い
は全て置換し、またテキストを音声に変換するため組み込まれたテキスト音声変
換ユニットを備えたサーバ手段10に送信されるコンピュータ処理手段6にメッ
セージをタイプする。これらの録音は、メッセージの挿入のためのバックグラン
ド効果と一緒にデータベース14或いは記憶手段12に記憶される。その後、音
声メッセージは、端末8に通信ネットワーク4を介してemailとして或いは電話
機16に音声メッセージとして受信者に送信される。一方、他の音声メッセージ
は、移動電話機20或いは携帯コンピュータ処理手段22或いは音声ファイルと
してプレイバックするPDA(パーソナルデジタルアシスタント)24の受信者
として移動通信ネットワーク18を介して送信されてもよい。ネットワーク18
は、ゲートウェイ(例えば、SMS、WAP)を介して通信ネットワーク4に接
続される。メッセージ或いはグリーティングの送信者は、音声メッセージをバッ
クグラウンド効果のある、なし、または韻律のある、なしの有名なキャラクタの
声の音声メッセージに変換されるテキストメッセージに変換する音声認識手段を
有したサーバ手段10にメッセージを届けるために電話機26を使用してもよい
。それから受信者としての端末8、或いは16、或いは携帯電話機20、22、
24に送られる。一方、メッセージ送信者は、携帯電話機28或いはPDA30
或いは移動通信ネットワーク18に接続されたコンピュータ処理装置32より、
SMSを使ったメッセージを作成してもよい。一方、音声メッセージは、携帯電
話機28を使って作成されてもよい。そして、メッセージの全ては上記概説した
サーバ手段10に送られる。 【0081】 基本テキスト検証システム(TVS)の記述 実施形態の特徴は、テキストメッセージ内の単語または句が、文字TTSシス
テム内のオーディオ音声形式に変換可能であることを検証することができること
である。これは、連鎖TTSシステムを使用する実施形態にとって、特に重要で
ある。連鎖TTSシステムは、一般に、テキストを、記録されたオーディオ口語
単語のデータベースと一致する単語の部分集合に対するオーディオフォーマット
メッセージに変換するだけであると言える。すなわち、連鎖TTSシステムは、
有限の語彙を有している。 【0082】 好ましい実施形態は、テキスト検証システム(TVS)を含んでいる。TVS
は、テキストメッセージが完結している場合、または「進行中で」(一単語ずつ
)ある場合、テキストメッセージを処理する。このようにして、TVSは、適切
なスピーチ単位のオーディオ記録に対するテキストメッセージ中の各単語または
各句をチェックする。適合するスピーチ単位がある場合は、単語はサポートされ
た単語として参照され、そうでない場合は、単語はサポートされていない単語と
して参照される。TVSは、好ましくは、サポートされていない単語または句を
、似た意味のサポートされている単語に代える。 【0083】 これは、自動的に実行され、その結果、ほとんどすべてのテキストメッセージ
はオーディオフォーマットメッセージに変換される。オーディオフォーマットメ
ッセージにおいては、オーディオフォーマットメッセージで話された全ての単語
は、テキストメッセージの単語として同じ文法的な意味を有している。 【0084】 デジタルシソーラスがベースになっているテキスト検証システム(TVS) 別の特徴は、オプショナルのテキスト検証システム(TVS)に使用されるメ
カニズムに関連する。好ましい実施形態では、この機能はシソーラスがベースに
なっているTVSによって実行される。しかしながら、TVSのほかの形式(た
とえば、辞書がベースになっているもの、サポートされた単語ベースがベースに
なっているもの、文法処理がベースになっているもの)も使用される。 【0085】 シソーラスベースのTVSは、好ましくは、ひとつもしくは2つ以上の大きな
デジタルシソーラスを使用する。シソーラスベースのTVSは、好ましくは、 インデックスを、テキストメッセージ中のサポートされていない各単語に対して
選択されたデジタルシソーラスの単語ベースにつくりかえる。TVSは、その後
、好ましくは、サポートされていない単語を見つけるために、シソーラスに索引
を付ける。TVSは、その後、サポートされていない単語に対するシソーラス収
録語によって参照される類義語にもとづいて等価な単語の初期リストを作成する
。TVSは、その後、好ましくは、文字TTSシステムを動かそうとするように
適合された、または文字TTSシステムに含まれているソフトウェアを利用する
。そのソフトウェアは、内部リストにサポートされている単語があるかをチェッ
クするために使用される。内部リストに1つまたはそれ以上の単語が、サポート
されている単語である場合は、TVSは、好ましくは、テキストメッセージ中の
サポートされていない単語をサポートされている単語のうちの1つに変換する、
またはその代わりに、内部リストに含まれている全てのサポートされている単語
を、ユーザに選択させるためにユーザに表示する。 【0086】 内部リストにサポートされている単語がない場合は、TVSは内部リストの各
単語を、デジタルシソーラスに戻すインデックスとして使用し、好ましくは、オ
リジナルの内部リスト内の各単語と同様な意味を有する単語の第2に大きい内部
リストを生産する検索を繰り返す。このように、TVSは、サポートされている
単語が見つけ出されるか、もしくはいくつかの選択可能なサーチ深さを越えるま
で、サポートされている単語に対してその検索を拡張し続ける。所定のサーチ深
さを越えた場合は、TVSは、好ましくは、等価な単語が見出されなく、かつ、
サポートされていない単語の代わりに新しい単語を入力するようにユーザに促す
ことをユーザに知らせる。 【0087】 つぎの事項を銘記しておく。すなわち、TVSによる処理に先んじて、テキス
トメッセージ中の各単語の正しいスペルが重要であり、スペルチェックしてスペ
ルを直す機能が、ソフトウェアの一部として、または好ましくはTVSの一部と
してオプショナルで含まれている。 【0088】 オプショナルで、TVSは、たとえば、カラー符号化またはほかの強調手段に
よって、テキストメッセージ中のサポートされていない単語を強調して示す映像
的なフィードバックをユーザに提供することが可能である。サポートされている
単語オプションは、好ましくはサポートされている単語のドロップダウンリスト
によって、TVSによって交換しようとしたサポートされていない単語に最も適
合すると決定されたサポートされている単語をオプショナルで強調して示しなが
ら、サポートされていない単語ごとにユーザに表示することが可能である。 【0089】 ユーザは、その後、各ドロップダウンリストからサポートされている単語を選
択し、オリジナルのテキストメッセージ中のサポートされていない各単語に対す
るユーザの選択を利用して、ソフトウェアにオーディオ会話処理を完了するよう
に指示することができる。 【0090】 つぎの事項を銘記しておく。すなわち、TVSシステムおよび文字TTSシス
テムの改良された結果は、テキストメッセージ、および共通の句および単語グル
ープ(たとえば、“will go”、“to do”、“to be”)を含むように拡張され
ているデジタルシソーラス、ならびに、そのような句および単語グループに含ま
れている前記サポートされている単語ベース中に含まれている文および句のいく
つかの文法的な処理を与えることによって、得ることが可能である。ここで、そ
のような句および単語グループはサポートされている句と呼ばれている。 【0091】 この場合、TVSシステムおよび文字TTSシステムは、単語レベルでサーチ
を実行する前に、最初にサポートされている句または類似の句を見つけようと試
みる。すなわち、サポートされている単語、および、サポートされている単語ベ
ースの文脈内でサポートされている単語を使用することは、句を含むように拡張
され得る。 【0092】 TVSの向上 さらなる特徴は、TVSの内部のマルチプルシソーラスに対して規定される。
シソーラスは、1つまたは複数の特別な効果を生み出す特定の単語および句に向
かってサーチを偏らせるように独立に設定されている。文字TTSシステムは、
本実施形態で、単語ベース内のサポートされている単語が慎重にマッチするよう
にではなく、むしろ等価なサポートされている単語にマッチングさせるためにT
VSに送られるように、オプショナルで設定されている。効果的な例は、「ヒッ
プポップ」であろう。ここで、ユーザがテキストメッセージを“Hello my frien
d. How are you?”のように入力した場合、TVSのヒップホップ効果方法はこ
のテキストメッセージを“Hey dude. How's it hanging man?”に変換する。そ
の後、文字TTSシステムはこの第2のテキストメッセージを口語の等価なオー
ディオフォーマットメッセージに変換する。 【0093】 追加される効果は、異なった選択可能な複数のシソーラスを付加することによ
って、シソーラスベースTVSを使用することにより達成される。ここで、各シ
ソーラスは、ある特別な望ましい効果(たとえば、ラップ、ネットトーク(Net
Talk)等である)に特化された単語および句を含んでいる。 【0094】 好ましい言語 テキストメッセージが入力される言語で、アメリカナイズされた英語などの話
された音声言語が標準的な英語の変形である言語。もちろん、ほかのどんな言語
でも使用可能である。 【0095】 ある言語のメッセージを他の別の言語のメッセージに変換するために、いくつ
かの実施例では言語変換システム(LCS)を用いることができる。従って、キ
ャラクタTTSシステムは、対象言語で話している1人あるいは複数のキャラク
タの声のサンプルの支援語彙ベースを含むように構成されている。 【0096】 従って、ユーザは、メッセージをある言語から他の別の言語に変換することが
できる。その際、当該メッセージは、後に、第2の対象言語の文化においてよく
知られているキャラクタ、すなわち、有名人の声を表したオーディオフォーマッ
トメッセージに変換される。 【0097】 さらに、この実施例のいずれかに記載されている音声認識(SR)システムは
、その特徴から、ユーザが当該SRシステムを通じて、第1の言語のユーザのメ
ッセージを録音したり、復号したりすることにより、ユーザに第1の言語のテキ
ストメッセージを作成させるフロントエンドを提供するために用いることができ
る。このテキストメッセージは、LCS、キャラクタTTSシステム、選択的に
上記TVSにて処理される。これにより、ユーザ本人の声でメッセージを話し、
その話されたメッセージを別の言語の同じメッセージに変換することができる。
従って、ユーザ本人の声のメッセージは、よく知られたキャラクタ、すなわち、
有名人(例えば、フランス語の場合、フランス人俳優のジェラルド・デパルデュ
)が話した外国語のメッセージに変換することができる。もちろん、上記システ
ム文脈において、この外国語への変換は、Eメールやその他のメッセージシステ
ムで、外国語のメッセージのEメールを送受信する際にも用いることができる。 【0098】 図2に、このような言語変換のための処理の一例を示す。具体的には、ステッ
プ40において、ユーザがメッセージを作成しようとするときには、ステップ4
2においても、母国語でメッセージのテキストをタイプすることができる。この
場合、直ぐに、サーバ手段10に存在する言語変換プログラムに処理が移り、ス
テップ44において、このプログラムにより、入力されたテキストの言語が第2
の言語、すなわち、通常は受信者の母国語に変換される。これに代えて、メッセ
ージ送信者は、ターミナル26を用いてサーバ10に電話をかけて、ここに、ユ
ーザは、口頭でメッセージを入力すると、このメッセージは音声認識ユニット4
6により認識され、ステップ48にてテキストに変えられる。そして、ステップ
44において、受信者側の言語に変換される。双方からの処理の流れは、ステッ
プ50へ進み、ここで、受信者側の第2の言語のテキストは、バックグラウンド
サウンド効果も含み得るスピーチであって、よく知られたキャラクタの声による
スピーチに変換される。一般的に、このスピーチは、受信者の話す言語すなわち
受信者の国の国語である。その後、任意的に、ステップ52でTVSユニットに
渡されると、ステップ54で、受信者に受信される。 【0099】 人間的でない、ユーザにより作り上げられた言語 いくつかのキャラクタは、(例えば、ポケモンモンスターのように)人間の言
語として認識しがたい言語をもっていてもよい。好ましい実施形態におけるシソ
ーラスに基づくTVSとキャラクタTTSシステムは、対象のキャラクタ向けに
造られた言語のオーディオサウンドを生成するために、テキストメッセージが処
理され得るよう構成されていてもよい。 【0100】 さらに、他の特徴として、キャラクタTTSシステム内に、ユーザによりカス
タマイズ可能な支援語彙ベースを提供するようにしてもよい。カスタマイズ可能
な支援語彙ベースは、ユーザに、カスタマイズ可能な支援語彙ベース中のどの語
彙が支援語彙であるのかを定義させるための手段と、支援語彙ベース中に各支援
語彙について、それに適したスピーチの記録を提供するオーディオフォーマット
スピーチサンプルを、ユーザに支援語彙ベースにアップロードさせるための手段
とを有する。このオーディオフォーマットスピーチサンプルは、ユーザ自身の声
あるいは、他のソース(例えばテレビシリーズの記録)から抽出されたオーディ
オフォーマットサンプルでもよい。 【0101】 これにより、ユーザあるいは複数のユーザの代理としてのエージェントに、人
間らしくない、あるいは人間のものに近い言語で、彼らのキャラクタを選択ある
いはデザインさせることができる。すなわち、キャラクタにより話される言語の
全体のオーディオサウンドをデザインあるいは記録させて、キャラクタがそのキ
ャラクタ自身の言語としての正しいシーケンスのせりふが話せるよう、テキスト
メッセージ内でユーザが使用する、キーとなる人間の言語の語彙、フレーズ、セ
ンテンスを同定させることができる。 【0102】 例を用いて、有名なポケモンキャラクタのピカチュウを考える。ピカチュウは
、それ自身の名前の複数のセグメントの異なる複数のイントネーションからなる
言語を話す。ユーザあるいはエージェント(例えばポケモン作者)は、支援語彙
ベースを有するエンボディメントと、それに対応する以下のようなオーディオフ
ォーマットスピーチサンプルを構成してもよい。 【0103】 Hello 「ピーカ」 I 「ピピピピー」 Will 「カーカー」 Jump 「ピーチューチュー」 【0104】 ユーザが、“Hello、I will jump”玩具うテキストメッセー
ジを入力すると、キャラクタTTSシステムは、「ピーカ ピピピピー カーカ
ー ピーチューチュー」なるオーディオフォーマットメッセージを生成する。さ
らに、TVSは、当該エンボディメントがオーディオフォーマットメッセージに
変換することのできる、TVSがないシステムよりもより広範囲なテキストメッ
セージを効率よく提供する。ユーザが、“Wellcom, I want t
o leap”玩具うテキストメッセージを入力するとしたら、TVSは、この
テキストメッセージを“Hello、I will to jump”と変換す
る。その後、ユーザは、支援されていない語彙“to”を削除してもよい。その
結果として、前述したオーディオフォーマットメッセージと同じオーディオフォ
ーマットメッセージが生成される。 【0105】 すばやい韻律変換 テキストメッセージがTTSシステムにおいてボイスメッセージに変換すると
き、メッセージの韻律(ピッチと話す速度)は、前述した方法のうちの1つある
いは他の1つの方法により決定することができる。メッセージを話す速度は以下
のような要因により変化することは都合がよいことである。 【0106】 ユーザの知識レベル ユーザのネイティブアクセント すばやい応答の必要性 ネットワークがどのくらい混雑しているか(よりすばやい応答=より高いス
ループット) 【0107】 この特徴は、特に、電話音声(伝言ダイヤル)メニューシステム(例えば、双
方向ボイスレスポンス)すなわちIVRシステムと、それ以外の銀行業務、クレ
ジットカードの支払いシステム、株取引、映画情報ライン、天気予報などのアプ
リケーションをよく利用するユーザには特に当てはまるものである。ユーザの知
識レベルは、以下に示す手段あるいはこれらと同様な手段のうちの1つあるいは
いくつかの組み合わせにより決定することができる。 【0108】 処理における高速なメニュー項目の選択トランザクション ユーザによる“割り込み”要求の速さと回数 ユーザ識別子の記憶 【0109】 ユーザが請求書の自動支払い電話番号に電話をかけたら、有名なキャラクタの
声により案内される場合を考える。ユーザは、この声の案内に反応して、通常よ
り早い速度でキーをたたき、システムは、これに応じて声による案内をスピード
アップさせるので、ユーザがよりすばやくタスクを終わらせることができる。 【0110】 他の韻律生成方法 一般的に、TTSシステムにおいて韻律は、出力音声の適切なイントネーショ
ンとスピードを決定するために、テキストを分析し、言語的な規則を適用するこ
とにより算出される。正しい韻律モデルにより近くなるような算出結果を得るこ
とのできる方法の1つは前述した。前述した方法は、発言(台詞)と発言(台詞
)との間に求められるアプリケーションに適している。 【0111】 しかし、この方法には制限がある。韻律モデルが非常に重要であるが、ユーザ
が、例えば、webサイトナビゲーションあるいは音声バナー広告に統合するた
めに、固定テキストメッセージを慎重に構成することができるアプリケーション
の場合、韻律生成の他の方法(いわゆる韻律トレーニング)が用いられてもよい
。この方法では、韻律モデルは、ユーザが入力テキストを読むときのユーザ自身
の声の音声波形を分析することにより決定される。このユーザ自身の声の記録に
は、ユーザが入力テキストを読むときの、抑揚、速さ、感情キュー(cue)の
全てが含まれている。しかし、この状況において、TTSシステムへ入力するテ
キストを生成するために、音声認識エンジンを用いるより、音声認識エンジンか
ら出力されるテキストは廃棄される。これにより、TTSシステムに流れるテキ
スト中の明白な誤り率が低減できる。 【0112】 TTSシステムで用いるよりよい韻律モデルを生成するためのさらに他の方法
は、上記韻律トレーニング方法に類似するが、STSシステムに用いるのに適し
ている。STSシステムでは、TTSシステムによりキャラクタの声に変換され
るテキストを生成するために、ユーザの声の入力が要求される。ユーザのスピー
チの記録されているオーディオファイルは、その韻律モデルのために分析される
。この韻律モデルは、後に、上記のようなTTSシステムの韻律レスポンスを訓
練するために用いられるものである。この方法により、TTSシステムは、有効
に、ユーザのオリジナルのイントネーションと話す速度をまねることができる。 【0113】 TTSシステムに用いる、よりよい韻律モデルを生成するためのさらに他の方
法は、TTSシステムへの感情キュー(cue)を入力テキストに書き加えるこ
とを必要とする。そのようなマークアップ言語の1つとして、HTMLによく似
たSABLEがある。特定の強調や感情が要求されるスピーチに変換されるテキ
スト中の領域は、TTSシステムに、修正されなければ生成される韻律モデルを
修正するよう指示するエスケープシーケンスでマークされている。例えば、TT
Sシステムは、おそらく、“So where do you think y
ou’re going?”玩具うテキストメッセージ中の“going”玩具
う語は上がりピッチで生成する。マークアップ言語を用いて、TTSシステムに
,“you’re”玩具う語にはいやみな強調を加え、“going”玩具う語
には長く引き延ばした継続時間を与えて、下りピッチにする玩具う指示を与える
。このマークアップは、TTSとSTSの韻律生成フェーズに修正をする。この
韻律生成方法は、従来技術として存在する。が、新規な拡張としては、感情マー
クアップが実際のコーパス(コーパス(corpus)とは、記録スピーチデー
タベースを構成する全ての記録の言葉どおりのスクリプトである)と、異なる感
情のスピーチの記録に含まれており、記録スピーチデータベースが韻律において
数多くのバリエーションを有し、TTSがユニット選択アルゴリズムを向上させ
るためにコーパス中のマークアップを利用することができる玩具うことである。 【0114】 マークアップ言語 マークアップ言語は、ある特定のテキスト表現をある特定のキャラクタが読み
上げることができるようにするタグを含む。感情も、キャラクタボイスTTSシ
ステムに入力された、このマークアップテキスト内に表現することができる。感
情として、例えば次のようなものが含まれている。 【0115】 叫び 怒り 悲しみ やすらぎ 軽蔑 【0116】 テキストからスピーチマークアップ機能 上記方法に加えて、さらに、テキストメッセージをどのようにオーディオファ
イルに変換すべきかを示すテキストを書き込むために、ツールバー機能あるいは
メニューあるいはマウスの右クリックシーケンスが、テキストあるいは音声処理
が可能な1つまたは複数の標準デスクトップアプリケーションに含まれていても
よい。このツールバー機能あるいはメニューあるいはマウスの右クリックシーケ
ンスにより、ユーザは、テキストを読み上げるキャラクタ、用いる感情、例えば
、バックグラウンドエフェクトや胸のうちのなどのその他の注釈を強調(ハイラ
イトにする)するためにテキスト中のセクションを容易にマークすることができ
る。 【0117】 例えば、ユーザは、テキスト中のあるセクションをハイライトにするために、
ツールバーのキャラクタボタンを押し、ドロップダウンリストからキャラクタを
選択する。これにより、キャラクタTTSシステムに(当該セクション中の)の
語を選択したキャラクタの声で読み上げてもらうために適した(隠し)エスケー
プコード(エスケープコードと組み合わせて用いられるエスケープシーケンス)
をテキストに追加される。同様にして、テキストはハイライト表示され、読み上
げられるテキストの読み上げ速度、アクセント、感情、音量などを調節するため
にツールバーボタンが押される。(例えば、色やチャート、グラフなどによる)
ビジュアルコーディングにて、ユーザに、スピーチマーカがどこにセットされて
それらが何を意味するのかを示していてもよい。 【0118】 メッセージ拡張技術 追加された情報とともにテキストメッセージをコード化する方法に関するさら
なる側面は、キャラクタTTSシステムが、オーディオフォーマットメッセージ
に別の特徴を飾り付ける(付加する)ことを可能にする。このような付加には、
ボイスエフェクト(例えば“水中の”)、胸のうち(例えば“ばか、ばか”)、
(例えば、嘘をつく場面で表れるような)キャラクタを抽出したり切り替える埋
め込みされた歌が含まれるが、これらに限るものではない。この方法は、予め定
義されたキャラクタをキャラクタTTSシステムに与えるために、テキストメッ
セージ中にエスケープシーケンスを埋め込む必要がある。これにより、キャラク
タTTSシステムは、前記テキストメッセージを読み、キャラクタTTSシステ
ムの従来からある一般的な処理により解釈される特別なコードとしての前記エス
ケープシーケンスの間に含まれている文字列を読み込む。 【0119】 TTSシステムにより生成された、スピーチのオーディオストリーム中に予め
準備された表現を埋め込むことは前述した。埋め込む表現は、挿入(例えば、拍
手、“ド”など)されてもよいし、(例えば、話しながらの笑い、バックグラン
ドソングの引用など)ある時点に始まり、ある時間だけ続けられる、バックグラ
ンドノイズの一部分になる箇所、あるいはメッセージ全体に混ぜ込まれてもよい
。 【0120】 図3には、電話加入者が別の利用者へのメッセージを自分自身の音声で生成で
き、バックグラウンド音響効果を伴い、イントロおよびエンディングを含む有名
キャラクタ(well known character)の音声を生成できるようにするため用いるこ
とのできるシステムの一例が示されている。具体的には、センダは、移動電話2
00又はPSTN電話204のいずれかを用いる。両者は、通信網にリンクされ
ている。この通信網をPSTN204とすることができる。この場合、移動電話
200は、無線リンク208を介し、セルラー網206及び対応するゲートウェ
イ207(SMS又はWAPのいずれか)を経由してPSTN204にリンクさ
れる。このようにして音声メッセージ又はテキストメッセージのいずれかを送信
できる。PSTN204は、インテリジェント網210を通じて制御される種々
の信号を有する。PSTN204は、その一部分として、メッセージを受信する
ためのメッセージ管理センタ212と、バックグラウンド音響効果を伴う(有名
人の音声のような修飾フォームの)メッセージの作成をアレンジするサーバ手段
214とを備える。MMC212及びサーバ手段213のいずれか又は両者は、
メッセージ処理手段である。サーバ手段214は、メッセージの作成に先だって
、メッセージ管理センタ212からのリクエストを受信する。このリクエストは
、音声と、その他当該メッセージが持つべきエフェクト(効果)を詳細に示すも
のである。メッセージ管理センタ(MMC)212は、受信した可聴(Audio)
メッセージ又はテキストメッセージの一部を訂正する入力訂正データベース20
9と、メッセージ内のフレーズを訂正するフレーズマッチングデータベース21
1とを用いる。このMMC212は、SMSメッセージ又はユーザからのテキス
トメッセージを、これらがサーバ214に渡される前に可聴メッセージに変換す
るためのテキスト−スピーチ変換ユニットを備える。リクエストがサーバ手段2
14に受信されると、該サーバ手段214は、音響効果データベース215に格
納されているオーディオファイルを用いてバックグラウンド効果を伴うメッセー
ジを構築し、また、要求されたメッセージ型で正確なプロウジイディ(prosidy)
のキャラクタ音声を、キャラクタ音声データベース213を用いて構築する。こ
こで、オーディオミキサ221が用いられてもよい。利用者200が別の利用者
にメッセージを送信したい場合であって、この別の利用者が移動電話216又は
固定PSTN電話を用いているかもしれない場合、センダは、メッセージ管理セ
ンタ212でサービスプロバイダに接続する。ユーザIDおよびパスワードの確
認ののち、メッセージを記録し、そのメッセージに特殊なエフェクトを加えるた
めの詳細事項がステップバイステップ処理を通じて案内される。つまり利用者に
は、一般的にはIVRシステムを通じて、以下のサブジェクトに関するオプショ
ンが提供される。このサブジェクトは、 ・センダが居る環境の受信者に対しある印象を与えるもの、例えば、ビーチ、
戦場、スポーツ会場等である。これら特殊なシーケンスの記録は、サーバ手段2
14又はデータベース215のデータストア218内に格納される。そして、所
望のオプションが選択されると、これがメッセージセンタ212により記録され
、次に示すレスポンスと共にリンク219上のサーバ手段214に転送される。
このレスポンスは、 ・自分自身の音声が渡される有名音声を有名キャラクタの選択肢から決定するレ
スポンスである。かかる選択は利用者による電話機上の特定ボタンシーケンスの
押下によりなされ、これはメッセージセンタ212により記録され、後にサーバ
214に転送される。 【0121】 ・利用者が彼らのメッセージに特に組み入れることを望むイントロ及びエンデ
ィングとしては、これが有名音声で口述されるものであろうと、どのようなもの
が選択されてもよい。したがって、始まりと終わりをキャラクタ音声として用い
るか、それともユーザ自身がメッセージを預けることにより作成したもの(選択
したキャラクタの音声に後に変換される)とするかについて特定のスピーチシー
ケンスが選択され得る。 【0122】 全ての情報がメッセージ管理センタ212により記録されると、この情報はサ
ーバ214に転送される。サーバ214は、記録されたメッセージを抽出し、こ
れを、本発明のスピーチ・ツー・スピーチシステムを用い、データベース213
から選択したキャラクタに変換するとともに、データベース215から選択した
バックグラウンド効果を組み込む。このバックグラウンド効果は、メッセージと
、センダから要求されたイントロ及びエンディングとに重畳される。組み合わせ
メッセージとして、これは次にMMC212に渡されるとともに、自分の電話機
にストアされている受信者電話番号をユーザが選択すること、またはIVRに応
じた相手先電話番号を入力することによって最終的な受信者に渡される。あるい
は、受信者の番号を最初に入力してもよい。メッセージは、転送に先立ってレビ
ューしてもよく、必要であれば修正してもよい。そして、このメッセージは網2
04及び/又は206を通じて受信者の電話機に転送されて聴取され、あるいは
伝号サービス上のメッセージとして預けられる。 【0123】 キャラクタボイスの使用に代わるものは、全くボイスを使用するものではなく
、データ記憶手段218またはデータベース213に予め録音されて記録され、
前述のIVR技術を通じてユーザによって選択される“ハッピーバースデー”ま
たは“ハッピーアニバーサリー”玩具うようなグリーティングを単に提供する。
または、データベース213に録音されて記憶されている、いくつかのプロンプ
トを介してユーザにより選択されたトップ20の歌のリストを持つお気に入りの
ラジオ局から歌が選ばれてもよい。その後、サーバ214は、選択された歌にキ
ャラクタのボイスであってもよい任意のメッセージを加え、受信者に配信する。 【0124】 図4を参照すると、送信者の移動端末200上のテキストエントリのいくつか
の例が示される。スクリーン230は、“JOHN”および“MARY”に送ら
れるよう構成された、エルヴィスプレスリーのボイスでハローと悲しげに言うメ
ッセージを示す。スクリーン232は、エルビスのボイスで送信されるべき、楽
しく、かつバースデーのグリーティングであるメッセージを示す。スクリーン2
34は、サービスプロバイダによって構成され、エルビスのボイスで基本的にハ
ローと言い、それが“クール”であるメッセージを示す。 【0125】 図5において、本発明に含まれる主流なプロセスを示すフローチャートが示さ
れる。ステップ250において、電話加入者は新しいメッセージを作成すること
を望むか、もしくはステップ252においてサービスプロバイダにコンタクトす
る。その後、ステップ254において、加入者は彼らのユーザIDとパスワード
ディテールを認証する。ステップ256において、加入者は管理上の変更をなす
ことかメッセージを準備することのどちらが必要であるか尋ねられる。管理上の
変更又は動作が必要な場合には、プロセスはステップ258に進み、ここでユー
ザは、登録し、質問し、ユーザグループのニックネーム作成し、レシーバグルー
プを作成し、又は請求書発行の管理をなすことができる。ステップ260におい
て、ユーザはメッセージを送信するかどうかが促される。メッセージの送信が希
望された場合、プロセスはステップ262に進む。ステップ262へはステップ
256からも進むことができる。ステップ262では2つのうちどちらかの流れ
に進むことができ、その一方は“スタティック”経路であり、他方は“インター
ラクティブ”経路である。スタティック経路は一般的に、送信されるべきだがア
クションをレビューする機会を得ていないオプションをユーザが選択するがゆえ
に、双方向プロセスが、例えばユーザがメッセージを聴取し変更することが可能
なIVRであるような経路である。このように、スタティックプロセスが要求さ
れる場合、プロセスはステップ264に進む。ステップ264ではアプリケーシ
ョンおよびデリバリプラットフォームが抽出され、ステップ266において、構
成されたメッセージがデコードされ、ステップ268で宛先がデコードされる。
その後、ステップ272において、構成されたメッセージとデコードされた宛先
情報に基づいて出力メッセージが生成され、ステップ274で受信者に配信され
る。これにより、受信者はステップ276でメッセージを受信して聴取する。そ
の後、受信者にはステップ277でこのメッセージと対話するか、このメッセー
ジに応答するか玩具う選択肢が与えられる。この動作は、ステップ254に戻さ
れることによってなされてもよい。ステップ254において新規のメッセージを
作成することができ、準備された応答又は他のユーザに対して転送された受信メ
ッセージもまた作成することができる。インタラクションが要求されなかった場
合、プロセスはステップ279でストップする。 【0126】 ステップ262からインターラクティブ経路が選ばれた場合、プロセスはステ
ップ278に進む。ステップ278において、アプリケーションおよびデリバリ
プラットフォームの選択が実行される。メッセージはステップ280で構成され
、ユーザはステップ282においてこのメッセージのレビューを望むかどうか促
される。ユーザがレビューを望まない場合、プロセスはステップ284に進み、
ここで、宛先、受信者、番号/アドレスが選択される。その後ステップ272で
出力メッセージが生成され、ステップ274で配信され、ステップ276で受信
者によって受信され聴取される。ステップ282でメッセージをレビューするよ
う要求された場合、ステップ286において、サーバ214またはMMC212
、およびボイスデータベース213を用いて、レビュープラットフォーム用出力
メッセージが生成される。メッセージはステップ288でレビューされ、ステッ
プ290で承認されるか、さもなければステップ292で再び構成される。 【0127】 移動電話器端末またはPSTN電話器端末上でのテキストの入力に関しては、
メッセージは、電話通信プロバイダからユーザに送信されたテンプレートを使用
して容易に構成される。移動体通信において、ショートメッセージサービス(S
MS)は160文字までの長さのショートテキストメッセージと、図6で示され
るように、SMS環境においてボイスメッセージの構成を容易に入力することが
できるテンプレートを送受信するために用いることができる。図6で示される例
において、テンプレートは移動電話器のスクリーン上に現れ、SMSテキストメ
ッセージの160文字フィールドは、メッセージの開始におけるガードバンド3
00とメッセージの終わりにおけるガードバンド302に分けられる。これらの
ガードバンド間にいくつかのフィールド(この例では7つのフィールド)が存在
し、第1のフィールド304は加入者の名前を提供するのに用いられ、第2のフ
ィールド306では受信者の電話番号が示され、第3のフィールド308ではキ
ャラクタのボイス、第4のフィールド310では送信されるべきメッセージのタ
イプ、第5のフィールド312ではメッセージのスタイル、第6のフィールド3
14では使用されるべき任意の背景効果がそれぞれ示され、第7のフィールド3
16はメッセージの配信時刻を示すよう用いられている。フィールド314から
316のそれぞれにおいては、図の拡張された部分に示されるように、いくつか
のチェックボックス318があっても良く、これらのボックスは、送信者が構成
したいメッセージのタイプの様々な部分を示すために送信者によって使用される
。ユーザは、フィールド内の自分が使用したいいくつかのオプションを示すボッ
クスにXマークまたはチェックマークをつけさえすればよい。例えば、送信者は
、フィールド304のMaryによって、受信者Davidの電話番号に、エル
ヴィスプレスリーのキャラクタボイスで、ビーチの音の背景効果を持つ楽しいバ
ースデーメッセージを付けたメッセージを、午後11時から午前0時の間に送信
したいと示す。前述のように、このタイプのメッセージをどのように構成するか
に関して、様々な指示が電話通信プロバイダによって提供される。メッセージが
構成された後、ユーザは自身の移動電話器端末上の送信ボタンを押すだけでよい
。指示されたメッセージはMMC212によって受信され、ボイスに変換されて
、サーバ手段214に送信され、その後、受信者に送信される。サーバ214で
は、データベース213に記憶された特定のキャラクタボイスを使用するための
メッセージを構成する。サーバは、構成されたメッセージ中のXマークがつけら
れたり、チェックされたオプションを効率よく取り除き、テンプレートで用いら
れた他のスタンダード情報またはスタティック情報は無視する。 【0128】 あるいは、図6で示されたような電話通信プロバイダによって供給される標準
フォーマットに準拠することなく、単に加入者自身によってテンプレートが構成
されても良い。 【0129】 一組のテンプレートは、メッセージの一部分としてか、受信者が「どうしたの
か?」と問いかけをしたときかどちらかにユーザ間で送信される。 【0130】 それゆえに、メッセージをどのように構成することができるか及びテンプレー
トを使用してどのように送信することができるかを示すために、ユーザ間で知識
が送信される。 【0131】 メッセージの一部分の構成として、ユーザ自身のテンプレート又は自身で工夫
したテンプレートを使用して、タイプ入力されたあらゆる自然言語の文章は、図
5に示すステップ264と266又はサーバ手段14を使用するステップ278
と280により選択的に処理される。 【0132】 それゆえに、音声メッセージは、マッピング処理により受信者に送付され、そ
れによって、音声入力された文章は、速記用のテンプレートから音声メッセージ
のように変換される。 【0133】 サーバ手段14は、あらゆる制御要素を包含する使用されているテンプレート
の符号化を決定することができる。 【0134】 例として304から316の各領域は、サーバ手段214又はメッセージの特
徴部分を構成する部分若しくは受信者の電話番号及び送信時刻のような他の特徴
を表現するためのMMC212により考案され、かつ、確保されている。 【0135】 サーバ手段(又は選択的にMMC212)は、例えば声、エルビスがエルヴィ
スプレスリーと特定でき、ビルがビルクリントンと特定でき、又は例えばBD玩
具うメッセージの型がBirthday、LU玩具うメッセージの型がlove youである
と特定するのに、テンプレートの構成の範囲内で適切な単語の辞書を決定するこ
とができる。 【0136】 メッセージの受信者は、SMSメッセージを編集することができる。また、メ
ッセージの受信者は、送信者に対する応答として、又は友人や他のユーザにSM
Sメッセージを送信することができる。 【0137】 これは、例えば怒りのメッセージを戦争の音響効果を背景として用いて処理し
たり、送る度ごとに異なった特徴の声を用いたりして処理される玩具った、メッ
セージを再送するために必要とされるいかなる形態であっても、サーバ手段によ
り変換される。 【0138】 予め定められたメッセージが選択可能に、ユーザの電話器に記憶されている。
それによって電話器のキーの何れかを押すことによって電話器本体の有するメモ
リからメッセージが読み出されうる、また、受信者に送信するメッセージの構成
の一部分として使用されうる。 【0139】 効果は、録音再生時に何度でもメッセージに付加することができる。また、効
果は、メッセージの範囲内で電話器のキーを操作しているどの時点でも付加する
ことができる。例えば、メッセージの各文の最後の部分で特定の背景効果や音声
が追加されうる。 【0140】 前述したSMSメッセージを使用する概念の一例として、アメリカンフットボ
ールの試合中の誰かが携帯電話を使用してSMSテキストを競技場にいる友人に
メッセージを送信することができる。 【0141】 彼らは、単に「team、boo」玩具う言葉と受信者の電話番号とを入力すること
ができる。 【0142】 メッセージが処理された後で、受信者は、有名な選手の声で「かわいそうな君
のチームは、20点差で負けており、今やどうやっても君のチームが勝利するこ
とはできない」と背景の音響効果を伴った音声メッセージを受け取ることになる
。 【0143】 受信者は、これに対抗し、1つないし2つの携帯電話のボタンを押すことによ
って、直ちに適切な応答を構成し、当該応答を送信することができる。 【0144】 前述したように、受信したメッセージを編集するか又は新規にメッセージを構
成するかを選択することができる。 【0145】 上述した概念は、同様にインターネット(通信ネットワーク204)を通じた
使用に適用可能である。 【0146】 それによって、携帯可能な装置200又は同等のPDA若しくはコンピュータ
端末は、全てWAPを実装可能であり、メッセージを入力でき、メッセージをサ
ーバ手段214に送信し、メッセージを構成し又は特定の受信者向けの音声メッ
セージに変換する。 【0147】 回線加入者によって作成された私的なメッセージは、多数の受信者に対してブ
ロードキャストされうる。それによって、署名者は、図5に示すステップ258
の通りに特定のグループの各々の電話番号を入力する。通信ネットワークを通じ
てかウェブサイトを経由したインターネットを通じてかの何れかによってこれは
なされる。 【0148】 特徴的なタグ、すなわち識別子がジョークのようなメッセージが送信されうる
グループを識別するのに用いられている。そしてMMC212とサーバ手段21
4がメッセージを受け取り、当該MMC212とサーバ手段214とがグループ
のメンバーのうちの一人を選び出す目的のため、IVRを経由して送信された目
的データを複号する。 【0149】 これは、本質的に、単発のメッセージから全ての呼出しを作成するウィルスの
伝達技術である。 【0150】 受信者の各々に送信されたメッセージのため、このようなメッセージは、他の
メッセージとして再構成されうる。 【0151】 このようなメッセージは、同一グループ内の他のユーザ又は応答したユーザの
グループに送信される。 【0152】 図7は、サーバ手段214からMMC212を通じて当該携帯型の端末のユー
ザに、予め調整された表現352に基づいて各々のドロップダウンメニュー35
0を含むメッセージを構成するのを許可するための手段としての各々の携帯型の
端末200まで典型的に送信されるであろう一連のドロップダウンメニュー35
0である。 【0153】 それゆえに、ユーザがしなければならない全てのことは、強調させること若し
くは各ウィンドウ内で、文章又は一人の他者若しくは多数の受信者に渡すための
多数の表現を構成するためのドロップダウンメニューから特徴的な表現を選別す
ることである。 【0154】 これは、インターネットを介して選択的になされ得る。それによってWAPが
実装可能であるコンピュータ端末又は携帯電話若しくはPDAにより同一のメッ
セージを構成してもよい。 【0155】 その時、入力されたメッセージは、上述したような手法により音声メッセージ
に変換するMMC212により処理され、そして送信される。 【0156】 各メッセージには、背景音又は前述した表現のような他の効果を包含させるこ
とができる。 【0157】 スクロールバー354は、多数の任意の語句又は文若しくはメッセージを構成
する部分を通してスクロールするものが用いられる。 【0158】 本発明の他の実施例は、よく見られ、そして、特定のキャラクタによってある
単語が口から発せられることが許可されない玩具う点で管理された、有名なキャ
ラクタによって口から発せられる単語または表現に従ったシステムである。特定
の文脈においては、何人かのキャラクタは、ある単語、または、あるフレーズを
言わないであろう。例えば、特定の個性は、別のブランドや別のキャラクタ、ま
たは、別の個性について話すことを除外するブランドを取り扱うスポンサーを有
しているかもしれない。または、それらの声が特定の状況において、ある単語を
言わないことを保証することを願っているかもしれない。 【0159】 図8に示すのは、一つの単語またはフレーズが、選択されたキャラクタによっ
て話されないときと関連するプロセスを示すフローチャートである。ステップ5
02では、禁止リストがデータベース211、またはサーバ手段214のストレ
ージ手段218であってもよい、データベースの中のキャラクタまたは個性に対
して設立される。このデータベース211には、選択されたキャラクタによって
口から発せられない単語または表現のリストが含まれている。ステップ504で
は、ユーザが単語またはフレーズを入力し、ステップ506では、特定の単語ま
たはフレーズを言うためのキャラクタまたは個性を選択する。ステップ508で
は、サーバ手段が単語またはフレーズが特定のデータベース211中のキャラク
タまたは個性の禁止リストに反する単語またはフレーズをデータベースの中でチ
ェックする。ステップ510の質問では、その単語またはフレーズが特定のキャ
ラクタに対するデータベース中の禁止リスト中に存在しているかどうかが確認さ
れる。そして、存在しているならば、その単語またはフレーズがOKでないこと
に対する禁止フラグがセットされる。これはステップ512で行われる。単語ま
たはフレーズが特定のキャラクタに対する禁止リスト中に存在していないならば
、そのとき、ステップ514でその単語またはフレーズがOKであることに対す
る禁止フラグがセットされる。ステップ512の後は、データベース209の一
部分に形成されたデジタル類義語辞典からの代用の単語またはフレーズが検索さ
れ、ステップ516で発見され、そして、テキスト形式のメッセージ(オーディ
オメッセージ)の中で使用される。そして、プロセスは、ステップ508に戻る
。ステップ514のとおりに禁止フラグがOKであるならば、そのとき、そのプ
ロセスは継続する。そして、その単語またはフレーズがメッセージの中で使用さ
れる。そして、ステップ518に伝えられる。 【0160】 図9に示すのは、自然言語の入力のオプションをユーザと自然言語インターフ
ェイス(NLI)との間のセッションを設立するためのターミナル上のドロップ
ダウンメニューから入力または選択することができるユーザに従った自然言語変
換システムが使用されるプロセスのステップである。これはステップ550によ
って与えられる。その後、ステップ552では、NLIがアプリケーションまた
はユーザ固有のプロンプト/質問エンジンをロードする。そして、NLIはステ
ップ554で、自動化された音声によるプロンプトによって、自然言語によるユ
ーザ入力に対する注意をだす。そうして、ステップ556では、ユーザは、質問
をするかまたはコメントを作成するように指示されるだろう。その後、ステップ
558でNLIは自然言語によるユーザ入力を処理し、そして、正常化されたテ
キスト結果を決定する。そうして、ユーザからの自然な疑問が、例えば、サーバ
手段214中のメモリ位置にセットされるかまたは格納される予め定義された応
答に変換される。ステップ560の質問ではメッセージの解釈を続けるのに十分
な情報が存在しているどうかに関して質問される。答えがイェスであるならば、
ステップ561で“続行”フラグが“OK”にセットされる。そして、ステップ
562で、正常化されたテキストを用いるユーザの入力の変換がメッセージを作
成するために続行する。メッセージの解釈を続けるのに十分な情報が存在してい
ないならば、そのときは、ステップ563で、“続行”フラグが“OKでない”
にセットされる。そして、プロセスは、自然言語のユーザの入力に対するさらな
るプロンプトのためにステップ554に戻る。上位のシステムまたはインターフ
ェイスは遠距離通信システムまたは他の自由な形式の相互形式のテキストに基づ
いているシステム、例えば、eメール、チャットまたはインターネットによる音
声システム、を介して行われる。 【0161】 図10に示すのは、スピーチインターフェイス(SI)を用いてメッセージを
構成するためのユーザによって用いられるプロセスのステップである。ユーザは
、電話法によるシステムまたは質問に対する応答を入力するであろう他の不自然
な相互形式のテキストに基づくシステムによってインターフェイス接続するであ
ろう。そして、そのような応答を、既に説明した技術によってさらにメッセージ
に変換するために正常化されたテキストに変換するであろう。そうして、ステッ
プ600では、ユーザと、サーバ手段214またはMMC212の一部に存在し
てもよい、スピーチインターフェイスとの間にセッションが設立される。ステッ
プ602では、スピーチインターフェイスがアプリケーションをロードするか、
または固有のプロンプト/質問エンジンを使用する。そして、ステップ604で
は、スピーチインターフェイスは、ユーザに自動化された音声プロンプトによっ
て、不自然言語によるユーザ入力に対する注意をだす。ステップ606では、ユ
ーザは、不自然言語によるユーザ入力を与える。そして、ステップ608ではス
ピーチインターフェイスは不自然言語によるユーザ入力を処理し、そして、これ
から、正常化されたテキストを決定する。 【0162】 不自然言語によるユーザ入力を含む例は、次の質問と答えのシーケンス: Q:どこか旅行にいきませんか? A:メルボルン または A:私は火曜日にメルボルンに行きたいのですが。 または A:ユーザは言う:“私は、エルヴィスプレスリーの声でバースデーメッセ
ージを作りたいです。” 受信した情報に基づいて、MMC212またはサーバ214は、メッセージを
続行させることができるかどうかを格納されたフレーズや単語から決定する。 【0163】 ステップ610では、メッセージを続行するために処理された情報が十分であ
るかどうかの決定が、MMC212またはサーバ214によって作成される。与
えられた情報が十分でないならば、そのときは、ステップ614で、プロセスが
(ステップ613で“続行”フラグに“OKでない”をセットした後)ステップ
604(スピーチインターフェイスはさらに不自然なユーザ入力を注意するに戻
る。ステップ610から十分な情報が存在しているならば、プロセスは(ステッ
プ611で“続行”フラグに“OK”をセットした後)メッセージを作成するた
めに正常化されたテキストを用いるユーザ入力の変換を伴うステップ612へ進
む。 【0164】 次の節で述べる、見たものは聞いたものである(WYSIWYH)ツールによ
って、または、補助のボタンを押すことによって、メニューアイテムを選択する
ことによって、またはマウスの右クリックメニューなどによって正規の原文のデ
ータ入力の間に、表現を付け加えてもよい。表現情報はそのとき、キャラクタ音
声TTSシステムに送られたテキストの中のマークアップ(例えば、SABLE
またはXML)として置き換えられる。 【0165】 笑うこと、手をたたくこと、そして、非常に表現に富んだ状態が、埋め込むこ
とができる表現の例である。しかしながら、他の特質を進めた特徴を付け加えて
もよい。背景音には、いくつかの矛盾を隠すためのオーディオスピーチ信号また
はTTSシステムによって生成された不自然さを混合してもよい。例えば、ミュ
レー ウォーカー(F1解説者)の声によって特徴付けられたTTSシステムを
生成するためにプログラムされたシステムはF1カーのキーキー音を背景音に混
合してもよい。スポーツプレーヤー(例えば、モハメド アリのような)の個性
に対するキャラクタTTSシステムは、背景音に混合される、観客の声援の音、
パンチ音、カメラのフラッシュの音などを有していてもよい。エルヴィスプレス
リーに対するキャラクタTTSシステムは、背景音に混合される、音楽およびま
たは歌を有していてもよい。 【0166】 しかし、背景音は、制限されるものではなく、ホワイトノイズ、音楽、歌、人
の話声、通常の背景ノイズや、種々の音響効果を含むものである。 【0167】 生成したスピーチの聞くことの質の改善に関する技術の別の種類は、スピーチ
をゆっくり歪ませることが必要である。このため、自然な音声の合成の中の不完
全性は不自然な音声合成の中の不完全性よりも人間の耳に対して敏感である。2
つの方法は、スピーチが目標のキャラクタとして認識されるのに好ましい質を維
持する間の、スピーチの歪みに備えることができる。これら2つの方法のうち1
つ目は、出力オーディオ信号に前のプロセスのフィルタを適用することが必要で
ある。これらの前のプロセスのフィルタはいくつかの特別の効果(例えば、地下
水、やエコー、ロボットのような感じ)を生じる。2つ目の方法は、一つかそれ
以上のスピーチ波形の成分を形成または置き換えるためのTTSまたはSTSシ
ステム(例えば、音声や韻律のモデル)中のスピーチ信号の特質を用いるもので
ある。例えば、F0信号は、典型的な男性から典型的な女性(即ち、より高い周
波数)に周波数をシフトさせてもよいし、例えば、ホーマシンプソンのようなも
のにしたり、より女性らしくしたり、より高い調子にしたり、玩具うように聞こ
える音声に周波数をシフトさせてもよい。または、F0信号をいくつかの奇妙な
音源(例えば、芝刈り機や、洗濯機、または犬の鳴き声)から記録されたF0信
号に置き換えてもよい。この効果は、結果として、例えば、ホーマシンプソンと
洗濯機との間が組み合わさるように聞こえる音声やペットの犬のように聞こえる
音声となる。 【0168】 テキスト入力、表現及びフィルタ 選択されたキャラクタの音声に変換するための個人化されたテキストメッセー
ジを作成するためにウェブサイトを作用させるとき、第1または第2のユーザは
選択されたキャラクタ(例えば、エルヴィスプレスリー(Elvis Presley)ペー
ジ)に献呈されたウェブページを入力する。好ましくは、各々のキャラクタペー
ジは一般的なデザインと同様であり、マルチラインテキスト入力ダイアログボッ
クス、幾つかの表現リンクまたはボタン、及び特定のエフェクトスクロールリス
トを有するメッセージ作成セクションを含んでいる。第1または第2のユーザは
、前記マルチラインテキスト入力ダイアログボックスに話されるべくメッセージ
の言葉、及びこのメッセージに任意に含まれ、適切な表現リンクまたはボタンの
選択による特定の表現(例えば、“Hubba Hubba”、“Grrrrrr”笑い)をタイプ
することができる。 【0169】 これらの選択された表現の予備録音された音声サンプルは、キャラクタTTS
システムによって生成されたのでオーディオフォーマットメッセージ中に自動的
に挿入される。前記テキストメッセージまたは該テキストメッセージの一部は、
好ましくはテキストの領域を選択及び特定のエフェクトスクロールリストからの
アイテムを選択するソフトウェアにおいて、特定のエフェクトフィルタによって
事後処理となるべくマークすることができる。エフェクトの例は、予期されたよ
うに声の響きを歪ませる“水面下”及び“風邪気味”の効果の例を含んでも良い
。 【0170】 前記ウェブサイトが優先されたユーザインターフェースとして使用される間、
何れか他の適当なユーザインターフェース方法(例えば、前記ユーザのコンパチ
ブルコンピュータ、ブラウザプラグイン、チャットクライアントまたは電子メー
ルパッケージ)は前記ユーザの経験内容を損なうことなく必要な特徴を含むため
に容易に適合することが可能であることに注意すべきである。 【0171】 例として、メッセージを作成することを望むユーザによりアクセスされたウェ
ブページ58が図11に示されており、そのウェブページはインターネット4に
リンクされたサーバ手段10または別のサーバのようなサーバに属しても良い。
一度ウェブサイトがアクセスされると、前記ユーザにメッセージの作成のための
テキストの入力用のダイアログボックス60が示される。更なるボックス62が
使用され、このボックスをクリックするユーザによって、そのメッセージの種々
の場所で前記メッセージ中に挿入するようにしても良く、アウトラインされたよ
うな種々の表現にユーザを指示する。“水面下”または“風邪気味”等の特定の
効果の包含用の更なるボックス64は、伝えられるべくメッセージを望むそれら
に特定の特別な効果を選択すると共に協調するユーザによって、メッセージの全
てまたは一部に供給することができる。前記メッセージは、電子メールアドレス
にタイプするユーザにより受取人に送られるもので、例えば、送り手によってア
クセスされたこの特定のウェブサイトでキャラクタの音声をそれに付加した特定
の効果または表現の何れかのメッセージを聴くための受取人用である。 【0172】 音声の独断的な使用 オーディオフォーマットファイルを発生したキャラクタ音声TTSは、暗号化
または遅延技術により多数のまたは独断的な使用から保護することができる。キ
ャラクタの音声の使用の制御を保持することが望ましい。他の利益に加えて、こ
れは、キャラクタの音声が不適当に使用されない、或いは著作権が反対に乱用さ
れることがない玩具うことを、例えばユーザとライセンサとの存在間の何れの協
定に対しても、確実にすることを援助することができる。このような制御測定を
満たす一つの方法は、ユーザによるユーザ用のデコーダ/プレーヤ(スタンドア
ローンソフトウエアモジュールまたはブラウザプラグイン等)を供給する、及び
所有権コードにおける符号化オーディオフォーマット音声ファィルを含んでも良
い。このデコーダは、ユーザのコンピュータから捨てると共に一度だけメッセー
ジを再生するためにプログラムすることができる。 【0173】 スピーチシステムのスピーチ 我々の発明の応用の幾つかのTTSシステムの使用についての論理的拡張は、
スピーチ認識エンジンを有するTTSシステムを組み合わせることである。その
結果のシステムは、スピーチトゥスピーチ(STS)システムと称される。これ
らは、本発明のフロントエンドとしてスピーチ認識エンジンの2つの主要な提供
を得ることができる。 【0174】 1. ユーザは入力にタイプを要するよりもシステムに話して入力することが
できる。 2. 前記システムは、テキストの分析から純粋に得ることができるよりも、
前記TTSシステム用の良好な韻律的モデルのために、発話されたメッセージの
韻律(ピッチ及び速度)を分析することができる。 【0175】 これらはスピーチ認識システムの検索の2つの流れである。 【0176】 ・話者独立未経験認識。このシステムのタイプの能力は、互いの音声を理解す
るために経験するべく前記システムに要求することなく多くの異なったユーザの
音声を取り扱うことで良好となる。そのアプリケーションは、電話法メニュー等
である。 【0177】 ・話者依存経験認識。このシステムのタイプの能力は、前記スピーチ認識シス
テムが一人以上の特定のユーザの音声を良好に理解するために経験することがで
きる、ものである。これらのシステムは、自然なスピーチから連続したスピーチ
認識が通常可能なものである。これらは、口述タイプアプリケーションに適切な
ものであり、とりわけ我々の発明の多くのアプリケーション、とりわけ電子メー
ルとチャットに有効である。 【0178】 スピーチ認識の使用とスピーチシステムのテキストは、同じ人間的言語の、あ
るキャラクタの音声(すなわちユーザ)から別のキャラクタの音声への音声翻訳
の目的のために有利に使用することができる。 【0179】 STSシステムの使用のため、(話者の)話したメッセージから韻律的モデル
を得るために、付加的なモジュールが前記スピーチ認識システムに付加する必要
があり、それは喉頭の基本的な周波数(しばしばF0と称される)の波形、ピッ
チ変化(例えば;上昇または下降)及びスピーチユニットの存続を連続的に分析
する。この情報は、話したメッセージのテキストモデルと音声学上ものを組み合
わせたときに、オリジナルの(話者の)話したメッセージの速度玩具ントネーシ
ョンが極めて似ている非常に正確な韻律的モデルを生成するのに使用することが
できる。 【0180】 キャラクタに基づいた話 第1及び第2のユーザは、該第1のユーザのコンピュータまたは玩具にダウン
ロードするために話を選択することができる。前記第1のユーザは、ウェブペー
ジまたは他のユーザインターフェースコンポーネントを入力すること、及び支持
されたキャラクタの音声のドロップダウンリストから各々のキャラクタを選択す
ることによって、前記話におけるキャラクタ及び/またはナレータの何れかまた
は各々をプレイする音声を限定するために任意に選択することができる。例えば
、白雪姫(Snow White)の話はエルヴィスプレスリー(Elvis Presley)によっ
てナレーションすることができる。白雪姫(Snow White)はインスペクターガジ
ェット(Inspector Gadget)により演じることができ、魔法の鏡(Mirror)はホ
ーマシンプソン(Homer Simpson)により、そして魔法使いの女王(Wicked Quee
n)はダースバーダ(Darth Vader)により演じられる。 前記ソフトウェアは後に作製されて話のためのオーディオフォーマットメッセー
ジを生成すると、好ましくは記録されたキャラクタの音声のセグメントから前記
話を結びつける。各々のセグメントは、前記キャラクタTTSシステムを使用し
て任意に部分的にまたは完全に作成された、或いは記録された言葉、フレーズ及
びセンテンスのサウンドビットから作成することができる。 【0181】 メッセージディレクトリ 特定のユーザの使用のためのメッセージのデータベースは提供することができ
る。前記データベースは、前記ユーザに送られ、受け取られたメッセージの目録
に関する情報を含んでいる。前記ユーザは、インターネット電子メールシステム
によって別のユーザにメッセージを翻訳するかまたはコンパチブルコンピュータ
に再ダウンロードした前述したメッセージの目的のため、オリジナルテキストフ
ォームかオーディオフォーマットフォームの何れも、以前に送ったまたは受け取
られた何れかのメッセージをリコールすることを要求またはその逆をしても良い
。 【0182】 玩具の例の場合、一つ以上の選択されたオーディオフォーマットメッセージは
、ユーザによって翻訳することができる。前記オーディオフォーマットメッセー
ジは、玩具に上述したように移しても良いが、後に玩具の不揮発性メモリから消
去しても良い。 【0183】 前記データベースは、インターネットサーバ内に完全にまたは部分的に含まれ
ても良く、或いは他のネットワークコンピュータでも良い。或いは、前記データ
ベースは各々個々のユーザのコンパチブルコンピュータにストアすることができ
る。任意に、各々のオーディオフォーマットメッセージの大部分のデータは、イ
ンターネットサーバまたは他のネットワークコンピュータに存するデータベース
のインデックス及び関係のある情報を有してユーザのコンパチブルコンピュータ
にストアしても良い。 【0184】 ジョークと日常のメッセージ その他の特徴は、次のものに関係する。すなわち、第1又は第2ユーザの相互
会話シーケンスが、Webサイトを経由したソフトウェアに関係したり、そのソ
フトウェアの結果として生じる通信が、第1のユーザのコンパチブル(互換性の
ある)コンピュータに関係したり、或いはまた、遊戯の具体的な例においては、
結果として生じる通信が、第1のユーザの遊戯に関係するものである。 【0185】 Webサイトは、定期的にアップデート(更新)される次のようなデータベース
とのアクセスが提供される。例えば、テキスト又は音声をベースにしたジョーク
、気の利いた言葉、話、広告および、一般的に支持された声、即ち、声又は個人
に関しない支持された声などである。或いはまた、前記のジョークや、気の利い
た言葉又は話のテキストバージョンが、TTSシステムを経由した処理によって
構成されたものなどである。 【0186】 第1又は第2ユーザは、ダウンロードされるべきメッセージやその第1ユーザ
のコンピュータへ移行されるべき1つ又はそれ以上の予め記録されたメッセージ
を生成させるために、Webサイトと相互通信することができる。そして、続い
て、上述した如くの第1ユーザの遊戯へと移行する。 【0187】 オプションとして、第1又は第2ユーザ、および好ましくは第1ユーザは、次
のものを自動的にダウンロードするため、そのソフトウェアを生成させることが
できる。例えば、新しいジョーク、気の利いた言葉、広告、抜粋された歌および
/又は話などであり、定期的に(例えば毎日に)、その第1ユーザのコンピュー
タまたは遊戯器へ生成されるか、或いはまた、Webサイト上にて、eメールで
通知を送信したり、そのメールの存在およびその新しいアイテムの後の収集につ
いての通知を送信する。 【0188】 なお、注釈すると、それぞれのアイテムのデータベースは、必要に応じて、他
のオーディオ製品にも発展され得るものである。 【0189】 Eメールおよび挨拶状 コンピュータの第2ユーザとWebブラウザおよび/又はeメールソフトウエ
アは、そのソフトウェアへ1つのテキストメッセージを入力するか回収すること
ができる。そしてオプションとしては、それが誰の声のオーディオ(音声)フォー
マットメッセージに具現化されるのかを選択できる。 【0190】 そのソフトウェアは、1つの音声フォーマットメッセージへの変換を実行する
。好ましくは、その音声フォーマットメッセージを第1ユーザへダウンロードす
る。その結果、1つの音声フォーマットメッセージがWebサイト上に存在する
ことが、ダウンロードのためその第1ユーザへ通知されるが、好適にはeメール
にてそれが通知される。第1ユーザがそのダウンロードを完了し、上述の如くそ
の音声フォーマットメッセージの搬送が行なわれる。 【0191】 遊戯器の実施例では、その音声フォーマットメッセージは、当該遊戯器の接続
手段を経由してその遊戯器へ搬送される。これはポータビリティのためであるが
、サードパーティからのeメールを所定の特徴的な声にて読むため、互換性のあ
るコンピュータからは接続を外すことができる。 【0192】 TTSシステムによりプロデュースされたスピーチ(如何なる表現、効果、背
景その他を含むもの)のオーディオ(音声)ファイルは、1つのeメール(例えば
、WAVまたはMP3フォーマット)の1つの添付物として、或いは1つのスト
リームファイル(例えば、AUフォーマット)として、受取人へ送信されてもよ
い。したがってその音声ファイルは、TTSサーバ上に含まれてもよいし、1つ
のハイパーテキストリンクがその受取人へのeメールメッセージ本体部に含まれ
てもよい。当該受取人がそのeメールメッセージにおけるハイパーリンク上にて
クリックすると、TTSサーバは、その受取人のコンピュータへその音声ファイ
ルをストリーミングフォーマットまたは非ストリーミングフォーマットで送信す
ることを指示される。 【0193】 音声フォーマットファイルは、オプション的には、受取人のコンピュータを自
動的に動かすものでよく、それは、続くダウンロードの期間中、或いはその直近
に動かしてもよい。また、受取人のその後の利用の為、またはその前に行なう他
の受取人へのその他のeメールメッセージに先立って利用する為に、蓄積用媒体
へのセーブもまたオプション的に可能にしてよい。また、プレーヤ全員へのサウ
ンドファイルの配信のため、ストリーミングオーディオ(音声)を利用してもよい
。 【0194】 オプションとして、eメールメッセージは、単一の受取人へ送るよりは、多数
の受取人へ送る(放送する)ようにしてもよい。TTSサーバが決定するか、また
は、受取人リスト(例えば、今日が誕生日の登録された全ユーザ)の内容へ自動
的に指示されるか、或いは受取人のリスト上の送信者によって指示されるかの何
れでもよい。 【0195】 そのeメールメッセージのテキストは、タイプ入力されたものでもよいし、ス
ピーチ・ツー・スピーチ(STS)のどこかに記載された如くのスピーチ識別エン
ジンから集められたものでもよい。 【0196】 さらに、所定の特徴をもつ声でeメールを介して音声メッセージを送る際には
eメール読取プログラムが提供され、これは、入力テキストのeメールメッセー
ジを読み、それらを、1つの特徴的な声に変換する。 【0197】 或いはまた、そのeメールメッセージは、挨拶メッセージや、静的またはアニ
メ化された視覚的なメッセージを含んだ挨拶状形式をとったものでもよい。 【0198】 eメールまたはオンライン挨拶状の送信例を考えると、ジョン・ウエイン、ビ
ルクリントン、ドリー・パートン、ミッキーマウスト(TM登録済)またはマックス
・スマート等によって話されたメッセージを有している。その送信者は、そのe
メールにテキストを入力できるか、又はデジタルの挨拶状を添付できる。そして
、受取人がそのeメールか挨拶状を受け取って開けると、そこには、あたかも送
信者が挿入したテキストを読み挙げる如くに、有名人の声でその受取人に話しか
ける声がある。 【0199】 その他の実施例は、スピーチ認識(SRS)システムがあり、これは、前述した
eメール処理システムにオプションとして追加され得るものである。このSRS
システムは、ユーザによって彼自身の声をテキストメッセージに変換するために
使用される。その後TTSシステムによって、そのテキストメッセージは、音声
フォーマットメッセージにて1つの特徴的な声に変換される。これが、一人のユ
ーザの口語メッセージを他の特徴的な声に変換する仕組みである。 【0200】 チャットルーム ユーザは、インターネット・チャットサービスとクライアントソフトウエア(
例えば、ICQ又はIRCクライアントソフトウエア)によって相互通信するこ
とを許され、これらのチャットルームやチャットプログラムのユーザは、「チャ
ターズ(chatters)」として参照され、そして、その入力/出力されるテキストメ
ッセージが、音声フォーマットメッセージにて特定のキャラクタ又はパーソナリ
ティの声に変換される。 【0201】 チャットセッションの期間中は、チャターズはバーチャルナ部屋空間でコミュ
ニケーションを行なう。ここでは、各チャターはリアルタイム又は近似的リアル
タイムに表示される1つのメッセージをタイプ若しくは記録する。 適切なソフトウェア又はソフトウエアモジュールを利用することで、チャットソ
ストウエアは、チャターズに対して可能なキャラクタから選べる機能を更に強化
され得るものであり、それら入力/出力されるメッセージが、自動的に、ファン
・キャラクタに変換する機能をもち得る。そしてこのチャタリングの面白さを増
大させる。オプション的には、典型的なチャット表現(例えばLOL、即ち大笑
)を音声の等価な表現に変換するような変換手段が勿論提供される。 【0202】 ボイス・イン・ボイス(即ち、多くの声の中の1つの声)のチャットは、特に
有名なキャラクタに変更されるべきである。特定のユーザからの入力は、そのユ
ーザのキーボードからの入力を介したテキストとして直接なものでもよいし、ま
たは、前述の如くのSTSシステムの部分としてスピーチ認識エンジンを経由し
たものでもよい。出力音声は、そのチャットルームの全ユーザ(チャット可能な
キャラクタを有するもの)に連続的に供給され、それは(もし適用可能であれば)
各ユーザから発せられたテキストと同期して供給される。 【0203】 単一のユーザは、彼自身によるすべてのメッセージおよびこのシナリオにおけ
るメッセージの生成の為に1つのキャラクタを選択してもよいし、各チャットユ
ーザが彼/彼女自身の専用の選択されたキャラクタの声で話してもよい。他のシ
ナリオとしては、そのチャットルームにおけるユーザのそれぞれに対して、使用
可能な声一式を割り当てることを許容するものである。これは、そのチャットセ
ッションにおける彼が選択できる声の種類をよりバラエティにしてくれる。また
、彼/彼女はその後、チャットセッション中であってもその声の割当を彼/彼女
自身で変更できる。 【0204】 そのチャットユーザは、彼/彼女の希望として、背景効果や、挿入された表現
を付加できる。また、チャットルームでの彼の声又は他の声に他の特殊効果を施
すことを付加してもよい。 【0205】 チャットルームは、静的またはアニメ化された3次元世界をベースにして、そ
のチャットルーム内のユーザに代わって具現化されたものでもよい。 【0206】 また複数のチャットルームはセグメント化されてもよく、この場合、今日の通
常の例えばトピックスや年齢または嗜好によってではなく、キャラクタの声の種
類をベースにして行なわれてもよい。これは、異なるチャットルームで異なるシ
ーン(例えば、映画スターによって有名なハリウッド・ルーム、有名な政治家で
特徴的なホワイトハウスなど)を提供する。 【0207】 聞かれたいと思うキャラクタを選んだインターネットにおけるチャットセッシ
ョンの例として考えると、これは、他人によって自分が異なるキャラクタとして
聞かれる玩具うオプションを含んでいる。結果としてあなたのチャットパートナ
ーは、例えばエルビスとしてあなたの話およびタイプする内容のすべての語句を
聞くこととなる。あなたは好きなだけキャラクタを代えることができる。一方、
あなたのチャットパートナーは、あなたの話すことを聞きたいように選択するこ
とができる。 【0208】 シミュレーション環境での音声可能アバター このアプリケーションは、多彩なコンピュータ・アニメーション・キャラクタ
が既知のキャラクタの特定の音声パーソナリティである3Dチャットに非常に似
ているものである。そして、ユーザは、3Dシミュレーション世界/環境を設計
し、その世界の中でキャラクタ間で対話を行なう。 【0209】 一例は、購入されたプログラムによって、あるいはインターネットを介したア
クセスによって、一つの3D世界へのユーザ参加である。この世界の中で、ユー
ザは、環境や、家や、通りや、その他を作ることができる。ユーザはまた、人々
を選択し、彼らにパーソナリティを与えることによって、家族やコミュニティを
作ることができる。ユーザは、個々の人々にそのシミュレーション世界における
固有のキャラクタ音声を当てはめ、互いに又は彼らが会う他者と上記選択された
キャラクタの音声で討論を交わすように彼らをプログラムすることができる。 【0210】 インターラクティブなオーディオ・システム 更なる特徴は、当該システムを留守番電話及びボイス・メール・システムに関
連するワークに適応させて、出て行くメッセージ(OGM)の録音をそれら留守
番電話やボイス・メール・システム内で許すことである。ユーザは、固有のキャ
ラクタ音声のオーディオフォーマットメッセージを、例えば前述したような上記
サーバ手段10によって生成させることを開始する。その後、ユーザは、上記オ
ーディオフォーマットメッセージを受信し、それをOGMとして記録するために
、彼の留守番電話又はボイス・メール・システムをどのように構成するかについ
て指示される。 【0211】 その方法は、留守番電話及び電話交換局システムのタイプによりに異なること
ができる。例えば、上記サーバ手段10は、好ましくは、上記ユーザの留守番電
話にダイヤルし、その後、OGM記録モードに前記ユーザの留守番電話を設定す
るのに必要とされる符号に特有のオーディオ信号を送信し、その後、その関係の
ある電話線上で、以前に前記ユーザによって作られたオーディオフォーマットメ
ッセージを再生し、そして、上記留守番電話に、上記オーディオフォーマットメ
ッセージをそのOGMとして記録させる。その後は、第三者が上記留守番電話に
電話をかけたとき、その第三者は、固有のキャラクタ又はパーソナリティの音声
で記録されたユーザ作成のメッセージで迎えられるだろう。 【0212】 インターラクティブな音声応答システム オーディオ音声が、特定のキーパッドの組み合わせを入力することをユーザに
促して、当該システムによって提供される入手可能なオプションをナビゲートす
る、種々の応答システムが入手可能である。音声が当該システムによって生成さ
れたテキストメッセージに基づく有名人の音声である、具体例が提供されること
ができる。同様に、(例えば天気予報のような)情報サービスが、選択されたキ
ャラクタの音声で読まれることができる。 【0213】 他のナビゲーション・システム インターネット・ブラウジングは、オーディオ・コンテントのデリバリのため
にキャラクタ音声を使用することができる。例えば、WAP可能電話や(PDA
のような)他の装置を利用するユーザは、キーパッド又はタッチ・スクリーンに
よるか、あるいは、音声認識システムが前述したようにスピーチをテキストに変
換するために作動させられる点でマイクロホンに話すことによるかのいずれかに
よって、WAPアプリケーションにナビゲートされることができる。その時、こ
れらのテキスト・コマンドが、典型的なインターネット活動(例えば:ブラウジ
ング、チャット、サーチ、バンキング、等)を実行するために、インターネット
を介してオペレートされる。これらのオペレーションの多くの間、ユーザへのフ
ィードバックは、それがオーディオフォーマットで、及び好ましくは認識可能な
音声で受信されるならば、大いに増大されるだろう。 【0214】 そのようなアプリケーションのために、当該システムは、上記装置に対する出
力の要求に応答するために適用されることができる。また、キャラクタ音声TT
Sシステムに、正規の(即ち、非WAP可能)電話ネットワーク上にキャラクタ
音声メッセージを送り出すために上記定義された手法で使用されることを可能に
する、一つのシステムが提供されることができる。 【0215】 お気に入りのサーチ・エンジンを選択するためにWAP可能電話に話すユーザ
の例を考える。その時、彼は、何を捜すべきか上記サーチ・エンジンに教えるた
めに彼の電話に話す。そして、サーチ・エンジンは、最もマッチするものを選択
し、キャラクタ音声TTSシステムを利用することにで<ユーザ又は当該サイト
所有者の選択のキャラクタ音声のスピーチを生成することによって、ユーザにそ
のWebサイトの要約を読んで聞かせる。 【0216】 Webナビゲーション及びWebオーサリング・ツール Webサイトは、原文の形態の代わりの又は同様の話されたオーディオの形態
で、ある情報が訪問者に提供されるようなことが可能なキャラクタ音声であるこ
とができる。この情報は、上記Webサイトへ訪問者を導き、当該Webサイト
をナビゲートするのを手伝い、及び/又は、静的情報(例:広告)や動的情報(
例:株価)を訪問者に提示するために使用されることができる。 【0217】 キャラクタ音声可能なWebサイト機能を設計し、ワールドワイドウエッブ上
にこれらの機能を発表することをウェッブマスターに許す、ソフトウェア・ツー
ルが提供されることができる。これらのツールは、機能及びメンテナンス手順の
コレクションを提供する。機能例は、以下を含むことができる: *キャラクタ音声トレーニング・ソフトウェア *キャラクタ音声データベース拡張及びメンテナンス・ソフトウェア *音声オーディオファイルの即時生成のためのテキスト・エントリ・フィー
ルド *WYSIWYHする(あなたが見ることは、あなたが聞くことである)S
ABLEマークアップ支援及びTTSロボット配置及び構成ツール *「高速の」TTSシステムに移るために生成されることを動的データに許
すデータベース連結ツール *標準の又はカスタムメイドのユーザ・インターラクティブなキャラクタ音
声機能をWebページに加えるためのツール(例えば、ウェッブマスターのWe
bページにキャラクタ音声チャット・サイトを含めることを許すツール)。 【0218】 上記WYSIWYHツールは、ウェッブマスターがWebサイトをキャラクタ
音声可能にすることができる主要な手段である。それは、オーディオファイルを
生成するために上記キャラクタ音声TTSシステムへの即時のアクセスを得るこ
玩具ンターネット・ユーザにキャラクタ音声オーディオフォーマットで供給され
るだろうWebページ(例えば、SABLEで)のセクションをマークアップす
ること、Webサイト内にTTSロボットを設定し構成すること、上記TTSシ
ステムへのデータベース・サーチをリンクすること、及び、Webサービング・
ソフトウェアにキャラクタ音声TTS機能性を加えるためのCGI(または類似
の)スクリプトを構成すること、を上記ウェッブマスターに許す、他のWebオ
ーサリング・ツール(例えば、マイクロソフト社のFrontpage)と関連
して同様に及び選択的に動作する。 【0219】 TTSロボット(またはコンポーネント)は、ユーザによって作動させられる
とき、上記TTSシステム可能アプリケーションと対話することを彼/彼女に許
す、インターラクティブなWeb配信可能なコンポーネントである。例えば、W
ebページは、TTSロボット電子メール・ボックスを含むことができ、この電
子メール・ボックスは、ユーザが当該ボックス内にタイプし、囲まれた送信ボタ
ンを押したときに、そのメッセージが上記TTSシステムに送り出され、オーデ
ィオファイルがユーザ選択の受取人に自動的に発送されるものである。上記WH
YSIWYHツールは、ウェッブマスターがこの機能を彼/彼女のWebサイト
に加えることを簡単にする。 【0220】 Webサーバから上記キャラクタ音声TTSシステムへのインターネット・リ
ンクは、オプションとしてマークされる玩具う点に注目されたい。上記キャラク
タ音声TTSシステムは、ローカルにWebサーバからアクセス可能にすること
ができ、あるいは、Webサーバ内または内部ネットワーク上)のもしくはイン
ターネット上の遠くに位置することができる純粋なソフトウェアであることがで
きる。この場合、このアーキテクチャにおける他プロセスへの全ての要求及び応
答は、インターネットを介して経路が定められるだろう。 【0221】 上記WHYSIWYHツールは、また、他のキャラクタ音声可能機能及びナビ
ゲーション援助を含むようにWebサイトを構成するためにも使用されることが
できる。これらは、例えば、以下のものを含むことができる: *あなたがカーソルにかかったボタンを浮かせるとき、普通のテキストボッ
クスよりもむしろ、それはボタン機能を「話す」。 *デモンストレーション・エリアで使用されるときのキャラクタ音声 *広告 *ユーザの既知の好み−これらはアンケートで質問することができ、あるい
は、各ユーザに関する履歴データを記憶したサイトを用いてこれらが示唆される
ことができる−に基づいて、自動的にキャラクタ音声を推薦すること(例えば、
Amazon.comでたくさんの歴史本を買う人であるならば−ナビゲーター
としてWinston Churchillを推薦することができる)。あるい
は、キャラクタの音声が、(例えば、個別のサーチ基準に基づいて)当該ユーザ
のために、自動的に選択されることができる。 *音声ナビゲーターをむしろ好んだユーザ(例えば、上記ユーザは、自動的
にHomer Simpsonを彼のナビゲーターにするソフトウェアを持つ)
と、Webサイトの選択されたナビゲーター(Say, Max Smart)
との間で自動的に会話を作ること−それは、自動的な会話−「Hey Home
r, Welcome to my site − its Max Smar
t」−を作る−。 *冗談及びニュースのテキストを上記WHYSIWYHツールにタイプする
ことによって、有名人のWebサイトを、新しい冗談及び毎日のニュースで毎日
アップデートするウェッブマスターの例を考える。その時、Webサーバは、W
ebをサーフィンしているこのページを選択した各ユーザに、有名人のオーディ
オ音声を供給する。テキストからスピーチへの変換は、準備時間で及び/又は各
ユーザの要求のデマンドで実行されることができる。 【0222】 まるで彼らがまさに−一日中及び毎日−あなた玩具るかのように、しかしなが
ら、実際にはあなたの側に有名人の音声を変換するリターン・テキスト・メッセ
ージを実際にタイプしているのはテキスト・オペレーターである、あなたに有名
人と「対話させ」る有名人Webサイト(例えば「テクノ」バンドやDavid Lettermanサイト)の例を考える。 【0223】 ここで、お気に入りのスポーツWebサイトと、実況放送や最新ニュースをあ
なたに与えるお気に入りのスポーツ・スターとを持ち、−そして、別のスターを
選択して彼の話を聞く、その時Elviseに面白半分にそれをさせる例を考え
る。 【0224】 セットトップボックス及びデジタル放送 セットトップボックスは、インターネットに及び通常はまたケーブルTVネッ
トワークにテレビを接続する装置に与えられた用語である。ブランド区別を援助
するために、そのような装置のオペレーションの間、ユーザを指示するために使
用されるオーディオメッセージは、埋め込みキャラクタ音声TTSシステムか、
(インターネットやケーブル・ネットワークを介して接続された)遠隔配置され
たキャラクタ音声TTSシステムかの何れかから生成された特注であることがで
きる。 【0225】 デジタルTVアプリケーションでは、音声が、例えば、ソフトか、ハードか、
叫んでいるか、ささやいているか、に関係なく、ニュースや天気を話すキャラク
タをユーザが選択することができる。 【0226】 その他のアプリケーション 本発明の具体的な実施形態におけるその他のアプリケーションは、以下を含む
: ・スターチャートリーダ ・ウエザーリポート ・連続漫画を可能にするキャラクタ音声 ・連続漫画を可能にするアニメキャラクタ音声 ・話す目覚まし時計、カレンダー、スケジュールプログラム他 ・マルチメディア紹介(例えばマイクロソフトパワーポイントスライド入門
) ・Webベースか、携帯型MP3プレーヤーベースか、その他のオーディオ
ブック装置によるしゃべる本 ・マウスツールチップ呼出し表示 若しくは、話されたメッセージが、ユーザが普通に認識可能なキャラクタの音
声で作られたアプリケーションを可能にするその他の音声。 【0227】 クライアントサーバー若しくはエンベデッド構成 システムの構成部位の全部若しくはいくらかは、ネットワーク若しくはインタ
ーネットワーク環境内で顧客ソフトウェアまたはサーバのように分配され、サー
バと顧客との機能間の分岐は任意であり、通信経路、ファイルサイズ、コンピュ
ータ能力他に基づく。加えて、完全なシステムは、操作に対してネットワーク上
では頼りにならない単式スタンドアロン装置の範囲内に含まれてもよい。このよ
うな場合、そのシステムは、相関性小型メモリに関わるその他のアプリケーショ
ン若しくは小型機器及びセットトップボックス、ネットPCs、インターネット
機器、移動電話機他のような装置による我々に対するコンピュータ通信領域の範
囲内でさらにエンベッデットになる高性能化ができる。 【0228】 最も代表的な構成は、顧客に対して実行される言語認識(適切ならば)にもか
かわらず、TTSテキストメッセージは、 他の顧客コンピュータへの配信に対
する、または顧客への返信に対するオーディオフォーマット音声メッセージの中
で1つまたはそれ以上のサービスによって変換されることをネットワーク(例え
ば、インターネット)を通過するまで変換要求する。 【0229】 新キャラクタ音声の構造 このキャラクタTTSシステムは、異なるキャラクタの新たな音声の早い増加
を容易に高めることができる。その方法は、要求されるピッチとスピードに合わ
せて彼の音声「同調」に対して話し手が許可するオンスクリーン同調ツールを含
み、記録されたスピーチデータベースの発生若しくは追加に好適し、スピーチ信
号及びラリンガグラフ(EGG)信号を格納に好適する記録技術、これらの信号
の自動処理するための方法及び、これらの処理信号を話すための方法と特定なキ
ャラクタの音声に対する記録されたスピーチデータベースの考案と、キャラクタ
TTSシステムの中でこの記憶されたスピーチデータベースを含むための方法を
含んでいる。 【0230】 音声トレーニング及び保守ツールは、ディスクトップコンピュータでの低コス
ト展開に対して一括的に、若しくはアプリケーションサービスプロバイター(A
SP)を通じる賃借りに対しての供給することができる。これは、キャラクタ音
声TTSシステム内で用いられるために作成される記録されたスピーチデータベ
ースが許可される。このキャラクタ音声TTSシステムは、パッケージ化し、デ
ィスクトップコンピュータ上で用いるために提供することができ、あるいは先に
説明した方法でインターネットを通して利用可能にすることができ、これにより
ユーザの音声データベースがインターネットサーバ上で利用可能になる。本質的
には、幾つかのアプリケーション、構造、若しくはこの実施例の一部として供給
されたサービスは、利用者新キャラクタ音声を受けるために摘要することができ
る。 【0231】 一例として、利用者がブームミルク、ラリンガグラフ、ケーブル、CD及びヘ
ッドホンを含むパックを商店、若しくはオンライン商店から購入する。そして、
その準備及びそのテストのセットアップする。利用者は、その後ヒントを与える
画面の一連を通して利用者へのガイドとなるCDでプログラムを動作させる。終
了したとき、利用者は、彼自身の音声の新たな「ボイスフロント」を捜索するた
めのソフトウェアを指図する。彼は、直ちに、彼がディスクリーブアプリケーシ
ョン(例えば、彼は、彼が好きなオンラインeジン(e-zine)から読み出された
日刊新聞(daily)に関わる彼のウェブサイトを自動化音声で可能にすることが
できる。)の幾つかに対するTTSサービスを供給するための発明に関して用い
ることができる方法(即ち、彼自身の音声データ)を有している。 【0232】 アニメーションの利用と共にオーディオ及びビデオ記録の方法 キャラクタ記録読み取りの処理は、近くに配置されたブームマイクロフォン及
びラリンガグラフを使用することを含む。そのラリンガグラフは、話し手ののど
の周辺をクリップして、話している間に喉頭の振動周波数を測定する装置である
。この信号は、記録された音声波形フォームにおけるピッチマーカー(音素境界
)の正確な位置を定めるために記録されたスピーチデータベースを展開する間に
利用される。 【0233】 それは、オーディオ信号とラリンガグラフ信号が記録される時間、話し手のビ
デオ信号が同期することが可能に記録され、データベース若しくはクロスリファ
リンスに関して格納されるこの信号に対して、他のデーベースに関して保持され
る。この外部信号の目的は、コンピュータのアニメ化された顔を含むTTSシス
テムに対して、顔の役割が供給されることになる。さらに、情報は、話し手の顔
の戦略的に重要に部分がセンサから獲得されるように記録されている間、要求さ
れる。TTSが操作されている間、この情報は、キャラクタのアニメ化された表
現を供給するのに用いられ、TTSの内に入力された言語を話す。 【0234】 オペレーションにおいて、上記TTSシステムが上記記録されたスピーチデー
タベースから記録されたスピーチユニットを検索するとき、それはまた、上記選
択されたスピーチユニットと一致する上記記録された視覚データベースから、上
記正確な記録された視覚情報を検索する。そして、この情報は、2つの手法のう
ちの一方で使用される。どちらも、上記TTSシステムに入力されるにつれて、
彼/彼女が実際に上記テキストをしゃべっているかのように、(ユニット選択ス
ピーチ・シンセサイザにおける)選択されたユニットに対応するビデオ記録の各
部分が、キャラクタの映像信号を形成するために共に連結される。しかしながら
、これは、上記キャラクタのビデオ・イメージがマイクロホン、ラーニンガグラ
フ(laringagraph)及び他の不必要な人工品を含む玩具う欠点を持
つ。より実際的なのは、主キャラクタに様式上同様に又は等しく見えるようにプ
ログラムされるコンピュータ生成キャラクタをアニメーションするためにビデオ
信号のモーション・キャプチャ・エレメントだけを使用する、コンピュータ顔ア
ニメーション・モジュールの包含である。 【0235】 アニメーション 本実施形態のさらなる特徴は、オーディオ音声に対して選択されたキャラクタ
のバーチャルなまたは物理的な表示の視覚的なアニメーションを提供することを
含む。 【0236】 好ましくは、ユーザは、前記デザインされたキャラクタのグラフィカルなシミ
ュレーションをデザインするかあるいはエージェントによってデザインされる。
玩具(おもちゃ)を主とする環境においては、ユーザは、それへのアタッチメン
トに対する前記玩具のためのアクセサリを作成するかあるいはエージェントによ
って作成される。前記アクセサリは前記キャラクタを表わす。グラフィカルシミ
ュレーションまたはアクセサリ付き玩具はオプションで上記したアニメートモー
ションを実行する。 【0237】 アニメートキャラクタ(例えばブレーズが使用可能である)は、音声または他
のサウンド効果をアバターの動き(口または他のボディパーツの動き)に同期す
るのに使用され、これによって、受取人またはユーザは組み合わされ及び同期化
されたイメージ及びサウンド効果を経験する。 【0238】 玩具環境において、玩具は記録されたメッセージのリプレイの間に玩具の移動
部分のアニメーションを実行するための電気機械的機構をオプションで有する。
玩具は、アクセサリ接続のための多くの機械的に駆動されるラグを有する。オプ
ションで、アクセサリは、目、ハット、口、耳などのスタイル化されたボディパ
ーツを表わすとともに、楽器、めがね、ハンドバックなどのスタイル化されたパ
ーソナルアクセサリを表わす。 【0239】 アクセサリは、玩具のボディの前記ラグ上のアクセサリの全ての構成が特定の
キャラクタまたはパーソナリティ(例えばエルヴィスプレスリー)の全体として
玩具の視覚的な表示を提供するような方法でデザイン可能である。好ましくは、
アクセサリが取り付けられるラグは記録されたメッセージのリプレイの間に相互
移動あるいは他のより複雑な運動を実行する。この運動はメッセージの話された
言葉のテンポと同期可能である。 【0240】 アクセサリはそれ自身、機械的アッセンブリからなり、それによって、玩具の
ラグの相互運動または他の運動は、アクセサリそれ自身の中により複雑な運動の
駆動を引き起こす。例えば、ティーポットアクセサリを保持するアームはギヤ、
レバー、他の機構からなる機構でデザインされ、これによって、ティーポットの
回転が次にその休止位置にまっすぐ後退する間に、その接続ラグの相互移動のと
きに、手が上がり、次に外に出る。他の例は、ギヤ、レバー、コンチェルティー
ナレバー機構からなるペリスコープを有するアクセサリである。前記レバー機構
はペリスコープを上方に拡張し、90度回転させ、もとに戻し、休止位置に後退
する。勿論、他の種々の構成が可能である。 【0241】 実施形態において、選択されたキャラクタの2次元または3次元コンピュータ
グラフィック表示は、アニメートされたキャラクタがオーディオフォーマットメ
ッセージを話している玩具う印象を提供する方法において、話されたオーディオ
フォーマットメッセージと時間的に同じになるように選択的にアニメートされる
。より複雑なアニメーションシーケンスが提供可能である。 【0242】 玩具環境において、マウスアクセサリに関連するラグ(S)は、当該マウスが
各話されたワードの初めの近くでオープンされ、各話されたワードの終わり近く
でクローズされ、これによって、玩具が実際にオーディオフォーマットメッセー
ジを話している玩具う印象を提供することができる。 【0243】 玩具に関する他のラグは、マウスの動きに相対して所定のシーケンスまたは疑
似ランダムシーケンスにおいて駆動可能である。この駆動は、レバー、ギヤ、他
の機械的機構によって実行される。さらなる特徴はより精巧な電気機械的設計を
可能にし、これによって、複数の電気機械的アクチュエータが玩具のマウス及び
アイ領域の周りに配置される。前記アクチュエータは、玩具がオーディオフォー
マットメッセージのリプレイの間に、複雑な顔の表情を形成することを可能にす
るように別個に制御される。 【0244】 玩具をコンピュータに接続しているステレオオーディオ入力ケーブルの第2の
チャネルは、オーディオフォーマットメッセージ及びこのオーディオフォーマッ
トメッセージに関連する顔のシーケンス及び他の動きを同期して記録するのに用
いられる。 【0245】 玩具実施形態の特別な側面 ワイヤレスであり、したがってネットワークまたは固定ケーブルによって接続
されたリンク76を通って接続手段74を介して計算手段72に接続可能な玩具
70が図12に示されている。玩具70は不揮発性メモリ71及びコントローラ
手段75である。オーディオメッセージは種々のソフトウェアを通って例えばイ
ンターネットを介して計算手段72にダウンロードされ、続いて接続手段74を
通って玩具に転送される。 【0246】 玩具を主体とする実施形態に特有の多くの特徴を以下に説明する。1つの特徴
において、オーディオフォーマットメッセージは玩具70内で不揮発性メモリ7
1内に残り、ユーザが玩具内のマイクロプロセッサにコントローラ手段75によ
って玩具からのメッセージを消去することを指示するまで何回もリプレイされる
。好ましくは、玩具は複数のオーディオフォーマットメッセージを記憶して、コ
ントローラ手段75の動作によってこれらのメッセージのいくつかをリプレイす
ることができる。選択的には、玩具は、到来するメッセージを記録するのには不
十分なスペースしかない場合には、不揮発性メモリ71から古いメッセージを自
動的に除去する。 【0247】 さらなる特徴は、オーディオフォーマットメッセージがソフトウェアからユー
ザのコンピュータプロセッサ手段72に送信され、続いて接続手段74により玩
具70に送信されたとき、当該メッセージは、ユーザが玩具70に関するメッセ
ージのリプレイに先立って当該メッセージを聞くことを防止するために、選択的
にソフトウェアによって暗号化されるとともに玩具70によって復号される。こ
の暗号化はオーディオフォーマットメッセージの時間シーケンスを逆にすること
で実行され、復号は玩具内の記憶されたオーディオフォーマットメッセージの順
番を客にすることにより実行される。勿論、他の適当な形の暗号化を使用しても
よい。 【0248】 他の特徴は、オーディオフォーマットメッセージがソフトウェアから計算プロ
セッサ72に送信され、続いて接続手段74によって玩具70に転送されたとき
、当該メッセージは、それが暗号化されているかどうかにかかわらず、ソフトウ
ェアによって選択的に圧縮され、玩具70によって復元される。ここで圧縮を行
なう理由は、玩具70の記録プロセスを高速にすることである。好ましい実施形
態において、この圧縮は、オーディオフォーマットメッセージを玩具70に転送
するときに、オーディオフォーマットメッセージを増大したレートでサンプルす
ることによって実行され、転送時間を低減する。玩具は続いてサンプル間でイン
タポレートしてもとのオーディオフォーマットメッセージの近似を生成する。ア
ナログオーディオ圧縮の他の形態は適宜使用される。 【0249】 他の特徴において、玩具70はオプションで玩具の近くの人の動きを検出する
ための動きセンサを備えており、玩具の内部のソフトウェアは、玩具の近くの動
きを検出したときに1つまたは複数の記憶されたオーディオフォーマットメッセ
ージをリプレイするのに適している。好ましくは、ユーザは、動きを検出したと
きに、どの記憶されたメッセージあるいは記憶されたメッセージのシーケンがリ
プレイされるかを選択するために、玩具に関する制御手段75を操作することが
できる。あるいは、ユーザは、動きの各検出があったとき、あるいは最初の動き
の検出に続く固定あるいはランダム期間で、記憶されたメッセージの選択からの
ランダムメッセージをリプレイするべく、玩具を組織するためにコントローラ手
段75を所定時間の間使用する。ユーザは、玩具の動き感知特徴とともに使用す
るべくインターネットサーバコンピュータ上に記憶された“警句”または他のオ
ーディオフォーマットメッセージのセレクションからオプションで選択する。例
示的な警句は“そこのあなた、ここに来い、私の部屋に入ることを頼んだか?”
である。 【0250】 さらなる特徴は、2つの玩具が、コンパチブルなコンピュータまたはインター
ネット接続のサポートなしに互いに直接通信することを可能にする。第1の玩具
はヘッドホンソケットを備えており、これによって、第2の玩具が当該第2の玩
具のオーディオ入力ケーブルを第1の玩具のヘッドホンソケットに埋め込むこと
によって第1の玩具に接続可能にする。第2の玩具のユーザは次に、好ましくは
、第2の玩具に関する制御手段を操作することによって、第2の玩具内に記憶さ
れたオーディオフォーマットメッセージを選択して再生する。第1の玩具は次に
、第2の玩具からの到来するオーディオフォーマットメッセージを検出して、当
該メッセージを、あたかも前記メッセージがコンパチブルなコンピュータによっ
て送信されたのと類似の方法で記録される。これによって、コンパチブルなコン
ピュータの接続を使用することなしに、玩具ユーザがオーディオフォーマットメ
ッセージを交換することを可能にする。 【0251】 ギフト所与プロセス さらなる特徴は、(インターネットなどを介して)玩具商品をギフトとしてオ
ンラインで購入する新規な方法に関する。商品が選択されて送付先住所が入力さ
れ、正規のオンライン購入と類似の方法により、請求書アドレス、支払い詳細、
個人のあいさつメッセージが入力される。その後、商品をギフトの受取人に発送
したときに、所与者の個人あいさつメッセージ(例えば、“リチャード、お誕生
日おめでとう。このエルマファッドキャラクタは、あなたのユーモアのセンスに
アピールすると思ったよ。ピータから”)を印刷する代わりに、ギフトに付随す
るカードあるいはギフト証明書として、前記あいさつメッセージは好ましくはイ
ンターネットサーバコンピュータ上のデータベースに記憶される。 【0252】 受取人は、個人化されたあいさつメッセージを受け取るためにウェブをどのよ
うに使用するかについてのアドバイスを含む、玩具商品の荷物とともにカードを
受け取る。受取人は次に好ましくは玩具商品の接続手段を使用して玩具商品をコ
ンパチブルなコンピュータに接続し、前記カードに印刷されたユニフォームリソ
ースロケータ(URL)をコンパチブルなコンピュータ上のブラウザに入力する
。これによって、自動的なダウンロード及び、受信玩具商品のスタイリスチック
なデザインにより代表されるオーディオフォーマットメッセージの受取人の玩具
商品への転送が行なわれる。 【0253】 受取人は前記オーディオフォーマットメッセージをリプレイするために玩具商
品に関する制御手段を操作することができる。 【0254】 複数のユーザ ここに記載された実施形態は概して1または2のユーザに関連するが、本発明
は、ウェブサイト、ウェブソフトウェア、キャラクタTTS、キャラクタTTS
、TVS、と相互やりとりが可能な多くのユーザにまであるいは、玩具環境にお
いては多数の玩具にまで容易に拡張することができる。 【0255】 また、複数の玩具スタイルあるいはバーチャルコンピュータグラフィックキャ
ラクタが生成され、これによって、各スタイルは視覚的に異なるキャラクタを表
わすようにすることができる。例示的なキャラクタは、現存するまたは他界した
心の人物、あるいは真の人物の性格描写(例えばテレビジョンキャラクタ)、風
刺漫画またはコミックキャラクタ、コンピュータアニメ−ションキャラクタ、架
空のキャラクタあるいは可聴音声を有する任意の形のキャラクタを含む。さらに
、玩具のスタイル化は、玩具の体のフォーム、外形、カラー及び/又はテクスチ
ャにより達成される。クリップオンボディパーツの交換可能なキットは玩具のラ
グかあるいは玩具の体の他の固定接続部に追加される。 【0256】 さらなる特徴は、玩具実施形態のユーザが当該玩具をアップグレードして玩具
に固定するために物理的パーツ(例えば、アクセサリ)を購入することなしに新
たなキャラクタを表わすことを可能にする。玩具の体及びそのアクセサリはプリ
ントされたラベルを受信するのに適した領域でデザインされる。前記ラベルは特
定のキャラクタの外見及びそのキャラクタのアクセサリを表わすような方法で印
刷される。ラベルは好ましくは置き換え可能であり、新たなラベルは例えば新た
なキャラクタは好ましくは、インターネットを介してバーチャルにダウンロード
されるかあるいは他の方法で獲得される。ラベルは新たなキャラクタの視覚的な
表示である。レベルは続いて付随のあるいは前記ユーザのコンパチブルなコンピ
ュータからアクセスできるコンピュータプリンタ上のラベルを印刷することによ
ってバーチャルな形態から物理的な形態に変換される。 【0257】 多くの音声 例示的なアプリケーションにおいて、概して1つの音声の使用が説明された。
しかしながら、同じ原理が一度に同じテキストを話す1つ以上の音声及び、一度
に異なるキャラクタ音声を話す2つ以上の音声を含めるべく適用可能である。 【0258】 この明細書において開示かつ規定された本発明は、記載されたまたは文章や図
面から明らかな2つ以上の個々の特徴の他の組み合わせに拡張することができる
。これらの異なるすべての組み合わせは本発明の種々の他の側面を構成する。 【図面の簡単な説明】 【図1】 図1は、第1の実施の形態に係るオーディオメッセージを組み立てて(constr
uct)、供給するのに使用されるシステムを示す概略ブロック図である。 【図2】 図2は、第1の言語における送信者によって入力されたテキスト又はスピーチ
を第2の言語に変換するのに必要とするステップを示すフローチャートである。 【図3】 図3は、更なる実施の形態に係るオーディオメッセージを組み立てて、供給す
るのに使用されるシステムの概略ブロック図である。 【図4】 図4は、送信者によって使用される処理端末の画面に表示されるテキストの例
を示す図である。 【図5】 図5は、本発明によって通常に使用されるプロセスのステップを示すフローチ
ャートである。 【図6】 図6は、オーディオメッセージを構成するために有名人のボイスで送信者によ
って使用されるテンプレートの一例である。 【図7】 図7は、オーディオメッセージを構成するために使用されるドロップダウンメ
ニューの一例を示す概略ダイヤグラムである。 【図8】 図8は、単語又はフレーズが選択された有名人(famous character)によって
話されるべきではないような場合に必要とされるプロセスを示すフローチャート
である。 【図9】 図9は、自然言語変換システムに従って使用されるプロセスのステップを示す
フローチャートである。 【図10】 図10は、スピーチインターフェイスを使用してメッセージを構成するのにユ
ーザによって使用されるプロセスのステップを示すフローチャートである。 【図11】 図11は、受信者に受信されるメッセージを構成することを意図するユーザに
よってアクセスされたウェブページの概略図である。 【図12】 図12は、有名人のボイス(voice of famous character)中に記録されたメ
ッセージを格納して、再生可能な計算処理手段に接続可能な玩具を示す概略図で
ある。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to speech generation, and relates to a digital communication system and an information system.
Or especially entertainment media such as those associated with amusement and new toys.
Includes playback of messages in digital audio format for event purposes
It relates particularly but not exclusively to speech generation systems and methods. BACKGROUND OF THE INVENTION Computer software of advanced knowledge, hardware of increasing power,
Potential for growing entertainment opportunities on digital platforms
I opened it. This can be a personal computer or game console, digital
Examples accessed through devices such as vision and wireless applications, digital phones
For example, include the Internet. In particular, email systems, chat rooms (such as ICQ and others), (S
Other instant messaging services (such as MS) and multi-user domains
Not only in the increasing use of computers but also in the increasing complexity of computer games
I was coming. In most cases, these types of applications are text-based
It depends, or at least depends on the use of text. But
However, at the moment, these applications are subject to the widespread use of these technologies.
Nevertheless, to enhance the user experience of those types of applications
No significant use of text voice technology was made. In applications where computer-generated speech was used, this technology was primarily
As a carrier for unprocessed voice signals. For example, Internet
There is a chat room based on the Internet (for example, a net conference). by this
Two or more users with their own voice instead of via a typed message
Can communicate. Applications where text speech technology was used (eg, e
Email reading program), the voice entertainment value is usually one
Supply only a small number of voices or a small number of general voices (eg, U.K.
It has become lower. [0005] Talking toys have a certain entertainment value, whereas existing toys usually have
Limited to a fixed sequence or random selection of pre-recorded messages
You. Some toys provide a set of available message sequences.
Can be determined by selecting from the messages. In other cases, the user shares with the toy
Own voice recorder such as a general cassette recorder or karaoke device
Have the opportunity to record [0006] Users of such talking toys have found their new option as an existing option.
Moderate amusement options that get tired of the value and are available to the user
Entertainment with limited variety of combinations
Possess the possibility of [0007] It is at least attempted to address these and other limitations of the prior art.
It is an object of the invention. In particular, text and audio messages, especially digital
Associated with messages generated or processed by communication or information systems
Addressing these and other deficiencies in connection with amusement values
It is an object of the invention. [0008] In connection with talking toys, audio messages for entertainment purposes
Address these and other deficiencies in relation to the amusement value associated with the sage
It is an object of the present invention. SUMMARY OF THE INVENTION The concept of the present invention is that text is a well-known entertainment personality.
The recognition is such that it can be converted into a voice representing a particular character or a fictional character as desired.
This concept is used, for example, in various contexts used in connection with text-based messages.
Has various applications of the invention. As an example, e-mail such as IRC or ICQ
Text communication, such as text-based or chart-based systems
Play text-based messages with the application or specific character voice
It can be enhanced in accordance with the concept of the invention by means of the enabling function. As another example,
In accordance with the inventive concept, the styling of one or more messages or toys with a textual voice
Personality represented by stick design (eg, Elvis Pres
Physical toys that can be configured to be played by the user
Tools can be provided. In either case, the text-based message
The message is printed or otherwise a text message representing the desired audio message.
If not, it can be configured by the user. According to a first aspect of the present invention, a step of providing a text-based message
Generating an audio message based on the text-based message.
And wherein the audio message is at least partially attributable to the user.
A method is provided for generating a voice message, which is a voice representing a character that can be heard. According to a second aspect of the present invention, means for providing a text-based message, and means for generating an audio message based on the text-based message
And wherein the audio message is at least partially visible to the user.
An audio message generation system is provided which is a voice representing a character
. According to a third aspect of the present invention, a text base linked to a communication network
Means for providing a message; generating the audio message based on the text-based message
The audio message is at least partially recognized by the user.
An audio message using a telecommunications network, which is a voice that represents a character
Are provided. Preferably, the characters of the voice from which the audio message is generated are general to the user
It is selected from a predefined list of visually recognizable characters. Preferably, the audio message is a speech unit (words, phrases and sub-phrases)
A textual database that searches for the corresponding audio recordings representing these speech units.
Generated based on the text-based message. Preferably audio
A message is generated by concatenating together one or more audio recordings of speech units.
, The sequence of concatenated audio recordings may include one or more audio
Determined with reference to the index speech unit associated with the record. [0015] Preferably, a text base that does not have a corresponding audio recording in appropriate speech units.
The words in the source message are replaced with alternative words that have a corresponding audio recording. Good
Preferably, the substitute word is the original word in the context of the text-based message.
It has the grammatical meaning of a close class. [0016] Preferably, a thesaurus for indexing multiple words with alternative words achieves this alternative
Used to Preferably, the original word is relevant for the relevant audio recording
Is replaced with the replacement support word that you have. Preferably, the thesaurus is related
Repeat alternative words to finally find support words with proper audio recording
You can search. Preferably, the use of a thesaurus is in the context of a text-based message.
Extended to include law-based processing or dictionary-based processing of text-based messages
it can. Alternatively, non-assistant words may be appropriate atomic peach elements (eg, polyphonic)
This sequence plays back a sequence of audio recordings of the
Can be synthesized by applying signal processing to the data. [0017] Preferably, assistive words having an associated appropriate audio recording are generally suitable for general communication.
A group of words commonly used in a particular language. Preferably textual day
The tabase also searches for syllables and phrases. Preferably, phrases are commonly used for the target language.
Or a phrase that is a phrase property of a character. In some cases, the phrase has a purpose
Or intentionally is a phrase from a letter. Preferably, the generation of the audio message is performed on a given text-based message.
The corresponding text, which is a idiomatic representation of the original text-based message.
Optionally, a preliminary step of converting to a strike-based message is included. Preferably, in some embodiments, the corresponding text-based message
Is an idiom that is attributable to the character and is related or at least compatible with the character.
You. Preferably, in another embodiment, the corresponding text-based message is a character
Due to different characters that are intentionally compatible and generally recognizable to the user, or
Related idioms. Preferably, the text-based message includes a story in which multiple conversation characters appear,
The audio message is an individual, each representing a different character that is generally recognizable to the user.
Can be generated with various multiplex voices. Preferably, from the original text-based message, French and English
Corresponding text-based message including translation between two defined human languages, such as words
There is a conversion to Of course, the translation is due to the characters (eg, Pokemon language)
Source or target language that is a contiguous and at least compatible language
May be included. Translation between languages may be selective, or
It may be added as an alternative to dioms. [0023] Preferably, the text-based message is provided by a user. Preferred
Alternatively, text can be used as a series of codes, for example, using a numeric keyboard.
Entered by the. Preferably, the text-based message provided by the user is a word or feature.
Another text-based element selected from a given list of constant text-based elements
Can be included. This list of text-based elements can be
Including words as well as expressions. One or more of these words, phrases or expressions may be
It may be limited. Text-based elements are attributed to, related to, or less
Can be included. [0025] Preferably, the text-based elements are specific codes representing individual text-based elements.
In text-based messages. Preferably this is a text based
Achieved using a preliminary escape code sequence that is followed by the corresponding code of the element.
It is. Text-based elements can be inserted by the user, or
Inserted to automatically add punctuation to a message, for example a sentence. Or
The generation of the audio message is based on a certain audio
It may include random insertion of certain audio representations between the audio recordings. Preferably, the coded sequence represents emotions and changes in character identification.
Text-based message with a representation of the background sound and recorded background sound
Used to insert into. Preferably, the coded sequence is HTML
Or it is based on XML. Preferably, the source database removes certain words that are not deemed appropriate,
More generated audio messages can be censored to some extent. [0028] Preferably, the text-based message is audio-based using voice recognition technology.
An audio message that is generated from the message and then represents voices that are generally recognizable
Used as a basis for generating messages. Preferably, the user provides one or more sound effects to the audio message
Can be. These effects can be used, for example, to change the sound characteristics of an audio message.
Can be used, so, for example, as if the letters are underwater or cold
Make a sound as if you had. Alternatively, optionally, a speech signal (eg, “F0”
Signal, or speech and prosody model) will substantially change the characteristics of the voice
It may be intentionally changed or replaced for the purpose. For example, sheep are Elvisp
You may speak with a voice that can be recognized as a Leslie. Preferably text-based
The message is ASCII (American Standard Code for Information Interchan)
ge) in a form usable by digital computers. Preferably, the above-described inventive methods are software capable of performing these methods.
Using a computer device with an appropriate operating system capable of executing
You may go. Preferably, the method uses the user's local computing device.
Computer that allows users to communicate remotely over a network.
This is performed using a data device. Preferably, a large number of users
Connected to the Internet and using the World Wide Web (WWW) site
And provide access to centrally accessible computer
Receive via the Internet. Audio messages are FTP or HT
For example, standard audio transmitted over the Internet using the TP protocol
Received as an attachment to a file in email file format or an email message
Can be. Alternatively, audio messages can be streamed to one or more users.
Audio broadcasting may be provided. In an embodiment where the audio message is generated by a computing device,
The option preferably generates an attached video corresponding to the audio message
Provided for. Preferably, this option allows you to
Available when generated by the local computer device. Preferably
, Audio messages and animations in Microsoft AVI format
A single audio / video, such as
Provided by Dual Computer Interpretable File Format
It is. Preferably, the animation is a character that "speaks" the audio message
And the letters move according to the audio message. For example,
The glyphs are preferably spoken and / or other facial in response to the audio message.
Or move physical characteristics. Preferably, the movement of the video character is an audio message.
Page is synchronized to a predetermined audio or speech event. This is, for example, the word
It may include the use of a beginning or end or some keyphrase or a signature sound. Embodiments of the present invention are preferably facilitated using a network. This
The network communicates text-based messages and / or audio
Allow message communication. Preferably, the network server implements the present invention.
Used to distribute one or more audio messages generated according to a form
Wear. Preferably, the method of the invention comprises an e-mail (e-mail) or an electronic greeting or I
Chat based systems such as RC (Internet relay chat) or ICQ (
Or other text-based communications (such as IP-to-IP message systems) or
Used with the message system. In these cases, text-based messages
At least an email message, electronic greeting card or chat
Extracted from the text of the line text message. Preferably, the method of the invention comprises an e-mail or similar asynchronous message system.
When used with an audio message, the audio message
It may be embedded physically. Or hyperlink to audio message
A click or other suitable reference may be provided in the email message. Audio
Whether the message is provided in total or by reference
The message may be played immediately or on a storage medium for later play.
It may be stored. Audio messages are broadcast to many recipients
It may be sent between recipients if necessary. The message is received, for example
A birthday message based on a predetermined rule
It may be automatically sent to the follower. In other embodiments, sending an audio message
Text that is converted to an audio message at the recipient's computer terminal
It may be replaced with transmission of a strike message. The sent text message is read
The voice to be emitted can preferably be specified by the sender. Preferably,
These types of transmissions are presented as digital greeting messages. Preferably, the method of the present invention is implemented in a chat room or similar synchronous message system.
When used in connection with a stem, the input and / or output messages may
It is converted into an audio message of the character's voice. Do in chat room
The messages taken are converted directly from the text given by the user
That can handle the conversations of chat room users.
H may additionally be derived via the h recognition means. Preferably, each chat room
The user of the system has a specific character voice (volume) to which the user's message is attached.
Chairs) at least at the default level. Some implementations
In the example, each user sends a specific character voice (voice) to another chat room.
Preferably, it can be assigned to a user. In other embodiments, certain channels
A chat room user may be automatically assigned to a particular character voice.
In this case, a user in a particular chat room may have a character with a particular theme.
May be conceptually occupied by a Kuta. (For example, famous American political figures
There is a chat room where there is. Preferably, the method of the present invention is implemented by a computer operating system.
Graphical user interface, or whirl
Used in connection with specific applications such as wide web. is there
Embodiments use text-based messages that speak in recognizable character voice
Provide a graphical interface user by providing a navigation agent
The user may be assisted to navigate. Preferably, other message systems are used, such as voicemail.
This method can be extended. It remains on the voicemail service
Includes an example of deriving a textual representation of the voice message in question. This occurs
A text-based message based on the selected audio message
Alternatively, it can be used to provide. Preferably, the method comprises the steps of a greeting message at the answering device or service.
Can be applied to the recording context. Some users have telephone networks, answering
Generated in accordance with the method of the present invention, through a device or service or directly
Having a computer device configured to use audio messages
Can be. Preferably, a central processing unit on the Internet is accessed by a user.
To communicate with the answering device or service via the telephone network,
Storing a record of the audio message in which the responding device or service was generated
be able to. This audio message is given by the user to the central processing unit.
Based on the obtained text-based message, by the response device or service
Be inferred via speech recognition of used existing greeting messages
Can be. Preferably, the language in which the text message is placed and the language of the spoken language are
There are standard variations of English like Merica English. Preferably, the prosody and accent of the message (pitch and speed of conversation) and
In addition, the choice of characters depends on the user's experience level, the user's native accent
Network congestion, such as the need for quick response,
Depends on the actor. Preferably, the “voice font” of the recognizable character is the optimal technology and
By using such devices, such character sounds used for text-to-
It can be extended by recording. Preferably, many users interact with the system provided in accordance with this embodiment.
Is acting on. Preferably, the database of messages should be
You will be allowed to recall or resend the new text. Preferably, the method comprises mostly text jokes, extensive knowledge,
Based on converting words, advertisements, or song parts to audio format
Audio-based jokes, extensive knowledge, stories, advertising, well-known
A regularly updated database of song parts extracted from the voices of the characters
Supply. Preferably, this joke, extensive knowledge, story, advertising or
Or the song part, using a computer network such as the Internet,
Or distributed to multiple users. Preferably, the prosody is inferred from the grammatical structure of the text-based message.
You. As a variant, the prosody is the intonation, speed, which is built during the recording of the user's own voice.
When a person reads text entered with all degrees and emotional expressions,
Training can be done by analyzing the audio waveform of the voice. This prosody
The model is used to guide the text to the conversation conversion process. As a variant, the prosody
Train by extracting information from the user's own voice during a conversation into the system.
Rukoto can. In each of these prosody generation methods, the prosody is
By including emotional signs or cues in the message based on
Can be improved. Preferably, a corpus (create a recorded data berth
Description of the recorded text) is the emotional expression used during the recording of the corpus.
(Eg, escape code, HTML, S
ABLE, XML, etc.). Preferably, a character voice TT for generating an audio format file
S is an encryption or time delay technique, preferably an encoder and decoder
The program can protect against versatile or unauthorized use. Preferably, the method of the invention tells a story on the user's computer or toy.
Can be used to Character and / or story speakers
Changes the character voice to reproduce the desired part by the user
Can be Some parts of the story are words, files recorded with the desired characters.
May consist of the sound portion of the laze and sentence, or
It may be configured partially or entirely using a TTS system. Preferably, the method is compatible with media systems such as the Web.
You may give guidance support. Preferably, the web site is
Includes the use of famous character voices to assist users in navigating the site.
Can be taken. The character's voice not only gives information contained in the site
Can provide additional annotations to the information provided by the website.
You. The character's voice is an interactive message that the user may ask.
It may function as an agent. In another embodiment, the website is a user
A conversation between different characters may be given as part of the experience. Conversation is automatic
Or may be written by an evaluation given by the user. Preferably, a telephone-based guidance system, ie an interactive voice
Systems such as the response (IVR) system use text provided to the system.
A base recognizable sound can be emitted. Similarly, the wireless application protocol (
Narrowband guidance systems as provided by WAP)
Recognizable voice can be used instead of text for the other user. Preferably, the embodiment is characterized in that the voice of the character capable of recognizing the broadcast text message is
Convert audio messages to be read out, for example, digital radio and
It can be used with digital broadcasting systems such as digital television. Preferably, the embodiments are simulations or idols or virtual worlds.
Is a simulation in which the text is spoken by an incarnation in a recognizable voice
Or a virtual world. Preferably, in such a world
The incarnation recognizes the recognizable caption of where the spoken text message gives
A visual effect equivalent to that of Rakuta is given. Preferably, the text message used in connection with an embodiment of the present invention is:
To convert a text message to the voice of a famous character, add a tag or
Alternatively, the mark may be added using another similar annotation. Language defined in this way
Identifies the voices of different famous characters and the text to be played in the audio
It is possible to identify different emotions in the game. Characteristic features are
, Specify in detail how a particular text message will be audio
Can be used for Preferably, calculate the environment that gives these features
Automatic tools are prepared for this. Preferably, an embodiment of the present invention provides a voice key providing an audio message.
An audio message can be given in synchronization with the visible image of the character. this
In terms of points, digital representation of the character is adopted, and the facial expression expressed is
, Continuous terms, expressions, and other auditory spoken by such characters
Elements are reflected. [0053] Preferably, the embodiments may be implemented individually, for example, by reference to a web site.
A human message can be given to the user. Preferably a personal message
Page is given to the user in the context of giving a gift to such a user.
Preferably, the message relates to a greeting from one person to another, and includes a famous character.
It is conveyed in the voice of Kuta. The greeting message may be, for example,
It may be expressed by a conversation between different famous characters assuming a scene of the greeting of the group. Preferably, embodiments according to the present invention generally use one voice.
) Is described. However, in general, the embodiments are different
Equally suitable for the use of multiple voices of capable characters. Preferably, in a wide variety of different forms and contents wider than those specifically mentioned above
Embodiments can be used. For example, real news readers, audio
Manga, multimedia presentation, graphic user interface prompt
May incorporate text into speech functionality according to embodiments of the invention.
Can be. Preferably associated with a toy connectable to the computing device directly or via a network
The method described above can then be used. Preferably, the toy is associated with a computing device
When used, the functionality required to achieve the above-described method of the invention as appropriate
You can use toys and computing devices to share. Accordingly, the present invention further provides a computing device for performing the above-described inventive method.
Contains coded instructions that can be interpreted. The present invention also relates to a computer provided with a medium.
Computer program, and the medium is adapted to execute the method of the invention described above.
Recording the coded instructions that can be interpreted by the computing device. The present invention
Can be interpreted by a computing device for performing the above-described inventive method according to the instructions
Coded instructions for distribution or distribution over a network
Further comprising providing. The present invention also implements the above-described invention method,
Includes a computing device that is adapted to execute. According to a fourth aspect of the present invention, speaker means for reproducing an audio signal,
Storage means for storing a text-based message, the storage means and the speaker
Audio means for operably connecting the audio means for reproduction by the speaker means.
Control means for generating an audio signal.
Audio, which is at least partially a voice that represents characters that are generally recognizable to the user
A toy for generating an audio message is provided. According to the fifth aspect of the present invention, a speaker hand for reproducing an audio signal is provided.
Stage, storage means for storing an audio message, said storage means and
The loudspeaker means is operatively connected for playback by the loudspeaker means.
Control means for generating the audio signal for
A voice that, at least in part, represents characters that are generally recognizable to the user during use
There is provided a toy that generates the audio message. Preferably, the toy is adapted to apply one or more of the preferred methods described above.
And applied to perform. [0061] Preferably, said control means is a connecting means for communicating said toy with a computer device.
Operatively connected to the stage. Preferably, the computer device includes the connection unit.
A computer connected to the toy by a cable via The connection method is either directly or via a network such as the Internet.
May be used to provide a wireless connection to a computer. Preferably, said connecting means is a text-based message such as an email or
Is the toy for playing recorded audio messages through the speaker means
To provide. Further, the connecting means converts the audio signal into an audio message for reproduction.
Directly to the speaker means. Preferably, the toy has the form of the character. Preferably, said toy is front
Response to the audio message and / or other facial or physical features.
Used to move. Preferably, the movement of the toy is the audio message.
Synchronized to a predetermined speech event of the page. This is, for example, the beginning and end of a word
, Or may include the use of certain key phrases, or signature sounds
Not. Preferably, said toy comprises a microprocessor based control means and a non-volatile memory.
Have a memory. Preferably, it has means for recording and reproducing audio. Like
Alternatively, the audio recorded by the toy is converted to a text-based message.
Convert and generate audio messages based on this text-based message
The audio message is composed of generally recognizable characters.
Spoken in voice. The preferred features of the inventive method described above are analogous to those of the present invention.
Applies where appropriate, such as in connection with toys. Also, when the toy includes a connection, the audio
Feed audio messages directly to toys using connection methods to play messages
can do. In this case, the toy is directly connected to a computing device or internet.
Text-based by computing devices connected via a network such as
Can be turned into an audio message. Supplied to toys
Audio messages are stored in memory means and played by speaker means
Is done. The advantage of this configuration is that the processing power of the controller means is lower.
And the storage capacity of the memory means of the toy is smaller. For example, if the text
Data to audio processing is performed on a central computer connected to the Internet.
Text, with extended software running on the central processing unit
Modified as required to provide audio to audio functionality (modified
Can convert text-based messages to audio messages so they can be
More flexibility in an efficient way. According to a sixth aspect of the present invention, at least in part by a user generally
A system that generates audio messages that are voices that represent recognizable characters
Means for transmitting a message request via a communication network;
Message processing means for receiving a message request.
Process message requests and, at least in part, identify characters that are generally recognizable to the user.
Composing said audio message being a voice representing
A system for sending a message to one or more recipients via the communication network is provided.
Is done. According to a seventh aspect of the present invention, at least in part, the user is generally aware of
A method of generating an audio message, which is a voice representing a character
Sending a message request over a communication network; and
Process the request and, at least in part, represent a character that is generally recognizable to the user.
Composing the audio message on a chair;
Sending an audio message to one or more callers via the communication network
Are provided. According to an eighth aspect of the present invention, an audio message is transmitted in a predetermined format.
Issuing a request to generate; and the audio message based on the request.
Generating the audio message at least in part.
In addition, audio voices, which are typical voices of characters that can be generally recognized by the user,
A method for generating a message is provided. Some embodiments are described in detail below. Text-to-speech system
For example, a TTS system is cited. In some embodiments, the user
Text representing the spoken audio or the language composition desired by the user to speak
Can be entered or withdrawn. The TTS system uses this text base.
Messages to process and generate voice messages.
Perform the conversion operation. The voice message is a famous cartoon character (eg,
Most like Homer Simpson) or real celebrities (eg Elvis Presley)
Is a voice that can be recognized by other users. On the other hand, the character of the Stero version is RAP
Use unique voice messages like those spoken by artists (eg Puffy)
Might be. Alternatively, the voice may be “granny” or “spaced”
"(Drugs) and" sexy "voices.
You can use plate characters. The text of the voice conversion operation can be used to translate text messages into many well-known features.
Pretend voice (eg, Elvis Presley or Daffy Duck), or imitate a distinctive voice
One converts the spoken message into an audio format message
. In an embodiment implemented in software, the selected character is automatically
Or selected by the user from a database of supported characters
It is. The conversion process for generating voice messages is described in detail in the "TTS system" section.
Shown in In the toy embodiment, the voice is the visual design of the toy and the clipped
Desirably, it is compatible with toy aids such as components. Users can use toys
The toy can be connected to a compatible computer using the connection means. So
Software rather does not allow audio format messages to be
Transfer compatible voice format messages to volatile memory on compatible computers
to download. Users can unplug toys from compatible computers
. The user then plays or replays the audio format message
To make the toy execute the control means. The software is connected to a modem and connected to the user's compatibility code via the Internet.
Download the audio format message to your computer. Audio format
Message is in a standard audio format (for example, Microsoft WAV
Or AU format of real audio). And the message is
A suitable audio replay software package (for example, Microsoft
Replayed through a computer speaker using a recorder. TTS System In a preferred embodiment, the hybrid TTS system is a text-based
Often used to convert messages into audio format messages. Hybrid
TTS systems (eg festivals) have limited domain slots
And a file consisting of a unit selection TTS system and a synthetic TTS system.
RTS system. Restricted domain slot and filler TT
The S system gives excellent sound quality to the restricted domain. Unit selection
The TTS system gives very good sound quality over a wide range of domains. But the record
Requires a large set of sounded audio data. Synthetic TTS system calls
From a small set of element (eg, double voice) recordings to an unlimited text domain
Very wide range, but suffers from lower sound quality. Unit Selection T
TS systems are an enhanced version of chained TTS systems. So that
The system records that the desired speech of the text matches the prosodic structure well.
You can select large (or small) sections to sound. A chain or synthetic TTS system is an alternative to a hybrid TTS system.
It should be evaluated that it can be used. In a preferred embodiment, the hive
The activities of each component of the lid TTS system are described in each text message.
Optimized to give the best possible sound quality for the conversion. Chained TTS System In a preferred embodiment, the chained TTS system is a hybrid TTS system.
Text-based messages into audio format messages instead of
Used to convert. In this process, text messages are unique words
Data called "supported language bases" that include messages and phrases in the message
Decoded into a unique index of the base. At that time, the characteristic TTS system
Unique words and phrases from the ported language base and selected characters
A voice recording of the voice of the character
A single voice format that represents a complete call message called a format sample
Add these samples along with the matt samples to extract the chain
Use an index. The software of the characteristic TTS system is optionally
Sound to enhance the clarity and naturalness of matte samples and audio format messages
The process of executing a sequence of voice format samples may be performed. Rather,
The process consists of a call voice fountain where the final voice format message was recorded.
Format messages and full audio format messages produce a natural sound.
To improve the rate as the gap between these samples so that
A rule adjustment algorithm may be included. Other optional process steps
The continuation of the grammatical structure of the text message and the pitch of the spoken message
To analyze the natural changes and optionally the prosody that fits the natural language
Including algorithms. Synthetic TTS System While a hybrid TTS system is preferred, a synthetic TTS system is also used.
It is possible. [0079] Synthetic TTS systems can be used to understand phrases and sentence
Advanced text as a speech and grammar process to increase the reach of
use. Synthetic TTS systems are smaller than chained TTS systems do.
Rely on prerecorded words and phrases, but rather select
An accumulated theoretical model of the character's voice and individual phonemes or double voice recordings
Synthesize the audio output based on it. FIG. 1 shows the system used to generate a voice message. This cis
The system generally includes a communication network 4. This communication network 4 is
-A network or a computer processor used, for example, by a message originator
PSTN to connect to stage 6 and computer used to receive messages
It comprises a processing means 8 and a storage means 12 or a database 14 connected externally.
Server means 10. Usually, the user has a background effect, or
If you want to send a message containing the voice of a known character,
Part of a message with voice elements recorded as the voice of the
Replaces all text and incorporates text-to-speech conversion to convert text to speech.
A message is sent to the computer processing means 6 transmitted to the server means 10 having the conversion unit.
Type a sage. These recordings are used as background for message insertion.
Are stored in the database 14 or the storage means 12 together with the effect. Then the sound
The voice message can be sent to the terminal 8 as an e-mail or telephone
The message is transmitted to the receiver as a voice message to the device 16. Meanwhile, other voice messages
Is a mobile phone 20 or a portable computer processing means 22 or an audio file.
Of personal digital assistant (PDA) 24 to play back
May be transmitted via the mobile communication network 18. Network 18
Connects to the communication network 4 via a gateway (eg, SMS, WAP).
Continued. The sender of the message or greeting can back up the voice message.
Famous characters with, without, or with prosody with background effects
Voice recognition means for converting text messages to voice messages
The telephone 26 may be used to deliver the message to the server means 10 having
. Then, the terminal 8 or 16 as a recipient, or the mobile phone 20, 22,
24. On the other hand, the message sender is the mobile phone 28 or the PDA 30
Alternatively, from the computer processing device 32 connected to the mobile communication network 18,
A message using SMS may be created. Voice messages, on the other hand,
It may be created using the talker 28. And all of the messages outlined above
It is sent to the server means 10. Description of Basic Text Verification System (TVS) A feature of embodiments is that words or phrases in a text message are
Be able to verify that it can be converted to the audio / audio format in the system
It is. This is particularly important for embodiments using a chained TTS system.
is there. Chained TTS systems generally translate text into recorded audio spoken language.
Audio formats for subsets of words that match the word database
It can only be converted to a message. That is, the chained TTS system is:
Has a finite vocabulary. The preferred embodiment includes a text verification system (TVS). TVS
Means that the text message is complete or "in progress" (word by word)
) If yes, process the text message. In this way, TVS is appropriate
Each word or word in a text message for an audio recording
Check each phrase. Words are supported if there is a matching speech unit
Words are referred to as unsupported words, otherwise
Referred to as The TVS preferably replaces unsupported words or phrases.
, Substitute a supported word with a similar meaning. This is performed automatically, so that almost all text messages
Is converted to an audio format message. Audio format menu
In the message, all words spoken in the audio format message
Have the same grammatical meaning as the words in the text message. Digital Thesaurus-Based Text Verification System (TVS) Another feature is the method used in the optional text verification system (TVS).
Related to canism. In a preferred embodiment, this feature is based on a thesaurus
This is performed by the TVS. However, other forms of TVS (such as
For example, dictionary based, supported word base
And those that are based on grammar processing). The thesaurus based TVS is preferably one or more large TVs.
Use a digital thesaurus. Thesaurus-based TVS preferably provides an index for each unsupported word in the text message
Convert to the word base of the selected digital thesaurus. TVS then
Preferably index into the thesaurus to find unsupported words
Attached. TVS will then generate a thesaurus collection for unsupported words.
Create an initial list of equivalent words based on synonyms referenced by the transcript
. The TVS then preferably attempts to run the character TTS system
Utilize software that is adapted or included in the text TTS system
. The software checks the internal list for supported words.
Used to One or more words in the internal list are supported
If it is a word that has been sent, the TVS preferably
Convert unsupported words to one of the supported words,
Or alternatively, all supported words from the internal list
Is displayed to the user for the user to select. If no words are supported in the internal list, the TVS will
Use the words as an index back into the digital thesaurus, and preferably
The second largest interior of a word that has a similar meaning to each word in the original interior list
Repeat the search to produce a list. Thus, TVS is supported
Until the word is found or exceeds some selectable search depth
And continue to expand that search for supported words. Predefined search depth
If so, the TVS preferably finds no equivalent word and
Prompt user to enter new word instead of unsupported word
To the user. The following items are noted. That is, prior to processing by the TVS,
The correct spelling of each word in the message is important,
The ability to fix the files is part of the software or, preferably, part of the TVS.
It is optionally included. Optionally, TVS can be used, for example, for color coding or other enhancements.
Therefore, a video that highlights unsupported words in a text message
It is possible to provide the user with realistic feedback. Supported
Word options are preferably a drop-down list of supported words
Allows the most suitable unsupported words to be exchanged by TVS.
The supported words that have been determined to match are optionally highlighted
Thus, it is possible to display to the user for each unsupported word. The user then selects a supported word from each drop-down list.
Select each unsupported word in the original text message
The software to complete the audio conversation process
Can be instructed. The following items are noted. That is, the TVS system and the character TTS system
The system's improved results include text messages, and common phrases and word groups.
Expanded to include a group (eg, “will go”, “to do”, “to be”)
Digital thesaurus and such phrases and groups of words
The number of sentences and phrases contained in the supported word base
It can be obtained by giving some grammatical processing. Where
Phrases and word groups such as are called supported phrases. In this case, the TVS system and the character TTS system search at the word level.
Try to find the first supported or similar phrase before running
View. That is, supported words and supported word bases
Using words supported within the context of a source extended to include phrases
Can be done. TVS Enhancements A further feature is defined for multiple thesauri inside the TVS.
A thesaurus is directed to specific words and phrases that produce one or more special effects.
Independently, the search is biased. The character TTS system is
In this embodiment, the supported words in the word base are carefully matched.
, Rather than T to match the equivalent supported word
It is optionally set to be sent to the VS. An effective example is "Hit
Pop pop. Here, the user sends a text message to "Hello my frien
d. How are you? ”
Is converted to "Hey dude. How's it hanging man?" So
After that, the character TTS system translates this second text message into a spoken equivalent
Convert to Dio format message. The added effect can be achieved by adding different selectable thesauri.
This is achieved by using a thesaurus based TVS. Here, each system
Thesaurus has certain special effects (eg, rap, net talk)
Talk) etc.) contains words and phrases specialized in Preferred language The language in which the text message is entered, such as Americanized English
A language whose spoken language is a variant of the standard English language. Of course, any other language
But it can be used. To convert a message in one language to a message in another language,
In some embodiments, a language conversion system (LCS) can be used. Therefore,
The character TTS system consists of one or more characters speaking in the target language.
It is configured to include a supporting vocabulary base of voice samples. Thus, a user can translate a message from one language to another.
it can. In doing so, the message will later appear in the culture of the second target language.
An audio format that represents a known character, that is, the voice of a celebrity
Message. Further, the speech recognition (SR) system described in any of the embodiments is
Due to its features, the user can access the first language user's message through the SR system.
By recording and decrypting the message, the user can receive text in the first language.
Can be used to provide a front end to create
You. This text message is sent to the LCS, character TTS system, optionally
The processing is performed by the TVS. This allows you to speak the message in your own voice,
The spoken message can be translated into the same message in another language.
Therefore, the voice message of the user himself is a well-known character, that is,
Celebrities (for example, for French, the French actor Gerald Depardue
) Can be translated into a foreign language message spoken. Of course, the above system
In the context of a system, this translation into a foreign language can be performed by e-mail or other message systems.
It can also be used when sending and receiving e-mails of messages in foreign languages. FIG. 2 shows an example of processing for such a language conversion. Specifically,
In step 40, when the user wishes to compose a message, step 4
Also in 2, the message text can be typed in the native language. this
In this case, the process immediately shifts to the language conversion program existing in the server means 10, and
At step 44, the program changes the language of the input text to the second
, That is, usually translated to the recipient's native language. Instead of this,
The message sender calls the server 10 using the terminal 26, and here the user
When the user verbally enters a message, the message is sent to the voice recognition unit 4.
6 and is converted to text in step 48. And step
At 44, it is converted to the language of the recipient. The flow of processing from both parties is
Proceed to step 50, where the text in the second language of the recipient is in the background
Speech that can also include sound effects, with the voice of a well-known character
Converted to speech. Generally, this speech is in the language spoken by the recipient,
The language of the recipient's country. Then, optionally, in step 52, the TVS unit
Once passed, in step 54, it is received by the recipient. [0099] Non-human, user-created languages. Some characters may contain human language (such as a Pokemon monster).
You may have a language that is difficult to recognize as a word. Perilla in a preferred embodiment
-Based TVS and character TTS systems are designed for target characters
Text messages are processed to produce audio sounds in the language in which they were created.
It may be configured so that it can be managed. [0100] Further, as another characteristic, a user can create a custom in the character TTS system.
A supportable vocabulary base that can be customized may be provided. Customizable
The support vocabulary base allows the user to determine which words in the customizable support vocabulary base
Means for defining whether the vocabulary is a support vocabulary and each support in the support vocabulary base
An audio format that provides a suitable recording of speech for vocabulary
A means to allow users to upload speech samples to a supporting vocabulary base
And This audio format speech sample uses your own voice
Alternatively, audio extracted from other sources (eg, TV series recordings)
Formatted samples may be used. As a result, a user or an agent acting on behalf of a plurality of users
Choose their characters in a language that is easy or near human
Or design. That is, the language spoken by the character
Let the character design or record the entire audio sound
Texts to speak the correct sequence of lines in the character's own language
The key human language vocabulary, phrases, and phrases used by the user in the message.
Sentence can be identified. Using an example, consider the famous Pokemon character Pikachu. Pikachu is
, Consisting of different intonations of different segments with its own name
Speak a language. The user or agent (eg, Pokemon creator) can use
An embody with a base and the corresponding audio
A format speech sample may be configured. Hello "Pika" I "Pipipip" Will "Car Car" Jump "Pie Chu Choo"
When the character is entered, the character TTS system displays “Peak
-Generate an audio format message called "Pie-chu-chu". Sa
In addition, TVS specifies that the embodiment is included in the audio format message.
A wider text message that can be converted than a system without TVS.
Provide sage efficiently. When the user enters “Wellcom, I want t
If you enter a text message like "o leak", TVS will
Text message "Hello, I will to jump ”
You. Thereafter, the user may delete the unsupported vocabulary "to". That
As a result, the same audio format as the audio format message described earlier
Format message is generated. Fast Prosody Conversion When a text message is converted to a voice message in a TTS system
The prosody of the message (pitch and speaking speed) is one of the methods described above
Alternatively, it can be determined by one other method. The speed of speaking the message is below
It is convenient to change due to the following factors. User's knowledge level User's native accent Need for quick response How busy the network is (faster response = higher
This feature is particularly relevant for telephone voice (message dial) menu systems (eg,
Direction voice response), ie IVR system and other banking,
Jit card payment system, stock trading, movie information line, weather forecast, etc.
This is especially true for users who frequently use applications. User knowledge
The level of knowledge can be one of the following or similar
It can be determined by several combinations. Fast Menu Item Selection Transaction in Processing Speed and Number of “Interrupt” Requests by User Storing User Identifiers
Consider the case where you are guided by voice. The user responds to this voice prompt and
Tapping the key at a faster rate will cause the system to speed up voice guidance accordingly.
Up allows the user to finish the task more quickly. Other Prosody Generation Methods In general, in a TTS system, the prosody is the proper intonation of the output speech.
Analyze text and apply linguistic rules to determine language and speed.
Is calculated by Obtain calculation results that are closer to the correct prosody model
One of the possible methods is described above. The above-mentioned method uses the remark (line) and the remark (line)
) Is suitable for applications required between. However, this method has limitations. Prosody model is very important, but user
Has been integrated into, for example, website navigation or voice banner advertising.
An application that can carefully compose fixed text messages in order to
, Other methods of prosody generation (so-called prosody training) may be used
. In this way, the prosody model is the user's own when reading the input text.
Is determined by analyzing the voice waveform of the voice of the subject. To record this user ’s own voice
Are the inflection, speed, and emotion cue of the user when reading input text.
Everything is included. However, in this situation, the text input to the TTS system
Rather than using a speech recognition engine to generate the text,
The output text is discarded. As a result, the text flowing through the TTS system
The apparent error rate during the strike can be reduced. Yet Another Method for Generating Better Prosody Models for Use in TTS Systems
Is similar to the above prosody training method, but suitable for use in STS systems
ing. In the STS system, it is converted to the voice of the character by the TTS system.
In order to generate such text, input of the user's voice is required. User speed
The recorded audio file is analyzed for its prosodic model
. This prosody model later learned the prosody response of a TTS system as described above.
It is used for kneading. In this way, the TTS system is effective
In addition, the speed of speaking with the user's original intonation can be mimicked. [0113] Yet another way to generate better prosody models for use in TTS systems
The law requires that an emotional cue to the TTS system be added to the input text.
And need. One such markup language is very similar to HTML
There is SABLE. Text that is converted into a speech that requires specific emphasis or emotion
The region in the strike tells the TTS system the prosody model that would otherwise be generated.
It is marked with an escape sequence that tells it to fix it. For example, TT
The S system is probably "So where do you think y
ou're going? "Going" toys in text messages
Ugo is generated at the rising pitch. TTS system using markup language
, “You're” toys have been emphasized and “going” toys
Give the toys a long, extended duration and a down pitch
. This markup modifies the prosody generation phase of TTS and STS. this
Prosody generation methods exist as prior art. However, as a new extension,
Couping is the actual corpus (Corpus)
Is a verbatim script of all the records that make up the database)
Included in the record of emotional speech, and the recorded speech database
With many variations, TTS improves unit selection algorithm
It is a toy that can make use of the markup in the corpus to do so. Markup Language Markup language is a language in which a particular textual representation is read by a particular character.
Includes tags that can be raised. Emotions, character voice TTS
It can be expressed in this markup text entered into the stem. Feeling
For example, the following information is included. Screaming Angry Sadness Ease Contempt [Speech markup function from text]
A toolbar function or to write text that indicates
Menu or right mouse click sequence can be text or audio processing
Can be included in one or more standard desktop applications
Good. This toolbar function or menu or right mouse click sequence
Of the character that reads the text, the emotion used, e.g.
Highlight other annotations, such as background effects,
Section in the text to make it easier to mark)
You. For example, to highlight a section in the text, the user:
Press the character button on the toolbar and select a character from the drop-down list.
select. Thereby, the character TTS system (in the section)
Suitable (hidden) escape to have the word read out in the voice of the selected character
Code (an escape sequence used in combination with an escape code)
Is added to the text. Similarly, the text is highlighted and read
To adjust the reading speed, accents, emotions, volume, etc.
Is clicked on the toolbar button. (For example, by color, chart, graph, etc.)
In the visual coding, where the user sets the speech marker
They may indicate what they mean. Message Enhancement Techniques Further about how to encode a text message with added information
One aspect is that the character TTS system uses an audio format message
Can be decorated (added) with other features. Such additions include:
Voice effects (for example, "underwater"), out of the chest (for example, "idiot, fool"),
Extracting and switching characters (such as those that appear in a lie scene)
Includes, but is not limited to, embedded songs. This method is predefined
Text message to give the defined character to the character TTS system.
You need to embed an escape sequence in the message. This allows the character
The TTS system reads the text message and reads the character TTS system.
As a special code interpreted by the conventional general processing of the system.
Read the string contained between the cape sequences. In the audio stream of the speech generated by the TTS system,
Embedding prepared expressions was described above. The expression to be embedded is inserted (for example, beat
Hands, "do", etc. (eg laughing while talking, background
Background song that starts at a certain point and lasts for a certain amount of time
May be part of the noise, or mixed into the entire message
. FIG. 3 shows that a telephone subscriber can generate a message to another user in his / her own voice.
With background sound effects, including intro and ending
This is used to enable the generation of voices of characters (well known characters).
An example of a possible system is shown. Specifically, the sender is the mobile phone 2
Either 00 or PSTN telephone 204 is used. Both are linked to the communication network
ing. This communication network can be the PSTN 204. In this case, mobile phone
200 over a wireless link 208, a cellular network 206 and a corresponding gateway.
B Linked to PSTN 204 via 207 (either SMS or WAP)
It is. Send either a voice or text message in this way
it can. PSTN 204 is controlled by intelligent network 210.
Signal. PSTN 204 receives the message as part of it
With a message management center 212 for background sound effects (famous
Server means for arranging the composition of messages (in a modified form, such as human speech)
214. Either or both of the MMC 212 and the server means 213
Message processing means. Server means 214 prior to creating the message
, A request from the message management center 212 is received. This request
, Audio, and other effects that the message should have
It is. The message management center (MMC) 212 receives the audible
An input correction database 20 for correcting a part of a message or a text message
9 and a phrase matching database 21 for correcting phrases in the message
And 1 is used. This MMC 212 can send SMS messages or text from the user.
To convert them to audible messages before they are passed to server 214.
And a text-to-speech conversion unit. Request is server means 2
14, the server means 214 stores the information in the sound effect database 215.
Message with background effect using the provided audio file
Constructs the message, and also provides the correct prosidy with the required message type
Is constructed using the character voice database 213. This
Here, the audio mixer 221 may be used. User 200 is another user
To send a message to the mobile phone 216 or
If a fixed PSTN telephone may be in use, the sender should provide a message management service.
The service provider 212 connects to the service provider. Confirm user ID and password
After acknowledging, record the message and add special effects to the message
Details are provided through a step-by-step process. In other words, to the user
Options for the following subjects, typically through an IVR system:
Is provided. This subject will: • Give an impression to the recipient of the environment in which the sender is located, for example, a beach,
A battlefield, a sports venue, and the like. These special sequences are recorded in the server means 2
14 or in the data store 218 of the database 215. And place
When the desired option is selected, it is recorded by the message center 212.
Are transferred to the server means 214 on the link 219 together with the following response.
This response is: ・ The famous voice to which the own voice is passed is determined from the choice of the famous character.
It is a sponge. Such a selection is made by the user for a particular button sequence on the telephone.
Press, which is recorded by the message center 212 and later
Transferred to 214. Intros and endes that users want to specifically incorporate into their messages
Anything that is dictated by famous voices,
May be selected. Therefore, use the beginning and end as character voice
Or created by the user depositing the message (selection
Specific speech)
A cans may be selected. When all information is recorded by the message management center 212, this information is
Server 214. The server 214 extracts the recorded message and
Using the speech-to-speech system of the present invention,
From the database 215
Incorporate background effects. This background effect is
, And the intro and ending requested by the sender. combination
This is then passed to the MMC 212 as a message and
The user selects a recipient telephone number stored in the
Enter the same destination phone number and it will be passed to the final recipient. There
May first enter the recipient's number. The message is sent to the
And may be modified if necessary. And this message is
04 and / or 206 to be forwarded to the recipient's telephone for listening, or
Deposited as a message on the transmission service. The alternative to using character voices is not to use voices at all
Is pre-recorded and recorded in the data storage means 218 or the database 213,
“Happy birthday” or “happy birthday” selected by the user through the aforementioned IVR technology
Or simply provide a greeting like a “happy anniversary” toy.
Alternatively, some prompts recorded and stored in the database 213
Favorites with a list of the top 20 songs selected by the user via
Songs may be selected from radio stations. Then, the server 214 copies the selected song.
Add any message, which may be the voice of the character, and deliver it to the recipient. Referring to FIG. 4, some of the text entries on the sender's mobile terminal 200
Is shown. Screen 230 sent to "JOHN" and "MARY"
And say hello sadly in Elvis Presley's voice
Indicates a message. Screen 232 displays an easy-to-
Present a message that is a happy and birthday greeting. Screen 2
34 is configured by the service provider and is basically a voice of Elvis.
Say low and indicate a message that is "cool". FIG. 5 is a flowchart showing the main processes included in the present invention.
It is. In step 250, the telephone subscriber creates a new message
Or contact the service provider in step 252.
You. Then, in step 254, the subscribers receive their user ID and password
Authenticate the details. In step 256, the subscriber makes an administrative change.
You will be asked if it is necessary to prepare a message. Administrative
If a change or action is required, the process proceeds to step 258 where the user
The user can register, ask questions, create nicknames for user groups,
Can create or manage invoicing. Step 260
The user is prompted to send the message. Sending messages is rare
If so, the process proceeds to step 262. Step to step 262
You can also go from 256. In step 262, one of the two flows
One is a "static" path and the other is an "inter
Is an “active” route. Static routes are generally
Because the user chooses an option that does not have the opportunity to review the action
In addition, an interactive process allows, for example, the user to listen and modify the message
Is a route that is an IVR. Thus, static processes are required
If so, the process proceeds to step 264. In step 264, the application
And the delivery platform are extracted, and in step 266, the configuration
The resulting message is decoded, and the destination is decoded in step 268.
Then, in step 272, the composed message and the decoded destination
An output message is generated based on the information and delivered to the recipient in step 274.
You. This allows the recipient to receive and listen to the message at step 276. So
After that, the recipient interacts with this message in step 277 or
You will be given the option to respond to toys or toys. This operation returns to step 254.
It may be done by doing. In step 254, a new message
A prepared response or a received message forwarded to another user
Messages can also be created. If no interaction was requested
If so, the process stops at step 279. If an interactive route is selected from step 262, the process proceeds to step
Proceed to step 278. In step 278, the application and delivery
Platform selection is performed. The message consists of step 280
, The user is prompted in step 282 if he wishes to review this message.
Is done. If the user does not want the review, the process proceeds to step 284,
Here, a destination, a recipient, and a number / address are selected. Then in step 272
An output message is generated and delivered at step 274 and received at step 276
Received and listened to by others. I will review the message in step 282
If so, at step 286, the server 214 or MMC 212
, And output for review platform using voice database 213
A message is generated. The message is reviewed at step 288 and
Approved at step 290 or otherwise reconfigured at step 292. For text entry on a mobile or PSTN phone terminal,
The message uses a template sent to you by your telecommunications provider
And easily configured. In mobile communication, short message service (S
MS) is shown in FIG. 6 with a short text message up to 160 characters long.
So that the composition of voice messages can be easily entered in an SMS environment
Can be used to send and receive possible templates. Example shown in FIG.
In, the template appears on the screen of the mobile phone and the SMS text
The 160 character field of the message is guard band 3 at the beginning of the message.
00 and a guard band 302 at the end of the message. these
Several fields (seven fields in this example) exist between guard bands
However, the first field 304 is used to provide the name of the subscriber and the second field 304
Field 306 shows the telephone number of the recipient, and third field 308 shows the key.
The voice of the character, in the fourth field 310, the type of message to be sent
Ip, style of message in fifth field 312, sixth field 3
In 14 each optional background effect to be used is indicated and the seventh field 3
Reference numeral 16 is used to indicate a message delivery time. From field 314
In each of 316, as shown in the expanded portion of the figure,
Check boxes 318, these boxes are configured by the sender
Used by senders to indicate various parts of the type of message they want
. The user will see a box with some of the options in the field that he wants to use.
All you have to do is put an X mark or check mark on the box. For example, the sender
, By Mary in field 304, the telephone number of recipient David is
Vispresley's character voice is a fun bar with beach sound background effects
Send a message with Sunday message between 11pm and midnight
Indicate what you want to do. How to compose this type of message, as described above
, Various instructions are provided by the telecommunications provider. The message
Once configured, the user need only press the send button on his mobile phone terminal
. The indicated message is received by MMC 212 and converted to voice
Is transmitted to the server means 214, and then transmitted to the recipient. On the server 214
Is used to use a particular character voice stored in the database 213.
Construct the message. The server sends an X mark in the composed message.
Options that have been checked or checked efficiently and used in the template.
Ignored other standard or static information. Alternatively, a standard supplied by a telecommunications provider as shown in FIG.
Templates are simply configured by the subscriber themselves, without conforming to the format
May be. A set of templates may be used as part of a message,
? Is sent between the users when asked. Therefore, how the message can be structured and the template
Knowledge between users to show how they can be sent using
Is sent. As a part of the message, the user's own template or his own device
All natural language sentences typed using the template
Steps 264 and 266 shown in FIG. 5 or Step 278 using the server means 14
And 280 are selectively processed. Therefore, the voice message is sent to the recipient by the mapping process,
As a result, the spoken text is converted from a shorthand template to a voice message.
Is converted as follows. [0133] The server means 14 uses the template that contains any control elements.
Can be determined. By way of example, each of the areas 304 to 316 is stored in the server means 214 or the message
The signature part or other features such as the recipient's telephone number and the time of transmission
Has been devised and secured by the MMC 212 for expressing The server means (or optionally MMC 212) may be, for example, a voice, Elvis
The building can be identified as Presley, the building can be identified as Bill Clinton, or
The message type is Birthday and the LU toy message type is love you
To determine an appropriate dictionary of words within the framework of the template.
Can be. The recipient of the message can edit the SMS message. Also,
The recipient of the message may reply to the sender or send a SM to a friend or other user.
An S message can be sent. This means that, for example, a message of anger is processed using a war sound effect as a background.
Or toys that are processed using different voice characteristics each time they are sent.
Whatever form is required to resend the message, the server means
Is converted. A predetermined message is selectably stored on the user's telephone.
By pressing any of the keys on the phone, the note on the phone body
Message can be read from the directory and the structure of the message to be sent to the recipient
Can be used as part of An effect can be added to a message any number of times during recording and playback. In addition,
The result is added at any time while operating the phone key within the message
be able to. For example, a specific background effect or audio at the end of each sentence of the message
May be added. As an example of the concept of using the SMS message described above, American Football
Someone is playing a SMS text using a mobile phone to a friend at the stadium
Can send messages. [0141] They simply enter the word "team, boo" and the phone number of the recipient
Can be. [0142] After the message has been processed, the recipient, in a famous player's voice, says, "Poor you
Your team has lost 20 points, and now your team can win
I can not receive it '' with a voice message with background sound effects
. The recipient may respond by pressing one or two mobile phone buttons.
As a result, an appropriate response can be immediately constructed, and the response can be transmitted. As described above, the received message is edited or a new message is composed.
You can choose whether to create. The concept described above also applies to the Internet (communications network 204).
Applicable for use. Thereby, a portable device 200 or equivalent PDA or computer
All terminals can implement WAP, can enter messages, and support messages.
Server means 214 to compose the message or voice message for a particular recipient.
Convert to sage. [0147] Private messages created by line subscribers are broadcast to a large number of recipients.
Can be road cast. Thereby, the signer can execute the step 258 shown in FIG.
Enter the phone numbers for each of the specific groups as shown. Through the communication network
This is either by way of the Internet via a web site or
Done. A message whose characteristic tag, ie, identifier, is a joke may be transmitted.
Used to identify groups. Then, the MMC 212 and the server means 21
4 receives the message, and the MMC 212 and the server 214
Eyes sent via the IVR for the purpose of selecting one of the members
Decode the target data. This is essentially a virus that makes every call from a one-off message.
Communication technology. Because of the message sent to each of the recipients, such a message is
It can be reconstructed as a message. [0151] Such a message is sent to another user in the same group or the responding user.
Sent to the group. FIG. 7 shows the user of the portable terminal via the MMC 212 from the server means 214.
The drop-down menu 35 based on the pre-adjusted expression 352
Each portable device as a means to allow composing a message containing
A series of drop-down menus 35 that would typically be sent to terminal 200
0. Therefore, all that the user has to do is emphasize
Or within each window, to pass on text or to one or more recipients
Select characteristic expressions from a drop-down menu to compose multiple expressions
Is Rukoto. This can be done selectively via the Internet. So that WAP
The same message can be sent by a computer terminal or mobile phone or PDA that can be implemented.
A sage may be configured. At this time, the input message is a voice message by the method described above.
Is processed by the MMC 212 and transmitted. Each message may include background sounds or other effects such as those described above.
Can be. The scroll bar 354 forms a large number of arbitrary words, phrases, sentences or messages.
What scrolls through the part to be used is used. [0158] Other embodiments of the present invention are common and depend on the particular character.
Famous characters managed in terms of toys where words are not allowed to be emitted from the mouth
It is a system that follows the words or expressions uttered by the mouth by Lacta. specific
In the context of, some characters use a word or a phrase
I would not say. For example, a particular personality may be different brands, different characters,
Or have a sponsor dealing with a brand that excludes talking about another personality.
You may be doing. Or, those voices, in certain situations,
You may be hoping to guarantee not to say. FIG. 8 shows that one word or phrase depends on the selected character.
7 is a flowchart showing a process related to when the user does not speak. Step 5
02, the ban list is stored in the database 211 or the server 214.
To a character or personality in the database, which may be
Is established. In this database 211, depending on the selected character
Contains a list of words or expressions that cannot be spoken. In step 504
Indicates that the user has entered a word or phrase and, in step 506,
Or a character or personality to say a phrase. In step 508
Means that the server means that the word or phrase is a character in the specific database 211
Check the database for words or phrases that violate the
Check. The question in step 510 asks if the word or phrase
Is checked for a banned list in the database for the
It is. And if present, the word or phrase is not OK
Is set. This is performed in step 512. Words
Or if the phrase is not in the ban list for the particular character
, Then at step 514 a check is made that the word or phrase is OK.
Is set. After step 512, one of the databases 209
A substitute word or phrase from the digital thesaurus formed in the part is searched.
Is found in step 516 and the message in text form (audio
Message). The process then returns to step 508
. If the prohibition flag is OK as in step 514, then
The process continues. And that word or phrase is used in the message
It is. Then, it is transmitted to step 518. FIG. 9 shows a case where a user inputs a natural language interface with a natural language interface.
Drop on the terminal to establish a session with the NLI
Natural language change according to user that can be entered or selected from down menu
Is the process step in which the conversion system is used. This is due to step 550
Is given. Then, in step 552, the NLI sends the application or
Loads a user-specific prompt / question engine. And NLI is
In step 554, automated spoken prompts provide natural language
Gives attention to user input. Then, in step 556, the user asks the question
You will be asked to do or make a comment. Then step
At 558, the NLI processes the user input in natural language and normalizes the text.
Determine the kist result. And the natural question from the user is, for example, the server
A predefined response set or stored in a memory location in the means 214.
Is converted to the answer. The question in step 560 is enough to continue interpreting the message
Asked about sensitive information. If the answer is yes,
In step 561, the "continue" flag is set to "OK". And step
At 562, translating the user's input using the normalized text creates a message.
Continue to complete. That sufficient information exists to continue interpreting the message
If not, then the "continue" flag is set to "not OK" in step 563.
Is set to The process is then further responsive to natural language user input.
Return to step 554 for a prompt. Host system or interface
Is based on telecommunications systems or other free-form interactive text.
System, eg, email, chat or internet sound
Via the voice system. FIG. 10 shows that a message is transmitted using the speech interface (SI).
4 is a process step used by a user to configure. The user
, Telephone system or other unnaturalness that will enter the response to the question
Interface with a simple interactive text-based system.
Would. And such a response is further messaged by the techniques already described.
Will convert to normalized text to convert to. Then,
In step 600, the user exists in the server means 214 or a part of the MMC 212.
A session may be established with the speech interface. Step
In step 602, the speech interface loads the application or
Or use your own prompt / question engine. And in step 604
The speech interface provides the user with automated voice prompts.
Attention to user input in unnatural language. In step 606, the user
The user provides user input in an unnatural language. Then, in step 608,
The peach interface processes user input in an unnatural language, and
From, determine the normalized text. An example involving user input in an unnatural language is the following sequence of questions and answers: Q: Would you like to travel somewhere? A: Melbourne or A: I want to go to Melbourne on Tuesday. Or A: The user says: "I'm in the voice of Elvis Presley,
I want to make a page Based on the information received, MMC 212 or server 214
Determine from the stored phrases and words whether you can continue. [0163] In step 610, the information processed is sufficient to continue the message.
A decision is made by the MMC 212 or the server 214. Giving
If the information obtained is not sufficient, then at step 614 the process
(After setting "not OK" in the "continue" flag in step 613)
604 (Speech interface returns to note more unnatural user input
You. If there is sufficient information from step 610, the process proceeds to (step
After setting the "Continue" flag to "OK" in step 611)
Proceed to step 612 with conversion of user input using normalized text for
No. What we saw in the next section was what we heard (WYSIWYH)
Or select a menu item by pressing an auxiliary button
Or by using the right mouse click menu, etc.
Expressions may be added during data input. The expression information is then the character sound
Markup in text sent to the voice TTS system (eg, SABLE
Or XML). [0165] Laughing, clapping hands, and a very expressive state
This is an example of an expression that can be used. However, adding features that have advanced other attributes
Is also good. The background sound may include audio speech signals or
May mix in the artifacts created by the TTS system. For example,
TTS system characterized by the voice of Ray Walker (F1 commentator)
The system programmed to generate the squeak sound of the F1 car into the background sound
May be combined. The personality of a sports player (such as Mohammed Ali)
Character TTS system for the audience cheering sound mixed with the background sound,
It may have a punch sound, a camera flash sound, or the like. Elvis Press
Lee's character TTS system mixes music and music
Or have a song. However, the background sound is not limited, and may include white noise, music, songs, and people.
, Normal background noise, and various sound effects. Another type of technique relating to improving the listening quality of generated speech is speech.
Need to be distorted slowly. For this reason, incompleteness in natural speech synthesis
Totality is more sensitive to the human ear than imperfections in unnatural speech synthesis. 2
One way is to maintain good quality for the speech to be recognized as the target character.
While holding, you can be prepared for the distortion of the speech. One of these two methods
Second, it is necessary to apply the filters from the previous process to the output audio signal.
is there. These previous process filters have some special effects (for example, underground
(Water, echo, robot-like feeling). The second way is one or that
TTS or STS sequence for forming or replacing the above speech waveform components
Using the characteristics of speech signals in the stem (eg, speech and prosody models)
is there. For example, the F0 signal may change from a typical male to a typical female (ie, higher
Wave number) or the frequency may be shifted to
To make you feel like a toy, more feminine,
Alternatively, the frequency may be shifted to a different sound. Or, use the F0 signal for some strange
F0 signal recorded from a sound source (eg, a lawnmower, washing machine, or dog bark)
It may be replaced by a number. This effect, as a result, for example,
Sounds like a combination between a washing machine and sounds like a pet dog
Becomes voice. Text Input, Expressions and Filters Personalized text messages for converting the sound of selected characters
When acting on a website to create a page, the first or second user
Selected character (for example, Elvis Presley page)
Enter the web page dedicated to (d). Preferably, each character page
The screen is similar to the general design, and the multi-line text input dialog box
Buttons, some expression links or buttons, and a specific effects scroll list
Includes a message creation section with a The first or second user
Message to be spoken in the multi-line text input dialog box
Words and any appropriate expression links or buttons included in this message
Type specific expressions (eg, “Hubba Hubba”, “Grrrrrr” laugh) by selection
can do. A pre-recorded audio sample of these selected expressions is a character TTS
Automatically generated during audio format messages as generated by the system
Is inserted into. The text message or part of the text message is:
Select a region of text, preferably from a specific effects scroll list
In the item selection software, depending on the specific effect filter
Post-processing can be marked as much as possible. Examples of effects are expected
May include examples of "underwater" and "cold" effects that distort the sound of the voice
. While the website is used as a preferred user interface,
Any other suitable user interface method (eg, the user compatibility
Computer, browser plug-in, chat client or email
Package) contains the necessary features without compromising the user's experience.
It should be noted that it is possible to easily adapt to As an example, a web accessed by a user who wishes to compose a message
A web page 58 is shown in FIG.
It may belong to a server such as the linked server means 10 or another server.
Once the website has been accessed, the user will be asked to create a message.
A dialog box 60 for entering text is shown. An additional box 62
Used by the user who clicks this box
May be inserted into the message at the location of
Instruct the user to various expressions such as: Certain types such as "under water" or "slightly cold"
Additional boxes 64 for inclusion of effects are those that want a message to be conveyed.
Users can select and cooperate with specific special effects in
Or can be supplied in part. The message is an email address
Sent to the recipient by the user typing in
Accessed this particular website and added the sound of the character to it
For listening to any message of the effect or expression. Arbitrary Use of Voice The character voice TTS that generated the audio format file is encrypted.
Or it can be protected from multiple or arbitrary use by delay techniques. Ki
It is desirable to retain control of the character's voice usage. In addition to other benefits, this
This means that the voice of the character is not used improperly or the copyright is
Toys that are not to be used, for example, any cooperation between the existence of the user and the licensor.
We can also help to ensure that they are certain. Such control measurements
One way to meet this is by the user for a decoder / player (stand-alone) for the user.
Supply loan software modules or browser plug-ins); and
May include encoded audio format audio files in proprietary code
No. This decoder discards the message from the user's computer and
Can be programmed to play the page. Speech System Speech The logical extension of the use of some TTS systems of our invention application is:
Combining a TTS system with a speech recognition engine. That
The resulting system is called a speech-to-speech (STS) system. this
Et al. Provide two main offerings of a speech recognition engine as a front end for the present invention.
Can be obtained. [0174] 1. Users can talk to the system and type rather than require typing
it can. 2. The system is more than can be obtained purely from textual analysis,
For a good prosodic model for the TTS system, the
Prosody (pitch and speed) can be analyzed. These are the two streams of speech recognition system retrieval. -Speaker independent inexperienced recognition. The ability of this type of system to understand each other's voice
For many different users without requiring the system to experience
It is better to handle audio. The application is a telephone law menu etc.
It is. • Speaker dependent experience recognition. The capabilities of this type of system depend on the speech recognition system.
System can experience a better understanding of the voice of one or more specific users.
It is something that can be done. These systems work from natural to continuous speech
Recognition is usually possible. These are appropriate for dictation type applications.
And many applications of our invention, especially email
This is effective for chatting with files. [0178] The use of speech recognition and the text of the speech system are
Translation from one character's voice (ie user) to another character's voice
Can be used advantageously for the purpose of For use of the STS system, the prosody model from the spoken message
Additional modules need to be added to the speech recognition system to obtain
Which is the waveform of the fundamental frequency of the larynx (often referred to as F0),
Continuous analysis of speech changes (eg; ascending or descending) and the persistence of speech units
I do. This information combines the text model of the spoken message with the phonetic
The speed of the original (speaker) spoken message
Can be used to generate very accurate prosodic models that are very similar
it can. Talk Based on Character The first and second users download the first user's computer or toy.
You can choose a story to load. The first user has a web page.
Entering and supporting web pages or other user interface components
Select each character from the drop-down list of
By doing so, one of the characters and / or narrators in the story
Can be arbitrarily selected in order to limit the sound to be played. For example
The story of Snow White is described by Elvis Presley.
Can be narrated. Snow White is Inspector Gazi
Can be played by the Inspector Gadget, and the magic mirror
-By Homer Simpson and Wicked Quee
n) is played by Darth Vader. The software was later created and an audio format message for talking
When generating a page, preferably the voice segment of the recorded character
Connect the story. Each segment uses the character TTS system
Arbitrarily partially or completely created or recorded words, phrases and
And can be created from sentence sound bits. Message Directory A database of messages for specific user use can be provided.
You. The database contains a list of messages sent to and received by the user.
Contains information about Said user is an Internet e-mail system
Translate the message to another user by or compatible computer
Original text files for the purpose of the message
Previously sent or received, either in the form or audio format form
May request to recall any of the received messages or vice versa
. For the toy example, one or more selected audio format messages are
Can be translated by the user. The audio format message
The toy may be transferred to the toy as described above, but later erased from the non-volatile memory of the toy.
You may leave. The database may be fully or partially contained in an Internet server
Or another network computer. Alternatively, the data
Bases can be stored on each individual user's compatible computer
You. Optionally, most of the data in each audio format message is
A database residing on an Internet server or other network computer
User compatible computer with existing index and related information
You may store in. Jokes and Daily Messages Other features relate to the following: That is, the first or second user
The conversation sequence is related to software via the website,
The resulting communication of the software must be compatible (compatible) with the first user.
In some cases, related to computers, or, in particular, in games,
The resulting communication is related to the first user's play. The Web site has the following database that is regularly updated (updated).
And access is provided. For example, text or voice-based jokes
Nifty words, stories, advertisements and generally supported voices, ie voices or individuals
Supported voice not related to. Or alternatively, the jokes mentioned above, or the nifty
The text version of the words or stories is processed by the TTS system
And so on. The first or second user is the message to be downloaded or the first user
One or more pre-recorded messages to be transferred to another computer
Can be intercommunicated with a web site to generate And then
Then, the game shifts to the first user's game as described above. Optionally, the first or second user, and preferably the first user,
Can automatically generate the software to automatically download things
it can. For example, new jokes, nifty words, ads, excerpts songs and
And / or talk, and periodically (eg, daily), the computer of the first user.
Generated on a web site or a game console, or alternatively, on a web site, by email
Send a notification or tell you about the presence of the email and subsequent collection of the new item.
To send notifications. It should be noted that, when annotating, the database of each item may include other items as necessary.
Audio products. E-mail and Greeting Card A second user of the computer and a Web browser and / or e-mail software
A. Entering or retrieving a single text message to the software
Can be. And optionally, it is the audio (voice) format of
You can choose to be embodied in a matte message. The software performs the conversion to one audio format message
. Preferably, the audio format message is downloaded to the first user.
You. As a result, one voice format message exists on the Web site
Is notified to the first user for download, preferably by email
It will be notified at. The first user completes the download and, as described above,
Is carried. [0191] In the embodiment of the game device, the voice format message is the connection of the game device.
It is conveyed to the game machine via the means. This is for portability,
, Read e-mails from third parties in a specific voice
Computer can be disconnected. Speech produced by the TTS system (any expression, effect,
Audio files, including scenery etc.) in one email (eg,
, WAV or MP3 format) as one attachment or one
May be sent to the recipient as a ream file (eg, AU format)
No. Therefore, the audio file may be included on the TTS server,
Is included in the body of the email message to the recipient
You may. The recipient is on a hyperlink in the email message
When clicked, the TTS server sends the audio file to the recipient's computer.
Files in streaming or non-streaming format
Is instructed to do so. [0193] The audio format file may optionally be stored on the recipient's computer.
Can be dynamic, during or immediately following a subsequent download
May be moved. In addition, for the subsequent use of the recipient or before
Storage media for use prior to other email messages to the recipient
Saves may optionally also be enabled. In addition, all players
Streaming audio (voice) may be used to deliver command files
. [0194] Optionally, the e-mail message can be multiple, rather than sent to a single recipient.
May be sent (broadcast) to the recipient. The TTS server decides,
Automatically updates the contents of the recipient list (eg, all users whose birthday is registered today).
What is indicated by the sender or by the sender on the list of recipients
It may be. The text of the email message may be typed in,
Speech discriminator as described elsewhere in Peach to Speech (STS)
It may be collected from gin. Further, when sending a voice message via e-mail with a voice having predetermined characteristics,
An e-mail reading program is provided, which provides an e-mail message of the input text.
And converts them into one characteristic voice. [0197] Alternatively, the email message may be a greeting message or a static or animated message.
It may be in the form of a greeting card containing a visualized message. Considering an example of sending an email or online greeting, John Wayne,
Luclinton, Dolly Parton, Mickey Maast (TM registered) or Max
・ Has a message spoken by smart or the like. The sender is the e
You can enter text in the email or attach a digital greeting. And
, The recipient receives the email or greeting and opens it, as if it were sent
Speak to the recipient in the voice of a celebrity, as if the believer reads in the inserted text
There is a voice to be heard. Another embodiment is a speech recognition (SRS) system, as described above.
It can be added as an option to an email processing system. This SRS
The system allows the user to convert his own voice into a text message
used. The text message is then sent by the TTS system.
It is converted into one characteristic voice in the format message. This is one of you
It is a mechanism that converts a spoken message of the user into another characteristic voice. Chat Room The user can use the Internet chat service and client software (
For example, they can communicate with each other by ICQ or IRC client software.
Users of these chat rooms and programs are
Referred to as "chatters" and its input / output text
The message is a specific character or personality in the audio format message
Converted to the voice of the tee. During the chat session, chatters will be able to
Conduct communication. Here, each chatter is real-time or approximate real
Type or record one message displayed at the time. By using the appropriate software or software modules, the chat software
Stoweer further enhances the ability to select from possible characters for chatters
And those input / output messages are automatically sent to the fan
-It can have the function of converting to characters. And increase the fun of this chattering
Make it bigger. Optionally, a typical chat expression (eg, LOL,
) Is, of course, provided for converting) into an equivalent representation of speech. Voice-in-voice (ie, one of many voices) chats are particularly
Should be changed to famous characters. Input from a particular user
It can be directly as text via input from the user's keyboard, or
Or via a speech recognition engine as part of the STS system as described above.
May be used. The output audio is for all users in the chat room (chat
(With character) is supplied continuously, which (if applicable)
Supplied in synchronization with the text issued by each user. A single user is responsible for all messages by himself and in this scenario
One character may be selected to generate a message
The user may speak in his / her own dedicated selected character voice. Other
Nario will use each of the users in the chat room
It allows the assignment of a set of possible voices. This is the chat
He gives us more variety in the types of voices he can select. Also
, He / she then assigns his / her voice assignment even during the chat session
You can change it yourself. [0204] The chat user may select a background effect or inserted expression as his / her wish.
Can be added. You can also apply other special effects to his or other voices in the chat room.
May be added. [0205] Chat rooms are based on a static or animated 3D world.
May be embodied on behalf of the user in the chat room. [0206] Multiple chat rooms may also be segmented, in which case today's traffic
Not the usual, for example, by topic or age or preference
It may be performed on a class basis. This is different for different chat rooms.
(For example, the Hollywood Room, famous by movie stars, the famous politician
Characteristic white house). [0207] A chat session on the Internet that selects a character to be heard
Considering this as an example of an action, this is
Includes options to be heard. As a result your chat partner
-For example, as Elvis, all words in your story and what you type
You will hear. You can switch characters as you like. on the other hand,
Make sure your chat partner chooses to hear what you say
Can be. Voice enabled avatars in a simulation environment This application uses a variety of computer animated characters
Is very similar to 3D chat, which is a specific voice personality of a known character
Is what it is. And user designs 3D simulation world / environment
And interact between the characters in the world. [0209] One example is via a purchased program or via the Internet.
Access is the user's participation in one 3D world. In this world, you
The can create environments, houses, streets, and more. Users are also people
Family and community by choosing and giving them personality
Can be made. The user gives the individual people in the simulation world
Apply unique character voices and select above with each other or others they meet
They can be programmed to converse with the voice of the character. [0210] An interactive audio system. A further feature is that it relates to an answering machine and a voice mail system.
Outgoing message (OGM) recordings are absent, adapted to the linked work
Permission within a telephone or voice mail system. The user has a unique
The audio format message of the lactate voice, for example,
The generation by the server means 10 is started. After that, the user
To receive an audio format message and record it as OGM
How to configure his answering machine or voice mail system
Is instructed. The method differs depending on the type of the answering machine and the telephone exchange system.
Can be. For example, the server means 10 preferably comprises a telephone answering machine for the user.
Dial the talk and then set the user's answering machine to OGM recording mode
Transmit an audio signal specific to the code needed to
On one telephone line, the audio format media previously created by the user
Play the message, and send the audio format message to the answering machine.
Cause the message to be recorded as its OGM. After that, a third party calls the answering machine
When you make the call, the third party will have a unique character or personality voice
You will be greeted with a user-created message recorded at. Interactive Voice Response System Audio voice prompts the user to enter a particular keypad combination.
Prompt and navigate through the available options offered by the system.
Various response systems are available. Audio is generated by the system
Provide examples, which are voices of celebrities based on written text messages
Can be. Similarly, an information service (such as a weather forecast) may be
Can be read in the voice of the character. Other Navigation Systems Internet browsing is used to deliver audio content.
Can use character voice. For example, a WAP-enabled phone or (PDA
Users utilizing other devices (such as
Or the speech recognition system converts speech to text as described above.
Either by speaking into a microphone at the point that is activated to switch
Thus, one can navigate to the WAP application. At that time,
These text commands are typical Internet activities (eg: Browse
Internet to perform internet, chat, search, banking, etc.)
Operated via. During the majority of these operations,
Feedback is that it is in audio format, and preferably recognizable
If received by voice, it would be greatly increased. For such an application, the system provides an output to the device.
Can be applied to respond to power demands. Also, character voice TT
S system with a character on a legitimate (ie non-WAP capable) telephone network
Allowed to be used in the manner defined above to send out voice messages
One system can be provided. [0215] A user talking to a WAP-enabled phone to select a favorite search engine
Consider the example. At that time he told the search engine what to look for
Talk to his phone to help. And the search engine selects the best match
By using the character voice TTS system, <user or the site concerned
By generating a speech of the character voice of the owner's choice, the user
Read a summary of the website. Web Navigation and Web Authoring Tools Web sites are alternative or similar spoken audio forms in their original form
Is a character voice that can provide certain information to visitors.
Can be. This information guides the visitor to the website, and the website
To help you navigate and / or static information (eg, advertising) or dynamic information (
Example: Stock Price) can be used to present to visitors. [0217] A Web site function capable of character voice is designed to be used on the World Wide Web.
Software tools that allow webmasters to announce these features to
Files can be provided. These tools provide functionality and maintenance procedures.
Provide a collection. Examples of features can include: * Character voice training software * Character voice database extension and maintenance software * Text entry fee for instant generation of voice audio files
Ludo * WYSIWYH to do (what you see is what you hear)
ABLE markup support and TTS robot placement and configuration tool * Allow dynamic data to be generated to move to "fast" TTS systems
Database Linking Tool * Standard or custom user-interactive character sounds
Tools for adding voice features to Web pages (eg, Webmaster's Web
a tool that allows page b to include character voice chat sites). [0218] The WYSIWYH tool allows a web master to characterize a web site.
It is the primary means by which audio can be enabled. It converts audio files
Get immediate access to the character voice TTS system to generate
Supplied in character voice audio format to toy internet users
Mark up sections of a web page (eg, at SABLE)
To set up and configure a TTS robot in the website,
Linking a database search to a system and web serving
CGI (or similar) to add character voice TTS functionality to software
Other web services that allow the webmaster to compose a script
Related to authoring tools (eg, Microsoft Frontpage)
Operate similarly and selectively. A TTS robot (or component) is activated by a user
Sometimes he / she is allowed to interact with the TTS system enabled application
It is an interactive Web-distributable component. For example, W
The eb page can include a TTS robot email box,
The child mailbox is a box that the user types in the
Button, the message is sent to the TTS system and audio
The audio file is automatically sent to the user-selected recipient. The above WH
The YSIWYH tool allows Webmasters to use this feature on his / her website
To make it easier to add. [0220] An Internet connection from the Web server to the above character voice TTS system
Note that the link is a toy that is marked as an option. Above character
Data TTS system should be locally accessible from Web server
Or in a web server or on an internal network) or
Can be pure software that can be located far away on the Internet
Wear. In this case, all requests and responses to other processes in this architecture
The answer will be routed through the Internet. The WHYSIWYH tool also has other character voice enabled functions and navigation
May also be used to configure websites to include gating aids
it can. These can include, for example: * When you hover the button over the cursor, an ordinary text box
It "speaks" the button function, rather than a box. * Character voice when used in the demonstration area * Advertising * User known preferences-these can be asked in a questionnaire, or
These are suggested using sites that store historical data about each user
Can automatically recommend character voice based on (eg,
Amazon. If you are a buyer of many history books at com-Navigator
Winston Churchill can be recommended as an example). There
Indicates that the voice of the character is relevant to the user (for example, based on individual search criteria).
For, can be automatically selected. * Users who prefer voice navigators (for example,
Has software that makes Homer Simpson his navigator)
And the selected navigator on the website (Say, Max Smart)
Automatically create a conversation with-it's an automatic conversation-"Hey Home
r, Welcome to my site-it's Max Smar
t "-make-. * Type jokes and news text into the WHYSIWYH tool above
By means of celebrity websites every day with new jokes and daily news
Consider the example of a webmaster updating. At that time, the Web server
Each user who surfs the web and selects this page will receive a celebrity audio
Supply audio. Text-to-speech conversion can take place at set-up time and / or
It can be performed on demand of the user. As if they were-all day and every day-as if you were a toy, but
, Actually a return text message that converts celebrity voices to your side
It is the text operator who actually types the page, famous to you
Consider an example of a celebrity Web site that “interacts” with a person (eg, a “Techno” band or a David Letterman site). Here, favorite sports Web sites, live broadcasts and the latest news are uploaded.
Have a favorite sports star to give you-and another star
Select and listen to him, then think of an example that would make Elvise do it for fun
You. Set Top Boxes and Digital Broadcasting Set top boxes cover the Internet and usually also cable TV networks.
A term given to a device that connects a television to a network. Help brand distinction
To direct the user during the operation of such a device.
The audio message used may be an embedded character voice TTS system,
Remotely located (connected via internet or cable network)
Can be custom generated from any of the character voice TTS systems
Wear. In a digital TV application, for example, whether the sound is soft or hard,
A character that speaks news and weather, whether shouting or whispering
Data can be selected by the user. Other Applications Other applications in specific embodiments of the present invention include:
: ・ Star chart reader ・ Weather report ・ Character voice to enable continuous comics ・ Anime character voice to enable continuous comics ・ Speaking alarm clock, calendar, schedule program, etc. ・ Multimedia introduction (eg introduction to Microsoft PowerPoint slides)
-Web-based, portable MP3 player-based, or other audio
Talking book by book device-Mouse tooltip call display or the spoken message is the sound of a character that the user can normally recognize.
Other voices that enable voice-generated applications. Client Server or Embedded Configuration All or some of the components of the system may be
-Distributed within the network environment like customer software or servers,
The branch between the function between the server and the customer is optional, and the communication path, file size,
Based on data capabilities, etc. In addition, the complete system is networked for operation
It may also fall within the scope of unreliable single stand-alone devices. This
If this is the case, the system can be used for other applications involving correlated small memories.
Or small devices and set-top boxes, net PCs, internet
The scope of the computer communication area to us by equipment, mobile phones and other devices
Higher performance can be achieved in the enclosure. [0228] The most typical configuration is the language recognition (if appropriate) performed for the customer.
Regardless, TTS text messages are not available for distribution to other customer computers.
Or in an audio format voice message in response to a customer reply
Is converted by one or more services in a network (eg,
Request conversion until it passes through the Internet). Structure of New Character Voice This character TTS system provides a fast increase of new voices for different characters.
Can be easily increased. The method depends on the required pitch and speed.
Include an on-screen tuning tool that the speaker allows for his audio "tune"
Suitable for generating or adding a recorded speech database,
Technology suitable for storing signal and Lalingagraph (EGG) signals, these signals
Method for automatically processing the signals, and methods and specific keys for speaking these processed signals.
Devising a recorded speech database for character voices and character
A method for including this stored speech database in a TTS system
Contains. Voice training and maintenance tools are available at low cost on desktop computers.
Collectively or to the application service provider (A
SP) can be supplied for rent. This is the character sound
A recorded speech database created for use in a voice TTS system
Source is allowed. This character voice TTS system is packaged and
Can be provided for use on a desktop computer or
Can be made available through the Internet in the manner described,
The user's voice database is made available on the Internet server. Essential
Supplied as part of some applications, structures or embodiments
Services can be recruited to receive new user voices
You. [0231] As an example, the user may receive a boom milk, a lalingograph, a cable, a CD, and a
Purchasing a pack containing a phone from a store or online store. And
Set up the preparation and the test. The user then gives a hint
The program runs on a CD that guides the user through a series of screens. End
Upon completion, the user searches for a new "voice front" of his own voice.
Order software for He immediately rejected the application
(For example, he was read from his favorite online e-zine)
Making his website related to the daily newspaper (daily) possible with automated voice
it can. The invention for providing TTS services for some of the
(Ie his own audio data). Method of Audio and Video Recording with the Use of Animation The process of reading character records is based on a boom microphone and
And using Lalinga graphs. The lalingagraph is the speaker's throat
Is a device that measures the laryngeal vibration frequency while talking around
. This signal is used as the pitch marker (phoneme boundary) in the recorded speech waveform form.
) While developing the recorded speech database to determine the exact location of
Used. [0233] It is the time during which the audio signal and the lalingograph signal are recorded,
The video signal is recorded so that it can be synchronized, and the database or cross-reference
This signal, which is stored for rinse, is retained for other databases.
You. The purpose of this external signal is to provide a TTS system containing the animated face of the computer.
The role of the face will be supplied to the system. In addition, the information is the speaker's face
Strategically important while the part is recorded to be obtained from the sensor
It is. While the TTS is operating, this information is displayed in an animated table of characters.
Used to supply the present and speak the language entered into the TTS. [0234] In operation, the TTS system generates the recorded speech data.
When retrieving recorded speech units from the database, it also
From the above recorded visual database that matches the selected speech unit,
Retrieve accurate recorded visual information. This information is then used in two approaches.
Used on the other hand. Both, as they enter the TTS system,
As if he / she was actually speaking the text above (unit selection
Each of the video recordings corresponding to the selected unit (in the peach synthesizer)
The parts are linked together to form a video signal of the character. However
This means that the video image of the character
Drawbacks including toys, including larygraphs and other unwanted artifacts
One. More practical is to make the primary character look similar or equal in style.
Video to animate computer generated characters being programmed
A computer facial interface that uses only the motion capture element of the signal
Inclusion of the animation module. Animation A further feature of this embodiment is that the character selected for audio audio
Providing visual animation of virtual or physical display of
Including. Preferably, the user is provided with a graphical stain of the designed character.
Design or by an agent.
In an environment where toys (toys) are mainly used, the user is required to attach
Create accessories for the toys for the
Is created. The accessory represents the character. Graphical stain
Or animated toys with optional accessories
Execute the application. The animated character (eg, a blaze can be used) can be voice or other
The sound effects of the avatar (movement of the mouth or other body parts)
Which allows the recipient or user to combine and synchronize
Experience the image and sound effects that were created. In a toy environment, the toy moves during the replay of the recorded message.
Optionally has an electromechanical mechanism for performing the animation of the part.
Toys have a number of mechanically driven lugs for accessory connections. Optional
Accessories are styled body parts such as eyes, hats, mouth, and ears.
Styles such as musical instruments, glasses, and handbags.
-Indicates a personal accessory. The accessory is such that all configurations of the accessory on the lug of the toy body are specific.
As a whole character or personality (eg Elvis Presley)
It can be designed in such a way as to provide a visual representation of the toy. Preferably,
The lag to which the accessory is attached will be mutually exclusive during the replay of the recorded message.
Perform movements or other more complex movements. This movement was spoken of message
Can be synchronized with the tempo of words. [0240] The accessory itself consists of a mechanical assembly, whereby the toy
Interaction or other movement of the lugs is a more complex movement within the accessory itself.
Cause drive. For example, the arm that holds the teapot accessory is a gear,
It is designed with a mechanism consisting of a lever and other mechanisms,
While the rotation then recedes straight to its rest position,
You raise your hand, then go out. Other examples are gears, levers, concertees
It is an accessory having a periscope composed of a narever mechanism. The lever mechanism
Extends the periscope upward, rotates it 90 degrees, puts it back, and retracts to the rest position
I do. Of course, other various configurations are possible. In an embodiment, a two-dimensional or three-dimensional computer of a selected character
The graphic display shows that the animated character
Spoken audio in a way to provide the impression of a toy speaking message
Selectively animated to be the same as the format message in time
. More complex animation sequences can be provided. In the toy environment, the lag (S) associated with the mouse accessory is
Open near the beginning of each spoken word, near the end of each spoken word
In the audio format message.
It can provide the impression of a toy talking. [0243] Other lags associated with the toy may be in a predetermined sequence or
It can be driven in a similar random sequence. This drive uses levers, gears,
Is performed by the mechanical mechanism of Further features are more sophisticated electromechanical designs
Enable multiple electromechanical actuators to be connected to the toy mouse and
Located around the eye area. The actuator is an audio for
Allows complex facial expressions to be formed during replay of matte messages
Controlled separately. The second of the stereo audio input cables connecting the toy to the computer
The channel is an audio format message and this audio format
Used to record the sequence of faces and other movements associated with the
You can. Special aspects of the toy embodiment are wireless and therefore connected by a network or fixed cable
Toy connectable to computing means 72 via connecting means 74 through a provided link 76
70 is shown in FIG. The toy 70 has a nonvolatile memory 71 and a controller.
Means 75. Audio messages can be passed through various software
Downloaded to the calculation means 72 via the Internet, and then connected to the connection means 74
Transferred to toys through. A number of features specific to toy-based embodiments are described below. One feature
In the toy 70, the audio format message is stored in the nonvolatile memory 7
1 and the user controls the microprocessor in the toy by the controller means 75.
Is replayed many times until instructed to delete the message from the toy
. Preferably, the toy stores a plurality of audio format messages and
Some of these messages are replayed by the operation of the controller means 75.
Can be Optionally, toys are not good at recording incoming messages.
If there is only enough space, the old message is automatically stored from the non-volatile memory 71.
Remove dynamically. A further feature is that audio format messages are sent from software
To the computer processor means 72 and then to the toy by the connecting means 74.
When transmitted to the toy 70, the message indicates that the user
To prevent listening to the message prior to replaying the page.
And is decrypted by the toy 70. This
Encryption reverses the time sequence of audio format messages
The decoding is performed in the order of the stored audio format messages in the toy.
It is performed by making the turn a guest. Of course, using any other suitable form of encryption
Good. Another feature is that audio format messages are calculated from software
When transmitted to the sesa 72 and subsequently transferred to the toy 70 by the connection means 74
The message, whether or not it is encrypted,
And selectively restored by the toy 70. Here we compress
The reason is to speed up the recording process of toy 70. Preferred implementation
In this state, this compression transfers the audio format message to the toy 70
Sample audio format messages at an increased rate
To reduce the transfer time. The toy is then
Tapo produces an approximation of the original audio format message. A
Other forms of analog audio compression are used as appropriate. In other features, toy 70 optionally detects movement of a person near the toy
Motion sensors for the toys, and the software inside the toys
One or more stored audio format messages
Suitable for replaying pages. Preferably, the user has detected motion.
Each stored message or sequence of stored messages is
Operating the toy control means 75 to select whether to play
it can. Alternatively, the user can either detect each motion, or
A fixed or random period following the detection of
Controller hands to organize toys to replay random messages
Step 75 is used for a predetermined time. The user may use the toy with motion sensing features.
"Phrases" or other words stored on the Internet server computer to
-Select an option from a selection of audio format messages. An example
An illustrative phrase is "You there, did you come here and ask me to enter my room?"
It is. An additional feature is that the two toys are compatible with a computer or
Allows direct communication with each other without the support of a net connection. The first toy
Is equipped with a headphone socket, whereby the second toy is
The audio input cable of the device into the headphone socket of the first toy
Enables connection to the first toy. The user of the second toy then preferably preferably
By operating the control means relating to the second toy, the information stored in the second toy is stored.
Selected audio format message and play it. The first toy is next
Detects incoming audio format messages from the second toy,
The message is sent by a computer as if the message were compatible.
It is recorded in a manner similar to that transmitted. This allows for compatible
The toy user can use the audio format menu without using a computer connection.
Allows you to exchange messages. Gift Giving Process A further feature is that toy products can be used as gifts (eg, via the Internet).
A new way to buy online. Product is selected and shipping address is entered
Invoice address, payment details,
A personal greeting message is entered. Then send the item to the gift recipient
When a given person's personal greeting message (eg, Richard, Birth
Congratulations on the day. This Elmafad character is your sense of humor
I thought it would appeal. Instead of printing ")" from Peter, attach the gift
As a credit card or gift certificate, the greeting message is preferably
It is stored in a database on the Internet server computer. [0252] Recipients can use the web to receive personalized greeting messages.
Card with toy product luggage, including advice on how to use
receive. The recipient may then copy the toy item, preferably using toy item connection means.
Connect to a compatible computer and print the uniform litho printed on the card.
Enter the locator (URL) into a browser on a compatible computer
. This allows for automatic download and styling of received toys.
Toy of recipient of audio format message represented by simple design
The transfer to the product is performed. [0253] The payee may use a toy merchant to replay the audio format message.
The control means relating to the article can be operated. Multiple Users Although the embodiments described herein generally relate to one or two users, the present invention
Is a website, web software, character TTS, character TTS
, TVS, and many other users who can interact with each other or in toy environments.
And can easily be extended to many toys. Also, a plurality of toy styles or virtual computer graphic
Ractors are generated so that each style represents a visually distinct character.
I can do it. Exemplary characters are extant or dead
Depiction of the character of the mind or the true person (eg television character), wind
Cartoon or comic characters, computer animation characters, frames
Includes empty characters or any form of character with audible sound. further
The styling of the toy depends on the form, outline, color and / or texture of the body of the toy.
Achieved by Replaceable kits for clip-on body parts are
Or other fixed connection to the toy body. A further feature is that the user of the toy embodiment upgrades the toy and
Without purchasing physical parts (eg, accessories) to secure
Allows you to represent a character. The body of the toy and its accessories
Designed in an area suitable for receiving printed labels. The label is special
Mark in such a way as to represent the appearance of a given character and its accessories.
Is printed. The label is preferably replaceable, and the new label can be
Characters are preferably downloaded virtually via the Internet
Or otherwise obtained. Labels are visual for new characters
It is a display. The level will then be associated or compatible with the user.
By printing labels on a computer printer accessible from the computer.
Is converted from a virtual form to a physical form. Many Voices In an exemplary application, the use of one voice in general has been described.
However, the same principle applies to more than one voice speaking the same text at a time and
To include two or more voices that speak different character voices. The invention disclosed and defined in this specification may be written, written, or described
Can be extended to other combinations of two or more individual features that are obvious from the surface
. All of these different combinations constitute various other aspects of the invention. BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 shows an audio message according to the first embodiment assembled (constr.
uct) is a schematic block diagram showing the system used to supply. FIG. 2 shows text or speech entered by a sender in a first language.
Is a flowchart showing the steps required to convert to a second language. FIG. 3 assembles and provides an audio message according to a further embodiment;
1 is a schematic block diagram of a system used to perform FIG. 4 is an example of text displayed on a screen of a processing terminal used by a sender;
FIG. FIG. 5 is a flowchart showing the steps of a process commonly used by the present invention.
It is a chart. FIG. 6 shows a celebrity voice by a sender to compose an audio message.
This is an example of a template used by the user. FIG. 7 shows a drop-down menu used to compose an audio message.
It is a schematic diagram which shows an example of a new. FIG. 8 shows a word or phrase selected by a famous character (famous character).
Flowchart showing the process required when it should not be spoken
It is. FIG. 9 illustrates the steps of a process used in accordance with a natural language translation system.
It is a flowchart. FIG. 10 illustrates a user interface for composing a message using a speech interface.
4 is a flowchart showing the steps of a process used by a user. FIG. 11 illustrates a user intending to compose a message to be received by a recipient.
FIG. 4 is a schematic diagram of a web page accessed accordingly. FIG. 12 shows a message recorded in a voice of famous character.
Schematic diagram showing a toy that can store messages and connect to reproducible computing means.
is there.

───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号 60/222,034 (32)優先日 平成12年7月31日(2000.7.31) (33)優先権主張国 米国(US) (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE,TR),OA(BF ,BJ,CF,CG,CI,CM,GA,GN,GW, ML,MR,NE,SN,TD,TG),AP(GH,G M,KE,LS,MW,MZ,SD,SL,SZ,TZ ,UG,ZW),EA(AM,AZ,BY,KG,KZ, MD,RU,TJ,TM),AE,AG,AL,AM, AT,AU,AZ,BA,BB,BG,BR,BY,B Z,CA,CH,CN,CR,CU,CZ,DE,DK ,DM,DZ,EE,ES,FI,GB,GD,GE, GH,GM,HR,HU,ID,IL,IN,IS,J P,KE,KG,KP,KR,KZ,LC,LK,LR ,LS,LT,LU,LV,MA,MD,MG,MK, MN,MW,MX,MZ,NO,NZ,PL,PT,R O,RU,SD,SE,SG,SI,SK,SL,TJ ,TM,TR,TT,TZ,UA,UG,US,UZ, VN,YU,ZA,ZW (72)発明者 ディクソン、イアン・エドワード オーストラリア国、ビクトリア州 3130 ブラックバーン、ファクシア・ストリート 13 Fターム(参考) 5D045 AA07 ────────────────────────────────────────────────── ─── Continuation of front page    (31) Priority claim number 60 / 222,034 (32) Priority date July 31, 2000 (July 31, 2000) (33) Priority country United States (US) (81) Designated country EP (AT, BE, CH, CY, DE, DK, ES, FI, FR, GB, GR, IE, I T, LU, MC, NL, PT, SE, TR), OA (BF , BJ, CF, CG, CI, CM, GA, GN, GW, ML, MR, NE, SN, TD, TG), AP (GH, G M, KE, LS, MW, MZ, SD, SL, SZ, TZ , UG, ZW), EA (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM), AE, AG, AL, AM, AT, AU, AZ, BA, BB, BG, BR, BY, B Z, CA, CH, CN, CR, CU, CZ, DE, DK , DM, DZ, EE, ES, FI, GB, GD, GE, GH, GM, HR, HU, ID, IL, IN, IS, J P, KE, KG, KP, KR, KZ, LC, LK, LR , LS, LT, LU, LV, MA, MD, MG, MK, MN, MW, MX, MZ, NO, NZ, PL, PT, R O, RU, SD, SE, SG, SI, SK, SL, TJ , TM, TR, TT, TZ, UA, UG, US, UZ, VN, YU, ZA, ZW (72) Inventors Dixon, Ian Edward             Victoria, Australia 3130             Blackburn, Faxia Street               13 F term (reference) 5D045 AA07

Claims (1)

【特許請求の範囲】 【請求項1】 テキストベースメッセージを提供するステップと、 前記テキストベースメッセージに基づいたオーディオメッセージを生成するス
テップとから成り、 前記オーディオメッセージは少なくとも部分的には、ユーザに一般的に認識で
きる文字を表すボイスである、音声メッセージを生成する方法。 【請求項2】 前記文字は各々がユーザに一般的に認識できる文字の予め定
義されたリストから選択される請求項1に記載の方法。 【請求項3】 前記生成ステップはスピーチ単位を表す対応するオーディオ
記録でスピーチ単位を索引する原文または符号化データベースを用いる請求項1
または2に記載の方法。 【請求項4】 前記生成ステップはスピーチ単位の1以上のオーディオ記録
を連結することを含み、連結されるオーディオ記録のシーケンスがこのシーケン
スの1以上のオーディオ記録と関連する索引スピーチ単位を参照して決定される
請求項1または2に記載の方法。 【請求項5】 適切なスピーチ単位の対応するオーディオを持たない前記テ
キストベースメッセージの語を対応するオーディオ記録を有する代替え語と置き
換えるステップを更に含む請求項3に記載の方法。 【請求項6】 前記スピーチ単位は、次のもの、即ちスピーチの語、音、副
音、多重音セグメントの1以上を表す請求項3乃至5のいずれか1つの方法。 【請求項7】 前記スピーチ単位は前記オーディオメッセージを生成するた
めに必要な音声及び音韻範囲を包含する請求項3乃至6のいずれか1に記載の方
法。 【請求項8】 前記代替え語は各々が適正な関連オーディオ記録を持つサポ
ート語と置き換える請求項5に記載の方法。 【請求項9】 前記テキストベースメッセージを提供するステップの後に、
前記オーディオメッセージを生成するベースとして使用される対応するテキスト
ベースメッセージに前記テキストベースメッセージを変換するステップを更に含
む前記請求項のいずれか1つに従った方法。 【請求項10】 前記テキストベースメッセージを対応するテキストベース
メッセージに変換するステップは、前記オリジナルベースメッセージを前記オリ
ジナルテキストベースメッセージの慣用表現である対応テキストベースメッセー
ジと置き換えるステップを含む請求項9に記載の方法。 【請求項11】 前記対応テキストベースメッセージは、前記文字に起因し
、関連し、または少なくとも適合するイディオムにある請求項10に記載の方法
。 【請求項12】 前記対応テキストベースメッセージは、前記文字と故意に
不適合であり、またはユーザによって一般的に認識できる差に起因し、または関
連するイディオムである請求項10に記載の方法。 【請求項13】 前記オーディオメッセージは、多重ボイスで発生し、各ボ
イスはユーザに一般的に認識できる異なる文字を表す、前記請求項のいずれか1
に記載の方法。 【請求項14】 前記テキストベースメッセージを提供するステップは、前
記テキストベースメッセージの一部だけを前記オリジナルテキストベースメッセ
ージを表すイディオムである対応テキストベースメッセージに変換するステップ
をさらに含む請求項1乃至8の1つに記載の方法。 【請求項15】 前記オーディオメッセージの生成は、特定のボーカル表現
または音響効果を、前記オーディオメッセージが形成されるある所定のオーディ
オキロ区間にランダムに挿入することを含む先の請求項のいずれか1に従った方
法。 【請求項16】 前記テキストベースメッセージは、ボイス認識を用いてユ
ーザから初期オーディオメッセージから生成され、その後、一般的な認識文字を
表すボイスで前記オーディオメッセージを生成するベースとして使用される先の
請求項のいずれか1に従った方法。 【請求項17】 1以上の音響効果を前記オーディオメッセージに与える前
記ユーザのステップをさらに含む先の請求項のいずれか1に従った方法。 【請求項18】 前記1以上の音響効果は、前記オーディオメッセージの音
特性を変えることを含む請求項17に従った方法。 【請求項19】 前記1以上の音響効果は、文字のボイスが特定の環境から
発する印象を与えるバックグラウンド音響効果を含む請求項17に従った方法。 【請求項20】 テキストベースメッセージを提供する手段と、 前記テキストベースメッセージに基づいたオーディオメッセージを生成する手
段とで構成され、 前記オーディオメッセージは少なくとも部分的には、ユーザに一般的に認識で
きる文字を表すボイスである、オーディオメッセージ生成システム。 【請求項21】 スピーチ単位をこのスピーチ単位を表す対応オーディオ記
録で索印する記憶手段を更に含む請求項20に従ったシステム。 【請求項22】 前記音声メッセージはスピーチ単位の1以上のオーディオ
記録を連結することによって生成され、連結されるオーディオ記録のシーケンス
がこのシーケンスにおいて1以上のオーディオ記録と関連する索引スピーチ単位
を参照して決定される請求項21に従った方法。 【請求項23】 適切なスピーチ単位の対応するオーディオを持たない前記
テキストベースメッセージの語または表現は対応するオーディオ記録を有する代
用語または代用表現と置き換えられる、請求項20乃至22のいずれか1に従っ
たシステム。 【請求項24】 前記スピーチ単位は、次のもの、即ちスピーチの語、音、
副音、多重音セグメントの1以上を表す請求項21乃至24のいずれか1つに従
った方法。 【請求項25】 前記スピーチ単位は前記オーディオメッセージを生成する
ために必要な音声及び音韻範囲を包含する請求項21乃至24のいずれか1に従
った方法。 【請求項26】 前記代替え語または表現は前記テキストベースメッセージ
の文脈のオリジナル語又は表現に近い類似の文法的意味を持っている請求項23
に従ったシステム。 【請求項27】 前記テキストベースメッセージの前記語または表現を前記
代替え語または前記代替え表現で索印するシソーラス手段を更に含む請求項23
に従ったシステム。 【請求項28】 前記語または表現は関連オーディオ記録を有する代替え語
または表現と置き換えられる請求項27に従ったシステム。 【請求項29】 前記テキストベースメッセージは前記ユーザによって提供
される請求項20乃至28のいずれか1に従ったシステム。 【請求項30】 前記提供手段はコンピュータプロセッサであり、前記ユー
ザは前記コンピュータプロセッサを用い、テキストベースエレメントの所定のリ
ストから選択される語、表現などの適すとベースエレメントを用いて前記テキス
トベースメッセージを構成する、請求項29に従ったシステム。 【請求項31】 前記リストは前記文字に起因し、関連し、または少なくと
も適合するボーカル表現を含む請求項30に従ったシステム。 【請求項32】 各テキストベースエレメントは個々のテキストベースエレ
メントを表す特定のコードによって前記テキストベースメッセージで表現される
、請求項30または請求項31に従ったシステム。 【請求項33】 前記表現は前記テキストベースエレメントを表すコードに
次いで予備回避コードシーケンスを用いて達成される請求項32に従ったシステ
ム。 【請求項34】 1以上のテンプレートが前記コンピュータプロセッサに表
示され、前記1以上のテンプレートは前記ユーザによって選択できる1以上のオ
プションを提供するフィールドを描画し、前記オーディオメッセージを生成する
、請求項30に従ったシステム。 【請求項35】 前記フィールドはユーザ名、受信者名、メッセージタイプ
およびメッセージスタイルを含む、請求項34に従ったシステム。 【請求項36】 前記フィールドは前記オーディオメッセージが発話される
べき文字の音声、音響効果および納期を含む、請求項34または請求項35に従
ったシステム。 【請求項37】 前記フィールドは各々がオーディオメッセージの一部を形
成する句または音響効果を記述する、請求項34に従ったシステム。 【請求項38】 前記ユーザによって提供される前記テキストベースメッセ
ージはメッセージ処理手段によって受理され、処理される前記ユーザからの入力
される自然言語を有し、前記メッセージ処理手段はその後、前記入力のためのテ
キスト結果を決定し、このテキスト結果に基づいて前記オーディオメッセージを
構成する、請求項29に従ったシステム。 【請求項39】 前記ユーザによって提供される前記テキストベースメッセ
ージはメッセージ処理手段によって受理され、処理される前記ユーザから入力さ
れる制約言語を有し、前記メッセージ処理手段はその後、前記入力のためのテキ
スト結果を決定し、前記テキスト結果に基づいて前記オーディオメッセージを構
成する、請求項29に従ったシステム。 【請求項40】 前記生成オーディオメッセージは前記記憶手段に格納され
た1以上の音響効果を有する、請求項20乃至33のいずえか1に従ったシステ
ム。 【請求項41】 前記記憶手段は前記オーディオメッセージの使用に不適切
な語を検閲する、請求項21に従ったシステム。 【請求項42】 音声認識手段を更に有し、前記音声認識手段によって前記
テキストベースメッセージに変換されるオーディオメセージを前記ユーザが発声
する、請求項20乃至41のいずれか1に従ったシステム。 【請求項43】 通信ネットワークにリンクしたテキストベースメッセージ
を提供する手段と、 前記テキストベースメッセージに基づいて前記オーディオメッセージを生成す
る手段と出構成され、 前記オーディオメッセージは少なくとも部分的には、ユーザに一般的に認識で
きる文字を表すボイスである、通信ネットワークを用いるオーディオメッセージ
を生成するシステム。 【請求項44】 テキストベースメッセージを提供する手段は前記テキスト
ベースメッセージを受け入れる前記ユーザのためのデータ受け入れ手段を持つコ
ンピュータプロセッサである請求項43に従ったシステム。 【請求項45】 前記生成手段は前記通信ネットワークにリンクされ、前記
テキストベースメッセージを前記オーディオメッセージに変換するサーバである
請求項43または44に従ったシステム。 【請求項46】 スピーチ単位をこのスピーチ単位を表す対応オーディオ記
録で索印するための記憶手段を更に含む請求項45に従ったシステム。 【請求項47】 前記オーディオメッセージはスピーチ単位の1以上のオー
ディオ記録を共に連結することによって生成され、連結オーディオ記録のシーケ
ンスはこのシーケンスにおいて1以上の前記オーディオ記録と関連する前記スピ
ーチ単位を参照して決定される、請求項46に従ったシステム。 【請求項48】 前記サーバは前記オーディオメッセージを、少なくとも部
分的に、前記ユーザに一般的に認識できる文字を表すボイスで構成するために前
記記憶手段をアクセスする、請求項46に従ったシステム。 【請求項49】 前記記憶手段は前記システムのユーザに一般的に認識でき
る文字のオーディオ記録を格納する、請求項48に従ったシステム。 【請求項50】 前記オーディオメッセージを構成した後、前記サーバは前
記通信ネットワークを介して意図した受信者に前記オーディオメッセージを送信
する、請求項45乃至49のいずれか1に従ったシステム。 【請求項51】 前記ユーザのオーディオメッセージを前記テキストベース
メッセージに変換するためのボイス認識手段を更に含む請求項43乃至50のい
ずれか1に従ったシステム。 【請求項52】 前記オーディオメッセージは前記オーディオメッセージが
提供されるボイスでの文字の視覚画像で生成される、請求項43乃至51のいず
れか1に従ったシステム。 【請求項53】 前記オーディオメッセージと前記視覚画像が同期課され、
それにより前記文字の面表現が前記文字によって発話される語、表現および他の
聴覚素子のシーケンスを反映する、請求項44乃至53のいずれか1に従ったシ
ステム。 【請求項55】 前記オーディオメッセージはテキストベースメッセージに
変換されるモバイルターミナルに前記ユーザによって入力される、請求項54に
従ったシステム。 【請求項56】 テキストベースメッセージは前記オーディオメッセージを
生成する前記モバイルターミナルへ前記ユーザによって入力される、請求項54
に従ったシステム。 【請求項57】 前記通信ネットワークはインターネットであり、前記モバ
イルターミナルはWAPイネーブルされる、請求項54乃至56に従ったシステ
ム。 【請求項58】 オーディオ信号を再生するスピーカー手段と、 テキストベースメッセージを格納する記憶手段と、 前記記憶手段と前記スピーカー手段を作動的に接続し、前記スピーカー手段に
よって再生するための前記オーディオ信号を生成する制御手段とにより構成され
、 前記制御手段は使用中に、少なくとも部分的に、ユーザに一般的に認識できる
文字を表すボイスであるオーディオメッセージを生成する、玩具。 【請求項59】 前記制御手段は前記玩具をコンピュータ装置と通信させる
接続手段と作動的に接続される、請求項58に従った玩具。 【請求項60】 前記コンピュータ装置は前記接続手段を介してケーブルに
よって前記玩具に接続されるコンピュータである、請求項59に従った玩具。 【請求項61】 前記接続手段はコンピュータに直接または通信ネットワー
クを介する無線接続を提供するように使用される、請求項59に従った玩具。 【請求項62】 前記接続手段はeメールのようなテキストベースメッセー
ジまたは記録オーディオメッセージを前記スピーカ手段を介して再生のため前記
玩具へ提供させる、請求項58乃至61のいずれか1に従った玩具。 【請求項63】 前記接続手段はオーディオ信号を、オーディオメッセージ
の再生のための前記スピーカー手段へ直接に供給させる、請求項58乃至61の
いずれか1に従った玩具。 【請求項64】 前記玩具は前記文字の形態を有する、請求項58乃至63
のいずれか1に従った玩具。 【請求項65】 前記玩具は前記オーディオメッセージに応答して口および
/または他の顔または身体の特徴を動かすために用いられる、請求項64に従っ
た玩具。 【請求項66】 前記玩具の動きは前記オーディオメッセージの所定のスピ
ーチ事象に同期される、請求項64に従った玩具。 【請求項67】 前記玩具はマイクロプロセッサベース制御手段および不揮
発性記憶手段を有する、請求項58乃至66のいずれか1に従った玩具。 【請求項68】 オーディオを記録再生させる手段を有する請求項58乃至
67のいずれか1に従った玩具。 【請求項69】 前記玩具によって記録されるオーディオはテキストベース
メッセージに変換され、このテキストベースメッセージに基づいてオーディオメ
ッセージを生成するために使用され、前記オーディオメッセージは一般的に認識
できる文字のボイスで発話される、請求項68に従った玩具。 【請求項70】 オーディオ信号を再生するためのスピーカー手段と、 オーディオメッセージを記憶するための記憶手段と、 前記記憶手段および前記スピーカー手段を作動的に接続し、前記スピーカー手
段によって再生するための前記オーディオ信号を生成する制御手段とにより構成
され、 前記制御手段は使用中に、少なくとも部分的に、ユーザに一般的に認識できる
文字を表すボイスである前記オーディオメッセージを生成する、玩具。 【請求項71】 前記制御手段は前記玩具をコンピュータ装置と通信させる
接続手段に作動的に接続され、前記コンピュータ装置は前記接続手段を介して前
記玩具に接続される、請求項70に従った玩具。 【請求項72】 前記コンピュータ装置はテキストベースメッセージを前記
記憶手段に格納するための前記オーディオメッセージに変換する、請求項71に
従った玩具。 【請求項73】 少なくとも部分的に、ユーザによって一般的に認識できる
文字を表すボイスであるオーディオメッセージを生成するシステムであって、 通信ネットw−くを介してメッセージ要求を送信する手段と、 前記メッセージ要求を受けるメッセージ処理手段とで構成され、 前記処理手段は前記メッセージ要求を処理し、少なくとも部分的に、ユーザに
一般的に認識できる文字を表すボイスである前記オーディオメッセージを構成し
、構成されたオーディオメッセージを前記通信ネットワークを介して1以上の受
信者に送る、システム。 【請求項74】 前記メッセージ要求は発信者オーディオメッセージを含み
、前記メッセージ処理手段は前記発信者オーディオメッセージに基づいて前記オ
ーディオメッセージを構成する、請求項73に従ったシステム。 【請求項75】 前記メッセージ処理手段にリンクされる第1データ記憶手
段を更に有し、前記オーディオメッセージを構成するために前記メッセージ処理
手段を前記第1データ記憶手段にアクセス可能とし、前記第1データ記憶手段は
前記ユーザに一般的に認識できる1以上の文字を記憶する、請求項73または請
求項74に従ったシステム。 【請求項76】 前記メッセージ処理手段は前記発信者オーディオメッセー
ジの一部として対話ボイス応答システムへ応答を出すことを前記ユーザに指令す
る、請求項74または請求項75に従ったシステム。 【請求項77】 前記メッセージ処理手段は前記ユーザから入力される自然
言語を受け取り、入力された自然言語を処理し、前記入力のためのテキスト結果
を決定し、前記テキスト結果に基づいて前記オーディオメッセージを構成する、
請求項74乃至76のいずれか1に従ったシステム。 【請求項78】 前記メッセージ処理手段は自動ユーザプロンプトを介して
連結言語ユーザユーザ入力を受け、前記連結言語ユーザ入力を処理し、前記連結
言語ユーザ入力のテキスト結果を決定し、前記テキスト結果に基づいて前記オー
ディオメッセージを構成するスピーチインターフェイスを有する、請求項74乃
至76のいずれか1に従ったシステム。 【請求項79】 前記メッセージ処理手段にリンクされ、前記オーディオメ
ッセージに挿入するための音響効果のオーディオ記録を格納する第2記憶手段を
更に含む請求項73乃至78のいずれか1に従ったシステム。 【請求項80】 前記オーディオメッセージを構成するときに使用する整合
句を格納する第1データベースを更に含む請求項74乃至79のいずれか1に従
ったシステム。 【請求項81】 前記メッセージ要求のオリジナルスピーチ部分を修正しま
たは置き換えるためにスピーチ部分を前記オーディオメッセージに挿入するため
の修正データベースを更に含む請求項74乃至80のいずれか1に従ったシステ
ム。 【請求項82】 少なくとも部分的に、ユーザに一般的に認識できる文字を
表すボイスであるオーディオメッセージを生成する方法であって、 通信ネットワークを介してメッセージ要求を送信するステップと、 前記メッセージ要求を処理し、少なくとも部分的に、ユーザに一般的に認識で
きる文字を表すボイスで前記オーディオメッセージを構成するステップと、 前記構成されたオーディオメッセージを前記通信ネットワークを介して1以上
の発信者に送るステップとによって構成されるオーディオメッセージ生成方法。 【請求項83】 所定のフォーマットでオーディオメッセージを生成する要
求を出すステップと、 前記要求に基づいて前記オーディオメッセージを生成するステップと出構成さ
れ、 前記オーディオメッセージは少なくとも部分的に、ユーザに一般的に認識でき
る文字を表すボイスである、オーディオメッセージ生成方法。 【請求項84】 請求項1乃至19のいずれか1つ,請求項82または請求
項83の方法に従ってオーディオメッセージを生成する手順を実行するため処理
手段を制御するコンピュータプログラムコード手段により構成されるコンピュー
タプログラム素子。 【請求項85】 請求項1乃至19のいずれか1つ,請求項82または請求
項83の方法に従ってオーディオメッセージを生成する手順を実行するため処理
手段に命令するコンピュータプログラムを表すデータで符号化されたコンピュー
タ読み取り可能記憶装置。
Claims 1. A method comprising: providing a text-based message; and generating an audio message based on the text-based message, wherein the audio message is at least partially general to a user. A method of generating a voice message, which is a voice representing a character that can be recognized. 2. The method of claim 1, wherein said characters are selected from a predefined list of characters each generally recognizable to a user. 3. The method according to claim 1, wherein said generating step uses a textual or coded database for indexing the speech units in a corresponding audio recording representing the speech units.
Or the method of 2. 4. The step of generating includes concatenating one or more audio recordings of a speech unit, wherein the sequence of audio recordings to be concatenated refers to an indexed speech unit associated with one or more audio recordings of the sequence. The method according to claim 1 or 2, which is determined. 5. The method of claim 3, further comprising the step of replacing words of the text-based message without corresponding audio in the appropriate speech units with alternative words having corresponding audio recordings. 6. The method according to claim 3, wherein the speech unit represents one or more of the following words: speech words, sounds, accessory sounds, and multiple sound segments. 7. The method according to claim 3, wherein the speech unit includes a speech and a phonological range necessary to generate the audio message. 8. The method of claim 5, wherein said replacement words are replaced with support words each having a proper associated audio recording. 9. After providing the text-based message,
The method according to any one of the preceding claims, further comprising converting the text-based message into a corresponding text-based message used as a basis for generating the audio message. 10. The method of claim 9, wherein converting the text-based message to a corresponding text-based message includes replacing the original base message with a corresponding text-based message that is a idiomatic representation of the original text-based message. the method of. 11. The method of claim 10, wherein the corresponding text-based message is attributable to, associated with, or at least in a matching idiom. 12. The method of claim 10, wherein the corresponding text-based message is intentionally incompatible with the characters or is an idiom resulting from or associated with a difference generally recognizable by a user. 13. The method of claim 1, wherein the audio message occurs in multiple voices, each voice representing a different character generally recognizable to a user.
The method described in. 14. The method of claim 1, wherein providing the text-based message further comprises converting only a portion of the text-based message to a corresponding text-based message that is an idiom representing the original text-based message. A method according to one of the preceding claims. 15. The method of claim 1, wherein generating the audio message comprises randomly inserting a particular vocal representation or sound effect into a predetermined audio kilogram section in which the audio message is formed. The method according to. 16. The text-based message is generated from an initial audio message from a user using voice recognition, and is then used as a basis for generating the audio message with a voice representing common recognition characters. A method according to any one of the preceding clauses. 17. The method according to any one of the preceding claims, further comprising the step of the user applying one or more sound effects to the audio message. 18. The method according to claim 17, wherein the one or more sound effects include changing a sound characteristic of the audio message. 19. The method according to claim 17, wherein the one or more sound effects include a background sound effect that gives the impression that the textual voice emanates from a particular environment. 20. A means for providing a text-based message, and means for generating an audio message based on the text-based message, wherein the audio message is at least partially composed of characters generally recognizable to a user. An audio message generation system that is a voice that represents 21. The system according to claim 20, further comprising storage means for indexing the speech unit with a corresponding audio recording representing the speech unit. 22. The voice message is generated by concatenating one or more audio recordings of a speech unit, wherein a sequence of concatenated audio recordings refers to an indexed speech unit associated with one or more audio recordings in the sequence. 22. A method according to claim 21 which is determined by: 23. The method according to any one of claims 20 to 22, wherein the words or expressions of the text-based message without the corresponding audio in the appropriate speech unit are replaced by a surrogate or a surrogate expression with a corresponding audio recording. A system that followed. 24. The speech unit comprises: speech words, sounds,
25. A method according to any one of claims 21 to 24, representing one or more of a sub-tone, a multi-tone segment. 25. A method according to any one of claims 21 to 24, wherein said speech units include the speech and phonological ranges required to generate said audio message. 26. The alternative word or expression has a similar grammatical meaning close to the original word or expression in the context of the text-based message.
System according to. 27. The thesaurus further comprising: a thesaurus means for indexing the word or expression of the text-based message with the alternative word or alternative expression.
System according to. 28. The system according to claim 27, wherein said word or expression is replaced with an alternative word or expression having an associated audio recording. 29. The system according to claim 20, wherein said text-based message is provided by said user. 30. The means for providing is a computer processor, wherein the user uses the computer processor to generate the text-based message using suitable words, expressions and the like selected from a predetermined list of text-based elements. 30. The system according to claim 29, wherein 31. The system according to claim 30, wherein the list includes vocal expressions resulting from, associated with, or at least matching the characters. 32. The system according to claim 30, wherein each text-based element is represented in the text-based message by a specific code representing an individual text-based element. 33. The system according to claim 32, wherein said representation is achieved using a code representing said text-based element followed by a preliminary avoidance code sequence. 34. One or more templates are displayed on the computer processor, wherein the one or more templates render fields that provide one or more options selectable by the user and generate the audio message. System according to. 35. The system according to claim 34, wherein said fields include a user name, a recipient name, a message type and a message style. 36. The system according to claim 34 or claim 35, wherein the fields include a voice, a sound effect, and a due date of a character from which the audio message is to be spoken. 37. The system according to claim 34, wherein said fields each describe a phrase or sound effect forming part of an audio message. 38. The text-based message provided by the user having an input natural language from the user that is received and processed by a message processing means, the message processing means then performing the input for the input. 30. The system according to claim 29, wherein the text result is determined and the audio message is constructed based on the text result. 39. The text-based message provided by the user has a constrained language input by the user that is received and processed by a message processing means, the message processing means then comprising 30. The system according to claim 29, wherein a text result is determined and the audio message is constructed based on the text result. 40. The system according to any one of claims 20 to 33, wherein the generated audio message has one or more sound effects stored in the storage means. 41. The system according to claim 21, wherein said storage means censors words inappropriate for use in said audio message. 42. The system according to any one of claims 20 to 41, further comprising voice recognition means, wherein the user utters an audio message that is converted to the text-based message by the voice recognition means. 43. Means for providing a text-based message linked to a communication network; means for generating the audio message based on the text-based message, wherein the audio message is at least partially provided to a user. A system for generating audio messages using a communication network, typically voices representing recognizable characters. 44. The system according to claim 43, wherein the means for providing a text-based message is a computer processor having data accepting means for the user accepting the text-based message. 45. A system according to claim 43 or 44, wherein said generating means is a server linked to said communication network and converting said text-based message into said audio message. 46. The system according to claim 45, further comprising storage means for indexing the speech unit with a corresponding audio recording representing the speech unit. 47. The audio message is generated by concatenating together one or more audio recordings of a speech unit, wherein a sequence of concatenated audio recordings refers to the speech unit associated with one or more of the audio recordings in this sequence. 47. The system according to claim 46, wherein the system is determined. 48. The system according to claim 46, wherein said server accesses said storage means to at least partially compose said audio message with a voice representing characters generally recognizable to said user. 49. The system according to claim 48, wherein said storage means stores an audio recording of characters generally recognizable to a user of said system. 50. The system according to any one of claims 45 to 49, wherein, after composing said audio message, said server sends said audio message to an intended recipient via said communication network. 51. The system according to any one of claims 43 to 50, further comprising voice recognition means for converting the user's audio message into the text-based message. 52. The system according to any one of claims 43 to 51, wherein the audio message is generated with a visual image of a character in a voice to which the audio message is provided. 53. The audio message and the visual image are imposed synchronously,
54. A system according to any one of claims 44 to 53, wherein the surface representation of the character reflects a sequence of words, expressions and other auditory elements spoken by the character. 55. The system according to claim 54, wherein the audio message is input by the user to a mobile terminal that is converted to a text-based message. 56. The text-based message is input by the user to the mobile terminal generating the audio message.
System according to. 57. The system according to claim 54, wherein said communication network is the Internet and said mobile terminal is WAP enabled. 58. Speaker means for reproducing an audio signal, storage means for storing a text-based message, operatively connecting said storage means and said speaker means, and said audio signal for reproduction by said speaker means. Toy, wherein the control means generates, during use, at least in part, an audio message that is a voice representing a character generally recognizable to a user. 59. The toy according to claim 58, wherein said control means is operatively connected to connection means for communicating said toy with a computer device. 60. The toy according to claim 59, wherein said computer device is a computer connected to said toy by a cable via said connection means. 61. A toy according to claim 59, wherein said connecting means is used to provide a wireless connection to a computer directly or via a communication network. 62. A toy according to any one of claims 58 to 61, wherein said connecting means causes a text-based message or a recorded audio message, such as an email, to be provided to said toy for playback via said speaker means. . 63. A toy according to any one of claims 58 to 61, wherein said connection means causes an audio signal to be supplied directly to said speaker means for playback of an audio message. 64. The toy having the form of the character.
A toy according to any one of the above. 65. The toy according to claim 64, wherein said toy is used to move a mouth and / or other facial or physical features in response to said audio message. 66. The toy according to claim 64, wherein the movement of the toy is synchronized with a predetermined speech event of the audio message. 67. A toy according to any of claims 58 to 66, wherein said toy has microprocessor based control means and non-volatile storage means. 68. A toy according to any one of claims 58 to 67, comprising means for recording and reproducing audio. 69. The audio recorded by the toy is converted to a text-based message and used to generate an audio message based on the text-based message, wherein the audio message is a generally recognizable character voice. 69. The toy according to claim 68, which is spoken. 70. Speaker means for reproducing an audio signal, storage means for storing an audio message, operably connecting said storage means and said speaker means, and said speaker means for reproducing by said speaker means. A control means for generating an audio signal, said control means generating, in use, said audio message being a voice representing a character generally recognizable to a user during use. 71. The toy according to claim 70, wherein said control means is operatively connected to connection means for communicating said toy with a computer device, said computer device being connected to said toy via said connection means. . 72. The toy according to claim 71, wherein said computing device converts a text-based message into said audio message for storage in said storage means. 73. A system for generating an audio message, at least in part, a voice representing a character generally recognizable by a user, the means for transmitting a message request via a communication network; Message processing means for receiving a message request, wherein the processing means processes the message request and comprises, at least in part, the audio message being a voice representing a character generally recognizable to a user. Sending the audio message to one or more recipients via the communication network. 74. The system according to claim 73, wherein the message request includes a caller audio message, and wherein the message processing means constructs the audio message based on the caller audio message. 75. The system further comprises first data storage means linked to said message processing means, wherein said message processing means has access to said first data storage means for composing said audio message, 75. The system according to claim 73 or claim 74, wherein the data storage means stores one or more characters generally recognizable to the user. 76. A system according to claim 74 or claim 75, wherein said message processing means instructs said user to provide a response to an interactive voice response system as part of said caller audio message. 77. The message processing means receives a natural language input from the user, processes the input natural language, determines a text result for the input, and generates the audio message based on the text result. Make up,
77. A system according to any one of claims 74 to 76. 78. The message processing means receives a connected language user input via an automatic user prompt, processes the connected language user input, determines a text result of the connected language user input, and based on the text result. 77. A system according to any one of claims 74 to 76 comprising a speech interface for composing said audio message. 79. A system according to any one of claims 73 to 78, further comprising a second storage means linked to said message processing means for storing an audio recording of a sound effect for insertion into said audio message. 80. The system according to any one of claims 74 to 79, further comprising a first database storing matching phrases for use in composing said audio message. 81. The system according to any one of claims 74 to 80, further comprising a modification database for inserting a speech part into the audio message to modify or replace an original speech part of the message request. 82. A method of generating, at least in part, an audio message that is a voice representing a character generally recognizable to a user, the method comprising: sending a message request over a communication network; Processing and composing, at least in part, the audio message with a voice representing characters generally recognizable to a user; and sending the composed audio message to one or more callers over the communication network. And an audio message generation method. 83. Submitting a request to generate an audio message in a predetermined format, and generating the audio message based on the request, wherein the audio message is at least partially common to a user. A method of generating an audio message, which is a voice representing a character that can be recognized by the user. 84. A computer comprising computer program code means for controlling processing means for performing a procedure for generating an audio message according to any one of claims 1 to 19, 82 or 83. Program element. 85. Code encoded with data representing a computer program for instructing processing means to execute a procedure for generating an audio message according to any one of claims 1 to 19, 82 or 83. Computer readable storage device.
JP2001557023A 2000-02-02 2001-02-02 Speech system Pending JP2003521750A (en)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US5406 1979-01-22
AUPQ5406A AUPQ540600A0 (en) 2000-02-02 2000-02-02 Speech system
AUPQ8775A AUPQ877500A0 (en) 2000-07-13 2000-07-13 Speech system
US22203400P 2000-07-31 2000-07-31
US60/222,034 2000-07-31
US8775 2000-07-31
PCT/AU2001/000111 WO2001057851A1 (en) 2000-02-02 2001-02-02 Speech system

Publications (1)

Publication Number Publication Date
JP2003521750A true JP2003521750A (en) 2003-07-15

Family

ID=27158206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001557023A Pending JP2003521750A (en) 2000-02-02 2001-02-02 Speech system

Country Status (3)

Country Link
EP (1) EP1277200A4 (en)
JP (1) JP2003521750A (en)
WO (1) WO2001057851A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309164A (en) * 2004-04-23 2005-11-04 Nippon Hoso Kyokai <Nhk> Device for encoding data for read-aloud and program for encoding data for read-aloud
JP2006106741A (en) * 2004-10-01 2006-04-20 At & T Corp Method and apparatus for preventing speech comprehension by interactive voice response system
JP2008529403A (en) * 2005-02-15 2008-07-31 エスケーテレコム株式会社 Method and system for providing news information using 3D characters in a mobile communication network
JP2010134260A (en) * 2008-12-05 2010-06-17 Sanyo Electric Co Ltd Electronic apparatus and voice processing method

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8464302B1 (en) 1999-08-03 2013-06-11 Videoshare, Llc Method and system for sharing video with advertisements over a network
AU2001245575A1 (en) 2000-03-09 2001-09-17 Videoshare, Inc. Sharing a streaming video
US7047196B2 (en) 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
US7324947B2 (en) 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
US7222073B2 (en) 2001-10-24 2007-05-22 Agiletv Corporation System and method for speech activated navigation
DE10160673A1 (en) * 2001-12-11 2003-06-26 Siemens Ag System for converting text data into voice output has service provided for converting text data into voice output that can be used by at least two applications
DE10163277C2 (en) * 2001-12-21 2003-11-20 Speech Design Carrier Systems Method for sending a message to a phone number, and device therefor
US7275215B2 (en) 2002-07-29 2007-09-25 Cerulean Studios, Llc System and method for managing contacts in an instant messaging environment
WO2004012074A2 (en) * 2002-07-29 2004-02-05 Cerulean Studios, Llc Apparatus and method for generating audio and graphical animations in an instant messaging environment
US8793127B2 (en) 2002-10-31 2014-07-29 Promptu Systems Corporation Method and apparatus for automatically determining speaker characteristics for speech-directed advertising or other enhancement of speech-controlled devices or services
US7519534B2 (en) 2002-10-31 2009-04-14 Agiletv Corporation Speech controlled access to content on a presentation medium
EP1431958B1 (en) * 2002-12-16 2018-07-18 Sony Mobile Communications Inc. Apparatus connectable to or incorporating a device for generating speech, and computer program product therefor
AU2003279398A1 (en) * 2002-12-16 2004-07-09 Sony Ericsson Mobile Communications Ab Device for generating speech, apparatus connectable to or incorporating such a device, and computer program product therefor
JP2007526669A (en) 2003-06-26 2007-09-13 アジャイル ティーヴィー コーポレーション Zero search, zero memory vector quantization
US7428273B2 (en) 2003-09-18 2008-09-23 Promptu Systems Corporation Method and apparatus for efficient preamble detection in digital data receivers
WO2008132533A1 (en) * 2007-04-26 2008-11-06 Nokia Corporation Text-to-speech conversion method, apparatus and system
US8879698B1 (en) 2010-02-03 2014-11-04 Tal Lavian Device and method for providing enhanced telephony
US8687777B1 (en) 2010-02-03 2014-04-01 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8548131B1 (en) 2010-02-03 2013-10-01 Tal Lavian Systems and methods for communicating with an interactive voice response system
US8553859B1 (en) 2010-02-03 2013-10-08 Tal Lavian Device and method for providing enhanced telephony
US8594280B1 (en) 2010-02-03 2013-11-26 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8625756B1 (en) 2010-02-03 2014-01-07 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8572303B2 (en) 2010-02-03 2013-10-29 Tal Lavian Portable universal communication device
US8903073B2 (en) 2011-07-20 2014-12-02 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8537989B1 (en) 2010-02-03 2013-09-17 Tal Lavian Device and method for providing enhanced telephony
US8548135B1 (en) 2010-02-03 2013-10-01 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8681951B1 (en) 2010-02-03 2014-03-25 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US9001819B1 (en) 2010-02-18 2015-04-07 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8867708B1 (en) 2012-03-02 2014-10-21 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8731148B1 (en) 2012-03-02 2014-05-20 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
CN112084317B (en) * 2020-09-23 2023-11-14 支付宝(杭州)信息技术有限公司 Method and apparatus for pre-training language model
FR3136884A1 (en) * 2022-06-28 2023-12-22 Orange Ultra-low bit rate audio compression

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
US5613056A (en) * 1991-02-19 1997-03-18 Bright Star Technology, Inc. Advanced tools for speech synchronized animation
BE1011892A3 (en) * 1997-05-22 2000-02-01 Motorola Inc Method, device and system for generating voice synthesis parameters from information including express representation of intonation.
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6246672B1 (en) * 1998-04-28 2001-06-12 International Business Machines Corp. Singlecast interactive radio system
US6144938A (en) * 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
GB2338371A (en) * 1998-06-09 1999-12-15 Ibm Voice processing system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005309164A (en) * 2004-04-23 2005-11-04 Nippon Hoso Kyokai <Nhk> Device for encoding data for read-aloud and program for encoding data for read-aloud
JP2006106741A (en) * 2004-10-01 2006-04-20 At & T Corp Method and apparatus for preventing speech comprehension by interactive voice response system
JP2008529403A (en) * 2005-02-15 2008-07-31 エスケーテレコム株式会社 Method and system for providing news information using 3D characters in a mobile communication network
US7912725B2 (en) 2005-02-15 2011-03-22 Sk Telecom Co., Ltd. Method and system for providing news information by using three dimensional character for use in wireless communication network
JP2010134260A (en) * 2008-12-05 2010-06-17 Sanyo Electric Co Ltd Electronic apparatus and voice processing method

Also Published As

Publication number Publication date
EP1277200A4 (en) 2005-09-14
EP1277200A1 (en) 2003-01-22
WO2001057851A1 (en) 2001-08-09

Similar Documents

Publication Publication Date Title
JP2003521750A (en) Speech system
US20030028380A1 (en) Speech system
US7697668B1 (en) System and method of controlling sound in a multi-media communication application
CN108962217B (en) Speech synthesis method and related equipment
US9214154B2 (en) Personalized text-to-speech services
US9536544B2 (en) Method for sending multi-media messages with customized audio
US7356470B2 (en) Text-to-speech and image generation of multimedia attachments to e-mail
US9368102B2 (en) Method and system for text-to-speech synthesis with personalized voice
US7921013B1 (en) System and method for sending multi-media messages using emoticons
US7177811B1 (en) Method for sending multi-media messages using customizable background images
US8086751B1 (en) System and method for receiving multi-media messages
US20020010584A1 (en) Interactive voice communication method and system for information and entertainment
JP2008529345A (en) System and method for generating and distributing personalized media
US6463412B1 (en) High performance voice transformation apparatus and method
KR101628050B1 (en) Animation system for reproducing text base data by animation
US20070028264A1 (en) System and method for generating and distributing personalized media
JP2008500573A (en) Method and system for changing messages
KR20170135598A (en) System and Method for Voice Conversation using Synthesized Virtual Voice of a Designated Person
JPH11109991A (en) Man machine interface system
JP2005215888A (en) Display device for text sentence
AU2989301A (en) Speech system
JP4027840B2 (en) Information transmission method, apparatus and program
Krenn The NECA project: Net environments for embodied emotional conversational agents
JP2003140677A (en) Read-aloud system
JP2024066971A (en) Movie production device and movie production system