JP2003515768A

JP2003515768A - 特定の人間の音声をテンプレート化するためのシステムおよび方法

Info

Publication number: JP2003515768A
Application number: JP2001540763A
Authority: JP
Inventors: ジェイ．キーオ，スティーブン; アクシアキーオ，キャサリン
Original assignee: ジェイ．キーオ，スティーブン; アクシアキーオ，キャサリン
Priority date: 1999-11-23
Filing date: 2000-11-23
Publication date: 2003-05-07
Also published as: EA200200587A1; CA2392436A1; KR20020060975A; BR0015773A; IL149813A0; CN1391690A; AP2002002524A0; EP1252620A1; ZA200204036B; AU2048001A; NO20022406L; WO2001039180A1; NO20022406D0; EA004079B1

Abstract

(57)【要約】音声のイネーブル部分を獲得（１０３）し、その後、音声テンプレート（１２７）またはプロファイル信号を生成するためのシステムおよび方法を開示する。この音声テンプレートまたはプロファイル信号は、後に、オリジナルな音声を再構成するために、他の起源のノイズと結合することが出来る。このようにして再構成された音声は、次に、デジタル入力を介して提供された何らかの形またはコンテンツを話し、さらにオリジナルな音声によってオリジナルな形において話されたことが無いコンテンツを話すために使用される。あるビジネス方法および産業上の適応と同様に、製品およびオンラインプロセスが開示される。

Description

【発明の詳細な説明】

【０００１】（技術分野）本発明は、音、特に人間の音声を獲得しかつ変更するためのシステム、方法お
よび製品に関する。

【０００２】（従来技術）時の始めから哺乳動物およびその他の生物は、何らかの形で音声またはこれに
似た音によって意思の疎通をはかって来た。勿論、このような音は、同じ種内で
あっても、生物の形態における差のために非常に異なっている。生物における相
違とは、スピーチパターンおよびトーンの非常に異なった要素を含む。不幸にも
、特別の興味を持った音声を有する他人のスピーチを聞くことの喜びは、その人
間が死亡するかまたは聞き手との接触が終わった場合に失われる。

【０００３】音声を獲得することができる、非常に基本的な形のメディア獲得のみが今日存
在する。例えば、テープやデジタル記録装置は、だれかの音声を記録するために
使用され、それによって、将来それを聞き、かつ最初に記録されたように再生し
、または最初の記録の一部分を欲するままに演奏させるために、それを保持する
。音声記録のこのような装置および方法は、さらに、コンピュータによって生成
された人工的な音声の範囲を含み、これは例えば電話の自動案内および確認、お
もちゃまたは装置とユーザ間の非常に基本的なスピーチ、フィルムおよび娯楽産
業のための合成音声などを含む、多くの異なる機能のために使用される。ある応
用においては、これらの人工的な音声は、特別な入力に従って狭い応答範囲に対
して予めプログラムされている。ある場合は、実際の音声の単なる記録よりもさ
らに敏感であるけれども、これらの人工的な音声は、本発明の豊富な音声性能と
比較するとやはり単純である。勿論、本発明のある実施例では、このようなシス
テムとは非常に異なる要素、またはこのような従来の発見または発明によってか
って考えられ、まれまたは示唆された物をはるかに超える先行技術を取る要素の
いずれかが存在する。

【０００４】多くの刊行物が世界中で人工的な有声音化の局面を開示している。同様に、幾
つかの参考文献が、人工的な音声を使用し作成するシステムおよび技術を開示し
ている。しかしながら、これらのどの参考文献も本発明の概念を開示してはいな
い。

【０００５】（発明の開示）音声パターンテンプレートを形成するために、特定の人間の音声のイネーブル
量を記録しまたは獲得するためのシステムおよび方法が提供される。このテンプ
レートは、正確な音声と同じように響く新しいスピーチを、このテンプレートを
使用して構築するためのツールとして有用であり、この新しいスピーチは恐らく
、その特定の人間によって実際に話されたことはなく、または正確な文脈または
文章中で話されたことはないが、しかし、その特定の人間の実際のスピーチに全
ての面で事実上同じ様に響くものである。イネーブル部分は、実際の音声を再構
築するために必要な、実際の音声要素を獲得するものとして設計されるが、しか
しながら、着手するために充分なイネーブルスピーチが存在しない場合、再構築
または再生成されたスピーチの限界を予測する、確かな割合がある。新しい音声
は、主題に関するデータベース、歴史的なデータおよび適応性のあるまたは人工
知能モジュールと共に使用され、テンプレートされた音声の発声者があたかもそ
こに存在するかのように、ユーザとの新しい議論を可能とする。このシステムお
よび方法は、例えばソフトウエアファイル、チップを埋め込んだツールあるいは
その他の形である、他のメディアと結合しても良い。このシステムおよび方法の
対話的な使用は、種々の仕様で起こる。ユニットモジュールそれ自体は、この発
明の実施例、例えば、ここに開示された仕様で音声を獲得しかつその使用を可能
とするように構成された、チップまたは電子ボード、全体を含んでいる。

【０００６】例えば、今すぐに応じられない人間、死んだ人間、または音声をこの方法でテ
ンプレートすることおよび使用することに同意した人間との新たな対話を獲得し
作成するためのツールとして、このテンプレートは有用である。別の例としては
、発声者とのオンデマンドの仮想的なスピーチを作成するために、実際の音声の
発声者の、例えばフィルム、写真またはその他の描写であるメディアに対する応
用がある。本発明の範囲内で、その他の種々の使用および応用が予想される。

【０００７】（発明の詳細な説明）音声は、哺乳動物の間で非常に力を持った音である。母親の声の響きは、生ま
れる前の子供によっても認識されさらに子供をなだめ、祖父母の声の響きは、成
長した人間に対しても、その恐怖を落ち着かせる。他の音声は、全く知らない人
を奮い立たせ、または愛する人の遥か昔の出来事およびその瞬間の記憶を呼び起
こす。これらは、人間およびその他の種が持つ識別力の大きな贈り物、およびそ
れぞれの生物の独特の音声によって、その他（および彼等自身）に影響を与える
能力のほんの一例に過ぎない。人間において、例えば、人間の声のこのような特
異性は、両親の遺伝的な貢献に由来するものであり、この貢献は、結果として種
々の人体部位の形状、大きさおよび位置を生じるものであり、これらは、話をす
るかあるいは声または口および鼻孔を介して、とにかく意思の疎通をはかる場合
に、人間が音を出す方法に影響を与える。同様にその他の影響も存在する。した
がって、人々の間、時には同じ家族内であっても、ある範囲の違いが存在するこ
とが理解される。勿論、同じ人間であっても、例えば、健康、ストレスレベル、
感情の状態、疲労、その人の周りの気温またはその他の因子である、一時的な影
響に従って、少しでは有るが異なる声を出すことがある。

【０００８】しかしながら、人間の声の質は非常にユニークな組み合わせを示すと言う、世
界的に普遍の意見の一致がある。この組み合わせは、その声を過去に聞いた人間
にとって識別可能である。特に、例えば人間の声を、識別および交際に結びつけ
る感覚を通して連想する人間の能力は顕著である。人生の大きなかつ小さな出来
事は、成されたコメントの性質あるいは記憶されたトーンによって、往々にして
長年にわたってあるいは数十年後に思い出される。これは、音声の、永続的な強
さでありかつ感情的な力である。

【０００９】勿論、人間の音声を種々のメディアおよび機械上で獲得しかつ再生することは
周知である。テープおよびデジタルメディアにおいて、記録された人間の音声に
対する基本的操作が、故意および故意ではなくその両方でおいて、数十年にわた
って実行されている。しかしながら、この操作は、通常、人間が述べることがで
きるものよりもむしろ、人間が実際に述べられた範囲によって、限定される。例
えば、人間による実際の声明のセグメントは再生され、編集され、混合されかつ
しばしば異なる速度で再生される。人間の音声の使用についてのその他の例とし
て、例えば、漫画またはその他のアニメーションまたはある種の音楽に関連する
オーディオにおいて使用されているような、故意に歪ませた音声セグメントの再
生を含んでいる。勿論、アニメーションメディアは、また、実際の音声を使用し
て作る必要の無い人工的な音声を使用している。この一例は、電話および通信シ
ステムによって使用される、コンピュータ生成“音声”オペレータである。音声
および音の合成の一方法は、連結的であるとして言及され、かつ波形データサン
プルまたは実際の人間のスピーチの記録に、応用される。この方法は、次に、予
め記録されたオリジナルの人間のスピーチをセグメントに分割し、これらの人間
のスピーチセグメントをリンクさせて、音節、単語または句を作り、スピーチ発
音を生成する。これらのセグメントの大きさは変化する。人間のスピーチ合成の
別の方法は、パラメトリックとして知られている。この方法において、所望のス
ピーチ音を再生成するために、数式モデルが使用される。所望のそれぞれの音に
対して、その音を生成するために数式モデルまたは関数が使用される。従って、
パラメトリック方法は、一般に、要素として人間の音を含まない。最後に、一般
的に、パラメトリックスピーチ合成の幾つかの良く知られたタイプがある。その
一個は、発音合成器として知られており、これは、人間の肺、喉頭、声道および
鼻孔管の物理的な形状を数学的にモデルする。パラメトリックスピーチ合成の別
のタイプはフォーマット合成器として知られており、人間の声道の聴覚的形状を
数学的にモデルする。

【００１０】その他のシステムは、使用するシステムがその音声において一旦訓練されると
、特定の音声を認識するための手段を含んでいる。この例は、例えば口述システ
ム等によって、話し言葉を獲得し、その後これらの音をテキストに翻訳する分野
において有用な種々のスピーチ認識システムを含む。その他のスピーチに関連す
るシステムは、バイオメトリック分野およびセキュリティコードまたは暗号とし
ての、ある話し言葉の使用に関係している。これらのシステム、方法、手段また
はその他の開示の形態のいずれも、ここに開示された種々の発明を理解するもの
ではなく、また、このような開示のいずれもこのような技術発明の必要性を理解
させるものではない。長い間必要とされて来たものは、発声者によってまたは他
のものによって将来の使用および利益のために、ダイナミックでかつ適用的な仕
様において、他の人間の声を獲得するためのシステムおよび方法である。さらに
必要とされているものは、このような音声獲得またはプロファイルを、本人の声
でその本人よって恐らく予想されない方法において、継ぎ目の無い、明確なある
いはとにかく本物の発声または音声を提示する仕様で、達成しかつ使用するため
のシステムおよび方法である。ある付加的な効果がこれを達成するためのシステ
ムおよび方法において結果として生じる。それは、何らかの技術、教養または言
語を有する全ての人間によって容易に使用できると言うことである。さらに必要
とされていることは、特定の音声テンプレートへのアクセスを生成しかつ促進し
、その後、ビジネスまたは娯楽に関係するか否かにかかわらず、個人の必要性ま
たは希望に対してこれらの音声テンプレートの使用を促進するための、実施する
ための装置およびその他の手段と共に新しいビジネス方法、技術およびモデルで
ある。繰り返すが、音声技術の分野において多くが達成されているが、過去の努
力のいずれも、本発明を想起させるものではなく、かつ新規でかつこれまで認識
されていないこれらの発明に対する必要性にハイライトを当てるものでもない。

【００１１】図１は、特定の音声のイネーブル部分を獲得するためのシステム１０の１実施
例の概略図であり、このイネーブル部分は音声特徴の更なる使用においてテンプ
レートとしてその部分を使用するために充分なものである。システム１０は、例
えば、電子式ハンドヘルド装置、またはラップトップ、ノートブックあるいはデ
スクトップコンピュータ装置の一部であるハンドヘルド装置の一部である。ある
いは、システム１０は、他のデバイス内の回路ボードの単なる一部、または他の
電子素子、回路またはシステム内に一時的または永久に配置されるように設計さ
れまたはこれらと共に使用するように設計された、電子部品または素子であり、
あるいはシステム１０は、全体あるいはその一部において、コンピュータ可読コ
ードまたはニューラルシステムにおける単なる論理または機能回路を含んでいて
も良い。あるいはシステム１０は、例えば分散ネットワークタイプシステムのよ
うな、その他の装置または製品として構成されても良い。１実施例では、システ
ム１０は、処理および音声アルゴリズムの作成即ちテンプレート手段１９のため
に、音声の一部分を獲得し受信するための入力即ち獲得手段１５を備えており、
このテンプレート手段１９は、データストリーム、データパッケージ、通信信号
、特定の音声を定義しさらに再生成するためのソフトウエアコード手段、または
、発声者の声の見かけ上の声として音すなわちノイズをアレンジするために適切
な音すなわちノイズの別の組織上に適用しまたはテンプレートするために組織さ
れた複数の音声特徴として、形成することが出来る。コンピュータ可読プログラ
ムコードをフォーマットするその他の手段、または人工的に音声を生成するため
に識別されたある音声特徴データを使用するその他の手段が、同様に本発明内で
あると考えられる。アルゴリズム即ちテンプレート手段１９の論理またはルール
は、最小の音声入力で形成されることが好ましいが、しかしながら、特定の音声
に対する受け入れ可能なデータセットを形成するために、種々の量の音声および
その他のデータが望ましい場合もある。

【００１２】本発明の１実施例において、例えば少量のアナログまたはデジタル記録、ある
いはリアルタイムのライブ入力によって、テンプレートすべき人間の音声のイネ
ーブル部分を獲得することが望ましい。勿論、音声の正確な複製を可能とするた
めに最も関連する個人の音声特徴のデータ獲得を最適化するため、規定された単
語グループを形成しても良い。特定の個人に対してどの形のイネーブル部分がベ
ストであるかを最も効率的に決定するために、解析手段が考えられても良い。１
個のデータの入力または一連の入力に拘わらず、記憶手段２２の少なくとも１部
分において音声データが獲得され記憶される。

【００１３】特定のユーザの音声のテンプレートを作成するために有用な特徴を識別するた
めに、プロセッサ手段２５において、音声データの解析が実行される。プロセッ
サ手段に直接に音声データをルートすること、および最初に記憶手段２２に行く
必要の無いこと、が理解される。プロセッサ手段、記憶手段およびテンプレート
手段間の相互作用の更なる例示的な議論を、図２〜８に関連して以下に示す。適
正な音声データを解析した後、１実施例において、音声のテンプレートをプロセ
ッサ手段２５によって呼び出されるまで記憶しておく。例えば、音声ＡＡのイネ
ーブル部分を獲得し解析しかつテンプレート化した後、デマンド要求が発生する
まで、これを（その他の構成要素の近くに存在するか、またはリモートに位置す
るか、または１個または複数の場所において分散モードで存在し得る）記憶手段
２２に記憶する。デマンド要求の１例は、システム１０のユーザが、代表的な入
力手段２９を介して要求を提出し、音声ＡＡテンプレートＡＡ_tを使用して、音
声ＡＡの実際のライブ使用よりもむしろ生成された音声として、音声ＡＡとの新
しく生成された会話に加わることである。これは、１個またはそれ以上の種々の
データベースと関連しまたはこれと共に使用する場合に発生することが出来る。
このデータベースのいくつかは状況データベース３３または個人データベース３
６によって示される。次に、かつて形成されたオリジナル入力データのオリジナ
ル音声ＡＡに非常に良く似て響く新しい会話音声ＡＡ¹を生成するために、音声
ＡＡテンプレートＡＡ_tを呼び出し、ある別のノイズを伴う形成メカニズムとし
て提供する。新しい音声ＡＡ¹は、オリジナル音声ＡＡに全ての面において類似
して響くけれども、これは実際、音声ＡＡに例えば遺伝暗号のような一致キーを
提供するテンプレートＡＡ_tを有する人工的に作成された音声である。この方法
において、実際の音声のイネーブル部分は、システム１０をテンプレートを用い
て符号化し、その結果ユーザによって希望される事実上の全ての方法で獲得され
た音声の再生成および限定されない使用を可能とする。これは、連結またはフォ
ーマット技術によって電気的に融合された音声ＡＡの小部分の、以前の発声の単
なる合成ではなく、むしろ音声ＡＡ（すなわち、音声テンプレートまたはプロフ
ァイル）の特徴、および恐らく音声ＡＡの本人に関連するその他の特徴を有する
音声を使用して、設計され、製造されかつ組み合わされあるいは構成された全体
的に新しい音声である。

【００１４】本技術の実施は巨大であって、このテンプレートされた音声技術の適正な使用
を維持するために、保護手段が必要であることが理解される。勿論、この技術は
、認証されたユーザに、音声テンプレート技術およびデータへのアクセスおよび
使用を可能とするための認証手段の更なる使用を必要とする。更なる必要性は、
このように生成された音声の不正なまたは認証されていない使用を防ぐために、
聞こえた音声が真実のものかまたはテンプレート化されたものかを証明するため
の手段を有することである。ライセンス、契約および殆どの国で既に存在するそ
の他のメカニズムに加えて、この技術の範囲を理解するために法的なメカニズム
を作る必要もある。

【００１５】図１において、接続手段４１は、エネルギーまたはデータフローのための経路
を示し、これらは、システム構成要素間の実際のリード、光チャンネル、または
その他の電子的、生物学的あるいはその他の起動可能な経路である。１実施例で
は、パワー手段４４がシステム１０内に示されているが、これはシステムから離
れていても良い。

【００１６】システム１０の別の実施例において、作成されるアルゴリズム、信号、符号化
手段またはテンプレートは、全体または部分的に、記憶手段２２、テンプレート
手段１９、またはその他のシステム構成要素またはアーキテクチャー中に、記憶
のためまたは改良のために戻されても良い。この能力は、発声者または別のユー
ザのインストラクションに従って、特定の音声テンプレートを改良しあるいは適
応させることを許可しかつ促進する。これは、例えば、同じ個人の音声の複数の
データセットが長い年月の間に入力された場合、あるいはその音声の本人に、異
なる年齢、展開、あるいはその他の生理学的あるいは感情的な変化が発生した場
合に達成され得る。勿論、以前に関わったコンテキストを呼び出すために、テン
プレート化された音声を訓練すること、およびこのような知識を将来の操作に含
めることは可能である。これらの場合、音声ＡＡ¹テンプレート（ＡＡ¹ _t）を検
索し、かつ解析手段２２または入力手段２９を用いて比較し更新することによっ
て、この音声またはテンプレートを改良するために、改良モードを選択すること
は有用でありうる。さらに別の例では、音声テンプレートＡＡ¹ _tの発声者である
音声ＡＡに似た、１個またはそれ以上の音声特徴を含む音声ＢＢを有する個人の
位置を含む。この場合、音声ＡＡ¹または音声テンプレートＡＡ¹ _tへの限定され
たあるいは一般的な改良入力として、音声ＢＢから１個またはそれ以上の類似の
特徴を入力することは有用でありうる。これにより、音声ＢＢを保持しかつ音声
ＢＢ¹および音声テンプレートＢＢ¹ _tを作成することが共に可能となる。なお、
音声ＢＢ¹および音声テンプレートＢＢ¹ _tは共に、将来において有用となりうる
。別の例では、声の本人１人に対して種々に改善され、オンデマンドで有用であ
りまたは提示された状態に従ってシステムまたはユーザによって適正な、音声の
データベースを生成することを含む。さらに別の例では、音声一致のサービスが
提供され、かつユーザの希望に従って音声テンプレートを改善するために、例え
ば自然にまたは人工的に生成された波形またはその他の音響または信号要素のよ
うな適正な改善ツールが提供される。

【００１７】システム１０または関連システムおよび方法の更なる実施例の説明に先立って
、この技術の可能な応用を調べることは有用である。通常、全てをリストアップ
することが困難であるほど多くの応用がある。しかしながら、提供されたデータ
および音声に似たノイズを作成するためのテンプレートまたはコード化ツールか
ら結果として生じるデータによって生成された、音声に似たノイズの如何なる使
用も、本発明の範囲内に入り、特に、もし必要であれば、本人の実際の音声に事
実上同じ音声を再生成するために、このような符号化ツールがその他のノイズま
たは音の生成手段と共に使用された場合、この発明の範囲内に入るものと考えら
れる。完全に新しい文章または別の言語構造において生成された音声を使用する
ことは、さらに本発明の範囲内である。信号形成または音声テンプレート処理ま
たは製品を送信することの一部として、マシン、部品またはコンピュータ可読コ
ード化手段を提供する能力は、本技術をさらに促進する。音声テンプレートおよ
び音声生成技術の使用を、データストリームまたは他の形のデータに結合しまた
は活性化するための手段は、単なる案内または応答と同様に、適応的でかつ知能
的でありうる仮想的な対話を可能とし、このような対話または会話はユーザによ
って選択された音声によって成される。さらに、ここに開示された技術は、耳で
聞く音と同様に、視覚によるイメージと共に使用することが出来る。

【００１８】さらに、ここに記載した音声テンプレートは、発声者の声の実際のイネーブル
部分を含まないデータを使用して生成することができるが、しかし本人の音声の
複製の正確さを証明するために、本人の声のイネーブル部分を、恐らく他のデー
タと共に、使用することができる。この仕様において、音声のイネーブル部分を
、音声のテンプレート化に、または単にとにかくテンプレート化された音声の正
確さを証明するために使用することができる。テンプレート化された、または複
製された音声は、コンピュータまたはその他のマシンおよびシステムのユーザと
交信しまたはプロンプトするために使用することができる。ユーザは、テンプレ
ートされた音声の自身のライブラリ中から、テンプレートされた音声の別のソー
スから、このようなテンプレートされた音声を選択することが可能であり、ある
いはユーザは新しい音声を単に作り出すことが可能である。例えば、ユーザは、
テンプレートされた音声ＡＡ¹をボイスメールプロンプトまたはテキストの読み
上げ、またはその他の通信インターフェースのために使用することができる一方
で、テンプレートされた音声ＣＣは、対話式エンターテイメント使用に関連した
使用に対して選択することができる。ユーザのマシン中に潜んでいるトラブルシ
ューティングまたは問題、またはその装置のユーザに対するアラート信号は、テ
ンプレート化された音声ＤＤによって作動している間にユーザによって識別され
または解決される。これらは、どのようにしてこの技術が改良されたユーザイン
ターフェースを可能とするか、およびテンプレート化された音声技術を使用する
ことによって、どのようにしてユーザによって機能、タスク、モードまたはその
他の構成の結合を実現するかについての、単なる例である。テンプレート選択お
よび使用、および生成された音声の作成および使用は、ユーザのマシンまたは装
置内、部分的にユーザのマシンまたは装置内で、またはユーザのマシンまたは装
置の外部で達成することができる。例えば、ホテルの部屋、訪問先のオフィス、
またはその他の短期間のシナリオ、または一時的には装置を使用するがしかし決
して上記修正された仕様で上記の構成を提供することのないものにおいて、１個
またはそれ以上の装置を一時的に使用する場合がある。例えば、旅行者は、飛行
機上で旅行者の同伴としてある音声を携帯しまたはアクセスすることを望むこと
がある。本発明は、病院またはホスピスの部屋またはその他の場所で有用であり
得る。これらの使用は、この中の１個またはそれ以上の実施例と共に可能である
。面白いことに、このシステムはある個人によって彼等自身の音声中で使用され
、他人への遺産として与えられる。多くのその他の使用方法がここに示唆した範
囲内にある。

【００１９】ここに開示された発明のその他の使用は、例えば、テンプレート化された音声
を選択することによって、歴史的なイベントを子供やその他の人に教えることの
ような、教育を含む。例えば、親が、子供に対して、その子供の死亡した祖父母
の声を使って、１９６０年代の米国における人種偏見に関して学習することを望
んだ場合、選ばれた１人の祖父母のテンプレート化された音声（入手可能であれ
ば）が設計され、製造され使用のために指定される。システム１０は１個または
それ以上のデータベースにアクセスして指定されたトピックスに関する情報およ
び知識を取り入れ、その情報を、例えば必要に応じて使用するための、状況デー
タベース３３のような、システム１０内の１個またはそれ以上のデータベースに
提供する。所望の情報へのアクセスに続いて、祖父母のテンプレート化された音
声ＥＥ¹が使用され、その結果デマンド要求がテンプレート化された音声ＥＥ¹に
よって満足され、希望する場合、指定されたトピックスに関して議論が開始され
る。このような議論は、システム１０内に、またははなれた場所に、後の使用の
ために保存され、あるいはその議論は“祖父母”即ちテンプレート化された音声
とその子供との間の対話でありうる。この構成は、議論に先立って、子供の声の
個性を知るため、およびその子供から出そうな種々の質問の組み合わせに関する
、適正なボキャブラリーおよびニューラル認識を含むために、音声認識モジュー
ルを使用することによって可能である。加えて、入力および音声認識モジュール
からシステムのテンプレート化された音声部分へのブリッジが提供され、テンプ
レート化された音声による応答を可能とする。ここに記載した新規な使用方法に
従って構成された場合、種々のスピーチ認識ツールをこの方法で使用することが
考えられる。勿論この構成はまた質問に対する答えを速やかにサーチし、聞き手
である子供に対して適正な応答を形成するための手段を必要とする。明らかにこ
の例は、特に適当なデータ、システムパワーおよびシステム速度と結合された場
合の、この技術の非常に大きな可能性を示している。

【００２０】代替的に、付属的な音声認識モジュールを使用して、テンプレート化された音
声の聞き手が、生成された音声に中止または連続を命令することを可能とし、ま
たはあるコマンドを用いてあるその他の構成を可能とする、限定された構成の使
用が可能である。これは、使用タイプの全てではないがあるものに対して適正な
、限定された対話モードの形である。ユーザが例え付属の構成を使用しないこと
を選択し、その代わりに祖父母の声の無い物語または議論を単にアレンジしても
、この効果および利用性は、これまたはその他の使用タイプに対して、巨大であ
る。

【００２１】発声者の教育および人生経験に一致したテンプレート化された音声を使用する
ことのみをユーザが望む場合、このことは種々のフィルタまたは修正器の入力を
介して可能である。例えば、テンプレート化された音声は、再び、上記選択され
た（テンプレート化された音声ＥＥ¹）祖父母のそれであり、フィルタＤＡＴＡ
ＤＡＴＥＳを、１９６０年代の米国における人種関係の議論に対して選択された
データ“ＢＥＦＯＲＤＥＣＥＭＢＥＲ１９６３”と共に使用する。その結果は、
指定された日の後で起こる全ての情報を含まない議論である。この例において、
“祖父母”は１９６５年の投票権法またはその国の１９６０年代後期の都市暴動
を議論することはできない。同様な方法で、例えば図４に示す特徴的なデータタ
イプを使用して、データまたはテンプレート化された音声自身の多くの異なる観
点を調整することが可能である。しかしながら、この発明の範囲内でその他の調
整が可能でありかつ考えられ、さらに上記の例は単に発明された技術の可能性を
単に示すだけのものであることが、理解される。

【００２２】ここに開示したシステムおよび方法の別の実施例において、ユーザは愛する人
または他人のテンプレート化された音声に、ユーザに対して読むことを命令する
ことができる。この例において、全ての年齢の人々に対して、そこにいないまた
は無くなった家族またはユーザにとって既知のその他の人の声で、ユーザに対し
て本を読ませることが可能である。データリンクを実施するために、適正に構成
されたメディアとコンピュータ可読コード手段を適正に結合することによって、
この発明はそれのみで莫大な利益をユーザに提供するであろう。このタイプの使
用は、提示された特定の事例を超えて広い応用を有している。勿論、この技術の
幾分広い使用では、料金または別の形の報酬によってアクセスおよび使用が可能
な、認証されかつテンプレート化された音声のデータベースを入手可能とさせる
。この技術は、音楽に対して使用された場合、特に、未だにその声が入手可能で
ある多くの有名な過去および現在の歌手のテンプレート化された音声にアクセス
することができる場合、同じような意味深い（難解な）影響を有している。明ら
かに、この技術は、製造、リース、購買またはその他の音声テンプレートおよび
関連手段、それと共にビジネスを実施するための技術および方法を用いた何らか
の新しい産業を可能とする。

【００２３】本発明は、ある軽症または重症の神経性疾患に対する治療において有用であり
得る。このような神経性疾患に対しては、テンプレート化された音声療法は症状
を軽減しまたは治療する場合もある。この技術のさらに別の可能な使用方法は、
使用するために新しく設計された音声を作成することであるが、この音声は、実
際の哺乳類起源の１個またはそれ以上のテンプレート化された音声において、基
礎または前駆体を有している。新しく作成された音声の所有権および更なる使用
は、種々の手段、またはライセンスまたはロイヤリティ等のような法的執行の元
で制御可能である。勿論、このような音声は、製作者によって限られた使用に対
して同様に私的所有物として保持され得る。人は、このように作成されたライブ
ラリの性質を想像することができる。このような音声は、製作者の創造的な野心
を示すが、それぞれの音声は、特定の音声に適用可能であるが、しかしＤＮＡ組
織の紐に似た、テンプレート化ツールまたはコードの使用を介したベースとして
、実際には実際の哺乳類の音声成分または言い回しを有している。このタイプの
組み合わせは、強力で新しい通信能力と、哺乳類によって作られた音声およびそ
の他の音に基づいた関係を示す。

【００２４】本発明にかかるシステムは、ハンドヘルドまたはその他のサイズを有する。こ
のシステムは、他のシステムに組み込まれていても良く、またはその動作におい
てスタンドアロンであってもよい。このシステムおよび方法は、分散、ネットワ
ークまたはその他の関係する遠隔システムにおいて、その構成要素の１部分また
は全てを有している。このシステムおよび方法は、ダウンロード可能なまたは遠
隔よりアクセスが可能なデータを使用することができ、さらに種々のその他のシ
ステムまたは方法またはプロセスを制御するために使用することができる。本発
明の実施例は、ここに開示した方法および操作を要求しかつ実行するために、露
出されたインターフェースルーチンを含んでいるが、しかしこれはその全体ある
いは部分的にその他のオペレーションシステムまたはアプリケーションシステム
において実行することができる。テンプレート化プロセスおよびテンプレート化
された音声の使用は、哺乳類または人工的な機械またはプロセッサのいずれかに
よって達成されかつ使用される。例えば、ロボットまたはその他の知的支援装置
は、１個またはそれ以上のこのタイプのテンプレート化された音声を作成しまた
は使用する。このような支援装置は、ある普遍的な基準または限定された基準に
従って自動的に音声をサーチするために使用され、さらに仮想的または実体的な
音声工場においてテンプレート化された音声を生成することができる。この方法
において、テンプレート化された音声の大きなデータベースが効率的に制作され
る。このまたは同様の体系的使用において、テンプレート化された音声を制作す
るために使用される実際の音声の１個またはそれ以上の部分に対して、データま
たはその他のタイプのタグ付けまたは識別技術を生成し適応することが望ましい
。

【００２５】以下は、ここに開示した技術を使用する応用事例である。これらは、限定の目
的ではなく、むしろこの開示の何処かにおいて可能とされとにかく示唆されてい
るものに加えて、代表的でかつ可能な使用方法として提供されるものである。

【００２６】例１この中の実施例の要素を使用するテンプレート化プロセスは、音声コード信号
を生じる。この音声コード信号は、その音声の音を正確に複製するために重要な
特定の音声特徴の論理構造を含んでいる。

【００２７】例２この中の技術を使用して、１個またはそれ以上の選択された音声を使用する、
パーソナルコンピュータのプロンプターおよびアップデートする人、ステータス
のリポーター、または友人。

【００２８】例３この中の技術を使用して、１個またはそれ以上の選択された音声を使用する、
家庭エネルギーの管理者、リポーター、または友人。

【００２９】例４例えば、ユーザによって選択された音声でのホテルにおけるウェークアップコ
ールのような、所望の指示（プロンプト）に従ってユーザに指示を与える、ホテ
ルルームのアシスタントまたは自動車のアシスタント。同様に、音声またはユー
ザによって選択された音声で情報を受信することができる車両オペレータ。

【００３０】例５音声獲得、比較、変更等の何れの場合において、パーソナルデジタルアシスタ
ント、ハンドヘルドパーソナルコンピュータ装置またはその他の電子装置または
部品において、この中の技術を使用して１個またはそれ以上の選択された音声を
使用すること。

【００３１】例６ここに開示したビジネスおよび技術方法および製造を実施するために、コンピ
ュータ／電子チップロジック、指示またはコード化手段において、１個またはそ
れ以上の音声または音声テンプレートを作成しまたは管理すること。

【００３２】例７その他のビジュアルメディア、例えば写真、デジタルビデオまたはホログラフ
イメージと組み合わせて、音声テンプレート技術を使用すること。

【００３３】例８音声を記録し、再生しまたは再構成することができる全ての装置とのプラグ−
インのために、フラッシュメモリベースのプロファイルカードと共にここに開示
された技術を使用すること。

【００３４】例９ユーザが音声または選択した音声において望むことに対して、ダウンロード可
能な情報を走査し更新する個人的な装置と共に、ここに開示した技術を使用する
こと。例えば、これは、ユーザがいない間のバックグランドサーチおよびインタ
ーフェースのためのインフォロボットのようなロボットによって成され得るアク
ションを編成するため、さらにその後この中の技術を使用した１個または複数の
指定された音声でユーザにステータスを報告することに対して有用である。

【００３５】例１０１個または複数の車両またはその他の輸送システムと組み合わせて、この中に
開示された技術を使用すること。

【００３６】例１１機内の道連れとして、１個または複数の飛行機部品としてここに開示された技
術を使用すること。

【００３７】例１２例えばパーソナルコンピュータ姿勢モニタ、電気装置、危険な装置である、職
場における１個または複数のギアまたは装置と共に使用する場合、安全を喚起す
るものとしてここに開示された技術を使用すること。

【００３８】例１３例えば口述装置であるその他の音声によって起動されるシステムに対する付属
品として、プロンプト、コンパニオンまたはテキストリーダーとして、ここに開
示された技術を使用すること。

【００３９】例１４例えば、運転者の暴行またはドライバーまたは自動的にまたはその他の手段に
よって引き起こされた、その他の形の怒りおよびフラストレーションに対するツ
ールである、社会的仲裁または制御機構として、ここに開示された技術を使用す
ること。

【００４０】例１５家庭、学校または職場における教育ツールとしてここに開示された技術を使用
すること。

【００４１】例１６インスピレーション的な朗読に対してここに開示された技術を使用すること。

【００４２】例１７家族の歴史機械として働くツールとしてここに開示の技術を使用すること。

【００４３】例１８ベストまたは希望の音声を有する歌手に対して、音声ソースおよびマッチ技術
のＭｕｓｉｃＭａｔｃｈ（商標）ブランドとして、ここに開示の技術を使用する
こと。

【００４４】例１９オリジナルの演奏者によって既に使用され、または音声テンプレート化技術コ
ンビネーション使用に対してその後作成された、エンターテイメント脚本のテン
プレート化のために好ましい音声を使用するために、映画またはビデオマッチ技
術のＶｏｉｃｅＳｅｌｅｃｔ（商標）ブランドとして、ここに開示された技術を
使用すること。

【００４５】例２０例えば、“ＳｅｌｅｃｔＶｏｉｃｅ（商標）”ブランドまたは“ＶｉｃｅＸ（
商標）”ブランドモードオペレーションにかかわり、例７において参照されたも
のと同様に、選択されうる平凡なモデルと同様にその声に一致する人々のイメー
ジのデータベースを有するハンドヘルドユニットである、“アルタ・エゴ”装置
として、ここに開示の技術を使用すること。

【００４６】例２１プロファイルされ、またはテンプレートされた音声のプロファイルを作成する
ために、ここに開示された技術を使用すること。

【００４７】例２２モニタおよび対話式セキュリティのために、住居内での寝る前の朗読者または
夜の中間として、ここに開示の技術を使用すること。

【００４８】図２は、音声獲得システムの１実施例のフローチャートであり、このシステム
は、テンプレート化のために指定された音声ＡＡの獲得、解析および使用を達成
するためのコンピュータ可読コード化手段または方法を含んでいる。図３は、音
声解析システムの１実施例であり、音声データ特徴づけルーチンを効率的に決定
するための論理または方法手段を含んでいても良い。これらの実施例において、
音声ＡＡは、獲得モジュールまたはステップ１０３において獲得され、次に、テ
ンプレート化プロセスを介して、論理ステップおよび例えば通路１０６のような
データ伝導性通路によってルートされる。獲得は、デジタルまたはアナログ方法
および部品によって達成され得る。獲得された音声ＡＡを示す信号は解析手段１
１１または方法によってルートされ、存在する音声プロファイルかあるいはテン
プレート一致音声かどうかが決定される。これは、例えば、１個または複数の特
徴（例えば図４の音声特徴づけサブシステム１１３中に示すもの）を、獲得モジ
ュール１０３または解析手段１１１のいずれかによって決定されたものと比較す
ることによって、さらに次にこれらの１個または複数の特徴を既知の音声プロフ
ァイルまたはアクセス可能なテンプレート、例えば解析ステップ１１１において
、と比較することによって達成される。代表的なフィードバックおよび初期解析
ループ１１４はこれらのステップを、経路１１６がするように、促進する。この
ような比較は、音声プロファイルデータベースまたはその他のローカルまたは遠
隔の記憶媒体に問い合わせることを含む。この解析モジュール１１１および音声
特徴づけサブシステム１１３における解析ステップは、解析される音声が既存の
音声プロファイルまたはデータファイルと関係しまたは一致するかどうかを断定
するために、アルゴリズム、統計またはその他の技術に基づいて、繰り返されて
も良い。図４は、音声特徴づけサブシステム１１３の更なる詳細を提供する。

【００４９】再び図２を参照すると、音声ＡＡに対応する信号が既存の音声プロファイルセ
ットと一致しないかまたは同じでない場合は、その信号は包括的な特徴づけのた
めに、音声特徴づけサブシステムにルートされる。しかしながら、もし既存の音
声プロファイルデータファイルが音声ＡＡのプロファイル信号と一致すれば、テ
ンプレートの作成は、モジュール／ステップ１２７において要求されないであろ
う。この状況において、この信号は、修正プロファイルまたはテンプレートを生
成する可能性のために、解析されおよび／または特徴づけされることができる。
この修正プロファイルまたはテンプレートはその後格納されまたは応用される。
この状況は、例えば、これまでに入手されていない追加の特徴データ（例えば、
イネーブル部分のサイズ、ストレスの存在または欠乏、またはその他の因子）が
入手された場合に起こり得る。従って、特定の音声データファイルは複数のテン
プレートを含んでいる。これは、図２および３の有効化サブシステム１１３にお
いて一般的に示される論理ステップとシステム成分を有する、有効化プロセスで
ある。サブシステムおよび成分への相関的な位置に関して、これらの図は一般的
に概略的であることが強調される。同様に、図３に示す様に、音声プロファイル
データファイルが存在すること（ステップ１３７）を決定した後、ステップ１３
９の有効化ロジックが付随的に発生する。もし、既存のテンプレートの修正に値
するならば、これはステップ１４２で発生する。あるいは、ロジックステップ１
４５は既存のテンプレートへの修正はないと、言及する。ステップ１４３または
１４５のいずれかに続いて、この新しく修正された、または以前の音声プロファ
イルまたはテンプレートが、ステップ１５５において格納されまたは使用される
。

【００５０】図２のテンプレート作成モジュール／ステップ１２７は、ユニークな識別子、
恐らくはデジタル識別子を、テンプレートされまたはプロファイルされたその特
定の音声に対して作成するために、音声特徴づけサブシステムを使用することを
含んでいる。このデータは、抽象的には、遺伝暗号、遺伝子配列コード、または
バーコード、および目だってユニークなオブジェクト、エンティティまたは現象
の同様の識別子に似ている。従って、出願人はこの音声プロファイルまたはテン
プレートを、“ＶｏｉｃｅＴｅｍｐｌａｔｅＴｅｃｈｎｏｌｏｇｙ（商標）”と
同様に“ＶｏｉｃｅＤＮＡ（商標）またはＶＤＮＡ（商標）”および“Ｖｏｉｃ
ｅＳｅｑｕｅｎｃｅＣｏｄｅｓ（商標）またはＶｏｉｃＳｅｑｕｅｎｃｅＣｏｄ
ｉｎｇ（商標）”として言及する。用語“プロファイル、プロファイルまたはプ
ロファイリング”および派生用語は上述の商標またはその他のこの新しい技術の
参照用語と置き換え可能である。テンプレートの作成完了に引き続いて、音声テ
ンプレートを記憶することができる（記憶モジュールまたはステップ１６１にお
いて示され、またはモジュールまたはステップ１６４における使用に適用される
）。

【００５１】図４は、音声特徴づけサブシステムの概略図である。この開示は、特徴づけデ
ータおよび、音声テンプレートまたはプロファイルを使用して音声をここで開示
するように提起するために、顕著なデータを決定し特徴づけするための手段の少
なくとも１実施例を含む。図示するように、特徴づけデータの定型化における比
較のために、種々のタイプのデータが使用可能である。この特徴づけデータは、
次に、コード化基準に従って音声テンプレートまたはプロファイルを作成するた
めに使用される。図４のデータは、ディスクリートモデルで配列されているよう
に見えるけれども、種々のシーケンスまたは重み付け優先度における比較のため
にどのようなデータであってもアクセス可能である、オープン比較器プロセスが
好ましい。とにかく、この図に示す様に、言語カテゴリー、性別、方言、地域ま
たはアクセント（モジュールまたはステップ２０１において“音声特徴”出力信
号ＶＣ₀として示される）；周波数、ピッチ、トーン、期間または振幅（モジュ
ールまたはステップ２０３における出力信号ＶＣ₁で示される）；年齢、健康状
態、発音、語彙、または生理的機能（モジュールまたはステップ２０５において
出力信号ＶＣ₂でしめされる）；パターン、シンタックス、ボリューム、遷移ま
たは音声タイプ（モジュールまたはステップ２０７において出力信号ＶＣ₃とし
て示される）；教育、経験、フェーズ、繰り返しまたは文法（モジュールまたは
ステップ２０９において出力信号ＶＣ₄として示される）；職業、国籍、民族性
、習慣または環境（モジュールまたはステップ２１１において出力信号ＶＣ₅と
して示される）；コンテキスト、多様性、ルール／モデル、イネーブル部分のタ
イプ、サイズまたは個数（モジュールまたはステップ２１３において出力信号Ｖ
Ｃ₆として示される）；速度、感情、連続音（クラスター）、類似性または音響
モデル（モジュールまたはステップ２１５において出力信号ＶＣ₇として示され
る）；数学モデル、処理モデル、信号モデル、音声に似たモデルまたはシェアー
モデル（モジュールまたはステップ２１７における出力信号ＶＣ₈として示され
る）；ベクターモデル、適応データ、分類、音声学、または文節化（モジュール
またはステップ２１９において出力信号ＶＣ₉として示される）；部分、音節、
組み合わせ、自己学習または沈黙（モジュールまたはステップ２２１において出
力信号ＶＣ₁₀として示される）；パケット、呼吸の速度、音質、共鳴、または再
現モデル（モジュールまたはステップ２２３においてＶＣ₁₁として示される）；
和音、合成モデル、解像度、正確さ、またはその他の特徴（モジュールまたはス
テップ２２５において出力信号ＶＣ₁₂として示される）；または音声の部分（部
分かまたはその全体かに関わらず）を特定するための種々のその他の技術を、デ
ータは含んでいる。例えば、これはさらに、デジタルまたはアナログの音声署名
、変調、合成器入力データまたはこの目的のために形成されかつ有用なその他の
データを含み、これらの全てはモジュールまたはステップ２２７において出力信
号ＶＣ_Xとして示される。

【００５２】何れかのモジュールまたはステップからの１個または複数のデータタイプは、
音声テンプレートに価値を与え得ることが理解される。さらに、この発明の目的
に対して、ＶＣ_Xは、ここで言及しているか否かに関わらず、特定の音声に対す
る独特の音声プロファイルまたはテンプレートを定義するために、有用でかつこ
こに開示された新規な技術に従って使用されるならば、解釈の時点において全て
の既知の分類化技術を網羅している。繰り返すが、音声特徴ファイルに結合され
たデータおよび出力信号ＶＣ₀、ＶＣ₁、ＶＣ₂、ＶＣ_３、ＶＣ₄、ＶＣ₅、ＶＣ₆、
ＶＣ₇、ＶＣ₈、ＶＣ₉、ＶＣ₁₀、ＶＣ₁₁、ＶＣ₁₂およびＶＣ_Xは、音声を正確かつ
効率的に解析し、特徴づけするために、種々の方法で優先順位が付けられかつ結
合される。なお、ＶＣ_Xは、ここに参照として組み込まれる更なる技術を示して
いる。

【００５３】図５および６は、テンプレートされた音声に関係しかつ語形成に用いられると
見なされる情報を示すデジタルまたはコード化されたデータのような、種々の音
声特徴データを受信するために適切な、信号バンドラーの一例を示す。信号バン
ドラー３１６は、信号コンテンツモジュールまたはステップ３３２の出力と１個
または複数の信号ＶＣ₀−ＶＣ_Xからの評価／スコアを結合し、さらに出力音声テ
ンプレート、コードまたは信号ＶＴ_Xを作成するための可能性あるユーザインタ
ーフェース、デバイスまたは送信手段によって適正に転送されかつ使用されるた
めに適正なものとして、モジュールまたはステップ３４３において信号またはコ
ードをフォーマットする。種々の音声特徴を正確に叙述するためのユニークな識
別子を作成するために、種々の方法が可能であり、かつこのような種々の可能性
は、この発明のより広いコンテキストおよび範囲を考慮して、ある程度、ある構
成手順に独立に、ここにおいて可能であることが、理解される。

【００５４】図７は、音声テンプレート生成または記憶装置４０４および遠隔地ユーザ間の
電子的な問い合わせおよび転送の代表的な構成および方法である。この表現にお
いて、イネーブル部分は、種々のユーザ４１０、４１３、４１６によってリモー
ト音声テンプレート生成または記憶装置４０４に送られることが可能である。こ
の装置４０４は、次に、音声テンプレートデータファイルを生成し、音声テンプ
レート信号を作成しまたは検索する。テンプレート信号は次に、ステップ４３７
に示す様に、ユーザまたは被指名人に送信されまたはダウンロードされる。ダウ
ンロードの時点またはその後において、ユーザリクエスト４４１が続き、テンプ
レート信号は、ステップ／モジュール４５７に示す起動インストラクションおよ
びプロトコルを含む行き先装置によって、適正な使用のためにフォーマットされ
る。

【００５５】図８は、例えば、その上に重要な成分を有する、カード、ディスク、またはチ
ップのような、ユーザのモードおよび必要に応じて音声テンプレート技術を使用
する、可動媒体の概略的表示である。例えば、図７および８を使用して、旅行者
によるホテルへのチェックインにおいて、ホテルドアカード４７７を使用するこ
とができる。しかしながら、カードに適用される通常のオンサイトセキュリティ
コードプログラミングおよび回路４７９に加えて、この発明の特徴を含む追加の
構成が恐らく可能である。このようなカード内の追加的な特徴の概略表現は、旅
行者がホテルに滞在する間の種々の目的に対して、旅行者によって選択される音
声または複数の音声に対する音声テンプレートを受信しかつ使用するための手段
４８１を含む。図示するように、このような構成は、テンプレート受信および記
憶素子５０１、ノイズ生成器または生成回路５０６、中央処理ユニット５１１、
入力／出力回路５１５、デジタル−アナログおよび／またはアナログ−デジタル
素子５１８、およびクロック手段５２１を含む。繰り返すと、例えば、例えばセ
ルラー電話産業で既知のような音声圧縮または伸張手段、またはカードを所望に
機能させることを可能とするその他のコンポーネントのような、その他の種々の
素子を使用することができる。ユーザはその後、旅行者によって選択された音声
においてホテル内で、無機質な装置と対話またはインターフェースを楽しむこと
ができる。勿論、旅行者のプロファイルは、このような音声優先情報を必要に応
じて保有することが可能で、さらにある追加の請求書または利得をこの発明の使
用を通して獲得することができる。この発明は、広範囲の応用および品物に対し
て使用することが可能で、図８および９の例は限定として考察されるべきでない
ことを理解すべきである。

【００５６】図９は、フィギャーＦ_JJに帰属すると考えられる音声ＪＪおよびフィギャーＦ _KK に帰属すると考えられる音声ＫＫを伴う音声テンプレート技術を、対話的に使
用するために構成された写真６０２の描写である。ユーザの希望によって、起こ
ったらしいまたは起こったであろう会話を再生成するために、写真（またはその
他の媒体）の対象またはオブジェクトを適正な音声テンプレートにインターフェ
ースするために、フレーム６１０またはコンピュータ可読手段または単純な３次
元材料であるか否かに関わらないその他の構成と手段とを結合する。

【００５７】現実または人工的な音声成分を獲得し、解析しさらに構成するために、種々の
手段および方法が存在することを理解すべきである。例えば、以下の米国特許、
およびそれらに引用されまたはリストされた引例は、音声を獲得し、合成し、翻
訳し、認識し、特徴づけしまたはとにかく音声を解析するための幾つかの手段を
示しており、さらにそれらの全てがこのような教唆に対して参照によって組み込
まれる。これらの米国特許は、以下の通りである。４、４９３、０５０；４、７
１０、９５９；５、９３０、７５５；５、３０７、４４４；５、８９０、１１７
；５、０３０、１０１；４、２５７、３０４；５、７９４、１９３；５、７７４
、８３７；５、６３４、０８５；５、７０４、００７；５、２８０、５２７；５
、４６５、２９０；５、４２８、７０７；５、２３１、６７０；４、９１４、７
０３；４、８０３、７２９；５、８５０、６２７；５、７６５、１３２；５、７
１５、３６７；４、８２９、５７８；４、９０３、３０５；４、８５０、２１８
；５、９１５、２３６；５、９２０、８３６；５、９０９、６６６；５、９２０
、８３７；４、９０７、２７９；５、８５９、９１３；５、９７８、７６５；５
、４７５、７９６；５、４８３、５７９；４、１２２、７４２；５、２７８、９
４３；４、８３３、７１８；４、７５７、７３７；４、７５４、４８５；４、９
７５、９５７；４、９１２、７６８；４、９０７、２７９；４、８８８、８０６
；４、６８２、２９２；４、４１５、７６７；４、１８１、８２１；３、９８２
、０７０；および４、８８４、９７２．これらの引例の何れも、ここに請求され
または何処かに開示された新規な貢献を示してはいない。むしろ、上記の特許は
、この発明の１個または複数の実施例を実施するために必要と言うよりは有用な
ツールを示している。従って、種々のシステム、プロダクト、手段、方法、プロ
セス、データフォーマット、データ関連記憶および転送媒体、データコンテンツ
およびその他の特徴は、新規でかつ自明でない発明、利益、プロダクトおよびこ
こに開示された技術の応用を達成するために、本発明内であると考えられる。従
って、適切な場合には、発展速度および実現技術の入手性によって限定されるこ
となく、請求の範囲がこの先駆的技術が権利を与えられるべきである範囲の幅を
担うことができるように、上記の開示は、限定よりもむしろ１例と考えられるべ
きである。

【図面の簡単な説明】

【図１】本発明のシステム動作の、１実施例のフローチャートである。

【図２】音声獲得サブシステムの１実施例の概略図である。

【図３】音声解析サブシステムの１実施例の概略図である。

【図４】音声特徴づけサブシステムの１実施例の概略図である。

【図５】音声テンプレートサブシステムの１実施例の概略図である。

【図６】音声テンプレート信号一括化サブシステムの１実施例の概略図である。

【図７】ダウンロードされかつアップロードされた遠隔情報と共に使用される本発明の
システムの、１実施例の概略図である。

【図８】携帯製品において実現された本発明の１実施例の例示的な平面図である。

【図９】ビジュアル媒体ソースと共に使用される本発明の１実施例の例示的な平面図で
ある。

【手続補正書】

【提出日】平成１４年６月７日（２００２．６．７）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正の内容】

【特許請求の範囲】

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ，ＴＲ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＭＺ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＧ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＢＺ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＭＺ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者キーオ，キャサリンアクシアアメリカ合衆国，ミネソタ 55104，セントポール，ミシシッピリバーブールバードノース 470 Ｆターム(参考） 5D045 AA07 AA08 AA09 AC02

Claims

【特許請求の範囲】

【請求項１】音声の更なる使用においてその部分をテンプレートとして使
用するために充分な特定の音声のイネーブル部分を獲得するためのシステムであ
って、ａ．音声特徴に対する解析に有用な形で音声のイネーブル部分を獲得するため
の手段；ｂ．獲得された音声を受信しかつ解析し、さらに、獲得された音声の要素を特
徴データとして特徴づけするための、解析手段；ｃ．特定の音声に対して、解析手段からの特徴データを受信するための記憶手
段；およびｄ．さらなる使用のために、前記解析および特徴データを検索するための検索
手段、を備える、特定の音声のイネーブル部分を獲得するためのシステム。
【請求項２】前記音声を獲得するための手段は、デジタル記録手段を備え
る、請求項１に記載のシステム。
【請求項３】前記音声を獲得するための手段は、フラッシュメモリカード
を備える、請求項１に記載のシステム。
【請求項４】前記音声を獲得するための手段は、アナログ記録手段を備え
る、請求項１に記載のシステム。
【請求項５】前記音声を獲得するための手段は、生の音声を受信しかつこ
の生の音声を解析手段に送信するための入力手段を備える、請求項１に記載のシ
ステム。
【請求項６】前記解析手段はデジタルデータ記憶手段を備える、請求項１
に記載のシステム。
【請求項７】前記解析手段は、獲得された音声データ中のスピーチの特定
のパターン、シンタックス、周波数、ピッチおよびトーンを備える、クレーム１
記載のシステム。
【請求項８】前記解析手段は、獲得された音声に独特の特定の語彙、発音
またはアクセントを識別する手段を備える、請求項１に記載のシステム。
【請求項９】前記解析手段は、その音声の本人の特定の解剖学的構造から
主に派生する獲得された音声にユニークな特定の構造を識別するための手段を備
える、請求項１に記載のシステム。
【請求項１０】前記解析手段は、獲得された音声の本人の語彙を決定する
ための手段を備える、請求項１に記載のシステム。
【請求項１１】前記解析手段は、将来のテンプレート音声を形成するため
に使用される特徴データとして語彙を設定するための手段を備える、請求項１０
に記載のシステム。
【請求項１２】前記解析手段は、音声または記録された音声のデジタル表
現の形状において入力データをデジタルに処理するためのデジタル処理装置を備
える、請求項１に記載のシステム。
【請求項１３】前記解析手段は、音声の本人の生理的機能に関する付加的
なデータを受信するための第２の入力手段を備える、請求項１に記載のシステム
。
【請求項１４】前記解析手段および第２の入力手段は、音声を発声した人
間の形態の視覚化された情報を含むオーディオまたはその他のデータを選択的に
受信するために適したデジタル信号プロセッサ手段を備える、請求項１３に記載
のシステム。
【請求項１５】前記解析手段は、入力音声データセットを、年齢データ、
言語データ、教育データ、性別データ、職業データ、アクセントデータ、国籍デ
ータ、民族性データ、音声タイプデータ、習慣データおよび環境データを含む記
憶されたデータと比較する比較手段を備える、請求項１に記載のシステム。
【請求項１６】前記解析手段は、年齢データ、教育データ、性別データ、
職業データ、アクセントデータ、国籍データ、民族性データ、音声タイプデータ
、習慣データ、言語データおよび環境データを含む、音声を発声した人間に関す
るデータを受信するための第３の入力手段を含む、請求項１に記載のシステム。
【請求項１７】音において実際の特定の人間の音声に等しい音声様のノイ
ズを作成するための方法であって、ａ．記憶および使用のために特定の人間の音声のイネーブル部分を獲得し；ｂ．前記特定の人間の音声のイネーブル部分を記憶し；ｃ．獲得された音声の主要成分または特徴を識別するために前記イネーブル部
分を解析し；さらにｄ．１個または複数のデータベース手段からデータが指定された場合および聞
いた場合に、普通の聴覚的判断能力を有する聞き手に対して、特定の人間の音声
にあらゆる点で等しく響く新しい音声を作成するために、識別された主要な成分
または特徴を使用する、各ステップを備える方法。
【請求項１８】前記解析ステップは、周波数、トーン、ピッチ、ボリュー
ム、アクセント、性別、和音構造、音響パワー、発音またはタイミングアクセン
ト、パワーおよび周期性を含む少なくとも１個の成分に関する特定の人間の音声
の獲得されたイネーブル部分における成分を識別するためのステップを備える、
請求項１７に記載の方法。
【請求項１９】記憶および使用のために特定の人間の音声のイネーブル部
分を獲得するための前記ステップは、特定の人間の音声の喉頭において生成され
たノイズまたは乱流において生成されたノイズのいずれかを獲得することを含む
、請求項１８に記載の方法。
【請求項２０】人間の音声を正確に複製するための方法であって、ａ．複製すべき音声の発声者によって放出されるべき単語、音または句の組み
合わせを含む最小サイズデータを識別し；ｂ．媒体において複製すべき音声の発声者による単語、音または句の組み合わ
せの放出を獲得し；ｃ．聞き手が発声者の実際の音声の獲得された放出中に含まれていない幾つか
の言語成分を使用する生成された音声を聞いた場合に、人工的に生成された音声
が実質的に全ての面で、普通の聴覚的能力を有する聞き手に対して同じものとな
るように、識別された特徴を使用して、音声の人工的な生成を可能とするに充分
な、音声の発声者の音声特徴を識別するために、獲得された放出を解析する；各ステップを備える方法。
【請求項２１】１個の製品であって、ａ．人間の音声の複製を生じさせるためにコンピュータ可読プログラムコード
手段をその中に含むコンピュータ利用可能媒体であって、前記製品中の前記コン
ピュータ可読プログラムコード手段は、ｂ．音声の人工的な生成を可能とするに充分な音声特徴データを識別するため
に、発声者の音声の獲得されたイネーブル部分の解析をコンピュータに達成させ
るためのコンピュータ可読プログラムコード手段；およびｃ．発声者の実際の音声の獲得された放出中に含まれていない幾つかの言語成
分を使用する生成された音声を聞き手が聞いた場合に、人工的に生成された音声
が、聞き手に対して音および使用において実質的に同じとなるように、人工的に
音声を生成するために識別された音声特徴データを使用させるためのコンピュー
タ可読プログラムコード手段、を備える、製品。
【請求項２２】生成された音声を後の使用のために記憶するためのコンピ
ュータ可読プログラムコード手段をさらに含む、請求項２１に記載の製品。
【請求項２３】音声の発声者の音声プロファイルを生成するために音声特
徴データを使用するためのコンピュータ可読プログラムコード手段をさらに含む
、請求項２１に記載の製品。
【請求項２４】年齢データ、教育データ、性別データ、職業データ、アク
セントデータ、言語、国籍データ、民族性データ、音声タイプデータ、習慣デー
タ、一般データおよび環境データを含むデータを記憶するためのデータベース手
段にアクセスするためのコンピュータ可読プログラムコード手段をさらに備える
、請求項２１に記載の製品。
【請求項２５】音響出力デバイスと共に使用されるコンピュータプログラ
ム製品であって、ａ．音響出力デバイスを介して人間の音声を複製させるためのコンピュータ可
読プログラムコード手段を含むコンピュータ利用可能媒体であって、前記コンピ
ュータプログラム製品は、ｂ．音声の人工的な生成を可能とするに充分な音声特徴データを識別するため
に、発声者の音声の獲得されたイネーブル部分の解析をコンピュータに達成させ
るためのコンピュータ可読プログラムコード手段；およびｃ．聞き手が発声者の実際の音声の獲得された放出中に含まれていない幾つか
の言語成分を使用する生成された音声を聞いた場合に、人工的に生成された音声
が、聞き手に対して音および使用において実質的に同じとなるように、人工的に
音声を生成しかつ音響出力デバイスを介して音声を出力するために識別された音
声特徴データを使用させるための、コンピュータ可読プログラムコード手段、を備える、コンピュータプログラム製品。
【請求項２６】ディスプレイデバイスと共に使用されるコンピュータプロ
グラム製品であって、ａ．人間の音声を複製させかつディスプレイデバイス上にディスプレイされた
複製された音声の正確さを証明するためのコンピュータ可読プログラムコード手
段を含むコンピュータ利用可能媒体であって、前記コンピュータプログラム製品
は、ｄ．音声の人工的な生成を可能とするに充分な音声特徴データを識別するため
に、発声者の音声の獲得されたイネーブル部分の解析をコンピュータに達成させ
るためのコンピュータ可読プログラムコード手段；およびｅ．聞き手が発声者の実際の音声の獲得された放出中に含まれていない幾つか
の言語成分を使用する生成された音声を聞いた場合に、人工的に生成された音声
が、聞き手に対して音において実質的に同じとなるように、人工的に音声を生成
し、かつ生成された音声の特徴をディスプレイデバイス上の発声者の音声と比較
するために、識別された音声特徴データを使用させるための、コンピュータ可読
プログラムコード手段、を備える、コンピュータプログラム製品。
【請求項２７】音響出力デバイスと共に使用するためのコンピュータプロ
グラム製品であって、ａ．音響出力デバイスを介して人間の音声の複製を開始させるための、コンピ
ュータ可読プログラムコード手段を含むコンピュータ利用可能媒体であって、前
記コンピュータプログラム製品は、ｂ．音声の人工的な生成を可能とするに充分な、特定の音声にユニークな音声
特徴データファイルをコンピュータに受信させかつ起動するための、コンピュー
タ可読プログラムコード手段；およびｃ．聞き手が生成された音声および発声者の実際の音声の獲得された放出を聞
いた場合に、人工的に生成された音声が、聞き手に対して音において実質的に同
じとなるように、人工的に音声を生成し聴覚出力デバイスを介して出力するため
に、識別された音声特徴データを使用させるためのコンピュータ可読プログラム
コード手段、を備える、コンピュータプログラム製品。
【請求項２８】音響出力デバイスと共に使用するためのコンピュータプロ
グラム製品であって、ａ．音響出力デバイスを介して人間の音声の複製を開始させるための、コンピ
ュータ可読プログラムコード手段を含むコンピュータ利用可能媒体であって、前
記コンピュータプログラム製品は、ｂ．音声の人工的な生成を可能とするに充分な、特定の音声にユニークな音声
特徴データファイルを受信させかつ起動するための、コンピュータ可読プログラ
ムコード手段；およびｃ．人工的に生成された音声が、発声者の実際の音声に音響において実質的に
同じであるように、識別された音声特徴データファイルおよびノイズ生成手段音
響出力を使用させるための、コンピュータ可読プログラムコード手段、を備える、コンピュータプログラム製品。
【請求項２９】データ処理サブシステム上で実行されるアプリケーション
プログラムによるアクセスのためにデータを記憶するメモリであって、ａ．前記メモリ中に記憶されたデータ構造であって、前記データ構造は前記ア
プリケーションプログラムによって使用されるデータベース中に内在する情報を
含み、かつ：ｂ．前記メモリ中に記憶された少なくとも１個の音声イネーブル部分データフ
ァイルであって、前記音声イネーブル部分データファイルセットのそれぞれは他
の何れかの音声イネーブル部分データファイルセットと実質的に異なる情報を含
むものと；ｃ．複数の音声特徴に対して異なる基準を含む複数の音声特徴データファイル
；およびｄ．そのデータファイルのみにユニークなデータを有する少なくとも１個の音
声プロファイルデータをそれぞれが有する複数の音声プロファイルセット、を含
み、少なくとも１個の音声イネーブル部分データファイルとの比較操作を実行す
るために、前記データ構造は、前記音声特徴データファイルおよび前記音声プロ
ファイルデータへのアクセスを可能とする、メモリ。
【請求項３０】アプリケーションプログラムを実行しかつ前記アプリケー
ションプログラムによって使用されるデータベースを含む、データ処理システム
であって、前記データ処理システムは、ａ．前記アプリケーションプログラムを処理するためのＣＰＵ手段；およびｂ．前記アプリケーションプログラムによるアクセスのためのデータ構造を保
持するメモリ手段であって、前記データ構造は、前記アプリケーションプログラ
ムによって使用されるデータベース中に存在する情報で構成され、かつ、前記メモリ中に格納される少なくとも１個の音声イネーブル部分データファ
イルであって、それぞれの前記音声イネーブル部分データファイルセットは他の
何れの音声イネーブル部分データファイルセットとも実質的に異なる情報を含む
ものと；複数の音声特徴に対して異なる基準情報を含む複数の音声特徴データファイ
ルと；そのデータファイルのみにユニークなデータを有する少なくとも１個の音声
プロファイルデータファイルをそれぞれが有する複数の音声プロファイルセット
を含むもの；を含み、さらにｃ．前記データ処理システムは、少なくとも１個の音声イネーブル部分データ
ファイルとの比較操作を実行するために、前記音声特徴データファイルおよび前
記音声プロファイルデータへのアクセスを可能とする、データ処理システム。
【請求項３１】送信媒体に含まれるコンピュータデータ信号であって、ａ．特別に生成された音声を作成するために、付加的な電子ノイズをキー化す
るために有用なユニークな音声プロファイルテンプレートのための暗号化ソース
コード；およびｂ．暗号化ソースコードを１個の場所に搬送するために適し、かつ生成された
音声を作成するためにキーとして適用されるべきキャリア媒体から暗号化ソース
コードが除去可能であるように構成された、キャリア媒体、を備える、コンピュータデータ信号。
【請求項３２】電子デバイスの個人的音声アシスタントとして選択された
音声を使用するための方法であって、ａ．リモートデータベースにアクセスするために電子手段を起動し；ｂ．そのデータファイルのみにユニークでさらにユニークな識別子によって識
別し得るデータを有する少なくとも１個の音声プロファイルデータファイルをそ
れぞれが有する複数の音声プロファイルセットを含む音声データベースを有する
リモートデータベースに信号部分を送信し；ｃ．所望のデータファイルをユニークに識別しかつその後データファイルコン
テンツをユーザの指定した電子デバイスの場所に転送することを実施するために
、信号部分をリモートデータベースに送信し；さらにｄ．識別された音声によって決定されるように、選択された音声の音において
電子デバイスからのノイズを所望によりユーザが受信し得るように、電子デバイ
スまたはその他のこのようなノイズを生成するための手段のいずれかによって生
成された適正なノイズと組み合わせて、選択されかつ転送されたデータファイル
の音声テンプレートとしての使用を実行する；各ステップを備える方法。
【請求項３３】前記データファイルは、人工的に音声テンプレートを生成
するために識別された音声特徴を使用させるためのコンピュータ可読プログラム
コード手段として構成された、選択された音声のデータ特徴を含む、請求項３２
に記載の方法。
【請求項３４】前記実行ステップは、認証されたユーザのみが音声テンプ
レート技術およびデータにアクセスし使用することを可能とするための認証手段
の適用を含む、請求項３２に記載の方法。
【請求項３５】前記実行ステップは、聞こえた音声が真実のものかまたは
生成されたテンプレートのいずれかであることを証明するための選択的にアクセ
ス可能な証明手段の適応を含む、請求項３２に記載の方法。
【請求項３６】音声の更なる使用においてテンプレートとしてその部分を
使用するために充分な特定音声のイネーブル部分を獲得するためにシステムを使
用するビジネスを行うための方法であって、ａ．音声特徴に関して分析に有用な形状において音声のイネーブル部分を獲得
し；ｂ．イネーブル部分を、特徴データとして獲得された音声の要素を特徴付ける
ために、解析モジュールに入力し；ｃ．特定の音声に対して解析モジュールからの特徴データを受信し、さらに；ｄ．更なる使用のために、特徴データを記憶する；各ステップを備える、方法。
【請求項３７】音声を獲得するための手段はデジタル入力手段を含む、請
求項３６に記載の方法。
【請求項３８】音声のイネーブル部分は電子的に受信される、請求項３６
に記載の方法。
【請求項３９】発声者の特定の音声と似て響くテンプレート化された音声
を生成するために、特徴データを束ねて、生成されたノイズと結合するために有
用な音声テンプレート信号を形成する、請求項３６に記載の方法。
【請求項４０】特定の音声によって決して入力されてはいないがしかしテ
ンプレート化された音声において新しい単語を引き出すために、テンプレート化
された音声がスピーチ入力コマンドを受信できるように、テンプレート化された
音声を制御する、請求項３６に記載の方法。
【請求項４１】特定の音声のイネーブル部分を獲得するためおよびその部
分をテンプレート化された音声の更なる使用に対して有用なテンプレートとして
使用するための自動機械であって、ａ．音声特徴に関しての解析のために有用な形において音声のイネーブル部分
を取得するための、取得モジュール；ｂ．獲得された音声を受信しかつ解析し、さらに特徴データとして獲得された
音声の要素を特徴づけするための解析モジュール；およびｃ．音声テンプレート信号を、取得された特定の音声のユニークな識別子とし
て自動的に生成するためのテンプレート生成器モジュール；を備える、自動機械。
【請求項４２】データベースから特徴データを受信するために、記憶手段
と通信するための通信手段をさらに備える、請求項４１に記載の機械。
【請求項４３】生成されたテンプレートをリクエストされるまで記憶する
ための記憶手段と通信するための通信手段をさらに備える、請求項４１に記載の
機械。
【請求項４４】音声テンプレートを生成しかつこのような生成に対して収
益を生成するためのオンライン方法であって、ａ．特定の音声のイネーブル部分を獲得し；ｂ．後の使用に対して再構成されるような方法で獲得された音声の特徴を定義
するデータプロファイルを生成するために、特定の音声のイネーブル部分を解析
し；ｃ．獲得された特定の音声のユニークな識別子として音声テンプレート信号を
生成し；さらにｄ．別の人間による商業的な使用に対して少なくとも１個の生成されたデータ
プロファイルを提供する、各ステップを備える、オンライン方法。
【請求項４５】音声テンプレートを生成しかつこのような生成に対して収
益を生成するための機械によって操作される方法であって、ａ．特定の音声のイネーブル部分を獲得し；ｂ．後の使用に対して再構成することができるような方法で獲得された音声の
特徴を定義するデータプロファイルを生成するために、特定の音声のイネーブル
部分を解析し；ｃ．前記データプロファイルを使用して、獲得された特定の音声のユニークな
識別子として、音声テンプレート信号を生成し；さらにｄ．商業使用のために少なくとも１個の音声テンプレート信号を提供する；各ステップを備える機械によって操作される方法。
【請求項４６】音声テンプレートを生成するためのビジネス方法であって
、ａ．特定の音声またはテンプレート化された音声のイネーブル部分を獲得し；ｂ．コンピュータ手段を用いて、後の使用に対して再構成することができるよ
うな方法で獲得された音声の特徴を定義するデータプロファイルを生成するため
に、音声のイネーブル部分を解析し；ｃ．獲得された音声のユニークな識別子として音声テンプレート信号を電子的
に生成しまたは検索し；さらにｄ．商業的使用のために少なくとも１個の音声テンプレートを提供する；各ステップを備えるビジネス方法。
【請求項４７】前記提供するステップは電子データ交換において達成され
る、請求項４６に記載のビジネスを実行するための方法。
【請求項４８】複数の音声から音声テンプレートを生成するための方法で
あって、ａ．複数の音声またはテンプレート化された音声のイネーブル部分を獲得し；ｂ．コンピュータ手段を用いて、後の使用に対して再構成するために適した１
個の音声信号として束ねることが可能な方法で獲得された音声の特徴を定義する
データプロファイルを生成するために、音声のイネーブル部分を解析し；さらにｃ．新しく生成された音声のユニークな識別子として音声テンプレート信号を
電子的に生成する；各ステップを備える方法。