JP2003515768A - 特定の人間の音声をテンプレート化するためのシステムおよび方法 - Google Patents

特定の人間の音声をテンプレート化するためのシステムおよび方法

Info

Publication number
JP2003515768A
JP2003515768A JP2001540763A JP2001540763A JP2003515768A JP 2003515768 A JP2003515768 A JP 2003515768A JP 2001540763 A JP2001540763 A JP 2001540763A JP 2001540763 A JP2001540763 A JP 2001540763A JP 2003515768 A JP2003515768 A JP 2003515768A
Authority
JP
Japan
Prior art keywords
voice
data
audio
template
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001540763A
Other languages
English (en)
Inventor
ジェイ. キーオ,スティーブン
アクシア キーオ,キャサリン
Original Assignee
ジェイ. キーオ,スティーブン
アクシア キーオ,キャサリン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジェイ. キーオ,スティーブン, アクシア キーオ,キャサリン filed Critical ジェイ. キーオ,スティーブン
Publication of JP2003515768A publication Critical patent/JP2003515768A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 音声のイネーブル部分を獲得(103)し、その後、音声テンプレート(127)またはプロファイル信号を生成するためのシステムおよび方法を開示する。この音声テンプレートまたはプロファイル信号は、後に、オリジナルな音声を再構成するために、他の起源のノイズと結合することが出来る。このようにして再構成された音声は、次に、デジタル入力を介して提供された何らかの形またはコンテンツを話し、さらにオリジナルな音声によってオリジナルな形において話されたことが無いコンテンツを話すために使用される。あるビジネス方法および産業上の適応と同様に、製品およびオンラインプロセスが開示される。

Description

【発明の詳細な説明】
【0001】 (技術分野) 本発明は、音、特に人間の音声を獲得しかつ変更するためのシステム、方法お
よび製品に関する。
【0002】 (従来技術) 時の始めから哺乳動物およびその他の生物は、何らかの形で音声またはこれに
似た音によって意思の疎通をはかって来た。勿論、このような音は、同じ種内で
あっても、生物の形態における差のために非常に異なっている。生物における相
違とは、スピーチパターンおよびトーンの非常に異なった要素を含む。不幸にも
、特別の興味を持った音声を有する他人のスピーチを聞くことの喜びは、その人
間が死亡するかまたは聞き手との接触が終わった場合に失われる。
【0003】 音声を獲得することができる、非常に基本的な形のメディア獲得のみが今日存
在する。例えば、テープやデジタル記録装置は、だれかの音声を記録するために
使用され、それによって、将来それを聞き、かつ最初に記録されたように再生し
、または最初の記録の一部分を欲するままに演奏させるために、それを保持する
。音声記録のこのような装置および方法は、さらに、コンピュータによって生成
された人工的な音声の範囲を含み、これは例えば電話の自動案内および確認、お
もちゃまたは装置とユーザ間の非常に基本的なスピーチ、フィルムおよび娯楽産
業のための合成音声などを含む、多くの異なる機能のために使用される。ある応
用においては、これらの人工的な音声は、特別な入力に従って狭い応答範囲に対
して予めプログラムされている。ある場合は、実際の音声の単なる記録よりもさ
らに敏感であるけれども、これらの人工的な音声は、本発明の豊富な音声性能と
比較するとやはり単純である。勿論、本発明のある実施例では、このようなシス
テムとは非常に異なる要素、またはこのような従来の発見または発明によってか
って考えられ、まれまたは示唆された物をはるかに超える先行技術を取る要素の
いずれかが存在する。
【0004】 多くの刊行物が世界中で人工的な有声音化の局面を開示している。同様に、幾
つかの参考文献が、人工的な音声を使用し作成するシステムおよび技術を開示し
ている。しかしながら、これらのどの参考文献も本発明の概念を開示してはいな
い。
【0005】 (発明の開示) 音声パターンテンプレートを形成するために、特定の人間の音声のイネーブル
量を記録しまたは獲得するためのシステムおよび方法が提供される。このテンプ
レートは、正確な音声と同じように響く新しいスピーチを、このテンプレートを
使用して構築するためのツールとして有用であり、この新しいスピーチは恐らく
、その特定の人間によって実際に話されたことはなく、または正確な文脈または
文章中で話されたことはないが、しかし、その特定の人間の実際のスピーチに全
ての面で事実上同じ様に響くものである。イネーブル部分は、実際の音声を再構
築するために必要な、実際の音声要素を獲得するものとして設計されるが、しか
しながら、着手するために充分なイネーブルスピーチが存在しない場合、再構築
または再生成されたスピーチの限界を予測する、確かな割合がある。新しい音声
は、主題に関するデータベース、歴史的なデータおよび適応性のあるまたは人工
知能モジュールと共に使用され、テンプレートされた音声の発声者があたかもそ
こに存在するかのように、ユーザとの新しい議論を可能とする。このシステムお
よび方法は、例えばソフトウエアファイル、チップを埋め込んだツールあるいは
その他の形である、他のメディアと結合しても良い。このシステムおよび方法の
対話的な使用は、種々の仕様で起こる。ユニットモジュールそれ自体は、この発
明の実施例、例えば、ここに開示された仕様で音声を獲得しかつその使用を可能
とするように構成された、チップまたは電子ボード、全体を含んでいる。
【0006】 例えば、今すぐに応じられない人間、死んだ人間、または音声をこの方法でテ
ンプレートすることおよび使用することに同意した人間との新たな対話を獲得し
作成するためのツールとして、このテンプレートは有用である。別の例としては
、発声者とのオンデマンドの仮想的なスピーチを作成するために、実際の音声の
発声者の、例えばフィルム、写真またはその他の描写であるメディアに対する応
用がある。本発明の範囲内で、その他の種々の使用および応用が予想される。
【0007】 (発明の詳細な説明) 音声は、哺乳動物の間で非常に力を持った音である。母親の声の響きは、生ま
れる前の子供によっても認識されさらに子供をなだめ、祖父母の声の響きは、成
長した人間に対しても、その恐怖を落ち着かせる。他の音声は、全く知らない人
を奮い立たせ、または愛する人の遥か昔の出来事およびその瞬間の記憶を呼び起
こす。これらは、人間およびその他の種が持つ識別力の大きな贈り物、およびそ
れぞれの生物の独特の音声によって、その他(および彼等自身)に影響を与える
能力のほんの一例に過ぎない。人間において、例えば、人間の声のこのような特
異性は、両親の遺伝的な貢献に由来するものであり、この貢献は、結果として種
々の人体部位の形状、大きさおよび位置を生じるものであり、これらは、話をす
るかあるいは声または口および鼻孔を介して、とにかく意思の疎通をはかる場合
に、人間が音を出す方法に影響を与える。同様にその他の影響も存在する。した
がって、人々の間、時には同じ家族内であっても、ある範囲の違いが存在するこ
とが理解される。勿論、同じ人間であっても、例えば、健康、ストレスレベル、
感情の状態、疲労、その人の周りの気温またはその他の因子である、一時的な影
響に従って、少しでは有るが異なる声を出すことがある。
【0008】 しかしながら、人間の声の質は非常にユニークな組み合わせを示すと言う、世
界的に普遍の意見の一致がある。この組み合わせは、その声を過去に聞いた人間
にとって識別可能である。特に、例えば人間の声を、識別および交際に結びつけ
る感覚を通して連想する人間の能力は顕著である。人生の大きなかつ小さな出来
事は、成されたコメントの性質あるいは記憶されたトーンによって、往々にして
長年にわたってあるいは数十年後に思い出される。これは、音声の、永続的な強
さでありかつ感情的な力である。
【0009】 勿論、人間の音声を種々のメディアおよび機械上で獲得しかつ再生することは
周知である。テープおよびデジタルメディアにおいて、記録された人間の音声に
対する基本的操作が、故意および故意ではなくその両方でおいて、数十年にわた
って実行されている。しかしながら、この操作は、通常、人間が述べることがで
きるものよりもむしろ、人間が実際に述べられた範囲によって、限定される。例
えば、人間による実際の声明のセグメントは再生され、編集され、混合されかつ
しばしば異なる速度で再生される。人間の音声の使用についてのその他の例とし
て、例えば、漫画またはその他のアニメーションまたはある種の音楽に関連する
オーディオにおいて使用されているような、故意に歪ませた音声セグメントの再
生を含んでいる。勿論、アニメーションメディアは、また、実際の音声を使用し
て作る必要の無い人工的な音声を使用している。この一例は、電話および通信シ
ステムによって使用される、コンピュータ生成“音声”オペレータである。音声
および音の合成の一方法は、連結的であるとして言及され、かつ波形データサン
プルまたは実際の人間のスピーチの記録に、応用される。この方法は、次に、予
め記録されたオリジナルの人間のスピーチをセグメントに分割し、これらの人間
のスピーチセグメントをリンクさせて、音節、単語または句を作り、スピーチ発
音を生成する。これらのセグメントの大きさは変化する。人間のスピーチ合成の
別の方法は、パラメトリックとして知られている。この方法において、所望のス
ピーチ音を再生成するために、数式モデルが使用される。所望のそれぞれの音に
対して、その音を生成するために数式モデルまたは関数が使用される。従って、
パラメトリック方法は、一般に、要素として人間の音を含まない。最後に、一般
的に、パラメトリックスピーチ合成の幾つかの良く知られたタイプがある。その
一個は、発音合成器として知られており、これは、人間の肺、喉頭、声道および
鼻孔管の物理的な形状を数学的にモデルする。パラメトリックスピーチ合成の別
のタイプはフォーマット合成器として知られており、人間の声道の聴覚的形状を
数学的にモデルする。
【0010】 その他のシステムは、使用するシステムがその音声において一旦訓練されると
、特定の音声を認識するための手段を含んでいる。この例は、例えば口述システ
ム等によって、話し言葉を獲得し、その後これらの音をテキストに翻訳する分野
において有用な種々のスピーチ認識システムを含む。その他のスピーチに関連す
るシステムは、バイオメトリック分野およびセキュリティコードまたは暗号とし
ての、ある話し言葉の使用に関係している。これらのシステム、方法、手段また
はその他の開示の形態のいずれも、ここに開示された種々の発明を理解するもの
ではなく、また、このような開示のいずれもこのような技術発明の必要性を理解
させるものではない。長い間必要とされて来たものは、発声者によってまたは他
のものによって将来の使用および利益のために、ダイナミックでかつ適用的な仕
様において、他の人間の声を獲得するためのシステムおよび方法である。さらに
必要とされているものは、このような音声獲得またはプロファイルを、本人の声
でその本人よって恐らく予想されない方法において、継ぎ目の無い、明確なある
いはとにかく本物の発声または音声を提示する仕様で、達成しかつ使用するため
のシステムおよび方法である。ある付加的な効果がこれを達成するためのシステ
ムおよび方法において結果として生じる。それは、何らかの技術、教養または言
語を有する全ての人間によって容易に使用できると言うことである。さらに必要
とされていることは、特定の音声テンプレートへのアクセスを生成しかつ促進し
、その後、ビジネスまたは娯楽に関係するか否かにかかわらず、個人の必要性ま
たは希望に対してこれらの音声テンプレートの使用を促進するための、実施する
ための装置およびその他の手段と共に新しいビジネス方法、技術およびモデルで
ある。繰り返すが、音声技術の分野において多くが達成されているが、過去の努
力のいずれも、本発明を想起させるものではなく、かつ新規でかつこれまで認識
されていないこれらの発明に対する必要性にハイライトを当てるものでもない。
【0011】 図1は、特定の音声のイネーブル部分を獲得するためのシステム10の1実施
例の概略図であり、このイネーブル部分は音声特徴の更なる使用においてテンプ
レートとしてその部分を使用するために充分なものである。システム10は、例
えば、電子式ハンドヘルド装置、またはラップトップ、ノートブックあるいはデ
スクトップコンピュータ装置の一部であるハンドヘルド装置の一部である。ある
いは、システム10は、他のデバイス内の回路ボードの単なる一部、または他の
電子素子、回路またはシステム内に一時的または永久に配置されるように設計さ
れまたはこれらと共に使用するように設計された、電子部品または素子であり、
あるいはシステム10は、全体あるいはその一部において、コンピュータ可読コ
ードまたはニューラルシステムにおける単なる論理または機能回路を含んでいて
も良い。あるいはシステム10は、例えば分散ネットワークタイプシステムのよ
うな、その他の装置または製品として構成されても良い。1実施例では、システ
ム10は、処理および音声アルゴリズムの作成即ちテンプレート手段19のため
に、音声の一部分を獲得し受信するための入力即ち獲得手段15を備えており、
このテンプレート手段19は、データストリーム、データパッケージ、通信信号
、特定の音声を定義しさらに再生成するためのソフトウエアコード手段、または
、発声者の声の見かけ上の声として音すなわちノイズをアレンジするために適切
な音すなわちノイズの別の組織上に適用しまたはテンプレートするために組織さ
れた複数の音声特徴として、形成することが出来る。コンピュータ可読プログラ
ムコードをフォーマットするその他の手段、または人工的に音声を生成するため
に識別されたある音声特徴データを使用するその他の手段が、同様に本発明内で
あると考えられる。アルゴリズム即ちテンプレート手段19の論理またはルール
は、最小の音声入力で形成されることが好ましいが、しかしながら、特定の音声
に対する受け入れ可能なデータセットを形成するために、種々の量の音声および
その他のデータが望ましい場合もある。
【0012】 本発明の1実施例において、例えば少量のアナログまたはデジタル記録、ある
いはリアルタイムのライブ入力によって、テンプレートすべき人間の音声のイネ
ーブル部分を獲得することが望ましい。勿論、音声の正確な複製を可能とするた
めに最も関連する個人の音声特徴のデータ獲得を最適化するため、規定された単
語グループを形成しても良い。特定の個人に対してどの形のイネーブル部分がベ
ストであるかを最も効率的に決定するために、解析手段が考えられても良い。1
個のデータの入力または一連の入力に拘わらず、記憶手段22の少なくとも1部
分において音声データが獲得され記憶される。
【0013】 特定のユーザの音声のテンプレートを作成するために有用な特徴を識別するた
めに、プロセッサ手段25において、音声データの解析が実行される。プロセッ
サ手段に直接に音声データをルートすること、および最初に記憶手段22に行く
必要の無いこと、が理解される。プロセッサ手段、記憶手段およびテンプレート
手段間の相互作用の更なる例示的な議論を、図2〜8に関連して以下に示す。適
正な音声データを解析した後、1実施例において、音声のテンプレートをプロセ
ッサ手段25によって呼び出されるまで記憶しておく。例えば、音声AAのイネ
ーブル部分を獲得し解析しかつテンプレート化した後、デマンド要求が発生する
まで、これを(その他の構成要素の近くに存在するか、またはリモートに位置す
るか、または1個または複数の場所において分散モードで存在し得る)記憶手段
22に記憶する。デマンド要求の1例は、システム10のユーザが、代表的な入
力手段29を介して要求を提出し、音声AAテンプレートAAtを使用して、音
声AAの実際のライブ使用よりもむしろ生成された音声として、音声AAとの新
しく生成された会話に加わることである。これは、1個またはそれ以上の種々の
データベースと関連しまたはこれと共に使用する場合に発生することが出来る。
このデータベースのいくつかは状況データベース33または個人データベース3
6によって示される。次に、かつて形成されたオリジナル入力データのオリジナ
ル音声AAに非常に良く似て響く新しい会話音声AA1を生成するために、音声
AAテンプレートAAtを呼び出し、ある別のノイズを伴う形成メカニズムとし
て提供する。新しい音声AA1は、オリジナル音声AAに全ての面において類似
して響くけれども、これは実際、音声AAに例えば遺伝暗号のような一致キーを
提供するテンプレートAAtを有する人工的に作成された音声である。この方法
において、実際の音声のイネーブル部分は、システム10をテンプレートを用い
て符号化し、その結果ユーザによって希望される事実上の全ての方法で獲得され
た音声の再生成および限定されない使用を可能とする。これは、連結またはフォ
ーマット技術によって電気的に融合された音声AAの小部分の、以前の発声の単
なる合成ではなく、むしろ音声AA(すなわち、音声テンプレートまたはプロフ
ァイル)の特徴、および恐らく音声AAの本人に関連するその他の特徴を有する
音声を使用して、設計され、製造されかつ組み合わされあるいは構成された全体
的に新しい音声である。
【0014】 本技術の実施は巨大であって、このテンプレートされた音声技術の適正な使用
を維持するために、保護手段が必要であることが理解される。勿論、この技術は
、認証されたユーザに、音声テンプレート技術およびデータへのアクセスおよび
使用を可能とするための認証手段の更なる使用を必要とする。更なる必要性は、
このように生成された音声の不正なまたは認証されていない使用を防ぐために、
聞こえた音声が真実のものかまたはテンプレート化されたものかを証明するため
の手段を有することである。ライセンス、契約および殆どの国で既に存在するそ
の他のメカニズムに加えて、この技術の範囲を理解するために法的なメカニズム
を作る必要もある。
【0015】 図1において、接続手段41は、エネルギーまたはデータフローのための経路
を示し、これらは、システム構成要素間の実際のリード、光チャンネル、または
その他の電子的、生物学的あるいはその他の起動可能な経路である。1実施例で
は、パワー手段44がシステム10内に示されているが、これはシステムから離
れていても良い。
【0016】 システム10の別の実施例において、作成されるアルゴリズム、信号、符号化
手段またはテンプレートは、全体または部分的に、記憶手段22、テンプレート
手段19、またはその他のシステム構成要素またはアーキテクチャー中に、記憶
のためまたは改良のために戻されても良い。この能力は、発声者または別のユー
ザのインストラクションに従って、特定の音声テンプレートを改良しあるいは適
応させることを許可しかつ促進する。これは、例えば、同じ個人の音声の複数の
データセットが長い年月の間に入力された場合、あるいはその音声の本人に、異
なる年齢、展開、あるいはその他の生理学的あるいは感情的な変化が発生した場
合に達成され得る。勿論、以前に関わったコンテキストを呼び出すために、テン
プレート化された音声を訓練すること、およびこのような知識を将来の操作に含
めることは可能である。これらの場合、音声AA1テンプレート(AA1 t)を検
索し、かつ解析手段22または入力手段29を用いて比較し更新することによっ
て、この音声またはテンプレートを改良するために、改良モードを選択すること
は有用でありうる。さらに別の例では、音声テンプレートAA1 tの発声者である
音声AAに似た、1個またはそれ以上の音声特徴を含む音声BBを有する個人の
位置を含む。この場合、音声AA1または音声テンプレートAA1 tへの限定され
たあるいは一般的な改良入力として、音声BBから1個またはそれ以上の類似の
特徴を入力することは有用でありうる。これにより、音声BBを保持しかつ音声
BB1および音声テンプレートBB1 tを作成することが共に可能となる。なお、
音声BB1および音声テンプレートBB1 tは共に、将来において有用となりうる
。別の例では、声の本人1人に対して種々に改善され、オンデマンドで有用であ
りまたは提示された状態に従ってシステムまたはユーザによって適正な、音声の
データベースを生成することを含む。さらに別の例では、音声一致のサービスが
提供され、かつユーザの希望に従って音声テンプレートを改善するために、例え
ば自然にまたは人工的に生成された波形またはその他の音響または信号要素のよ
うな適正な改善ツールが提供される。
【0017】 システム10または関連システムおよび方法の更なる実施例の説明に先立って
、この技術の可能な応用を調べることは有用である。通常、全てをリストアップ
することが困難であるほど多くの応用がある。しかしながら、提供されたデータ
および音声に似たノイズを作成するためのテンプレートまたはコード化ツールか
ら結果として生じるデータによって生成された、音声に似たノイズの如何なる使
用も、本発明の範囲内に入り、特に、もし必要であれば、本人の実際の音声に事
実上同じ音声を再生成するために、このような符号化ツールがその他のノイズま
たは音の生成手段と共に使用された場合、この発明の範囲内に入るものと考えら
れる。完全に新しい文章または別の言語構造において生成された音声を使用する
ことは、さらに本発明の範囲内である。信号形成または音声テンプレート処理ま
たは製品を送信することの一部として、マシン、部品またはコンピュータ可読コ
ード化手段を提供する能力は、本技術をさらに促進する。音声テンプレートおよ
び音声生成技術の使用を、データストリームまたは他の形のデータに結合しまた
は活性化するための手段は、単なる案内または応答と同様に、適応的でかつ知能
的でありうる仮想的な対話を可能とし、このような対話または会話はユーザによ
って選択された音声によって成される。さらに、ここに開示された技術は、耳で
聞く音と同様に、視覚によるイメージと共に使用することが出来る。
【0018】 さらに、ここに記載した音声テンプレートは、発声者の声の実際のイネーブル
部分を含まないデータを使用して生成することができるが、しかし本人の音声の
複製の正確さを証明するために、本人の声のイネーブル部分を、恐らく他のデー
タと共に、使用することができる。この仕様において、音声のイネーブル部分を
、音声のテンプレート化に、または単にとにかくテンプレート化された音声の正
確さを証明するために使用することができる。テンプレート化された、または複
製された音声は、コンピュータまたはその他のマシンおよびシステムのユーザと
交信しまたはプロンプトするために使用することができる。ユーザは、テンプレ
ートされた音声の自身のライブラリ中から、テンプレートされた音声の別のソー
スから、このようなテンプレートされた音声を選択することが可能であり、ある
いはユーザは新しい音声を単に作り出すことが可能である。例えば、ユーザは、
テンプレートされた音声AA1をボイスメールプロンプトまたはテキストの読み
上げ、またはその他の通信インターフェースのために使用することができる一方
で、テンプレートされた音声CCは、対話式エンターテイメント使用に関連した
使用に対して選択することができる。ユーザのマシン中に潜んでいるトラブルシ
ューティングまたは問題、またはその装置のユーザに対するアラート信号は、テ
ンプレート化された音声DDによって作動している間にユーザによって識別され
または解決される。これらは、どのようにしてこの技術が改良されたユーザイン
ターフェースを可能とするか、およびテンプレート化された音声技術を使用する
ことによって、どのようにしてユーザによって機能、タスク、モードまたはその
他の構成の結合を実現するかについての、単なる例である。テンプレート選択お
よび使用、および生成された音声の作成および使用は、ユーザのマシンまたは装
置内、部分的にユーザのマシンまたは装置内で、またはユーザのマシンまたは装
置の外部で達成することができる。例えば、ホテルの部屋、訪問先のオフィス、
またはその他の短期間のシナリオ、または一時的には装置を使用するがしかし決
して上記修正された仕様で上記の構成を提供することのないものにおいて、1個
またはそれ以上の装置を一時的に使用する場合がある。例えば、旅行者は、飛行
機上で旅行者の同伴としてある音声を携帯しまたはアクセスすることを望むこと
がある。本発明は、病院またはホスピスの部屋またはその他の場所で有用であり
得る。これらの使用は、この中の1個またはそれ以上の実施例と共に可能である
。面白いことに、このシステムはある個人によって彼等自身の音声中で使用され
、他人への遺産として与えられる。多くのその他の使用方法がここに示唆した範
囲内にある。
【0019】 ここに開示された発明のその他の使用は、例えば、テンプレート化された音声
を選択することによって、歴史的なイベントを子供やその他の人に教えることの
ような、教育を含む。例えば、親が、子供に対して、その子供の死亡した祖父母
の声を使って、1960年代の米国における人種偏見に関して学習することを望
んだ場合、選ばれた1人の祖父母のテンプレート化された音声(入手可能であれ
ば)が設計され、製造され使用のために指定される。システム10は1個または
それ以上のデータベースにアクセスして指定されたトピックスに関する情報およ
び知識を取り入れ、その情報を、例えば必要に応じて使用するための、状況デー
タベース33のような、システム10内の1個またはそれ以上のデータベースに
提供する。所望の情報へのアクセスに続いて、祖父母のテンプレート化された音
声EE1が使用され、その結果デマンド要求がテンプレート化された音声EE1
よって満足され、希望する場合、指定されたトピックスに関して議論が開始され
る。このような議論は、システム10内に、またははなれた場所に、後の使用の
ために保存され、あるいはその議論は“祖父母”即ちテンプレート化された音声
とその子供との間の対話でありうる。この構成は、議論に先立って、子供の声の
個性を知るため、およびその子供から出そうな種々の質問の組み合わせに関する
、適正なボキャブラリーおよびニューラル認識を含むために、音声認識モジュー
ルを使用することによって可能である。加えて、入力および音声認識モジュール
からシステムのテンプレート化された音声部分へのブリッジが提供され、テンプ
レート化された音声による応答を可能とする。ここに記載した新規な使用方法に
従って構成された場合、種々のスピーチ認識ツールをこの方法で使用することが
考えられる。勿論この構成はまた質問に対する答えを速やかにサーチし、聞き手
である子供に対して適正な応答を形成するための手段を必要とする。明らかにこ
の例は、特に適当なデータ、システムパワーおよびシステム速度と結合された場
合の、この技術の非常に大きな可能性を示している。
【0020】 代替的に、付属的な音声認識モジュールを使用して、テンプレート化された音
声の聞き手が、生成された音声に中止または連続を命令することを可能とし、ま
たはあるコマンドを用いてあるその他の構成を可能とする、限定された構成の使
用が可能である。これは、使用タイプの全てではないがあるものに対して適正な
、限定された対話モードの形である。ユーザが例え付属の構成を使用しないこと
を選択し、その代わりに祖父母の声の無い物語または議論を単にアレンジしても
、この効果および利用性は、これまたはその他の使用タイプに対して、巨大であ
る。
【0021】 発声者の教育および人生経験に一致したテンプレート化された音声を使用する
ことのみをユーザが望む場合、このことは種々のフィルタまたは修正器の入力を
介して可能である。例えば、テンプレート化された音声は、再び、上記選択され
た(テンプレート化された音声EE1)祖父母のそれであり、フィルタDATA
DATESを、1960年代の米国における人種関係の議論に対して選択された
データ“BEFORDECEMBER1963”と共に使用する。その結果は、
指定された日の後で起こる全ての情報を含まない議論である。この例において、
“祖父母”は1965年の投票権法またはその国の1960年代後期の都市暴動
を議論することはできない。同様な方法で、例えば図4に示す特徴的なデータタ
イプを使用して、データまたはテンプレート化された音声自身の多くの異なる観
点を調整することが可能である。しかしながら、この発明の範囲内でその他の調
整が可能でありかつ考えられ、さらに上記の例は単に発明された技術の可能性を
単に示すだけのものであることが、理解される。
【0022】 ここに開示したシステムおよび方法の別の実施例において、ユーザは愛する人
または他人のテンプレート化された音声に、ユーザに対して読むことを命令する
ことができる。この例において、全ての年齢の人々に対して、そこにいないまた
は無くなった家族またはユーザにとって既知のその他の人の声で、ユーザに対し
て本を読ませることが可能である。データリンクを実施するために、適正に構成
されたメディアとコンピュータ可読コード手段を適正に結合することによって、
この発明はそれのみで莫大な利益をユーザに提供するであろう。このタイプの使
用は、提示された特定の事例を超えて広い応用を有している。勿論、この技術の
幾分広い使用では、料金または別の形の報酬によってアクセスおよび使用が可能
な、認証されかつテンプレート化された音声のデータベースを入手可能とさせる
。この技術は、音楽に対して使用された場合、特に、未だにその声が入手可能で
ある多くの有名な過去および現在の歌手のテンプレート化された音声にアクセス
することができる場合、同じような意味深い(難解な)影響を有している。明ら
かに、この技術は、製造、リース、購買またはその他の音声テンプレートおよび
関連手段、それと共にビジネスを実施するための技術および方法を用いた何らか
の新しい産業を可能とする。
【0023】 本発明は、ある軽症または重症の神経性疾患に対する治療において有用であり
得る。このような神経性疾患に対しては、テンプレート化された音声療法は症状
を軽減しまたは治療する場合もある。この技術のさらに別の可能な使用方法は、
使用するために新しく設計された音声を作成することであるが、この音声は、実
際の哺乳類起源の1個またはそれ以上のテンプレート化された音声において、基
礎または前駆体を有している。新しく作成された音声の所有権および更なる使用
は、種々の手段、またはライセンスまたはロイヤリティ等のような法的執行の元
で制御可能である。勿論、このような音声は、製作者によって限られた使用に対
して同様に私的所有物として保持され得る。人は、このように作成されたライブ
ラリの性質を想像することができる。このような音声は、製作者の創造的な野心
を示すが、それぞれの音声は、特定の音声に適用可能であるが、しかしDNA組
織の紐に似た、テンプレート化ツールまたはコードの使用を介したベースとして
、実際には実際の哺乳類の音声成分または言い回しを有している。このタイプの
組み合わせは、強力で新しい通信能力と、哺乳類によって作られた音声およびそ
の他の音に基づいた関係を示す。
【0024】 本発明にかかるシステムは、ハンドヘルドまたはその他のサイズを有する。こ
のシステムは、他のシステムに組み込まれていても良く、またはその動作におい
てスタンドアロンであってもよい。このシステムおよび方法は、分散、ネットワ
ークまたはその他の関係する遠隔システムにおいて、その構成要素の1部分また
は全てを有している。このシステムおよび方法は、ダウンロード可能なまたは遠
隔よりアクセスが可能なデータを使用することができ、さらに種々のその他のシ
ステムまたは方法またはプロセスを制御するために使用することができる。本発
明の実施例は、ここに開示した方法および操作を要求しかつ実行するために、露
出されたインターフェースルーチンを含んでいるが、しかしこれはその全体ある
いは部分的にその他のオペレーションシステムまたはアプリケーションシステム
において実行することができる。テンプレート化プロセスおよびテンプレート化
された音声の使用は、哺乳類または人工的な機械またはプロセッサのいずれかに
よって達成されかつ使用される。例えば、ロボットまたはその他の知的支援装置
は、1個またはそれ以上のこのタイプのテンプレート化された音声を作成しまた
は使用する。このような支援装置は、ある普遍的な基準または限定された基準に
従って自動的に音声をサーチするために使用され、さらに仮想的または実体的な
音声工場においてテンプレート化された音声を生成することができる。この方法
において、テンプレート化された音声の大きなデータベースが効率的に制作され
る。このまたは同様の体系的使用において、テンプレート化された音声を制作す
るために使用される実際の音声の1個またはそれ以上の部分に対して、データま
たはその他のタイプのタグ付けまたは識別技術を生成し適応することが望ましい
【0025】 以下は、ここに開示した技術を使用する応用事例である。これらは、限定の目
的ではなく、むしろこの開示の何処かにおいて可能とされとにかく示唆されてい
るものに加えて、代表的でかつ可能な使用方法として提供されるものである。
【0026】 例1 この中の実施例の要素を使用するテンプレート化プロセスは、音声コード信号
を生じる。この音声コード信号は、その音声の音を正確に複製するために重要な
特定の音声特徴の論理構造を含んでいる。
【0027】 例2 この中の技術を使用して、1個またはそれ以上の選択された音声を使用する、
パーソナルコンピュータのプロンプターおよびアップデートする人、ステータス
のリポーター、または友人。
【0028】 例3 この中の技術を使用して、1個またはそれ以上の選択された音声を使用する、
家庭エネルギーの管理者、リポーター、または友人。
【0029】 例4 例えば、ユーザによって選択された音声でのホテルにおけるウェークアップコ
ールのような、所望の指示(プロンプト)に従ってユーザに指示を与える、ホテ
ルルームのアシスタントまたは自動車のアシスタント。同様に、音声またはユー
ザによって選択された音声で情報を受信することができる車両オペレータ。
【0030】 例5 音声獲得、比較、変更等の何れの場合において、パーソナルデジタルアシスタ
ント、ハンドヘルドパーソナルコンピュータ装置またはその他の電子装置または
部品において、この中の技術を使用して1個またはそれ以上の選択された音声を
使用すること。
【0031】 例6 ここに開示したビジネスおよび技術方法および製造を実施するために、コンピ
ュータ/電子チップロジック、指示またはコード化手段において、1個またはそ
れ以上の音声または音声テンプレートを作成しまたは管理すること。
【0032】 例7 その他のビジュアルメディア、例えば写真、デジタルビデオまたはホログラフ
イメージと組み合わせて、音声テンプレート技術を使用すること。
【0033】 例8 音声を記録し、再生しまたは再構成することができる全ての装置とのプラグ−
インのために、フラッシュメモリベースのプロファイルカードと共にここに開示
された技術を使用すること。
【0034】 例9 ユーザが音声または選択した音声において望むことに対して、ダウンロード可
能な情報を走査し更新する個人的な装置と共に、ここに開示した技術を使用する
こと。例えば、これは、ユーザがいない間のバックグランドサーチおよびインタ
ーフェースのためのインフォロボットのようなロボットによって成され得るアク
ションを編成するため、さらにその後この中の技術を使用した1個または複数の
指定された音声でユーザにステータスを報告することに対して有用である。
【0035】 例10 1個または複数の車両またはその他の輸送システムと組み合わせて、この中に
開示された技術を使用すること。
【0036】 例11 機内の道連れとして、1個または複数の飛行機部品としてここに開示された技
術を使用すること。
【0037】 例12 例えばパーソナルコンピュータ姿勢モニタ、電気装置、危険な装置である、職
場における1個または複数のギアまたは装置と共に使用する場合、安全を喚起す
るものとしてここに開示された技術を使用すること。
【0038】 例13 例えば口述装置であるその他の音声によって起動されるシステムに対する付属
品として、プロンプト、コンパニオンまたはテキストリーダーとして、ここに開
示された技術を使用すること。
【0039】 例14 例えば、運転者の暴行またはドライバーまたは自動的にまたはその他の手段に
よって引き起こされた、その他の形の怒りおよびフラストレーションに対するツ
ールである、社会的仲裁または制御機構として、ここに開示された技術を使用す
ること。
【0040】 例15 家庭、学校または職場における教育ツールとしてここに開示された技術を使用
すること。
【0041】 例16 インスピレーション的な朗読に対してここに開示された技術を使用すること。
【0042】 例17 家族の歴史機械として働くツールとしてここに開示の技術を使用すること。
【0043】 例18 ベストまたは希望の音声を有する歌手に対して、音声ソースおよびマッチ技術
のMusicMatch(商標)ブランドとして、ここに開示の技術を使用する
こと。
【0044】 例19 オリジナルの演奏者によって既に使用され、または音声テンプレート化技術コ
ンビネーション使用に対してその後作成された、エンターテイメント脚本のテン
プレート化のために好ましい音声を使用するために、映画またはビデオマッチ技
術のVoiceSelect(商標)ブランドとして、ここに開示された技術を
使用すること。
【0045】 例20 例えば、“SelectVoice(商標)”ブランドまたは“ViceX(
商標)”ブランドモードオペレーションにかかわり、例7において参照されたも
のと同様に、選択されうる平凡なモデルと同様にその声に一致する人々のイメー
ジのデータベースを有するハンドヘルドユニットである、“アルタ・エゴ”装置
として、ここに開示の技術を使用すること。
【0046】 例21 プロファイルされ、またはテンプレートされた音声のプロファイルを作成する
ために、ここに開示された技術を使用すること。
【0047】 例22 モニタおよび対話式セキュリティのために、住居内での寝る前の朗読者または
夜の中間として、ここに開示の技術を使用すること。
【0048】 図2は、音声獲得システムの1実施例のフローチャートであり、このシステム
は、テンプレート化のために指定された音声AAの獲得、解析および使用を達成
するためのコンピュータ可読コード化手段または方法を含んでいる。図3は、音
声解析システムの1実施例であり、音声データ特徴づけルーチンを効率的に決定
するための論理または方法手段を含んでいても良い。これらの実施例において、
音声AAは、獲得モジュールまたはステップ103において獲得され、次に、テ
ンプレート化プロセスを介して、論理ステップおよび例えば通路106のような
データ伝導性通路によってルートされる。獲得は、デジタルまたはアナログ方法
および部品によって達成され得る。獲得された音声AAを示す信号は解析手段1
11または方法によってルートされ、存在する音声プロファイルかあるいはテン
プレート一致音声かどうかが決定される。これは、例えば、1個または複数の特
徴(例えば図4の音声特徴づけサブシステム113中に示すもの)を、獲得モジ
ュール103または解析手段111のいずれかによって決定されたものと比較す
ることによって、さらに次にこれらの1個または複数の特徴を既知の音声プロフ
ァイルまたはアクセス可能なテンプレート、例えば解析ステップ111において
、と比較することによって達成される。代表的なフィードバックおよび初期解析
ループ114はこれらのステップを、経路116がするように、促進する。この
ような比較は、音声プロファイルデータベースまたはその他のローカルまたは遠
隔の記憶媒体に問い合わせることを含む。この解析モジュール111および音声
特徴づけサブシステム113における解析ステップは、解析される音声が既存の
音声プロファイルまたはデータファイルと関係しまたは一致するかどうかを断定
するために、アルゴリズム、統計またはその他の技術に基づいて、繰り返されて
も良い。図4は、音声特徴づけサブシステム113の更なる詳細を提供する。
【0049】 再び図2を参照すると、音声AAに対応する信号が既存の音声プロファイルセ
ットと一致しないかまたは同じでない場合は、その信号は包括的な特徴づけのた
めに、音声特徴づけサブシステムにルートされる。しかしながら、もし既存の音
声プロファイルデータファイルが音声AAのプロファイル信号と一致すれば、テ
ンプレートの作成は、モジュール/ステップ127において要求されないであろ
う。この状況において、この信号は、修正プロファイルまたはテンプレートを生
成する可能性のために、解析されおよび/または特徴づけされることができる。
この修正プロファイルまたはテンプレートはその後格納されまたは応用される。
この状況は、例えば、これまでに入手されていない追加の特徴データ(例えば、
イネーブル部分のサイズ、ストレスの存在または欠乏、またはその他の因子)が
入手された場合に起こり得る。従って、特定の音声データファイルは複数のテン
プレートを含んでいる。これは、図2および3の有効化サブシステム113にお
いて一般的に示される論理ステップとシステム成分を有する、有効化プロセスで
ある。サブシステムおよび成分への相関的な位置に関して、これらの図は一般的
に概略的であることが強調される。同様に、図3に示す様に、音声プロファイル
データファイルが存在すること(ステップ137)を決定した後、ステップ13
9の有効化ロジックが付随的に発生する。もし、既存のテンプレートの修正に値
するならば、これはステップ142で発生する。あるいは、ロジックステップ1
45は既存のテンプレートへの修正はないと、言及する。ステップ143または
145のいずれかに続いて、この新しく修正された、または以前の音声プロファ
イルまたはテンプレートが、ステップ155において格納されまたは使用される
【0050】 図2のテンプレート作成モジュール/ステップ127は、ユニークな識別子、
恐らくはデジタル識別子を、テンプレートされまたはプロファイルされたその特
定の音声に対して作成するために、音声特徴づけサブシステムを使用することを
含んでいる。このデータは、抽象的には、遺伝暗号、遺伝子配列コード、または
バーコード、および目だってユニークなオブジェクト、エンティティまたは現象
の同様の識別子に似ている。従って、出願人はこの音声プロファイルまたはテン
プレートを、“VoiceTemplateTechnology(商標)”と
同様に“VoiceDNA(商標)またはVDNA(商標)”および“Voic
eSequenceCodes(商標)またはVoicSequenceCod
ing(商標)”として言及する。用語“プロファイル、プロファイルまたはプ
ロファイリング”および派生用語は上述の商標またはその他のこの新しい技術の
参照用語と置き換え可能である。テンプレートの作成完了に引き続いて、音声テ
ンプレートを記憶することができる(記憶モジュールまたはステップ161にお
いて示され、またはモジュールまたはステップ164における使用に適用される
)。
【0051】 図4は、音声特徴づけサブシステムの概略図である。この開示は、特徴づけデ
ータおよび、音声テンプレートまたはプロファイルを使用して音声をここで開示
するように提起するために、顕著なデータを決定し特徴づけするための手段の少
なくとも1実施例を含む。図示するように、特徴づけデータの定型化における比
較のために、種々のタイプのデータが使用可能である。この特徴づけデータは、
次に、コード化基準に従って音声テンプレートまたはプロファイルを作成するた
めに使用される。図4のデータは、ディスクリートモデルで配列されているよう
に見えるけれども、種々のシーケンスまたは重み付け優先度における比較のため
にどのようなデータであってもアクセス可能である、オープン比較器プロセスが
好ましい。とにかく、この図に示す様に、言語カテゴリー、性別、方言、地域ま
たはアクセント(モジュールまたはステップ201において“音声特徴”出力信
号VC0として示される);周波数、ピッチ、トーン、期間または振幅(モジュ
ールまたはステップ203における出力信号VC1で示される);年齢、健康状
態、発音、語彙、または生理的機能(モジュールまたはステップ205において
出力信号VC2でしめされる);パターン、シンタックス、ボリューム、遷移ま
たは音声タイプ(モジュールまたはステップ207において出力信号VC3とし
て示される);教育、経験、フェーズ、繰り返しまたは文法(モジュールまたは
ステップ209において出力信号VC4として示される);職業、国籍、民族性
、習慣または環境(モジュールまたはステップ211において出力信号VC5
して示される);コンテキスト、多様性、ルール/モデル、イネーブル部分のタ
イプ、サイズまたは個数(モジュールまたはステップ213において出力信号V
6として示される);速度、感情、連続音(クラスター)、類似性または音響
モデル(モジュールまたはステップ215において出力信号VC7として示され
る);数学モデル、処理モデル、信号モデル、音声に似たモデルまたはシェアー
モデル(モジュールまたはステップ217における出力信号VC8として示され
る);ベクターモデル、適応データ、分類、音声学、または文節化(モジュール
またはステップ219において出力信号VC9として示される);部分、音節、
組み合わせ、自己学習または沈黙(モジュールまたはステップ221において出
力信号VC10として示される);パケット、呼吸の速度、音質、共鳴、または再
現モデル(モジュールまたはステップ223においてVC11として示される);
和音、合成モデル、解像度、正確さ、またはその他の特徴(モジュールまたはス
テップ225において出力信号VC12として示される);または音声の部分(部
分かまたはその全体かに関わらず)を特定するための種々のその他の技術を、デ
ータは含んでいる。例えば、これはさらに、デジタルまたはアナログの音声署名
、変調、合成器入力データまたはこの目的のために形成されかつ有用なその他の
データを含み、これらの全てはモジュールまたはステップ227において出力信
号VCXとして示される。
【0052】 何れかのモジュールまたはステップからの1個または複数のデータタイプは、
音声テンプレートに価値を与え得ることが理解される。さらに、この発明の目的
に対して、VCXは、ここで言及しているか否かに関わらず、特定の音声に対す
る独特の音声プロファイルまたはテンプレートを定義するために、有用でかつこ
こに開示された新規な技術に従って使用されるならば、解釈の時点において全て
の既知の分類化技術を網羅している。繰り返すが、音声特徴ファイルに結合され
たデータおよび出力信号VC0、VC1、VC2、VC、VC4、VC5、VC6
VC7、VC8、VC9、VC10、VC11、VC12およびVCXは、音声を正確かつ
効率的に解析し、特徴づけするために、種々の方法で優先順位が付けられかつ結
合される。なお、VCXは、ここに参照として組み込まれる更なる技術を示して
いる。
【0053】 図5および6は、テンプレートされた音声に関係しかつ語形成に用いられると
見なされる情報を示すデジタルまたはコード化されたデータのような、種々の音
声特徴データを受信するために適切な、信号バンドラーの一例を示す。信号バン
ドラー316は、信号コンテンツモジュールまたはステップ332の出力と1個
または複数の信号VC0−VCXからの評価/スコアを結合し、さらに出力音声テ
ンプレート、コードまたは信号VTXを作成するための可能性あるユーザインタ
ーフェース、デバイスまたは送信手段によって適正に転送されかつ使用されるた
めに適正なものとして、モジュールまたはステップ343において信号またはコ
ードをフォーマットする。種々の音声特徴を正確に叙述するためのユニークな識
別子を作成するために、種々の方法が可能であり、かつこのような種々の可能性
は、この発明のより広いコンテキストおよび範囲を考慮して、ある程度、ある構
成手順に独立に、ここにおいて可能であることが、理解される。
【0054】 図7は、音声テンプレート生成または記憶装置404および遠隔地ユーザ間の
電子的な問い合わせおよび転送の代表的な構成および方法である。この表現にお
いて、イネーブル部分は、種々のユーザ410、413、416によってリモー
ト音声テンプレート生成または記憶装置404に送られることが可能である。こ
の装置404は、次に、音声テンプレートデータファイルを生成し、音声テンプ
レート信号を作成しまたは検索する。テンプレート信号は次に、ステップ437
に示す様に、ユーザまたは被指名人に送信されまたはダウンロードされる。ダウ
ンロードの時点またはその後において、ユーザリクエスト441が続き、テンプ
レート信号は、ステップ/モジュール457に示す起動インストラクションおよ
びプロトコルを含む行き先装置によって、適正な使用のためにフォーマットされ
る。
【0055】 図8は、例えば、その上に重要な成分を有する、カード、ディスク、またはチ
ップのような、ユーザのモードおよび必要に応じて音声テンプレート技術を使用
する、可動媒体の概略的表示である。例えば、図7および8を使用して、旅行者
によるホテルへのチェックインにおいて、ホテルドアカード477を使用するこ
とができる。しかしながら、カードに適用される通常のオンサイトセキュリティ
コードプログラミングおよび回路479に加えて、この発明の特徴を含む追加の
構成が恐らく可能である。このようなカード内の追加的な特徴の概略表現は、旅
行者がホテルに滞在する間の種々の目的に対して、旅行者によって選択される音
声または複数の音声に対する音声テンプレートを受信しかつ使用するための手段
481を含む。図示するように、このような構成は、テンプレート受信および記
憶素子501、ノイズ生成器または生成回路506、中央処理ユニット511、
入力/出力回路515、デジタル−アナログおよび/またはアナログ−デジタル
素子518、およびクロック手段521を含む。繰り返すと、例えば、例えばセ
ルラー電話産業で既知のような音声圧縮または伸張手段、またはカードを所望に
機能させることを可能とするその他のコンポーネントのような、その他の種々の
素子を使用することができる。ユーザはその後、旅行者によって選択された音声
においてホテル内で、無機質な装置と対話またはインターフェースを楽しむこと
ができる。勿論、旅行者のプロファイルは、このような音声優先情報を必要に応
じて保有することが可能で、さらにある追加の請求書または利得をこの発明の使
用を通して獲得することができる。この発明は、広範囲の応用および品物に対し
て使用することが可能で、図8および9の例は限定として考察されるべきでない
ことを理解すべきである。
【0056】 図9は、フィギャーFJJに帰属すると考えられる音声JJおよびフィギャーF KK に帰属すると考えられる音声KKを伴う音声テンプレート技術を、対話的に使
用するために構成された写真602の描写である。ユーザの希望によって、起こ
ったらしいまたは起こったであろう会話を再生成するために、写真(またはその
他の媒体)の対象またはオブジェクトを適正な音声テンプレートにインターフェ
ースするために、フレーム610またはコンピュータ可読手段または単純な3次
元材料であるか否かに関わらないその他の構成と手段とを結合する。
【0057】 現実または人工的な音声成分を獲得し、解析しさらに構成するために、種々の
手段および方法が存在することを理解すべきである。例えば、以下の米国特許、
およびそれらに引用されまたはリストされた引例は、音声を獲得し、合成し、翻
訳し、認識し、特徴づけしまたはとにかく音声を解析するための幾つかの手段を
示しており、さらにそれらの全てがこのような教唆に対して参照によって組み込
まれる。これらの米国特許は、以下の通りである。4、493、050;4、7
10、959;5、930、755;5、307、444;5、890、117
;5、030、101;4、257、304;5、794、193;5、774
、837;5、634、085;5、704、007;5、280、527;5
、465、290;5、428、707;5、231、670;4、914、7
03;4、803、729;5、850、627;5、765、132;5、7
15、367;4、829、578;4、903、305;4、850、218
;5、915、236;5、920、836;5、909、666;5、920
、837;4、907、279;5、859、913;5、978、765;5
、475、796;5、483、579;4、122、742;5、278、9
43;4、833、718;4、757、737;4、754、485;4、9
75、957;4、912、768;4、907、279;4、888、806
;4、682、292;4、415、767;4、181、821;3、982
、070;および4、884、972.これらの引例の何れも、ここに請求され
または何処かに開示された新規な貢献を示してはいない。むしろ、上記の特許は
、この発明の1個または複数の実施例を実施するために必要と言うよりは有用な
ツールを示している。従って、種々のシステム、プロダクト、手段、方法、プロ
セス、データフォーマット、データ関連記憶および転送媒体、データコンテンツ
およびその他の特徴は、新規でかつ自明でない発明、利益、プロダクトおよびこ
こに開示された技術の応用を達成するために、本発明内であると考えられる。従
って、適切な場合には、発展速度および実現技術の入手性によって限定されるこ
となく、請求の範囲がこの先駆的技術が権利を与えられるべきである範囲の幅を
担うことができるように、上記の開示は、限定よりもむしろ1例と考えられるべ
きである。
【図面の簡単な説明】
【図1】 本発明のシステム動作の、1実施例のフローチャートである。
【図2】 音声獲得サブシステムの1実施例の概略図である。
【図3】 音声解析サブシステムの1実施例の概略図である。
【図4】 音声特徴づけサブシステムの1実施例の概略図である。
【図5】 音声テンプレートサブシステムの1実施例の概略図である。
【図6】 音声テンプレート信号一括化サブシステムの1実施例の概略図である。
【図7】 ダウンロードされかつアップロードされた遠隔情報と共に使用される本発明の
システムの、1実施例の概略図である。
【図8】 携帯製品において実現された本発明の1実施例の例示的な平面図である。
【図9】 ビジュアル媒体ソースと共に使用される本発明の1実施例の例示的な平面図で
ある。
【手続補正書】
【提出日】平成14年6月7日(2002.6.7)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正の内容】
【特許請求の範囲】
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE,TR),OA(BF ,BJ,CF,CG,CI,CM,GA,GN,GW, ML,MR,NE,SN,TD,TG),AP(GH,G M,KE,LS,MW,MZ,SD,SL,SZ,TZ ,UG,ZW),EA(AM,AZ,BY,KG,KZ, MD,RU,TJ,TM),AE,AG,AL,AM, AT,AU,AZ,BA,BB,BG,BR,BY,B Z,CA,CH,CN,CR,CU,CZ,DE,DK ,DM,DZ,EE,ES,FI,GB,GD,GE, GH,GM,HR,HU,ID,IL,IN,IS,J P,KE,KG,KP,KR,KZ,LC,LK,LR ,LS,LT,LU,LV,MA,MD,MG,MK, MN,MW,MX,MZ,NO,NZ,PL,PT,R O,RU,SD,SE,SG,SI,SK,SL,TJ ,TM,TR,TT,TZ,UA,UG,US,UZ, VN,YU,ZA,ZW (72)発明者 キーオ,キャサリン アクシア アメリカ合衆国,ミネソタ 55104,セン ト ポール,ミシシッピ リバー ブール バード ノース 470 Fターム(参考) 5D045 AA07 AA08 AA09 AC02

Claims (48)

    【特許請求の範囲】
  1. 【請求項1】 音声の更なる使用においてその部分をテンプレートとして使
    用するために充分な特定の音声のイネーブル部分を獲得するためのシステムであ
    って、 a.音声特徴に対する解析に有用な形で音声のイネーブル部分を獲得するため
    の手段; b.獲得された音声を受信しかつ解析し、さらに、獲得された音声の要素を特
    徴データとして特徴づけするための、解析手段; c.特定の音声に対して、解析手段からの特徴データを受信するための記憶手
    段;および d.さらなる使用のために、前記解析および特徴データを検索するための検索
    手段、 を備える、特定の音声のイネーブル部分を獲得するためのシステム。
  2. 【請求項2】 前記音声を獲得するための手段は、デジタル記録手段を備え
    る、請求項1に記載のシステム。
  3. 【請求項3】 前記音声を獲得するための手段は、フラッシュメモリカード
    を備える、請求項1に記載のシステム。
  4. 【請求項4】 前記音声を獲得するための手段は、アナログ記録手段を備え
    る、請求項1に記載のシステム。
  5. 【請求項5】 前記音声を獲得するための手段は、生の音声を受信しかつこ
    の生の音声を解析手段に送信するための入力手段を備える、請求項1に記載のシ
    ステム。
  6. 【請求項6】 前記解析手段はデジタルデータ記憶手段を備える、請求項1
    に記載のシステム。
  7. 【請求項7】 前記解析手段は、獲得された音声データ中のスピーチの特定
    のパターン、シンタックス、周波数、ピッチおよびトーンを備える、クレーム1
    記載のシステム。
  8. 【請求項8】 前記解析手段は、獲得された音声に独特の特定の語彙、発音
    またはアクセントを識別する手段を備える、請求項1に記載のシステム。
  9. 【請求項9】 前記解析手段は、その音声の本人の特定の解剖学的構造から
    主に派生する獲得された音声にユニークな特定の構造を識別するための手段を備
    える、請求項1に記載のシステム。
  10. 【請求項10】 前記解析手段は、獲得された音声の本人の語彙を決定する
    ための手段を備える、請求項1に記載のシステム。
  11. 【請求項11】 前記解析手段は、将来のテンプレート音声を形成するため
    に使用される特徴データとして語彙を設定するための手段を備える、請求項10
    に記載のシステム。
  12. 【請求項12】 前記解析手段は、音声または記録された音声のデジタル表
    現の形状において入力データをデジタルに処理するためのデジタル処理装置を備
    える、請求項1に記載のシステム。
  13. 【請求項13】 前記解析手段は、音声の本人の生理的機能に関する付加的
    なデータを受信するための第2の入力手段を備える、請求項1に記載のシステム
  14. 【請求項14】 前記解析手段および第2の入力手段は、音声を発声した人
    間の形態の視覚化された情報を含むオーディオまたはその他のデータを選択的に
    受信するために適したデジタル信号プロセッサ手段を備える、請求項13に記載
    のシステム。
  15. 【請求項15】 前記解析手段は、入力音声データセットを、年齢データ、
    言語データ、教育データ、性別データ、職業データ、アクセントデータ、国籍デ
    ータ、民族性データ、音声タイプデータ、習慣データおよび環境データを含む記
    憶されたデータと比較する比較手段を備える、請求項1に記載のシステム。
  16. 【請求項16】 前記解析手段は、年齢データ、教育データ、性別データ、
    職業データ、アクセントデータ、国籍データ、民族性データ、音声タイプデータ
    、習慣データ、言語データおよび環境データを含む、音声を発声した人間に関す
    るデータを受信するための第3の入力手段を含む、請求項1に記載のシステム。
  17. 【請求項17】 音において実際の特定の人間の音声に等しい音声様のノイ
    ズを作成するための方法であって、 a.記憶および使用のために特定の人間の音声のイネーブル部分を獲得し; b.前記特定の人間の音声のイネーブル部分を記憶し; c.獲得された音声の主要成分または特徴を識別するために前記イネーブル部
    分を解析し;さらに d.1個または複数のデータベース手段からデータが指定された場合および聞
    いた場合に、普通の聴覚的判断能力を有する聞き手に対して、特定の人間の音声
    にあらゆる点で等しく響く新しい音声を作成するために、識別された主要な成分
    または特徴を使用する、 各ステップを備える方法。
  18. 【請求項18】 前記解析ステップは、周波数、トーン、ピッチ、ボリュー
    ム、アクセント、性別、和音構造、音響パワー、発音またはタイミングアクセン
    ト、パワーおよび周期性を含む少なくとも1個の成分に関する特定の人間の音声
    の獲得されたイネーブル部分における成分を識別するためのステップを備える、
    請求項17に記載の方法。
  19. 【請求項19】 記憶および使用のために特定の人間の音声のイネーブル部
    分を獲得するための前記ステップは、特定の人間の音声の喉頭において生成され
    たノイズまたは乱流において生成されたノイズのいずれかを獲得することを含む
    、請求項18に記載の方法。
  20. 【請求項20】 人間の音声を正確に複製するための方法であって、 a.複製すべき音声の発声者によって放出されるべき単語、音または句の組み
    合わせを含む最小サイズデータを識別し; b.媒体において複製すべき音声の発声者による単語、音または句の組み合わ
    せの放出を獲得し; c.聞き手が発声者の実際の音声の獲得された放出中に含まれていない幾つか
    の言語成分を使用する生成された音声を聞いた場合に、人工的に生成された音声
    が実質的に全ての面で、普通の聴覚的能力を有する聞き手に対して同じものとな
    るように、識別された特徴を使用して、音声の人工的な生成を可能とするに充分
    な、音声の発声者の音声特徴を識別するために、獲得された放出を解析する; 各ステップを備える方法。
  21. 【請求項21】 1個の製品であって、 a.人間の音声の複製を生じさせるためにコンピュータ可読プログラムコード
    手段をその中に含むコンピュータ利用可能媒体であって、前記製品中の前記コン
    ピュータ可読プログラムコード手段は、 b.音声の人工的な生成を可能とするに充分な音声特徴データを識別するため
    に、発声者の音声の獲得されたイネーブル部分の解析をコンピュータに達成させ
    るためのコンピュータ可読プログラムコード手段;および c.発声者の実際の音声の獲得された放出中に含まれていない幾つかの言語成
    分を使用する生成された音声を聞き手が聞いた場合に、人工的に生成された音声
    が、聞き手に対して音および使用において実質的に同じとなるように、人工的に
    音声を生成するために識別された音声特徴データを使用させるためのコンピュー
    タ可読プログラムコード手段、 を備える、製品。
  22. 【請求項22】 生成された音声を後の使用のために記憶するためのコンピ
    ュータ可読プログラムコード手段をさらに含む、請求項21に記載の製品。
  23. 【請求項23】 音声の発声者の音声プロファイルを生成するために音声特
    徴データを使用するためのコンピュータ可読プログラムコード手段をさらに含む
    、請求項21に記載の製品。
  24. 【請求項24】 年齢データ、教育データ、性別データ、職業データ、アク
    セントデータ、言語、国籍データ、民族性データ、音声タイプデータ、習慣デー
    タ、一般データおよび環境データを含むデータを記憶するためのデータベース手
    段にアクセスするためのコンピュータ可読プログラムコード手段をさらに備える
    、請求項21に記載の製品。
  25. 【請求項25】 音響出力デバイスと共に使用されるコンピュータプログラ
    ム製品であって、 a.音響出力デバイスを介して人間の音声を複製させるためのコンピュータ可
    読プログラムコード手段を含むコンピュータ利用可能媒体であって、前記コンピ
    ュータプログラム製品は、 b.音声の人工的な生成を可能とするに充分な音声特徴データを識別するため
    に、発声者の音声の獲得されたイネーブル部分の解析をコンピュータに達成させ
    るためのコンピュータ可読プログラムコード手段;および c.聞き手が発声者の実際の音声の獲得された放出中に含まれていない幾つか
    の言語成分を使用する生成された音声を聞いた場合に、人工的に生成された音声
    が、聞き手に対して音および使用において実質的に同じとなるように、人工的に
    音声を生成しかつ音響出力デバイスを介して音声を出力するために識別された音
    声特徴データを使用させるための、コンピュータ可読プログラムコード手段、 を備える、コンピュータプログラム製品。
  26. 【請求項26】 ディスプレイデバイスと共に使用されるコンピュータプロ
    グラム製品であって、 a.人間の音声を複製させかつディスプレイデバイス上にディスプレイされた
    複製された音声の正確さを証明するためのコンピュータ可読プログラムコード手
    段を含むコンピュータ利用可能媒体であって、前記コンピュータプログラム製品
    は、 d.音声の人工的な生成を可能とするに充分な音声特徴データを識別するため
    に、発声者の音声の獲得されたイネーブル部分の解析をコンピュータに達成させ
    るためのコンピュータ可読プログラムコード手段;および e.聞き手が発声者の実際の音声の獲得された放出中に含まれていない幾つか
    の言語成分を使用する生成された音声を聞いた場合に、人工的に生成された音声
    が、聞き手に対して音において実質的に同じとなるように、人工的に音声を生成
    し、かつ生成された音声の特徴をディスプレイデバイス上の発声者の音声と比較
    するために、識別された音声特徴データを使用させるための、コンピュータ可読
    プログラムコード手段、 を備える、コンピュータプログラム製品。
  27. 【請求項27】 音響出力デバイスと共に使用するためのコンピュータプロ
    グラム製品であって、 a.音響出力デバイスを介して人間の音声の複製を開始させるための、コンピ
    ュータ可読プログラムコード手段を含むコンピュータ利用可能媒体であって、前
    記コンピュータプログラム製品は、 b.音声の人工的な生成を可能とするに充分な、特定の音声にユニークな音声
    特徴データファイルをコンピュータに受信させかつ起動するための、コンピュー
    タ可読プログラムコード手段;および c.聞き手が生成された音声および発声者の実際の音声の獲得された放出を聞
    いた場合に、人工的に生成された音声が、聞き手に対して音において実質的に同
    じとなるように、人工的に音声を生成し聴覚出力デバイスを介して出力するため
    に、識別された音声特徴データを使用させるためのコンピュータ可読プログラム
    コード手段、 を備える、コンピュータプログラム製品。
  28. 【請求項28】 音響出力デバイスと共に使用するためのコンピュータプロ
    グラム製品であって、 a.音響出力デバイスを介して人間の音声の複製を開始させるための、コンピ
    ュータ可読プログラムコード手段を含むコンピュータ利用可能媒体であって、前
    記コンピュータプログラム製品は、 b.音声の人工的な生成を可能とするに充分な、特定の音声にユニークな音声
    特徴データファイルを受信させかつ起動するための、コンピュータ可読プログラ
    ムコード手段;および c.人工的に生成された音声が、発声者の実際の音声に音響において実質的に
    同じであるように、識別された音声特徴データファイルおよびノイズ生成手段音
    響出力を使用させるための、コンピュータ可読プログラムコード手段、 を備える、コンピュータプログラム製品。
  29. 【請求項29】 データ処理サブシステム上で実行されるアプリケーション
    プログラムによるアクセスのためにデータを記憶するメモリであって、 a.前記メモリ中に記憶されたデータ構造であって、前記データ構造は前記ア
    プリケーションプログラムによって使用されるデータベース中に内在する情報を
    含み、かつ: b.前記メモリ中に記憶された少なくとも1個の音声イネーブル部分データフ
    ァイルであって、前記音声イネーブル部分データファイルセットのそれぞれは他
    の何れかの音声イネーブル部分データファイルセットと実質的に異なる情報を含
    むものと; c.複数の音声特徴に対して異なる基準を含む複数の音声特徴データファイル
    ;および d.そのデータファイルのみにユニークなデータを有する少なくとも1個の音
    声プロファイルデータをそれぞれが有する複数の音声プロファイルセット、を含
    み、少なくとも1個の音声イネーブル部分データファイルとの比較操作を実行す
    るために、前記データ構造は、前記音声特徴データファイルおよび前記音声プロ
    ファイルデータへのアクセスを可能とする、メモリ。
  30. 【請求項30】 アプリケーションプログラムを実行しかつ前記アプリケー
    ションプログラムによって使用されるデータベースを含む、データ処理システム
    であって、前記データ処理システムは、 a.前記アプリケーションプログラムを処理するためのCPU手段;および b.前記アプリケーションプログラムによるアクセスのためのデータ構造を保
    持するメモリ手段であって、前記データ構造は、前記アプリケーションプログラ
    ムによって使用されるデータベース中に存在する情報で構成され、かつ、 前記メモリ中に格納される少なくとも1個の音声イネーブル部分データファ
    イルであって、それぞれの前記音声イネーブル部分データファイルセットは他の
    何れの音声イネーブル部分データファイルセットとも実質的に異なる情報を含む
    ものと; 複数の音声特徴に対して異なる基準情報を含む複数の音声特徴データファイ
    ルと; そのデータファイルのみにユニークなデータを有する少なくとも1個の音声
    プロファイルデータファイルをそれぞれが有する複数の音声プロファイルセット
    を含むもの;を含み、さらに c.前記データ処理システムは、少なくとも1個の音声イネーブル部分データ
    ファイルとの比較操作を実行するために、前記音声特徴データファイルおよび前
    記音声プロファイルデータへのアクセスを可能とする、データ処理システム。
  31. 【請求項31】 送信媒体に含まれるコンピュータデータ信号であって、 a.特別に生成された音声を作成するために、付加的な電子ノイズをキー化す
    るために有用なユニークな音声プロファイルテンプレートのための暗号化ソース
    コード;および b.暗号化ソースコードを1個の場所に搬送するために適し、かつ生成された
    音声を作成するためにキーとして適用されるべきキャリア媒体から暗号化ソース
    コードが除去可能であるように構成された、キャリア媒体、 を備える、コンピュータデータ信号。
  32. 【請求項32】 電子デバイスの個人的音声アシスタントとして選択された
    音声を使用するための方法であって、 a.リモートデータベースにアクセスするために電子手段を起動し; b.そのデータファイルのみにユニークでさらにユニークな識別子によって識
    別し得るデータを有する少なくとも1個の音声プロファイルデータファイルをそ
    れぞれが有する複数の音声プロファイルセットを含む音声データベースを有する
    リモートデータベースに信号部分を送信し; c.所望のデータファイルをユニークに識別しかつその後データファイルコン
    テンツをユーザの指定した電子デバイスの場所に転送することを実施するために
    、信号部分をリモートデータベースに送信し;さらに d.識別された音声によって決定されるように、選択された音声の音において
    電子デバイスからのノイズを所望によりユーザが受信し得るように、電子デバイ
    スまたはその他のこのようなノイズを生成するための手段のいずれかによって生
    成された適正なノイズと組み合わせて、選択されかつ転送されたデータファイル
    の音声テンプレートとしての使用を実行する; 各ステップを備える方法。
  33. 【請求項33】 前記データファイルは、人工的に音声テンプレートを生成
    するために識別された音声特徴を使用させるためのコンピュータ可読プログラム
    コード手段として構成された、選択された音声のデータ特徴を含む、請求項32
    に記載の方法。
  34. 【請求項34】 前記実行ステップは、認証されたユーザのみが音声テンプ
    レート技術およびデータにアクセスし使用することを可能とするための認証手段
    の適用を含む、請求項32に記載の方法。
  35. 【請求項35】 前記実行ステップは、聞こえた音声が真実のものかまたは
    生成されたテンプレートのいずれかであることを証明するための選択的にアクセ
    ス可能な証明手段の適応を含む、請求項32に記載の方法。
  36. 【請求項36】 音声の更なる使用においてテンプレートとしてその部分を
    使用するために充分な特定音声のイネーブル部分を獲得するためにシステムを使
    用するビジネスを行うための方法であって、 a.音声特徴に関して分析に有用な形状において音声のイネーブル部分を獲得
    し; b.イネーブル部分を、特徴データとして獲得された音声の要素を特徴付ける
    ために、解析モジュールに入力し; c.特定の音声に対して解析モジュールからの特徴データを受信し、さらに; d.更なる使用のために、特徴データを記憶する; 各ステップを備える、方法。
  37. 【請求項37】 音声を獲得するための手段はデジタル入力手段を含む、請
    求項36に記載の方法。
  38. 【請求項38】 音声のイネーブル部分は電子的に受信される、請求項36
    に記載の方法。
  39. 【請求項39】 発声者の特定の音声と似て響くテンプレート化された音声
    を生成するために、特徴データを束ねて、生成されたノイズと結合するために有
    用な音声テンプレート信号を形成する、請求項36に記載の方法。
  40. 【請求項40】 特定の音声によって決して入力されてはいないがしかしテ
    ンプレート化された音声において新しい単語を引き出すために、テンプレート化
    された音声がスピーチ入力コマンドを受信できるように、テンプレート化された
    音声を制御する、請求項36に記載の方法。
  41. 【請求項41】 特定の音声のイネーブル部分を獲得するためおよびその部
    分をテンプレート化された音声の更なる使用に対して有用なテンプレートとして
    使用するための自動機械であって、 a.音声特徴に関しての解析のために有用な形において音声のイネーブル部分
    を取得するための、取得モジュール; b.獲得された音声を受信しかつ解析し、さらに特徴データとして獲得された
    音声の要素を特徴づけするための解析モジュール;および c.音声テンプレート信号を、取得された特定の音声のユニークな識別子とし
    て自動的に生成するためのテンプレート生成器モジュール; を備える、自動機械。
  42. 【請求項42】 データベースから特徴データを受信するために、記憶手段
    と通信するための通信手段をさらに備える、請求項41に記載の機械。
  43. 【請求項43】 生成されたテンプレートをリクエストされるまで記憶する
    ための記憶手段と通信するための通信手段をさらに備える、請求項41に記載の
    機械。
  44. 【請求項44】 音声テンプレートを生成しかつこのような生成に対して収
    益を生成するためのオンライン方法であって、 a.特定の音声のイネーブル部分を獲得し; b.後の使用に対して再構成されるような方法で獲得された音声の特徴を定義
    するデータプロファイルを生成するために、特定の音声のイネーブル部分を解析
    し; c.獲得された特定の音声のユニークな識別子として音声テンプレート信号を
    生成し;さらに d.別の人間による商業的な使用に対して少なくとも1個の生成されたデータ
    プロファイルを提供する、 各ステップを備える、オンライン方法。
  45. 【請求項45】 音声テンプレートを生成しかつこのような生成に対して収
    益を生成するための機械によって操作される方法であって、 a.特定の音声のイネーブル部分を獲得し; b.後の使用に対して再構成することができるような方法で獲得された音声の
    特徴を定義するデータプロファイルを生成するために、特定の音声のイネーブル
    部分を解析し; c.前記データプロファイルを使用して、獲得された特定の音声のユニークな
    識別子として、音声テンプレート信号を生成し;さらに d.商業使用のために少なくとも1個の音声テンプレート信号を提供する; 各ステップを備える機械によって操作される方法。
  46. 【請求項46】 音声テンプレートを生成するためのビジネス方法であって
    、 a.特定の音声またはテンプレート化された音声のイネーブル部分を獲得し; b.コンピュータ手段を用いて、後の使用に対して再構成することができるよ
    うな方法で獲得された音声の特徴を定義するデータプロファイルを生成するため
    に、音声のイネーブル部分を解析し; c.獲得された音声のユニークな識別子として音声テンプレート信号を電子的
    に生成しまたは検索し;さらに d.商業的使用のために少なくとも1個の音声テンプレートを提供する; 各ステップを備えるビジネス方法。
  47. 【請求項47】 前記提供するステップは電子データ交換において達成され
    る、請求項46に記載のビジネスを実行するための方法。
  48. 【請求項48】 複数の音声から音声テンプレートを生成するための方法で
    あって、 a.複数の音声またはテンプレート化された音声のイネーブル部分を獲得し; b.コンピュータ手段を用いて、後の使用に対して再構成するために適した1
    個の音声信号として束ねることが可能な方法で獲得された音声の特徴を定義する
    データプロファイルを生成するために、音声のイネーブル部分を解析し;さらに c.新しく生成された音声のユニークな識別子として音声テンプレート信号を
    電子的に生成する; 各ステップを備える方法。
JP2001540763A 1999-11-23 2000-11-23 特定の人間の音声をテンプレート化するためのシステムおよび方法 Pending JP2003515768A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16716899P 1999-11-23 1999-11-23
US60/167,168 1999-11-23
PCT/US2000/032328 WO2001039180A1 (en) 1999-11-23 2000-11-23 System and method of templating specific human voices

Publications (1)

Publication Number Publication Date
JP2003515768A true JP2003515768A (ja) 2003-05-07

Family

ID=22606225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001540763A Pending JP2003515768A (ja) 1999-11-23 2000-11-23 特定の人間の音声をテンプレート化するためのシステムおよび方法

Country Status (13)

Country Link
EP (1) EP1252620A1 (ja)
JP (1) JP2003515768A (ja)
KR (1) KR20020060975A (ja)
CN (1) CN1391690A (ja)
AP (1) AP2002002524A0 (ja)
AU (1) AU2048001A (ja)
BR (1) BR0015773A (ja)
CA (1) CA2392436A1 (ja)
EA (1) EA004079B1 (ja)
IL (1) IL149813A0 (ja)
NO (1) NO20022406L (ja)
WO (1) WO2001039180A1 (ja)
ZA (1) ZA200204036B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102466736B1 (ko) * 2021-06-18 2022-11-14 주식회사 한글과컴퓨터 사용자에 의해 입력된 음성을 기초로 본인 인증을 수행하는 음성 기반의 사용자 인증 서버 및 그 동작 방법

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
US9240182B2 (en) * 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
US9552810B2 (en) 2015-03-31 2017-01-24 International Business Machines Corporation Customizable and individualized speech recognition settings interface for users with language accents
RU2617918C2 (ru) * 2015-06-19 2017-04-28 Иосиф Исаакович Лившиц Способ формирования образа человека с учетом характеристик его психологического портрета, полученных под контролем полиграфа
KR101963195B1 (ko) * 2017-06-21 2019-03-28 구동하 사용자 음성을 이용한 생리 주기 결정 방법 및 이를 실행하는 서버
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US11314215B2 (en) 2017-09-15 2022-04-26 Kohler Co. Apparatus controlling bathroom appliance lighting based on user identity
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
CN109298642B (zh) * 2018-09-20 2021-08-27 三星电子(中国)研发中心 采用智能音箱进行监控的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5007081A (en) * 1989-01-05 1991-04-09 Origin Technology, Inc. Speech activated telephone
US5594789A (en) * 1994-10-13 1997-01-14 Bell Atlantic Network Services, Inc. Transaction implementation in video dial tone network
US5717828A (en) * 1995-03-15 1998-02-10 Syracuse Language Systems Speech recognition apparatus and method for learning
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102466736B1 (ko) * 2021-06-18 2022-11-14 주식회사 한글과컴퓨터 사용자에 의해 입력된 음성을 기초로 본인 인증을 수행하는 음성 기반의 사용자 인증 서버 및 그 동작 방법

Also Published As

Publication number Publication date
EA200200587A1 (ru) 2002-10-31
CA2392436A1 (en) 2001-05-31
KR20020060975A (ko) 2002-07-19
BR0015773A (pt) 2002-08-06
IL149813A0 (en) 2002-11-10
CN1391690A (zh) 2003-01-15
AP2002002524A0 (en) 2002-06-30
EP1252620A1 (en) 2002-10-30
ZA200204036B (en) 2003-08-21
AU2048001A (en) 2001-06-04
NO20022406L (no) 2002-07-12
WO2001039180A1 (en) 2001-05-31
NO20022406D0 (no) 2002-05-21
EA004079B1 (ru) 2003-12-25

Similar Documents

Publication Publication Date Title
US20020072900A1 (en) System and method of templating specific human voices
Yilmazyildiz et al. Review of semantic-free utterances in social human–robot interaction
JP6876752B2 (ja) 応答方法及び装置
Gold et al. Speech and audio signal processing: processing and perception of speech and music
CN111667812A (zh) 一种语音合成方法、装置、设备及存储介质
JP2023501074A (ja) ユーザ用の音声モデルを生成すること
JP2003099084A (ja) 音声による感情合成方法及び装置
US20050108011A1 (en) System and method of templating specific human voices
JP2003515768A (ja) 特定の人間の音声をテンプレート化するためのシステムおよび方法
WO2022184055A1 (zh) 文章的语音播放方法、装置、设备、存储介质及程序产品
Lim et al. Towards expressive musical robots: a cross-modal framework for emotional gesture, voice and music
US20230186937A1 (en) Audio source separation and audio dubbing
CN110539721A (zh) 一种车辆控制方法及其装置
Vágnerová Sirens/cyborgs: Sound technologies and the musical body
Moon et al. Mist-tacotron: End-to-end emotional speech synthesis using mel-spectrogram image style transfer
CN116312471A (zh) 语音迁移、语音交互方法、装置、电子设备及存储介质
CN112885326A (zh) 个性化语音合成模型创建、语音合成和测试方法及装置
US20220383850A1 (en) System and method for posthumous dynamic speech synthesis using neural networks and deep learning
CN112863476B (zh) 个性化语音合成模型构建、语音合成和测试方法及装置
US8219402B2 (en) Asynchronous receipt of information from a user
WO2004008295A2 (en) System and method for voice characteristic medical analysis
WO2021102647A1 (zh) 数据处理方法、装置和存储介质
Bohac et al. A cross-lingual adaptation approach for rapid development of speech recognizers for learning disabled users
Lee et al. The Sound of Hallucinations: Toward a more convincing emulation of internalized voices
EP4343761A1 (en) Enhanced audio file generator