JP2023517004A - ピッチ敵対的ネットワークを用いた教師なし歌唱音声変換 - Google Patents

ピッチ敵対的ネットワークを用いた教師なし歌唱音声変換 Download PDF

Info

Publication number
JP2023517004A
JP2023517004A JP2022552631A JP2022552631A JP2023517004A JP 2023517004 A JP2023517004 A JP 2023517004A JP 2022552631 A JP2022552631 A JP 2022552631A JP 2022552631 A JP2022552631 A JP 2022552631A JP 2023517004 A JP2023517004 A JP 2023517004A
Authority
JP
Japan
Prior art keywords
computer
pitch
data
singing voice
singing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022552631A
Other languages
English (en)
Inventor
チェンズ・ユ
ヘン・ル
チャオ・ウェン
ドン・ユ
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2023517004A publication Critical patent/JP2023517004A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

歌唱音声変換のための方法、コンピュータ可読媒体、およびコンピュータシステムが提供される。歌唱音声に対応するデータが受信される。1つまたは複数の敵対的ニューラルネットワークを使用して、受信データから1つまたは複数の特徴およびピッチデータが抽出される。抽出されたピッチデータおよび1つまたは複数の特徴に基づいて、1つまたは複数のオーディオサンプルが生成される。

Description

本出願は、2020年3月3日に出願された米国特許出願第16/807,851号に基づく優先権を主張し、その全体が参照により本明細書に明示的に組み込まれる。
本開示は、一般に、コンピューティングの分野に関し、より詳細には、データ処理に関する。
歌唱は人間の表現の重要な手段であり、コンピュータによる音声合成は長年にわたって関心を集めてきた。歌唱音声変換は歌唱音声を合成する1つの方法であり、これにより既存の歌唱の中に存在する音楽表現が抽出され、他の歌唱者の声を用いて再生され得る。
実施形態は、歌唱音声変換のための方法、システム、およびコンピュータ可読媒体に関する。一態様によれば、歌唱音声変換のための方法が提供される。本方法は、歌唱音声に対応するデータを受信するステップを含みうる。1つまたは複数の敵対的ニューラルネットワークを使用して、受信データから1つまたは複数の特徴およびピッチデータが抽出される。抽出されたピッチデータおよび1つまたは複数の特徴に基づいて、1つまたは複数のオーディオサンプルが生成される。
他の態様によれば、第1の歌唱音声を第2の歌唱音声に変換するためのコンピュータシステムが提供される。コンピュータシステムは、1つまたは複数のプロセッサと、1つまたは複数のコンピュータ可読メモリと、1つまたは複数のコンピュータ可読有形記憶デバイスと、1つまたは複数のメモリのうちの少なくとも1つを介して1つまたは複数のプロセッサのうちの少なくとも1つによって実行するために1つまたは複数の記憶デバイスのうちの少なくとも1つに記憶されたプログラム命令とを含み得、これにより、コンピュータシステムは方法を行うことが可能である。本方法は、歌唱音声に対応するデータを受信するステップを含みうる。1つまたは複数の敵対的ニューラルネットワークを使用して、受信データから1つまたは複数の特徴およびピッチデータが抽出される。抽出されたピッチデータおよび1つまたは複数の特徴に基づいて、1つまたは複数のオーディオサンプルが生成される。
さらに他の態様によれば、第1の歌唱音声を第2の歌唱音声に変換するためのコンピュータ可読媒体が提供される。コンピュータ可読媒体は、1つまたは複数のコンピュータ可読記憶デバイスと、1つまたは複数の有形記憶デバイスのうちの少なくとも1つに記憶されたプログラム命令とを含み得、プログラム命令はプロセッサによって実行可能である。プログラム命令は、歌唱音声に対応するデータを受信するステップを適宜含み得る方法を行うためにプロセッサによって実行可能である。1つまたは複数の敵対的ニューラルネットワークを使用して、受信データから1つまたは複数の特徴およびピッチデータが抽出される。抽出されたピッチデータおよび1つまたは複数の特徴に基づいて、1つまたは複数のオーディオサンプルが生成される。
これらのおよび他の目的、特徴、ならびに利点は、添付の図面に関連して読まれるべき、例示的な実施形態の以下の詳細な説明から明らかになるであろう。図面の様々な特徴は、詳細な説明と併せて当業者の理解を容易にする上で明確にするためのものであるため、縮尺通りではない。
少なくとも1つの実施形態によるネットワーク化されたコンピュータ環境を示す図である。 少なくとも1つの実施形態による、歌唱音声を変換するプログラムのブロック図である。 少なくとも1つの実施形態による、歌唱音声を変換するプログラムによって行われるステップを示す動作フローチャートである。 少なくとも1つの実施形態による、図1に示されているコンピュータおよびサーバの内部構成要素および外部構成要素のブロック図である。 少なくとも1つの実施形態による、図1に示されているコンピュータシステムを含む例示的なクラウドコンピューティング環境のブロック図である。 少なくとも1つの実施形態による、図5の例示的なクラウドコンピューティング環境の機能層のブロック図である。
請求項に記載の構造および方法の詳細な実施形態が本明細書に開示されているが、開示された実施形態は、様々な形態で具現化され得る請求項に記載の構造および方法の例示にすぎないことがわかる。これらの構造および方法は、しかしながら、多くの異なる形態で具現化され得、本明細書に記載された例示的な実施形態に限定されると解釈されるべきではない。むしろ、これらの例示的な実施形態は、本開示が徹底的かつ完全であり、当業者にその範囲を十分に伝えるように提供されている。この説明では、提示された実施形態を不必要に不明瞭にすることを避けるために、周知の特徴および技術の詳細は省略されている場合がある。
実施形態は、一般に、コンピューティングの分野に関し、より詳細には、データ処理に関する。以下に説明する例示的な実施形態は、とりわけ、敵対的ニューラルネットワークを使用して歌唱音声を変換し、キーの合った自然な音のピッチで歌唱音声を生成するためのシステム、方法、およびプログラム製品を提供する。したがって、いくつかの実施形態は、柔軟なピッチ操作を達成しながら、並列データなしで歌唱音声を変換して変換音声の品質を大幅に改善するためにディープニューラルネットワークの使用を可能にすることによってデータ処理の分野を改善する能力を有する。
前述したように、歌唱は人間の表情の重要な手段であり、コンピュータによる音声合成は長年にわたって関心を集めてきた。歌唱音声変換は歌唱音声を合成する1つの方法であり、これにより既存の歌唱の中に存在する音楽表現が抽出され、他の歌唱者の音声を用いて再生され得る。しかしながら、歌唱音声変換はスピーチ変換と同様であり得る一方で、歌唱音声変換は、スピーチ変換よりも広い範囲の周波数変動ならびに歌唱音声に存在する音量およびピッチのより急激な変化の処理を必要とし得る。歌唱変換のパフォーマンスは、変換された歌唱の音楽表現と、変換された音声音色のターゲット歌唱者の音声と比較した類似性に大きく依存し得る。従来の歌唱合成システムは、連結または隠れマルコフモデルベースの手法を使用しうるか、またはソース歌唱者とターゲット歌唱者の両方によって歌われた同じ歌などの並列データを必要としうる。したがって、訓練のための並列データを必要とせずに、歌唱音声変換のために機械学習およびニューラルネットワークを使用することが有利であり得る。なお、ここで説明した歌唱音声変換は、複数話者訓練中に話者埋め込みを学習することで実現されてもよく、埋め込み間で話者を切り換えるだけで、内容を変えずに歌唱の音色を変換することが可能であり得る。既存の教師なし歌唱音声変換手法と比較して、敵対的に訓練されたピッチ回帰ネットワークの使用は、エンコーダネットワークが、歌唱者不変表現だけでなくピッチ不変表現も学習すること、ならびにデコーダへの追加入力として使用されるソースオーディオからピッチを抽出することを可能にし得る。
本明細書では、様々な実施形態による方法、装置(システム)、およびコンピュータ可読媒体のフローチャート図および/またはブロック図を参照しながら態様を説明する。フローチャート図および/またはブロック図の各ブロック、ならびにフローチャート図および/またはブロック図のブロックの組み合わせは、コンピュータ可読プログラム命令によって実施できることが理解されよう。
以下に説明する例示的な実施形態は、第1の歌唱音声を第2の歌唱音声に変換するシステム、方法、およびプログラム製品を提供する。本実施形態によれば、並列データを必要としないこの教師なし歌唱音声変換手法は、複数話者訓練中に1人または複数の話者に関連付けられた埋め込みデータを学習することによって達成され得る。このように、システムは、埋め込み間で話者を切り換えるだけで、その内容を変更することなく歌唱の音色を変換することが可能であり得る。
ここで図1を参照すると、第1の歌唱音声の第2の歌唱音声への変換を改善するための歌唱音声変換システム100(以下「システム」)を示すネットワーク化されたコンピュータ環境の機能ブロック図が示されている。図1は、一実施態様の例示のみを提供しており、異なる実施形態が実施され得る環境に関していかなる限定も意味しないことを理解されたい。図示された環境に対する多くの修正が設計および実施要件に基づいて行われ得る。
システム100は、コンピュータ102およびサーバコンピュータ114を含み得る。コンピュータ102は、通信ネットワーク110(以下「ネットワーク」)を介してサーバコンピュータ114と通信し得る。コンピュータ102は、プロセッサ104と、ユーザとインターフェースし、サーバコンピュータ114と通信することが可能な、データ記憶デバイス106に記憶されたソフトウェアプログラム108とを含み得る。図4を参照して以下で説明するように、コンピュータ102は、それぞれ内部構成要素800Aおよび外部構成要素900Aを含み得、サーバコンピュータ114は、それぞれ内部構成要素800Bおよび外部構成要素900Bを含み得る。コンピュータ102は、例えば、モバイルデバイス、電話、携帯情報端末、ネットブック、ラップトップコンピュータ、タブレットコンピュータ、デスクトップコンピュータ、またはプログラムを実行し、ネットワークにアクセスし、データベースにアクセスすることが可能な任意のタイプのコンピューティングデバイスでありうる。
サーバコンピュータ114はまた、図5および図6に関して以下で説明するように、サービスとしてのソフトウェア(SaaS:Software as a Service)、サービスとしてのプラットフォーム(PaaS:Platform as a Service)、またはサービスとしてのインフラストラクチャ(laaS:Infrastructure as a Service)などのクラウドコンピューティングサービスモデルで動作してもよい。サーバコンピュータ114はまた、プライベートクラウド、コミュニティクラウド、パブリッククラウド、またはハイブリッドクラウドなどのクラウドコンピューティング展開モデルに配置されてもよい。
第1の歌唱音声を第2の歌唱音声に変換するために使用され得るサーバコンピュータ114は、データベース112と対話し得る歌唱音声変換プログラム116(以下、「プログラム」)を実行することが可能である。歌唱音声変換プログラム方法は、図3に関連して以下でより詳細に説明される。一実施形態では、コンピュータ102は、ユーザインターフェースを含む入力デバイスとして動作し得、プログラム116は、主にサーバコンピュータ114上で動作し得る。代替的な実施形態では、プログラム116は、主に1つまたは複数のコンピュータ102上で動作してもよく、サーバコンピュータ114は、プログラム116によって使用されるデータの処理および記憶に使用されてもよい。プログラム116は、スタンドアロンプログラムであってもよく、またはより大きな歌唱音声変換プログラムに統合されてもよいことに留意されたい。
しかしながら、プログラム116の処理は、場合によっては、コンピュータ102とサーバコンピュータ114との間で任意の比率で分担されてもよいことに留意されたい。別の実施形態では、プログラム116は、複数のコンピュータ、サーバコンピュータ、またはコンピュータとサーバコンピュータとの何らかの組み合わせ、例えば、ネットワーク110を介して単一のサーバコンピュータ114と通信する複数のコンピュータ102上で動作し得る。別の実施形態では、例えば、プログラム116は、ネットワーク110を介して複数のクライアントコンピュータと通信する複数のサーバコンピュータ114上で動作し得る。あるいは、プログラムは、ネットワークを介してサーバおよび複数のクライアントコンピュータと通信するネットワークサーバ上で動作してもよい。
ネットワーク110は、有線接続、無線接続、光ファイバ接続、またはこれらの何らかの組み合わせを含み得る。一般に、ネットワーク110は、コンピュータ102とサーバコンピュータ114との間の通信をサポートする接続およびプロトコルの任意の組み合わせとすることができる。ネットワーク110は、例えば、ローカルエリアネットワーク(LAN:local area network)、インターネットなどのワイドエリアネットワーク(WAN:wide area network)、公衆交換電話網(PSTN:Public Switched Telephone Network)などの電気通信ネットワーク、無線ネットワーク、公衆交換網、衛星ネットワーク、セルラーネットワーク(例えば、第5世代(5G)ネットワーク、ロングタームエボリューション(LTE:long-term evolution)ネットワーク、第3世代(3G)ネットワーク、符号分割多元接続(CDMA:code division multiple access)ネットワークなど)、公衆陸上移動体ネットワーク(PLMN:public land mobile network)、メトロポリタンエリアネットワーク(MAN:metropolitan area network)、プライベートネットワーク、アドホックネットワーク、イントラネット、もしくは光ファイバベースのネットワークなど、および/またはこれらもしくは他のタイプのネットワークの組み合わせなどの様々なタイプのネットワークを含み得る。
図1に示すデバイスおよびネットワークの数および配置は、一例として提供されている。実際には、図1に示すものに比べて、さらなるデバイスおよび/もしくはネットワーク、少ないデバイスおよび/もしくはネットワーク、異なるデバイスおよび/もしくはネットワーク、または異なる配置のデバイスおよび/もしくはネットワークが存在してもよい。さらに、図1に示す2つ以上のデバイスは、単一のデバイス内に実装されてもよく、または図1に示す単一のデバイスは、複数の分散型デバイスとして実装されてもよい。追加的または代替的に、システム100のデバイスのセット(例えば、1つまたは複数のデバイス)が、システム100のデバイスの別のセットによって行われるものとして説明されている1つまたは複数の機能を行ってもよい。
図2を参照すると、図1の歌唱音声変換プログラム116のブロック図200が示されている。図2は、図1に示す例示的な実施形態の助けを借りて説明され得る。したがって、歌唱音声変換プログラム116は、とりわけ、エンコーダ202およびデコーダ204を含み得る。一実施形態によれば、歌唱音声変換プログラム116は、コンピュータ102(図1)上に配置され得る。代替の実施形態によれば、歌唱音声変換プログラム116は、サーバコンピュータ114(図1)上に配置され得る。エンコーダ202は、入力波形データ206を受信し得、データリンク208を介して歌唱者分類ネットワークに出力し得、データリンク210を介してピッチ回帰ネットワークに出力し得る。エンコーダ202は、データリンク212によってデコーダ204に結合され得る。デコーダ204は、入力波形データ206を受信し得る。デコーダはまた、データリンク214を介してルックアップテーブル入力を受信し得る。デコーダ204は、オーディオサンプルデータ216を出力し得、出力波形データ216を訓練のための入力として受信し得る。
エンコーダ202は、正規化線形ユニット(ReLU)活性化、拡張畳み込み、ReLU活性化、1×1の畳み込み、および残差総和から順に構成され得る、10個の残差層の3つのブロックを有する完全畳み込みネットワークであり得る。3つの残差ブロックの後、最終出力を得るために、1×1の畳み込みおよび800のカーネルサイズを有する平均プーリングが適用され得る。デコーダ204は、10個の残差層の4つのブロックから構成され得るWaveNetボコーダであり得る。線形補間および最近傍補間は、それぞれ入力ピッチおよびエンコーダ出力に適用されてもよく、入力オーディオ波形と同じサンプルレートになるようにアップサンプリングされてもよい。
入力波形データ206は、高レベルの意味的特徴を抽出するためにエンコーダ202を通過し得る。高レベル特徴における歌唱者およびピッチの情報を低減するために、ストライド800の平均プーリングを出力特徴に適用して、エンコーダ202を通過する情報を制限し得る。ストライド800の平均プーリングが特徴に適用され得、これはエンコーダ202を通過する情報を制限するためのボトルネックを形成し得る。歌唱者IDは、データリンク214を介してルックアップテーブルからターゲット歌唱者の埋め込みベクトルを検索し、条件ベクトルのシーケンスである各時間ステップでエンコーダ202の出力と連結するために使用され得る。
入力波形データ206のピッチは、ネットワークとは別に抽出されてもよく、線形補間後に補償信号として条件ベクトルと共にデコーダ204に供給されてもよい。デコーダ204は、オーディオサンプルデータ216を生成するために、条件ベクトルおよびピッチに条件付けされ得る。デコーダ204は自己回帰モデルであり得るので、オーディオサンプルデータ216は次の時間ステップでデコーダ204にフィードバックされ得る。モデルは、教師強制による再構成誤差を最小限に抑えるために、ソフトマックスに基づく損失で訓練され得る。エンコーダ202の出力特徴を歌唱者およびピッチ不変潜在空間に投影するために、歌唱者分類ネットワークおよびピッチ回帰ネットワークを使用して、エンコーダ202に歌唱者およびピッチ情報を符号化しないように強制し得る。歌唱者分類損失およびピッチ回帰損失は、モデル全体をエンドツーエンドで訓練するために再構成損失とは反対に追加されてもよい。歌唱者分類ネットワークおよびピッチ回帰ネットワークは各々、3および100チャネルのカーネルサイズを有する2つの畳み込みニューラルネットワークのスタックのアーキテクチャを有し得る。ピッチ回帰ネットワークは、出力を最終的な完全接続ネットワークに渡す前に、2つの畳み込みネットワークの出力を平均化しなくてもよい。訓練プロセスをより安定させるために、各ネットワークの開始時にドロップアウト層が使用され得る。
次に、図3を参照すると、第1の歌唱音声を第2の歌唱音声に変換するプログラムによって行われるステップを示す動作フローチャート400が示されている。図3は、図1および図2を用いて説明され得る。前述したように、歌唱音声変換プログラム116(図1)は、歌唱音声を迅速かつ効果的に変換し得る。
302において、歌唱音声に対応するデータが受信される。歌唱音声は、所与の歌唱者に関連付けられてもよく、とりわけ、ピッチおよび音色を有してもよい。動作中、サーバコンピュータ114(図1)上の歌唱音声変換プログラム116(図1)は、通信ネットワーク110(図1)を介してコンピュータ102(図1)上のソフトウェアプログラム108(図1)から入力波形データ206(図2)の形態の歌唱音声データを受信し得る。歌唱音声変換プログラム116は、入力波形データ206をエンコーダ202(図2)およびデコーダ204(図2)に渡してもよい。
304において、受信データから、1つまたは複数の特徴が抽出される。これらの特徴は、とりわけ、受信された歌唱音声データから歌唱者を識別するために使用され得る1つまたは複数の高レベルの意味的特徴を含み得る。動作中、エンコーダ202(図2)は、入力波形データ206(図2)に対して平均プーリングを行い得る。平均プーリングの結果は、データリンク208(図2)を介して歌唱者分類敵対的ニューラルネットワークに渡され得る。
306において、ピッチデータが受信データから抽出される。ピッチデータは、ネットワークによって別々に抽出されてもよく、ピッチデータの線形補間は、補償信号として条件ベクトルと共に使用されてもよい。動作中、エンコーダ202(図2)による平均プーリングの結果は、データリンク210(図2)を介してピッチ回帰敵対的ニューラルネットワークに渡され得る。
308において、抽出されたピッチデータおよび特徴に基づいて、1つまたは複数のオーディオサンプルが生成される。デコーダは、条件ベクトルおよびピッチデータを使用して歌唱音声オーディオサンプルを生成するように調整され得る。動作中、デコーダ204(図2)は、データリンク212(図2)を介してエンコーダ202(図2)からピッチおよび特徴データを受信し得る。デコーダ204は、受信データを使用してオーディオサンプルデータ216(図2)を生成し得る。歌唱音声変換プログラム116(図1)は、任意選択的に、オーディオサンプルデータ216を、通信ネットワーク110(図1)を介してソフトウェアプログラム108(図1)に送信してもよい。
図3は、一実施態様の例示のみを提供しており、異なる実施形態がどのように実施され得るかに関していかなる限定も意味しないことが理解され得る。図示された環境に対する多くの修正は、設計および実施要件に基づいて行われ得る。
図4は、例示的な実施形態による、図1に示されているコンピュータの内部構成要素および外部構成要素のブロック図400である。図4は、一実施態様の例示のみを提供しており、異なる実施形態が実施され得る環境に関していかる限定も意味しないことを理解されたい。図示された環境に対する多くの修正は、設計および実施要件に基づいて行われ得る。
コンピュータ102(図1)およびサーバコンピュータ114(図1)は、図4に示されている内部構成要素800A、800Bおよび外部構成要素900A、900Bのそれぞれのセットを含み得る。内部構成要素800のセットの各々は、1つまたは複数のバス826上の1つまたは複数のプロセッサ820、1つまたは複数のコンピュータ可読RAM822、および1つまたは複数のコンピュータ可読ROM824と、1つまたは複数のオペレーティングシステム828と、1つまたは複数のコンピュータ可読有形記憶デバイス830とを含む。
プロセッサ820は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせで実施される。プロセッサ820は、中央処理装置(CPU:central processing unit)、グラフィック処理装置(GPU:graphics processing unit)、加速処理装置(APU:accelerated processing unit)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP:digital signal processor)、フィールドプログラマブルゲートアレイ(FPGA:field-programmable gate array)、特定用途向け集積回路(ASIC:application-specific integrated circuit)、または別のタイプの処理構成要素である。いくつかの実施態様では、プロセッサ820は、機能を行うようにプログラムされることが可能な1つまたは複数のプロセッサを含む。バス826は、内部構成要素800A、800B間の通信を可能にする構成要素を含む。
サーバコンピュータ114(図1)上の1つまたは複数のオペレーティングシステム828、ソフトウェアプログラム108(図1)、ならびに歌唱音声変換プログラム116(図1)は、それぞれのRAM 822(通常はキャッシュメモリを含む)のうちの1つまたは複数を介してそれぞれのプロセッサ820のうちの1つまたは複数によって実行されるために、それぞれのコンピュータ可読有形記憶デバイス830のうちの1つまたは複数に記憶される。図4に示されている実施形態では、コンピュータ可読有形記憶デバイス830の各々は、内蔵ハードドライブの磁気ディスク記憶デバイスである。あるいは、コンピュータ可読有形記憶デバイス830の各々は、ROM824、EPROM、フラッシュメモリなどの半導体記憶デバイス、光ディスク、光磁気ディスク、ソリッドステートディスク、コンパクトディスク(CD:compact disc)、デジタル多用途ディスク(DVD:digital versatile disc)、フロッピーディスク、カートリッジ、磁気テープ、ならびに/またはコンピュータプログラムおよびデジタル情報を記憶できる別のタイプの非一時的コンピュータ可読有形記憶デバイスである。
内部構成要素800A、800Bの各セットはまた、CD-ROM、DVD、メモリスティック、磁気テープ、磁気ディスク、光ディスク、または半導体記憶デバイスなどの1つまたは複数のポータブルコンピュータ可読有形記憶デバイス936から読み書きするためのR/Wドライブまたはインターフェース832を含む。ソフトウェアプログラム108(図1)および歌唱音声変換プログラム116(図1)などのソフトウェアプログラムは、それぞれのポータブルコンピュータ可読有形記憶デバイス936のうちの1つまたは複数に記憶され、それぞれのR/Wドライブまたはインターフェース832を介して読み取られ、それぞれのハードドライブ830にロードされることができる。
内部構成要素800A、800Bの各セットはまた、TCP/IPアダプタカード、無線Wi-Fiインターフェースカード、または3G、4G、もしくは5G無線インターフェースカードまたは他の有線もしくは無線通信リンクなどのネットワークアダプタまたはインターフェース836を含む。ソフトウェアプログラム108(図1)およびサーバコンピュータ114(図1)上の歌唱音声変換プログラム116(図1)は、ネットワーク(例えば、インターネット、ローカルエリアネットワーク、または他のワイドエリアネットワーク)およびそれぞれのネットワークアダプタまたはインターフェース836を介して外部コンピュータからコンピュータ102(図1)およびサーバコンピュータ114にダウンロードされることができる。ネットワークアダプタまたはインターフェース836から、サーバコンピュータ114上のソフトウェアプログラム108および歌唱音声変換プログラム116が、それぞれのハードドライブ830にロードされる。ネットワークは、銅線、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、および/またはエッジサーバを含み得る。
外部構成要素900A、900Bのセットの各々は、コンピュータディスプレイモニタ920、キーボード930、およびコンピュータマウス934を含むことができる。外部構成要素900A、900Bはまた、タッチスクリーン、仮想キーボード、タッチパッド、ポインティングデバイス、および他のヒューマンインターフェースデバイスを含むことができる。内部構成要素800A、800Bのセットの各々はまた、コンピュータディスプレイモニタ920、キーボード930、およびコンピュータマウス934にインターフェースするためのデバイスドライバ840を含む。デバイスドライバ840、R/Wドライブまたはインターフェース832、およびネットワークアダプタまたはインターフェース836は、ハードウェアならびにソフトウェア(記憶デバイス830および/またはROM824に記憶された)を含む。
本開示はクラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載された教示の実施態様はクラウドコンピューティング環境に限定されないことが事前に理解される。むしろ、いくつかの実施形態は、現在知られているまたは後に開発される任意の他の種類のコンピューティング環境と併せて実施することができる。
クラウドコンピューティングは、設定可能なコンピューティングリソース(ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、サービスなど)の共有プールへの便利なオンデマンドネットワークアクセスを可能にするためのサービス配信のモデルであり、最小限の管理作業やサービスプロバイダとのやりとりで迅速に準備かつリリースすることができる。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル、および少なくとも4つの展開モデルを含み得る。
特性は以下の通りである。
オンデマンドセルフサービス:クラウド消費者は、サービスのプロバイダとの人間の対話を必要とせずに、必要に応じてサーバタイムおよびネットワークストレージなどのコンピューティング機能を一方的にプロビジョニングできる。
広範なネットワークアクセス:機能は、ネットワークを介して利用可能であり、異種のシンまたはシックなクライアントプラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的な機構を介してアクセスされる。
リソースプーリング:プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者にサービスを提供するためにプールされ、異なる物理リソースおよび仮想リソースは、需要に応じて動的に割り当ておよび再割り当てされる。消費者は、一般に、提供されたリソースの正確な位置に対する制御または知識を持たないが、より高い抽象化レベル(例えば、国、州、またはデータセンタ)で位置を指定することが可能であるという点で、位置独立性の感覚がある。
迅速な柔軟性(elasticity):機能は、迅速にスケールアウトするために迅速かつ柔軟に、場合によっては自動的にプロビジョニングされ、迅速にスケールインするために迅速に解放されることができる。消費者には、プロビジョニングに利用可能な機能は、多くの場合、無制限であるように見え、いつでも任意の量で購入できる。
測定されるサービス:クラウドシステムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、およびアクティブユーザアカウント)に適したある抽象化レベルで計測機能を活用することによって、リソース使用を自動的に制御および最適化する。リソース使用は、利用されるサービスのプロバイダおよび消費者の両方に透明性を提供するように監視、制御、および報告されることができる。
サービスモデルは次の通りである。
サービスとしてのソフトウェア(SaaS):消費者に提供される機能は、クラウドインフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブブラウザ(例えば、ウェブベースの電子メール)などのシンクライアントインターフェースを介して様々なクライアントデバイスからアクセス可能である。消費者は、限定されたユーザ固有のアプリケーション構成設定を可能な例外として、ネットワーク、サーバ、オペレーティングシステム、ストレージ、または個々のアプリケーション機能さえも含む基盤となるクラウドインフラストラクチャを管理または制御しない。
サービスとしてのプラットフォーム(PaaS):消費者に提供される機能は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者が作成または取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、またはストレージを含む基盤となるクラウドインフラストラクチャを管理または制御しないが、展開されたアプリケーションおよび場合によってはアプリケーションホスティング環境構成を制御する。
サービスとしてのインフラストラクチャ(laaS):消費者に提供される機能は、処理、ストレージ、ネットワーク、および他の基本的なコンピューティングリソースをプロビジョニングすることであり、消費者は、オペレーティングシステムおよびアプリケーションを含むことができる任意のソフトウェアを配備および実行することが可能である。消費者は、基盤となるクラウドインフラストラクチャを管理も制御もしないが、オペレーティングシステム、ストレージ、展開されたアプリケーション、および場合によっては選択ネットワーキング構成要素(例えば、ホストファイアウォール)の限定された制御を制御する。
展開モデルは次の通りである。
プライベートクラウド:クラウドインフラストラクチャは、組織のためだけに運用される。クラウドインフラストラクチャは、当該組織またはサードパーティによって管理されてもよく、また、オンプレミスで存在してもよいし、オフプレミスで存在してもよい。
コミュニティクラウド:クラウドインフラストラクチャは、いくつかの組織によって共有され、共有された関心事項(例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項)を有する特定のコミュニティをサポートする。クラウドインフラストラクチャは、当該組織またはサードパーティによって管理されてもよく、また、オンプレミスで存在してもよいし、オフプレミスで存在してもよい。
パブリッククラウド:クラウドインフラストラクチャは、一般の市民または大規模な業界グループに利用可能にされ、クラウドサービスを販売する組織によって所有される。
ハイブリッドクラウド:クラウドインフラストラクチャは、独自のエンティティのままであるが、データおよびアプリケーションの可搬性(例えば、クラウド間の負荷分散のためのクラウドバースト)を可能にする標準化されたまたは独自の技術によって互いに結び付けられた2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の複合である。
クラウドコンピューティング環境は、ステートレス性、低結合、モジュール性、およびセマンティック相互運用性に焦点を合わせたサービス指向である。クラウドコンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。
図5を参照すると、例示的なクラウドコンピューティング環境500が示されている。図示するように、クラウドコンピューティング環境500は、例えば、携帯情報端末(PDA)または携帯電話54A、デスクトップコンピュータ54B、ラップトップコンピュータ54C、および/または自動車コンピュータシステム54Nなどの、クラウド消費者によって使用されるローカルコンピューティングデバイスが通信し得る1つまたは複数のクラウドコンピューティングノード10を含む。クラウドコンピューティングノード10は、互いに通信し得る。それらは、上述のプライベートクラウド、コミュニティクラウド、パブリッククラウド、ハイブリッドクラウド、またはそれらの組み合わせなどの1つもしくは複数のネットワークにおいて、物理的または仮想的にグループ化(図示せず)されてもよい。これは、クラウドコンピューティング環境500が、クラウド消費者がローカルコンピューティングデバイス上のリソースを維持する必要がないサービスとしてのインフラストラクチャ、プラットフォーム、および/またはソフトウェアを提供することを可能にする。図5に示されているコンピューティングデバイス54A~54Nのタイプは例示にすぎないことが意図されており、クラウドコンピューティングノード10およびクラウドコンピューティング環境500は、任意のタイプのネットワークおよび/またはネットワークアドレス指定可能な接続(例えば、ウェブブラウザを使用する)を介して任意のタイプのコンピュータ化されたデバイスと通信できることが理解される。
図6を参照すると、クラウドコンピューティング環境500(図5)によって提供される機能抽象化層600のセットが示されている。図6に示されている構成要素、層、および機能は例示にすぎないことが意図されており、実施形態はこれに限定されないことを事前に理解されたい。図示のように、以下の層および対応する機能が提供される。
ハードウェアおよびソフトウェア層60は、ハードウェアおよびソフトウェア構成要素を含む。ハードウェア構成要素の例は、メインフレーム61、RISC(縮小命令セットコンピュータ)アーキテクチャベースのサーバ62、サーバ63、ブレードサーバ64、記憶デバイス65、ならびにネットワークおよびネットワーキング構成要素66を含む。いくつかの実施形態では、ソフトウェア構成要素は、ネットワークアプリケーションサーバソフトウェア67およびデータベースソフトウェア68を含む。
仮想化層70は、仮想エンティティの以下の例、すなわち、仮想サーバ71、仮想ストレージ72、仮想プライベートネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティングシステム74、ならびに仮想クライアント75が提供され得る抽象化層を提供する。
一例では、管理層80は、以下で説明される機能を提供し得る。リソースプロビジョニング81は、クラウドコンピューティング環境内でタスクを行うために利用されるコンピューティングリソースおよび他のリソースの動的な調達を提供する。計測および価格設定82は、リソースがクラウドコンピューティング環境内で利用されるときのコスト追跡、およびこれらのリソースの消費に対する請求または請求書発行を提供する。一例では、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、クラウド消費者およびタスクのための識別検証、ならびにデータおよび他のリソースのための保護を提供する。ユーザポータル83は、消費者およびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理84は、必要なサービスレベルが満たされるようにクラウドコンピューティングリソースの割り当ておよび管理を提供する。サービスレベルアグリーメント(SLA:Service Level Agreement)の計画および履行85は、将来の要件がSLAに従って予想されるクラウドコンピューティングリソースの事前配置および調達を提供する。
作業負荷層90は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得る作業負荷および機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想教室教育配信93、データ解析処理94、取引処理95、ならびに歌唱音声変換96を含む。歌唱音声変換96は、敵対的ニューラルネットワークを用いて歌唱音声を変換してもよい。
いくつかの実施形態は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、および/またはコンピュータ可読媒体に関し得る。コンピュータ可読媒体は、プロセッサに動作を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読非一時的記憶媒体を含み得る。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持および記憶できる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、以下を、すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM:random access memory)、読み出し専用メモリ(ROM:read-only memory)、消去可能プログラマブル読み出し専用メモリ(EPROM:erasable programmable read-only memoryまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM:static random access memory)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM:compact disc read-only memory)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、命令が記録されたパンチカードまたは溝内の***構造などの機械的に符号化されたデバイス、および上記の任意の適切な組み合わせを含む。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または電線を介して伝送される電気信号などの一時的な信号自体であると解釈されるべきではない。
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスにダウンロードされてもよく、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、および/もしくは無線ネットワークを介して外部コンピュータもしくは外部記憶デバイスにダウンロードされてもよい。ネットワークは、銅製伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、および/またはエッジサーバを含み得る。各コンピューティング/処理デバイス内のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
動作を実行するためのコンピュータ可読プログラムコード/命令は、アセンブラ命令、命令セットアーキテクチャ(ISA:instruction-set-architecture)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、またはSmalltalkもしくはC++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは同様のプログラミング言語などの手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組み合わせで記述されたソースコードもしくはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモートコンピュータ上で、または完全にリモートコンピュータもしくはサーバ上で実行され得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)もしくはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよいし、または(例えば、インターネットサービスプロバイダを使用してインターネットを介して)外部コンピュータへの接続がなされてもよい。いくつかの実施形態では、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブル論理アレイ(PLA:programmable logic array)を含む電子回路が、態様または動作を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによってコンピュータ可読プログラム命令を実行し得る。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行される命令が、フローチャートおよび/またはブロック図のブロックで指定された機能/動作を実施するための手段を作成するように、マシンを生成するために汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供されてもよい。これらのコンピュータ可読プログラム命令はまた、記憶された命令を有するコンピュータ可読記憶媒体が、フローチャートおよび/またはブロック図のブロックで指定された機能/動作の態様を実施する命令を含む製品を含むように、コンピュータ、プログラマブルデータ処理装置、および/または他のデバイスに特定の方法で機能するように指示できるコンピュータ可読記憶媒体に記憶されてもよい。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行される命令がフローチャートおよび/またはブロック図のブロックで指定された機能/動作を実施するように、コンピュータ実施プロセスを生成するために一連の動作ステップがコンピュータ、他のプログラマブル装置、または他のデバイス上で実行されるよう、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイス上にロードされてもよい。
図のフローチャートおよびブロック図は、様々な実施形態によるシステム、方法、およびコンピュータ可読媒体の可能な実施態様のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表し得る。方法、コンピュータシステム、およびコンピュータ可読媒体は、図に示されているものと比べて、追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。いくつかの代替的な実施態様では、ブロックに記載された機能は、図に記載されているのとは異なる順序で実行されてもよい。例えば、連続して示されている2つのブロックは、実際には、同時にまたは実質的に同時に実行されてもよいし、またはブロックは、関連する機能に応じて、場合によっては逆の順序で実行されてもよい。ブロック図および/またはフローチャート図の各ブロック、ならびにブロック図および/またはフローチャート図のブロックの組み合わせは、指定された機能もしくは動作を実行する、または専用ハードウェアとコンピュータ命令との組み合わせを実現する、専用ハードウェアベースのシステムによって実施できることにも留意されたい。
本明細書に記載のシステムおよび/または方法は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせの異なる形態で実装されてもよいことは明らかであろう。これらのシステムおよび/または方法を実装するために使用される実際の専用の制御ハードウェアまたはソフトウェアコードは、実施態様を限定するものではない。したがって、システムおよび/または方法の動作および挙動は、特定のソフトウェアコードを参照することなく本明細書に記載されており、ソフトウェアおよびハードウェアは、本明細書の記載に基づいてシステムおよび/または方法を実装するように設計され得ることが理解される。
本明細書で使用される要素、動作、または命令は、不可欠なまたは必須のものとして明示的に記載されていない限り、不可欠なまたは必須のものとして解釈されるべきではない。また、本明細書で使用される場合、冠詞「a」および「an」は、1つまたは複数の項目を含むことを意図されており、「1つまたは複数」と同じ意味で使用されてもよい。さらに、本明細書で使用される「セット」という用語は、1つまたは複数の項目(例えば、関連項目、非関連項目、関連項目と非関連項目の組み合わせなど)を含むことを意図されており、「1つまたは複数」と同じ意味で使用されうる。1つの項目のみが対象とされる場合、「1つ」という用語または同様の言葉が使用される。また、本明細書で使用される「有する(has)」、「有する(have)」、「有する(having)」などの用語は、オープンエンド用語であることが意図される。さらに、「に基づいて」という語句は、特に明記されない限り、「に少なくとも部分的に基づいて」を意味するものである。
様々な態様および実施形態の説明は、例示の目的で提示されているが、網羅的であること、または開示された実施形態に限定されることを意図されていない。特徴の組み合わせが特許請求の範囲に記載され、および/または本明細書に開示されているが、これらの組み合わせは、可能な実施態様の開示を限定することを意図されていない。実際には、これらの特徴の多くは、特許請求の範囲に具体的に列挙されていない、および/または本明細書に開示されていない方法で組み合わされてもよい。以下に列挙されている各従属請求項は1つの請求項のみに直接従属し得るが、可能な実施態様の開示は、特許請求の範囲の他のすべての請求項との組み合わせにおいて各従属請求項を含む。記載された実施形態の範囲から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の用途、もしくは市場で見られる技術に対する技術的改善を最もよく説明するために、または当業者が本明細書に開示されている実施形態を理解することを可能にするために選択された。
10 クラウドコンピューティングノード
54A 携帯情報端末(PDA)または携帯電話、コンピューティングデバイス
54B デスクトップコンピュータ、コンピューティングデバイス
54C ラップトップコンピュータ、コンピューティングデバイス
54N 自動車コンピュータシステム、コンピューティングデバイス
60 ハードウェアおよびソフトウェア層
61 メインフレーム
62 RISC(縮小命令セットコンピュータ)アーキテクチャベースのサーバ
63 サーバ
64 ブレードサーバ
65 記憶デバイス
66 ネットワークおよびネットワーキング構成要素
67 ネットワークアプリケーションサーバソフトウェア
68 データベースソフトウェア
70 仮想化層
71 仮想サーバ
72 仮想ストレージ
73 仮想プライベートネットワークを含む仮想ネットワーク
74 仮想アプリケーションおよびオペレーティングシステム
75 仮想クライアント
80 管理層
81 リソースプロビジョニング
82 計測および価格設定
83 ユーザポータル
84 サービスレベル管理
85 サービスレベルアグリーメント(SLA:Service Level Agreement)の計画および履行
90 作業負荷層
91 マッピングおよびナビゲーション
92 ソフトウェア開発およびライフサイクル管理
93 仮想教室教育配信
94 データ解析処理
95 取引処理
96 歌唱音声変換
100 歌唱音声変換システム
102 コンピュータ
104 プロセッサ
106 データ記憶デバイス
108 ソフトウェアプログラム
110 通信ネットワーク
112 データベース
114 サーバコンピュータ
116 歌唱音声変換プログラム
200 ブロック図
202 エンコーダ
204 デコーダ
206 入力波形データ
208 データリンク
210 データリンク
212 データリンク
214 データリンク
216 オーディオサンプルデータ、出力波形データ
400 ブロック図
500 クラウドコンピューティング環境
600 機能抽象化層
800A 内部構成要素
800B 内部構成要素
820 プロセッサ
822 コンピュータ可読RAM
824 コンピュータ可読ROM
826 バス
828 オペレーティングシステム
830 コンピュータ可読有形記憶デバイス、ハードドライブ
832 R/Wドライブまたはインターフェース
836 ネットワークアダプタまたはインターフェース
840 デバイスドライバ
900A 外部構成要素
900B 外部構成要素
920 コンピュータディスプレイモニタ
930 キーボード
934 コンピュータマウス
936 ポータブルコンピュータ可読有形記憶デバイス

Claims (20)

1つまたは複数のコンピュータプロセッサによって実行される歌唱音声変換のための方法であって、
歌唱音声に対応するデータを受信するステップと、
前記受信データから1つまたは複数の特徴を抽出するステップと、
前記受信データからピッチデータを抽出するステップと、
前記抽出されたピッチデータおよび前記1つまたは複数の特徴に基づいて1つまたは複数のオーディオサンプルを生成するステップと
を含む、方法。
前記ピッチデータは、ピッチ回帰敵対的ニューラルネットワークを使用して抽出される、請求項1に記載の方法。
前記敵対的ニューラルネットワークは、ドロップアウト層と、2つの畳み込みニューラルネットワークと、全結合層とを含む、請求項2に記載の方法。
前記特徴は、前記歌唱音声に関連付けられた歌唱者の識別に基づいて抽出される、請求項1に記載の方法。
前記識別は、歌唱者分類敵対的ニューラルネットワークによって行われる、請求項4に記載の方法。
前記歌唱者分類敵対的ニューラルネットワークは、ドロップアウト層と、2つの畳み込みニューラルネットワークと、全結合層とを含む、請求項5に記載の方法。
歌唱者分類損失値およびピッチ回帰損失値を計算するステップをさらに含む、請求項1に記載の方法。
前記歌唱者分類損失値およびピッチ回帰損失値は、前記歌唱者分類損失値およびピッチ回帰損失値を最小化することに基づく訓練値として使用される、請求項7に記載の方法。
前記受信された歌唱音声データは、平均プーリング関数を使用して圧縮される、請求項1に記載の方法。
前記オーディオサンプルは、並列データなしで、かつ前記歌唱音声に関連付けられた前記コンテンツを変更することなく生成される、請求項1に記載の方法。
歌唱音声変換用のコンピュータシステムであって、前記コンピュータシステムは、
コンピュータプログラムコードを記憶するように構成された1つまたは複数のコンピュータ可読非一時的記憶媒体と、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードによって命令されるように動作するように構成された1つまたは複数のコンピュータプロセッサであって、前記コンピュータプログラムコードは、
前記1つまたは複数のコンピュータプロセッサに歌唱音声に対応するデータを受信させるように構成された受信コードと、
前記1つまたは複数のコンピュータプロセッサに、前記受信データから1つまたは複数の特徴を抽出させるように構成された第1の抽出コードと、
前記1つまたは複数のコンピュータプロセッサに、前記受信データからピッチデータを抽出させるように構成された第2の抽出コードと、
前記1つまたは複数のコンピュータプロセッサに、前記抽出されたピッチデータおよび前記1つまたは複数の特徴に基づいて1つまたは複数のオーディオサンプルを生成させるように構成された生成コードと、
を含む、1つまたは複数のコンピュータプロセッサと
を含む、コンピュータシステム。
前記ピッチデータは、ピッチ回帰敵対的ニューラルネットワークを使用して抽出される、請求項11に記載のコンピュータシステム。
前記敵対的ニューラルネットワークは、ドロップアウト層と、2つの畳み込みニューラルネットワークと、全結合層とを含む、請求項12に記載のコンピュータシステム。
前記特徴は、前記歌唱音声に関連付けられた歌唱者の識別に基づいて抽出される、請求項11に記載のコンピュータシステム。
前記識別は、歌唱者分類敵対的ニューラルネットワークによって行われる、請求項14に記載のコンピュータシステム。
前記歌唱者分類敵対的ニューラルネットワークは、ドロップアウト層と、2つの畳み込みニューラルネットワークと、全結合層とを含む、請求項15に記載のコンピュータシステム。
前記1つまたは複数のコンピュータプロセッサに、歌唱者分類損失値およびピッチ回帰損失値を計算させるように構成された計算コードをさらに含み、前記歌唱者分類損失値およびピッチ回帰損失値は、前記歌唱者分類損失値およびピッチ回帰損失値を最小化することに基づく訓練値として使用される、請求項11に記載のコンピュータシステム。
前記受信された歌唱音声データは、平均プーリング関数を使用して圧縮される、請求項11に記載のコンピュータシステム。
前記オーディオサンプルは、並列データなしで、かつ前記歌唱音声に関連付けられた前記コンテンツを変更することなく生成される、請求項11に記載のコンピュータシステム。
歌唱音声変換のためのコンピュータプログラムを記憶した非一時的コンピュータ可読媒体であって、前記コンピュータプログラムは、1つまたは複数のコンピュータプロセッサに、
歌唱音声に対応するデータを受信させ、
前記受信データから1つまたは複数の特徴を抽出させ、
前記受信データからピッチデータを抽出させ、
前記抽出されたピッチデータおよび前記1つまたは複数の特徴に基づいて1つまたは複数のオーディオサンプルを生成させる
ように構成される、非一時的コンピュータ可読媒体。
JP2022552631A 2020-03-03 2021-02-18 ピッチ敵対的ネットワークを用いた教師なし歌唱音声変換 Pending JP2023517004A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/807,851 2020-03-03
US16/807,851 US11257480B2 (en) 2020-03-03 2020-03-03 Unsupervised singing voice conversion with pitch adversarial network
PCT/US2021/018498 WO2021178139A1 (en) 2020-03-03 2021-02-18 Unsupervised singing voice conversion with pitch adversarial network

Publications (1)

Publication Number Publication Date
JP2023517004A true JP2023517004A (ja) 2023-04-21

Family

ID=77555074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022552631A Pending JP2023517004A (ja) 2020-03-03 2021-02-18 ピッチ敵対的ネットワークを用いた教師なし歌唱音声変換

Country Status (6)

Country Link
US (1) US11257480B2 (ja)
EP (1) EP4091160A4 (ja)
JP (1) JP2023517004A (ja)
KR (1) KR20220137939A (ja)
CN (1) CN115136230A (ja)
WO (1) WO2021178139A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114093387A (zh) * 2021-11-19 2022-02-25 北京跳悦智能科技有限公司 一种对声调建模的声音转换方法及***、计算机设备
KR20240097874A (ko) 2022-09-07 2024-06-27 구글 엘엘씨 자기 회귀 생성 신경망을 사용한 오디오 생성

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3333022B2 (ja) * 1993-11-26 2002-10-07 富士通株式会社 歌声合成装置
US6754631B1 (en) * 1998-11-04 2004-06-22 Gateway, Inc. Recording meeting minutes based upon speech recognition
US7058889B2 (en) * 2001-03-23 2006-06-06 Koninklijke Philips Electronics N.V. Synchronizing text/visual information with audio playback
DE102007021772B4 (de) * 2007-05-09 2013-01-24 Voicecash Ip Gmbh Digitales Verfahren und Anordnung zur Authentifizierung eines Nutzers einer Datenbasis
US8244546B2 (en) 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
US7977562B2 (en) 2008-06-20 2011-07-12 Microsoft Corporation Synthesized singing voice waveform generator
EP2786376A1 (en) * 2012-11-20 2014-10-08 Unify GmbH & Co. KG Method, device, and system for audio data processing
US20180268792A1 (en) * 2014-08-22 2018-09-20 Zya, Inc. System and method for automatically generating musical output
US20170140260A1 (en) * 2015-11-17 2017-05-18 RCRDCLUB Corporation Content filtering with convolutional neural networks
US10283143B2 (en) * 2016-04-08 2019-05-07 Friday Harbor Llc Estimating pitch of harmonic signals
US10008193B1 (en) * 2016-08-19 2018-06-26 Oben, Inc. Method and system for speech-to-singing voice conversion
US10134374B2 (en) * 2016-11-02 2018-11-20 Yamaha Corporation Signal processing method and signal processing apparatus
KR101925217B1 (ko) * 2017-06-20 2018-12-04 한국과학기술원 가창 표현 이식 시스템
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
US11217265B2 (en) * 2019-04-16 2022-01-04 Microsoft Technology Licensing, Llc Condition-invariant feature extraction network
US11462236B2 (en) * 2019-10-25 2022-10-04 Adobe Inc. Voice recordings using acoustic quality measurement models and actionable acoustic improvement suggestions

Also Published As

Publication number Publication date
US11257480B2 (en) 2022-02-22
KR20220137939A (ko) 2022-10-12
CN115136230A (zh) 2022-09-30
EP4091160A4 (en) 2023-05-10
EP4091160A1 (en) 2022-11-23
WO2021178139A1 (en) 2021-09-10
US20210280165A1 (en) 2021-09-09

Similar Documents

Publication Publication Date Title
US11721318B2 (en) Singing voice conversion
JP7361120B2 (ja) 音響単語埋め込みを使用した直接音響単語音声認識における未知語の認識
US11682379B2 (en) Learnable speed control of speech synthesis
JP2023517004A (ja) ピッチ敵対的ネットワークを用いた教師なし歌唱音声変換
WO2022211851A1 (en) Method and apparatus for cascaded multi-input content preparation templates for 5g networks
US20220343904A1 (en) Learning singing from speech
US20220310092A1 (en) Multi-look enhancement modeling and application for keyword spotting
WO2023018594A1 (en) Extractive method for speaker identification in texts with self-training
JP7444979B2 (ja) 映像データをコーディングするための方法、コンピュータシステム、及びコンピュータプログラム
US12032916B2 (en) Structure self-aware model for discourse parsing on multi-party dialogues
US20230152971A1 (en) Parameter redundancy reduction method
US20220269868A1 (en) Structure self-aware model for discourse parsing on multi-party dialogues
WO2022186875A1 (en) Robust dialogue utterance rewriting as sequence tagging

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220901

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231016

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240116

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240415