JP2023517004A - ピッチ敵対的ネットワークを用いた教師なし歌唱音声変換 - Google Patents
ピッチ敵対的ネットワークを用いた教師なし歌唱音声変換 Download PDFInfo
- Publication number
- JP2023517004A JP2023517004A JP2022552631A JP2022552631A JP2023517004A JP 2023517004 A JP2023517004 A JP 2023517004A JP 2022552631 A JP2022552631 A JP 2022552631A JP 2022552631 A JP2022552631 A JP 2022552631A JP 2023517004 A JP2023517004 A JP 2023517004A
- Authority
- JP
- Japan
- Prior art keywords
- computer
- pitch
- data
- singing voice
- singing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 238000011176 pooling Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims 2
- 239000011295 pitch Substances 0.000 description 30
- 238000012545 processing Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 15
- 239000010410 layer Substances 0.000 description 13
- 230000015654 memory Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 239000000835 fiber Substances 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000006855 networking Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012384 transportation and delivery Methods 0.000 description 3
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000001994 activation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 229910052802 copper Inorganic materials 0.000 description 2
- 239000010949 copper Substances 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000013439 planning Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000002346 layers by function Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/315—Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
- G10H2250/455—Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
オンデマンドセルフサービス:クラウド消費者は、サービスのプロバイダとの人間の対話を必要とせずに、必要に応じてサーバタイムおよびネットワークストレージなどのコンピューティング機能を一方的にプロビジョニングできる。
広範なネットワークアクセス:機能は、ネットワークを介して利用可能であり、異種のシンまたはシックなクライアントプラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的な機構を介してアクセスされる。
リソースプーリング:プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者にサービスを提供するためにプールされ、異なる物理リソースおよび仮想リソースは、需要に応じて動的に割り当ておよび再割り当てされる。消費者は、一般に、提供されたリソースの正確な位置に対する制御または知識を持たないが、より高い抽象化レベル(例えば、国、州、またはデータセンタ)で位置を指定することが可能であるという点で、位置独立性の感覚がある。
迅速な柔軟性(elasticity):機能は、迅速にスケールアウトするために迅速かつ柔軟に、場合によっては自動的にプロビジョニングされ、迅速にスケールインするために迅速に解放されることができる。消費者には、プロビジョニングに利用可能な機能は、多くの場合、無制限であるように見え、いつでも任意の量で購入できる。
測定されるサービス:クラウドシステムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、およびアクティブユーザアカウント)に適したある抽象化レベルで計測機能を活用することによって、リソース使用を自動的に制御および最適化する。リソース使用は、利用されるサービスのプロバイダおよび消費者の両方に透明性を提供するように監視、制御、および報告されることができる。
サービスとしてのソフトウェア(SaaS):消費者に提供される機能は、クラウドインフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブブラウザ(例えば、ウェブベースの電子メール)などのシンクライアントインターフェースを介して様々なクライアントデバイスからアクセス可能である。消費者は、限定されたユーザ固有のアプリケーション構成設定を可能な例外として、ネットワーク、サーバ、オペレーティングシステム、ストレージ、または個々のアプリケーション機能さえも含む基盤となるクラウドインフラストラクチャを管理または制御しない。
サービスとしてのプラットフォーム(PaaS):消費者に提供される機能は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者が作成または取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、またはストレージを含む基盤となるクラウドインフラストラクチャを管理または制御しないが、展開されたアプリケーションおよび場合によってはアプリケーションホスティング環境構成を制御する。
サービスとしてのインフラストラクチャ(laaS):消費者に提供される機能は、処理、ストレージ、ネットワーク、および他の基本的なコンピューティングリソースをプロビジョニングすることであり、消費者は、オペレーティングシステムおよびアプリケーションを含むことができる任意のソフトウェアを配備および実行することが可能である。消費者は、基盤となるクラウドインフラストラクチャを管理も制御もしないが、オペレーティングシステム、ストレージ、展開されたアプリケーション、および場合によっては選択ネットワーキング構成要素(例えば、ホストファイアウォール)の限定された制御を制御する。
プライベートクラウド:クラウドインフラストラクチャは、組織のためだけに運用される。クラウドインフラストラクチャは、当該組織またはサードパーティによって管理されてもよく、また、オンプレミスで存在してもよいし、オフプレミスで存在してもよい。
コミュニティクラウド:クラウドインフラストラクチャは、いくつかの組織によって共有され、共有された関心事項(例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項)を有する特定のコミュニティをサポートする。クラウドインフラストラクチャは、当該組織またはサードパーティによって管理されてもよく、また、オンプレミスで存在してもよいし、オフプレミスで存在してもよい。
パブリッククラウド:クラウドインフラストラクチャは、一般の市民または大規模な業界グループに利用可能にされ、クラウドサービスを販売する組織によって所有される。
ハイブリッドクラウド:クラウドインフラストラクチャは、独自のエンティティのままであるが、データおよびアプリケーションの可搬性(例えば、クラウド間の負荷分散のためのクラウドバースト)を可能にする標準化されたまたは独自の技術によって互いに結び付けられた2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の複合である。
54A 携帯情報端末(PDA)または携帯電話、コンピューティングデバイス
54B デスクトップコンピュータ、コンピューティングデバイス
54C ラップトップコンピュータ、コンピューティングデバイス
54N 自動車コンピュータシステム、コンピューティングデバイス
60 ハードウェアおよびソフトウェア層
61 メインフレーム
62 RISC(縮小命令セットコンピュータ)アーキテクチャベースのサーバ
63 サーバ
64 ブレードサーバ
65 記憶デバイス
66 ネットワークおよびネットワーキング構成要素
67 ネットワークアプリケーションサーバソフトウェア
68 データベースソフトウェア
70 仮想化層
71 仮想サーバ
72 仮想ストレージ
73 仮想プライベートネットワークを含む仮想ネットワーク
74 仮想アプリケーションおよびオペレーティングシステム
75 仮想クライアント
80 管理層
81 リソースプロビジョニング
82 計測および価格設定
83 ユーザポータル
84 サービスレベル管理
85 サービスレベルアグリーメント(SLA:Service Level Agreement)の計画および履行
90 作業負荷層
91 マッピングおよびナビゲーション
92 ソフトウェア開発およびライフサイクル管理
93 仮想教室教育配信
94 データ解析処理
95 取引処理
96 歌唱音声変換
100 歌唱音声変換システム
102 コンピュータ
104 プロセッサ
106 データ記憶デバイス
108 ソフトウェアプログラム
110 通信ネットワーク
112 データベース
114 サーバコンピュータ
116 歌唱音声変換プログラム
200 ブロック図
202 エンコーダ
204 デコーダ
206 入力波形データ
208 データリンク
210 データリンク
212 データリンク
214 データリンク
216 オーディオサンプルデータ、出力波形データ
400 ブロック図
500 クラウドコンピューティング環境
600 機能抽象化層
800A 内部構成要素
800B 内部構成要素
820 プロセッサ
822 コンピュータ可読RAM
824 コンピュータ可読ROM
826 バス
828 オペレーティングシステム
830 コンピュータ可読有形記憶デバイス、ハードドライブ
832 R/Wドライブまたはインターフェース
836 ネットワークアダプタまたはインターフェース
840 デバイスドライバ
900A 外部構成要素
900B 外部構成要素
920 コンピュータディスプレイモニタ
930 キーボード
934 コンピュータマウス
936 ポータブルコンピュータ可読有形記憶デバイス
Claims (20)
歌唱音声に対応するデータを受信するステップと、
前記受信データから1つまたは複数の特徴を抽出するステップと、
前記受信データからピッチデータを抽出するステップと、
前記抽出されたピッチデータおよび前記1つまたは複数の特徴に基づいて1つまたは複数のオーディオサンプルを生成するステップと
を含む、方法。
コンピュータプログラムコードを記憶するように構成された1つまたは複数のコンピュータ可読非一時的記憶媒体と、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードによって命令されるように動作するように構成された1つまたは複数のコンピュータプロセッサであって、前記コンピュータプログラムコードは、
前記1つまたは複数のコンピュータプロセッサに歌唱音声に対応するデータを受信させるように構成された受信コードと、
前記1つまたは複数のコンピュータプロセッサに、前記受信データから1つまたは複数の特徴を抽出させるように構成された第1の抽出コードと、
前記1つまたは複数のコンピュータプロセッサに、前記受信データからピッチデータを抽出させるように構成された第2の抽出コードと、
前記1つまたは複数のコンピュータプロセッサに、前記抽出されたピッチデータおよび前記1つまたは複数の特徴に基づいて1つまたは複数のオーディオサンプルを生成させるように構成された生成コードと、
を含む、1つまたは複数のコンピュータプロセッサと
を含む、コンピュータシステム。
歌唱音声に対応するデータを受信させ、
前記受信データから1つまたは複数の特徴を抽出させ、
前記受信データからピッチデータを抽出させ、
前記抽出されたピッチデータおよび前記1つまたは複数の特徴に基づいて1つまたは複数のオーディオサンプルを生成させる
ように構成される、非一時的コンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/807,851 | 2020-03-03 | ||
US16/807,851 US11257480B2 (en) | 2020-03-03 | 2020-03-03 | Unsupervised singing voice conversion with pitch adversarial network |
PCT/US2021/018498 WO2021178139A1 (en) | 2020-03-03 | 2021-02-18 | Unsupervised singing voice conversion with pitch adversarial network |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023517004A true JP2023517004A (ja) | 2023-04-21 |
Family
ID=77555074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022552631A Pending JP2023517004A (ja) | 2020-03-03 | 2021-02-18 | ピッチ敵対的ネットワークを用いた教師なし歌唱音声変換 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11257480B2 (ja) |
EP (1) | EP4091160A4 (ja) |
JP (1) | JP2023517004A (ja) |
KR (1) | KR20220137939A (ja) |
CN (1) | CN115136230A (ja) |
WO (1) | WO2021178139A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114093387A (zh) * | 2021-11-19 | 2022-02-25 | 北京跳悦智能科技有限公司 | 一种对声调建模的声音转换方法及***、计算机设备 |
KR20240097874A (ko) | 2022-09-07 | 2024-06-27 | 구글 엘엘씨 | 자기 회귀 생성 신경망을 사용한 오디오 생성 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3333022B2 (ja) * | 1993-11-26 | 2002-10-07 | 富士通株式会社 | 歌声合成装置 |
US6754631B1 (en) * | 1998-11-04 | 2004-06-22 | Gateway, Inc. | Recording meeting minutes based upon speech recognition |
US7058889B2 (en) * | 2001-03-23 | 2006-06-06 | Koninklijke Philips Electronics N.V. | Synchronizing text/visual information with audio playback |
DE102007021772B4 (de) * | 2007-05-09 | 2013-01-24 | Voicecash Ip Gmbh | Digitales Verfahren und Anordnung zur Authentifizierung eines Nutzers einer Datenbasis |
US8244546B2 (en) | 2008-05-28 | 2012-08-14 | National Institute Of Advanced Industrial Science And Technology | Singing synthesis parameter data estimation system |
US7977562B2 (en) | 2008-06-20 | 2011-07-12 | Microsoft Corporation | Synthesized singing voice waveform generator |
EP2786376A1 (en) * | 2012-11-20 | 2014-10-08 | Unify GmbH & Co. KG | Method, device, and system for audio data processing |
US20180268792A1 (en) * | 2014-08-22 | 2018-09-20 | Zya, Inc. | System and method for automatically generating musical output |
US20170140260A1 (en) * | 2015-11-17 | 2017-05-18 | RCRDCLUB Corporation | Content filtering with convolutional neural networks |
US10283143B2 (en) * | 2016-04-08 | 2019-05-07 | Friday Harbor Llc | Estimating pitch of harmonic signals |
US10008193B1 (en) * | 2016-08-19 | 2018-06-26 | Oben, Inc. | Method and system for speech-to-singing voice conversion |
US10134374B2 (en) * | 2016-11-02 | 2018-11-20 | Yamaha Corporation | Signal processing method and signal processing apparatus |
KR101925217B1 (ko) * | 2017-06-20 | 2018-12-04 | 한국과학기술원 | 가창 표현 이식 시스템 |
CN108461079A (zh) * | 2018-02-02 | 2018-08-28 | 福州大学 | 一种面向音色转换的歌声合成方法 |
US11217265B2 (en) * | 2019-04-16 | 2022-01-04 | Microsoft Technology Licensing, Llc | Condition-invariant feature extraction network |
US11462236B2 (en) * | 2019-10-25 | 2022-10-04 | Adobe Inc. | Voice recordings using acoustic quality measurement models and actionable acoustic improvement suggestions |
-
2020
- 2020-03-03 US US16/807,851 patent/US11257480B2/en active Active
-
2021
- 2021-02-18 EP EP21765361.7A patent/EP4091160A4/en not_active Withdrawn
- 2021-02-18 WO PCT/US2021/018498 patent/WO2021178139A1/en unknown
- 2021-02-18 CN CN202180015078.9A patent/CN115136230A/zh active Pending
- 2021-02-18 KR KR1020227030510A patent/KR20220137939A/ko not_active Application Discontinuation
- 2021-02-18 JP JP2022552631A patent/JP2023517004A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US11257480B2 (en) | 2022-02-22 |
KR20220137939A (ko) | 2022-10-12 |
CN115136230A (zh) | 2022-09-30 |
EP4091160A4 (en) | 2023-05-10 |
EP4091160A1 (en) | 2022-11-23 |
WO2021178139A1 (en) | 2021-09-10 |
US20210280165A1 (en) | 2021-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11721318B2 (en) | Singing voice conversion | |
JP7361120B2 (ja) | 音響単語埋め込みを使用した直接音響単語音声認識における未知語の認識 | |
US11682379B2 (en) | Learnable speed control of speech synthesis | |
JP2023517004A (ja) | ピッチ敵対的ネットワークを用いた教師なし歌唱音声変換 | |
WO2022211851A1 (en) | Method and apparatus for cascaded multi-input content preparation templates for 5g networks | |
US20220343904A1 (en) | Learning singing from speech | |
US20220310092A1 (en) | Multi-look enhancement modeling and application for keyword spotting | |
WO2023018594A1 (en) | Extractive method for speaker identification in texts with self-training | |
JP7444979B2 (ja) | 映像データをコーディングするための方法、コンピュータシステム、及びコンピュータプログラム | |
US12032916B2 (en) | Structure self-aware model for discourse parsing on multi-party dialogues | |
US20230152971A1 (en) | Parameter redundancy reduction method | |
US20220269868A1 (en) | Structure self-aware model for discourse parsing on multi-party dialogues | |
WO2022186875A1 (en) | Robust dialogue utterance rewriting as sequence tagging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220901 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220901 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240116 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240415 |