JP2021182159A - 歌のマルチメディアの合成方法、合成装置、電子機器及び記憶媒体 - Google Patents

歌のマルチメディアの合成方法、合成装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2021182159A
JP2021182159A JP2021130709A JP2021130709A JP2021182159A JP 2021182159 A JP2021182159 A JP 2021182159A JP 2021130709 A JP2021130709 A JP 2021130709A JP 2021130709 A JP2021130709 A JP 2021130709A JP 2021182159 A JP2021182159 A JP 2021182159A
Authority
JP
Japan
Prior art keywords
user
song
multimedia
tone
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021130709A
Other languages
English (en)
Other versions
JP7138222B2 (ja
Inventor
ウ,シュアン
Shuang Wu
リ,チョウ
Chao Li
ソン,チェンシ
Chenxi Sun
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021182159A publication Critical patent/JP2021182159A/ja
Application granted granted Critical
Publication of JP7138222B2 publication Critical patent/JP7138222B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/002Instruments in which the tones are synthesised from a data store, e.g. computer organs using a common processing for different operations or calculations, and a set of microinstructions (programme) to control the sequence thereof
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/021Background music, e.g. for video sequences, elevator music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/105Composing aid, e.g. for supporting creation, edition or modification of a piece of music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/315Dynamic effects for musical purposes, i.e. musical sound effects controlled by the amplitude of the time domain audio envelope, e.g. loudness-dependent tone color or musically desired dynamic range compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】ユーザが様々な素材を提供する方式が拡張され、ユーザが自分の条件に基づいて音色素材を提供しやすくなり、ユーザが自分の音色付きの歌のマルチメディアを生成するために必要な操作が少なくなり、歌のマルチメディアの合成コストが削減され、歌のマルチメディアの合成効率が向上する、歌のマルチメディアの合成方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、歌のマルチメディア合成要求に応答して、素材取得モードを表示し、選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得し、ユーザオーディオを音色抽出モデルに入力して、音色抽出モデルから出力されたユーザ音色を取得し、選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、ユーザ音色、合成対象歌詞及び合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得する。【選択図】図1

Description

本出願は、コンピュータ技術の分野に関し、具体的には、音声技術、深層学習技術の分野に関し、特に、歌のマルチメディアの合成方法、合成装置、電子機器及記憶媒体に関する。
関連技術において、音楽合成方法は、主に、ユーザによって提供された話の素材を取得し、曲譜に合わせてユーザによって提供された話の素材に対して編集及び調子処理などを行って、そのユーザの歌唱効果を生成することである。
しかしながら、上記方法では、手動編集及び手動調子処理操作に1週間から半月などの多大な時間がかかる必要があり、編集時間が長く、コストが高く、編集によって得られた歌唱効果が悪い。
本開示は、歌のマルチメディアの合成方法、装置、電子機器及び記憶媒体を提供する。
本開示の一態様によれば、歌のマルチメディア合成要求に応答して、素材取得モードを表示するステップと、選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得するステップと、前記ユーザオーディオを音色抽出モデルに入力して、前記音色抽出モデルから出力されたユーザ音色を取得するステップと、選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、前記ユーザ音色、前記合成対象歌詞及び前記合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得するステップと、を含む歌のマルチメディアの合成方法が提供される。
本開示の別の態様によれば、歌のマルチメディア合成要求に応答して、素材取得モードを表示するように構成される表示モジュールと、選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得するように構成される第1の取得モジュールと、前記ユーザオーディオを音色抽出モデルに入力して、前記音色抽出モデルから出力されたユーザ音色を取得するように構成される音色抽出モジュールと、選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、前記ユーザ音色、前記合成対象歌詞及び前記合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得するように構成される合成モジュールと、を含む歌のマルチメディアの合成装置が提供される。
第3の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含む電子機器であって、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが上記の歌のマルチメディアの合成方法を実行できる電子機器が提供される。
第4の態様によれば、コンピュータに上記の歌のマルチメディアの合成方法を実行させるためのコンピュータ命令を記憶している非一時的なコンピュータ読み取り可能な記憶媒体が提供される。
第5の態様によれば、コンピュータに上記の歌のマルチメディアの合成方法を実行させるコンピュータプログラムが提供される。
なお、この概要部分に記載された内容は、本出願の実施例の肝心又は重要な特徴を特定することを意図したものではなく、また、本出願の範囲を限定することを意図したものでもないことを理解されたい。本出願のその他の特徴は、以下の明細書を通じて容易に理解される。
図面は、本技術案をより良く理解するために使用され、本出願を限定するものではない。
本出願の第1の実施例に係る歌のマルチメディアの合成方法のフローチャートである。 本出願の第2の実施例に係る歌のマルチメディアの合成方法のフローチャートである。 本出願の第3の実施例に係る歌のマルチメディアの合成方法のフローチャートである。 本出願の第4の実施例に係る歌のマルチメディアの合成装置の概略ブロック図である。 本出願の実施例に係る歌のマルチメディアの合成方法を実現するための電子機器のブロック図である。
以下、添付の図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするために、本出願の実施例の様々な詳細を含んでおり、それらは単に例示的なものとみなされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。また、明確及び簡潔のために、以下の説明では、周知の機能及び構成についての記載は省略する。
以下、図面を参照して本出願の実施例に係る歌のマルチメディアの合成方法、装置、電子機器及び記憶媒体を説明する。
図1は、本出願の第1の実施例に係る歌のマルチメディアの合成方法のフローチャートである。ここで、本出願の実施例の実行主体は、歌のマルチメディアの合成装置であり、歌のマルチメディアの合成装置は、具体的には、ハードウェアデバイス、またはハードウェアデバイス内のソフトウェアなどであってもよい。
図1に示すように、歌のマルチメディアの合成方法の具体的な実現プロセスは、以下のとおりである。
ステップ101において、歌のマルチメディア合成要求に応答して、素材取得モードを表示する。
本出願の実施例において、歌のマルチメディア合成要求のトリガー条件は、ユーザによる歌のマルチメディアの合成装置における予め設定されたボタンのクリック、予め設定されたコントロールのクリック、予め設定された領域のクリックなどであってもよく、実際の必要に応じて設定されてもよい。
本出願の実施例において、歌のマルチメディアを合成する素材は、音色素材、歌詞素材、曲譜素材、音楽リソース、及びビデオリソースのうちの少なくとも1つを含んでもよい。ここで、音楽リソースは、バックグラウンドミュージック及び/又はサウンドエフェクトを含む。ビデオリソースは、例えば、バックグラウンドビデオであってもよい。それに応じて、素材取得モードは、各素材の少なくとも1つの取得モードを含んでもよい。
ステップ102において、選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得する。
本出願の実施例において、素材取得モードは、音色素材取得モードを含んでもよく、音色素材取得モードは、ユーザオーディオ入力インターフェース、及び/又は、ユーザオーディオアップロードインターフェースを含んでもよい。それに応じて、歌のマルチメディアの合成装置がステップ102を実行するプロセスは、具体的には、以下のとおりである。ユーザオーディオ入力インターフェースに対するユーザの選択命令を検出した場合、ユーザオーディオを収集するようにオーディオ入力デバイスを制御し、または、ユーザオーディオアップロードインターフェースに対するユーザの選択命令を検出した場合、アップロードされたユーザオーディオを取得する。
本出願の実施例において、ユーザオーディオ入力インターフェース、及び/又は、ユーザオーディオアップロードインターフェースを設定することで、ユーザが必要に応じて既存のユーザオーディオをアップロードするか、または既存のユーザオーディオが存在しない場合、ユーザオーディオをオンラインで録音して提供することができ、これによって、ユーザが自分の条件に基づいて音色素材を提供しやすくなり、ユーザが音色素材を提供する方式が拡張され、ユーザが自分の音色付きの歌のマルチメディアを生成するために必要な操作が少なくなり、歌のマルチメディアの合成コストが削減され、歌のマルチメディアの合成効率が向上する。
本出願の実施例において、音色素材取得モードは、ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リスト、及び共有音色リストのうちのいずれか1つまたは複数をさらに含んでもよい。ここで、履歴音色リストは、履歴期間内にアップロードまたは抽出されたユーザ音色を含み、前記共有音色リストには、履歴期間内に共有されたユーザ音色が含まれる。それに応じて、歌のマルチメディアの合成装置は、音色素材を取得するために、ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リストまたは共有音色リストに対するユーザの選択命令が検出された場合、アップロードまたは選択されたユーザ音色を取得するプロセスを実行することもできる。
本出願の実施例において、ユーザがユーザ音色を持っている場合、ユーザ音色アップロードインターフェースを介してユーザ音色を直接アップロードしてもよく、または、ユーザは、指定された音色リスト、履歴音色リスト、及び共有音色リストから音色をユーザ音色として選択してもよい。ここで、指定された音色リストには歌のマルチメディアの合成装置によってデフォルトで提供される音色が保存されている。履歴音色リストは、履歴期間内にユーザによってアップロードまたは抽出されたユーザ音色を含んでもよい。共有音色リストは、履歴期間内に他のユーザによって共有されたユーザ音色を含んでもよい。ここで、履歴期間は、例えば、1週間、2週間などであってもよく、実際の必要に応じて設定されてもよい。
本出願の実施例において、様々な音色素材取得モードの提供により、ユーザによって提供可能または選択可能な音色素材がさらに拡張され、ユーザが自分の音色付きの歌のマルチメディアを生成するために必要な操作が少なくなり、歌のマルチメディアの合成コストが削減され、歌のマルチメディアの合成効率が向上する。
ステップ103において、ユーザオーディオを音色抽出モデルに入力して、音色抽出モデルから出力されたユーザ音色を取得する。
本出願の実施例において、音色抽出モデルの入力はユーザオーディオであり、出力はユーザオーディオのユーザ音色である。音色抽出モデルは、具体的には、ユーザオーディオに対して音色抽出を行うために、大量のサンプルオーディオ及び対応するサンプル音色に基づいてトレーニングすることによって得られるディープニューラルネットワークモデルであってもよい。
ステップ104において、選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、ユーザ音色、合成対象歌詞及び合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得する。
本出願の実施例において、素材取得モードは、歌詞素材取得モードをさらに含んでもよい。歌詞素材取得モードは、歌詞アップロードインターフェース、指定された歌詞リスト、履歴歌詞リスト、及び共有歌詞リストのうちのいずれか1つまたは複数を含んでもよい。ここで、指定された歌詞リストには、歌のマルチメディアの合成装置によってデフォルトで提供された歌詞が保存されてもよい。履歴歌詞リストには、履歴期間内に各ユーザによってアップロードされた歌詞が含まれてもよい。共有歌詞リストには、履歴期間内に他のユーザによって共有された歌詞が含まれてもよい。ここで、履歴期間は、例えば、1週間、2週間などであってもよく、実際の必要に応じて設定されてもよい。
本出願の実施例において、合成対象歌詞の取得方式は、歌詞アップロードインターフェース、指定された歌詞リスト、履歴歌詞リスト、または共有歌詞リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された歌詞を取得することである。
本出願の実施例において、様々な歌詞素材取得モードの提供により、ユーザによって提供可能または選択可能な歌詞素材がさらに拡張され、ユーザが歌詞素材を提供するために必要な操作が少なくなり、ユーザが自分の音色付きの歌のマルチメディアを生成するために必要な操作が少なくなり、歌のマルチメディアの合成コストが削減され、歌のマルチメディアの合成効率が向上する。
本出願の実施例において、素材取得モードは、曲譜素材取得モードをさらに含んでもよい。曲譜素材取得モードは、曲譜アップロードインターフェース、指定された曲譜リスト、履歴曲譜リスト、及び共有曲譜リストのうちのいずれか1つまたは複数を含む。ここで、指定された曲譜リストには、歌のマルチメディアの合成装置によってデフォルトで提供された曲譜が保存されてもよい。履歴曲譜リストには、履歴期間内に各ユーザによってアップロードされた曲譜が含まれてもよい。共有歌詞リストには、履歴期間内に他のユーザによって共有された曲譜が含まれてもよい。ここで、履歴期間は、例えば、1週間、2週間などであってもよく、実際の必要に応じて設定されてもよい。
本出願の実施例において、合成対象曲譜の取得方式は、曲譜アップロードインターフェース、指定された曲譜リスト、履歴曲譜リスト、または共有曲譜リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された曲譜を取得することである。
本出願の実施例において、様々な曲譜素材取得モードの提供により、ユーザによって提供可能または選択可能な歌詞素材がさらに拡張され、ユーザが歌詞素材を提供するために必要な操作が少なくなり、ユーザが自分の音色付きの歌のマルチメディアを生成するために必要な操作が少なくなり、歌のマルチメディアの合成コストが削減され、歌のマルチメディアの合成効率が向上する。
要約すると、歌のマルチメディア合成要求に応答して、素材取得モードを表示し、選択した素材取得モードでユーザから提供されたユーザオーディオを取得し、ユーザオーディオを音色抽出モデルに入力して、音色抽出モデルから出力されたユーザ音色を取得し、選択した素材取得モードでユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、ユーザ音色、合成対象歌詞及び合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得することにより、ユーザが様々な素材を提供する方式が拡張され、ユーザが自分の条件に基づいて音色素材を提供しやすくなり、ユーザが自分の音色付きの歌のマルチメディアを生成するために必要な操作が少なくなり、歌のマルチメディアの合成コストが削減され、歌のマルチメディアの合成効率が向上する。
音色抽出モデルと歌合成モデルの精度を向上させるために、歌のマルチメディアの合成装置は、音色抽出モデルと歌合成モデルに対して合同トレーニングを行うことができる。図2に示すように、図2は、本出願の第2の実施例に係る歌のマルチメディアの合成方法のフローチャートである。図1に示す実施例のもとで、前記方法は、以下のステップ201〜204をさらに含むことができる。
ステップ201において、順次接続されている音色抽出モデル及び歌合成モデルを含む初期の合同モデルを取得する。
本出願の実施例において、音色抽出モデルの入力はオーディオであり、出力はオーディオの音色である。歌合成モデルの入力は音色、歌詞及び曲譜であり、出力は合成された歌のマルチメディアである。
ステップ202において、ユーザオーディオサンプル、歌詞サンプル、曲譜サンプル、及び対応する歌のマルチメディアサンプルを含むトレーニングデータを取得する。
本出願の実施例において、インターネット上に、大量の歌手の歌のマルチメディア、歌のマルチメディアの歌詞、曲譜、及び歌のマルチメディアに対応する歌手の他のオーディオが存在し、したがって、歌のマルチメディアの合成装置は、大量の歌手のオーディオサンプル、歌詞サンプル、曲譜サンプル及び対応する歌のマルチメディアサンプルをトレーニングデータとして取得して、初期の合同モデルをトレーニングすることができる。ここで、歌のマルチメディアサンプルは、アカペラの歌オーディオサンプル、バックグラウンドミュージック付きの歌オーディオサンプル、またはバックグラウンドビデオ付きの歌ビデオサンプルなどであってもよく、実際の必要に応じて設定されてもよい。
本出願の実施例において、歌のマルチメディアの合成装置は、少数の一般ユーザのオーディオサンプル、歌詞サンプル、曲譜サンプル及び対応する歌のマルチメディアサンプルを取得してトレーニングデータに追加してもよい。
ステップ203において、トレーニングデータを使用して初期の合同モデルをトレーニングして、トレーニング済み合同モデルを取得する。
ステップ204において、トレーニング済み合同モデル内の音色抽出モデル及び歌合成モデルを取得する。
要約すると、順次接続されている音色抽出モデル及び歌合成モデルを含む初期の合同モデルを取得し、ユーザオーディオサンプル、歌詞サンプル、曲譜サンプル、及び対応する歌のマルチメディアサンプルを含むトレーニングデータを取得し、トレーニングデータを使用して初期の合同モデルをトレーニングして、トレーニング済み合同モデルを取得し、トレーニング済み合同モデル内の音色抽出モデル及び歌合成モデルを取得することで、音色抽出モデル及び歌合成モデルの合同トレーニングによって、音色抽出モデル及び歌合成モデルの精度を向上させ、さらに合成によって得られた歌のマルチメディアの精度を向上させる。
合成によって得られた歌のマルチメディアの効果を向上させるために、合成によって得られた歌のマルチメディアに音楽リソースなどを追加することができる。図3に示すように、図3は本出願の第3の実施例に係る歌のマルチメディアの合成方法のフローチャートである。前記方法は、以下のステップ301〜306をさらに含むことができる。
ステップ301において、歌のマルチメディア合成要求に応答して、素材取得モードを表示する。
ステップ302において、選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得する。
ステップ303において、ユーザオーディオを音色抽出モデルに入力して、音色抽出モデルから出力されたユーザ音色を取得する。
ステップ304において、選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、ユーザ音色、合成対象歌詞及び合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得する。
ステップ305において、バックグラウンドミュージック及び/又はサウンドエフェクトを含む合成対象音楽リソースを取得する。
本出願の実施例において、バックグラウンドミュージックは、合成対象曲譜にマッチングするバックグラウンドミュージックであってもよいし、または、合成対象曲譜のリズムにマッチングするバックグラウンドミュージックであってもよい。
ステップ306において、合成された歌のマルチメディアと、バックグラウンドミュージック及び/又はサウンドエフェクトとに基づいて、バックグラウンドミュージック及び/又はサウンドエフェクト付きの歌のマルチメディアを生成する。
本出願の実施例において、サウンドエフェクトは、例えば、拍手、鳥の鳴き声、リングトーンなどであってもよい。本出願の実施例において、歌のマルチメディアの合成装置がバックグラウンドミュージック及び/又はサウンドエフェクト付きの歌のマルチメディアを生成するプロセスは、具体的には、合成された歌のマルチメディアのリズムを取得し、バックグラウンドミュージックのリズム及び/又はサウンドエフェクトのリズムを取得し、合成された歌のマルチメディアのリズムを、バックグラウンドミュージックのリズム及び/又はサウンドエフェクトのリズムとペア処理して、合成された歌のマルチメディアにおけるバックグラウンドミュージック及び/又はサウンドエフェクトの各音の位置を決定し、さらに合成された歌のマルチメディアにおけるバックグラウンドミュージック及び/又はサウンドエフェクトの各音の位置に基づいて、合成された歌のマルチメディアと、バックグラウンドミュージック及び/又はサウンドエフェクトとを合成処理して、バックグラウンドミュージック及び/又はサウンドエフェクト付きの歌のマルチメディアを取得することであってもよい。
本出願の実施例において、歌のマルチメディアの合成装置は、歌のマルチメディアにビデオリソースを追加することもできる。したがって、図3に示す実施例に基づいて、前記方法は、合成対象ビデオリソースを取得するステップをさらに含むことができる。それに応じて、ステップ306では、具体的には、合成された歌のマルチメディア、音楽リソース及びビデオリソースに基づいて、音楽リソース及びビデオリソース付きの歌のマルチメディアを生成する。
本出願の実施例において、合成された歌のマルチメディアは、再生、ダウンロード、配布、共有、及び二次制作などに使用することができ、実際の必要に応じて歌のマルチメディアの操作を選択することができる。
要約すると、バックグラウンドミュージック及び/又はサウンドエフェクトを含む合成対象音楽リソースを取得し、合成された歌のマルチメディアと、バックグラウンドミュージック及び/又はサウンドエフェクトとに基づいて、バックグラウンドミュージック及び/又はサウンドエフェクト付きの歌のマルチメディアを生成することにより、歌のマルチメディアにバックグラウンドミュージック及び/又はサウンドエフェクトなどの音楽リソースを追加して、歌のマルチメディアの豊富さを高めることができる。
上記実施例を実現するために、本出願の実施例は、歌のマルチメディアの合成装置をさらに提出する。
図4は本出願の第4の実施例に係る歌のマルチメディアの合成装置概略ブロック図である。図4に示すように、当該歌のマルチメディアの合成装置400は、表示モジュール410と、第1の取得モジュール420と、音色抽出モジュール430と、合成モジュール440と、を含む。
ここで、前記表示モジュール410は、歌のマルチメディア合成要求に応答して、素材取得モードを表示するように構成される。前記第1の取得モジュール420は、選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得するように構成される。前記音色抽出モジュール430は、前記ユーザオーディオを音色抽出モデルに入力して、前記音色抽出モデルから出力されたユーザ音色を取得するように構成される。前記合成モジュール440は、選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、前記ユーザ音色、前記合成対象歌詞及び前記合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得するように構成される。
本出願の実施例の可能な一実現形態として、前記素材取得モードは、音色素材取得モードを含み、前記音色素材取得モードは、ユーザオーディオ入力インターフェース、及び/又は、ユーザオーディオアップロードインターフェースを含み、前記第1の取得モジュール420は、ユーザオーディオ入力インターフェースに対するユーザの選択命令が検出された場合、ユーザオーディオを収集するようにオーディオ入力デバイスを制御し、または、ユーザオーディオアップロードインターフェースに対するユーザの選択命令が検出された場合、アップロードされたユーザオーディオを取得するように構成される。
本出願の実施例の可能な一実現形態として、前記音色素材取得モードは、ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リスト、及び共有音色リストのうちのいずれか1つまたは複数をさらに含み、ここで、履歴音色リストは、履歴期間内にアップロードまたは抽出されたユーザ音色を含み、前記共有音色リストには、履歴期間内に共有されたユーザ音色が含まれ、前記歌のマルチメディアの合成装置は、ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リスト、または共有音色リストに対するユーザの選択命令が検出された場合、アップロードまたは選択されたユーザ音色を取得するように構成される第2の取得モジュールをさらに含む。
本出願の実施例の可能な一実現形態として、前記素材取得モードは、歌詞素材取得モードをさらに含み、前記歌詞素材取得モードは、歌詞アップロードインターフェース、指定された歌詞リスト、履歴歌詞リスト、及び共有歌詞リストのうちのいずれか1つまたは複数を含み、前記合成対象歌詞の取得方式は、前記歌詞アップロードインターフェース、前記指定された歌詞リスト、前記履歴歌詞リスト、または前記共有歌詞リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された歌詞を取得することである。
本出願の実施例の可能な一実現形態として、前記素材取得モードは、曲譜素材取得モードをさらに含み、前記曲譜素材取得モードは、曲譜アップロードインターフェース、指定された曲譜リスト、履歴曲譜リスト、及び共有曲譜リストのうちのいずれか1つまたは複数を含み、前記合成対象曲譜の取得方式は、前記曲譜アップロードインターフェース、前記指定された曲譜リスト、前記履歴曲譜リスト、または前記共有曲譜リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された曲譜を取得することである。
本出願の実施例の可能な一実現形態として、前記歌のマルチメディアの合成装置は、第3の取得モジュール及びトレーニングモジュールをさらに含み、前記第3の取得モジュールは、順次接続されている音色抽出モデル及び歌合成モデルを含む初期の合同モデルを取得するように構成され、前記第3の取得モジュールは、さらに、ユーザオーディオサンプル、歌詞サンプル、曲譜サンプル、及び対応する歌のマルチメディアサンプルを含むトレーニングデータを取得するように構成され、前記トレーニングモジュールは、前記トレーニングデータを使用して前記初期の合同モデルをトレーニングして、トレーニング済み合同モデルを取得するように構成され、前記第3の取得モジュールは、さらに、前記トレーニング済み合同モデル内の音色抽出モデル及び歌合成モデルを取得するように構成される。
本出願の実施例の可能な一実現形態として、前記歌のマルチメディアの合成装置は、第4の取得モジュール及び第1の生成モジュールをさらに含み、前記第4の取得モジュールは、バックグラウンドミュージック及び/又はサウンドエフェクトを含む合成対象音楽リソースを取得するように構成され、前記第1の生成モジュールは、前記合成された歌のマルチメディアと、前記バックグラウンドミュージック及び/又はサウンドエフェクトとに基づいて、バックグラウンドミュージック及び/又はサウンドエフェクト付きの歌のマルチメディアを生成するように構成される。
本出願の実施例の可能な一実現形態として、前記歌のマルチメディアの合成装置は、第5の取得モジュール及び第2の生成モジュールをさらに含み、前記第5の取得モジュールは、合成対象音楽リソース及びビデオリソースを取得するように構成され、前記第2の生成モジュールは、前記合成された歌のマルチメディア、前記音楽リソース及び前記ビデオリソースに基づいて、音楽リソース及びビデオリソース付きの歌のマルチメディアを生成するように構成される。
本出願の実施例に係る歌のマルチメディアの合成装置は、歌のマルチメディア合成要求に応答して、素材取得モードを表示し、選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得し、ユーザオーディオを音色抽出モデルに入力して、音色抽出モデルから出力されたユーザ音色を取得し、選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、ユーザ音色、合成対象歌詞及び合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得することにより、ユーザが様々な素材を提供する方式が拡張され、ユーザが自分の条件に基づいて音色素材を提供しやすくなり、ユーザが自分の音色付きの歌のマルチメディアを生成するために必要な操作が少なくなり、歌のマルチメディアの合成コストが削減されし、歌のマルチメディアの合成効率が向上する。
本出願の実施例によれば、本出願は、電子機器、及び読み取り可能な記憶媒体をさらに提供する。
図5に示すように、それは本出願の実施例に係る歌のマルチメディアの合成方法を実現するための電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器は、さらに、例えば、携帯情報端末、携帯電話、スマートフォン、ウェアラブル機器、及び他の同様のコンピューティング装置などの様々な形態のモバイル装置を表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記述及び/又は要求される本出願の実現を限定することを意図しない。
図5に示すように、この電子機器は、1つ又は複数のプロセッサ501と、メモリ502と、高速インタフェースと低速インタフェースとを含む、各コンポーネントを接続するためのインタフェースとを含む。各コンポーネントは、異なるバスで接続され、共通のマザーボードに実装されてもよいし、又は必要に応じて他の方式で実装されてもよい。プロセッサは、電子機器内で実行される命令を処理することができ、前記命令は外部入力/出力装置(例えば、インタフェースに結合されたディスプレイ機器)にGUIのグラフィック情報を表示させるようにメモリ内又はメモリ上に記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを複数のメモリと共に使用することができる。同様に、それぞれが必要な動作の一部(例えば、サーバアレイ、ブレードサーバ群、又はマルチプロセッサシステムとする)を提供する複数の電子機器を接続することができる。図5では、1つのプロセッサ501を例にする。
メモリ502は、本出願にて提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも1つのプロセッサが本出願にて提供される歌のマルチメディアの合成方法を実行するように、少なくとも1つのプロセッサによって実行可能な命令が記憶され本出願る。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、本出願にて提供される歌のマルチメディアの合成方法をコンピュータに実行させるためのコンピュータ命令が記憶されている。
メモリ502は、非一時的なコンピュータ読み取り可能な記憶媒体として、例えば、本出願の実施例における歌のマルチメディアの合成方法に対応するプログラム命令/モジュール(例えば、図4に示す表示モジュール410、第1の取得モジュール420、音色抽出モジュール430、及び合成モジュール440)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ501は、メモリ502に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法の実施例における歌のマルチメディアの合成方法を実現する。
メモリ502は、プログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、歌のマルチメディアの合成方法を実現するための電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ502は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的な固体記憶デバイスである。いくつかの実施例では、メモリ502は、プロセッサ501に対して遠隔に配置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して歌のマルチメディアの合成方法を実現するための電子機器に接続することができる。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。
歌のマルチメディアの合成方法を実現するためのの電子機器は、入力装置503と出力装置504とをさらに含むことができる。プロセッサ501、メモリ502、入力装置503、及び出力装置504は、バス又は他の方式で接続することができ、図5では、バスによる接続を例にする。
入力装置503は、入力された数字又は文字情報を受信し、歌のマルチメディアの合成方法を実現するため電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又はそれ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置504は、表示機器、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含むことができる。この表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含み取得するが、これらに限定されない。いくつかの実施形態では、表示機器はタッチパネルであってもよい。
本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこの記憶システム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実施される。本明細書で使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、このキーボード及びこのポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、このグラフィカルユーザインタフェース又はこのウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般的に、互いに離れ、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント−サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。
なお、上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることが理解されるであろう。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (19)

  1. 歌のマルチメディアの合成方法であって、
    歌のマルチメディア合成要求に応答して、素材取得モードを表示するステップと、
    選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得するステップと、
    前記ユーザオーディオを音色抽出モデルに入力して、前記音色抽出モデルから出力されたユーザ音色を取得するステップと、
    選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、前記ユーザ音色、前記合成対象歌詞及び前記合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得するステップと、を含む、
    ことを特徴とする歌のマルチメディアの合成方法。
  2. 前記素材取得モードは、音色素材取得モードを含み、前記音色素材取得モードは、ユーザオーディオ入力インターフェース、及び/又は、ユーザオーディオアップロードインターフェースを含み、
    選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得するステップは、
    ユーザオーディオ入力インターフェースに対するユーザの選択命令が検出された場合、ユーザオーディオを収集するようにオーディオ入力デバイスを制御するステップ、または、
    ユーザオーディオアップロードインターフェースに対するユーザの選択命令が検出された場合、アップロードされたユーザオーディオを取得するステップを含む、
    ことを特徴とする請求項1に記載の歌のマルチメディアの合成方法。
  3. 前記音色素材取得モードは、ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リスト、及び共有音色リストのうちのいずれか1つまたは複数をさらに含み、履歴音色リストには、履歴期間内にアップロードまたは抽出されたユーザ音色が含まれ、前記共有音色リストには、履歴期間内に共有されたユーザ音色が含まれ、
    前記歌のマルチメディアの合成方法は、
    ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リスト、または共有音色リストに対するユーザの選択命令が検出された場合、アップロードまたは選択されたユーザ音色を取得するステップをさらに含む、
    ことを特徴とする請求項2に記載の歌のマルチメディアの合成方法。
  4. 前記素材取得モードは、歌詞素材取得モードをさらに含み、
    前記歌詞素材取得モードは、歌詞アップロードインターフェース、指定された歌詞リスト、履歴歌詞リスト、及び共有歌詞リストのうちのいずれか1つまたは複数を含み、
    前記合成対象歌詞の取得方式は、前記歌詞アップロードインターフェース、前記指定された歌詞リスト、前記履歴歌詞リスト、または前記共有歌詞リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された歌詞を取得することである、
    ことを特徴とする請求項1に記載の歌のマルチメディアの合成方法。
  5. 前記素材取得モードは、曲譜素材取得モードをさらに含み、
    前記曲譜素材取得モードは、曲譜アップロードインターフェース、指定された曲譜リスト、履歴曲譜リスト、及び共有曲譜リストのうちのいずれか1つまたは複数を含み、
    前記合成対象曲譜の取得方式は、前記曲譜アップロードインターフェース、前記指定された曲譜リスト、前記履歴曲譜リスト、または前記共有曲譜リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された曲譜を取得することである、
    ことを特徴とする請求項1に記載の歌のマルチメディアの合成方法。
  6. 前記ユーザオーディオを音色抽出モデルに入力して、前記音色抽出モデルから出力されたユーザ音色を取得するステップの前に、
    順次接続されている音色抽出モデル及び歌合成モデルを含む初期の合同モデルを取得するステップと、
    ユーザオーディオサンプル、歌詞サンプル、曲譜サンプル、及び対応する歌のマルチメディアサンプルを含むトレーニングデータを取得するステップと、
    前記トレーニングデータを使用して前記初期の合同モデルをトレーニングして、トレーニング済み合同モデルを取得するステップと、
    前記トレーニング済み合同モデル内の音色抽出モデル及び歌合成モデルを取得するステップと、をさらに含む、
    ことを特徴とする請求項1に記載の歌のマルチメディアの合成方法。
  7. バックグラウンドミュージック及び/又はサウンドエフェクトを含む合成対象音楽リソースを取得するステップと、
    前記合成された歌のマルチメディアと、前記バックグラウンドミュージック及び/又はサウンドエフェクトとに基づいて、バックグラウンドミュージック及び/又はサウンドエフェクト付きの歌のマルチメディアを生成するステップと、をさらに含む、
    ことを特徴とする請求項1に記載の歌のマルチメディアの合成方法。
  8. 合成対象音楽リソース及びビデオリソースを取得するステップと、
    前記合成された歌のマルチメディア、前記音楽リソース及び前記ビデオリソースに基づいて、音楽リソース及びビデオリソース付きの歌のマルチメディアを生成するステップと、をさらに含む、
    ことを特徴とする請求項1に記載の歌のマルチメディアの合成方法。
  9. 歌のマルチメディアの合成装置であって、
    歌のマルチメディア合成要求に応答して、素材取得モードを表示するように構成される表示モジュールと、
    選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得するように構成される第1の取得モジュールと、
    前記ユーザオーディオを音色抽出モデルに入力して、前記音色抽出モデルから出力されたユーザ音色を取得するように構成される音色抽出モジュールと、
    選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、前記ユーザ音色、前記合成対象歌詞及び前記合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得するように構成される合成モジュールと、を含む、
    ことを特徴とする歌のマルチメディアの合成装置。
  10. 前記素材取得モードは、音色素材取得モードを含み、前記音色素材取得モードは、ユーザオーディオ入力インターフェース、及び/又は、ユーザオーディオアップロードインターフェースを含み、
    前記第1の取得モジュールは、具体的には、ユーザオーディオ入力インターフェースに対するユーザの選択命令が検出された場合、ユーザオーディオを収集するようにオーディオ入力デバイスを制御し、または、
    ユーザオーディオアップロードインターフェースに対するユーザの選択命令が検出された場合、アップロードされたユーザオーディオを取得するように構成される、
    ことを特徴とする請求項9に記載の歌のマルチメディアの合成装置。
  11. 前記音色素材取得モードは、ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リスト、及び共有音色リストのうちのいずれか1つまたは複数をさらに含み、履歴音色リストには、履歴期間内にアップロードまたは抽出されたユーザ音色が含まれ、前記共有音色リストには、履歴期間内に共有されたユーザ音色が含まれ、
    前記歌のマルチメディアの合成装置は、
    ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リスト、または共有音色リストに対するユーザの選択命令が検出された場合、アップロードまたは選択されたユーザ音色を取得するように構成される第2の取得モジュールをさらに含む、
    ことを特徴とする請求項10に記載の歌のマルチメディアの合成装置。
  12. 前記素材取得モードは、歌詞素材取得モードをさらに含み、
    前記歌詞素材取得モードは、歌詞アップロードインターフェース、指定された歌詞リスト、履歴歌詞リスト、及び共有歌詞リストのうちのいずれか1つまたは複数を含み、
    前記合成対象歌詞の取得方式は、前記歌詞アップロードインターフェース、前記指定された歌詞リスト、前記履歴歌詞リスト、または前記共有歌詞リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された歌詞を取得することである、
    ことを特徴とする請求項9に記載の歌のマルチメディアの合成装置。
  13. 前記素材取得モードは、曲譜素材取得モードをさらに含み、
    前記曲譜素材取得モードは、曲譜アップロードインターフェース、指定された曲譜リスト、履歴曲譜リスト、及び共有曲譜リストのうちのいずれか1つまたは複数を含み、
    前記合成対象曲譜の取得方式は、前記曲譜アップロードインターフェース、前記指定された曲譜リスト、前記履歴曲譜リスト、または前記共有曲譜リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された曲譜を取得することである、
    ことを特徴とする請求項9に記載の歌のマルチメディアの合成装置。
  14. 第3の取得モジュール及びトレーニングモジュールをさらに含み、
    前記第3の取得モジュールが、順次接続されている音色抽出モデル及び歌合成モデルを含む初期の合同モデルを取得するように構成され、
    前記第3の取得モジュールが、さらに、ユーザオーディオサンプル、歌詞サンプル、曲譜サンプル、及び対応する歌のマルチメディアサンプルを含むトレーニングデータを取得するように構成され、
    前記トレーニングモジュールが、前記トレーニングデータを使用して前記初期の合同モデルをトレーニングして、トレーニング済み合同モデルを取得するように構成され、
    前記第3の取得モジュールが、さらに、前記トレーニング済み合同モデル内の音色抽出モデル及び歌合成モデルを取得するように構成される、
    ことを特徴とする請求項9に記載の歌のマルチメディアの合成装置。
  15. 第4の取得モジュール及び第1の生成モジュールをさらに含み、
    前記第4の取得モジュールが、バックグラウンドミュージック及び/又はサウンドエフェクトを含む合成対象音楽リソースを取得するように構成され、
    前記第1の生成モジュールが、前記合成された歌のマルチメディアと、前記バックグラウンドミュージック及び/又はサウンドエフェクトとに基づいて、バックグラウンドミュージック及び/又はサウンドエフェクト付きの歌のマルチメディアを生成するように構成される、
    ことを特徴とする請求項9に記載の歌のマルチメディアの合成装置。
  16. 第5の取得モジュール及び第2の生成モジュールをさらに含み、
    前記第5の取得モジュールが、合成対象音楽リソース及びビデオリソースを取得するように構成され、
    前記第2の生成モジュールが、前記合成された歌のマルチメディア、前記音楽リソース及び前記ビデオリソースに基づいて、音楽リソース及びビデオリソース付きの歌のマルチメディアを生成するように構成される、
    ことを特徴とする請求項9に記載の歌のマルチメディアの合成装置。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1〜8のいずれかに記載の歌のマルチメディアの合成方法を実行できる、
    ことを特徴とする電子機器。
  18. コンピュータに請求項1〜8のいずれかに記載の歌のマルチメディアの合成方法を実行させるためのコンピュータ命令を記憶している、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  19. コンピュータに請求項1〜8のいずれかに記載の歌のマルチメディアの合成方法を実行させる、
    ことを特徴とするコンピュータプログラム。
JP2021130709A 2020-10-27 2021-08-10 歌のマルチメディアの合成方法、合成装置、電子機器及び記憶媒体 Active JP7138222B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011164612.6A CN112331234A (zh) 2020-10-27 2020-10-27 歌曲多媒体的合成方法、装置、电子设备及存储介质
CN202011164612.6 2020-10-27

Publications (2)

Publication Number Publication Date
JP2021182159A true JP2021182159A (ja) 2021-11-25
JP7138222B2 JP7138222B2 (ja) 2022-09-15

Family

ID=74296989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021130709A Active JP7138222B2 (ja) 2020-10-27 2021-08-10 歌のマルチメディアの合成方法、合成装置、電子機器及び記憶媒体

Country Status (3)

Country Link
US (1) US20210407479A1 (ja)
JP (1) JP7138222B2 (ja)
CN (1) CN112331234A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210407479A1 (en) * 2020-10-27 2021-12-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for song multimedia synthesis, electronic device and storage medium
DE112021006453T5 (de) 2020-12-17 2023-10-05 Kao Corporation Packungskörper und Verfahren zur Herstellung davon

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113178182A (zh) * 2021-04-25 2021-07-27 北京灵动音科技有限公司 信息处理方法、装置、电子设备及存储介质
CN116704978A (zh) * 2022-02-28 2023-09-05 北京字跳网络技术有限公司 音乐生成方法、装置、设备、存储介质及程序

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132281A (ja) * 2000-10-26 2002-05-09 Nippon Telegr & Teleph Corp <Ntt> 歌声メッセージ生成・配信方法及びその装置
JP2016161774A (ja) * 2015-03-02 2016-09-05 ヤマハ株式会社 楽曲生成装置
WO2017168870A1 (ja) * 2016-03-28 2017-10-05 ソニー株式会社 情報処理装置及び情報処理方法
JP2019219570A (ja) * 2018-06-21 2019-12-26 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP2020086113A (ja) * 2018-11-26 2020-06-04 株式会社第一興商 カラオケシステム、カラオケ装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2500471B (en) * 2010-07-20 2018-06-13 Aist System and method for singing synthesis capable of reflecting voice timbre changes
CN105740394B (zh) * 2016-01-27 2019-02-26 广州酷狗计算机科技有限公司 歌曲生成方法、终端及服务器
CN106898340B (zh) * 2017-03-30 2021-05-28 腾讯音乐娱乐(深圳)有限公司 一种歌曲的合成方法及终端
CN107863095A (zh) * 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
CN109949783B (zh) * 2019-01-18 2021-01-29 苏州思必驰信息科技有限公司 歌曲合成方法及***
CN112331234A (zh) * 2020-10-27 2021-02-05 北京百度网讯科技有限公司 歌曲多媒体的合成方法、装置、电子设备及存储介质
CN115995236A (zh) * 2021-10-18 2023-04-21 华为技术有限公司 音色提取、模型训练方法、装置、设备、介质及程序
CN115273806A (zh) * 2022-08-01 2022-11-01 腾讯科技(深圳)有限公司 歌曲合成模型的训练方法和装置、歌曲合成方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002132281A (ja) * 2000-10-26 2002-05-09 Nippon Telegr & Teleph Corp <Ntt> 歌声メッセージ生成・配信方法及びその装置
JP2016161774A (ja) * 2015-03-02 2016-09-05 ヤマハ株式会社 楽曲生成装置
WO2017168870A1 (ja) * 2016-03-28 2017-10-05 ソニー株式会社 情報処理装置及び情報処理方法
JP2019219570A (ja) * 2018-06-21 2019-12-26 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP2020086113A (ja) * 2018-11-26 2020-06-04 株式会社第一興商 カラオケシステム、カラオケ装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210407479A1 (en) * 2020-10-27 2021-12-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for song multimedia synthesis, electronic device and storage medium
DE112021006453T5 (de) 2020-12-17 2023-10-05 Kao Corporation Packungskörper und Verfahren zur Herstellung davon

Also Published As

Publication number Publication date
JP7138222B2 (ja) 2022-09-15
CN112331234A (zh) 2021-02-05
US20210407479A1 (en) 2021-12-30

Similar Documents

Publication Publication Date Title
US10262641B2 (en) Music composition and generation instruments and music learning systems employing automated music composition engines driven by graphical icon based musical experience descriptors
US10854180B2 (en) Method of and system for controlling the qualities of musical energy embodied in and expressed by digital music to be automatically composed and generated by an automated music composition and generation engine
JP7138222B2 (ja) 歌のマルチメディアの合成方法、合成装置、電子機器及び記憶媒体
EP3736806A1 (en) Audio synthesizing method, storage medium and computer equipment
EP2760014B1 (en) Interactive score curve for adjusting audio parameters of a user&#39;s recording.
US20200341718A1 (en) Control system for audio production
CN113407275A (zh) 音频编辑方法、装置、设备及可读存储介质
JP6986590B2 (ja) 音声スキル作成方法、音声スキル作成装置、電子機器及び記憶媒体
WO2020154422A2 (en) Methods of and systems for automated music composition and generation
US12046225B2 (en) Audio synthesizing method, storage medium and computer equipment
US11481185B1 (en) Method and system for tagging and navigating through performers and other information on time-synchronized content
Sammann Design and evaluation of a multi-user collaborative audio environment for musical experimentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210810

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220905

R150 Certificate of patent or registration of utility model

Ref document number: 7138222

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150