JP2021182159A

JP2021182159A - 歌のマルチメディアの合成方法、合成装置、電子機器及び記憶媒体

Info

Publication number: JP2021182159A
Application number: JP2021130709A
Authority: JP
Inventors: ウ，シュアン; Shuang Wu; リ，チョウ; Chao Li; ソン，チェンシ; Chenxi Sun
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-27
Filing date: 2021-08-10
Publication date: 2021-11-25
Anticipated expiration: 2041-08-10
Also published as: JP7138222B2; CN112331234A; US20210407479A1

Abstract

【課題】ユーザが様々な素材を提供する方式が拡張され、ユーザが自分の条件に基づいて音色素材を提供しやすくなり、ユーザが自分の音色付きの歌のマルチメディアを生成するために必要な操作が少なくなり、歌のマルチメディアの合成コストが削減され、歌のマルチメディアの合成効率が向上する、歌のマルチメディアの合成方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、歌のマルチメディア合成要求に応答して、素材取得モードを表示し、選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得し、ユーザオーディオを音色抽出モデルに入力して、音色抽出モデルから出力されたユーザ音色を取得し、選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、ユーザ音色、合成対象歌詞及び合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得する。【選択図】図１

Description

本出願は、コンピュータ技術の分野に関し、具体的には、音声技術、深層学習技術の分野に関し、特に、歌のマルチメディアの合成方法、合成装置、電子機器及記憶媒体に関する。

関連技術において、音楽合成方法は、主に、ユーザによって提供された話の素材を取得し、曲譜に合わせてユーザによって提供された話の素材に対して編集及び調子処理などを行って、そのユーザの歌唱効果を生成することである。

しかしながら、上記方法では、手動編集及び手動調子処理操作に１週間から半月などの多大な時間がかかる必要があり、編集時間が長く、コストが高く、編集によって得られた歌唱効果が悪い。

本開示は、歌のマルチメディアの合成方法、装置、電子機器及び記憶媒体を提供する。

本開示の一態様によれば、歌のマルチメディア合成要求に応答して、素材取得モードを表示するステップと、選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得するステップと、前記ユーザオーディオを音色抽出モデルに入力して、前記音色抽出モデルから出力されたユーザ音色を取得するステップと、選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、前記ユーザ音色、前記合成対象歌詞及び前記合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得するステップと、を含む歌のマルチメディアの合成方法が提供される。

本開示の別の態様によれば、歌のマルチメディア合成要求に応答して、素材取得モードを表示するように構成される表示モジュールと、選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得するように構成される第１の取得モジュールと、前記ユーザオーディオを音色抽出モデルに入力して、前記音色抽出モデルから出力されたユーザ音色を取得するように構成される音色抽出モジュールと、選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、前記ユーザ音色、前記合成対象歌詞及び前記合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得するように構成される合成モジュールと、を含む歌のマルチメディアの合成装置が提供される。

第３の態様によれば、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含む電子機器であって、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが上記の歌のマルチメディアの合成方法を実行できる電子機器が提供される。

第４の態様によれば、コンピュータに上記の歌のマルチメディアの合成方法を実行させるためのコンピュータ命令を記憶している非一時的なコンピュータ読み取り可能な記憶媒体が提供される。
第５の態様によれば、コンピュータに上記の歌のマルチメディアの合成方法を実行させるコンピュータプログラムが提供される。

なお、この概要部分に記載された内容は、本出願の実施例の肝心又は重要な特徴を特定することを意図したものではなく、また、本出願の範囲を限定することを意図したものでもないことを理解されたい。本出願のその他の特徴は、以下の明細書を通じて容易に理解される。

図面は、本技術案をより良く理解するために使用され、本出願を限定するものではない。
本出願の第１の実施例に係る歌のマルチメディアの合成方法のフローチャートである。本出願の第２の実施例に係る歌のマルチメディアの合成方法のフローチャートである。本出願の第３の実施例に係る歌のマルチメディアの合成方法のフローチャートである。本出願の第４の実施例に係る歌のマルチメディアの合成装置の概略ブロック図である。本出願の実施例に係る歌のマルチメディアの合成方法を実現するための電子機器のブロック図である。

以下、添付の図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするために、本出願の実施例の様々な詳細を含んでおり、それらは単に例示的なものとみなされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。また、明確及び簡潔のために、以下の説明では、周知の機能及び構成についての記載は省略する。

以下、図面を参照して本出願の実施例に係る歌のマルチメディアの合成方法、装置、電子機器及び記憶媒体を説明する。

図１は、本出願の第１の実施例に係る歌のマルチメディアの合成方法のフローチャートである。ここで、本出願の実施例の実行主体は、歌のマルチメディアの合成装置であり、歌のマルチメディアの合成装置は、具体的には、ハードウェアデバイス、またはハードウェアデバイス内のソフトウェアなどであってもよい。

図１に示すように、歌のマルチメディアの合成方法の具体的な実現プロセスは、以下のとおりである。

ステップ１０１において、歌のマルチメディア合成要求に応答して、素材取得モードを表示する。

本出願の実施例において、歌のマルチメディア合成要求のトリガー条件は、ユーザによる歌のマルチメディアの合成装置における予め設定されたボタンのクリック、予め設定されたコントロールのクリック、予め設定された領域のクリックなどであってもよく、実際の必要に応じて設定されてもよい。

本出願の実施例において、歌のマルチメディアを合成する素材は、音色素材、歌詞素材、曲譜素材、音楽リソース、及びビデオリソースのうちの少なくとも１つを含んでもよい。ここで、音楽リソースは、バックグラウンドミュージック及び／又はサウンドエフェクトを含む。ビデオリソースは、例えば、バックグラウンドビデオであってもよい。それに応じて、素材取得モードは、各素材の少なくとも１つの取得モードを含んでもよい。

ステップ１０２において、選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得する。

本出願の実施例において、素材取得モードは、音色素材取得モードを含んでもよく、音色素材取得モードは、ユーザオーディオ入力インターフェース、及び／又は、ユーザオーディオアップロードインターフェースを含んでもよい。それに応じて、歌のマルチメディアの合成装置がステップ１０２を実行するプロセスは、具体的には、以下のとおりである。ユーザオーディオ入力インターフェースに対するユーザの選択命令を検出した場合、ユーザオーディオを収集するようにオーディオ入力デバイスを制御し、または、ユーザオーディオアップロードインターフェースに対するユーザの選択命令を検出した場合、アップロードされたユーザオーディオを取得する。

本出願の実施例において、ユーザオーディオ入力インターフェース、及び／又は、ユーザオーディオアップロードインターフェースを設定することで、ユーザが必要に応じて既存のユーザオーディオをアップロードするか、または既存のユーザオーディオが存在しない場合、ユーザオーディオをオンラインで録音して提供することができ、これによって、ユーザが自分の条件に基づいて音色素材を提供しやすくなり、ユーザが音色素材を提供する方式が拡張され、ユーザが自分の音色付きの歌のマルチメディアを生成するために必要な操作が少なくなり、歌のマルチメディアの合成コストが削減され、歌のマルチメディアの合成効率が向上する。

本出願の実施例において、音色素材取得モードは、ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リスト、及び共有音色リストのうちのいずれか１つまたは複数をさらに含んでもよい。ここで、履歴音色リストは、履歴期間内にアップロードまたは抽出されたユーザ音色を含み、前記共有音色リストには、履歴期間内に共有されたユーザ音色が含まれる。それに応じて、歌のマルチメディアの合成装置は、音色素材を取得するために、ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リストまたは共有音色リストに対するユーザの選択命令が検出された場合、アップロードまたは選択されたユーザ音色を取得するプロセスを実行することもできる。

本出願の実施例において、ユーザがユーザ音色を持っている場合、ユーザ音色アップロードインターフェースを介してユーザ音色を直接アップロードしてもよく、または、ユーザは、指定された音色リスト、履歴音色リスト、及び共有音色リストから音色をユーザ音色として選択してもよい。ここで、指定された音色リストには歌のマルチメディアの合成装置によってデフォルトで提供される音色が保存されている。履歴音色リストは、履歴期間内にユーザによってアップロードまたは抽出されたユーザ音色を含んでもよい。共有音色リストは、履歴期間内に他のユーザによって共有されたユーザ音色を含んでもよい。ここで、履歴期間は、例えば、１週間、２週間などであってもよく、実際の必要に応じて設定されてもよい。

本出願の実施例において、様々な音色素材取得モードの提供により、ユーザによって提供可能または選択可能な音色素材がさらに拡張され、ユーザが自分の音色付きの歌のマルチメディアを生成するために必要な操作が少なくなり、歌のマルチメディアの合成コストが削減され、歌のマルチメディアの合成効率が向上する。

ステップ１０３において、ユーザオーディオを音色抽出モデルに入力して、音色抽出モデルから出力されたユーザ音色を取得する。

本出願の実施例において、音色抽出モデルの入力はユーザオーディオであり、出力はユーザオーディオのユーザ音色である。音色抽出モデルは、具体的には、ユーザオーディオに対して音色抽出を行うために、大量のサンプルオーディオ及び対応するサンプル音色に基づいてトレーニングすることによって得られるディープニューラルネットワークモデルであってもよい。

ステップ１０４において、選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、ユーザ音色、合成対象歌詞及び合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得する。

本出願の実施例において、素材取得モードは、歌詞素材取得モードをさらに含んでもよい。歌詞素材取得モードは、歌詞アップロードインターフェース、指定された歌詞リスト、履歴歌詞リスト、及び共有歌詞リストのうちのいずれか１つまたは複数を含んでもよい。ここで、指定された歌詞リストには、歌のマルチメディアの合成装置によってデフォルトで提供された歌詞が保存されてもよい。履歴歌詞リストには、履歴期間内に各ユーザによってアップロードされた歌詞が含まれてもよい。共有歌詞リストには、履歴期間内に他のユーザによって共有された歌詞が含まれてもよい。ここで、履歴期間は、例えば、１週間、２週間などであってもよく、実際の必要に応じて設定されてもよい。

本出願の実施例において、合成対象歌詞の取得方式は、歌詞アップロードインターフェース、指定された歌詞リスト、履歴歌詞リスト、または共有歌詞リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された歌詞を取得することである。

本出願の実施例において、様々な歌詞素材取得モードの提供により、ユーザによって提供可能または選択可能な歌詞素材がさらに拡張され、ユーザが歌詞素材を提供するために必要な操作が少なくなり、ユーザが自分の音色付きの歌のマルチメディアを生成するために必要な操作が少なくなり、歌のマルチメディアの合成コストが削減され、歌のマルチメディアの合成効率が向上する。

本出願の実施例において、素材取得モードは、曲譜素材取得モードをさらに含んでもよい。曲譜素材取得モードは、曲譜アップロードインターフェース、指定された曲譜リスト、履歴曲譜リスト、及び共有曲譜リストのうちのいずれか１つまたは複数を含む。ここで、指定された曲譜リストには、歌のマルチメディアの合成装置によってデフォルトで提供された曲譜が保存されてもよい。履歴曲譜リストには、履歴期間内に各ユーザによってアップロードされた曲譜が含まれてもよい。共有歌詞リストには、履歴期間内に他のユーザによって共有された曲譜が含まれてもよい。ここで、履歴期間は、例えば、１週間、２週間などであってもよく、実際の必要に応じて設定されてもよい。

本出願の実施例において、合成対象曲譜の取得方式は、曲譜アップロードインターフェース、指定された曲譜リスト、履歴曲譜リスト、または共有曲譜リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された曲譜を取得することである。

本出願の実施例において、様々な曲譜素材取得モードの提供により、ユーザによって提供可能または選択可能な歌詞素材がさらに拡張され、ユーザが歌詞素材を提供するために必要な操作が少なくなり、ユーザが自分の音色付きの歌のマルチメディアを生成するために必要な操作が少なくなり、歌のマルチメディアの合成コストが削減され、歌のマルチメディアの合成効率が向上する。

要約すると、歌のマルチメディア合成要求に応答して、素材取得モードを表示し、選択した素材取得モードでユーザから提供されたユーザオーディオを取得し、ユーザオーディオを音色抽出モデルに入力して、音色抽出モデルから出力されたユーザ音色を取得し、選択した素材取得モードでユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、ユーザ音色、合成対象歌詞及び合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得することにより、ユーザが様々な素材を提供する方式が拡張され、ユーザが自分の条件に基づいて音色素材を提供しやすくなり、ユーザが自分の音色付きの歌のマルチメディアを生成するために必要な操作が少なくなり、歌のマルチメディアの合成コストが削減され、歌のマルチメディアの合成効率が向上する。

音色抽出モデルと歌合成モデルの精度を向上させるために、歌のマルチメディアの合成装置は、音色抽出モデルと歌合成モデルに対して合同トレーニングを行うことができる。図２に示すように、図２は、本出願の第２の実施例に係る歌のマルチメディアの合成方法のフローチャートである。図１に示す実施例のもとで、前記方法は、以下のステップ２０１〜２０４をさらに含むことができる。

ステップ２０１において、順次接続されている音色抽出モデル及び歌合成モデルを含む初期の合同モデルを取得する。

本出願の実施例において、音色抽出モデルの入力はオーディオであり、出力はオーディオの音色である。歌合成モデルの入力は音色、歌詞及び曲譜であり、出力は合成された歌のマルチメディアである。

ステップ２０２において、ユーザオーディオサンプル、歌詞サンプル、曲譜サンプル、及び対応する歌のマルチメディアサンプルを含むトレーニングデータを取得する。

本出願の実施例において、インターネット上に、大量の歌手の歌のマルチメディア、歌のマルチメディアの歌詞、曲譜、及び歌のマルチメディアに対応する歌手の他のオーディオが存在し、したがって、歌のマルチメディアの合成装置は、大量の歌手のオーディオサンプル、歌詞サンプル、曲譜サンプル及び対応する歌のマルチメディアサンプルをトレーニングデータとして取得して、初期の合同モデルをトレーニングすることができる。ここで、歌のマルチメディアサンプルは、アカペラの歌オーディオサンプル、バックグラウンドミュージック付きの歌オーディオサンプル、またはバックグラウンドビデオ付きの歌ビデオサンプルなどであってもよく、実際の必要に応じて設定されてもよい。

本出願の実施例において、歌のマルチメディアの合成装置は、少数の一般ユーザのオーディオサンプル、歌詞サンプル、曲譜サンプル及び対応する歌のマルチメディアサンプルを取得してトレーニングデータに追加してもよい。

ステップ２０３において、トレーニングデータを使用して初期の合同モデルをトレーニングして、トレーニング済み合同モデルを取得する。

ステップ２０４において、トレーニング済み合同モデル内の音色抽出モデル及び歌合成モデルを取得する。

要約すると、順次接続されている音色抽出モデル及び歌合成モデルを含む初期の合同モデルを取得し、ユーザオーディオサンプル、歌詞サンプル、曲譜サンプル、及び対応する歌のマルチメディアサンプルを含むトレーニングデータを取得し、トレーニングデータを使用して初期の合同モデルをトレーニングして、トレーニング済み合同モデルを取得し、トレーニング済み合同モデル内の音色抽出モデル及び歌合成モデルを取得することで、音色抽出モデル及び歌合成モデルの合同トレーニングによって、音色抽出モデル及び歌合成モデルの精度を向上させ、さらに合成によって得られた歌のマルチメディアの精度を向上させる。

合成によって得られた歌のマルチメディアの効果を向上させるために、合成によって得られた歌のマルチメディアに音楽リソースなどを追加することができる。図３に示すように、図３は本出願の第３の実施例に係る歌のマルチメディアの合成方法のフローチャートである。前記方法は、以下のステップ３０１〜３０６をさらに含むことができる。

ステップ３０１において、歌のマルチメディア合成要求に応答して、素材取得モードを表示する。

ステップ３０２において、選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得する。

ステップ３０３において、ユーザオーディオを音色抽出モデルに入力して、音色抽出モデルから出力されたユーザ音色を取得する。

ステップ３０４において、選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、ユーザ音色、合成対象歌詞及び合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得する。

ステップ３０５において、バックグラウンドミュージック及び／又はサウンドエフェクトを含む合成対象音楽リソースを取得する。

本出願の実施例において、バックグラウンドミュージックは、合成対象曲譜にマッチングするバックグラウンドミュージックであってもよいし、または、合成対象曲譜のリズムにマッチングするバックグラウンドミュージックであってもよい。

ステップ３０６において、合成された歌のマルチメディアと、バックグラウンドミュージック及び／又はサウンドエフェクトとに基づいて、バックグラウンドミュージック及び／又はサウンドエフェクト付きの歌のマルチメディアを生成する。

本出願の実施例において、サウンドエフェクトは、例えば、拍手、鳥の鳴き声、リングトーンなどであってもよい。本出願の実施例において、歌のマルチメディアの合成装置がバックグラウンドミュージック及び／又はサウンドエフェクト付きの歌のマルチメディアを生成するプロセスは、具体的には、合成された歌のマルチメディアのリズムを取得し、バックグラウンドミュージックのリズム及び／又はサウンドエフェクトのリズムを取得し、合成された歌のマルチメディアのリズムを、バックグラウンドミュージックのリズム及び／又はサウンドエフェクトのリズムとペア処理して、合成された歌のマルチメディアにおけるバックグラウンドミュージック及び／又はサウンドエフェクトの各音の位置を決定し、さらに合成された歌のマルチメディアにおけるバックグラウンドミュージック及び／又はサウンドエフェクトの各音の位置に基づいて、合成された歌のマルチメディアと、バックグラウンドミュージック及び／又はサウンドエフェクトとを合成処理して、バックグラウンドミュージック及び／又はサウンドエフェクト付きの歌のマルチメディアを取得することであってもよい。

本出願の実施例において、歌のマルチメディアの合成装置は、歌のマルチメディアにビデオリソースを追加することもできる。したがって、図３に示す実施例に基づいて、前記方法は、合成対象ビデオリソースを取得するステップをさらに含むことができる。それに応じて、ステップ３０６では、具体的には、合成された歌のマルチメディア、音楽リソース及びビデオリソースに基づいて、音楽リソース及びビデオリソース付きの歌のマルチメディアを生成する。

本出願の実施例において、合成された歌のマルチメディアは、再生、ダウンロード、配布、共有、及び二次制作などに使用することができ、実際の必要に応じて歌のマルチメディアの操作を選択することができる。

要約すると、バックグラウンドミュージック及び／又はサウンドエフェクトを含む合成対象音楽リソースを取得し、合成された歌のマルチメディアと、バックグラウンドミュージック及び／又はサウンドエフェクトとに基づいて、バックグラウンドミュージック及び／又はサウンドエフェクト付きの歌のマルチメディアを生成することにより、歌のマルチメディアにバックグラウンドミュージック及び／又はサウンドエフェクトなどの音楽リソースを追加して、歌のマルチメディアの豊富さを高めることができる。

上記実施例を実現するために、本出願の実施例は、歌のマルチメディアの合成装置をさらに提出する。

図４は本出願の第４の実施例に係る歌のマルチメディアの合成装置概略ブロック図である。図４に示すように、当該歌のマルチメディアの合成装置４００は、表示モジュール４１０と、第１の取得モジュール４２０と、音色抽出モジュール４３０と、合成モジュール４４０と、を含む。

ここで、前記表示モジュール４１０は、歌のマルチメディア合成要求に応答して、素材取得モードを表示するように構成される。前記第１の取得モジュール４２０は、選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得するように構成される。前記音色抽出モジュール４３０は、前記ユーザオーディオを音色抽出モデルに入力して、前記音色抽出モデルから出力されたユーザ音色を取得するように構成される。前記合成モジュール４４０は、選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、前記ユーザ音色、前記合成対象歌詞及び前記合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得するように構成される。

本出願の実施例の可能な一実現形態として、前記素材取得モードは、音色素材取得モードを含み、前記音色素材取得モードは、ユーザオーディオ入力インターフェース、及び／又は、ユーザオーディオアップロードインターフェースを含み、前記第１の取得モジュール４２０は、ユーザオーディオ入力インターフェースに対するユーザの選択命令が検出された場合、ユーザオーディオを収集するようにオーディオ入力デバイスを制御し、または、ユーザオーディオアップロードインターフェースに対するユーザの選択命令が検出された場合、アップロードされたユーザオーディオを取得するように構成される。

本出願の実施例の可能な一実現形態として、前記音色素材取得モードは、ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リスト、及び共有音色リストのうちのいずれか１つまたは複数をさらに含み、ここで、履歴音色リストは、履歴期間内にアップロードまたは抽出されたユーザ音色を含み、前記共有音色リストには、履歴期間内に共有されたユーザ音色が含まれ、前記歌のマルチメディアの合成装置は、ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リスト、または共有音色リストに対するユーザの選択命令が検出された場合、アップロードまたは選択されたユーザ音色を取得するように構成される第２の取得モジュールをさらに含む。

本出願の実施例の可能な一実現形態として、前記素材取得モードは、歌詞素材取得モードをさらに含み、前記歌詞素材取得モードは、歌詞アップロードインターフェース、指定された歌詞リスト、履歴歌詞リスト、及び共有歌詞リストのうちのいずれか１つまたは複数を含み、前記合成対象歌詞の取得方式は、前記歌詞アップロードインターフェース、前記指定された歌詞リスト、前記履歴歌詞リスト、または前記共有歌詞リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された歌詞を取得することである。

本出願の実施例の可能な一実現形態として、前記素材取得モードは、曲譜素材取得モードをさらに含み、前記曲譜素材取得モードは、曲譜アップロードインターフェース、指定された曲譜リスト、履歴曲譜リスト、及び共有曲譜リストのうちのいずれか１つまたは複数を含み、前記合成対象曲譜の取得方式は、前記曲譜アップロードインターフェース、前記指定された曲譜リスト、前記履歴曲譜リスト、または前記共有曲譜リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された曲譜を取得することである。

本出願の実施例の可能な一実現形態として、前記歌のマルチメディアの合成装置は、第３の取得モジュール及びトレーニングモジュールをさらに含み、前記第３の取得モジュールは、順次接続されている音色抽出モデル及び歌合成モデルを含む初期の合同モデルを取得するように構成され、前記第３の取得モジュールは、さらに、ユーザオーディオサンプル、歌詞サンプル、曲譜サンプル、及び対応する歌のマルチメディアサンプルを含むトレーニングデータを取得するように構成され、前記トレーニングモジュールは、前記トレーニングデータを使用して前記初期の合同モデルをトレーニングして、トレーニング済み合同モデルを取得するように構成され、前記第３の取得モジュールは、さらに、前記トレーニング済み合同モデル内の音色抽出モデル及び歌合成モデルを取得するように構成される。

本出願の実施例の可能な一実現形態として、前記歌のマルチメディアの合成装置は、第４の取得モジュール及び第１の生成モジュールをさらに含み、前記第４の取得モジュールは、バックグラウンドミュージック及び／又はサウンドエフェクトを含む合成対象音楽リソースを取得するように構成され、前記第１の生成モジュールは、前記合成された歌のマルチメディアと、前記バックグラウンドミュージック及び／又はサウンドエフェクトとに基づいて、バックグラウンドミュージック及び／又はサウンドエフェクト付きの歌のマルチメディアを生成するように構成される。

本出願の実施例の可能な一実現形態として、前記歌のマルチメディアの合成装置は、第５の取得モジュール及び第２の生成モジュールをさらに含み、前記第５の取得モジュールは、合成対象音楽リソース及びビデオリソースを取得するように構成され、前記第２の生成モジュールは、前記合成された歌のマルチメディア、前記音楽リソース及び前記ビデオリソースに基づいて、音楽リソース及びビデオリソース付きの歌のマルチメディアを生成するように構成される。

本出願の実施例に係る歌のマルチメディアの合成装置は、歌のマルチメディア合成要求に応答して、素材取得モードを表示し、選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得し、ユーザオーディオを音色抽出モデルに入力して、音色抽出モデルから出力されたユーザ音色を取得し、選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、ユーザ音色、合成対象歌詞及び合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得することにより、ユーザが様々な素材を提供する方式が拡張され、ユーザが自分の条件に基づいて音色素材を提供しやすくなり、ユーザが自分の音色付きの歌のマルチメディアを生成するために必要な操作が少なくなり、歌のマルチメディアの合成コストが削減されし、歌のマルチメディアの合成効率が向上する。

本出願の実施例によれば、本出願は、電子機器、及び読み取り可能な記憶媒体をさらに提供する。

図５に示すように、それは本出願の実施例に係る歌のマルチメディアの合成方法を実現するための電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器は、さらに、例えば、携帯情報端末、携帯電話、スマートフォン、ウェアラブル機器、及び他の同様のコンピューティング装置などの様々な形態のモバイル装置を表すことができる。本明細書に示されるコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記述及び／又は要求される本出願の実現を限定することを意図しない。

図５に示すように、この電子機器は、１つ又は複数のプロセッサ５０１と、メモリ５０２と、高速インタフェースと低速インタフェースとを含む、各コンポーネントを接続するためのインタフェースとを含む。各コンポーネントは、異なるバスで接続され、共通のマザーボードに実装されてもよいし、又は必要に応じて他の方式で実装されてもよい。プロセッサは、電子機器内で実行される命令を処理することができ、前記命令は外部入力／出力装置（例えば、インタフェースに結合されたディスプレイ機器）にＧＵＩのグラフィック情報を表示させるようにメモリ内又はメモリ上に記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを複数のメモリと共に使用することができる。同様に、それぞれが必要な動作の一部（例えば、サーバアレイ、ブレードサーバ群、又はマルチプロセッサシステムとする）を提供する複数の電子機器を接続することができる。図５では、１つのプロセッサ５０１を例にする。

メモリ５０２は、本出願にて提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも１つのプロセッサが本出願にて提供される歌のマルチメディアの合成方法を実行するように、少なくとも１つのプロセッサによって実行可能な命令が記憶され本出願る。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、本出願にて提供される歌のマルチメディアの合成方法をコンピュータに実行させるためのコンピュータ命令が記憶されている。

メモリ５０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、例えば、本出願の実施例における歌のマルチメディアの合成方法に対応するプログラム命令／モジュール（例えば、図４に示す表示モジュール４１０、第１の取得モジュール４２０、音色抽出モジュール４３０、及び合成モジュール４４０）のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ５０１は、メモリ５０２に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法の実施例における歌のマルチメディアの合成方法を実現する。

メモリ５０２は、プログラム記憶領域とデータ記憶領域とを含むことができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、歌のマルチメディアの合成方法を実現するための電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ５０２は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的な固体記憶デバイスである。いくつかの実施例では、メモリ５０２は、プロセッサ５０１に対して遠隔に配置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して歌のマルチメディアの合成方法を実現するための電子機器に接続することができる。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク、及びそれらの組み合わせを含むが、これらに限定されない。

歌のマルチメディアの合成方法を実現するためのの電子機器は、入力装置５０３と出力装置５０４とをさらに含むことができる。プロセッサ５０１、メモリ５０２、入力装置５０３、及び出力装置５０４は、バス又は他の方式で接続することができ、図５では、バスによる接続を例にする。

入力装置５０３は、入力された数字又は文字情報を受信し、歌のマルチメディアの合成方法を実現するため電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又はそれ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置５０４は、表示機器、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。この表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含み取得するが、これらに限定されない。いくつかの実施形態では、表示機器はタッチパネルであってもよい。

本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施され、この１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈することができ、このプログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令をこの記憶システム、この少なくとも１つの入力装置、及びこの少なくとも１つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語で実施される。本明細書で使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、このキーボード及びこのポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力、音声入力、又は触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、このグラフィカルユーザインタフェース又はこのウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般的に、互いに離れ、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント−サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。

なお、上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることが理解されるであろう。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

歌のマルチメディアの合成方法であって、
歌のマルチメディア合成要求に応答して、素材取得モードを表示するステップと、
選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得するステップと、
前記ユーザオーディオを音色抽出モデルに入力して、前記音色抽出モデルから出力されたユーザ音色を取得するステップと、
選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、前記ユーザ音色、前記合成対象歌詞及び前記合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得するステップと、を含む、
ことを特徴とする歌のマルチメディアの合成方法。
前記素材取得モードは、音色素材取得モードを含み、前記音色素材取得モードは、ユーザオーディオ入力インターフェース、及び／又は、ユーザオーディオアップロードインターフェースを含み、
選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得するステップは、
ユーザオーディオ入力インターフェースに対するユーザの選択命令が検出された場合、ユーザオーディオを収集するようにオーディオ入力デバイスを制御するステップ、または、
ユーザオーディオアップロードインターフェースに対するユーザの選択命令が検出された場合、アップロードされたユーザオーディオを取得するステップを含む、
ことを特徴とする請求項１に記載の歌のマルチメディアの合成方法。
前記音色素材取得モードは、ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リスト、及び共有音色リストのうちのいずれか１つまたは複数をさらに含み、履歴音色リストには、履歴期間内にアップロードまたは抽出されたユーザ音色が含まれ、前記共有音色リストには、履歴期間内に共有されたユーザ音色が含まれ、
前記歌のマルチメディアの合成方法は、
ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リスト、または共有音色リストに対するユーザの選択命令が検出された場合、アップロードまたは選択されたユーザ音色を取得するステップをさらに含む、
ことを特徴とする請求項２に記載の歌のマルチメディアの合成方法。
前記素材取得モードは、歌詞素材取得モードをさらに含み、
前記歌詞素材取得モードは、歌詞アップロードインターフェース、指定された歌詞リスト、履歴歌詞リスト、及び共有歌詞リストのうちのいずれか１つまたは複数を含み、
前記合成対象歌詞の取得方式は、前記歌詞アップロードインターフェース、前記指定された歌詞リスト、前記履歴歌詞リスト、または前記共有歌詞リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された歌詞を取得することである、
ことを特徴とする請求項１に記載の歌のマルチメディアの合成方法。
前記素材取得モードは、曲譜素材取得モードをさらに含み、
前記曲譜素材取得モードは、曲譜アップロードインターフェース、指定された曲譜リスト、履歴曲譜リスト、及び共有曲譜リストのうちのいずれか１つまたは複数を含み、
前記合成対象曲譜の取得方式は、前記曲譜アップロードインターフェース、前記指定された曲譜リスト、前記履歴曲譜リスト、または前記共有曲譜リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された曲譜を取得することである、
ことを特徴とする請求項１に記載の歌のマルチメディアの合成方法。
前記ユーザオーディオを音色抽出モデルに入力して、前記音色抽出モデルから出力されたユーザ音色を取得するステップの前に、
順次接続されている音色抽出モデル及び歌合成モデルを含む初期の合同モデルを取得するステップと、
ユーザオーディオサンプル、歌詞サンプル、曲譜サンプル、及び対応する歌のマルチメディアサンプルを含むトレーニングデータを取得するステップと、
前記トレーニングデータを使用して前記初期の合同モデルをトレーニングして、トレーニング済み合同モデルを取得するステップと、
前記トレーニング済み合同モデル内の音色抽出モデル及び歌合成モデルを取得するステップと、をさらに含む、
ことを特徴とする請求項１に記載の歌のマルチメディアの合成方法。
バックグラウンドミュージック及び／又はサウンドエフェクトを含む合成対象音楽リソースを取得するステップと、
前記合成された歌のマルチメディアと、前記バックグラウンドミュージック及び／又はサウンドエフェクトとに基づいて、バックグラウンドミュージック及び／又はサウンドエフェクト付きの歌のマルチメディアを生成するステップと、をさらに含む、
ことを特徴とする請求項１に記載の歌のマルチメディアの合成方法。
合成対象音楽リソース及びビデオリソースを取得するステップと、
前記合成された歌のマルチメディア、前記音楽リソース及び前記ビデオリソースに基づいて、音楽リソース及びビデオリソース付きの歌のマルチメディアを生成するステップと、をさらに含む、
ことを特徴とする請求項１に記載の歌のマルチメディアの合成方法。
歌のマルチメディアの合成装置であって、
歌のマルチメディア合成要求に応答して、素材取得モードを表示するように構成される表示モジュールと、
選択した素材取得モードを介してユーザから提供されたユーザオーディオを取得するように構成される第１の取得モジュールと、
前記ユーザオーディオを音色抽出モデルに入力して、前記音色抽出モデルから出力されたユーザ音色を取得するように構成される音色抽出モジュールと、
選択した素材取得モードを介してユーザから提供された合成対象歌詞及び合成対象曲譜を取得し、前記ユーザ音色、前記合成対象歌詞及び前記合成対象曲譜を歌合成モデルに入力して、合成された歌のマルチメディアを取得するように構成される合成モジュールと、を含む、
ことを特徴とする歌のマルチメディアの合成装置。
前記素材取得モードは、音色素材取得モードを含み、前記音色素材取得モードは、ユーザオーディオ入力インターフェース、及び／又は、ユーザオーディオアップロードインターフェースを含み、
前記第１の取得モジュールは、具体的には、ユーザオーディオ入力インターフェースに対するユーザの選択命令が検出された場合、ユーザオーディオを収集するようにオーディオ入力デバイスを制御し、または、
ユーザオーディオアップロードインターフェースに対するユーザの選択命令が検出された場合、アップロードされたユーザオーディオを取得するように構成される、
ことを特徴とする請求項９に記載の歌のマルチメディアの合成装置。
前記音色素材取得モードは、ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リスト、及び共有音色リストのうちのいずれか１つまたは複数をさらに含み、履歴音色リストには、履歴期間内にアップロードまたは抽出されたユーザ音色が含まれ、前記共有音色リストには、履歴期間内に共有されたユーザ音色が含まれ、
前記歌のマルチメディアの合成装置は、
ユーザ音色アップロードインターフェース、指定された音色リスト、履歴音色リスト、または共有音色リストに対するユーザの選択命令が検出された場合、アップロードまたは選択されたユーザ音色を取得するように構成される第２の取得モジュールをさらに含む、
ことを特徴とする請求項１０に記載の歌のマルチメディアの合成装置。
前記素材取得モードは、歌詞素材取得モードをさらに含み、
前記歌詞素材取得モードは、歌詞アップロードインターフェース、指定された歌詞リスト、履歴歌詞リスト、及び共有歌詞リストのうちのいずれか１つまたは複数を含み、
前記合成対象歌詞の取得方式は、前記歌詞アップロードインターフェース、前記指定された歌詞リスト、前記履歴歌詞リスト、または前記共有歌詞リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された歌詞を取得することである、
ことを特徴とする請求項９に記載の歌のマルチメディアの合成装置。
前記素材取得モードは、曲譜素材取得モードをさらに含み、
前記曲譜素材取得モードは、曲譜アップロードインターフェース、指定された曲譜リスト、履歴曲譜リスト、及び共有曲譜リストのうちのいずれか１つまたは複数を含み、
前記合成対象曲譜の取得方式は、前記曲譜アップロードインターフェース、前記指定された曲譜リスト、前記履歴曲譜リスト、または前記共有曲譜リストに対するユーザの選択命令が検出された場合、ユーザによってアップロードまたは選択された曲譜を取得することである、
ことを特徴とする請求項９に記載の歌のマルチメディアの合成装置。
第３の取得モジュール及びトレーニングモジュールをさらに含み、
前記第３の取得モジュールが、順次接続されている音色抽出モデル及び歌合成モデルを含む初期の合同モデルを取得するように構成され、
前記第３の取得モジュールが、さらに、ユーザオーディオサンプル、歌詞サンプル、曲譜サンプル、及び対応する歌のマルチメディアサンプルを含むトレーニングデータを取得するように構成され、
前記トレーニングモジュールが、前記トレーニングデータを使用して前記初期の合同モデルをトレーニングして、トレーニング済み合同モデルを取得するように構成され、
前記第３の取得モジュールが、さらに、前記トレーニング済み合同モデル内の音色抽出モデル及び歌合成モデルを取得するように構成される、
ことを特徴とする請求項９に記載の歌のマルチメディアの合成装置。
第４の取得モジュール及び第１の生成モジュールをさらに含み、
前記第４の取得モジュールが、バックグラウンドミュージック及び／又はサウンドエフェクトを含む合成対象音楽リソースを取得するように構成され、
前記第１の生成モジュールが、前記合成された歌のマルチメディアと、前記バックグラウンドミュージック及び／又はサウンドエフェクトとに基づいて、バックグラウンドミュージック及び／又はサウンドエフェクト付きの歌のマルチメディアを生成するように構成される、
ことを特徴とする請求項９に記載の歌のマルチメディアの合成装置。
第５の取得モジュール及び第２の生成モジュールをさらに含み、
前記第５の取得モジュールが、合成対象音楽リソース及びビデオリソースを取得するように構成され、
前記第２の生成モジュールが、前記合成された歌のマルチメディア、前記音楽リソース及び前記ビデオリソースに基づいて、音楽リソース及びビデオリソース付きの歌のマルチメディアを生成するように構成される、
ことを特徴とする請求項９に記載の歌のマルチメディアの合成装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが請求項１〜８のいずれかに記載の歌のマルチメディアの合成方法を実行できる、
ことを特徴とする電子機器。
コンピュータに請求項１〜８のいずれかに記載の歌のマルチメディアの合成方法を実行させるためのコンピュータ命令を記憶している、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータに請求項１〜８のいずれかに記載の歌のマルチメディアの合成方法を実行させる、
ことを特徴とするコンピュータプログラム。