CN116959393B - 音乐生成模型的训练数据生成方法、装置、设备及介质 - Google Patents

音乐生成模型的训练数据生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN116959393B
CN116959393B CN202311198418.3A CN202311198418A CN116959393B CN 116959393 B CN116959393 B CN 116959393B CN 202311198418 A CN202311198418 A CN 202311198418A CN 116959393 B CN116959393 B CN 116959393B
Authority
CN
China
Prior art keywords
audio data
music
model
information
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311198418.3A
Other languages
English (en)
Other versions
CN116959393A (zh
Inventor
邱耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311198418.3A priority Critical patent/CN116959393B/zh
Publication of CN116959393A publication Critical patent/CN116959393A/zh
Application granted granted Critical
Publication of CN116959393B publication Critical patent/CN116959393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种音乐生成模型的训练数据生成方法、装置、设备及介质,获取第一样本音乐的第一音频数据和预先设定的生成指令信息,通过音乐理解模型对第一音频数据进行分析处理,得到表征第一音频数据在至少两个不同维度上的预测类别信息的第一预测结果,然后将第一预测结果和生成指令信息输入到目标语言模型中,通过目标语言模型来生成第一音频数据对应的第一描述信息,通过第一音频数据和第一描述信息作为训练数据集训练音乐生成模型。本申请能够高效、低成本地构造用于训练音乐生成模型的训练数据,便于训练得到准确度较高的音乐生成模型,有利于提高目标对象的音乐聆听体验。本申请的技术方案可广泛应用于音频处理技术领域。

Description

音乐生成模型的训练数据生成方法、装置、设备及介质
技术领域
本申请涉及音频处理技术领域,特别是涉及一种音乐生成模型的训练数据生成方法、装置、设备及介质。
背景技术
当前,随着信息技术和人工智能技术的高速发展,相关的应用已经逐步融入到人们的生活中,为人们提供了各式各样的服务。例如,在音频处理技术领域内,存在有Text-2-Music(文本到音乐)的应用,该应用能够使用音乐生成模型,根据目标对象的描述信息生成一段音频数据,可以有效提高目标对象的音乐聆听体验。
相关技术中,为了使得生成的音频数据尽可能满足目标对象的需求,需要对音乐生成模型进行训练。训练音乐生成模型时需要使用到描述信息,一般情况下,往往收集现有音乐对应的评论信息来作为描述信息。但是,在实际应用中发现,使用评论信息作为音乐的描述信息存在有噪声偏大的情况,比如说一些音乐的评论信息往往和音乐本身无关,属于闲聊语料,导致训练得到的音乐生成模型应用效果较差;而如果由人工筛选或者编辑描述信息,又会增加收集训练数据的耗时和人力负担,实现成本较高。
综上,相关技术中存在的技术问题有待得到改善。
发明内容
本申请实施例提供了一种音乐生成模型的训练数据生成方法、装置、设备及介质,能够高效、低成本地构造用于训练音乐生成模型的训练数据,便于训练得到准确度较高的音乐生成模型,有利于提高目标对象的音乐聆听体验。
本申请实施例的一方面提供了一种音乐生成模型的训练数据生成方法,所述方法包括:
获取第一样本音乐的第一音频数据和预先设定的生成指令信息;所述生成指令信息用于指示目标语言模型生成针对所述第一音频数据的第一描述信息;
通过音乐理解模型对所述第一音频数据进行分析处理,得到所述第一音频数据对应的第一预测结果;其中,所述第一预测结果用于表征所述第一音频数据在至少两个不同维度上的预测类别信息;
将所述第一预测结果和所述生成指令信息输入到所述目标语言模型中,通过所述目标语言模型生成所述第一音频数据对应的第一描述信息;
根据各个所述第一音频数据以及所述第一音频数据对应的第一描述信息,构造得到用于训练音乐生成模型的第一训练数据集。
另一方面,本申请实施例提供了一种音乐生成模型的训练方法,所述方法包括:
获取通过前述的音乐生成模型的训练数据生成方法处理得到的第一训练数据集;所述第一训练数据集包括多个第一音频数据以及所述第一音频数据对应的第一描述信息;
将所述第一描述信息输入到待优化的音乐生成模型中,通过所述待优化的音乐生成模型预测生成第三音频数据;
根据所述第一音频数据和所述第三音频数据,确定预测的第二损失值;
根据所述第二损失值,对所述待优化的音乐生成模型进行参数更新,得到训练好的音乐生成模型。
另一方面,本申请实施例提供了一种音乐生成方法,所述方法包括:
获取目标对象输入的第二描述信息;
将所述第二描述信息输入到通过前述的音乐生成模型的训练方法训练得到的音乐生成模型中,通过所述音乐生成模型预测生成第四音频数据;
将所述第四音频数据反馈给所述目标对象。
另一方面,本申请实施例提供了一种音乐生成模型的训练数据生成装置,所述装置包括:
获取单元,用于获取第一样本音乐的第一音频数据和预先设定的生成指令信息;所述生成指令信息用于指示目标语言模型生成针对所述第一音频数据的第一描述信息;
处理单元,用于通过音乐理解模型对所述第一音频数据进行分析处理,得到所述第一音频数据对应的第一预测结果;其中,所述第一预测结果用于表征所述第一音频数据在至少两个不同维度上的预测类别信息;
生成单元,用于将所述第一预测结果和所述生成指令信息输入到所述目标语言模型中,通过所述目标语言模型生成所述第一音频数据对应的第一描述信息;
构造单元,用于根据各个所述第一音频数据以及所述第一音频数据对应的第一描述信息,构造得到用于训练音乐生成模型的第一训练数据集。
可选地,所述装置还包括筛选单元,所述筛选单元具体用于:
检测所述第一音频数据中是否包含人声成分,若所述第一音频数据中包含人声成分,删除所述第一音频数据;
或者,对所述第一音频数据进行音质检测,得到所述第一音频数据对应的音质评分,将所述音质评分和预设的评分阈值进行比较,若所述音质评分小于或者等于所述评分阈值,删除所述音质评分对应的第一音频数据。
可选地,所述筛选单元具体用于:
对所述第一音频数据进行音质检测,得到所述第一音频数据对应的采样率数据和噪声含量数据;
根据所述采样率数据和所述噪声含量数据,得到所述第一音频数据对应的音质评分;
其中,所述第一音频数据对应的音质评分和所述采样率数据正相关,所述第一音频数据对应的音质评分和所述噪声含量数据负相关。
可选地,所述装置还包括截断单元,所述截断单元具体用于:
检测所述第一音频数据的播放时长;
将所述播放时长和预设的时长阈值进行比较;
若所述播放时长大于或者等于所述时长阈值,对所述第一音频数据进行截断处理,得到至少两个新的第一音频数据。
可选地,所述装置还包括训练单元,所述训练单元具体用于:
获取第二训练数据集;所述第二训练数据集包括批量的第二样本音乐的第二音频数据和各个所述第二音频数据对应的第一标签信息;其中,所述第一标签信息用于表征所述第二音频数据在至少两个不同维度上的真实类别信息;
提取所述第二音频数据的第一特征信息;
将所述第一特征信息输入到待优化的音乐理解模型中,通过所述待优化的音乐理解模型预测得到所述第二音频数据对应的第二预测结果;所述第二预测结果用于表征所述第二音频数据在至少两个不同维度上的预测类别信息;
根据所述第一标签信息和所述第二预测结果,确定预测的第一损失值;
根据所述第一损失值,对所述待优化的音乐理解模型进行参数更新,得到训练好的音乐理解模型。
可选地,所述维度包括类型维度、速度维度、情绪维度和配器维度;所述训练单元具体用于:
将所述第一特征信息输入到待优化的音乐理解模型中;
通过所述待优化的音乐理解模型对所述第一特征信息进行编码处理,映射得到预测输出向量;所述预测输出向量中包括第一元素、第二元素、第三元素和第四元素,其中,所述第一元素用于表征所述第二音频数据在所述类型维度上的预测类别信息,所述第二元素用于表征所述第二音频数据在所述速度维度上的预测类别信息,所述第三元素用于表征所述第二音频数据在所述情绪维度上的预测类别信息,所述第四元素用于表征所述第二音频数据在所述配器维度上的预测类别信息。
可选地,所述训练单元具体用于:
根据所述第一标签信息和所述预测输出向量,确定在所述类型维度上预测的第一子损失值、在所述速度维度上预测的第二子损失值、在所述情绪维度上预测的第三子损失值以及在所述配器维度上预测的第四子损失值;
对所述第一子损失值、所述第二子损失值、所述第三子损失值和所述第四子损失值进行加权求和,得到预测的第一损失值。
可选地,所述装置还包括添加单元,所述添加单元具体用于:
从所述第一音频数据中随机确定若干目标音频数据;
获取各个所述目标音频数据对应的第二标签信息;所述第二标签信息用于表征所述目标音频数据在至少两个不同维度上的真实类别信息;
将所述目标音频数据和所述第二标签信息添加到所述第二训练数据集中。
可选地,所述装置还包括提取单元,所述提取单元具体用于:
将所述第二音频数据输入到深度神经网络中,通过所述深度神经网络提取得到第一特征信息;
其中,所述深度神经网络基于所述第一音频数据训练得到。
另一方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储计算机程序;
所述处理器执行所述计算机程序实现前述的音乐生成模型的训练数据生成方法、音乐生成模型的训练方法、音乐生成方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行实现前述的音乐生成模型的训练数据生成方法、音乐生成模型的训练方法、音乐生成方法。
本申请实施例还公开了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现前述的音乐生成模型的训练数据生成方法、音乐生成模型的训练方法、音乐生成方法。
本申请实施例至少包括以下有益效果:本申请提供一种音乐生成模型的训练数据生成、训练方法、装置及设备,该方案获取第一样本音乐的第一音频数据和预先设定的生成指令信息,通过音乐理解模型对第一音频数据进行分析处理,得到表征第一音频数据在至少两个不同维度上的预测类别信息的第一预测结果,然后将第一预测结果和生成指令信息输入到目标语言模型中,通过目标语言模型来生成第一音频数据对应的第一描述信息,第一描述信息为生成的自然语言形式的描述信息,后续可以通过第一音频数据和第一描述信息作为训练数据集训练音乐生成模型。本申请实施例中的方案,通过音乐理解模型和目标语言模型生成第一音频数据的第一描述信息,无需人工参与即可高效、低成本地构造用于训练音乐生成模型的训练数据;而且得到的训练数据噪声较小,便于训练得到准确度较高的音乐生成模型;基于目标对象输入的第二描述信息,可以使用训练出的音乐生成模型来生成第四音频数据,第四音频数据能够贴合目标对象的音乐需求,有利于提高目标对象的音乐聆听体验。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例中提供的一种音乐生成模型的训练数据生成方法的实施环境示意图;
图2为本申请实施例提供的一种音乐生成模型的训练数据生成方法的流程示意图;
图3为本申请实施例中提供的一种音乐理解模型的训练流程示意图;
图4为本申请实施例中提供的一种音乐理解模型的预测维度示意图;
图5为本申请实施例提供的一种音乐生成模型的训练方法的流程示意图;
图6为本申请实施例提供的一种音乐生成方法的流程示意图;
图7为本申请实施例提供的一种音乐生成模型的训练数据生成方法的具体实现流程示意图;
图8为本申请实施例提供的一种包含音乐生成服务的应用程序的界面示意图;
图9为本申请实施例提供的一种音乐生成模型的训练数据生成装置的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图;
图11为本申请实施例提供的另一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请实施例相一致的所有实施方式,它们仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。例如,在不脱离本申请实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“若”、“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,每个是指对应的多个中的每一个,任一是指多个中的任意一个。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在对本申请实施例进行详细说明之前,首先对本申请实施例中涉及的部分名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)Text-2-Music(文本到音乐),一种音乐生成技术,主要用于将输入的文本转换为音乐。它可以利用人工智能和机器学习算法,分析文本的语义和情感,然后根据这些信息生成相应的音乐。Text-2-Music技术可应用于音乐创作、电影配乐、广告音乐等领域,提供了一种全新的创作和表达方式。
2)人工智能(Artificial Intelligence,AI),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
3)机器学习(Machine Learning,ML),是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,机器学习(深度学习)通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
4)音乐理解模型,一种基于人工智能和机器学习技术开发的模型,可以用于分析和理解音乐的各个方面的构成元素,音乐理解模型可以通过学习音乐的音符、和弦、节奏、和声、情感等特征,实现对音乐的自动分析和理解。通常来说,音乐理解模型可以视为一个分类模型,能够实现对音乐类别的分类应用。
5)自然语言处理(Nature Language processing,NLP),是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,自然语言处理是一门融语言学、计算机科学、数学于一体的科学。这一领域涉及的自然语言即人们日常使用的语言,所以它与语言学的研究也有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
6)语言模型,一种用来衡量、预测语句或文本序列的概率分布的统计模型,在自然语言处理领域有着广泛的应用。语言模型可以用来执行文本生成任务,如自动生成文章、对话或者简介信息等。
7)大语言模型(Large Language Model),拥有庞大规模参数的语言模型,通常是通过深度学习技术进行训练的,这些模型使用大量的文本数据进行预训练,能够生成高质量的文本和完成多种语言处理任务。当前,常用的大语言模型一般包括:OpenAI的GPT(Generative Pre-trained Transformer)模型、Google的BERT(Bidirectional EncoderRepresentations from Transformers)模型等。其中,GPT模型使用Transformer架构进行预训练,具有多层、多头注意力机制,可以生成连贯、有逻辑的文本;BERT模型采用Transformer编码器结构,通过预训练的方式学习句子的表示,能够进行语言理解和下游任务(如文本分类、命名实体识别等)。
8)深度神经网络(Deep Neural Network,DNN),一种由多个神经网络层组成的神经网络模型。与传统的浅层神经网络相比,深度神经网络具有更多的隐藏层,使其能够更好地学习和表示复杂的特征和模式。
9)区块链(Blockchain),是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链可以包括公有链、联盟链以及私有链,其中,公有链是指任何人均可以随时进入到区块链网络中读取数据、发送数据或竞争记账的区块链;联盟链是指若干组织或机构共同参与管理的区块链;私有链是指存在一定的中心化控制的区块链,私有链的账本的写入权由某个组织或机构控制,数据的访问和使用有严格的权限管理。
当前,随着信息技术和人工智能技术的高速发展,相关的应用已经逐步融入到人们的生活中,为人们提供了各式各样的服务。例如,在音频处理技术领域内,存在有Text-2-Music(文本到音乐)的应用,该应用能够使用音乐生成模型,根据目标对象的描述信息生成一段音频数据,可以有效提高目标对象的音乐聆听体验。
相关技术中,为了使得生成的音频数据尽可能满足目标对象的需求,需要对音乐生成模型进行训练。一般情况下,音乐生成模型可以基于音乐和音乐对应的描述信息训练得到,此处,训练音乐生成模型时需要使用到音乐的描述信息,即描述音乐具体是什么样、给人以什么感觉的相关信息,其可以包括有音乐的音调、速度、情感倾向、适合场景、类型、节奏、乐器、能量水平、乐谱结构等至少一种维度的信息。
示例性地,在一些实施例中,某个具体的描述信息可以为“我想听一首轻快、欢快的流行音乐,音调明亮而愉悦,速度适中,给人一种快乐和活力的感觉;希望它听起来能让我感到兴奋和开心,我计划在阳光明媚的早晨听这首音乐,让我拥有一天的活力”;在一些实施例中,某个具体的描述信息可以为“给我创作一首轻快、欢乐的爵士乐,主旋律是由萨克斯演奏的,速度不要太快,我想在学习的时候把它当做背景音乐”。
当然,需要说明的是,以上实施例仅用于对本申请实施例中涉及的描述信息进行示例性的说明,并不意味着对其内容进行限制。本领域技术人员可以理解的是,在本申请实施例中,描述信息的文本内容、语言种类可以根据需要灵活选取,本申请对此不作限制。
当前,在训练音乐生成模型时,可能会直接获取使用音乐对应的标签文本作为描述信息,比如说音乐平台可能会为每首音乐标注“钢琴”、“怀旧”、“摇滚”等类型标签,但是,这类标签文本并不符合实际的描述信息的表达形式,仅仅包括很少量的词汇特征,实用性很差。在一些应用中,往往收集现有音乐对应的评论信息来作为描述信息。比如说,某个音乐对应的评论信息可能为“我喜欢这首歌中钢琴和吉他的声音,它们能为音乐增添一种活力和温暖的感觉,整首歌的节奏稳定而有趣,让我可以跟随着节奏随意舞动”。该评论信息就适用于描述一首希望生成的音乐的相关信息,故而可以直接或者略作调整后作为描述信息使用,和其对应的音乐作为一组训练数据。但是,在实际应用中发现,使用评论信息作为音乐的描述信息存在有噪声偏大的情况,比如说一些音乐的评论信息往往和音乐本身无关,示例性地,某个音乐对应的评论信息可能为“这是我直到现在最喜欢的一个歌手,始终爱他”;某个音乐对应的评论信息可能为“这首歌这么多人听吗,我也来凑凑热闹”。这些评论信息往往不能够提供和音乐本身相关的内容,属于闲聊语料,如果采用这种评论信息作为描述信息来训练音乐生成模型,音乐生成模型无法学***台,更多的音乐实际上并没有对应的标签信息或者评论信息,这种实施方式大大限制了音乐生成模型的训练数据来源。
在另一些应用中,也存在由人工筛选评论信息作为描述信息,或者从音乐平台获取音乐,然后由人工编辑描述信息,来组织音乐生成模型的训练数据集的实现方式。这种方式在一定程序上可以使得描述信息符合实际的表达形式,且内容对应性相对较好。但是,音乐生成模型的训练是需要大量训练数据的,如果采用人工的方式去筛选、编辑描述信息,需要的时间和人力成本是巨大的,实现成本较高。特别地,这种方式需要筛选人员(或者编辑人员)具备一定的音乐知识以及音乐鉴赏经验,又进一步增加了人工成本。
有鉴于此,本申请提供一种音乐生成模型的训练数据生成、训练方法、装置及设备,该方案获取第一样本音乐的第一音频数据和预先设定的生成指令信息,通过音乐理解模型对第一音频数据进行分析处理,得到表征第一音频数据在至少两个不同维度上的预测类别信息的第一预测结果,然后将第一预测结果和生成指令信息输入到目标语言模型中,通过目标语言模型来生成第一音频数据对应的第一描述信息,第一描述信息为生成的自然语言形式的描述信息,后续可以通过第一音频数据和第一描述信息作为训练数据集训练音乐生成模型。本申请实施例中的方案,通过音乐理解模型和目标语言模型生成第一音频数据的第一描述信息,无需人工参与即可高效、低成本地构造用于训练音乐生成模型的训练数据;而且得到的训练数据噪声较小,便于训练得到准确度较高的音乐生成模型;基于目标对象输入的第二描述信息,可以使用训练出的音乐生成模型来生成第四音频数据,第四音频数据能够贴合目标对象的音乐需求,有利于提高目标对象的音乐聆听体验。
本申请实施例中所提供的音乐生成模型的训练数据生成方法、音乐生成模型的训练方法、音乐生成方法,主要涉及信息技术领域内和音频处理相关的技术。本领域技术人员可以理解的是,本申请实施例中所提供的音乐生成模型的训练数据生成方法、音乐生成模型的训练方法、音乐生成方法,可以在各类应用场景中被执行。
以音乐生成方法为例:
示例性地,在一些实施例中,本申请实施例中所提供的音乐生成方法可以应用在音乐推荐场景中,目标对象可以提供自己想要得到的音乐的描述信息,本申请实施例中的音乐生成方法可以自动根据描述信息生成适合目标对象需求的音乐,反馈推荐给目标对象,从而提供更好的音乐聆听体验。
示例性地,在一些实施例中,本申请实施例中所提供的音乐生成方法可以应用在音乐创作场景中,本申请实施例中的音乐生成方法可以用于辅助创作者生成新的音乐作品,例如,创作者可以通过描述一些音乐特征和要求作为描述信息,使用本申请实施例中的音乐生成方法自动生成符合对应特征和要求的音乐片段,帮助他们在创作过程中获得灵感,可以为创作者提供更多的音乐可能性和探索空间,提高音乐创作的效率。
示例性地,在一些实施例中,本申请实施例中所提供的音乐生成方法可以应用在游戏场景中,在游戏开发中往往会使用到背景音乐,游戏开发者可以通过描述游戏的场景、情感氛围和玩家体验要求,使用本申请实施例中的音乐生成方法自动生成与游戏场景相匹配的背景音乐。这样可以提供丰富多样的游戏音乐选择,增加游戏的趣味性和沉浸感,从而提高游戏的游玩体验。
可以理解的是,以上的应用场景中,在执行音乐生成任务之前,可以使用本申请实施例中提供的音乐生成模型的训练数据生成方法,来构造得到音乐生成模型的训练数据集;然后,可以使用本申请实施例中提供的音乐生成模型的训练方法,基于得到的训练数据集对音乐生成模型进行训练,从而得到可以应用于音乐生成方法中的音乐生成模型。因此,本申请实施例中提供的音乐生成模型的训练数据生成方法、音乐生成模型的训练方法,也同样适用于上述的应用场景。
并且,可以理解的是,以上的应用场景仅起到示例性的作用,并不意味着对本申请实施例中提供的音乐生成模型的训练数据生成方法、音乐生成模型的训练方法、音乐生成方法的实际应用形成限制。本领域技术人员可以理解,在不同应用场景中,都可以利用本申请实施例中提供的音乐生成模型的训练数据生成方法、音乐生成模型的训练方法、音乐生成方法执行指定的任务。
需要补充说明的是,在本申请的各个具体实施方式中,当涉及到需要根据对象的信息、对象的行为数据、对象的历史数据以及对象的位置信息等与对象身份或特性相关的数据进行相关处理时,都会先获得对象的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关国家和地区的相关法律法规和标准。此外,当本申请实施例需要获取对象的敏感信息时,会通过弹窗或者跳转到确认页面等方式获得对象的单独许可或者单独同意,在明确获得对象的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的对象相关数据。
下面结合附图,对本申请实施例的具体实施方式进行详细说明。首先,结合附图描述本申请实施例中提供的一种音乐生成模型的训练数据生成方法。
请参照图1,图1示出了本申请实施例中提供的一种音乐生成模型的训练数据生成方法的实施环境示意图。在该实施环境中,主要涉及的软硬件主体包括终端设备110、后台服务器120。
具体地,终端设备110中可以安装有相关的音乐应用程序,后台服务器120为该应用程序的后台服务器。终端设备110、后台服务器120之间通信连接。本申请实施例中提供的音乐生成模型的训练数据生成方法,可以在后台服务器120侧执行。当然,在一些实施例中,该方法也可以在终端设备110侧执行,或者基于终端设备110和后台服务器120之间的数据交互来执行。
示例性地,当本申请实施例中提供的音乐生成模型的训练数据生成方法基于终端设备110和后台服务器120之间的数据交互来执行时,终端设备110侧可以负责输入第一样本音乐的第一音频数据和预先设定的生成指令信息,将其传输给后台服务器120,后台服务器120可以通过音乐理解模型对第一音频数据进行分析处理,得到第一音频数据对应的第一预测结果,然后将第一预测结果和生成指令信息输入到目标语言模型中,通过目标语言模型生成第一音频数据对应的第一描述信息,从而根据第一音频数据和第一描述信息构造得到用于训练音乐生成模型的第一训练数据集。后台服务器120可以将得到的第一训练数据集保存在本地,也可以反馈给终端设备110,本申请对此不作限制。
其中,以上实施例的终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表以及车载终端等,但并不局限于此。
后台服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
另外,后台服务器120还可以是区块链网络中的一个节点服务器。
终端设备110和后台服务器120之间可以通过无线网络或有线网络建立通信连接。该无线网络或有线网络使用标准通信技术和/或协议,网络可以设置为因特网,也可以是其它任何网络,例如包括但不限于局域网(Local Area Network,LAN)、城域网(MetropolitanArea Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。并且,上述的这些软硬件主体之间,既可以采用相同的通信连接方式,也可以采用不同的通信连接方式,本申请对此不作具体限制。
当然,可以理解的是,图1中的实施环境只是本申请实施例中提供的音乐生成模型的训练数据生成方法一些可选的应用场景,实际的应用并不固定为图1所示出的软硬件环境。本申请实施例提供的方法可应用于各种技术领域,例如音视频、购物、游戏、社交等领域,本申请对此不作具体限制。
下面,结合上述对实施环境的描述,对本申请实施例中提供的一种音乐生成模型的训练数据生成方法进行详细介绍和说明。
如图2所示,本申请实施例中,提供了一种音乐生成模型的训练数据生成方法,该音乐生成模型的训练数据生成方法可以单独应用于图1所示的终端设备110或者后台服务器120中,也可以基于二者的交互来实现。
参照图2,本申请实施例中提供的音乐生成模型的训练数据生成方法,具体包括但不限于步骤210至步骤240:
步骤210、获取第一样本音乐的第一音频数据和预先设定的生成指令信息;生成指令信息用于指示目标语言模型生成针对第一音频数据的第一描述信息;
本步骤中,在构造音乐生成模型的训练数据时,可以获取批量的音乐的音频数据,将此处的音乐记为第一样本音乐,第一样本音乐的音频数据记为第一音频数据。
具体地,本申请实施例中,对于第一音频数据的获取渠道不做限制,其既可以是直接通过收音设备从环境中采集得到的,也可以是通过数据传输接口或者远程通信传输从其他电子设备及计算机***获取得到的。示例性地,在一些实施例中,可以使用音频录制设备(如麦克风、录音笔等),直接录制得到第一样本音乐的第一音频数据。在一些实施例中,可以从音乐平台获取第一音频数据,例如,音乐平台中可以提供有各种音乐的下载渠道,基于这些渠道可以下载获取得到第一音频数据。在一些实施例中,还可以从一些云平台或者开放数据集获取第一音频数据。
需要说明的是,本申请实施例中,对于获取的第一音频数据所属的第一样本音乐的数量不作限制。并且,对于每个第一样本音乐,其对应的第一音频数据的时间长短可以根据需要灵活选取,比如,在一些实施例中,可以将第一样本音乐所有的内容作为第一音频数据;在一些实施例中,也可以截取第一样本音乐中的部分内容作为第一音频数据,本申请实施例中,对于截取的时间长短,截取的第一音频数据所占第一样本音乐的总音频数据的比例不作限制。
特别强调的是,本申请实施例中,在获取第一音频数据时,需要遵守相关的版权法律法规以及第一样本音乐所有者的版权要求,以确保具备合法的权限来获取和使用第一音频数据。
本步骤中,除了获取第一样本音乐的第一音频数据外,还获取预先设定的生成指令信息。本申请实施例中,生成指令信息用于指示目标语言模型生成针对第一音频数据的描述信息,将该描述信息记为第一描述信息。此处,目标语言模型为用于生成描述信息的语言模型,其具体的种类可以选择大语言模型,大语言模型能够用于生成高质量的文本信息,适用于本申请实施例的应用场景,当然,本申请实施例中,对于具体使用的语言模型的类型和架构不作限制,其可以参照现有技术来实现,本申请在此不作赘述。
对于目标语言模型来说,其生成描述信息时,需要依赖输入的指令信息,本申请实施例中,将其记为生成指令信息。生成指令信息可以是人工编辑设定的,能够用于指示目标语言模型执行第一描述信息的生成任务。本申请实施例中,对于生成指令信息中的文本内容和语言格式不作限制,比如说,示例性地,在一些实施例中,生成指令信息可以是“请用自然语言描述一首音乐,可以使用到下列的类别信息”;在一些实施例中,生成指令信息可以是“Describe the music in natural language,be brief,use some imagination”,本申请实施例中,对此不作限制。
步骤220、通过音乐理解模型对第一音频数据进行分析处理,得到第一音频数据对应的第一预测结果;其中,第一预测结果用于表征第一音频数据在至少两个不同维度上的预测类别信息;
本步骤中,在得到第一音频数据后,可以通过音乐理解模型对第一音频数据进行分析处理,这里使用到的音乐理解模型可以用于分析和理解音乐的各个方面的构成元素,能够从多个维度判断第一音频数据所对应的类别。
本申请实施例中,通过音乐理解模型对第一音频数据进行分析处理,可以得到一个预测结果,将其记为第一预测结果,第一预测结果可以表征出第一音频数据在至少两个不同维度上的预测类别信息。本申请实施例中,对于第一音频数据进行分析处理所预测的维度种类不作限制,示例性地,在一些实施例中,对于第一音频数据进行分析处理所预测的维度可以包括有频率维度、音调维度、音色维度、人声维度、配器维度、语种维度、类型维度、速度维度、情绪维度等。其中,频率维度可以用于区分音频数据的频率高低,其具体对应的类别可以包括高频、中频、低频等;音调维度可以用于区分音频数据的音调高低,其具体对应的类别可以包括高音、中音、低音等;音色维度可以用于区分音频数据的音色,其具体对应的类别可以包括明亮的、柔和的、高昂的、尖锐的等;人声维度可以用于区分音频数据中的人声元素,其具体对应的类别可以包括男声、女声、儿童声等;配器维度可以用于区分音频数据所使用的演奏乐器,其具体对应的类别可以包括钢琴、吉他、小提琴、古筝等;语种维度可以用于区分音频数据所对应的语言种类,其具体对应的类别可以包括中文、英文、法文等;类型维度可以用于区分音频数据所属的音乐类型,其具体对应的类别可以包括流行音乐、古典音乐、摇滚音乐、民谣音乐等;速度维度可以用于区分音频数据的旋律速度,其具体对应的类别可以包括快速、正常、慢速等;情绪维度可以用于区分音频数据所体现的情感倾向,其具体对应的类别可以包括欢乐、悲伤、激情、沉静等。
当然,可以理解的是,以上实施例仅用于对本申请实施例中的音乐理解模型的分类维度进行示例性的介绍,并不意味着对其实际的实施进行限制。本领域技术人员可以根据需求,灵活选取其中的维度和维度所包含的类别,对第一音频数据进行分析处理,得到其对应的第一预测结果。
具体地,本申请实施例中,对于音乐理解模型的结构和实现算法不作限制。示例性地,在一些实施例中,音乐理解模型可以使用多分类模型,在每一个分类维度上,其可以预测输出该维度上的预测类别信息,综合所有待预测的分类维度的预测类别信息,即可得到第一预测结果。第一预测结果的数据形式可以包括数字、向量、矩阵或者张量中的至少一种,本申请对此不作限制,例如,在一些实施例中,第一预测结果可以采用向量来表征,其中的每个元素分别对应一个分类维度上的预测类别信息。本申请实施例中,第一预测结果中包括第一音频数据在至少两个不同维度上的预测类别信息,其实际的预测维度个数可以超过两个,本申请对此不作限制。
步骤230、将第一预测结果和生成指令信息输入到目标语言模型中,通过目标语言模型生成第一音频数据对应的第一描述信息;
本步骤中,通过音乐理解模型分析得到第一预测结果后,可以将第一预测结果和前面获取的生成指令信息一起输入到目标语言模型中,通过该目标语言模型生成第一音频数据对应的第一描述信息。
本申请实施例中,第一预测结果为音乐理解模型分析处理后,预测得到的第一音频数据在多个维度上的预测类别信息,它能够简要地表征出第一音频数据的核心特征。但是,由于分类得到的信息一般仅仅是词汇或者短句,不符合自然语言的表述格式,无法直接作为描述信息使用。因此,本申请实施例中,将第一预测结果输入到目标语言模型中,通过目标语言模型基于第一预测结果来生成符合自然语言格式的第一描述信息。如此,既能够尽可能地令得到的第一描述信息准确,和第一音频数据的特征贴合,又能够满足第一描述信息需要符合自然语言的表达格式的需求,从而方便地得到可以用于训练音乐生成模型的描述信息。
具体地,本申请实施例中,将第一预测结果和生成指令信息输入到目标语言模型中,此处使用的目标语言模型可以是一个已经训练好的大语言模型,如GPT模型、BERT模型等,其可以参照现有技术来实现,本申请对此不作赘述。将第一预测结果输入到目标语言模型中,目的是为了提供第一音频数据的相关信息,将生成指令信息输入到目标语言模型中,则是为了指示目标语言模型生成符合自然语言的表达格式的第一描述信息,如此,目标语言模型即可生成针对第一音频数据的第一描述信息。
需要说明的是,本申请实施例中,将第一预测结果输入到目标语言模型时,可以先将其转换为适合输入目标语言模型的格式,例如文本格式,以方便目标语言模型的处理。示例性地,本申请实施例中,可以将第一预测结果所表征的各个预测类别信息转换为一个关键词序列输入到目标语言模型中,关键词序列中的各个关键词,即为预测类别信息。
当然,需要补充说明的是,对于生成的第一描述信息,在一些实施例中,可以对进行后处理和优化,以使得生成的第一描述信息更符合预期的格式、语法和上下文逻辑。具体的后处理和优化可以包括语法校正、文本修正、合并相似描述信息等操作,本申请对此不作限制。
步骤240、根据各个第一音频数据以及第一音频数据对应的第一描述信息,构造得到用于训练音乐生成模型的第一训练数据集。
本步骤中,通过目标语言模型得到第一音频数据对应的第一描述信息后,可以根据各个第一音频数据和第一音频数据对应的第一描述信息,构造得到用于训练音乐生成模型的训练数据集,本申请实施例中,将该数据集记为第一训练数据集。
此处,为了方便了解到如何根据第一音频数据和第一音频数据对应的第一描述信息构造第一训练数据集,首先简要地对音乐生成模型的工作原理进行介绍。对于音乐生成模型来说,其一般是基于目标对象的描述信息来生成一段音频数据,即输入数据为目标对象的描述信息,输出的预测结果为音频数据,音乐生成模型的应用效果,可以通过输出的音频数据和目标对象的描述信息是否对应来判别。如果输出的音频数据和目标对象的描述信息的对应性较差,则说明音乐生成模型的输出准确度较低,应用效果较差。基于音乐生成模型的工作原理可以看出,在对音乐生成模型进行训练时,音乐生成模型的输入数据是描述信息,衡量音乐生成模型的输出准确度的是音频数据。因此,本申请实施例中,可以将第一描述信息作为输入数据,第一描述信息对应的第一音频数据作为标签数据,这样构造得到一组训练数据来训练音乐生成模型,将各个第一音频数据和第一音频数据对应的第一描述信息构造为多组训练数据,整合这些训练数据,即可得到第一训练数据集。
本申请实施例中,对于第一训练数据集中具体的训练数据个数、第一训练数据集的实际使用方式不作限制,其可以根据需要灵活实施。
可以理解的是,本申请实施例中提供的音乐生成模型的训练数据生成方法,获取第一样本音乐的第一音频数据和预先设定的生成指令信息,通过音乐理解模型对第一音频数据进行分析处理,得到表征第一音频数据在至少两个不同维度上的预测类别信息的第一预测结果,然后将第一预测结果和生成指令信息输入到目标语言模型中,通过目标语言模型来生成第一音频数据对应的第一描述信息,第一描述信息为生成的自然语言形式的描述信息,后续可以通过第一音频数据和第一描述信息作为训练数据集训练音乐生成模型。该方法通过音乐理解模型和目标语言模型生成第一音频数据的第一描述信息,无需人工参与即可高效、低成本地构造用于训练音乐生成模型的训练数据;而且,该方法只需要获取第一音频数据即可实施,可以扩展音乐生成模型的训练数据来源,有利于训练得到功能更为强大、可靠的音乐生成模型。
具体地,在一种可能的实现方式中,获取第一样本音乐的第一音频数据的步骤之后,方法还包括筛选流程;筛选流程包括以下步骤中的至少一者:
检测第一音频数据中是否包含人声成分,若第一音频数据中包含人声成分,删除第一音频数据;
或者,对第一音频数据进行音质检测,得到第一音频数据对应的音质评分,将音质评分和预设的评分阈值进行比较,若音质评分小于或者等于评分阈值,删除音质评分对应的第一音频数据。
本申请实施例中,在获取得到第一音频数据后,还可以对第一音频数据进行筛选,清洗其中数据质量较差的部分,提高第一音频数据的质量。
具体地,在一些场景中,由于部分音乐生成模型在生成含有人声成分的音乐时,存在有容易生成“咿呀学语”的含糊声音,影响生成的音乐质量的问题。因此,本申请实施例中,为了提高后续对这类音乐生成模型的训练效果,可以在构造训练数据时删除含有人声成分的第一音频数据。即在获取得到第一音频数据后,可以检测第一音频数据中是否包含人声成分,如果其中包含人声成分,则可以删除掉该第一音频数据;如果不包含人声成分,则可以继续进行其他的筛选处理。
本申请实施例中,在检测第一音频数据中是否包含人声成分时,可以根据需要选取对应的实施方式。示例性地,在一些实施例中,可以使用频域分析的方式来检测,通过对第一音频数据进行频域分析,比如说进行快速傅里叶变换(FFT),可以确定出第一音频信号的频谱特征。一般来说,人声成分通常在中高频段(约300Hz至4kHz)具有明显的能量集中,通过检测在这个频段内的能量强度,可以判断第一音频数据是否包含人声。在一些实施例中,可以对第一音频数据进行声谱图分析或者时域分析,一般来说,人声成分通常在声谱图上呈现出清晰可见的线性结构,在时域上具有明显的周期性和振幅变化,因此,可以通过第一音频数据对应的声谱图或者时域波形图来判断其中是否包含人声。在一些实施例中,还可以采用机器学习、深度学习模型来检测第一音频数据是否包含人声,即通过对第一音频数据进行特征提取和分类,得到表征其是否包含人声的分类结果来实现。当然,可以理解的是,以上实施例仅用于对本申请中检测第一音频数据中是否包含人声成分进行示例性的说明,并不意味着对其具体的实施方式进行限制。
可以理解的是,本申请实施例中,删除包含人声成分的第一音频数据,可以降低参与音乐生成模型训练的训练数据中人声成分的含量,减少音乐生成模型生成“咿呀学语”等无意义歌词的可能性,从而提高音乐生成模型生成的音乐质量。
在一些场景中,本申请实施例还可以对第一音频数据进行音质检测,得到第一音频数据对应的音质评分,基于音质评分来实现筛选。此处,音质评分的数值越大,说明第一音频数据的音质相对越好;反之,音质评分的数值越小,说明第一音频数据的音质相对越差,本申请实施例中,对于音质评分具体的数值区间不作限制,例如其可以选用百分制。为了实现对第一音频数据的筛选,可以设定一个评分阈值,比如说以百分制作为音质评分的数值区间,评分阈值可以设定为60分。如果第一音频数据对应的音质评分小于或者等于评分阈值,则说明其音质较差,可以删除该第一音频数据。而如果第一音频数据对应的音质评分大于评分阈值,则说明其音质相对较好,可以继续进行其他的筛选处理。
具体地,在一种可能的实现方式中,对第一音频数据进行音质检测,得到第一音频数据对应的音质评分,包括:
对第一音频数据进行音质检测,得到第一音频数据对应的采样率数据和噪声含量数据;
根据采样率数据和噪声含量数据,得到第一音频数据对应的音质评分;
其中,第一音频数据对应的音质评分和采样率数据正相关,第一音频数据对应的音质评分和噪声含量数据负相关。
本申请实施例中,提供了一种确定第一音频数据对应的音质评分的实现方式。具体地,在确定第一音频数据对应的音质评分时,可以对第一音频数据进行音质检测,得到第一音频数据对应的采样率数据和噪声含量数据,在音质检测中,采样率数据和噪声含量数据是两个重要的指标。其中,采样率数据是指在单位时间内进行采样的次数,通常以赫兹(Hz)表示,较高的采样率数据可以使得音频数据更准确,在一定程度上说明音频数据的质量较好。噪声含量数据则指的是音频数据中存在的无意义或干扰性的声音成分,噪声含量越低,音频数据的质量较好。
本申请实施例中,对第一音频数据进行音质检测,要得到第一音频数据的采样率数据,可以使用音频处理软件或编程语言中的音频处理库来读取第一样本音乐的元数据,元数据中通常包含了采样率数据的信息,可以通过读取该信息来获取采样率数据。对于噪声含量数据的获取,可以使用音频处理软件或编程语言中的音频分析工具来进行处理,比如说使用频谱分析技术,将第一音频数据转换为频域表示,然后分析频谱图中的噪声成分,通过计算噪声的能量或强度,可以得到噪声含量数据。
本申请实施例中,采样率数据可以提供关于音频数据的还原能力和精度的信息,通常情况下,较高的采样率数据对应更好的音质,因此,第一音频数据的采样率数据和音质评分正相关。另一方面,噪声含量数据表明了第一音频数据中噪声含量的多少,较低的噪声含量数据表示第一音频数据中的干扰噪声较少,更接近原始信号,音质较好,因此,第一音频数据的噪声含量数据和音质评分负相关。本申请实施例中,可以通过音质检测得到的采样率数据和噪声含量数据确定第一音频数据对应的音质评分,对于音质评分和采样率数据、噪声含量数据之间的具体函数关系,本申请不作限制,其可以根据需要灵活设定。
具体地,在一种可能的实现方式中,获取批量音乐的第一音频数据的步骤之后,方法还包括:
检测第一音频数据的播放时长;
将播放时长和预设的时长阈值进行比较;
若播放时长大于或者等于时长阈值,对第一音频数据进行截断处理,得到至少两个新的第一音频数据。
需要说明的是,一般来说,音乐生成模型的能力有限,生成得到的音乐片段的长度不会过长。因此,在训练音乐生成模型时,作为训练数据的第一音频数据也不宜过长。本申请实施例中,可以对第一音频数据进行优化处理,即检测第一音频数据对应的播放时长,判断其是否过长,如果存在第一音频数据播放时长过长的情况,则对其进行截断处理。
具体地,本申请实施例中,可以设定一个时长阈值,比如可以是3分钟。然后对第一音频数据的播放时长和时长阈值进行比较,如果播放时长小于时长阈值,则无需进行截断处理;如果播放时长大于或者等于时长阈值,则可以对第一音频数据进行截断处理。此处,在对第一音频数据进行截断处理时,可以从第一音频数据的中间进行截断,也可以从第一音频数据的起始位置开始,选取一个距离起始位置播放时长小于时长阈值的位置进行截断,本申请对此不作限制。对第一音频数据进行一次截断,可以得到两个新的第一音频数据,本申请实施例中,可以继续对新的第一音频数据进行时长判断和截断处理,直至得到的各个第一音频数据的播放时长均小于时长阈值。换而言之,每个原始的第一音频数据,通过截断处理,可以得到至少两个新的第一音频数据,本申请实施例中,对于时长阈值的大小、截断处理的具体次数和得到的第一音频数据的个数不作限制。
可以理解的是,本申请实施例中,通过截断处理,可以将原始较长的第一音频数据拆分为多个第一音频数据用于音乐生成模型的训练,一方面可以降低需要处理的第一样本音乐的数量,提高训练数据的采集效率;另一方面,可以避免出现过长的第一音频数据影响音乐生成模型训练的情况,能够有利于提高音乐生成模型的训练效果。
具体地,在一种可能的实现方式中,参照图3,音乐理解模型通过以下步骤训练得到:
步骤310、获取第二训练数据集;第二训练数据集包括批量的第二样本音乐的第二音频数据和各个第二音频数据对应的第一标签信息;其中,第一标签信息用于表征第二音频数据在至少两个不同维度上的真实类别信息;
步骤320、提取第二音频数据的第一特征信息;
步骤330、将第一特征信息输入到待优化的音乐理解模型中,通过待优化的音乐理解模型预测得到第二音频数据对应的第二预测结果;第二预测结果用于表征第二音频数据在至少两个不同维度上的预测类别信息;
步骤340、根据第一标签信息和第二预测结果,确定预测的第一损失值;
步骤350、根据第一损失值,对待优化的音乐理解模型进行参数更新,得到训练好的音乐理解模型。
本申请实施例中,音乐理解模型在投入使用前,需要经过训练来调整其内部的参数,以改善其预测的精度。具体地,音乐理解模型可以在多个音频数据上训练得到,在训练音乐理解模型时,可以获取一个训练数据集,本申请实施例中,记为第二训练数据集。第二训练数据集中,包括有批量的样本音乐的音频数据和这些音频数据对应的标签信息,将第二训练数据集中的样本音乐记为第二样本音乐,第二样本音乐既可以有和第一样本音乐相同的,也可以和第一样本音乐完全不同,本申请对此不作限制。第二样本音乐的音频数据记为第二音频数据,第二音频数据对应的标签信息记为第一标签信息。这里的第一标签信息可以用于表征第二音频数据在至少两个不同维度上的真实类别信息,其具体的数据结构可以包括数字、向量、矩阵或者张量中的至少一种,本申请对此不作限制。
本申请实施例中,在对音乐理解模型进行训练时,可以提取第二音频数据的特征信息,记为第一特征信息。此处,对于第一特征信息的具体形式不作限制,在一些实施例中,第一特征信息可以包括第二音频数据的声学特征信息,例如可以是第二音频数据的音频频谱的数字特征。具体地,可以从第二音频数据的音频频谱中按照预定的规则选取一些时间频率点,将其编码为数字序列,该数字序列即可以作为第二音频数据的第一特征信息。当然,本申请实施例中采用的特征提取算法可以根据需要任选,例如在一些实施例中,可以对第二音频数据按照一定的帧叠进行分帧和加窗,得到多个音频帧,具体地,此处分帧指的是按预设规则将整段的第二音频数据切成多段,每一段即为一个音频帧,加窗指的是使用预设的窗函数对每个音频帧进行截取,从而使分帧后的第二音频数据更加连贯,表现出更好的周期函数特征,该窗函数可以是矩形窗、汉明窗或者高斯窗等的任意一种。然后对获取的音频帧进行快速傅里叶变换(FFT,Fast Fourier Transformation),得到每个音频帧的频谱,选取每帧频谱中的峰值信号作为该频谱的数字特征来构造第二音频数据的声学特征信息;在一些实施例中,在得到音频帧的频谱后,也可以在频域上将每个音频帧划分出多个子带,然后计算任意两个相邻子带之间的能量差分的差值,基于得到的差值来构造第二音频数据的声学特征信息。上述的方式在编码时一般都是将数字特征转换为哈希序列,即以哈希序列作为音频数据的声学特征信息。在一些实施例中,还可以通过神经网络模型等构成的音频编码器直接提取第二音频数据的音频数字特征作为第一特征信息,本申请对此不作限制。
在得到第一特征信息后,可以将第一特征信息输入到待优化的音乐理解模型中,通过音乐理解模型来预测第二音频数据在至少两个不同维度上的预测类别信息,得到一个预测结果,记为第二预测结果。音乐理解模型的处理过程已在前述的步骤220进行介绍,此处得到的第二预测结果的数据格式可以参照第一预测结果来实现,本申请在此不作赘述。
本申请实施例中,可以基于第二预测结果和第一标签信息,确定音乐理解模型分类预测的准确度。具体地,可以确定第二预测结果和第一标签信息之间的偏差,得到音乐理解模型分类预测的损失值,记为第一损失值。得到第一损失值后,可以根据第一损失值的大小评估音乐理解模型的预测准确度,以对音乐理解模型进行反向传播训练,更新其内部的相关参数。
具体地,对于机器学***均值,能够更好地衡量出模型的预测效果。对于一般的机器学***方损失函数、绝对损失函数、对数损失函数、交叉熵损失函数等均可以作为机器学习模型的损失函数,在此不再一一阐述。本申请实施例中,可以任选一种损失函数来确定第一损失值,对待优化的音乐理解模型进行参数更新,当第一损失值小于设定的指标值,或者达到更新迭代次数时,可以认为训练完成,得到训练好的音乐理解模型。
需要说明的是,本申请实施例中,音乐理解模型预测的维度可以事先通过第一标签信息来设定好,即第二预测结果中所表征的各个维度上的预测类别信息,和第一标签信息内记录的各个维度上的预测类别信息是一一对应的关系。
具体地,在一种可能的实现方式中,维度包括类型维度、速度维度、情绪维度和配器维度;将第一特征信息输入到待优化的音乐理解模型中,通过待优化的音乐理解模型预测得到第二音频数据对应的第二预测结果,包括:
将第一特征信息输入到待优化的音乐理解模型中;
通过待优化的音乐理解模型对第一特征信息进行编码处理,映射得到预测输出向量;预测输出向量中包括第一元素、第二元素、第三元素和第四元素,其中,第一元素用于表征第二音频数据在类型维度上的预测类别信息,第二元素用于表征第二音频数据在速度维度上的预测类别信息,第三元素用于表征第二音频数据在情绪维度上的预测类别信息,第四元素用于表征第二音频数据在配器维度上的预测类别信息。
本申请实施例中,参照图4,图4示出了本申请实施例中提供的一种音乐理解模型的预测维度示意图。在一些场景下,音乐理解模型预测的维度可以包括有类型维度、速度维度、情绪维度和配器维度,其中各个维度所对应的含义和包含的类别已经介绍过,在此不作赘述。在该种情况下,音乐理解模型输出的第二预测结果的数据形式可以是向量,即音乐理解模型可以通过对第一特征信息进行编码处理,映射得到预测输出向量。该预测输出向量中可以包括有四个元素,分别记为第一元素、第二元素、第三元素和第四元素,每个元素分别用于表征在一个维度上的预测类别信息。具体地,第一元素用于表征第二音频数据在类型维度上的预测类别信息,第二元素用于表征第二音频数据在速度维度上的预测类别信息,第三元素用于表征第二音频数据在情绪维度上的预测类别信息,第四元素用于表征第二音频数据在配器维度上的预测类别信息。此处,每个元素可以采用数值来表示,不同的数值对应不同的预测类别信息。示例性地,比如说,以表征第二音频数据在类型维度上的预测类别信息的第一元素为例,预测类别信息对应的类别可以包括流行音乐、古典音乐、摇滚音乐、民谣音乐,其中流行音乐对应的数值可以是1,古典音乐对应的数值可以是2,摇滚音乐对应的数值可以是3,民谣音乐对应的数值可以是4,当第一元素的数值为2时,表明音乐理解模型预测第二音频数据所属的类型为古典音乐。
此处,需要说明的是,预测类别信息对应的类别可以不是单一的类别,而是多个类别混合构成的类别。示例性地,比如说,在配器维度上的预测类别信息,每个预测类别信息可以包括一组乐器的组合,如“电子钢琴、贝斯”可以构成一个预测类别信息,本申请对此不作限制。本申请实施例中,音乐理解模型预测的维度并不局限于以上图4所示出的维度,第二预测结果的数据形式也不局限于上述实施例中的预测输出向量的形式。
本申请实施例中,在训练音乐理解模型时,联合训练音乐理解模型在多个维度上的分类任务,可以使得音乐理解模型在不同的任务维度之间互相促进,提高各个分类任务的预测准确性,改善音乐理解模型的训练效果。后续在使用训练得到的音乐理解模型对第一音频数据进行分析处理时,得到的第一音频数据对应的第一预测结果的准确性更高,进而可以提高第一描述信息和第一音频数据的适配度,得到的第一训练数据集的训练应用效果更好。
具体地,在一种可能的实现方式中,根据第一标签信息和第二预测结果,确定预测的第一损失值,包括:
根据第一标签信息和预测输出向量,确定在类型维度上预测的第一子损失值、在速度维度上预测的第二子损失值、在情绪维度上预测的第三子损失值以及在配器维度上预测的第四子损失值;
对第一子损失值、第二子损失值、第三子损失值和第四子损失值进行加权求和,得到预测的第一损失值。
本申请实施例中,在根据第一标签信息和第二预测结果来确定预测的第一损失值时,以第二预测结果采用上述实施例中的预测输出向量的形式为例,可以根据第一标签信息和预测输出向量,确定出音乐理解模型在各个维度上预测的子损失值,比如说在类型维度上预测的子损失值可以记为第一子损失值、在速度维度上预测的子损失值可以记为第二子损失值、在情绪维度上预测的子损失值可以记为第三子损失值、在配器维度上预测的子损失值可以记为第四子损失值。这里,每种子损失值均可以采用前述提到的损失函数来确定,不同的子损失值可以采用相同的损失函数,也可以采用不同的损失函数,本申请对此不作限制。
在得到第一子损失值、第二子损失值、第三子损失值和第四子损失值后,可以对这些子损失值进行加权求和,从而得到预测的第一损失值。这里,每个子损失值对应的加权权重可以相同,比如说都是0.25,也可以根据需要灵活设定,本申请对此不作限制。
具体地,在一种可能的实现方式中,获取第二训练数据集的步骤之后,方法还包括:
从第一音频数据中随机确定若干目标音频数据;
获取各个目标音频数据对应的第二标签信息;第二标签信息用于表征目标音频数据在至少两个不同维度上的真实类别信息;
将目标音频数据和第二标签信息添加到第二训练数据集中。
本申请实施例中,在前面的描述中提到:第二样本音乐既可以有一些和第一样本音乐相同,也可以和第一样本音乐完全不同。而为了提高音乐理解模型在第一样本音乐上的训练效果,本申请实施例中,若第二样本音乐和第一样本音乐完全不同,可以选择将一小部分的第一样本音乐作为训练数据,也加入到第二训练数据集中。
具体地,本申请实施例中,可以从第一音频数据中随机确定一些音频数据,记为目标音频数据,目标音频数据的数量可以较少,用于提供第一样本音乐的训练信息。然后,可以获取目标音频数据对应的第二标签信息,第二标签信息的含义和第一标签信息类似,在此不作赘述。然后,将目标音频数据和第二标签信息加入到第二训练数据集中,这样,训练音乐理解模型时,可以利用到部分的第一样本音乐作为训练样本,可以提高音乐理解模型后续在第一样本音乐上的使用效果,方便得到更为准确的第一预测结果。
具体地,在一种可能的实现方式中,提取第二音频数据的第一特征信息,包括:
将第二音频数据输入到深度神经网络中,通过深度神经网络提取得到第一特征信息;
其中,深度神经网络基于第一音频数据训练得到。
在前面的描述中提到,本申请实施例中,还可以通过神经网络模型等构成的音频编码器直接提取第二音频数据的音频数字特征作为第一特征信息。具体地,这里可以采用深度神经网络来实现,深度神经网络的每一层都由大量的神经元节点组成,每个节点通过激活函数将输入信号进行非线性转换,并将结果传递给下一层。深度神经网络通过逐层的处理和学习,逐渐提取和抽象输入数据中的特征,从而实现对复杂任务的建模和预测。
本申请实施例中,可以将第二音频数据输入到深度神经网络中,通过深度神经网络提取得到第一特征信息。这里使用的深度神经网络,可以在第一音频数据上通过自监督的方法训练得到。具体地,比如说可以设定将第一音频数据输入到深度神经网络,通过深度神经网络提取第一音频数据的特征信息,然后再基于提取第一音频数据的特征信息重构第一音频数据,根据重构得到的第一音频数据和原始的第一音频数据的差异来训练深度神经网络。当然,在本申请实施例中,深度神经网络的参数更新也可以使用反向传播算法来实现,通过计算损失函数的梯度,从输出层向输入层逐层地更新深度神经网络的参数,使得深度神经网络能够逐渐调整权重和偏置,以最小化损失函数。通过反复迭代训练,得到训练好的深度神经网络。
本申请实施例中,通过在第一音频数据上训练深度神经网络,用于提取第二音频数据的特征信息,能够有效改善音乐理解模型的训练效果,提高训练得到的音乐理解模型对于第一音频数据的预测精度。
如图5所示,本申请实施例中,还提供了一种音乐生成模型的训练方法,该音乐生成模型的训练方法可以单独应用于图1所示的终端设备110或者后台服务器120中,也可以基于二者的交互来实现。
参照图5,本申请实施例中提供的音乐生成模型的训练方法,具体包括但不限于步骤510至步骤540:
步骤510、获取前述实施例中的音乐生成模型的训练数据生成方法处理得到的第一训练数据集;第一训练数据集包括多个第一音频数据以及第一音频数据对应的第一描述信息;
步骤520、将第一描述信息输入到待优化的音乐生成模型中,通过待优化的音乐生成模型预测生成第三音频数据;
步骤530、根据第一音频数据和第三音频数据,确定预测的第二损失值;
步骤540、根据第二损失值,对待优化的音乐生成模型进行参数更新,得到训练好的音乐生成模型。
本申请实施例中,在对音乐生成模型进行训练时,可以获取前述实施例中构造得到的第一训练数据集。在第一训练数据集中,包括有多个第一音频数据以及第一音频数据对应的第一描述信息;接着,可以将第一音频数据对应的第一描述信息输入到音乐生成模型中进行音乐生成的预测,音乐生成模型可以基于第一描述信息的文本内容,生成一组音频数据,本申请实施例中,将该音频数据记为第三音频数据。本申请实施例中,可以基于第三音频数据和第一音频数据,确定音乐生成模型的生成准确度。具体地,可以确定第三音频数据和第一音频数据之间的偏差,得到音乐生成模型对应的损失值,记为第二损失值。得到第二损失值后,可以根据第二损失值的大小评估音乐生成模型的准确度,以对音乐生成模型进行反向传播训练,更新其内部的相关参数。具体的训练过程可以参照前面的音乐理解模型来实施,本申请在此不作赘述。
需要说明的是,本申请实施例中,确定第三音频数据和第一音频数据之间的偏差时,可以根据实际的需要灵活处理,例如,在一些实施例中,可以综合比对第三音频数据和第一音频数据的音调、速度、情感倾向、适合场景、类型、节奏、乐器、能量水平、乐谱结构等至少一种维度的信息,确定出二者之间的差异,得到第二损失值。
可以理解的是,本申请实施例中提供的音乐生成模型的训练方法,使用前述实施例中构造得到的第一训练数据集,其内所包含的第一描述信息噪声较小,可以提高训练得到的音乐生成模型的准确度。
如图6所示,本申请实施例中,还提供了一种音乐生成方法,该音乐生成方法可以单独应用于图1所示的终端设备110或者后台服务器120中,也可以基于二者的交互来实现。
参照图6,本申请实施例中提供的音乐生成方法,具体包括但不限于步骤610至步骤630:
步骤610、获取目标对象输入的第二描述信息;
步骤620、将第二描述信息输入到前述实施例中的音乐生成模型的训练方法训练得到的音乐生成模型中,通过音乐生成模型预测生成第四音频数据;
步骤630、将第四音频数据反馈给目标对象。
本申请实施例中,在训练得到音乐生成模型后,可以将音乐生成模型投入正常的使用。具体地,比如说,在生成音乐时,可以获取目标对象输入的描述信息,此处的目标对象可以是使用终端设备的人员。将此处的描述信息记为第二描述信息,第二描述信息和前述的第一描述信息含义类似,在此不作赘述。然后,可以将目标对象输入的第二描述信息输入到通过图5所示的音乐生成模型的训练方法训练得到的音乐生成模型中,通过音乐生成模型预测生成符合第二描述信息的音频数据,记为第四音频数据,然后将第四音频数据反馈给目标对象,即可完成音乐生成任务。
可以理解的是,本申请实施例中,基于目标对象输入的第二描述信息,可以使用训练出的音乐生成模型来生成第四音频数据,第四音频数据能够贴合目标对象的音乐需求,有利于提高目标对象的音乐聆听体验。
下面,结合具体的应用实施流程,对本申请中提供的音乐生成模型的训练数据生成方法、音乐生成模型的训练方法、音乐生成方法进行详细介绍和说明。
参照图7,图7示出了本申请实施例中提供的一种音乐生成模型的训练数据生成方法的具体实现流程示意图,本申请实施例中,可以使用爬虫技术从互联网上获取得到一些音乐(即第一样本音乐)的音频数据,此处,在选取目标网站时,网站上的音乐应当尽量是纯音乐,不要包含人声,并且尽量选择水准较高的网站,这些网站往往对于音乐上传者有较高的要求,因此旋律感、配器质量都较高,可以使得训练得到的音乐生成模型生成的音乐质量更有保障。
在得到原始音频数据后,可以对它们进行筛选和截断处理,筛掉音质不高的原始音频数据,并对过长的原始音频数据进行截断,然后得到用于作为训练数据的第一音频数据。对于第一音频数据,可以通过音乐理解模型来进行分析处理,得到第一音频数据的第一预测结果。在本申请实施例中,第一预测结果可以转化为关键词序列的形式,该关键词序列可以包括第一音频数据在多个不同维度上的预测类别信息的集合,比如说在图7中包括有类型维度、配器维度、速度维度和情绪维度,每个维度对应的预测类别信息依次为:类型维度={POP、Hi-POP},速度={快速},情绪={欢快、开心},配器={电子钢琴、贝斯}。可以将这些预测类别信息组成关键词序列,和预先设定的生成指令信息一起输入到目标语言模型中,通过目标语言模型来生成第一描述信息。然后,可以将第一描述信息和第一音频数据作为训练数据,构造得到第一训练数据集。
具体地,本申请实施例中,可以直接采用预训练好的大语言模型(如ChatGPT),请参照表1,表1示出了一种通过大语言模型实现第一描述信息输出的示例,在表1中,生成指令信息为“Describe the music in natural language, be brief, use someimagination”,可以看出,通过大语言模型,能够将简单的关键词序列扩充为丰富的自然语言描述,可以提高第一描述信息的内容丰富度,有利于实现音乐生成模型的训练。
表1
本申请实施例中,在构造得到第一训练数据集后,可以通过第一训练数据集训练部署音乐生成模型,为目标对象提供音乐生成服务。参照图8,本申请实施例中,提供一种包含音乐生成服务的应用程序的界面示意图,在该应用程序的界面中,包括有提示信息“请用一段话描述您希望生成的音乐”,并且设置有信息输入框810和确认按钮820,目标对象可以通过信息输入框810输入希望生成的音乐的描述信息(即第二描述信息),然后点击确认按钮820,应用程序即可以通过配置的音乐生成模型执行相应的音乐生成方法,将其反馈给目标对象,满足目标对象的个性化音乐需求。
参照图9,本申请实施例中,还提供一种音乐生成模型的训练数据生成装置,装置包括:
获取单元910,用于获取第一样本音乐的第一音频数据和预先设定的生成指令信息;生成指令信息用于指示目标语言模型生成针对第一音频数据的第一描述信息;
处理单元920,用于通过音乐理解模型对第一音频数据进行分析处理,得到第一音频数据对应的第一预测结果;其中,第一预测结果用于表征第一音频数据在至少两个不同维度上的预测类别信息;
生成单元930,用于将第一预测结果和生成指令信息输入到目标语言模型中,通过目标语言模型生成第一音频数据对应的第一描述信息;
构造单元940,用于根据各个第一音频数据以及第一音频数据对应的第一描述信息,构造得到用于训练音乐生成模型的第一训练数据集。
可选地,装置还包括筛选单元,筛选单元具体用于:
检测第一音频数据中是否包含人声成分,若第一音频数据中包含人声成分,删除第一音频数据;
或者,对第一音频数据进行音质检测,得到第一音频数据对应的音质评分,将音质评分和预设的评分阈值进行比较,若音质评分小于或者等于评分阈值,删除音质评分对应的第一音频数据。
可选地,筛选单元具体用于:
对第一音频数据进行音质检测,得到第一音频数据对应的采样率数据和噪声含量数据;
根据采样率数据和噪声含量数据,得到第一音频数据对应的音质评分;
其中,第一音频数据对应的音质评分和采样率数据正相关,第一音频数据对应的音质评分和噪声含量数据负相关。
可选地,装置还包括截断单元,截断单元具体用于:
检测第一音频数据的播放时长;
将播放时长和预设的时长阈值进行比较;
若播放时长大于或者等于时长阈值,对第一音频数据进行截断处理,得到至少两个新的第一音频数据。
可选地,装置还包括训练单元,训练单元具体用于:
获取第二训练数据集;第二训练数据集包括批量的第二样本音乐的第二音频数据和各个第二音频数据对应的第一标签信息;其中,第一标签信息用于表征第二音频数据在至少两个不同维度上的真实类别信息;
提取第二音频数据的第一特征信息;
将第一特征信息输入到待优化的音乐理解模型中,通过待优化的音乐理解模型预测得到第二音频数据对应的第二预测结果;第二预测结果用于表征第二音频数据在至少两个不同维度上的预测类别信息;
根据第一标签信息和第二预测结果,确定预测的第一损失值;
根据第一损失值,对待优化的音乐理解模型进行参数更新,得到训练好的音乐理解模型。
可选地,维度包括类型维度、速度维度、情绪维度和配器维度;训练单元具体用于:
将第一特征信息输入到待优化的音乐理解模型中;
通过待优化的音乐理解模型对第一特征信息进行编码处理,映射得到预测输出向量;预测输出向量中包括第一元素、第二元素、第三元素和第四元素,其中,第一元素用于表征第二音频数据在类型维度上的预测类别信息,第二元素用于表征第二音频数据在速度维度上的预测类别信息,第三元素用于表征第二音频数据在情绪维度上的预测类别信息,第四元素用于表征第二音频数据在配器维度上的预测类别信息。
可选地,训练单元具体用于:
根据第一标签信息和预测输出向量,确定在类型维度上预测的第一子损失值、在速度维度上预测的第二子损失值、在情绪维度上预测的第三子损失值以及在配器维度上预测的第四子损失值;
对第一子损失值、第二子损失值、第三子损失值和第四子损失值进行加权求和,得到预测的第一损失值。
可选地,装置还包括添加单元,添加单元具体用于:
从第一音频数据中随机确定若干目标音频数据;
获取各个目标音频数据对应的第二标签信息;第二标签信息用于表征目标音频数据在至少两个不同维度上的真实类别信息;
将目标音频数据和第二标签信息添加到第二训练数据集中。
可选地,装置还包括提取单元,提取单元具体用于:
将第二音频数据输入到深度神经网络中,通过深度神经网络提取得到第一特征信息;
其中,深度神经网络基于第一音频数据训练得到。
可以理解的是,如图2所示的音乐生成模型的训练数据生成方法实施例中的内容均适用于本音乐生成模型的训练数据生成装置实施例中,本音乐生成模型的训练数据生成装置实施例所具体实现的功能与如图2所示的音乐生成模型的训练数据生成方法实施例相同,并且达到的有益效果与如图2所示的音乐生成模型的训练数据生成方法实施例所达到的有益效果也相同。
本申请实施例还公开了一种电子设备,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当至少一个程序被至少一个处理器执行,使得至少一个处理器实现如图2所示的音乐生成模型的训练数据生成方法实施例、图5所示的音乐生成模型的训练方法实施例或者图6所示的音乐生成方法实施例。
可以理解的是,如图2所示的音乐生成模型的训练数据生成方法实施例、图5所示的音乐生成模型的训练方法实施例或者图6所示的音乐生成方法实施例中的内容均适用于本电子设备实施例中,本电子设备实施例所具体实现的功能与如图2所示的音乐生成模型的训练数据生成方法实施例、图5所示的音乐生成模型的训练方法实施例或者图6所示的音乐生成方法实施例相同,并且达到的有益效果与如图2所示的音乐生成模型的训练数据生成方法实施例、图5所示的音乐生成模型的训练方法实施例或者图6所示的音乐生成方法实施例所达到的有益效果也相同。
本申请实施例的电子设备,可以是终端设备、计算机设备或者服务器设备。
示例性地,参照图10,图10为本申请实施例中提供的一种电子设备的结构示意图。以电子设备是终端设备为例,图10中,终端设备1000可以包括RF(Radio Frequency,射频)电路1010、包括有一个或一个以上计算机可读存储介质的存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、短距离无线传输模块1070、包括有一个或者一个以上处理核心的处理器1080、以及电源1090等部件。本领域技术人员可以理解,图10中示出的设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
RF电路1010可用于收发信息或通话过程中信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器1080处理;另外,将涉及上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、对象身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯***)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(CodeDivision Multiple Access,码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service,短消息服务)等。
存储器1020可用于存储软件程序以及模块(或者单元)。处理器1080通过运行存储在存储器1020的软件程序以及模块(或者单元),从而执行各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能)等;存储数据区可存储根据终端设备1000的使用所创建的数据(比如音频数据、电话本)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1020还可以包括存储器控制器,以提供处理器1080和输入单元1030对存储器1020的访问。虽然图10示出了RF电路1010,但是可以理解的是,其并不属于终端设备1000的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
输入单元1030可用于接收输入的数字或字符信息,以及产生与对象设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元1030可包括触敏表面1031以及其他输入设备1032。触敏表面1031,也称为触摸显示屏或者触控板,可收集对象在其上或附近的触摸操作,并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测对象的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的指令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1031。除了触敏表面1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由对象输入的信息或提供给对象的信息以及控制终端设备1000的各种图形对象接口,这些图形对象接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1040可包括显示面板1041,可选的,可以采用LCD(Liquid CrystalDisplay,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1041。进一步地,触敏表面1031可覆盖在显示面板1041之上,当触敏表面1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中,触敏表面1031与显示面板1041是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面1031与显示面板1041集成而实现输入和输出功能。
终端设备1000还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在终端设备1000移动到耳边时,关闭显示面板1041或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端设备1000还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供对象与终端设备1000之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给另一电子设备,或者将音频数据输出至存储器1020以便进一步处理。音频电路1060还可能包括耳塞插孔,以提供外设耳机与终端设备1000的通信。
短距离无线传输模块1070可以是WIFI(wireless fidelity,无线保真)模块、蓝牙模块或红外线模块等。终端设备1000通过短距离无线传输模块1070可以与其他设备上设置的无线传输模块进行信息的传输。
处理器1080是终端设备1000的控制中心,利用各种接口和线路连接整个设备的各个部分,通过运行或执行存储在存储器1020内的软件程序或模块,以及调用存储在存储器1020内的数据,执行终端设备1000的各种功能和处理数据,从而对设备进行整体管控。可选地,处理器1080可包括一个或多个处理核心;可选地,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、对象界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
终端设备1000还包括给各个部件供电的电源1090(比如电池),可选地,电源1090可以通过电源管理***与处理器1080逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源1090还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端设备1000还可以包括摄像头、蓝牙模块等,在此不再赘述。
示例性地,以电子设备是服务器设备为例,参照图11,服务器设备1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器1110(简称为CPU,Central Processing Units)和存储器1160,一个或一个以上存储应用程序1133或数据1132的存储介质1130(例如一个或一个以上海量存储装置)。其中,存储器1160和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上单元或者模块,每个单元或者模块可以包括对服务器设备1100中的一系列操作指令。更进一步地,中央处理器1110可以设置为与存储介质1130通信,在服务器设备1100上执行存储介质1130中的一系列操作指令。
服务器设备1100还可以包括一个或一个以上电源1120,一个或一个以上有线或无线网络接口1140,一个或一个以上输入输出接口1150,以及一个或一个以上操作***1131。
服务器设备1100中的中央处理器1110可以用于执行如图2所示的音乐生成模型的训练数据生成方法实施例、图5所示的音乐生成模型的训练方法实施例或者图6所示的音乐生成方法实施例。
本申请实施例还公开了一种计算机可读存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现如图2所示的音乐生成模型的训练数据生成方法实施例、图5所示的音乐生成模型的训练方法实施例或者图6所示的音乐生成方法实施例。
可以理解的是,图2所示的音乐生成模型的训练数据生成方法实施例、图5所示的音乐生成模型的训练方法实施例或者图6所示的音乐生成方法实施例中的内容均适用于本计算机可读存储介质实施例中,本计算机可读存储介质实施例所具体实现的功能与图2所示的音乐生成模型的训练数据生成方法实施例、图5所示的音乐生成模型的训练方法实施例或者图6所示的音乐生成方法实施例相同,并且达到的有益效果与图2所示的音乐生成模型的训练数据生成方法实施例、图5所示的音乐生成模型的训练方法实施例或者图6所示的音乐生成方法实施例所达到的有益效果也相同。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在上述的计算机可读存储介质中;图10、图11所示的电子设备的处理器可以从上述的计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图2所示的音乐生成模型的训练数据生成方法实施例、图5所示的音乐生成模型的训练方法实施例或者图6所示的音乐生成方法实施例。
可以理解的是,图2所示的音乐生成模型的训练数据生成方法实施例、图5所示的音乐生成模型的训练方法实施例或者图6所示的音乐生成方法实施例中的内容均适用于本计算机程序产品或计算机程序实施例中,本计算机程序产品或计算机程序实施例所具体实现的功能与图2所示的音乐生成模型的训练数据生成方法实施例、图5所示的音乐生成模型的训练方法实施例或者图6所示的音乐生成方法实施例相同,并且达到的有益效果与图2所示的音乐生成模型的训练数据生成方法实施例、图5所示的音乐生成模型的训练方法实施例或者图6所示的音乐生成方法实施例所达到的有益效果也相同。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本申请的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本申请,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本申请是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本申请。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本申请的范围,本申请的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本申请的实施方式,本领域的普通技术人员可以理解:在不脱离本申请的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。
以上是对本申请的较佳实施进行了具体说明,但本申请并不限于实施例,熟悉本领域的技术人员在不违背本申请精神的前提下可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (14)

1.一种音乐生成模型的训练数据生成方法,其特征在于,所述方法包括:
获取第一样本音乐的第一音频数据和预先设定的生成指令信息;所述生成指令信息用于指示目标语言模型生成针对所述第一音频数据的第一描述信息;
通过音乐理解模型对所述第一音频数据进行分析处理,得到所述第一音频数据对应的第一预测结果;其中,所述第一预测结果用于表征所述第一音频数据在至少两个不同维度上的预测类别信息;所述维度包括频率维度、音调维度、音色维度、人声维度、配器维度、语种维度、类型维度、速度维度、情绪维度中的至少两种;
将所述第一预测结果和所述生成指令信息输入到所述目标语言模型中,通过所述目标语言模型生成所述第一音频数据对应的第一描述信息;
根据各个所述第一音频数据以及所述第一音频数据对应的第一描述信息,构造得到用于训练音乐生成模型的第一训练数据集;
所述通过音乐理解模型对所述第一音频数据进行分析处理,得到所述第一音频数据对应的第一预测结果,其具体包括:
通过音乐理解模型从至少两个不同维度上预测所述第一音频数据的预测类别信息,综合所有待预测的维度的预测类别信息,得到所述第一音频数据对应的第一预测结果。
2.根据权利要求1所述的音乐生成模型的训练数据生成方法,其特征在于,所述获取第一样本音乐的第一音频数据的步骤之后,所述方法还包括筛选流程;所述筛选流程包括以下步骤中的至少一者:
检测所述第一音频数据中是否包含人声成分,若所述第一音频数据中包含人声成分,删除所述第一音频数据;
或者,对所述第一音频数据进行音质检测,得到所述第一音频数据对应的音质评分,将所述音质评分和预设的评分阈值进行比较,若所述音质评分小于或者等于所述评分阈值,删除所述音质评分对应的第一音频数据。
3.根据权利要求2所述的音乐生成模型的训练数据生成方法,其特征在于,所述对所述第一音频数据进行音质检测,得到所述第一音频数据对应的音质评分,包括:
对所述第一音频数据进行音质检测,得到所述第一音频数据对应的采样率数据和噪声含量数据;
根据所述采样率数据和所述噪声含量数据,得到所述第一音频数据对应的音质评分;
其中,所述第一音频数据对应的音质评分和所述采样率数据正相关,所述第一音频数据对应的音质评分和所述噪声含量数据负相关。
4.根据权利要求1所述的音乐生成模型的训练数据生成方法,其特征在于,所述获取第一样本音乐的第一音频数据的步骤之后,所述方法还包括:
检测所述第一音频数据的播放时长;
将所述播放时长和预设的时长阈值进行比较;
若所述播放时长大于或者等于所述时长阈值,对所述第一音频数据进行截断处理,得到至少两个新的第一音频数据。
5.根据权利要求1-4中任一项所述的音乐生成模型的训练数据生成方法,其特征在于,所述音乐理解模型通过以下步骤训练得到:
获取第二训练数据集;所述第二训练数据集包括批量的第二样本音乐的第二音频数据和各个所述第二音频数据对应的第一标签信息;其中,所述第一标签信息用于表征所述第二音频数据在至少两个不同维度上的真实类别信息;
提取所述第二音频数据的第一特征信息;
将所述第一特征信息输入到待优化的音乐理解模型中,通过所述待优化的音乐理解模型预测得到所述第二音频数据对应的第二预测结果;所述第二预测结果用于表征所述第二音频数据在至少两个不同维度上的预测类别信息;
根据所述第一标签信息和所述第二预测结果,确定预测的第一损失值;
根据所述第一损失值,对所述待优化的音乐理解模型进行参数更新,得到训练好的音乐理解模型。
6.根据权利要求5所述的音乐生成模型的训练数据生成方法,其特征在于,所述维度包括类型维度、速度维度、情绪维度和配器维度;所述将所述第一特征信息输入到待优化的音乐理解模型中,通过所述待优化的音乐理解模型预测得到所述第二音频数据对应的第二预测结果,包括:
将所述第一特征信息输入到待优化的音乐理解模型中;
通过所述待优化的音乐理解模型对所述第一特征信息进行编码处理,映射得到预测输出向量;所述预测输出向量中包括第一元素、第二元素、第三元素和第四元素,其中,所述第一元素用于表征所述第二音频数据在所述类型维度上的预测类别信息,所述第二元素用于表征所述第二音频数据在所述速度维度上的预测类别信息,所述第三元素用于表征所述第二音频数据在所述情绪维度上的预测类别信息,所述第四元素用于表征所述第二音频数据在所述配器维度上的预测类别信息。
7.根据权利要求6所述的音乐生成模型的训练数据生成方法,其特征在于,所述根据所述第一标签信息和所述第二预测结果,确定预测的第一损失值,包括:
根据所述第一标签信息和所述预测输出向量,确定在所述类型维度上预测的第一子损失值、在所述速度维度上预测的第二子损失值、在所述情绪维度上预测的第三子损失值以及在所述配器维度上预测的第四子损失值;
对所述第一子损失值、所述第二子损失值、所述第三子损失值和所述第四子损失值进行加权求和,得到预测的第一损失值。
8.根据权利要求5所述的音乐生成模型的训练数据生成方法,其特征在于,所述获取第二训练数据集的步骤之后,所述方法还包括:
从所述第一音频数据中随机确定若干目标音频数据;
获取各个所述目标音频数据对应的第二标签信息;所述第二标签信息用于表征所述目标音频数据在至少两个不同维度上的真实类别信息;
将所述目标音频数据和所述第二标签信息添加到所述第二训练数据集中。
9.根据权利要求5所述的音乐生成模型的训练数据生成方法,所述提取所述第二音频数据的第一特征信息,包括:
将所述第二音频数据输入到深度神经网络中,通过所述深度神经网络提取得到第一特征信息;
其中,所述深度神经网络基于所述第一音频数据训练得到。
10.一种音乐生成模型的训练方法,其特征在于,所述方法包括:
获取通过权利要求1至9任意一项所述的音乐生成模型的训练数据生成方法处理得到的第一训练数据集;所述第一训练数据集包括多个第一音频数据以及所述第一音频数据对应的第一描述信息;
将所述第一描述信息输入到待优化的音乐生成模型中,通过所述待优化的音乐生成模型预测生成第三音频数据;
根据所述第一音频数据和所述第三音频数据,确定预测的第二损失值;
根据所述第二损失值,对所述待优化的音乐生成模型进行参数更新,得到训练好的音乐生成模型。
11.一种音乐生成方法,其特征在于,所述方法包括:
获取目标对象输入的第二描述信息;
将所述第二描述信息输入到通过权利要求10所述的音乐生成模型的训练方法训练得到的音乐生成模型中,通过所述音乐生成模型预测生成第四音频数据;
将所述第四音频数据反馈给所述目标对象。
12.一种音乐生成模型的训练数据生成装置,其特征在于,所述装置包括:
获取单元,用于获取第一样本音乐的第一音频数据和预先设定的生成指令信息;所述生成指令信息用于指示目标语言模型生成针对所述第一音频数据的第一描述信息;
处理单元,用于通过音乐理解模型对所述第一音频数据进行分析处理,得到所述第一音频数据对应的第一预测结果;其中,所述第一预测结果用于表征所述第一音频数据在至少两个不同维度上的预测类别信息;所述维度包括频率维度、音调维度、音色维度、人声维度、配器维度、语种维度、类型维度、速度维度、情绪维度中的至少两种;
生成单元,用于将所述第一预测结果和所述生成指令信息输入到所述目标语言模型中,通过所述目标语言模型生成所述第一音频数据对应的第一描述信息;
构造单元,用于根据各个所述第一音频数据以及所述第一音频数据对应的第一描述信息,构造得到用于训练音乐生成模型的第一训练数据集;
所述通过音乐理解模型对所述第一音频数据进行分析处理,得到所述第一音频数据对应的第一预测结果,其具体包括:
通过音乐理解模型从至少两个不同维度上预测所述第一音频数据的预测类别信息,综合所有待预测的维度的预测类别信息,得到所述第一音频数据对应的第一预测结果。
13.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11任意一项所述的方法。
14.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11任意一项所述的方法。
CN202311198418.3A 2023-09-18 2023-09-18 音乐生成模型的训练数据生成方法、装置、设备及介质 Active CN116959393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311198418.3A CN116959393B (zh) 2023-09-18 2023-09-18 音乐生成模型的训练数据生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311198418.3A CN116959393B (zh) 2023-09-18 2023-09-18 音乐生成模型的训练数据生成方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN116959393A CN116959393A (zh) 2023-10-27
CN116959393B true CN116959393B (zh) 2023-12-22

Family

ID=88449475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311198418.3A Active CN116959393B (zh) 2023-09-18 2023-09-18 音乐生成模型的训练数据生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116959393B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690415B (zh) * 2024-02-01 2024-04-30 武汉人工智能研究院 音频描述信息生成方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829482A (zh) * 2019-01-04 2019-05-31 平安科技(深圳)有限公司 歌曲训练数据处理方法、装置及计算机可读存储介质
CN109977255A (zh) * 2019-02-22 2019-07-05 北京奇艺世纪科技有限公司 模型生成方法、音频处理方法、装置、终端及存储介质
WO2020082574A1 (zh) * 2018-10-26 2020-04-30 平安科技(深圳)有限公司 一种基于生成对抗网络的音乐生成方法及装置
CN113035162A (zh) * 2021-03-22 2021-06-25 平安科技(深圳)有限公司 民族音乐生成方法、装置、设备及存储介质
CN113470601A (zh) * 2021-07-07 2021-10-01 南昌航空大学 一种自动作曲方法及***
CN113763910A (zh) * 2020-11-25 2021-12-07 北京沃东天骏信息技术有限公司 一种音乐生成方法和装置
CN116682399A (zh) * 2023-06-13 2023-09-01 上海君依悦远健康科技有限公司 一种音乐生成方法、***、电子设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11862144B2 (en) * 2020-12-16 2024-01-02 Microsoft Technology Licensing, Llc Augmented training data for end-to-end models
US12026198B2 (en) * 2021-07-23 2024-07-02 Lemon Inc. Identifying music attributes based on audio data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020082574A1 (zh) * 2018-10-26 2020-04-30 平安科技(深圳)有限公司 一种基于生成对抗网络的音乐生成方法及装置
CN109829482A (zh) * 2019-01-04 2019-05-31 平安科技(深圳)有限公司 歌曲训练数据处理方法、装置及计算机可读存储介质
CN109977255A (zh) * 2019-02-22 2019-07-05 北京奇艺世纪科技有限公司 模型生成方法、音频处理方法、装置、终端及存储介质
CN113763910A (zh) * 2020-11-25 2021-12-07 北京沃东天骏信息技术有限公司 一种音乐生成方法和装置
CN113035162A (zh) * 2021-03-22 2021-06-25 平安科技(深圳)有限公司 民族音乐生成方法、装置、设备及存储介质
CN113470601A (zh) * 2021-07-07 2021-10-01 南昌航空大学 一种自动作曲方法及***
CN116682399A (zh) * 2023-06-13 2023-09-01 上海君依悦远健康科技有限公司 一种音乐生成方法、***、电子设备及介质

Also Published As

Publication number Publication date
CN116959393A (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN110782870B (zh) 语音合成方法、装置、电子设备及存储介质
Shuo et al. The construction of internet+ piano intelligent network teaching system model
CN110851650B (zh) 一种评论输出方法、装置、以及计算机存储介质
CN116959393B (zh) 音乐生成模型的训练数据生成方法、装置、设备及介质
Kuang et al. [Retracted] Popular Song Composition Based on Deep Learning and Neural Network
Hu [Retracted] Music Emotion Research Based on Reinforcement Learning and Multimodal Information
Zhang [Retracted] Practice and Exploration of Music Solfeggio Teaching Based on Data Mining Technology
Xu et al. Paralinguistic singing attribute recognition using supervised machine learning for describing the classical tenor solo singing voice in vocal pedagogy
Xie et al. A database for aesthetic classification of Chinese traditional music
Cai et al. Music creation and emotional recognition using neural network analysis
Kai [Retracted] Optimization of Music Feature Recognition System for Internet of Things Environment Based on Dynamic Time Regularization Algorithm
Yu Research on multimodal music emotion recognition method based on image sequence
Na et al. Music Recognition and Classification Algorithm considering Audio Emotion
Liu Lute acoustic quality evaluation and note recognition based on the softmax regression BP neural network
Kreković et al. An algorithm for controlling arbitrary sound synthesizers using adjectives
Zhang et al. Supervised and unsupervised sound retrieval by vocal imitation
Huang et al. Research on music emotion intelligent recognition and classification algorithm in music performance system
Liew et al. A sonification of cross-cultural differences in happiness-related tweets
Wei [Retracted] Intonation Characteristics of Singing Based on Artificial Intelligence Technology and Its Application in Song‐on‐Demand Scoring System
Cheng et al. [Retracted] Construction of AI Environmental Music Education Application Model Based on Deep Learning
Zhang et al. A new fuzzy cognitive map learning algorithm for speech emotion recognition
Acevedo Harmonic Schemata of Popular Music: An Empirical Investigation of Analytical Patterns and Their Mental Representations
Wang Music composition and emotion recognition using big data technology and neural network algorithm
Lin [Retracted] Design of the Violin Performance Evaluation System Based on Mobile Terminal Technology
Peng Piano Players’ Intonation and Training Using Deep Learning and MobileNet Architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant