CN113780811A

CN113780811A - 乐器演奏评估方法、装置、设备及存储介质

Info

Publication number: CN113780811A
Application number: CN202111064034.3A
Authority: CN
Inventors: 张剑; 蒋慧军; 徐伟; 陈又新; 韩宝强; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-10
Anticipated expiration: 2041-09-10
Also published as: CN113780811B

Abstract

本发明提出一种乐器演奏评估方法、装置、设备及存储介质，涉及人工智能与数据处理技术领域，其中方法包括：通过获取相关乐谱的用户演奏数据，分别根据用户演奏数据和相关乐谱的大师演奏数据得到评价数据集和参考数据集，将评价数据集和参考数据集输入预先训练的演奏评估模型，输出用户的演奏评分，其中，预先训练的演奏评估模型由马尔可夫决策过程生成，并能够根据演奏评分自适应更新。与相关技术相比，能够从准确度、演奏技巧等方面对用户与大师演奏的差距进行综合评估，结合大师演奏数据引导用户既学习了演奏方法也学习大师演奏技巧。并且为每个用户制定其专属的乐器学习计划，提高乐器学习效率，降低用户的学习成本。

Description

乐器演奏评估方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能与数据处理技术领域，尤其涉及一种乐器演奏评估方法、装置、设备及存储介质。

背景技术

现如今传统乐器的学习，大多需要专业的指导老师进行现场指导，一般包括上乐器***或者请老师一对一进行辅导的方式。乐器***大多是老师进行一对多指导，由于每个学员的资质以及学习进度都不相同，辅导老师的教学进度难以兼顾所有学员，学生自行练习时，由于没有老师进行辅导监督，在练习过程中很容易出现个别音节演奏错误而无法被发现的情况，这样长期以往下去会导致学习效率和质量低下，不利于学生提升学习效果。而一对一辅导的方式，对于乐器老师的能力依赖度较高，学习效果主要凭借老师的主观评价，受限于时间、师资等客观因素，导致效率较低，或无法得到客观的评价，并且专业的乐器老师教学费用昂贵，造成乐器的学习成本较高。

现如今的移动互联网时代，随着人工智能以及数据处理技术的发展，提出了一些对用户的演奏数据利用人工智能训练演奏效果评估模型进行演奏数据分析并打分，从而指导用户学***，其缺点是仅依赖于声音的特定物理特征，而忽略了演奏技巧对声音的影响。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供一种乐器演奏评估方法、装置、设备及存储介质，能够自适应更新演奏评估模型，使得在用户学习乐器的不同学习阶段按照不同评价标准进行评判，并且结合大师演奏数据引导用户学习演奏方法以及大师演奏技巧，提高乐器学习效率，降低用户的学习成本。

第一方面，本申请实施例提供一种乐器演奏评估方法，包括：

获取相关乐谱的用户演奏数据；

分别根据所述用户演奏数据和所述相关乐谱的大师演奏数据得到评价数据集和参考数据集；

将所述评价数据集和所述参考数据集输入预先训练的演奏评估模型，输出用户的演奏评分，所述预先训练的演奏评估模型由马尔可夫决策过程生成，并能够根据所述演奏评分自适应更新。

在一可选的实现方式中，所述分别根据所述用户演奏数据和所述相关乐谱的大师演奏数据得到评价数据集和参考数据集，包括：

根据所述用户演奏数据采样得到用户状态向量和用户动作向量，所述用户状态向量和所述用户动作向量构成所述评价数据集；

根据所述相关乐谱的大师演奏数据采样得到大师状态向量和大师动作向量，所述大师状态向量和所述大师动作向量构成所述参考数据集。

在一可选的实现方式中，所述根据所述用户演奏数据采样得到用户状态向量，包括：

由预先训练的状态编码模型生成所述用户状态向量；

所述根据所述相关乐谱的大师演奏数据采样得到大师状态向量，包括：

由预先训练的状态编码模型生成所述大师状态向量；

所述预先训练的状态编码模型用于提取演奏数据中特征值，并将所述特征值转化为对应的状态向量。

在一可选的实现方式中，所述状态编码模型包括：Music BERT模型，所述状态编码模型通过以下训练过程训练得到：

构建由音乐样本构成的训练语料集，其中，所述训练语料集包含音乐样本以及对应的语料标签；

利用所述状态编码模型对所述音乐样本进行预编码得到第一编码结果；

根据所述第一编码结果与所述语料标签之间的编码误差，调整所述状态编码模型参数，从而训练得到所述状态编码模型。

在一可选的实现方式中，所述用户动作向量和所述大师动作向量均由预设帧长的梅尔频谱表示。

在一可选的实现方式中，所述演奏评估模型的训练过程包括：

利用用户演奏数据样本和大师演奏数据样本得到训练数据集，所述训练数据集包括用户状态向量样本和用户状态向量样本；

将所述训练数据集输入到所述演奏评估模型中，输出演奏评分结果；

根据目标函数收敛条件，调整所述演奏评估模型中评价函数的权值参数，从而得到所述演奏评估模型，所述评价函数为所述马尔可夫决策过程中的奖励函数。

在一可选的实现方式中，所述目标函数收敛条件为：使用梯度上升法使得目标函数最大化；

所述目标函数最大化的过程包括：

获取用户状态向量关于评价函数梯度计算得到的第一期望；

获取大师状态向量关于评价函数梯度计算得到的第二期望；

根据所述第一期望和所述第二期望的期望和得到所述目标函数；

最大化所述期望和，以使得所述目标函数最大化。

在一可选的实现方式中，所述演奏评估模型能够根据所述演奏评分自适应更新，包括：

当所述演奏评分高于预设的评分阈值，更新所述评价函数的权值参数，从而更新所述演奏评估模型。

第二方面，本申请实施例提供一种乐器演奏评估装置，包括：

用户演奏数据获取模块，用于获取相关乐谱的用户演奏数据；

数据集获取模块，用于分别根据所述用户演奏数据和所述相关乐谱的大师演奏数据得到评价数据集和参考数据集；

演奏评分模块，用于将所述评价数据集和所述参考数据集输入预先训练的演奏评估模型，输出用户的演奏评分，所述预先训练的演奏评估模型由马尔可夫决策过程生成，并能够根据所述演奏评分自适应更新。

第三方面，一种计算机设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器用于根据所述程序执行如第一方面中任一项所述的乐器演奏评估方法。

第四方面，本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行第一方面中任意一项所述的乐器演奏评估方法。

本申请实施例第一方面提供的一种乐器演奏评估方法，通过获取相关乐谱的用户演奏数据，分别根据用户演奏数据和相关乐谱的大师演奏数据得到评价数据集和参考数据集，将评价数据集和参考数据集输入预先训练的演奏评估模型，输出用户的演奏评分，其中，预先训练的演奏评估模型由马尔可夫决策过程生成，并能够根据演奏评分自适应更新。与相关技术相比，该方法并不限制演奏乐器的种类，具有普适性。另外，与相关技术中仅依赖于音频物理特征方法不同，该方法利用用户演奏数据与大师演奏数据同时训练得到动态自适应演奏评估模型，能够从准确度、演奏技巧等方面对用户与大师演奏的差距进行综合评估，结合大师演奏数据引导用户既学习了演奏方法也学习大师演奏技巧。并且根据演奏评分自适应更新演奏评估模型，能够对用户学习乐器的不同学习阶段中每一次的演奏数据，均按照不同评价标准进行评估分析，为每个用户制定其专属的乐器学习计划，提高乐器学习效率，降低用户的学习成本。

可以理解的是，上述第二方面至第四方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同，可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的示例性***架构的示意图；

图2是本申请一个实施例提供的乐器演奏评估方法的流程图；

图3是本申请一个实施例提供的乐器演奏评估方法的状态空间示意图；

图4是本申请一个实施例提供的乐器演奏评估方法的又一流程图；

图5是本申请一个实施例提供的乐器演奏评估方法的又一流程图；

图6a至图6b是本申请一个实施例提供的乐器演奏评估方法中演奏声音示意图和梅尔频谱示意图；

图7是本申请一个实施例提供的乐器演奏评估方法的又一流程图；

图8是本申请一个实施例提供的乐器演奏评估方法的又一流程图；

图9是本申请一个实施例提供的乐器演奏评估方法的演奏评价模型训练框架示意图；

图10是本申请一个实施例提供的乐器演奏评估方法的又一流程图；

图11是本申请一个实施例提供的乐器演奏评估装置的结构框图；

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请实施例。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请实施例的描述。

需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

还应当理解，在本申请实施例说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请实施例的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

现如今传统乐器的学***日益增长的需要。

现如今的移动互联网时代，随着人工智能以及数据处理技术的发展，提出了一些对用户的演奏数据利用人工智能训练演奏效果评估模型进行演奏数据分析并打分，从而指导用户学***，这类方法集中在通过获取演奏音频中的特征(如按键或拨弦的初始时间点、声音频率和持续时间)来进行判断，其缺点是仅依赖于声音的特定物理特征，而忽略了演奏技巧对声音的影响。

本申请实施例提供了一种乐器演奏评估方法，通过获取相关乐谱的用户演奏数据，分别根据用户演奏数据和相关乐谱的大师演奏数据得到评价数据集和参考数据集，将评价数据集和参考数据集输入预先训练的演奏评估模型，输出用户的演奏评分，其中，预先训练的演奏评估模型由马尔可夫决策过程生成，并能够根据演奏评分自适应更新。与相关技术相比，该方法并不限制演奏乐器的种类，具有普适性。另外，与相关技术中仅依赖于音频物理特征方法不同，该方法利用用户演奏数据与大师演奏数据同时训练得到动态自适应演奏评估模型，能够从准确度、演奏技巧等方面对用户与大师演奏的差距进行综合评估，结合大师演奏数据引导用户既学习了演奏方法也学习大师演奏技巧。并且根据演奏评分自适应更新演奏评估模型，能够对用户学习乐器的不同学习阶段中每一次的演奏数据，均按照不同评价标准进行评估分析，为每个用户制定其专属的乐器学习计划，提高乐器学习效率，降低用户的学习成本。

下面结合附图，对本申请实施例作进一步阐述。

图1示出了可以应用本发明实施例的技术方案的示例性***架构的示意图。

如图1所示，***架构100可以包括终端设备(如图1中所示台式计算机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是其它的具有显示屏幕的终端设备等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

在本发明的一个实施例中，用户可以利用终端设备101(也可以是终端设备102或103)向服务器105上传相关乐谱的用户演奏数据，该相关乐谱的用户演奏数据可以是用户每次训练自行录制的演奏片段或者是利用外部接收装置(例如电子钢琴)接收乐器的演奏数据。服务器105在获取到这些相关乐谱的用户演奏数据之后，分别根据用户演奏数据和相关乐谱的大师演奏数据(大师演奏数据可以预先保存在相关的数据库中，服务器从中选取相关乐谱的大师演奏数据)得到评价数据集和参考数据集，然后将评价数据集和参考数据集输入预先训练的演奏评估模型，输出用户的演奏评分。能够从准确度、演奏技巧等方面对用户与大师演奏的差距进行综合评估，结合大师演奏数据引导用户既学习了演奏方法也学习大师演奏技巧。并且为每个用户制定其专属的乐器学习计划，提高乐器学习效率，降低用户的学习成本。

需要说明的是，本发明实施例所提供的乐器演奏评估方法一般由服务器105执行，相应地，乐器演奏评估装置一般设置于服务器105中。但是，在本发明的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本发明实施例所提供的乐器演奏评估方法。

本申请实施例描述的***架构以及应用场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着***架构的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。本领域技术人员可以理解的是，图1中示出的***架构并不构成对本申请实施例的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

基于上述***架构，提出本申请实施例的乐器演奏评估方法的各个实施例。

如图2所示，图2是本申请一个实施例提供的乐器演奏评估方法的流程图，包括但不限于有步骤S110和步骤S130。

步骤S110，获取相关乐谱的用户演奏数据。

在一实施例中，用户根据需求选择要演奏的乐曲，并根据对应的乐谱进行演奏，演奏完成后，将每次演奏时自行录制演奏片段通过终端设备上传到服务器或者是利用外部接收装置(例如电子钢琴)接收乐器的演奏数据上传到服务器，以便服务器能够获取相关乐谱(即用户选择的乐曲对应的乐谱)的用户演奏数据。

步骤S120，分别根据用户演奏数据和相关乐谱的大师演奏数据得到评价数据集和参考数据集。

在一实施例中，大师演奏数据可以预先存储在相关数据库中，根据相关乐谱从数据库中调取相应的大师演奏数据。然后利用采样的方式在用户演奏数据和大师演奏数据中抽取样本得到对应的评价数据集(对应用户演奏数据)和参考数据集(对应大师演奏数据)。

步骤S130，将评价数据集和参考数据集输入预先训练的演奏评估模型，输出用户的演奏评分，预先训练的演奏评估模型由马尔可夫决策过程生成，并能够根据演奏评分自适应更新。

在一实施例中，马尔可夫决策过程(Markov Decision Process,MDP)的数学模型是一种序贯决策的数学模型，用于在***状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。马尔可夫决策过程是利用强化学习的思想，强化学习又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。其主要思想是智能体通过与环境交互在试错中学习，需要环境能够给出明确的奖赏反馈，从而实现寻找到最大化累积奖赏的策略。

由于乐器学习演奏评价较为困难，即无法通过手工设置给出合适的奖励函数，因此本实施例在强化学习的基础上进一步引入模仿学习，模仿学习(imitative learning)是指以仿效榜样的行为方式为特征的一种学习模式，区别于通过直接对刺激作出反应、以尝试错误为特征的直接学习。通过让用户模仿大师演奏数据(即参考数据集)学习决策，改变自己的演奏行为，与一般的强化学习不同的是，本实施例采用马尔可夫决策过程无需从环境中获得奖赏反馈，其反馈信息来自于大师的演奏行为，通过这种方法引导用户学习大师的演奏方法也学习大师演奏技巧。

本实施例中将学***，实现让其通过演奏训练更加接近大师的演奏水平。

在一实施例中，根据用户每一阶段的演奏情况，通过演奏评分自适应更新演奏评估模型，从而实现在用户学***，能够显著提高学习效率。

在一实施例中，利用强化学习建立马尔可夫决策过程以解决乐器演奏评估问题，由一个五元组表示：(S,A,P,R,γ)，其中，S表示环境中的状态集合(即上述用户状态向量和大师状态向量)；A表示待训练的智能体(即学习演奏技巧的用户)的动作集合(即上述用户动作向量和大师动作向量)；P表示马尔可夫决策过程的状态转移函数；R表示奖励函数(即评价函数)；γ表示折扣因子，其表示未来的奖励在当前时刻的价值比例，用于调控未来奖赏与累积奖赏之间的关系。

下面分别对上述五元组中部分内容进行详细描述。

在一实施例中，S表示环境中的状态集合，其中S_t∈S，表示t时刻的状态。参照图3，为本实施例中状态空间示意图。

根据图3所述，在任意时刻t的状态向量S_t由两部分子向量合成，具体的t时刻状态向量S_t由背景向量(Context Vector)和演奏状态向量(Musical Score Vector)合成，表示为：

其中，S_t表示t时刻状态向量，

表示t时刻背景向量，

表示t时刻演奏状态向量，函数concentrate()表示向量合成。

进一步地，t时刻背景向量

由历史状态向量和当前状态向量得到，表示为：

其中，

表示t时刻背景向量，ρ表示衰变速率，

表示t-1时刻的历史状态向量，

表示t-1时刻的当前状态向量。

在一实施例中，ρ的取值范围是(0,1)，其主要是用于控制历史状态对当前状态的影响程度能够随着时间增长逐渐减少，即逐渐减少历史状态对当前状态的影响程度。

进一步地，t时刻演奏状态向量

由预先训练的状态编码模型对演奏数据编码得到，表示为：

其中，

表示t时刻演奏状态向量，

表示t时刻的演奏数据，函数encoder()表示编码。

在一实施例中，编码表示为映射(Embedding)，例如Word Embedding，就是把单词组成的句子映射到一个表征向量，本实施例中利用该编码原理，使用预先训练的状态编码模型提取演奏数据中状态特征值，并将状态特征值转化为对应的状态向量，便于进行数据处理。

另外，在一实施例中，参照图4，步骤S120包括但不限于有以下步骤：

步骤S121，根据用户演奏数据采样得到用户状态向量和用户动作向量，用户状态向量和用户动作向量构成评价数据集。

步骤S122，根据相关乐谱的大师演奏数据采样得到大师状态向量和大师动作向量，大师状态向量和大师动作向量构成参考数据集。

可以理解的是，上述步骤S121和步骤S122的执行顺序可以先后执行，也可以同时执行，本实施例对此不做限制。

在该实施例中，状态向量S_t包括用户状态向量Su_t和大师状态向量Sa_t。

对应的，用户状态向量Su_t由t时刻用户背景向量

和t时刻用户演奏状态向量合成

得到；大师状态向量Sa_t由t时刻用大师背景向量

和t时刻大师演奏状态向量合成

得到。

进一步地，用户演奏状态向量

和大师演奏状态向量

均由预先训练的状态编码模型生成，其中，预先训练的状态编码模型用于提取用户演奏数据和大师演奏数据中特征值，并分别将对应的特征值转化为对应的演奏状态向量。

在一实施例中，状态编码模型包括：Music BERT模型，该模型类似于Word2vec模型，是一种用来产生词向量的模型，将自然语言处理(Natural Language Processing,NLP)的思路应用在音乐领域，对音乐数据进行特征提取，并映射成相关向量的模型。Music BERT模型基于大规模预训练的音乐进行特征提取，音乐特征提取是指从音乐数据中理解音乐，涵盖许多音乐应用，如流派分类、情感分类和音乐作品匹配等方向。本实施例中利用该模型提取用户演奏数据和大师演奏数据中特征值，并分别将对应的特征值编码为对应的演奏状态向量。

在一实施例中，参照图5，状态编码模型通过以下训练步骤训练得到：

步骤S510，构建由音乐样本构成的训练语料集，其中，训练预料集包含音乐样本以及对应的语料标签。

本实施例为了提高模型编码的准确性，利用大量音乐数据构建音乐样本形成对应的训练语料集，其中包含音乐样本及对应的语料标签，例如样本1：[演奏数据片段，演奏状态向量标签]。

步骤S520，利用状态编码模型对音乐样本进行预编码得到第一编码结果。

步骤S530，根据第一编码结果与语料标签之间的编码误差，调整状态编码模型参数，从而训练得到状态编码模型。

本实施例中状态编码模型采用Music BERT模型，本质上是一种语言表示模型(Bidirectional Encoder Representations from Transformers，BERT)，该模型包含两个阶段，分别是预编码(pretraining)阶段和根据具体任务进行参数微调(finetuning)阶段，分别对应上述步骤S520和步骤S530。

在一实施例中，A表示待训练的智能体(即学习演奏技巧的用户)的动作集合，即用户动作向量和大师动作向量，其中，A_t∈A，表示t时刻的动作向量，对应的，t时刻用户动作向量表示为Aa_t，t时刻大师动作向量表示为Au_t。

本实施例中，将动作向量定义为演奏者(用户或者大师)根据相关乐谱演奏的声音，用户动作向量Aa_t和大师动作向量Au_t均由预设帧长的梅尔频谱(Mel Spectrogram)表示。

本实施例中用户演奏数据和大师演奏数据均表现为声谱图，由于声谱图往往是很大的一张图，因此为了得到合适大小的声音特征，通过梅尔标度将声谱图变换为梅尔频谱。

梅尔标度(mel-scale)又称梅尔刻度，是基于彼此等距的听众对音高感性判断的刻度。由于人类在检测低频差异方面要胜于高频。例如人类可以轻松分辨出500Hz和1000Hz之间的差异，但是即使之间的距离相同，也很难分辨出10000Hz和10500Hz之间的差异，因此提出梅尔刻度的概念。梅尔刻度和正常的频率之间的参考点定义是：将1000mel的音高指定为1000Hz的音调(tone)，高于听众阈值的40db以上；在500Hz以上，由听众来对越来越大的间隔进行判断以产生等间距的音高增量。梅尔频谱就是将频率转换为梅尔标度的频谱图。

在一实施例中，参考图6a至图6b，为本申请一实施例中演奏声音示意图和梅尔频谱示意图。图6a中用乐谱示意图表示对应时刻的演奏声音，用标准乐谱表示，图6b中表示声谱图变换后的梅尔频谱示意图。可见，预设帧长为t时，演奏的声音与预设帧长的梅尔频谱图有对应关系。

在一实施例中，P表示马尔可夫决策过程的状态转移函数。马尔可夫决策过程中，对于一个具体的状态S和它下一时刻的状态S’，两者之间的状态转移概率P(即从状态S转移到它对应的下一时刻的状态S’的概率)定义为：

P_SS'＝P[S_t+1＝S'|S_t＝S]

由上式可见，下一时刻的状态S’的产生与当前状态S有关，对应的，用户状态向量Su_t和大师状态向量Sa_t与其对应的前一时刻状态有关，而当前状态S与前一时刻的状态有关，因此可以推出下一个状态的产生跟所有历史状态是有关的。上述实施例中，利用衰变速率ρ来控制历史状态对当前状态的影响程度能够随着时间增长逐渐减少，即逐渐减少历史状态对当前状态的影响程度。

在一实施例中，R表示评价函数(即奖励函数)。本实施例的强化学习中，用户与环境一直在互动，在每个时刻t，用户都会接收到来自环境的状态S_t，基于这个状态S_t，用户会做出动作A_t，然后这个动作A_t作用在环境上，于是用户可以接收到一个奖励R_t+1，并且用户到达新的状态S_t+1，因此用户与环境之间的交互产生了一个序列，该序列即为本实施例的马尔可夫决策过程，表示为：

S₀,A₀,R₁,S₁,A₁,R₂,...

上述评价函数R表示状态S转移到下一时刻的状态S’时能够获得的奖励的期望，表示为：

R_S＝Ε[R_t+1|S_t＝S]

其中，R_S表示状态S转移到下一时刻的状态S’时能够获得的奖励，R_t+1表示t+1时刻的奖励，S_t表示t时刻的状态。

上述即本实施例中马尔可夫决策过程中各参数的含义。

在一实施例中，演奏评估模型由马尔可夫决策过程生成，对应的演奏评估模型中包含上述评价函数R。参照图7，演奏评估模型训练步骤包括但不限于有以下步骤

步骤S710，利用用户演奏数据样本和大师演奏数据样本得到训练数据集，其中训练数据集包括用户状态向量样本和用户状态向量样本。可通过构建包含大量演奏数据的数据库实现。

步骤S720，将上述训练数据集输入到演奏评估模型中，输出演奏评分结果；

步骤S730，根据目标函数收敛条件，调整演奏评估模型中评价函数的权值参数，从而得到演奏评估模型。

即本实施例中演奏评估模型的训练过程，主要是对其评价函数的权值参数进行训练。

由于不同状态之间转移时因为执行了动作才会产生，因此本实施例中，将评价函数R表示为D_w(s,a)，s表示状态向量，a表示动作向量，w表示权值参数，通过神经网络来表征评价函数，对其进行学习拟合，调整演奏评分结果和样本标签之间的误差，在拟合过程中寻找最优的权值参数w。学习得到合适的评价函数权值参数后，认为训练完成得到对应的演奏评估模型。在演奏评估模型中输入用户状态向量和用户动作向量，即可对其进行演奏评估，得到用户的演奏评分。

在一实施例中，目标函数收敛条件为：使用梯度上升法使得目标函数最大化，参照图8，目标函数最大化的步骤包括但不限于：

步骤S810，获取用户状态向量关于评价函数梯度计算得到的第一期望。

步骤S820，获取大师状态向量关于评价函数梯度计算得到的第二期望。

步骤S830，根据第一期望和第二期望的期望和得到目标函数。

步骤S840，最大化期望和，以使得目标函数最大化。

可以理解的是，步骤S810和步骤S820的执行顺序可以先后执行，也可以同时执行，本实施例对此不做限制。

在一实施例中，最大化目标函数表示为：

其中，D_w(s,a)表示评价函数，(s,a)～π表示用户演奏数据中采样得到的用户状态向量Su_t和用户动作向量Aa_t，(s,a)～π_E表示大师演奏数据中采样得到的大师状态向量Sa_t和大师动作向量Au_t，π和π_E分别表示用户策略和大师策略，即用户或者大师看到相关乐谱时进行演奏过程中，t时刻对某一状态向量S_t可能进行动作A_t的概率，

表示第一期望，E_(s,a)～π[log(1-D_w(s,a)]表示第二期望。

本实施例训练演奏评价模型时，通过对用户演奏数据和大师演奏数据进行采样，获取大量训练样本，对训练样本进行处理，估算梯度，利用梯度上升法最大化上述目标函数，同时训练评价函数R的权值参数w，得到训练好的演奏评价模型，用于输出用户的演奏评分。

参照图9，为本实施例中演奏评价模型训练框架示意图。

从图中可见，将用户演奏数据样本和大师演奏数据样本中的状态向量以及动作向量输入到评价函数中，其中用户动作向量与用户决策有关，通过用户状态向量关于评价函数梯度计算得到的第一期望和大师状态向量关于评价函数梯度计算得到的第二期望，最大化第一期望与第二期望的期望和，使得目标函数最大化，从而训练评价函数的权值参数w，进一步得到训练后的演奏评价模型。

在一实施例中，得到用户的演奏评分之后，根据演奏评分自适应更新演奏评估模型，具体是当演奏评分高于预设的评分阈值，更新评价函数的权值参数w，从而更新演奏评估模型。例如，通过更新目标函数梯度的方法更新评价函数的权值参数w，得到更新后的评价函数，从而得到更新后的演奏评估模型，权值参数w的更新过程表示为：

其中，

表示梯度。

如果用户的演奏评分超过预设的评分阈值，表明该用户的演奏水平较高，因此需要提升评判标准，本实施例通过更新评价函数，从而更新演奏评估模型的方式提高评判标准。更新过程包括：在本次演奏结束后，收集用户演奏数据至数据缓冲区作为训练数据，并使用该训练数据训练训练评价函数，从而得到更新后的训练演奏评估模型。利用更新的演奏评估模型指导用户后续演奏联系，多次循环，最终形成用户个性化的演奏评估模型，为每一个用户制定其专属的乐器学习计划，提高乐器学习效率，降低用户的学习成本。

在一实施例中，参照图10，为乐器演奏评估流程示意图，包括但不限于以下步骤：

步骤S1010，获取相关乐谱的用户演奏数据和大师演奏数据。

步骤S1020，从用户演奏数据和大师演奏数据进行采样，得到评价数据集和参考数据集。

步骤S1030，将评价数据集和参考数据集输入预先训练的演奏评估模型，输出用户的演奏评分。

步骤S1040，当演奏评分高于预设的评分阈值，收集用户演奏数据至数据缓冲区作为训练数据，以更新评价函数的权值参数，从而更新演奏评估模型。

步骤S1050，利用更新后的演奏评估模型继续评估用户的后续演奏。

另外，本申请实施例的一个实施例还提供了一种乐器演奏评估装置，参照图11，装置包括：

用户演奏数据获取模块111，用于获取相关乐谱的用户演奏数据；

数据集获取模块112，用于分别根据用户演奏数据和相关乐谱的大师演奏数据得到评价数据集和参考数据集；

演奏评分模块113，用于将评价数据集和参考数据集输入预先训练的演奏评估模型，输出用户的演奏评分，预先训练的演奏评估模型由马尔可夫决策过程生成，并能够根据演奏评分自适应更新。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

需要说明的是，本实施例中的乐器演奏评估装置，可以执行如图2所示实施例中的乐器演奏评估方法。即，本实施例中的乐器演奏评估装置和如图2所示实施例中的乐器演奏评估方法，均属于相同的发明构思，因此这些实施例具有相同的实现原理以及技术效果，此处不再详述。

另外，本申请实施例的一个实施例还提供了计算机设备，计算机设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。

处理器和存储器可以通过总线或者其他方式连接。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述实施例的乐器演奏评估方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行上述实施例中的乐器演奏评估方法，例如，执行以上描述的图2中的方法步骤S110至S130、图5中的方法步骤S510至S530等、图7中的方法步骤S710至S730等。

此外，本申请实施例的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述计算机设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的乐器演奏评估方法，例如，执行以上描述的图2中的方法步骤S110至S130、图5中的方法步骤S510至S530等、图7中的方法步骤S710至S730等。

又如，被上述计算机设备实施例中的一个处理器执行，可使得上述处理器执行上述实施例中的乐器演奏评估方法，例如，执行以上描述的图2中的方法步骤S110至S130、图5中的方法步骤S510至S530等、图7中的方法步骤S710至S730等。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请实施例的较佳实施进行了具体说明，但本申请实施例并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请实施例精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请实施例权利要求所限定的范围内。

Claims

1.一种乐器演奏评估方法，其特征在于，包括：

获取相关乐谱的用户演奏数据；

2.根据权利要求1所述的乐器演奏评估方法，其特征在于，所述分别根据所述用户演奏数据和所述相关乐谱的大师演奏数据得到评价数据集和参考数据集，包括：

3.根据权利要求2所述的乐器演奏评估方法，其特征在于，

所述根据所述用户演奏数据采样得到用户状态向量，包括：

由预先训练的状态编码模型生成所述用户状态向量；

由预先训练的状态编码模型生成所述大师状态向量；

4.根据权利要求3所述的乐器演奏评估方法，其特征在于，所述状态编码模型包括：Music BERT模型，所述状态编码模型通过以下训练过程训练得到：

5.根据权利要求2至4任一项所述的乐器演奏评估方法，其特征在于，所述用户动作向量和所述大师动作向量均由预设帧长的梅尔频谱表示。

6.根据权利要求2所述的乐器演奏评估方法，其特征在于，所述演奏评估模型的训练过程包括：

7.根据权利要求6所述的乐器演奏评估方法，其特征在于，所述目标函数收敛条件为：使用梯度上升法使得目标函数最大化；

所述目标函数最大化的过程包括：

获取用户状态向量关于评价函数梯度计算得到的第一期望；

获取大师状态向量关于评价函数梯度计算得到的第二期望；

最大化所述期望和，以使得所述目标函数最大化。

8.根据权利要求6或7任一项所述的乐器演奏评估方法，其特征在于，所述演奏评估模型能够根据所述演奏评分自适应更新，包括：

9.一种乐器演奏评估装置，其特征在于，包括：

10.一种计算机设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器用于根据所述程序执行如权利要求1至8中任一项所述的乐器演奏评估方法。

11.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至8中任意一项所述的乐器演奏评估方法。