CN110968289A

CN110968289A - 一种音频播放方法、装置、以及计算机存储介质

Info

Publication number: CN110968289A
Application number: CN201911213418.XA
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-04-07

Abstract

本申请实施例公开了一种音频播放方法、装置、以及计算机存储介质，所述方法涉及人工智能领域中的自然语言处理方向，所述方法包括：显示音频播放客户端的音频预览页面，音频预览页面中包括至少一个音频标识、以及每个音频标识对应的音频预览控件，其中，一个音频标识对应一个音频预览控件，音频预览控件供用户操作以播放音频预览片段，当检测到用户针对目标音频预览控件的播放预览操作时，播放目标音频预览控件对应的音频预览片段，其中，音频预览片段为基于用户的历史播放音频从目标音频中选取的音频片段，目标音频为目标音频预览控件对应的音频标识指示的音频。该方案可以根据用户的偏好，从目标音频中获取音频预览片段。

Description

一种音频播放方法、装置、以及计算机存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种音频播放方法、装置、以及计算机存储介质。

背景技术

音频预览是指在用户收听整首音频前，通过播放一段音频预览片段，使得用户能够快速预览该音频，并形成对该音频的第一印象。播放一段合适的音频预览片段能够提升用户收听整首音频的欲望，增加音频的点击率、以及用户时长。但是，目前仅能通过人工指定或者算法计算，输出每个音频对应固定的一段高潮片段，这种音频播放方法提取出的音频预览片段较为单一。

发明内容

本申请实施例提供一种音频播放方法、装置、以及计算机存储介质，可以根据用户的偏好，从目标音频中获取音频预览片段。

本申请实施例提供一种音频播放方法，包括：

显示音频播放客户端的音频预览页面，所述音频预览页面中包括至少一个音频标识、以及每个所述音频标识对应的音频预览控件，其中，一个音频标识对应一个音频预览控件，所述音频预览控件供用户操作以播放音频预览片段；

当检测到用户针对目标音频预览控件的播放预览操作时，播放所述目标音频预览控件对应的音频预览片段，其中，所述音频预览片段为基于所述用户的历史播放音频从目标音频中选取的音频片段，所述目标音频为所述目标音频预览控件对应的音频标识指示的音频。

相应的，本申请实施例还提供一种音频播放装置，包括：

显示模块，用于显示音频播放客户端的音频预览页面，所述音频预览页面中包括至少一个音频标识、以及每个所述音频标识对应的音频预览控件，其中，一个音频标识对应一个音频预览控件，所述音频预览控件供用户操作以播放音频预览片段；

播放模块，用于当检测到用户针对目标音频预览控件的播放预览操作时，播放所述目标音频预览控件对应的音频预览片段，其中，所述音频预览片段为基于所述用户的历史播放音频从目标音频中选取的音频片段，所述目标音频为所述目标音频预览控件对应的音频标识指示的音频。

可选的，在一些实施例中，所述播放模块可以包括确定子模块、历史获取子模块、片段获取子模块和播放子模块，如下：

确定子模块，用于当检测到用户针对目标音频预览控件的播放预览操作时，确定所述目标音频预览控件对应的音频标识指示的目标音频；

历史获取子模块，用于获取所述用户对应的多个历史播放音频；

片段获取子模块，用于根据所述历史播放音频，从所述目标音频中获取与所述用户对应的音频预览片段；

播放子模块，用于播放所述音频预览片段。

可选的，在一些实施例中，所述片段获取子模块可以包括信息获取子模块、集合获取子模块、融合子模块、预测子模块和第一获取子模块，如下：

信息获取子模块，用于获取所述目标音频对应的多个维度上的音频信息集合，所述音频信息集合包括所述维度上多个特征点对应的音频特征信息；

集合获取子模块，用于获取每个历史播放音频对应的多个维度上的历史音频信息集合；

融合子模块，用于针对每个维度，基于所述历史音频信息集合，对所述音频信息集合中的多个音频特征信息进行融合，得到每个维度对应的关注与所述历史播放音频之间相关程度的目标音频特征信息；

预测子模块，用于基于每个维度对应的所述目标音频特征信息，预测所述用户针对所述目标音频每个维度上多个特征点的特征点偏好信息；

第一获取子模块，用于基于所述每个维度上多个特征点的特征点偏好信息，从所述目标音频中获取与所述用户对应的音频预览片段。

可选的，在一些实施例中，所述信息获取子模块可以包括采样子模块、转换子模块和构建子模块，如下：

采样子模块，用于对所述目标音频进行多个维度上的采样，得到所述目标音频对应的多个维度上的初始音频信息集合；

转换子模块，用于对所述初始音频信息集合中多个初始音频特征信息进行转换，得到多个音频特征信息；

构建子模块，用于基于所述音频特征信息，构建所述目标音频对应的多个维度上的音频信息集合。

则此时，所述采样子模块，具体可以用于对所述目标音频进行时间维度上的采样，得到所述目标音频对应的时间维度上的初始音频信息集合，将所述目标音频进行频域变换，得到变换后目标音频，对所述变换后目标音频进行频域维度上的采样，得到所述目标音频对应的频域维度上的初始音频信息集合。

可选的，在一些实施例中，所述融合子模块可以包括第一融合子模块和第二融合子模块，如下：

第一融合子模块，用于针对每个维度，对多个历史播放音频对应历史音频信息集合里的多个历史音频特征信息进行融合，得到多个维度的融合后历史音频信息；

第二融合子模块，用于针对每个维度，基于所述融合后历史音频信息，对所述音频信息集合中的多个音频特征信息进行融合，得到每个维度对应的关注与所述历史播放音频之间相关程度的目标音频特征信息。

则此时，所述第一融合子模块，具体可以用于针对时间维度，对多个历史播放音频对应历史音频信息集合里的多个历史音频特征信息进行融合，得到时间维度的融合后历史音频信息，针对频域维度，对多个历史播放音频对应历史音频信息集合里的多个历史音频特征信息进行融合，得到频域维度的融合后历史音频信息，将所述时间维度的融合后历史音频信息、以及所述频域维度的融合后历史音频信息进行拼接，得到多个维度的融合后历史音频信息。

可选的，在一些实施例中，所述第二融合子模块可以包括权重获取子模块和第三融合子模块，如下：

权重获取子模块，用于针对每个维度，基于所述融合后历史音频信息，分别获取所述音频信息集合中每个音频特征信息对应的权重；

第三融合子模块，用于针对每个维度，基于所述权重，对所述音频信息集合中的多个音频特征信息进行融合，得到每个维度对应的关注与所述历史播放音频之间相关程度的目标音频特征信息。

则此时，所述权重获取子模块，具体可以用于针对每个维度，确定所述融合后历史音频信息与所述音频信息集合中每个音频特征信息之间的相似度信息，基于所述相似度信息，确定所述音频信息集合中每个音频特征信息对应的权重。

则此时，所述预测子模块，具体可以用于针对每个维度，将所述目标音频特征信息作为偏好信息预测模型的当前输入，基于所述偏好信息预测模型，对所述目标音频特征信息进行全连接运算，得到所述用户针对所述目标音频每个维度上多个特征点的特征点偏好信息。

可选的，在一些实施例中，所述第一获取子模块可以包括划分子模块、第四融合子模块和第二获取子模块，如下：

划分子模块，用于基于时间维度上的多个特征点，将所述目标音频划分为多个初始音频片段；

第四融合子模块，用于将所述初始音频片段对应多个维度的特征点偏好信息进行融合，得到所述初始音频片段对应的融合后偏好信息；

第二获取子模块，用于基于所述融合后偏好信息，从所述目标音频中获取与所述用户对应的音频预览片段。

则此时，所述第四融合子模块，具体可以用于针对时间维度，将所述初始音频片段上多个特征点对应的特征点偏好信息进行融合，得到所述初始音频片段对应的融合后时间偏好信息，将每个初始音频片段进行频域变换，得到变换后初始音频片段，针对频域维度，将所述初始音频片段上多个特征点对应的特征点偏好信息进行融合，得到所述初始音频片段对应的融合后频域偏好信息，将所述融合后时间偏好信息、以及所述融合后频域偏好信息进行融合，得到所述初始音频片段对应的融合后偏好信息。

则此时，所述第二获取子模块，具体可以用于确定需要获取的音频片段时长，确定所述音频片段时长对应所述初始音频片段的片段数量，基于所述片段数量，构建所述初始音频片段对应的候选音频片段，基于所述融合后偏好信息，确定所述候选音频片段对应的候选偏好信息，基于所述候选偏好信息，从所述目标音频中获取与所述用户对应的音频预览片段。

此外，本申请实施例还提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例提供的任一种音频播放方法中的步骤。

此外，本发明实施例还提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例提供的任一种音频播放方法中的步骤。

本申请实施例可以显示音频播放客户端的音频预览页面，音频预览页面中包括至少一个音频标识、以及每个音频标识对应的音频预览控件，其中，一个音频标识对应一个音频预览控件，音频预览控件供用户操作以播放音频预览片段，当检测到用户针对目标音频预览控件的播放预览操作时，播放目标音频预览控件对应的音频预览片段，其中，音频预览片段为基于用户的历史播放音频从目标音频中选取的音频片段，目标音频为目标音频预览控件对应的音频标识指示的音频。该方案可以通过收集用户对应的多个历史播放音频，以了解用户的偏好信息，并通过注意力机制将历史播放音频对应的信息加入至偏好信息预测模型中，从而在目标音频中获取到符合用户偏好的音频预览片段，相比于现有技术，本方案可以根据用户曾经播放过的历史播放音频，了解到不同用户在收听音频时不同的偏好信息，并根据用户的偏好信息进行音频预览片段的获取，因此，通过该音频播放方法，会获取到满足不同用户偏好的音频预览片段。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的音频播放***的场景示意图；

图2是本申请实施例提供的音频播放方法的第一流程图；

图3是本申请实施例提供的音频播放方法的第二流程图；

图4是本申请实施例提供的偏好信息预测模型1的信息预测流程图；

图5是本申请实施例提供的偏好信息预测模型2的信息预测流程图；

图6是本申请实施例提供的终端页面示意图；

图7是本申请实施例提供的音频播放装置的结构示意图；

图8是本申请实施例提供的网络设备的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存***中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实***置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语“模块”可看作为在该运算***上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看作为在该运算***上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、***、产品或设备没有限定于已列出的步骤或模块，而是某些实施例还包括没有列出的步骤或模块，或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种音频播放方法，该音频播放方法的执行主体可以是本申请实施例提供的音频播放装置，或者集成了该音频播放装置的网络设备，其中该音频播放装置可以采用硬件或者软件的方式实现。其中，网络设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或者多个服务器构成的云。

请参阅图1，图1为本申请实施例提供的音频播放方法的应用场景示意图，以音频播放装置集成在网络设备中为例，网络设备可以显示音频播放客户端的音频预览页面，音频预览页面中包括至少一个音频标识、以及每个音频标识对应的音频预览控件，其中，一个音频标识对应一个音频预览控件，音频预览控件供用户操作以播放音频预览片段，当检测到用户针对目标音频预览控件的播放预览操作时，播放目标音频预览控件对应的音频预览片段，其中，音频预览片段为基于用户的历史播放音频从目标音频中选取的音频片段，目标音频为目标音频预览控件对应的音频标识指示的音频。

本申请实施例提供的音频播放方法涉及人工智能领域中的自然语言处理方向。本申请实施例可以通过考虑历史播放音频的特征，从而根据用户的偏好进行音频片段的选取。

其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。

其中，自然语言处理(Nature Language processing，NLP)是研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

请参阅图2，图2为本申请实施例提供的音频播放方法的流程示意图，具体通过如下实施例进行说明：

201、显示音频播放客户端的音频预览页面。

其中，音频播放客户端是能够为用户提供音频播放服务的客户端，音频播放客户端可以安装于终端上，且与服务端互相配合运行。比如，音频播放客户端可以为与音频播放相关的应用或者小程序，等等。并且，每个音频播放客户端都对应具体的用户，比如，用户1可以通过账号1登录音频播放客户端1，用户2可以通过账号2登录音频播放客户端2，则音频播放客户端1对应着用户1，音频播放客户端2对应着用户2，等等。

其中，音频预览页面可以为位于音频播放客户端中，指引用户进行音频预览片段播放的页面，该音频预览页面中可以包括至少一个音频标识、以及每个音频标识对应的音频预览控件，并且，一个音频标识对应一个音频预览控件。比如，该音频预览页面可以如图6所示，音频预览页面包括音频列表，音频列表中包括“歌曲1”、“歌曲2”、“歌曲3”、“歌曲4”、以及“歌曲5”五个音频标识，并且每个音频标识后都对应一个按钮形式的音频预览控件，用户可以通过点击音频预览控件，进行音频预览片段的播放。

其中，音频标识可以为能够指向具体音频的标识，用户可以根据音频标识，了解到该音频标识所对应的具体音频，并根据音频标识进行目标音频的选取。比如，歌曲1对应的音频标识可以为音频名称“歌曲1”、或者歌曲1对应的音频缩略图像，等等。

其中，音频预览控件可以供用户操作以播放音频预览片段，该音频预览控件可以有多种表现形式，如音频预览控件可以为按钮、图标、输入框，等等表现形式。

在实际应用中，比如，用户1可以通过账户1登录音频播放客户端1，此时，终端上可以显示如图6所示的音频预览页面，音频预览页面中包括音频列表，音频列表中包括“歌曲1”、“歌曲2”、“歌曲3”、“歌曲4”、以及“歌曲5”五个音频标识，并且每个音频标识后都对应一个按钮形式的音频预览控件。又比如，该音频预览页面中可以包括音频列表，音频列表中包括五个音频缩略图像形式的音频标识，每个音频缩略图像对应一个音频，并且每个音频标识后都对应一个按钮形式的音频预览控件。

202、当检测到用户针对目标音频预览控件的播放预览操作时，播放目标音频预览控件对应的音频预览片段。

其中，目标音频预览控件可以为***作的音频预览控件，也即用户的播放预览操作所针对的音频预览控件。比如，用户点击音频预览页面中音频标识“歌曲1”对应的音频预览控件，此时，用户点击的音频预览控件为目标音频预览控件。目标音频预览控件与待播放的音频预览片段相对应，该播放的音频预览片段为从目标音频中选取的音频片段。

其中，目标音频可以为目标音频预览控件对应的音频标识所指示的音频，也即需要进行音频预览的音频。比如，用户点击音频预览页面中音频标识“歌曲1”对应的音频预览控件时，用户点击的音频预览控件为目标音频预览控件，目标音频预览控件对应的音频标识“歌曲1”所指向的歌曲1即为目标音频。在本申请实施例中不对目标音频的类型、形式、以及内容进行过多限制，目标音频可以为有歌词的歌曲、没有歌词的纯音乐、一首歌曲中截取的部分音频、一段下载得到的音频、或者录制得到的音频，如鸟鸣、说话声音、乐器声音等等，都可以作为目标音频。

其中，音频预览片段为基于用户的历史播放音频从目标音频中选取的音频片段，该音频预览片段与用户相对应，也即，针对不同的用户播放的音频预览片段可以不同。通过播放音频预览片段，使得用户能够快速预览目标音频，节约了用户的时间，并形成对目标音频的第一印象，因而用户能够快速决定是否希望收听完整的目标音频。比如，音频预览片段可以为目标音频中的前奏部分，还可以为目标音频中的高潮部分，等等。

其中，播放预览操作可以为用户在需要播放音频预览片段时，针对目标音频预览控件进行的操作。本申请实施例不对播放预览操作的具体操作形式进行过多限制，播放预览操作可以为针对按钮形式目标音频预览控件的点击操作，播放预览操作还可以为针对预设区域的滑动操作或者双击操作，等等。

在实际应用中，比如，用户1可以通过账户1登录音频播放客户端1，并且终端上显示如图6所示的音频预览页面。用户1可以点击音频预览页面上“歌曲2”对应的音频预览控件，实现播放预览操作。此时，终端会检测到用户1的播放预览操作。当终端检测到播放预览操作时，可以播放音频预览片段，实现用户1对歌曲2的音频预览。其中，该音频预览片段为歌曲2中的音频片段，并且，该音频预览片段是与用户1对应的音频预览片段。

其中，由于该音频播放方法可以根据用户的偏好信息进行音频预览片段的获取，因此，针对不同的用户，可能获取到不同的音频预览片段。比如，用户1通过账户1登录音频播放客户端1，用户2通过账户2登录音频播放客户端2，并且，用户1和用户2都选择对歌曲2进行歌曲预览，此时，音频播放客户端1会根据用户1的偏好信息，获取歌曲2对应的音频预览片段1，并向用户1播放音频预览片段1；音频播放客户端2会根据用户2的偏好信息，获取歌曲2对应的音频预览片段2，并向用户2播放音频预览片段2。

在一实施例中，可以通过获取用户对应的历史播放音频，了解用户的偏好信息，并获取与用户偏好对应的音频预览片段。具体地，步骤“当检测到用户针对所述音频预览控件的播放预览操作时，针对所述用户播放音频预览片段”，可以包括：

当检测到用户针对目标音频预览控件的播放预览操作时，确定所述目标音频预览控件对应的音频标识指示的目标音频；

获取所述用户对应的多个历史播放音频；

根据所述历史播放音频，从所述目标音频中获取与所述用户对应的音频预览片段；

播放所述音频预览片段。

其中，历史播放音频可以为用户历史播放过的音频，由于本音频播放方法能够根据用户的偏好从目标音频中获取音频预览片段，因此，需要获取用户对应的历史播放音频以了解用户的喜好。比如，可以将用户1在音频播放客户端1中历史播放过的多个音频作为用户1对应的多个历史播放音频，将用户2在音频播放客户端2中历史播放过的多个音频作为用户2对应的多个历史播放音频，等等。

在实际应用中，由于不同的用户对于音频中各片段的偏好情况不同，有的用户喜欢音频的前奏片段、有的用户喜欢音频的高潮片段、有的用户喜欢音频的器乐伴奏片段、有的用户喜欢音频的人声演唱片段，因此，需要获取用户的偏好信息，并根据每个用户不同的偏好信息，从目标音频中提取音频预览片段。比如，终端显示音频播放客户端1对应的音频预览页面，当检测到用户1点击音频预览页面中“歌曲2”对应的音频预览控件时，可以将歌曲2确定为目标音频，并获取用户1在音频播放客户端1中历史播放过的多个音频，作为用户1对应的多个历史播放音频。然后根据用户1对应的历史播放音频，从歌曲2中获取与用户1对应的音频预览片段，并播放该音频预览片段。

在一实施例中，可以通过注意力机制的方式，根据用户对应的历史播放音频，考虑用户的偏好信息。具体地，步骤“根据所述历史播放音频，从所述目标音频中获取与所述用户对应的音频预览片段”，可以包括：

获取所述目标音频对应的多个维度上的音频信息集合，所述音频信息集合包括所述维度上多个特征点对应的音频特征信息；

获取每个历史播放音频对应的多个维度上的历史音频信息集合；

针对每个维度，基于所述历史音频信息集合，对所述音频信息集合中的多个音频特征信息进行融合，得到每个维度对应的关注与所述历史播放音频之间相关程度的目标音频特征信息；

基于每个维度对应的所述目标音频特征信息，预测所述用户针对所述目标音频每个维度上多个特征点的特征点偏好信息；

基于所述每个维度上多个特征点的特征点偏好信息，从所述目标音频中获取与所述用户对应的音频预览片段。

在实际应用中，从目标音频中获取与用户对应的音频预览片段的步骤可以分为5个步骤进行叙述，如下：

(一)获取目标音频对应的多个维度上的音频信息集合。

其中，维度是一种观察、思考与表述某事物的思维角度，在本申请实施例中，维度可以有多种，比如，维度可以包括时间维度、频域维度，等等。其中，时间维度是以时间作为描述、表达变量度量尺度的维度。频域维度是在频域空间中进行描述、以及变量表达的维度。

其中，音频信息集合可以为由多个音频特征信息组成的集合，该音频信息集合可以对应一种维度，比如，音频信息集合可以为时间维度对应的集合；又比如，音频信息集合还可以为频域维度对应的集合。音频信息集合中的每个音频特征信息都对应相应维度上的一个特征点，比如，时间维度上的音频信息集合中，包括多个时刻对应的音频特征信息；又比如，频域维度上的音频信息集合中，包括多个频率值对应的音频特征信息。

其中，音频特征信息可以表示音频在某个维度上的具体特征点所对应的特征信息，比如，时间维度上的音频特征信息可以表示：音频在某个时刻的音高。又比如，频域维度上的音频特征信息可以表示：音频在某个频率值上的幅值，等等。

在实际应用中，比如，可以将歌曲1作为目标音频，并获取歌曲1对应的时间维度上的音频信息集合、以及歌曲1对应的频域维度上的音频信息集合，其中，歌曲1对应的时间维度上的音频信息集合中，包括歌曲1在多个时刻上的音高。歌曲1对应的频域维度上的音频信息集合中，包括歌曲1在多个频率值上的幅值。

在一实施例中，获取目标音频对应的多个维度上的音频信息集合，可以不仅限于获取目标音频对应的时间维度、以及频域维度上的音频信息集合，也可以仅获取一个维度上的音频信息集合，如，可以仅获取目标音频对应的时间维度上的音频信息集合。还可以根据实际情况，添加其他种类维度上的音频信息集合，等等。

在一实施例中，可以通过在多个维度上对目标音频进行采样，获取到目标音频对应的多个维度上的音频信息集合。具体地，步骤“获取所述目标音频对应的多个维度上的音频信息集合”，可以包括：

对所述目标音频进行多个维度上的采样，得到所述目标音频对应的多个维度上的初始音频信息集合；

对所述初始音频信息集合中多个初始音频特征信息进行转换，得到多个音频特征信息；

基于所述音频特征信息，构建所述目标音频对应的多个维度上的音频信息集合。

在实际应用中，比如，可以将歌曲1确定为目标音频，然后对歌曲1进行多个维度上的采样，并得到歌曲1对应的每个维度上的初始音频信息集合，其中，多个维度可以包括时间维度、频率维度，等等。为了后续计算方便，可以将获取到的初始音频特征信息进行转换，转换为固定大小的音频特征信息，该音频特征信息可以为向量的形式，然后可以将每个维度对应的音频特征信息构建为该维度对应的音频信息集合，从而得到目标音频对应的多个维度上的音频信息集合。

在一实施例中，多个维度可以包括时间维度和频域维度，具体地，步骤“对所述目标音频进行多个维度上的采样，得到所述目标音频对应的多个维度上的初始音频信息集合”，可以包括：

对所述目标音频进行时间维度上的采样，得到所述目标音频对应的时间维度上的初始音频信息集合；

将所述目标音频进行频域变换，得到变换后目标音频；

对所述变换后目标音频进行频域维度上的采样，得到所述目标音频对应的频域维度上的初始音频信息集合。

在实际应用中，比如，可以将歌曲1确定为目标音频，然后对歌曲1进行时间维度上的采样，得到歌曲1对应的时间维度上的初始音频信息集合，该时间维度上的初始音频信息集合中包括离散的时间序列T₁～T_n，其中，T_i表示歌曲1在第i个时刻的音高。然后，可以通过连续傅里叶变换将歌曲1从时域变换到频域，得到变换后目标音频，并对变换后目标音频进行采样，得到目标音频对应的频域维度上的初始音频信息集合，该频域维度上的初始音频信息集合中包括离散的频率序列F₁～F_m，其中，F_j表示歌曲1在第j个频率值上的幅值。

其中，连续傅里叶变换是将一组函数映射为另一组函数的变换方法。通过连续傅里叶变换可以将一个函数分解为组成该函数的连续频率谱。比如，通过连续傅里叶变换可以将时间维度上的目标音频转换为频域维度上的目标音频。

在一实施例中，将时间维度上的目标音频转换为频域维度上的目标音频的方法可以有多种，不仅限于上文给出的连续傅里叶变换，在本申请实施例中，只要能将目标音频从时间维度转换到频域维度的方法都可以。

在一实施例中，本申请实施例不对采样的间隔进行限制，也即无论在时间维度上对目标音频进行采样，还是在频域维度上对目标音频进行采样，采样的间隔都可以根据实际情况进行调整。比如，在时间维度上对歌曲A进行采样时，采样间隔可以设置为1s。又比如，在频域维度上对歌曲A进行采样时，采样间隔可以设置为1Hz。若需要提升该音频片段获取方法的准确性，可以设定较小的采样间隔。

得到时间维度上的初始音频信息集合T₁～T_n、以及频域维度上的初始音频信息集合F₁～F_m之后，可以将时间维度上的初始音频信息集合T₁～T_n、以及频域维度上的初始音频信息集合F₁～F_m中，每个初始音频特征信息都映射到一个固定大小的向量上，得到多个音频特征信息，其中，初始音频特征信息T_i转换后得到的音频特征信息可以表示为v(T_i)，初始音频特征信息F_j转换后得到的音频特征信息可以表示为v(F_j)。获取到多个音频特征信息v(T₁)～v(T_n)、以及v(F₁)～v(F_m)后，可以通过v(T₁)～v(T_n)构建歌曲1对应的时间维度上的音频信息集合，通过v(F₁)～v(F_m)构建歌曲1对应的频域维度上的音频信息集合。

在一实施例中，将初始音频特征信息转换为音频特征信息的方法可以有多种，比如，可以采用效仿自然语言处理中的embedding方法，将每个初始音频特征信息都映射到一个固定大小的向量上，得到多个音频特征信息。本申请实施例不对信息转换方法进行限定，只要能够保证将初始音频特征信息转换为特征向量形式的方法都可以。

(二)获取每个历史播放音频对应的多个维度上的历史音频信息集合。

其中，历史音频信息集合可以为由多个历史音频特征信息组成的集合，该历史音频信息集合是根据历史播放音频获取到的集合，历史音频信息集合可以对应一种维度，比如，历史音频信息集合可以为时间维度对应的集合；又比如，历史音频信息集合还可以为频域维度对应的集合。历史音频信息集合中的每个历史音频特征信息都对应相应维度上的一个特征点，比如，时间维度上的历史音频特征信息可以表示：音频在某个时刻的音高；又比如，频域维度上的历史音频特征信息可以表示：音频在某个频率值上的幅值，等等。

在实际应用中，比如，可以将用户1确定为该音频播放方法所针对的用户，并获取用户1对应的多个历史播放音频，然后分别获取每个历史播放音频对应的时间维度上的历史音频特征信息、以及频域维度上的历史音频特征信息，并根据获取到的历史音频特征信息，构建多个维度上的历史音频信息集合。

在一实施例中，可以将多个历史音频特征信息进行融合，以方便后续对历史音频特征信息进行运算。具体地，步骤“针对每个维度，基于所述历史音频信息集合，对所述音频信息集合中的多个音频特征信息进行融合，得到每个维度对应的关注与所述历史播放音频之间相关程度的目标音频特征信息”，可以包括：

针对每个维度，对多个历史播放音频对应历史音频信息集合里的多个历史音频特征信息进行融合，得到多个维度的融合后历史音频信息；

针对每个维度，基于所述融合后历史音频信息，对所述音频信息集合中的多个音频特征信息进行融合，得到每个维度对应的关注与所述历史播放音频之间相关程度的目标音频特征信息。

在实际应用中，比如，可以将多个历史播放音频对应的多个维度的历史音频信息集合按照维度进行融合，也即将每个维度对应的多个历史音频信息集合进行融合，从而得到该维度对应的融合后历史音频信息。然后，根据某一维度对应的融合后历史音频信息，对该维度对应的音频信息集合中的多个音频特征信息进行融合，得到该维度对应的目标音频特征信息，从而得到多个维度对应的目标音频特征信息。

在一实施例中，多个维度可以包括时间维度和频域维度，具体地，步骤“针对每个维度，对多个历史播放音频对应历史音频信息集合里的多个历史音频特征信息进行融合，得到多个维度的融合后历史音频信息”，可以包括：

针对时间维度，对多个历史播放音频对应历史音频信息集合里的多个历史音频特征信息进行融合，得到时间维度的融合后历史音频信息；

针对频域维度，对多个历史播放音频对应历史音频信息集合里的多个历史音频特征信息进行融合，得到频域维度的融合后历史音频信息；

将所述时间维度的融合后历史音频信息、以及所述频域维度的融合后历史音频信息进行拼接，得到多个维度的融合后历史音频信息。

在实际应用中，比如，可以确定用户1作为该音频播放所针对的用户，并获取用户1对应的多个历史播放音频：历史播放歌曲1、历史播放歌曲2、以及历史播放歌曲3。然后分别获取每个历史播放音频对应的时间维度上的历史音频特征信息、以及频域维度上的历史音频特征信息，如可以获取历史播放歌曲1对应的时间维度上的历史音频特征信息v₁(T₁)～v₁(T_n)、历史播放歌曲1对应的频域维度上的历史音频特征信息v₁(F₁)～v₁(F_m)、历史播放歌曲2对应的时间维度上的历史音频特征信息v₂(T₁)～v₂(T_n)、历史播放歌曲2对应的频域维度上的历史音频特征信息v₂(F₁)～v₂(F_m)、历史播放歌曲3对应的时间维度上的历史音频特征信息v₃(T₁)～v₃(T_n)、以及历史播放歌曲3对应的频域维度上的历史音频特征信息v₃(F₁)～v₃(F_m)。

获取到多个历史播放音频对应的时间维度上的历史音频特征信息、以及频域维度上的历史音频特征信息之后，可以将相同维度的历史音频特征信息进行融合，如可以将v₁(T₁)～v₁(T_n)、v₂(T₁)～v₂(T_n)、v₃(T₁)～v₃(T_n)…融合为一整个特征向量，也即融合为时间维度对应的融合后历史音频信息v(T_user)，将v₁(F₁)～v₁(F_m)、v₂(F₁)～v₂(F_m)、v₃(F₁)～v₃(F_m)…融合为一整个特征向量，也即融合为频域维度对应的融合后历史音频信息v(F_user)。然后，可以将时间维度对应的融合后历史音频信息v(T_user)、以及频域维度对应的融合后历史音频信息v(F_user)拼接在一起，得到用户A对应的特征向量v(user)。然后根据融合后历史音频信息，获取目标音频特征信息。

在一实施例中，将多个历史音频特征信息融合为融合后历史音频信息的方法可以有多种，比如，该信息融合方法可以包括：取平均值、取最大值、取最小值，等等。

(三)针对每个维度，基于历史音频信息集合，对音频信息集合中的多个音频特征信息进行融合，得到每个维度对应的关注与历史播放音频之间相关程度的目标音频特征信息。

其中，注意力机制可以应用于偏好信息预测模型中，当输入的内容较多时，可以通过添加注意力机制的方式，向偏好信息预测模型中加入输入序列的信息。比如，可以通过为每个输入都分配一个权重，从而将输入的信息加入到偏好信息预测模型中进行运算，其中，每个权重代表了分配给对应输入的注意力大小。

在实际应用中，为了在获取音频片段的过程中，将用户的偏好信息考虑进去，从而获取到用户更为偏好的音频片段，因此，可以通过注意力机制的方式，将用户的偏好信息添加至模型中。比如，可以根据时间维度的融合后历史音频信息，对时间维度音频信息集合中的多个音频特征信息进行融合，得到时间维度的目标音频特征信息。并根据频域维度的融合后历史音频信息，对频域维度音频信息集合中的多个音频特征信息进行融合，得到频域维度的目标音频特征信息。其中，该目标音频特征信息为添加了与历史播放音频之间相关程度的信息。

在一实施例中，可以通过获取每个音频特征信息对应的权重，获取目标音频特征信息。具体地，步骤“针对每个维度，基于所述融合后历史音频信息，对所述音频信息集合中的多个音频特征信息进行融合，得到每个维度对应的关注与所述历史播放音频之间相关程度的目标音频特征信息”，可以包括：

针对每个维度，基于所述融合后历史音频信息，分别获取所述音频信息集合中每个音频特征信息对应的权重；

针对每个维度，基于所述权重，对所述音频信息集合中的多个音频特征信息进行融合，得到每个维度对应的关注与所述历史播放音频之间相关程度的目标音频特征信息。

在实际应用中，比如，可以根据时间维度对应的融合后历史音频信息v(T_user)，计算出音频信息集合中每个音频特征信息v(T₁)～v(T_n)对应的权重α₁～α_n，其中，α₁为音频特征信息v(T₁)对应的权重，α₂为音频特征信息v(T₂)对应的权重…α_n为音频特征信息v(T_n)对应的权重。然后可以将获取到的权重分别添加至对应的音频特征信息上，并进行音频特征信息的融合，得到时间维度的目标音频特征信息，其中，时间维度目标音频特征信息的计算公式可以如下：

时间维度的目标音频特征信息＝α₁v(T₁)+α₂v(T₂)+...+α_nv(T_n)

还可以根据频域维度对应的融合后历史音频信息v(F_user)，计算出音频信息集合中每个音频特征信息v(F₁)～v(F_m)对应的权重β₁～β_m，其中，β₁为音频特征信息v(F₁)对应的权重，β₂为音频特征信息v(F₂)对应的权重…β_m为音频特征信息v(F_m)对应的权重。然后可以将获取到的权重分别添加至对应的音频特征信息上，并进行音频特征信息的融合，得到频域维度的目标音频特征信息，其中，频域维度目标音频特征信息的计算公式可以如下：

频域维度的目标音频特征信息＝β₁v(F₁)+β₂v(F₂)+...+β_mv(F_m)

在一实施例中，由于注意力机制关注的是音频特征信息与历史播放音频之间相关程度，因此，可以通过计算音频特征信息与融合后历史音频信息之间的相似度，对多个音频特征信息进行融合。具体地，步骤“针对每个维度，基于所述融合后历史音频信息，分别获取所述音频信息集合中每个音频特征信息对应的权重”，可以包括：

针对每个维度，确定所述融合后历史音频信息与所述音频信息集合中每个音频特征信息之间的相似度信息；

基于所述相似度信息，确定所述音频信息集合中每个音频特征信息对应的权重。

在实际应用中，比如，可以获取时间维度上融合后历史音频信息v(T_user)，与时间维度上音频信息集合中每个音频特征信息v(T₁)～v(T_n)之间的相似度，并将计算得到的相似度作为每个音频特征信息对应的权重α₁～α_n。还可以获取频域维度上融合后历史音频信息v(F_user)，与频域维度上音频信息集合中每个音频特征信息v(F₁)～v(F_m)之间的相似度，并将计算得到的相似度作为每个音频特征信息对应的权重β₁～β_m。

在一实施例中，获取融合后历史音频信息与音频信息集合中每个音频特征信息之间相似度的方法可以有多种，比如，由于融合后历史音频信息与音频特征信息都可以表示为特征向量的形式，因此可以通过计算融合后历史音频信息与音频信息集合中每个音频特征信息之间余弦相似度的方法获取相似度数值。又比如，还可以将融合后历史音频信息与音频信息集合中每个音频特征信息，都输入至带有参数的单层神经网络中，获取融合后历史音频信息与音频信息集合中每个音频特征信息之间的相似度数值，等等。

(四)基于每个维度对应的目标音频特征信息，预测用户针对目标音频每个维度上多个特征点的特征点偏好信息。

其中，特征点偏好信息可以为表征用户对于某个特征点的偏好程度的信息，如可以设定特征点偏好信息数值越大，表明用户对该特征点越喜爱。比如，时间维度的特征点偏好信息可以表征用户对于歌曲在某个时刻的偏好程度。又比如，频域维度的特征点偏好信息可以表征用户对于歌曲在某个频率值的偏好程度。

在实际应用中，比如，可以根据时间维度对应的目标音频特征信息，预测用户对目标音频中多个时刻的可能的偏好程度，该偏好程度可以称为时间维度对应的特征点偏好信息；并根据频域维度对应的目标音频特征信息，预测用户对目标音频对应的多个频率值的可能的偏好程度，该偏好程度可以称为频域维度对应的特征点偏好信息。

在一实施例中，可以利用多个偏好信息预测模型对多个维度的特征点偏好信息进行预测。具体地，步骤“基于每个维度对应的所述目标音频特征信息，预测所述用户针对所述目标音频每个维度上多个特征点的特征点偏好信息”，可以包括：

针对每个维度，将所述目标音频特征信息作为偏好信息预测模型的当前输入；

基于所述偏好信息预测模型，对所述目标音频特征信息进行全连接运算，得到所述用户针对所述目标音频每个维度上多个特征点的特征点偏好信息。

其中，偏好信息预测模型可以为一种自然语言处理领域的模型，通过该偏好信息预测模型可以预测得到用户针对目标音频每个维度上多个特征点的特征点偏好信息。该偏好信息预测模型可以有多种，比如，可以将自然语言处理领域的摘要模型作为偏好信息预测模型，如摘要模型可以为Sequence to Sequence。其中，该偏好信息预测模型不仅限于现有的一种摘要模型，还可以由多个摘要模型共同构成。该偏好信息预测模型通过注意力机制，引入了用户对应历史播放音频的音频信息，从而能够根据用户的偏好获取音频预览片段。

其中，Sequence to Sequence是一种Encoder(编码)-Decoder(解码)结构的神经网络，由于其输入是一个序列，输出也是一个序列，因而称为Sequence to Sequence。Sequence to Sequence能够根据给定的输入序列，通过特定的方法生成输出序列。比如，可以将Sequence to Sequence应用于翻译领域，输入序列可以为“Hello”，则会输出“你好”；又比如，还可以将Sequence to Sequence应用于人机对话领域，输入序列可以为“你是谁？”，则会输出“我是某某某”。

在实际应用中，比如，可以获取偏好信息预测模型，并将目标音频特征信息输入至偏好信息预测模型中，然后基于偏好信息预测模型中的全连接层，对目标音频特征信息进行全连接运算，得到用户针对目标音频每个维度上多个特征点的特征点偏好信息。

在一实施例中，由于目标音频特征信息涉及不同维度的特征信息，因此，需要利用相应维度的偏好信息预测模型进行偏好信息的预测。具体地，步骤“基于所述偏好信息预测模型，对所述目标音频特征信息进行全连接运算，得到所述用户针对所述目标音频每个维度上多个特征点的特征点偏好信息”，可以包括：

基于所述时间维度上的偏好信息预测模型，对时间维度上的目标音频特征信息进行全连接运算，得到所述用户针对所述目标音频时间维度上多个特征点的特征点偏好信息；

基于所述频域维度上的偏好信息预测模型，对频域维度上的目标音频特征信息进行全连接运算，得到所述用户针对所述目标音频频域维度上多个特征点的特征点偏好信息。

在实际应用中，比如，如图4所示，可以获取时间维度上的偏好信息预测模型1，并将获取到的时间维度的目标音频特征信息作为偏好信息预测模型1的当前输入，然后根据偏好信息预测模型1中的全连接层，对时间维度的目标音频特征信息进行全连接运算，得到用户针对目标音频中多个时间点的特征点偏好信息，如可以预测得到用户对目标音频中第1秒的特征点偏好信息P(T₁)，第2秒的特征点偏好信息P(T₂)…第i秒的特征点偏好信息P(T_i)…第n秒的特征点偏好信息P(T_n)。其中，若设定用户感兴趣为1，用户不感兴趣为0，该特征点偏好信息P(T_i)可以为一个0～1之间的概率值。

如图5所示，还可以获取频域维度上的偏好信息预测模型2，并将获取到的频域维度的目标音频特征信息作为偏好信息预测模型2的当前输入，然后根据偏好信息预测模型2中的全连接层，对频域维度的目标音频特征信息进行全连接运算，得到用户针对目标音频的多个频率值的特征点偏好信息，如可以预测得到用户对目标音频的1Hz频率值的特征点偏好信息P(F₁)，2Hz频率值的特征点偏好信息P(F₂)…jHz频率值的特征点偏好信息P(F_j)...mHz频率值的特征点偏好信息P(F_m)。由于此处的概率是对目标音频整体做分解得到的，因此预测得到的特征点偏好信息P(F_j)，表示用户对目标音频第i个频率分量的喜好程度。其中，若设定用户感兴趣为1，用户不感兴趣为0，该特征点偏好信息P(F_j)可以为一个0～1之间的概率值。

在一实施例中，可以通过训练获取到能够准确预测特征点偏好信息的偏好信息预测模型1、以及偏好信息预测模型2。比如，可以获取标注过的歌曲作为训练样本1，该训练样本1中标注了用户对于该歌曲每个时刻的偏好程度，感兴趣的标注为1，不感兴趣的标注为0，然后对偏好信息预测模型1进行训练，直到收敛。还可以获取标注过的歌曲作为训练样本2，该训练样本2中标注了用户对于该歌曲每个频率值的偏好程度，感兴趣的标注为1，不感兴趣的标注为0，然后对偏好信息预测模型2进行训练，直到收敛。

其中，训练样本中用户对于该歌曲每个时刻的偏好程度，可以通过用户收听次数、用户跳转时刻等信息获取得到。比如，若检测到用户将歌曲跳转至歌词部分开始播放，可以说明用户喜欢跳过前奏，从歌词处开始听歌，因此，可以根据用户的跳转操作，将前奏部分标记为用户不感兴趣，将歌词部分标记为用户感兴趣。又比如，若检测到用户在歌曲进行到某时刻时停止播放，可以说明用户不喜欢歌曲中这部分的片段，因此，可以将这部分标记为用户不感兴趣，等等。

(五)基于每个维度上多个特征点的特征点偏好信息，从目标音频中获取与用户对应的音频预览片段。

在实际应用中，比如，获取到时间维度上多个特征点的特征点偏好信息P(T₁)～P(T_n)、以及时间维度上多个特征点的特征点偏好信息P(F₁)～P(F_m)之后，可以根据多个特征点偏好信息，从目标音频中获取与用户对应的音频预览片段，并输出音频预览片段。

在一实施例中，可以通过将目标音频划分为多个片段，并分别对每个片段的偏好信息进行计算，从而获取音频预览片段。具体地，步骤“基于所述每个维度上多个特征点的特征点偏好信息，从所述目标音频中获取与所述用户对应的音频预览片段”，可以包括：

基于时间维度上的多个特征点，将所述目标音频划分为多个初始音频片段；

将所述初始音频片段对应多个维度的特征点偏好信息进行融合，得到所述初始音频片段对应的融合后偏好信息；

基于所述融合后偏好信息，从所述目标音频中获取与所述用户对应的音频预览片段。

在实际应用中，比如，由于目标音频在时间维度上包括多个特征点，因此，可以定义若干特征点为一组，将目标音频划分为多个初始音频片段，然后根据每个初始片段对应的多个特征点偏好信息，获取到每个初始音频片段对应的融合后偏好信息，并根据融合后偏好信息，从目标音频中获取与用户对应的音频预览片段。

在一实施例中，由于每个初始音频片段对应多个维度的特征点偏好信息，因此，需要将多个维度的特征点偏好信息进行融合。具体地，步骤“将所述初始音频片段对应多个维度的特征点偏好信息进行融合，得到所述初始音频片段对应的融合后偏好信息”，可以包括：

针对时间维度，将所述初始音频片段上多个特征点对应的特征点偏好信息进行融合，得到所述初始音频片段对应的融合后时间偏好信息；

将每个初始音频片段进行频域变换，得到变换后初始音频片段；

针对频域维度，将所述初始音频片段上多个特征点对应的特征点偏好信息进行融合，得到所述初始音频片段对应的融合后频域偏好信息；

将所述融合后时间偏好信息、以及所述融合后频域偏好信息进行融合，得到所述初始音频片段对应的融合后偏好信息。

在实际应用中，比如，可以获取时间维度上的多个时刻、以及每个时刻对应的音高，T₁-1s、T₂-2s、T₃-3s、T₄-4s…T_n-ns。然后根据时间序列T₁～T_n，对目标音频进行划分，划分为多个初始音频片段，如以4s为一个单位，将目标音频划分为G₁～G_q，q个初始音频片段。其中，划分得到的q个初始音频片段可以分别表示为：G₁＝{T₁,T₂,T₃,T₄}、G₂＝{T₅,T₆,T₇,T₈}…G_q＝{T_n-3,T_n-2,T_n-1,T_n}。然后，可以分别对q个初始音频片段进行快速傅里叶变换，得到每个初始音频片段对应的变换后初始音频片段，如可以对G_i进行快速傅里叶变换，得到G_i对应的频谱F₁-G_i～F_m-G_i。其中，F₁-G_i～F_m-G_i与F₁～F_m的区别在于，F₁-G_i～F_m-G_i表示一个初始音频片段包含的时间序列所对应的频谱，而F₁～F_m表示整个目标音频对应的频谱。

由于T₁～T_n中每个元素都对应一个特征点偏好信息P(T₁)～P(T_n)，且F₁-G_i～F_m-G_i中每个元素都对应一个特征点偏好信息P(F₁)～P(F_m)，因此，能够计算得到G₁～G_q中每个初始音频片段对应的融合后时间偏好信息P(T-G_i)、以及融合后频域偏好信息P(F-G_i)，其中，融合后时间偏好信息P(T-G_i)可以表示用户对该初始音频片段对应时间段的偏好程度，融合后频域偏好信息P(F-G_i)可以表示用户对该初始音频片段对应各频率值的偏好程度。融合后时间偏好信息P(T-G_i)、以及融合后频域偏好信息P(F-G_i)的计算公式可以如下：

获取到G₁～G_q中每个初始音频片段对应的融合后时间偏好信息P(T-G_i)、以及融合后频域偏好信息P(F-G_i)之后，可以将多个维度的特征点偏好信息进行融合，得到G₁～G_q中每个初始音频片段对应的融合后偏好信息P_final(G_i)，其中，融合后偏好信息P_final(G_i)的计算公式可以如下：

P_final(G_i)＝P(T-G_i)·P(F-G_i)

其中，该融合后偏好信息表示用户对该初始音频片段对应的片段的偏好程度。可以得到q个初始音频片段对应的P_final(G₁)～P_final(G_q)。然后可以根据获取到的多个融合后偏好信息，从目标音频中获取音频预览片段，并输出音频预览片段。

在一实施例中，根据时间序列T₁～T_n对目标音频进行分组时，每个初始音频片段里元素的数目可以根据实际情况进行调整，也即不仅限于一个初始音频片段里包括4个元素，当每个初始音频片段里元素的数目调整为a个时融合后时间偏好信息P(T-G_i)的计算公式可以如下：

在一实施例中，由于本申请实施例是基于时间维度对音频进行划分，因此，在获取目标音频对应的多个维度上的音频信息集合时，只要保证获取到时间维度上的音频信息集合即可，也即，在该音频播放方法中可以仅考虑时间维度的信息，为了提升该音频播放方法的准确性，也可以考虑频域维度或者其他维度。

在一实施例中，由于最终进行预览的音频片段通常设置有一定的时长，因此，可以通过预先设置的时长，对音频预览片段进行获取。具体地，步骤“基于所述融合后偏好信息，从所述目标音频中获取与所述用户对应的音频预览片段”，可以包括：

确定需要获取的音频片段时长；

确定所述音频片段时长对应所述初始音频片段的片段数量；

基于所述片段数量，构建所述初始音频片段对应的候选音频片段；

基于所述融合后偏好信息，确定所述候选音频片段对应的候选偏好信息；

基于所述候选偏好信息，从所述目标音频中获取与所述用户对应的音频预览片段。

在实际应用中，由于每个初始音频片段对应的时长一般都很短，因此，可以根据需要获取的音频片段时长，对初始音频片段进行组合。比如，若每个初始音频片段的时长为0.5s，而预先确定需要获取的音频片段时长为5s，此时，音频片段时长与10个初始音频片段的时长相同，那么可以根据G_i～G_i+9构建初始音频片段G_i对应的候选音频片段，然后根据P_final(G_i)～P_final(G_i+9)，确定出候选音频片段G_i～G_i+9对应的候选偏好信息，可以将候选偏好信息数值最高的候选音频片段，作为最终输出的音频预览片段。其中，候选音频片段G_i～G_i+9对应的候选偏好信息的计算公式可以如下：

候选偏好信息＝P_final(G_i)+P_final(G_i+1)+...+P_final(G_i+9)

其中，根据融合后偏好信息，计算候选音频片段对应的候选偏好信息的方法可以有多种，比如，可以如上文所示，通过计算多个融合后偏好信息的总和，得到候选偏好信息。又比如，还可以通过计算多个融合后偏好信息的平均数，得到候选偏好信息，等等。

在一实施例中，根据候选偏好信息选择音频预览片段时，可以将数值最高的音频片段作为音频预览片段，还可以根据实际情况，对音频预览片段的选取方法进行调整，如将数值最低的音频片段作为音频预览片段，或者将平均数值最高的音频片段作为音频预览片段，等等。

在一实施例中，用户进行歌曲预览可以不局限于上述提到的方法，又比如，用户还可以针对音频预览页面的音频列表进行目标音频的选择，此时，终端可以显示目标音频对应的页面，然后用户可以通过点击目标音频对应页面上的预设区域发送歌曲预览请求，或者用户可以通过摇一摇手机、翻一翻手机等等方法发送歌曲预览请求。此时，终端可以根据歌曲预览请求，播放目标音频对应的音频预览片段，实现用户对于目标音频的预览。其中，本申请实施例不对发送歌曲预览请求的方法进行限制

在一实施例中，该音频播放方法也可以不仅限于歌曲预览的场景中，还可以应用于视频、音频等的片段选取场景中，比如，用户希望播放多媒体文件中的一部分，以了解整体的多媒体文件，或者将选取的片段向公众展示时，该音频播放方法可以通过考虑用户的需求，并将用户的需求信息加入至模型中，从而选取到符合用户需求的多媒体片段。

由上可知，本申请实施例可以显示音频播放客户端的音频预览页面，音频预览页面中包括至少一个音频标识、以及每个音频标识对应的音频预览控件，其中，一个音频标识对应一个音频预览控件，音频预览控件供用户操作以播放音频预览片段，当检测到用户针对目标音频预览控件的播放预览操作时，播放目标音频预览控件对应的音频预览片段，其中，音频预览片段为基于用户的历史播放音频从目标音频中选取的音频片段，目标音频为目标音频预览控件对应的音频标识指示的音频。该方案可以通过收集用户对应的多个历史播放音频，以了解用户的偏好信息，并通过注意力机制将历史播放音频对应的信息加入至偏好信息预测模型中，从而在目标音频中获取到符合用户偏好的音频预览片段，相比于现有技术，本方案可以根据用户曾经播放过的历史播放音频，了解到不同用户在收听音频时不同的偏好信息，并根据用户的偏好信息进行音频预览片段的获取，因此，通过该音频播放方法，会获取到满足不同用户偏好的音频预览片段。

根据前面实施例所描述的方法，以下将以该音频播放装置具体集成在网络设备举例作进一步详细说明。

参考图3，本申请实施例的音频播放方法的具体流程可以如下：

301、网络设备显示音频播放客户端的音频预览页面。

在实际应用中，比如，用户1可以通过账户1登录音频播放客户端1，此时，终端上可以显示如图6所示的音频预览页面。

302、当检测到用户针对音频预览控件的播放预览操作时，网络设备确定目标歌曲。

在实际应用中，比如，用户1可以通过账户1登录音频播放客户端1，并且终端上显示如图6所示的音频预览页面。用户1可以点击音频预览页面上歌曲1对应的音频预览控件，实现播放预览操作。此时，终端会检测到用户1的播放预览操作。当终端检测到播放预览操作时，可以将歌曲1确定为目标歌曲。

303、网络设备获取目标歌曲对应的时间维度上的音频信息集合、以及频域维度上的音频信息集合。

在实际应用中，比如，可以对歌曲1进行时间维度上的采样，得到歌曲1对应的时间维度上的初始音频信息集合，该时间维度上的初始音频信息集合中包括离散的时间序列T₁～T_n，其中，T_i表示歌曲1在第i个时刻的音高。然后，可以通过连续傅里叶变换将歌曲1从时域变换到频域，并对变换后频域上的歌曲1进行采样，得到歌曲1对应的频域维度上的初始音频信息集合，该频域维度上的初始音频信息集合中包括离散的频率序列F₁～F_m，其中，F_j表示歌曲1在第j个频率值上的幅值。

得到时间维度上的初始音频信息集合T₁～T_n、以及频域维度上的初始音频信息集合F₁～F_m之后，可以将时间维度上的初始音频信息集合T₁～T_n、以及频域维度上的初始音频信息集合F₁～F_m中每个初始音频特征信息都映射到一个固定大小的向量上，得到多个音频特征信息，其中，初始音频特征信息T_i转换后得到的音频特征信息可以表示为v(T_i)，初始音频特征信息F_j转换后得到的音频特征信息可以表示为v(F_j)。获取到多个音频特征信息v(T₁)～v(T_n)、v(F₁)～v(F_m)后，可以通过v(T₁)～v(T_n)构建歌曲1对应的时间维度上的音频信息集合，通过v(F₁)～v(F_m)构建歌曲1对应的频域维度上的音频信息集合。

304、网络设备获取用户对应的多首历史播放歌曲。

在实际应用中，比如，可以将用户1在音频播放客户端1中历史播放过的多首歌曲，作为用户1对应的多首历史播放歌曲。

305、网络设备获取多首历史播放歌曲对应的时间维度上的融合后历史音频信息、以及频域维度上的融合后历史音频信息。

在实际应用中，比如，可以分别获取每首历史播放歌曲对应的时间维度上的历史音频特征信息、以及频域维度上的历史音频特征信息，如可以利用303的方法，获取历史播放歌曲1对应的时间维度上的历史音频特征信息v₁(T₁)～v₁(T_n)、历史播放歌曲1对应的频域维度上的历史音频特征信息v₁(F₁)～v₁(F_m)、历史播放歌曲2对应的时间维度上的历史音频特征信息v₂(T₁)～v₂(T_n)、历史播放歌曲2对应的频域维度上的历史音频特征信息v₂(F₁)～v₂(F_m)、历史播放歌曲3对应的时间维度上的历史音频特征信息v₃(T₁)～v₃(T_n)、以及历史播放歌曲3对应的频域维度上的历史音频特征信息v₃(F₁)～v₃(F_m)，等等。

获取到每首历史播放歌曲对应的时间维度上的历史音频特征信息、以及频域维度上的历史音频特征信息之后，可以将相同维度的历史音频特征信息进行融合，如可以将v₁(T₁)～v₁(T_n)、v₂(T₁)～v₂(T_n)、v₃(T₁)～v₃(T_n)…融合为一整个特征向量，也即融合为时间维度对应的融合后历史音频信息v(T_user)，将v₁(F₁)～v₁(F_m)、v₂(F₁)～v₂(F_m)、v₃(F₁)～v₃(F_m)…融合为一整个特征向量，也即融合为频域维度对应的融合后历史音频信息v(F_user)。然后，可以将时间维度对应的融合后历史音频信息v(T_user)、以及频域维度对应的融合后历史音频信息v(F_user)拼接在一起，得到用户A对应的特征向量v(user)。

306、网络设备根据时间维度上的融合后历史音频信息，对时间维度上音频信息集合中的多个音频特征信息进行融合，得到时间维度上的目标音频特征信息。

307、网络设备基于时间维度上的目标音频特征信息、以及时间维度的偏好信息预测模型，预测用户针对多个时刻的特征点偏好信息。

在实际应用中，比如，可以获取时间维度对应的偏好信息预测模型1，并将获取到的时间维度的目标音频特征信息作为偏好信息预测模型1的当前输入，然后根据偏好信息预测模型1中的全连接层，对时间维度的目标音频特征信息进行全连接运算，得到用户针对目标音频中多个时间点的特征点偏好信息，如可以预测得到用户对目标音频中第1秒的特征点偏好信息P(T₁)，第2秒的特征点偏好信息P(T₂)…第i秒的特征点偏好信息P(T_i)…第n秒的特征点偏好信息P(T_n)。其中，若设定用户感兴趣为1，用户不感兴趣为0，该特征点偏好信息P(T_i)可以为一个0～1之间的概率值。

308、网络设备根据频域维度上的融合后历史音频信息，对频域维度上音频信息集合中的多个音频特征信息进行融合，得到频域维度上的目标音频特征信息。

在实际应用中，比如可以根据频域维度对应的融合后历史音频信息v(F_user)，计算出音频信息集合中每个音频特征信息v(F₁)～v(F_m)对应的权重β₁～β_m，其中，β₁为音频特征信息v(F₁)对应的权重，β₂为音频特征信息v(F₂)对应的权重…β_m为音频特征信息v(F_m)对应的权重。然后可以将获取到的权重分别添加至对应的音频特征信息上，并进行音频特征信息的融合，得到频域维度的目标音频特征信息，其中，频域维度目标音频特征信息的计算公式可以如下：

309、网络设备基于频域维度上的目标音频特征信息、以及频域维度的偏好信息预测模型，预测用户针对每个频率值的特征点偏好信息。

在实际应用中，比如，可以获取频域维度对应的偏好信息预测模型2，并将获取到的频域维度的目标音频特征信息作为偏好信息预测模型2的当前输入，然后根据偏好信息预测模型2中的全连接层，对频域维度的目标音频特征信息进行全连接运算，得到用户针对目标音频的多个频率值的特征点偏好信息，如可以预测得到用户对目标音频的1Hz频率值的特征点偏好信息P(F₁)，2Hz频率值的特征点偏好信息P(F₂)…jHz频率值的特征点偏好信息P(F_j)...mHz频率值的特征点偏好信息P(F_m)。由于此处的概率是对目标音频整体做分解得到的，因此预测得到的特征点偏好信息P(F_j)，表示用户对目标音频第i个频率分量的喜好程度。其中，若设定用户感兴趣为1，用户不感兴趣为0，该特征点偏好信息P(F_j)可以为一个0～1之间的概率值。

310、网络设备根据用户针对多个时刻的特征点偏好信息、以及用户针对每个频率值的特征点偏好信息，从目标歌曲中获取音频预览片段，并播放音频预览片段。

在实际应用中，比如，可以获取时间维度上的多个时刻、以及每个时刻对应的音高，T₁-1s、T₂-2s、T₃-3s、T₄-4s…T_n-ns。然后根据时间序列T₁～T_n，对目标音频进行划分，划分为多个初始音频片段，如以4s为一个单位，将目标音频划分为G₁～G_q，q个初始音频片段。其中，划分得到q个初始音频片段可以表示为：G₁＝{T₁,T₂,T₃,T₄}、G₂＝{T₅,T₆,T₇,T₈}…G_q＝{T_n-3,T_n-2,T_n-1,T_n}。然后，可以分别对q个初始音频片段进行快速傅里叶变换，得到每个初始音频片段对应的频谱，如可以对G_i进行快速傅里叶变换，得到G_i对应的频谱F₁-G_i～F_m-G_i。其中，F₁-G_i～F_m-G_i与F₁～F_m的区别在于，F₁-G_i～F_m-G_i表示一个初始音频片段包含的时间序列所对应的频谱，而F₁～F_m表示整个目标音频对应的频谱。

P_final(G_i)＝P(T-G_i)·P(F-G_i)

其中，该融合后偏好信息表示用户对该初始音频片段对应的片段的偏好程度。可以得到q个初始音频片段对应的P_final(G₁)～P_final(G_q)。然后可以根据获取到的多个融合后偏好信息，从目标歌曲中获取音频预览片段，并播放音频预览片段。

若每个初始音频片段的时长为0.5s，而预先确定需要获取的音频片段时长为5s，此时，10个初始音频片段的时长与音频片段时长相同，那么针对初始音频片段G_i，可以根据G_i～G_i+9构建初始音频片段G_i对应的候选音频片段，然后根据P_final(G_i)～P_final(G_i+9)，确定出候选音频片段G_i～G_i+9对应的候选偏好信息，可以将候选偏好信息数值最高的候选音频片段，作为最终输出的音频预览片段。其中，候选音频片段G_i～G_i+9对应的候选偏好信息的计算公式可以如下：

候选偏好信息＝P_final(G_i)+P_final(G_i+1)+...+P_final(G_i+9)

由上可知，本申请实施例可以通过网络设备显示音频播放客户端的音频预览页面，当检测到用户针对音频预览控件的播放预览操作时，确定目标歌曲，获取目标歌曲对应的时间维度上的音频信息集合、以及频域维度上的音频信息集合，获取用户对应的多首历史播放歌曲，获取多首历史播放歌曲对应的时间维度上的融合后历史音频信息、以及频域维度上的融合后历史音频信息，根据时间维度上的融合后历史音频信息，对时间维度上音频信息集合中的多个音频特征信息进行融合，得到时间维度上的目标音频特征信息，基于时间维度上的目标音频特征信息、以及时间维度的偏好信息预测模型，预测用户针对多个时刻的特征点偏好信息，根据频域维度上的融合后历史音频信息，对频域维度上音频信息集合中的多个音频特征信息进行融合，得到频域维度上的目标音频特征信息，基于频域维度上的目标音频特征信息、以及频域维度的偏好信息预测模型，预测用户针对每个频率值的特征点偏好信息，根据用户针对多个时刻的特征点偏好信息、以及用户针对每个频率值的特征点偏好信息，从目标歌曲中获取音频预览片段，并播放音频预览片段。该方案可以通过收集用户对应的多个历史播放音频，以了解用户的偏好信息，并通过注意力机制将历史播放音频对应的信息加入至偏好信息预测模型中，从而在目标音频中获取到符合用户偏好的音频预览片段，相比于现有技术，本方案可以根据用户曾经播放过的历史播放音频，了解到不同用户在收听音频时不同的偏好信息，并根据用户的偏好信息进行音频预览片段的获取，因此，通过该音频播放方法，会获取到满足不同用户偏好的音频预览片段。

为了更好地实施以上方法，本申请实施例还可以提供一种音频播放装置，该音频播放装置具体可以集成在网络设备中，该网络设备可以包括服务器、终端等，其中，终端可以包括：手机、平板电脑、笔记本电脑或个人计算机(PC，Personal Computer)等。

例如，如图7所示，该音频播放装置可以包括显示模块71和播放模块72，如下：

显示模块71，用于显示音频播放客户端的音频预览页面，音频预览页面中包括至少一个音频标识、以及每个音频标识对应的音频预览控件，其中，一个音频标识对应一个音频预览控件，音频预览控件供用户操作以播放音频预览片段；

播放模块72，用于当检测到用户针对目标音频预览控件的播放预览操作时，播放目标音频预览控件对应的音频预览片段，其中，音频预览片段为基于用户的历史播放音频从目标音频中选取的音频片段，目标音频为目标音频预览控件对应的音频标识指示的音频。

在一实施例中，所述播放模块72可以包括确定子模块721、历史获取子模块722、片段获取子模块723和播放子模块724，如下：

确定子模块721，用于当检测到用户针对目标音频预览控件的播放预览操作时，确定所述目标音频预览控件对应的音频标识指示的目标音频；

历史获取子模块722，用于获取所述用户对应的多个历史播放音频；

片段获取子模块723，用于根据所述历史播放音频，从所述目标音频中获取与所述用户对应的音频预览片段；

播放子模块724，用于播放所述音频预览片段。

在一实施例中，所述片段获取子模块723可以包括信息获取子模块7231、集合获取子模块7232、融合子模块7233、预测子模块7234和第一获取子模块7235，如下：

信息获取子模块7231，用于获取所述目标音频对应的多个维度上的音频信息集合，所述音频信息集合包括所述维度上多个特征点对应的音频特征信息；

集合获取子模块7232，用于获取每个历史播放音频对应的多个维度上的历史音频信息集合；

融合子模块7233，用于针对每个维度，基于所述历史音频信息集合，对所述音频信息集合中的多个音频特征信息进行融合，得到每个维度对应的关注与所述历史播放音频之间相关程度的目标音频特征信息；

预测子模块7234，用于基于每个维度对应的所述目标音频特征信息，预测所述用户针对所述目标音频每个维度上多个特征点的特征点偏好信息；

第一获取子模块7235，用于基于所述每个维度上多个特征点的特征点偏好信息，从所述目标音频中获取与所述用户对应的音频预览片段。

在一实施例中，所述信息获取子模块7231可以包括采样子模块72311、转换子模块72312和构建子模块72313，如下：

采样子模块72311，用于对所述目标音频进行多个维度上的采样，得到所述目标音频对应的多个维度上的初始音频信息集合；

转换子模块72312，用于对所述初始音频信息集合中多个初始音频特征信息进行转换，得到多个音频特征信息；

构建子模块72313，用于基于所述音频特征信息，构建所述目标音频对应的多个维度上的音频信息集合。

在一实施例中，所述采样子模块72311可以具体用于：

将所述目标音频进行频域变换，得到变换后目标音频；

在一实施例中，所述融合子模块7233可以包括第一融合子模块72331和第二融合子模块72332，如下：

第一融合子模块72331，用于针对每个维度，对多个历史播放音频对应历史音频信息集合里的多个历史音频特征信息进行融合，得到多个维度的融合后历史音频信息；

第二融合子模块72332，用于针对每个维度，基于所述融合后历史音频信息，对所述音频信息集合中的多个音频特征信息进行融合，得到每个维度对应的关注与所述历史播放音频之间相关程度的目标音频特征信息。

在一实施例中，所述第一融合子模块72331可以具体用于：

在一实施例中，所述第二融合子模块72332可以包括权重获取子模块723321和第三融合子模块723322，如下：

权重获取子模块723321，用于针对每个维度，基于所述融合后历史音频信息，分别获取所述音频信息集合中每个音频特征信息对应的权重；

第三融合子模块723322，用于针对每个维度，基于所述权重，对所述音频信息集合中的多个音频特征信息进行融合，得到每个维度对应的关注与所述历史播放音频之间相关程度的目标音频特征信息。

在一实施例中，所述权重获取子模块723321可以具体用于：

在一实施例中，所述预测子模块7234可以具体用于：

在一实施例中，所述第一获取子模块7235可以包括划分子模块72351、第四融合子模块72352和第二获取子模块72353，如下：

划分子模块72351，用于基于时间维度上的多个特征点，将所述目标音频划分为多个初始音频片段；

第四融合子模块72352，用于将所述初始音频片段对应多个维度的特征点偏好信息进行融合，得到所述初始音频片段对应的融合后偏好信息；

第二获取子模块72353，用于基于所述融合后偏好信息，从所述目标音频中获取与所述用户对应的音频预览片段。

在一实施例中，所述第四融合子模块72352可以具体用于：

在一实施例中，所述第二获取子模块72353可以具体用于：

确定需要获取的音频片段时长；

确定所述音频片段时长对应所述初始音频片段的片段数量；

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本申请实施例可以通过显示模块71显示音频播放客户端的音频预览页面，音频预览页面中包括至少一个音频标识、以及每个音频标识对应的音频预览控件，其中，一个音频标识对应一个音频预览控件，音频预览控件供用户操作以播放音频预览片段，当检测到用户针对目标音频预览控件的播放预览操作时，通过播放模块72播放目标音频预览控件对应的音频预览片段，其中，音频预览片段为基于用户的历史播放音频从目标音频中选取的音频片段，目标音频为目标音频预览控件对应的音频标识指示的音频。该方案可以通过收集用户对应的多个历史播放音频，以了解用户的偏好信息，并通过注意力机制将历史播放音频对应的信息加入至偏好信息预测模型中，从而在目标音频中获取到符合用户偏好的音频预览片段，相比于现有技术，本方案可以根据用户曾经播放过的历史播放音频，了解到不同用户在收听音频时不同的偏好信息，并根据用户的偏好信息进行音频预览片段的获取，因此，通过该音频播放方法，会获取到满足不同用户偏好的音频预览片段。

本申请实施例还提供一种网络设备，该网络设备可以集成本申请实施例所提供的任一种音频播放装置。

例如，如图8所示，其示出了本申请实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器81、一个或一个以上计算机可读存储介质的存储器82、电源83和输入单元84等部件。本领域技术人员可以理解，图8中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器81是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器82内的软件程序和/或模块，以及调用存储在存储器82内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器81可包括一个或多个处理核心；优选的，处理器81可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器81中。

存储器82可用于存储软件程序以及模块，处理器81通过运行存储在存储器82的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器82可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器82可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器82还可以包括存储器控制器，以提供处理器81对存储器82的访问。

网络设备还包括给各个部件供电的电源83，优选的，电源83可以通过电源管理***与处理器81逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源83还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元84，该输入单元84可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器81会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器82中，并由处理器81来运行存储在存储器82中的应用程序，从而实现各种功能，如下：

显示音频播放客户端的音频预览页面，音频预览页面中包括至少一个音频标识、以及每个音频标识对应的音频预览控件，其中，一个音频标识对应一个音频预览控件，音频预览控件供用户操作以播放音频预览片段，当检测到用户针对目标音频预览控件的播放预览操作时，播放目标音频预览控件对应的音频预览片段，其中，音频预览片段为基于用户的历史播放音频从目标音频中选取的音频片段，目标音频为目标音频预览控件对应的音频标识指示的音频。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机设备，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种音频播放方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种音频播放方法中的步骤，因此，可以实现本申请实施例所提供的任一种音频播放方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种音频播放方法、装置、以及计算机存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频播放方法，其特征在于，包括：

2.根据权利要求1所述的音频播放方法，其特征在于，当检测到用户针对目标音频预览控件的播放预览操作时，播放所述目标音频预览控件对应的音频预览片段，包括：

获取所述用户对应的多个历史播放音频；

基于所述历史播放音频，从所述目标音频中获取与所述用户对应的音频预览片段；

播放所述音频预览片段。

3.根据权利要求2所述的音频播放方法，其特征在于，基于所述历史播放音频，从所述目标音频中获取与所述用户对应的音频预览片段，包括：

4.根据权利要求3所述的音频播放方法，其特征在于，获取所述目标音频对应的多个维度上的音频信息集合，包括：

5.根据权利要求4所述的音频播放方法，其特征在于，所述多个维度包括时间维度和频域维度；

对所述目标音频进行多个维度上的采样，得到所述目标音频对应的多个维度上的初始音频信息集合，包括：

将所述目标音频进行频域变换，得到变换后目标音频；

6.根据权利要求3所述的音频播放方法，其特征在于，针对每个维度，基于所述历史音频信息集合，对所述音频信息集合中的多个音频特征信息进行融合，得到每个维度对应的关注与所述历史播放音频之间相关程度的目标音频特征信息，包括：

7.根据权利要求6所述的音频播放方法，其特征在于，所述多个维度包括时间维度和频域维度；

针对每个维度，对多个历史播放音频对应历史音频信息集合里的多个历史音频特征信息进行融合，得到多个维度的融合后历史音频信息，包括：

8.根据权利要求6所述的音频播放方法，其特征在于，针对每个维度，基于所述融合后历史音频信息，对所述音频信息集合中的多个音频特征信息进行融合，得到每个维度对应的关注与所述历史播放音频之间相关程度的目标音频特征信息，包括：

9.根据权利要求8所述的音频播放方法，其特征在于，针对每个维度，基于所述融合后历史音频信息，分别获取所述音频信息集合中每个音频特征信息对应的权重，包括：

10.根据权利要求3所述的音频播放方法，其特征在于，基于每个维度对应的所述目标音频特征信息，预测所述用户针对所述目标音频每个维度上多个特征点的特征点偏好信息，包括：

11.根据权利要求3所述的音频播放方法，其特征在于，所述多个维度包括时间维度；

基于所述每个维度上多个特征点的特征点偏好信息，从所述目标音频中获取与所述用户对应的音频预览片段，包括：

12.根据权利要求11所述的音频播放方法，其特征在于，所述多个维度还包括频域维度；

将所述初始音频片段对应多个维度的特征点偏好信息进行融合，得到所述初始音频片段对应的融合后偏好信息，包括：

13.根据权利要求11所述的音频播放方法，其特征在于，基于所述融合后偏好信息，从所述目标音频中获取与所述用户对应的音频预览片段，包括：

确定需要获取的音频片段时长；

确定所述音频片段时长对应所述初始音频片段的片段数量；

14.一种音频播放装置，其特征在于，包括：

15.一种计算机存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1-13任一项所述的音频播放方法。