CN108334540A

CN108334540A - 媒体信息的展示方法和装置、存储介质、电子装置

Info

Publication number: CN108334540A
Application number: CN201711352237.6A
Authority: CN
Inventors: 何静; 邹子馨
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-07-27
Anticipated expiration: 2037-12-15
Also published as: US10998005B2; CN108334540B; WO2019114516A1; US20200082850A1

Abstract

本发明公开了一种媒体信息的展示方法和装置、存储介质、电子装置。其中，该方法包括：显示交互界面，其中，交互界面为客户端上用于获取图片的交互界面；在通过交互界面获取到第一图片的情况下，获取目标媒体信息，其中，目标媒体信息中至少携带有第一音频，第一音频是根据第一图片的图片特征生成的音频；在客户端上展示目标媒体信息。本发明解决了相关技术中制作媒体信息的步骤较为繁琐的技术问题。

Description

媒体信息的展示方法和装置、存储介质、电子装置

技术领域

本发明涉及互联网领域，具体而言，涉及一种媒体信息的展示方法和装置、存储介质、电子装置。

背景技术

现在，伴随着多媒体技术的发展，多媒体内容的种类呈现多样化的趋势，例如电影、连续剧、家庭录像、新闻、纪录片、音乐内容、生活实时场景、网络小说、文字新闻等，对应于此，用户的多样化需求应运而生。

例如，将收集到或拍摄到的照片合成为视频，可利用Powerpoint的动画效果把照片制作成ppt，然后再把ppt转换成视频相册，具体步骤如下：

1)打开Powerpoint，找到“***”选项，然后选择***相册，把电脑中的照片逐个导入空白ppt；

2)照片***ppt之后，可以通过图片工具为照片选择快速样式，这样可以使照片看起来更美观，然后为照片设置背景图片，可以根据需求选择各种风格的图片来作为照片的背景图；

3)添加动画效果，具体可以在Powerpoint进行动画效果的选择，分别有基本型、细微型、温和型、华丽型等，根据个人喜好，可为每一张照片都设置不同的动画效果，或者使用动画刷为所有照片都刷上相同的动画效果也可以；

4)动画效果及切换特效都设置完成之后，就可以保存ppt相册，此时的相册还只能在电脑或投影仪上才能播放，不是真正的视频，接下来可利用照片制作视频软件把ppt相册转换为视频。

在上述技术方案中存在如下问题：

1)随着智能移动终端的普及，使得手机、平板等成为了生活和工作的主要设备，而上述方案依赖于PC计算机上的Powerpoint和视频转换软件，在制作时还需要寻找PC计算机，为用户带来了诸多不便，且即使可在手机或平板上操作，受限于屏幕较小，操作也极其不便；

2)制作视频的步骤较为繁琐，且用户需要具备一定的计算机基础，会使用Powerpoint和视频转换软件。

类似地，当游客处于某些环境时，由于当时的心情和环境特别契合，往往会有感而发，想要创造一些歌曲，但是对于普通人而言，并不具备作词作曲的能力，需要求助于具备这些技能的专业人士。这就会造成与上述合成视频类似的问题：

具备作曲能力的专业人士需要仔细了解游客的描述，然后根据游客描述进行作曲；然后具备作词能力的专业人士仔细了解了游客的描述后，根据游客描述进行填词；然后进行录音，录音时还需游客识得曲谱，了解各种录音设备的使用。对于缺乏音乐技能的游客而言，整个过程较为繁琐。

针对相关技术中制作媒体信息的步骤较为繁琐的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种媒体信息的展示方法和装置、存储介质、电子装置，以至少解决相关技术中制作媒体信息的步骤较为繁琐的技术问题。

根据本发明实施例的一个方面，提供了一种媒体信息的展示方法，该方法包括：显示交互界面，其中，交互界面为客户端上用于获取图片的交互界面；在通过交互界面获取到第一图片的情况下，获取目标媒体信息，其中，目标媒体信息中至少携带有第一音频，第一音频是根据第一图片的图片特征生成的音频；在客户端上展示目标媒体信息。

根据本发明实施例的一个方面，提供了一种媒体信息的展示方法，该方法包括：获取客户端发送的请求信息，其中，请求信息中携带有第一图片；基于第一图片生成第一音频，其中，第一音频是根据第一图片的图片特征生成的音频；向客户端发送反馈信息，通过反馈信息指示用于在客户端上展示的目标媒体信息，其中，目标媒体信息中至少携带有第一音频。

根据本发明实施例的另一方面，还提供了一种媒体信息的展示装置，该装置包括：显示单元，用于显示交互界面，其中，交互界面为用于获取图片的交互界面；确定单元，用于在通过交互界面获取到第一图片的情况下，获取目标媒体信息，其中，目标媒体信息中至少携带有第一音频，第一音频是根据第一图片的图片特征生成的音频；展示单元，用于展示目标媒体信息。

根据本发明实施例的另一方面，还提供了一种媒体信息的展示装置，该装置包括：获取单元，用于获取客户端发送的请求信息，其中，请求信息中携带有第一图片；生成单元，用于基于第一图片生成第一音频，其中，第一音频是根据第一图片的图片特征生成的音频；发送单元，用于向客户端发送反馈信息，通过反馈信息指示用于在客户端上展示的目标媒体信息，其中，目标媒体信息中至少携带有第一音频。

根据本发明实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器通过计算机程序执行上述的方法。

在本发明实施例中，在通过交互界面获取到第一图片的情况下，获取目标媒体信息，目标媒体信息中至少携带有第一音频，第一音频是根据第一图片的图片特征生成的音频；在客户端上展示目标媒体信息，由于目标媒体信息的生成过程是由终端或服务器执行的，可以解决相关技术中制作媒体信息的步骤较为繁琐的技术问题，进而达到降低了制作媒体信息的复杂度的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的媒体信息的展示方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的媒体信息的展示方法的流程图；

图3是根据本发明实施例的一种可选的媒体信息的展示方法的流程图；

图4是根据本发明实施例的一种可选的照片的示意图；

图5是根据本发明实施例的一种可选的节拍的示意图；

图6是根据本发明实施例的一种可选的用户界面的示意图；

图7是根据本发明实施例的一种可选的媒体信息的展示方法的流程图；

图8是根据本发明实施例的一种可选的用户界面的示意图；

图9是根据本发明实施例的一种可选的视频模板的示意图；

图10是根据本发明实施例的一种可选的媒体信息的展示装置的示意图；

图11是根据本发明实施例的一种可选的媒体信息的展示装置的示意图；以及

图12是根据本发明实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

TTS(text-to-speech，文字转语音)：将一般语言的文字转换为语音，可对合成语音的音色、语调等做自定义调整。

根据本发明实施例的一方面，提供了一种媒体信息的展示方法的方法实施例。

可选地，在本实施例中，上述媒体信息的展示方法可以应用于如图1所示的由服务器101和终端103(还可包括存储数据库105)所构成的硬件环境中。如图1所示，服务器101通过网络与终端103进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端103并不限定于PC、手机、平板电脑等。本发明实施例的媒体信息的展示方法可以由服务器101来执行，也可以由终端103来执行，还可以是由服务器101和终端103共同执行。其中，终端103执行本发明实施例的媒体信息的展示方法也可以是由安装在其上的客户端来执行。

例如，本发明实施例的媒体信息的展示方法由服务器101和终端103来执行时：

步骤S102，用户在第一界面A中选择待上传的图片，在完成上传后，去选择曲风。

可选地，选择图片过程中，可以界面提示当前可上传的图片数量，如“还可上传两张图片”，对于已经上传的图片，用户可通过“取消按钮C”取消该图片的上传，类似的也可采用替换的方式将已上传的图片替换为另一图片。

步骤S104，终端与服务器进行交互，包括将用户上传的图片以视频请求的形式发送给服务器，接收服务器制作好的目标媒体信息(如目标视频)。

步骤S106，服务器将图片制作成目标媒体信息(如目标视频)。

服务器接收到图片时，可根据第一图片的图片特征生成第一音频，并制作成包括第一图片和第一音频的目标媒体信息。

可选地，对于服务器在运行过程中需要使用到的数据，可以通过与数据库的交互来存储或读取。

终端接收到服务器返回的目标媒体信息后，可通过界面B来展示。

需要说明的是，本申请的上述实施例以媒体信息的展示方法由服务器101和终端103来共同执行为例进行描述，这仅仅是一个可选地实施例，这么做的好处是考虑到移动终端运算资源相对较弱且电量有限，故将视频制作通过服务器来执行；也可将制作目标媒体信息的相关操作通过终端来执行，也即本发明实施例的媒体信息的展示方法由终端103或其上的客户端来执行。

图2是根据本发明实施例的一种可选的媒体信息的展示方法的流程图，如图2所示，该方法可以运行在终端或终端的客户端上，该方法可以包括以下步骤：

步骤S202，显示交互界面，交互界面为客户端上用于获取图片的交互界面。

可选地，当由服务器来制作媒体信息(如视频或音频)时，上述的交互界面是终端与服务器之间的图像上传接口的上层显示界面，通过在该交互界面上的交互操作(如点击如图1所示的界面A中的符号“+”后选中相应图片)可将待上传的图片告知上传接口。

步骤S204，在通过交互界面获取到第一图片的情况下，获取目标媒体信息，目标媒体信息中至少携带有第一音频，第一音频是根据第一图片的图片特征生成的音频，目标媒体信息是基于第一图片确定的，具体的确定过程可在客户端本地或服务器执行。

可选地，通过交互界面获取第一图片包括：在获取到的第一图片的数量小于阈值(如10张、5张等)的情况下，在交互界面显示提示信息，其中，提示信息用于提示当前可上传的第一图片的张数(或当前已上传的第一图片的张数)；在交互界面上检测到上传事件的情况下，按照上传事件所指示的路径获取第一图片；更新提示信息所提示的可上传的第一图片的张数(或当前已上传的第一图片的张数)。

可选地，当目标媒体信息中仅携带第一音频时，目标媒体信息就相当于音频媒体；目标媒体信息中还可携带文本信息，如与第一音频对应的文本信息(如歌词)，此时目标媒体信息相当于内嵌歌词的音乐媒体；目标媒体信息中还可携带第一图片，此时目标媒体信息相当于视频媒体，如MV视频。

上述的第一图片为至少一张，为了使得制作得到的目标媒体信息更为丰富，优选为多张。在制作第一音频时，并不是从多个预设音频(如背景音乐)中为图片选择一个，而是针对性地根据图片中的图片特征重新生成一个第一音频，也即若第一图片不同，那么所得到的第一音频不同。

之所以根据图片中的图片特征生成第一音频，是考虑到不同的图片所处的场景或者所拍摄的对象往往带有一定的意境，类似第，不同类型音乐音频(第一音频)往往也能体现一定的意境，根据图片中的图片特征重新生成一个第一音频意即生成与之意境匹配的第一音频。

步骤S206，在客户端上展示目标媒体信息。

通过上述步骤S202至步骤S206，在通过交互界面获取到第一图片的情况下，获取目标媒体信息，目标媒体信息中至少携带有第一音频，第一音频是根据第一图片的图片特征生成的音频；在客户端上展示目标媒体信息，由于目标媒体信息的生成过程是由终端或服务器执行的，可以解决相关技术中制作媒体信息的步骤较为繁琐的技术问题，进而达到降低了制作媒体信息的复杂度的技术效果。

在本申请的技术方案中，可基于图像描述生成，根据用户上传的多张图片自动作词和配音，唱出一段音乐MV(即目标媒体信息)进行呈现的方式，实现技术的多样化趣味展示。可选地，在图像描述生成的过程中，可根据图片特征进行自动作词。下面结合步骤S204和步骤S206进行详述：

在步骤S204提供的技术方案中，在通过交互界面获取到第一图片的情况下，获取目标媒体信息，目标媒体信息中至少携带有第一音频，第一音频是根据第一图片的图片特征生成的音频。

可选地，若生成目标媒体信息的过程在终端执行，则可由终端执行如下步骤即可：

步骤S2041，获取用于表示第一图片的图片特征的第一信息(如歌词)，并获取目标音乐类型的曲谱，目标音乐类型为用户指示的音乐类型。

步骤S2042，将第一信息按照目标曲谱(即目标音乐类型的曲谱)转换为第一音频。

步骤S2043，将第一图片和第一音频填充至视频模板中，得到目标媒体信息，或直接将第一音频作为目标媒体信息。

可选地，若生成目标媒体信息的过程在服务器执行，则终端可通过如下步骤获取到目标媒体信息：

步骤S2044，向服务器发送请求信息，请求信息中携带有第一图片，服务器用于根据第一图片的图片特征生成第一音频。

可选地，在向服务器发送请求信息时，可向服务器发送携带有音乐类型标识的请求信息，服务器将第一信息转换为目标音乐类型的第一音频，目标音乐类型即为音乐类型标识所指示的音乐类型。

步骤S2045，接收服务器响应请求信息所返回的反馈信息，并至少根据反馈信息确定目标媒体信息，反馈信息用于指示第一音频。

若待生成的目标媒体信息为音频，则直接将接收到的第一音频作为目标媒体信息。

可选地，至少根据反馈信息确定目标媒体信息包括：根据第一图片和第一音频确定目标媒体信息，其中，目标媒体信息为携带有第一音频和第一图片的视频媒体信息。

可选地，上述的第一音频是以第一信息(可称为图像描述生成，基于计算机视觉，用场景和物体类别信息作为先验知识来提取图像特征，协同生成融合场景及物体类别的图像描述句子)为歌词的音乐音频，第一信息用于表示第一图片的图片特征，上述的反馈信息包括但不局限于如下几种形式：

其一，在反馈信息中携带第一音频，若终端本地保存有视频模板，终端在根据反馈信息确定目标媒体信息时，可将第一图片和反馈信息中携带的第一音频填充至视频模板中，得到目标媒体信息。

其二，若终端本地没有保存视频模板，则服务器可在反馈信息中携带第一音频和视频模板，终端在根据反馈信息确定目标媒体信息时，可将第一图片和反馈信息中携带的第一音频填充至视频模板中，得到目标媒体信息。

其三，服务器直接在反馈信息中携带模板视频，服务器将第一图片和第一音频填充至视频模板中，并将得到的目标媒体信息携带于反馈信息中发送给客户端，终端在根据反馈信息确定目标媒体信息时，可直接获取反馈信息中携带的目标媒体信息。

需要说明的是，对于终端或服务器如何生成目标媒体信息，方式较为类似，具体在后续实施例中以服务器生成目标媒体信息为例进行说明。

在步骤S206提供的技术方案中，在客户端上展示目标媒体信息。

可选地，在客户端上展示目标媒体信息包括但不局限于如下形式：

(1)在客户端上直接播放目标媒体信息；

(2)在客户端上展示目标媒体信息的标识信息，如展示目标媒体信息中的某一帧图片或概要，如图1中界面B所示，用户可以在该界面点击播放按钮、继续播放按钮等来实现播放。

可选地，目标媒体信息为视频媒体信息，其中，在客户端上展示目标媒体信息的同时或之后，在视频媒体信息的播放过程中，在视频媒体信息中展示多张第一图片、并播放以第一信息为歌词的音乐音频，其中，第一音频包括音乐音频，第一信息中的一段歌词(对应于第一语言文本)用于表示相应的一张第一图片的图片特征。

可选地，在播放的同时，还可在视频媒体信息中展示歌词。

根据本发明实施例的一方面，还提供了一种媒体信息的展示方法的方法实施例。该方法可以运行在服务器上，如图3所示，该方法可以包括以下步骤：

步骤S302，获取客户端发送的请求信息，请求信息中携带有第一图片。

步骤S304，基于第一图片生成第一音频，第一音频是根据第一图片的图片特征生成的音频。

步骤S306，向客户端发送反馈信息，通过反馈信息指示用于在客户端上展示的目标媒体信息，目标媒体信息中至少携带有第一音频。

通过上述技术方案，在获取客户端发送的请求信息时，基于请求信息中携带的第一图片生成第一音频，第一音频是根据第一图片的图片特征生成的音频；向客户端发送反馈信息，通过反馈信息指示用于在客户端上展示的目标媒体信息，目标媒体信息中至少携带有第一音频，由于目标媒体信息的生成过程是由服务器执行的，可以解决相关技术中制作媒体信息的步骤较为繁琐的技术问题，进而达到降低了制作媒体信息的复杂度的技术效果。

下面结合步骤S304和步骤S306来详述本申请的实施例：

在步骤S304提供的技术方案中，基于第一图片生成第一音频，其中，第一音频是根据第一图片的图片特征生成的音频。

可选地，“基于第一图片生成第一音频”可以通过如下步骤实现：

步骤S3041，获取用于表示第一图片的图片特征的第一信息，并获取目标音乐类型的曲谱。

目标音乐类型可为请求信息携带的音乐类型标识所指示的音乐类型；

目标音乐类型还可为服务器端预先设置好的或默认的音乐类型；

目标音乐类型还可为服务器根据第一图片的图片风格确定的，例如，多张第一图片的风格多变，包括街头、屋顶、树林等，那么对应的音乐风格为说唱RAP，如多张图片表示的乡村风景，那么对应的音乐风格为乡村音乐等；

目标音乐类型还可为预先设置在视频模板中的，各视频模板的音乐类型可不同，换言之，选择视频模板就相当于选择了对应的音乐风格，可在制作视频媒体信息时，向用户的客户端发送各个视频模板的介绍信息(包括音乐类型)，以让用户选择对应的视频模板，进而利用该视频目标制作视频媒体信息。

上述的图片特征包括但不局限于用于表示拍摄场景(如繁华大街、山林、大海等)、拍摄对象(如建筑物、人物、动物、食物等)的特征，故在获取用于表示第一图片的图片特征的第一信息时，可通过如下步骤实现：

步骤S11，识别出第一图片中的场景特征和/或对象特征。

可选地，可以通过深度神经网络模型实现识别，可以先用训练集(包括若干对场景和/或对象标识好的图片)对深度神经网络模型进行训练，待深度神经网络模型训练收敛完毕后，即具备对场景和/或对象进行识别的能力，可将第一图片转换为RGB值作为神经网络模型的输入，得到的结果接场景类型标识或对象类型标识。

步骤S12，将用于表示第一图片中的场景特征和/或对象特征的词语组合成第一语言文本。

如图4所示，通过深度神经网络模型可以识别出“女王”、“新衣”、“星星”等对象特征，然后利用自然语言处理算法将“女王”、“新衣”、“星星”处理为第一语言文本(或称为第一语句)，即一句歌词，如生成的第一语言文本为“女王的新衣耀眼的星星”。

步骤S13，至少根据第一语言文本确定第一信息。

一种可选地“至少根据第一语言文本确定第一信息”的实现方案如下：

按照目标音乐类型查找与第一图片的第一语言文本匹配的第二语言文本；将多个第一图片的第一语言文本和对应的第二语言文本组合为第一信息，第一信息中对应同一第一图片的第一语言文本和第二语言文本邻接。

可选地，“按照目标音乐类型查找与第一图片的第一语言文本匹配的第二语言文本”可以通过神经网络模型实现，预先用训练集(训练集中包括成对出现的歌词，标记好歌词的音乐类型)将神经网络模型训练好，神经网络模型相当于学习到了同一音乐类型的歌词间的关系。

如对于RAP类型的音乐，一般情况两句歌词间是押韵的，也即“按照目标音乐类型查找与第一图片的第一语言文本匹配(如最后一个字韵母相同或相近)的第二语言文本”时，可以先确定第一语言文本最后一字的韵母，然后生成或查找与之具有相同韵母的第二语音文本。如第一语言文本为“女王的新衣耀眼的星星”，最后一字“星”的韵母为“ing”，此时，可查找或生成最后一字的韵母也为“ing”的第二语言文本，如“穿什么衣服看我心情”。

可选地，在生成与第一语言文本匹配的第二语言文本时，还可以考虑第一语言文本中词语的类型(如衣服、颜色、人物等)，第二语言文本也采用与之词语类型相同或类似的词语。如，生成的第二语言文本为“时尚的精英搭配什么看我的心情”，其中，“时尚”和“搭配”对应于“新衣”，“精英”对应于“女王”。

对于每一张图片，所生成的第一语言文本和第二语音文本在第一信息相邻接，如果第一图片为多张，可以按照图片的顺序将每个图片的第一语言文本和第二语音文本拼接为上述的第一信息。

在第一语言文本为多段的情况下，至少根据第一语言文本确定第一信息还可按照如下方式确定：

1)将第三语言文本拼接在第二信息中，第三语言文本为多段第一语言文本中当前进行拼接处理的第一语言文本，若第三语言文本为第一个拼接入的第一语言文本，则将第三语言文本直接作为第二信息即可，若不是，则将其与前一个拼接入的第一语言文本相拼接即可。

2)在第三语言文本的文本特征与第四语言文本的文本特征匹配的情况下，获取多段第一语言文本中未进行拼接处理的第一语言文本，并将获取的第一语言文本与第二信息中的第三语言文本拼接，第四语言文本为第二信息中与第三语言文本拼接的第一语言文本。

3)在第三语言文本的文本特征与第四语言文本的文本特征不匹配的情况下，查找多段第一语言文本中未进行拼接处理的第五语言文本(为未进行拼接处理的任意一个第一语言文本，或与第三语言文本相邻的第一语言文本)，第五语言文本的文本特征与第四语言文本的文本特征匹配。

4)在查找到第五语言文本的情况下，将第五语言文本与第二信息中的第三语言文本拼接。

5)在未查找到第五语言文本的情况下，将第六语言文本与第二信息中的第三语言文本拼接，其中，第六语言文本为多段语言文本(可以是预先配置的)中文本特征与第四语言文本的文本特征匹配的语言文本。

或在未查找到第五语言文本的情况下，对与第三语言文本相邻的第一语言文本进行修改，以使其与第四语言文本的文本特征匹配，如对其句首或者句尾进行修改，将其修改为与第四语言文本的韵母相同。

6)在多段第一语言文本均被拼接在第二信息中的情况下，将第二信息作为第一信息。

需要说明的是，上述的拼接处理，可以是拼接在一个语音文本的起始位置，也可拼接在其结束位置；上述的文本特征可以为一个语言文本中句首或句尾的发音特征，如韵母或声母，文本特征匹配是指具有相同或相似的韵母或声母，如两个语言文本的句首的韵母相同；文本特征还可为词语特征，如叠词、词语类型(如“水果”、“建筑”等)，如两个语言文本的句首或句尾均为叠词，则认为相互匹配，如两个语言文本的句首或句尾均为表示“水果”的词汇，则认为相互匹配。

步骤S3042，将第一信息按照目标曲谱转换为第一音频。

可选地，可以预先配置好目标曲谱中每个节拍对应的歌词数量。

可预研生成字数分布，从应用的传播主题与渠道，假如预测到用户将上传图片多为人物、风景，技术侧可预先搜集大量这些类型图片，做出图像描述生成，并统计所生成的字数，从整体分布上得出相应结论(单句歌词的字数)，如字数主要分布在6-20个字。

对于上述的字数分别区间内的字数，可以预先配置好一句歌词对应的一段节拍中每个节拍对应的歌词数量。如图5所示，8字的歌词“城市中的高楼大厦”与一段节拍(包括4个节拍)的对应关系可以是：前四个字“城市中的”对应节拍1，第五个字至第七个字“高楼大”对应节拍2，最后一个字“厦”对应节拍3，节拍4轮空。图5中仅以8字歌词和13字歌词为例，其余字数的歌词与此类似，不再赘述。

可选地，在得到第一音频之后，在向客户端发送携带有目标媒体信息的反馈信息之前，可将第一图片和第一音频填充至视频模板中，得到目标媒体信息，目标媒体信息用于携带于反馈信息发送给客户端。

例如，将模板中第二图片替换为第一图片，将模板中的第二音频替换为第一音频。

在步骤S306提供的技术方案中，向客户端发送反馈信息，通过反馈信息指示用于在客户端上展示的目标媒体信息，目标媒体信息中至少携带有第一音频。

可选地，若是服务器制作模板视频，则向客户端发送反馈信息时，向客户端发送携带有目标媒体信息的反馈信息，其中，目标媒体信息为携带有第一音频和第一图片的视频媒体信息；若是客户端制作模板视频，则向客户端发送携带有第一语音的反馈信息。

作为一种可选的实施例，下面以在手机上实现本申请的技术方案为例详述本申请的实施方式。

如图6所示，用户可以通过即时通讯应用、社交应用等界面(如“用照片唱的RAP”界面)查看由本申请的方法制作的目标媒体信息MV(播放或称中可现实缓存进度，如20％)，在“看看你的旅行照能唱出什么”的提示下，用户可通过点击“制作我的MV”制作子集的MV，具体步骤如图7所示：

步骤S701，用户上传图片，如图8所示，用户可以通过交互界面选择待上传的图片。

步骤S702，检测图片是否达到N张(如5张)，若是则执行步骤S704，否则执行步骤S703。

步骤S703，提示可继续上传，如图8所示的“还可上传两张图片”，若用户确认不上传则执行步骤S704。

步骤S704，服务器后台获取图片。

步骤S705，服务器提取图像特征(也即图片特征)。

步骤S706，匹配特征类别信息(如物体对象类别、场景类别等)。

步骤S707，生成一句描述(如第一语言文本)。

步骤S708，提取上述描述语句的最后一个字，并识别该字的韵母类别。

步骤S709，匹配韵母库中的配句(如第二语言文本)，并抽取出来。

上述的1张图片可对应生成1个描述句子，1个配句，共2句歌词。为了保证最终生成歌曲的长度，在交互界面可尽量引导用户上传多张图片。

步骤S710，判断是否对上传图片均完成上述操作(生成描述和配句)。若是则执行步骤S711，否则执行步骤S705。

步骤S711，按照图片顺序整合歌词(即描述和配句)。

步骤S712，确定当前的一句歌词长度和对应的音调。

步骤S713，确定句音长划分。

步骤S714，对歌词进行转换(如使用TTS)。

步骤S715，判断是否每句歌词均完成转换，若是则执行步骤S716，否则执行步骤S712。

步骤S716，打包语音和标识，发送给客户端。

步骤S717，客户端替换视频模板中的语音，得到目标媒体信息(或称为目标视频)。

以伴奏音频时间轴为基准，背景图片、歌词(包括第n句图片描述和配句n，n为图片标识)为可视元素，通过设定各可视元素出现或消失的时间点、样式及过度动效(时间轴上的竖线可表示过度动态效果)，来预先设计好一个视频合成模板(即视频模板)，如图9所示。

步骤S718，呈现与用户图片相关的音乐MV。

当后台传送回来歌词、合成人声时，前端将用户上传的图片、歌词替换视频合成模板的背景图片、歌词，并在其上叠加合成人声，最终呈现给用户一个定制的音乐MV。若用户上传图片较少时，以倍数重复来满足MV的最小显示长度。

上述实施例中，以说唱风格为例，选定一首RAP歌曲，后台提前准备对应的韵母库、音调或节拍方案，用户上传多张图片后，即可获得一首以图作词的RAP。对于其他歌曲风格，用户可自主选择，让同样的图片唱出不同的歌曲来，能够极大地提高用户体验。

在本申请的实施例中，在界面上引导用户上传多张图片，并发送将图片唱出来的请求信息。后台收到该请求后，先利用图像描述生成的技术接口，将多张图片转化为多句描述句子(字数不等)；然后根据每句最后一个字的韵母，分别配给一个已设定的句子整合至歌词，用于把控歌词与旋律的融合度，从而保证唱出来的效果；再将歌词通过语音合成的技术唱出来，根据描述句子的字数进行节拍兼容与调整，获得歌曲。最后由前端将图片、歌词、合成人声，通过动效整合成一个音乐MV。并在音乐MV完成后，在界面呈现给用户。本申请的技术方案可以应用于AI图项目描述生成应用领域，降低了用户与AI图像描述生成等技术能力的互动门槛，并为AI能力的融合与落地提供了新思路和实现方案。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述媒体信息的展示方法的媒体信息的展示装置。图10是根据本发明实施例的一种可选的媒体信息的展示装置的示意图，如图10所示，该装置可以包括：显示单元1001、确定单元1003以及展示单元1005。

显示单元1001，用于显示交互界面，其中，交互界面为用于获取图片的交互界面。

可选地，当由服务器来制作媒体信息(如视频或音频)时，上述的交互界面是终端与服务器之间的图像上传接口的上层显示界面，通过在该交互界面上的交互操作(如点击如图1所示的界面A中的“+”后选中相应图片)可将待上传的图片告知上传接口。

确定单元1003，用于在通过交互界面获取到第一图片的情况下，获取目标媒体信息，其中，目标媒体信息中至少携带有第一音频，第一音频是根据第一图片的图片特征生成的音频。

展示单元1005，用于展示目标媒体信息。

需要说明的是，该实施例中的显示单元1001可以用于执行本申请实施例中的步骤S202，该实施例中的确定单元1003可以用于执行本申请实施例中的步骤S204，该实施例中的展示单元1005可以用于执行本申请实施例中的步骤S206。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，在通过交互界面获取到第一图片的情况下，获取目标媒体信息，目标媒体信息中至少携带有第一音频，第一音频是根据第一图片的图片特征生成的音频；在客户端上展示目标媒体信息，由于目标媒体信息的生成过程是由终端或服务器执行的，可以解决相关技术中制作媒体信息的步骤较为繁琐的技术问题，进而达到降低了制作媒体信息的复杂度的技术效果。

上述的确定单元可包括：发送模块，用于向服务器发送请求信息，其中，请求信息中携带有第一图片，服务器用于根据第一图片的图片特征生成第一音频；确定模块，用于接收服务器响应请求信息所返回的反馈信息，并至少根据反馈信息确定目标媒体信息，其中，反馈信息用于指示第一音频。

可选地，确定模块还可用于：根据第一图片和第一音频确定目标媒体信息，其中，目标媒体信息为携带有第一音频和第一图片的视频媒体信息。

可选地，确定模块还可用于：将第一图片和第一音频填充至视频模板中，得到目标媒体信息；获取反馈信息中携带的目标媒体信息，其中，服务器用于将第一图片和第一音频填充至视频模板中，并将得到的目标媒体信息携带于反馈信息中发送给客户端，第一音频是以第一信息为歌词的音乐音频，第一信息用于表示第一图片的图片特征。

可选地，发送模块还可用于：向服务器发送携带有音乐类型标识的请求信息，其中，服务器用于将第一信息转换为目标音乐类型的第一音频，目标音乐类型为音乐类型标识所指示的音乐类型。

可选地，展示单元还可用于在客户端上播放目标媒体信息；或，在客户端上展示目标媒体信息的标识信息。

根据本发明实施例的另一个方面，还提供了一种用于实施上述媒体信息的展示方法的媒体信息的展示装置。图11是根据本发明实施例的一种可选的媒体信息的展示装置的示意图，如图11所示，该装置可以包括：获取单元1101、生成单元1103以及发送单元1105。

获取单元1101，用于获取客户端发送的请求信息，其中，请求信息中携带有第一图片。

生成单元1103，用于基于第一图片生成第一音频，其中，第一音频是根据第一图片的图片特征生成的音频。

发送单元1105，用于向客户端发送反馈信息，通过反馈信息指示用于在客户端上展示的目标媒体信息，其中，目标媒体信息中至少携带有第一音频。

可选地，生成单元还可包括：获取模块，用于获取用于表示第一图片的图片特征的第一信息，并获取目标音乐类型的曲谱，其中，目标音乐类型为请求信息携带的音乐类型标识所指示的音乐类型；转换模块，用于将第一信息按照目标曲谱(目标音乐类型的曲谱)转换为第一音频。

可选地，获取模块还可用于：识别出第一图片中的场景特征和/或对象特征；将用于表示第一图片中的场景特征和/或对象特征的词语组合成第一语言文本；至少根据第一语言文本确定第一信息。

可选地，获取模块还用于：按照目标音乐类型查找与第一图片的第一语言文本匹配的第二语言文本；将多个第一图片的第一语言文本和对应的第二语言文本组合为第一信息，其中，第一信息中对应同一第一图片的第一语言文本和第二语言文本邻接。

可选地，发送单元还可用于：向客户端发送携带有第一语音的反馈信息；或，向客户端发送携带有目标媒体信息的反馈信息，其中，目标媒体信息为携带有第一音频和第一图片的视频媒体信息。

可选地，本申请的装置还可包括，填充单元，用于在向客户端发送携带有目标媒体信息的反馈信息之前，将第一图片和第一音频填充至视频模板中，得到目标媒体信息，其中，目标媒体信息用于携带于反馈信息发送给客户端。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本发明实施例的另一个方面，还提供了一种用于实施上述媒体信息的展示方法的服务器或终端。

图12是根据本发明实施例的一种终端的结构框图，如图12所示，该终端可以包括：一个或多个(图12中仅示出一个)处理器1201、存储器1203、以及传输装置1205(如上述实施例中的发送装置)，如图12所示，该终端还可以包括输入输出设备1207。

其中，存储器1203可用于存储软件程序以及模块，如本发明实施例中的媒体信息的展示方法和装置对应的程序指令/模块，处理器1201通过运行存储在存储器1203内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的媒体信息的展示方法。存储器1203可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1203可进一步包括相对于处理器1201远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1205用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1205包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1205为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器1203用于存储应用程序。

处理器1201可以通过传输装置1205调用存储器1203存储的应用程序，以执行下述步骤：

显示交互界面，其中，交互界面为客户端上用于获取图片的交互界面；在通过交互界面获取到第一图片的情况下，获取目标媒体信息，其中，目标媒体信息中至少携带有第一音频，第一音频是根据第一图片的图片特征生成的音频；在客户端上展示目标媒体信息。

处理器1201还用于执行下述步骤：

获取客户端发送的请求信息，其中，请求信息中携带有第一图片；基于第一图片生成第一音频，其中，第一音频是根据第一图片的图片特征生成的音频；向客户端发送反馈信息，通过反馈信息指示用于在客户端上展示的目标媒体信息，其中，目标媒体信息中至少携带有第一音频。

采用本发明实施例，在通过交互界面获取到第一图片的情况下，获取目标媒体信息，目标媒体信息中至少携带有第一音频，第一音频是根据第一图片的图片特征生成的音频；在客户端上展示目标媒体信息，由于目标媒体信息的生成过程是由终端或服务器执行的，可以解决相关技术中制作媒体信息的步骤较为繁琐的技术问题，进而达到降低了制作媒体信息的复杂度的技术效果。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图12所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如，终端还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图12所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行媒体信息的展示方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S21，显示交互界面，其中，交互界面为客户端上用于获取图片的交互界面；

S22，在通过交互界面获取到第一图片的情况下，获取目标媒体信息，其中，目标媒体信息中至少携带有第一音频，第一音频是根据第一图片的图片特征生成的音频；

S23，在客户端上展示目标媒体信息。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

S31，获取客户端发送的请求信息，其中，请求信息中携带有第一图片；

S32，基于第一图片生成第一音频，其中，第一音频是根据第一图片的图片特征生成的音频；

S33，向客户端发送反馈信息，通过反馈信息指示用于在客户端上展示的目标媒体信息，其中，目标媒体信息中至少携带有第一音频。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种媒体信息的展示方法，其特征在于，包括：

显示交互界面，其中，所述交互界面为客户端上用于获取图片的交互界面；

在通过所述交互界面获取到第一图片的情况下，获取目标媒体信息，其中，所述目标媒体信息中至少携带有第一音频，所述第一音频是根据所述第一图片的图片特征生成的音频；

在所述客户端上展示所述目标媒体信息。

2.根据权利要求1所述的方法，其特征在于，获取所述目标媒体信息包括：

向服务器发送请求信息，其中，所述请求信息中携带有所述第一图片，所述服务器用于根据所述第一图片的图片特征生成所述第一音频；

接收所述服务器响应所述请求信息所返回的反馈信息，并至少根据所述反馈信息确定所述目标媒体信息，其中，所述反馈信息用于指示所述第一音频。

3.根据权利要求2所述的方法，其特征在于，至少根据所述反馈信息确定所述目标媒体信息包括：

根据所述第一图片和所述第一音频确定所述目标媒体信息，其中，所述目标媒体信息为携带有所述第一音频和所述第一图片的视频媒体信息。

4.根据权利要求3所述的方法，其特征在于，所述第一音频是以第一信息为歌词的音乐音频，所述第一信息用于表示所述第一图片的图片特征，其中，根据所述第一图片和所述第一音频确定所述目标媒体信息包括：

将所述第一图片和所述第一音频填充至视频模板中，得到所述目标媒体信息；或，

获取所述反馈信息中携带的所述目标媒体信息，其中，所述服务器用于将所述第一图片和所述第一音频填充至所述视频模板中，并将得到的所述目标媒体信息携带于所述反馈信息中发送给所述客户端。

5.根据权利要求2所述的方法，其特征在于，向服务器发送请求信息包括：

向所述服务器发送携带有音乐类型标识的所述请求信息，其中，所述服务器用于将第一信息转换为目标音乐类型的所述第一音频，所述目标音乐类型为所述音乐类型标识所指示的音乐类型。

6.根据权利要求1所述的方法，其特征在于，所述目标媒体信息为视频媒体信息，其中，在所述客户端上展示所述目标媒体信息的同时或之后，所述方法还包括：

在所述视频媒体信息的播放过程中，在所述视频媒体信息中展示多张所述第一图片、并播放以第一信息为歌词的音乐音频，其中，所述第一音频包括所述音乐音频，所述第一信息中的一段歌词用于表示相应的一张所述第一图片的图片特征。

7.根据权利要求1所述的方法，其特征在于，通过所述交互界面获取所述第一图片包括：

在获取到的所述第一图片的数量小于阈值的情况下，在所述交互界面显示提示信息，其中，所述提示信息用于提示可上传的所述第一图片的张数；

在所述交互界面上检测到上传事件的情况下，按照所述上传事件所指示的路径获取所述第一图片；

更新所述提示信息所提示的可上传的所述第一图片的张数。

8.一种媒体信息的展示方法，其特征在于，包括：

获取客户端发送的请求信息，其中，所述请求信息中携带有第一图片；

基于所述第一图片生成第一音频，其中，所述第一音频是根据所述第一图片的图片特征生成的音频；

向所述客户端发送反馈信息，通过所述反馈信息指示用于在所述客户端上展示的目标媒体信息，其中，所述目标媒体信息中至少携带有所述第一音频。

9.根据权利要求8所述的方法，其特征在于，基于所述第一图片生成第一音频包括：

获取用于表示所述第一图片的图片特征的第一信息，并获取目标音乐类型的曲谱；

将所述第一信息按照所述目标音乐类型的曲谱转换为所述第一音频。

10.根据权利要求9所述的方法，其特征在于，获取用于表示所述第一图片的图片特征的第一信息包括：

识别出所述第一图片中的场景特征和/或对象特征；

将用于表示所述第一图片中的场景特征和/或对象特征的词语组合成第一语言文本；

至少根据所述第一语言文本确定所述第一信息。

11.根据权利要求10所述的方法，其特征在于，至少根据所述第一语言文本确定所述第一信息包括：

按照所述目标音乐类型查找与所述第一图片的所述第一语言文本匹配的第二语言文本；

将多个所述第一图片的所述第一语言文本和对应的所述第二语言文本组合为所述第一信息，其中，所述第一信息中对应同一所述第一图片的第一语言文本和所述第二语言文本邻接。

12.根据权利要求10所述的方法，其特征在于，在所述第一语言文本为多段的情况下，至少根据所述第一语言文本确定所述第一信息包括：

将第三语言文本拼接在第二信息中，其中，所述第三语言文本为多段所述第一语言文本中当前进行拼接处理的所述第一语言文本；

在所述第三语言文本的文本特征与第四语言文本的文本特征匹配的情况下，获取多段所述第一语言文本中未进行拼接处理的所述第一语言文本，并将获取的所述第一语言文本与所述第二信息中的所述第三语言文本拼接，其中，所述第四语言文本为所述第二信息中与所述第三语言文本拼接的所述第一语言文本；

在所述第三语言文本的文本特征与所述第四语言文本的文本特征不匹配的情况下，查找多段所述第一语言文本中未进行拼接处理的第五语言文本，其中，所述第五语言文本的文本特征与所述第四语言文本的文本特征匹配；

在查找到所述第五语言文本的情况下，将所述第五语言文本与所述第二信息中的所述第三语言文本拼接；

在未查找到所述第五语言文本的情况下，将第六语言文本与所述第二信息中的所述第三语言文本拼接，其中，所述第六语言文本为多段语言文本中文本特征与所述第四语言文本的文本特征匹配的语言文本；

在多段所述第一语言文本均被拼接在所述第二信息中的情况下，将所述第二信息作为所述第一信息。

13.根据权利要求8所述的方法，其特征在于，在向所述客户端发送反馈信息之前，所述方法还包括：

将所述第一图片和所述第一音频填充至视频模板中，得到所述目标媒体信息，其中，所述目标媒体信息用于携带于所述反馈信息发送给所述客户端。

14.一种媒体信息的展示装置，其特征在于，包括：

显示单元，用于显示交互界面，其中，所述交互界面为用于获取图片的交互界面；

确定单元，用于在通过所述交互界面获取到第一图片的情况下，获取目标媒体信息，其中，所述目标媒体信息中至少携带有第一音频，所述第一音频是根据所述第一图片的图片特征生成的音频；

展示单元，用于展示所述目标媒体信息。

15.一种媒体信息的展示装置，其特征在于，包括：

获取单元，用于获取客户端发送的请求信息，其中，所述请求信息中携带有第一图片；

生成单元，用于基于所述第一图片生成第一音频，其中，所述第一音频是根据所述第一图片的图片特征生成的音频；

发送单元，用于向所述客户端发送反馈信息，通过所述反馈信息指示用于在所述客户端上展示的目标媒体信息，其中，所述目标媒体信息中至少携带有所述第一音频。

16.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至13任一项中所述的方法。

17.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行上述权利要求1至13任一项中所述的方法。