CN115119069A

CN115119069A - 多媒体内容处理方法、电子设备及计算机存储介质

Info

Publication number: CN115119069A
Application number: CN202110285818.2A
Authority: CN
Inventors: 詹亚威; 吴玥
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Alibaba Innovation Co
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-09-27

Abstract

本申请实施例提供了一种多媒体内容处理方法、电子设备及计算机存储介质，其中，一种多媒体内容处理方法包括：接收用户针对多媒体档案的输入信息；根据所述输入信息，从所述多媒体档案中选择与所述输入信息对应的内容部分，作为指定多媒体内容；获取所述指定多媒体内容对应的文本信息；获取根据所述文本信息生成的所述多媒体档案的分享信息，并通过所述分享信息进行所述多媒体档案的分享。通过本申请实施例，达到了使得分享用户的分享更有针对性，在不便于播放多媒体的场景下，也可以通过分享信息了解分享的多媒体内容，实现更为高效的多媒体内容分享的效果。

Description

多媒体内容处理方法、电子设备及计算机存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种多媒体内容处理方法、电子设备及计算机存储介质。

背景技术

随着计算机技术的发展，通过多媒体内容分享进行信息传播和交互等正越来越广泛地应用于人们的生活和工作中。

目前，在进行多媒体内容分享时，一种方式是基于该多媒体对应的链接地址URL进行分享，另一种方式是直接对该多媒体的完整内容进行分享。然而，不管是上述哪种方式，均存在着在不便于播放多媒体的场景下，例如，在会议中或运动中，则无法在这些场景下实现有效的多媒体内容分享。此外，如前所述，上述两种方式中，还存在着不管采用哪种方式，均需要被分享用户播放完整的多媒体内容才能获取相应信息，这就使得对于某些时长较长的多媒体来说，不便于被分享用户快速获取其中的关键信息。

因此，如何有效地对多媒体内容进行处理，以实现更为有效的多媒体内容分享，成为亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供一种多媒体内容处理方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种多媒体内容处理方法，包括：接收用户针对多媒体档案的输入信息；根据所述输入信息，从所述多媒体档案中选择与所述输入信息对应的内容部分，作为指定多媒体内容；获取所述指定多媒体内容对应的文本信息；获取根据所述文本信息生成的所述多媒体档案的分享信息，并通过所述分享信息进行所述多媒体档案的分享。

根据本申请实施例的第二方面，提供了另一种多媒体内容处理方法，包括：获取指定多媒体内容，其中，所述指定多媒体内容为多媒体档案中的部分内容或全部内容；对所述指定多媒体内容进行语音识别，获得对应的文字信息，并根据所述文字信息生成所述指定多媒体内容对应的文本信息；根据所述文本信息，生成并发送所述多媒体档案的分享信息。

根据本申请实施例的第三方面，提供了再一种多媒体内容处理方法，包括：提供用于进行多媒体内容分享的多媒体分享界面，其中，所述多媒体分享界面中至少包含分享设置选项；接收用户对应于所述分享设置选项的输入信息；根据所述输入信息，从对应的多媒体档案中选择至少部分内容，作为指定多媒体内容；获取所述指定多媒体内容对应的文本信息；获取根据所述文本信息生成的所述多媒体档案的分享信息，并使用所述分享信息进行所述多媒体档案的分享。

根据本申请实施例的第四方面，提供了一种电子设备，包括：显示器、输入装置、处理器、存储器、通信接口和通信总线，所述显示器、所述输入装置、所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述显示器，用于展示用于进行多媒体内容分享的多媒体分享界面，其中，所述多媒体分享界面中至少包含分享设置选项；所述输入装置，用于供用户输入对应于所述分享设置选项的输入信息；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第三方面所述的多媒体内容处理方法对应的操作。

根据本申请实施例的第五方面，提供了另一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第二方面所述的多媒体内容处理方法对应的操作。

根据本申请实施例的第六方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面或第三方面所述的多媒体内容处理方法。

根据本申请实施例提供的多媒体内容处理方案，在进行多媒体档案分享时，首先，可以根据用户针对多媒体档案的输入信息确定用户想要实际分享的那部分内容，也即想要分享的指定多媒体内容，从而使得用户的分享更有针对性。其次，本申请实施例提供的方案生成的分享信息，是根据所述指定多媒体内容对应的文本信息生成的，也即，该分享信息中不仅包含有待分享的指定多媒体内容的信息，还包含有其对应的文本信息。由此，即使在不便于播放多媒体的场景下，例如，在会议中或运动中，用户也可以通过分享信息中的文本信息了解分享的多媒体内容。并且，不管是文本信息还是分享的指定多媒体内容，都可使得被分享用户无需播放完整的多媒体内容就能快速获取其中的关键信息。从而，实现了更为高效的多媒体内容分享。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A为根据本申请实施例一的一种多媒体内容处理方法的步骤流程图；

图1B为图1A所示实施例中的一种场景示例的示意图；

图2A为根据本申请实施例二的一种多媒体内容处理方法的步骤流程图；

图2B为图2A所示实施例中的一种用户交互界面的示意图；

图2C为图2A所示实施例中的一种分享信息的示意图；

图2D为图2A所示实施例中的一种场景示例的示意图；

图3A为根据本申请实施例三的一种多媒体内容处理方法的步骤流程图；

图3B为图3A所示实施例中的一种场景示例的示意图；

图4A为根据本申请实施例四的一种多媒体内容处理方法的步骤流程图；

图4B为图4A所示实施例中的一种场景示例的示意图；

图5A为根据本申请实施例五的一种多媒体内容处理方法的步骤流程图；

图5B为图3A所示实施例中的一种场景示例的示意图；

图6为根据本申请实施例六的一种多媒体内容处理方法的步骤流程图；

图7A为根据本申请实施例七的一种多媒体内容处理方法的步骤流程图；

图7B为图7A所示实施例中的一种多媒体分享界面的示意图；

图7C为图7A所示实施例中的另一种多媒体分享界面的示意图；

图7D为图7A所示实施例中的再一种多媒体分享界面的示意图；

图8为根据本申请实施例八的一种电子设备的结构示意图；

图9为根据本申请实施例九的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

实施例一

参照图1A，示出了根据本申请实施例一的一种多媒体内容处理方法的步骤流程图。

本实施例的多媒体内容处理方法包括以下步骤：

步骤S102:接收用户针对多媒体档案的输入信息。

本申请实施例中，多媒体档案可以为任意适当的多媒体文件，包括但不限于：纯音频形式的多媒体档案(后文也称为音频文件)、纯视频形式的多媒体档案(后文也称为视频文件)、音视频形式的多媒体档案(后文也称为音视频文件)。

用户针对多媒体档案的输入信息用于指示用户实际想分享的多媒体内容，虽然该实际想分享的多媒体内容可以为多媒体内容整体，但在很多情况下，用户实际想分享的可能只是其中的一部分。例如，对于一个时长10分钟的音频文件，用户可能想分享的仅是其中第5-8分钟的最为精彩的片段。基于此，用户可通过输入信息指示自己实际想要分享的部分。

需要说明的是，所述输入信息可以为适当的形式，包括但不限于：通过输入框输入相应信息的方式，如输入想要分享内容的开始时间点和结束时间点等；或者，通过相应的方式显示多媒体档案的数据帧或播放波形等，通过对数据帧或播放波形进行操作来输入想要实际分享的部分的方式等。

步骤S104：根据所述输入信息，从所述多媒体档案中选择与所述输入信息对应的内容部分，作为指定多媒体内容。

如前所述，可以根据用户的输入信息，从多媒体档案中选择相应部分，以作为待分享的指定多媒体内容。

仍以前述示例为例，对于一个时长10分钟的音频文件，若用户的输入信息指示想要分享的开始时间点为第5分钟，结束时间点为第8分钟，则可从该音频文件中截取出其中的第5-8分钟的音频片段，作为待分享的音频片段，即指定多媒体内容。

步骤S106：获取所述指定多媒体内容对应的文本信息。

本申请实施例中，在确定了指定多媒体内容后，会获取其对应的文本信息，该文本信息可以以文字形式有效描述所述指定多媒体内容的内容信息。例如，针对前述第5-8分钟的音频片段，可以进行语音识别，根据识别结果得到其对应的文本信息。以歌曲为例，该文本信息可以为歌词；以播客为例，该文本信息可以为该播客片段的文本内容；以广播为例，可以为该广播片段的文本内容；以电影或电视为例，该文本信息可以为对应片段的台词；以会议为例，可以为该会议片段中人物的发言内容对应的文本。但不限于此，在实际应用中，本领域技术人员还可以基于获得的原始文本信息进行处理和加工，以使得获得的文本信息更为有效地表征指定多媒体内容。

步骤S108：获取根据所述文本信息生成的所述多媒体档案的分享信息，并通过所述分享信息进行所述多媒体档案的分享。

本申请实施例中，生成的所述分享信息除包括所述指定多媒体内容外，还包括其对应的文本信息。这样，分享用户在使用该分享信息进行多媒体档案的分享后，一方面，被分享用户通过其中的文本信息即可获知相应的多媒体内容的关键信息；另一方面，若指定多媒体内容仅为多媒体档案的部分内容，则被分享用户只需播放这部分内容，而无需播放多媒体档案的全部内容，除可实现分享用户与被分享用户的交互外，还为被分享用户节省了时间成本。

以下，以一个具体场景示例，对上述过程进行示例性说明，如图1B所示。

图1B中，假设多媒体档案X为一时长为10分钟的音视频文件，分享用户通过提供的界面输入其希望分享的部分文件内容，如第5-8分钟的内容。则该音视频文件中第5-8分钟的内容将被截取出来，图1B中示意为指定多媒体内容X’。进一步地，对该指定多媒体内容X’进行语音识别，例如，可以基于该片段中的音频数据进行语音识别，获得该片段对应的文本信息P。则，基于该文本信息P和指定多媒体内容X’可生成对应的多媒体档案X的分享信息。进而，分享用户可基于该分享信息，进行相应的分享操作，以将文本信息P和指定多媒体内容X’同时分享出去。则，接收到该分享信息的被分享用户，可以不必播放指定多媒体内容X’，通过文本信息P即可获知指定多媒体内容X’的关键内容信息。另外，可以播放观看指定多媒体内容X’，这样，无需对多媒体档案X进行全部内容播放，即可获知其中的精华内容。由此，大大提高了多媒体内容的分享效率和分享针对性。

通过本实施例，在进行多媒体档案分享时，首先，可以根据分享用户针对多媒体档案的输入信息确定分享用户想要实际分享的那部分内容，也即想要分享的指定多媒体内容，从而使得分享用户的分享更有针对性。其次，本实施例提供的方案生成的分享信息，是根据所述指定多媒体内容对应的文本信息生成的，也即，该分享信息中不仅包含有待分享的指定多媒体内容的信息，还包含有其对应的文本信息。由此，即使在不便于播放多媒体的场景下，例如，在会议中或运动中，被分享用户也可以通过分享信息中的文本信息了解分享的多媒体内容。并且，不管是文本信息还是分享的指定多媒体内容，都可使得被分享用户无需播放完整的多媒体内容就能快速获取其中的关键信息。从而，实现了更为高效的多媒体内容分享。

实施例二

参照图2A，示出了根据本申请实施例二的一种多媒体内容处理方法的步骤流程图。

本实施例以在客户端实现多媒体内容处理为例，对本申请实施例提供的多媒体内容处理方案进行说明。

本实施例的多媒体内容处理方法包括以下步骤：

步骤S202：接收用户针对多媒体档案的输入信息。

一般来说，可通过提供的用户交互界面来接收用户针对多媒体档案的输入信息，该界面可由本领域技术人员根据实际需求适当设置。

用户输入的输入信息可以包括以下至少之一：针对多媒体档案的待分享开始时间信息和待分享结束时间信息，针对所述多媒体档案中的待分享起始帧位置信息和待分享结束帧位置信息。一种可输入所述输入信息的用户交互界面如图2B所示，图2B中，同时示出了可进行上述两种输入的方式，但在实际应用中，可择一设置。当然，其它可输入所述输入信息的界面方式也同样适用。若所述输入信息采用待分享开始时间信息和待分享结束时间信息的方式，设置简单，且对用户来说输入也简单，用户操作方便。而若所述输入信息采用待分享起始帧位置信息和待分享结束帧位置信息的方式，则可大大提高选择的精确度，实现更为精准的内容分享设定。

在一种可行方式中，所述输入信息还包括：所述多媒体档案的标识信息。其中，所述标识信息可为适当的可唯一标识多媒体档案的信息即可，包括但不限于多媒体档案的名称、标识号等。在此情况下，用户无需播放多媒体档案即可实现信息输入，或者，在播放某一多媒体档案时还可对另一多媒体档案进行所述输入信息的输入操作。从而，提升了操作的灵活性，进而提升了分享的灵活性。

此外，当多媒体档案为音频文件或音视频文件时，在一种可行方式中，从用户交互界面接收用户针对多媒体档案的输入信息可以实现为：在用户交互界面中展示多媒体档案中的音频数据对应的波形和/或频谱；接收用户对展示的波形和/或频谱的截取操作；根据截取操作确定所述输入信息。因音频数据可以以波形或频谱的形式进行展示，因此，本方式中，采用波形和/或频谱的方式展现多媒体档案中的音频数据。一方面，使得展示方式和展示页面更为美观，更具有吸引力；另一方面，用户可以基于此进行准确到音频帧的截取操作，以使得可以准确地确定想要分享的内容。

类似地，对于视频文件，也可采用视频数据帧的形式展示，以便于用户进行准确的截取操作。

步骤S204：根据所述输入信息，从所述多媒体档案中选择与所述输入信息对应的内容部分，作为指定多媒体内容。

在采用如前所述方式输入了所述输入信息后，即可从多媒体档案中选择出相对应的内容部分，作为待分享的指定多媒体内容。例如，若输入起始时间点第5分钟，结束时间点第8分钟，将会从多媒体档案中截取第5-8分钟之间的内容作为指定多媒体内容。若输入起始帧第10帧，结束帧第50帧，将会从多媒体档案中截取第10-50帧之间的内容作为指定多媒体内容。

需要说明的是，对于某些多媒体档案，分享用户有可能希望全部分享，例如，一个时长为3分钟的视频，则此种情况下，可通过所述输入信息实现该视频的全部内容的选择，此时，指定多媒体内容即为多媒体档案的整体内容。

步骤S206：本地获取所述指定多媒体内容对应的文本信息。

因指定多媒体内容来自于多媒体档案，如前所述，多媒体档案可以实现为音频文件、视频文件和音视频文件等多种形式。

当多媒体档案为音频文件或音视频文件时，获取所述指定多媒体内容对应的文本信息，包括：获取指定多媒体内容中的音频信息；对所述音频信息进行语音识别，获得指定多媒体内容对应的文本信息。

其中，对于音视频文件，因其同时具有音频流和视频流两个轨道的数据，因此，可先从音视频文件中获得音频流轨道的数据，其中对应于指定多媒体内容部分的数据即为指定多媒体内容中的音频信息，再进行后续的语音识别即可。

在一种可行方式中，为了提升所述文本信息的获取速度，可对所述音频信息进行本地语音识别，获得指定多媒体内容对应的文本信息。例如，可使用多媒体档案所在的应用中内嵌的语音识别算法如ASR算法等，对所述音频信息进行语音识别，获得指定多媒体内容对应的文本信息。或者，也可通过多媒体档案所在的应用调用本地存储的语音识别算法，对所述音频信息进行语音识别，获得指定多媒体内容对应的文本信息。

也即，该语音识别算法可以内嵌于多媒体档案所在应用中，也可设置于客户端本地，通过调用方式，由多媒体档案所在应用调用以实现语音识别。通过内嵌方式，语音识别算法与应用融为一体，可更为高效、快速地实现语音识别；而通过调用方式，则可有效利用外部资源，降低了多媒体档案所在应用的设计复杂度和实现成本。

步骤S208：获取根据所述文本信息生成的多媒体档案的分享信息。

在获取了指定多媒体内容及其对应的文本信息后，即可据此生成多媒体档案的分享信息。

本实施例中，采用本地生成分享信息的方式。例如，可以通过多媒体档案所在的应用，根据指定多媒体内容及其对应的文本信息生成所述分享信息。

在一种可行方式中，可以根据预设格式和所述文本信息，生成多媒体档案的分享信息。预设格式可以用来指示生成的分享信息的展现形式，例如界面如何排布、指定多媒体内容与文本信息的排版格式如何设置、分享信息中携带的指定多媒体内容如何展现等等。基于此，可实现不同风格、不同展示方式的分享信息。

在具体实现时，可选地，可以按照预设的排版格式，对所述文本信息和所述指定多媒体内容进行混排后，生成相应的分享信息，该分享信息中包含有以下至少之一：用于进行分享的图片、或音频、或视频、或音视频。因指定多媒体内容自身可能为音频、视频或音视频形式，因此分享信息中也可展现为相应的形式。但不限于此，指定多媒体内容还可采用图片形式表征，如，音频对应的图片(如表征音频的封面图片)、视频对应的图片(如表征视频的封面图片或视频中的某一帧)、音视频对应的图片(如表征音视频的封面图片或音视频中的某一帧)。一种进行混排后生成的分享信息示例如图2C所示，图2C示出了名称为“2035年，你该去哪儿？”的播客的分享信息，其指定多媒体内容为该播客中的02：06至04：00的一段截取片段，其对应的文本信息如图2C中下方虚线框中所标示的文字部分所示。与此同时，该分享信息中还包含有该播客对应的封面图片(如图2C中左上角所示)，该图片下方文字为该播客的标识信息，包括名称信息和播客的主播信息及播客所属的专辑信息等。此外，图2C中部示出的波形为该播客的指定多媒体内容的音频示意，点击该波形左侧的三角播放按钮即可进行该段指定多媒体内容的播放。

步骤S210：通过所述分享信息进行所述多媒体档案的分享。

例如，使用该分享信息进行分享操作，将该分享信息分享至相应的目标应用或社交网络中，即可实现该多媒体档案的分享。

以下，以一个简单场景示例的形式，对上述过程进行示例性说明，如图2D所示。

图2D中，设定在某应用中播放音频文件，并且，设定在音频文件的播放界面中显示其对应的频谱数据，仍以前述“2035年，你该去哪儿？”的播客为示例，用户在播放该播客的同时，还可以通过播放界面进行音频截取。进而，若用户点击了界面中的“分享”按钮，则将会对截取的音频片段进行本地语音识别，获得其对应的文本信息。进一步地，基于该文本信息和截取的音频片段在本地生成相应的分享信息。可选地，除基于该文本信息和截取的音频片段之外，还可以结合该播客的封面在本地生成相应的分享信息。用户使用该分享信息即可进行该播客中想要分享的内容部分的分享。

可见，通过本实施例，在进行多媒体档案分享时，首先，可以根据分享用户针对多媒体档案的输入信息确定分享用户想要实际分享的那部分内容，也即想要分享的指定多媒体内容，从而使得分享用户的分享更有针对性。其次，本实施例提供的方案生成的分享信息，是根据所述指定多媒体内容对应的文本信息生成的，也即，该分享信息中不仅包含有待分享的指定多媒体内容的信息，还包含有其对应的文本信息。由此，即使在不便于播放多媒体的场景下，例如，在会议中或运动中，被分享用户也可以通过分享信息中的文本信息了解分享的多媒体内容。并且，不管是文本信息还是分享的指定多媒体内容，都可使得被分享用户无需播放完整的多媒体内容就能快速获取其中的关键信息。从而，实现了更为高效的多媒体内容分享。

实施例三

参照图3A，示出了根据本申请实施例三的一种多媒体内容处理方法的步骤流程图。

本实施例以客户端结合云端实现多媒体内容处理为例，对本申请实施例提供的多媒体内容处理方案进行说明。

本实施例的多媒体内容处理方法包括以下步骤：

步骤S302：接收用户针对多媒体档案的输入信息。

步骤S304：根据所述输入信息，从所述多媒体档案中选择与所述输入信息对应的内容部分，作为指定多媒体内容。

上述步骤S302-S304的具体实现可参照前述实施例二中步骤S202-S204中的相关描述，在此不再赘述。

步骤S306：通过云端获取所述指定多媒体内容对应的文本信息。

与前述实施例二中本地获取指定多媒体内容对应的文本信息不同，本实施例中，通过云端获取所述文本信息。

在一种可行方式中，可以将指定多媒体内容上传至云端，由云端获取其中的音频信息，并对该音频信息在云端进行语音识别，获得指定多媒体内容对应的文本信息。

在另一种可行方式中，可以在客户端获取指定多媒体内容中的音频信息，再将该音频信息发送至云端，并接收所述云端对所述音频信息进行语音识别后返回的、所述指定多媒体内容对应的文本信息。

此种方式中，云端设置有相应的语音识别算法，由此，可以大大减轻客户端的语音识别负担，以及对客户端的设备软件和硬件要求，降低客户端实现成本。并且，可通过云端实现语音识别算法资源的共享。

此外，若多媒体档案为视频文件，则本步骤中，可由云端对其进行处理，获得对应的文本信息，如台词信息等。一种方式中，可通过云端对视频帧图像的台词区域进行文本识别，获得其对应的台词信息；另一种方式中，若视频文件本身即携带有独立的台词数据，则可通过云端解析出这部分数据，即可获得对应的台词信息。当然，其它针对视频帧数据进行处理而获得其对应的文本信息的方式也同样适用于本申请实施例。

步骤S308：获取根据所述文本信息生成的多媒体档案的分享信息。

步骤S310：通过所述分享信息进行所述多媒体档案的分享。

上述步骤S308-S310仍在客户端本地执行，其具体实现可参照前述实施例二中相应步骤的描述，在此不再赘述。

也即，本实施例中，将音频识别部分交由云端完成，而其它部分仍在客户端本地完成，并最终生成相应的分享信息进行分享。

以下，以一个场景示例的形式，对上述过程进行示例性说明，如图3B所示。

图3B中，设定在某应用中播放音频文件，并且，设定在音频文件的播放界面中显示可进行分享的设置如分享按钮等，仍以前述“2035年，你该去哪儿？”的播客为示例，用户在播放该播客的同时，还可以通过播放界面进行音频截取。进而，若用户点击了界面中的“分享”按钮，则截取的音频片段将会被上传至云端，由云端对其进行上述语音识别操作，获得其对应的文本信息。进一步地，云端将该文本信息返回给客户端，由客户端基于该文本信息和截取的音频片段在本地生成相应的分享信息。可选地，除基于该文本信息和截取的音频片段之外，还可以结合该播客的封面在本地生成相应的分享信息。用户使用该分享信息即可进行该播客中想要分享的内容部分的分享。

实施例四

参照图4A，示出了根据本申请实施例四的一种多媒体内容处理方法的步骤流程图。

本实施例仍以客户端结合云端实现多媒体内容处理为例，对本申请实施例提供的多媒体内容处理方案进行说明。

本实施例的多媒体内容处理方法包括以下步骤：

步骤S402：接收用户针对多媒体档案的输入信息。

步骤S404：根据所述输入信息，从所述多媒体档案中选择与所述输入信息对应的内容部分，作为指定多媒体内容。

上述步骤S402-S404的具体实现可参照前述实施例二中步骤S202-S204中的相关描述，在此不再赘述。

步骤S406：通过云端获取所述指定多媒体内容对应的文本信息。

本步骤的具体实现可参照前述实施例三中步骤S306的相关描述，在此不再赘述。

步骤S408：通过云端根据所述文本信息生成多媒体档案的分享信息。

由前述实施例不同的是，本实施例中，分享信息的生成由云端完成。也即，云端在语音识别获得指定多媒体内容对应的文本信息后，会据此生成相应的分享信息。

与客户端类似，云端也会根据预设格式和所述文本信息，生成多媒体档案的分享信息。例如，可以按照预设的排版格式，对所述文本信息和所述指定多媒体内容进行混排后，生成相应的分享信息，该分享信息中包含有以下至少之一：用于进行分享的图片、或音频、或视频、或音视频。

步骤S410：接收云端返回的分享信息，并通过所述分享信息进行所述多媒体档案的分享。

云端在生成分享信息后，会将该分享信息发送回客户端，由客户端进行分享。

也即，本实施例中，音频识别及分享信息的生成均由云端完成，而其它部分在客户端本地完成，并最终由客户端进行分享操作。从而，进一步减轻了客户端的数据处理负担，以及对客户端的设备软件和硬件要求，降低客户端实现成本。并且，可通过云端实现语音识别算法和其它资源的共享。

以下，以一个场景示例的形式，对上述过程进行示例性说明，如图4B所示。

图4B中，设定在某应用中播放音频文件，并且，设定在音频文件的播放界面中显示可进行分享的设置如分享按钮等，仍以前述“2035年，你该去哪儿？”的播客为示例，用户在播放该播客的同时，还可以通过播放界面进行音频截取。进而，若用户点击了界面中的“分享”按钮，则截取的音频片段将会被上传至云端，由云端对其进行上述语音识别操作，获得其对应的文本信息。进一步地，云端还会基于该文本信息和截取的音频片段在生成相应的分享信息。可选地，除基于该文本信息和截取的音频片段之外，还可以结合该播客的封面生成相应的分享信息。进而，云端将该分享信息返回客户端，由客户端的用户使用该分享信息进行该播客中想要分享的内容部分的分享。

实施例五

参照图5A，示出了根据本申请实施例五的一种多媒体内容处理方法的步骤流程图。

前述多个实施例中，均以对单个多媒体档案的操作为示例，本实施例中则以对多个多媒体档案的操作为示例，对本申请实施例的多媒体内容处理方法进行说明。

本实施例的多媒体内容处理方法包括以下步骤：

步骤S502：接收用户针对多个多媒体档案中的每个多媒体档案的输入信息。

本步骤中，接收用户针对多媒体档案的输入信息实现为针对多个多媒体档案的输入信息。在具体实现时，针对多个中的每个多媒体档案分别输入相应的输入信息，不同多媒体档案的输入信息可以相同，也可以不同。其中，输入信息的输入可采用多界面输入的形式，每个界面对应一个多媒体档案，每个界面的实现可参照前述图2B中所示。或者，输入信息的输入也可采用单界面列表的形式，在同一界面针对每个多媒体档案设置相应的供输入所述输入信息的设置。但本领域技术人员应当明了的是，其它输入信息的输入形式也同样适用于本申请实施例。

步骤S504：根据所述输入信息，从所述多媒体档案中选择与所述输入信息对应的内容部分，作为指定多媒体内容。

在一种可行方式中，可以根据每个多媒体档案中与所述输入信息对应的内容部分，获得多个内容部分；对所述多个内容部分进行合成，将合成后的内容作为指定多媒体内容。

此种方式下，在每个多媒体档案的输入信息确定后，即可获得对应的多个多媒体内容，对其进行合成，如按照预设顺序或内容获取时序等进行拼接合成，即可生成指定多媒体内容。可见，该指定多媒体内容中包含有每个多媒体档案中用户想要分享的内容。通过这种方式，将多个多媒体内容部分合成为一个整体，便于集中进行处理，提高处理效率。

在另一种可行方式中，可以将每个多媒体档案中与所述输入信息对应的内容部分，作为多个指定多媒体内容。也即，每个多媒体档案对应一个指定多媒体内容，形成多个指定多媒体内容。通过这种方式，无需对获得的多个多媒体内容进行合并处理，提高了确定指定多媒体内容的速度。

步骤S506：获取所述指定多媒体内容对应的文本信息。

若指定多媒体内容为合并后的多媒体内容，则可针对该指定多媒体内容整体，获得其对应的文本信息，可以达到较高的文本信息获取效率。

而若指定多媒体内容包括多个，则需要对多个指定多媒体内容分别进行处理，获得各自对应的文本信息，由此获得的各自的文本信息更为准确。

其中，获得多媒体内容对应的文本信息的具体方式可参照前述实施例中相关部分的描述，在此不再赘述。

步骤S508：获取根据所述文本信息生成的所述多媒体档案的分享信息，并通过所述分享信息进行所述多媒体档案的分享。

在指定多媒体内容为合并后的多媒体内容，并获得了其对应的文本信息后，可参照前述实施例中生成分享信息的方式，根据该合并获得的指定多媒体内容及其对应的文本信息生成分享信息，进而基于该分享信息进行分享。

而若指定多媒体内容包括多个，并且获得了各自对应的文本信息，则本步骤中，可以对多个指定多媒体内容进行合成，获得合成后的多媒体内容；获取根据所述合成后的多媒体内容及每个指定多媒体内容对应的文本信息，生成的分享信息。也即，将多媒体内容的合并放在本步骤实现，因各个文本信息能更为精准地描述其对应的指定多媒体内容，因此，采用这种方式生成的分享信息中的文本信息也相对更为准确。

以下，以一个场景示例的形式，对上述过程进行示例性说明，如图5B所示。

图5B中，设定在某应用中播放音频文件X，并且，设定在音频文件X的播放界面中显示有“分享”按钮，若用户在播放该音频文件X的过程中，点击了“分享”按钮，则将展示分享界面，在该分享界面中除设置有用于输入对应于音频文件X的输入信息的设置外，还设置有用于增加其它多媒体档案分享的设置，如图5B中的加号所示。该加号被点击后将会触发展示多个用户播放过的音频文件，图5B中示例为音频文件Y和Z。若某个音频文件被选择，其将被增加显示至分享界面中，并对应显示相应的输入信息的设置。本示例中，示例为音频文件Y和Z均被选择，针对它们的输入信息如图5B所示。

图5B中，设定输入信息为：对应音频文件X的第5-8分钟，对应音频文件Y的第3-5分钟，对应音频文件Z的第4-6分钟。当分享界面中的“确定”按钮被点击后，音频文件X的第5-8分钟被截取，记作片段1；音频文件Y的第3-5分钟被截取，记作片段2；音频文件Z的4-6分钟被截取，记作片段3。对片段1、2和3进行合并，生成指定多媒体内容。进而，再获得该指定多媒体内容对应的文本信息。然后，基于该文本信息和合成获得的多媒体内容生成分享信息。用户通过发布该分享信息即可进行针对音频文件X、Y和Z的分享。

可见，通过本实施例，除可达到前述实施例所能实现的效果外，还能使得分享用户可以同时分享多个多媒体档案中的不同内容，需要说明的是，当多个多媒体档案具有关联性时，如多个表演者演唱的同一首歌，则还可通过这种方式，在实现分享的同时，便于被分享用户进行演唱比较。又例如，若多个多媒体档案中均有同一个演员，如同一部分电视剧的多个部分，或者，同一个演员演出的多部电影或电视剧，则通过这种方式，可以实现同一个演员的不同部分的剪辑，便于被分享用户有针对性地观看。

实施例六

参照图6，示出了根据本申请实施例六的一种多媒体内容处理方法的步骤流程图。

本实施例中，设定云端参与了多媒体内容处理，因此，从云端角度对本申请实施例提供的多媒体内容处理方法进行说明。

本实施例的多媒体内容处理方法包括以下步骤：

步骤S602：获取指定多媒体内容。

其中，所述指定多媒体内容为多媒体档案中的部分内容或全部内容。所述指定多媒体内容可由客户端获取后上传至云端，也可由云端根据客户端发送的信息获得。

在由云端根据客户端发送的信息获得的情况下，可以采用：例如，云端可以获取用于指示所述指定多媒体内容在多媒体档案中的开始位置信息和结束位置信息，根据所述开始位置信息和所述结束位置信息对所述多媒体档案进行截取，获得所述指定多媒体内容。或者，云端获取用于指示所述指定多媒体内容在多媒体档案中的开始时间信息和结束时间信息，根据所述开始时间信息和所述结束时间信息对所述多媒体档案进行截取，获得所述指定多媒体内容。

上述方式中，云端需存储有相应的多媒体档案，则客户端仅需上传相应的输入信息，如上述时间信息或位置信息，由云端实现对多媒体档案的内容截取，获得待分享的指定多媒体内容。通过云端获取的方式，可大大减轻客户端的数据处理和数据传输负担。

步骤S604：对所述指定多媒体内容进行语音识别，获得对应的文字信息，并根据所述文字信息生成所述指定多媒体内容对应的文本信息。

在具体实现时，可以先从所述指定多媒体内容中解析出音频数据；再对所述音频数据进行语音识别，获得对应的文字信息，并根据所述文字信息生成所述指定多媒体内容对应的文本信息。在实际的语音识别中，识别的结果通常为文字信息，一方面，本步骤可基于该文字信息进行组合得到文本信息；另一方面，也可基于该文字信息进行进一步处理后得到文本信息，如敏感词筛查处理、替换处理等。由此，使得获得的文本信息更符合实际的服务要求。

步骤S606：根据所述文本信息，生成并发送所述多媒体档案的分享信息。

本步骤的具体实现可参照前述实施例中的相关实现，如，按照预设的排版格式，对所述文本信息和所述指定多媒体内容进行混排，生成分享信息。可选地，所述分享信息中可以包含以下至少之一：用于进行分享的图片、音频、视频、音视频。

步骤S608：将生成的分享信息发送给客户端。

即，将生成的分享信息发送给客户端，以使客户端基于该分享信息进行相应的多媒体档案的分享。

通过本实施例，由云端参与多媒体内容分享，除可使得分享用户的分享更有针对性，在不便于播放多媒体的场景下，也可以通过分享信息了解分享的多媒体内容，实现更为高效的多媒体内容分享以外，还大大减轻了客户端的数据处理和数据传输负担，降低了对客户端的软硬件要求。

实施例七

参照图7A，示出了根据本申请实施例七的一种多媒体内容处理方法的步骤流程图。

本实施例仍从客户端的角度，对本申请实施例提供的多媒体内容处理方法进行说明，但于前述客户端实施例不同的是，本实施例侧重对客户端提供的界面进行示例性说明。

本实施例的多媒体内容处理方法包括以下步骤：

步骤S702：提供用于进行多媒体内容分享的多媒体分享界面。

其中，所述多媒体分享界面中至少包含分享设置选项，用于对待分享的内容进行设置。

在一种可行方式中，所述分享设置选项包括：基于所述多媒体档案中的音频数据对应的波形和/或频谱，进行内容截取的选项。示例性界面如图7B所示。

在另一种可行方式中，所述分享设置选项包括：用于指示从所述多媒体档案中截取内容的截取开始时间信息选项和截取结束时间信息选项，一种示例性界面如图7C所示。或者，所述分享设置选项包括：用于指示从所述多媒体档案中截取内容的截取开始位置信息选项和截取结束位置信息选项，一种示例性界面如图7D所示。

此外，可选地，在上述图7C和7D所示界面中，还可以增加多媒体档案的标识输入选项，以对多媒体档案进行选择，并且，可通过其对应的加号添加更多多媒体档案进行设置。图7C和7D中，多媒体档案标识采用名称的形式，但本领域技术人员应当明了，其它标识形式也同样适用。

步骤S704：接收用户对应于所述分享设置选项的输入信息。

用户基于上述多媒体分享界面即可输入针对多媒体档案的输入信息。

步骤S706：根据所述输入信息，从对应的多媒体档案中选择至少部分内容，作为指定多媒体内容。

例如，从对应的多媒体档案中截取与所述输入信息对应的内容，作为指定多媒体内容。

步骤S708：获取所述指定多媒体内容对应的文本信息。

例如，可以获取所述指定多媒体内容中的音频信息；对所述音频信息进行语音识别，获得所述指定多媒体内容对应的文本信息。

其中，在对所述音频信息进行语音识别，获得所述指定多媒体内容对应的文本信息时，一种可行方式中，可以对所述音频信息进行本地语音识别，获得所述指定多媒体内容对应的文本信息。例如，可以使用所述多媒体档案所在的应用中内嵌的语音识别算法，对所述音频信息进行语音识别，获得所述指定多媒体内容对应的文本信息；或者，通过所述多媒体档案所在的应用调用本地存储的语音识别算法，对所述音频信息进行语音识别，获得所述指定多媒体内容对应的文本信息。

在另一种可行方式中，可以将所述音频信息发送至云端，并接收所述云端对所述音频信息进行语音识别后返回的、所述指定多媒体内容对应的文本信息。

步骤S710：获取根据所述文本信息生成的所述多媒体档案的分享信息，并使用所述分享信息进行所述多媒体档案的分享。

例如，可以获取根据预设格式和所述文本信息生成的所述多媒体档案的分享信息。在具体实现时，可以获取按照预设的排版格式，对所述文本信息和所述指定多媒体内容进行混排后，生成的分享信息，所述分享信息中包含以下至少之一：用于进行分享的图片、音频、视频、音视频。

在一种可行方式中，可以在客户端本地，根据预设格式和所述文本信息，本地生成所述多媒体档案的分享信息。

在另一种可行方式中，可以由客户端接收云端根据预设格式和所述文本信息，生成并返回的所述多媒体档案的分享信息。

需要说明的是，本实施例中的上述过程描述都较为简要，其具体实现方式均可参见前述多个实施例中相关部分的描述实现，在此不再详述。

通过本实施例，提供多媒体分享界面，以便于用户通过该界面进行分享设置，并可基于该设置进行后续的多媒体内容处理，以达到使得分享用户的分享更有针对性，在不便于播放多媒体的场景下，也可以通过分享信息了解分享的多媒体内容，实现更为高效的多媒体内容分享的效果。

实施例八

参照图8，示出了根据本申请实施例八的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图8所示，该电子设备可以包括：显示器800、输入装置801、处理器(processor)802、通信接口(Communications Interface)804、存储器(memory)806、通信总线808。

其中：

显示器800、输入装置801、处理器802、通信接口804、以及存储器806通过通信总线808完成相互间的通信。显示器800和输入装置801可以分别单独设置，也可以合并设置，如设置为触摸输入屏。

通信接口804，用于与其它电子设备或服务器进行通信。

显示器800，用于展示用于进行多媒体内容分享的多媒体分享界面，其中，所述多媒体分享界面中至少包含分享设置选项。

输入装置801，用于供用户输入对应于所述分享设置选项的输入信息。

处理器802，用于执行程序810，具体可以执行上述客户端的多媒体内容处理方法实施例中的相关步骤。

具体地，程序810可以包括程序代码，该程序代码包括计算机操作指令。

处理器802可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器806，用于存放程序810。存储器806可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序810具体可以用于使得处理器802执行以下操作：接收用户针对多媒体档案的输入信息；根据所述输入信息，从所述多媒体档案中选择与所述输入信息对应的内容部分，作为指定多媒体内容；获取所述指定多媒体内容对应的文本信息；获取根据所述文本信息生成的所述多媒体档案的分享信息，并通过所述分享信息进行所述多媒体档案的分享。

在一种可选的实施方式中，所述分享设置选项包括：基于所述多媒体档案中的音频数据对应的波形和/或频谱，进行内容截取的选项。

在一种可选的实施方式中，所述分享设置选项还包括：所述多媒体档案的标识输入选项。

在一种可选的实施方式中，程序810还用于使得处理器802在获取所述指定多媒体内容对应的文本信息时：获取所述指定多媒体内容中的音频信息；对所述音频信息进行语音识别，获得所述指定多媒体内容对应的文本信息。

在一种可选的实施方式中，程序810还用于使得处理器802在对所述音频信息进行语音识别，获得所述指定多媒体内容对应的文本信息时：对所述音频信息进行本地语音识别，获得所述指定多媒体内容对应的文本信息；或者，将所述音频信息发送至云端，并接收所述云端对所述音频信息进行语音识别后返回的、所述指定多媒体内容对应的文本信息。

在一种可选的实施方式中，程序810还用于使得处理器802在对所述音频信息进行本地语音识别，获得所述指定多媒体内容对应的文本信息时：使用所述多媒体档案所在的应用中内嵌的语音识别算法，对所述音频信息进行语音识别，获得所述指定多媒体内容对应的文本信息；或者，通过所述多媒体档案所在的应用调用本地存储的语音识别算法，对所述音频信息进行语音识别，获得所述指定多媒体内容对应的文本信息。

在一种可选的实施方式中，程序810还用于使得处理器802在获取根据所述文本信息生成的所述多媒体档案的分享信息时：获取根据预设格式和所述文本信息生成的所述多媒体档案的分享信息。

在一种可选的实施方式中，程序810还用于使得处理器802在获取根据预设格式和所述文本信息生成的所述多媒体档案的分享信息时：获取按照预设的排版格式，对所述文本信息和所述指定多媒体内容进行混排后生成的分享信息，所述分享信息中包含以下至少之一：用于进行分享的图片、音频、视频、音视频。

在一种可选的实施方式中，程序810还用于使得处理器802在获取根据预设格式和所述文本信息生成的所述多媒体档案的分享信息时：根据预设格式和所述文本信息，本地生成所述多媒体档案的分享信息；或者，接收云端根据预设格式和所述文本信息，生成并返回的所述多媒体档案的分享信息。

在一种可选的实施方式中，程序810还用于使得处理器802在接收用户针对多媒体档案的输入信息时：从用户交互界面接收用户针对多媒体档案的输入信息，所述输入信息包括以下之一：针对所述多媒体档案的待分享开始时间信息和待分享结束时间信息，针对所述多媒体档案中的待分享起始帧位置信息和待分享结束帧位置信息。

在一种可选的实施方式中，所述输入信息还包括：所述多媒体档案的标识信息。

在一种可选的实施方式中，程序810还用于使得处理器802在从用户交互界面接收用户针对多媒体档案的输入信息时：在用户交互界面中展示所述多媒体档案中的音频数据对应的波形和/或频谱；接收所述用户对展示的所述波形和/或频谱的截取操作；根据所述截取操作确定所述输入信息。

在一种可选的实施方式中，程序810还用于使得处理器802在接收用户针对多媒体档案的输入信息时：接收用户针对多个多媒体档案中的每个多媒体档案的输入信息；程序810还用于使得处理器802在根据所述输入信息，从所述多媒体档案中选择与所述输入信息对应的内容部分，作为指定多媒体内容时：根据每个多媒体档案中与所述输入信息对应的内容部分，获得多个内容部分；对所述多个内容部分进行合成，将合成后的内容作为指定多媒体内容。

在一种可选的实施方式中，程序810还用于使得处理器802在接收用户针对多媒体档案的输入信息时：接收用户针对多个多媒体档案中的每个多媒体档案的输入信息；程序810还用于使得处理器802在根据所述输入信息，从所述多媒体档案中选择与所述输入信息对应的内容部分，作为指定多媒体内容时：将每个多媒体档案中与所述输入信息对应的内容部分，作为多个指定多媒体内容；程序810还用于使得处理器802在获取根据所述文本信息生成的所述多媒体档案的分享信息时：对所述多个指定多媒体内容进行合成，获得合成后的多媒体内容；获取根据所述合成后的多媒体内容及每个指定多媒体内容对应的文本信息，生成的分享信息。

程序810中各步骤的具体实现可以参见上述客户端的多媒体内容处理方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，可达到使得分享用户的分享更有针对性，在不便于播放多媒体的场景下，也可以通过分享信息了解分享的多媒体内容，实现更为高效的多媒体内容分享的效果。

实施例九

参照图9，示出了根据本申请实施例九的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图9所示，该电子设备可以包括：处理器(processor)902、通信接口(Communications Interface)904、存储器(memory)906、以及通信总线908。

其中：

处理器902、通信接口904、以及存储器906通过通信总线908完成相互间的通信。

通信接口904，用于与其它电子设备或服务器进行通信。

处理器902，用于执行程序910，具体可以执行上述云端的多媒体内容处理方法实施例中的相关步骤。

具体地，程序910可以包括程序代码，该程序代码包括计算机操作指令。

处理器902可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器906，用于存放程序910。存储器906可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序910具体可以用于使得处理器902执行以下操作：获取指定多媒体内容，其中，所述指定多媒体内容为多媒体档案中的部分内容或全部内容；对所述指定多媒体内容进行语音识别，获得对应的文字信息，并根据所述文字信息生成所述指定多媒体内容对应的文本信息；根据所述文本信息，生成并发送所述多媒体档案的分享信息。

在一种可选的实施方式中，程序910还用于使得处理器902在获取指定多媒体内容时：获取用于指示所述指定多媒体内容在多媒体档案中的开始位置信息和结束位置信息，根据所述开始位置信息和所述结束位置信息对所述多媒体档案进行截取，获得所述指定多媒体内容；或者，获取用于指示所述指定多媒体内容在多媒体档案中的开始时间信息和结束时间信息，根据所述开始时间信息和所述结束时间信息对所述多媒体档案进行截取，获得所述指定多媒体内容。

在一种可选的实施方式中，程序910还用于使得处理器902在对所述指定多媒体内容进行语音识别，获得对应的文字信息，并根据所述文字信息生成所述指定多媒体内容对应的文本信息时：从所述指定多媒体内容中解析出音频数据；对所述音频数据进行语音识别，获得对应的文字信息，并根据所述文字信息生成所述指定多媒体内容对应的文本信息。

在一种可选的实施方式中，程序910还用于使得处理器902在根据所述文本信息，生成并发送所述多媒体档案的分享信息时：按照预设的排版格式，对所述文本信息和所述指定多媒体内容进行混排生成分享信息，所述分享信息中包含以下至少之一：用于进行分享的图片、音频、视频、音视频。

程序910中各步骤的具体实现可以参见上述云端的多媒体内容处理方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，由云端参与多媒体内容分享，除可使得分享用户的分享更有针对性，在不便于播放多媒体的场景下，也可以通过分享信息了解分享的多媒体内容，实现更为高效的多媒体内容分享以外，还大大减轻了客户端的数据处理和数据传输负担，降低了对客户端的软硬件要求。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的多媒体内容处理方法。此外，当通用计算机访问用于实现在此示出的多媒体内容处理方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的多媒体内容处理方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种多媒体内容处理方法，包括：

接收用户针对多媒体档案的输入信息；

根据所述输入信息，从所述多媒体档案中选择与所述输入信息对应的内容部分，作为指定多媒体内容；

获取所述指定多媒体内容对应的文本信息；

获取根据所述文本信息生成的所述多媒体档案的分享信息，并通过所述分享信息进行所述多媒体档案的分享。

2.根据权利要求1所述的方法，其中，所述获取所述指定多媒体内容对应的文本信息，包括：

获取所述指定多媒体内容中的音频信息；

对所述音频信息进行语音识别，获得所述指定多媒体内容对应的文本信息。

3.根据权利要求2所述的方法，其中，所述对所述音频信息进行语音识别，获得所述指定多媒体内容对应的文本信息，包括：

对所述音频信息进行本地语音识别，获得所述指定多媒体内容对应的文本信息；

或者，

将所述音频信息发送至云端，并接收所述云端对所述音频信息进行语音识别后返回的、所述指定多媒体内容对应的文本信息。

4.根据权利要求3所述的方法，其中，所述对所述音频信息进行本地语音识别，获得所述指定多媒体内容对应的文本信息，包括：

使用所述多媒体档案所在的应用中内嵌的语音识别算法，对所述音频信息进行语音识别，获得所述指定多媒体内容对应的文本信息；

或者，

通过所述多媒体档案所在的应用调用本地存储的语音识别算法，对所述音频信息进行语音识别，获得所述指定多媒体内容对应的文本信息。

5.根据权利要求1所述的方法，其中，所述获取根据所述文本信息生成的所述多媒体档案的分享信息，包括：

获取根据预设格式和所述文本信息生成的所述多媒体档案的分享信息。

6.根据权利要求5所述的方法，其中，所述获取根据预设格式和所述文本信息生成的所述多媒体档案的分享信息，包括：

获取按照预设的排版格式，对所述文本信息和所述指定多媒体内容进行混排后生成的分享信息，所述分享信息中包含以下至少之一：用于进行分享的图片、音频、视频、音视频。

7.根据权利要求5所述的方法，其中，所述获取根据预设格式和所述文本信息生成的所述多媒体档案的分享信息，包括：

根据预设格式和所述文本信息，本地生成所述多媒体档案的分享信息；

或者，

接收云端根据预设格式和所述文本信息，生成并返回的所述多媒体档案的分享信息。

8.根据权利要求1所述的方法，其中，所述接收用户针对多媒体档案的输入信息，包括：

从用户交互界面接收用户针对多媒体档案的输入信息，所述输入信息包括以下之一：针对所述多媒体档案的待分享开始时间信息和待分享结束时间信息，针对所述多媒体档案中的待分享起始帧位置信息和待分享结束帧位置信息。

9.根据权利要求8所述的方法，其中，所述输入信息还包括：所述多媒体档案的标识信息。

10.根据权利要求8或9所述的方法，其中，所述从用户交互界面接收用户针对多媒体档案的输入信息，包括：

在用户交互界面中展示所述多媒体档案中的音频数据对应的波形和/或频谱；

接收所述用户对展示的所述波形和/或频谱的截取操作；

根据所述截取操作确定所述输入信息。

11.根据权利要求1所述的方法，其中，

所述接收用户针对多媒体档案的输入信息，包括：接收用户针对多个多媒体档案中的每个多媒体档案的输入信息；

所述根据所述输入信息，从所述多媒体档案中选择与所述输入信息对应的内容部分，作为指定多媒体内容，包括：根据每个多媒体档案中与所述输入信息对应的内容部分，获得多个内容部分；对所述多个内容部分进行合成，将合成后的内容作为指定多媒体内容。

12.根据权利要求1所述的方法，其中，

所述根据所述输入信息，从所述多媒体档案中选择与所述输入信息对应的内容部分，作为指定多媒体内容，包括：将每个多媒体档案中与所述输入信息对应的内容部分，作为多个指定多媒体内容；

所述获取根据所述文本信息生成的所述多媒体档案的分享信息，包括：对所述多个指定多媒体内容进行合成，获得合成后的多媒体内容；获取根据所述合成后的多媒体内容及每个指定多媒体内容对应的文本信息，生成的分享信息。

13.一种多媒体内容处理方法，包括：

获取指定多媒体内容，其中，所述指定多媒体内容为多媒体档案中的部分内容或全部内容；

对所述指定多媒体内容进行语音识别，获得对应的文字信息，并根据所述文字信息生成所述指定多媒体内容对应的文本信息；

根据所述文本信息，生成并发送所述多媒体档案的分享信息。

14.根据权利要求13所述的方法，其中，所述获取指定多媒体内容，包括：

获取用于指示所述指定多媒体内容在多媒体档案中的开始位置信息和结束位置信息，根据所述开始位置信息和所述结束位置信息对所述多媒体档案进行截取，获得所述指定多媒体内容；

或者，

获取用于指示所述指定多媒体内容在多媒体档案中的开始时间信息和结束时间信息，根据所述开始时间信息和所述结束时间信息对所述多媒体档案进行截取，获得所述指定多媒体内容。

15.根据权利要求13或14所述的方法，其中，所述对所述指定多媒体内容进行语音识别，获得对应的文字信息，并根据所述文字信息生成所述指定多媒体内容对应的文本信息，包括：

从所述指定多媒体内容中解析出音频数据；

对所述音频数据进行语音识别，获得对应的文字信息，并根据所述文字信息生成所述指定多媒体内容对应的文本信息。

16.根据权利要求13或14所述的方法，其中，所述根据所述文本信息，生成并发送所述多媒体档案的分享信息，包括：

按照预设的排版格式，对所述文本信息和所述指定多媒体内容进行混排生成分享信息，所述分享信息中包含以下至少之一：用于进行分享的图片、音频、视频、音视频。

17.一种多媒体内容处理方法，包括：

提供用于进行多媒体内容分享的多媒体分享界面，其中，所述多媒体分享界面中至少包含分享设置选项；

接收用户对应于所述分享设置选项的输入信息；

根据所述输入信息，从对应的多媒体档案中选择至少部分内容，作为指定多媒体内容；

获取所述指定多媒体内容对应的文本信息；

获取根据所述文本信息生成的所述多媒体档案的分享信息，并使用所述分享信息进行所述多媒体档案的分享。

18.根据权利要求17所述的方法，其中，所述分享设置选项包括：用于指示从所述多媒体档案中截取内容的截取开始时间信息选项和截取结束时间信息选项，或者，用于指示从所述多媒体档案中截取内容的截取开始位置信息选项和截取结束位置信息选项。

19.根据权利要求17所述的方法，其中，所述分享设置选项包括：基于所述多媒体档案中的音频数据对应的波形和/或频谱，进行内容截取的选项。

20.根据权利要求18或19所述的方法，其中，所述分享设置选项还包括：所述多媒体档案的标识输入选项。

21.根据权利要求18所述的方法，其中，所述根据所述输入信息，从对应的多媒体档案中选择至少部分内容，作为指定多媒体内容，包括：

从对应的多媒体档案中截取与所述输入信息对应的内容，作为指定多媒体内容。

22.根据权利要求17所述的方法，其中，所述获取所述指定多媒体内容对应的文本信息，包括：

获取所述指定多媒体内容中的音频信息；

23.根据权利要求22所述的方法，其中，所述对所述音频信息进行语音识别，获得所述指定多媒体内容对应的文本信息，包括：

或者，

24.根据权利要求23所述的方法，其中，所述对所述音频信息进行本地语音识别，获得所述指定多媒体内容对应的文本信息，包括：

或者，

25.根据权利要求17所述的方法，其中，所述获取根据所述文本信息生成的所述多媒体档案的分享信息，包括：

26.根据权利要求25所述的方法，其中，所述获取根据预设格式和所述文本信息生成的所述多媒体档案的分享信息，包括：

获取按照预设的排版格式，对所述文本信息和所述指定多媒体内容进行混排后，生成的分享信息，所述分享信息中包含以下至少之一：用于进行分享的图片、音频、视频、音视频。

27.根据权利要求25所述的方法，其中，所述获取根据预设格式和所述文本信息生成的所述多媒体档案的分享信息，包括：

或者，

28.一种电子设备，包括：显示器、输入装置、处理器、存储器、通信接口和通信总线，所述显示器、所述输入装置、所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述显示器，用于展示用于进行多媒体内容分享的多媒体分享界面，其中，所述多媒体分享界面中至少包含分享设置选项；

所述输入装置，用于供用户输入对应于所述分享设置选项的输入信息；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-12中任一项所述的多媒体内容处理方法对应的操作。

29.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求13-16中任一项所述的多媒体内容处理方法对应的操作。

30.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-12、或者13-16、或者17-27中任一所述的多媒体内容处理方法。