CN109101964A

CN109101964A - 确定多媒体文件中首尾区域的方法、设备及存储介质

Info

Publication number: CN109101964A
Application number: CN201810928792.7A
Authority: CN
Inventors: 左洪涛; 刘阿海
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-15
Filing date: 2018-08-15
Publication date: 2018-12-28
Anticipated expiration: 2038-08-15
Also published as: CN109101964B

Abstract

本申请实施例提供了一种确定多媒体文件中首尾区域的方法、设备和存储介质。该方法包括：获取多媒体文件；对多媒体文件进行预处理，得到首尾区域的第一位置信息；调用机器学习模型对第一位置信息进行处理，得到首尾区域的第二位置信息，第二位置的精度高于第一位置的精度。在本申请实施例中，先对多媒体文件进行预处理，得到首尾区域在多媒体文件中的第一位置，之后通过机器学习模型对第一位置进行进一步处理，得到精度更高的第二位置，并将精度更高的第二位置确定为多媒体文件的首尾区域的位置，从而提高确定多媒体文件的首尾区域的位置的准确率。

Description

确定多媒体文件中首尾区域的方法、设备及存储介质

技术领域

本申请实施例涉及机器学习技术领域，特别涉及一种确定多媒体文件中首尾区域的方法、设备及存储介质。

背景技术

多媒体文件中除了正式内容之外，还可以包括一些其它信息。以多媒体文件为电视剧集为例，电视剧集的正式内容被播放之前，通常会播放一些片头内容，例如该电视剧集的创作人员信息、上一剧集的集锦片段等等。终端可以跳过上述片头内容，并直接播放电视剧集的正式内容。

终端实现跳过片头内容，并直接播放电视剧集的正式内容的前提条件是准确定位电视剧集中的首尾区域，也即正式内容的开始位置和结束位置。相关技术中，服务器对电视剧集所包括的播放帧逐一进行图像识别，若某一播放帧中包括“第x集”、“开始”等关键词时，则将该播放帧确定为正式内容的开始位置。

相关技术中，确定多媒体文件的首尾区域的位置的准确率较低。

发明内容

本申请实施例提供了一种确定多媒体文件中首尾区域的方法、设备及存储介质，可用于解决相关技术中确定多媒体文件的首尾区域的位置的准确率较低的问题。

一方面，本申请实施例提供了一种确定多媒体文件中首尾区域的方法，该方法包括：

获取多媒体文件；

对所述多媒体文件进行预处理，得到首尾区域的第一位置信息，所述首尾区域包括所述多媒体文件的开始区域和/或结束区域，所述首尾区域的第一位置信息用于指示所述首尾区域在所述多媒体文件中的第一位置；

调用机器学习模型对所述第一位置信息进行处理，得到所述首尾区域的第二位置信息，所述机器学习模型是采用多组训练样本数据对神经网络训练得到的，所述多组训练样本数据中的每组训练样本数据包括样本多媒体文件的首尾区域的第一位置信息，以及所述样本多媒体文件的首尾区域的实际位置信息，所述首尾区域的第二位置信息用于指示所述首尾区域在所述多媒体文件中的第二位置，所述第二位置的精度高于所述第一位置的精度。

另一方面，本申请实施例提供了一种确定多媒体文件中首尾区域的装置，该装置包括：

文件获取模块，用于获取多媒体文件；

第一处理模块，用于对所述多媒体文件进行预处理，得到首尾区域的第一位置信息，所述首尾区域包括所述多媒体文件的开始区域和/或结束区域，所述首尾区域的第一位置信息用于指示所述首尾区域在所述多媒体文件中的第一位置；

第二处理模块，用于调用机器学习模型对所述第一位置信息进行处理，得到所述首尾区域的第二位置信息，所述机器学习模型是采用多组训练样本数据对神经网络训练得到的，所述多组训练样本数据中的每组训练样本数据包括样本多媒体文件的首尾区域的第一位置信息，以及所述样本多媒体文件的首尾区域的实际位置信息，所述首尾区域的第二位置信息用于指示所述首尾区域在所述多媒体文件中的第二位置，所述第二位置的精度高于所述第一位置的精度。

再一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述方面所述的确定多媒体文件中首尾区域的方法。

又一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方面所述的确定多媒体文件中首尾区域的方法。

又一方面，提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述方面所述的确定多媒体文件中首尾区域的方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过先对多媒体文件进行预处理，得到首尾区域在多媒体文件中的第一位置，之后通过机器学习模型对第一位置进行进一步处理，得到精度更高的第二位置，并将精度更高的第二位置确定为多媒体文件的首尾区域的位置，进而提高确定多媒体文件的首尾区域的位置的准确率。

附图说明

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请另一实施例提供的实施环境的示意图；

图3是本申请一个实施例提供的确定多媒体文件中首尾区域的方法的流程图；

图4是本申请一个实施例提供的一种应用场景的示意图；

图5是本申请一个实施例提供的另一种应用场景的示意图；

图6是本申请一个实施例提供的一种应用场景的框图；

图7是本申请一个实施例提供的确定多媒体文件中首尾区域的装置的框图；

图8是本申请一个实施例提供的确定多媒体文件中首尾区域的装置的框图；

图9是本申请一个实施例提供的计算机设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1为本申请一个实施例示出的实施环境的示意图。该实施环境包括至少一个终端11和服务器12。

终端11具有播放多媒体文件的功能，以及与服务器12进行数据交互的功能。终端11可以是手机、平板电脑、电子书阅读器、多媒体播放设备、可穿戴设备、膝上型便携计算机等电子设备。可选地，终端11中安装有指定应用程序，由该应用程序实现上述播放多媒体文件的功能，以及与服务器12进行数据交互的功能。上述指定应用程序可以是视频类应用程序、音乐类应用程序、k歌类应用程序，本申请实施例对此不作限定。

服务器12具有在多媒体文件中确定出首尾区域的功能，以及与终端11进行数据交互的功能。服务器12可以是终端11中安装的指定应用程序对应的后台服务器。服务器12可以是一台服务器，也可以是一个服务器集群，还可以是一个云计算服务中心。

至少一个终端11与服务器12之间建立有通信连接。上述通信连接可以基于有线网络或无线网络建立。

图2为本申请另一个实施例示出的实施环境的示意图。在该实施环境中，服务器12是一个服务器集群，该服务器集群包括媒体流服务器121、媒资服务器122和位置确定服务器123。上述媒体流服务器121、媒资服务器122以及位置确定服务器123可以单独设置，也可以集成在一起。

媒体流服务器121用于存储多媒体文件，媒体流服务器121还用于向终端11以及位置确定服务器123提供多媒体文件。

媒资服务器122用于存储多媒体文件的相关信息，例如多媒体文件的名称、播放时长、创作人员、首尾区域在多媒体文件中的位置、媒体流服务器121的地址等等。媒资服务器122还用于向终端11提供上述多媒体文件的相关信息。

位置确定服务器123用于实现在多媒体文件中确定出首尾区域的功能。可选地，位置确定服务器123包括机器学习模型以及图像分析引擎，由二者协同合作，进而实现在多媒体文件中确定出首尾区域的功能。位置确定服务器123还用于向媒资服务器122提供多媒体文件的首尾区域的第二位置信息。

媒体流服务器121与媒资服务器122、位置确定服务器123之间建立有通信连接。媒资服务器122与位置确定服务器123之间也建立有通信连接。上述通信连接可以基于有线网络或无线网络建立。

本申请实施例提供的技术方案，通过先对多媒体文件进行预处理，得到首尾区域在多媒体文件中的第一位置，之后通过机器学习模型对第一位置进行进一步处理，得到精度更高的第二位置，并将精度更高的第二位置确定为多媒体文件的首尾区域的位置，相比于相关技术中仅仅采用图像设别的方式来确定多媒体文件的首尾区域的位置，本申请实施例提供的技术方案，能够提高确定多媒体文件的首尾区域的位置的准确率。

本申请实施例提供的技术方案，可以应用于多媒体文件的播放任务、歌曲的录制任务中，下面对这两种应用场景分别进行讲解。

(1)播放电视剧集

服务器确定出电视剧集的正式内容的开始位置以及结束位置，后续当某一用户请求播放该电视剧集时，服务器判断该用户所使用的用户帐号是否为VIP(Very ImportantPerson)帐号，若该用户帐号为VIP帐号，则向该用户的用户终端发送跳过指令，以指示用户终端在播放电视剧集时跳过片头和片尾，只播放该电视剧集的正式内容。

(2)录制歌曲。

用户触发终端开始录制歌曲，终端播放该歌曲的伴奏，并在录制界面中显示跳过前奏选项，当用户点击该跳过前奏选项时，终端根据服务器确定出的歌曲的正式内容的开始位置，并从该开始位置处继续播放，使得用户能够快速录制歌曲，而无需等前奏播放完毕后再播放歌曲。

图3为本申请一个实施例示出的在多媒体文件中确定首尾区域的方法的流程图。该方法可以由服务器执行，该服务器可以是图1所示的服务器12。该方法包括如下几个步骤：

步骤301，获取多媒体文件。

多媒体文件是指包括音频信息和/或视频信息的文件。在本申请实施例中，多媒体文件是按照内容形式来划分的，其包括电视剧集、电影、歌曲MV等等。服务器可以在多媒体文件被创作人员上传时获取该多媒体文件。也可以在多媒体文件被用户请求时获取该多媒体文件，本申请实施例对多媒体文件的获取时机不作限定。

步骤302，对多媒体文件进行预处理，得到首尾区域的第一位置信息。

首尾区域包括多媒体文件的开始区域和/或结束区域。

多媒体文件的开始区域是指从多媒体文件开始播放到多媒体文件所包括的正式内容开始播放之间的部分。由于多媒体文件开始播放的时间固定为00：00，因此确定多媒体内容的开始区域的位置也即是确定多媒体文件所包括的正式内容开始播放的位置，其可以是一个时间戳，也可以是某一播放帧在多媒体文件中的序号。对于电视剧集或电影来说，其开始区域也称之为片头。对于歌曲来说，其开始区域也称之为前奏。

多媒体文件的结束区域是指多媒体文件所包括的正式内容结束播放到多媒体文件结束播放之间的部分。由于多媒体文件开始播放的时间固定为多媒体文件的播放时长，因此确定多媒体内容的结束区域的位置也即是确定多媒体文件所包括的正式内容结束播放的位置，其可以是一个时间戳，也可以是某一播放帧在多媒体文件中的序号。对于电视剧集或电影来说，其结束区域也称之为片尾。

首尾区域的第一位置信息用于指示首尾区域在多媒体文件中的第一位置。第一位置的精度较低，也可以称之为粗略位置，是指成为实际位置的概率大于预设概率的位置。预设概率可以根据实际需求设定，本申请实施例对此不作限定。首尾区域的第一位置可以包括多个播放帧，上述多个播放帧可以连续，也可以不连续，本申请实施例对此不作限定。首尾区域的第一位置信息可以采用上述多个播放帧对应的时间戳表示，也可以采用多媒体文件所包括的播放帧的序号来表示。例如，首尾区域的第一位置信息用于指示多媒体文件的正式内容开始的位置是第40秒至第47秒。再例如，首尾区域的第一位置信息用于指示多媒体文件的正式内容开始的位置是第26帧至第30帧。

可选地，在对多媒体文件进行预处理之前，先需要对多媒体文件进行解码，得到多媒体文件中的数据流。可选地。服务器中安装有图像分析引擎，由该图像分析引擎实现对多媒体文件的解码，以及后续的预处理工作。

可选地，步骤302可以包括如下几个子步骤：

步骤302a，从多媒体文件中提取目标片段。

步骤302b，对目标片段进行预处理，得到第一位置信息。

目标片段包括多媒体文件的首尾区域。目标片段的播放时长小于多媒体文件的播放时长。由于多媒体文件的开始区域和/或结束区域在多媒体文件中的位置较为固定，因此可以在多媒体文件中选择出有较大概率包括上述开始区域和/或结束区域的目标片段，并对目标片段进行预处理，以确定出开始区域和/或结束区域的第一位置信息。通过上述方式，可以避免对整个多媒体文件进行预处理，从而减小工作量，提升在多媒体文件中确定首尾区域的效率。

示例性地，多媒体文件的播放时长为45分钟，目标片段为10分钟，其可以是多媒体文件开始播放的前10分钟、或者后10分钟。

步骤303，调用机器学习模型对所述第一位置信息进行处理，得到首尾区域的第二位置信息。

机器学习模型是采用多组训练样本数据对神经网络训练得到的。

多组训练样本数据中的每组训练样本数据包括样本多媒体文件的首尾区域的第一位置信息，以及样本多媒体文件的首尾区域的实际位置信息。

样本多媒体文件的首尾区域的第一位置信息的获取方式可以参考步骤302。该过程具体如下：服务器对样本多媒体文件进行预处理，得到样本多媒体文件的首尾区域的第一位置信息。可选地，服务器从样本多媒体文件中提取目标片段，之后对提取到的目标片段进行预处理，得到第一位置信息。

在一种可能的实现方式中，服务器对从样本多媒体文件中提取的目标片段的播放帧进行图像识别，得到播放帧对应的图像识别结果，服务器根据上述图像识别结果确定第一目标播放帧和第二目标播放帧，并将第一目标播放帧和/或第二目标播放帧在样本多媒体文件中的位置，确定为样本多媒体文件的首尾区域的第一位置信息。其中，第一目标播放帧是图像识别结果中包括指定关键词的播放帧，第二目标播放帧是图像识别结果用于指示在指定区域包括指定文字信息的播放帧。

在另一种可能的实现方式中，服务器计算从样本多媒体文件中提取的目标片段所包括的每个图像组对应的相似度，将相似度小于相似度门限的图像组在所述多媒体文件中的位置，确定为样本多媒体文件的首尾区域的第一位置信息。其中，每个图像组包括相邻的两个播放帧。

样本多媒体文件的首尾区域的实际位置信息可以采用人工标注的方式获取的。也即，相关技术人员在观看样本多媒体文件时确定多媒体文件的首尾区域的实际位置，并进行记录。

神经网络可以是卷积神经网络(Convolutional Neural Network，CNN)、人工神经网络(Artificial Neural Network，ANN)、深度神经网络(Deep Neural Networks，DNN)等，本申请实施例对此不作限定。

训练机器学习模型时采用的机器学习算法可以是反向传播算法(Back-Propagation，BP)、更快的区域卷积神经网络faster RCNN(fasterRegions withConvolutional Neural Network，faster RCNN)算法等，本申请实施例对此不作限定。

可选地，机器学习模型包括：一个输入层、至少一个隐层、和一个输出层。输入层的输入数据为首尾区域的第一位置信息，输出层的输出结果是该第一位置信息对应的第二位置信息。确定过程如下：将首尾区域的第一位置信息输入至特征分类模型的输入层，由特征分类模型的隐层对上述特征数据进行特征提取，并对提取到的特征进行组合和抽象，最后由输出层输出该第一位置信息对应的第二位置信息。另外，在本申请实施例中，对隐层的具体结构不作限定。一般来说，神经网络的层数越多，效果越好但计算时间也会越长，在实际应用中，可结合精度要求，设计适当层数的神经网络。

首尾区域的第二位置信息用于指示首尾区域在多媒体文件中的第二位置。第二位置的精度大于第一位置的精度，也可以称之为精确位置，是指成为实际位置的概率最大的位置。首尾区域的第二位置包括一个播放帧。首尾区域的第二位置信息可以采用上述播放帧对应的时间戳表示，也可以采用上述播放帧的序号来表示。

综上所述，本申请实施例提供的技术方案，通过先对多媒体文件进行预处理，得到首尾区域在多媒体文件中的第一位置，之后通过机器学习模型对第一位置进行进一步处理，得到精度更高的第二位置，并将精度更高的第二位置确定为多媒体文件的首尾区域的位置，进而提高确定多媒体文件的首尾区域的位置的准确率。

对多媒体文件进行预处理的方式可以包括图像识别、相似度计算等。下面对这两种方式分别进行说明。

1、图像识别方式。

在一种可能的实现方式中，对目标片段进行预处理，得到第一位置信息可以包括如下两个子步骤：

步骤302b1，对目标片段所包括的播放帧进行图像识别，得到播放帧对应的图像识别结果。

图像识别所采用的算法可以是基于神经网络的图像识别算法、基于小波矩的图像识别算法、基于分形特征的图像识别算法等等，本申请实施例对此不作限定。另外，在本申请实施例中，播放帧对应的图像识别结果可以包括该播放帧所包括的文字信息。

步骤302b2，根据播放帧对应的图像识别结果，确定第一位置信息。

在本申请实施例中，服务器通过识别出播放帧所包括的文字信息，来确定首尾区域在多媒体文件中的粗略位置。

在一个示例中，步骤302b2可以实现为：将图像识别结果中包括指定关键词的播放帧，确定为第一目标播放帧；将第一目标播放帧在多媒体文件中的位置，确定为第一位置信息。

指定关键词用于指示即将播放多媒体文件的正式内容，其可以由相关工作人员预先设定。示例性地，指定关键词可以为“第x集”、“开始”、“Start”，指定关键词也可以为“本集完”、“结束”、“End”。

当播放帧对应的图像识别结果包括“第x集”、“开始”、“Start”等指定关键词时，则该播放帧有较大概率是多媒体文件的开始区域，因此服务器将该播放帧在多媒体文件中的位置，确定为开始区域的粗略位置；当播放帧对应的图像识别结果包括“本集完”、“结束”、“End”等指定关键词时，则该播放帧有较大概率是多媒体文件的结束区域，因此服务器将该播放帧在多媒体文件中的位置，确定为结束区域的粗略位置。

可选地，服务器将第一目标播放帧对应的时间戳作为首尾区域的第一位置信息，可选地，服务器将第一目标播放帧的序号作为首尾区域的第一位置信息。

在另一个示例中，步骤302b2可以实现为：根据每个播放帧对应的图像识别结果，确定第二目标播放帧；将第二目标播放帧在多媒体文件中的位置，确定为第一位置信息。

第二目标播放帧对应的图像识别结果用于指示第二目标播放帧的指定区域包括指定文字信息。

在多媒体文件被播放的过程中，为了方便用户观看，多媒体文件对应的画面上通常叠加有文字信息，上述文字信息可以是虚拟人物的台词、歌词等等。在本申请实施例中，根据多媒体文件对应的画面上叠加显示的文字信息，来确定首尾区域的位置。

指定区域是指用于叠加显示文字信息的区域，其通常位于画面的下半部分，以避免对画面造成遮挡。指定文字信息可以是电视剧集或电影被播放时，显示的第一句台词，也可以是歌曲中的第一句歌词。

可选地，服务器将第二目标播放帧对应的时间戳作为首尾区域的第一位置信息，可选地，服务器将第二目标播放帧的序号作为首尾区域的第一位置信息。

2、相似度计算方式

在另一种可能的实现方式中，对目标片段进行预处理，得到第一位置信息可以包括如下两个子步骤：

步骤302b3，计算目标片段所包括的每个图像组对应的相似度。

每个图像组包括相邻的两个播放帧。目前多媒体文件在被播放的过程中，通常会通过特定背景的图片来提示正式内容即将被播放，或者，正式内容即将停止播放。示例性地，多媒体文件的正式内容被播放之前通常会显示黑色背景的图片。上述特定背景的图片与多媒体文件的正式内容所对应的图片通常存在较大差别，因此在本申请实施例中，通过计算相邻的两个播放帧之间的相似度来确定上述特定背景的图片，进而确定多媒体文件的首尾区域。

相似度计算所采用的算法可以是基于余弦相似度的相似度计算算法、基于欧式距离的相似度计算算法、基于皮尔逊相关性的相似度计算算法等等，本申请实施例对此不作限定。

步骤302b4，将相似度小于相似度门限的图像组在多媒体文件中的位置，确定为第一位置信息。

相似度门限可以根据实际经验设定，本申请实施例对此不作限定。

可选地，服务器将相似度小于相似度门限的图像组对应的时间戳作为首尾区域的第一位置信息，可选地，服务器将相似度小于相似度门限的图像组的序号作为首尾区域的第一位置信息。

在确定出首尾区域的第二位置信息之后，服务器可以将上述首尾区域的第二位置信息发送至终端，以便终端能够提供仅播放多媒体文件的正式内容的服务。可选地，在步骤303之后，该在多媒体文件中确定首尾区域的方法还包括如下步骤：

步骤401，接收终端发送的播放请求。

播放请求用于请求播放多媒体文件。播放请求携带有终端的标识以及多媒体文件的标识。当终端安装有指定应用程序时，播放请求中还携带有该终端在上述指定应用程序中所使用的用户帐号。

可选地，终端显示有多媒体文件的标识(例如名称、预览图等)，当用户触发该多媒体文件的标识时，终端向服务器发送播放请求。

步骤402，检测终端是否具有跳过权限。

跳过权限是指在播放多媒体文件时跳过首尾区域的权限。若终端具有跳过权限，则播放多媒体文件时可以跳过多媒体文件的开头部分(例如片头、前奏等)和结尾部分(例如片尾)，并直接播放多媒体文件的正式内容。若终端不具有跳过权限，则播放多媒体文件时需要待多媒体文件的开头部分播放完毕，才开始播放多媒体文件的正式内容，另外，当多媒体文件的正式内容播放完毕时，终端需要继续播放多媒体文件的结尾部分。

可选地，服务器保存有具有跳过权限的终端列表。服务器查询上述列表，若列表中包括该终端，则确定该终端具有跳过权限，若列表中不包括该终端，则确定该终端不具有跳过权限。若播放请求还携带有终端在上述指定应用程序中所使用的用户帐号，服务器也可以保存具有跳过权限的用户帐号列表，若列表中包括该用户帐号，则确定该用户帐号具有跳过权限，若列表中不包括该用户帐号，则确定该用户帐号不具有跳过权限。

步骤403，若检测出终端具有跳过权限，则向终端返回首尾区域的第二位置信息。

终端接收首尾区域的第二位置信息，并根据该第二位置信息所指示的位置，来跳过多媒体文件的开头部分与结尾部分。示例性地，当开始区域的第二位置信息用于指示多媒体文件的正式内容的开始位置在第25帧时，则终端从第26帧开始播放多媒体文件，当结束区域的第二位置信息用于指示多媒体文件的结束位置在第2018帧时，则终端在播放至2017帧后停止播放多媒体文件。

图4为本申请一个实施例提供的应用场景的界面示意图。用户A期望观看视频1，并点击视频1的标识，终端根据该对应于视频1的点击信号向服务器发送播放请求，服务器在检测出用户A所使用的用户帐号具有跳过权限时，向终端返回视频1以及视频1的首尾区域的第二位置信息，之后终端跳过视频1的开始区域，并从视频1的正式内容开始播放。

若检测出终端不具有跳过权限，则不执行向终端返回首尾区域的第二位置信息的步骤。

另外，在其他可能的实现方式中，服务器也可以先确定出首尾区域的第二位置信息时，之后直接向终端发送上述首尾区域的第二位置信息。终端在刚开始播放多媒体文件时显示第一询问信息，该第一询问信息用于询问是否跳过多媒体文件的开头部分，当终端接收到对应于第一询问信息的确认指示时，终端直接播放多媒体文件的正式内容。终端在多媒体文件的正式内容播放完毕后，显示第二询问信息，该第二询问信息用于询问是否跳过多媒体文件的结尾部分，当终端接收到对应于第二询问信息的确认指示时，终端结束播放多媒体文件。

图5为本申请另一个实施例提供的应用场景的界面示意图。用户B期望录制曲目1，并点击曲目1的标识，终端根据该对应于曲目1的点击信号向服务器发送播放请求，服务器向终端返回曲目1以及曲目1的首尾区域的第二位置信息，之后终端显示询问信息，该询问信息用于询问是否跳过曲目1的前奏(也即开始区域)，终端在接收到对应于曲目1的询问信息之后，跳过曲目1的开始区域，并从曲目1的正式内容开始播放。

在一个具体地例子中，结合参考图6，其示出了本申请一个实施例示出的应用场景的示意图。位置确定服务器从媒体流服务器中读取多媒体文件，之后对多媒体文件进行解码，得到数据流，位置确定服务器中的图像分析引擎对数据流进行处理，得到特征信息(也即首尾区域的第一位置信息)，并将上述特征信息输入机器学习模型，由机器学习模型输入统计分析结果(也即首尾区域的第二位置信息)，最后由上述图像分析引擎将首尾区域的第二位置信息存储至数据库。后续，用户通过终端中的应用程序向媒资服务器请求多媒体文件时，媒资服务器判断该用户所使用的用户帐号是否有跳过权限，若有跳过权限，则媒资服务器向应用程序返回首尾区域的第二位置信息以及媒体流服务器的地址，后续终端中的播放器从媒体流服务器获取多媒体文件，并进行播放。在播放过程中，该播放器会跳过多媒体文件的首尾区域，仅播放多媒体文件的正式内容。

在调用深度学习模型对首尾区域的第一位置信息进行处理之前，需要预先训练出机器学习模型，下面对机器学习模型的训练过程进行讲解。在基于图2实施例提供的一个可选实施例中，在步骤303之前，该在多媒体文件中确定首尾区域的方法还包括如下步骤：

步骤501，调用原始机器学习模型对样本多媒体文件的首尾区域的第一位置信息进行处理，得到训练样本数据对应的输出结果。

原始机器学习模型也即是未经训练的机器学习模型，原始机器学习模型中的参数通常是随机设定的。可选地，上述原始机器学习模型可以是卷积神经网络(例如alexNet网络、VGG-16网络、GoogleNet网络、Deep Residual Learning(深度残差学习)网络等等，本申请实施例对此不作限定。

训练样本数据的相关介绍，可以参考步骤303，此处不作赘述。

训练样本数据对应的输出结果也即样本多媒体文件的首尾区域的第二位置信息。在本申请实施例中，将多媒体文件的首尾区域的第一位置信息输入原始机器学习模型，由原始机器学习模型输出训练样本数据对应的输出结果。

步骤502，将训练样本数据对应的输出结果和样本多媒体文件的首尾区域的实际位置信息比对，得到计算损失。

计算损失是训练样本数据对应的输出结果与样本多媒体文件的首尾区域的实际位置信息之间的差值。

步骤503，检测计算损失是否大于损失门限。

损失门限可以根据对机器学习模型的精度要求实际设定。若精度要求较高，则损失门限设定地较小；若精度要求较低，则损失门限设定地较大。

若计算损失大于损失门限，则根据计算损失对原始机器学习模型中的参数进行调整，并重复执行上述步骤501至503，也即从调用原始机器学习模型对样本多媒体文件的首尾区域的第一位置信息进行处理，得到训练样本数据对应的输出结果的步骤重新开始执行。

若计算损失不大于损失门限，也即计算损失小于或等于损失门限，则将计算损失小于损失门限时的原始机器学习模型作为完成训练的原始机器学习模型，也即生成机器学习模型。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图7为本申请一个实施例提供的确定多媒体文件中首尾区域的装置的框图。该装置具有实现上述方法示例中的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：文件获取模块701、第一处理模块702和第二处理模块703。

文件获取模块701，用于获取多媒体文件。

第一处理模块702，用于对所述多媒体文件进行预处理，得到首尾区域的第一位置信息，所述首尾区域包括所述多媒体文件的开始区域和/或结束区域，所述首尾区域的第一位置信息用于指示所述首尾区域在所述多媒体文件中的第一位置。

第二处理模块703，用于调用机器学习模型对所述第一位置信息进行处理，得到所述首尾区域的第二位置信息，所述机器学习模型是采用多组训练样本数据对神经网络训练得到的，所述多组训练样本数据中的每组训练样本数据包括样本多媒体文件的首尾区域的第一位置信息，以及所述样本多媒体文件的首尾区域的实际位置信息，所述首尾区域的第二位置信息用于指示所述首尾区域在所述多媒体文件中的第二位置，所述第二位置的精度高于所述第一位置的精度。

在基于图7所示实施例提供的一个可选实施例中，所述第一处理模块701，用于：

从所述多媒体文件中提取目标片段，所述目标片段包括所述首尾区域，且所述目标片段的播放时长小于所述多媒体文件的播放时长；

对所述目标片段进行预处理，得到所述第一位置信息。

可选地，所述第一处理模块701，用于：

从所述多媒体文件中提取目标片段，所述目标片段包

对所述目标片段所包括的播放帧进行图像识别，得到所述播放帧对应的图像识别结果；

根据所述播放帧对应的图像识别结果，确定所述第一位置信息。

可选地，所述第一处理模块701，用于：

将图像识别结果中包括指定关键词的播放帧，确定为第一目标播放帧；

将第一目标播放帧在所述多媒体文件中的位置，确定为所述第一位置信息。

可选地，所述第一处理模块701，用于：

根据所述每个播放帧对应的图像识别结果，确定第二目标播放帧，所述第二目标播放帧对应的图像识别结果用于指示所述第二目标播放帧的指定区域包括指定文字信息；

将第二目标播放帧在所述多媒体文件中的位置，确定为所述第一位置信息。

可选地，所述第一处理模块701，用于：

计算所述目标片段所包括的每个图像组对应的相似度，所述每个图像组包括相邻的两个播放帧；

将相似度小于相似度门限的图像组在所述多媒体文件中的位置，确定为所述第一位置信息。

在基于图7所示实施例提供的一个可选实施例中，请参考图8，所述装置还包括：请求接收模块704、权限检测模块705和位置发送模块707。

请求接收模块704，用于接收终端发送的播放请求，所述播放请求用于请求播放所述多媒体文件。

权限检测模块705，用于检测所述终端是否具有跳过权限，所述跳过权限是指在播放所述多媒体文件时跳过所述首尾区域的权限。

位置发送模块707，用于若检测出所述终端具有所述跳过权限，则向所述终端返回所述首尾区域的第二位置信息。

在基于图7所示实施例提供的一个可选实施例中，请参考图8，所述装置还包括：模型训练模块707。

模型训练模块707，用于：

调用原始机器学习模型对所述样本多媒体文件的首尾区域的第一位置信息进行处理，得到所述训练样本数据对应的输出结果；

将所述训练样本数据对应的输出结果和所述样本多媒体文件的首尾区域的实际位置信息比对，得到计算损失；

检测所述计算损失是否大于损失门限；

若所述计算损失大于所述损失门限，则根据计算损失对所述原始机器学习模型中的参数进行调整，并从所述调用原始机器学习模型对所述样本多媒体文件的首尾区域的第一位置信息进行处理，得到所述训练样本数据对应的输出结果的步骤重新开始执行；

若所述计算损失不大于所述损失门限，则生成所述机器学习模型。

图9为本发明一个实施例提供的计算机设备的结构示意图。该计算机设备可以是服务器。该计算机设备用于实施上述实施例中提供的确定多媒体文件中首尾区域的方法。具体来讲：

计算机设备900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的***存储器904，以及连接***存储器904和中央处理单元901的***总线905。计算机设备900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)906，和用于存储操作***913、应用程序914和其他程序模块915的大容量存储设备907。

基本输入/输出***906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中显示器908和输入设备909都通过连接到***总线905的输入输出控制器910连接到中央处理单元901。基本输入/输出***906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备907通过连接到***总线905的大容量存储控制器(未示出)连接到中央处理单元901。大容量存储设备907及其相关联的计算机可读介质为计算机设备900提供非易失性存储。也就是说，大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器904和大容量存储设备907可以统称为存储器。

根据本发明的各种实施例，计算机设备900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备900可以通过连接在***总线905上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程计算机***(未示出)。

存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述确定多媒体文件中首尾区域的指令。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由电子设备的处理器加载并执行以实现上述方法实施例中的确定多媒体文件中首尾区域的方法。

可选地，上述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本文中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种确定多媒体文件中首尾区域的方法，其特征在于，所述方法包括：

获取多媒体文件；

2.根据权利要求1所述的方法，其特征在于，所述对所述多媒体文件进行预处理，得到首尾区域的第一位置信息，包括：

对所述目标片段进行预处理，得到所述第一位置信息。

3.根据权利要求2所述的方法，其特征在于，所述对所述目标片段所包括的音视频数据进行预处理，得到所述第一位置信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述播放帧对应的图像识别结果，确定所述第一位置信息，包括：

5.根据权利要求3所包括的方法，其特征在于，所述根据所述播放帧对应的图像识别结果，确定所述第一位置信息，包括：

6.根据权利要求2所述的方法，其特征在于，所述对所述目标片段进行预处理，得到所述第一位置信息，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述调用机器学习模型对所述第一位置信息进行处理，得到所述首尾区域的第二位置信息之前，还包括：

检测所述计算损失是否大于损失门限；

8.根据权利要求1至6任一项所述的方法，其特征在于，所述调用机器学习模型对所述第一位置信息进行处理，得到所述首尾区域的第二位置信息之后，还包括：

接收终端发送的播放请求，所述播放请求用于请求播放所述多媒体文件；

检测所述终端是否具有跳过权限，所述跳过权限是指在播放所述多媒体文件时跳过所述首尾区域的权限；

若检测出所述终端具有所述跳过权限，则向所述终端返回所述首尾区域的第二位置信息。

9.一种确定多媒体文件中首尾区域的装置，其特征在于，所述装置包括：

文件获取模块，用于获取多媒体文件；

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述的确定多媒体文件中首尾区域的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的确定多媒体文件中首尾区域的方法。