CN112565880A

CN112565880A - 一种讲解类视频的播放方法

Info

Publication number: CN112565880A
Application number: CN202011573086.9A
Authority: CN
Inventors: 陈明; 于海遨; 钟学伟
Original assignee: Beijing Wujie Technology Co ltd
Current assignee: Beijing Wujie Technology Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-03-26
Anticipated expiration: 2040-12-28
Also published as: CN112565880B

Abstract

本发明提供了一种讲解类视频的播放方法，包括：从待播放的视频中采样，得到采样语音Z；对所述采样语音Z进行预处理，得到处理后的语音，并基于处理后的语音，得到采样语音的语速V1；如果V1＞V0，那么根据V0和V1确定视频播放的倍速P，V0为预设的基准语速；使用倍速P播放所述待播放的视频。本发明能够自适应的调整视频播放的倍速。

Description

一种讲解类视频的播放方法

技术领域

本发明涉及一种视频播放方法和***，具体涉及一种讲解类视频的倍速播放方法和***。

背景技术

随着互联网的快速发展，通过视频获知相关知识成为人们提升自身能力的一个重要手段，例如，通过讲解类视频获取相关知识，例如，一个专家讲解的相关领域的知识的视频，又例如，一个老师讲解某门课程的视频，又比如，一个经验丰富的行业人员通过PPT讲解从业知识的视频等。这类讲解类视频的特点是，一般只有一个主讲人讲解，相对来说语速和视频中的内容比较固定。这种情况下，主讲人的语速和用户需要一个匹配。例如有的主讲人语速比较慢，这个时候用户就可能使用较为快速的倍速播放，比如1.25倍1.5倍的倍速进行播放。

一些情况下，用户可能需要学习多个这样的视频，例如有些岗位的新员工上岗需要学习几十节课的视频；对于这些视频内容，由每个视频的主讲人可能不一样，导致语速不一致，主讲过慢的语速会带来时间上的浪费。因此对于每一个新员工而言，都需要自适应的调整视频播放的背速。因此亟待需要一种自适应的调整这类视频播放速度的改进方案。

发明内容

本发明一方面提供一种讲解类视频的播放方法，能够根据待播放视频的语速来确定对应的播放倍速，从而能够自适应的调整视频播放的倍速。本发明另一方面还提供一种讲解类视频的播放***。

本发明采用的技术方案为：

本发明实施例提供一种讲解类视频的播放方法，所述讲解类视频具有相对固定的语速和视频内容，所述方法包括：

从待播放的视频中采样，得到采样语音Z；

对所述采样语音Z进行预处理，得到处理后的语音，并基于处理后的语音，得到采样语音的语速V1；

如果V1＞V0，那么根据V0和V1确定视频播放的倍速P，V0为预设的基准语速；

使用倍速P播放所述待播放的视频。

可选地，所述采样语音Z包括m个固定时长T0的语音段，Z＝(Z1，Z2，……，Zm)，任意一个语音段Zi包括元数据组(Ti，Wi)和音频内容，Ti为去除静音后的音频时长，

，tj为音频内容中的第j段静音的静音时长，K为音频内容中的静音段数量。

可选地，所述对所述采样语音Z进行预处理，得到处理后的语音，并基于处理后的语音，得到采样语音的语速V1，包括：

S201，遍历采样语音Z，如果Ti/T0＜D1，将对应的语音段Zi从采样语音Z中剔除，D1为第一预设阈值；

S202，将遍历Z后得到的语音段按照Wk/Tk降序形成包括n个语音段的采样语音Y＝(Y1，Y2，……，Yn)，n≤m，采样语音Y中的任意一个语音段Yk也包括元数据组(Tk，Wk)和音频内容，k的取值为1到n；

S203，如果

那么

或者

否则，执行S204，D2为第二预设阈值；

S204，初始化音频段计数器为0；顺序遍历采样语音Y1到

如果A/(Wp/Tp)＞D2，则将音频段计数器加1，否则停止遍历，p的取值范围为1到

执行S205；

S205，顺序遍历采样语音Yn到

如果(Wr/Tr)/A＞D2，则将音频段计数器加1，否则停止遍历，r的取值范围为

到n；执行S206；

S206，如果c/n＞D3，那么V1＝A；或者

其中，D3为第三预设阈值，c1为S204中顺序遍历Y1到

时停止遍历的p，c2为S205中顺序遍历Yn到

时停止遍历的r；

其中，A为预设的语速，

v为自然数。

可选地，所述第一预设阈值为0.5；所述第二预设阈值为0.9；所述第三预设阈值为0.9。

可选地，预设的基准语速V0为209～300字/分钟。

可选地，预设的基准语速根据用户输入的用户语音确定。

可选地，倍速P＝V1/V0。

可选地，根据V0和V1确定视频播放的倍速P包括：

如果E_s-1≤(V1-V0)/V0＜E_s，那么P＝E_s-1，E＝(E₁，E₂，…，Eu)为预设的倍速列表，E₁＜E₂＜，…，＜E_u，s的取值范围为1…u。

可选地，所述待播放的视频包括属于同一主讲ID的多个视频，所述主讲ID用于标识视频中的主讲人的身份。

本发明另一实施例提供一种讲解类视频的播放***，包括处理器和存储介质，所述存储介质有存储有计算机程序，所述处理器执行计算机程序，当获取语音播放指令时，实现前述的方法。

本发明实施例提供的讲解类视频的播放方法和***，根据从待播放视频采样得到的采样语音的语速来确定对应的播放倍速，能够自适应的调整视频播放的倍速。

附图说明

图1为本发明一实施例提供的讲解类视频的播放方法的流程示意图；

图2为本发明一实施例提供的讲解类视频的播放方法的流程示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中，讲解类视频是指在相对较长的时间内，具有相对固定的语速和视频内容的视频。这类视频通常只有一个主讲人，就某个问题进行讲解，语速基本固定，在相对较长的时间内，视频内容相对固定，例如PPT。图1为本发明实施例提供的讲解类视频的播放方法的流程示意图。如图1所示，本发明实施例提供的讲解类视频的播放方法包括以下步骤：

S100，从待播放的视频中采样，得到采样语音Z；

S200，基于采用语音Z，得到采用语音的语速V1；

S300，如果V1＞V0，那么根据V0和V1确定视频播放的倍速P，V0为预设的基准语速；

S400，使用倍速P播放所述待播放的视频。

本发明实施例提供的讲解类视频的播放方法，能够根据待播放视频的语速来确定对应的播放倍速，从而能够自适应的调整视频播放的倍速。

进一步地，在本发明实施例中，所述待播放的视频不一定是一段视频，也可能是多个视频。比如同一个主讲人讲的系列视频课程，但是要求在播放的视频的元数据中，视频中的主讲人必须是同一个ID，即待播放的视频可包括属于同一主讲ID的多个视频，所述主讲ID用于标识视频中的主讲人的身份。元数据中获取同一主讲人的方法，可以是现有技术，本发明省略对其的具体介绍。

进一步地，在本发明一实施例中，预设的基准语速V0可设置为新闻联播的播音速度，例如为209～300字/分钟。

在本发明的另一实施例中，预设的基准语速V0可根据用户输入的用户语音确定。具体地，用户输入的用户语音可包括时长T(例如3分钟)和对应的字数W，此时，预设的基准语速V0＝W/T。

进一步地，在本发明实施例中，步骤S100中采样得到的采样语音Z可包括m个固定时长T0的语音段，Z＝(Z1，Z2，……，Zm)，T0可为用户输入的时长，例如3分钟，可通过随机采样或者等间距采样得到采样语音。采样语音中的任意一个语音段Zi可包括元数据组(Ti，Wi)和音频内容，Ti为去除静音后的音频时长，

，tj为音频内容中的第j段静音的静音时长，K为音频内容中的静音段数量。静音数据的检测可采用现有技术，比如华为公司在录音机APP中所采用的技术，也可以采用其他现有技术。Wi为Zi的音频内容中所包括的字数，音频中字数的统计可以采用现有技术，此如即时通讯软件中语音翻译所使用的技术，也可以采用其他现有技术。

在本发明一实施例中，在步骤S200中，可对采样语音Z进行均值处理得到语速，具体地，

或者

优选，

在本发明另一实施例提供一种讲解类视频的播放方法，如图2所示，该实施例的播放方法与图1所示出的播放方法相比，不同之处在于，前述步骤S200，被替换为：对所述采样语音Z进行预处理，得到处理后的语音，并基于处理后的语音，得到采样语音的语速V1，即在该实施例中，采样语音的语速V1基于预处理后的采样语音Z得到。

具体地，所述对所述采样语音Z进行预处理，得到处理后的语音，并基于处理后的语音，得到采样语音的语速V1，可包括：

S201，遍历采样语音Z，如果Ti/T0＜D1，将对应的语音段Zi从采样语音Z中剔除，D1为第一预设阈值，例如，可为0.5。Ti/T0＜D1说明这个Ti中基本都是静音，对应的语音段Zi可以被当做噪声剔除了。

S202，将遍历Z后得到的语音段按照Wk/Tk降序形成包括n个语音段的采样语音Y＝(Y1，Y2，……，Yn)，n≤m，Y是Z的子集，相当于剔除Zi后的Z，采样语音Y中的任意一个语音段Yk也包括元数据组(Tk，Wk)和音频内容，且在采样语音Y中，(W1/T1)≥(W2/T2)≥……≥(Wn/Tn)，k的取值为1到n。

S203，如果

那么

或者

否则，执行S204，D2为第二预设阈值，例如可为0.9。

意味着W1/T1和Wn/Tn的差别不大，就是整个语音的语速差别都不大，这个时候，可以直接采用均值得到语速V1。

S204，初始化音频段计数器，将音频段计数器的值设置为0；顺序遍历采样语音Y1到

执行S205。其中，A为预设的语速，

v为自然数。

S205，顺序遍历采样语音Yn到

到n；执行S206。

S206，如果c/n＞D3，那么V1＝A；或者

其中，D3为第三预设阈值，例如，可为0.9；c为经过步骤S205得到的音频段计数器的值，c1为步骤S204中顺序遍历Y1到

时停止遍历的p，c2为步骤S205中顺序遍历Yn到

时停止遍历的r。

在步骤S206中，c/n＞D3说明采样语音Y中大部分的语音段Yk都处于基本类似的语速，因此可以计算语速V1，优选取值V1＝A，由于A已经事前获取，因此计算起来相对简便。如果c/n≤D3，则说明采样语音Y中大部分的语音段Yk的语速都不同，将无法获取语速V1，说明采样语音Z不合适，需要重新采样语音。

通过步骤S201～S206得到的语速V1，与直接对采样语音Z取均值得到的语速相比，更加准确。

进一步地，在本发明一实施例中，在步骤S300中，倍速P可等于语速V1和基准语速V0的比值，即P＝V1/V0。

在本发明一实施例中，在步骤S300中，根据V0和V1确定视频播放的倍速P可包括：

S301，计算语速比值(V1-V0)/V0；

S302，根据计算的语速比值和预设的倍速列表E确定倍速P，E＝(E₁，E₂，…，Eu)，预设的倍速列表中的倍速满足条件：E₁＜E₂＜，…，＜E_u。

步骤S302可具体包括：如果E_s-1≤(V1-V0)/V0＜E_s，那么P＝E_s-1，s的取值范围为1…u。

通过步骤S301和S302得到的倍速P，能够避免采样语音的语速V1和基准语速V0过于接近的时候还需要做倍速操作，从而能够简化操作。

在步骤S400中，可使用上述得到的倍速P播放待播放的视频。

本发明实施例还提供一种讲解类视频的播放***，包括处理器和存储介质，所述存储介质有存储有计算机程序，所述处理器执行计算机程序，当获取语音播放指令时，实现上述讲解类视频的播放方法的步骤。

具体地，上述存储器和处理器能够为通用的存储器和处理器，这里不做具体限定，当处理器运行存储器存储的计算机程序时，能够执行上述讲解类视频的播放方法方法，从而解决相关技术中不能自适应播放视频的问题。

以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。