CN112565881A - 一种自适应的视频播放方法 - Google Patents

一种自适应的视频播放方法 Download PDF

Info

Publication number
CN112565881A
CN112565881A CN202011573087.3A CN202011573087A CN112565881A CN 112565881 A CN112565881 A CN 112565881A CN 202011573087 A CN202011573087 A CN 202011573087A CN 112565881 A CN112565881 A CN 112565881A
Authority
CN
China
Prior art keywords
speed
video
speech
voice
playing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011573087.3A
Other languages
English (en)
Other versions
CN112565881B (zh
Inventor
陈明
于海遨
钟学伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wujie Technology Co ltd
Original Assignee
Beijing Wujie Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wujie Technology Co ltd filed Critical Beijing Wujie Technology Co ltd
Priority to CN202011573087.3A priority Critical patent/CN112565881B/zh
Publication of CN112565881A publication Critical patent/CN112565881A/zh
Application granted granted Critical
Publication of CN112565881B publication Critical patent/CN112565881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4753End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for user identification, e.g. by entering a PIN or password

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明提供了一种自适应的视频播放方法,包括:从待播放的视频中采样,得到采样语音Z;基于采用语音Z,得到采样语音的语速V1;如果V1>V0,那么根据V0和V1确定视频播放的倍速P,V0为预设的基准语速;使用倍速P播放所述待播放的视频。本发明能够自适应的调整视频播放的倍速。

Description

一种自适应的视频播放方法
技术领域
本发明涉及一种视频播放方法和***,具体涉及一种讲解类视频的倍速播放方法和***。
背景技术
随着互联网的快速发展,通过视频获知相关知识成为人们提升自身能力的一个重要手段,例如,通过讲解类视频获取相关知识,例如,一个专家讲解的相关领域的知识的视频,又例如,一个老师讲解某门课程的视频,又比如,一个经验丰富的行业人员通过PPT讲解从业知识的视频等。这类讲解类视频的特点是,一般只有一个主讲人讲解,相对来说语速和视频中的内容比较固定。这种情况下,主讲人的语速和用户需要一个匹配。例如有的主讲人语速比较慢,这个时候用户就可能使用较为快速的倍速播放,比如1.25倍1.5倍的倍速进行播放。
一些情况下,用户可能需要学习多个这样的视频,例如有些岗位的新员工上岗需要学习几十节课的视频;对于这些视频内容,由每个视频的主讲人可能不一样,导致语速不一致,主讲过慢的语速会带来时间上的浪费。因此对于每一个新员工而言,都需要自适应的调整视频播放的背速。因此亟待需要一种自适应的调整这类视频播放速度的改进方案。
发明内容
本发明一方面提供一种自适应的视频播放方法,能够根据待播放视频的语速来确定对应的播放倍速,从而能够自适应的调整视频播放的倍速。本发明另一方面还提供一种自适应的视频播放***。
本发明采用的技术方案为:
本发明实施例提供一种自适应的视频播放方法,用于播放讲解类视频,所述讲解类视频具有相对固定的语速和视频内容,所述方法包括:
从待播放的视频中采样,得到采样语音Z;
基于采用语音Z,得到采用语音的语速V1;
如果V1>V0,那么根据V0和V1确定视频播放的倍速P,V0为预设的基准语速;
使用倍速P播放所述待播放的视频;
其中,所述采样语音Z包括m个固定时长T0的语音段,Z=(Z1,Z2,……,Zm),任意一个采样语音Zi包括元数据组(Ti,Wi)和音频内容,Ti为去除静音后的音频时长,
Figure BSA0000228846060000021
,tj为音频内容中的第j段静音的静音时长,K为音频内容中的静音段数量;
Figure BSA0000228846060000022
或者
Figure BSA0000228846060000023
可选地,预设的基准语速V0为209~300字/分钟。
可选地,预设的基准语速根据用户输入的用户语音确定。
可选地,所述用户语音包括时长T和字数W,预设的基准语速V0=W/T。
可选地,倍速P=V1/V0。
可选地,根据V0和V1确定视频播放的倍速P包括:
计算语速比值(V1-V0)/V0;
根据计算的语速比值和预设的倍速列表E确定倍速P,E=(E1,E2,…,Eu),E1<E2<,…,<Eu
可选地,根据计算的语速比值和预设的倍速列表E确定倍速P,包括:如果Es-1≤(V1-V0)/V0<Es,那么P=Es-1,s的取值范围为1…u。
可选地,所述待播放的视频包括属于同一主讲ID的多个视频,所述主讲ID用于标识视频中的主讲人的身份。
本发明另一实施例提供一种自适应的视频播放***,包括处理器和存储介质,所述存储介质有存储有计算机程序,所述处理器执行计算机程序,当获取语音播放指令时,实现前述的方法。
本发明实施例提供的自适应的视频播放方法和***,根据从待播放视频采样得到的采样语音的语速来确定对应的播放倍速,能够自适应的调整视频播放的倍速。
附图说明
图1为本发明一实施例提供的自适应的视频播放方法的流程示意图;
图2为本发明一实施例提供的自适应的视频播放方法的流程示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中,提供的自适应的视频播放方法,用于播放讲解类视频。讲解类视频是指在相对较长的时间内,具有相对固定的语速和视频内容的视频。这类视频通常只有一个主讲人,就某个问题进行讲解,语速基本固定,在相对较长的时间内,视频内容相对固定,例如PPT。
图1为本发明实施例提供的自适应的视频播放方法的流程示意图。如图1所示,本发明实施例提供的自适应的视频播放方法包括以下步骤:
S100,从待播放的视频中采样,得到采样语音Z;
S200,基于采用语音Z,得到采用语音的语速V1;
S300,如果V1>V0,那么根据V0和V1确定视频播放的倍速P,V0为预设的基准语速;
S400,使用倍速P播放所述待播放的视频。
本发明实施例提供的自适应的视频播放方法,能够根据待播放视频的语速来确定对应的播放倍速,从而能够自适应的调整视频播放的倍速。
进一步地,在本发明实施例中,所述待播放的视频不一定是一段视频,也可能是多个视频。比如同一个主讲人讲的系列视频课程,但是要求在播放的视频的元数据中,视频中的主讲人必须是同一个ID,即待播放的视频可包括属于同一主讲ID的多个视频,所述主讲ID用于标识视频中的主讲人的身份。元数据中获取同一主讲人的方法,可以是现有技术,本发明省略对其的具体介绍。
进一步地,在本发明一实施例中,预设的基准语速V0可设置为新闻联播的播音速度,例如为209~300字/分钟。
在本发明的另一实施例中,预设的基准语速V0可根据用户输入的用户语音确定。具体地,用户输入的用户语音可包括时长T(例如3分钟)和对应的字数W,此时,预设的基准语速V0=W/T。
进一步地,在本发明实施例中,步骤S100中采样得到的采样语音Z可包括m个固定时长T0的语音段,Z=(Z1,Z2,……,Zm),T0可为用户输入的时长,例如3分钟,可通过随机采样或者等间距采样得到采样语音。采样语音中的任意一个语音段Zi可包括元数据组(Ti,Wi)和音频内容,Ti为去除静音后的音频时长,
Figure BSA0000228846060000051
,tj为音频内容中的第j段静音的静音时长,K为音频内容中的静音段数量。静音数据的检测可采用现有技术,比如华为公司在录音机APP中所采用的技术,也可以采用其他现有技术。Wi为Zi的音频内容中所包括的字数,音频中字数的统计可以采用现有技术,比如即时通讯软件中语音翻译所使用的技术,也可以采用其他现有技术。
在本发明一实施例中,在步骤S200中,可对采样语音Z进行均值处理得到语速,具体地,
Figure BSA0000228846060000052
或者
Figure BSA0000228846060000053
优选,
Figure BSA0000228846060000054
在本发明另一实施例提供一种自适应的视频播放方法,如图2所示,该实施例的播放方法与图1所示出的播放方法相比,不同之处在于,前述步骤S200,被替换为:对所述采样语音Z进行预处理,得到处理后的语音,并基于处理后的语音,得到采样语音的语速V1,即在该实施例中,采样语音的语速V1基于预处理后的采样语音Z得到。
具体地,所述对所述采样语音Z进行预处理,得到处理后的语音,并基于处理后的语音,得到采样语音的语速V1,可包括:
S201,遍历采样语音Z,如果Ti/T0<D1,将对应的语音段Zi从采样语音Z中剔除,D1为第一预设阈值,例如,可为0.5。Ti/T0<D1说明这个Ti中基本都是静音,对应的语音段Zi可以被当做噪声剔除了。
S202,将遍历Z后得到的语音段按照Wk/Tk降序形成包括n个语音段的采样语音Y=(Y1,Y2,……,Yn),n≤m,Y是Z的子集,相当于剔除Zi后的Z,采样语音Y中的任意一个语音段Yk也包括元数据组(Tk,Wk)和音频内容,且在采样语音Y中,(W1/T1)≥(W2/T2)≥……≥(Wn/Tn),k的取值为1到n。
S203,如果
Figure BSA0000228846060000061
那么
Figure BSA0000228846060000062
或者
Figure BSA0000228846060000063
否则,执行S204,D2为第二预设阈值,例如可为0.9。
Figure BSA0000228846060000064
意味着W1/T1和Wn/Tn的差别不大,就是整个语音的语速差别都不大,这个时候,可以直接采用均值得到语速V1。
S204,初始化音频段计数器,将音频段计数器的值设置为0;顺序遍历采样语音Y1到
Figure BSA0000228846060000065
如果A/(Wp/Tp)>D2,则将音频段计数器加1,否则停止遍历,p的取值范围为1到
Figure BSA0000228846060000066
执行S205。其中,A为预设的语速,
Figure BSA0000228846060000067
v为自然数。
S205,顺序遍历采样语音Yn到
Figure BSA00002288460600000610
如果(Wr/Tr)/A>D2,则将音频段计数器加1,否则停止遍历,r的取值范围为
Figure BSA0000228846060000068
到n;执行S206。
S206,如果c/n>D3,那么V1=A;或者
Figure BSA0000228846060000069
其中,D3为第三预设阈值,例如,可为0.9;c为经过步骤S205得到的音频段计数器的值,c1为步骤S204中顺序遍历Y1到
Figure BSA0000228846060000071
时停止遍历的p,c2为步骤S205中顺序遍历Yn到
Figure BSA0000228846060000072
时停止遍历的r。
在步骤S206中,c/n>D3说明采样语音Y中大部分的语音段Yk都处于基本类似的语速,因此可以计算语速V1,优选取值V1=A,由于A已经事前获取,因此计算起来相对简便。如果c/n≤D3,则说明采样语音Y中大部分的语音段Yk的语速都不同,将无法获取语速V1,说明采样语音Z不合适,需要重新采样语音。
通过步骤S201~S206得到的语速V1,与直接对采样语音Z取均值得到的语速相比,更加准确。
进一步地,在本发明一实施例中,在步骤S300中,倍速P可等于语速V1和基准语速V0的比值,即P=V1/V0。
在本发明一实施例中,在步骤S300中,根据V0和V1确定视频播放的倍速P可包括:
S301,计算语速比值(V1-V0)/V0;
S302,根据计算的语速比值和预设的倍速列表E确定倍速P,E=(E1,E2,…,Eu),预设的倍速列表中的倍速满足条件:E1<E2<,…,<Eu
步骤S302可具体包括:如果Es-1≤(V1-V0)/V0<Es,那么P=Es-1,s的取值范围为1…u。
通过步骤S301和S302得到的倍速P,能够避免采样语音的语速V1和基准语速V0过于接近的时候还需要做倍速操作,从而能够简化操作。
在步骤S400中,可使用上述得到的倍速P播放待播放的视频。
本发明实施例还提供一种自适应的视频播放***,包括处理器和存储介质,所述存储介质有存储有计算机程序,所述处理器执行计算机程序,当获取语音播放指令时,实现上述自适应的视频播放方法的步骤。
具体地,上述存储器和处理器能够为通用的存储器和处理器,这里不做具体限定,当处理器运行存储器存储的计算机程序时,能够执行上述自适应的视频播放方法方法,从而解决相关技术中不能自适应播放视频的问题。
以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种自适应的视频播放方法,其特征在于,用于播放讲解类视频,所述讲解类视频具有相对固定的语速和视频内容,所述方法包括:
从待播放的视频中采样,得到采样语音Z;
基于采用语音Z,得到采用语音的语速V1;
如果V1>V0,那么根据V0和V1确定视频播放的倍速P,V0为预设的基准语速;
使用倍速P播放所述待播放的视频;
其中,所述采样语音Z包括m个固定时长T0的语音段,Z=(Z1,Z2,......,Zm),任意一个采样语音Zi包括元数据组(Ti,Wi)和音频内容,Ti为去除静音后的音频时长,
Figure FSA0000228846050000011
tj为音频内容中的第j段静音的静音时长,K为音频内容中的静音段数量;
Figure FSA0000228846050000012
或者
Figure FSA0000228846050000013
2.根据权利要求1所述的自适应的视频播放方法,其特征在于,预设的基准语速V0为209~300字/分钟。
3.根据权利要求1所述的自适应的视频播放方法,其特征在于,预设的基准语速根据用户输入的用户语音确定。
4.根据权利要求3所述的自适应的视频播放方法,其特征在于,所述用户语音包括时长T和字数W,预设的基准语速V0=W/T。
5.根据权利要求1所述的自适应的视频播放方法,其特征在于,倍速P=V1/V0。
6.根据权利要求1所述的自适应的视频播放方法,其特征在于,根据V0和V1确定视频播放的倍速P包括:
计算语速比值(V1-V0)/V0;
根据计算的语速比值和预设的倍速列表E确定倍速P,E=(E1,E2,...,Eu),E1<E2<,...,<Eu
7.根据权利要求6所述的自适应的视频播放方法,其特征在于,根据计算的语速比值和预设的倍速列表E确定倍速P,包括:如果Es-1≤(V1-V0)/V0<Es,那么P=Es-1,s的取值范围为1...u。
8.根据权利要求1所述的自适应的视频播放方法,其特征在于,所述待播放的视频包括属于同一主讲ID的多个视频,所述主讲ID用于标识视频中的主讲人的身份。
9.一种自适应的视频播放***,其特征在于,包括处理器和存储介质,所述存储介质有存储有计算机程序,所述处理器执行计算机程序,当获取语音播放指令时,实现权利要求1至8任一项所述的方法。
CN202011573087.3A 2020-12-28 2020-12-28 自适应的视频播放方法和*** Active CN112565881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011573087.3A CN112565881B (zh) 2020-12-28 2020-12-28 自适应的视频播放方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011573087.3A CN112565881B (zh) 2020-12-28 2020-12-28 自适应的视频播放方法和***

Publications (2)

Publication Number Publication Date
CN112565881A true CN112565881A (zh) 2021-03-26
CN112565881B CN112565881B (zh) 2023-03-24

Family

ID=75033431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011573087.3A Active CN112565881B (zh) 2020-12-28 2020-12-28 自适应的视频播放方法和***

Country Status (1)

Country Link
CN (1) CN112565881B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114566164A (zh) * 2022-02-23 2022-05-31 成都智元汇信息技术股份有限公司 基于公共交通的人工播报音频自适应方法、显示终端及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001184100A (ja) * 1999-12-24 2001-07-06 Anritsu Corp 話速変換装置
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN105869626A (zh) * 2016-05-31 2016-08-17 宇龙计算机通信科技(深圳)有限公司 一种语速自动调节的方法及终端
CN110060665A (zh) * 2019-03-15 2019-07-26 上海拍拍贷金融信息服务有限公司 语速检测方法及装置、可读存储介质
CN110177298A (zh) * 2019-05-27 2019-08-27 湖南快乐阳光互动娱乐传媒有限公司 一种基于语音的视频倍速播放方法及***
CN111370030A (zh) * 2020-04-03 2020-07-03 龙马智芯(珠海横琴)科技有限公司 语音情感检测方法与装置、存储介质、电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001184100A (ja) * 1999-12-24 2001-07-06 Anritsu Corp 話速変換装置
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN105869626A (zh) * 2016-05-31 2016-08-17 宇龙计算机通信科技(深圳)有限公司 一种语速自动调节的方法及终端
CN110060665A (zh) * 2019-03-15 2019-07-26 上海拍拍贷金融信息服务有限公司 语速检测方法及装置、可读存储介质
CN110177298A (zh) * 2019-05-27 2019-08-27 湖南快乐阳光互动娱乐传媒有限公司 一种基于语音的视频倍速播放方法及***
CN111370030A (zh) * 2020-04-03 2020-07-03 龙马智芯(珠海横琴)科技有限公司 语音情感检测方法与装置、存储介质、电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114566164A (zh) * 2022-02-23 2022-05-31 成都智元汇信息技术股份有限公司 基于公共交通的人工播报音频自适应方法、显示终端及***

Also Published As

Publication number Publication date
CN112565881B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
US11670325B2 (en) Voice activity detection using a soft decision mechanism
CN108630193B (zh) 语音识别方法及装置
CN105405439B (zh) 语音播放方法及装置
US10236017B1 (en) Goal segmentation in speech dialogs
US10146868B2 (en) Automated detection and filtering of audio advertisements
JP5411936B2 (ja) 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
CN103943104B (zh) 一种语音信息识别的方法及终端设备
US8489404B2 (en) Method for detecting audio signal transient and time-scale modification based on same
US8620670B2 (en) Automatic realtime speech impairment correction
CN108877779B (zh) 用于检测语音尾点的方法和装置
CN112565881B (zh) 自适应的视频播放方法和***
CN112565880B (zh) 讲解类视频的播放方法和***
US9601124B2 (en) Acoustic matching and splicing of sound tracks
US11138986B2 (en) Filtering of a sound signal acquired by a voice recognition system
US20230386492A1 (en) System and method for suppressing noise from audio signal
CN112599151B (zh) 语速评估方法、***、设备及存储介质
CN112837688B (zh) 语音转写方法、装置、相关***及设备
CN112509556B (zh) 一种语音唤醒方法及装置
EP4066237A1 (en) Small footprint multi-channel keyword spotting
JP7293826B2 (ja) 問題検出装置、問題検出方法および問題検出プログラム
US20240233707A9 (en) Knowledge Distillation with Domain Mismatch For Speech Recognition
CN110232194B (zh) 翻译显示方法、装置、设备及可读存储介质
Zamanirad et al. Say No2Ads: Automatic Advertisement and Music Filtering from Broadcast News Content
Rahim et al. Improving Speaker Diarization for Low-Resourced Sarawak Malay Language Conversational Speech Corpus
Park Advanced comb filtering for robust speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant