CN112565880A - 一种讲解类视频的播放方法 - Google Patents
一种讲解类视频的播放方法 Download PDFInfo
- Publication number
- CN112565880A CN112565880A CN202011573086.9A CN202011573086A CN112565880A CN 112565880 A CN112565880 A CN 112565880A CN 202011573086 A CN202011573086 A CN 202011573086A CN 112565880 A CN112565880 A CN 112565880A
- Authority
- CN
- China
- Prior art keywords
- voice
- video
- sampled
- playing
- speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 description 1
- 206010071299 Slow speech Diseases 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47217—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/475—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
- H04N21/4753—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for user identification, e.g. by entering a PIN or password
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明提供了一种讲解类视频的播放方法,包括:从待播放的视频中采样,得到采样语音Z;对所述采样语音Z进行预处理,得到处理后的语音,并基于处理后的语音,得到采样语音的语速V1;如果V1>V0,那么根据V0和V1确定视频播放的倍速P,V0为预设的基准语速;使用倍速P播放所述待播放的视频。本发明能够自适应的调整视频播放的倍速。
Description
技术领域
本发明涉及一种视频播放方法和***,具体涉及一种讲解类视频的倍速播放方法和***。
背景技术
随着互联网的快速发展,通过视频获知相关知识成为人们提升自身能力的一个重要手段,例如,通过讲解类视频获取相关知识,例如,一个专家讲解的相关领域的知识的视频,又例如,一个老师讲解某门课程的视频,又比如,一个经验丰富的行业人员通过PPT讲解从业知识的视频等。这类讲解类视频的特点是,一般只有一个主讲人讲解,相对来说语速和视频中的内容比较固定。这种情况下,主讲人的语速和用户需要一个匹配。例如有的主讲人语速比较慢,这个时候用户就可能使用较为快速的倍速播放,比如1.25倍1.5倍的倍速进行播放。
一些情况下,用户可能需要学习多个这样的视频,例如有些岗位的新员工上岗需要学习几十节课的视频;对于这些视频内容,由每个视频的主讲人可能不一样,导致语速不一致,主讲过慢的语速会带来时间上的浪费。因此对于每一个新员工而言,都需要自适应的调整视频播放的背速。因此亟待需要一种自适应的调整这类视频播放速度的改进方案。
发明内容
本发明一方面提供一种讲解类视频的播放方法,能够根据待播放视频的语速来确定对应的播放倍速,从而能够自适应的调整视频播放的倍速。本发明另一方面还提供一种讲解类视频的播放***。
本发明采用的技术方案为:
本发明实施例提供一种讲解类视频的播放方法,所述讲解类视频具有相对固定的语速和视频内容,所述方法包括:
从待播放的视频中采样,得到采样语音Z;
对所述采样语音Z进行预处理,得到处理后的语音,并基于处理后的语音,得到采样语音的语速V1;
如果V1>V0,那么根据V0和V1确定视频播放的倍速P,V0为预设的基准语速;
使用倍速P播放所述待播放的视频。
可选地,所述采样语音Z包括m个固定时长T0的语音段,Z=(Z1,Z2,……,Zm),任意一个语音段Zi包括元数据组(Ti,Wi)和音频内容,Ti为去除静音后的音频时长,,tj为音频内容中的第j段静音的静音时长,K为音频内容中的静音段数量。
可选地,所述对所述采样语音Z进行预处理,得到处理后的语音,并基于处理后的语音,得到采样语音的语速V1,包括:
S201,遍历采样语音Z,如果Ti/T0<D1,将对应的语音段Zi从采样语音Z中剔除,D1为第一预设阈值;
S202,将遍历Z后得到的语音段按照Wk/Tk降序形成包括n个语音段的采样语音Y=(Y1,Y2,……,Yn),n≤m,采样语音Y中的任意一个语音段Yk也包括元数据组(Tk,Wk)和音频内容,k的取值为1到n;
其中,A为预设的语速,
可选地,所述第一预设阈值为0.5;所述第二预设阈值为0.9;所述第三预设阈值为0.9。
可选地,预设的基准语速V0为209~300字/分钟。
可选地,预设的基准语速根据用户输入的用户语音确定。
可选地,倍速P=V1/V0。
可选地,根据V0和V1确定视频播放的倍速P包括:
如果Es-1≤(V1-V0)/V0<Es,那么P=Es-1,E=(E1,E2,…,Eu)为预设的倍速列表,E1<E2<,…,<Eu,s的取值范围为1…u。
可选地,所述待播放的视频包括属于同一主讲ID的多个视频,所述主讲ID用于标识视频中的主讲人的身份。
本发明另一实施例提供一种讲解类视频的播放***,包括处理器和存储介质,所述存储介质有存储有计算机程序,所述处理器执行计算机程序,当获取语音播放指令时,实现前述的方法。
本发明实施例提供的讲解类视频的播放方法和***,根据从待播放视频采样得到的采样语音的语速来确定对应的播放倍速,能够自适应的调整视频播放的倍速。
附图说明
图1为本发明一实施例提供的讲解类视频的播放方法的流程示意图;
图2为本发明一实施例提供的讲解类视频的播放方法的流程示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中,讲解类视频是指在相对较长的时间内,具有相对固定的语速和视频内容的视频。这类视频通常只有一个主讲人,就某个问题进行讲解,语速基本固定,在相对较长的时间内,视频内容相对固定,例如PPT。图1为本发明实施例提供的讲解类视频的播放方法的流程示意图。如图1所示,本发明实施例提供的讲解类视频的播放方法包括以下步骤:
S100,从待播放的视频中采样,得到采样语音Z;
S200,基于采用语音Z,得到采用语音的语速V1;
S300,如果V1>V0,那么根据V0和V1确定视频播放的倍速P,V0为预设的基准语速;
S400,使用倍速P播放所述待播放的视频。
本发明实施例提供的讲解类视频的播放方法,能够根据待播放视频的语速来确定对应的播放倍速,从而能够自适应的调整视频播放的倍速。
进一步地,在本发明实施例中,所述待播放的视频不一定是一段视频,也可能是多个视频。比如同一个主讲人讲的系列视频课程,但是要求在播放的视频的元数据中,视频中的主讲人必须是同一个ID,即待播放的视频可包括属于同一主讲ID的多个视频,所述主讲ID用于标识视频中的主讲人的身份。元数据中获取同一主讲人的方法,可以是现有技术,本发明省略对其的具体介绍。
进一步地,在本发明一实施例中,预设的基准语速V0可设置为新闻联播的播音速度,例如为209~300字/分钟。
在本发明的另一实施例中,预设的基准语速V0可根据用户输入的用户语音确定。具体地,用户输入的用户语音可包括时长T(例如3分钟)和对应的字数W,此时,预设的基准语速V0=W/T。
进一步地,在本发明实施例中,步骤S100中采样得到的采样语音Z可包括m个固定时长T0的语音段,Z=(Z1,Z2,……,Zm),T0可为用户输入的时长,例如3分钟,可通过随机采样或者等间距采样得到采样语音。采样语音中的任意一个语音段Zi可包括元数据组(Ti,Wi)和音频内容,Ti为去除静音后的音频时长,,tj为音频内容中的第j段静音的静音时长,K为音频内容中的静音段数量。静音数据的检测可采用现有技术,比如华为公司在录音机APP中所采用的技术,也可以采用其他现有技术。Wi为Zi的音频内容中所包括的字数,音频中字数的统计可以采用现有技术,此如即时通讯软件中语音翻译所使用的技术,也可以采用其他现有技术。
在本发明另一实施例提供一种讲解类视频的播放方法,如图2所示,该实施例的播放方法与图1所示出的播放方法相比,不同之处在于,前述步骤S200,被替换为:对所述采样语音Z进行预处理,得到处理后的语音,并基于处理后的语音,得到采样语音的语速V1,即在该实施例中,采样语音的语速V1基于预处理后的采样语音Z得到。
具体地,所述对所述采样语音Z进行预处理,得到处理后的语音,并基于处理后的语音,得到采样语音的语速V1,可包括:
S201,遍历采样语音Z,如果Ti/T0<D1,将对应的语音段Zi从采样语音Z中剔除,D1为第一预设阈值,例如,可为0.5。Ti/T0<D1说明这个Ti中基本都是静音,对应的语音段Zi可以被当做噪声剔除了。
S202,将遍历Z后得到的语音段按照Wk/Tk降序形成包括n个语音段的采样语音Y=(Y1,Y2,……,Yn),n≤m,Y是Z的子集,相当于剔除Zi后的Z,采样语音Y中的任意一个语音段Yk也包括元数据组(Tk,Wk)和音频内容,且在采样语音Y中,(W1/T1)≥(W2/T2)≥……≥(Wn/Tn),k的取值为1到n。
S204,初始化音频段计数器,将音频段计数器的值设置为0;顺序遍历采样语音Y1到如果A/(Wp/Tp)>D2,则将音频段计数器加1,否则停止遍历,p的取值范围为1到执行S205。其中,A为预设的语速,
S206,如果c/n>D3,那么V1=A;或者其中,D3为第三预设阈值,例如,可为0.9;c为经过步骤S205得到的音频段计数器的值,c1为步骤S204中顺序遍历Y1到时停止遍历的p,c2为步骤S205中顺序遍历Yn到时停止遍历的r。
在步骤S206中,c/n>D3说明采样语音Y中大部分的语音段Yk都处于基本类似的语速,因此可以计算语速V1,优选取值V1=A,由于A已经事前获取,因此计算起来相对简便。如果c/n≤D3,则说明采样语音Y中大部分的语音段Yk的语速都不同,将无法获取语速V1,说明采样语音Z不合适,需要重新采样语音。
通过步骤S201~S206得到的语速V1,与直接对采样语音Z取均值得到的语速相比,更加准确。
进一步地,在本发明一实施例中,在步骤S300中,倍速P可等于语速V1和基准语速V0的比值,即P=V1/V0。
在本发明一实施例中,在步骤S300中,根据V0和V1确定视频播放的倍速P可包括:
S301,计算语速比值(V1-V0)/V0;
S302,根据计算的语速比值和预设的倍速列表E确定倍速P,E=(E1,E2,…,Eu),预设的倍速列表中的倍速满足条件:E1<E2<,…,<Eu。
步骤S302可具体包括:如果Es-1≤(V1-V0)/V0<Es,那么P=Es-1,s的取值范围为1…u。
通过步骤S301和S302得到的倍速P,能够避免采样语音的语速V1和基准语速V0过于接近的时候还需要做倍速操作,从而能够简化操作。
在步骤S400中,可使用上述得到的倍速P播放待播放的视频。
本发明实施例还提供一种讲解类视频的播放***,包括处理器和存储介质,所述存储介质有存储有计算机程序,所述处理器执行计算机程序,当获取语音播放指令时,实现上述讲解类视频的播放方法的步骤。
具体地,上述存储器和处理器能够为通用的存储器和处理器,这里不做具体限定,当处理器运行存储器存储的计算机程序时,能够执行上述讲解类视频的播放方法方法,从而解决相关技术中不能自适应播放视频的问题。
以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种讲解类视频的播放方法,其特征在于,所述讲解类视频具有相对固定的语速和视频内容,所述方法包括:
从待播放的视频中采样,得到采样语音Z;
对所述采样语音Z进行预处理,得到处理后的语音,并基于处理后的语音,得到采样语音的语速V1;
如果V1>V0,那么根据V0和V1确定视频播放的倍速P,V0为预设的基准语速;
使用倍速P播放所述待播放的视频。
3.根据权利要求2所述的讲解类视频的播放方法,其特征在于,所述对所述采样语音Z进行预处理,得到处理后的语音,并基于处理后的语音,得到采样语音的语速V1,包括:
S201,遍历采样语音Z,如果Ti/T0<D1,将对应的语音段Zi从采样语音Z中剔除,D1为第一预设阈值;
S202,将遍历Z后得到的语音段按照Wk/Tk降序形成包括n个语音段的采样语音Y=(Y1,Y2,......,Yn),n≤m,采样语音Y中的任意一个语音段Yk也包括元数据组(Tk,Wk)和音频内容,k的取值为1到n;
S206,如果c/n>D3,那么V1=A;或者其中,D3为第三预设阈值,c为步骤S205得到的音频段计数器的值,c1为步骤S204中顺序遍历Y1到时停止遍历的p,c2为步骤S205中顺序遍历Yn到时停止遍历的r;
其中,A为预设的语速,
4.根据权利要求3所述的讲解类视频的播放方法,其特征在于,所述第一预设阈值为0.5;所述第二预设阈值为0.9;所述第三预设阈值为0.9。
5.根据权利要求1所述的讲解类视频的播放方法,其特征在于,预设的基准语速V0为209~300字/分钟。
6.根据权利要求1所述的讲解类视频的播放方法,其特征在于,预设的基准语速根据用户输入的用户语音确定。
7.根据权利要求1所述的讲解类视频的播放方法,其特征在于,倍速P=V1/V0。
8.根据权利要求1所述的讲解类视频的播放方法,其特征在于,根据V0和V1确定视频播放的倍速P包括:
如果Es-1≤(V1-V0)/V0<Es,那么P=Es-1,E=(E1,E2,...,Eu)为预设的倍速列表,E1<E2<,...,<Eu,s的取值范围为1...u。
9.根据权利要求1所述的讲解类视频的播放方法,其特征在于,所述待播放的视频包括属于同一主讲ID的多个视频,所述主讲ID用于标识视频中的主讲人的身份。
10.一种讲解类视频的播放***,其特征在于,包括处理器和存储介质,所述存储介质有存储有计算机程序,所述处理器执行计算机程序,当获取语音播放指令时,实现权利要求1至9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573086.9A CN112565880B (zh) | 2020-12-28 | 2020-12-28 | 讲解类视频的播放方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573086.9A CN112565880B (zh) | 2020-12-28 | 2020-12-28 | 讲解类视频的播放方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112565880A true CN112565880A (zh) | 2021-03-26 |
CN112565880B CN112565880B (zh) | 2023-03-24 |
Family
ID=75033404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011573086.9A Active CN112565880B (zh) | 2020-12-28 | 2020-12-28 | 讲解类视频的播放方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112565880B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626636A (zh) * | 2021-10-12 | 2021-11-09 | 环球数科集团有限公司 | 景区游览路线规划方法、装置和计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001184100A (ja) * | 1999-12-24 | 2001-07-06 | Anritsu Corp | 話速変換装置 |
CN102543063A (zh) * | 2011-12-07 | 2012-07-04 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
CN105869626A (zh) * | 2016-05-31 | 2016-08-17 | 宇龙计算机通信科技(深圳)有限公司 | 一种语速自动调节的方法及终端 |
CN110060665A (zh) * | 2019-03-15 | 2019-07-26 | 上海拍拍贷金融信息服务有限公司 | 语速检测方法及装置、可读存储介质 |
CN110177298A (zh) * | 2019-05-27 | 2019-08-27 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种基于语音的视频倍速播放方法及*** |
CN111370030A (zh) * | 2020-04-03 | 2020-07-03 | 龙马智芯(珠海横琴)科技有限公司 | 语音情感检测方法与装置、存储介质、电子设备 |
-
2020
- 2020-12-28 CN CN202011573086.9A patent/CN112565880B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001184100A (ja) * | 1999-12-24 | 2001-07-06 | Anritsu Corp | 話速変換装置 |
CN102543063A (zh) * | 2011-12-07 | 2012-07-04 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
CN105869626A (zh) * | 2016-05-31 | 2016-08-17 | 宇龙计算机通信科技(深圳)有限公司 | 一种语速自动调节的方法及终端 |
CN110060665A (zh) * | 2019-03-15 | 2019-07-26 | 上海拍拍贷金融信息服务有限公司 | 语速检测方法及装置、可读存储介质 |
CN110177298A (zh) * | 2019-05-27 | 2019-08-27 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种基于语音的视频倍速播放方法及*** |
CN111370030A (zh) * | 2020-04-03 | 2020-07-03 | 龙马智芯(珠海横琴)科技有限公司 | 语音情感检测方法与装置、存储介质、电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626636A (zh) * | 2021-10-12 | 2021-11-09 | 环球数科集团有限公司 | 景区游览路线规划方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112565880B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108630193B (zh) | 语音识别方法及装置 | |
US10334384B2 (en) | Scheduling playback of audio in a virtual acoustic space | |
CN105405439B (zh) | 语音播放方法及装置 | |
US8909534B1 (en) | Speech recognition training | |
US10236017B1 (en) | Goal segmentation in speech dialogs | |
CN103943104B (zh) | 一种语音信息识别的方法及终端设备 | |
US10249321B2 (en) | Sound rate modification | |
US20050143997A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
US8489404B2 (en) | Method for detecting audio signal transient and time-scale modification based on same | |
US20110145001A1 (en) | Automated detection and filtering of audio advertisements | |
US8620670B2 (en) | Automatic realtime speech impairment correction | |
US20120324356A1 (en) | User Driven Audio Content Navigation | |
JP6810580B2 (ja) | 言語モデル学習装置およびそのプログラム | |
CN112382310A (zh) | 一种人声音频录制方法和装置 | |
CN112565880B (zh) | 讲解类视频的播放方法和*** | |
CN112565881B (zh) | 自适应的视频播放方法和*** | |
US11138986B2 (en) | Filtering of a sound signal acquired by a voice recognition system | |
Südholt et al. | Pruning deep neural network models of guitar distortion effects | |
CN104202321B (zh) | 一种声音录制的方法及装置 | |
US20230386492A1 (en) | System and method for suppressing noise from audio signal | |
CN112509556B (zh) | 一种语音唤醒方法及装置 | |
CN112837688B (zh) | 语音转写方法、装置、相关***及设备 | |
CN116259312A (zh) | 一种针对语音自动剪辑任务的方法及神经网络模型训练方法 | |
WO2021145873A1 (en) | Small footprint multi-channel keyword spotting | |
US20240233707A9 (en) | Knowledge Distillation with Domain Mismatch For Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |