CN113761268A - 音频节目内容的播放控制方法、装置、设备和存储介质 - Google Patents

音频节目内容的播放控制方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113761268A
CN113761268A CN202110541007.4A CN202110541007A CN113761268A CN 113761268 A CN113761268 A CN 113761268A CN 202110541007 A CN202110541007 A CN 202110541007A CN 113761268 A CN113761268 A CN 113761268A
Authority
CN
China
Prior art keywords
content
audio program
program content
target audio
playing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110541007.4A
Other languages
English (en)
Inventor
岳明娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110541007.4A priority Critical patent/CN113761268A/zh
Publication of CN113761268A publication Critical patent/CN113761268A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请涉及计算机技术领域,尤其提供一种音频节目内容的播放控制方法、装置、设备和存储介质,用以提高音频节目内容的收听效率。其中,方法包括:响应于针对目标音频节目内容触发的暂停操作,暂停播放目标音频节目内容;响应于针对目标音频节目内容触发的恢复操作,在播放控制界面中显示续听控制区域,并播放目标音频节目内容对应的续听概要内容,其中续听概要内容是针对目标音频节目内容中已播放部分对应的音频内容生成的概要信息;在续听概要内容播放结束后,继续播放目标音频节目内容中的未播放部分。本申请通过智能化生成回顾概要,并转化为音频播放,能帮助用户快速回顾,减少因遗忘曾听内容而反复重播的情况,提高音频节目内容的收听效率。

Description

音频节目内容的播放控制方法、装置、设备和存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种机器学习技术领域,提供一种音频节目内容的播放控制方法、装置、设备和存储介质。
背景技术
对着互联网技术的迅速发展,各种社交软件也应运而生。其中音频节目内容分享平台也越来越受到更多人的关注和喜欢。播客类平台就是一种很常见的音频节目内容分享平台,很多网友喜欢通过播客类平台录制并分享音频节目,或者是收听其他用户分享的音频节目,包括有声小说、评书、相声、脱口秀等等。
但是,在相关技术中的各类音频节目内容分享平台,在播放音频节目内容时,若用户长时间暂停节目后长时间未续听节目,当再次续听时,在上次暂停的位置直接续听,会导致用户对已经遗忘的前景故事无法良好衔接,导致用户思维无法快速跟上节目后续段落的故事情节、叙事节奏,对已收听的内容产生不同程度的遗忘。
发明内容
本申请实施例提供一种音频节目内容的播放控制方法、装置、设备和存储介质,用以提高音频节目内容的收听效率。
本申请实施例提供的第一种音频节目内容的播放控制方法,包括:
响应于针对目标音频节目内容触发的暂停操作,暂停播放所述目标音频节目内容;
响应于针对所述目标音频节目内容触发的恢复操作,在播放控制界面中显示续听控制区域,并播放所述目标音频节目内容对应的续听概要内容,其中所述续听概要内容是针对所述目标音频节目内容中已播放部分对应的音频内容生成的概要信息;
在所述续听概要内容播放结束后,继续播放所述目标音频节目内容中的未播放部分。
本申请实施例提供的第二种音频节目内容的播放控制方法,包括:
接收到客户端发送的针对目标音频节目内容的暂停请求后,记录相应的暂停时间;
接收到所述客户端发送的针对所述目标音频节目内容的恢复请求后,记录相应的续听时间;
基于所述暂停时间以及所述续听时间之间的时间间隔,生成针对所述目标音频节目内容的续听概要内容,并将所述续听概要内容反馈给客户端,以使所述客户端在播放控制界面中显示续听控制区域,并播放所述续听概要内容,其中所述续听概要内容是针对所述目标音频节目内容中已播放部分对应的音频内容生成的概要信息。
本申请实施例提供的第一种音频节目内容的播放控制装置,包括:
暂停单元,用于响应于针对目标音频节目内容触发的暂停操作,暂停播放所述目标音频节目内容;
续播单元,用于响应于针对所述目标音频节目内容触发的恢复操作,在播放控制界面中显示续听控制区域,并播放所述目标音频节目内容对应的续听概要内容,其中所述续听概要内容是针对所述目标音频节目内容中已播放部分对应的音频内容生成的概要信息;在所述续听概要内容播放结束后,继续播放所述目标音频节目内容中的未播放部分。
可选的,所述续听控制区域包括概要控制控件,所述续播单元还用于:
在所述续听概要内容播放结束前,若响应于针对所述概要控制控件触发的关闭操作,则关闭所述续听概要内容的播放,并继续播放所述目标音频节目内容中的未播放部分对应的音频内容。
可选的,所述装置还包括:
设置单元,用于在所述续播单元响应于恢复播放所述目标音频节目内容的播放操作之前,响应于针对权限设置界面中的续播权限控件的设置操作,设置针对目标对象的续播权限,并将相应的续播权限信息发送给服务器,以使所述服务器将所述续播权限信息与所述目标对象的标识信息关联保存。
可选的,所述续播单元还用于:
响应于所述目标对象针对所述目标音频节目内容触发的恢复操作,若根据所述目标对象关联的续播权限信息,确定所述目标对象具有续播权限,则在播放控制界面中显示续听控制区域,并播放所述目标音频节目内容对应的续听概要内容。
可选的,所述续播单元还用于通过如下方式确定所述续听概要内容:
基于所述暂停操作相应的暂停时间与所述恢复操作相应的续听时间之间的时间间隔,以及所述目标音频节目内容中已播放部分对应的已播时长,确定对应的回顾时长;
基于所述回顾时长,从所述已播放部分对应的音频内容中选取播放时长为所述回顾时长的一段音频内容,作为待回顾音频内容;
将所述待回顾音频内容转换为文本信息,并基于文本摘要技术生成针对所述文本信息的概要内容文本;
将所述概要内容文本转化为音频,得到所述续听概要内容。
可选的,所述续播单元具体用于:
基于所述时间间隔,以及所述目标音频节目内容中已播放部分对应的已播时长,确定对应的第一回顾时长;
基于所述目标节目内容对应的内容难度等级,确定对应的第二回顾时长,其中,所述内容难度等级越大,所述第二回顾时长越长;
将所述第一回顾时长以及所述第二回顾时长之和,作为对应的所述回顾时长。
可选的,所述续播单元具体用于:
若所述目标音频节目内容包含一个对象的声音,则基于所述对象声音,将所述概要内容文本转化为音频,得到所述续听概要内容;
若所述目标音频节目内容包含多个对象的声音,则通过对所述多个对象声音进行特征提取,确定最高占比声音,并基于所述最高占比声音,将所述概要内容文本转化为音频,得到所述续听概要内容。
本申请实施例提供的第二种音频节目内容的播放控制装置,包括:
第一记录单元,用于接收到客户端发送的针对目标音频节目内容的暂停请求后,记录相应的暂停时间;
第二记录单元,用于接收到所述客户端发送的针对所述目标音频节目内容的恢复请求后,记录相应的续听时间;
反馈单元,用于基于所述暂停时间以及所述续听时间之间的时间间隔,生成针对所述目标音频节目内容的续听概要内容,并将所述续听概要内容反馈给客户端,以使所述客户端在播放控制界面中显示续听控制区域,并播放所述续听概要内容,其中所述续听概要内容是针对所述目标音频节目内容中已播放部分对应的音频内容生成的概要信息。
可选的,所述装置还包括:
判断单元,用于确定所述目标音频节目内容满足以下目标条件中的至少一种:
所述目标音频节目内容中已播放部分对应的已播时长不小于第一时长阈值;
所述目标音频节目内容对应的所述暂停时间以及所述续听时间之间的时间间隔不小于第二时长阈值。
可选的,所述反馈单元具体用于:
基于所述时间间隔,以及所述目标音频节目内容中已播放部分对应的已播时长,确定对应的回顾时长;
基于所述回顾时长,从所述已播放部分对应的音频内容中选取播放时长为所述回顾时长的一段音频内容,作为待回顾音频内容;
将所述待回顾音频内容转换为文本信息,并基于文本摘要技术生成针对所述文本信息的概要内容文本;
将所述概要内容文本转化为音频,得到所述续听概要内容。
可选的,所述反馈单元具体用于:
若所述时间间隔不大于预设间隔阈值,则将所述已播时长与第一预设比例值的乘积作为所述回顾时长;
若所述时间间隔大于所述预设间隔阈值,则所述时间间隔每增加设定时长时,将所述第一预设比例值增加第一设定步长,得到第一比例值,并将所述已播时长与所述第一比例值的乘积,作为所述回顾时长。
可选的,所述反馈单元具体用于:
基于所述时间间隔,以及所述目标音频节目内容中已播放部分对应的已播时长,确定对应的第一回顾时长;
基于所述目标节目内容对应的内容难度等级,确定对应的第二回顾时长,其中,所述内容难度等级越大,所述第二回顾时长越长;
将所述第一回顾时长以及所述第二回顾时长之和,作为对应的所述回顾时长。
可选的,所述反馈单元具体用于:
若所述时间间隔不大于预设间隔阈值,则将所述已播时长与第二预设比例值的乘积作为所述第一回顾时长;
若所述时间间隔大于所述预设间隔阈值,则所述时间间隔每增加设定时长时,将所述第二预设比例值增加第二设定步长,得到第二比例值,并将所述已播时长与所述第二比例值的乘积,作为所述第一回顾时长。
可选的,所述反馈单元具体用于:
若所述内容难度等级不大于预设等级阈值,则将所述已播时长与第三预设比例值的乘积作为所述第二回顾时长;
若所述内容难度等级大于所述预设等级阈值,则所述内容难度等级每增加设定等级,将所述第二预设比例值增加第三设定步长,得到第三比例值,并将所述已播时长与所述第三比例值的乘积,作为所述第二回顾时长。
可选的,所述反馈单元具体用于:
若所述目标音频节目内容包含一个对象的声音,则基于所述对象声音,将所述概要内容文本转化为音频,得到所述续听概要内容;
若所述目标音频节目内容包含多个对象的声音,则通过对所述多个对象声音进行特征提取,确定最高占比声音,并基于所述最高占比声音,将所述概要内容文本转化为音频,得到所述续听概要内容。
可选的,所述装置还包括:
关联单元,用于接收到所述客户端发送的针对权限设置界面中的续播权限控件的设置请求后,获取目标对象关联的续播权限信息,并将所述续播权限信息与所述目标对象的标识信息关联保存。
本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种音频节目内容的播放控制方法的步骤。
本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述任意一种音频节目内容的播放控制方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行上述任意一种音频节目内容的播放控制方法的步骤。
本申请有益效果如下:
本申请实施例提供一种音频节目内容的播放控制方法、装置、设备和存储介质。由于本申请支持用户点击续听音频时智能化生成回顾概要,并转化为音频进行播放,能够帮助用户回顾此前听过的节目内容核心思想,进而做到与续听内容做承接,增强用户对节目内容的理解,减少用户因遗忘曾听过的音频节目内容而反复重播的情况,提高音频节目内容的收听效率。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为相关技术中的一种音频节目续播方法的示意图;
图2为本申请实施例中的一种应用场景的一个可选的示意图;
图3为本申请实施例中的第一种音频节目内容的播放控制方法的实施流程图;
图4为本申请实施例中的一种播放控制界面的示意图;
图5为本申请实施例中的又一种播放控制界面的示意图;
图6为本申请实施例中的一种权限设置界面的示意图;
图7为本申请实施例中的一种音频节目续播方法的示意图;
图8为本申请实施例中的第二种音频节目内容的播放控制方法的实施流程图;
图9为本申请实施例中的一种生成续听概要内容的方法流程图;
图10为本申请实施例中的一种语言识别流程示意图;
图11为本申请实施例中的一种模型结构示意图;
图12A为本申请实施例中的一种参数法语音合成流程的示意图;
图12B为本申请实施例中的一种文本分析的具体流程示意图;
图13A为本申请实施例中的一种基于客户端与服务器实现音频节目内容播放控制的方法流程图;
图13B为本申请实施例中的一种客户端与服务器之间的交互时序图;
图14为本申请实施例中的第一种音频节目内容的播放控制装置的组成结构示意图;
图15为本申请实施例中的第二种音频节目内容的播放控制装置的组成结构示意图;
图16为应用本申请实施例的一种电子设备的一个硬件组成结构示意图;
图17为应用本申请实施例的另一种电子设备的一个硬件组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
音频类产品:本申请中囊括的音频产品包括有声读物、播客等仅通过声音播报的交互形式进行内容传递的产品。
节目:指音频类产品中通过声音播报的交互形式传递的单位内容。
音频节目内容:本申请实施例中的音频节目内容是指即时通讯软件或者播客类平台上分享的音频节目,例如有声小说、相声、评书、脱口秀、电台等。其中,有声小说是指一般的音频节目内容文件。它在播放器里面播放的时候可以调节播放速度,可以自动记住播放的停止时间,以方便“阅读”。本申请实施例中的音频节目内容可以是指包含音频数据的音频内容(是指可通过语音识别得到文字的,不是纯音乐)。
续听:也称续播,指当用户收听某集节目时中断收听后再次点击播放继续收听。
客户端(Client)或称为用户端:是指与服务器相对应,为客户提供本地服务的程序。除了一些只在本地运行的应用程序之外,一般安装在普通的客户机上,需要与服务端互相配合运行。因特网发展以后,较常用的用户端包括了如万维网使用的网页浏览器,收寄电子邮件时的电子邮件客户端,以及即时通信的客户端软件等。对于这一类应用程序,需要网络中有对应的服务器和服务程序来提供对应的服务,如数据库服务,电子邮件服务等等,这样在客户机和服务器端,需要建立特定的通信连接,来保证应用程序的正常运行。
应用操作界面:是应用***和用户之间进行交互和信息交换的媒介,它实现信息的内部形式与人类可以接受形式之间的转换,目的是使得用户能够方便有效率地去操作应用以达成双向之交互,完成所希望借助应用完成之工作。在本申请实施例中,应用操作界面包含了人机交互与图形用户接口,具体的应用操作界面包括权限设置界面、播放控制界面等。其中,不同的应用操作界面用于向用户展示不同的内容,实现用户与应用之间不同的信息交互。
音频节目内容分享平台和播客:音频节目内容分享平台是数字广播技术的一种,可用于录制网络广播或类似的网络声讯节目的音频节目内容,网友可将网上的广播节目下载到自己的播放器中随身收听,不必端坐电脑前,也不必实时收听,享受随时随地的自由。此外,用户还可以自己制作音频节目,并通过播客平台将其上传到网上与广大网友分享。可以理解为播放音频节目内容,视频的客户端。目前音频节目内容分享平台的应用很多,例如播客。
播放控制页面:面向用户的,用于控制音频节目内容播放的页面,一个音频节目内容分享平台上设置的播放控制页面的数量,根据需要有一个或者多个,多个播放控制页面以设定的逻辑进行跳转。在本申请实施例中,播放控制页面主要指用于对音频节目内容进行播放控制的页面,包括播放控制区域以及文稿展示区域,其中播放控制区域则主要用于控制音频节目内容的播放,包括播放速度、播放进度等的控制;文稿展示区域主要用于展示当前播放的音频节目内容中的音频内容对应的文稿内容。此外,播放控制页面中还可包括视频播放区域、文稿概览区域等。
语音合成技术(Text-To-Speech,TTS):是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
人工智能(Artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请的实施例提供的方案涉及人工智能和机器学习等技术。在本申请实施例中提出的声学模型、语言模型、生成式神经网络模型等的方法可分为两部分,包括训练部分和应用部分;其中,训练部分就涉及到机器学习这一技术领域,在训练部分中,通过机器学习这一技术训练上述模型,通过优化算法不断调整模型参数;应用部分用于使用在训练部分训练得到的声学模型、语音模型等来进行语音识别,使用在训练部分训练得到的生成式神经网络模型来生成概要内容等。
下面对本申请实施例的设计思想进行简要介绍:
当语音作为唯一输入通道时,用户对信息的接收效率会远低于以语音、视觉、触感等多模态的交互输入方式。在音频节目中,播客节目多为1至3小时,有声读物节目时长更是长达数十小时,导致大部分用户无法一次性收听完整。在用户长时间未续听节目时,在上次暂停的位置直接续听会导致用户对已经遗忘的前景故事无法良好衔接,会导致用户思维无法快速跟上节目后续段落的故事情节、叙事节奏。
也就是说,相关技术中的音频类产品体验为当用户收听过程中在中途暂停收听,再次点击播放按钮时,均从上次暂停的位置开始续听,如图1所示,其为相关技术中的一种音频节目续播方法的示意图。但是,当用户长时间暂停节目后,会对已收听的内容产生不同程度的遗忘。
有鉴于此,本申请实施例提出了一种音频节目内容的播放控制方法、装置、设备和存储介质。本申请支持用户点击续听音频时智能化生成回顾概要,并转化为音频进行播放,能够帮助用户回顾此前听过的节目内容核心思想,进而做到与续听内容做承接,增强用户对节目内容的理解,减少用户因遗忘曾听过的音频节目内容而反复重播的情况,提高音频节目内容的收听效率。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图2所示,其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备210和一个服务器230,可通过终端设备210登录目标业务执行的相关界面220。终端设备210与服务器230之间可以通过通信网络进行通信。
在本申请实施例中,界面220则可以是播放控制界面、权限设置界面等。用户通过终端设备210可登陆界面220,终端设备210响应用户针对界面220触发的操作,并向服务器230发送相关请求,服务器230向终端设备反馈相关的信息等等。例如:终端设备210响应于针对目标音频节目内容触发的恢复操作,向服务器230发送恢复请求,服务器230也会基于该请求生成续听概要内容,并向终端设备210反馈,由终端设备210在播放控制界面中显示续听控制区域,并播放目标音频节目内容对应的续听概要内容等等,在此不再一一列举,具体会在下文中进行详细说明。
在一种可选的实施方式中,通信网络是有线网络或无线网络。
在本申请实施例中,终端设备210为用户使用的电子设备,该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算机设备。各终端设备210通过无线网络与服务器230连接,服务器230是一台服务器或若干台服务器组成的服务器集群或云计算中心,或者是一个虚拟化平台。
在本申请实施例中,终端设备210上安装有音频节目内容相关的客户端,该客户端可以是软件,例如即时通讯软件、播客类软件,还可以是小程序、网页等,在此不做具体限定。相应的,服务器则是与软件或是网页、小程序等相对应的服务器。
其中,用户可以直接通过播客类软件搜索喜欢收听的音频节目内容并进行播放,也可以在即时通讯等软件中收听好友分享的音频节目内容,或者是在公众号、小程序等中搜索或收听音频节目内容等等。需要说明的是,本申请实施例中的音频节目内容是指用户录制的音频,例如用户对某一小说中的各个章节进行了讲书,并录制了相应的音频文件,之后该用户将录制的音频文件分享至播客平台供大家收听,也就是听书。在该场景下音频节目内容是指用户录制的音频,收听该音频节目内容的用户可通过本申请实施例中的方法,在播放控制页面中播放该音频节目内容对应的续听概要内容,该续听概要内容是由客户端或者是服务器对用户上传的音频节目内容中已播放部分对应的音频内容生成的概要信息。此外,除了小说还可以是用户录制的相声、评书等,在此不做具体限定。
需要说明的是,图2所示只是举例说明,实际上终端设备和服务器的数量不受限制,在本申请实施例中不做具体限定。
参阅图3所示,为本申请实施例提供的第一种音频节目内容的播放控制方法的实施流程图,应用于终端设备,该方法的具体实施流程如下:
S31:终端设备响应于针对目标音频节目内容触发的暂停操作,暂停播放目标音频节目内容;
S32:终端设备响应于针对目标音频节目内容触发的恢复操作,在播放控制界面中显示续听控制区域,并播放目标音频节目内容对应的续听概要内容,其中续听概要内容是针对目标音频节目内容中已播放部分对应的音频内容生成的概要信息;
S33:终端设备在续听概要内容播放结束后,继续播放目标音频节目内容中的未播放部分。
如图4所示,其为本申请实施例中的一种播放控制界面的示意图,图中的界面41和界面42都为播放控制界面。用户可通过点击界面S41中的暂停/播放控件S410触发针对音频节目内容的暂停操作或恢复操作。当该控件处于界面41所示的状态时,表示当前已暂停播放目标音频节目内容。当该控件处于界面42所示的状态时,表示当前已恢复播放目标音频节目内容。
如界面42中的虚线框S420部分所示,即为本申请实施例中的续听控制区域,正在进行智能化续听,即播放续听概要内容,该续听概要内容是基于已播放部分(22:22之前的部分)生成的。在续听概要内容播放完后,即可正常续播目标音频节目内容。
如图5所示,其为本申请实施例中的又一种播放控制界面的示意图,表示在续听概要内容播放完后,即可不再显示续听控制区域S420,并继续播放目标音频节目内容。
在上述实施方式中,支持用户点击续听音频时智能化生成回顾概要,并转化为音频进行播放,能够帮助用户回顾此前听过的节目内容核心思想,进而做到与续听内容做承接,增强用户对节目内容的理解,减少用户因遗忘曾听过的音频节目内容而反复重播的情况,提高音频节目内容的收听效率,优化音频类产品用户体验。
在一种可选的实施方式中,续听控制区域包括概要控制控件。如图4中界面42所示,其中S420中的“跳过”即为本申请实施例中的一种概要控制控件。用户可通过点击“跳过”,结束续听概要内容的播放。
具体的,在续听概要内容播放结束前,若用户点击“跳过”,则终端设备响应于针对概要控制控件触发的关闭操作,关闭续听概要内容的播放,并继续播放目标音频节目内容中的未播放部分对应的音频内容,显示如图5所示的播放控制界面,不再显示续听控制区域,直接跳过续听概要内容的播放,继续播放目标音频节目内容,即从22:22处继续播放。
在上述实施方式中,用户可基于概要控制控件跳过续听概要内容的播放,另外,也可通过倍速等方式,调整续听概要内容的播放速度,提高音频节目内容的播放效率。
可选的,本申请实施例还支持用户点击续听音频时开启“智能续听”功能,在用户开启该功能的情况下,点击续听后,即在播放控制界面中显示续听控制区域,播放续听概要内容。
例如图6所示,其为本申请实施例中的一种权限设置界面,其中虚线框S60中的即一种续播权限控制。用户可通过点击该控件开启或关闭“智能续听”。当前图6所示表示开启“智能续听”。
当用户点击图6所示的续播权限控件开启“智能续听”时,终端设备响应于针对权限设置界面中的续播权限控件的设置操作,设置针对目标对象的续播权限,并将相应的续播权限信息发送给服务器,以使服务器将续播权限信息与目标对象的标识信息关联保存。
在本申请实施例中,设置续播权限控件时,用户可开启或关闭“智能续听”。因而,在一种可选的实施方式中,终端设备响应于目标对象(指用户或用户账户)针对目标音频节目内容触发的恢复操作时,还需要进一步判断目标对象是否具有续播权限,在用户开启“智能续听”时,即具备续播权限,反之,则不具备续播权限。
具体的,若根据目标对象关联的续播权限信息,确定目标对象具有续播权限,则在播放控制界面中显示续听控制区域,并播放目标音频节目内容对应的续听概要内容。
其中,目标对象关联的续播权限信息可以是在用户进行权限设置时,保存在终端设备本地的,也可以是终端设备向服务器请求,由服务器返回的。
在上述实施方式中,通过增加“智能续听”开关,开启后用户可以享受智能生成回顾概要的功能,可有效提升产品用户体验。
参阅图7所示,其为本申请实施例中的一种音频节目续播方法的示意图。与图1所示的相关技术中音频节目续播方法的示意图相比,本申请中设置了“智能续听”功能,在开启“智能续听”功能的情况下,暂停节目播放后,再点击播放按钮时,并非直接在暂停位置续播,而是生成智能化回顾内容音频(即续听概要内容),并播放回顾内容,进而,再在暂停位置续播,以避免用户长时间暂停节目后,对已收听的内容遗忘,本申请可帮助用户回顾此前听过的节目内容,增强用户对续听内容的理解。
参阅图8所示,为本申请实施例提供的第二种音频节目内容的播放控制方法的实施流程图,应用于服务器,该方法的具体实施流程如下:
S81:服务器接收到客户端发送的针对目标音频节目内容的暂停请求后,记录相应的暂停时间;
S82:服务器接收到客户端发送的针对目标音频节目内容的恢复请求后,记录相应的续听时间;
S83:服务器基于暂停时间以及续听时间之间的时间间隔,生成针对目标音频节目内容的续听概要内容,并将续听概要内容反馈给客户端,以使客户端在播放控制界面中显示续听控制区域,并播放续听概要内容,其中续听概要内容是针对目标音频节目内容中已播放部分对应的音频内容生成的概要信息。
其中,客户端安装在终端设备上,客户端与服务器之间的通信即为终端设备与服务器之间的通信。
在本申请实施例中,用户点击暂停播放时,终端响应于针对目标音频节目内容触发的暂停操作,暂停播放目标音频节目内容,并向服务器发送暂停请求,该暂停请求可携带对应的暂停时间。服务器接收到该暂停请求时,记录暂停时间,例如,记为T1。同理,在用户点击恢复播放时,终端响应于针对目标音频节目内容触发的恢复操作,恢复播放目标音频节目内容,并向服务器发送恢复请求,该恢复请求可携带对应的恢复时间。服务器接收到该恢复请求时,记录恢复时间,例如,记为T2。进而,基于暂停时间以及续听时间之间的时间间隔y=T2-T1,生成续听概要内容。
在一种可选的实施方式中,在基于暂停时间以及续听时间之间的时间间隔,生成针对目标音频节目内容的续听概要内容之前,还需要进一步判断是否满足需要生成续听概要内容的条件,在满足条件的情况下,才可基于暂停时间以及续听时间之间的时间间隔,生成针对目标音频节目内容的续听概要内容。
具体的,目标条件包括以下至少一种:
条件一:目标音频节目内容中已播放部分对应的已播时长不小于第一时长阈值;
条件二:目标音频节目内容对应的暂停时间以及续听时间之间的时间间隔不小于第二时长阈值。
即,目标音频节目内容满足上述至少一种目标条件的情况下,即满足需要生成续听概要内容的条件。
具体的,当用户开启了“智能续听”功能,若收听过程中用户中途暂停收听,随后再次点击播放按钮时,客户端将目标音频节目内容对应的已播时长并上传至服务器,并且将用户暂停播放、恢复播放同一节目的时间储存到后台,上传服务器上,作为判断依据。
假设,第一时长阈值为2分钟,第二时长阈值为5小时。则,用户暂停播放、恢复播放同一节目的时间信息T1和T2上传至服务器,服务器对T1、T2之间的时间间隔进行计算。当节目已播放时长不足2分钟的情况下,不生成内容概要;或者,当收听时间间隔y在5小时以内的情况下,不生成内容概要;再或者,当节目已播放时长不足2分钟,且收听时间间隔在5小时以内的情况下,不生成内容概要。
需要说明的是,上述只是举例说明,当然也可不进行上述判断,直接生成内容概要,在此不做具体限定。
对于需要生成续听概要内容的情况,一种可选的实施方式为,可以按照如图9所示的流程图实施S83,其为本申请实施例中的一种生成续听概要内容的方法流程图,包括以下步骤:
S901:服务器基于暂停时间以及续听时间之间的时间间隔,以及目标音频节目内容中已播放部分对应的已播时长,确定对应的回顾时长;
S902:服务器基于回顾时长,从已播放部分对应的音频内容中选取播放时长为回顾时长的一段音频内容,作为待回顾音频内容;
S903:服务器将待回顾音频内容转换为文本信息,并基于文本摘要技术生成针对文本信息的概要内容文本;
S904:服务器将概要内容文本转化为音频,得到续听概要内容。
即,在步骤S902中,需要从已播放的音频内容中确定出需要回顾的段落范围,作为待回顾音频内容。通过对该部分内容进行概要提取,生成概要内容文本,进而,将概要内容文本转换为音频,即可得到续听概要内容。
需要说明的是,本申请实施例中的续听概要内容的生成方法除了可以由服务器单独执行外,也可由终端设备单独执行,或者由服务器和终端设备共同执行。即,本申请实施例中的续听概要内容可以仅由服务器侧生成,可以仅由终端设备上安装的客户端侧生成,也可以基于服务器与客户端之间的交互共同生成。
其中,由终端设备单独执行时,即终端设备基于暂停操作相应的暂停时间与恢复操作相应的续听时间之间的时间间隔,以及目标音频节目内容中已播放部分对应的已播时长,确定对应的回顾时长;基于回顾时长,从已播放部分对应的音频内容中选取播放时长为回顾时长的一段音频内容,作为待回顾音频内容;将待回顾音频内容转换为文本信息,并基于文本摘要技术生成针对文本信息的概要内容文本;将概要内容文本转化为音频,得到续听概要内容。
例如,由终端设备与服务器共同执行时,可以由客户端确定待回顾音频内容并通过终端设备通知给服务器,由服务器基于待回顾音频内容生成续听概要内容等等,在此不做具体限定。
若图9所示的生成续听概要内容的方法由终端设备单独执行时,终端设备上安装的客户端也可在基于暂停时间以及续听时间之间的时间间隔,生成针对目标音频节目内容的续听概要内容之前,判断是否满足需要生成续听概要内容的条件,具体判断过程和条件参见上述实施例,重复之处不再赘述。
同样地,下述所列举的确定回顾时长,以及将概要内容文本转化为音频的方法,除了可以由服务器单独执行之外,也可由终端设备单独执行,或者由服务器和终端设备共同执行。下文中主要是以服务器单独执行为例进行举例说明的。
下面对确定回顾时长,以及将概要内容文本转化为音频的过程进行详细介绍:
在本申请实施例中,对于需要确定回顾段落范围的情况,可通过上述步骤S901来确定对应的回顾时长。其中,具体是指通过用户收听时间间隔、内容难度等来确定回顾时长(也可称作回顾段落范围时长),记为A1,确定方式如下:
确定方式一、仅根据用户收听时间间隔确定。
在一种可选的实施方式中,若时间间隔不大于预设间隔阈值,则将已播时长与第一预设比例值的乘积作为回顾时长;若时间间隔大于预设间隔阈值,则时间间隔每增加设定时长时,将第一预设比例值增加第一设定步长,得到第一比例值,并将已播时长与第一比例值的乘积,作为回顾时长。
即,首先判断收听时间间隔是否大于预设间隔阈值,假设预设间隔阈值为5h。当用户收听时间间隔≤5h时,可确定基础回顾内容为已收听段落的20%,第一预设比例值为20%,则A1=已收听内容时长(即已播时长)*20%。
即,当y≤5时,A1=x*20%。其中,已收听内容时长=x,两次收听时间间隔=y,回顾段落范围时长=A1。
假设设定时长为1h,第一设定步长为1%。当用户收听时间间隔较长,大于5h时,则回顾段落范围也相应增加。每增加1h时间间隔,则需回顾时长增加1%。
即,当y>5时,A1=x*[20%+(y-5)*1%],第一比例值即为20%+(y-5)*1%。
确定方式二、根据用户收听时间间隔以及内容难度确定。
与确定方式一相比,即在时长计算时,还需考虑节目内容难度。具体的,在另一种可选的实施方式中,可基于时间间隔,以及目标音频节目内容中已播放部分对应的已播时长,确定对应的第一回顾时长;基于目标节目内容对应的内容难度等级,确定对应的第二回顾时长,其中,内容难度等级越大,第二回顾时长越长;进而,将第一回顾时长以及第二回顾时长之和,作为对应的回顾时长。
其中,在基于时间间隔确定对应的第一回顾时长时,同确定方式一类似:
若时间间隔不大于预设间隔阈值,则将已播时长与第二预设比例值的乘积作为第一回顾时长;若时间间隔大于预设间隔阈值,则时间间隔每增加设定时长时,将第二预设比例值增加第二设定步长,得到第二比例值,并将已播时长与第二比例值的乘积,作为第一回顾时长。
例如,预设间隔阈值为5h,已收听内容时长=x,两次收听时间间隔=y,第一回顾时长为A11。
则,当y≤5时,A11=x*20%(其中,第二预设比例值为20%);
当y>5时,A11=x*[20%+(y-5)*1%](其中,设定时长为1h,第二设定步长为1%),第二比例值即为20%+(y-5)*1%。
需要说明的是,本申请实施例中的第一预设比例值和第二预设比例值可以相同,也可以不同,在此不做具体限定。同样地,第一设定步长和第二设定步长可以相同,也可以不同,不做具体限定。
其中,在基于目标节目内容对应的内容难度等级,确定对应的第二回顾时长时,具体过程如下:
若内容难度等级不大于预设等级阈值,则将已播时长与第三预设比例值的乘积作为第二回顾时长;若内容难度等级大于预设等级阈值,则内容难度等级每增加设定等级,将第二预设比例值增加第三设定步长,得到第三比例值,并将已播时长与第三比例值的乘积,作为第二回顾时长。
假设第二回顾时长为A11,预设等级阈值为1,设定等级为1,第三预设比例值为0%,第三设定步长为5%,则:
当z=1时,A12=x*0%=0;
当z>1时,A12=x*[(z-1)*5%]。
即,内容难度等级越高,对应的第二回顾时长也越长。若内容难度等级为1级,则第二回顾时长+0%,此后难度每增加1级,则第二回顾时长增加5%。
需要说明的是,上述是以第三预设比例值为0%为例进行举例说明的,第三预设比例值实际为非负数,除了上述所列举的0%之外,也可以是1%,2%,3%等等,具体数值可根据实际情况进行设定,在此不做具体限定。
本申请实施例中是根据节目标签判断所属领域,进而根据领域确定内容难度等级的。当然,其他确定内容难度等级的方式同样适用,在此不做具体限定。参阅表1所示,其为本申请实施例中的一种内容难度等级与领域之间的关系示例。
表1
Figure BDA0003071763910000201
其中,上述是以三个内容难度等级为例进行举例说明的,因而,最高内容难度等级对应的第二回顾时长增加10%。
A1=A11+A12,综上,即可表示为:
当y≤5时,A1=x*[20%+(z-1)*5%]
即,当y>5时,A1=x*[20%+(y-5)*1%+(z-1)*5%]。
需要注意的是,若最终回顾时长A1超过该节目已收听内容时长的100%,均记为A1=已收听内容时长的100%。
在上述实施方式中,通过对用户历史收听行为、音频节目内容难度等信息进行判断决定智能化续听时需要帮助用户回忆的内容范围,并应用语音识别、自动摘要技术生成续听概要内容,最终通过语音合成技术合成音频内容,支持在用户点击续听音频时开启“智能续听”功能,通过对概要音频内容的播放,帮助用户回忆曾经听过的音频内容,并与续听内容做更好的承接。
在本申请实施例中,在确定出回顾时长后,即可将需要回顾的段落范围转化为文本信息。具体的,首先将待回顾音频节目内容上传服务器,主要利用自动语音识别(Automatic Speech Recognition,ASR)语言识别技术将音频内容转化为文本信息。其中,ASR语言识别流程如图10所示,具体过程如下:
首先,将基于回顾时长确定的待回顾音频内容上传至服务器(即图10中的语音输入),进而,从待回顾音频内容的语音波形中提取出能反映语音特征的重要信息,去掉相对无关的信息(如背景噪声),并把这些信息转换为一组离散的参数矢量(即图10中的编码(特征提取))。
若该待回顾音频内容中存在多个声音特征,同时还需要进行说话人声分离,判断占比最高的声音特征。具体的,首先对语音信息进行预处理,通过对音频内容进行语音端点检测(Voice Activity Detection,VAD)、分帧,并得到声音波形图,随后通过傅里叶变化来完成时域到频域的转换,即对每一帧做傅里叶变化,用特征参数梅尔频率倒谱系数(MelFrequency Cepstral Coefficent,MFCC)得到每一帧的频谱,最后总结为频谱图。本申请通过此方法去除节目音频中的背景噪音、无关人声等。
在特征提取完成之后,就进入了特征识别,字符生成环节(即图10中的解码),通常本申请将的每一个发音称为“音素”,是语音中的最小单位,比如普通话发音中的元音,辅音。通过声学模型将语音分帧,主要处理发音相关的工作,声学模型的输出包含发声的基本音素状态和概率,覆盖了目标语言中的声学特点,识别语音中最小的“音素”,***从每一帧当中找出当前说的音素,再由多个音素组成单词,再由单词组成文本句子。过程中通过判断哪个音素的概率最大,则这个帧就属于哪个音素。随后***再由多个音素组成单词,再由单词组成文本句子。语言模型训练集则帮助***结合语义场景和上下文才能达到识别的最佳效果。
最后,通过解码获取待回顾音频内容对应的文字输出。
进一步地,服务器利用生成式文本摘要技术生成节目续听概要内容,在下文简称“概要”。
本申请为了更良好的概要回顾体验,限制最终为用户播放的节目内容回顾概要内容在播放时长上不得超过90s,与之相对应的文本内容长度不得超过1000字,将该概要内容长度限制输入给***服务器即可。
随后,利用生成式文本摘要技术(abstractive)将音频类产品的回顾段落生成内容概要。
在本申请实施例中,生成式摘要则是基于自然语言生成(Natural LanguageGeneration,NLG)技术,根据源文档内容,由算法模型生成的自然语言描述,而非提取原文的句子。生成式文本摘要主要依靠深度神经网络结构实现,又称为编、解码器(Encoder、Decoder)架构。利用自然语言处理(Natural Language Processing,NLP)自然语义识别技术建立抽象的语意表示,对文章内容进行机器语义识别后,根据提供概要长度的要求生成对应的段落摘要。
本申请使用的生成式摘要技术是在基于深度学习中的seq2seq(Sequence-to-Sequence)模型的基础上,添加了注意力(attention)机制而实现的。基本模型结构如图11所示,生成式神经网络模型的基本结构主要由编码器(Encoder)和解码器(Decoder)组成,编码和解码都由神经网络实现。
其中,编码器负责将输入的原文本编码成一个向量C(Context),该向量是原文本的一个表征,包含了文本背景。而解码器负责从这个向量提取重要信息、获取语义加工剪辑,生成文本摘要。
例如,原文本为“The XX XX became the largest tech…”(XX XX成为最大的教育学校…),生成的文本摘要为“XX tech…”,其中XX为XX XX的缩写。
另外,考虑到长文本生成摘要在文本摘要领域存在生成不通顺、重复词句等问题,本申请结合内注意力机制(intra-attention mechanism)以解决上述问题,分别是:1)经典的解码器-编码器注意力机制(Intra-temporal attention);2)解码器内部的注意力机制(Intra-decoder attention)。
具体的,Intra-temporal attention使解码器在生成结果时,能动态地、按需求地获得输入端的信息,是作用在Encoder上的,对输入的文本(input)中每个词计算权重,这样能使生成的内容信息覆盖原文。在计算Intra-temporal attention权重的过程中,本申请采用了一种方法对input中获得较高权重的词进行惩罚,以防后面解码过程中再次赋予该词高权重。Intra-decoder attention则使模型能关注到已生成的词,帮助解决生成长句子时容易重复同一词句的问题,是作用在Decoder上的,对已经生成的词也计算权重,这样能够避免生成重复的内容。然后两者拼接起来进行解码生成下一个词。对于每个解码步骤t,本申请在第一个解码步骤中生成的序列是空的。该方法更简单,更广泛地适用于其他类型的递归网络。
在一种可选的实施方式中,在将概要内容文本转化为音频,得到续听概要内容时,可通过学习目标音频节目内容中的音频声音,生成续听概要内容的TTS并进行播放。当然,也可通过一些其他的声音,例如固定的女声,男声,卡通人物声音等,来生成续听概要内容的TTS。
下面将详细介绍通过学习目标音频节目内容中的音频声音,生成续听概要内容TTS的过程:
具体的,若目标音频节目内容包含一个对象的声音,则基于该对象声音,将概要内容文本转化为音频,得到续听概要内容。若目标音频节目内容包含多个对象的声音,则通过对多个对象声音进行特征提取,确定占比最高的声音(即最高占比声音),并基于最高占比声音,将概要内容文本转化为音频,得到续听概要内容。也就是说,在目标音频节目内容包含多个对象的声音时,即存在多个声音特征时,可进行说话人声分离,获取音频中占比最高的声音(最高占比声音),通过对该最高占比声音的音频特征进行语音合成技术的声学特征学习,将概要内容文本转化为音频,得到续听概要内容。
其中,考虑到音频节目内容中数据量较小,本申请采取基于参数的语音合成方法。该方法运用统计模型随时生成语音参数,并将参数转化为声音波形。该过程其实是一个文本抽象成语音学特征,用统计学模型学习出来语音学特征和其声学特征的对应关系后,再从预测出来的声学特征还原成波形(waveform)的过程。运用主流的神经网络来预测,然后用声码器(vocoder)生成波形,实现特征到waveform这最后一步。
参阅图12A所示,其为本申请实施例中的一种参数法语音合成流程的示意图,可概括为:音频特征提取(参数提取)->隐马尔科夫模型(Hidden Markov Model,HMM)建模->参数合成->波形重建的过程。下面结合图12A分别对上述过程进行详细介绍:
首先,需要对目标音频节目内容的语音信号进行音频特征提取。
对于目标音频节目内容,本申请主要是提取出它的梅尔频谱图(melspectrogram)音频特征。MFCC是一种比较常用的音频特征,对于声音来说,它其实是一个一维的时域信号,直观上很难看出频域的变化规律。考虑到使用傅里叶变化,可以得到它的频域信息,但是又丢失了时域信息,无法看到频域随时域的变化,这样就没法很好的描述声音,为了解决这个问题,很多时频分析手段应运而生,例如短时傅里叶,小波,Wigner分布等都是常用的时频域分析方法。本申请实施例中使用的是短时傅里叶。
其中,短时傅里叶变换(short-time Fourier transform,STFT)是指对短时的信号做傅里叶变化,短时的信号是长时的信号分帧得来的,适用于分析平稳的信号。在本申请实施例中,假设在较短的时间跨度范围内,语音信号的变换是平坦的,通过分帧、加窗,再对每一帧做快速傅里叶变换(fast Fourier transform,FFT),最后把每一帧的结果沿另一个维度堆叠起来,得到类似于一幅图的二维信号形式。如果本申请原始信号是声音信号,那么通过STFT展开得到的二维信号就是所谓的声谱图。
其中,声谱图往往是很大的一张图,为了得到合适大小的声音特征,往往把它通过梅尔标度滤波器组(mel-scale filter banks),变换为梅尔频谱。在梅尔频谱上做倒谱分析(取对数,做离散余弦变换)就得到了梅尔倒谱。
基于梅尔倒谱,即可提取参数,例如基频参数、语音参数等。
进一步地,进行HMM建模。具体的,连续密度隐马尔科夫模型(CD-HMM)集用于将语音参数建模,每个HMM状态的输出状态用单高斯函数(Gaussian)或混合高斯函数(GaussianMixed Model,GMM,也称高斯混合模型)表示,其参数生成算法的目标是在给定高斯分布序列的前提下,计算出具有最大似然函数的语音参数序列。
上述两个过程即对应图12A中的训练模块,通过上述过程即可训练得到上下文相关的HMM模型,进而,基于该模型进行语音合成,即对应图12A中的合成模块。
在进行音频特征提取和HMM建模之后,则需要对概要内容文本进行参数合成和波形重建。
具体的,首先需要将概要内容文本输入合成模块(对应图12A中的输入文本),进而对该文本进行文本分析,提取上下文特征,进而基于上述过程建模得到的上下文相关的HMM模型,生成状态序列,进而生成语音参数,最后基于参数合成器将语音参数转化为声学波形(即参数合成、波形重建),输出语音(即续听概要内容)。
其中,在对目标音频节目内容的音频特征,通过语音合成技术进行声学特征学习时,具体是指通过端到端的语音合成技术拆解该目标音频节目内容的音频特征中的音素、分词、词性获取、句意理解,并进行韵律预测、拼音预测等。参阅图12B所示,是本申请实施例中的一种文本分析的具体流程示意图,包括输入,句子结构分析,文本正则,文本转音素,音律预测几个步骤。
其中,在输入文本之后,需要对文本进行句子结构分析,包括语言鉴别和句子切分。其中,在进行句子切分时,本申请是基于统计的分词方法来实现的:
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此与字相邻共现得频率或概率能够较好的反映成词的可行度。可以对预料中相邻共现的各个字的组合的频率进行统计,计算它们的互现信息。计算汉字X和Y的互现信息公式为M(X,Y)=lg(P(X,Y)/P(X)P(Y))。其,P(X,Y)是汉字X,Y的相邻共现概率,P(X)、P(Y)分别是X,Y在语料中出现的频率。互现信息体现了汉字之间结合的关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。
在文本正则部分,则需要进行文本正则分类,规则替换。在文本转音素部分,首先也需要进行语言鉴别,进而进行词性预测,文本转音素。
其中,词性预测即词性标注(part-of-speech tagging)。其中,词性标注又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。辅助本申请进行句法分析预处理。本申请可基于HMM模型进行词性标注,该模型可以使用有标记数据的大型语料库进行训练,而有标记的数据则是指其中每一个词都分配了正确的词性标注的文本。另外,还可通过句法分析进行句意理解,句法分析是指,其基本任务为确定句子的句法结构或者句子中词汇之间的依存关系。通过语法树的构建,可以完成此步骤。
最后,即音律预测部分,主要是指韵律预测,是语音合成的关键。
综上,经过上述图12A,图12B所列举的上述过程,服务器输出续听概要内容TTS给客户端,并在用户点击“播放”按钮后客户端优先播放回顾内容的音频,实现本申请中帮助用户回顾历史收听节目内容的效果。
上述即本申请实施例中所列举的确定回顾时长,以及将概要内容文本转化为音频的方法,该方法也可由终端设备单独执行,或者由终端设备与服务器共同执行,对于这两种方式也是类似的过程,重复之处不再赘述。
在一种可选的实施方式中,服务器接收到客户端发送的针对权限设置界面中的续播权限控件的设置请求后,获取目标对象关联的续播权限信息,并将续播权限信息与目标对象的标识信息关联保存。
具体的,例如图6所示,用户可通过该权限设置界面进行续播权限设置,并由客户端向服务器发送设置请求,请求中携带目标对象的标识信息,以及相关的续播权限信息,由服务器进行关联保存。
在上述实施方式中,支持在用户点击续听音频时开启“智能续听”功能,通过对概要音频内容的播放,帮助用户回忆曾今听过的音频内容,并与续听内容做更好的承接。
综上,本申请中的音频节目内容的播放控制方法支持用户点击续听音频时智能化生成回顾概要,为用户推荐快速回忆功能,帮助用户回顾此前听过的该集节目内容。该部分内容能够与续听内容做更好的承接,增强用户对续听内容的理解。
参阅图13A所示,其为本申请实施例中的一种基于客户端与服务器实现音频节目内容播放控制的方法流程图。该方法的实施流程如下:
在客户端侧:首先,开启“智能续听”功能;用户暂停节目(即目标音频节目内容)播放;用户点击该节目播放按钮;
基于用户暂停和播放,实现了针对目标音频节目内容的续播,此时,首先需要由客户端分析节目已播时长,可分为节目已播时长<2min和节目已播时长>=2min两种情况:
若节目已播时长<2min,则不生成续听概要内容;
若节目已播时长>=2min,则由服务器侧继续判断用户收听时间间隔;
在服务器侧:若用户收听时间间隔<5h,则不生成续听概要内容;
若用户收听时间间隔>=5h,则确定回顾段落范围;其中,具体确定方式可参见上述实施例中所列举的确定方式一,确定方式二等,重复之处不再赘述。
进而,服务器将需回顾的段落音频转化为文本信息;生成概要内容文本;判断该节目中主要声音(即最高占比声音);根据该声音生成续听概要内容。
上述过程的具体实现方式可参见上文相关部分的举例说明,重复之处不再赘述。
最后,服务器将续听概要内容反馈给客户端,在客户端侧,播放续听概要内容。
基于上述介绍,以节目已播时长>=2min,用户收听时间间隔>=5h为例,下面结合图13B对客户端与服务器之间的交互过程进行详细介绍。参阅图13B所示,其为本申请实施例中的一种客户端与服务器之间的交互时序图,具体包括以下步骤:
步骤S1301:客户端响应于针对目标音频节目内容触发的暂停操作,暂停播放目标音频节目内容,并向服务器发送暂停请求;
步骤S1302:服务器记录相应的暂停时间;
步骤S1303:客户端响应于针对目标音频节目内容触发的恢复操作,并向服务器发送恢复请求;
步骤S1304:服务器记录相应的续听时间;
步骤S1305:服务器确定目标音频节目内容满足目标条件;
步骤S1306:服务器基于暂停时间以及续听时间之间的时间间隔,生成针对目标音频节目内容的续听概要内容,并将续听概要内容反馈给客户端;
步骤S1307:客户端播放目标音频节目内容对应的续听概要内容,以及,在续听概要内容播放结束后,继续播放目标音频节目内容中的未播放部分。
基于相同的发明构思,本申请实施例还提供一种音频节目内容的播放控制装置。如图14所示,其为音频节目内容的播放控制装置1400的结构示意图,可以包括:
暂停单元1401,用于响应于针对目标音频节目内容触发的暂停操作,暂停播放目标音频节目内容;
续播单元1402,用于响应于针对目标音频节目内容触发的恢复操作,在播放控制界面中显示续听控制区域,并播放目标音频节目内容对应的续听概要内容,其中续听概要内容是针对目标音频节目内容中已播放部分对应的音频内容生成的概要信息;在续听概要内容播放结束后,继续播放目标音频节目内容中的未播放部分。
可选的,续听控制区域包括概要控制控件,续播单元1402还用于:
在续听概要内容播放结束前,若响应于针对概要控制控件触发的关闭操作,则关闭续听概要内容的播放,并继续播放目标音频节目内容中的未播放部分对应的音频内容。
可选的,装置还包括:
设置单元1403,用于在续播单元1402响应于恢复播放目标音频节目内容的播放操作之前,响应于针对权限设置界面中的续播权限控件的设置操作,设置针对目标对象的续播权限,并将相应的续播权限信息发送给服务器,以使服务器将续播权限信息与目标对象的标识信息关联保存。
可选的,续播单元1402还用于:
响应于目标对象针对目标音频节目内容触发的恢复操作,若根据目标对象关联的续播权限信息,确定目标对象具有续播权限,则在播放控制界面中显示续听控制区域,并播放目标音频节目内容对应的续听概要内容。
可选的,续播单元1402还用于通过如下方式确定续听概要内容:
基于暂停操作相应的暂停时间与恢复操作相应的续听时间之间的时间间隔,以及目标音频节目内容中已播放部分对应的已播时长,确定对应的回顾时长;
基于回顾时长,从已播放部分对应的音频内容中选取播放时长为回顾时长的一段音频内容,作为待回顾音频内容;
将待回顾音频内容转换为文本信息,并基于文本摘要技术生成针对文本信息的概要内容文本;
将概要内容文本转化为音频,得到续听概要内容。
可选的,续播单元1402具体用于:
基于时间间隔,以及目标音频节目内容中已播放部分对应的已播时长,确定对应的第一回顾时长;
基于目标节目内容对应的内容难度等级,确定对应的第二回顾时长,其中,内容难度等级越大,第二回顾时长越长;
将第一回顾时长以及第二回顾时长之和,作为对应的回顾时长。
可选的,续播单元1402具体用于:
若目标音频节目内容包含一个对象的声音,则基于对象声音,将概要内容文本转化为音频,得到续听概要内容;
若目标音频节目内容包含多个对象的声音,则通过对多个对象声音进行特征提取,确定最高占比声音,并基于最高占比声音,将概要内容文本转化为音频,得到续听概要内容。
基于相同的发明构思,本申请实施例还提供另一种音频节目内容的播放控制装置。如图15所示,其为音频节目内容的播放控制装置1500的结构示意图,可以包括:
第一记录单元1501,用于接收到客户端发送的针对目标音频节目内容的暂停请求后,记录相应的暂停时间;
第二记录单元1502,用于接收到客户端发送的针对目标音频节目内容的恢复请求后,记录相应的续听时间;
反馈单元1503,用于基于暂停时间以及续听时间之间的时间间隔,生成针对目标音频节目内容的续听概要内容,并将续听概要内容反馈给客户端,以使客户端在播放控制界面中显示续听控制区域,并播放续听概要内容,其中续听概要内容是针对目标音频节目内容中已播放部分对应的音频内容生成的概要信息。
可选的,装置还包括:
判断单元1504,用于确定目标音频节目内容满足以下目标条件中的至少一种:
目标音频节目内容中已播放部分对应的已播时长不小于第一时长阈值;
目标音频节目内容对应的暂停时间以及续听时间之间的时间间隔不小于第二时长阈值。
可选的,反馈单元1503具体用于:
基于时间间隔,以及目标音频节目内容中已播放部分对应的已播时长,确定对应的回顾时长;
基于回顾时长,从已播放部分对应的音频内容中选取播放时长为回顾时长的一段音频内容,作为待回顾音频内容;
将待回顾音频内容转换为文本信息,并基于文本摘要技术生成针对文本信息的概要内容文本;
将概要内容文本转化为音频,得到续听概要内容。
可选的,反馈单元1503具体用于:
若时间间隔不大于预设间隔阈值,则将已播时长与第一预设比例值的乘积作为回顾时长;
若时间间隔大于预设间隔阈值,则时间间隔每增加设定时长时,将第一预设比例值增加第一设定步长,得到第一比例值,并将已播时长与第一比例值的乘积,作为回顾时长。
可选的,反馈单元1503具体用于:
基于时间间隔,以及目标音频节目内容中已播放部分对应的已播时长,确定对应的第一回顾时长;
基于目标节目内容对应的内容难度等级,确定对应的第二回顾时长,其中,内容难度等级越大,第二回顾时长越长;
将第一回顾时长以及第二回顾时长之和,作为对应的回顾时长。
可选的,反馈单元1503具体用于:
若时间间隔不大于预设间隔阈值,则将已播时长与第二预设比例值的乘积作为第一回顾时长;
若时间间隔大于预设间隔阈值,则时间间隔每增加设定时长时,将第二预设比例值增加第二设定步长,得到第二比例值,并将已播时长与第二比例值的乘积,作为第一回顾时长。
可选的,反馈单元1503具体用于:
若内容难度等级不大于预设等级阈值,则将已播时长与第三预设比例值的乘积作为第二回顾时长;
若内容难度等级大于预设等级阈值,则内容难度等级每增加设定等级,将第二预设比例值增加第三设定步长,得到第三比例值,并将已播时长与第三比例值的乘积,作为第二回顾时长。
可选的,反馈单元1503具体用于:
若目标音频节目内容包含一个对象的声音,则基于对象声音,将概要内容文本转化为音频,得到续听概要内容;
若目标音频节目内容包含多个对象的声音,则通过对多个对象声音进行特征提取,确定最高占比声音,并基于最高占比声音,将概要内容文本转化为音频,得到续听概要内容。
可选的,装置还包括:
关联单元1505,用于接收到客户端发送的针对权限设置界面中的续播权限控件的设置请求后,获取目标对象关联的续播权限信息,并将续播权限信息与目标对象的标识信息关联保存。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
所述技术领域的技术人员能够理解,本申请的各个方面可以实现为***、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。该电子设备可以用于音频节目内容的播放控制。在一种实施例中,该电子设备可以是终端设备,如图2所示的终端设备210,该终端设备210可以为智能手机、平板电脑,手提电脑或PC机等电子设备。
请参照图16,该终端设备210包括显示单元1640、处理器1680以及存储器1620,其中,显示单元1640包括显示面板1641,用于显示由用户输入的信息或提供给用户的信息以及终端设备210的各种对象选择界面等,在本申请实施例中主要用于显示终端设备210中已安装的应用的界面、快捷窗口等。可选的,可以采用液晶显示器(Liquid Crystal Display,LCD)或有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1641。
处理器1680用于读取计算机程序,然后执行计算机程序定义的方法,例如处理器1680读取社交应用程序,从而在该终端设备210上运行应用,在显示单元1640上显示应用的界面。处理器1680可以包括一个或多个通用处理器,还可包括一个或多个数字信号处理器(Digital Signal Processor,DSP),用于执行相关操作,以实现本申请实施例所提供的技术方案。
存储器1620一般包括内存和外存,内存可以为随机存储器(RAM),只读存储器(ROM),以及高速缓存(CACHE)等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器1620用于存储计算机程序和其他数据,该计算机程序包括应用对应的应用程序等,其他数据可包括操作***或应用程序被运行后产生的数据,该数据包括***数据(例如操作***的配置参数)和用户数据。本申请实施例中程序指令存储在存储器1620中,处理器1680执行存储其中1620中的程序指令,实现前文论述的音频节目内容的播放控制方法,或者实现前文论述的适配应用的功能。
此外,终端设备210还可以包括显示单元1640,用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势,以及产生与终端设备210的用户设置以及功能控制有关的信号输入等。具体地,本申请实施例中,该显示单元1640可以包括显示面板1641。显示面板1641例如触摸屏,可收集用户在其上或附近的触摸操作(比如玩家使用手指、触笔等任何适合的物体或附件在显示面板1641上或在显示面板1641的操作),并根据预先设定的程式驱动对应的连接装置。可选的,显示面板1641可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1680,并能接收处理器1680发来的命令并加以执行。在本申请实施例中,若用户通过点击触发对目标音频节目内容的恢复操作,则在显示面板1641中的触摸检测装置检测到触摸操作,则将检测到的触摸操作对应的信号发送的触摸控制器,触摸控制器将信号转换成触点坐标发送给处理器1680,处理器1680根据接收到的触点坐标确定用户是否操作成功等。
其中,显示面板1641可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元1640,终端设备210还可以包括输入单元1630,输入单元1630可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。图16中是以输入单元1630包括图像输入设备1631和其它输入设备1632为例。
除以上之外,终端设备210还可以包括用于给其他模块供电的电源1690、音频电路1660、近场通信模块1670和RF电路1610。终端设备210还可以包括一个或多个传感器1650,例如加速度传感器、光传感器、压力传感器等。音频电路1660具体包括扬声器1661和传声器1662等,例如用户可以使用语音控制,终端设备210可以通过传声器1662采集用户的声音,可以用户的声音进行控制,并在需要提示用户时,通过扬声器1661播放对应的提示音。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。该电子设备可以用于音频节目内容的播放控制。在一种实施例中,该电子设备可以是服务器,如图2所示的服务器230。在该实施例中,电子设备的结构可以如图17所示,包括存储器1701,通讯模块1703以及一个或多个处理器1702。
存储器1701,用于存储处理器1702执行的计算机程序。存储器1701可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器1701可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1701也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器1701是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1701可以是上述存储器的组合。
处理器1702,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1702,用于调用存储器1701中存储的计算机程序时实现上述音频节目内容的播放控制方法。
通讯模块1703用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器1701、通讯模块1703和处理器1702之间的具体连接介质。本公开实施例在图17中以存储器1701和处理器1702之间通过总线1704连接,总线1704在图17中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1704可以分为地址总线、数据总线、控制总线等。为便于表示,图17中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1701中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的音频节目内容的播放控制方法。处理器1702用于执行上述的音频节目内容的播放控制方法,如图8所示。
在一些可能的实施方式中,本申请提供的音频节目内容的播放控制方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的音频节目内容的播放控制方法中的步骤,例如,计算机设备可以执行如图3或图8中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行***、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (20)

1.一种音频节目内容的播放控制方法,其特征在于,该方法包括:
响应于针对目标音频节目内容触发的暂停操作,暂停播放所述目标音频节目内容;
响应于针对所述目标音频节目内容触发的恢复操作,在播放控制界面中显示续听控制区域,并播放所述目标音频节目内容对应的续听概要内容,其中所述续听概要内容是针对所述目标音频节目内容中已播放部分对应的音频内容生成的概要信息;
在所述续听概要内容播放结束后,继续播放所述目标音频节目内容中的未播放部分。
2.如权利要求1所述的方法,其特征在于,所述续听控制区域包括概要控制控件,所述方法还包括:
在所述续听概要内容播放结束前,若响应于针对所述概要控制控件触发的关闭操作,则关闭所述续听概要内容的播放,并继续播放所述目标音频节目内容中的未播放部分对应的音频内容。
3.如权利要求1所述的方法,其特征在于,在所述响应于恢复播放所述目标音频节目内容的播放操作之前,所述方法还包括:
响应于针对权限设置界面中的续播权限控件的设置操作,设置针对目标对象的续播权限,并将相应的续播权限信息发送给服务器,以使所述服务器将所述续播权限信息与所述目标对象的标识信息关联保存。
4.如权利要求3所述的方法,其特征在于,所述响应于恢复播放所述目标音频节目内容的播放操作,在播放控制界面中显示续听控制区域,并播放所述目标音频节目内容对应的续听概要内容,包括:
响应于所述目标对象针对所述目标音频节目内容触发的恢复操作,若根据所述目标对象关联的续播权限信息,确定所述目标对象具有续播权限,则在播放控制界面中显示续听控制区域,并播放所述目标音频节目内容对应的续听概要内容。
5.如权利要求1~4任一项所述的方法,其特征在于,所述续听概要内容是通过如下方式确定的:
基于所述暂停操作相应的暂停时间与所述恢复操作相应的续听时间之间的时间间隔,以及所述目标音频节目内容中已播放部分对应的已播时长,确定对应的回顾时长;
基于所述回顾时长,从所述已播放部分对应的音频内容中选取播放时长为所述回顾时长的一段音频内容,作为待回顾音频内容;
将所述待回顾音频内容转换为文本信息,并基于文本摘要技术生成针对所述文本信息的概要内容文本;
将所述概要内容文本转化为音频,得到所述续听概要内容。
6.如权利要求5所述的方法,其特征在于,所述基于所述暂停操作相应的暂停时间与所述恢复操作相应的续听时间之间的时间间隔,以及所述目标音频节目内容中已播放部分对应的已播时长,确定对应的回顾时长,包括:
基于所述时间间隔,以及所述目标音频节目内容中已播放部分对应的已播时长,确定对应的第一回顾时长;
基于所述目标节目内容对应的内容难度等级,确定对应的第二回顾时长,其中,所述内容难度等级越大,所述第二回顾时长越长;
将所述第一回顾时长以及所述第二回顾时长之和,作为对应的所述回顾时长。
7.如权利要求5所述的方法,其特征在于,所述将所述概要内容文本转化为音频,得到所述续听概要内容,包括:
若所述目标音频节目内容包含一个对象的声音,则基于所述对象声音,将所述概要内容文本转化为音频,得到所述续听概要内容;
若所述目标音频节目内容包含多个对象的声音,则通过对所述多个对象声音进行特征提取,确定最高占比声音,并基于所述最高占比声音,将所述概要内容文本转化为音频,得到所述续听概要内容。
8.一种音频节目内容的播放控制方法,其特征在于,该方法包括:
接收到客户端发送的针对目标音频节目内容的暂停请求后,记录相应的暂停时间;
接收到所述客户端发送的针对所述目标音频节目内容的恢复请求后,记录相应的续听时间;
基于所述暂停时间以及所述续听时间之间的时间间隔,生成针对所述目标音频节目内容的续听概要内容,并将所述续听概要内容反馈给客户端,以使所述客户端在播放控制界面中显示续听控制区域,并播放所述续听概要内容,其中所述续听概要内容是针对所述目标音频节目内容中已播放部分对应的音频内容生成的概要信息。
9.如权利要求8所述的方法,其特征在于,在所述基于所述暂停时间以及所述续听时间之间的时间间隔,生成针对所述目标音频节目内容的续听概要内容之前,还包括:
确定所述目标音频节目内容满足以下目标条件中的至少一种:
所述目标音频节目内容中已播放部分对应的已播时长不小于第一时长阈值;
所述目标音频节目内容对应的所述暂停时间以及所述续听时间之间的时间间隔不小于第二时长阈值。
10.如权利要求8所述的方法,其特征在于,所述基于所述暂停时间以及所述续听时间之间的时间间隔,生成针对所述目标音频节目内容的续听概要内容,包括:
基于所述时间间隔,以及所述目标音频节目内容中已播放部分对应的已播时长,确定对应的回顾时长;
基于所述回顾时长,从所述已播放部分对应的音频内容中选取播放时长为所述回顾时长的一段音频内容,作为待回顾音频内容;
将所述待回顾音频内容转换为文本信息,并基于文本摘要技术生成针对所述文本信息的概要内容文本;
将所述概要内容文本转化为音频,得到所述续听概要内容。
11.如权利要求10所述的方法,其特征在于,所述基于所述时间间隔,以及所述目标音频节目内容中已播放部分对应的已播时长,确定对应的回顾时长,具体包括:
若所述时间间隔不大于预设间隔阈值,则将所述已播时长与第一预设比例值的乘积作为所述回顾时长;
若所述时间间隔大于所述预设间隔阈值,则所述时间间隔每增加设定时长时,将所述第一预设比例值增加第一设定步长,得到第一比例值,并将所述已播时长与所述第一比例值的乘积,作为所述回顾时长。
12.如权利要求10所述的方法,其特征在于,所述基于所述时间间隔,以及所述目标音频节目内容中已播放部分对应的已播时长,确定对应的回顾时长,包括:
基于所述时间间隔,以及所述目标音频节目内容中已播放部分对应的已播时长,确定对应的第一回顾时长;
基于所述目标节目内容对应的内容难度等级,确定对应的第二回顾时长,其中,所述内容难度等级越大,所述第二回顾时长越长;
将所述第一回顾时长以及所述第二回顾时长之和,作为对应的所述回顾时长。
13.如权利要求12所述的方法,其特征在于,所述基于所述时间间隔,以及所述目标音频节目内容中已播放部分对应的已播时长,确定对应的第一回顾时长,包括:
若所述时间间隔不大于预设间隔阈值,则将所述已播时长与第二预设比例值的乘积作为所述第一回顾时长;
若所述时间间隔大于所述预设间隔阈值,则所述时间间隔每增加设定时长时,将所述第二预设比例值增加第二设定步长,得到第二比例值,并将所述已播时长与所述第二比例值的乘积,作为所述第一回顾时长。
14.如权利要求12所述的方法,其特征在于,所述基于所述目标节目内容对应的内容难度等级,确定对应的第二回顾时长,具体包括:
若所述内容难度等级不大于预设等级阈值,则将所述已播时长与第三预设比例值的乘积作为所述第二回顾时长;
若所述内容难度等级大于所述预设等级阈值,则所述内容难度等级每增加设定等级,将所述第二预设比例值增加第三设定步长,得到第三比例值,并将所述已播时长与所述第三比例值的乘积,作为所述第二回顾时长。
15.如权利要求10~14任一项所述的方法,其特征在于,所述将所述概要内容文本转化为音频,得到所述续听概要内容,包括:
若所述目标音频节目内容包含一个对象的声音,则基于所述对象声音,将所述概要内容文本转化为音频,得到所述续听概要内容;
若所述目标音频节目内容包含多个对象的声音,则通过对所述多个对象声音进行特征提取,确定最高占比声音,并基于所述最高占比声音,将所述概要内容文本转化为音频,得到所述续听概要内容。
16.如权利要求8~14任一项所述的方法,其特征在于,所述方法还包括:
接收到所述客户端发送的针对权限设置界面中的续播权限控件的设置请求后,获取目标对象关联的续播权限信息,并将所述续播权限信息与所述目标对象的标识信息关联保存。
17.一种音频节目内容的播放控制装置,其特征在于,包括:
暂停单元,用于响应于针对目标音频节目内容触发的暂停操作,暂停播放所述目标音频节目内容;
续播单元,用于响应于针对所述目标音频节目内容触发的恢复操作,在播放控制界面中显示续听控制区域,并播放所述目标音频节目内容对应的续听概要内容,其中所述续听概要内容是针对所述目标音频节目内容中已播放部分对应的音频内容生成的概要信息;在所述续听概要内容播放结束后,继续播放所述目标音频节目内容中的未播放部分。
18.一种音频节目内容的播放控制装置,其特征在于,包括:
第一记录单元,用于接收到客户端发送的针对目标音频节目内容的暂停请求后,记录相应的暂停时间;
第二记录单元,用于接收到所述客户端发送的针对所述目标音频节目内容的恢复请求后,记录相应的续听时间;
反馈单元,用于基于所述暂停时间以及所述续听时间之间的时间间隔,生成针对所述目标音频节目内容的续听概要内容,并将所述续听概要内容反馈给客户端,以使所述客户端在播放控制界面中显示续听控制区域,并播放所述续听概要内容,其中所述续听概要内容是针对所述目标音频节目内容中已播放部分对应的音频内容生成的概要信息。
19.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~7中任一所述方法的步骤或权利要求8~16中任一所述方法的步骤。
20.一种计算机可读存储介质,其特征在于,其包括程序代码,当程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1~7中任一所述方法的步骤或权利要求8~16中任一所述方法的步骤。
CN202110541007.4A 2021-05-18 2021-05-18 音频节目内容的播放控制方法、装置、设备和存储介质 Pending CN113761268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110541007.4A CN113761268A (zh) 2021-05-18 2021-05-18 音频节目内容的播放控制方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110541007.4A CN113761268A (zh) 2021-05-18 2021-05-18 音频节目内容的播放控制方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN113761268A true CN113761268A (zh) 2021-12-07

Family

ID=78787201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110541007.4A Pending CN113761268A (zh) 2021-05-18 2021-05-18 音频节目内容的播放控制方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113761268A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416012A (zh) * 2021-12-14 2022-04-29 阿波罗智联(北京)科技有限公司 音频续播方法及装置
CN114979769A (zh) * 2022-06-01 2022-08-30 山东福生佳信科技股份有限公司 一种视频续播进度管理***及方法
CN115022705A (zh) * 2022-05-24 2022-09-06 咪咕文化科技有限公司 一种视频播放方法、装置及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416012A (zh) * 2021-12-14 2022-04-29 阿波罗智联(北京)科技有限公司 音频续播方法及装置
CN115022705A (zh) * 2022-05-24 2022-09-06 咪咕文化科技有限公司 一种视频播放方法、装置及设备
CN114979769A (zh) * 2022-06-01 2022-08-30 山东福生佳信科技股份有限公司 一种视频续播进度管理***及方法

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US20200357388A1 (en) Using Context Information With End-to-End Models for Speech Recognition
US20210142794A1 (en) Speech processing dialog management
KR102582291B1 (ko) 감정 정보 기반의 음성 합성 방법 및 장치
CN110288985B (zh) 语音数据处理方法、装置、电子设备及存储介质
US11823678B2 (en) Proactive command framework
US20210210100A1 (en) Voice command processing for locked devices
CN113761268A (zh) 音频节目内容的播放控制方法、装置、设备和存储介质
US11579841B1 (en) Task resumption in a natural understanding system
CN110851650B (zh) 一种评论输出方法、装置、以及计算机存储介质
US11810556B2 (en) Interactive content output
WO2020050822A1 (en) Detection of story reader progress for pre-caching special effects
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
US20240055003A1 (en) Automated assistant interaction prediction using fusion of visual and audio input
WO2023197206A1 (en) Personalized and dynamic text to speech voice cloning using incompletely trained text to speech models
CN117882131A (zh) 多个唤醒词检测
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
KR20230025708A (ko) 오디오 제시 인터렉션을 갖는 자동화된 어시스턴트
CN113223513A (zh) 语音转换方法、装置、设备和存储介质
Schuller Emotion modelling via speech content and prosody: in computer games and elsewhere
Tumpalan et al. English-filipino speech topic tagger using automatic speech recognition modeling and topic modeling
US11977816B1 (en) Time-based context for voice user interface
KR20190106011A (ko) 대화 시스템 및 그 방법, 그 방법을 실행하기 위하여 매체에 저장된 컴퓨터 프로그램
Tong Speech to text with emoji
Zhang et al. A novel decoding framework for extractive speech summarization with Rhetorical Structure modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination