CN111970257A - 一种文稿显示控制方法、装置、电子设备和存储介质 - Google Patents
一种文稿显示控制方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111970257A CN111970257A CN202010774616.XA CN202010774616A CN111970257A CN 111970257 A CN111970257 A CN 111970257A CN 202010774616 A CN202010774616 A CN 202010774616A CN 111970257 A CN111970257 A CN 111970257A
- Authority
- CN
- China
- Prior art keywords
- content
- manuscript
- playing
- audio program
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 230000004044 response Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 13
- 230000001960 triggered effect Effects 0.000 claims description 10
- 238000013518 transcription Methods 0.000 claims description 9
- 230000035897 transcription Effects 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 238000012552 review Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 30
- 238000005516 engineering process Methods 0.000 description 26
- 238000010801 machine learning Methods 0.000 description 10
- 238000007667 floating Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000005096 rolling process Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000009191 jumping Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 240000001549 Ipomoea eriocarpa Species 0.000 description 2
- 235000005146 Ipomoea eriocarpa Nutrition 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
- H04N21/4316—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8545—Content authoring for generating interactive applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8547—Content authoring involving timestamps for synchronizing content
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请涉及人工智能技术领域,尤其涉及一种文稿显示控制方法、装置、电子设备和存储介质,用以提供一种音频节目内容的文稿显示方法,使得用户在收听音频的同时可以概览对应的文本,其中,方法包括:响应于播放目标音频节目内容的播放操作,显示播放控制页面并播放目标音频节目内容的音频内容,播放控制页面包括音频内容的播放控制区域和文稿展示区域,以及在文稿展示区域展示音频内容对应的文稿内容,其中文稿内容是从目标音频节目内容中进行语音识别得到的。本申请通过语音识别得到音频内容对应的文稿内容,并在播放控制页面的文稿展示区域进行文稿展示,因而用户在收听音频节目的同时还可直接在播放控制页面中同步查看相应的文稿。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文稿显示控制方法、装置、电子设备和存储介质。
背景技术
对着互联网技术的迅速发展,各种社交软件也应运而生。其中音频节目内容分享平台也越来越受到更多人的关注和喜欢。播客类平台就是一种很常见的音频节目内容分享平台,很多网友喜欢通过播客类平台录制并分享音频节目,或者是收听其他用户分享的音频节目,包括有声小说、评书、相声、脱口秀等等。
但是,在相关技术中的各类音频节目内容分享平台,对音频节目内容信息存储成本高,因而在播放音频节目内容时,只是播放对应的音频数据供用户收听,当用户有听不清楚的地方需要反复收听确认,然而用户反复收听时则需要不断调整进度条,过于繁琐,收听效率低。
发明内容
本申请实施例提供一种文稿显示控制方法、装置、电子设备和存储介质,用以提供一种音频节目内容的文稿显示方法,使得用户可以在收听音频的同时浏览对应的文稿内容,提高音频节目内容的收听效率。
本申请实施例提供的第一种音频节目内容的文稿显示控制方法,包括:
响应于播放目标音频节目内容的播放操作,显示播放控制页面并播放所述目标音频节目内容的音频内容,所述播放控制页面包括所述音频内容的播放控制区域和文稿展示区域,以及
在所述文稿展示区域展示所述音频内容对应的文稿内容,其中所述文稿内容是对所述目标音频节目内容进行语音识别得到的。
可选的,所述播放控制区域包括用于确认播放音频并展示文稿的第一选择控件,以及,所述播放所述目标音频节目内容的音频内容,具体包括:
响应所述第一选择控件的触发操作,播放所述目标音频节目内容的音频内容。
可选的,所述播放控制区域包括用于确认不播放音频但展示文稿的第二选择控件,所述方法还包括:
响应所述第二选择控件的触发操作,在所述文稿展示区域展示所述文稿内容并禁止播放所述音频内容。
可选的,所述播放控制页面还包括视频播放区域,所述目标音频节目内容还包括与所述音频内容对应的视频内容;所述方法还包括:
在所述视频播放区域中播放所述视频内容。
本申请实施例提供的第二种音频节目内容的文稿显示控制方法,包括:
对目标音频节目内容进行语音识别,得到所述目标音频节目内容中的音频内容对应的文稿内容,并根据所述音频内容为所述文稿内容添加相应的时间戳;
接收到客户端发送的针对所述目标音频节目内容的播放请求后,将与所述音频内容对应的文稿内容发送给所述客户端,以使所述客户端播放所述音频内容并展示所述文稿内容,其中所述播放请求为所述客户端响应播放所述目标音频节目内容的播放操作后发送的。
可选的,所述从目标音频节目内容中进行语音识别,得到所述目标音频节目内容中的音频内容对应的文稿内容,具体包括:
基于标点符号将从所述目标音频节目内容中语音识别得到的文本划分为句子;
根据句子之间的播放间隔划分段落,其中每相邻两个段落在对应音频内容中,前一段落的最后一个句子与后一段落的第一个句子之间的播放间隔大于预设时间阈值,且同一段落中每相邻两个句子之间的播放间隔不大于所述预设时间阈值。
本申请实施例提供的第一种音频节目内容的文稿显示控制装置,包括:
第一响应单元,用于响应于播放目标音频节目内容的播放操作,显示播放控制页面并播放所述目标音频节目内容的音频内容,所述播放控制页面包括所述音频内容的播放控制区域和文稿展示区域;以及
在所述文稿展示区域展示所述音频内容对应的文稿内容,其中所述文稿内容是对所述目标音频节目内容进行语音识别得到的。
可选的,所述第一响应单元具体用于:
根据所述目标音频节目内容的播放进度,在所述文稿展示区域中以句子为单位滚动显示与当前播放进度对应的文稿内容部分,其中句子是基于标点符号对从所述目标音频节目内容中语音识别得到的文本进行划分得到的。
可选的,所述播放控制区域还包括播放暂停控件;所述装置还包括:
第二响应单元,用于响应所述播放暂停控件的触发操作,暂停播放所述目标音频节目内容;以及
在所述文稿展示区域中暂停滚动显示与当前播放进度对应的文稿内容部分。
可选的,所述文稿展示区域还包括文稿展示控件,所述装置还包括:
第三响应单元,用于响应于所述文稿展示控件的触发操作,显示文稿展示页面,所述文稿展示页面显示与当前播放进度对应的至少一行文稿内容部分,以及与所述至少一行文稿内容部分相邻的前M行内容和相邻的后N行内容中的至少一种,其中M和N为正整数;或
响应于所述文稿展示控件的触发操作,在所述播放控制页面的文稿概览区域显示与当前播放进度对应的至少一行文稿内容部分,以及与所述至少一行文稿内容部分相邻的前M行内容和相邻的后N行内容中的至少一种。
可选的,所述文稿内容包含至少两个段落时,每相邻两个段落在对应音频内容中,前一段落的最后一个句子与后一段落的第一个句子之间的播放间隔大于预设时间阈值,且同一段落中每相邻两个句子之间的播放间隔不大于所述预设时间阈值。
可选的,所述第三响应单元具体用于:
在所述文稿展示页面或所述文稿概览区域中,以第一显示模式显示包含所述至少一行文稿内容部分的目标段落,以及以第二显示模式显示除所述目标段落之外的其他段落的内容。
可选的,所述播放控制页面包括调整音频内容播放进度的播放进度控件,所述装置还包括:
第四响应单元,用于响应于针对所述文稿展示页面或所述文稿概览区域触发的文稿拖动操作,根据所述文稿拖动操作拖动所述文稿展示页面中展示的文稿内容;
更新所述播放进度控件的播放进度,将所述目标音频节目内容的播放进度调整为与文稿内容对应的时间节点,并从所述时间节点处开始播放所述目标音频节目内容。
可选的,所述装置还包括:
第五响应单元,用于响应于针对所述播放进度控件的操作,更新所述目标音频节目内容的播放进度,并从更新后的播放进度对应的时间节点处开始播放所述目标音频节目内容;
将所述文稿展示页面或所述文稿概览区域显示的文稿内容跳转至与所述时间节点处开始播放的所述目标音频节目内容对应的文稿内容。
可选的,所述文稿展示页面或所述文稿概览区域的指定位置处显示有切换控件,所述切换控件用于控制文稿内容的切换;所述装置还包括:
第六响应单元,用于响应于通过所述切换控件触发的切换操作,在所述文稿展示区域或所述文稿概览区域展示目标播放队列中所述目标音频节目内容的下一音频节目内容对应的文稿内容;以及
将所述播放控制页面中当前播放的所述目标音频节目内容切换为所述目标音频节目内容的下一音频节目内容,并进行播放。
可选的,所述播放控制区域包括用于确认播放音频并展示文稿的第一选择控件,以及,所述第一响应单元具体用于:
响应所述第一选择控件的触发操作,播放所述目标音频节目内容的音频内容。
可选的,所述播放控制区域包括用于确认不播放音频但展示文稿的第二选择控件,所述第一响应单元还用于:
响应所述第二选择控件的触发操作,在所述文稿展示区域展示所述文稿内容并禁止播放所述音频内容。
可选的,所述播放控制页面还包括视频播放区域,所述目标音频节目内容还包括与所述音频内容对应的视频内容;所述装置还包括:
播放单元,用于在所述视频播放区域中播放所述视频内容。
本申请实施例提供的第二种音频节目内容的文稿显示控制装置,包括:
语音转写单元,用于对目标音频节目内容进行语音识别,得到所述目标音频节目内容中的音频内容对应的文稿内容,并根据所述音频内容为所述文稿内容添加相应的时间戳;
传输单元,用于接收到客户端发送的针对所述目标音频节目内容的播放请求后,将与所述音频内容对应的文稿内容发送给所述客户端,以使所述客户端播放所述音频内容并展示所述文稿内容,其中所述播放请求为所述客户端响应播放所述目标音频节目内容的播放操作后发送的。
可选的,所述语音转写单元具体用于:
基于标点符号将从所述目标音频节目内容中语音识别得到的文本划分为句子;
根据句子之间的播放间隔划分段落,其中每相邻两个段落在对应音频内容中,前一段落的最后一个句子与后一段落的第一个句子之间的播放间隔大于预设时间阈值,且同一段落中每相邻两个句子之间的播放间隔不大于所述预设时间阈值。
本申请实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种音频节目内容的文稿显示控制方法的步骤。
本申请实施例提供一种计算机可读存储介质,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行上述任意一种音频节目内容的文稿显示控制方法的步骤。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任意一种音频节目内容的文稿显示控制方法的步骤。
本申请有益效果如下:
本申请实施例提供的音频节目内容的文稿显示控制方法、装置、电子设备和存储介质,由于本申请实施例将语音转文字技术应用在了音频节目内容上,在音频节目内容的播放控制页面中包含文稿展示区域,用于展示通过语音识别获得的音频节目内容的文稿内容,使得用户在播放音频节目内容的同时可以同步查看对应的文本,因而当用户有听不清楚的地方时,可以直接浏览对应的文稿内容即可,无需反复收听确认,更加便捷省时,使得用户的收听效率更高。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为相关技术中的一种播放控制页面的一个可选的示意图;
图2为本申请实施例中的一种应用场景的一个可选的示意图;
图3为本申请实施例中的第一种音频节目内容的文稿显示控制方法的流程示意图;
图4A为本申请实施例中的第一种播放控制页面的示意图;
图4B为本申请实施例中的第二种播放控制页面的示意图;
图4C为本申请实施例中的一种播放控制区域的示意图;
图4D为本申请实施例中的第三种播放控制页面的示意图;
图5A为本申请实施例中的第一种文稿展示页面的示意图;
图5B为本申请实施例中的第一种文稿概览区域的示意图;
图5C为本申请实施例中的第二种文稿概览区域的示意图;
图6A为本申请实施例中的第二种文稿展示页面的示意图;
图6B为本申请实施例中的第三种文稿展示页面的示意图;
图6C为本申请实施例中的第四种文稿展示页面的示意图;
图7为本申请实施例的一种音频节目内容的文稿显示方法的示意图;
图8为本申请实施例中的第二种音频节目内容的文稿显示控制方法的流程示意图;
图9为本申请实施例中的一种音频节目内容播放控制的完整方法流程图;
图10为本申请实施例中的第一种音频节目内容播放控制设备的组成结构示意图;
图11为本申请实施例中的第二种音频节目内容播放控制设备的组成结构示意图;
图12为本申请实施例中的一种电子设备的组成结构示意图;
图13为本申请实施例中的一种终端设备的一个硬件组成结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
下面对本申请实施例中涉及的部分概念进行介绍。
音频节目内容:本申请实施例中的音频节目内容是指即时通讯软件或者播客类平台上分享的音频节目,例如有声小说、相声、评书、脱口秀、电台等。其中,有声小说是指一般的音频节目内容文件。它在播放器里面播放的时候可以调节播放速度,可以自动记住播放的停止时间,以方便“阅读”。本申请实施例中的音频节目内容可以是指包含音频数据的音频内容(是指可通过语音识别得到文字的,不是纯音乐),也可以是包含相应视频数据的音视频内容,例如音频节目内容为讲书人录制的关于讲书的音频文件。
音频节目内容分享平台和播客:音频节目内容分享平台是数字广播技术的一种,可用于录制网络广播或类似的网络声讯节目的音频节目内容,网友可将网上的广播节目下载到自己的播放器中随身收听,不必端坐电脑前,也不必实时收听,享受随时随地的自由。此外,用户还可以自己制作音频节目,并通过播客平台将其上传到网上与广大网友分享。可以理解为播放音频节目内容,视频的客户端。目前音频节目内容分享平台的应用很多,例如播客。
应用操作页面:是应用***和用户之间进行交互和信息交换的媒介,它实现信息的内部形式与人类可以接受形式之间的转换,目的是使得用户能够方便有效率地去操作应用以达成双向之交互,完成所希望借助应用完成之工作。在本申请实施例中,应用操作页面包含了人机交互与图形用户接口,具体的应用操作页面包括播放控制页面和文稿展示页面等。其中,不同的应用操作页面用于向用户展示不同的内容,实现用户与应用之间不同的信息交互。
音频节目内容分享平台的播放控制页面:面向用户的,用于控制音频节目内容播放的页面,一个音频节目内容分享平台上设置的播放控制页面的数量,根据需要有一个或者多个,多个播放控制页面以设定的逻辑进行跳转。在本申请实施例中,播放控制页面主要指用于对音频节目内容进行播放控制的页面,包括播放控制区域以及文稿展示区域,其中播放控制区域则主要用于控制音频节目内容的播放,包括播放速度、播放进度等的控制;文稿展示区域主要用于展示当前播放的音频节目内容中的音频内容对应的文稿内容。此外,播放控制页面中还可包括视频播放区域、文稿概览区域等。
文稿展示页面:在播放控制页面基础上添加的页面,面向用户的,用于展示音频播放内容对应的文稿内容。在该文稿展示页面中,除了展示有当前播放进度对应的至少一行文稿内容部分之外,还可展示与至少一行文稿内容部分相邻的前M行内容,以及与该至少一行文稿内容部分相邻的后N行内容中的至少一种,以便用户对文稿内容进行概览,以快速检索和定位特定片段。
客户端(Client)或称为用户端:是指与服务器相对应,为客户提供本地服务的程序。除了一些只在本地运行的应用程序之外,一般安装在普通的客户机上,需要与服务端互相配合运行。因特网发展以后,较常用的用户端包括了如万维网使用的网页浏览器,收寄电子邮件时的电子邮件客户端,以及即时通讯的客户端软件等。对于这一类应用程序,需要网络中有相应的服务器和服务程序来提供相应的服务,如数据库服务,电子邮件服务等等,这样在客户机和服务器端,需要建立特定的通信连接,来保证应用程序的正常运行。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的语音识别和机器学习技术。其中,语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在本申请实施例中,通过语音识别和机器学习技术,可以实现对音频节目内容的语音转写,将音频节目内容数据转换成文本数据。其中,进行语音转写时即可基于机器学习模型实现,例如深度全序列卷积神经网络,该网络可将长段音频节目内容(5小时以内)数据转换成文本数据。
下面对本申请实施例的设计思想进行简要介绍:
随着科技的高速发展,当代的音频节目越来越多地借助网络和智能电子设备,播客类平台也应运而生,用户可以自己制作音频节目,并将其上传到网上与广大网友分享。
参阅图1所示,其为相关技术中的一种播放控制页面的示意图;该页面为某播客类平台的播放控制页面,该播客类平台可以实现收听音频节目,例如收听电台、有声小说、相声评书等。图1所示的页面中显示当前正在播放的音频节目为有声小说,当前播放进度为1分23秒,该音频总时长为20分32秒,在图1中播放进度条上方的图片为小说的封面,进度条下方为小说的出处简介、详情,还有播放次数等信息。
但是,目前各播客类平台对音频节目均不提供文字稿,不能将文字稿与音频节目内容同步播放,使用户在收听讲书等节目时无法概览节目内容,也不能实现具体段落或语句的点选。在有听不清楚的地方无法快速对比阅读,也难以反复收听确认。此外,由于无法快速定位特定片段的位置,因而用户想要查找某一特定片段时,还需要不断回放等,使得用户对音频内容的搜寻过于繁琐,耗时较高,使用时会受到较大限制。
有鉴于此,本申请实施例提供了一种音频节目内容的文稿显示控制方法、装置、电子设备和存储介质。在本申请实施例中,将语音转文字技术应用在音频节目内容上,在音频节目内容的播放控制页面中包含文稿展示区域,用于展示通过语音识别获得的音频节目内容的文稿内容,使得用户在播放音频节目内容的同时可以同步查看对应的文本,也可以点选特定的段落或语句进行播放,以快速定位特定片段的位置,提高用户的使用体验,并且有效提高用户对音频内容的搜寻效率,降低了搜寻成本。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图2所示,其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备210和一个服务器230,可通过终端设备210登录相关的应用操作页面220。终端设备210与服务器230之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络是有线网络或无线网络。终端设备210以及服务器230可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在本申请实施例中,终端设备210为用户使用的电子设备,该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算机设备。各终端设备210通过无线网络与服务器230连接,服务器230可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在本申请实施例中,用户通过终端设备210可登陆客户端相关的应用操作页面220,终端设备210可响应用户在应用操作页面220触发的各种操作。其中,应用操作页面220可以是播放控制页面、文稿展示页面等等。例如用户A执行针对目标音频节目内容的播放操作时,终端设备210响应播放操作,显示播放控制页面并播放目标音频节目内容的音频内容等。
在本申请实施例中,客户端可以是社交软件,例如即时通讯软件、播客类软件,还可以是小程序、网页等,在此不做具体限定。其中,终端设备上需要安装有客户端,服务器则是与软件或是网页、小程序等类型的客户端相对应的服务器。
其中,用户可以直接通过播客类软件搜索喜欢收听的音频节目内容并进行播放,也可以在即时通讯等软件中收听好友分享的音频节目内容,或者是在公众号、小程序等中搜索或收听音频节目内容等等。需要说明的是,本申请实施例中的音频节目内容是指用户录制的音频或者是音视频,例如用户对某一小说中的各个章节进行了讲书,并录制了相应的音频文件,之后该用户将录制的音频文件分享至播客平台供大家收听,也就是听书。在该场景下音频节目内容是指用户录制的音频,收听该音频节目内容的用户可通过本申请实施例中的方法,在播放控制页面中查看当前正在播放的小说对应的文稿内容,该文稿内容是由客户端或者是服务器对用户上传的音频文件进行语音识别得到的。此外,除了小说还可以是用户录制的相声、评书等,在此不做具体限定。
参阅图3所示,为本申请实施例提供的一种音频节目内容的文稿显示控制方法的实施流程图,该方法应用于客户端,具体实施流程如下:
S31:响应于播放目标音频节目内容的播放操作,显示播放控制页面并播放目标音频节目内容的音频内容,播放控制页面包括音频内容的播放控制区域和文稿展示区域;
S32:在文稿展示区域展示音频内容对应的文稿内容,其中文稿内容是对目标音频节目内容进行语音识别得到的。
在本申请实施例中,对目标音频节目内容的语音识别的过程可以是实时的,即在播放目标音频节目内容时,实时对正在播放的音频内容进行语音识别,并将当前时刻识别出的文稿内容显示在文稿展示区域中。
此外,对目标音频节目内容的语音识别过程还可以是在播放之前,由后台服务器预先识别得到,该方式下服务器可预先识别出整个文稿内容,以讲书为例,可由服务器预先识别出讲书人所讲的整本书对应的全部文稿内容并存储到后台,在客户端请求时,可以由服务器直接下发给客户端。
其中,服务器识别得到的文稿内容后,可依据下列方式分句和分段,具体的处理过程为:
对目标音频节目内容进行语音识别得到文本时,同样也可以通过语音识别得到句子之间添加的标点符号,因而基于标点符号进行断句,将识别得到的文本划分为一个一个的句子,为了方便显示,可设置每个句子最多18个字,对基于标点符号划分后得到的句子中大于18个字的句子,则再次分句。
进一步地,根据句子之间的播放间隔进行分段,在本申请实施例中,具体的分段方式为:
以50ms(毫秒)为预设时间阈值,若相邻两个句子之间的播放间隔超过50ms,表明两句话之间的停顿间隙超过50ms,此时则可另起一段。结合上述分段方式可知,每相邻两个段落在对应音频内容中,前一段落的最后一个句子与后一段落的第一个句子之间的播放间隔大于50ms,且同一段落中每相邻两个句子之间的播放间隔不大于50ms。
在上述实施方式中,通过语音识别技术识别目标音频节目内容中的音频内容对应的文本,再基于上述给出的划分句子和段落的规则,可将文本转换为添加有相应时间戳的文稿内容,其中以句子为单位的文本又对应的时间戳,且每个段落也有相对应的时间戳等,保证文稿内容和音频内容的播放时间相对应,在此基于上可同步播放音频并展示文稿内容,使得用户可以通过文稿概览节目内容。
需要说明的是,在识别得到文本之后,对于其中识别出现误差的字词等也可在后台进行纠正。
在下文中主要是以目标音频节目内容为有声小说为例进行举例说明的。
其中,在文稿展示区域内展示音频内容对应的文稿内容时,若音频内容的总时长较短,对应的文稿内容也相对较少,此时可以直接在文稿展示区域中将音频内容对应的全部文稿都展示出来,并突出显示与当前播放进度对应的句子。
可选的,文稿内容包括语音识别过程中划分的句子以及在句子之间添加的标点符号,也可在文稿展示区域内以句子为单位滚动展示文稿内容,具体实现方式为:根据目标音频节目内容的播放进度,在文稿展示区域中以句子为单位滚动显示与当前播放进度对应的文稿内容部分,即在文稿展示区域中每次都展示一个句子,随着播放进度的变化,滚动显示文稿展示区域中的句子。
参阅图4A所示,其为本申请实施例中的一种音频节目内容播放控制页面的示意图;图4A中标记了两个虚线框,其中虚线框S41表示播放控制页面中的播放控制区域,虚线框S42表示文稿展示区域,即图4A中的AI语音转文稿部分。在文稿展示区域内即展示有当前正在播放的音频内容对应的句子。其中文稿展示区域中当前显示的文稿内容部分为“庆历四年春”这一个句子,当前播放时间为1分32秒;在1分钟之后,即播放时间为2分32秒时,此时的播放进度对应的文稿内容部分为“属予作文以记之”,则在文稿展示区域展示句子应为“属予作文以记之”,如图4B所示。句子与句子之间的切换可以采用滚动等形式。
可选的,播放控制区域中还包括至少一个选择控件。在本申请实施例中,选择控件是用于由用户确认是否只播放有音频内容对应的文稿内容,还是同步播放音频内容对应的文稿内容以及音频内容的。参阅图4C所示,其为本申请实施例中所列举的一种播放控制区域的一个可选的示意图,其中包括用于确认播放音频并展示文稿的第一选择控件S1,以及用于确认不播放音频但展示文稿的第二选择控件S2。
其中,若用户点击第一选择控件,即表示用户确认播放音频且展示文稿,此时,即可在播放音频的同时,在文稿展示区域中展示相对应的文稿内容。
可选的,用户还可选择点击第二选择控件,此时客户端响应第二选择控件的触发操作,在文稿展示区域展示文稿内容并禁止播放音频内容。
需要说明的是,在本申请实施例中用户可随时点击第二选择控件,若用户在一开始时即点击选择第二选择控件,则在音频节目内容一开始就禁止播放音频内容;或者,用户还可以在播放过程中第二选择控件,此时则在用户点击之后,再禁止播放音频内容,但是仍在文稿展示区域显示相对应的文稿内容。
除此之外,在播放控制区域中还包括用于控制音频内容播放进度的播放进度控件,以及用于切换音频内容的按键,用于控制音频内容播放的暂停播放控件等。
如图4C所示,其中S3即暂停播放控件,若用户通过图4C所示的暂停播放控件点击暂停后,客户端响应该操作,暂停播放音频内容的播放,并同步暂停滚动显示文稿展示区域中的文稿内容。若目标音频节目内容还包括与音频内容对应的视频内容时,也同步暂停视频播放区域中视频内容的播放。其中,图4C中所示的进度条即播放进度控件S4,用户可通过调整进度条,更新目标音频节目内容的播放进度。例如,用户调整进度条之前如图4A所示,此时文稿展示区域显示的内容为“庆历四年春”;当用户将进度条调整为如图4B所示时,则从2分23秒处开始播放,此时文稿展示区域显示的内容为“属予作文以记之”。
可选的,目标音频节目内容还包括与音频内容对应的视频内容时,此时播放控制页面还可包括视频播放区域,在视频播放区域中同步播放视频内容。例如图4D所示,其中视频播放区域即虚线框S43所示的部分。
需要说明的是,本申请实施例中是指同步播放目标音频节目内容的音频内容,视频内容以及与音频内容对应的文稿内容,与相关技术并不相同,在本申请实施例中,将音频内容对应的文稿内容通过单独的文稿展示区域在播放控制页面中进行展示,使得用户可以直接在文稿展示区域中进行复制、粘贴等操作,用户体验更佳。
可选的,文稿展示区域中除了可以显示与当前播放进度对应的句子之外,还可包括文稿展示控件,在用户点击文稿展示控件之后,客户端即可响应文稿展示控件的触发操作,显示与当前播放进度对应的至少一行文稿内容部分,以及与该至少一行文稿内容部分相邻的前M行内容和相邻的后N行内容中的至少一种,其中M和N为正整数,M和N可以相同,也可以不同。
也就是说,客户端响应文稿展示控件的触发操作之后,可以展示更多的文稿内容,具体分为以下三种情况:
一、展示与当前播放进度对应的至少一行文稿内容部分,以及与该至少一行文稿内容部分相邻的前M行内容;
二、展示与当前播放进度对应的至少一行文稿内容部分,以及与该至少一行文稿内容部分相邻的后N行内容;
三、展示与当前播放进度对应的至少一行文稿内容部分,以及与该至少一行文稿内容部分相邻的前M行内容,与该至少一行文稿内容部分相邻的后N行内容。
其中,展示上述文稿内容部分的方式也有很多种,具体包括在新的页面中展示,以及在播放控制页面中的新的区域中展示,具体过程如下:
客户端响应于文稿展示控件的触发操作,显示文稿展示页面,文稿展示页面显示与当前播放进度对应的至少一行文稿内容部分,以及与该至少一行文稿内容部分相邻的前M行内容和相邻的后N行内容中的至少一种,其中M和N为正整数;或者,客户端响应于文稿展示控件的触发操作,在播放控制页面的文稿概览区域显示与当前播放进度对应的至少一行文稿内容部分,以及与该至少一行文稿内容部分相邻的前M行内容和相邻的后N行内容中的至少一种。
参阅图4A所示,其中的S420即本申请实施例中所列举的文稿展示控件,用户点击文稿展示控件之后,即可展示一个新的页面,也就是文稿展示页面,在文稿展示页面中显示多行文稿内容部分;还可在播放控制页面中的文稿概览区域中显示多行文稿内容部分。需要说明的是,图4A所示只是举例说明,用户还可以通过点击文稿展示区域中的任意位置,显示文稿展示页面或文稿概览区域。
其中,文稿展示页面即本申请实施例中新提出的一种页面,该文稿展示页面可以以浮层的形式呈现,也可以以新页面,弹窗,或者是在播放控制页面上展开等形式呈现,在此不做具体限定。用户点击文稿展示区域中的文稿展示控件,可以展开该浮层,再点击浮层左上角的图标,可以收起该浮层,此外手势右滑等方式也可以收起该浮层。在本申请实施例中,文稿展示页面展开和收起过程中,目标音频节目内容的播放不会中断。
可选的,若在文稿展示页面或文稿概览区域中展示有至少两段文稿内容部分时,则可以第一显示模式显示包含至少一行文稿内容部分的目标段落,以及以第二显示模式显示除目标段落之外的其他段落的内容。其中,第一显示模式可以是高亮、加粗、加下划线等突出显示模式,而第二显示模式则是区别于第一显示模式的,例如普通显示,不需要加粗、高亮等,以便用户可以快速定位当前正在播放的部分。
参阅图5A所示,其为本申请实施例中所列举的一种文稿展示页面的示意图。其中在播放控制页面中的文稿展示区域中当前正在展示的句子为“庆历四年春”,用户点击文稿展示区域的文稿展示控件之后,在播放控制页面上以浮层的形式显示图5A所示的文稿展示页面,该页面中目前显示有4个段落的内容,其中与当前播放进度对应的一行文稿内容部分为“庆历四年春,滕子京者谪守巴陵郡。越”,此后还显示有与该行文稿内容部分相邻的后19行内容。其中,高亮显示包含“庆历四年春,滕子京谪守巴陵郡。越”这一行文本内容所在的段落,也就是目标段落,之后的三个段落则采用普通显示模式。
参阅图5B所示,其为本申请实施例中的一种文稿概览区域的示意图,其中虚线框中的部分即文稿概览区域,该区域可位于播放控制区域的上方,在此情况下可以不再显示目标音频节目内容的封面。由图5B可知,当前的文稿概览区域中显示有包含当前播放进度对应的一行文稿内容部分为“庆历四年春,滕子京者谪守巴陵郡。越”的一共6行内容,可高亮显示“庆历四年春,滕子京者谪守巴陵郡。越”所在的目标段落,并将剩余段落普通显示。
除上述所列举的实施方式之外,文稿展示页面或文稿概览区域中也可不高亮显示正在播放的段落,此时第一显示模式与第二显示模式相同。此外,文稿展示页面或文稿概览区域中的文稿内容可以随着播放进度自动滚动,也可随着播放进度自动翻页等。
此外,考虑到目标音频节目内容还可能包含与音频内容对应的视频内容,因此除了图5B所述的形式之外,本申请实施例还提供另一种文稿概览区域的示意图,参阅图5C所示,其中的文稿概览区域位于播放控制区域的下方。再或者,文稿概览区域还可以视频播放区域并列,都位于播放控制区域的上方等,在此不做具体限定。
可选的,用户还可手动滚动文稿展示页面或文稿概览区域中当前显示的文稿内容,以查看当前显示的文稿内容部分之前或之后的内容。具体过程为:客户端响应于针对文稿展示页面或文稿概览区域触发的文稿拖动操作,根据文稿拖动操作拖动文稿展示页面中展示的文稿内容。此外,还可在文稿展示页面中的指定位置处显示跳转控件,用户可通过点击该跳转控件来进行点选;或者也可以不显示跳转控件,在用户将文稿展示页面或文稿概览区域中的某一行内容拖动到基准线位置处,即跳转至该行内容或这个该行内容所在段落对应的内容处开始播放。此时,也需要同步更新播放进度控件的播放进度,在下文中是以显示跳转控件进行举例说明的,当然也可以直接跳转,可根据用户体验进行设置。
参阅图6A所示,其为本申请实施例中的又一种文稿展示页面的示意图,在该文稿展示页面中,用户可通过拖动的方式上下滑动查看文稿内容。当用户触发文稿拖动操作时,在文稿展示页面中的指定位置处显示跳转控件,如图6A中虚线框S61所示,即为本申请实施例中所列举的一种跳转控件。用户可基于该跳转控件实现播放内容的跳转,以快速准确定位出特定片段。
在用户点击跳转控件时,客户端响应跳转控件的触发操作,更新播放进度控件的播放进度,将目标音频节目内容的播放进度调整为与跳转控件位于同一基准线的文稿内容对应的时间节点,并从该时间节点处开始播放目标音频节目内容。在不显示跳转控件的时候,客户端可直接在响应用户的文稿拖动操作后,更新播放进度控件的播放进度,并调整目标音频节目内容的播放进度。
例如,图6A所示,用户将“朝晖夕阴,气象万千。此则岳阳楼之”这一行内容对应的内容与基准线进行了对齐,在用户点击S61所示的跳转控件时,即可调整播放控制区域中的播放进度条至02:53这一时间节点开始播放。需要说明的是,图6A中所示的基准线也可不直接在文稿展示页面中显示出来。
除了上述所列举的跳转至“朝晖夕阴,气象万千。此则岳阳楼之”这一行内容处开始播放之外,也可跳转至“朝晖夕阴,气象万千。此则岳阳楼之”这一行内容所在的段落开始播放,该方式下,即跳转至“予观夫巴陵盛状”这一句所对应的时间节点开始播放。
此外,用户还可通过点击图6A中虚线框S62中所示的“返回在播位置”的按键,返回至当前播放进度对应的位置。
在上述实施方式中,用户除了可以概览目标音频节目内容之外,还可以基于文稿内容对音频内容进行搜寻,点选特定的段落或语句进行播放,快读定位出目标音频节目内容中的特定片段,实现快速精准的检索,从而有效提高用户对音频内容的搜寻效率。
可选的,除了上述所列举的调整进度的方式之外,用户还可通过调整播放进度控件来调整播放进度,具体的过程为:客户端响应于针对播放进度控件的操作,更新目标音频节目内容的播放进度,并从更新后的播放进度对应的时间节点处开始播放目标音频节目内容;将文稿展示页面或文稿概览区域显示的文稿内容跳转至与时间节点处开始播放的目标音频节目内容对应的文稿内容。
例如,用户将播放进度条从图4A所示的情况调整为图4B所示的情况时,客户端将目标音频节目内容的播放进度更新为2分23秒,并从该时刻开始播放,同时也将文稿展示页面或文稿概览区域显示的文稿内容跳转至2分23秒处开始播放。
需要说明的是,用户除了可以通过拖动、跳转等方法实现特定片段的快速定位之外,在文稿展示页面或文稿概览区域的指定位置处还可显示有切换控件。其中,在文稿展示页面或者是文稿概览区域中所显示的文稿也可随着播放进度自动滚动或翻页,当播放到下一章时,可自动切换显示下一章的文稿。也可在文稿展示页面或者是文稿概览区域的最底部(即指定位置处)显示“阅读下一章”这一切换控件,该控件是按钮的形式,按钮第二行小字显示下一章的标题,点击后直接切换到下一章。例如在如图6B所示的页面中的最下方显示“阅读下一章”这一切换控件,该切换控件上还显示有下一章的标题“醉翁庭记”。
当用户点击切换控件时,客户端响应于通过切换控件触发的切换操作,在文稿展示区域或文稿概览区域展示目标播放队列中目标音频节目内容的下一音频节目内容对应的文稿内容;以及,将播放控制页面中当前播放的目标音频节目内容切换为目标音频节目内容的下一音频节目内容,并进行播放。
需要说明的是,在听书时,一般小说都会有很多章节,上述所列举的是以直接跳转至下一章为例的,如果以节来划分时,也可在直接跳转至下一节进行播放,或者是显示“阅读下一节”这一切换控件,具体实现过程不再赘述。
可选的,除了图6B所示的方式之外,还可在文稿展示页面或文稿概览区域中的指定位置处显示该有声小说对应的播放列表的按钮,如图6C所示,用户点击“播放列表”按钮之后,即可跳转至图6C所示的页面,以浮层的形式显示相应的播放列表,由图6C可知,当前播放的书籍为唐诗宋词鉴赏,该播放列表用于展示其所包含的55章的标题,在用户点击选择第五章之后,即跳转至第五章进行播放,同时还可将文稿展示页面中的内容切换为第五章相对应的文稿内容。
此外,用户还可点击图6C中底部所示的关闭,关闭播放列表;还可点击下载到本地,将文稿内容直接保存在本地进行阅读等。
需要说的是,图6A至图6C中所列举的都是以文稿展示页面为例,对于文稿概览区域而言也可执行相同的操作,包含相同的控件,具体实现方式相同,在此不再重复赘述。
在介绍完上述实施例之后,再对本申请中的技术方案进行一下概括。参阅图7所示,其为本申请实施例中的一种音频节目内容的文稿显示方法的示意图。
在本申请实施例中,首先需要通过语音转写接口对音频节目内容的音频文件进行语音识别,之后以句子为单位划分文本内容,将语音识别得到的文本划分为一个一个句子,并记录每个句子对应的时间戳,这样客户端在文稿展示区域展示文稿内容时,即可根据当前音频播放进度,显示对应时间戳句子内容,滚动播放。其中,在记录句子对应的时间戳之外,还可记录句子中的每个字对应的时间戳等等。
其中,语音转写时还可采用深度全序列卷积神经网络等机器学习模型,通过机器学习模型可将长段音频节目内容(5小时以内)数据转换成文本数据。
此外,还可以50ms为间隔,对句子进行分段,并记录每个段落对应的时间戳,进而在文稿展示页面浮层中,即可根据当前音频播放进度,显示对应时间戳的段落内容,随播放高亮显示当前正在播放的段落的内容。
在上述实施方式中,使用按时间分段、滚动播放、当前位置高亮、跳转控件引导跳转等方式,使用户可以在文字和语音间灵活切换,通过文字精准定位语音位置,拥有更好的收听体验。
参阅图8所示,其为本申请实施例中的第二种音频节目内容的文稿显示控制方法的实施流程图,该方法应用于服务器,具体实施流程如下:
S81:对目标音频节目内容进行语音识别,得到目标音频节目内容中的音频内容对应的文稿内容,并根据音频内容为文稿内容添加相应的时间戳;
S82:接收到客户端发送的针对目标音频节目内容的播放请求后,将与音频内容对应的文稿内容发送给客户端,以使客户端播放音频内容并展示文稿内容,其中播放请求为客户端响应播放目标音频节目内容的播放操作后发送的。
其中,客户端在响应播放目标音频节目内容的播放操作后可向服务器发送播放请求,请求中含有目标音频节目内容的标识信息,用于唯一标识目标音频节目内容。服务器在接收到播放请求后,根据播放请求中的标识信息,查找与该标识对应的文稿内容发送给客户端即可。
此外,客户端在第一次向服务器请求目标音频节目内容对应的文稿内容之后,还可直接将该文稿内容保存到本地,在此之后,若客户端再次响应播放目标音频节目内容的播放操作时,则无需向服务器发送播放请求,直接从本地中查找相对应的文稿内容进行展示即可。
可选的,从目标音频节目内容中进行语音识别,得到目标音频节目内容中的音频内容对应的文稿内容,具体包括:
基于标点符号将从目标音频节目内容中语音识别得到的文本划分为句子;
根据句子之间的播放间隔划分段落,其中每相邻两个段落在对应音频内容中,前一段落的最后一个句子与后一段落的第一个句子之间的播放间隔大于预设时间阈值,且同一段落中每相邻两个句子之间的播放间隔不大于预设时间阈值。
需要说明的是,由服务器根据从目标音频节目内容中进行语音识别得到的文本,划分得到音频内容对应的文稿内容时,首先划分句子,进而再根据句子之间的播放间隔划分段落,具体过程可参见上述实施例,在此不再重复赘述。
在上述实施方式中,使用按时间分段、滚动播放、当前位置高亮、播放键引导跳转等方式,使用户可以在文字和语音间灵活切换,通过文字精准定位语音位置,拥有更好的收听体验。
参阅图9所示,为一种音频节目内容的文稿显示控制方法的交互时序图。该方法的具体实施流程如下:
步骤S91:服务器对目标音频节目内容进行语音识别,得到目标音频节目内容中的音频内容对应的文稿内容,并根据音频内容为文稿内容添加相应的时间戳;
步骤S92:客户端响应于播放目标音频节目内容的播放操作,向服务器发送针对目标音频节目内容的播放请求;
步骤S93:服务器将目标音频节目内容对应的文稿内容发送给客户端;
步骤S94:客户端显示播放控制页面并播放目标音频节目内容的音频内容;
步骤S95:客户端根据目标音频节目内容的播放进度,在文稿展示区域中以句子为单位滚动显示与当前播放进度对应的文稿内容部分;
步骤S96:客户端响应于文稿展示控件的触发操作,显示文稿展示页面;
步骤S97:客户端响应于针对文稿展示页面触发的文稿拖动操作,根据文稿拖动操作拖动文稿展示页面中展示的文稿内容,并在文稿展示页面中的指定位置处显示用于调整音频播放进度的跳转控件;
步骤S98:响应跳转控件的触发操作,将目标音频节目内容的播放进度调整为与跳转控件位于同一基准线的文稿内容对应的时间节点,并从该时间节点处开始播放目标音频节目内容。
基于相同的发明构思,本申请实施例还提供一种音频节目内容的文稿显示控制装置的组成结构示意图;如图10所示,其为音频节目内容的文稿显示控制装置1000的结构示意图,可以包括:
第一响应单元1001,用于响应于播放目标音频节目内容的播放操作,显示播放控制页面并播放目标音频节目内容的音频内容,播放控制页面包括音频内容的播放控制区域和文稿展示区域,以及
在文稿展示区域展示音频内容对应的文稿内容,其中文稿内容是对目标音频节目内容进行语音识别得到的。
可选的,文稿内容包括语音识别过程中划分的句子以及在句子之间添加的标点符号,第一响应单元1001具体用于:
根据目标音频节目内容的播放进度,在文稿展示区域中以句子为单位滚动显示与当前播放进度对应的文稿内容部分。
可选的,播放控制区域还包括播放暂停控件;装置还包括:
第二响应单元1002,用于响应播放暂停控件的触发操作,暂停播放目标音频节目内容;以及
在文稿展示区域中暂停滚动显示与当前播放进度对应的文稿内容部分。
可选的,文稿展示区域还包括文稿展示控件,装置还包括:
第三响应单元1003,用于响应于文稿展示控件的触发操作,显示文稿展示页面,文稿展示页面显示与当前播放进度对应的至少一行文稿内容部分,以及与至少一行文稿内容部分相邻的前M行内容和相邻的后N行内容中的至少一种,其中M和N为正整数;或
响应于文稿展示控件的触发操作,在播放控制页面的文稿概览区域显示与当前播放进度对应的至少一行文稿内容部分,以及与至少一行文稿内容部分相邻的前M行内容和相邻的后N行内容中的至少一种。
可选的,文稿内容包含至少两个段落时,每相邻两个段落在对应音频内容中,前一段落的最后一个句子与后一段落的第一个句子之间的播放间隔大于预设时间阈值,且同一段落中每相邻两个句子之间的播放间隔不大于预设时间阈值。
可选的,第三响应单元1003具体用于:
在文稿展示页面或文稿概览区域中,以第一显示模式显示包含至少一行文稿内容部分的目标段落,以及以第二显示模式显示除目标段落之外的其他段落的内容。
可选的,播放控制页面包括调整音频内容播放进度的播放进度控件,装置还包括:
第四响应单元1004,用于响应于针对文稿展示页面或文稿概览区域触发的文稿拖动操作,根据文稿拖动操作拖动文稿展示页面中展示的文稿内容;
更新播放进度控件的播放进度,将目标音频节目内容的播放进度调整为与跳转控件位于同一基准线的文稿内容对应的时间节点,并从时间节点处开始播放目标音频节目内容。
可选的,装置还包括:
第五响应单元1005,用于响应于针对播放进度控件的操作,更新目标音频节目内容的播放进度,并从更新后的播放进度对应的时间节点处开始播放目标音频节目内容;
将文稿展示页面或文稿概览区域显示的文稿内容跳转至与时间节点处开始播放的目标音频节目内容对应的文稿内容。
可选的,文稿展示页面或文稿概览区域的指定位置处显示有切换控件,切换控件用于控制文稿内容的切换;装置还包括:
第六响应单元1006,用于响应于通过切换控件触发的切换操作,在文稿展示区域或文稿概览区域展示目标播放队列中目标音频节目内容的下一音频节目内容对应的文稿内容;以及
将播放控制页面中当前播放的目标音频节目内容切换为目标音频节目内容的下一音频节目内容,并进行播放。
可选的,播放控制区域包括用于确认播放音频并展示文稿的第一选择控件,以及,第一响应单元1001具体用于:
响应第一选择控件的触发操作,播放目标音频节目内容的音频内容。
可选的,播放控制区域包括用于确认不播放音频但展示文稿的第二选择控件,第一响应单元1001还包括:
响应第二选择控件的触发操作,在文稿展示区域展示文稿内容并禁止播放音频内容。
可选的,播放控制页面还包括视频播放区域,目标音频节目内容还包括与音频内容对应的视频内容;装置还包括:
播放单元1007,用于在视频播放区域中播放视频内容。
基于相同的发明构思,本申请实施例还提供一种音频节目内容的文稿显示控制装置的组成结构示意图;如图11所示,其为音频节目内容的文稿显示控制装置1100的结构示意图,可以包括:
语音转写单元1101,用于对目标音频节目内容进行语音识别,得到目标音频节目内容中的音频内容对应的文稿内容,并根据音频内容为文稿内容添加相应的时间戳;
传输单元1102,用于接收到客户端发送的针对目标音频节目内容的播放请求后,将与音频内容对应的文稿内容发送给客户端,以使客户端播放音频内容并展示文稿内容,其中播放请求为客户端响应播放目标音频节目内容的播放操作后发送的。
可选的,语音转写单元1101具体用于:
基于标点符号将从目标音频节目内容中语音识别得到的文本划分为句子;
根据句子之间的播放间隔划分段落,其中每相邻两个段落在对应音频内容中,前一段落的最后一个句子与后一段落的第一个句子之间的播放间隔大于预设时间阈值,且同一段落中每相邻两个句子之间的播放间隔不大于预设时间阈值。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本申请示例性实施方式的音频节目内容的文稿显示控制方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的电子设备。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为***、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
图12是根据一示例性实施例示出的一种电子设备1200的框图,该装置包括:
处理器1210;
用于存储所述处理器1210可执行指令的存储器1220;
其中,所述处理器1210被配置为执行所述指令,以实现本申请实施例中的音频节目内容的文稿显示控制方法。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器1220,上述指令可由电子设备1200的处理器1210执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
基于同一发明构思,本申请实施例还提供了一种终端设备210,该终端设备210可以为智能手机、平板电脑,手提电脑或PC机等电子设备。参阅图13所示,其是根据一示例性实施例示出的一种终端设备210的框图,该终端设备210包括显示单元1340、处理器1380以及存储器1320,其中,显示单元1340包括显示面板1341,用于显示由用户输入的信息或提供给用户的信息以及终端设备210的各种对象选择页面等,在本申请实施例中主要用于显示终端设备210中已安装的应用的页面、快捷窗口等。可选的,可以采用LCD(Liquid CrystalDisplay,液晶显示器)或OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1341。
处理器1380用于读取计算机程序,然后执行计算机程序定义的方法,例如处理器1380读取社交应用程序,从而在该终端设备210上运行应用,在显示单元1340上显示应用的页面。处理器1380可以包括一个或多个通用处理器,还可包括一个或多个DSP(DigitalSignal Processor,数字信号处理器),用于执行相关操作,以实现本申请实施例所提供的技术方案。
存储器1320一般包括内存和外存,内存可以为随机存储器(RAM),只读存储器(ROM),以及高速缓存(CACHE)等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器1320用于存储计算机程序和其他数据,该计算机程序包括应用对应的应用程序等,其他数据可包括操作***或应用程序被运行后产生的数据,该数据包括***数据(例如操作***的配置参数)和用户数据。本申请实施例中程序指令存储在存储器1320中,处理器1380执行存储在存储器1320中的程序指令,实现前文论述的音频节目内容的文稿显示控制方法,或者实现前文论述的适配应用的功能。
此外,终端设备210还可以包括显示单元1340,用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势,以及产生与终端设备210的用户设置以及功能控制有关的信号输入等。具体地,本申请实施例中,该显示单元1340可以包括显示面板1341。显示面板1341例如触摸屏,可收集用户在其上或附近的触摸操作(比如玩家使用手指、触笔等任何适合的物体或附件在显示面板1341上或在显示面板1341的操作),并根据预先设定的程式驱动对应的连接装置。可选的,显示面板1341可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1380,并能接收处理器1380发来的命令并加以执行。
其中,显示面板1341可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元1340,终端设备210还可以包括输入单元1330,输入单元1330可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。图13中是以输入单元1330包括图像输入设备1331和其它输入设备1332为例。
除以上之外,终端设备210还可以包括用于给其他模块供电的电源1390、音频电路1360、近场通信模块1370和RF电路1310。终端设备210还可以包括一个或多个传感器1350,例如加速度传感器、光传感器、压力传感器等。音频电路1360具体包括扬声器1361和麦克风1362等,例如用户可以使用语音控制,终端设备210可以通过麦克风1362采集用户的声音,可以用户的声音进行控制,并在需要提示用户时,通过扬声器1361播放对应的提示音。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任意一种音频节目内容的文稿显示控制方法的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行***、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行***、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (15)
1.一种音频节目内容的文稿显示控制方法,其特征在于,包括:
响应于播放目标音频节目内容的播放操作,显示播放控制页面并播放所述目标音频节目内容的音频内容,所述播放控制页面包括所述音频内容的播放控制区域和文稿展示区域;以及
在所述文稿展示区域展示所述音频内容对应的文稿内容,其中所述文稿内容是对所述目标音频节目内容进行语音识别得到的。
2.如权利要求1所述的方法,其特征在于,所述文稿内容包括语音识别过程中划分的句子以及在句子之间添加的标点符号,所述在所述文稿展示区域展示所述音频内容对应的文稿内容,具体包括:
根据所述目标音频节目内容的播放进度,在所述文稿展示区域中以句子为单位滚动显示与当前播放进度对应的文稿内容部分。
3.如权利要求2所述的方法,其特征在于,所述播放控制区域还包括播放暂停控件;所述方法还包括:
响应所述播放暂停控件的触发操作,暂停播放所述目标音频节目内容;以及
在所述文稿展示区域中暂停滚动显示与当前播放进度对应的文稿内容部分。
4.如权利要求1所述的方法,其特征在于,所述文稿展示区域还包括文稿展示控件,所述方法还包括:
响应于所述文稿展示控件的触发操作,显示文稿展示页面,所述文稿展示页面显示与当前播放进度对应的至少一行文稿内容部分,以及与所述至少一行文稿内容部分相邻的前M行内容和相邻的后N行内容中的至少一种,其中M和N为正整数;或
响应于所述文稿展示控件的触发操作,在所述播放控制页面的文稿概览区域显示与当前播放进度对应的至少一行文稿内容部分,以及与所述至少一行文稿内容部分相邻的前M行内容和相邻的后N行内容中的至少一种。
5.如权利要求4所述的方法,其特征在于,所述文稿内容包含至少两个段落时,每相邻两个段落在对应音频内容中,前一段落的最后一个句子与后一段落的第一个句子之间的播放间隔大于预设时间阈值,且同一段落中每相邻两个句子之间的播放间隔不大于所述预设时间阈值。
6.如权利要求5所述的方法,其特征在于,在所述文稿展示页面或所述文稿概览区域中,以第一显示模式显示包含所述至少一行文稿内容部分的目标段落,以及以第二显示模式显示除所述目标段落之外的其他段落的内容。
7.如权利要求4所述的方法,所述播放控制页面包括调整音频内容播放进度的播放进度控件,其特征在于,所述方法还包括:
响应于针对所述文稿展示页面或所述文稿概览区域触发的文稿拖动操作,根据所述文稿拖动操作拖动所述文稿展示页面中展示的文稿内容;
更新所述播放进度控件的播放进度,将所述目标音频节目内容的播放进度调整为与文稿内容对应的时间节点,并从所述时间节点处开始播放所述目标音频节目内容。
8.如权利要求7所述的方法,其特征在于,所述方法还包括:
响应于针对所述播放进度控件的操作,更新所述目标音频节目内容的播放进度,并从更新后的播放进度对应的时间节点处开始播放所述目标音频节目内容;
将所述文稿展示页面或所述文稿概览区域显示的文稿内容跳转至与所述时间节点处开始播放的所述目标音频节目内容对应的文稿内容。
9.如权利要求4所述的方法,其特征在于,所述文稿展示页面或所述文稿概览区域的指定位置处显示有切换控件,所述切换控件用于控制文稿内容的切换;所述方法还包括:
响应于通过所述切换控件触发的切换操作,在所述文稿展示区域或所述文稿概览区域展示目标播放队列中所述目标音频节目内容的下一音频节目内容对应的文稿内容;以及
将所述播放控制页面中当前播放的所述目标音频节目内容切换为所述目标音频节目内容的下一音频节目内容,并进行播放。
10.如权利要求1~9任一项所述的方法,其特征在于,所述播放控制区域包括用于确认播放音频并展示文稿的第一选择控件,以及,所述播放所述目标音频节目内容的音频内容,具体包括:
响应所述第一选择控件的触发操作,播放所述目标音频节目内容的音频内容。
11.一种音频节目内容的文稿显示控制方法,其特征在于,该方法包括:
对目标音频节目内容进行语音识别,得到所述目标音频节目内容中的音频内容对应的文稿内容,并根据所述音频内容为所述文稿内容添加相应的时间戳;
接收到客户端发送的针对所述目标音频节目内容的播放请求后,将与所述音频内容对应的文稿内容发送给所述客户端,以使所述客户端播放所述音频内容并展示所述文稿内容,其中所述播放请求为所述客户端响应播放所述目标音频节目内容的播放操作后发送的。
12.一种音频节目内容的文稿显示控制装置,其特征在于,包括:
第一响应单元,用于响应于播放目标音频节目内容的播放操作,显示播放控制页面并播放所述目标音频节目内容的音频内容,所述播放控制页面包括所述音频内容的播放控制区域和文稿展示区域;以及
在所述文稿展示区域展示所述音频内容对应的文稿内容,其中所述文稿内容是对所述目标音频节目内容进行语音识别得到的。
13.一种音频节目内容的文稿显示控制装置,其特征在于,包括:
语音转写单元,用于对目标音频节目内容进行语音识别,得到所述目标音频节目内容中的音频内容对应的文稿内容,并根据所述音频内容为所述文稿内容添加相应的时间戳;
传输单元,用于接收到客户端发送的针对所述目标音频节目内容的播放请求后,将与所述音频内容对应的文稿内容发送给所述客户端,以使所述客户端播放所述音频内容并展示所述文稿内容,其中所述播放请求为所述客户端响应播放所述目标音频节目内容的播放操作后发送的。
14.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~10中任一所述方法的步骤或权利要求11所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1~10中任一所述方法的步骤或权利要求11所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010774616.XA CN111970257B (zh) | 2020-08-04 | 2020-08-04 | 一种文稿显示控制方法、装置、电子设备和存储介质 |
CN202210119024.3A CN114501106A (zh) | 2020-08-04 | 2020-08-04 | 一种文稿显示控制方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010774616.XA CN111970257B (zh) | 2020-08-04 | 2020-08-04 | 一种文稿显示控制方法、装置、电子设备和存储介质 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210119024.3A Division CN114501106A (zh) | 2020-08-04 | 2020-08-04 | 一种文稿显示控制方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111970257A true CN111970257A (zh) | 2020-11-20 |
CN111970257B CN111970257B (zh) | 2022-01-11 |
Family
ID=73363885
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210119024.3A Pending CN114501106A (zh) | 2020-08-04 | 2020-08-04 | 一种文稿显示控制方法、装置、电子设备和存储介质 |
CN202010774616.XA Active CN111970257B (zh) | 2020-08-04 | 2020-08-04 | 一种文稿显示控制方法、装置、电子设备和存储介质 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210119024.3A Pending CN114501106A (zh) | 2020-08-04 | 2020-08-04 | 一种文稿显示控制方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN114501106A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397104A (zh) * | 2020-11-26 | 2021-02-23 | 北京字节跳动网络技术有限公司 | 音频与文本的同步方法、装置、可读介质和电子设备 |
CN112699687A (zh) * | 2021-01-07 | 2021-04-23 | 北京声智科技有限公司 | 内容编目方法、装置和电子设备 |
CN113552984A (zh) * | 2021-08-09 | 2021-10-26 | 北京字跳网络技术有限公司 | 文本提取方法、装置、设备及介质 |
CN113946263A (zh) * | 2021-10-18 | 2022-01-18 | 网易(杭州)网络有限公司 | 播放控制方法、装置以及电子终端 |
CN114139073A (zh) * | 2021-10-29 | 2022-03-04 | 北京达佳互联信息技术有限公司 | 一种对象展示方法、装置、电子设备及存储介质 |
CN114338579A (zh) * | 2021-12-29 | 2022-04-12 | 南京大众书网图书文化有限公司 | 一种用于配音的方法、设备、介质及程序产品 |
CN114647357A (zh) * | 2020-12-02 | 2022-06-21 | 深圳市万普拉斯科技有限公司 | 语音便签的处理方法、装置及终端 |
CN115002549A (zh) * | 2021-03-01 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 视频画面的显示方法、装置、设备及介质 |
WO2024037480A1 (zh) * | 2022-08-15 | 2024-02-22 | 北京字跳网络技术有限公司 | 交互方法、装置、电子设备和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115373786A (zh) * | 2022-08-25 | 2022-11-22 | 北京字跳网络技术有限公司 | 多媒体播放方法、装置、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017038794A1 (ja) * | 2015-08-31 | 2017-03-09 | 株式会社 東芝 | 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム |
CN108241598A (zh) * | 2016-12-26 | 2018-07-03 | 北京奇虎科技有限公司 | 一种演示文稿的制作方法和装置 |
CN109246472A (zh) * | 2018-08-01 | 2019-01-18 | 平安科技(深圳)有限公司 | 视频播放方法、装置、终端设备及存储介质 |
CN109634700A (zh) * | 2018-11-26 | 2019-04-16 | 维沃移动通信有限公司 | 一种音频的文本内容显示方法及终端设备 |
CN110347848A (zh) * | 2019-07-11 | 2019-10-18 | 深圳云智教育科技有限公司 | 一种演示文稿管理方法及装置 |
CN110798733A (zh) * | 2019-10-30 | 2020-02-14 | 中央电视台 | 一种字幕生成方法、装置及计算机存储介质、电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080005656A1 (en) * | 2006-06-28 | 2008-01-03 | Shu Fan Stephen Pang | Apparatus, method, and file format for text with synchronized audio |
US9798514B2 (en) * | 2016-03-09 | 2017-10-24 | Spotify Ab | System and method for color beat display in a media content environment |
CN107767871B (zh) * | 2017-10-12 | 2021-02-02 | 安徽听见科技有限公司 | 文本显示方法、终端及服务器 |
KR102659863B1 (ko) * | 2018-11-28 | 2024-04-24 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
-
2020
- 2020-08-04 CN CN202210119024.3A patent/CN114501106A/zh active Pending
- 2020-08-04 CN CN202010774616.XA patent/CN111970257B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017038794A1 (ja) * | 2015-08-31 | 2017-03-09 | 株式会社 東芝 | 音声認識結果表示装置、音声認識結果表示方法、音声認識結果表示プログラム |
CN108241598A (zh) * | 2016-12-26 | 2018-07-03 | 北京奇虎科技有限公司 | 一种演示文稿的制作方法和装置 |
CN109246472A (zh) * | 2018-08-01 | 2019-01-18 | 平安科技(深圳)有限公司 | 视频播放方法、装置、终端设备及存储介质 |
CN109634700A (zh) * | 2018-11-26 | 2019-04-16 | 维沃移动通信有限公司 | 一种音频的文本内容显示方法及终端设备 |
CN110347848A (zh) * | 2019-07-11 | 2019-10-18 | 深圳云智教育科技有限公司 | 一种演示文稿管理方法及装置 |
CN110798733A (zh) * | 2019-10-30 | 2020-02-14 | 中央电视台 | 一种字幕生成方法、装置及计算机存储介质、电子设备 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397104A (zh) * | 2020-11-26 | 2021-02-23 | 北京字节跳动网络技术有限公司 | 音频与文本的同步方法、装置、可读介质和电子设备 |
WO2022111206A1 (zh) * | 2020-11-26 | 2022-06-02 | 北京字节跳动网络技术有限公司 | 音频与文本的同步方法、装置、可读介质和电子设备 |
CN114647357A (zh) * | 2020-12-02 | 2022-06-21 | 深圳市万普拉斯科技有限公司 | 语音便签的处理方法、装置及终端 |
CN112699687A (zh) * | 2021-01-07 | 2021-04-23 | 北京声智科技有限公司 | 内容编目方法、装置和电子设备 |
CN115002549A (zh) * | 2021-03-01 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 视频画面的显示方法、装置、设备及介质 |
CN115002549B (zh) * | 2021-03-01 | 2024-05-24 | 腾讯科技(深圳)有限公司 | 视频画面的显示方法、装置、设备及介质 |
CN113552984A (zh) * | 2021-08-09 | 2021-10-26 | 北京字跳网络技术有限公司 | 文本提取方法、装置、设备及介质 |
CN113946263A (zh) * | 2021-10-18 | 2022-01-18 | 网易(杭州)网络有限公司 | 播放控制方法、装置以及电子终端 |
CN114139073A (zh) * | 2021-10-29 | 2022-03-04 | 北京达佳互联信息技术有限公司 | 一种对象展示方法、装置、电子设备及存储介质 |
CN114338579A (zh) * | 2021-12-29 | 2022-04-12 | 南京大众书网图书文化有限公司 | 一种用于配音的方法、设备、介质及程序产品 |
CN114338579B (zh) * | 2021-12-29 | 2024-02-09 | 南京大众书网图书文化有限公司 | 一种用于配音的方法、设备、介质 |
WO2024037480A1 (zh) * | 2022-08-15 | 2024-02-22 | 北京字跳网络技术有限公司 | 交互方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114501106A (zh) | 2022-05-13 |
CN111970257B (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111970257B (zh) | 一种文稿显示控制方法、装置、电子设备和存储介质 | |
US10528623B2 (en) | Systems and methods for content curation in video based communications | |
US11302337B2 (en) | Voiceprint recognition method and apparatus | |
US10311101B2 (en) | Methods, systems, and media for searching for video content | |
US10379712B2 (en) | Conversation user interface | |
EP3504704B1 (en) | Facilitating creation and playback of user-recorded audio | |
US12022974B2 (en) | Natural conversation storytelling system | |
US8972265B1 (en) | Multiple voices in audio content | |
US20180130496A1 (en) | Method and system for auto-generation of sketch notes-based visual summary of multimedia content | |
EP3465462A1 (en) | Unknown word predictor and content-integrated translator | |
US20150179170A1 (en) | Discriminative Policy Training for Dialog Systems | |
US11107465B2 (en) | Natural conversation storytelling system | |
US20200357382A1 (en) | Oral, facial and gesture communication devices and computing architecture for interacting with digital media content | |
US20140013192A1 (en) | Techniques for touch-based digital document audio and user interface enhancement | |
US20190204998A1 (en) | Audio book positioning | |
CN112752121B (zh) | 一种视频封面生成方法及装置 | |
WO2019045816A1 (en) | GRAPHIC DATA SELECTION AND DIGITAL CONTENT PRESENTATION | |
CN113761268A (zh) | 音频节目内容的播放控制方法、装置、设备和存储介质 | |
US10089059B1 (en) | Managing playback of media content with location data | |
JP7225380B2 (ja) | 音声パケット記録機能のガイド方法、装置、デバイス、プログラム及びコンピュータ記憶媒体 | |
CN113068077B (zh) | 一种字幕文件处理方法及装置 | |
WO2015157711A1 (en) | Methods, systems, and media for searching for video content | |
JP7230803B2 (ja) | 情報処理装置および情報処理方法 | |
US20170147694A1 (en) | Method and system for providing interaction driven electronic social experience | |
WO2020023070A1 (en) | Text-to-speech interface featuring visual content supplemental to audio playback of text documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |