CN111359209A - 视频播放方法、装置和终端 - Google Patents
视频播放方法、装置和终端 Download PDFInfo
- Publication number
- CN111359209A CN111359209A CN202010127311.XA CN202010127311A CN111359209A CN 111359209 A CN111359209 A CN 111359209A CN 202010127311 A CN202010127311 A CN 202010127311A CN 111359209 A CN111359209 A CN 111359209A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- video
- dubbing
- target application
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 230000005236 sound signal Effects 0.000 claims abstract description 335
- 230000008569 process Effects 0.000 claims abstract description 49
- 230000009191 jumping Effects 0.000 claims abstract description 13
- 230000004044 response Effects 0.000 claims description 40
- 230000007704 transition Effects 0.000 claims description 4
- 238000006467 substitution reaction Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 34
- 238000013473 artificial intelligence Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 3
- 239000000919 ceramic Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/50—Controlling the output signals based on the game progress
- A63F13/52—Controlling the output signals based on the game progress involving aspects of the displayed game scene
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/50—Controlling the output signals based on the game progress
- A63F13/54—Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本公开提供了一种视频播放方法、装置和终端,涉及互联网技术领域,方法包括:在运行目标应用的过程中,响应于目标应用运行至目标场景,跳转至目标应用的剧***播放界面,播放目标场景对应的剧***;在播放剧***的过程中,响应于剧***播放至配音节点,采集被输入的第一音频信号;根据配音节点对应的第二音频信号,对第一音频信号进行评分,得到第一音频信号的评分结果;在剧***的显示画面中展示配音节点对应的第一音频信号的评分结果;基于评分结果继续运行目标应用,从而使用户不能跳过剧***,使得剧***的曝光率达到目标水平,保证了目标应用的开发者可以向用户传达到该目标应用的相关信息,提高了目标应用的代入感和互动性。
Description
技术领域
本公开涉及互联网技术领域,特别涉及一种视频播放方法、装置和终端。
背景技术
为了能使用户在玩游戏时更有代入感,从而提高用户的游戏体验,一些游戏开发者在游戏中加入了剧***,剧***是与游戏的故事背景相关的视频,在游戏过程中的指定游戏节点播放该剧***。
相关技术中,在启动游戏或解锁游戏的新章节时,可以播放本游戏或本章节的剧***,从而用户可以通过观看剧***了解游戏的故事背景,在剧***播放完成后,继续进行游戏进程,从而用户可以继续玩游戏。其中,剧***的显示画面中可以显示视频画面的快进按钮或跳过按钮等。相应的,用户可以通过快进按钮,加速播放剧***;或通过跳过按钮,跳过剧***等。
上述相关技术中,在播放剧***时,用户为了能尽快开始游戏进程常常会选择直接跳过剧***,或快速推进剧***,使剧***的展示效果大打折扣,影响游戏开发者向用户传达游戏信息,游戏代入感和互动性差。
发明内容
本公开实施例提供了一种视频播放方法、装置和终端,提高了目标应用的代入感和互动性。所述技术方案如下:
一方面,提供了一种视频播放方法,所述方法包括:
在运行目标应用的过程中,响应于所述目标应用运行至目标场景,跳转至所述目标应用的剧***播放界面,播放所述目标场景对应的剧***,所述剧***包括至少一个配音节点;
在播放所述剧***的过程中,响应于所述剧***播放至配音节点,采集被输入的第一音频信号;
根据所述配音节点对应的第二音频信号,对所述第一音频信号进行评分,得到所述第一音频信号的评分结果,所述第二音频信号为所述配音节点对应的标准语音的音频信号;
在所述剧***的显示画面中展示所述配音节点对应的第一音频信号的评分结果;
基于所述评分结果继续运行所述目标应用。
在一种可能的实现方式中,所述根据所述配音节点对应的第二音频信号,对所述第一音频信号进行评分,得到所述第一音频信号的评分结果,包括:
对所述第一音频信号进行语音识别,得到第一文本信息,以及获取所述第二音频信号的第二文本信息;
确定所述第一文本信息与所述第二文本信息之间的第一匹配度;
根据所述第一匹配度,确定所述第一音频信号的评分结果。
在另一种可能的实现方式中,所述根据所述配音节点对应的第二音频信号,对所述第一音频信号进行评分,得到所述第一音频信号的评分结果,还包括:
提取所述第一音频信号的第一发音特征;以及,获取所述第二音频信号的第二发音特征,所述第二发音特征为所述配音节点对应的标准发音方式对应的发音特征;
确定所述第一发音特征和所述第二发音特征之间的第二匹配度;
根据所述第二匹配度,确定所述第一音频信号的评分结果。
在另一种可能的实现方式中,所述根据所述配音节点对应的第二音频信号,对所述第一音频信号进行评分,得到所述第一音频信号的评分结果,还包括:
确定所述第一音频信号的第一时长,以及,获取所述第二音频信号的第二时长;
根据所述第一时长和所述第二时长,确定所述第一音频信号的评分结果。
在另一种可能的实现方式中,所述基于所述评分结果继续运行所述目标应用,包括:
响应于所述评分结果高于预设阈值,显示第一提示信息,所述第一提示信息用于提示本次配音成功;继续播放所述剧***,直到所述剧***播放完成,跳转至所述目标应用的运行界面,继续运行所述目标应用;或者,
响应于所述评分结果不高于所述预设阈值,显示第二提示信息,所述第二提示信息用于提示配音失败;返回所述配音节点之前的视频节点,重新播放所述配音节点之前的剧***。
在另一种可能的实现方式中,所述采集被输入的第一音频信号之前,所述方法还包括:
在所述剧***的所述配音节点对应的显示画面中显示录音按钮;
响应于所述录音按钮的状态转变为录音状态,执行所述采集被输入的第一音频信号的步骤。
在另一种可能的实现方式中,所述采集被输入的第一音频信号,包括:
确定所述配音节点对应的配音时长;响应于当前录音时长在所述配音时长内,采集所述第一音频信号;响应于当前录音时长超过所述配音时长,停止采集所述第一音频信号;或者,
响应于检测到当前环境中的音频信号,采集所述第一音频信号。
在另一种可能的实现方式中,所述方法还包括:
在采集所述第一音频信号的过程中,在所述剧***的显示画面中显示所述第二音频信号的第二文本信息;根据所述第二音频信号的标准配音进度,更改所述第二文本信息的显示状态;或者,
在采集所述第一音频信号的过程中,在所述剧***的显示画面中显示所述第二音频信号对应的问题文本信息;根据所述问题文本信息的标准配音进度,更改所述问题文本信息的显示状态。
另一方面,提供了一种视频播放装置,所述装置包括:
视频播放模块,用于在运行目标应用的过程中,响应于所述目标应用运行至目标场景,跳转至所述目标应用的剧***播放界面,播放所述目标场景对应的剧***,所述剧***包括至少一个配音节点;
采集模块,用于在播放所述剧***的过程中,响应于所述剧***播放至配音节点,采集被输入的第一音频信号;
评分模块,用于根据所述配音节点对应的第二音频信号,对所述第一音频信号进行评分,得到所述第一音频信号的评分结果,所述第二音频信号为所述配音节点对应的标准语音的音频信号;
第一显示模块,用于在所述剧***的显示画面中展示所述配音节点对应的第一音频信号的评分结果;
运行模块,用于基于所述评分结果继续运行所述目标应用。
在一种可能的实现方式中,所述评分模块,还用于对所述第一音频信号进行语音识别,得到第一文本信息,以及获取所述第二音频信号的第二文本信息;确定所述第一文本信息与所述第二文本信息之间的第一匹配度;根据所述第一匹配度,确定所述第一音频信号的评分结果。
在另一种可能的实现方式中,所述评分模块,还用于提取所述第一音频信号的第一发音特征;以及,获取所述第二音频信号的第二发音特征,所述第二发音特征为所述配音节点对应的标准发音方式对应的发音特征;确定所述第一发音特征和所述第二发音特征之间的第二匹配度;根据所述第二匹配度,确定所述第一音频信号的评分结果。
在另一种可能的实现方式中,所述评分模块,还用于确定所述第一音频信号的第一时长,以及,获取所述第二音频信号的第二时长;根据所述第一时长和所述第二时长,确定所述第一音频信号的评分结果。
在另一种可能的实现方式中,所述运行模块,还用于响应于所述评分结果高于预设阈值,显示第一提示信息,所述第一提示信息用于提示本次配音成功;继续播放所述剧***,直到所述剧***播放完成,跳转至所述目标应用的运行界面,继续运行所述目标应用;或者,响应于所述评分结果不高于所述预设阈值,显示第二提示信息,所述第二提示信息用于提示配音失败;返回所述配音节点之前的视频节点,重新播放所述配音节点之前的剧***。
在另一种可能的实现方式中,所述装置还包括:
第二显示模块,用于在所述剧***的所述配音节点对应的显示画面中显示录音按钮;
所述采集模块,还用于响应于所述录音按钮的状态转变为录音状态,采集被输入的第一音频信号。
在另一种可能的实现方式中,所述采集模块,还用于确定所述配音节点对应的配音时长;响应于当前录音时长在所述配音时长内,采集所述第一音频信号;响应于当前录音时长超过所述配音时长,停止采集所述第一音频信号;或者,响应于检测到当前环境中的音频信号,采集所述第一音频信号。
在另一种可能的实现方式中,所述装置还包括:
第三显示模块,用于在采集所述第一音频信号的过程中,在所述剧***的显示画面中显示所述第二音频信号的第二文本信息;根据所述第二音频信号的标准配音进度,更改所述第二文本信息的显示状态;或者,
第四显示模块,用于在采集所述第一音频信号的过程中,在所述剧***的显示画面中显示所述第二音频信号对应的问题文本信息;根据所述问题文本信息的标准配音进度,更改所述问题文本信息的显示状态。
另一方面,提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现如本公开实施例中所述的视频播放方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储至少一条指令,所述至少一条指令由处理器加载并执行,以实现如本公开实施例中所述的视频播放方法。
本公开实施例提供的技术方案带来的有益效果是:
在本公开实施例中,通过在运行目标应用的过程中,响应于目标应用运行至目标场景,跳转至目标应用的剧***播放界面,播放目标场景对应的剧***,剧***包括至少一个配音节点;在播放剧***的过程中,响应于剧***播放至配音节点,采集被输入的第一音频信号;根据配音节点对应的第二音频信号,对第一音频信号进行评分,得到第一音频信号的评分结果,第二音频信号为配音节点对应的标准语音的音频信号;在剧***的显示画面中展示配音节点对应的第一音频信号的评分结果;基于评分结果继续运行目标应用,从而使用户不能跳过剧***,使得剧***的曝光率达到目标水平,进而保证了目标应用的开发者可以向用户传达到该目标应用的相关信息,提高了目标应用的代入感和互动性。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开实施例提供的一种视频播放方法的实施环境;
图2是根据本公开实施例提供的一种视频播放方法流程的示意图;
图3是根据本公开实施例提供的一种视频播放方法流程的示意图;
图4是根据本公开实施例提供的一种目标应用的显示画面的示意图;
图5是根据本公开实施例提供的一种目标应用的显示画面的示意图;
图6是根据本公开实施例提供的一种目标应用的显示画面的示意图;
图7是根据本公开实施例提供的一种视频播放装置的框图;
图8是根据本公开实施例提供的一种终端的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
随着人工智能技术研究和进步,人工智能(Artificial Intelligence,AI)技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
在本公开实施例中,通过人工智能技术检测目标应用的运行场景,以及检测剧***中的配音节点等。在采集到第一音频信号后,通过语音技术和自然语言处理技术识别第一音频信号,从而与第二音频信号进行对比,得到第一音频信号的评分结果。
图1是根据本公开示例性实施例示出的一种视频播放方法所涉及的实施环境的示意图。参见图1,该实施环境包括终端101和服务器102。终端101和服务器102之间可以通过网络连接进行数据交互。终端101中运行服务器102关联的目标应用,基于该目标应用可以登录服务器102,从而与服务器102之间进行交互。
终端101可以为手机终端、PAD(Portable Android Device,平板电脑)终端、电脑终端或者可穿戴设备等。服务器102是指为终端101提供后台服务的服务器102,可以为一台服务器102,或者由若干台服务器102组成的服务器102集群,或者是一个云计算服务器102中心,在本公开实施例中对此不做限定。
终端101中运行目标应用,该目标应用在运行的过程中可以产生至少一个目标场景,响应于目标应用运行至目标场景,终端101的显示界面跳转至该目标应用的剧***播放界面,终端101基于该剧***播放界面播放该目标应用的目标场景对应的剧***。其中,该剧***包括至少一个配音节点。在播放该剧***的过程中,响应于该剧***播放至配音节点,终端101开始采集被输入的第一音频信号。终端101根据事先存储的该配音节点对应的标准的第二音频信号,对第一音频信号进行评分,得到第一音频信号的评分结果,在剧***的显示画面中展示该配音节点对应的第一音频信号的评分结果,基于该评分结果继续运行该目标应用。
服务器102中可以存储该目标应用的剧***的至少一个配以节点对应的第二音频信号。相应的,在一种可能的实现方式中,终端101从服务器102中获取该至少一个配音节点对应的第二音频信号,当采集到第一音频信号时,根据采集的第一音频信号的配音节点确定第二音频信号,进而根据第二音频信号对该第一音频信号进行评分,得到第一音频信号的评分结果。
在另一种可能的实现方式中,终端101将采集到的第一音频信号和该第一音频信号对应的配音节点发送给服务器102,由服务器102根据该配音节点的第二音频信号,对该第一音频信号进行评分,得到第一音频信号的评分结果,将该第一评分结果发送给终端101,终端101接收服务器102发送的该第一音频信号的评分结果。
图2为根据一示例性实施例提供的一种视频播放方法流程图。如图2所示,该方法包括以下步骤:
步骤201:在运行目标应用的过程中,响应于该目标应用运行至目标场景,终端跳转至该目标应用的剧***播放界面,播放该目标场景对应的剧***,该剧***包括至少一个配音节点。
其中,该目标应用可以为终端中预置的应用;该目标应用还可以为第三方提供的应用。例如,该目标应用可以为通过应用下载中心下载的应用,该目标应用还可以为公众号或小程序等提供的快应用。在本公开实施例中对此不作具体限定。
该目标场景可以根据目标应用的功能进行设置,该剧***可以为与该目标应用相关的剧***。例如,该目标应用可以为游戏应用。相应的,该剧***可以为与该游戏应用设定的游戏背景相关的剧***等。该目标场景可以为启动该游戏应用的场景、游戏账号解锁新的游戏章节的场景、游戏账号达到目标等级的场景、游戏账号获取的新的游戏道具或新的卡牌的场景等。
该配音节点可以根据剧***的内容进行设置,也可以根据剧***的播放时长进行设置,在本公开实施例中,对此不作具体限定。例如,该配音节点可以根据剧***的内容中对话的游戏角色进行设置。
在本步骤中,参见图3,终端中运行目标应用,检测目标应用的运行场景,响应于检测到目标应用的运行场景为目标场景时,终端将当前显示的界面跳转至剧***播放界面,基于该剧***播放界面播放该目标场景对应的剧***301。
在一种可能的实现方式中,终端检测到目标应用运行至目标场景时,直接跳转至该目标场景对应的剧***播放界面中。例如,该目标应用的目标场景为启动目标应用的场景,则响应于终端检测到目标应用被启动,播放该目标应用的启动剧***。
在本实现方式中,终端在检测到目标应用运行至目标场景时,直接跳转至该目标场景对应的剧***播放界面中,使得用户需要时刻注意剧***的播放进度,从而及时进行配音,进而证了用户足够关注该目标应用的剧***,使得目标应用的开发者可以向用户传达到该目标应用的相关信息,提高了目标应用的代入感和互动性。
在另一种可能的实现方式中,终端检测到目标应用运行到目标场景时,显示第三提示信息,该第三提示信息用于提示用户当前已运行至目标场景,可以播放剧***。相应的,响应于接收到用户触发的确认播放的指令,跳转至该目标场景对应的剧***播放界面中。例如,该目标场景为目标应用的账号达到目标等级的场景,相应的,目标应用的显示画面中可以弹出第三提示信息相关的对话框,该对话框的内容可以为“您已达到目标等级,是否开启剧***”,该对话框中还包括选项按钮,该选项按钮可以为“是”和“否”等。相应的,当检测到用户点击“是”对应的按钮时,播放该目标等级对应的剧***。
在本实现方式中,终端检测到目标应用运行到目标场景时,显示第三提示信息,响应于接收到用户触发的确认播放的指令,跳转至该目标场景对应的剧***播放界面中,从而在接收到用户的确定播放的指令时才跳转至剧***播放界面中,防止了用户在不方便观看剧***时,终端直接播放该剧***,影响用户体验。
需要说明的一点是,当用户没有触发播放剧***的指令时,目标应用的运行界面中还可以显示剧***按钮,响应于检测到剧***按钮被触发,终端执行跳转至剧***播放界面,基于该剧***播放界面播放该剧***。
需要说明的另一点是,该目标场景的数量和位置,以及每个目标场景中的配音节点的数量和位置可以根据需要进行设置,在本公开实施例中,对此均不作具体限定。
步骤202:在播放该剧***的过程中,响应于该剧***播放至配音节点,终端采集被输入的第一音频信号。
剧***中包括至少一个配音节点。继续参见图3,终端在播放剧***的过程中,检测剧***是否播放到该剧***的配音节点处302,响应于检测到剧***播放到配音节点处,终端采集被输入的第一音频信号303。其中,该配音节点可以设置为目标角色的语音节点,该配音节点还可以为需要回答目标问题的节点等。
终端可以在录音过程中显示录音按钮,通过该录音按钮提示用户当前需要为剧***进行配音。例如,该配音提示按钮可以为录音按钮,参见图4,终端在该剧***的该配音节点对应的显示画面中显示录音按钮401;响应于该录音按钮的状态转变为录音状态,终端执行步骤202。继续参见图4,该剧***的该配音节点对应的显示画面中在录音之前还可以显示提示信息,用于提示用户将要进行配音,该提示信息可以为“即将开启下一点配音”
要说明的一点是,该录音按钮可以一直显示在播放的剧***的画面中;该录音按钮也可以在剧***未播放到配音节点时,不显示在剧***的画面中,而在剧***播放到配音节点时,显示在剧***的配音节点对应的显示画面中,在本公开实施例中,对此不作具体限定。
另外,终端检测到剧***播放到配音节点处,可以直接开始采集被输入的第一音频信号;终端还可以在接收到用户输入的开始指令时,开始采集被输入的第一音频信号。在本公开实施例中,对此不作具体限定。相应的,在一种可能的实现方式中,当终端检测到剧***播放到配音节点处,可以直接显示录音状态的录音按钮,或者,直接将录音按钮的显示状态由未录音状态转变为录音状态。在另一种可能的实现方式中,当终端检测到剧***播放到配音节点处,显示未录音状态的录音按钮,当接收到用户的录音操作时,录音按钮由未录音状态转变为录音状态。其中,录音操作可以为对终端的显示屏幕的点击操作、长按操作;或者,对录音按钮的点击操作或长按操作等。
录音按钮的未录音状态和录音状态可以根据需要进行设置并更改,在本公开实施例中,对此不作具体限定。例如,录音按钮的未录音状态为灰度按钮状态,录音状态为彩色按钮状态;或者,录音按钮的未录音状态为静态按钮状态,录音状态为动画显示状态等。另外,该录音按钮的形状和位置可以根据需要就行设置并更改,在本公开实施例中,对此不作具体限定。
终端在剧***的配音节点处,接收用户输入的为该配音节点录制的第一音频信号。终端可以根据接收到的用户的操作进行第一音频信号的采集;终端可以根据采集时长进行第一音频信号的采集;终端还可以根据当前环境中的音频信号进行第一音频信号的采集。
相应的,在一种可能的实现方式中,终端根据用户的录音操作采集用户输入的第一音频信号。例如,终端可以检测用户的长按操作,在检测到的长按操作内采集用户输入的第一音频信号;或者,终端在接收到用户的第一次点击操作时,开始采集音频信号,在接收到第二次点击操作时,停止采集音频信号,将该第一次点击操作和第二次点击操作之间采集到的音频信号作为第一音频信号。
在本实现方式中,终端根据用户的录音操作采集用户输入的第一音频信号,从而使用户可以在准备好的情况下进行录音,保证配音的成功率,从而提高了用户体验。
在一种可能的实现方式中,终端确定该配音节点对应的配音时长;响应于当前录音时长在该配音时长内,终端采集该第一音频信号;响应于当前录音时长超过该配音时长,终端停止采集该第一音频信号。
终端获取每个配音节点对应的配音时长,在每个配音节点对应的配音时长内采集第一音频信号。第一终端可以在开始录音时进行计时,得到当前录音时长。比较当前录音时长和配音时长的大小,响应于当前录音时长小于该配音节点的配音时长时,终端采集第一音频信号;响应于当前录音时长不小于该配音节点的配音时长时,终端停止采集第一音频信号。
在本实现方式中,终端根据配音节点的配音时长采集第一音频信号,使得用户需要在配音时长内进行录音,通过限时录音提高用户的紧张感,从而提高用户体验。
需要说明的一点是,每个剧***的至少一个配音节点的配音时长可以相同也可以不同,在本公开实施例中,对此不作具体限定。该至少一个配音节点对应不同的节点标识,该节点标识包括该配音节点所在的剧情视屏的信息,以及该配音节点的标识信息。当至少一个配音节点的配音时长不同时,终端根据该配音节点的节点标识,确定该配音节点对应的配音时长。
在另一种可能的实现方式中,响应于检测到当前环境中的音频信号,终端采集该第一音频信号。
终端开始采集第一音频信号时,检测当前环境中的音频信号,响应于检测到当前环境中的音频信号时,采集该音频信号,将该音频信号作为第一音频信号,响应于终端在目标时长内未检测到当前环境中的第一音频信号,停止采集该第一音频信号。其中,终端检测当前环境中的音频信号的过程可以为:终端检测当前环境中的音频信号的信号质量,响应于检测到当前环境中音频信号的信号质量低于预设信号质量,终端确定没有检测到音频信号;响应于检测到当前环境中音频信号的信号质量不低于预设信号质量,终端确定检测到音频信号。
该音频信号的信号质量可以根据音频信号的高低、强弱等特性确定。该预设信号质量可以根据需要进行设置,在本公开实施例中,对该预设信号质量不作具体限定。
另外,在采集第一音频的过程中,剧***的显示画面上还可以显示提示信息。响应于该配音节点为目标角色的语音节点,该提示信息可以为该配音节点的第二音频信号对应的第二文本信息;响应于该配音节点为需要回答目标问题的节点,该提示信息为该目标问题对应的问题提示文本。并且,该剧***的显示画面中的提示文本可以根据当前的录音时长更改提示文本的显示状态。
相应的,在一种可能的实现方式中,在采集该第一音频信号的过程中,在该剧***的显示画面中显示该第二音频信号的第二文本信息;根据该第二音频信号的标准配音进度,更改该第二文本信息的显示状态。
终端获取该配音节点对应的第二音频信号对应的第二文本信息,将该第二文本信息显示在剧***的显示画面上。统计当前的录音时长,根据统计的录音时长,更改该第二文本信息的显示状态,例如,参见图5,当录音按钮由未录音状态转变为录音状态501时,显示第二文本信息,该第二文本信息可以为“这是一段临时演示用的测试图片和测试文字”,终端在该剧***的显示画面上显示该第二文本信息,随着录音时长,该第二文本信息中的文字的颜色发生改变。该文字颜色的改变可以为:第二文本信息中所有文字的颜色发生变化,该变化可以为由第一颜色更改为第二颜色。其中,第一颜色与第二颜色不同,第二文本信息中的文字可以由第一颜色过渡为第二颜色,当过渡完成时,录音结束。或者,该第二文本信息中的文字随着录音时长依次由第三颜色更改为第四颜色。其中,第三颜色和第四颜色不同,当第二文本信息中的文字都有第三颜色更改为第四颜色时,录音结束。
在另一种可能的实现方式中,在采集该第一音频信号的过程中,在该剧***的显示画面中显示该第二音频信号对应的问题文本信息;根据该问题文本信息的标准配音进度,更改该问题文本信息的显示状态。
终端获取该配音节点对应的第二音频信号对应的问题的提示文本,将该问题的提示文本显示在剧***的显示画面上。另外,终端在剧***的显示画面中显示第二音频信号对应的问题的提示文本的过程和终端在剧***的显示画面中显示第二音频信号对应的第二文本信息的过程相似,在此不再赘述。
在本实现方式中,通过在采集第一音频信号时显示用于提示用户的文本信息,根据标注配音进度更改文本信息的显示状态,从而提示用户剩余配音时长,使得用户可以在配音时长内完成配音,提高了用户体验。
需要说明的一点是,该目标应用在采集第一音频信号时,使用与终端关联的麦克风采集第一音频信号。相应的,在本步骤之前,终端先向该目标应用进行录音授权,允许目标应用使用该终端的麦克风。
需要说明的另一点是,终端在完成第一音频信号的采集后,可以直接执行步骤203,对该第一音频信号进行评分。在另一种可能的实现方式中,终端在完成第一音频信号的采集后,响应于接收到评分操作时,才执行步骤203。相应的,终端在完成第一音频信号的采集后,可以在剧***的显示画面中显示录音完成标识。其中,该录音完成标识可以为播放标识,响应于接收到该播放标识的触发操作,终端播放采集到的第一音频信号;该录音完成标识还可以为根据采集到的第一音频信号转换的第一音频信号的第一文本信息。用户可以根据重新听取的第一音频信号的内容或第一音频信号对应的第一文本信息的内容,确定是否重新进行配音。相应的,该剧***的显示画面中还显示重新采集按钮,响应于接收到该重新采集按钮的触发操作,重新采集第一音频信号。该剧***的显示画面中还显示提交按钮,响应于接收到该提交按钮的触发操作,终端执行步骤203。
步骤203:终端根据该配音节点对应的第二音频信号,对该第一音频信号进行评分,得到该第一音频信号的评分结果,该第二音频信号为该配音节点对应的标准语音的音频信号。
其中,第二音频信号为该配音节点对应的标准语音的音频信号。目标应用的开发人员在设置每个剧***的配音节点时,为每个配音节点设置第二音频信号。终端中事先存储每个配音节点对应的第二音频信号。终端可以根据配音节点的节点标识确定该配音节点对应的第二音频信号。其中,终端根据配音节点的节点标识确定该配音节点对应的第二音频信号的过程与步骤202中,终端根据配音节点的节点标识确定配音节点的配音时长的过程相似,在此不再赘述。
终端可以根据第一音频信号对应的文本内容、发音特征或配音时长等,对第一音频信号进行评分,得到评分结果304。
相应的,在一种可能的实现方式中,根据第一音频信号和第二音频信号对应的文本内容的匹配度对第一音频信号进行评分,该过程可以通过以下步骤(A1)-(A4)实现,包括:
(A1)终端对该第一音频信号进行语音识别,得到第一文本信息。
在本步骤中,终端通过语音识别技术对第一音频信号进行语音识别,得到该第一音频信号对应的第一文本信息。其中,该语音识别技术可以为任一可以将语音信号转换成文本的语音识别技术。在本公开实施例中,对该语音识别技术的类别不作具体限定。
(A2)终端获取该第二音频信号的第二文本信息。
在一种可能的实现方式中,终端中存储第二音频信号对应的第二文本信息。相应的,终端可以直接根据配音节点的节点标识获取该第二音频信号对应的第二文本信息。
在另一种可能的实现方式中,终端中存储第二音频信号。相应的,终端可以根据配音节点的节点标识获取第二音频信号,通过语音识别技术对该第二音频信号进行语音识别,得到第二音频信号对应的第二文本信息。其中,识别第二音频信号使用的语音识别技术与步骤(A1)中识别第一音频信号的语音识别技术可以相同,从而保证了识别第一音频信号和识别第二音频信号产生的误差最小,进而提高了评分的准确性。
需要说明的一点是,终端可以先确定第一文本信息再确定第二文本信息;终端也可以先确定第二文本信息再确定第一文本信息;终端还可以同时确定第一文本信息和第二文本信息。在本公开实施例中,对终端获取第一文本信息和第二文本信息的顺序不作具体限定。也即,终端可以先执行步骤(A1)再执行步骤(A2),终端也可以先执行步骤(A2)再执行步骤(A1),终端还可以同时执行步骤(A1)和(A2),在本公开实施例中,对步骤(A1)和(A2)的执行顺序不作具体限定。
(A3)终端确定该第一文本信息与该第二文本信息之间的第一匹配度。
在本步骤中,终端对第一文本信息和第二文本信息进行对比,确定第一文本信息和第二文本信息的相似度,进而根据第一文本信息和第二文本信息的相似度确定第一文本信息和第二文本信息的第一匹配度。第一文本信息和第二文本信息的相似度越高,第一匹配度也越高。
(A4)终端根据该第一匹配度,确定该第一音频信号的评分结果。
其中,该评分结果可以为分数结果,也可以为等级结果等,在本公开实施例中,对该评分结果的表现形式不作具体限定。
终端可以根据该第一匹配度确定第一音频信号的评分结果。例如,评分结果为分数结果,则第一匹配度越高评分结果对应的分数结果也越高。
在本实现方式中,通过对第一音频信号和第二音频信号分别对应的文本信息之间的相似度,对第一音频信号进行评分,可以识别出第一音频信号和第二音频信号的文本相似度,从而确定采集的第一音频信号的内容是否与第二音频信号的内容相同,从而根据第一音频信号的内容对第一音频信号进行评分,丰富了配音玩法。
在另一种可能的实现方式中,终端还可以确定第一音频信号的发音特征,根据第一音频信号的发音特征确定第一音频信号发音是否标准,从而根据第一音频信号的发音标准对第一音频信号进行评分,该过程可以通过以下步骤(B1)-(B4)实现,包括:
(B1)终端提取该第一音频信号的第一发音特征。
在本步骤中,终端对第一音频信号进行音频特征提取,得到该第一音频信号的第一发音特征。其中,终端可以通过任一音频特征提取技术提取该第一音频信号的第一发音特征。在本公开实施例中,对终端提取第一发音特征的音频特征提取技术不作具体限定。
(B2)终端获取该第二音频信号的第二发音特征,该第二发音特征为该配音节点对应的标准发音方式对应的发音特征。
在一种可能的实现方式中,终端中存储第二音频信号对应的第二发音特征。相应的,终端可以直接根据配音节点的节点标识获取该第二音频信号对应的第二发音特征。
在另一种可能的实现方式中,终端中存储第二音频信号。相应的,终端可以根据配音节点的节点标识获取第二音频信号,通过音频特征提取技术对该第二音频信号进行音频特征提取,得到第二音频信号对应的第二发音特征。其中,提取第二音频信号使用的音频特征提取技术与步骤(B1)中提取第一音频信号的音频特征提取技术可以相同,从而保证了提取第一音频信号和识别第二音频信号的发音特征产生的误差最小,进而提高了评分的准确性。
需要说明的一点是,终端可以先确定第一发音特征再确定第二发音特征;终端也可以先确定第二发音特征再确定第一发音特征;终端还可以同时确定第一发音特征和第二发音特征。在本公开实施例中,对终端获取第一发音特征和第二发音特征的顺序不作具体限定。也即,终端可以先执行步骤(B1)再执行步骤(B2),终端也可以先执行步骤(B2)再执行步骤(B1),终端还可以同时执行步骤(B1)和(B2),在本公开实施例中,对步骤(B1)和(B2)的执行顺序不作具体限定。
(B3)终端确定该第一发音特征和该第二发音特征之间的第二匹配度。
在本步骤中,终端对第一发音特征和第二发音特征进行对比,确定第一发音特征和第二发音特征的相似度,进而根据第一发音特征和第二发音特征的相似度确定第一发音特征和第二发音特征的第二匹配度。第一发音特征和第二发音特征的相似度越高,第二匹配度也越高。
(B4)终端根据该第二匹配度,确定该第一音频信号的评分结果。
本步骤与步骤(A4)相似,在此不再赘述。
在本实现方式中,通过将对第一音频信号和第二音频信号分别对应的发音特征,对第一音频信号进行评分,使得可以根据发音特征确定用户是否使用标准的语音进行配音,从而丰富了配音的玩法。
在另一种可能的实现方式中,终端还可以根据第一音频信号的时长对该第一音频信号进行评分。相应的,该过程可以通过以下步骤(C1)-(C3)实现,包括:
(C1)终端确定该第一音频信号的第一时长。
终端在采集第一音频信号时,统计采集第一音频信号所使用的第一时长。在本步骤中,终端直接获取统计的第一音频信号的第一时长。
(C2)终端获取该第二音频信号的第二时长。
本步骤与步骤(A1)和(B1)相似,在此不再赘述。
(C3)终端根据该第一时长和该第二时长,确定该第一音频信号的评分结果。
在本步骤中,终端确定第一时长和第二时长的差值,第一时长和第二时长的差值越小,第一音频信号的评分结果越高。
在本实现方式中,通过配音时长对第一音频信号进行评分,通过限时配音丰富了配音玩法。
需要说明的一点是,上述对第一音频信号进行评分的过程可以由终端进行,还可以由服务器进行,相应的,当该对第一音频信号进行评分的过程由服务器进行时,该过程可以为:终端将采集到的该当前环境中的音频信号发送给服务器,该服务器用于根据该配音节点对应的第二音频信号,对该第一音频信号进行评分,得到该第一音频信号的评分结果,将该评分结果发送给终端;终端接收该服务器发送的该评分结果。
其中,服务器对第一音频信号进行评分的过程与终端对第一音频信号进行评分的过程相似,在此不再赘述。
需要说明的一点是,上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。例如,终端可以根据第一音频信号对应的文本内容、发音特征和配音时长,分别对第一音频信号进行评分,分别得到第一音频信号基于文本内容、发音特征和配音时长的评分结果;将第一音频信号的评分结果根据预设权重进行加权求和,得到第一音频信号的评分结果。
步骤204:终端在该剧***的显示画面中展示该配音节点对应的第一音频信号的评分结果。
在本步骤中,终端将第一音频信号的评分结果展示在该剧***的显示画面中。其中,该评分结果可以展示在该显示画面的任一位置,在本公开实施例中,对该评分结果的显示位置不作具体限定。例如,参见图6,该评分结果601可以显示在显示画面的下方,内容可以为“评分XX,挑战成功!”等。
步骤205:终端基于该评分结果继续运行该目标应用。
在本步骤中,继续参见图3,终端根据该评分结果确定目标应用的运行状态。其中,终端确定评分结果与预设阈值的大小305,当该评分结果大于该预设阈值时,将该评分结果大于预设阈值时,确定配音成功,将挑战成功,则终端继续播放剧***;当该评分结果不大于预设阈值时,确定配音失败,终端跳回该配音节点之前的视频节点处,重新播放该配音节点之前的剧***。
相应的,在一种可能的实现方式中,响应于该评分结果高于预设阈值,终端显示第一提示信息306,该第一提示信息用于提示本次配音成功;终端继续播放该剧***307,直到该剧***播放完成,跳转至该目标应用的运行界面,继续运行该目标应用308。
在另一种可能的实现方式中,响应于该评分结果不高于该预设阈值,终端显示第二提示信息309,该第二提示信息用于提示配音失败;终端返回该配音节点之前的视频节点,重新播放该配音节点之前的剧***310。
其中,该配音节点之前的视频节点可以根据需要进行设置,在本公开实施例中,对该视频节点在剧***中的位置不作具体限定。例如,该视频节点可以为该剧***的起始点,也可以为当前配音节点的起始点,还可以为当前配音节点的前一个配音节点结束后的视频节点等。
在本公开实施例中,通过在运行目标应用的过程中,响应于目标应用运行至目标场景,跳转至目标应用的剧***播放界面,播放目标场景对应的剧***,剧***包括至少一个配音节点;在播放剧***的过程中,响应于剧***播放至配音节点,采集被输入的第一音频信号;根据配音节点对应的第二音频信号,对第一音频信号进行评分,得到第一音频信号的评分结果,第二音频信号为配音节点对应的标准语音的音频信号;在剧***的显示画面中展示配音节点对应的第一音频信号的评分结果;基于评分结果继续运行目标应用,从而使用户不能跳过剧***,使得剧***的曝光率达到目标水平,进而保证了目标应用的开发者可以向用户传达到该目标应用的相关信息,提高了目标应用的代入感和互动性。
图7是据一示例性实施例提供的一种视频播放装置的框图。参见图7,装置包括:
视频播放模块701,用于在运行目标应用的过程中,响应于该目标应用运行至目标场景,跳转至该目标应用的剧***播放界面,播放该目标场景对应的剧***,该剧***包括至少一个配音节点;
采集模块702,用于在播放该剧***的过程中,响应于该剧***播放至配音节点,采集被输入的第一音频信号;
评分模块703,用于根据该配音节点对应的第二音频信号,对该第一音频信号进行评分,得到该第一音频信号的评分结果,该第二音频信号为该配音节点对应的标准语音的音频信号;
第一显示模块704,用于在该剧***的显示画面中展示该配音节点对应的第一音频信号的评分结果;
运行模块705,用于基于该评分结果继续运行该目标应用。
在一种可能的实现方式中,该评分模块703,还用于对该第一音频信号进行语音识别,得到第一文本信息,以及获取该第二音频信号的第二文本信息;确定该第一文本信息与该第二文本信息之间的第一匹配度;根据该第一匹配度,确定该第一音频信号的评分结果。
在另一种可能的实现方式中,该评分模块703,还用于提取该第一音频信号的第一发音特征;以及,获取该第二音频信号的第二发音特征,该第二发音特征为该配音节点对应的标准发音方式对应的发音特征;确定该第一发音特征和该第二发音特征之间的第二匹配度;根据该第二匹配度,确定该第一音频信号的评分结果。
在另一种可能的实现方式中,该评分模块703,还用于确定该第一音频信号的第一时长,以及,获取该第二音频信号的第二时长;根据该第一时长和该第二时长,确定该第一音频信号的评分结果。
在另一种可能的实现方式中,该运行模块705,还用于响应于该评分结果高于预设阈值,显示第一提示信息,该第一提示信息用于提示本次配音成功;继续播放该剧***,直到该剧***播放完成,跳转至该目标应用的运行界面,继续运行该目标应用;或者,响应于该评分结果不高于该预设阈值,显示第二提示信息,该第二提示信息用于提示配音失败;返回该配音节点之前的视频节点,重新播放该配音节点之前的剧***。
在另一种可能的实现方式中,该装置还包括:
第二显示模块,用于在该剧***的该配音节点对应的显示画面中显示录音按钮;
该采集模块702,还用于响应于该录音按钮的状态转变为录音状态,采集被输入的第一音频信号。
在另一种可能的实现方式中,该采集模块702,还用于确定该配音节点对应的配音时长;响应于当前录音时长在该配音时长内,采集该第一音频信号;响应于当前录音时长超过该配音时长,停止采集该第一音频信号;或者,响应于检测到当前环境中的音频信号,采集该第一音频信号。
在另一种可能的实现方式中,该装置还包括:
第三显示模块,用于在采集该第一音频信号的过程中,在该剧***的显示画面中显示该第二音频信号的第二文本信息;根据该第二音频信号的标准配音进度,更改该第二文本信息的显示状态;或者,
第四显示模块,用于在采集该第一音频信号的过程中,在该剧***的显示画面中显示该第二音频信号对应的问题文本信息;根据该问题文本信息的标准配音进度,更改该问题文本信息的显示状态。
在本公开实施例中,通过在运行目标应用的过程中,响应于目标应用运行至目标场景,跳转至目标应用的剧***播放界面,播放目标场景对应的剧***,剧***包括至少一个配音节点;在播放剧***的过程中,响应于剧***播放至配音节点,采集被输入的第一音频信号;根据配音节点对应的第二音频信号,对第一音频信号进行评分,得到第一音频信号的评分结果,第二音频信号为配音节点对应的标准语音的音频信号;在剧***的显示画面中展示配音节点对应的第一音频信号的评分结果;基于评分结果继续运行目标应用,从而使用户不能跳过剧***,使得剧***的曝光率达到目标水平,进而保证了目标应用的开发者可以向用户传达到该目标应用的相关信息,提高了目标应用的代入感和互动性。
需要说明的是:上述实施例提供的视频播放装置在播放视频时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的视频播放装置与视频播放方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图8示出了本公开一个示例性实施例提供的终端800的结构框图。该终端800可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器801所执行以实现本公开中方法实施例提供的视频播放方法。
在一些实施例中,终端800还可选包括有:***设备接口803和至少一个***设备。处理器801、存储器802和***设备接口803之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口803相连。具体地,***设备包括:射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。
***设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和***设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和***设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本公开对此不加以限定。
显示屏805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置终端800的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在终端800的不同表面或呈折叠设计;在再一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。
定位组件808用于定位终端800的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。
电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。
加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号,控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器812可以检测终端800的机体方向及转动角度,陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器813可以设置在终端800的侧边框和/或显示屏805的下层。当压力传感器813设置在终端800的侧边框时,可以检测用户对终端800的握持信号,由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时,由处理器801根据用户对显示屏805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器814采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时,指纹传感器814可以与物理按键或厂商Logo集成在一起。
光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以根据光学传感器815采集的环境光强度,控制显示屏805的显示亮度。具体地,当环境光强度较高时,调高显示屏805的显示亮度;当环境光强度较低时,调低显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传感器815采集的环境光强度,动态调整摄像头组件806的拍摄参数。
接近传感器816,也称距离传感器,通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中,当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时,由处理器801控制显示屏805从亮屏状态切换为息屏状态;当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时,由处理器801控制显示屏805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图8中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质中存储至少一条指令,至少一条指令由服务器加载并执行,以实现上述实施例中视频播放方法。该计算机可读存储介质可以是存储器。例如,该计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory,紧凑型光盘只读储存器)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上该仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种视频播放方法,其特征在于,所述方法包括:
在运行目标应用的过程中,响应于所述目标应用运行至目标场景,跳转至所述目标应用的剧***播放界面,播放所述目标场景对应的剧***,所述剧***包括至少一个配音节点;
在播放所述剧***的过程中,响应于所述剧***播放至配音节点,采集被输入的第一音频信号;
根据所述配音节点对应的第二音频信号,对所述第一音频信号进行评分,得到所述第一音频信号的评分结果,所述第二音频信号为所述配音节点对应的标准语音的音频信号;
在所述剧***的显示画面中展示所述配音节点对应的第一音频信号的评分结果;
基于所述评分结果继续运行所述目标应用。
2.根据权利要求1所述的方法,其特征在于,所述根据所述配音节点对应的第二音频信号,对所述第一音频信号进行评分,得到所述第一音频信号的评分结果,包括:
对所述第一音频信号进行语音识别,得到第一文本信息,以及获取所述第二音频信号的第二文本信息;
确定所述第一文本信息与所述第二文本信息之间的第一匹配度;
根据所述第一匹配度,确定所述第一音频信号的评分结果。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述配音节点对应的第二音频信号,对所述第一音频信号进行评分,得到所述第一音频信号的评分结果,还包括:
提取所述第一音频信号的第一发音特征;以及,获取所述第二音频信号的第二发音特征,所述第二发音特征为所述配音节点对应的标准发音方式对应的发音特征;
确定所述第一发音特征和所述第二发音特征之间的第二匹配度;
根据所述第二匹配度,确定所述第一音频信号的评分结果。
4.根据权利要求1或2所述的方法,其特征在于,所述根据所述配音节点对应的第二音频信号,对所述第一音频信号进行评分,得到所述第一音频信号的评分结果,还包括:
确定所述第一音频信号的第一时长,以及,获取所述第二音频信号的第二时长;
根据所述第一时长和所述第二时长,确定所述第一音频信号的评分结果。
5.根据权利要求1所述的方法,其特征在于,所述基于所述评分结果继续运行所述目标应用,包括:
响应于所述评分结果高于预设阈值,显示第一提示信息,所述第一提示信息用于提示本次配音成功;继续播放所述剧***,直到所述剧***播放完成,跳转至所述目标应用的运行界面,继续运行所述目标应用;或者,
响应于所述评分结果不高于所述预设阈值,显示第二提示信息,所述第二提示信息用于提示配音失败;返回所述配音节点之前的视频节点,重新播放所述配音节点之前的剧***。
6.根据权利要求1所述的方法,其特征在于,所述采集被输入的第一音频信号之前,所述方法还包括:
在所述剧***的所述配音节点对应的显示画面中显示录音按钮;
响应于所述录音按钮的状态转变为录音状态,执行所述采集被输入的第一音频信号的步骤。
7.根据权利要求1所述的方法,其特征在于,所述采集被输入的第一音频信号,包括:
确定所述配音节点对应的配音时长;响应于当前录音时长在所述配音时长内,采集所述第一音频信号;响应于当前录音时长超过所述配音时长,停止采集所述第一音频信号;或者,
响应于检测到当前环境中的音频信号,采集所述第一音频信号。
8.根据权利要求1或6所述的方法,其特征在于,所述方法还包括:
在采集所述第一音频信号的过程中,在所述剧***的显示画面中显示所述第二音频信号的第二文本信息;根据所述第二音频信号的标准配音进度,更改所述第二文本信息的显示状态;或者,
在采集所述第一音频信号的过程中,在所述剧***的显示画面中显示所述第二音频信号对应的问题文本信息;根据所述问题文本信息的标准配音进度,更改所述问题文本信息的显示状态。
9.一种视频播放装置,其特征在于,所述装置包括:
视频播放模块,用于在运行目标应用的过程中,响应于所述目标应用运行至目标场景,跳转至所述目标应用的剧***播放界面,播放所述目标场景对应的剧***,所述剧***包括至少一个配音节点;
采集模块,用于在播放所述剧***的过程中,响应于所述剧***播放至配音节点,采集被输入的第一音频信号;
评分模块,用于根据所述配音节点对应的第二音频信号,对所述第一音频信号进行评分,得到所述第一音频信号的评分结果,所述第二音频信号为所述配音节点对应的标准语音的音频信号;
第一显示模块,用于在所述剧***的显示画面中展示所述配音节点对应的第一音频信号的评分结果;
运行模块,用于基于所述评分结果继续运行所述目标应用。
10.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器中存储至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现如权利要求1至8任一项所述的视频播放方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010127311.XA CN111359209B (zh) | 2020-02-28 | 2020-02-28 | 视频播放方法、装置和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010127311.XA CN111359209B (zh) | 2020-02-28 | 2020-02-28 | 视频播放方法、装置和终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111359209A true CN111359209A (zh) | 2020-07-03 |
CN111359209B CN111359209B (zh) | 2022-03-29 |
Family
ID=71199976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010127311.XA Active CN111359209B (zh) | 2020-02-28 | 2020-02-28 | 视频播放方法、装置和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111359209B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112752142A (zh) * | 2020-08-26 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 配音数据处理方法、装置及电子设备 |
CN113535116A (zh) * | 2021-08-05 | 2021-10-22 | 广州酷狗计算机科技有限公司 | 音频文件的播放方法、装置、终端及存储介质 |
CN113838479A (zh) * | 2021-10-27 | 2021-12-24 | 海信集团控股股份有限公司 | 单词发音评测方法、服务器及*** |
CN114363666A (zh) * | 2021-12-22 | 2022-04-15 | 咪咕互动娱乐有限公司 | 视频处理方法、装置及电子设备 |
WO2022161328A1 (zh) * | 2021-01-26 | 2022-08-04 | 北京有竹居网络技术有限公司 | 视频处理方法、装置、存储介质及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040194017A1 (en) * | 2003-01-06 | 2004-09-30 | Jasmin Cosic | Interactive video interface |
TW200919210A (en) * | 2007-07-18 | 2009-05-01 | Steven Kays | Adaptive electronic design |
CN205451551U (zh) * | 2016-01-05 | 2016-08-10 | 肖锦栋 | 一种语音识别驱动的增强现实人机交互视频语言学习*** |
CN108021635A (zh) * | 2017-11-27 | 2018-05-11 | 腾讯科技(深圳)有限公司 | 一种音频相似度的确定方法、装置和存储介质 |
CN108769814A (zh) * | 2018-06-01 | 2018-11-06 | 腾讯科技(深圳)有限公司 | 视频互动方法、装置及可读介质 |
CN110650366A (zh) * | 2019-10-29 | 2020-01-03 | 成都超有爱科技有限公司 | 互动配音方法、装置、电子设备及可读存储介质 |
-
2020
- 2020-02-28 CN CN202010127311.XA patent/CN111359209B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040194017A1 (en) * | 2003-01-06 | 2004-09-30 | Jasmin Cosic | Interactive video interface |
TW200919210A (en) * | 2007-07-18 | 2009-05-01 | Steven Kays | Adaptive electronic design |
CN205451551U (zh) * | 2016-01-05 | 2016-08-10 | 肖锦栋 | 一种语音识别驱动的增强现实人机交互视频语言学习*** |
CN108021635A (zh) * | 2017-11-27 | 2018-05-11 | 腾讯科技(深圳)有限公司 | 一种音频相似度的确定方法、装置和存储介质 |
CN108769814A (zh) * | 2018-06-01 | 2018-11-06 | 腾讯科技(深圳)有限公司 | 视频互动方法、装置及可读介质 |
CN110650366A (zh) * | 2019-10-29 | 2020-01-03 | 成都超有爱科技有限公司 | 互动配音方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (4)
Title |
---|
佚名: "《梦幻西游》手游语音红包口令是什么 语音红包领取入口位置", 《HTTPS://M.ALI213.NET/NEWS/GL1709/193657.HTML》 * |
佚名: "游戏是不是可以声控 !?", 《HTTPS://WWW.ZHIHU.COM/QUESTION/47578555》 * |
佚名: "潜入游戏1st Story广播剧", 《HTTP://WWW.PAOPAOCHE.NET/ANDROID/82460.HTML》 * |
竹臣: "Steam上值得一玩的声控类游戏 真实语音操控魔法", 《HTTP://PC.KUAI8.COM/NEWS/272388.HTML》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112752142A (zh) * | 2020-08-26 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 配音数据处理方法、装置及电子设备 |
CN112752142B (zh) * | 2020-08-26 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 配音数据处理方法、装置及电子设备 |
WO2022161328A1 (zh) * | 2021-01-26 | 2022-08-04 | 北京有竹居网络技术有限公司 | 视频处理方法、装置、存储介质及设备 |
CN113535116A (zh) * | 2021-08-05 | 2021-10-22 | 广州酷狗计算机科技有限公司 | 音频文件的播放方法、装置、终端及存储介质 |
CN113838479A (zh) * | 2021-10-27 | 2021-12-24 | 海信集团控股股份有限公司 | 单词发音评测方法、服务器及*** |
CN113838479B (zh) * | 2021-10-27 | 2023-10-24 | 海信集团控股股份有限公司 | 单词发音评测方法、服务器及*** |
CN114363666A (zh) * | 2021-12-22 | 2022-04-15 | 咪咕互动娱乐有限公司 | 视频处理方法、装置及电子设备 |
CN114363666B (zh) * | 2021-12-22 | 2023-11-10 | 咪咕互动娱乐有限公司 | 视频处理方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111359209B (zh) | 2022-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111359209B (zh) | 视频播放方法、装置和终端 | |
CN112911182B (zh) | 游戏互动方法、装置、终端及存储介质 | |
CN110379430B (zh) | 基于语音的动画显示方法、装置、计算机设备及存储介质 | |
CN108829881B (zh) | 视频标题生成方法及装置 | |
CN110933330A (zh) | 视频配音方法、装置、计算机设备及计算机可读存储介质 | |
CN111564152B (zh) | 语音转换方法、装置、电子设备及存储介质 | |
CN111031386B (zh) | 基于语音合成的视频配音方法、装置、计算机设备及介质 | |
CN110572716B (zh) | 多媒体数据播放方法、装置及存储介质 | |
CN110300274B (zh) | 视频文件的录制方法、装置及存储介质 | |
CN112511850A (zh) | 连麦方法、直播显示方法、装置、设备及存储介质 | |
CN111028566A (zh) | 直播教学的方法、装置、终端和存储介质 | |
CN110493635B (zh) | 视频播放方法、装置及终端 | |
CN110798327A (zh) | 消息处理方法、设备及存储介质 | |
CN111276122A (zh) | 音频生成方法及装置、存储介质 | |
CN111582862A (zh) | 信息处理方法、装置、***、计算机设备及存储介质 | |
CN111428079A (zh) | 文本内容处理方法、装置、计算机设备及存储介质 | |
CN111131867B (zh) | 歌曲演唱方法、装置、终端及存储介质 | |
CN110337030B (zh) | 视频播放方法、装置、终端和计算机可读存储介质 | |
CN112023403A (zh) | 基于图文信息的对战过程展示方法及装置 | |
CN111554314A (zh) | 噪声检测方法、装置、终端及存储介质 | |
CN110688046B (zh) | 歌曲播放方法、装置及存储介质 | |
CN113744736A (zh) | 命令词识别方法、装置、电子设备及存储介质 | |
CN111367492A (zh) | 网页页面展示方法及装置、存储介质 | |
CN111292773A (zh) | 音视频合成的方法、装置、电子设备及介质 | |
CN111212323A (zh) | 音视频合成的方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |