CN112752047A

CN112752047A - 视频录制方法、装置、设备及可读存储介质

Info

Publication number: CN112752047A
Application number: CN201911047011.4A
Authority: CN
Inventors: 王倩; 赵煜; 邓佳康
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2021-05-04
Also published as: EP3817395A1; US20210133459A1

Abstract

本公开实施例提供了一种视频录制方法、装置、设备及可读存储介质，涉及计算机技术领域，该方法包括：接收视频录制触发信号，视频录制触发信号用于触发视频录制操作；根据视频录制触发信号对视频图像帧和语音数据进行采集；在视频录制操作中确定采集得到的语音数据所对应的视频图像帧的时间戳范围；对语音数据进行文本识别，得到录制的视频在时间戳范围内的字幕内容；根据视频图像帧、语音数据以及字幕内容生成目标视频。本公开通过实时对语音数据进行识别，得到对应的字幕内容，并将该字幕内容作为该语音数据对应的时间戳范围内的字幕进行展示，避免手动输入字幕内容而导致的字幕生成过程繁琐的问题，提高了字幕的生成效率。

Description

视频录制方法、装置、设备及可读存储介质

技术领域

本公开涉及计算机技术领域，特别涉及一种视频录制方法、装置、设备及可读存储介质。

背景技术

在视频拍摄过程中，通常是通过终端的摄像头对视频图像帧进行采集，以及通过终端的麦克风对语音内容进行采集，并当采集终止后，根据采集得到的视频图像帧生成视频流，并根据采集得到的语音内容生成音频流，将视频流和音频流结合，得到一个完整的视频。

相关技术中，在为视频添加字幕时，通常是通过视频后期软件对字幕内容进行添加，如：将视频导入该视频后期软件后，选择字幕添加功能，并在字幕添加界面中通过手动输入的方式编辑字幕内容后添加至视频中。

然而，上述方式在对字幕内容进行添加时，需要耗费大量的人力资源和时间资源，字幕内容的添加过程较为繁琐，字幕添加效率较低。

发明内容

本公开实施例提供了一种视频录制方法、装置、设备及可读存储介质，可以解决字幕内容的添加过程较为繁琐，字幕添加效率较低的问题。所述技术方案如下：

根据本公开的一方面，提供了一种视频录制方法，所述方法包括：

接收视频录制触发信号，所述视频录制触发信号用于触发视频录制操作；

根据所述视频录制触发信号对视频图像帧和语音数据进行采集；

在所述视频录制操作中确定采集得到的所述语音数据所对应的所述视频图像帧的时间戳范围；

对所述语音数据进行文本识别，得到录制的视频在所述时间戳范围内的字幕内容；

根据所述视频图像帧、所述语音数据以及所述字幕内容生成目标视频。

在一个可选的实施例中，所述对所述语音数据进行文本识别，得到录制的视频在所述时间戳范围内的字幕内容，包括：

对所述语音数据进行所述文本识别，得到对应的文本内容；

通过对所述文本内容进行语义识别，对所述文本内容进行断句，得到所述字幕内容。

在一个可选的实施例中，所述对所述文本内容进行语义识别，对所述文本内容进行断句，得到所述字幕内容，包括：

通过对所述文本内容进行所述语义识别，对所述文本内容进行断句，得到至少一个文本段作为所述字幕内容；

通过对所述语音数据进行语气识别，对所述至少一个文本段添加标点符号。

在一个可选的实施例中，所述通过对所述文本内容进行所述语义识别，对所述文本内容进行断句，得到至少一个文本段之后，还包括：

通过对所述语音数据进行场景识别，对所述至少一个文本段添加与识别得到的场景对应的显示元素。

在一个可选的实施例中，所述根据所述视频图像帧、所述语音数据以及所述字幕内容生成所述目标视频之后，还包括：

显示预览界面，所述预览界面用于播放所述目标视频对应的预览视频，其中，当所述预览视频播放至所述时间戳范围内的所述视频图像帧时，所述视频图像帧上叠加显示有所述字幕内容。

在一个可选的实施例中，所述预览界面中还包括字幕编辑控件；

所述方法还包括：

接收在所述字幕编辑控件上的选择操作；

根据所述选择操作显示字幕编辑区域和字幕确认控件，所述字幕编辑区域中显示有所述预览视频对应的至少一个视频片段对应的字幕编辑子区域，所述字幕编辑子区域用于编辑所述视频片段对应的字幕内容；

当接收到在所述字幕确认控件上的触发操作时，根据所述字幕编辑区域中的所述字幕内容更新所述目标视频。

在一个可选的实施例中，所述根据所述视频录制触发信号对视频图像帧和语音数据进行采集，包括：

根据所述视频录制触发信号通过摄像头对所述视频图像帧进行采集，并通过麦克风对所述语音数据进行采集。

根据所述视频录制触发信号将终端显示屏的显示内容作为所述视频图像帧进行获取；

对所述显示内容对应的音频播放内容作为所述语音数据进行获取。

在一个可选的实施例中，所述接收视频录制触发信号之前，还包括；

接收语音字幕开启信号，所述语音字幕开启信号用于开启对录制的视频生成所述字幕内容的功能。

根据本公开的另一方面，提供了一种视频录制装置，所述装置包括：

接收模块，用于接收视频录制触发信号，所述视频录制触发信号用于触发视频录制操作；

采集模块，用于根据所述视频录制触发信号对视频图像帧和语音数据进行采集；

确定模块，用于在所述视频录制操作中确定采集得到的所述语音数据所对应的所述视频图像帧的时间戳范围；

识别模块，用于对所述语音数据进行文本识别，得到录制的视频在所述时间戳范围内的字幕内容；

生成模块，用于根据所述视频图像帧、所述语音数据以及所述字幕内容生成所述目标视频。

在一个可选的实施例中，所述识别模块，还用于对所述语音数据进行所述文本识别，得到对应的文本内容；通过对所述文本内容进行语义识别，对所述文本内容进行断句，得到所述字幕内容。

在一个可选的实施例中，所述识别模块，还用于通过对所述文本内容进行所述语义识别，对所述文本内容进行断句，得到至少一个文本段作为所述字幕内容；通过对所述语音数据进行语气识别，对所述至少一个文本段添加标点符号。

在一个可选的实施例中，所述识别模块，还用于通过对所述语音数据进行场景识别，对所述至少一个文本段添加与识别得到的场景对应的显示元素。

在一个可选的实施例中，所述装置，还包括：

显示模块，用于显示预览界面，所述预览界面用于播放所述目标视频对应的预览视频，其中，当所述预览视频播放至所述时间戳范围内的所述视频图像帧时，所述视频图像帧上叠加显示有所述字幕内容。

所述接收模块，还用于接收在所述字幕编辑控件上的选择操作；

所述显示模块，还用于根据所述选择操作显示字幕编辑区域和字幕确认控件，所述字幕编辑区域中显示有所述预览视频对应的至少一个视频片段对应的字幕编辑子区域，所述字幕编辑子区域用于编辑所述视频片段对应的字幕内容；

所述接收模块，还用于当接收到在所述字幕确认控件上的触发操作时，根据所述字幕编辑区域中的所述字幕内容更新所述目标视频。

在一个可选的实施例中，所述采集模块，还用于根据所述视频录制触发信号通过摄像头对所述视频图像帧进行采集，并通过麦克风对所述语音数据进行采集。

在一个可选的实施例中，所述采集模块，还用于根据所述视频录制触发信号将终端显示屏的显示内容作为所述视频图像帧进行获取；对所述显示内容对应的音频播放内容作为所述语音数据进行获取。

在一个可选的实施例中，所述接收模块，还用于接收语音字幕开启信号，所述语音字幕开启信号用于开启对录制的视频生成所述字幕内容的功能。

根据本公开的另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述本公开实施例中提供的视频录制方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述本公开实施例中提供的视频录制方法。

根据本公开的另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述本公开实施例中提供的视频录制方法。

本公开实施例提供的技术方案的有益效果是：

在视频录制操作中，通过实时对语音数据进行识别，得到对应的字幕内容，并将该字幕内容作为该语音数据对应的时间戳范围内的字幕进行展示，避免手动输入字幕内容而导致的字幕生成过程繁琐的问题，提高了字幕的生成效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并于说明书一起用于解释本公开的原理。

图1是本公开一个示例性实施例提供的视频录制方法的流程图；

图2是本公开另一个示例性实施例提供的视频录制方法的流程图；

图3是本公开另一个示例性实施例提供的视频录制方法的流程图；

图4是基于图3示出的实施例提供的语音字幕开启过程示意图；

图5是基于图3示出的实施例提供的字幕编辑过程示意图；

图6是本公开一个示例性实施例提供的视频录制装置的结构框图；

图7是本公开另一个示例性实施例提供的视频录制装置的结构框图；

图8是本公开一个示例性实施利提供的终端的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

通常，在对视频添加字幕内容的过程中，是通过视频后期软件进行的，如：将视频导入该视频后期软件后，选择字幕添加功能，并在该视频的字幕添加界面中通过手动输入的方式编辑字幕内容后添加至视频中。然而，在该字幕添加过程中，需要人工识别每句字幕所对应在时间轴位置，以及根据语音内容手动输入对应的字幕内容，耗费大量的人力资源和时间资源，以及通过人工确定字幕所在的时间轴位置易产生音画不同步的问题，字幕添加的效果较差。

本公开实施例中，提供了一种视频录制方法，图1是本公开一个示例性实施例提供的视频录制方法的流程图，以该方法应用于终端中为例进行说明，如图1所示，该方法包括：

步骤101，接收视频录制触发信号，该视频录制触发信号用于触发视频录制操作。

可选地，该视频录制触发信号的接收方式包括如下方式中的至少一种：

第一，终端中安装有相机软件(该相机软件可以实现为终端操作***中自带的，也可以实现为终端中安装的第三方软件)，该相机软件对应有视频录制功能，在该视频录制功能对应的视频录制界面中，对拍摄控件进行选择后生成该视频录制触发信号，则根据该视频录制触发信号通过终端摄像头进行视频图像帧的采集，以及通过终端麦克风进行语音数据的采集，从而生成目标视频；

可选地，上述视频录制界面和相机软件的照片拍摄界面可以实现为同一个界面，并根据对拍摄控件的操作方式不同实现不同的功能，如：对该拍摄控件进行点击操作时实现照片拍摄功能，并当对该拍摄控件进行长按操作时实现视频录制功能。

第二，终端提供有录屏功能(该录屏功能可以是终端操作***中自带的，也可以是终端中安装的第三方软件中提供的)，该录屏功能对应有录屏控件，当接收到在该录屏控件上的选择操作时，对应开启该录屏功能，也即，当接收到在该录屏控件上的选择操作时，生成该视频录制触发信号，并根据该视频录制触发信号对终端显示屏中的显示内容进行录制。

步骤102，根据视频录制触发信号对视频图像帧和语音数据进行采集。

可选地，当该视频录制触发信号是在相机软件中触发的信号时，根据该视频录制触发信号通过摄像头对视频图像帧进行采集，并通过麦克风对语音数据进行采集。

可选地，该摄像头可以是终端自带的摄像头，也可以是该终端外接的摄像头，示意性的，该摄像头为通过数据线外接的摄像头，或，通过短距离无线传输技术(如：蓝牙技术、zigbee技术、无线局域网技术等)外接的摄像头；可选地，该麦克风可以是终端自带的麦克风，也可以是终端外接的麦克风，如：该麦克风还可以实现为终端所连接的耳机上的麦克风。

可选地，当该视频录制触发信号是通过录屏功能触发的信号时，根据该视频录制触发信号对终端显示屏中的显示内容作为视频图像帧进行获取，并对该显示内容对应的音频播放内容作为语音数据进行获取，可选地，该语音数据也可以是通过麦克风采集得到的信号，本公开实施例对此不加以限定。

步骤103，在视频录制操作中确定采集得到的语音数据所对应的视频图像帧的时间戳范围。

可选地，该时间戳范围对应的确定方式包括如下方式中的至少一种:

第一，在该目标视频的视频录制操作中，持续对语音数据进行识别，并当识别得到语音数据时记录该语音数据出现时刻所对应的视频图像帧的第一时间戳，在该语音数据结束时，记录该语音数据的结束时刻所对应的视频图像帧的第二时间戳，将第一时间戳和第二时间戳之间的时间段作为该语音数据所对应的时间戳范围；

第二，在该目标视频的视频录制操作中，持续对语音数据进行识别，并当识别到语音数据时记录该语音数据出现时刻对应的***时钟时刻，并当该语音数据结束时，记录该语音数据的结束时刻对应的***时钟时刻，根据***时钟时刻与图像视频帧之间的对应关系确定时间戳范围。

步骤104，对语音数据进行文本识别，得到录制的视频在该时间戳范围内的字幕内容。

可选地，通过人工智能(Artificial Intelligence，AI)技术对该语音数据进行文本识别，得到上述字幕内容。可选地，该人工智能技术是通过机器学习模型实现的，可选地，该机器学习模型为神经网络模型。

可选地，通过语音识别模型对该语音数据进行文本识别，得到该字幕内容，该语音识别模型为神经网络模型，且该语音识别模型为通过标注有字幕的样本语音数据训练得到的模型。可选地，将样本语音数据输入待训练的语音识别模型后，输出得到识别结果，将该识别结果与样本语音数据所标注的字幕进行比对后，根据比对结果对该语音识别模型的模型参数进行调整，从而实现对该语音识别模型的训练。

可选地，在该文本识别过程中，首先对该语音数据进行文本识别，得到对应的文本内容，通过对该文本内容进行语义识别，对该文本内容进行断句后得到上述字幕内容。

步骤105，根据视频图像帧、语音数据和字幕内容生成目标视频。

可选地，将采集得到的视频图像帧依次写入视频轨道，生成视频流；将采集得到的语音数据依次写入音频轨道，生成音频流，并将字幕内容根据对应的时间戳范围依次添加至视频流中，从而将视频流和音频流结合，得到该目标视频。

综上所述，本实施例提供的视频录制方法，在视频录制操作中，通过实时对语音数据进行识别，得到对应的字幕内容，并将该字幕内容作为该语音数据对应的时间戳范围内的字幕进行展示，避免手动输入字幕内容而导致的字幕生成过程繁琐的问题，提高了字幕的生成效率。

在一个可选的实施例中，上述对语音数据的识别过程还包括断句过程、标点符号添加过程、显示元素添加过程中的至少一种，图2是本公开另一个示例性实施例提供的视频录制方法的流程图，以该方法应用于终端中为例进行说明，如图2所示，该方法包括：

步骤201，接收视频录制触发信号，该视频录制触发信号用于触发视频录制操作。

第一，终端中安装有相机软件，该相机软件对应有视频录制功能，在该视频录制功能对应的视频录制界面中，对拍摄控件进行选择后生成该视频录制触发信号，则根据该视频录制触发信号通过终端摄像头进行视频图像帧的采集，以及通过终端麦克风进行语音数据的采集，从而生成目标视频；

第二，终端提供有录屏功能，该录屏功能对应有录屏控件，当接收到在该录屏控件上的选择操作时，对应开启该录屏功能，也即，当接收到在该录屏控件上的选择操作时，生成该视频录制触发信号，并根据该视频录制触发信号对终端显示屏中的显示内容进行录制。

步骤202，根据视频录制触发信号对视频图像帧和语音数据进行采集。

可选地，当该视频录制触发信号是通过录屏功能触发的信号时，根据该视频录制触发信号对终端显示屏中的显示内容作为视频图像帧进行获取，并对该显示内容对应的音频播放内容作为语音数据进行获取。

步骤203，在视频录制操作中确定采集得到的语音数据所对应的视频图像帧的时间戳范围。

步骤204，对语音数据进行文本识别，得到对应的文本内容。

可选地，上述语音识别模型中包括文本识别模型，通过该文本识别模型对该语音数据进行文本识别，得到该文本内容。该文本识别模型为通过标注有文本数据的样本语音数据进行训练得到的模型。在训练过程中，将样本语音数据输入至待训练的文本识别模型后，输出得到文本识别结果，将该文本识别结果与样本语音数据所标注的文本数据进行比对后，根据比对结果对该文本识别模型的模型参数进行调整，从而对该文本识别模型进行训练。

步骤205，通过对文本内容进行语义识别，对该文本内容进行断句，得到至少一个文本段作为字幕内容。

可选地，根据该语音数据的语义对该文本内容进行断句，其中，在识别该语音数据的语义时，可以通过语音数据直接对该语义进行识别，也可以在识别得到文本内容后，对该文本内容进行语义识别，从而对该文本内容进行断句。

可选地，本实施例中，以通过文本内容对语义进行识别为例进行说明，上述语音识别模型中还包括语义识别模型，通过该语义识别模型对文本内容进行语义识别后，对该文本内容进行断句。其中，该语义识别模型是通过标注有断句方式的样本文本内容训练得到的模型。在训练过程中，将样本文本内容输入该待训练的语义识别模型，输出得到断句结果，将断句结果与该样本文本内容标注的断句方式进行比对，并根据比对结果对该语义识别模型的模型参数进行调整，从而实现对该语义识别模型的训练。

步骤206，通过对语音数据进行语气识别，对至少一个文本段添加标点符号。

可选地，对该语音数据进行语气识别后，根据识别得到的语气对该至少一个文本段添加标点符号，其中，可识别得到的语气包括如下语气中的至少一种：第一，陈述语气，对应句号；第二，疑问语气，对应问号；第三，感叹语句，对应感叹号；第四，犹豫语气，对应省略号；第五，间隔语气，对应逗号；第六，引用语气，对应引号。

可选地，上述语音识别模型中还包括语气识别模型，通过该语气识别模型对语音数据进行语气识别后，对该至少一个文本段添加标点符号。其中，该语气识别模型是通过标注有标点添加方式的样本语音数据训练得到的模型。在训练过程中，将样本语音数据输入该待训练的语气识别模型，输出得到标点添加结果，将标点添加结果与该样本语音数据标注的标点添加方式进行比对，并根据比对结果对该语气识别模型的模型参数进行调整，从而实现对该语气识别模型的训练。

步骤207，通过对语音数据进行场景识别，对至少一个文本段添加与识别得到的场景对应的显示元素。

可选地，该显示元素包括表情符号、表情包、颜文字、图像中的至少一种。

可选地，该场景识别可以是通过对文本内容进行关键字识别进行的，也可以是通过场景识别模型识别得到的。

步骤208，根据视频图像帧、语音数据和字幕内容生成目标视频。

本实施例提供的视频录制方法，在视频录制操作中，通过实时对语音数据进行识别，并通过对文本内容进行语义识别对该文本内容断句得到的至少一个文本段添加标点符号，提高了语音数据的识别准确率和丰富性，提高了字幕添加效率。

本实施例提供的视频录制方法，在视频录制操作中，通过实时对语音数据进行识别，并通过对语音数据进行场景识别对该文本内容断句得到的至少一个文本段添加表情等显示元素，提高了语音数据的识别准确率和丰富性，提高了字幕添加效率。

在一个可选的实施例中，上述字幕内容还可以通过编辑的方式进行修改，图3是本公开另一个示例性实施例提供的视频录制方法的流程图，以该方法应用于终端中为例进行说明，如图3所示，该方法包括：

步骤301，接收语音字幕开启信号，该语音字幕开启信号用于开启对录制的视频生成字幕内容的功能。

可选地，终端中提供有视频录制功能，该视频录制功能还对应有语音字幕子功能，对该语音字幕子功能进行开启时，生成上述语音字幕开启信号。

步骤302，接收视频录制触发信号，该视频录制触发信号用于触发视频录制操作。

示意性的，请参考图4，以相机软件中开启语音字幕子功能为例进行说明，如图4所示，在相机软件界面400中显示有语音字幕开启控件410，当接收到在该语音字幕开启控件410上的触发操作时，在该相机软件界面400上显示提示消息420，该提示消息用于提示用户语音字幕功能已开启，当接收到在拍摄控件430上的点击操作时，开始对目标视频的拍摄过程，并在拍摄过程中根据语音数据实时生成字幕内容440。

步骤303，根据视频录制触发信号对视频图像帧和语音数据进行采集。

步骤304，在视频录制操作中确定采集得到的语音数据所对应的视频图像帧的时间戳范围。

步骤305，对语音数据进行文本识别，得到录制的视频在该时间戳范围内的字幕内容。

步骤306，根据视频图像帧、语音数据和字幕内容生成目标视频。

步骤307，显示预览界面，该预览界面用于播放目标视频对应的预览视频。

可选地，当预览视频播放至时间戳范围内的视频图像帧时，该视频图像帧上叠加显示有字幕内容。

步骤308，接收在字幕编辑控件上的选择操作。

可选地，该预览界面中包括字幕编辑控件，该字幕编辑控件用于开启对字幕的编辑功能。

步骤309，根据选择操作显示字幕编辑区域和字幕确认控件。

可选地，该字幕编辑区域中显示有预览视频对应的至少一个视频片段对应的字幕编辑子区域，该字幕编辑子区域用于编辑视频片段对应的字幕内容。

步骤310，当接收到在字幕确认控件上的触发操作时，根据字幕编辑区域中的字幕内容更新目标视频。

示意性的，请参考图5，在目标视频的预览界面500中播放该目标视频对应的预览视频，该预览界面500中还包括字幕编辑控件510，当接收到在该字幕编辑控件510上的选择操作时，显示字幕编辑区域520和字幕确认控件530，该字幕编辑区域520中包括至少一个视频片段对应的字幕编辑子区域，如图5所示，该字幕编辑区域520中包括字幕编辑子区域521、字幕编辑子区域522和字幕编辑子区域523，其中，字幕编辑子区域521对应预览视频的00：09至00：12，字幕编辑子区域522对应预览视频的00：18至00：21，字幕编辑子区域523对应预览视频的00：24至00：27。上述字幕编辑子区域用于对字幕内容进行编辑，如图5中，字幕编辑子区域521用于对00：09至00：12的字幕内容进行编辑，字幕编辑子区域522用于对00：18至00：21的字幕内容进行编辑，字幕编辑子区域523用于对00：24至00：27的字幕内容进行编辑。当接收到在字幕确认控件530上的触发操作时，根据字幕编辑区域中的字幕内容更新目标视频。

图6是本公开一个示例性实施例提供的视频录制装置的结构示意图，如图6所示，该装置包括：接收模块610、采集模块620、确定模块630、识别模块640和生成模块650；

接收模块610，用于接收视频录制触发信号，所述视频录制触发信号用于触发视频录制操作；

采集模块620，用于根据所述视频录制触发信号对视频图像帧和语音数据进行采集；

确定模块630，用于在所述视频录制操作中确定采集得到的所述语音数据所对应的所述视频图像帧的时间戳范围；

识别模块640，用于对所述语音数据进行文本识别，得到录制的视频在所述时间戳范围内的字幕内容；

生成模块650，用于根据所述视频图像帧、所述语音数据以及所述字幕内容生成目标视频。

在一个可选的实施例中，所述识别模块640，还用于对所述语音数据进行所述文本识别，得到对应的文本内容；通过对所述文本内容进行语义识别，对所述文本内容进行断句，得到所述字幕内容。

在一个可选的实施例中，所述识别模块640，还用于通过对所述文本内容进行所述语义识别，对所述文本内容进行断句，得到至少一个文本段；通过对所述语音数据进行语气识别，对所述至少一个文本段添加标点符号。

在一个可选的实施例中，所述识别模块640，还用于通过对所述语音数据进行场景识别，对所述至少一个文本段添加与识别得到的场景对应的显示元素。

在一个可选的实施例中，如图7所示，所述装置，还包括：

显示模块660，用于显示预览界面，所述预览界面用于播放所述目标视频对应的预览视频，其中，当所述预览视频播放至所述时间戳范围内的所述视频图像帧时，所述视频图像帧上叠加显示有所述字幕内容。

所述接收模块610，还用于接收在所述字幕编辑控件上的选择操作；

所述显示模块660，还用于根据所述选择操作显示字幕编辑区域和字幕确认控件，所述字幕编辑区域中显示有所述预览视频对应的至少一个视频片段对应的字幕编辑子区域，所述字幕编辑子区域用于编辑所述视频片段对应的字幕内容；

所述接收模块610，还用于当接收到在所述字幕确认控件上的触发操作时，根据所述字幕编辑区域中的所述字幕内容更新所述目标视频。

在一个可选的实施例中，所述采集模块620，还用于根据所述视频录制触发信号通过摄像头对所述视频图像帧进行采集，并通过麦克风对所述语音数据进行采集。

在一个可选的实施例中，所述采集模块620，还用于根据所述视频录制触发信号将终端显示屏的显示内容作为所述视频图像帧进行获取；对所述显示内容对应的音频播放内容作为所述语音数据进行获取。

在一个可选的实施例中，所述接收模块610，还用于接收语音字幕开启信号，所述语音字幕开启信号用于开启对录制的视频生成所述字幕内容的功能。

综上所述，本实施例提供的视频录制装置，在视频录制操作中，通过实时对语音数据进行识别，得到对应的字幕内容，并将该字幕内容作为该语音数据对应的时间戳范围内的字幕进行展示，避免手动输入字幕内容而导致的字幕生成过程繁琐的问题，提高了字幕的生成效率。

需要说明的是：上述实施例提供的视频录制装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频录制装置与视频录制方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是根据一示例性实施例示出的一种计算机设备800的框图。例如，计算机设备800可以是上文介绍的终端。例如，终端可以是手机、平板电脑、电子书阅读器、多媒体播放设备、个人计算机(Personal Computer，PC)、可穿戴设备等电子设备。

参照图8，计算机设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(Input/Output，I/O)接口812，传感器组件814，以及通信组件816。

处理组件802通常控制计算机设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在计算机设备800的操作。这些数据的示例包括用于在计算机设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random-Access Memory，SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)，可编程只读存储器(Programmable Read Only Memory，PROM)，只读存储器(Read OnlyMemory，ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为计算机设备800的各种组件提供电力。电源组件806可以包括电源管理***，一个或多个电源，及其他与为计算机设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述计算机设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括有机发光二极管(Organic Light-Emitting Diode，OLED)显示屏和触摸面板(TouchPad，TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当计算机设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(Microphone，MIC)，当计算机设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为计算机设备800提供各个方面的状态评估。例如，传感器组件814可以检测到计算机设备800的打开/关闭状态，组件的相对定位，例如所述组件为计算机设备800的显示器和小键盘，传感器组件814还可以检测计算机设备800或计算机设备800一个组件的位置改变，用户与计算机设备800接触的存在或不存在，计算机设备800方位或加速/减速和计算机设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如互补金属氧化物半导体(Complementary Metal OxideSemiconductor，CMOS)或电荷耦合元件(Charge-coupled Device，CCD)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于计算机设备800和其他设备之间有线或无线方式的通信。计算机设备800可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(Near FieldCommunication，NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RadioFrequency Identification，RFID)技术，红外数据协会(Infrared Data Association，IrDA)技术，超宽带(Ultra Wide Band，UWB)技术，蓝牙(BlueTooth，BT)技术和其他技术来实现。

在示例性实施例中，计算机设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(Digital Signal Processing Device，DSPD)、可编程逻辑器件(Programmable Logic Device，PLD)、现场可编程门阵列(Field ProgrammableGate Array，FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述视频录制方法。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，当所述计算机程序由计算机设备800的处理器执行时，使得计算机设备800能够实现上述视频录制方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(Random-Access Memory，RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述视频录制方法。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述视频录制方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的视频录制方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频录制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述语音数据进行文本识别，得到录制的视频在所述时间戳范围内的字幕内容，包括：

对所述语音数据进行所述文本识别，得到对应的文本内容；

3.根据权利要求2所述的方法，其特征在于，所述对所述文本内容进行语义识别，对所述文本内容进行断句，得到所述字幕内容，包括：

通过对所述文本内容进行所述语义识别，对所述文本内容进行断句，得到至少一个文本段，作为所述字幕内容；

4.根据权利要求3所述的方法，其特征在于，所述通过对所述文本内容进行所述语义识别，对所述文本内容进行断句，得到至少一个文本段之后，还包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述根据所述视频图像帧、所述语音数据以及所述字幕内容生成所述目标视频之后，还包括：

6.根据权利要求5所述的方法，其特征在于，所述预览界面中还包括字幕编辑控件；

所述方法还包括：

接收在所述字幕编辑控件上的选择操作；

7.根据权利要求1至4任一所述的方法，其特征在于，所述根据所述视频录制触发信号对视频图像帧和语音数据进行采集，包括：

8.根据权利要求1至4任一所述的方法，其特征在于，所述根据所述视频录制触发信号对视频图像帧和语音数据进行采集，包括：

9.根据权利要求1至4任一所述的方法，其特征在于，所述接收视频录制触发信号之前，还包括；

接收语音字幕开启信号，所述语音字幕开启信号用于开启对所述录制的视频生成所述字幕内容的功能。

10.一种视频录制装置，其特征在于，所述装置包括：

生成模块，用于根据所述视频图像帧、所述语音数据以及所述字幕内容生成目标视频。

11.根据权利要求10所述的装置，其特征在于，所述识别模块，还用于对所述语音数据进行所述文本识别，得到对应的文本内容；通过对所述文本内容进行语义识别，对所述文本内容进行断句，得到所述字幕内容。

12.根据权利要求11所述的装置，其特征在于，所述识别模块，还用于通过对所述文本内容进行所述语义识别，对所述文本内容进行断句，得到至少一个文本段作为所述字幕内容；通过对所述语音数据进行语气识别，对所述至少一个文本段添加标点符号。

13.根据权利要求12所述的装置，其特征在于，所述识别模块，还用于通过对所述语音数据进行场景识别，对所述至少一个文本段添加与识别得到的场景对应的显示元素。

14.根据权利要求10至13任一所述的装置，其特征在于，所述装置，还包括：

15.根据权利要求14所述的装置，其特征在于，所述预览界面中还包括字幕编辑控件；

16.根据权利要求10至13任一所述的装置，其特征在于，所述采集模块，还用于根据所述视频录制触发信号通过摄像头对所述视频图像帧进行采集，并通过麦克风对所述语音数据进行采集。

17.根据权利要求10至13任一所述的装置，其特征在于，所述采集模块，还用于根据所述视频录制触发信号将终端显示屏的显示内容作为所述视频图像帧进行获取；对所述显示内容对应的音频播放内容作为所述语音数据进行获取。

18.根据权利要求10至13任一所述的装置，其特征在于，所述接收模块，还用于接收语音字幕开启信号，所述语音字幕开启信号用于开启对所述录制的视频生成所述字幕内容的功能。

19.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至9任一所述的视频录制方法。

20.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至9任一所述的视频录制方法。