CN107316642A - 视频文件录制方法、音频文件录制方法及移动终端 - Google Patents
视频文件录制方法、音频文件录制方法及移动终端 Download PDFInfo
- Publication number
- CN107316642A CN107316642A CN201710525908.8A CN201710525908A CN107316642A CN 107316642 A CN107316642 A CN 107316642A CN 201710525908 A CN201710525908 A CN 201710525908A CN 107316642 A CN107316642 A CN 107316642A
- Authority
- CN
- China
- Prior art keywords
- audio
- environment
- recording
- information
- frequency information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000004044 response Effects 0.000 claims description 18
- 238000009434 installation Methods 0.000 claims description 9
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 abstract description 3
- 238000003786 synthesis reaction Methods 0.000 abstract description 3
- 235000013399 edible fruits Nutrition 0.000 description 9
- 238000003825 pressing Methods 0.000 description 8
- 238000011946 reduction process Methods 0.000 description 7
- 230000002996 emotional effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000033764 rhythmic process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000000465 moulding Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43074—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on the same device, e.g. of EPG data or interactive icon with a TV program
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Studio Devices (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请公开一种移动终端的视频文件录制方法,移动终端处于视频录制模式时,通过摄像头获得图像信息、通过麦克风获得音频信息,并且移动终端调用语音识别引擎,基于语音识别引擎对获得的音频信息进行实时处理,以便基于音频信息同步生成字幕信息,移动终端退出视频录制模式后,对本次视频录制过程中获得的图像信息构成的图像流、本次视频录制过程中获得的音频信息构成的音频流、以及本次视频录制过程中获得的字幕信息构成的字幕流进行合成处理,获得第一视频文件。基于本申请公开的方法,能够快捷地制作完成配置有字幕的视频文件。本申请还公开一种移动终端的音频文件录制方法。
Description
技术领域
本申请属于多媒体技术领域,尤其涉及视频文件录制方法、音频文件录制方法及移动终端。
背景技术
随着互联网技术的发展和互联网资源的日益丰富,用户通过互联网能够获取到多种用于工作、学习、娱乐的资源,音频和视频就是其中重要的资源。
为了给用户带来更加丰富的体验,音频和视频通常配有对应的字幕,便于有听觉障碍的用户或者处于嘈杂环境的用户通过字幕清楚地理解音频和视频所播放的内容。目前通常是先制作音频或者视频,后期再制作对应的字幕。但是,目前针对音频或者视频制作字幕的方式较为单一。
发明内容
有鉴于此,本申请的目的在于提供一种应用于移动终端的视频文件录制方法,以便更加快捷地制作完成配置有字幕的视频文件。本申请还提供一种应用于移动终端的音频文件录制方法,以便更加快捷地制作完成配置有字幕的音频文件。
为实现上述目的,本申请提供如下技术方案:
一方面,本申请提供一种移动终端的视频文件录制方法,包括:
获得指示开始录制视频的第一指令;
响应所述第一指令,进入视频录制模式;
在所述视频录制模式下,通过所述移动终端的摄像头获得图像信息,通过所述移动终端的麦克风获得音频信息;
调用语音识别引擎,基于所述语音识别引擎对所述音频信息进行实时处理,以使得基于所述音频信息同步生成字幕信息;
获得指示结束录制视频的第二指令;
响应所述第二指令,退出所述视频录制模式;
将在所述视频录制模式下,由所述图像信息构成的图像流、由所述音频信息构成的音频流、以及由所述字幕信息构成的字幕流合成为第一视频文件,以使得在播放所述第一视频文件时,同步输出所述图像流、所述音频流和所述字幕流。
可选的,上述方法中,所述基于所述语音识别引擎对所述音频信息进行实时处理,包括:基于所述音频信息的参数信息确定当前录制环境;基于当前录制环境为所述第一环境的结果,将当前的音频信息同步转换为字幕信息;基于当前录制环境为所述第二环境的结果,暂停将音频信息同步转换为字幕信息的操作,直至获得表明当前录制环境为所述第一环境的结果。
可选的,上述方法中,所述第一环境为至少有一个用户在进行语言输出的环境,所述第二环境为仅存在背景音的环境。
可选的,上述方法中,基于所述音频信息的参数信息确定当前录制环境,包括:确定当前音频信息的信噪比;如果当前音频信息的信噪比大于阈值,则确定当前录制环境为所述第一环境;如果当前音频信息的信噪比小于所述阈值,则确定当前录制环境为所述第二环境。
可选的,所述移动终端包括麦克风阵列,所述麦克风阵列包括多个安装位置不同的麦克风,其中,所述摄像头所在的侧面上设置有至少一个麦克风,所述移动终端的至少一个其他侧面上设置有麦克风;
上述方法中,所述通过所述移动终端的麦克风获得音频信息,包括:通过所述麦克风阵列获得目标用户的音频信息,其中,所述目标用户为能够通过所述移动终端的摄像头进行图像采集且显示在所述移动终端的显示屏内的用户。
另一方面,本申请提供一种移动终端,包括输入接口、摄像头、麦克风和处理器;
所述输入接口用于采集输入指令;
所述处理器用于:响应指示开始录制视频的第一指令,进入视频录制模式;在所述视频录制模式下,通过所述移动终端的摄像头获得图像信息,通过所述移动终端的麦克风获得音频信息;调用语音识别引擎,基于所述语音识别引擎对所述音频信息进行实时处理,以使得基于所述音频信息同步生成字幕信息;响应指示结束录制视频的第二指令,退出所述视频录制模式;将在所述视频录制模式下,由所述图像信息构成的图像流、由所述音频信息构成的音频流、以及由所述字幕信息构成的字幕流合成为第一视频文件,以使得在播放所述第一视频文件时,同步输出所述图像流、所述音频流和所述字幕流。
可选的,上述移动终端中,所述处理器在基于所述语音识别引擎对所述音频信息进行实时处理的方面,用于:
基于所述音频信息的参数信息确定当前录制环境;基于当前录制环境为所述第一环境的结果,将当前的音频信息同步转换为字幕信息;基于当前录制环境为所述第二环境的结果,暂停将音频信息同步转换为字幕信息的操作,直至获得表明当前录制环境为所述第一环境的结果。
可选的,上述移动终端中,所述处理器将所述第一环境配置为至少有一个用户在进行语言输出的环境,将所述第二环境配置为仅存在背景音的环境。
可选的,上述移动终端中,所述处理器在基于所述音频信息的参数信息确定当前录制环境的方面,用于:
确定当前音频信息的信噪比;如果当前音频信息的信噪比大于阈值,则确定当前录制环境为所述第一环境;如果当前音频信息的信噪比小于所述阈值,则确定当前录制环境为所述第二环境。
可选的,上述移动终端包括麦克风阵列,所述麦克风阵列包括多个安装位置不同的麦克风,其中,所述摄像头所在的侧面上设置有至少一个麦克风,所述移动终端的至少一个其他侧面上设置有麦克风;所述移动终端还包括显示屏;
所述处理器在通过所述移动终端的麦克风获得音频信息的方面,用于:通过所述麦克风阵列获得目标用户的音频信息,其中,所述目标用户为能够通过所述移动终端的摄像头进行图像采集且显示在所述移动终端的显示屏内的用户。
另一方面,本申请提供一种移动终端的音频文件录制方法,包括:
获得指示开始录制音频的第一指令;
响应所述第一指令,进入音频录制模式;
在所述音频录制模式下,通过所述移动终端的麦克风获得音频信息;
调用语音识别引擎,基于所述语音识别引擎对所述音频信息进行实时处理,以使得基于所述音频信息同步生成字幕信息;
获得指示结束录制音频的第二指令;
响应所述第二指令,退出所述音频录制模式;
将在所述音频录制模式下,由所述音频信息构成的音频流以及由所述字幕信息构成的字幕流合成为第一音频文件,以使得在播放所述第一音频文件时,同步输出所述音频流和所述字幕流。
另一方面,本申请提供一种移动终端,包括输入接口、麦克风和处理器;
所述输入接口用于采集输入指令;
所述处理器用于:响应指示开始录制音频的第一指令,进入音频录制模式;在所述音频录制模式下,通过所述移动终端的麦克风获得音频信息;调用语音识别引擎,基于所述语音识别引擎对所述音频信息进行实时处理,以使得基于所述音频信息同步生成字幕信息;响应指示结束录制音频的第二指令,退出所述音频录制模式;将在所述音频录制模式下,由所述音频信息构成的音频流以及由所述字幕信息构成的字幕流合成为第一音频文件,以使得在播放所述第一音频文件时,同步输出所述音频流和所述字幕流。
由此可见,本申请的有益效果为:
本申请公开的移动终端的视频文件录制方法,移动终端处于视频录制模式时,通过摄像头获得图像信息、通过麦克风获得音频信息,并且移动终端调用语音识别引擎,基于语音识别引擎对获得的音频信息进行实时处理,以便基于音频信息同步生成字幕信息,移动终端退出视频录制模式后,对本次视频录制过程中获得的图像信息构成的图像流、本次视频录制过程中获得的音频信息构成的音频流、以及本次视频录制过程中获得的字幕信息构成的字幕流进行合成处理,获得第一视频文件。可以看到,本申请公开的视频文件录制方法,移动终端在录制视频的过程中,通过语音识别引擎对音频信息进行实时处理,从而基于音频信息同步生成字幕信息,移动终端在退出视频录制模式后,即可基于音频流、图像流和字幕流生成视频文件,从而快捷地制作完成配置有字幕的视频文件。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种移动终端的视频文件录制方法的流程图;
图2为本申请公开的基于语音识别引擎对音频信息进行实时处理的流程图;
图3为本申请公开的一种视频录制场景的示意图;
图4为本申请公开的一种移动终端的结构图;
图5为本申请公开的另一种移动终端的结构图;
图6为本申请公开的一种移动终端的音频文件录制方法的流程图;
图7为本申请公开的另一种移动终端的结构图。
具体实施方式
本申请公开视频文件录制方法、音频文件录制方法及相应的移动终端,在录制音频或者视频的过程中,通过识别音频信息同步生成对应的字幕信息,从而更加快捷地制作完成配置有字幕的音频文件或者视频文件。本申请中的移动终端可以为手机、平板电脑,或者其他具有音频录制功能和视频录制功能的终端。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1为本申请公开的一种移动终端的视频文件录制方法的流程图。该方法包括:
步骤S11:获得指示开始录制视频的第一指令。
步骤S12:响应第一指令,进入视频录制模式。
其中,该第一指令可以通过按下移动终端的物理按键产生,可以通过按下移动终端显示的虚拟按键产生,也可以利用语音采集模块采集用户的语音输入,通过识别用户的语音输入产生触发指令。移动终端响应获得的第一指令进入视频录制模式。
步骤S13:在视频录制模式下,通过移动终端的摄像头获得图像信息,通过移动终端的麦克风获得音频信息。
需要说明的是,通过移动终端的麦克风获得的音频信息可以是麦克风采集到的当前录制环境的音频信息,也可以是对麦克风采集的音频信息进行处理后得到的音频信息,如对麦克风采集到的音频信息进行降噪处理所得到的音频信息,如从麦克风采集到的音频信息中提取出的某对象产生的音频信息。
步骤S14:调用语音识别引擎,基于语音识别引擎对音频信息进行实时处理,以使得基于音频信息同步生成字幕信息。
移动终端调用语音识别引擎,在麦克风采集音频信息的过程中,实时对音频信息进行处理,得到对应的字幕信息,也就是基于音频信息同步生成字幕信息。
步骤S15:获得指示结束录制视频的第二指令。
步骤S16:响应第二指令,退出视频录制模式。
其中,该第二指令可以通过按下移动终端的物理按键产生,可以通过按下移动终端显示的虚拟按键产生,也可以利用语音采集模块采集用户的语音输入,通过识别用户的语音输入产生触发指令。移动终端响应获得的第二指令退出视频录制模式,也就是结束录制视频。
步骤S17:将在视频录制模式下,由图像信息构成的图像流、由音频信息构成的音频流、以及由字幕信息构成的字幕流合成为第一视频文件,以使得在播放第一视频文件时,同步输出图像流、音频流和字幕流。
也就是,将从获得第一指令开始到获得第二指令结束的过程中,通过摄像头获得的图像信息构成的图像流、通过麦克风获得的音频信息构成的音频流、以及通过语音识别引擎获得的字幕信息构成的字幕流合成为视频文件(记为第一视频文件)。在播放第一视频文件时,该第一视频文件包含的音频流、图像流和字幕流被同步输出。
本申请公开的移动终端的视频文件录制方法,移动终端处于视频录制模式时,通过摄像头获得图像信息、通过麦克风获得音频信息,并且移动终端调用语音识别引擎,基于语音识别引擎对获得的音频信息进行实时处理,以便基于音频信息同步生成字幕信息,移动终端退出视频录制模式后,对本次视频录制过程中获得的图像信息构成的图像流、本次视频录制过程中获得的音频信息构成的音频流、以及本次视频录制过程中获得的字幕信息构成的字幕流进行合成处理,获得第一视频文件。可以看到,本申请公开的视频文件录制方法,移动终端在录制视频的过程中,通过语音识别引擎对音频信息进行实时处理,从而基于音频信息同步生成字幕信息,移动终端在退出视频录制模式后,即可基于音频流、图像流和字幕流生成视频文件,从而快捷地制作完成配置有字幕的视频文件。
作为一种实施方式,基于语音识别引擎对音频信息进行实时处理采用如图2所示的方式。具体包括:
步骤S21:基于音频信息的参数信息确定当前录制环境。
用户可能在不同的环境中录制视频,在某些环境下是无需生成字幕信息的。例如:当前录制环境下没有人说话,那么是无需生成字幕信息的。例如:当前录制环境下存在嘈杂的人声,但当前的拍摄对象并未说话,那么是无需生成字幕信息的。另外,在某些环境下,通过搜索引擎难以准确地基于音频信息同步生成字幕信息。
因此,基于语音识别引擎对音频信息进行实时处理的过程中,根据音频信息的参数信息确定当前录制环境是第一环境还是第二环境,以确定是否通过语音识别引擎将音频信息同步转换为字幕信息。实施中,可以将第一环境视为存在有效语音信号的环境,将第二环境视为不存在有效语音信号的环境。
其中,有效语音信号是指满足预定要求的语音信号,例如:特定用户产生的语音信号作为有效语音信号,或者用户产生的音量达到了音量阈值的语音信号作为有效语音信号。
步骤S22:基于当前录制环境为第一环境的结果,将当前的音频信息同步转换为字幕信息。
步骤S23:基于当前录制环境为第二环境的结果,暂停将音频信息同步转换为字幕信息的操作,直至获得表明当前录制环境为第一环境的结果。
如果当前录制环境为第一环境,那么通过语音识别引擎对当前的音频信息进行实时处理,将当前的音频信息同步转换为字幕信息。如果当前录制环境为第二环境,那么暂停通过语音识别引擎对当前的音频信息进行实时处理,直至获得表明当前录制环境为第一环境的结果,再次启动语音识别引擎对音频信息进行实时处理。
实施中,可以在字幕流中***与暂停通过语音识别引擎对音频信息进行实时处理的时间段对应的空白。
例如:在录制视频的过程中,从第10分钟进入第二环境、到第12分钟从第二环境进入第一环境,那么在从第10分钟至第12分钟的时间段内,语音识别引擎暂停对音频信息进行实时处理,相应的,在字幕流中从第10分钟至第12分钟的时间段内***空白。在该时间段内,如果有需要补充的字幕信息,那么用户后期可以在视频文件中对该时间段内的字幕信息进行编辑修改。
基于本申请图2所示的方法,移动终端在视频录制模式下,通过摄像头获得图像信息、通过麦克风获得音频信息,并且基于音频信息的参数信息确定当前录制环境,如果当前录制环境为第一环境,则通过语音识别引擎将当前的音频信息同步转换为字幕信息,如果当前录制环境为第二环境,则暂停通过语音识别引擎将音频信息同步转换为字幕信息,直至录制环境变换为第一环境,移动终端退出视频录制模式后,将本次视频录制过程中产生的图像流、音频流和字幕流合成为第一视频文件。可以看到,基于本申请图2所示的方法,如果当前录制环境为第二环境,则暂停通过语音识别引擎将音频信息同步转换为字幕信息,一方面能够降低语音识别引擎的数据处理量,另一方面也能够避免将录制环境中的杂音误处理为字幕信息或者提供错误的字幕信息。
可选的,将第一环境配置为至少有一个用户在进行言语输出的环境,将第二环境配置为仅存在背景音的环境。其中,用户在进行言语输出是指该用户在说话。
作为一种方式,步骤S21中基于音频信息的参数信息确定当前录制环境,包括:
对通过麦克风获得的音频信息进行分析,确定音频信息中是否包含语音信息,如果音频信息不包含语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境。
进一步的,如果音频信息包含语音信息,那么判断该语音信息是说话产生的语音信息还是唱歌(或戏剧)产生的语音信息,如果是唱歌(或戏剧)产生的语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境,如果是说话产生的语音信息,那么确定当前录制环境有正在进行言语输出的用户,当前录制环境为第一环境。
也就是说,如果当前录制环境没有语音信号(没有人发出的声音),那么确定当前录制环境为第二环境,如果当前录制环境有语音信号,但是该语音信号是唱歌(或戏剧)过程所产生的语音信号,那么确定当前录制环境为第二环境。
作为另一种方式,步骤S21中基于音频信息的参数信息确定当前录制环境,包括:
对通过麦克风获得的音频信息进行分析,确定音频信息中是否包含语音信息,如果音频信息不包含语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境。
进一步的,如果音频信息包含语音信息,进一步统计该语音信息的音量,如果该语音信息的音量低于预设的音量阈值,则确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境。
进一步的,如果音频信息包含语音信息并且该语音信息的音量达到预设的音量阈值,那么判断该语音信息是说话产生的语音信息还是唱歌(或戏剧)产生的语音信息,如果是唱歌(或戏剧)产生的语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境,如果是说话产生的语音信息,那么确定当前录制环境有正在进行言语输出的用户,当前录制环境为第一环境。
也就是说,如果当前录制环境没有语音信号(没有人发出的声音),那么确定当前录制环境为第二环境,如果当前录制环境有语音信号,但是该语音信号的音量低于预设的音量阈值,则确定当前录制环境为第二环境,进一步的,如果该语音信号的音量达到预设的音量阈值但该语音信号是唱歌(或戏剧)过程所产生的语音信号,那么确定当前录制环境为第二环境。
需要说明的是,可以通过分析语音信号的节奏、旋律或者韵律,以确定语音信号是说话产生的还是唱歌(或戏剧)产生的。
作为另一种方式,步骤S21中基于音频信息的参数信息确定当前录制环境,包括:
确定当前音频信息的信噪比;
如果当前音频信息的信噪比大于阈值,则确定当前录制环境为第一环境;
如果当前音频信息的信噪比小于阈值,则确定当前录制环境为第二环境。
移动终端在视频录制模式下,如果通过麦克风获得的音频信息的信噪比大于阈值,表明当前录制环境较为安静,处于该录制环境中的用户说话时能够清楚地采集到该用户的声音信号,因此将当前录制环境确定为第一环境,通过语音识别引擎对当前的音频信息进行实时处理,将当前的音频信息同步转换为字幕信息。如果通过麦克风获得的音频信息的信噪比小于阈值,表明当前录制环境较为嘈杂,处于该录制环境中的用户说话时很难清楚地采集到该用户的声音信号,因此将当前录制环境确定为第二环境,暂停通过语音识别引擎对当前的音频信息进行实时处理。
作为一种优选方案,移动终端包括麦克风阵列,该麦克风阵列包括多个安装位置不同的麦克风,其中,摄像头所在的侧面上设置至少一个麦克风,移动终端的至少一个其他侧面上设置至少一个麦克风。需要说明的是,多个麦克风的位置是不同的,相应的,多个麦克风的拾音区也是不同的。
本申请上述公开的视频文件录制方法中,通过移动终端的麦克风获得音频信息,可以采用如下方式:
1)、获得第一侧面上麦克风采集的音频信息,获得第二侧面上麦克风采集的音频信息,其中,第一侧面是当前进行图像采集的摄像头所在的侧面,第二侧面是除第一侧面之外设置有麦克风的侧面;
2)、利用位于第二侧面的麦克风采集的音频信息对位于第一侧面的麦克风采集的音频信息进行降噪处理,获得经过降噪处理后的音频信息。
移动终端处于视频录制模式时,位于第一侧面的麦克风的拾音区能够覆盖当前进行图像采集的摄像头的拍摄区域,而位于第二侧面的麦克风的拾音区与当前进行图像采集的摄像头的拍摄区域没有重叠,或者仅有很小的重叠区域。而视频拍摄者关注的声音源通常是当前的拍摄对象,位于第一侧面的麦克风采集的主要是拍摄对象发出的声音,而位于第二侧面的麦克风采集的主要是环境噪音,因此,利用位于第二侧面的麦克风采集的音频信息对位于第一侧面的麦克风采集的音频信息进行降噪处理,能够得到拍摄对象更加清楚的语音信息。
另外,本申请上述公开的视频文件录制方法中,通过移动终端的麦克风获得音频信息,也可以采用如下方式:
通过麦克风阵列获得目标用户的音频信息。其中,目标用户为能够通过移动终端的摄像头进行图像采集且图像显示在移动终端的显示屏内的用户。
实施中,通过麦克风阵列对目标用户进行定位,根据目标用户的位置以及麦克风阵列中麦克风的安装位置调整各个麦克风的增益,实现对目标用户的追踪,采集该目标用户的音频信息。
以图3所示的办公室录制场景为例:
在办公室中共有10个人员,并且10个人员呈环形围坐。移动终端的麦克风阵列包括麦克风102、麦克风103、麦克风104和麦克风105,其中,麦克风102以及麦克风103与摄像头101处于同一侧面,麦克风104和麦克风105位于其他侧面上。
在当前时刻,人员A1进行发言,移动终端朝向人员A1进行视频录制,并且移动终端中当前处于图像采集状态的摄像头为101,摄像头101的拍摄区域为图中以S1标示的区域。此时,摄像头101对人员A1进行图像采集,并且人员A1的图像显示在移动终端的显示屏内,人员A1即为目标用户。
移动终端通过麦克风阵列对人员A1进行定位,确定人员A1的位置。移动终端根据人员A1的位置以及各麦克风的安装位置,调整各个麦克风的增益,实现对人员A1的音源跟踪,采集人员A1的音频信息,将其他人员产生的音频信息滤除。
另外,在本申请上述公开的视频文件录制方法中,字幕流还可以携带字幕信息的显示配置信息。其中,字幕信息的显示配置信息包括字幕信息的显示位置和/或字幕信息的动态显示模式。
另外,字幕流中除了通过语音识别引擎产生的字幕信息之外,还可以包括:根据语音信息的提供者的情绪状态确定的辅助信息。其中,辅助信息包括但不限于图片、表情符号。实施中,对通过摄像头获得的图像进行分析,根据语音信息的提供者的表情和/或肢体动作确定该提供者的情绪状态,也可以根据语音信息确定其提供者的情绪状态,获得与该情绪状态对应的辅助信息。
本申请还公开一种移动终端,其结构如图4所示,包括输入接口10、摄像头20、麦克风301和处理器40。
输入接口10用于采集输入指令。
处理器40用于:响应指示开始录制视频的第一指令,进入视频录制模式;在视频录制模式下,通过摄像头20获得图像信息,通过麦克风30获得音频信息;调用语音识别引擎,基于语音识别引擎对音频信息进行实时处理,以使得基于音频信息同步生成字幕信息;响应指示结束录制视频的第二指令,退出视频录制模式;将在视频录制模式下,由图像信息构成的图像流、由音频信息构成的音频流、以及由字幕信息构成的字幕流合成为第一视频文件,以使得在播放第一视频文件时,同步输出图像流、音频流和字幕流。
本申请公开的移动终端在录制视频的过程中,通过语音识别引擎对音频信息进行实时处理,从而基于音频信息同步生成字幕信息,在退出视频录制模式后,即可基于音频流、图像流和字幕流生成视频文件,从而快捷地制作完成配置有字幕的视频文件。
作为一种实施方式,处理器40在基于语音识别引擎对音频信息进行实时处理的方面,用于:
基于音频信息的参数信息确定当前录制环境;基于当前录制环境为第一环境的结果,将当前的音频信息同步转换为字幕信息;基于当前录制环境为第二环境的结果,暂停将音频信息同步转换为字幕信息的操作,直至获得表明当前录制环境为第一环境的结果。
可选的,处理器40将第一环境配置为至少有一个用户在进行语言输出的环境,将第二环境配置为仅存在背景音的环境。
作为一种实施方式,处理器40在基于音频信息的参数信息确定当前录制环境的方面,用于:对通过麦克风获得的音频信息进行分析,确定音频信息中是否包含语音信息,如果音频信息不包含语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境。进一步的,如果音频信息包含语音信息,那么判断该语音信息是说话产生的语音信息还是唱歌(或戏剧)产生的语音信息,如果是唱歌(或戏剧)产生的语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境,如果是说话产生的语音信息,那么确定当前录制环境有正在进行言语输出的用户,当前录制环境为第一环境。
作为一种实施方式,处理器40在基于音频信息的参数信息确定当前录制环境的方面,用于:对通过麦克风获得的音频信息进行分析,确定音频信息中是否包含语音信息,如果音频信息不包含语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境。进一步的,如果音频信息包含语音信息,进一步统计该语音信息的音量,如果该语音信息的音量低于预设的音量阈值,则确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境。进一步的,如果音频信息包含语音信息并且该语音信息的音量达到预设的音量阈值,那么判断该语音信息是说话产生的语音信息还是唱歌(或戏剧)产生的语音信息,如果是唱歌(或戏剧)产生的语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境,如果是说话产生的语音信息,那么确定当前录制环境有正在进行言语输出的用户,当前录制环境为第一环境。
作为另一种实施方式,处理器40在基于音频信息的参数信息确定当前录制环境的方面,用于:确定当前音频信息的信噪比;如果当前音频信息的信噪比大于阈值,则确定当前录制环境为第一环境;如果当前音频信息的信噪比小于阈值,则确定当前录制环境为第二环境。
作为一种优选实施方式,移动终端包括麦克风阵列30,该麦克风阵列30包括多个安装位置不同的麦克风,其中,摄像头20所在的侧面上设置有至少一个麦克风,移动终端的至少一个其他侧面上设置有麦克风,移动终端还包括显示屏50,如图5所示。
在移动终端包括麦克风阵列30的情况下,作为一种实施方式,处理器40在通过移动终端的麦克风获得音频信息的方面,用于:获得第一侧面上麦克风采集的音频信息,获得第二侧面上麦克风采集的音频信息,利用位于第二侧面的麦克风采集的音频信息对位于第一侧面的麦克风采集的音频信息进行降噪处理,获得经过降噪处理后的音频信息。其中,第一侧面是当前进行图像采集的摄像头所在的侧面,第二侧面是除第一侧面之外设置有麦克风的侧面。
在移动终端包括麦克风阵列30的情况下,作为另一种实施方式,处理器40在通过移动终端的麦克风获得音频信息的方面,用于:通过麦克风阵列30获得目标用户的音频信息,其中,目标用户为能够通过移动终端的摄像头20进行图像采集且图像显示在移动终端的显示屏50内的用户。
本发明还公开应用于移动终端的音频文件录制方法。
参见图6,图6为本申请公开的一种移动终端的音频文件录制方法的流程图。该方法包括:
步骤S61:获得指示开始录制音频的第一指令。
步骤S62:响应第一指令,进入音频录制模式。
其中,该第一指令可以通过按下移动终端的物理按键产生,可以通过按下移动终端显示的虚拟按键产生,也可以利用语音采集模块采集用户的语音输入,通过识别用户的语音输入产生触发指令。移动终端响应获得的第一指令进入音频录制模式。
步骤S63:在音频录制模式下,通过移动终端的麦克风获得音频信息。
需要说明的是,通过移动终端的麦克风获得的音频信息可以是麦克风采集到的当前录制环境的音频信息,也可以是对麦克风采集的音频信息进行处理后得到的音频信息,如对麦克风采集到的音频信息进行降噪处理所得到的音频信息,如从麦克风采集到的音频信息中提取出的某对象产生的音频信息。
步骤S64:调用语音识别引擎,基于语音识别引擎对音频信息进行实时处理,以使得基于音频信息同步生成字幕信息。
移动终端调用语音识别引擎,在麦克风采集音频信息的过程中,实时对音频信息进行处理,得到对应的字幕信息,也就是基于音频信息同步生成字幕信息。
步骤S65:获得指示结束录制音频的第二指令。
步骤S66:响应第二指令,退出音频录制模式。
其中,该第二指令可以通过按下移动终端的物理按键产生,可以通过按下移动终端显示的虚拟按键产生,也可以利用语音采集模块采集用户的语音输入,通过识别用户的语音输入产生触发指令。移动终端响应获得的第二指令退出音频录制模式,也就是结束录制音频。
步骤S67:将在音频录制模式下,由音频信息构成的音频流以及由字幕信息构成的字幕流合成为第一音频文件,以使得在播放第一音频文件时,同步输出音频流和字幕流。
也就是,将从获得第一指令开始到获得第二指令结束的过程中,通过麦克风获得的音频信息构成的音频流、以及通过语音识别引擎获得的字幕信息构成的字幕流合成为音频文件(记为第一音频文件)。在播放第一音频文件时,该第一音频文件包含的音频流和字幕流被同步输出。
本申请公开的音频文件录制方法,移动终端在录制音频的过程中,通过语音识别引擎对音频信息进行实时处理,从而基于音频信息同步生成字幕信息,移动终端在退出音频录制模式后,即可基于音频流和字幕流生成音频文件,从而快捷地制作完成配置有字幕的音频文件。
作为一种实施方式,基于语音识别引擎对音频信息进行实时处理采用如下方式,具体包括:基于音频信息的参数信息确定当前录制环境;基于当前录制环境为第一环境的结果,将当前的音频信息同步转换为字幕信息;基于当前录制环境为第二环境的结果,暂停将音频信息同步转换为字幕信息的操作,直至获得表明当前录制环境为第一环境的结果。具体的实施方式可以参见前文中关于图2的说明。
可选的,将第一环境配置为至少有一个用户在进行言语输出的环境,将第二环境配置为仅存在背景音的环境。其中,用户在进行言语输出是指该用户在说话。
作为一种方式,基于音频信息的参数信息确定当前录制环境,包括:
对通过麦克风获得的音频信息进行分析,确定音频信息中是否包含语音信息,如果音频信息不包含语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境。
进一步的,如果音频信息包含语音信息,那么判断该语音信息是说话产生的语音信息还是唱歌(或戏剧)产生的语音信息,如果是唱歌(或戏剧)产生的语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境,如果是说话产生的语音信息,那么确定当前录制环境有正在进行言语输出的用户,当前录制环境为第一环境。
也就是说,如果当前录制环境没有语音信号(没有人发出的声音),那么确定当前录制环境为第二环境,如果当前录制环境有语音信号,但是该语音信号是唱歌(或戏剧)过程所产生的语音信号,那么确定当前录制环境为第二环境。
作为另一种方式,基于音频信息的参数信息确定当前录制环境,包括:
对通过麦克风获得的音频信息进行分析,确定音频信息中是否包含语音信息,如果音频信息不包含语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境。
进一步的,如果音频信息包含语音信息,进一步统计该语音信息的音量,如果该语音信息的音量低于预设的音量阈值,则确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境。
进一步的,如果音频信息包含语音信息并且该语音信息的音量达到预设的音量阈值,那么判断该语音信息是说话产生的语音信息还是唱歌(或戏剧)产生的语音信息,如果是唱歌(或戏剧)产生的语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境,如果是说话产生的语音信息,那么确定当前录制环境有正在进行言语输出的用户,当前录制环境为第一环境。
也就是说,如果当前录制环境没有语音信号(没有人发出的声音),那么确定当前录制环境为第二环境,如果当前录制环境有语音信号,但是该语音信号的音量低于预设的音量阈值,则确定当前录制环境为第二环境,进一步的,如果该语音信号的音量达到预设的音量阈值但该语音信号是唱歌(或戏剧)过程所产生的语音信号,那么确定当前录制环境为第二环境。
需要说明的是,可以通过分析语音信号的节奏、旋律或者韵律,以确定语音信号是说话产生的还是唱歌(或戏剧)产生的。
作为另一种方式,基于音频信息的参数信息确定当前录制环境,包括:
确定当前音频信息的信噪比;
如果当前音频信息的信噪比大于阈值,则确定当前录制环境为第一环境;
如果当前音频信息的信噪比小于阈值,则确定当前录制环境为第二环境。
移动终端在音频录制模式下,如果通过麦克风获得的音频信息的信噪比大于阈值,表明当前录制环境较为安静,处于该录制环境中的用户说话时能够清楚地采集到该用户的声音信号,因此将当前录制环境确定为第一环境,通过语音识别引擎对当前的音频信息进行实时处理,将当前的音频信息同步转换为字幕信息。如果通过麦克风获得的音频信息的信噪比小于阈值,表明当前录制环境较为嘈杂,处于该录制环境中的用户说话时很难清楚地采集到该用户的声音信号,因此将当前录制环境确定为第二环境,暂停通过语音识别引擎对当前的音频信息进行实时处理。
作为一种优选方案,移动终端包括麦克风阵列,该麦克风阵列包括多个麦克风,多个麦克风布置于移动终端的至少两个侧面上。
在本申请上述公开的音频文件录制方法中,通过移动终端的麦克风获得音频信息,可以采用如下方式:
通过麦克风阵列获得目标用户的音频信息。其中,目标用户为指定的用户。
实施中,通过麦克风阵列对目标用户进行定位,根据目标用户的位置以及麦克风阵列中麦克风的安装位置调整各个麦克风的增益,实现对目标用户的追踪,以便采集该目标用户的音频信息。
另外,在本申请上述公开的音频文件录制方法中,字幕流还可以携带字幕信息的显示配置信息。其中,字幕信息的显示配置信息包括字幕信息的显示位置和/或字幕信息的动态显示模式。
另外,字幕流中除了通过语音识别引擎产生的字幕信息之外,还可以包括:根据语音信息的提供者的状态确定的辅助信息。其中,辅助信息包括但不限于图片、表情符号。实施中,可以根据语音信息确定其提供者的情绪状态。
本申请还公开一种移动终端,其结构如图7所示,包括输入接口50、麦克风601和处理器70。
输入接口50用于采集输入指令。
处理器70用于:响应指示开始录制音频的第一指令,进入音频录制模式;在音频录制模式下,通过麦克风601获得音频信息;调用语音识别引擎,基于语音识别引擎对音频信息进行实时处理,以使得基于音频信息同步生成字幕信息;响应指示结束录制音频的第二指令,退出音频录制模式;将在音频录制模式下,由音频信息构成的音频流以及由字幕信息构成的字幕流合成为第一音频文件,以使得在播放第一音频文件时,同步输出音频流和字幕流。
本申请公开的移动终端在录制音频的过程中,通过语音识别引擎对音频信息进行实时处理,从而基于音频信息同步生成字幕信息,移动终端在退出音频录制模式后,即可基于音频流和字幕流生成音频文件,从而快捷地制作完成配置有字幕的音频文件。
作为一种实施方式,处理器70在基于语音识别引擎对音频信息进行实时处理的方面,用于:基于音频信息的参数信息确定当前录制环境;基于当前录制环境为第一环境的结果,将当前的音频信息同步转换为字幕信息;基于当前录制环境为第二环境的结果,暂停将音频信息同步转换为字幕信息的操作,直至获得表明当前录制环境为第一环境的结果。
可选的,处理器70将第一环境配置为至少有一个用户在进行语言输出的环境,将第二环境配置为仅存在背景音的环境。
作为一种实施方式,处理器40在基于音频信息的参数信息确定当前录制环境的方面,用于:对通过麦克风获得的音频信息进行分析,确定音频信息中是否包含语音信息,如果音频信息不包含语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境。进一步的,如果音频信息包含语音信息,那么判断该语音信息是说话产生的语音信息还是唱歌(或戏剧)产生的语音信息,如果是唱歌(或戏剧)产生的语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境,如果是说话产生的语音信息,那么确定当前录制环境有正在进行言语输出的用户,当前录制环境为第一环境。
作为一种实施方式,处理器40在基于音频信息的参数信息确定当前录制环境的方面,用于:对通过麦克风获得的音频信息进行分析,确定音频信息中是否包含语音信息,如果音频信息不包含语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境。进一步的,如果音频信息包含语音信息,进一步统计该语音信息的音量,如果该语音信息的音量低于预设的音量阈值,则确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境。进一步的,如果音频信息包含语音信息并且该语音信息的音量达到预设的音量阈值,那么判断该语音信息是说话产生的语音信息还是唱歌(或戏剧)产生的语音信息,如果是唱歌(或戏剧)产生的语音信息,那么确定当前录制环境没有正在进行言语输出的用户,当前录制环境为第二环境,如果是说话产生的语音信息,那么确定当前录制环境有正在进行言语输出的用户,当前录制环境为第一环境。
作为另一种实施方式,处理器40在基于音频信息的参数信息确定当前录制环境的方面,用于:确定当前音频信息的信噪比;如果当前音频信息的信噪比大于阈值,则确定当前录制环境为第一环境;如果当前音频信息的信噪比小于阈值,则确定当前录制环境为第二环境。
作为一种优选实施方式,移动终端包括麦克风阵列,该麦克风阵列包括多个麦克风,多个麦克风布置于移动终端的至少两个侧面上。
在移动终端包括麦克风阵列的情况下,作为一种实施方式,处理器70在通过移动终端的麦克风获得音频信息的方面,用于:通过麦克风阵列获得目标用户的音频信息。其中,目标用户为指定的用户。
本发明的实施例在视频录制的时候启动语音识别,针对当前环境中语音进行识别并转换成字幕。该字幕同步与摄像头采集的图像、麦克风采集的语音保存形成最终的多媒体文件。本发明的实施例通过多个麦克风的采集以及声音降噪技术能够实现仅针对摄像头采集区域中的对象进行语音采集并通过语音识别引擎进行同步识别和转换。更进一步的,可以通过多麦克风定位的技术定位到摄像头采集区域中的某一个正在进行语音输出的用户并进行实时采集以及通过语言识别引擎进行针对该正在语音输出的用户进行识别和转换成字幕。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的移动终端而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种移动终端的视频文件录制方法,其特征在于,包括:
获得指示开始录制视频的第一指令;
响应所述第一指令,进入视频录制模式;
在所述视频录制模式下,通过所述移动终端的摄像头获得图像信息,通过所述移动终端的麦克风获得音频信息;
调用语音识别引擎,基于所述语音识别引擎对所述音频信息进行实时处理,以使得基于所述音频信息同步生成字幕信息;
获得指示结束录制视频的第二指令;
响应所述第二指令,退出所述视频录制模式;
将在所述视频录制模式下,由所述图像信息构成的图像流、由所述音频信息构成的音频流、以及由所述字幕信息构成的字幕流合成为第一视频文件,以使得在播放所述第一视频文件时,同步输出所述图像流、所述音频流和所述字幕流。
2.根据权利要求1所述的方法,其特征在于,所述基于所述语音识别引擎对所述音频信息进行实时处理,包括:
基于所述音频信息的参数信息确定当前录制环境;
基于当前录制环境为所述第一环境的结果,将当前的音频信息同步转换为字幕信息;
基于当前录制环境为所述第二环境的结果,暂停将音频信息同步转换为字幕信息的操作,直至获得表明当前录制环境为所述第一环境的结果。
3.根据权利要求2所述的方法,其特征在于,所述第一环境为至少有一个用户在进行语言输出的环境,所述第二环境为仅存在背景音的环境。
4.根据权利要求3所述的方法,其特征在于,基于所述音频信息的参数信息确定当前录制环境,包括:
确定当前音频信息的信噪比;
如果当前音频信息的信噪比大于阈值,则确定当前录制环境为所述第一环境;
如果当前音频信息的信噪比小于所述阈值,则确定当前录制环境为所述第二环境。
5.根据权利要求1所述的方法,其特征在于,所述移动终端包括麦克风阵列,所述麦克风阵列包括多个安装位置不同的麦克风,其中,所述摄像头所在的侧面上设置有至少一个麦克风,所述移动终端的至少一个其他侧面上设置有麦克风;
所述通过所述移动终端的麦克风获得音频信息,包括:通过所述麦克风阵列获得目标用户的音频信息,其中,所述目标用户为能够通过所述移动终端的摄像头进行图像采集且显示在所述移动终端的显示屏内的用户。
6.一种移动终端,其特征在于,包括输入接口、摄像头、麦克风和处理器;
所述输入接口用于采集输入指令;
所述处理器用于:响应指示开始录制视频的第一指令,进入视频录制模式;在所述视频录制模式下,通过所述移动终端的摄像头获得图像信息,通过所述移动终端的麦克风获得音频信息;调用语音识别引擎,基于所述语音识别引擎对所述音频信息进行实时处理,以使得基于所述音频信息同步生成字幕信息;响应指示结束录制视频的第二指令,退出所述视频录制模式;将在所述视频录制模式下,由所述图像信息构成的图像流、由所述音频信息构成的音频流、以及由所述字幕信息构成的字幕流合成为第一视频文件,以使得在播放所述第一视频文件时,同步输出所述图像流、所述音频流和所述字幕流。
7.根据权利要求6所述的移动终端,其特征在于,所述处理器在基于所述语音识别引擎对所述音频信息进行实时处理的方面,用于:
基于所述音频信息的参数信息确定当前录制环境;基于当前录制环境为所述第一环境的结果,将当前的音频信息同步转换为字幕信息;基于当前录制环境为所述第二环境的结果,暂停将音频信息同步转换为字幕信息的操作,直至获得表明当前录制环境为所述第一环境的结果。
8.根据权利要求7所述的移动终端,其特征在于,所述处理器将所述第一环境配置为至少有一个用户在进行语言输出的环境,将所述第二环境配置为仅存在背景音的环境。
9.根据权利要求8所述的移动终端,其特征在于,所述处理器在基于所述音频信息的参数信息确定当前录制环境的方面,用于:
确定当前音频信息的信噪比;如果当前音频信息的信噪比大于阈值,则确定当前录制环境为所述第一环境;如果当前音频信息的信噪比小于所述阈值,则确定当前录制环境为所述第二环境。
10.根据权利要求6所述的移动终端,其特征在于,所述移动终端包括麦克风阵列,所述麦克风阵列包括多个安装位置不同的麦克风,其中,所述摄像头所在的侧面上设置有至少一个麦克风,所述移动终端的至少一个其他侧面上设置有麦克风;所述移动终端还包括显示屏;
所述处理器在通过所述移动终端的麦克风获得音频信息的方面,用于:通过所述麦克风阵列获得目标用户的音频信息,其中,所述目标用户为能够通过所述移动终端的摄像头进行图像采集且显示在所述移动终端的显示屏内的用户。
11.一种移动终端的音频文件录制方法,其特征在于,包括:
获得指示开始录制音频的第一指令;
响应所述第一指令,进入音频录制模式;
在所述音频录制模式下,通过所述移动终端的麦克风获得音频信息;
调用语音识别引擎,基于所述语音识别引擎对所述音频信息进行实时处理,以使得基于所述音频信息同步生成字幕信息;
获得指示结束录制音频的第二指令;
响应所述第二指令,退出所述音频录制模式;
将在所述音频录制模式下,由所述音频信息构成的音频流以及由所述字幕信息构成的字幕流合成为第一音频文件,以使得在播放所述第一音频文件时,同步输出所述音频流和所述字幕流。
12.一种移动终端,其特征在于,包括输入接口、麦克风和处理器;
所述输入接口用于采集输入指令;
所述处理器用于:响应指示开始录制音频的第一指令,进入音频录制模式;在所述音频录制模式下,通过所述移动终端的麦克风获得音频信息;调用语音识别引擎,基于所述语音识别引擎对所述音频信息进行实时处理,以使得基于所述音频信息同步生成字幕信息;响应指示结束录制音频的第二指令,退出所述音频录制模式;将在所述音频录制模式下,由所述音频信息构成的音频流以及由所述字幕信息构成的字幕流合成为第一音频文件,以使得在播放所述第一音频文件时,同步输出所述音频流和所述字幕流。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710525908.8A CN107316642A (zh) | 2017-06-30 | 2017-06-30 | 视频文件录制方法、音频文件录制方法及移动终端 |
PCT/CN2017/107014 WO2019000721A1 (zh) | 2017-06-30 | 2017-10-20 | 视频文件录制方法、音频文件录制方法及移动终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710525908.8A CN107316642A (zh) | 2017-06-30 | 2017-06-30 | 视频文件录制方法、音频文件录制方法及移动终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107316642A true CN107316642A (zh) | 2017-11-03 |
Family
ID=60180331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710525908.8A Pending CN107316642A (zh) | 2017-06-30 | 2017-06-30 | 视频文件录制方法、音频文件录制方法及移动终端 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107316642A (zh) |
WO (1) | WO2019000721A1 (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895575A (zh) * | 2017-11-10 | 2018-04-10 | 广东欧珀移动通信有限公司 | 屏幕录制方法、屏幕录制装置及电子终端 |
CN108063722A (zh) * | 2017-12-20 | 2018-05-22 | 北京时代脉搏信息技术有限公司 | 视频数据生成方法、计算机可读存储介质和电子设备 |
CN109660744A (zh) * | 2018-10-19 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 基于大数据的智能双录方法、设备、存储介质及装置 |
CN110300274A (zh) * | 2018-03-21 | 2019-10-01 | 腾讯科技(深圳)有限公司 | 视频文件的录制方法、装置及存储介质 |
CN110853662A (zh) * | 2018-08-02 | 2020-02-28 | 深圳市优必选科技有限公司 | 语音交互方法、装置及机器人 |
CN111814732A (zh) * | 2020-07-23 | 2020-10-23 | 上海优扬新媒信息技术有限公司 | 一种身份验证方法及装置 |
CN111816183A (zh) * | 2020-07-15 | 2020-10-23 | 前海人寿保险股份有限公司 | 基于音视频录制的语音识别方法、装置、设备及存储介质 |
CN112261489A (zh) * | 2020-10-20 | 2021-01-22 | 北京字节跳动网络技术有限公司 | 生成视频的方法、装置、终端和存储介质 |
CN112752047A (zh) * | 2019-10-30 | 2021-05-04 | 北京小米移动软件有限公司 | 视频录制方法、装置、设备及可读存储介质 |
CN113905267A (zh) * | 2021-08-27 | 2022-01-07 | 北京达佳互联信息技术有限公司 | 一种字幕编辑方法、装置、电子设备及存储介质 |
CN115695901A (zh) * | 2022-10-28 | 2023-02-03 | 思必驰科技股份有限公司 | 监控设备的数据处理方法、装置、设备及存储介质 |
TWI792207B (zh) * | 2021-03-03 | 2023-02-11 | 圓展科技股份有限公司 | 過濾鏡頭操作雜音的方法及錄影系統 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113014984A (zh) * | 2019-12-18 | 2021-06-22 | 深圳市万普拉斯科技有限公司 | 实时添加字幕方法、装置、计算机设备和计算机存储介质 |
CN112533052A (zh) * | 2020-11-27 | 2021-03-19 | 北京字跳网络技术有限公司 | 一种视频分享方法、装置、电子设备及存储介质 |
CN112770160A (zh) * | 2020-12-24 | 2021-05-07 | 沈阳麟龙科技股份有限公司 | 一种股票分析视频创作***及方法 |
CN112672099B (zh) * | 2020-12-31 | 2023-11-17 | 深圳市潮流网络技术有限公司 | 字幕数据生成和呈现方法、装置、计算设备、存储介质 |
CN113781988A (zh) * | 2021-07-30 | 2021-12-10 | 北京达佳互联信息技术有限公司 | 字幕显示方法、装置、电子设备及计算机可读存储介质 |
CN116471435A (zh) * | 2023-04-12 | 2023-07-21 | 央视国际网络有限公司 | 语音和字幕的调整方法和装置、电子设备、存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101382937A (zh) * | 2008-07-01 | 2009-03-11 | 深圳先进技术研究院 | 基于语音识别的多媒体资源处理方法及其在线教学*** |
CN103297710A (zh) * | 2013-06-19 | 2013-09-11 | 江苏华音信息科技有限公司 | 汉语自动实时标注中外文字幕音像录播设备 |
CN106409296A (zh) * | 2016-09-14 | 2017-02-15 | 安徽声讯信息技术有限公司 | 基于分核处理技术的语音快速转写校正*** |
CN106792145A (zh) * | 2017-02-22 | 2017-05-31 | 杭州当虹科技有限公司 | 一种音视频自动叠加字幕的方法和装置 |
CN106851401A (zh) * | 2017-03-20 | 2017-06-13 | 惠州Tcl移动通信有限公司 | 一种自动添加字幕的方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100639154B1 (ko) * | 2005-02-01 | 2006-10-30 | 우종식 | 하나의 파일로 일반 음악, 반주 음악, 가사 미리불러주기, 코러스 기능, 뮤직비디오 제작이 가능한 음원생성 및 재생 방법과 그 장치 |
-
2017
- 2017-06-30 CN CN201710525908.8A patent/CN107316642A/zh active Pending
- 2017-10-20 WO PCT/CN2017/107014 patent/WO2019000721A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101382937A (zh) * | 2008-07-01 | 2009-03-11 | 深圳先进技术研究院 | 基于语音识别的多媒体资源处理方法及其在线教学*** |
CN103297710A (zh) * | 2013-06-19 | 2013-09-11 | 江苏华音信息科技有限公司 | 汉语自动实时标注中外文字幕音像录播设备 |
CN106409296A (zh) * | 2016-09-14 | 2017-02-15 | 安徽声讯信息技术有限公司 | 基于分核处理技术的语音快速转写校正*** |
CN106792145A (zh) * | 2017-02-22 | 2017-05-31 | 杭州当虹科技有限公司 | 一种音视频自动叠加字幕的方法和装置 |
CN106851401A (zh) * | 2017-03-20 | 2017-06-13 | 惠州Tcl移动通信有限公司 | 一种自动添加字幕的方法及*** |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895575A (zh) * | 2017-11-10 | 2018-04-10 | 广东欧珀移动通信有限公司 | 屏幕录制方法、屏幕录制装置及电子终端 |
CN108063722A (zh) * | 2017-12-20 | 2018-05-22 | 北京时代脉搏信息技术有限公司 | 视频数据生成方法、计算机可读存储介质和电子设备 |
CN110300274A (zh) * | 2018-03-21 | 2019-10-01 | 腾讯科技(深圳)有限公司 | 视频文件的录制方法、装置及存储介质 |
CN110300274B (zh) * | 2018-03-21 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 视频文件的录制方法、装置及存储介质 |
CN110853662A (zh) * | 2018-08-02 | 2020-02-28 | 深圳市优必选科技有限公司 | 语音交互方法、装置及机器人 |
CN109660744A (zh) * | 2018-10-19 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 基于大数据的智能双录方法、设备、存储介质及装置 |
CN112752047A (zh) * | 2019-10-30 | 2021-05-04 | 北京小米移动软件有限公司 | 视频录制方法、装置、设备及可读存储介质 |
CN111816183A (zh) * | 2020-07-15 | 2020-10-23 | 前海人寿保险股份有限公司 | 基于音视频录制的语音识别方法、装置、设备及存储介质 |
CN111816183B (zh) * | 2020-07-15 | 2024-05-07 | 前海人寿保险股份有限公司 | 基于音视频录制的语音识别方法、装置、设备及存储介质 |
CN111814732A (zh) * | 2020-07-23 | 2020-10-23 | 上海优扬新媒信息技术有限公司 | 一种身份验证方法及装置 |
CN111814732B (zh) * | 2020-07-23 | 2024-02-09 | 度小满科技(北京)有限公司 | 一种身份验证方法及装置 |
CN112261489A (zh) * | 2020-10-20 | 2021-01-22 | 北京字节跳动网络技术有限公司 | 生成视频的方法、装置、终端和存储介质 |
TWI792207B (zh) * | 2021-03-03 | 2023-02-11 | 圓展科技股份有限公司 | 過濾鏡頭操作雜音的方法及錄影系統 |
CN113905267A (zh) * | 2021-08-27 | 2022-01-07 | 北京达佳互联信息技术有限公司 | 一种字幕编辑方法、装置、电子设备及存储介质 |
CN113905267B (zh) * | 2021-08-27 | 2023-06-20 | 北京达佳互联信息技术有限公司 | 一种字幕编辑方法、装置、电子设备及存储介质 |
CN115695901A (zh) * | 2022-10-28 | 2023-02-03 | 思必驰科技股份有限公司 | 监控设备的数据处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019000721A1 (zh) | 2019-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107316642A (zh) | 视频文件录制方法、音频文件录制方法及移动终端 | |
CN110149548B (zh) | 视频配音方法、电子装置和可读存储介质 | |
US7676372B1 (en) | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech | |
CN100592749C (zh) | 会话支持***与会话支持方法 | |
EP1754221A1 (en) | Method of and system for modifying messages | |
WO2008029889A1 (fr) | Terminal de traitement des informations, procédé de génération d'informations musicales et programme | |
WO2010024426A1 (ja) | 録音装置 | |
US20180054688A1 (en) | Personal Audio Lifestyle Analytics and Behavior Modification Feedback | |
CN103945140B (zh) | 视频字幕的生成方法及*** | |
JP2008085421A (ja) | テレビ電話機、通話方法、プログラム、声質変換・画像編集サービス提供システム、および、サーバ | |
CN110516265A (zh) | 一种基于智能语音的单一识别实时翻译*** | |
JP2000184345A (ja) | マルチモーダルコミュニケーション支援装置 | |
CN109889902A (zh) | 视频应用中视频资源的过滤方法、终端及存储介质 | |
WO2022041192A1 (zh) | 语音消息处理方法、设备及即时通信客户端 | |
JP2007018006A (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
JP2011055386A (ja) | 音響信号処理装置及び電子機器 | |
TW201102836A (en) | Content adaptive multimedia processing system and method for the same | |
WO2023276539A1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
TWI377559B (en) | Singing system with situation sound effect and method thereof | |
CN111696566A (zh) | 语音处理方法、装置和介质 | |
US20020184036A1 (en) | Apparatus and method for visible indication of speech | |
JP2007298876A (ja) | 音声データ記録再生装置 | |
EP3288035A2 (en) | Personal audio lifestyle analytics and behavior modification feedback | |
Beskow et al. | Hearing at home-communication support in home environments for hearing impaired persons. | |
JP7000547B1 (ja) | プログラム、方法、情報処理装置、システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171103 |