CN113747047B - 一种视频播放的方法及设备 - Google Patents

一种视频播放的方法及设备 Download PDF

Info

Publication number
CN113747047B
CN113747047B CN202010480576.8A CN202010480576A CN113747047B CN 113747047 B CN113747047 B CN 113747047B CN 202010480576 A CN202010480576 A CN 202010480576A CN 113747047 B CN113747047 B CN 113747047B
Authority
CN
China
Prior art keywords
video
audio
playing
control
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010480576.8A
Other languages
English (en)
Other versions
CN113747047A (zh
Inventor
杨枭
韩博
黎椿键
罗俊卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010480576.8A priority Critical patent/CN113747047B/zh
Priority to PCT/CN2021/096049 priority patent/WO2021244368A1/zh
Priority to EP21818120.4A priority patent/EP4138381A4/en
Priority to US17/925,393 priority patent/US20230185518A1/en
Publication of CN113747047A publication Critical patent/CN113747047A/zh
Application granted granted Critical
Publication of CN113747047B publication Critical patent/CN113747047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/631Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0486Drag-and-drop
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/62Control of parameters via user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/69Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04803Split screen, i.e. subdividing the display area or the window area into separate subareas
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04806Zoom, i.e. interaction techniques or interactors for controlling the zooming operation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Studio Devices (AREA)

Abstract

本申请技术方案提供了一种播放视频的方法及设备,可以在多景录像模式下,在视频回放时可以根据对播放控件的操作,来实现选择播放多景中某一个画面对应的音频。第一方面,本申请技术方案提供了一种视频播放的方法,应用于电子设备,包括但不限于手机。响应于用户的输入,在电子设备上显示视频播放界面,视频播放界面包括第一视频、第二视频、第一播放控件和第二播放控件;响应于对第二播放控件的操作,播放第一视频和所述第二视频;播放与第一播放控件所处的位置对应视频的音频,其中,与第一播放控件所处的位置对应的视频为第一视频。

Description

一种视频播放的方法及设备
技术领域
本申请涉及电子技术领域,尤其涉及一种视频播放的方法及设备。
背景技术
随着手机或平板电脑等电子设备的计算能力和硬件能力的提高,用电子设备如手机(或其他移动设备)拍摄视频和做直播越来越普遍。
手机等移动设备拍摄视频时,为了增加拍摄的灵活性和趣味性,出现了“双景录像”功能,即屏幕显示分为两个子画面同时拍摄。例如一个画面广角拍摄,另一个画面对重点人物放大拍摄。在双景录像下,音频如何播放可能是需要解决的问题。
发明内容
本申请技术方案提供了一种播放视频的方法及设备,可以在多景录像模式下,在视频回放时可以根据对播放控件的操作,来实现选择播放多景中某一个画面对应的音频。
第一方面,本申请技术方案提供了一种视频播放的方法,应用于电子设备,包括但不限于手机。该方法包括:
响应于用户的输入,在电子设备上显示视频播放界面,视频播放界面包括第一视频、第二视频和第一播放控件;
播放第一视频和所述第二视频;
播放与第一播放控件所处的位置对应视频的音频。
由上可以看出,在多景录像视频播放,可以通过对第一播放控件的操作,播放与第一播放控件所处的位置对应视频的音频。例如,用户拖动第一播放控件到第一视频位置处,播放第一视频对应的音频。再例如,用户可以拖动第一播放控件到第一视频和第二视频位置处,这种情况下,可以播放第一视频和第二视频对应的音频。
在一种实现方式中,所述视频播放界面还包括第二播放控件,其中,所述播放所述第一视频和所述第二视频,包括:
响应于对所述第二播放控件的操作,播放所述第一视频和所述第二视频。其中,第二播放控件也可以是播放控件,响应于用户对播放控件的操作,例如用户点击或语音输入,电子设备播放第一视频和第二视频。
在一种实现方式中,电子设备还可以响应于用户对第一播放控件的操作,第一播放控件所处的位置位于第二视频;
播放与所述第二视频对应的音频,停止播放与第一视频对应的音频。
上述第一播放控件可以为喇叭形的控件,表示可以播放音频。可以理解的是,第一播放控件可以有其他形状,例如三角形状。
上述第二播放控件可以是播放/暂停控件,当用户点击该控件时,可以播放或者暂停视频。可以理解的是,第二播放控件也可以是其他功能的控件,也可以通过语音进行控制。例如,用户可以对第二播放控件的操作可以是语音操作或者语音指令。
在一种实现方式中,用户对第一播放控件的操作也可以是语音操作或者语音指令。
在一种实现方式中,电子设备还可以响应于用户对第一播放控件的操作,第一播放控件所处的位置位于第一视频和第二视频;
播放混音,所述混音为第一视频对应的音频和第二视频对应的音频的混音。
上述第一播放控件所处的位置位于第一视频和第二视频的情况,可以是第一播放控件位于第一视频和第二视频的中间,或者第一播放控件的位置跨越了第一视频和第二视频。
在一种实现方式中,与第一视频对应的音频存储在第一音轨中,与第二视频对应的音频存储在第二音轨中。
在一种可能的实现方式中,与第一视频对应的音频存储在第一声道中,与第二视频对应的音频存储在第二声道中。
上述第一音轨可以包括多个声道,第二音轨也可以包括多个声道。
在一种实现方式中,第一视频和与第一视频对应的音频为一个视频文件,第二视频和与第二视频对应的音频为另一个视频文件,或者,
第一视频和与第一视频对应的音频,和,第二视频和与第二视频对应的音频为一个视频文件,或者,
第一视频、第二视频以及与第一视频对应的音频为一个视频文件,或者,
第一视频、第二视频以及与第二视频对应的音频为另一个视频文件。
在一种实现方式中,在第一视频、第二视频以及与第一视频对应的音频为一个视频文件情况下,第二视频对应的音频为一个音频文件,或者,
在第二视频、第一视频以及与第二视频对应的音频为另一个视频文件的情况下,第一视频对应的音频为一个音频文件。
第二方面,本申请技术方案提供了一种生成视频的方法,所述方法包括:
响应于用户第一输入,打开相机,显示预览界面;
进入多景录像模式,显示视频预览界面,视频预览界面包括多路视频画面;
响应于用户第二输入,采集多路视频画面,并且采集音频数据;
在所述采集多路视频的过程中,响应于用户对所述多路视频中的至少一路视频的缩放操作,对采集的与所述至少一路视频对应的音频数据进行处理;
生成视频以及音频;
其中,所述多路视频中的每一路的视频由不同的摄像头采集;
其中,所述缩放操作为对所述至少一路视频进行放大或者缩小,相对应地改变与所述至少一路视频对应的摄像头的焦距。
在一种实现方式中,所述视频为一个视频文件,或者,所述视频为两个视频文件。其中,所述多路视频可以为两路视频。
在一种实现方式中,所述多路视频为两路视频,所述音频包括第一音频和第二音频,其中第一音频对应两路视频画面中的一路视频画面的音频,第二音频对应两路视频画面中的另一路视频画面的音频。
在一种实现方式中,在视频为一个视频文件的情况下,视频文件还包括第一音频,第二音频为一个音频文件;或者
在视频为两个视频文件的情况下,两个视频文件其中一个视频文件包括第一音频,两个视频文件其中另一个视频文件包括第二音频;或者
在视频为一个视频文件的情况下,视频文件包括第一音频和第二音频。
在一种实现方式中,在视频文件包括第一音频和第二音频的情况下,第一音频存储在第一音轨,第二音频存储在第二音轨。
在一种实现方式中,在视频文件包括第一音频和第二音频的情况下,第一音频存储在第一声道,第二音频存储在第二声道。
可以理解的是,上述两路视频画面也可以是三路视频画面或者多路视频画面。
第三方面,本申请技术方案提供一种电子设备,包括存储器以及耦合所述存储器的处理器,以及一个或多个计算机程序,其中一个或多个计算机程序存储在存储器中,一个或多个计算机程序包括指令,当指令被电子设备执行时,使得电子实现上述第一方面和/或第二方面所述的方法。
第四方面,本申请技术方案提供一种芯片***,芯片***应用于电子设备,芯片包括一个或多个处理器,处理器用于调用计算机指令以使得电子设备执行如第一方面和第二方面所述的方法。
第五方面,本申请技术方案提供一种计算机可读存储介质,包括指令,当指令在电子设备上运行时,使得电子设备执行如第一方面和第二方面所述的方法。
第六方面,本申请技术方案提供一种视频播放的方法,包括:
响应于用户的输入,显示视频播放界面,视频播放界面包括第一视频、第二视频和第一播放控件;
播放第一视频和第二视频;
播放与第一播放控件所处的位置对应视频的音频;
视频播放界面还包括第二播放控件,其中,播放第一视频和第二视频,包括:
响应于对第二播放控件的操作,播放第一视频和第二视频;
与第一播放控件所处的位置对应的视频为第一视频。
或者,在一种实现方式中,响应于用户对第一播放控件的操作,第一播放控件所处的位置位于第二视频;
播放与第二视频对应的音频,停止播放与第一视频对应的音频;
或者,在一种实现方式中,响应于用户对第一播放控件的操作,第一播放控件所处的位置位于第一视频和第二视频;
播放混音,混音为第一视频对应的音频和第二视频对应的音频的混音。
在一种实现方式中,与第一视频对应的音频存储在第一音轨中,与第二视频对应的音频存储在第二音轨中;
或者,与第一视频对应的音频存储在第一声道中,与第二视频对应的音频存储在第二声道中;
或者,第一视频和与第一视频对应的音频为一个视频文件,第二视频和与第二视频对应的音频为另一个视频文件,或者,
第一视频和与第一视频对应的音频,和,第二视频和与第二视频对应的音频为一个视频文件,或者,
第一视频、第二视频以及与第一视频对应的音频为一个视频文件,或者,
第一视频、第二视频以及与第二视频对应的音频为一个视频文件。
在一种实现方式中,在第一视频、第二视频以及与第一视频对应的音频为一个视频文件情况下,第二视频对应的音频为另一个音频文件,或者,
在第一视频、第二视频以及与第二视频对应的音频为一个视频文件的情况下,第一视频对应的音频为另一个音频文件;与第一播放控件所处的位置对应的视频为第一视频和第二视频。
第七方面,本申请技术方案提供一种电子设备,包括麦克风、扬声器、显示器、多个摄像头和处理器,处理器与麦克风、扬声器、显示器和多个摄像头耦合,其中,
麦克风,用于采集音频数据;
多个摄像头,用于采集多路视频,其中,多路视频中的每一路的视频由不同的摄像头采集;
显示器,用于显示视频播放界面,视频播放界面包括第一视频、第二视频、第一播放控件;
处理器,用于播放第一视频和第二视频;
扬声器,用于播放与第一播放控件所处的位置对应视频的音频。
在一种实现方式中,与第一播放控件所处的位置对应的视频为第一视频。
在一种实现方式中,处理器,用于:
响应于用户对第一播放控件的操作,第一播放控件所处的位置位于第二视频;
控制扬声器播放与第二视频对应的音频,停止播放与第一视频对应的音频。
在一种实现方式中,处理器,用于:响应于用户对第一播放控件的操作,第一播放控件所处的位置位于第一视频和第二视频;
控制扬声器播放混音,混音为第一视频对应的音频和第二视频对应的音频的混音。
在一种实现方式中,与第一播放控件所处的位置对应的视频为第二视频。
在一种实现方式中,与第一播放控件所处的位置对应的视频为第一视频和第二视频。
在一种实现方式中,视频播放界面还包括第二播放控件;
其中,第一播放控件为音频播放控件。
其中,第二播放控件为播放控件,或,播放/暂停控件。
由上可以看出,在多景录像视频播放,可以通过对第一播放控件的操作,播放与第一播放控件所处的位置对应视频的音频。例如,用户拖动第一播放控件到第一视频位置处,播放第一视频对应的音频。再例如,用户可以拖动第一播放控件到第一视频和第二视频位置处,这种情况下,可以播放第一视频和第二视频对应的音频。
附图说明
为了更清楚地说明本实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1A示出了本申请实施例一种电子设备的操作界面;
图1B示出了本申请实施例一种相机应用的操作界面;
图1C示出了本申请实施例另一种相机应用的操作界面;
图1D-G示出了本申请实施例中双景录像模式下不同的操作界面;
图2A-D示出了本申请实施例中双景录像模式存储视频的不同方法;
图3A-D示出了本申请实施例中视频播放应用的不同操作界面;
图4示出了本申请实施例中电子设备的一种麦克风分布的方式;
图5示出了本申请实施例中一种处理音频数据的方法;
图6示出了本申请实施例中另一种处理音频数据的方法;
图7A-C示出了本申请实施例中不同的播放模式选择方法;
图8示出了本申请实施例中一种视频录制和播放的方法;
图9示出了本申请实施例中一种电子设备的结构;
图10示出了本申请实施例中一种用于电子设备的操作***架构。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
用户在使用电子设备的录像功能时,可以选择多景录像模式。上述多景录像模式可以为在视频录制时,可以同时使用多颗摄像头进行视频录制,这样在视频录制的预览界面可以显示多颗摄像头视频录制的画面,其中每一颗摄像头录制的视频可以称为一路视频画面。这些画面可以以拼接的方式或者画中画的方式显示在预览界面。
本申请一实施例,以双景录像为例进行描述。如图1A所示,电子设备100以手机为例,手机100可以显示界面102,其中,界面102显示有相机应用的图标101。例如,在界面102的上半部分,可以显示多个应用的图标(例如:时钟、日历、图库、设置等应用图标),在界面102的下半部分,可以显示有常用的应用图标(例如:相机、通讯录、电话、信息等应用图标)。用户可以点击相机应用101进入拍摄预览界面。如图1B所示,为进入相机应用101后的拍摄预览界面。其中,拍摄预览界面包括设置控件105,画面内容104,多功能栏103。在用户点击设置控件105,可以进入相机应用101的设置界面。其中,进入设置界面后,用户可以更改分辨率、参考线、声控拍照等设置信息,上述参考线为显示在拍照界面中辅助拍照的经纬线。如图1C所示,在双景录像模式下,用户可以选择设置控件105进入设置界面,设置界面包括选择拍摄模式106。例如,在选择拍摄模式106,用户可以选择采用哪两颗摄像头进行双景录像。画面内容104可以默认为广角摄像头采集的图像,图1B中画面内容104为一个正在行走的人物。多功能栏103中可以为可供用户选择的功能。例如,多功能栏013中包括双景录像功能,也可以包括大光圈、拍照、录像和/或专业等各种功能。其中,大光圈功能,可以用来控制相机上镜头孔径大小,以控制景深、镜头成像素质和快门协同控制进光量。如果用户使用大光圈功能,例如,使用大光圈来进行拍摄,大光圈可以使景深变浅,使对焦点清晰,而画面其他部分相对模糊,有利于突出主体、精简画面。拍照功能,是进入相机应用后默认使用的功能,在拍照功能下即进行拍照,在拍照的过程中可以通过放大或缩小的手势来对焦距进行改变。当用户点击拍照按钮后,相机进行一次拍照操作,并把拍好的图片存入相册中。在一种实现方式中,还可以通过放大或缩小的手势来实现切换摄像头。录像功能,是用户可以使用相机进行视频录制,并把录制好的视频存入相册或文件夹中。专业功能,可以提供给用户更多相机参数的调节,如曝光率、感光度、白平衡等专业参数,使用户能够拍出自己想要的照片。其中,拍摄预览界面还可以包括拍照按钮,在拍照功能下,用户点击拍照按钮,可以进行拍照。在双景录像功能下,用户点击拍照按钮,可以进行双景录像。在一种实现方式是,拍摄预览界面还包括相册和镜头切换按钮。当用户点击相册按钮时,可以进入手机100的图库文件夹,查看用户拍摄的照片以及录制的视频、音频等多媒体文件。当用户点击镜头切换按钮时,将正在使用的后置摄像头可以切换为前置摄像头(当然也可以将前置摄像头切换为后置摄像头)。
可以理解的,还可以通过语音输入进行拍照。例如,用户语音输入“拍照”,手机可以执行拍照功能。
如图1B和图1C所示,在用户点击双景录像功能后,进入双景模式,可以默认弹出对话框106(也可以通过点击设置控件105弹出对话框106)。在对话框106中,可以提示用户选择不同的拍摄模式,包括但不限于广角模式+变焦模式、广角模式+前置模式、前置模式+变焦模式。在双景录像中,采集两路视频画面的摄像头可以有多种组合,例如:组合1,后置摄像头+后置摄像头;组合2,后置摄像头+前置摄像头;组合3,前置摄像头+前置摄像头。其中后置摄像头可以包括但不限于,后置广角摄像头、后置变焦摄像头、后置定焦摄像头、后置长焦摄像头等。后置摄像头+后置摄像头,可以为后置广角摄像头、后置变焦摄像头、后置定焦摄像头、后置长焦摄像头中的任何两个摄像头。其中前置摄像头可以包括但不限于,前置广角摄像头、前置变焦摄像头、前置定焦摄像头等。前置摄像头+前置摄像头,可以为前置广角摄像头、前置变焦摄像头、前置定焦摄像头中的任何两个摄像头。后置摄像头+前置摄像头,可以为后置广角摄像头、后置变焦摄像头、后置定焦摄像头、后置长焦摄像头中的一个摄像头+前置广角摄像头、前置变焦摄像头、前置定焦摄像头中的一个摄像头。
其中,不同的摄像头在录像的过程中,可以生成不同的音频。如图1D所示,当用户完成拍摄模式的选择后,进入双景录像的拍摄预览界面。例如,用户选择广角模式+变焦模式,采用后置广角摄像头和后置变焦摄像头。如图1D所示,在该拍摄模式下,使用广角摄像头与变焦摄像头共同拍摄。在拍摄预览界面中,变焦摄像头采集的画面中有画面内容109,画面内容109可以为进行了两倍变焦后变焦摄像头采集到的人物画面。在变焦摄像头采集的画面中,还有变焦倍数指示控件110,该控件可以指示目前变焦摄像头采集画面时使用的变焦倍数。用户可以对画面内容109进行缩放操作(也可以缩放两个画面内容中的任意一个)。用户在对画面进行缩放操作,可以改变摄像头的焦距。其中,摄像头在变焦的时候,可以是光学变焦,也可以是数字变焦。画面内容108为广角摄像头采集到的人物画面。两个画面可以并排排放在预览界面上,也可以以任意的显示比例显示在预览界面上。两个画面的显示方式,可以是拼接,也可以是画中画。在拍摄预览界面中,还有录制控件107。当用户点击录制控件107后,手机100开始进行双景录像。
同理如图1E所示,为用户使用前置模式+变焦模式,采用前置摄像头和后置变焦摄像头,进行双景录像的示意图。在用户点击了录制控件107后,开始双景录像。其中,录制控件107可以改变形状以指示录制状态的变化,例如,在用户点击了录制控件107后,可以显示圆形倒计时,例如10秒、或8秒等预设时间,经过预设时间后,完成双景录像。在该种模式下,包括变焦摄像头采集的画面内容109和前置摄像头采集的画面内容111。
如图1F所示,为用户使用广角模式+前置模式,采用后置广角摄像头加前置摄像头进行双景录像的示意图。在用户点击了录制控件107后,开始双景录像,录像控件107可以改变形状以指示录制状态的变化,例如,在用户点击了录制控件107后,可以显示圆形倒计时,例如10秒、5秒、或8秒等预设时间,经过预设时间后,完成双景录像。在用户想要结束双景录像时,可以点击录制控件107以结束视频录制。在该种模式下,包括广角摄像头采集的画面内容108和前置摄像头采集的画面内容111。当用户想要结束双景录像时,再次点击录制控件107以结束视频录制。如果用户想更换拍摄模式,则点击设置控件105,弹出功能框106,用户可以在功能框106中再次选择拍摄模式。
如图1G所示,为用户使用广角模式+变焦模式,采用后置广角摄像头和后置变焦摄像头,进行双景录像的示意图。手势113为用户的缩放手势。在进行双景录像的过程中,当用户使用手势113时,会让视频画面放大,与此同时,与上述视频画面所对应的摄像头会改变焦距。例如,如果手势113为放大手势,则与上述视频画面所对应的摄像头会增大焦距,且视频画面被放大。同理,如果手势113为缩小手势,则与上述视频画面所对应的摄像头会减小焦距,且视频画面被缩小。在用户使用手势113的同时,视频画面中还可以显示控件112。控件112可以为表示音频变焦的控件,如果手势113为放大手势,则控件112产生颜色变深或者形状变大等变化,并且对视频画面所对应的音频进行相应的增强处理。同理,如果手势113位缩小手势,则控件112产生颜色边浅或者形状变小等变化,并且对视频画面所对应的音频进行相应的减弱处理。上述对音频的增强、减弱等处理。
可以理解的,在用户选择双景录像功能,进入双景录像预览界面,在用户语音输入“录制”、“录像”或“开始录制”后,手机可以进行视频录制;在用户语音输入“停止”或“停止录制”后,手机完成双景录像视频录制。
在进行双景录像时,可以通过麦克风来采集音频信号。电子设备采用的拾音设备可以是麦克风阵列(Microphone array)。其中,麦克风阵列可以是一组位于空间不同位置的全向麦克风按照一定的形状规则布置形成的阵列,是对空间传播声音信号进行空间采样的一种装置。麦克风阵列采集到的信号包含了声源的空间位置信息。麦克风阵列可以用于语音增强、声源定位、声源信号提取、分离等。语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中提取纯净语音的过程。由于声源位置的不断变化,麦克风阵列可以进行声源定位。声源定位是指使用麦克风阵列来计算目标声源的角度和距离,从而实现对声源语音进行定向拾取。麦克风阵列还可以进行声源信号提取,声源信号的提取就是从多个声音信号中提取出目标信号。利用麦克风阵列做信号的提取主要的方式为:基于波束形成的方法,例如通过将不同传播方向的声源分别形成拾音波束,抑制除目标方向外其他方向的声音,来进行语音提取。麦克风阵列还可以进行声源信号分离,声源信号分离则是根据需要将多个混合声音分别分离并提取。利用麦克风阵列做信号的分离主要的方式为:基于传统的盲源信号分离(blind source separation)的方法进行,主要包括主成分分析(principal component analysis,PCA)和基于独立成分分析(independent component analysis,ICA)的方法。本实施例中采用的麦克风阵列可以为全向麦克风,全向麦克风可以接收来自任何方向的声音,例如,不管声源在任何角度,所有的声音信号可以以相同的方式被拾取。可以理解的是,还可以采用其他的麦克风,如单向麦克风、双向麦克风、心型麦克风等,本申请实施不做限制。
在本实施例中,全向麦克风还可以根据用户对画面内容的缩放操作,对目标声源的声音信号进行提取、分离以及增强处理等。例如,手机100可以根据画面内容的缩放实现音频的缩放。本申请的实施例中的麦克风可以有多个,以下以三个麦克风为例进行阐述。如图4所示,手机100具有三个全向麦克风,分别为电子设备的顶部麦克风1、底部麦克风2和背部的麦克风3。在进行双景录像时,三个麦克风均可以采集声音信号,并将采集到的声音信号根据双景录像中的两个画面,分别进行音频信号处理。其中,信号处理的过程包括:首先,将三个麦克风采集到的声音信号进行风噪抑制(wind noise reduction,WNR)。上述风噪可以由风产生的固定噪声,例如,稳态噪声。风噪也可以为与随风的强弱而变动的噪声,例如非稳态噪声组成。稳态噪声可以由麦克风采集的输入信号中没有语音时的平均值确定,非稳态噪声可以由输入信号与稳态噪声的差值确定。电子设备可以根据输入信号的类型的不同,对风噪进行降噪处理。第二步,在进行风噪处理后,对处理后的音频数据进行波束形成(Beamforming)处理。波束形成是对各麦克风输入的信号进行时延或相位补偿、信号幅度加权处理,以形成指向特定方向的波束。本实施例中使用的波束形成方案可以有两种,其一为固定波束形成,另一为自适应波束形成,两种方案可以分别使用或者共同使用。例如,固定波束形成与自适应波束形成的方案共同使用,用在使用前置摄像头录像时对声音信号的处理。例如,在双景录像中,使用了包含前置摄像头的模式,在处理前置摄像头相对应的音频信号时采用固定波束形成与自适应波束形成共同使用的方案。使用自适应波束形成的方案,可以用在包含后置摄像头(如后置广角摄像头、后置变焦摄像头)的模式。固定波束形成,可使用delay-sum的方法,对非相干噪声处理效果好,如空间白噪声。自适应波束形成,可使用最小方差无失真响应(minimum variance distortion-less response,MVDR)的方法,MVDR是一种基于最大信噪比准则的自适应波束形成算法,可以最小化记录信号的方差,找到最小化的信号和噪声的和,从而减轻噪声的影响。在经过自适应波束形成处理后,还可以进行波束后处理。波束后处理是指,经过自适应波束形成后的声音信号在波束的边缘会有部分声音发生畸变,有部分声音会发生衰减(固定波束形成不会有该问题),例如高音衰减或易丢。波束后处理将上述衰减或丢失的部分声音信号检测出来,并补充到声音信号中。第三步,对经过上述处理的声音信号进行均衡(equalizer,EQ)处理,例如,调节音频信号中各频段声音信号的增益。第四步,对经过EQ处理的声音信号进行自动增益控制(automaticgain control,AGC)处理。AGC是放大器或放大器链中的闭环反馈调节电路,其作用是不论输入信号的幅度如何变化,但在经过AGC处理后,在输出信号时保持合适的信号幅度,例如,对音频信号做平滑处理,使音频信号保持在合适的范围。第五步,音频信号经过AGC处理后,运用深度神经网络(deep neural network,DNN)估计声音和噪声的自回归(auto-regressive,AR)模型系数。在训练阶段,DNN的训练特征为对数功率谱(log powerspectrum,LPS),训练目标为声音和噪声的AR模型***的级联向量。通过训练DNN,得到了语音的LPS与增强语音和噪声的AR模型系数的拟合函数。利用DNN输出的语音和噪声的AR模型系数构建维纳滤波器,实现语音增强。DNN谐波增强的作用是可以改善听感。在包含前置摄像头的模式下,音频信号中人声的比例大,DNN增强谐波可以更好的改善听感。谐波是指电流中所含有的频率为基波的整数倍的电量,可以是指对周期性的非正弦电量进行傅里叶级数分解,除了基波频率的电量,其余大于基波频率的电流产生的电量,称为谐波。频率为基波的偶次倍的谐波,对听感的改善更好。所以DNN谐波增强可以控制谐波,达到改善听感的效果。经过DNN谐波增强后,对处理后的信号做录音降噪(record noise reduction,RNR),去除外界噪声,保留音频输入的场景。第六步,经过RNR降噪处理后的音频信号,电子设备对其做多频段动态范围控制(multiband dynamic range control,MBDRC)。动态范围控制为动态调整音频信号输出的幅度值,控制对比度,在音量大时压制音量在某一范围内,在音量小时适当提升音量。把音频信号划分为多个频带,不同的频带可以设置不同的调节方式,控制音频的输出功率,使扬声器不破音,且处于低音量时也能让人清晰的听到。第七步,电子设备对经过MBDRC处理后的音频信号做峰值限制,输出最终的音频信号。
可以理解的是,可以通过波束形成将双景录像中画面内容的缩放信息,例如变焦倍数加入到声音信号的处理中,得到声音缩放的效果。上述步骤中的一些步骤可以省略,例如第三步或第五步。上述步骤也可以更换顺序,例如,第四步和第六步。
在双景录像结束后,保存多媒体文件的方式有多种。如图2A所示,可以保存一个有双音轨的视频文件。将不同画面对应的音频信号分别编码生成两条音轨,然后将音轨编码到相应的视频文件中。例如,将双景录像过程中两个画面内容中画面内容109所对应的音频信号编码生成音轨1,将双景录像过程中两个画面内容中画面内容108所对应的音频信号编码生成音轨2。手机100可以使用音视频混合编码API将音轨1与音轨2编码到视频文件中。上述这种文件存储的方法,其有益效果在于,在双景模式下录制的视频可以只有一个视频文件,占用的存储空间小。另外,该视频文件的兼容性好,可以适应市场上绝大多数的主流视频播放应用。
上述音轨可以为声道的集合,也即一条音轨可以有多个声道,一条音轨可以是一个完整的音频数据。一个视频文件中可以有多条音轨,每条音轨可以有多个声道。声道可以为音效的单独通道,不同的声道中可以有相同波形但相位不同的音频信号,也可以有波形不同的音频信号。
可以理解的是,在一些可能的实现方式中,在双景录像结束后,保存多媒体文件的方式还可以是如图2B所示的方式,可以保存两个视频文件。两个视频文件的视频数据可以相同,均为有两个画面内容。音频数据也可以生成两份,其中,一份音频数据对应两个画面内容中一个画面内容的音频信号,另一份音频数据对应两个画面内容中另一个画面内容的音频信号。将音频数据与视频数据一起编码生成视频文件,也即分别生成两个视频文件。如图2B所示,双景录像生成视频文件202和视频文件203,视频文件202的音频对应画面内容109的音频信号,视频文件203对应画面内容108的音频信号,但是视频文件202与视频文件203的视频内容均为画面内容108与画面内容109的组合。上述文件存储方法,其有益效果在于,用户在分享视频文件时可以选择某一画面对应音频的视频文件进行分享,提高了便利性,不需要被分享的用户再选择音频。
在另外一些可能的实现方式中,在双景录像结束后,保存多媒体文件的方式还可以是如2C所示的方式,可以保存一个视频文件204与一个音频文件205。视频文件204中的音频对应画面内容109的音频信号,音频文件205中的音频对应画面内容108的音频信号。上述这种文件存储的方法,其有益效果在于,能够与特定的播放器进行绑定,可以方便的同时播放视频文件与音频文件。
在另外一些可能的实现方式中,在双景录像结束后,保存多媒体文件的方式还可以是如图2D所示的方式,可以保存一个视频文件206,其中视频文件206有两个声道。将与不同画面内容对应的音频信号编码到视频文件的不同声道中。例如,视频文件206的左声道的内容为对应画面内容109的音频信号,视频文件206的右声道的内容为对应画面内容108的音频信号。上述这种文件存储的方法,其有益效果在于,因为新的视频文件不会改变原有视频文件的架构,软件开发人员在做开发的过程中工作量可以减少。
当用户回放双景录像录制的视频文件时,如图2A所示,用户点击视频文件201后,出现如图3A所示的界面。上述界面包括有视频播放界面301。在视频播放界面301上分为两部分,一部分为画面内容108,另一部分为画面内容109。在视频播放界面301上还有播放控件302(例如,该播放控件302为音频播放控件)。如图3A所示,该播放控件302为喇叭形状,可以理解的是该播放控件302还可以为其他形状,本申请实施例不做限制。在图3A至C中以喇叭形为例,当用户点击播放控件302时播放与画面内容相对应的音频。在视频播放界面301还包括有进度条306,以表示视频播放的进度。在视频播放界面301还包括有播放/暂停控件305,当用户点击该控件时,可以控制视频的播放与暂停。在视频播放界面301还包括快进控件303和快退控件304,可以调控视频播放的进度。在进入视频播放界面301时,默认情况可以为播放控件302在视频播放界面301的左边画面。如果用户点击播放/暂停控件305,手机100开始播放视频,并且默认播放左边画面的音频,也即对应画面内容109的音频。当然可以理解的是,播放控件302在默认情况下也可以在视频播放界面301的中间或右边。播放控件302还可以被用户拖动或点击。当用户将播放控件302拖动到如图3B所示的视频播放界面301的右边,则手机100播放对应画面内容108的音频。当用户将播放控件302拖动到如图3C所示的视频播放界面301的中间位置,则手机100播放将画面内容108和画面内容109所对应的音频进行叠加处理后的音频。用户也可以点击播放控件302,当用户点击播放控件302时,手机100播放声音或静音,其播放的声音为播放控件302所在位置的画面对应的音频。如图3D所示,视频播放的界面还可以包括播放控件308。当用户点击播放控件308时,开始播放视频。可以理解的是,用户还可以通过语音指令或者语音助手来播放视频,例如,用户向手机发出“播放视频201”的语音指令,然后视频播放应用即开始播放视频201。通过语音指令或者语音助手播放视频可以不需要播放控件,也可以在视频播放界面继续保留播放控件,在本实施例中不做限制。例如,在用户向手机发出“播放视频201”的语音指令,播放控件响应于语音指令,开始播放视频。
在另一个实施例中,电子设备还可以支持三景录像模式,在三景录像模式下,电子设备在录像过程中可以录制三路视频画面,在电子设备的显示屏上显示三个画面。其中三个画面可以来自三个不同的摄像头采集的画面。
摄像头可以包括但不限于后置广角摄像头、后置变焦摄像头、后置长焦摄像头、后置定焦摄像头、前置定焦摄像头、前置变焦摄像头、前置长焦摄像头等。用户可以对三个画面进行分别缩放,或者只对其中的某一个画面进行缩放,或者只对其中的某两个画面进行缩放。用户在对画面进行缩放操作时,可以改变摄像头的焦距。摄像头在变焦的时候,可以是光学变焦,也可以是数字变焦。三个画面可以并排排放在预览界面上,也可以以任意的显示比例显示在预览界面上。三个画面的显示方式,可以是拼接,也可以是画中画。
在上述的多个实施例中,用户使用包含双景的多景模式进行录像时,当有变焦摄像头使用时,包括但不限于后置变焦摄像头、前置变焦摄像头等,可以把用户的变焦操作信息或者对录制视频画面的缩放信息加入到音频信号处理的算法中。如图5所示,首先将三路麦克风输入的音频信号进行风噪抑制处理;第二步,把经过风噪抑制处理的音频信号进行波束形成处理,在进行波束形成计算的过程中加入上述缩放的信息。缩放的信息可以是一个固定的数值,也可以是一个随时变化的数值,例如随着放大的数值增加,形成的波束将会逐渐收窄,波束形成算法会抑制更多方向的声音,提升目标方向声音的信噪比。经过波束形成处理后,将三路音频信号输出为两路音频信号;第三步,在波束形成处理的过程中,会有部分波束边缘的信号发生衰减,所以对这部分发生衰减的信号进行波束后处理,将上述放大的信息加入到波束后处理中,根据画面放大对应的目标方向,对目标方向上相对应的衰减的音频信号做补偿;第四步,对经过波束处理后的音频信号做均衡处理;第五步,经过均衡处理后,把上述放大的信息加入到自动增益控制处理中,根据放大的目标方向,做相应的平滑处理,将两路音频信号做相同的自动增益控制处理,保证两路输出信号的平滑程度相同;第六步,经过自动增益控制处理的音频信号做DNN谐波增强处理;第七步,经过DNN谐波增强处理后,对两路音频信号进行降噪处理;第八步,经过降噪处理后,对两路音频信号进行多频段动态范围控制处理,把上述放大的信息加入得到多频段动态范围控制处理中,对两路音频信号做多频段动态范围控制处理;第九步,将经过多频段动态范围控制处理的两路音频信号做峰值限制,例如音频信号不能超过50dB。然后把经过峰值限制的两路音频信号分别作为左右声道输出。
在上述的多个实施例中,用户使用包含双景的多景模式进行录像时,当有定焦摄像头使用时,包括但不限于后置定焦摄像头、前置定焦摄像头等,可以把用户的打开定焦摄像头的信息加入到音频信号处理的算法中。如图6所示,例如在前置摄像的方向上采用固定波束形成与自适应波束形成方案,提升目标方向的音频信号增强幅度,对非目标方向的噪声进行抑制,该方案也可以称为聚焦。聚焦处理还可以利用DNN谐波增强,进一步提升用户声音的响度以及清晰度。首先,在前置摄像头录像的过程中,先对三个麦克风采集的三路输入音频信号做风噪抑制处理;第二步,对经过风噪抑制处理的三路音频信号做固定波束形成处理,并输出两路音频信号;第三步,对输出的两路音频信号做均衡处理;第四步,对经过均衡处理的两路音频信号进行相同的自动增益控制处理;第五步,对经过自动增益控制处理的两路音频信号进行DNN谐波增强,把前置摄像头开始录像的信息加入到DNN谐波增强的处理中,DNN谐波增强会根据前置摄像头做相应的处理,输出用户声音响度和清晰度更高的音频信号;第六步,对经过DNN谐波增强的两路音频信号做降噪处理;第七步,对经过降噪处理的音频信号进行相同的多频段动态范围控制处理;第八步,对经过多频段动态范围控制处理的两路音频信号进行峰值限制,并最终分别作为左右声道输出。
经过上述对音频信号的处理,音频信号会产生变化。如果放大音频信号,不仅可以提升音频信号的清晰度,还可以在一定程度上提升拾音距离。因为上述的处理,将目标方向声源的声音提高,抑制了除目标方向外的其他方向的声音,所以音频信号的清晰度会提高。另外,随着目标方向声源的清晰度提高,用户可以听到更远距离的声音,相当于对音频信号进行了放大处理,所以提升了拾音的距离。根据实验表明,在远距离录像场景下拾音距离提升的效果明显,如游玩外拍、课堂录像等场景下,可以对声源的拾音距离提升三倍以上。在提升音频信号清晰度方面,在嘈杂环境下拾音的场景效果明显,如户外街拍、小型演唱会、商场等场景下,根据实验数据表明音频信号放大的处理可以让音频信号的非目标方向最大抑制量大于等于10dB。目标方向声源的信噪比增大,拾音的清晰度得到提升。如果聚焦音频信号,可以提升目标方向声源的响度和清晰度。
上述实施例中,将音频信号进行编码的方法可以使用相应的录音应用程序接口(application programming interface,API)。在录音API中可以预先设置音频信号的采样率、采样通道以及数据格式等。采样的音频信号可以进行算法处理,经过算法处理的音频数据可以使用多媒体编解码器(media codec)进行编码和解码。可以按照不同的音频编码格式进行编码,包括但不限于例如高级音频编码(advanced audio coding,AAC)、动态图像专家组-1或动态图像专家组-2音频层III(MPEG-1or MPEG-2Audio Layer III,MP3)、波形音频文件格式(waveform audio file format,WAV)等。使用录音API可以进行声道编码和音轨编码。视频编码的方式与音频编码的方式基本相同,可以使用录像API,预先设置编码的类型、波特率、帧率以及关键帧等。使用音视频混合API可以进行音频和视频的混合编码,可以得到混合的音频信号与视频信号的视频文件。在音频信号与视频信号进行混合编码的过程中,可以有多个音轨,具体的例如上述不同画面所对应的音频信号可以编码到多个音轨当中。在视频播放应用播放视频文件时,会对视频文件进行解码,将视频还原为适合播放的视频流和音频流。
在回放双景录像产生的视频文件时,可以有多种方式。在上述实施例中,如果多媒体文件存储的方式为如图2B所示的双视频文件时,手机100的视频播放应用可以同时播放两个视频文件,例如视频播放应用可以同时对视频文件202和视频文件203进行解码。在视频播放过程中,手机100显示如图3A所示界面,在视频播放界面301上还有设置控件307,用户可以点击设置控件307,在手机100上显示如图7A所示的界面,在图7A所示的界面中有选择框701,在选择框701中可以选择前台播放视频文件202或者选择前台播放视频文件203或者播放混合视频文件。如果用户选择前台播放视频文件203,则手机100播放视频文件203,同理用户还可以选择播放视频文件202。如果用户选择播放混合视频文件,则视频播放应用将视频文件202和视频文件203进行混合编码后再解码播放,其中混合编码为对两个视频文件的音频数据进行混合编码。可以理解的是,在一些情况下,不需要用户进行手动选择。当用户拖动如图3A所示界面中的播放控件302时,视频播放应用会自动选择对应的视频文件进行前台播放。如果播放控件302在视频界面301的左边,则视频播放应用前台播放视频文件202。如果播放控件302在视频界面301的右边,则视频播放应用前台播放视频文件203。如果播放控件302在视频界面301的中间位置时,则播放混合视频文件。
在上述实施例中,如果多媒体文件存储的方式是如图2C所示的视频文件与音频文件,手机100的视频播放应用可以同时播放视频文件和音频文件,例如视频播放应用可以同时对视频文件204和音频文件205进行解码。在视频播放过程中,手机100显示如图3A所示界面,在视频播放界面301上还有设置控件307,用户可以点击设置控件307,在手机100上显示如图7B所示的界面,在图7B所示的界面中有选择框702,在选择框702中可以选择播放视频文件204或者播放视频文件204和音频文件205或者播放混合视频文件。可以理解的是,在一些情况下,不需要用户进行手动选择。当用户拖动如图3A所示界面中的播放控件302时,视频播放应用会自动选择对应的多媒体文件进行播放。如果播放控件302在视频界面301的左边,则视频播放应用播放视频文件204。如果播放控件302在视频界面301的右边,则视频播放应用播放视频文件204和音频文件205且将视频文件204静音。如果播放控件302在视频界面301的中间位置时,则播放混合视频文件。
上述实施例中,如果多媒体文件存储的方式是如图2D所示的包含双声道的视频文件,手机100的视频播放应用可以播放双声道的视频文件,例如视频播放应用可以对视频文件206进行解码。在视频播放过程中,手机100显示如图3A所示界面,在视频播放界面301上还有设置控件307,用户可以点击设置控件307,在手机100上显示如图7C所示的界面,在图7C所示的界面中有选择框703,在选择框703中可以选择播放视频文件206的左声道或者播放视频文件206的右声道或者播放视频文件206的混合声道。如果播放视频文件206的左声道,则视频播放应用可以将左声道的音频数据复制到右声道中,以保证视频播放应用在播放视频文件时是双声道输出。同理如果播放视频文件206的右声道,则可以将右声道的音频数据复制到左声道中。可以理解的是,在一些情况下,不需要用户进行手动选择。当用户拖动如图3A所示界面中的播放控件302时,视频播放应用会自动选择对应的声道进行播放。如果播放控件302在视频界面301的左边,则视频播放应用播放视频文件206的左声道。如果播放控件302在视频界面301的右边,则视频播放应用播放视频文件206的右声道。如果播放控件302在视频界面301的中间位置时,则播放视频文件206的混合声道。
在上述实施例的一些其他实现方式中,回放多景录像录制的视频文件时,在视频播放应用的界面上可以有多个播放控件,不同的播放控件对应不同画面所对应的音频,当用户点击其中某一个播放控件时,播放该播放控件所对应画面的音频。在其他一些实现方式中,用户使用视频播放应用播放多景录像录制的视频文件时默认播放多个视频画面中某一个画面所对应的音频,或者播放多个画面的音频进行叠加处理后音频。
可以理解的是,以上实施例中适用双景录像的拍摄模式、录像视频文件保存方法、录像视频文件回放方法同样可以适用于多景录像,如三景录像中。
本申请一实施例,提供音频处理的方法,参见图8,该方法可以包括:
801、使用多景录像模式生成视频。
响应于用户的第一输入,打开相机,显示预览界面;进入多景录像模式,显示视频预览界面,视频预览界面包括多路视频画面;响应于用户第二输入,采集多路视频画面,并且采集音频数据;在采集多路视频画面的过程中,响应于用户对多路视频画面其中一路视频画面的缩放操作,对采集的所述音频数据进行处理;生成视频以及音频;其中,多路视频画面中的每一路的视频画面由不同的摄像头采集;其中,缩放操作为对视频画面进行放大或者缩小,相对应地改变摄像头的焦距。
可以理解的是,在视频画面为两路视频画面时,音频包括第一音频和第二音频,其中第一音频对应两路视频画面中的一路视频画面的音频,第二音频对应两路视频画面中的另一路视频画面的音频。
可以理解的是,视频为一个视频文件的情况下,视频文件还包括第一音频,第二音频为一个音频文件;或者
视频为两个视频文件的情况下,两个视频文件其中一个视频文件包括第一音频,两个视频文件其中另一个视频文件包括第二音频;或者
视频为一个视频文件的情况下,视频文件包括第一音频和第二音频。
可以理解的是,在视频文件包括第一音频和第二音频的情况下,第一音频存储在第一音轨,第二音频存储在第二音轨。
可以理解的是,在视频文件包括第一音频和第二音频的情况下,第一音频存储在第一声道,第二音频存储在第二声道。
可以理解的是,上述两路视频画面也可以是三路视频画面或者多路视频画面。
802、播放视频。
响应于用户的输入,在电子设备上显示视频播放界面,视频播放界面包括第一视频、第二视频、第一播放控件和/或第二播放控件;
响应于对第二播放控件的操作,播放第一视频和所述第二视频;
播放与第一播放控件所处的位置对应视频的音频,其中,与第一播放控件所处的位置对应的视频为第一视频。
803、播放与播放控件位置相关的音频。
电子设备还可以响应于用户对第一播放控件的操作,第一播放控件所处的位置位于第二视频;
播放与所述第二视频对应的音频,停止播放与第一视频对应的音频。
上述第一播放控件可以为喇叭形的控件,表示播放音频,可以理解的是,第一播放控件可以有多种形状。
上述第二播放控件可以是播放/暂停控件,当用户点击该控件时,可以播放或者暂停视频。可以理解的是,第二播放控件也可以是其他功能的控件,也可以通过语音进行控制。例如,用户可以对第二播放控件的操作可以是语音操作或者语音指令。
在一种实现方式中,用户对第一播放控件的操作也可以是语音操作或者语音指令。
在一种实现方式中,电子设备还可以响应于用户对第一播放控件的操作,第一播放控件所处的位置位于第一视频和第二视频;
播放混音,所述混音为与第一视频对应的音频和第二视频对应的音频的混音。
上述第一播放控件所处的位置位于第一视频和第二视频的情况,可以是第一播放控件位于第一视频和第二视频的中间,或者第一播放控件的位置跨越了第一视频和第二视频。
在上述实施例中,视频画面、画面、画面内容与视频的含义可以相同,视频即为摄像头采集的视频画面或者画面,又或者是画面内容。
用户可以在视频播放应用中对上述视频文件进行操作。例如,在播放双景模式下录制的视频文件时,用户可以选择播放双景中的任意一个画面所对应的音频,也可以选择播放两个画面所对应的音频进行混音处理后的音频。又例如,在播放多景模式下录制的视频文件时,用户可以选择播放多景中的任意一个画面所对应的音频,也可以选择播放多个画面所对应的音频进行混音处理后的音频。又例如,在播放双景(或多景)模式下录制的视频文件时,视频播放界面有可以移动的播放控件,如图3A至图3C中喇叭形控件302所示。当用户点击该控件,可以播放该控件所在画面的音频;在一种可能的情况下,喇叭形控件302可以位于双画面(或多画面)的中心,也即该喇叭形控件302的区域跨越了两个画面(或多个画面),当用户点击该喇叭形控件302时,播放两个画面(或多个画面)所对应的音频进行混音处理后的音频。
上述涉及到的音频以及编码、声道等的相关概念,以下做详细说明。音频数据来源于对声源的声音进行采样和量化,然后进行编码形成数字信号。声源的声音是由物体振动产生的声波,其有频率和振幅的特征。上述采样为,从声波中抽取某些点的频率值,把模拟信号数字化。采样率为,录音设备(如麦克风)在一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。采样频率一般共分为22.05KHz、44.4KHz、48KHz三个等级。8KHz是电话所用的采样率,对于人类说话已经足够,22.05KHz只能达到调频(frequencymodulation,FM)广播的声音品质,44.1KHz则是理论上的CD音质界限,48KHz则更加精确一些。采样位数为,记录每次采样值数值大小的位数。采样位数通常有8bits或16bits两种,采样位数越大,所能记录声音的变化度就越细腻,响应的数据量就越大。声道数是指支持不同发生的音响的个数,它是衡量音响设备的重要指标之一。单声道的声道数为1个声道;双声道的声道数为2个声道;立体声道的声道数默认为2个声道;立体声道(4声道)的声道数为4个声道。声道(sound channel)是指声音在录制或播放时在不同控件位置采集或回放的相互独立的音频信号。封装是指,将视频流、音频流(或者还有字幕流)捆绑到一个单独的文件中,作为一个信号进行传输。解封装是指,将输入的封装格式的数据,分离成为音频流压缩编码数据和视频流压缩编码数据。常见的封装格式有:AVI(audio video interleave)、RMVB(realmedia variable bitrate)、MP4(MPEG-4Part 14)、MKV(matroska)等。封装与解封装整个过程,都不对原来视频或音频重新编码。封装打包后的文件,可以通过分离(或分解、解包)操作,获得与原始素材一模一样的独立的视频、音频。音频编码是指,将音频采样数据,例如脉冲编码调制(pulse code modulation,PCM),压缩成为音频码流,从而降低音频的数据量。常用的方案有AAC、MP3等。
本申请以ACC编码为例,ACC出现于1997年,最初是基于MPEG-2的音频编码技术。AAC有9种规格,以适应不同的使用场景,如:MPEG-2AAC LC低复杂度规格(lowcomplexity)、MPEG-2AAC Main主规格、MPEG-2AAC SSR可变采样率规格(scaleable samplerate)、MPEG-4AAC LC低复杂度规格、MPEG-4AAC Main主规格、MPEG-4AAC SSR可变采样率规格、MPEG-4AAC LTP长时期预测规格(long term prediction)、MPEG-4AAC LD低延迟规格(low delay)、MPEG-4AAC HE高效率规格(high efficiency)。AAC是一种高压缩比的音频压缩算法,采用了变换编码算法,使用了临时噪声重整、后向自适应线性预测、联合立体声技术和梁华哈夫曼变化等技术。AAC支持多种采样率和比特率,支持1个到48个音轨。ACC的音频文件格式有ADIF和ADTS两种。音频数据交换格式(audio data initerchange format,ADIF),这种格式的特征是可以确定的找到这个音频数据的开始,不虚进行在音频数据流中间开始的解码,即它的解码必须在明确定义的开始处进行。音频数据传输流(audio datatransport stream,ADTS),这种格式的特征是它有一个有同步字的比特流,解码可以在这个流中任何位置开始。也即,ADTS可以在任意帧解码,也就是它的每一帧都有头信息。而ADIF只有一个统一的头信息,所以必须得到所有的数据后才能解码。解码是编码的逆过程,把编码过的媒体文件重新转化为声音或视频,用来执行解码工作的软件称为解码器(Decoder)。
本申请的实施例提供的播放视频、音频的方法,可以应用于电子设备。例如,该电子设备具体可以是手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digitalassistant,PDA)或专门的照相机(例如单反相机、卡片式相机)等,本申请实施例对电子设备的具体类型不作任何限制。
示例性的,如图9示出了电子设备100的一种结构示意图。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头13,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调器,图像处理器(graphics processing unit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),系带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以是集成在一个或多个处理器中。
其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了***的效率。
处理器110可以用于播放多景录像生成的视频,例如,在生成一个视频文件的情况下,可以播放该视频文件;在生成多个视频文件的情况下,可以播放多个视频文件;在既生成视频文件,又生成音频文件的情况下,可以同时播放视频文件与音频文件。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行教学和几何运算,用于图像渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极管(flex light-emitting diode,FLED),迷你发光二极管(Mini-LED),微型发光二极管(Micro-LED),微型有机发光二极管(Mirco-OLED),量子点发光二极管(quantum dot light emitting diodes,QLED)等。在一些实施例中,电子设备可以包括1个或N个显示屏194,N为大于1的正整数。
在本申请的实施例中,显示屏194可以显示双景录像(或多景录像模式)下的拍摄预览画面、录像预览界面和拍摄界面,还可以在视频回放时显示视频播放界面等。以及显示视频播放界面上的各种播放控件。
电子设备100可以通过ISP,摄像头193.视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将电信号传递给ISP处理,转换为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。例如,在本申请的实施例中,ISP可以根据拍摄参数控制感光元件进行曝光和拍照。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。其中,摄像头193可以位于电子设备的边缘区域,可以为屏下摄像头,也可以是可升降的摄像头。摄像头193可以包括后置摄像头,还可以包括前置摄像头。本申请实施例对摄像头193的具***置和形态不予限定。电子设备100可以包括一种或多种焦段的摄像头,例如不同焦段的摄像头可以包括长焦摄像头、广角摄像头、超广角摄像头或全景摄像头等。摄像头193还可以根据缩放指令,进行变焦操作。长焦摄像头或广角摄像头可以采集变焦视角下的视频画面。摄像头193还可以用于采集多路视频,其中多路视频中的每一路的视频由不同的摄像头采集。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
内部存储器121可以用于存储计算机可执行程序代码,可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区有可存储操作***,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如电子设备100采集的图像,音频数据,电话本等)等。
在本申请的实施例中,处理器110通过运行存储在内部存储器121的指令,可以在多景录像模式(例如,双景录像模式)下录制多个拍摄视角下的视频画面,并录制不同拍摄视角分别对应的音频,从而在视频回放时可以播放不同拍摄视角和视频画面对应的音频,使得播放的音频与用户关注的拍摄视角和视频画面相匹配。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,多个麦克风170C(麦克风阵列),耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
其中,音频模块170用于将数字音频数据转换成模拟音频信号输出,也用于将模拟音频电信号输入转换为数字音频数据。例如,音频模块170用于将麦克风170C输出的模拟音频电信号转换为数字音频数据。
其中,音频模块170还可以包括音频处理模块。音频处理模块用于,在双景录像模式(或多景录像模式)下,对数字音频数据进行音频处理,从而生成不同拍摄视角分别对应的音频。例如,对于广角视角来说,音频处理模块可以包括音色修正模块、立体声波束形成模块和增益控制模块等。对于变焦视角来说,音频处理模块可以包括音色修正模块,立体声/单声道波束成形模块,环境噪声控制模块和增益控制模块等。对于前置视角来说,音频处理模块可以包括音色修正模块,立体声/单声道波束成形模块,人声增强模块和增益控制模块等。
音频模块170还可以用于对音频数据进行编码和解码。
在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也成“喇叭”,用于将模拟音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提电话。在本申请的实施例中,在回放双景(或多景)录像的视频时,扬声器170A可以用于播放双景(或多景)视频画面对应的音频。
受话器170B,也称“听筒”,“传声器”,用于将声音信号转换为模拟音频电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。在本申请的实施例中,电子设备100可以包括至少三个麦克风170C,可以实现采集各个方向的声音信号,并将采集到的声音信号转换为模拟音频电信号的功能,还可以实现降噪,识别声音来源,或定向录音功能等。受话器170B还可以接收语音指令,并将语音指令传入处理器110,并由处理器110根据语音指令的内容进行相应的处理。
需要说明的是,该麦克风170C可以是电子设备100的内置部件,也可以是电子设备100的外接配件。例如,电子设备100可以包括底部设置的麦克风1,顶部设置的麦克风2,以及外接配件。示例性的,该外接配件可以与电子设备100相连(有线连接或无线连接)的微型麦克风,或者具有麦克风的耳机(比如有线耳机或TWS耳机等)等。
在一些实施例中,该麦克风170C也可以是指向性麦克风(也即矢量麦克风),可以针对特定方向采集声音信号。
距离传感器180F,用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备100可以利用距离传感器180F测距以实现快速对焦。
触摸传感器180K,也称“触控面板”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
例如,在本申请的实施例中,电子设备100可以通过触摸传感器180K检测用户指示开始和/或停止拍摄的操作。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
在本申请的实施例中,在双景录像模式(或多景录像模式)下,显示屏194可以显示录像时的拍摄预览界面、录像预览界面和拍摄界面。摄像头193可以用于采集多路视频画面。多个麦克风170C可以用于采集声音信号,并生成模拟音频电信号。音频模块170可以将模拟音频电信号生成数字音频数据,并根据数字音频数据生成不同拍摄视角和视频画面对应的音频。在视频回放时,显示屏194可以显示视频播放界面。处理器110通过运行存储在内部存储器121的指令,可以根据用户的选择,控制扬声器170A播放用户关注的拍摄视角和视频画面对应的音频,从而提升用户观看双景录像(或多景录像)的音频体验。
电子设备100的软件***可以采用分层架构,时间驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的***为例,示例性说明电子设备100的软件结构。
图10是本申请实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将***分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和***库,硬件抽象层(hardware abstraction layer,HAL),以及内核层。应用程序层可以包括一系列应用程序包。
如图10所示,应用程序可以包括相机,图库,日历,通话,地图,导航,无线局域网(Wireless LAN,WLAN),蓝牙,音乐,视频,短信息等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。
如图10所示,应用程序框架层可以包括窗口管理器,内容提供器,视图***,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图***包括可视控件,例如显示文字的控件,显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。
核心库包含两部分:一部分是Java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的Java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
***库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(media libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子***进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图像处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
HAL层为位于操作***内核与硬件电路之间的接口层,可以将硬件抽象化。HAL层包括音频处理模块。音频处理模块可以用于,根据拍摄视角对麦克风获得的模拟音频电信号进行处理,生成不同拍摄视角和视频画面对应的音频。例如,对于变焦视角来说,音频处理模块可以包括音色修正模块,立体声/单声道波束成形模块,环境噪声控制模块和增益控制模块等。
内核层是硬件层和上述软件层之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。其中,该硬件层可以包括摄像头、显示屏,麦克风,处理器,以及存储器等。
在本申请的实施例中,在双景录像模式(或多景录像模式)下,硬件层中的显示屏可以显示录像时的拍摄预览界面、录像预览界面和拍摄界面。硬件层中的摄像头可以用于采集多路视频画面。硬件层中的麦克风可以用于采集声音信号,并生成模拟音频电信号。HAL层中的音频处理模块可以用于对模拟音频电信号转换成的数字音频数据进行处理,从而生成不同拍摄视角或不同焦距的视频画面对应的音频。在视频回放时,显示屏可以显示视频播放画面,扬声器可以播放用户关注的拍摄视角和视频画面对应的音频,从而提升用户使用双景录像(或多景录像)的音频体验。
可以理解的是,为了实现上述功能,电子设备包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
本申请实施例还提供一种电子设备,包括一个或多个处理器以及一个或多个存储器。该一个或多个存储器与一个或多个处理器耦合,一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当一个或多个处理器执行计算机指令时,使得电子设备执行上述相关方法步骤实现上述实施例中的音频处理方法。
本申请的实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在电子设备上运行时,使得电子设备执行上述相关方法步骤实现上述实施例中的音频处理方法。
本申请的实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中电子设备执行的音频处理方法。
其中,本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上实施方式的描述,所属领域的技术人员可以了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (19)

1.一种视频播放的方法,其特征在于,应用于多景录像,包括:
响应于用户的输入,显示视频播放界面,所述视频播放界面包括第一视频、第二视频、和第一播放控件;
播放所述第一视频和所述第二视频;
播放与所述第一播放控件所处的位置对应视频的音频,与所述第一视频对应的音频存储在第一音轨中,与所述第二视频对应的音频存储在第二音轨中,与所述第一视频对应的音频存储在第一声道中,与所述第二视频对应的音频存储在第二声道中,所述与所述第一视频对应的音频和与所述第二视频对应的音频是将采集到的声音信号根据多景录像的至少两个画面进行信息处理得到的,基于变焦摄像头的变焦操作信息或者对录制视频画面的缩放信息对所述声音信号形成波束的收窄。
2.根据权利要求1所述的方法,其特征在于,所述视频播放界面还包括第二播放控件,其中,所述播放所述第一视频和所述第二视频,包括:
响应于对所述第二播放控件的操作,播放所述第一视频和所述第二视频。
3.根据权利要求1或2所述的方法,其特征在于,与所述第一播放控件所处的位置对应的视频为所述第一视频。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
响应于用户对所述第一播放控件的操作,所述第一播放控件所处的位置位于所述第二视频;
播放与所述第二视频对应的音频,停止播放与所述第一视频对应的音频。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
响应于用户对所述第一播放控件的操作,所述第一播放控件所处的位置位于所述第一视频和第二视频;
播放混音,所述混音为所述第一视频对应的音频和所述第二视频对应的音频的混音。
6.根据权利要求1、2、4、5任一所述的方法,其特征在于,
所述第一视频和与所述第一视频对应的音频为一个视频文件,所述第二视频和与所述第二视频对应的音频为另一个视频文件,或者,
所述第一视频和与所述第一视频对应的音频,和,所述第二视频和与所述第二视频对应的音频为一个视频文件,或者,
所述第一视频、所述第二视频以及与所述第一视频对应的音频为一个视频文件,或者,
所述第一视频、所述第二视频以及与所述第二视频对应的音频为一个视频文件。
7.根据权利要求6所述的方法,其特征在于,在所述第一视频、所述第二视频以及与所述第一视频对应的音频为一个视频文件情况下,所述第二视频对应的音频为另一个音频文件,或者,
在所述第一视频、所述第二视频以及与所述第二视频对应的音频为一个视频文件的情况下,所述第一视频对应的音频为另一个音频文件。
8.根据权利要求1所述的方法,其特征在于,与所述第一播放控件所处的位置对应的视频为所述第一视频和所述第二视频。
9.一种生成视频的方法,其特征在于,应用于多景录像,包括:
响应于用户第一输入,打开相机,显示预览界面;
进入多景录像模式,显示视频预览界面,所述视频预览界面包括多路视频;
响应于用户第二输入,采集多路视频,并且采集音频数据;
在所述采集多路视频的过程中,响应于用户对所述多路视频中的至少一路视频的缩放操作,对采集的与所述至少一路视频对应的音频数据进行处理;
生成视频以及音频;
其中,所述多路视频中的每一路的视频由不同的摄像头采集;
其中,所述缩放操作为对所述至少一路视频进行放大或者缩小,相对应地改变与所述至少一路视频对应的摄像头的焦距,所述多路视频包括第一视频以及第二视频,与所述第一视频对应的第一音频存储在第一音轨中,与所述第二视频对应的第二音频存储在第二音轨中,与所述第一视频对应的第一音频存储在第一声道中,与所述第二视频对应的第二音频存储在第二声道中,所述与所述第一视频对应的第一音频和与所述第二视频对应的第二音频是将采集到的声音信号根据多景录像的至少两个画面进行信息处理得到的,基于变焦摄像头的变焦操作信息或者对录制视频画面的缩放信息对所述声音信号形成波束的收窄。
10.根据权利要求9所述的方法,其特征在于,所述多路视频为两路视频,所述视频为一个视频文件,或者,所述视频为两个视频文件。
11.根据权利要求9或10所述的方法,其特征在于,所述视频为一个视频文件的情况下,所述视频文件还包括第一音频,第二音频为一个音频文件;或者
所述视频为两个视频文件的情况下,其中一个视频文件包括第一音频,另一个视频文件包括第二音频;或者
所述视频为一个视频文件的情况下,所述视频文件包括第一音频和第二音频。
12.一种电子设备,其特征在于,包括存储器以及与所述存储器耦合的处理器,一个或多个计算机程序存储在所述存储器中,当所述计算机程序被所述处理器执行时,使得所述电子设备实现如权利要求1-11任一项所述的方法。
13.一种电子设备,包括麦克风、扬声器、显示器、多个摄像头和处理器,所述处理器与所述麦克风、所述扬声器、所述显示器和所述多个摄像头耦合,其中,应用于多景录像,
所述麦克风,用于采集音频数据;
所述多个摄像头,用于采集多路视频,其中,所述多路视频中的每一路的视频由不同的摄像头采集;
所述显示器,用于显示视频播放界面,所述视频播放界面包括第一视频、第二视频、第一播放控件;
所述处理器,用于播放所述第一视频和所述第二视频;
所述扬声器,用于播放与所述第一播放控件所处的位置对应视频的音频,与所述第一视频对应的音频存储在第一音轨中,与所述第二视频对应的音频存储在第二音轨中,与所述第一视频对应的音频存储在第一声道中,与所述第二视频对应的音频存储在第二声道中,所述与所述第一视频对应的音频和与所述第二视频对应的音频是将采集到的声音信号根据多景录像的至少两个画面进行信息处理得到的,基于变焦摄像头的变焦操作信息或者对录制视频画面的缩放信息对所述声音信号形成波束的收窄。
14.根据权利要求13所述的电子设备,其特征在于,与所述第一播放控件所处的位置对应的视频为所述第一视频。
15.根据权利要求14所述的电子设备,其特征在于,
所述处理器,用于:
响应于用户对所述第一播放控件的操作,所述第一播放控件所处的位置位于所述第二视频;
控制所述扬声器播放与所述第二视频对应的音频,停止播放与所述第一视频对应的音频。
16.根据权利要求14或15所述的电子设备,其特征在于,
所述处理器,用于:响应于用户对所述第一播放控件的操作,所述第一播放控件所处的位置位于所述第一视频和第二视频;
控制所述扬声器播放混音,所述混音为所述第一视频对应的音频和所述第二视频对应的音频的混音。
17.根据权利要求16所述的电子设备,其特征在于,与所述第一播放控件所处的位置对应的视频为所述第二视频。
18.根据权利要求13所述的电子设备,其特征在于,与所述第一播放控件所处的位置对应的视频为所述第一视频和所述第二视频。
19.根据权利要求13-15、17、18任一所述的电子设备,其特征在于,所述视频播放界面还包括第二播放控件;
其中,所述第一播放控件为音频播放控件,所述第二播放控件为播放控件或播放/暂停控件。
CN202010480576.8A 2020-05-30 2020-05-30 一种视频播放的方法及设备 Active CN113747047B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010480576.8A CN113747047B (zh) 2020-05-30 2020-05-30 一种视频播放的方法及设备
PCT/CN2021/096049 WO2021244368A1 (zh) 2020-05-30 2021-05-26 一种视频播放的方法及设备
EP21818120.4A EP4138381A4 (en) 2020-05-30 2021-05-26 METHOD AND DEVICE FOR VIDEO PLAYBACK
US17/925,393 US20230185518A1 (en) 2020-05-30 2021-05-26 Video playing method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010480576.8A CN113747047B (zh) 2020-05-30 2020-05-30 一种视频播放的方法及设备

Publications (2)

Publication Number Publication Date
CN113747047A CN113747047A (zh) 2021-12-03
CN113747047B true CN113747047B (zh) 2023-10-13

Family

ID=78727783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010480576.8A Active CN113747047B (zh) 2020-05-30 2020-05-30 一种视频播放的方法及设备

Country Status (4)

Country Link
US (1) US20230185518A1 (zh)
EP (1) EP4138381A4 (zh)
CN (1) CN113747047B (zh)
WO (1) WO2021244368A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114760483B (zh) * 2022-04-20 2023-12-19 东方明珠新媒体股份有限公司 一种多视角视频播放和切换的方法、***及介质
CN116095254B (zh) * 2022-05-30 2023-10-20 荣耀终端有限公司 音频处理方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103516895A (zh) * 2012-06-25 2014-01-15 Lg电子株式会社 移动终端及其音频缩放方法
CN104699445A (zh) * 2013-12-06 2015-06-10 华为技术有限公司 一种音频信息处理方法及装置
CN105165017A (zh) * 2013-02-25 2015-12-16 萨万特***有限责任公司 视频平铺
KR101632435B1 (ko) * 2015-10-20 2016-06-21 이요훈 유무선ip기반 gui를 활용한 sns 시스템 및 이를 이용한 통화 방법
CN105706462A (zh) * 2014-03-31 2016-06-22 松下知识产权经营株式会社 指向性控制装置、指向性控制方法、存储介质及指向性控制***
CN106027933A (zh) * 2016-06-21 2016-10-12 维沃移动通信有限公司 一种视频的录制、播放方法及移动终端
CN107608601A (zh) * 2017-08-28 2018-01-19 维沃移动通信有限公司 一种视频回放方法、移动终端及计算机可读存储介质
CN109413563A (zh) * 2018-10-25 2019-03-01 Oppo广东移动通信有限公司 视频的音效处理方法及相关产品
CN110072070A (zh) * 2019-03-18 2019-07-30 华为技术有限公司 一种多路录像方法及设备
CN110381197A (zh) * 2019-06-27 2019-10-25 华为技术有限公司 多对一投屏中音频数据的处理方法、装置及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9258644B2 (en) * 2012-07-27 2016-02-09 Nokia Technologies Oy Method and apparatus for microphone beamforming
KR20140114238A (ko) * 2013-03-18 2014-09-26 삼성전자주식회사 오디오와 결합된 이미지 표시 방법
KR102150013B1 (ko) * 2013-06-11 2020-08-31 삼성전자주식회사 음향신호를 위한 빔포밍 방법 및 장치
US20150253937A1 (en) * 2014-03-05 2015-09-10 Samsung Electronics Co., Ltd. Display apparatus and method of performing a multi view display thereof

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103516895A (zh) * 2012-06-25 2014-01-15 Lg电子株式会社 移动终端及其音频缩放方法
CN105165017A (zh) * 2013-02-25 2015-12-16 萨万特***有限责任公司 视频平铺
CN104699445A (zh) * 2013-12-06 2015-06-10 华为技术有限公司 一种音频信息处理方法及装置
CN105706462A (zh) * 2014-03-31 2016-06-22 松下知识产权经营株式会社 指向性控制装置、指向性控制方法、存储介质及指向性控制***
KR101632435B1 (ko) * 2015-10-20 2016-06-21 이요훈 유무선ip기반 gui를 활용한 sns 시스템 및 이를 이용한 통화 방법
CN106027933A (zh) * 2016-06-21 2016-10-12 维沃移动通信有限公司 一种视频的录制、播放方法及移动终端
CN107608601A (zh) * 2017-08-28 2018-01-19 维沃移动通信有限公司 一种视频回放方法、移动终端及计算机可读存储介质
CN109413563A (zh) * 2018-10-25 2019-03-01 Oppo广东移动通信有限公司 视频的音效处理方法及相关产品
CN110072070A (zh) * 2019-03-18 2019-07-30 华为技术有限公司 一种多路录像方法及设备
CN110381197A (zh) * 2019-06-27 2019-10-25 华为技术有限公司 多对一投屏中音频数据的处理方法、装置及***

Also Published As

Publication number Publication date
CN113747047A (zh) 2021-12-03
WO2021244368A1 (zh) 2021-12-09
EP4138381A1 (en) 2023-02-22
US20230185518A1 (en) 2023-06-15
EP4138381A4 (en) 2023-08-30

Similar Documents

Publication Publication Date Title
WO2021175197A1 (zh) 一种音频处理方法及设备
CN110072070B (zh) 一种多路录像方法及设备、介质
WO2021175165A1 (zh) 一种音频处理方法及设备
CN113572954B (zh) 一种视频录制方法、电子设备及介质
US20220321797A1 (en) Photographing method in long-focus scenario and terminal
CN114338965B (zh) 音频处理的方法及电子设备
CN109819306B (zh) 一种媒体文件裁剪的方法、电子设备和服务器
WO2022068511A1 (zh) 视频生成方法和电子设备
CN113643728A (zh) 一种音频录制方法、电子设备、介质及程序产品
CN113747047B (zh) 一种视频播放的方法及设备
CN113810589A (zh) 电子设备及其视频拍摄方法和介质
CN117133306A (zh) 立体声降噪方法、设备及存储介质
CN114079725B (zh) 视频防抖方法、终端设备和计算机可读存储介质
CN115550559A (zh) 视频画面显示方法、装置、设备和存储介质
CN115942108A (zh) 一种视频处理方法及电子设备
CN111294509A (zh) 视频拍摄方法、装置、终端及存储介质
WO2023202431A1 (zh) 一种定向拾音方法及设备
CN116055861B (zh) 一种视频编辑方法和电子设备
CN115802144B (zh) 视频拍摄方法及相关设备
CN115484380B (zh) 拍摄方法、图形用户界面及电子设备
CN116668762B (zh) 录屏方法及装置
CN117221707A (zh) 一种视频处理方法和终端
CN117692714A (zh) 视频显示方法和电子设备
CN118354139A (zh) 录屏方法及装置
CN115002337A (zh) 视频处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant