CN112911192A - 视频处理方法、装置和电子设备 - Google Patents

视频处理方法、装置和电子设备 Download PDF

Info

Publication number
CN112911192A
CN112911192A CN202110121878.0A CN202110121878A CN112911192A CN 112911192 A CN112911192 A CN 112911192A CN 202110121878 A CN202110121878 A CN 202110121878A CN 112911192 A CN112911192 A CN 112911192A
Authority
CN
China
Prior art keywords
video
user
mouth
information
voice information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110121878.0A
Other languages
English (en)
Inventor
刘智雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202110121878.0A priority Critical patent/CN112911192A/zh
Publication of CN112911192A publication Critical patent/CN112911192A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2621Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/148Interfacing a video terminal to a particular transmission medium, e.g. ISDN

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种视频处理方法、装置和电子设备,属于视频技术领域。视频处理方法包括接收用户针对视频通话的第一输入;响应于第一输入,获取用户的嘴部区域信息,并采集语音信息;根据语音信息和嘴部区域信息,生成与语音信息对应的口型视频;根据口型视频生成与用户对应的动态视频画面,并替换视频通话中用户对应的视频画面。采用本申请提供的视频处理方法、装置和电子设备,即使用户离开摄像头采集区域,也可以通过声音得到与用户嘴部动作匹配的实时视频画面,满足用户在对方不察觉的情况下离开摄像头拍摄区域的需求,提高用户的使用体验。

Description

视频处理方法、装置和电子设备
技术领域
本申请属于视频技术领域,具体涉及一种视频处理方法、装置和电子设备。
背景技术
随着科学技术的不断发展,视频通话也越来越普及。
在视频通话过程中,现有的视频通话是利用摄像头实时采集用户的视频画面,并将该视频画面提供给对方进行显示,但是,用户有时可能需要离开摄像头拍摄区域处理其他事情,但又不想让视频通话的对方发现,而现有的视频处理方式无法满足用户在对方不察觉的情况下离开摄像头拍摄区域的需求。
发明内容
本申请实施例的目的是提供一种视频处理方法、装置和电子设备,能够解决在视频通话过程中用户无法在对方不察觉的情况下离开摄像头拍摄区域的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种视频处理方法,该方法包括:
接收用户针对视频通话的第一输入;
响应于第一输入,获取用户的嘴部区域信息,并采集语音信息;
根据语音信息和嘴部区域信息,生成与语音信息对应的口型视频;
根据口型视频生成与用户对应的动态视频画面,并替换视频通话中用户对应的视频画面。
第二方面,本申请实施例提供了一种视频处理装置,该装置包括:
接收模块,用于接收用户针对视频通话的第一输入;
获取模块,用于响应于第一输入,获取用户的嘴部区域信息,并采集语音信息;
第一生成模块,用于根据语音信息和嘴部区域信息,生成与语音信息对应的口型视频;
第二生成模块,用于根据口型视频生成与用户对应的动态视频画面,并替换视频通话中用户对应的视频画面。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
在本申请实施例中,通过在视频通话过程中,当用户想要离开时触发获取用户的嘴部区域信息,并实时采集用户的语音信息,将用户的语音转化为口型动作,并融合到本人的视频画面中,生成用户对应的动态视频画面,以替换视频通话中用户对应的视频画面,这样,即使用户离开摄像头采集区域,也可以通过声音得到与用户嘴部动作匹配的实时视频画面,满足用户在对方不察觉的情况下离开摄像头拍摄区域的需求,提高用户的使用体验。
附图说明
图1是根据一示例性实施例示出的一种视频处理方法的流程图;
图2是根据一示例性实施例示出的一种视频处理方法的应用场景示意图;
图3是根据一示例性实施例示出的另一种视频处理方法的应用场景示意图;
图4是根据一示例性实施例示出的另一种视频处理方法的流程图;
图5是根据一示例性实施例示出的又一种视频处理方法的应用场景示意图;
图6是根据一示例性实施例示出的又一种视频处理方法的流程图;
图7是根据一示例性实施例示出的再一种视频处理方法的流程图;
图8是根据一示例性实施例示出的一种视频处理装置的结构框图;
图9是根据一示例性实施例示出的一种电子设备的结构框图;
图10为实现本申请实施例的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的视频处理方法及电子设备进行详细地说明。
需要说明的是,本申请实施例提供的视频处理方法,执行主体可以为视频处理装置,或者该视频处理装置中的用于执行视频处理的方法的控制模块。本申请实施例中以视频处理装置执行视频处理方法为例,说明本申请实施例提供的视频处理方法。
图1是根据一示例性实施例示出的一种视频处理方法的流程图。
如图1所示,该视频处理方法可以包括如下步骤:
首先,步骤110,接收用户针对视频通话的第一输入;
其次,步骤120,响应于第一输入,获取用户的嘴部区域信息,并采集语音信息;
再次,步骤130,根据语音信息和嘴部区域信息,生成与语音信息对应的口型视频;
然后,步骤140,根据口型视频生成与用户对应的动态视频画面,并替换视频通话中用户对应的视频画面。
由此,通过在视频通话过程中,当用户想要离开时触发获取用户的嘴部区域信息,并实时采集用户的语音信息,将用户的语音转化为口型动作,并融合到本人的视频画面中,生成用户对应的动态视频画面,以替换视频通话中用户对应的视频画面,这样,即使用户离开摄像头采集区域,也可以通过声音得到与用户嘴部动作匹配的实时视频画面,满足用户在对方不察觉的情况下离开摄像头拍摄区域的需求,提高用户的使用体验。
下面对上述步骤进行详细说明,具体如下所示:
首先,涉及步骤110,本申请实施例中针对视频通话的第一输入可以是用户离开设备前进行的触发该视频处理过程的操作,该第一输入可用于触发获取用户的嘴部区域信息,并实时采集用户的语音信息。例如,当用户在视频通话中想要离开摄像头,但又不想被对方发现时,可以点击“暂离”按钮,使设备开始进行视频处理。
其次,涉及步骤120,语音信息可以为采集到的用户进行第一输入之后发出的语音,该语音信息可以通过设备的声音采集装置进行采集。用户的嘴部区域信息可以包括从视频通话中该用户对应的视频画面中截取的嘴部区域图像,也可以包括从面部视频片段中截取的嘴部区域视频片段,还可以包括根据语音视频片段获取的口型特征信息,该嘴部区域信息可用于生成和语音信息对应的口型视频。
再次,涉及步骤130,口型视频可以根据嘴部区域信息和语音信息,按照预设算法生成,该预设算法可以是神经网络算法,也可以是其他算法。另外,该口型视频可用于生成与用户对应的动态视频画面。
基于此,在一种可选的实施方式中,步骤130可以包括:
按照预设的神经网络算法,根据嘴部区域信息和语音信息,生成与语音信息对应的口型视频。
这里,可以按照预设的神经网络算法,根据从面部图像中截取的嘴部区域图像,或者根据从面部视频片段中截取的嘴部区域视频片段,结合语音信息生成与语音信息对应的口型视频。其中,预设的神经网络算法例如可以是生成对抗网络(Generative AdversarialNets,GAN)算法。
示例性的,可以将语音信息和嘴部区域信息输入至预设的神经网络模型中,输出得到与该语音信息对应的口型视频。
如此,通过神经网络算法,可以使生成的口型视频更加准确,生成过程也更加智能。
另外,基于上述实施方式,在另一种可选的实施方式中,上述实施方式具体可以包括:
获取与语音信息对应的文字序列;
将嘴部区域信息与文字序列中包括的字或词,输入至经训练的神经网络模型,输出得到与字或词对应的嘴部动作视频片段;
将嘴部动作视频片段按照对应字或词在文字序列中的排列顺序,进行拼接处理,得到与语音信息对应的口型视频。
这里,文字序列可以为按顺序排列的字或词,可以通过语音识别技术识别并分离得到,该文字序列可用于得到嘴部动作视频片段。嘴部动作视频片段可以为文字序列中的字或词对应的嘴部动作的视频片段,这些嘴部动作视频片段可通过拼接处理得到口型视频。具体的,口型视频可以为按文字序列顺序排列的嘴部动作视频片段,该口型视频可用于生成与用户对应的动态视频画面。
另外,经训练的神经网络模型可以是预先训练的GAN网络。示例性的,可通过获取嘴部区域图像样本以及对应的声音样本,对初始的GAN网络进行训练,直至GAN网络的参数收敛,得到经训练的GAN网络。
在一个具体例子中,通过语音识别技术,对采集到的语音信息“我们去吃火锅”进行识别,去掉背景噪声等无用信息,并分离得到如图2所示的文字序列,将嘴部区域信息分别与字词:“我们”“去”“吃”“火锅”,输入至经训练的神经网络模型,输出得到如图3所示的嘴部动作视频片段,将图3中的嘴部动作视频片段按照对应字或词在文字序列中的排列顺序,进行拼接处理,可以得到与语音信息对应的口型视频。
如此,通过上述过程,可以先进行语音识别得到文字序列,再通过神经网络模型进行口型识别,这样,对神经网络算法的要求更低,可以使神经网络模型简单化,也可以进一步提高生成的口型的准确性。
然后,涉及步骤140,动态视频画面可以为将口型视频融合至当前视频后得到的视频画面,可用于替换视频通话中用户的视频画面,在对方设备上进行显示,达到暂时离开镜头却不被对方发现的目的。
基于上述步骤110-140,在一种可能的实施例中,如图4所示,上述步骤120具体可以包括:步骤1201-1203,其中:
步骤1201,获取用户的面部图像。
这里,面部图像可以为在接收到用户针对视频通话的第一输入时,获取的用户面部的图像,该面部图像可用于确定用户的嘴部对应的第一区域位置,并作为生成动态视频画面的基底。
在一个具体例子中,当用户点击“暂离”按钮时,设备上的摄像头会抓拍一张当前聊天环境的用户正面照,作为用户的面部图像。
步骤1202,根据面部图像,确定用户的嘴部对应的第一区域位置。
这里,第一区域位置可以为面部图像上用户的嘴部位置,该第一区域位置可作为从面部图像中截取嘴部区域图像的依据。
在一个具体例子中,如图5所示,可以检测到用户正面照中的人脸区域,并对人脸的五官区域进行分割,分离出嘴部区域,将该嘴部区域对应的位置作为第一区域位置。
步骤1203,按照第一区域位置从面部图像中截取嘴部区域图像,作为用户的嘴部区域信息。
这里,嘴部区域信息可以包括从面部图像的第一区域位置截取的嘴部区域图像,该嘴部区域信息可用于生成与语音信息对应的口型视频。
如此,通过上述过程,从用户的面部图像中得到用户的嘴部区域信息,可以更精确地获取到嘴部区域信息,也便于之后依据该嘴部区域信息生成口型视频后,将口型视频对应的嘴部动作融合至用户面部中,使合成后的动态视频画面更加自然。
基于此,在一种可选的实施方式中,在上述步骤的基础上,步骤140具体可以包括:
将口型视频填充至面部图像中的第一区域位置,生成与用户对应的动态视频画面。
这里,可以通过将口型视频融合填充至用户的面部图像中,从而得到与用户对应的动态视频画面,画面中用户的嘴部动作和用户的语音是完全吻合的,可将该动态视频画面对应的视频流发送至对方的设备,以将该动态视频画面显示到视频通话对方的设备上,达到用户暂时离开设备却不被对方发现的目的。
如此,通过上述过程,可以将面部图像作为基底,在得到口型视频后融合至该面部图像中,这样,可以使生成的动态视频画面中用户的面部动作更加自然。
此外,在另一种可选的实施方式中,嘴部区域信息还可以包括口型特征信息,因此,上述步骤120具体还可以包括:
获取用户的语音视频片段;
根据语音视频片段,获取用户的口型特征信息。
这里,语音视频片段可以为预先录制并存储的用户说话的视频片段,也可以为截取的当前视频通话的语音视频片段,该语音视频片段可用于得到口型特征信息。口型特征信息可以为根据语音视频片段得到的用户说话时的口型特征,该口型特征信息可作为生成与语音信息对应的口型视频的一个辅助因素。
示例性的,根据语音视频片段获取用户的口型特征信息的方式包括但不限于,利用预先训练的神经网络模型,从语音视频片段中提取用户的口型特征。
在一个具体例子中,可以从用户点击“暂离”按钮之前的视频中截取用户说话的语音视频片段,并将该语音视频片段输入至预设的第一神经网络模型,输出得到相应的口型特征信息。将该口型特征信息与采集的语音信息对应的文字序列输入至经训练的第二神经网络模型中,生成相应的具有该用户说话特征的口型视频。
如此,由于不同的用户说话时嘴部张开的幅度会有差异,因此,通过获取用户的口型特征信息,在根据嘴部区域图像生成与该语音信息对应的口型视频时,参考该口型特征信息,从而可以使生成的口型视频更接近用户的实际说话时的口型。
除此之外,基于上述步骤110-140,在另一种可能的实施例中,如图3所示,上述步骤120可以包括:步骤1204-1206,其中:
步骤1204,获取用户的面部视频片段。
这里,面部视频片段可以为在获取到用户针对视频通话的第一输入时,进行获取的用户的面部视频片段,通过该面部视频片段可确定出用户的嘴部对应的第二区域位置,并将该面部视频片段作为生成动态视频画面的基底。
在一个具体例子中,当用户点击“暂离”按钮时,摄像头会捕捉1秒左右的视频,作为用户的面部视频片段。
步骤1205,根据面部视频片段,确定用户的嘴部对应的第二区域位置。
这里,第二区域位置可以为面部视频片段中用户的嘴部位置,该位置可以是动态位置,该第二区域位置可作为从面部视频片段中截取嘴部区域视频片段的依据。与从用户的面部图像中截取嘴部区域图像的方式类似,可以对用户面部按照五官区域进行分割,分离出嘴部区域,并将该嘴部区域对应的位置,作为第二区域位置。
在一个具体例子中,可以检测到用户正面视频中的人脸区域,并从中确定出用户的嘴部位置,作为第二区域位置。
步骤1206,按照第二区域位置从面部视频片段中截取嘴部区域视频片段,作为用户的嘴部区域信息。
这里,嘴部区域信息可以包括从面部视频片段的第二区域位置截取的嘴部区域视频片段,该嘴部区域信息可用于生成与语音信息对应的口型视频。
如此,通过上述过程,可以从用户的面部视频片段中得到用户的嘴部区域视频片段,这样通过该嘴部区域视频片段生成的口型视频会更加自然,且更加符合用户的说话习惯,不容易被对方看出破绽。
基于此,在一种可选的实施方式中,在上述步骤的基础上,步骤140具体可以包括:
将口型视频填充至面部视频片段中的第二区域位置,生成与用户对应的动态视频画面。
这里,可以通过将口型视频融合填充至用户的面部视频片段中,从而得到与用户对应的动态视频画面,画面中用户的嘴部动作和用户的语音是完全吻合的,可将该动态视频画面对应的视频流发送至对方的设备,以将该动态视频画面显示到视频通话对方的设备上,达到用户暂时离开设备却不被对方发现的目的。
如此,通过上述过程,可以将面部视频片段作为基底,生成与用户对应的动态视频画面,与根据面部图像生成的动态视频画面相比,用户的面部动作会更加自然,更符合用户的说话习惯。
为了更好地描述整个方案,基于上述各实施例,举一个具体例子,如图7所示,该视频处理方法可以包括步骤710-770,下面对此进行详细解释。
步骤710,接收用户点击“暂离”按钮的第一输入。
在一个具体例子中,当用户在视频通话中想要离开摄像头,但又不想被对方发现时,可以点击“暂离”按钮,电子设备接收用户点击“暂离”按钮的第一输入。
步骤720,抓拍一张用户正面照。
在一个具体例子中,当用户点击“暂离”按钮时,摄像头会抓拍一张当前聊天环境的用户正面照,作为用户的面部图像。
步骤730,确定正面照的嘴部区域。
在一个具体例子中,可以从用户正面照中通过人脸识别技术确定人脸区域,对人脸的五官区域进行分割,并从中分离出用户的嘴部区域。
步骤740,开启录音功能。
在一个具体例子中,可以开启设备的录音功能,采集声音信息,同时,对采集到声音信息进行处理,去掉背景噪声等无用信息,分离出用户的语音信息。
步骤750,获取文字序列。
在一个具体例子中,可以通过语音识别技术,对采集到的语音进行识别并分离,得到与语音信息对应的文字序列,该文字序列包括按顺序排列的字或词。
步骤760,生成口型视频。
在一个具体例子中,将文字序列中的字或词输入至经训练的GAN网络,输出得到每个字词对应的嘴部动作视频片段,将该嘴部动作视频片段按照对应字或词在文字序列中的排列顺序,进行拼接处理,可以得到与语音信息对应的口型视频。由于模型的输入为用户本人的嘴部区域图像,因此生成的嘴部动作也会类似用户本人的嘴部动作,不会有异物感。
步骤770,将生成的口型视频填充到正面照的嘴部区域,生成动态视频画面。
在一个具体例子中,可以将口型视频填充到正面照的嘴部区域,从而融合到用户的正面照中,这样可以得到用户本人在当前环境的正面视频,也即与该用户对应的动态视频画面。将该实时生成的动态视频画面对应的视频流数据发送至对方的设备上,以在对方设备上显示该动态视频画面。
由此,通过在视频通话过程中,当用户想要离开时触发获取用户的嘴部区域信息,并实时采集用户的语音信息,将用户的语音转化为口型动作,并融合到本人的视频画面中,生成用户对应的动态视频画面,以替换视频通话中用户对应的视频画面,这样,即使用户离开摄像头采集区域,也可以通过声音得到与用户嘴部动作匹配的实时视频画面,满足用户在对方不察觉的情况下离开摄像头拍摄区域的需求,提高用户的使用体验。
基于相同的发明构思,本申请还提供了一种视频处理装置。下面结合图8对本申请实施例提供的视频处理装置进行详细说明。
图8是根据一示例性实施例示出的一种视频处理装置的结构框图。
如图8所示,视频处理装置800可以包括:
接收模块801,用于接收用户针对视频通话的第一输入;
获取模块802,用于响应于第一输入,获取用户的嘴部区域信息,并采集语音信息;
第一生成模块803,用于根据语音信息和嘴部区域信息,生成与语音信息对应的口型视频;
第二生成模块804,用于根据口型视频生成与用户对应的动态视频画面,并替换视频通话中用户对应的视频画面。
下面对上述视频处理装置800进行详细说明,具体如下所示:
在其中一个实施例中,第一生成模块803,具体可以包括:
口型生成子模块,用于按照预设的神经网络算法,根据嘴部区域信息和语音信息,生成与语音信息对应的口型视频。
在其中一个实施例中,上述涉及的口型生成子模块,具体可以包括:
获取单元,用于获取与语音信息对应的文字序列;
处理单元,用于将嘴部区域信息与文字序列中包括的字或词,输入至经训练的神经网络模型,输出得到与字或词对应的嘴部动作视频片段;
拼接单元,用于将嘴部动作视频片段按照对应字或词在文字序列中的排列顺序,进行拼接处理,得到与语音信息对应的口型视频。
在其中一个实施例中,获取模块802,具体可以包括:
图像获取子模块,用于获取用户的面部图像;
第一确定子模块,用于根据面部图像,确定用户的嘴部对应的第一区域位置;
第一截取子模块,用于按照第一区域位置从面部图像中截取嘴部区域图像,作为用户的嘴部区域信息。
在其中一个实施例中,第二生成模块804,具体可以包括:
第一生成子模块,用于将口型视频填充至面部图像中的第一区域位置,生成与用户对应的动态视频画面。
在其中一个实施例中,嘴部区域信息还可以包括口型特征信息,获取模块402,具体还可以包括:
视频获取子模块,用于获取用户的语音视频片段;
口型获取子模块,用于根据语音视频片段,获取用户的口型特征信息。
在其中一个实施例中,获取模块802,具体还可以包括:
面部获取子模块,用于获取用户的面部视频片段;
第二确定子模块,用于根据面部视频片段,确定用户的嘴部对应的第二区域位置;
第二截取子模块,用于按照第二区域位置从面部视频片段中截取嘴部区域视频片段,作为用户的嘴部区域信息。
在其中一个实施例中,第二生成模块804,具体还可以包括:
第二生成子模块,用于将口型视频填充至面部视频片段中的第二区域位置,生成与用户对应的动态视频画面。
由此,通过在视频通话过程中,当用户想要离开时触发获取用户的嘴部区域信息,并实时采集用户的语音信息,将用户的语音转化为口型动作,并融合到本人的视频画面中,生成用户对应的动态视频画面,以替换视频通话中用户对应的视频画面,这样,即使用户离开摄像头采集区域,也可以通过声音得到与用户嘴部动作匹配的实时视频画面,满足用户在对方不察觉的情况下离开摄像头拍摄区域的需求,提高用户的使用体验。
本申请实施例中的视频处理装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,本申请实施例不作具体限定。
本申请实施例中的视频处理装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***,可以为ios操作***,还可以为其他可能的操作***,本申请实施例不作具体限定。
本申请实施例提供的视频处理装置能够实现图1至图7的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选的,如图9所示,本申请实施例还提供一种电子设备900,包括处理器901,存储器902,存储在存储器902上并可在所述处理器901上运行的程序或指令,该程序或指令被处理器901执行时实现上述视频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图10为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备1000包括但不限于:用户输入单元1001、输入单元1002、处理器1003以及存储器1004等部件。
本领域技术人员可以理解,电子设备1000还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理***与处理器1003逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,用户输入单元1001,用于接收用户针对视频通话的第一输入;
输入单元1002,用于响应于第一输入,采集语音信息;
处理器1003,用于响应于第一输入,获取用户的嘴部区域信息,并根据语音信息和嘴部区域信息,生成与语音信息对应的口型视频;根据口型视频生成与用户对应的动态视频画面,并替换视频通话中用户对应的视频画面。
由此,通过在视频通话过程中,当用户想要离开时触发获取用户的嘴部区域信息,并实时采集用户的语音信息,将用户的语音转化为口型动作,并融合到本人的视频画面中,生成用户对应的动态视频画面,以替换视频通话中用户对应的视频画面,这样,即使用户离开摄像头采集区域,也可以通过声音得到与用户嘴部动作匹配的实时视频画面,满足用户在对方不察觉的情况下离开摄像头拍摄区域的需求,提高用户的使用体验。
可选的,处理器1003,具体用于按照预设的神经网络算法,根据嘴部区域信息和语音信息,生成与语音信息对应的口型视频。
可选的,处理器1003,具体用于获取与语音信息对应的文字序列;将嘴部区域信息与文字序列中包括的字或词,输入至经训练的神经网络模型,输出得到与字或词对应的嘴部动作视频片段;将嘴部动作视频片段按照对应字或词在文字序列中的排列顺序,进行拼接处理,得到与语音信息对应的口型视频。
可选的,输入单元1002,具体还用于获取用户的面部图像;
处理器1003,具体还用于根据面部图像,确定用户的嘴部对应的第一区域位置;按照第一区域位置从面部图像中截取嘴部区域图像,作为用户的嘴部区域信息。
可选的,处理器1003,具体还用于将口型视频填充至面部图像中的第一区域位置,生成与用户对应的动态视频画面。
可选的,输入单元1002,具体还用于获取用户的语音视频片段;
处理器1003,具体还用于根据语音视频片段,获取用户的口型特征信息。
可选的,输入单元1002,具体还用于获取用户的面部视频片段;
处理器1003,具体还用于根据面部视频片段,确定用户的嘴部对应的第二区域位置;按照第二区域位置从面部视频片段中截取嘴部区域视频片段,作为用户的嘴部区域信息。
可选的,处理器1003,具体还用于将口型视频填充至面部视频片段中的第二区域位置,生成与用户对应的动态视频画面。
由此,通过从用户的面部图像或面部视频片段中确定嘴部区域信息,根据该嘴部区域信息生成口型视频,然后将口型视频对应的嘴部动作与该面部图像或面部视频片段进行融合,生成动态视频画面,这样,生成的口型视频更接近用户的实际说话时的口型,生成的动态视频画面也会加自然。
应理解的是,本申请实施例中,输入单元1002可以包括图形处理器(GraphicsProcessing Unit,GPU)10021和麦克风10022,图形处理器10021对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。用户输入单元1001包括触控面板10011以及其他输入设备10012。触控面板10011,也称为触摸屏。触控面板10011可包括触摸检测装置和触摸控制器两个部分。其他输入设备10012可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器1004可用于存储软件程序以及各种数据,包括但不限于应用程序和操作***。处理器1003可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1003中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述视频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述视频处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种视频处理方法,其特征在于,包括:
接收用户针对视频通话的第一输入;
响应于所述第一输入,获取所述用户的嘴部区域信息,并采集语音信息;
根据所述语音信息和所述嘴部区域信息,生成与所述语音信息对应的口型视频;
根据所述口型视频生成与所述用户对应的动态视频画面,并替换所述视频通话中所述用户对应的视频画面。
2.根据权利要求1所述的方法,其特征在于,所述根据所述嘴部区域信息,生成与所述语音信息对应的口型视频,包括:
按照预设的神经网络算法,根据所述嘴部区域信息和所述语音信息,生成与所述语音信息对应的口型视频。
3.根据权利要求2所述的方法,其特征在于,所述按照预设的神经网络算法,根据所述嘴部区域信息和所述语音信息,生成与所述语音信息对应的口型视频,包括:
获取与所述语音信息对应的文字序列;
将所述嘴部区域信息与所述文字序列中包括的字或词,输入至经训练的神经网络模型,输出得到与所述字或词对应的嘴部动作视频片段;
将所述嘴部动作视频片段按照对应字或词在所述文字序列中的排列顺序,进行拼接处理,得到与所述语音信息对应的口型视频。
4.根据权利要求1所述的方法,其特征在于,所述获取所述用户的嘴部区域信息,包括:
获取所述用户的面部图像;
根据所述面部图像,确定所述用户的嘴部对应的第一区域位置;
按照所述第一区域位置从所述面部图像中截取嘴部区域图像,作为所述用户的嘴部区域信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述口型视频生成与所述用户对应的动态视频画面,包括:
将所述口型视频填充至所述面部图像中的所述第一区域位置,生成与所述用户对应的动态视频画面。
6.根据权利要求4所述的方法,其特征在于,所述嘴部区域信息还包括口型特征信息;
所述获取所述用户的嘴部区域信息,还包括:
获取所述用户的语音视频片段;
根据所述语音视频片段,获取所述用户的口型特征信息。
7.根据权利要求1所述的方法,其特征在于,所述获取所述用户的嘴部区域信息,包括:
获取所述用户的面部视频片段;
根据所述面部视频片段,确定所述用户的嘴部对应的第二区域位置;
按照所述第二区域位置从所述面部视频片段中截取嘴部区域视频片段,作为所述用户的嘴部区域信息。
8.根据权利要求7所述的方法,其特征在于,所述根据所述口型视频生成与所述用户对应的动态视频画面,包括:
将所述口型视频填充至所述面部视频片段中的所述第二区域位置,生成与所述用户对应的动态视频画面。
9.一种视频处理装置,其特征在于,包括:
接收模块,用于接收用户针对视频通话的第一输入;
获取模块,用于响应于所述第一输入,获取所述用户的嘴部区域信息,并采集语音信息;
第一生成模块,用于根据所述语音信息和所述嘴部区域信息,生成与所述语音信息对应的口型视频;
第二生成模块,用于根据所述口型视频生成与所述用户对应的动态视频画面,并替换所述视频通话中所述用户对应的视频画面。
10.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-8任一项所述的视频处理方法的步骤。
CN202110121878.0A 2021-01-28 2021-01-28 视频处理方法、装置和电子设备 Pending CN112911192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110121878.0A CN112911192A (zh) 2021-01-28 2021-01-28 视频处理方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110121878.0A CN112911192A (zh) 2021-01-28 2021-01-28 视频处理方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN112911192A true CN112911192A (zh) 2021-06-04

Family

ID=76119999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110121878.0A Pending CN112911192A (zh) 2021-01-28 2021-01-28 视频处理方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112911192A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113660375A (zh) * 2021-08-11 2021-11-16 维沃移动通信有限公司 通话方法、装置及电子设备
CN113949824A (zh) * 2021-10-28 2022-01-18 深圳市三一众合科技有限公司 卡通头像的嘴巴控制方法及相关产品
CN114786033A (zh) * 2022-06-23 2022-07-22 中译文娱科技(青岛)有限公司 一种基于人工智能的视听数据智能分析管理***
WO2024030075A3 (zh) * 2022-07-30 2024-03-21 脸萌有限公司 视频确定方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100134588A1 (en) * 2008-12-01 2010-06-03 Samsung Electronics Co., Ltd. Method and apparatus for providing animation effect on video telephony call
CN107623830A (zh) * 2016-07-15 2018-01-23 掌赢信息科技(上海)有限公司 一种视频通话方法及电子设备
CN108550173A (zh) * 2018-04-03 2018-09-18 西北工业大学 基于语音生成口型视频的方法
CN109377539A (zh) * 2018-11-06 2019-02-22 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN109769099A (zh) * 2019-01-15 2019-05-17 三星电子(中国)研发中心 通话人物异常的检测方法和装置
CN109949390A (zh) * 2017-12-21 2019-06-28 腾讯科技(深圳)有限公司 图像生成方法、动态表情图像生成方法及装置
CN111277912A (zh) * 2020-02-17 2020-06-12 百度在线网络技术(北京)有限公司 图像处理方法、装置和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100134588A1 (en) * 2008-12-01 2010-06-03 Samsung Electronics Co., Ltd. Method and apparatus for providing animation effect on video telephony call
CN107623830A (zh) * 2016-07-15 2018-01-23 掌赢信息科技(上海)有限公司 一种视频通话方法及电子设备
CN109949390A (zh) * 2017-12-21 2019-06-28 腾讯科技(深圳)有限公司 图像生成方法、动态表情图像生成方法及装置
CN108550173A (zh) * 2018-04-03 2018-09-18 西北工业大学 基于语音生成口型视频的方法
CN109377539A (zh) * 2018-11-06 2019-02-22 北京百度网讯科技有限公司 用于生成动画的方法和装置
CN109769099A (zh) * 2019-01-15 2019-05-17 三星电子(中国)研发中心 通话人物异常的检测方法和装置
CN111277912A (zh) * 2020-02-17 2020-06-12 百度在线网络技术(北京)有限公司 图像处理方法、装置和电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113660375A (zh) * 2021-08-11 2021-11-16 维沃移动通信有限公司 通话方法、装置及电子设备
CN113949824A (zh) * 2021-10-28 2022-01-18 深圳市三一众合科技有限公司 卡通头像的嘴巴控制方法及相关产品
CN114786033A (zh) * 2022-06-23 2022-07-22 中译文娱科技(青岛)有限公司 一种基于人工智能的视听数据智能分析管理***
CN114786033B (zh) * 2022-06-23 2022-10-21 中译文娱科技(青岛)有限公司 一种基于人工智能的视听数据智能分析管理***
WO2024030075A3 (zh) * 2022-07-30 2024-03-21 脸萌有限公司 视频确定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109637518B (zh) 虚拟主播实现方法及装置
CN112911192A (zh) 视频处理方法、装置和电子设备
CN108363706B (zh) 人机对话交互的方法和装置、用于人机对话交互的装置
CN110519636B (zh) 语音信息播放方法、装置、计算机设备及存储介质
CN111316203A (zh) 自动生成形象的动作
CN109254669B (zh) 一种表情图片输入方法、装置、电子设备及***
EP3617946A1 (en) Context acquisition method and device based on voice interaction
CN108076290B (zh) 一种图像处理方法及移动终端
WO2020228208A1 (zh) 用户智能设备及其情绪图符处理方法
CN110598576A (zh) 一种手语交互方法、装置及计算机介质
CN111583355B (zh) 面部形象生成方法、装置、电子设备及可读存储介质
EP4300431A1 (en) Action processing method and apparatus for virtual object, and storage medium
CN110490164B (zh) 生成虚拟表情的方法、装置、设备及介质
CN107291704A (zh) 处理方法和装置、用于处理的装置
CN112532885B (zh) 防抖方法、装置及电子设备
CN113691833A (zh) 虚拟主播换脸方法、装置、电子设备及存储介质
CN112330533A (zh) 混血人脸图像生成方法、模型训练方法、装置和设备
CN107623622A (zh) 一种发送语音动画的方法及电子设备
CN113703585A (zh) 交互方法、装置、电子设备及存储介质
CN112274909A (zh) 应用运行控制方法和装置、电子设备及存储介质
CN110349577B (zh) 人机交互方法、装置、存储介质及电子设备
CN112669846A (zh) 交互***、方法、装置、电子设备及存储介质
CN107623830A (zh) 一种视频通话方法及电子设备
CN112669416B (zh) 客服服务***、方法、装置、电子设备及存储介质
CN114138960A (zh) 用户意图识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210604

RJ01 Rejection of invention patent application after publication