CN110213519A

CN110213519A - 一种视频通话方法与设备

Info

Publication number: CN110213519A
Application number: CN201910363163.9A
Authority: CN
Inventors: 顾正相
Original assignee: Shanghai Zhangmen Science and Technology Co Ltd
Current assignee: Shanghai Zhangmen Science and Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-09-06

Abstract

本申请的目的是提供一种视频通话方法与设备，所述方法包括：在用户设备与其它用户设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息；根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息；向所述其它用户设备发送包括所述融合视频帧信息的视频通话信息。以支持在视频通话场景中，用户可将通过其对应的用户设备将其通过前置摄像单元以及后置摄像单元所采集获取的第一视频帧信息以及第二视频帧信息同时发送给该其他用户设备，丰富了用户视频通话场景，提高了用户体验。

Description

一种视频通话方法与设备

技术领域

本申请涉及通信领域，尤其涉及一种用于视频通话的技术。

背景技术

随着时代的发展，用户之间的通话不仅限于语音通话，还包括视频通话。在现有技术中，用户只能通过其对应的用户设备向与该用户设备建立视频通话连接的其他用户设备发送采用单摄像头采集的视频信息，该其他用户只能看到该摄像头所采集的视频信息，限制了用户的视频通话场景。

发明内容

本申请的一个目的是提供一种视频通话方法与设备。

根据本申请的一个方面，提供了一种视频通话方法，该方法包括：

在用户设备与其它用户设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息；

根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息；

向所述其它用户设备发送包括所述融合视频帧信息的视频通话信息。

根据本申请的另一个方面，提供了一种在网络设备端的视频通话方法，该方法包括：

接收用户设备发送的包括第一视频帧信息以及第二视频帧信息的视频通话信息，其中，所述第一视频帧信息以及第二视频帧信息是由所述用户设备在与其他用户设备通过网络设备进行视频通话过程中，分别通过前置摄像单元和后置摄像单元采集获取的；

根据本申请的又一个方面，提供了一种在用户设备端的视频通话方法，其中，所述方法包括：

在用户设备与其它用户设备通过网络设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息；

向所述网络设备发送包括所述第一视频帧信息及所述第二视频帧信息的视频通话信息。

根据本申请的一个方面，提供了一种视频通话方法，其中，所述方法包括：

在用户设备与其它用户设备通过网络设备进行视频通话的过程中，所述用户设备通过前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息，向所述网络设备发送包括所述第一视频帧信息及所述第二视频帧信息的视频通话信息；

所述网络设备接收包括所述第一视频帧信息及所述第二视频帧信息的视频通话信息，根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息，向所述其它用户设备发送包括所述融合视频帧信息的视频通话信息。

根据本申请的一个方面，提供了一种视频通话设备，其中，所述设备包括：

一一模块，用于在用户设备与其它用户设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息；

一二模块，用于根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息；

一三模块，用于向所述其它用户设备发送包括所述融合视频帧信息的视频通话信息。

根据本申请的另一个方面，提供了一种视频通话设备，其中，所述设备包括：

二一模块，用于接收用户设备发送的包括第一视频帧信息以及第二视频帧信息的视频通话信息，其中，所述第一视频帧信息以及第二视频帧信息是由所述用户设备在与其他用户设备通过网络设备进行视频通话过程中，分别通过前置摄像单元和后置摄像单元采集获取的；

二二模块，用于根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息；

二三模块，用于向所述其它用户设备发送包括所述融合视频帧信息的视频通话信息。

根据本申请的又一个方面，提供了一种视频通话设备，其中，所述设备包括：

三一模块，用于在用户设备与其它用户设备通过网络设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息；

三二模块，用于向所述网络设备发送包括所述第一视频帧信息及所述第二视频帧信息的视频通话信息。

根据本申请的一个方面，提供了一种视频通话设备，该设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如上所述任一方法的操作。

根据本申请的另一个方面，提供了存储指令的计算机可读介质，所述指令在被执行时使得***进行如上所述任一方法的操作。

与现有技术相比，本申请通过根据用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息，生成融合视频帧信息，并向与该用户设备进行视频通话的其它用户设备发送包括所述融合视频帧信息的视频通话信息，以支持在视频通话场景中，用户可将通过其对应的用户设备将其通过前置摄像单元以及后置摄像单元所采集获取的第一视频帧信息以及第二视频帧信息同时发送给该其他用户设备，丰富了用户视频通话场景，提高了用户体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个实施例的一种视频通话的方法流程图；

图2示出根据本申请一个实施例的一种视频通话方法的***的***拓扑图；

图3示出根据本申请一个实施例的一种视频通话的方法流程图；

图4示出根据本申请一个实施例的一种在网络设备端的视频通话方法的方法流程图；

图5示出根据本申请另一个实施例的一种在用户设备端的视频通话方法的方法流程图；

图6示出根据本申请一个实施例的一种视频通话设备的设备模块图；

图7示出根据本申请一个实施例的网络设备的设备模块图；

图8示出根据本申请另一个实施例的用户设备的设备模块图；

图9示出可用于本申请各实施例的一种示例性***的功能模块图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如，中央处理器(Central Processing Unit，CPU))、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RandomAccess Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(Flash Memory)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(Phase-Change Memory，PCM)、可编程随机存取存储器(Programmable Random Access Memory，PRAM)、静态随机存取存储器(Static Random-Access Memory，SRAM)、动态随机存取存储器(Dynamic Random AccessMemory，DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能光盘(Digital Versatile Disc,DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本申请所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品，例如智能手机、平板电脑等，所述移动电子产品可以采用任意操作***，如android操作***、iOS操作***等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit，ASIC)、可编程逻辑器件(Programmable Logic Device，PLD)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、数字信号处理器(Digital Signal Processor，DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地，所述设备还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。

当然，本领域技术人员应能理解上述设备仅为举例，其他现有的或今后可能出现的设备如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

在本申请的描述中，“多个”的含义是两个或者更多，除非另有明确具体的限定。

图1示出了根据本申请一个实施例的一种视频通话方法的方法流程图。所述方法包括步骤S101、步骤S102以及步骤S103。在步骤S101中，在用户设备与其它用户设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息；在步骤S102中，用户设备根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息；在步骤S103中，用户设备向所述其它用户设备发送包括所述融合视频帧信息的视频通话信息。在一些实施例中，所述用户设备包括但不限于手机、平板、笔记本电脑等计算设备。在一些实施例中，所述用户设备与一台其他用户设备进行一对一的视频通话；在另一些实施例中，所述用户设备与一台或者多台其他用户设备进行一对多的视频通话，例如，所述用户设备同时与多台其他用户设备进行视频通话。

具体而言，在步骤S101中，在用户设备与其它用户设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息。在一些实施例中，所述摄像单元包括摄像头，例如，所述用户设备设置有前置摄像头和后置摄像头，通过所述前置摄像头获取所述第一视频帧信息，通过所述后置摄像头获取所述第二视频帧信息。视频帧频是指视频剪辑每秒显示的帧数，一个静态图像为一帧，若干个静态图像组成一段视频。在一些实施例中，所述第一视频帧信息以及所述第二视频帧信息分别包括单位时间(例如一秒或者一分钟)内的一个或多个视频帧图像。所述用户设备与所述其他用户设备通过两设备间的直接通信(如有线或者无线的方式建立连接等)进行视频通话，或者通过网络设备建立通信连接进行视频通话。

在步骤S102中，用户设备根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息。在一些实施例中，用户设备监听记录有所述第一视频帧信息和/或所述第二视频帧信息的视频帧采集时间，用户设备将同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息进行叠加合成(例如，将所述第一视频帧信息叠加到所述第二视频帧信息中)，以生成所述融合视频帧信息。例如，将该第一视频帧信息与该第二视频帧信息中同一视频帧采集时间点的图像进行叠加融合(例如，将包含人脸图像信息的第一视频帧信息叠加到第二视频帧信息中)，以生成该融合视频帧信息。

在步骤S103中，用户设备向所述其它用户设备发送包括所述融合视频帧信息的视频通话信息。在一些实施例中，用户设备生成包括所述第一视频帧信息以及所述第二视频帧信息的融合视频帧信息后，将包括该融合视频帧信息的视频通话信息发送给与该用户设备进行视频通话的其他用户设备。在一些实施例中，所述视频通话信息是由网络设备接收并转发给对应的该其他用户设备的。

在一些实施例中，所述方法还包括步骤S104(未示出)，在步骤S104中，用户设备根据用户在视频通话过程中的摄像单元切换操作，将所述用户设备在视频通话中的工作摄像单元切换为目标摄像单元，其中所述目标摄像单元为所述前置摄像单元或所述后置摄像单元；通过所述目标摄像单元获取目标视频帧信息；向所述其它用户设备发送包括所述目标视频帧信息的视频通话信息。为了适用于不同的视频通话场景，基于用户在视频通话过程中的摄像单元切换操作，可进行对所述摄像单元的切换。例如，所述工作摄像单元为一个摄像单元(例如前置摄像单元或后置摄像单元)工作的情况时，基于用户的切换操作增加摄像单元(例如增加后置摄像单元或者前置摄像单元)，并将该增加的摄像单元作为目标摄像单元，通过该目标摄像单元获取对应的目标视频帧信息，向其他用户设备发送包括该目标摄像单元的视频通话信息。例如，用户当前通过前置摄像单元与其他用户进行视频通话，其中，该前置摄像单元所采集的视频帧信息为第一视频帧信息，基于该用户的切换操作，增加后置摄像单元，其中，该后置摄像单元所采集的视频帧信息为目标视频帧信息，并基于该目标视频帧信息与该第一视频帧信息生成融合视频帧信息，以向该其他用户对应的其他用户设备发送包括该融合视频帧信息的视频通话信息；再例如，用户当前通过后置摄像单元与其他用户进行视频通话，其中，该后置摄像单元所采集的视频帧信息为第二视频帧信息，基于该用户的切换操作，增加前置摄像单元，其中，该前置摄像单元所采集的视频帧信息为目标视频帧信息，并基于该目标视频帧信息与该第二视频帧信息生成融合视频帧信息，以向该其他用户对应的其他用户设备发送包括该融合视频帧信息的视频通话信息。

在一些实施例中，所述方法还包括步骤S105(未示出)，在步骤S105中，用户设备检测用户设备是否满足启动融合视频通话模式的触发条件；其中，所述步骤S101包括：若是，在所述用户设备与其它用户设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息。在一些实施例中，所述用户设备在所述融合视频通话模式下，启动所述前置摄像单元以及所述后置摄像单元，以同时获取所述前置摄像单元以及后置摄像单元采集拍摄的第一视频帧信息以及第二视频帧信息，进一步地，该用户设备检测到所述前置摄像单元以及所述后置摄像单元同时启动后，将所述第一视频帧信息以及所述第二视频帧信息生成所述融合视频帧信息。在一些实施例中，所述用户设备包括一物理触发按钮或者一触摸触发按钮，用户设备通过检测用户按压或者触摸该触发按钮的操作，以启动所述融合视频通话模式。在一些实施例中，所述触发条件包括但不限于所述用户设备发起视频通话请求、所述用户设备成功建立与其它用户设备的视频通话。若满足该触发条件，则在所述用户设备与其他用户设备进行视频通话的过程中，该用户设备通过启动所述前置摄像单元以及所述后置摄像单元，来获取第一视频帧信息以及第二视频帧信息。通过设置该融合视频通话模式，可以扩大本申请的适用场景，例如，在该用户设备与其他用户设备进行视频通话的界面中设置一触摸触发按钮，该触发按钮对应于融合视频通话模式，用户通过点击触摸该触发按钮，将当前视频通话过程中使用的普通视频通话模式(例如，只启动前置摄像单元或者后置摄像单元)切换到该融合视频通话模式，以启动所述前置摄像单元以及所述后置摄像单元，以采集获取所述第一视频帧信息以及第二视频帧信息，从而生成融合视频帧信息；再例如，在该用户设备向其他用户设备发起视频通话请求时，在该发起界面设置一触摸触发按钮，用户通过点击触摸该触发按钮，在发起视频通话的同时即可同时启动所述前置摄像单元以及所述后置摄像单元，从而直接在所述融合视频通话模式下进行视频通话。当然，本领域技术人员应能理解，以上所述的用户在该用户设备中的操作仅为举例，其他现有的或今后可能出现的操作如能适用于本申请，也包含在本申请的保护范围内，并以引用的方式包含于此。

在一些实施例中，所述触发条件包括以下至少任一项：

所述触发条件包括所述用户设备发起视频通话请求。在一些实施例中，所述用户设备在发起视频通话请求的请求界面设置有一触摸触发按钮，用户在该请求界面通过点击该触发按钮，在发起视频通话请求时即可同时启动所述前置摄像单元以及所述后置摄像单元，以获取所述第一视频帧信息以及所述第二视频帧信息。在一些实施例中，所述用户设备在发起视频通话请求的选择界面(例如，用户点击视频通话，弹出“普通视频通话”“融合视频通话”“语音通话”的选择界面)设置有一触摸触发按钮，该触发按钮对应于所述融合视频通话模式，用户在该选择界面通过点击该触发按钮，在发起视频通话请求时即可同时启动所述前置摄像单元以及所述后置摄像单元，以获取所述第一视频帧信息以及所述第二视频帧信息。

所述触发条件包括所述用户设备成功建立与其它用户设备的视频通话。在一些实施例中，为了节约资源(例如耗电量)，在该用户设备与其他用户设备成功建立视频通话时，该用户设备启动所述融合视频通话模式。例如，所述用户设备在发起视频通话请求的请求界面设置有一触摸触发按钮，用户在该请求界面通过点击该触发按钮，在该用户设备与其他用户设备成功建立视频通话连接时，该用户设备启动所述前置摄像单元以及所述后置摄像单元，以获取所述第一视频帧信息以及所述第二视频帧信息。再例如，所述用户设备在发起视频通话请求的选择界面(例如，用户点击视频通话，弹出“普通视频通话”“融合视频通话”“语音通话”的选择界面)设置有一触摸触发按钮，该触发按钮对应于所述融合视频通话模式，用户在该选择界面通过点击该触发按钮，在该用户设备与其他用户设备成功建立视频通话连接时，该用户设备启动所述前置摄像单元以及所述后置摄像单元，以获取所述第一视频帧信息以及所述第二视频帧信息。

所述触发条件包括在所述用户设备与其它用户设备进行视频通话的过程中，获取到用户选择融合视频通话模式的操作。为了方便用户在视频通话的过程中进行视频通话模式的选择切换，在一些实施例中，在该用户设备与其他用户设备进行视频通话的界面中设置一触摸触发按钮，该触发按钮对应于融合视频通话模式，用户通过点击触摸该触发按钮，将当前视频通话过程中使用的普通视频通话模式(例如，只启动前置摄像单元或者后置摄像单元)切换到该融合视频通话模式，以启动所述前置摄像单元以及所述后置摄像单元，以采集获取所述第一视频帧信息以及第二视频帧信息，从而生成融合视频帧信息。

在一些实施例中，所述步骤S102包括：用户设备将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。在一些实施例中，所述用户设备监听并记录有所述第一视频帧信息以及所述第二视频帧信息的视频帧采集时间，例如，在2019年4月25日10点10分10秒，该用户设备通过前置摄像单元采集获取了第一视频帧信息A，该第一视频帧信息A包括五个视频帧；在2019年4月25日10点10分10秒，该用户设备通过后置摄像单元同时采集获取了第一视频帧信息B，该第一视频帧信息B包括五个视频帧。进一步地，该用户设备基于该同一视频帧采集时间点(2019年4月25日10点10分10秒)的该第一视频帧信息A以及该第二视频帧信息B生成所述融合视频帧信息。进一步地，用户设备将同一视频帧采集时间点所采集的第一视频帧信息叠加到所述第二视频帧信息中(例如，第一视频帧信息A中的五个视频帧存在视频帧顺序，第二视频帧信息B中的五个视频帧存在视频帧顺序，按照该视频帧顺序，将该第一视频帧信息A叠加到该第二视频帧信息B中)，以生成包括所述第一视频帧信息以及所述第二视频帧信息的融合视频帧信息。在一些实施例中，所述视频帧采集时间点也可以是以“分”为单位时间记录该用户设备所采集获取的第一视频帧信息以及第二视频帧信息。例如，在2019年4月25日10点10分，该用户设备通过前置摄像单元采集获取了第一视频帧信息C，该第一视频帧信息C包括五十个视频帧；在2019年4月25日10点10分，该用户设备通过后置摄像单元同时采集获取了第一视频帧信息D，该第一视频帧信息D包括五十个视频帧。

在一些实施例中，所述步骤S102包括：用户设备根据关于所述第一视频帧信息的设置信息，将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。为了优化所述第一视频帧信息以及所述第二视频帧信息的合成效果，在一些实施例中，基于所述设置信息将所述第一视频帧信息以及所述第二视频帧信息合成所述融合视频帧信息。例如，所述设置信息是该用户设备中预设的关于所述第一视频帧信息的设置信息；再例如，所述设置信息是用户设置的，例如，用户设备中设置有用于输入该设置信息的窗口，用户通过在该窗口中输入关于所述第一视频帧信息的参数或者信息进行自定义设置。在一些实施例中，所述设置信息包括但不限于所述第一视频帧信息的缩放比例信息、所述第一视频帧信息在所述第二视频帧信息中的叠加位置信息。在一些实施例中，所述设置信息包括用户设备预设或者用户预设(例如，通过设置窗口进行参数设置)的设置信息；在一些实施例中，所述设置信息是基于用户的实时设置生成的，例如，用户设备呈现生成的融合视频帧信息，其中，该融合视频帧信息包括所述第二视频帧信息以及叠加在所述第二视频帧信息上的第一视频帧信息，用户通过拖动所述第一视频帧信息来进行缩放(例如拖动第一视频帧信息的边缘)、移动叠加位置(例如拖动该第一视频帧信息)的设置处理。

在一些实施例中，所述设置信息包括以下至少任一项：

所述设置信息包括所述第一视频帧信息的缩放比例信息。在一些实施例中，所述第一视频帧信息以一定的缩放比例叠加到所述第二视频帧信息中，例如，全屏显示为所述第一视频帧信息的原始大小，该缩放比例信息为1/6，则将该第一视频帧信息缩小为该原始大小的1/6，所述第二视频帧信息为全屏显示，则将该缩小后的第一视频帧信息叠加到该第二视频帧信息中，不会遮挡到该第二视频帧信息的内容，从而不会影响到叠加效果。

所述设置信息包括所述第一视频帧信息在所述第二视频帧信息中的叠加位置信息。在一些实施例中，为了进一步提高叠加效果，所述用户设备基于该叠加位置信息进行第一视频帧信息与第二视频帧信息的叠加。例如，所述叠加位置信息为在该第二视频帧信息的坐标点信息，该用户设备获取该第一视频帧信息的中心点信息(例如第一视频帧信息的中心)，并基于该中心点信息将该第一视频帧信息叠加到该第二视频帧信息的坐标点信息上(例如该中心点信息与该中心坐标点对应)。在一些实施例中，所述第一视频帧信息为经过缩放处理后的第一视频帧信息，例如，将缩小后的第一视频帧信息叠加到该第二视频帧信息中。当然，本领域技术人员应能理解，以上所述的基于叠加位置信息进行第一视频帧信息与第二视频帧信息的叠加操作仅为举例，其他现有的或今后可能出现的操作如能适用于本申请，也包含在本申请的保护范围内，并以引用的方式包含于此。

所述设置信息包括所述第一视频帧信息中用户头像信息的缩放比例信息。在一些实施例中，该用户设备基于人脸识别技术识别该第一视频帧信息中的用户头像信息，并基于图像提取技术将该用户头像信息提取出来，进一步地，该用户设备基于该缩放比例信息将该用户头像信息从原始大小(例如该用户设备的全屏大小)缩放到目标尺寸，例如，该缩放比例信息为1/6，则将该用户头像信息缩小为该原始大小的1/6，所述第二视频帧信息为全屏显示，则将该缩小后的用户头像信息叠加到该第二视频帧信息中，不会遮挡到该第二视频帧信息的内容，从而不会影响到叠加效果。并且，在该第二视频帧信息中仅显示该用户头像信息，可使叠加后的融合视频帧信息更简洁清楚，更适用于用户之间进行视频通话的场景。在一些实施例中，该用户设备基于Sobel算子提取的特征方法以及Gabor特征提取方法进行用户头像信息的提取。当然，本领域技术人员应能理解，以上所述的关于用户头像信息的提取方法仅为举例，其他现有的或今后可能出现的方法如能适用于本申请，也包含在本申请的保护范围内，并以引用的方式包含于此。

所述设置信息包括所述第一视频帧信息中的用户头像信息在所述第二视频帧信息中的叠加位置信息。在一些实施例中，为了进一步提高叠加效果，所述用户设备基于该叠加位置信息进行所述用户头像信息与第二视频帧信息的叠加。例如，所述叠加位置信息为在该第二视频帧信息的坐标点信息，该用户设备获取该用户头像信息的中心点信息(例如用户头像信息的中心)，并基于该中心点信息将该用户头像信息叠加到该第二视频帧信息的坐标点信息上(例如该中心点信息与该中心坐标点对应)。在一些实施例中，所述用户头像信息为进行缩放处理后的用户头像信息，例如，将缩小后的用户头像信息叠加到该第二视频帧信息中。当然，本领域技术人员应能理解，以上所述的基于叠加位置信息进行用户头像信息与第二视频帧信息的叠加操作仅为举例，其他现有的或今后可能出现的操作如能适用于本申请，也包含在本申请的保护范围内，并以引用的方式包含于此。

在一些实施例中，所述步骤S102包括步骤S1021(未示出)以及步骤S1022(未示出)。在步骤S1021中，用户设备根据所述第一视频帧信息与所述第二视频帧信息的内容相关度信息确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息；在步骤S1022中，用户设备根据所述合成模式信息将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。为了增加所述第一视频帧信息与所述第二视频帧信息间的合成模式，以提高用户体验，根据所述第一视频帧信息与所述第二视频帧信息的内容相关度信息确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息，例如，所述合成模式信息包括但不限于并列合成、叠加合成。在一些实施例中，所述内容相关度信息用于确定所述第一视频帧信息与第二视频帧信息间的相似度，例如，用户设备根据所述第一视频帧信息以及所述第二视频帧信息中的各视频帧图像的像素点确定两者间的相似度。进一步地，根据所述相似度的大小确定该第一视频帧信息与该第二视频帧信息的合成模式信息。根据确定后的合成模式信息将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成所述融合视频帧信息，例如，该用户设备将同一视频帧采集时间点(例如，同一分钟内、同一秒内)的视频帧图像进行叠加合成或者并列合成，以生成所述融合视频帧信息。

在一些实施例中，所述步骤S1021包括：用户设备确定所述第一视频帧信息与所述第二视频帧信息的内容相关度信息；若所述内容相关度信息小于或等于预定的内容相关度阈值，确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息为并列合成；否则确定所述合成模式信息为叠加合成。在一些实施例中，用户设备中预设有内容相关度阈值，用户设备分别获取所述第一视频帧信息以及所述第二视频帧信息中各视频帧图像的像素点信息，并根据所述第一视频帧信息以及所述第二视频帧信息中的各视频帧图像的像素点确定两者间的内容相关度信息，例如，用户设备对比该第一视频帧信息与第二视频帧信息中的每个像素点(例如颜色)的相似程度确定所述第一视频帧信息与所述第二视频帧信息的内容相关度信息，例如，相同或者相似的像素点越多，说明该第一视频帧信息与该第二视频帧信息的内容相关度越大。在一些实施例中，若该内容相关度信息小于或者等于所述预定的内容相关度阈值，则以并列合成的合成模式合成所述第一视频帧信息以及所述第二视频帧信息，例如，该第一视频帧信息为人像信息，第二视频帧信息为文档信息，则将所述第一视频帧信息以及所述第二视频帧信息竖直或者横向并列合成为所述融合视频帧信息；在另一些实施例中，若该内容相关度信息大于所述预定的内容相关度阈值，则以叠加合成的合成模式合成所述第一视频帧信息以及所述第二视频帧信息，例如，该第一视频帧信息为人像信息以及该人像信息所处的场景信息，该第二视频帧信息为该人像信息所处的同一场景信息，则将该第一视频帧信息以及该第二视频帧信息叠加合成所述融合视频帧信息，例如，将包括所述人像信息以及该人像信息所处的场景信息的第一视频帧信息进行缩放处理，并将该缩放后的第一视频帧信息叠加到该第二视频帧信息中。基于不同的场景(例如，用户在普通的场景中进行视频通话，或者进行视频通话的用户之间在进行视频会议)确定该第一视频帧信息与第二视频帧信息的合成模式信息，从而生成适用于该场景的融合视频帧信息。例如，用户在普通的场景中时，该用户对应的用户设备同时获取该用户的人像信息(例如通过前置摄像单元获取)以及其所处的场景信息(例如通过后置摄像单元获取)，并将两者进行叠加合成，以生成所述融合视频帧信息，从而使与该用户进行视频通话的其他用户可同时看到包括该用户的人像信息以及其所处的场景信息的融合视频帧信息；再例如，用户在进行视频会议的场景中，该用户对应的用户设备同时获取该用户的人像信息(例如通过前置摄像单元获取)以及当前所讨论的文档信息(例如通过后置摄像单元获取)，并将包括该人像信息的第一视频帧信息以及包括该文档信息的第二视频帧信息通过并列合成的合成模式进行合成，以生成所述融合视频帧信息，从而使与该用户进行视频通话的其他用户可同时看到包括该用户的人像信息以及该文档信息的融合视频帧信息。

在一些实施例中，所述步骤S1021包括：若所述合成模式信息为叠加合成，将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成所述融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成；对所述融合视频帧信息进行平滑处理；其中，所述步骤S103包括：向所述其它用户设备发送包括平滑处理后的所述融合视频帧信息的视频通话信息。为了进一步优化基于叠加合成的合成模式生成的融合视频帧信息，对生成的融合视频帧信息进行平滑处理。在一些实施例中，所述平滑处理包括：获取所述第一视频帧信息以及所述第二视频帧信息的色彩信息(例如像素点信息)、饱和度信息、对比度信息等，并将所述第一视频帧信息中各视频帧的图像信息以及所述第二视频帧信息中各视频帧的图像信息的色彩信息(例如像素点信息)、饱和度信息、对比度信息相加后取平均值，并将该色彩信息的平均值、饱和度信息的平均值、对比度信息的平均值作为该融合视频帧信息的色彩信息(例如像素点信息)、饱和度信息、对比度信息，以减小叠加合成后的第一视频帧信息与第二视频帧信息间的色彩、饱和度以及对比度间的差异；在一些实施例中，所述平滑处理包括：获取所述第二视频帧信息的色彩信息(例如像素点信息)、饱和度信息、对比度信息等，并根据所述第二视频帧信息的色彩信息(例如像素点信息)、饱和度信息、对比度信息等信息调整所述第一视频帧信息的色彩信息(例如像素点信息)、饱和度信息、对比度信息等，或者，在一些实施例中，根据所述第二视频帧信息的色彩信息(例如像素点信息)、饱和度信息、对比度信息等信息调整所述第一视频帧信息边界的色彩信息(例如像素点信息)、饱和度信息、对比度信息等。以减小所述融合视频帧信息中第一视频帧信息与第二视频帧信息间的色彩信息(例如像素点信息)、饱和度信息、对比度信息等信息的差异，提高叠加融合的效果。

在一些实施例中，所述步骤S102包括：用户设备检测所述第二视频帧信息相对前一时刻是否保持静止；若是，用户设备根据当前时刻的所述第一视频帧信息更新前一时刻的所述融合视频帧信息；否则，用户设备根据当前时刻的所述第一视频帧信息与当前时刻的所述第二视频帧信息生成所述融合视频帧信息。在一些实施例中，为了节约资源(例如用户设备计算资源)，若用户设备检测到第二视频帧信息相对于前一时刻是保持静止的(例如用户设备通过对比当前时刻的第二视频帧信息与前一时刻的第二视频帧信息相同来确定该第二视频帧信息相对于前一时刻是保持静止的)，则该用户设备在当前生成的融合视频帧信息的基础上更新第一视频帧信息即可，例如，生成后的融合视频帧信息中的第二视频帧信息保持不变，只更新处理所述融合视频帧信息中的第一视频帧信息即可，以节约用户设备的资源(例如计算资源)；在一些实施例中，用户设备检测到生成后的融合视频帧信息中的当前时刻的第一视频帧信息与前一时刻的不同，则该用户设备根据实时获取的所述第一视频帧信息以及第二视频帧信息生成融合视频帧信息。

根据本申请的另一个方面，提供了一种视频通话方法，该方法基于图2示出的拓扑结构实施。参考图3，所述方法包括以下步骤：

以下分别从网络设备和用户设备的角度，详细描述本申请的具体实施方式。

图4示出了根据本申请一个方面的一种在网络设备端的视频通话方法，其中，所述方法包括步骤S201、步骤S202以及步骤S203。在步骤S201中，网络设备接收用户设备发送的包括第一视频帧信息以及第二视频帧信息的视频通话信息，其中，所述第一视频帧信息以及第二视频帧信息是由所述用户设备在与其他用户设备通过网络设备进行视频通话过程中，分别通过前置摄像单元和后置摄像单元采集获取的；在步骤S202中，网络设备根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息；在步骤S203中，网络设备向所述其它用户设备发送包括所述融合视频帧信息的视频通话信息。。在一些实施例中，所述用户设备包括但不限于手机、平板、笔记本电脑等计算设备。在一些实施例中，所述用户设备与一台其他用户设备进行一对一的视频通话；在另一些实施例中，所述用户设备与一台或者多台其他用户设备进行一对多的视频通话，例如，所述用户设备同时与多台其他用户设备进行视频通话。

具体而言，在步骤S201中，网络设备接收用户设备发送的包括第一视频帧信息以及第二视频帧信息的视频通话信息，其中，所述第一视频帧信息以及第二视频帧信息是由所述用户设备在与其他用户设备通过网络设备进行视频通话过程中，分别通过前置摄像单元和后置摄像单元采集获取的。在一些实施例中，所述摄像单元包括摄像头，例如，所述用户设备设置有前置摄像头和后置摄像头，通过所述前置摄像头获取所述第一视频帧信息，通过所述后置摄像头获取所述第二视频帧信息。视频帧频是指视频剪辑每秒显示的帧数，一个静态图像为一帧，若干个静态图像组成一段视频。在一些实施例中，所述第一视频帧信息以及所述第二视频帧信息分别包括单位时间(例如一秒或者一分钟)内的一个或多个视频帧图像。

在步骤S202中，网络设备根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息。在一些实施例中，网络设备监听记录有所述第一视频帧信息和/或所述第二视频帧信息的视频帧采集时间，网络设备将同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息进行叠加合成(例如，将所述第一视频帧信息叠加到所述第二视频帧信息中)，以生成所述融合视频帧信息。

在步骤S203中，网络设备向所述其它用户设备发送包括所述融合视频帧信息的视频通话信息。在一些实施例中，网络设备生成包括所述第一视频帧信息以及所述第二视频帧信息的融合视频帧信息后，将包括该融合视频帧信息的视频通话信息发送给与该用户设备进行视频通话的其他用户设备。例如，网络设备根据所述其他用户设备的地址信息，将所述视频通话信息发送给该其他用户设备。

在一些实施例中，所述方法还包括步骤S204(未示出)，在步骤S204中，网络设备接收所述用户设备发送的包括目标视频信息的视频通话信息；其中，所述步骤S203包括：网络设备向所述其它用户设备转发包括所述目标视频帧信息的视频通话信息。本申请同样适用于采用单摄像单元进行视频帧信息的采集的场景。例如，所述用户设备包括一物理按钮或者触摸按钮，所述用户通过点击或者触摸该按钮进行摄像单元的切换操作，例如，该用户当前通过前置摄像单元与其他用户设备进行视频通话，该用户通过点击或者触摸该按钮将当前的工作摄像单元(例如，前置摄像单元)切换为目标摄像单元(例如，后置摄像单元)，向所述网络设备发送包括该目标视频帧信息的视频通话信息，该网络设备接收包括所述目标视频帧信息的视频通话信息，并基于该其他用户的地址信息，将包括该目标视频帧信息的视频通话信息发送给该其他用户设备。

在一些实施例中，所述步骤S202包括：网络设备将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。在一些实施例中，所述网络设备监听并记录有接收所述第一视频帧信息以及所述第二视频帧信息的视频帧采集时间，例如，在2019年4月25日10点10分10秒，该网络设备获取了第一视频帧信息A，该第一视频帧信息A包括五个视频帧；在2019年4月25日10点10分10秒，该网络设备获取了第一视频帧信息B，该第一视频帧信息B包括五个视频帧。进一步地，该网络设备基于该同一视频帧采集时间点(2019年4月25日10点10分10秒)的该第一视频帧信息A以及该第二视频帧信息B生成所述融合视频帧信息。进一步地，网络设备将同一视频帧采集时间点所获取的第一视频帧信息叠加到所述第二视频帧信息中(例如，第一视频帧信息A中的五个视频帧存在视频帧顺序，第二视频帧信息B中的五个视频帧存在视频帧顺序，按照该视频帧顺序，将该第一视频帧信息A叠加到该第二视频帧信息B中)，以生成包括所述第一视频帧信息以及所述第二视频帧信息的融合视频帧信息。在一些实施例中，所述视频帧采集时间点也可以是以“分”为单位时间记录该网络设备所获取的第一视频帧信息以及第二视频帧信息。例如，在2019年4月25日10点10分，该网络设备获取了第一视频帧信息C，该第一视频帧信息C包括五十个视频帧；在2019年4月25日10点10分，该网络设备获取了第一视频帧信息D，该第一视频帧信息D包括五十个视频帧。

在一些实施例中，所述步骤S202包括：网络设备根据关于所述第一视频帧信息的设置信息，将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。为了优化所述第一视频帧信息以及所述第二视频帧信息的合成效果，在一些实施例中，网络设备基于所述设置信息将所述第一视频帧信息以及所述第二视频帧信息合成所述融合视频帧信息。例如，所述设置信息是该网络设备中预设的关于所述第一视频帧信息的设置信息；再例如，所述设置信息是用户设置的，例如，对应的用户设备中设置有用于输入该设置信息的窗口，用户通过在该窗口中输入关于所述第一视频帧信息的参数或者信息进行自定义设置，进一步地，该用户设备将该用户自定义设置的设置信息发送给该网络设备。在一些实施例中，所述设置信息包括但不限于所述第一视频帧信息的缩放比例信息、所述第一视频帧信息在所述第二视频帧信息中的叠加位置信息。

在一些实施例中，所述设置信息包括以下至少任一项：

所述设置信息包括所述第一视频帧信息在所述第二视频帧信息中的叠加位置信息。在一些实施例中，为了进一步提高叠加效果，所述网络设备基于该叠加位置信息进行第一视频帧信息与第二视频帧信息的叠加。例如，所述叠加位置信息为在该第二视频帧信息的坐标点信息，该网络设备获取该第一视频帧信息的中心点信息(例如第一视频帧信息的中心)，并基于该中心点信息将该第一视频帧信息叠加到该第二视频帧信息的坐标点信息上(例如该中心点信息与该中心坐标点对应)。在一些实施例中，所述第一视频帧信息为经过缩放处理后的第一视频帧信息，例如，将缩小后的第一视频帧信息叠加到该第二视频帧信息中。当然，本领域技术人员应能理解，以上所述的基于叠加位置信息进行第一视频帧信息与第二视频帧信息的叠加操作仅为举例，其他现有的或今后可能出现的操作如能适用于本申请，也包含在本申请的保护范围内，并以引用的方式包含于此。

所述设置信息包括所述第一视频帧信息中用户头像信息的缩放比例信息。在一些实施例中，该网络设备基于人脸识别技术识别该第一视频帧信息中的用户头像信息，并基于图像提取技术将该用户头像信息提取出来，进一步地，该网络设备基于该缩放比例信息将该用户头像信息从原始大小(例如该用户设备的全屏大小)缩放到目标尺寸，例如，该缩放比例信息为1/6，则将该用户头像信息缩小为该原始大小的1/6，所述第二视频帧信息为全屏显示，则将该缩小后的用户头像信息叠加到该第二视频帧信息中，不会遮挡到该第二视频帧信息的内容，从而不会影响到叠加效果。并且，在该第二视频帧信息中仅显示该用户头像信息，可使叠加后的融合视频帧信息更简洁清楚，更适用于用户之间进行视频通话的场景。在一些实施例中，该网络设备基于Sobel算子提取的特征方法以及Gabor特征提取方法进行用户头像信息的提取。当然，本领域技术人员应能理解，以上所述的关于用户头像信息的提取方法仅为举例，其他现有的或今后可能出现的方法如能适用于本申请，也包含在本申请的保护范围内，并以引用的方式包含于此。

所述设置信息包括所述用户头像信息在所述第二视频帧信息中的叠加位置信息。在一些实施例中，为了进一步提高叠加效果，所述网络设备基于该叠加位置信息进行所述用户头像信息与第二视频帧信息的叠加。例如，所述叠加位置信息为在该第二视频帧信息的坐标点信息，该网络设备获取该用户头像信息的中心点信息(例如用户头像信息的中心)，并基于该中心点信息将该用户头像信息叠加到该第二视频帧信息的坐标点信息上(例如该中心点信息与该中心坐标点对应)。在一些实施例中，所述用户头像信息为进行缩放处理后的用户头像信息，例如，将缩小后的用户头像信息叠加到该第二视频帧信息中。当然，本领域技术人员应能理解，以上所述的基于叠加位置信息进行用户头像信息与第二视频帧信息的叠加操作仅为举例，其他现有的或今后可能出现的操作如能适用于本申请，也包含在本申请的保护范围内，并以引用的方式包含于此。

在一些实施例中，所述步骤S202包括步骤S2021(未示出)以及步骤S2022。在步骤S2021中，网络设备根据所述第一视频帧信息与所述第二视频帧信息的内容相关度信息确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息；在步骤S2022中，网络设备根据所述合成模式信息将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。为了增加所述第一视频帧信息与所述第二视频帧信息间的合成模式，以提高用户体验，根据所述第一视频帧信息与所述第二视频帧信息的内容相关度信息确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息，例如，所述合成模式信息包括但不限于并列合成、叠加合成。在一些实施例中，所述内容相关度信息用于确定所述第一视频帧信息与第二视频帧信息间的相似度，例如，网络设备根据所述第一视频帧信息以及所述第二视频帧信息中的各视频帧图像的像素点确定两者间的相似度。进一步地，根据所述相似度的大小确定该第一视频帧信息与该第二视频帧信息的合成模式信息。根据确定后的合成模式信息将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成所述融合视频帧信息，例如，该网络设备将同一视频帧采集时间点(例如，同一分钟内、同一秒内)的视频帧图像进行叠加合成或者并列合成，以生成所述融合视频帧信息。

在一些实施例中，所述S2021包括：网络设备确定所述第一视频帧信息与所述第二视频帧信息的内容相关度信息；若所述内容相关度信息小于或等于预定的内容相关度阈值，网络设备确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息为并列合成；否则确定所述合成模式信息为叠加合成。在一些实施例中，网络设备中预设有内容相关度阈值，网络设备分别获取所述第一视频帧信息以及所述第二视频帧信息中各视频帧图像的像素点信息，并根据所述第一视频帧信息以及所述第二视频帧信息中的各视频帧图像的像素点确定两者间的内容相关度信息，例如，网络设备对比该第一视频帧信息与第二视频帧信息中的每个像素点(例如颜色)的相似程度确定所述第一视频帧信息与所述第二视频帧信息的内容相关度信息，例如，相同或者相似的像素点越多，说明该第一视频帧信息与该第二视频帧信息的内容相关度越大。在一些实施例中，若该内容相关度信息小于或者等于所述预定的内容相关度阈值，则以并列合成的合成模式合成所述第一视频帧信息以及所述第二视频帧信息，例如，该第一视频帧信息为人像信息，第二视频帧信息为文档信息，则将所述第一视频帧信息以及所述第二视频帧信息竖直或者横向并列合成为所述融合视频帧信息；在另一些实施例中，若该内容相关度信息大于所述预定的内容相关度阈值，则以叠加合成的合成模式合成所述第一视频帧信息以及所述第二视频帧信息，例如，该第一视频帧信息为人像信息以及该人像信息所处的场景信息，该第二视频帧信息为该人像信息所处的同一场景信息，则将该第一视频帧信息以及该第二视频帧信息叠加合成所述融合视频帧信息，例如，将包括所述人像信息以及该人像信息所处的场景信息的第一视频帧信息进行缩放处理，并将该缩放后的第一视频帧信息叠加到该第二视频帧信息中。基于不同的场景(例如，用户在普通的场景中进行视频通话，或者进行视频通话的用户之间在进行视频会议)确定该第一视频帧信息与第二视频帧信息的合成模式信息，从而生成适用于该场景的融合视频帧信息。例如，用户在普通的场景中时，该用户对应的用户设备同时获取该用户的人像信息(例如通过前置摄像单元获取)以及其所处的场景信息(例如通过后置摄像单元获取)，并将包括该用户的人像信息的第一视频帧信息以及包括其所处的场景信息的第二视频帧信息发送给该网络设备，该网络设备进行叠加合成的融合，以生成所述融合视频帧信息，从而使与该用户进行视频通话的其他用户可同时看到包括该用户的人像信息以及其所处的场景信息的融合视频帧信息；再例如，用户在进行视频会议的场景中，该用户对应的用户设备同时获取该用户的人像信息(例如通过前置摄像单元获取)以及当前所讨论的文档信息(例如通过后置摄像单元获取)，并将包括该人像信息的第一视频帧信息以及包括该文档信息的第二视频帧信息发送给该网络设备，该网络设备通过并列合成的合成模式进行合成，以生成所述融合视频帧信息，从而使与该用户进行视频通话的其他用户可同时看到包括该用户的人像信息以及该文档信息的融合视频帧信息。

在一些实施例中，所述步骤S202包括：网络设备检测所述第二视频帧信息相对前一时刻是否保持静止；若是，网络设备根据当前时刻的所述第一视频帧信息更新前一时刻的所述融合视频帧信息；否则，网络设备根据当前时刻的所述第一视频帧信息与当前时刻的所述第二视频帧信息生成所述融合视频帧信息。在一些实施例中，为了节约资源(例如网络设备计算资源)，若网络设备检测到第二视频帧信息相对于前一时刻是保持静止的(例如网络设备通过对比当前时刻的第二视频帧信息与前一时刻的第二视频帧信息相同来确定该第二视频帧信息相对于前一时刻是保持静止的)，则该网络设备在当前生成的融合视频帧信息的基础上更新第一视频帧信息即可，例如，生成后的融合视频帧信息中的第二视频帧信息保持不变，只更新处理所述融合视频帧信息中的第一视频帧信息即可，以节约网络设备的资源(例如计算资源)；在一些实施例中，网络设备检测到生成后的融合视频帧信息中的当前时刻的第一视频帧信息与前一时刻的不同，则该网络设备根据实时获取的所述第一视频帧信息以及第二视频帧信息生成融合视频帧信息。

图5示出了根据本申请另一个方面的一种在用户设备端的视频通话方法，其中，所述方法包括步骤S301以及步骤S302。在步骤S301中，在用户设备与其它用户设备通过网络设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息；在步骤S302中，用户设备向所述网络设备发送包括所述第一视频帧信息及所述第二视频帧信息的视频通话信息。在一些实施例中，所述摄像单元包括摄像头，例如，所述用户设备设置有前置摄像头和后置摄像头，通过所述前置摄像头获取所述第一视频帧信息，通过所述后置摄像头获取所述第二视频帧信息。视频帧频是指视频剪辑每秒显示的帧数，一个静态图像为一帧，若干个静态图像组成一段视频。在一些实施例中，所述第一视频帧信息以及所述第二视频帧信息分别包括单位时间(例如一秒或者一分钟)内的一个或多个视频帧图像。所述用户设备与所述其他用户设备或者通过网络设备建立通信连接进行视频通话。

在一些实施例中，所述方法还包括步骤S303(未示出)，在步骤S303中，用户设备根据用户在视频通话过程中的摄像单元切换操作，将所述用户设备在视频通话中的工作摄像单元切换为目标摄像单元，其中所述目标摄像单元为所述前置摄像单元或所述后置摄像单元；用户设备通过所述目标摄像单元获取目标视频帧信息；用户设备向网络设备发送包括所述目标视频帧信息的视频通话信息。本实施例适用于采用单摄像单元进行视频帧信息的采集的场景。例如，所述用户设备包括一物理按钮或者触摸按钮，所述用户通过点击或者触摸该按钮进行摄像单元的切换操作，例如，该用户当前通过前置摄像单元与其他用户设备进行视频通话，该用户通过点击或者触摸该按钮将当前的工作摄像单元(例如，前置摄像单元)切换为目标摄像单元(例如，后置摄像单元)，向所述其他用户发送包括该目标视频帧信息的视频通话信息。

在一些实施例中，所述方法还包括步骤S304(未示出)，在步骤S304中，用户设备检测用户设备是否满足启动融合视频通话模式的触发条件；其中，所述步骤S301包括：若是，接收用户设备发送的第一视频帧信息以及第二视频帧信息，其中，所述第一视频帧信息以及第二视频帧信息分别是由所述用户设备在与其他用户设备进行视频通话过程中，通过前置摄像单元和后置摄像单元采集获取的。在一些实施例中，所述用户设备在所述融合视频通话模式下，启动所述前置摄像单元以及所述后置摄像单元，以同时获取所述前置摄像单元以及后置摄像单元采集拍摄的第一视频帧信息以及第二视频帧信息，进一步地，该用户设备将所述第一视频帧信息以及所述第二视频帧信息发送给该网络设备，以生成所述融合视频帧信息。在一些实施例中，所述用户设备包括一物理触发按钮或者一触摸触发按钮，用户设备通过检测用户按压或者触摸该触发按钮的操作，以启动所述融合视频通话模式。在一些实施例中，所述触发条件包括但不限于所述用户设备发起视频通话请求、所述用户设备成功建立与其它用户设备的视频通话。若满足该触发条件，则在所述用户设备与其他用户设备进行视频通话的过程中，该用户设备通过启动所述前置摄像单元以及所述后置摄像单元，来获取第一视频帧信息以及第二视频帧信息。通过设置该融合视频通话模式，可以扩大本申请的适用场景，例如，在该用户设备与其他用户设备进行视频通话的界面中设置一触摸触发按钮，该触发按钮对应于融合视频通话模式，用户通过点击触摸该触发按钮，将当前视频通话过程中使用的普通视频通话模式(例如，只启动前置摄像单元或者后置摄像单元)切换到该融合视频通话模式，以启动所述前置摄像单元以及所述后置摄像单元，以采集获取所述第一视频帧信息以及第二视频帧信息，从而将所述第一视频帧信息以及所述第二视频帧信息发送给该网络设备；再例如，在该用户设备向其他用户设备发起视频通话请求时，在该发起界面设置一触摸触发按钮，用户通过点击触摸该触发按钮，在发起视频通话的同时即可同时启动所述前置摄像单元以及所述后置摄像单元，从而直接在所述融合视频通话模式下进行视频通话。当然，本领域技术人员应能理解，以上所述的用户在该用户设备中的操作仅为举例，其他现有的或今后可能出现的操作如能适用于本申请，也包含在本申请的保护范围内，并以引用的方式包含于此。

在一些实施例中，所述触发条件包括以下至少任一项：

所述触发条件包括在所述用户设备与其它用户设备进行视频通话的过程中，获取到用户选择融合视频通话模式的操作。为了方便用户在视频通话的过程中进行视频通话模式的选择切换，在一些实施例中，在该用户设备与其他用户设备进行视频通话的界面中设置一触摸触发按钮，该触发按钮对应于融合视频通话模式，用户通过点击触摸该触发按钮，将当前视频通话过程中使用的普通视频通话模式(例如，只启动前置摄像单元或者后置摄像单元)切换到该融合视频通话模式，以启动所述前置摄像单元以及所述后置摄像单元，以采集获取所述第一视频帧信息以及第二视频帧信息。

图6示出了根据本申请一个实施例的一种视频通话设备的设备模块图。所述设备包括一一模块、一二模块以及一三模块。一一模块，用于在用户设备与其它用户设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息；一二模块，用于根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息；一三模块，用于向所述其它用户设备发送包括所述融合视频帧信息的视频通话信息。在一些实施例中，所述用户设备包括但不限于手机、平板、笔记本电脑等计算设备。在一些实施例中，所述用户设备与一台其他用户设备进行一对一的视频通话；在另一些实施例中，所述用户设备与一台或者多台其他用户设备进行一对多的视频通话，例如，所述用户设备同时与多台其他用户设备进行视频通话。

具体而言，一一模块，用于与其它用户设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息。在一些实施例中，所述摄像单元包括摄像头，例如，所述用户设备设置有前置摄像头和后置摄像头，通过所述前置摄像头获取所述第一视频帧信息，通过所述后置摄像头获取所述第二视频帧信息。视频帧频是指视频剪辑每秒显示的帧数，一个静态图像为一帧，若干个静态图像组成一段视频。在一些实施例中，所述第一视频帧信息以及所述第二视频帧信息分别包括单位时间(例如一秒或者一分钟)内的一个或多个视频帧图像。所述用户设备与所述其他用户设备通过两设备间的直接通信(如有线或者无线的方式建立连接等)进行视频通话，或者通过网络设备建立通信连接进行视频通话。

一二模块，用于根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息。在一些实施例中，用户设备监听记录有所述第一视频帧信息和/或所述第二视频帧信息的视频帧采集时间，用户设备将同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息进行叠加合成(例如，将所述第一视频帧信息叠加到所述第二视频帧信息中)，以生成所述融合视频帧信息。例如，将该第一视频帧信息与该第二视频帧信息中同一视频帧采集时间点的图像进行叠加融合(例如，将包含人脸图像信息的第一视频帧信息叠加到第二视频帧信息中)，以生成该融合视频帧信息。

一三模块，用于向所述其它用户设备发送包括所述融合视频帧信息的视频通话信息。在一些实施例中，用户设备生成包括所述第一视频帧信息以及所述第二视频帧信息的融合视频帧信息后，将包括该融合视频帧信息的视频通话信息发送给与该用户设备进行视频通话的其他用户设备。在一些实施例中，所述视频通话信息是由网络设备接收并转发给对应的该其他用户设备的。

在一些实施例中，所述设备还包括一四模块(未示出)，一四模块，用于根据用户在视频通话过程中的摄像单元切换操作，将所述用户设备在视频通话中的工作摄像单元切换为目标摄像单元，其中所述目标摄像单元为所述前置摄像单元或所述后置摄像单元；通过所述目标摄像单元获取目标视频帧信息；向所述其它用户设备发送包括所述目标视频帧信息的视频通话信息。为了适用于不同的视频通话场景，基于用户在视频通话过程中的摄像单元切换操作，可进行对所述摄像单元的切换。例如，所述工作摄像单元为一个摄像单元(例如前置摄像单元或后置摄像单元)工作的情况时，基于用户的切换操作增加摄像单元(例如后置摄像单元或者前置摄像单元)，并将该增加的摄像单元作为目标摄像单元，通过该目标摄像单元获取对应的目标视频帧信息，向其他用户设备发送包括该目标摄像单元的视频通话信息。例如，用户当前通过前置摄像单元与其他用户进行视频通话，其中，该前置摄像单元所采集的视频帧信息为第一视频帧信息，基于该用户的切换操作，增加后置摄像单元，其中，该后置摄像单元所采集的视频帧信息为目标视频帧信息，并基于该目标视频帧信息与该第一视频帧信息生成融合视频帧信息，以向该其他用户对应的其他用户设备发送包括该融合视频帧信息的视频通话信息；再例如，用户当前通过后置摄像单元与其他用户进行视频通话，其中，该后置摄像单元所采集的视频帧信息为第二视频帧信息，基于该用户的切换操作，增加前置摄像单元，其中，该前置摄像单元所采集的视频帧信息为目标视频帧信息，并基于该目标视频帧信息与该第二视频帧信息生成融合视频帧信息，以向该其他用户对应的其他用户设备发送包括该融合视频帧信息的视频通话信息。

在一些实施例中，所述设备还包括一五模块(未示出)，一五模块，用于检测用户设备是否满足启动融合视频通话模式的触发条件；其中，所述一一模块用于：若是，在所述用户设备与其它用户设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息。在一些实施例中，所述用户设备在所述融合视频通话模式下，启动所述前置摄像单元以及所述后置摄像单元，以同时获取所述前置摄像单元以及后置摄像单元采集拍摄的第一视频帧信息以及第二视频帧信息，进一步地，该用户设备检测到所述前置摄像单元以及所述后置摄像单元同时启动后，将所述第一视频帧信息以及所述第二视频帧信息生成所述融合视频帧信息。在一些实施例中，所述用户设备包括一物理触发按钮或者一触摸触发按钮，用户设备通过检测用户按压或者触摸该触发按钮的操作，以启动所述融合视频通话模式。在一些实施例中，所述触发条件包括但不限于所述用户设备发起视频通话请求、所述用户设备成功建立与其它用户设备的视频通话。若满足该触发条件，则在所述用户设备与其他用户设备进行视频通话的过程中，该用户设备通过启动所述前置摄像单元以及所述后置摄像单元，来获取第一视频帧信息以及第二视频帧信息。通过设置该融合视频通话模式，可以扩大本申请的适用场景，例如，在该用户设备与其他用户设备进行视频通话的界面中设置一触摸触发按钮，该触发按钮对应于融合视频通话模式，用户通过点击触摸该触发按钮，将当前视频通话过程中使用的普通视频通话模式(例如，只启动前置摄像单元或者后置摄像单元)切换到该融合视频通话模式，以启动所述前置摄像单元以及所述后置摄像单元，以采集获取所述第一视频帧信息以及第二视频帧信息，从而生成融合视频帧信息；再例如，在该用户设备向其他用户设备发起视频通话请求时，在该发起界面设置一触摸触发按钮，用户通过点击触摸该触发按钮，在发起视频通话的同时即可同时启动所述前置摄像单元以及所述后置摄像单元，从而直接在所述融合视频通话模式下进行视频通话。当然，本领域技术人员应能理解，以上所述的用户在该用户设备中的操作仅为举例，其他现有的或今后可能出现的操作如能适用于本申请，也包含在本申请的保护范围内，并以引用的方式包含于此。

在一些实施例中，所述触发条件包括以下至少任一项：

在一些实施例中，所述一二模块用于：将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。在一些实施例中，所述用户设备监听并记录有所述第一视频帧信息以及所述第二视频帧信息的视频帧采集时间，例如，在2019年4月25日10点10分10秒，该用户设备通过前置摄像单元采集获取了第一视频帧信息A，该第一视频帧信息A包括五个视频帧；在2019年4月25日10点10分10秒，该用户设备通过后置摄像单元同时采集获取了第一视频帧信息B，该第一视频帧信息B包括五个视频帧。进一步地，该用户设备基于该同一视频帧采集时间点(2019年4月25日10点10分10秒)的该第一视频帧信息A以及该第二视频帧信息B生成所述融合视频帧信息。进一步地，用户设备将同一视频帧采集时间点所采集的第一视频帧信息叠加到所述第二视频帧信息中(例如，第一视频帧信息A中的五个视频帧存在视频帧顺序，第二视频帧信息B中的五个视频帧存在视频帧顺序，按照该视频帧顺序，将该第一视频帧信息A叠加到该第二视频帧信息B中)，以生成包括所述第一视频帧信息以及所述第二视频帧信息的融合视频帧信息。在一些实施例中，所述视频帧采集时间点也可以是以“分”为单位时间记录该用户设备所采集获取的第一视频帧信息以及第二视频帧信息。例如，在2019年4月25日10点10分，该用户设备通过前置摄像单元采集获取了第一视频帧信息C，该第一视频帧信息C包括五十个视频帧；在2019年4月25日10点10分，该用户设备通过后置摄像单元同时采集获取了第一视频帧信息D，该第一视频帧信息D包括五十个视频帧。

在一些实施例中，所述一二模块用于：根据关于所述第一视频帧信息的设置信息，将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。为了优化所述第一视频帧信息以及所述第二视频帧信息的合成效果，在一些实施例中，基于所述设置信息将所述第一视频帧信息以及所述第二视频帧信息合成所述融合视频帧信息。例如，所述设置信息是该用户设备中预设的关于所述第一视频帧信息的设置信息；再例如，所述设置信息是用户设置的，例如，用户设备中设置有用于输入该设置信息的窗口，用户通过在该窗口中输入关于所述第一视频帧信息的参数或者信息进行自定义设置。在一些实施例中，所述设置信息包括但不限于所述第一视频帧信息的缩放比例信息、所述第一视频帧信息在所述第二视频帧信息中的叠加位置信息。在一些实施例中，所述设置信息包括用户设备预设或者用户预设(例如，通过设置窗口进行参数设置)的设置信息；在一些实施例中，所述设置信息是基于用户的实时设置生成的，例如，用户设备呈现生成的融合视频帧信息，其中，该融合视频帧信息包括所述第二视频帧信息以及叠加在所述第二视频帧信息上的第一视频帧信息，用户通过拖动所述第一视频帧信息来进行缩放(例如拖动第一视频帧信息的边缘)、移动叠加位置(例如拖动该第一视频帧信息)的设置处理。

在一些实施例中，所述设置信息包括以下至少任一项：

在一些实施例中，所述一二模块包括一二一模块(未示出)以及一二二模块(未示出)。一二一模块，用于根据所述第一视频帧信息与所述第二视频帧信息的内容相关度信息确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息；一二二模块，用于根据所述合成模式信息将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。为了增加所述第一视频帧信息与所述第二视频帧信息间的合成模式，以提高用户体验，根据所述第一视频帧信息与所述第二视频帧信息的内容相关度信息确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息，例如，所述合成模式信息包括但不限于并列合成、叠加合成。在一些实施例中，所述内容相关度信息用于确定所述第一视频帧信息与第二视频帧信息间的相似度，例如，用户设备根据所述第一视频帧信息以及所述第二视频帧信息中的各视频帧图像的像素点确定两者间的相似度。进一步地，根据所述相似度的大小确定该第一视频帧信息与该第二视频帧信息的合成模式信息。根据确定后的合成模式信息将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成所述融合视频帧信息，例如，该用户设备将同一视频帧采集时间点(例如，同一分钟内、同一秒内)的视频帧图像进行叠加合成或者并列合成，以生成所述融合视频帧信息。

在一些实施例中，所述一二一模块用于：确定所述第一视频帧信息与所述第二视频帧信息的内容相关度信息；若所述内容相关度信息小于或等于预定的内容相关度阈值，确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息为并列合成；否则确定所述合成模式信息为叠加合成。在一些实施例中，用户设备中预设有内容相关度阈值，用户设备分别获取所述第一视频帧信息以及所述第二视频帧信息中各视频帧图像的像素点信息，并根据所述第一视频帧信息以及所述第二视频帧信息中的各视频帧图像的像素点确定两者间的内容相关度信息，例如，用户设备对比该第一视频帧信息与第二视频帧信息中的每个像素点(例如颜色)的相似程度确定所述第一视频帧信息与所述第二视频帧信息的内容相关度信息，例如，相同或者相似的像素点越多，说明该第一视频帧信息与该第二视频帧信息的内容相关度越大。在一些实施例中，若该内容相关度信息小于或者等于所述预定的内容相关度阈值，则以并列合成的合成模式合成所述第一视频帧信息以及所述第二视频帧信息，例如，该第一视频帧信息为人像信息，第二视频帧信息为文档信息，则将所述第一视频帧信息以及所述第二视频帧信息竖直或者横向并列合成为所述融合视频帧信息；在另一些实施例中，若该内容相关度信息大于所述预定的内容相关度阈值，则以叠加合成的合成模式合成所述第一视频帧信息以及所述第二视频帧信息，例如，该第一视频帧信息为人像信息以及该人像信息所处的场景信息，该第二视频帧信息为该人像信息所处的同一场景信息，则将该第一视频帧信息以及该第二视频帧信息叠加合成所述融合视频帧信息，例如，将包括所述人像信息以及该人像信息所处的场景信息的第一视频帧信息进行缩放处理，并将该缩放后的第一视频帧信息叠加到该第二视频帧信息中。基于不同的场景(例如，用户在普通的场景中进行视频通话，或者进行视频通话的用户之间在进行视频会议)确定该第一视频帧信息与第二视频帧信息的合成模式信息，从而生成适用于该场景的融合视频帧信息。例如，用户在普通的场景中时，该用户对应的用户设备同时获取该用户的人像信息(例如通过前置摄像单元获取)以及其所处的场景信息(例如通过后置摄像单元获取)，并将两者进行叠加合成，以生成所述融合视频帧信息，从而使与该用户进行视频通话的其他用户可同时看到包括该用户的人像信息以及其所处的场景信息的融合视频帧信息；再例如，用户在进行视频会议的场景中，该用户对应的用户设备同时获取该用户的人像信息(例如通过前置摄像单元获取)以及当前所讨论的文档信息(例如通过后置摄像单元获取)，并将包括该人像信息的第一视频帧信息以及包括该文档信息的第二视频帧信息通过并列合成的合成模式进行合成，以生成所述融合视频帧信息，从而使与该用户进行视频通话的其他用户可同时看到包括该用户的人像信息以及该文档信息的融合视频帧信息。

在一些实施例中，所述一二一模块用于：若所述合成模式信息为叠加合成，将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成所述融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成；对所述融合视频帧信息进行平滑处理；其中，所述一三模块用于：向所述其它用户设备发送包括平滑处理后的所述融合视频帧信息的视频通话信息。为了进一步优化基于叠加合成的合成模式生成的融合视频帧信息，对生成的融合视频帧信息进行平滑处理。在一些实施例中，所述平滑处理包括：获取所述第一视频帧信息以及所述第二视频帧信息的色彩信息(例如像素点信息)、饱和度信息、对比度信息等，并将所述第一视频帧信息中各视频帧的图像信息以及所述第二视频帧信息中各视频帧的图像信息的色彩信息(例如像素点信息)、饱和度信息、对比度信息相加后取平均值，并将该色彩信息的平均值、饱和度信息的平均值、对比度信息的平均值作为该融合视频帧信息的色彩信息(例如像素点信息)、饱和度信息、对比度信息，以减小叠加合成后的第一视频帧信息与第二视频帧信息间的色彩、饱和度以及对比度间的差异；在一些实施例中，所述平滑处理包括：获取所述第二视频帧信息的色彩信息(例如像素点信息)、饱和度信息、对比度信息等，并根据所述第二视频帧信息的色彩信息(例如像素点信息)、饱和度信息、对比度信息等信息调整所述第一视频帧信息的色彩信息(例如像素点信息)、饱和度信息、对比度信息等，或者，在一些实施例中，根据所述第二视频帧信息的色彩信息(例如像素点信息)、饱和度信息、对比度信息等信息调整所述第一视频帧信息边界的色彩信息(例如像素点信息)、饱和度信息、对比度信息等。以减小所述融合视频帧信息中第一视频帧信息与第二视频帧信息间的色彩信息(例如像素点信息)、饱和度信息、对比度信息等信息的差异，提高叠加融合的效果。

在一些实施例中，所述一二模块用于：检测所述第二视频帧信息相对前一时刻是否保持静止；若是，用户设备根据当前时刻的所述第一视频帧信息更新前一时刻的所述融合视频帧信息；否则，用户设备根据当前时刻的所述第一视频帧信息与当前时刻的所述第二视频帧信息生成所述融合视频帧信息。在一些实施例中，为了节约资源(例如用户设备计算资源)，若用户设备检测到第二视频帧信息相对于前一时刻是保持静止的(例如用户设备通过对比当前时刻的第二视频帧信息与前一时刻的第二视频帧信息相同来确定该第二视频帧信息相对于前一时刻是保持静止的)，则该用户设备在当前生成的融合视频帧信息的基础上更新第一视频帧信息即可，例如，生成后的融合视频帧信息中的第二视频帧信息保持不变，只更新处理所述融合视频帧信息中的第一视频帧信息即可，以节约用户设备的资源(例如计算资源)；在一些实施例中，用户设备检测到生成后的融合视频帧信息中的当前时刻的第一视频帧信息与前一时刻的不同，则该用户设备根据实时获取的所述第一视频帧信息以及第二视频帧信息生成融合视频帧信息。

图7示出了根据本申请一个方面的一种网络设备，其中，所述设备包括二一模块、二二模块以及二三模块。二一模块，用于接收用户设备发送的包括第一视频帧信息以及第二视频帧信息的视频通话信息，其中，所述第一视频帧信息以及第二视频帧信息是由所述用户设备在与其他用户设备通过网络设备进行视频通话过程中，分别通过前置摄像单元和后置摄像单元采集获取的；二二模块，用于根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息；二三模块，用于向所述其它用户设备发送包括所述融合视频帧信息的视频通话信息。在一些实施例中，所述用户设备包括但不限于手机、平板、笔记本电脑等计算设备。在一些实施例中，所述用户设备与一台其他用户设备进行一对一的视频通话；在另一些实施例中，所述用户设备与一台或者多台其他用户设备进行一对多的视频通话，例如，所述用户设备同时与多台其他用户设备进行视频通话。

具体而言，二一模块，用于接收用户设备发送的包括第一视频帧信息以及第二视频帧信息的视频通话信息，其中，所述第一视频帧信息以及第二视频帧信息是由所述用户设备在与其他用户设备通过网络设备进行视频通话过程中，分别通过前置摄像单元和后置摄像单元采集获取的。在一些实施例中，所述摄像单元包括摄像头，例如，所述用户设备设置有前置摄像头和后置摄像头，通过所述前置摄像头获取所述第一视频帧信息，通过所述后置摄像头获取所述第二视频帧信息。视频帧频是指视频剪辑每秒显示的帧数，一个静态图像为一帧，若干个静态图像组成一段视频。在一些实施例中，所述第一视频帧信息以及所述第二视频帧信息分别包括单位时间(例如一秒或者一分钟)内的一个或多个视频帧图像。

二二模块，用于根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息。在一些实施例中，网络设备监听记录有所述第一视频帧信息和/或所述第二视频帧信息的视频帧采集时间，网络设备将同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息进行叠加合成(例如，将所述第一视频帧信息叠加到所述第二视频帧信息中)，以生成所述融合视频帧信息。

二三模块，用于向所述其它用户设备发送包括所述融合视频帧信息的视频通话信息。在一些实施例中，网络设备生成包括所述第一视频帧信息以及所述第二视频帧信息的融合视频帧信息后，将包括该融合视频帧信息的视频通话信息发送给与该用户设备进行视频通话的其他用户设备。例如，网络设备根据所述其他用户设备的地址信息，将所述视频通话信息发送给该其他用户设备。

在一些实施例中，所述设备还包括二四模块(未示出)，二四模块用于，接收所述用户设备发送的包括目标视频信息的视频通话信息；其中，所述二三模块用于：向所述其它用户设备转发包括所述目标视频帧信息的视频通话信息。本实施例适用于采用单摄像单元进行视频帧信息的采集的场景。例如，所述用户设备包括一物理按钮或者触摸按钮，所述用户通过点击或者触摸该按钮进行摄像单元的切换操作，例如，该用户当前通过前置摄像单元与其他用户设备进行视频通话，该用户通过点击或者触摸该按钮将当前的工作摄像单元(例如，前置摄像单元)切换为目标摄像单元(例如，后置摄像单元)，向所述网络设备发送包括该目标视频帧信息的视频通话信息，该网络设备接收包括所述目标视频帧信息的视频通话信息，并基于该其他用户的地址信息，将包括该目标视频帧信息的视频通话信息发送给该其他用户设备。

在一些实施例中，所述二二模块用于：将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。在一些实施例中，所述网络设备监听并记录有接收所述第一视频帧信息以及所述第二视频帧信息的视频帧采集时间，例如，在2019年4月25日10点10分10秒，该网络设备获取了第一视频帧信息A，该第一视频帧信息A包括五个视频帧；在2019年4月25日10点10分10秒，该网络设备获取了第一视频帧信息B，该第一视频帧信息B包括五个视频帧。进一步地，该网络设备基于该同一视频帧采集时间点(2019年4月25日10点10分10秒)的该第一视频帧信息A以及该第二视频帧信息B生成所述融合视频帧信息。进一步地，网络设备将同一视频帧采集时间点所获取的第一视频帧信息叠加到所述第二视频帧信息中(例如，第一视频帧信息A中的五个视频帧存在视频帧顺序，第二视频帧信息B中的五个视频帧存在视频帧顺序，按照该视频帧顺序，将该第一视频帧信息A叠加到该第二视频帧信息B中)，以生成包括所述第一视频帧信息以及所述第二视频帧信息的融合视频帧信息。在一些实施例中，所述视频帧采集时间点也可以是以“分”为单位时间记录该网络设备所获取的第一视频帧信息以及第二视频帧信息。例如，在2019年4月25日10点10分，该网络设备获取了第一视频帧信息C，该第一视频帧信息C包括五十个视频帧；在2019年4月25日10点10分，该网络设备获取了第一视频帧信息D，该第一视频帧信息D包括五十个视频帧。

在一些实施例中，所述二二模块用于：根据关于所述第一视频帧信息的设置信息，将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。为了优化所述第一视频帧信息以及所述第二视频帧信息的合成效果，在一些实施例中，网络设备基于所述设置信息将所述第一视频帧信息以及所述第二视频帧信息合成所述融合视频帧信息。例如，所述设置信息是该网络设备中预设的关于所述第一视频帧信息的设置信息；再例如，所述设置信息是用户设置的，例如，对应的用户设备中设置有用于输入该设置信息的窗口，用户通过在该窗口中输入关于所述第一视频帧信息的参数或者信息进行自定义设置，进一步地，该用户设备将该用户自定义设置的设置信息发送给该网络设备。在一些实施例中，所述设置信息包括但不限于所述第一视频帧信息的缩放比例信息、所述第一视频帧信息在所述第二视频帧信息中的叠加位置信息。

在一些实施例中，所述设置信息包括以下至少任一项：

在一些实施例中，所述二二模块包括二二一模块(未示出)以及二二二模块。二二一模块，用于根据所述第一视频帧信息与所述第二视频帧信息的内容相关度信息确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息；二二二模块，用于根据所述合成模式信息将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。为了增加所述第一视频帧信息与所述第二视频帧信息间的合成模式，以提高用户体验，根据所述第一视频帧信息与所述第二视频帧信息的内容相关度信息确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息，例如，所述合成模式信息包括但不限于并列合成、叠加合成。在一些实施例中，所述内容相关度信息用于确定所述第一视频帧信息与第二视频帧信息间的相似度，例如，网络设备根据所述第一视频帧信息以及所述第二视频帧信息中的各视频帧图像的像素点确定两者间的相似度。进一步地，根据所述相似度的大小确定该第一视频帧信息与该第二视频帧信息的合成模式信息。根据确定后的合成模式信息将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成所述融合视频帧信息，例如，该网络设备将同一视频帧采集时间点(例如，同一分钟内、同一秒内)的视频帧图像进行叠加合成或者并列合成，以生成所述融合视频帧信息。

在一些实施例中，所述二二一模块用于：网络设备确定所述第一视频帧信息与所述第二视频帧信息的内容相关度信息；若所述内容相关度信息小于或等于预定的内容相关度阈值，网络设备确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息为并列合成；否则确定所述合成模式信息为叠加合成。在一些实施例中，网络设备中预设有内容相关度阈值，网络设备分别获取所述第一视频帧信息以及所述第二视频帧信息中各视频帧图像的像素点信息，并根据所述第一视频帧信息以及所述第二视频帧信息中的各视频帧图像的像素点确定两者间的内容相关度信息，例如，网络设备对比该第一视频帧信息与第二视频帧信息中的每个像素点(例如颜色)的相似程度确定所述第一视频帧信息与所述第二视频帧信息的内容相关度信息，例如，相同或者相似的像素点越多，说明该第一视频帧信息与该第二视频帧信息的内容相关度越大。在一些实施例中，若该内容相关度信息小于或者等于所述预定的内容相关度阈值，则以并列合成的合成模式合成所述第一视频帧信息以及所述第二视频帧信息，例如，该第一视频帧信息为人像信息，第二视频帧信息为文档信息，则将所述第一视频帧信息以及所述第二视频帧信息竖直或者横向并列合成为所述融合视频帧信息；在另一些实施例中，若该内容相关度信息大于所述预定的内容相关度阈值，则以叠加合成的合成模式合成所述第一视频帧信息以及所述第二视频帧信息，例如，该第一视频帧信息为人像信息以及该人像信息所处的场景信息，该第二视频帧信息为该人像信息所处的同一场景信息，则将该第一视频帧信息以及该第二视频帧信息叠加合成所述融合视频帧信息，例如，将包括所述人像信息以及该人像信息所处的场景信息的第一视频帧信息进行缩放处理，并将该缩放后的第一视频帧信息叠加到该第二视频帧信息中。基于不同的场景(例如，用户在普通的场景中进行视频通话，或者进行视频通话的用户之间在进行视频会议)确定该第一视频帧信息与第二视频帧信息的合成模式信息，从而生成适用于该场景的融合视频帧信息。例如，用户在普通的场景中时，该用户对应的用户设备同时获取该用户的人像信息(例如通过前置摄像单元获取)以及其所处的场景信息(例如通过后置摄像单元获取)，并将包括该用户的人像信息的第一视频帧信息以及包括其所处的场景信息的第二视频帧信息发送给该网络设备，该网络设备进行叠加合成的融合，以生成所述融合视频帧信息，从而使与该用户进行视频通话的其他用户可同时看到包括该用户的人像信息以及其所处的场景信息的融合视频帧信息；再例如，用户在进行视频会议的场景中，该用户对应的用户设备同时获取该用户的人像信息(例如通过前置摄像单元获取)以及当前所讨论的文档信息(例如通过后置摄像单元获取)，并将包括该人像信息的第一视频帧信息以及包括该文档信息的第二视频帧信息发送给该网络设备，该网络设备通过并列合成的合成模式进行合成，以生成所述融合视频帧信息，从而使与该用户进行视频通话的其他用户可同时看到包括该用户的人像信息以及该文档信息的融合视频帧信息。

在一些实施例中，所述二二模块用于：检测所述第二视频帧信息相对前一时刻是否保持静止；若是，网络设备根据当前时刻的所述第一视频帧信息更新前一时刻的所述融合视频帧信息；否则，网络设备根据当前时刻的所述第一视频帧信息与当前时刻的所述第二视频帧信息生成所述融合视频帧信息。在一些实施例中，为了节约资源(例如网络设备计算资源)，若网络设备检测到第二视频帧信息相对于前一时刻是保持静止的(例如网络设备通过对比当前时刻的第二视频帧信息与前一时刻的第二视频帧信息相同来确定该第二视频帧信息相对于前一时刻是保持静止的)，则该网络设备在当前生成的融合视频帧信息的基础上更新第一视频帧信息即可，例如，生成后的融合视频帧信息中的第二视频帧信息保持不变，只更新处理所述融合视频帧信息中的第一视频帧信息即可，以节约网络设备的资源(例如计算资源)；在一些实施例中，网络设备检测到生成后的融合视频帧信息中的当前时刻的第一视频帧信息与前一时刻的不同，则该网络设备根据实时获取的所述第一视频帧信息以及第二视频帧信息生成融合视频帧信息。

图8示出了根据本申请另一个方面的一种用户设备，其中，所述设备包括三一模块以及三二模块。三一模块，用于在用户设备与其它用户设备通过网络设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息；三二模块，用于向所述网络设备发送包括所述第一视频帧信息及所述第二视频帧信息的视频通话信息。在一些实施例中，所述摄像单元包括摄像头，例如，所述用户设备设置有前置摄像头和后置摄像头，通过所述前置摄像头获取所述第一视频帧信息，通过所述后置摄像头获取所述第二视频帧信息。视频帧频是指视频剪辑每秒显示的帧数，一个静态图像为一帧，若干个静态图像组成一段视频。在一些实施例中，所述第一视频帧信息以及所述第二视频帧信息分别包括单位时间(例如一秒或者一分钟)内的一个或多个视频帧图像。所述用户设备与所述其他用户设备或者通过网络设备建立通信连接进行视频通话。

在一些实施例中，所述设备还包括三三模块(未示出)，三三模块，用于根据用户在视频通话过程中的摄像单元切换操作，将所述用户设备在视频通话中的工作摄像单元切换为目标摄像单元，其中所述目标摄像单元为所述前置摄像单元或所述后置摄像单元；用户设备通过所述目标摄像单元获取目标视频帧信息；用户设备向网络设备发送包括所述目标视频帧信息的视频通话信息。本实施例适用于采用单摄像单元进行视频帧信息的采集的场景。例如，所述用户设备包括一物理按钮或者触摸按钮，所述用户通过点击或者触摸该按钮进行摄像单元的切换操作，例如，该用户当前通过前置摄像单元与其他用户设备进行视频通话，该用户通过点击或者触摸该按钮将当前的工作摄像单元(例如，前置摄像单元)切换为目标摄像单元(例如，后置摄像单元)，向所述其他用户发送包括该目标视频帧信息的视频通话信息。

在一些实施例中，所述设备还包括三四模块(未示出)，三四模块，用于检测用户设备是否满足启动融合视频通话模式的触发条件；其中，所述三一模块用于：若是，接收用户设备发送的第一视频帧信息以及第二视频帧信息，其中，所述第一视频帧信息以及第二视频帧信息分别是由所述用户设备在与其他用户设备进行视频通话过程中，通过前置摄像单元和后置摄像单元采集获取的。在一些实施例中，所述用户设备在所述融合视频通话模式下，启动所述前置摄像单元以及所述后置摄像单元，以同时获取所述前置摄像单元以及后置摄像单元采集拍摄的第一视频帧信息以及第二视频帧信息，进一步地，该用户设备将所述第一视频帧信息以及所述第二视频帧信息发送给该网络设备，以生成所述融合视频帧信息。在一些实施例中，所述用户设备包括一物理触发按钮或者一触摸触发按钮，用户设备通过检测用户按压或者触摸该触发按钮的操作，以启动所述融合视频通话模式。在一些实施例中，所述触发条件包括但不限于所述用户设备发起视频通话请求、所述用户设备成功建立与其它用户设备的视频通话。若满足该触发条件，则在所述用户设备与其他用户设备进行视频通话的过程中，该用户设备通过启动所述前置摄像单元以及所述后置摄像单元，来获取第一视频帧信息以及第二视频帧信息。通过设置该融合视频通话模式，可以扩大本申请的适用场景，例如，在该用户设备与其他用户设备进行视频通话的界面中设置一触摸触发按钮，该触发按钮对应于融合视频通话模式，用户通过点击触摸该触发按钮，将当前视频通话过程中使用的普通视频通话模式(例如，只启动前置摄像单元或者后置摄像单元)切换到该融合视频通话模式，以启动所述前置摄像单元以及所述后置摄像单元，以采集获取所述第一视频帧信息以及第二视频帧信息，从而将所述第一视频帧信息以及所述第二视频帧信息发送给该网络设备；再例如，在该用户设备向其他用户设备发起视频通话请求时，在该发起界面设置一触摸触发按钮，用户通过点击触摸该触发按钮，在发起视频通话的同时即可同时启动所述前置摄像单元以及所述后置摄像单元，从而直接在所述融合视频通话模式下进行视频通话。当然，本领域技术人员应能理解，以上所述的用户在该用户设备中的操作仅为举例，其他现有的或今后可能出现的操作如能适用于本申请，也包含在本申请的保护范围内，并以引用的方式包含于此。

在一些实施例中，所述触发条件包括以下至少任一项：

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如前任一项所述的方法被执行。

本申请还提供了一种计算机程序产品，当所述计算机程序产品被计算机设备执行时，如前任一项所述的方法被执行。

本申请还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序；

当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前任一项所述的方法。

图9示出了可被用于实施本申请中所述的各个实施例的示例性***；

如图9所示在一些实施例中，***1000能够作为各所述实施例中的任意一个网络设备、第一用户设备或第二用户设备。在一些实施例中，***1000可包括具有指令的一个或多个计算机可读介质(例如，***存储器或NVM/存储设备1020)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如，(一个或多个)处理器1005)。

对于一个实施例，***控制模块1010可包括任意适当的接口控制器，以向(一个或多个)处理器1005中的至少一个和/或与***控制模块1010通信的任意适当的设备或组件提供任意适当的接口。

***控制模块1010可包括存储器控制器模块1030，以向***存储器1015提供接口。存储器控制器模块1030可以是硬件模块、软件模块和/或固件模块。

***存储器1015可被用于例如为***1000加载和存储数据和/或指令。对于一个实施例，***存储器1015可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，***存储器1015可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，***控制模块1010可包括一个或多个输入/输出(I/O)控制器，以向NVM/存储设备1020及(一个或多个)通信接口1025提供接口。

例如，NVM/存储设备1020可被用于存储数据和/或指令。NVM/存储设备1020可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(Hard Disk,HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备1020可包括在物理上作为***1000被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，NVM/存储设备1020可通过网络经由(一个或多个)通信接口1025进行访问。

(一个或多个)通信接口1025可为***1000提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。***1000可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。

对于一个实施例，(一个或多个)处理器1005中的至少一个可与***控制模块1010的一个或多个控制器(例如，存储器控制器模块1030)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1005中的至少一个可与***控制模块1010的一个或多个控制器的逻辑封装在一起以形成***级封装(SiP)。对于一个实施例，(一个或多个)处理器1005中的至少一个可与***控制模块1010的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器1005中的至少一个可与***控制模块1010的一个或多个控制器的逻辑集成在同一模具上以形成片上***(SoC)。

在各个实施例中，***1000可以但不限于是：服务器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，***1000可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，***1000包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解，计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等，相应地，计算机程序指令被计算机执行的方式包括但不限于：该计算机直接执行该指令，或者该计算机编译该指令后再执行对应的编译后程序，或者该计算机读取并执行该指令，或者该计算机读取并安装该指令后再执行对应的安装后程序。在此，计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。

通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个***传送到另一***的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如，光纤、同轴等))和能传播能量波的无线(未有导的传输)介质，诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。

作为示例而非限制，计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如，计算机可读存储介质包括，但不限于，易失性存储器，诸如随机存储器(RAM,DRAM,SRAM)；以及非易失性存储器，诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM)；以及磁性和光学存储设备(硬盘、磁带、CD、DVD)；或其它现在已知的介质或今后开发的能够存储供计算机***使用的计算机可读信息/数据。

在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种视频通话方法，其中，该方法包括：

2.根据权利要求1所述的方法，其中，所述方法还包括：

根据用户在视频通话过程中的摄像单元切换操作，将所述用户设备在视频通话中的工作摄像单元切换为目标摄像单元，其中所述目标摄像单元为所述前置摄像单元或所述后置摄像单元；

通过所述目标摄像单元获取目标视频帧信息；

向所述其它用户设备发送包括所述目标视频帧信息的视频通话信息。

3.根据权利要求1或2所述的方法，其中，所述方法还包括：

检测用户设备是否满足启动融合视频通话模式的触发条件；

其中，所述在用户设备与其它用户设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息，包括：

若是，在所述用户设备与其它用户设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息。

4.根据权利要求3所述的方法，其中，所述触发条件包括以下至少任一项：

所述用户设备发起视频通话请求；

所述用户设备成功建立与其它用户设备的视频通话；

在所述用户设备与其它用户设备进行视频通话的过程中，获取到用户选择融合视频通话模式的操作。

5.根据权利要求1至4中任一项所述的方法，其中，所述根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息，包括：

将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。

6.根据权利要求5所述的方法，其中，所述将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成，包括：

根据关于所述第一视频帧信息的设置信息，将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。

7.根据权利要求6所述的方法，其中，所述设置信息包括以下至少任一项：

所述第一视频帧信息的缩放比例信息；

所述第一视频帧信息在所述第二视频帧信息中的叠加位置信息；

所述第一视频帧信息中用户头像信息的缩放比例信息；

所述第一视频帧信息中的用户头像信息在所述第二视频帧信息中的叠加位置信息。

8.根据权利要求5至7中任一项所述的方法，其中，所述将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成，包括：

根据所述第一视频帧信息与所述第二视频帧信息的内容相关度信息确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息；

根据所述合成模式信息将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成所述融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。

9.根据权利要求8所述的方法，其中，所述根据所述第一视频帧信息与所述第二视频帧信息的内容相关度信息确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息，包括：

确定所述第一视频帧信息与所述第二视频帧信息的内容相关度信息；

若所述内容相关度信息小于或等于预定的内容相关度阈值，确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息为并列合成；否则确定所述合成模式信息为叠加合成。

10.根据权利要求9所述的方法，其中，所述根据所述合成模式信息将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成所述融合视频帧信息，包括：

若所述合成模式信息为叠加合成，将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成所述融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成；

对所述融合视频帧信息进行平滑处理；

其中，所述向所述其它用户设备发送包括所述融合视频帧信息的视频通话信息，包括：

向所述其它用户设备发送包括平滑处理后的所述融合视频帧信息的视频通话信息。

11.根据权利要求1至4中任一项所述的方法，其中，所述根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息，包括：

检测所述第二视频帧信息相对前一时刻是否保持静止；

若是，根据当前时刻的所述第一视频帧信息更新前一时刻的所述融合视频帧信息；否则，根据当前时刻的所述第一视频帧信息与当前时刻的所述第二视频帧信息生成所述融合视频帧信息。

12.一种在网络设备端的视频通话方法，其中，所述方法包括：

13.根据权利要求12所述的方法，其中，所述方法还包括：

接收所述用户设备发送的包括目标视频帧信息的视频通话信息；

14.根据权利要求11至13中任一项所述的方法，其中，所述根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息，包括：

15.根据权利要求14所述的方法，其中，所述将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成，包括：

16.根据权利要求15所述的方法，其中，所述设置信息包括以下至少任一项：

所述第一视频帧信息的缩放比例信息；

所述第一视频帧信息中用户头像信息的缩放比例信息；

所述用户头像信息在所述第二视频帧信息中的叠加位置信息。

17.根据权利要求14至16中任一项所述的方法，其中，所述将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成，包括：

根据所述合成模式信息将所述第一视频帧信息与所述第二视频帧信息按照视频帧采集时间生成融合视频帧信息，其中，所述融合视频帧信息由对应于同一视频帧采集时间点的所述第一视频帧信息与所述第二视频帧信息生成。

18.根据权利要求17所述的方法，其中，所述根据所述第一视频帧信息与所述第二视频帧信息的内容相关度信息确定所述第一视频帧信息与所述第二视频帧信息的合成模式信息，包括：

19.根据权利要求12至13中任一项所述的方法，其中，所述根据所述第一视频帧信息与所述第二视频帧信息生成融合视频帧信息，包括：

检测所述第二视频帧信息相对前一时刻是否保持静止；

20.一种在用户设备端的视频通话方法，其中，所述方法包括：

21.根据权利要求20所述的方法，其中，所述方法还包括：

通过所述目标摄像单元获取目标视频帧信息；

向网络设备发送包括所述目标视频帧信息的视频通话信息。

22.根据权利要求20所述的方法，其中，所述方法还包括：

检测用户设备是否满足启动融合视频通话模式的触发条件；

其中，所述在用户设备与其它用户设备通过网络设备进行视频通话的过程中，通过所述用户设备的前置摄像单元和后置摄像单元分别获取第一视频帧信息及第二视频帧信息，包括：

若是，接收用户设备发送的第一视频帧信息以及第二视频帧信息，其中，所述第一视频帧信息以及第二视频帧信息分别是由所述用户设备在与其他用户设备进行视频通话过程中，通过前置摄像单元和后置摄像单元采集获取的。

23.根据权利要求22所述的方法，其中，所述触发条件包括以下至少任一项：

所述用户设备发起视频通话请求；

所述用户设备成功建立与其它用户设备的视频通话；

24.一种视频通话方法，其中，所述方法包括：

25.一种视频通话设备，其中，该设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1至23中任一项方法所述的操作。

26.一种存储指令的计算机可读介质，所述指令在被执行时使得***进行如权利要求1至23中任一项方法所述的操作。