CN117917068A - 安全和隐私保护的视频表示 - Google Patents
安全和隐私保护的视频表示 Download PDFInfo
- Publication number
- CN117917068A CN117917068A CN202280058014.1A CN202280058014A CN117917068A CN 117917068 A CN117917068 A CN 117917068A CN 202280058014 A CN202280058014 A CN 202280058014A CN 117917068 A CN117917068 A CN 117917068A
- Authority
- CN
- China
- Prior art keywords
- user
- state
- video
- generalized
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000010801 machine learning Methods 0.000 claims abstract description 33
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 238000013145 classification model Methods 0.000 claims description 22
- 210000003813 thumb Anatomy 0.000 claims description 17
- 238000001454 recorded image Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000012549 training Methods 0.000 description 36
- 230000033001 locomotion Effects 0.000 description 26
- 230000009471 action Effects 0.000 description 11
- 230000000007 visual effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000005286 illumination Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000001537 neural effect Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000001149 cognitive effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000593 degrading effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000004886 head movement Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000004821 distillation Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/105—Multiple levels of security
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/272—Means for inserting a foreground image in a background image, i.e. inlay, outlay
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
一种计算***和方法,其可用于视频会议中参与者的安全和隐私保护的视频表示。特别地,本公开提供了一种用于基于参与者的语义状态和/或活动状态来生成视频会议参与者的重建的一般流水线。本公开的***和方法允许通过呈现参与者的一般化表示来传达参与者的必要或有意义的信息的视频会议,同时通过利用机器学习模型从表示中过滤不必要的或不想要的信息。
Description
技术领域
本公开总体上涉及视频会议。更具体地,本公开涉及用于通过改善视频会议期间的隐私和视频外观来改善视频会议体验的***和方法。
背景技术
视频会议可以包括用于由位于不同位置的用户接收和发送音频和/或视频信号的技术。特别地,可以在人之间实时地同时发送视频和/或音频通信。视频会议可以通过实时地利用音频和视频流的数字压缩实现。编解码器或编码器/解码器可以用于执行压缩。所得到的数字流可以被细分为标记的分组,然后可以通过数字网络发送这些标记的分组。
历史上有三种类型的视频会议。专用***可以将所有需要的组件封装到单件设备中。通常,专用***可以利用具有高质量远程控制的视频相机的控制台,其中可以在一定距离处控制相机。台式***使用诸如硬件板或软件编解码器的附加装置到标准膝上型计算机以将其转换成视频会议设备。某些平台可以使用web浏览器而不是专用本地应用软件。可以将各种程度的安全性附加到虚拟“房间”。
虽然在视频会议领域已经取得了进展,但是现有方法通常限于用户在流传输他们的原始镜头(footage)或根本不流传输任何镜头之间做出决定,并且不考虑替代的隐私和舒适保护的方向。
发明内容
本公开的实施例的方面和优点将在以下描述中部分地阐述,或者可以从描述中获知,或者可以通过实施例的实践获知。
本公开的一个示例方面针对一种用于视频会议的计算***。计算***包括一个或多个处理器和共同存储指令的一个或多个非暂时性计算机可读介质,所述指令在由一个或多个处理器执行时使计算***执行操作。所述操作包括获得与视频流相关联的数据,所述视频流与用户相关联。操作包括检测视频流内的用户的语义状态。语义状态描述相对于视频会议的用户的活动的含义。操作包括基于用户的语义状态生成用户的一般化视频表示(generalized video representation)。一般化视频表示描绘了用户的语义状态的一般化表示。操作包括将描述一般化视频表示的数据发送到一个或多个附加计算设备,以在视频会议内呈现。
本公开的其他方面涉及各种方法、非暂时性计算机可读介质、用户界面和电子设备。
参考以下描述和所附权利要求,将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并构成本说明书的一部分的附图示出了本公开的示例实施例,并且与说明书一起用于解释相关原理。
附图说明
针对本领域普通技术人员的实施例的详细讨论在参考附图的说明书中阐述,其中:
图1描绘了根据本公开的示例实施例的示例计算***的框图。
图2描绘了根据本公开的示例实施例的视频会议***的示例组件的图。
图3描绘了根据本公开的示例实施例的视频会议***的示例组件的另一图。
图4描绘了根据本公开的示例实施例的示例一般化表示模型的框图。
图5描绘了根据本公开的示例实施例的示例一般化表示模型的另一框图
图6描绘了根据本公开的示例实施例的并入了机器学习组件的视频会议***的示例组件的表示。
图7描绘了根据本公开的示例实施例的视频会议***的示例组件的替代表示。
图8描绘了根据本公开的示例实施例的示例表情符号(emoji)。
图9描绘了根据本公开的示例实施例的手势的示例图形表示。
图10描绘了根据本公开的示例实施例的包括原始图像数据的示例图像和不包括原始图像数据的示例一般化视频表示。
在多个附图中重复的附图标记旨在标识各种实施方式中的相同特征。
具体实施方式
通常,本公开针对视频会议,诸如用于视频会议中的参与者的安全和隐私保护的视频表示的***和方法。特别地,本公开的示例方面涉及用于基于参与者的语义状态和/或活动状态来生成视频会议参与者的重建的计算***和计算机实现的方法。本公开的***和方法允许视频会议,该视频会议通过呈现参与者的一般化表示来传达参与者的必要或有意义的信息,同时从表示中过滤不必要或不想要的信息。
更具体地,本公开的***和方法涉及检测视频会议中的参与者的语义和活动状态。例如,参与者的语义状态可以包括在视频流中检测的活动,其被确定为意味着参与者正在主动地观看、向下看、在其他地方参加或未出席。参与者的活动状态可以包括用户是视频会议中的活动参与者(active participant)或活动收听者(active listener)的指示。本公开的***和方法可以基于检测的语义和/或活动状态来生成参与者的一般化表示。例如,一般化表示可以包括参与者的基本姿势和注意力(attention)表示。作为示例,参与者的一般化表示可以示出参与某些手势或一般身体语言的参与者。例如,手势或身体语言可以包括点头表示同意、摇晃参与者的头部表示不同意、保持拇指向上、保持拇指向下、挥手等。
本公开的示例方面(例如,一般化表示的生成和传输)可以在视频会议***内的不同位置处执行。在一个示例中,本文描述的方法可以在用户的设备上执行,使得用户的原始视频不会离开用户的设备—仅发送一般化表示。在其他示例中,本文描述的方法可以在视频会议***的集中式服务器处执行。在一个示例中,本文描述的方法在集中式服务器处执行,使得不会向视频会议中的其他参与者发送用户的原始视频—仅发送一般化表示。在另外的实施方式中,一些方面(例如,编码参考和/或输入影像(imagery)到潜在表示的神经)可以在第一用户的设备(例如,“发送者的”设备)上执行,而其他方面(例如,解码潜在表示到输出图像(诸如一般化表示)的神经)可以在第二用户设备(例如,在“接收者的”设备上)上执行。这种布置可以为网络带宽的隐私和保护两者提供益处。
用于视频会议的示例方法可以包括获得与视频流相关联的数据(例如,原始视频数据)。特别地,与视频流相关联的数据可以与彼此共同定位的(co-located)用户或用户组相关联。例如,计算***可以获得多于一个视频流,其中每个视频流与和不同用户或用户组相关联的特定设备相关联。
特别地,在一些实例中,视听流(audiovisual stream)可以与由他或她自己定位的单个用户相对应,而在其他实施方式中,单个视听流可以与彼此共同定位(例如,位于同一房间或空间内)的用户组相对应。特别地,在一些实施方式中,如果多于一个用户在相同房间中,则只有来自输入设备的特定半径内的音频可以与和输入设备相关联的特定设备相关联,并且因此归属于与视频会议内的特定设备相关联的用户。例如,音频流可以利用语音识别,使得在频率的可接受范围之外的噪声被自动地过滤,以防止背景噪声(例如,来自相同房间中的其他用户)干扰视频会议。同样,在一些实施方式中,可以仅分析与前景影像相对应的图像部分以理解和描绘用户或用户组的语义状态。在其中多个人在单个视频流内出席的实例中,本文描述的视频分析和修改技术可以在多个人上并行地单独执行(例如,通过首先将视频分割成分别与多个人相关联的多个部分,然后使用本文描述的技术处理视频数据)。
一旦获得了描绘用户的视频数据,就可以检测用户的语义状态。特别地,可以在视频流内检测用户的语义状态。用户的语义状态可以描述用户的活动的含义,诸如相对于视频会议的用户的活动的含义。换句话说,语义状态可以是视频会议中的其他人类参与者将如何解释或理解包含在用户的视频流中的视觉信息的高级表示,因为其与视频会议相关。因此,语义状态可以表示视频流中包含的有意义的信息的蒸馏(distillation),其中与视频会议无关的视觉细节被移除。例如,计算***可以检测用户给出拇指向上或转开,但不检测用户的确切姿势或姿态的不必要的细节。
可以生成用户的一般化视频表示。特别地,用户的一般化视频表示可以基于用户的语义状态。在一些实施方式中,可以通过基于用户的语义状态修改一般化视频输入来生成一般化视频表示。一般化视频输入可以例如包括参考影像、模型或其他用户的化身(avatar)(例如,用户的静态图像、3D模型、卡通化身等)。在一些实施方式中,一般化视频输入可以比像素数据紧凑得多。一般化视频输入可以基于语义状态信息(例如,用户的出席/未出席、用户注意/未注意、用户挥手/不挥手、用户的头部定位、用户给出拇指向上/拇指向下等)被修改。作为示例,一般化视频表示可以描绘用户的语义状态的一般化表示。例如,指示拇指向上的用户的一般化视频表示可以是用户给出拇指向上或给出肯定确认(诸如点头)的一般化表示,而用户转开可以产生用户未注意的一般化视频表示,诸如用户的面部转向下或转开的一般化表示。
在其他实施方式中,可以通过基于用户的语义状态直接修改原始视频输入生成一般化视频表示,其中原始视频描绘处于其当前状态的用户。例如,本文其他地方描述的各种技术可以应用机器学习和/或各种图像变换来直接修改用户的原始视频以生成一般化视频表示。在一些实施方式中,是否使用原始视频或者是否使用一般化视频输入作为生成一般化视频表示的初始输入可以根据用户的活动状态确定。
在一些实施方式中,可以在用户设备上存储和处理一般化视频输入/或一般化视频表示。特别地,用户设备可以从与用户设备相关联的相机获得视频数据。用户设备可以分析视频以生成一般化视频表示。可以发送描述一般化视频表示的数据。特别地,可以向一个或多个附加计算设备发送描述一般化视频表示的数据。例如,可以向一个或多个附加计算设备直接发送描述一般化视频表示的数据。作为另一示例,可以经由网络向一个或多个附加计算设备发送描述一般化视频表示的数据。甚至更具体地,可以向一个或多个附加计算设备发送描述一般化视频表示的数据用于在视频会议内呈现。例如,可以向参与视频会议的其他用户的计算设备发送描述肯定确认或用户未注意的用户的一般化表示的数据。
在一些实施方式中,在用户设备上仅计算一般化视频输入。特别地,用户设备可以从与用户设备相关联的相机读取视频。用户设备可以分析视频以生成一般化视频输入。然后,用户设备可以向参与视频会议的一个或多个附加计算设备发送生成的一般化视频输入。例如,可以直接向一个或多个附加计算设备发送描述一般化视频输入的数据。作为另一示例,可以经由网络向一个或多个附加计算设备发送描述一般化视频输入的数据。然后,一个或多个附加计算设备可以使用接收到的一般化视频输入来生成一般化视频表示。具体地,一个或多个附加计算设备可以本地生成一般化视频表示。特别地,一个或多个附加计算设备可以在视频会议上发送一般化视频表示。例如,可以向参与视频会议的其他用户的计算设备发送描述肯定确认或用户未注意的用户的一般化表示的数据。
在一些实施方式中,可以确定用户的活动状态。例如,计算***可以标识具有特定设置(例如,已静音的麦克风)的用户处于特定活动状态(例如,收听者状态),而具有不同设置(例如,未静音的麦克风)的用户处于不同的活动状态(例如,参与者状态)。在一些实施方式中,计算***可以调整过滤一般化视频表示的级别。特别地,计算***可以部分地基于用户的活动状态来调整过滤一般化视频表示的级别。例如,具有参与者活动状态的用户可以比具有收听者活动状态的用户具有更少的过滤。例如,对于具有收听者活动状态的用户,计算***可以仅发送肯定确认的一般化表示。然而,对于具有活动参与者状态的用户,计算***可以发送用户的实况动作(live action)(例如,用户的原始视频或已经在较小程度被修改的视频)。
在一些实施方式中,用户的活动状态可以包括活动组件和不活动组件。例如,计算***已经确定为参与者的用户可以另外被分类为活动或不活动的参与者。作为示例,如果计算***确定用户正在参与视频会议(例如,如果用户正在看视频会议呈现),则被确定为收听者的用户可以被分类为活动收听者。另一方面,如果计算***确定用户没有参与视频会议(例如,如果用户没有在看视频会议呈现),则被确定为收听者的用户可以被分类为不活动收听者。类似地,计算***可以确定被确定为参与者的用户的活动和不活动分类。
在一些实施方式中,可以通过因素中的一个或组合来确定用户的活动状态。确定用户的活动状态的因素可以包括用户的静音状态。例如,用户可以使自己已静音或未静音。
在确定用户的活动状态时考虑的另一示例因素可以包括用户定义的可用性状态。例如,用户可以具有可用性状态。可用性状态可以包括指示用户被占用的图标(例如,红色)、指示用户可用的图标(例如,绿色)、指示用户暂时离开的图标(例如,时钟)或指示用户离线或长期离开的图标(例如,空)。
在确定用户的活动状态时考虑的另一示例因素可以包括用户日历状态。例如,用户可以具有指示用户空闲、不可用或已计划(scheduled)参加会议的用户日历状态。
在确定用户的活动状态时考虑的另一示例因素可以包括用户的视频推断状态。特别地,用户的视频推断状态包括用户活动的自动确定。甚至更具体地,用户活动的自动确定可以基于在视频流中检测的活动的存在。用户活动的自动确定可以基于基于在检测的活动的不存在的无用户活动的自动确定。特别地,无用户活动的自动确定可以基于视频流中检测的活动的不存在。例如,用户的视频推断状态可以部分地由于用户正在看哪里(例如,视频会议呈现处与远离视频会议呈现)被确定。
在一些实施方式中,与用户相关联的视频流可以包括多个原始图像数据。此外,与用户相关联的视频流可以包括用户的一般化视频表示,其中包括用户的一般化视频表示的与用户相关联的视频流可以排除多个原始图像数据。例如,与用户相关联的视频流可以包括用户的原始镜头,其包括用户可以在视觉上指示的任何东西(例如,手势)以及在背景中发生的任何东西(例如,动物或人走过背景)以及用户可能参与的任何无关动作(例如,与视频会议之外的其他人说话)。作为另一示例,与用户相关联的视频流可以包括用户的一般化视频表示(例如,指示肯定确认的用户的一般化视频表示),同时排除多个原始图像数据,诸如背景活动(例如,动物或人走过背景)或用户可能参与的任何无关动作(例如,与会议之外的其他人说话)。换句话说,在一些情况下,用户的一般化表示可以不包含来自原原始视频数据的原始像素数据的任何(例如,一般化表示可以是完全新生成的)。
在一些实施方式中,检测用户的语义状态可以包括使用机器学习模型。特别地,机器学习模型可以是机器学习图像分类模型。例如,机器学习图像分类模型可以用于通过在历史用户数据上进行训练来检测用户的语义状态(例如,通过利用诸如面部跟踪、面部特征跟踪、手势识别等的特征)。作为另一示例,机器学习图像分类模型可以用于通过在根据多个用户一般化的数据上进行训练来检测用户的语义状态。作为一个示例,可以训练机器学习图像分类模型以将用户的图像分类为分别与多个不同语义状态相对应的多个不同类中的一个或多个。作为一个示例,可以在包括多个训练数据对的训练数据集上使用监督学习方法训练分类模型。每个训练数据的对可以包括人或场景的图像和指示人或场景的基本事实(ground truth)语义状态的基本事实标签。例如,机器学习图像分类模型可以用于通过在历史用户数据上进行训练来检测用户的语义状态(例如,用户正在看哪里、用户的头部运动、用户的手部运动)。作为另一示例,机器学习图像分类模型可以用于通过在根据多个用户一般化的数据上进行训练来检测用户的语义状态。
因此,在一些实施方式中,用户的语义分析可以使用判别法(discriminativemethodology)。例如,判别法可以利用经典的机器学习技术(例如,核函数、集成方法、多实例等),特别地,用户的语义分析可以使用认知法(cognitive methodology)。例如,认知法可以实现计算机视觉功能的四个级别:检测、定位、识别和理解。计算机视觉功能的四个级别可以被用于语义知识探索和图像理解。训练机器学习模型可以包括利用模型处理训练输入以生成预测的输出;评估损失函数,所述损失函数将预测的输出与基础事实训练示例输出进行比较;然后基于损失函数修改模型的参数值(例如,通过反向传播损失函数以更新模型参数)。本文描述的具有多个部分的模型可以可选地以端到端的方式被训练,其中所有部分从输入到输出被端到端地联合训练。
作为另一示例,可以通过诸如语义分割的技术来确定基于图像的用户的语义状态。特别地,图像中的每个像素可以被分割在其区域内,该区域具有带有特定标签的语义值(例如,基于区域的、基于全卷积网络的、弱监督的等)。计算***可以分配图像语义定义的部分。可以在与特定语义状态相关联的图像的库(例如,由演员(actor)、雇员、用户等提供)上训练机器学习模型,使得可以分析(例如,解析、分割等)输入用户图像并且可以识别语义状态。
在一些实施方式中,生成用户的一般化视频表示可以基于用户的语义状态。作为一个示例,基于用户的语义状态生成用户的一般化视频表示可以包括将用户的语义状态与个性化用户图像的参考数据库进行比较。计算***还可以基于一个或多个个性化用户图像来生成或输出生成的用户的一般化视频表示。例如,计算***可以提示用户输入参考图像,其中参考图像可以与计算***可以向视频会议输出的各种一般化响应相对应(例如,计算***可以提示用户输入用户给出拇指向上的参考)。特别地,机器学习模型可以利用参考图像(例如,用户的参考图像或非用户参考图像)结合叠加在参考图像上重建用户的特征,以产生一般化视频表示。
更具体地,在一些示例中,可以通过获取用户的单个图像并生成各种响应来创建一般化视频表示的库。例如,响应可以由模型(例如,机器学习模型和/或图像扭曲模型(image warping model))创建,该模型获取用户的参考图像和语义特征(例如,姿势、面部表情、手势信息等)并生成描绘参考图像内的用户但具有在第二语义图像中指示的语义特征的修改的图像。在一些实施方式中,语义特征可以包括描绘语义特征的语义图像。作为示例,第一参考图像可以来自用户,而第二语义图像可以由演员或其他源创建。在一个示例中,生成模型可以用于执行上述动作,作为一个示例,包括作为生成对抗网络的一部分执行的生成模型。此外,可以在用户图像数据上面合成(composite)新图像或图像元素(例如,耳机、背景等)以表示用户的一般化意图(例如,具有在上面合成耳机的用户可以表示用户未注意或忙碌)。
在一个示例中,机器学习图像生成模型可以包括机器学习编码器和解码器模型。机器学习编码器和解码器模型可以用于生成用户的一般化表示。例如,编码器可以接收用户的原始图像和/或一个或多个参考图像,并将图像编码为描述图像中描绘的语义状态和/或视觉特征的潜在表示(也可以称为神经表示)。解码器可以将潜在表示扩展为用户的语义状态的一般化表示。例如,可以在多个训练数据元组上训练编码器和解码器模型,其中每个训练数据元组包括用户的原始图像和/或一个或多个参考图像以及对应的“正确”的用户的一般化表示。在一些实施方式中,可以通过有目的地降级(degrade)初始最佳影像来生成一些或全部训练数据。例如,“正确的”一般化表示可以经由附加模糊、添加压缩伪影(compression artifact)、改变姿势、改变照明等被降级。
在另一具体示例中,机器学习图像生成模型可以接收参考图像和输入图像作为输入。模型的特征提取(或编码器)部分可以从参考图像提取外观特征(例如,以神经表示的形式)。模型还可以检测参考图像和输入图像中的每一个中的关键点。模型的运动场(motionfield)估计部分可以通过比较来自参考输入和输入图像中的每一个的关键点来生成运动场。运动场可以是基于两个地标(landmark)的集合的密集运动图。模型的生成器(或解码器)部分可以接收提取的特征和运动场作为输入,并且可以生成输出表示,其中输出表示描绘输入图像的关键点处但是具有参考图像的外观或特征的地标。例如,可以基于运动图扭曲参考特征,然后深度生成网络可以基于扭曲的特征产生输出表示。
在一些实施方式中,一般化表示可以具有以下方面中的一个或多个:修正的注视、改进的照明、修正的姿势、高分辨率或超分辨率和/或修改的背景。特别地,机器学习图像生成模型可以在单遍(single pass)(例如,单个编码-解码循环)中执行列出的方面中的一些或全部。
在一些实施方式中,编码器模型和解码器模型可以各自是卷积神经网络。在一些实施方式中,编码器模型和解码器模型可以在相同设备上存储和运行,而在其他实施方式中,编码器模型和解码器模型可以在单独的设备(例如,发送器和接收器设备)上存储和运行。
在一些实施方式中,基于用户的语义状态生成一般化视频表示可以包括确定一个或多个期望的图像元素(例如,用户主动观看的指示、用户向下看的指示、用户的头部左右移动的指示、以及用户的头部上下移动的指示、用户的拇指向上指向的指示、用户的拇指向下指向的指示、用户的拇指向下指向的指示)。以及用户的手部挥动的指示、用户不在的指示等)。在一些实施方式中,还可以基于用户的活动状态来确定一个或多个期望的图像元素。此外,基于用户的语义状态生成一般化视频表示可以包括生成具有一个或多个期望的图像元素的影像。例如,可以将期望的图像元素作为输入提供给机器学习图像生成模型。例如,一般化视频表示可以包括与多个语义状态相对应的多个卡通化身、多个个性化表情符号、多个手势的图形描绘或用户的多个预先记录的图像。
在一些实施方式中,用户的活动状态可以是活动收听者状态。特别地,当用户的活动状态是活动收听者状态时,可以基于用户的语义状态来生成用户的一般化视频表示。例如,生成用户的一般化视频表示可以包括将参考图像映射到用户的面部的捕获的图像(captured image)上。生成一般化视频表示可以包括将参考图像合成到用户的面部的捕获的图像上。特别地,可以通过将图像彼此重叠来将参考图像合成到用户的面部的捕获的图像上。甚至更具体地,可以将参考图像裁剪成期望的形状(例如,基于例如语义分割的结果掩膜的)以确保参考图像的边缘可以与捕获图像无缝地接合(knit)。在一些实施方式中,参考图像可以由多个角度的参考对象的图像组成,使得参考对象的角度与捕获的图像中的用户的角度一致。在一些实施方式中,参考图像可以由多个分辨率的参考对象的图像组成,使得参考图像的分辨率与捕获的图像的分辨率一致。在一些实施方式中,参考图像可以由多个照明布置中的参考对象的图像组成,使得参考图像的照明与捕获的图像中的照明一致。例如,可以融合两个重叠的图像以生成由参考图像和捕获的图像两者中的元素组成的新的单个图像。特别地,阴影和高亮可以相应地放置在参考图像和捕获的图像上。作为具体示例,当确定用户的语义状态(例如,忙碌)时,与所确定的用户的语义状态(例如,耳机打开)相关联的参考图像可以被合成在捕获的图像上,以图形地向其他人指示语义状态(例如,耳机的图像可以被覆盖、融合或以其他方式合成在用户的捕获的图像的上面,使得耳机覆盖用户头部的部分(诸如耳朵),同时允许其他特质(诸如用户的面部)被看见,如同用户实际上佩戴耳机一样)。用户的语义状态可以包括用一个或多个期望的图像元素的图形表示替换用户的捕获的图像。
在一些实施方式中,可以基于用户的活动状态来确定基于用户的语义状态生成一般化视频表示。特别地,用户的活动状态可以确定用户许可的级别(例如,诸如作为参与者的活动状态可以授权比诸如作为收听者的活动状态更高的用户许可的级别)。甚至更具体地,用户许可的级别可以与一个或多个期望的图像元素相关联。在一些实施方式中,可以基于用户许可的级别来确定一个或多个期望的图像元素。特别地,可以基于用户许可的级别结合用户的活动状态来确定一个或多个期望的图像元素。
在一些实施方式中,确定与一个或多个期望的图像元素相关联的用户许可的级别可以包括评估多个不同的和预定义的用户图像释放许可(image release permission)。特别地,多个不同的且预定义的用户图像释放许可可以与许可性的滑动尺度(slidingscale)相对应。例如,多个不同的且预定义的用户图像释放许可不是严格地确定的,而是可以基于用户动作(例如,静音按钮、视频推断状态等)的组合调整的。
因此,本公开提供了一种可以用于视频会议的计算***和方法。特别地,计算***可以用于提供用于视频会议中的参与者的安全和隐私保护的视频表示的***和方法。更具体地,本公开的示例方面涉及用于基于参与者的语义和活动状态来生成视频会议参与者的重建的计算***和计算机实现的方法。本公开的***和方法允许通过呈现参与者的安全且可用的表示同时从表示中过滤不必要或不想要的信息来传达参与者的必要信息的视频会议。
本公开的***和方法提供了多个技术效果和益处。作为一个示例技术效果,所提出的技术能够在虚拟工作空间中的虚拟工作日期间向用户提供沉浸式且有帮助的体验。特别地,向视频会议的成员提供其他成员的意图的一般化表示可以极大地克服用户挫败感(user frustration),因为越来越多的视频会议的成员由于隐私考虑而选择在视频会议中完全关闭他们的相机。通过向成员提供其他成员的意图的一般化表示,参与者可以了解听众的反应和参与度,而不是查看黑框。另一方面,通过仅流传输他们的意图的一般化表示,收听者可以向参与者提供他们的反应,而不用担心他们端的多余活动可能干扰视频会议。
此外,而非仅虚拟地工作,本公开打开了虚拟工作场所的门。特别地,虚拟工作场所可以复制亲自工作的多个期望属性,同时减少不期望的属性。通过在虚拟工作场所中利用所提出的技术,用户可以以与亲自工作时类似的方式与其他人更无缝地通信,从而减少挫折感并优化协作。甚至更具体地,通过仅发送所选择的图像或视频,所提出的技术允许用户以极大地降低的传输速率不断地虚拟地参与到他们的工作场所,从而节省计算资源(例如,处理器使用、存储器使用、网络带宽等)。
现在参考附图,将更详细地讨论本公开的示例实施例。
示例设备和***
图1描绘了根据本公开的示例实施例的示例客户端-服务器环境100。客户端-服务器环境100包括由网络180连接并通过网络180通信的客户端计算设备102和服务器计算***130。尽管描绘了单个客户端计算设备102,但任何数量的客户端计算设备102可以被包括在客户端-服务器环境100中,并且通过网络180连接到服务器计算***130。
在一些示例实施例中,客户端计算设备102可以是任何合适的设备,包括但不限于智能电话、平板电脑、膝上型电脑、台式计算机、游戏控制台或被配置为使得其可以允许用户参与视频会议的任何其他计算机设备。客户端计算设备102可以包括一个或多个处理器112、存储器114、相关联的显示设备120、视频会议应用122、相机124、麦克风126和音频回放设备128(例如,诸如立体声扬声器的扬声器)。
一个或多个处理器112可以是任何合适的处理设备,诸如微处理器、微控制器、集成电路或其他合适的处理设备。存储器114可以包括任何合适的计算***或介质,包括但不限于非暂时性计算机可读介质、RAM、ROM、硬盘驱动器、闪存驱动器或其他存储器设备。存储器114可以存储可由一个或多个处理器112访问的信息,包括可以由一个或多个处理器112执行的指令。指令可以是当由一个或多个处理器112执行时使一个或多个处理器112提供期望的功能的任何指令的集合。
特别地,在一些设备中,存储器114可以存储用于客户端计算设备102和服务器计算***130之间的视频会议的指令(例如,一个或多个视频会议应用122等)。客户端计算设备102可以实现指令以执行本公开的方面,包括引导与服务器计算***130的通信,向用户提供视频会议应用122和/或视频流,将接收的视频流缩放到不同分辨率的显示区域,和/或生成并向服务器计算***发送请求用于显示区域的新视频流的指令。
应当理解,术语“***”可以指代专用硬件、在通用处理器上执行的计算机逻辑或其某种组合。因此,***可以在控制通用处理器的硬件、专用电路、固件和/或软件中实现。在一个实施例中,***可以实现为存储在存储设备上、加载到存储器中并由处理器执行的程序代码文件,或者可以从存储在有形计算机可读存储介质(诸如RAM、硬盘或光学或磁性介质)中的计算机程序产品(例如计算机可执行指令)提供。
存储器114还可以包括可以由一个或多个处理器112检索、操纵、创建或存储的数据116,诸如视频会议数据(例如,在客户端计算设备102处捕获的或从服务器计算***130接收的)。在一些示例实施例中,这样的数据可以在视频会议期间被访问并显示给客户端计算设备102的一个或多个用户,或者被发送到服务器计算***130。
客户端计算设备102可以执行视频会议应用122。在一个示例中,视频会议应用122是专用的、特制的视频会议应用。在另一示例中,视频会议应用122是本地地(例如,由处理器112)执行计算机可读代码以提供视频会议作为web应用的浏览器应用。
视频会议应用122可以从相机124和/或麦克风126捕获视觉数据,并向服务器计算***130发送该数据。客户端计算设备102可以从服务器计算***130接收来自视频会议的一个或多个其他参与者(例如,其他客户端计算设备102)的视听数据(例如,音频数据和/或视觉数据)。然后,客户端计算设备102可以在相关联的显示设备120上向客户端计算设备102的用户显示接收的视觉数据和/或使得利用音频回放设备128向客户端计算设备102的用户回放接收的音频数据。在一些示例实施例中,相机124从一个或多个用户收集视觉数据。相机124可以是能够捕获视觉数据的任何设备。麦克风126可以是能够捕获音频数据的任何设备。在一个示例中,网络摄像头(webcam)可以用作相机和麦克风两者。
根据一些示例实施例,服务器计算***130可以包括一个或多个处理器132、存储器134和视频会议***140。存储器134可以存储可由一个或多个处理器132访问的信息,包括可以由处理器执行的指令138和数据136。
服务器计算***130可以使用未示出的网络通信设备与一个或多个客户端计算设备102通信。网络180可以是任何类型的通信网络,诸如局域网(例如,内联网)、广域网(例如,互联网)或其某些组合。通常,可以使用任何类型的有线和/或无线连接、使用各种通信协议(例如,TCP/IP、HTTP、RTP、RTCP等)、编码或格式(例如,HTML、XML)和/或保护方案(例如,VPN、安全HTTP、SSL)经由网络接口承载客户端计算设备102和服务器计算***130之间的通信。
服务器计算***130可以包括视频会议***140。在一些实施方式中,视频会议***140可以被配置为促进由一个或多个客户端计算设备102执行的视频会议应用122的操作。作为示例,视频会议***140可以从分别与多个视频会议出席者相关联的多个客户端计算设备102(例如,经由网络180)接收视听流。视频会议***140可以向客户端计算设备102中的每一个提供视听流。
视频会议应用122和/或视频会议***140可以独立地或协作地操作以执行本文描述的任何技术。
示例方法
图2描绘了根据本公开的示例实施例执行的示例方法的流程图。尽管出于说明和讨论的目的,图2描绘了以特定顺序执行的步骤,但是本公开的方法不限于具体示出的顺序或布置。在不脱离本公开内容的范围的情况下,可以以各种方式省略、重新布置、组合和/或改编方法200的各个步骤。
在202处,计算***可以获得视频流数据。例如,视频流数据可以是原始视频流数据。例如,原始视频流数据可以直接来自用户的设备(例如,来自设备的相机)。
在204处,计算***可以确定用户的语义状态。例如,计算***可以利用原始视频流数据来确定用户的语义状态。作为示例,用户的语义状态可以指示用户的意图。
在一些实施方式中,检测用户的语义状态可以包括使用机器学习模型。特别地,机器学习模型可以是机器学习图像分类模型。例如,机器学习图像分类模型可以用于通过在历史用户数据上进行训练来检测用户的语义状态(例如,通过利用诸如面部跟踪、面部特征跟踪、手势识别等的特征)。作为另一示例,机器学习图像分类模型可以用于通过在根据多个用户一般化的数据上进行训练来检测用户的语义状态。作为一个示例,可以训练机器学习图像分类模型以将用户的图像分类为分别与多个不同语义状态相对应的多个不同类中的一个或多个。作为一个示例,可以在包括多个训练数据对的训练数据集上使用监督学习方法训练分类模型。每个训练数据的对可以包括人或场景的图像和指示人或场景的基本事实语义状态的基本事实标签。例如,机器学习图像分类模型可以用于通过在历史用户数据上进行训练来检测用户的语义状态(例如,用户正在看哪里、用户的头部运动、用户的手部运动)。作为另一示例,机器学习图像分类模型可以用于通过在根据多个用户一般化的数据上进行训练来检测用户的语义状态。
因此,在一些实施方式中,用户的语义分析可以使用判别法。例如,判别法可以利用经典的机器学习技术(例如,核函数、集成方法、多实例等),特别地,用户的语义分析可以使用认知法。例如,认知法可以实现计算机视觉功能的四个级别:检测、定位、识别和理解。计算机视觉功能的四个级别可以被用于语义知识探索和图像理解。训练机器学习模型可以包括利用模型处理训练输入以生成预测输出;评估损失函数,所述损失函数将预测的输出与基础事实训练示例输出进行比较;然后基于损失函数修改模型的参数值(例如,通过反向传播损失函数以更新模型参数)。
作为另一示例,可以通过诸如语义分割的技术来确定基于图像的用户的语义状态。特别地,图像中的每个像素可以被分割在其区域内,该区域具有带有特定标签的语义值(例如,基于区域的、基于全卷积网络的、弱监督的等)。计算***可以分配图像语义定义的部分。可以在与特定语义状态相关联的图像的库(例如,由演员、雇员、用户等提供)上训练机器学习模型,使得可以分析(例如,解析、分割等)输入用户图像并且可以识别语义状态。
在206处,计算***可以确定用户活动状态。例如,活动状态可以基于检测的用户的语义状态,或者可以独立于检测的用户的语义状态。作为示例,活动状态可以基于用户静音状态。可以至少部分地根据用户是已静音还是未静音来确定活动状态。作为另一示例,活动状态可以基于用户可用性状态。可以至少部分地根据用户是否出席(例如,基于用户视频流数据)来确定活动状态。作为又一示例,活动状态可以基于用户日历状态(例如,用户可以按日期和时间在日历中输入已计划的会议或约会)。可以至少部分地根据用户的日历是否指示用户是否参与会议或约会来确定活动状态。作为又一示例,活动状态可以基于视频推断状态。可以至少部分地根据基于视频流数据推断的用户状态来确定活动状态(例如,如果用户戴耳机,则用户可被确定为不可用)。
在208处,计算***可以确定用户是活动收听者。例如,如果计算***将一个或多个用户活动状态确定为指示活动收听者,则计算***可以确定用户是活动收听者。作为示例,计算***可以至少部分地在计算***确定用户已静音的情况下确定用户是活动收听者。作为另一示例,计算***可以至少部分地在计算***确定用户出席的情况下确定用户是活动收听者。
作为208的补充或替代,在210处,计算***可以确定用户是活动参与者。例如,如果计算***将一个或多个用户活动状态确定为指示活动参与者,则计算***可以确定用户是活动参与者。作为示例,计算***可以至少部分地在计算***确定用户未静音的情况下确定用户是活动参与者。作为另一示例,计算***可以至少部分地在用户出席的情况下确定用户是活动参与者。
在212处,计算***可以基于用户活动状态来调整过滤级别。例如,计算***可以至少部分地基于计算***是否已经确定用户是否是活动收听者来调整过滤级别(例如,如果计算***已经确定用户是活动收听者,则计算***可以增加过滤级别)。例如,计算***可以至少部分地基于计算***是否已经确定用户是否是活动参与者来调整过滤级别(例如,如果计算***已经确定用户是活动参与者,则计算***可以降低过滤级别)。
在214处,计算***可以生成用户的一般化视频表示。例如,计算***可以基于用户的语义状态或用户的活动状态至少部分地基于用户的意图来生成用户的一般化视频表示。
作为一个示例,基于用户的语义状态生成用户的一般化视频表示可以包括将用户的语义状态与个性化用户图像的参考数据库进行比较。计算***还可以基于一个或多个个性化用户图像来生成或输出生成的用户的一般化视频表示。例如,计算***可以提示用户输入参考图像,其中参考图像可以与计算***可以向视频会议输出的各种一般化响应相对应(例如,计算***可以提示用户输入用户给出拇指向上的参考)。特别地,机器学习模型可以利用参考图像(例如,用户的参考图像或非用户参考图像)结合叠加在参考图像上重建用户的特征,以产生一般化视频表示。
更具体地,在一些示例中,可以通过获取用户的单个图像并生成各种响应来创建一般化视频表示的库。例如,响应可以由模型(例如,机器学习模型和/或图像扭曲模型)创建,该模型获取用户的参考图像和语义特征(例如,姿势、面部表情、手势信息等)并生成描绘参考图像内的用户但具有在第二语义图像中指示的语义特征的修改的图像。在一些实施方式中,语义特征可以包括描绘语义特征的语义图像。作为示例,第一参考图像可以来自用户,而第二语义图像可以由演员或其他源创建。在一个示例中,生成模型可以用于执行上述动作,作为一个示例,包括作为生成对抗网络的一部分执行的生成模型。此外,可以在用户图像数据上面合成新图像或图像元素(例如,耳机、背景等)以表示用户的一般化意图(例如,具有在上面合成耳机的用户可以表示用户未注意或忙碌)。
在一个示例中,机器学习图像生成模型可以包括机器学习编码器和解码器模型。机器学习编码器和解码器模型可以用于生成用户的一般化表示。例如,编码器可以接收用户的原始图像和/或一个或多个参考图像,并将图像编码为描述图像中描绘的语义状态和/或视觉特征的潜在表示(也可以称为神经表示)。解码器可以将潜在表示扩展为用户的语义状态的一般化表示。例如,可以在多个训练数据元组上训练编码器和解码器模型,其中每个训练数据元组包括用户的原始图像和/或一个或多个参考图像以及对应的“正确”的用户的一般化表示。在一些实施方式中,可以通过有目的地降级初始最佳图像来生成一些或全部训练数据。例如,“正确的”一般化表示可以经由附加模糊、添加压缩伪影、改变姿势、改变照明等被降级。
在另一具体示例中,机器学习图像生成模型可以接收参考图像和输入图像作为输入。模型的特征提取(或编码器)部分可以从参考图像中提取外观特征(例如,以神经表示的形式)。模型还可以检测参考图像和输入图像中的每一个中的关键点。模型的运动场估计部分可以通过比较来自参考输入和输入图像中的每一个的关键点来生成运动场。运动场可以是基于两个地标的集合的密集运动图。模型的生成器(或解码器)部分可以接收提取的特征和运动场作为输入,并且可以生成输出表示,其中输出表示描绘输入图像的关键点处但是具有参考图像的外观或特征的地标。例如,可以基于运动图扭曲参考特征,然后深度生成网络可以基于扭曲的特征产生输出表示。
在一些实施方式中,一般化表示可以具有以下方面中的一个或多个:修正的注视、改进的照明、修正的姿势、高分辨率或超分辨率和/或修改的背景。特别地,机器学习图像生成模型可以在单遍(例如,单个编码-解码循环)中执行列出的方面中的一些或全部。
在一些实施方式中,编码器模型和解码器模型可以各自是卷积神经网络。在一些实施方式中,编码器模型和解码器模型可以在相同设备上存储和运行,而在其他实施方式中,编码器模型和解码器模型可以在单独的设备(例如,发送器和接收器设备)上存储和运行。
在一些实施方式中,基于用户的语义状态生成一般化视频表示可以包括确定一个或多个期望的图像元素(例如,用户主动观看的指示、用户向下看的指示、用户的头部左右移动的指示、以及用户的头部上下移动的指示、用户的拇指向上指向的指示、用户的拇指向下指向的指示、用户的拇指向下指向的指示)。以及用户的手部挥动的指示、用户不在的指示等)。在一些实施方式中,还可以基于用户的活动状态来确定一个或多个期望的图像元素。此外,基于用户的语义状态生成一般化视频表示可以包括生成具有一个或多个期望图像元素的影像。例如,可以将期望的图像元素作为输入提供给机器学习图像生成模型。例如,一般化视频表示可以包括与多个语义状态相对应的多个卡通化身、多个个性化表情符号、多个手势图形描绘或用户的多个预先记录的图像。
在一些实施方式中,用户的活动状态可以是活动收听者状态。特别地,当用户的活动状态是活动收听者状态时,可以基于用户的语义状态来生成用户的一般化视频表示。例如,生成用户的一般化视频表示可以包括将参考图像映射到用户的面部的捕获的图像上。生成一般化视频表示可以包括将参考图像合成到用户的面部的捕获的图像上。特别地,可以通过将图像彼此重叠来将参考图像合成到用户的面部的捕获的图像上。甚至更具体地,可以将参考图像裁剪成期望的形状(例如,基于例如语义分割的结果掩膜的)以确保参考图像的边缘可以与捕获图像无缝地接合。在一些实施方式中,参考图像可以由多个角度的参考对象的图像组成,使得参考对象的角度与捕获的图像中的用户的角度一致。在一些实施方式中,参考图像可以由多个分辨率的参考对象的图像组成,使得参考图像的分辨率与捕获的图像的分辨率一致。在一些实施方式中,参考图像可以由多个照明布置中的参考对象的图像组成,使得参考图像的照明与捕获的图像中的照明一致。例如,可以融合两个重叠的图像以生成由参考图像和捕获的图像两者中的元素组成的新的单个图像。特别地,阴影和高亮可以相应地放置在参考图像和捕获的图像上。作为具体示例,当确定用户的语义状态(例如,忙碌)时,与所确定的用户的语义状态(例如,耳机打开)相关联的参考图像可以被合成在捕获图像上,以图形地向其他人指示语义状态(例如,耳机的图像可以被覆盖、融合或以其他方式合成在用户的捕获的图像的上面,使得耳机覆盖用户头部的部分(诸如耳朵),同时允许其他特征(诸如用户的面部)被看见,如同用户实际上佩戴耳机一样)。用户的语义状态可以包括用一个或多个期望的图像元素的图形表示替换用户的捕获的图像。
在216处,计算***可以发送一般化视频表示数据。例如,计算***可以向一个或多个用户正在使用以参与视频会议的一个或多个设备发送一般化视频表示数据。
图3描绘了根据本公开的示例实施例执行的示例方法的流程图。尽管出于说明和讨论的目的,图3描绘了以特定顺序执行的步骤,但是本公开的方法不限于具体示出的顺序或布置。在不脱离本公开内容的范围的情况下,可以以各种方式省略、重新布置、组合和/或改编方法300的各个步骤。
在302处,计算***可以确定用户是活动参与者。例如,如果计算***将一个或多个用户活动状态确定为指示活动参与者,则计算***可以确定用户是活动参与者。作为示例,计算***可以至少部分地在计算***确定用户被取消静音的情况下确定用户是活动参与者。作为另一示例,计算***可以至少部分地在用户出席的情况下确定用户是活动参与者。
在304处,计算***可以确定期望的图像元素。例如,计算***可以基于原始用户视频来确定期望的图像元素。特别地,计算***可以确定期望的图像元素,诸如主动观看、向下看、头部左右移动、头部上下移动、拇指向上、拇指向下、挥手、出席。
在306处,计算***可以生成用户的一般化视频表示。特别地,计算***可以生成用户的意图的一般化视频表示。例如,计算***可以通过生成卡通化身、个性化表情符号、手势的图形描绘或预先记录的用户图像中的一个或多个来生成用户的意图的一般化视频表示。
在308处,计算***可以发送一般化视频表示数据。例如,计算***可以向一个或多个用户正在使用以参与视频会议的一个或多个设备发送一般化视频表示数据。
示例模型布置
图4描绘了根据本公开的示例实施例的示例一般化表示模型400的框图。在一些实施方式中,一般化表示模型400被训练以接收描述原始用户数据的输入数据404的集合,并且作为接收到输入数据404的结果,提供包括在原始用户数据中呈现的意图的一般化表示的输出数据406。因此,在一些实施方式中,一般化表示模型400可以包括语义状态模型402,语义状态模型402可操作以生成用户正在参与什么语义状态的预测。
特别地,语义状态模型402可以利用输入数据404来基于输入数据404确定用户的当前语义状态。例如,语义状态模型402可以基于输入数据404预测用户的语义意图。
在一些实施方式中,语义状态模型402可以是机器学习图像分类模型。例如,机器学习图像分类模型可以用于通过在历史用户数据进行训练来检测用户的语义状态(例如,通过利用诸如面部跟踪、面部特征跟踪、手势识别等的特征)。作为另一示例,机器学习图像分类模型可以用于通过在根据多个用户一般化的数据上进行训练来检测用户的语义状态。作为一个示例,可以训练机器学习图像分类模型以将用户的图像分类为分别与多个不同语义状态相对应的多个不同类中的一个或多个。作为一个示例,可以在包括多个训练数据对的训练数据集上使用监督学习方法训练分类模型。每个训练数据的对可以包括人或场景的图像和指示人或场景的基本事实语义状态的基本事实标签。例如,机器学习图像分类模型可以用于通过在历史用户数据上进行训练来检测用户的语义状态(例如,用户正在看哪里、用户的头部运动、用户的手部运动)。作为另一示例,机器学习图像分类模型可以用于通过在根据多个用户一般化的数据上进行训练来检测用户的语义状态。
一般化表示模型400可以利用语义状态模型402的输出来生成参与由语义状态模型402预测的语义意图的用户的一般化表示(例如,用户的表示)。甚至更具体地,一般化表示模型400可以利用输入数据404结合语义状态模型402的输出来生成输出数据406,输出数据406可以包括用户以一般化方式参与指示意图(例如,注意、未注意、肯定、否定等)的活动的表示。
在一些实施方式中,一般化表示模型400可以包括机器学习图像生成模型,机器学习图像生成模型可以包括机器学习编码器和解码器模型。机器学习编码器和解码器模型可以用于生成用户的一般化表示。例如,编码器可以接收用户的原始图像和/或一个或多个参考图像,并将图像编码为描述图像中描绘的语义状态和/或视觉特征的潜在表示(也可以称为神经表示)。解码器可以将潜在表示扩展为用户的语义状态的一般化表示。例如,可以在多个训练数据元组上训练编码器和解码器模型,其中每个训练数据元组包括用户的原始图像和/或一个或多个参考图像以及对应的“正确”的用户的一般化表示。在一些实施方式中,可以通过有目的地降级初始最佳图像来生成一些或全部训练数据。例如,“正确的”一般化表示可以经由附加模糊、添加压缩伪影、改变姿势、改变照明等来降级。
在另一具体示例中,机器学习图像生成模型可以接收参考图像和输入图像作为输入。模型的特征提取(或编码器)部分可以从参考图像中提取外观特征(例如,以神经表示的形式)。模型还可以检测参考图像和输入图像中的每一个中的关键点。模型的运动场估计部分可以通过比较来自参考输入和输入图像中的每一个的关键点来生成运动场。运动场可以是基于两个地标的集合的密集运动图。模型的生成器(或解码器)部分可以接收提取的特征和运动场作为输入,并且可以生成输出表示,其中输出表示描绘输入图像的关键点处但是具有参考图像的外观或特征的地标。例如,可以基于运动图扭曲参考特征,然后深度生成网络可以基于扭曲的特征产生输出表示。
在一些实施方式中,一般化表示可以具有以下方面中的一个或多个:修正的注视、改进的照明、修正的姿势、高分辨率或超分辨率和/或修改的背景。特别地,机器学习图像生成模型可以在单遍(例如,单个编码-解码循环)中执行列出的方面中的一些或全部。
在一些实施方式中,编码器模型和解码器模型可以各自是卷积神经网络。在一些实施方式中,编码器模型和解码器模型可以在相同设备上存储和运行,而在其他实施方式中,编码器模型和解码器模型可以在单独的设备(例如,发送器和接收器设备)上存储和运行。在一些实施方式中,编码器模型与语义状态模型402相同,而在其他实施方式中,它们是不同的模型。因此,可以使用模型的各种组合来确定用户的语义状态并生成描绘语义状态的用户的一般化视频表示。
图5描绘了根据本公开的示例实施例的示例一般化表示模型500的框图。一般化表示模型500与图4的一般化表示模型400类似,除此之外,一般化表示模型500还包括附加输入数据,其中预定义的数据506可以直接输入到一般化表示模型500。特别地,一般化表示模型500可以利用语义状态模型502的输出结合预定义的数据506而不是原始输入数据504。因此,一般化表示模型500可以基于预定义的数据506(例如,参与代表性动作的用户的先前记载的图像、参与代表性动作的非用户的先前记载的图像等)来生成用户的表示。例如,在一个应用中,一般化表示模型500可以基于原始输入数据504根据语义状态模型502的输出来输出参与代表性动作的用户的先前捕获的图像(例如,一般化表示模型500可以根据语义状态模型502的输出来标记预定义的数据506)。作为另一示例,一般化表示模型500可以参与将用户的表示映射到参与由语义状态模型502指示的特定语义动作的非用户的图像上(例如,一般化表示模型可以利用匹配关键点、一个图像的扭曲等)。
示例应用
图6示出了图2中描述的示例方法的示例性实施方式。600示出了利用检测的用户的语义状态602来将用户状态确定为活动参与者或活动收听者的示例性应用。在一个实施方式中,当计算***将用户状态确定为活动参与者604时,计算***还可以通过利用各种辅助计算***(例如,机器学习、面部跟踪、面部特征识别、手势识别等)来确定期望的图像元素606。一旦计算***通过利用各种计算***确定期望的图像元素606,计算***就可以生成一般化视频表示608。例如,计算***可以利用由用于确定期望的图像元素606的各种计算***确定的数据来生成一般化视频表示608。
在一个实施方式中,当计算***将用户状态确定为活动收听者610时,计算***还可以确定期望的图像元素612(例如,主动观看、向下看、出席等)。基于期望的图像元素612,计算***可以从参考数据库614确定对应的表示。基于来自参考数据库614的对应的表示,计算***可以生成一般化视频表示616。作为示例,计算***可以利用辅助计算***在原始图像数据上面合成参考图像(例如,背景、耳机等)。作为另一示例,计算***可以利用辅助计算***在参考图像上重建用户面部特征。
图7示出了在原始图像数据702上面合成712参考图像的计算***的应用。特别地,原始图像数据702(例如,视频流数据)可以与从参考数据库700获得的参考图像704结合使用以生成个性化用户图像706。可以结合参考背景图像708和参考道具图像710中的一个或多个合成712个性化用户图像706,以生成可以向参与视频会议的其他用户设备发送714的一般化图像。例如,个性化用户图像706可以与风景图像(例如,用户选择的)和耳机的图像(例如,当用户已经指示他们忙碌时)合成712以产生用户的一般化图像。
特别地,仍然参考图7,视频流数据702可以包括从输入图像(例如,视频会议中的用户的当前图像)提取的关键点。视频流数据702还可以包括运动场,该运动场展示输入图像中的关键点与来自参考影像704的关键点之间的差异。运动场可以是基于两个地标的集合的密集运动图。图像生成模型的生成器(或解码器)部分可以接收参考特征704和视频流数据702作为输入,并且可以生成个性化输出表示706,其中个性化输出表示706描绘在视频流数据702中给出的输入图像的关键点处的参考图像704的特征。例如,可以基于运动图扭曲参考特征,然后深度生成网络可以基于扭曲的特征产生输出表示706。
图8示出了用于生成个性化用户表情符号800的计算***的应用。例如,计算***可以利用参考图像和用户图像的合成来生成个性化用户表情符号。作为另一示例,计算***可以请求用户输入与指定的表情符号情感相关联的用户特定图像。特别地,计算***可以在用户输入参考图像上面合成参考道具图像。例如,计算***可以生成用户表情符号,诸如指示用户好奇802、喜爱804、惊讶806、愚蠢808、天使810和笑812的表情符号。
图9示出了生成指示用户的状态的用户化身900的计算***的应用。计算***可以使用用户的第一图像902,其可以从原始图像数据或预输入的用户图像的参考数据库获得。计算***可以将道具图像(诸如耳机)合成在用户之上以合成指示用户忙碌的图像904。指示用户忙碌的用户化身904可以选择性地指示确认906。用户化身可以通过选择性地发送原始图像数据或发送用户的参考片段来选择性地指示确认906。例如,计算***可以将用户化身900作为持久环境连接发送(例如,可以持久地发送用户化身900以选择性地指示用户的语义状态)。通过持久地选择性地发送用户的语义状态,计算***可以在虚拟工作场所中的用户当中重新创建更多自发的、自组织交互,而不侵犯他们的舒适度和隐私。
图10示出了基于原始图像或视频镜头1002生成受限的用户视频会议图像或视频1004的计算***的应用。例如,计算***可以生成用户的替代版本(altered version)以发送给其他视频会议用户。特别地,计算***可以生成具有更讨人喜欢的照明和角度或模糊背景的用户的图像。例如,原始图像或视频镜头1002可以被输入,并且原始图像或视频镜头1002的期望的元素(例如,用户的注意力)可以被检测并被编码。然后可以重建被检测和被编码的期望的元素,以根据原始图像或视频镜头1002输出受限的用户视频会议图像或视频1004。如本文其他地方所述,在一个示例中,机器学习图像生成模型的编码器部分可以接收参考图像并将参考图像的特征编码成潜在表示。机器学习图像生成模型的解码器部分可以获得潜在表示以及关于用户的语义状态的语义状态信息(例如,语义状态分类和/或关键点表示)。解码器可以生成具有参考图像的特征(例如,具有改进的照明、背景等)但描绘用户的当前语义状态的一般化表示。
附加公开内容
本文讨论的技术参考服务器、数据库、软件应用和其他基于计算机的***,以及所采取的动作,以及发送到这些***和从这些***发送的信息。基于计算机的***的固有灵活性允许组件之间和组件当中的任务和功能的各种可能的配置、组合和划分。例如,本文讨论的过程可以使用单个设备或组件或者以组合工作的多个设备或组件实现。数据库和应用可以在单个***上实现或者跨多个***分布。分布式组件可以顺序地或并行地操作。
虽然已经关于本主题的各种具体示例实施例详细描述了本主题,但是每个示例是通过解释而不是限制本公开的方式提供的。在获得对前述内容的理解后,本领域技术人员可以容易地产生对这些实施例的改变、变化和等同物。因此,本主题公开不排除包括对本主题的这样的修改、变化和/或添加,这对于本领域普通技术人员来说是显而易见的。例如,作为一个实施例的部分示出或描述的特征可以与其他实施例一起使用以产生又一实施例。因此,本公开旨在覆盖这样的改变、变化和等同物。
Claims (20)
1.一种用于视频会议的计算***,所述计算***包括:
一个或多个处理器;以及
一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储指令,所述指令在由所述一个或多个处理器执行时使计算***执行操作,操作包括:
获得与视频流相关联的数据,所述视频流与用户相关联;
在视频流内检测用户的语义状态,其中,语义状态描述相对于视频会议的用户的活动的含义;
基于用户的语义状态,生成用户的一般化视频表示,其中,一般化视频表示描绘用户的语义状态的一般化表示;以及
向一个或多个附加计算设备发送描述一般化视频表示的数据,用于在视频会议内呈现。
2.根据权利要求1所述的计算***,其中,操作还包括:
确定用户的活动状态;以及
基于用户的活动状态,调整用户的一般化视频表示的过滤级别。
3.根据权利要求2所述的计算***,其中,用户的活动状态包括活动参与者状态或活动收听者状态中的一个。
4.根据权利要求1-2中任一项所述的计算***,其中,确定用户的活动状态包括确定用户的静音状态、用户定义的可用性状态、用户日历状态或用户的视频推断状态中的至少一个。
5.根据权利要求4所述的计算***,其中,用户的静音状态包括用户已静音的状态或用户未静音的状态。
6.根据权利要求4-5中任一项所述的计算***,其中,用户定义的可用性状态包括用户被占用状态、用户可用状态、用户暂时离开状态或用户离线状态。
7.根据权利要求4-6中任一项所述的计算***,其中,用户日历状态包括日历空闲状态、日历不可用状态或日历事件已计划状态。
8.根据权利要求4-7中任一项所述的计算***,其中,用户的视频推断状态包括基于在视频流中检测的活动的存在自动确定用户活动,或者基于在视频流中检测的活动的不存在自动确定没有用户活动。
9.根据权利要求1-9中任一项所述的计算***,其中,与用户相关联的视频流包括多个原始图像数据,并且用户的一般化视频表示排除所述多个原始图像数据。
10.根据权利要求1-9中任一项所述的计算***,其中,检测用户的语义状态包括使用机器学习图像分类模型来检测用户的语义状态。
11.根据权利要求1-10中任一项所述的计算***,其中,基于用户的语义状态生成用户的一般化视频表示包括将用户的语义状态与个性化用户图像的参考数据库进行比较,并输出一个或多个个性化用户图像。
12.根据权利要求1-11中任一项所述的计算***,其中,基于用户的语义状态生成用户的一般化视频表示包括使用机器学习图像生成模型来生成一般化视频表示。
13.根据权利要求3所述的计算***,其中,基于用户的语义状态生成一般化视频表示还包括:
基于用户的活动状态,确定一个或多个期望的图像元素;以及
生成一般化视频表示以包括所述一个或多个期望的图像元素。
14.根据权利要求13所述的计算***,其中,当用户的活动状态是活动收听者状态时,所述一个或多个期望的图像元素包括以下中的至少一个:
用户主动观看的指示;
用户向下看的指示;
用户的头部左右移动的指示;
用户的头部上下移动的指示;
用户的拇指向上指向的指示;
用户的拇指向下指向的指示;
用户的手部挥动的指示;或
用户缺席的指示。
15.根据权利要求3所述的计算***,其中,当用户的活动状态是活动收听者状态时,用户的一般化视频表示包括以下中的至少一个:
多个卡通化身;
多个个性化表情符号;
多个手势的图形描绘;或
与多个语义状态相对应的用户的多个预先记录的图像。
16.根据权利要求13所述的计算***,其中,当用户的活动状态是活动收听者状态时,基于用户的语义状态生成用户的一般化视频表示包括以下中的一个或多个:
将参考图像映射到用户的面部的捕获的图像上;
将参考图像合成到用户的面部的捕获的图像上;或
用所述一个或多个期望的图像元素的图形表示替换用户的捕获的图像。
17.根据权利要求13所述的计算***,其中,基于用户的语义状态生成一般化视频表示还包括:
基于用户的活动状态,确定与所述一个或多个期望的图像元素相关联的用户许可的级别;以及
基于用户许可的级别和用户的活动状态,确定所述一个或多个期望的图像元素。
18.根据权利要求17所述的计算***,其中,确定与所述一个或多个期望的图像元素相关联的用户许可的级别还包括评估与许可性的滑动尺度相对应的多个不同的且预定义的用户图像释放许可。
19.一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储指令,所述指令在由一个或多个计算设备执行时使所述一个或多个计算设备执行操作,操作包括:
获得与视频流相关联的数据,所述视频流与视频会议***的用户相关联;
在视频流内检测用户的语义状态,其中,语义状态描述相对于视频会议的用户的活动的含义;
确定用户的活动状态;
基于用户的语义状态,生成用户的一般化视频表示,其中,一般化视频表示描绘用户的语义状态的一般化表示;以及
基于用户的活动状态,调整用户的一般化视频表示的过滤级别;
向一个或多个附加计算设备发送描述一般化视频表示的数据,用于在视频会议内呈现。
20.一种计算机实现的方法,包括:
获得与视频流相关联的数据,所述视频流与视频会议***的用户相关联;
在视频流内检测用户的语义状态,其中,语义状态描述相对于视频会议的用户的活动的含义;
基于用户的语义状态,生成用户的一般化视频表示,其中,一般化视频表示描绘用户的语义状态的一般化表示;以及
向一个或多个附加计算设备发送描述一般化视频表示的数据,用于在视频会议内呈现。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/459,964 | 2021-08-27 | ||
US17/459,964 US11949724B2 (en) | 2021-08-27 | 2021-08-27 | Safe and privacy preserving video representation |
PCT/US2022/041861 WO2023028363A1 (en) | 2021-08-27 | 2022-08-29 | Safe and privacy preserving video representation |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117917068A true CN117917068A (zh) | 2024-04-19 |
Family
ID=83438921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280058014.1A Pending CN117917068A (zh) | 2021-08-27 | 2022-08-29 | 安全和隐私保护的视频表示 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11949724B2 (zh) |
EP (1) | EP4393146A1 (zh) |
CN (1) | CN117917068A (zh) |
WO (1) | WO2023028363A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9883144B2 (en) * | 2016-05-12 | 2018-01-30 | Fuji Xerox Co., Ltd. | System and method for replacing user media streams with animated avatars in live videoconferences |
US10554908B2 (en) | 2016-12-05 | 2020-02-04 | Facebook, Inc. | Media effect application |
US10841247B2 (en) * | 2018-02-02 | 2020-11-17 | Sony Interactive Entertainment Inc. | Social media connection for a robot |
US10834456B2 (en) * | 2019-03-28 | 2020-11-10 | International Business Machines Corporation | Intelligent masking of non-verbal cues during a video communication |
US11218668B2 (en) * | 2019-05-09 | 2022-01-04 | Present Communications, Inc. | Video conferencing method |
-
2021
- 2021-08-27 US US17/459,964 patent/US11949724B2/en active Active
-
2022
- 2022-08-29 WO PCT/US2022/041861 patent/WO2023028363A1/en active Application Filing
- 2022-08-29 EP EP22777098.9A patent/EP4393146A1/en active Pending
- 2022-08-29 CN CN202280058014.1A patent/CN117917068A/zh active Pending
-
2024
- 2024-02-29 US US18/591,787 patent/US20240205278A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240205278A1 (en) | 2024-06-20 |
WO2023028363A1 (en) | 2023-03-02 |
US20230064328A1 (en) | 2023-03-02 |
US11949724B2 (en) | 2024-04-02 |
EP4393146A1 (en) | 2024-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11570404B2 (en) | Predicting behavior changes of a participant of a 3D video conference | |
US11381778B2 (en) | Hybrid texture map to be used during 3D video conferencing | |
US11805157B2 (en) | Sharing content during a virtual 3D video conference | |
US11568646B2 (en) | Real-time video dimensional transformations of video for presentation in mixed reality-based virtual spaces | |
US10015385B2 (en) | Enhancing video conferences | |
KR102045575B1 (ko) | 스마트 미러 디스플레이 장치 | |
US11790535B2 (en) | Foreground and background segmentation related to a virtual three-dimensional (3D) video conference | |
US11870939B2 (en) | Audio quality improvement related to a participant of a virtual three dimensional (3D) video conference | |
US11949724B2 (en) | Safe and privacy preserving video representation | |
WO2023076648A1 (en) | Extraction of user representation from video stream to a virtual environment | |
US20230419580A1 (en) | Systems and Methods for Implementing a Virtual Avatar Model for a Video Conference Session | |
US20240089403A1 (en) | Chat View Modification Based on User Identification or User Movement | |
US20240160774A1 (en) | Privacy controls for extended reality (xr) applications | |
US20230289919A1 (en) | Video stream refinement for dynamic scenes | |
JP2024518888A (ja) | 仮想3d通信のための方法及びシステム | |
CN118056397A (zh) | 视频会议自动静音控制*** | |
CN117296328A (zh) | 用于协作计算的选择性内容屏蔽 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |