CN117296328A - 用于协作计算的选择性内容屏蔽 - Google Patents

用于协作计算的选择性内容屏蔽 Download PDF

Info

Publication number
CN117296328A
CN117296328A CN202280029825.9A CN202280029825A CN117296328A CN 117296328 A CN117296328 A CN 117296328A CN 202280029825 A CN202280029825 A CN 202280029825A CN 117296328 A CN117296328 A CN 117296328A
Authority
CN
China
Prior art keywords
content
machine learning
content stream
learning model
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280029825.9A
Other languages
English (en)
Inventor
丹达帕尼·尚穆加姆
斯里尼瓦·马卡姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN117296328A publication Critical patent/CN117296328A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4122Peripherals receiving signals from specially adapted client devices additional display device, e.g. video projector
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/44029Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/454Content or additional data filtering, e.g. blocking advertisements
    • H04N21/4542Blocking scenes or portions of the received content, e.g. censoring scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/454Content or additional data filtering, e.g. blocking advertisements
    • H04N21/4545Input to filtering algorithms, e.g. filtering a region of the image
    • H04N21/45455Input to filtering algorithms, e.g. filtering a region of the image applied to a region of the image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4665Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

提供了一种机器学习共享***和方法,用于在屏蔽敏感信息的同时与用户共享内容。该***接收用于向一个或多个用户显示的内容流,将该内容流转换成表示该内容流的至少一部分的图像数据,将该图像数据输入到被配置为屏蔽共享内容内的敏感内容的机器学习模型中,从该机器学习模型接收指示第一内容流内包含敏感内容的区域的第一掩码,并且至少部分地基于指示具有敏感内容的第一内容流的区域的第一掩码来渲染屏蔽敏感内容的内容流的显示。

Description

用于协作计算的选择性内容屏蔽
优先权声明
本申请基于申请日为2021年6月2日的印度申请202141024542并要求其优先权,该申请通过引用并入本文。
技术领域
本公开总体上涉及用于协作计算环境(例如多参与者视频会议***和投影仪***)的内容共享。
背景技术
协作计算环境(例如多参与者视频会议***和投影显示***)可以允许用户相互查看、通信和/或共享内容(例如视频、音频、网页等)。作为示例,由视频会议***主持的视频会议的正在发言的参与者可以显示在图形用户界面的第一显示区域中,而没有发言的参与者可以显示在其他显示区域中。一些视频会议技术允许在视频会议期间在参与者之间共享内容。例如,一些***可以允许参与者与可能观看当前渲染在显示器上的内容的其他参与者共享他们的显示的全部或部分。
虽然当前的视频会议技术可以使参与者共享内容,但是仍然需要技术来促进视频会议的多个参与者之间的协作和交互。
发明内容
本公开的实施方式的各方面和优点将在以下说明书中部分地阐述,或者可以从说明书中获知,或者可以通过实施方式的实践获知。
本公开的一个示例方面涉及一种用于在视频会议应用内共享内容的计算机实施的方法,包括通过包括一个或多个计算设备的计算***,接收来自视频会议中的第一参与者的请求,以在所述视频会议应用内与所述视频会议的一个或多个其他参与者共享第一内容流,将所述第一内容流的至少一部分转换成表示所述第一内容流的显示的图像数据,将表示所述第一内容流的所述显示的所述图像数据输入到机器学习模型中,所述机器学习模型被配置为用于屏蔽共享内容内的敏感内容,从所述机器学习模型接收指示所述第一内容流内包含所述敏感内容的区域的第一掩码,以及至少部分地基于指示具有所述敏感内容的所述第一内容流的所述区域的所述第一掩码,为所述视频会议渲染屏蔽所述敏感内容的所述第一内容流的显示。
本公开的另一示例方面涉及一种计算***,所述计算***包括一个或多个处理器、存储指令的一个或多个非暂态计算机可读介质,当所述指令被所述一个或多个处理器执行时,使得所述计算***执行操作。所述操作包括接收来自视频会议中的第一参与者的请求,以在视频会议应用内与所述视频会议的一个或多个其他参与者共享第一内容流,将所述第一内容流的至少一部分转换成表示所述第一内容流的显示的图像数据,将表示所述第一内容流的所述显示的所述图像数据输入到机器学习模型中,所述机器学习模型被配置为用于屏蔽共享内容内的敏感内容,从所述机器学习模型接收指示所述第一内容流内包含敏感内容的区域的第一掩码,以及至少部分地基于指示具有所述敏感内容的所述第一内容流的所述区域的所述第一掩码,为所述视频会议渲染屏蔽所述敏感内容的所述第一内容流的显示。
本公开的又一示例方面涉及一个或多个非暂态计算机可读介质,所述一个或多个非暂态计算机可读介质存储指令,当所述指令由计算***的一个或多个处理器执行时,使得计算***执行操作。所述操作包括:接收用于向一个或多个用户显示的第一内容流,将所述第一内容流转换成多个图像帧,所述多个图像帧包括表示所述第一内容流的至少一部分的图像数据,将所述多个图像帧输入到机器学习模型中,所述机器学习模型被配置为用于屏蔽共享内容内的敏感内容,从所述机器学习模型接收指示所述第一内容流内包含所述敏感内容的区域的第一掩码,以及至少部分地基于指示具有所述敏感内容的所述第一内容流的所述区域的所述第一掩码,渲染屏蔽所述敏感内容的所述第一内容流的显示。
本公开的其他示例方面涉及用于实施和利用视频会议***的***、装置、计算机程序产品(例如有形的、非暂态的计算机可读介质,但也例如可通过通信网络下载而不必以非暂态形式存储的软件)、用户界面、存储设备和电子设备。
参考以下描述和所附权利要求,各种实施方式的这些和其他特征、方面和优点将变得更好理解。并入本说明书并构成其一部分的附图示出了本公开的实施方式,并与说明书一起用于解释相关原理。
附图说明
针对本领域普通技术人员的实施方式的详细讨论在参考附图的说明书中阐述,其中:
图1描绘了根据本公开的示例实施方式的示例计算***的框图;
图2描绘了根据本公开的示例实施方式的包括共享内容的多参与者视频会议***的示例图形用户界面;
图3描绘了根据本公开的示例实施方式的包括选择性屏蔽共享内容中的敏感信息的多参与者视频会议***的示例图形用户界面;
图4描绘了根据本公开的示例实施方式的包括投影仪的显示***的示例图形用户界面;
图5是描绘根据本公开的示例实施方式的示例机器学习共享***的框图;
图6是描绘根据本公开的示例实施方式的示例机器学习屏蔽***的框图;
图7是描绘根据本公开的示例实施方式的选择性屏蔽共享内容中的敏感信息的示例方法的流程图;
图8是描绘根据本公开的示例实施方式的训练机器学习共享***的示例方法的流程图;
图9描绘了根据本公开的示例实施方式的用于训练和部署机器学习模型的示例计算***的框图;
图10描绘了可用于实施根据本公开的示例实施方式的示例计算设备的框图;以及
图11描绘了可用于实施根据本公开的示例实施方式的示例计算设备的框图。
具体实施方式
现在将详细参考实施方式,其一个或多个示例在附图中示出。每个示例是通过解释实施方式的方式提供的,而不是对本公开的限制。事实上,对于本领域技术人员来说,在不脱离本公开的范围或精神的情况下,可以对实施方式进行各种修改和变化是显而易见的。例如,作为一个实施方式的一部分示出或说明的特征可以与另一个实施方式一起使用,以产生进一步的实施方式。因此,意图是本公开的各方面覆盖这样的修改和变化。
一般而言,本公开涉及包括一个或多个机器学习模型的计算***,该机器学习模型用于选择性地屏蔽内容中的敏感信息,该内容由用户与其他个体(例如投影显示的观众或视频会议的参与者)共享。更具体地,本公开涉及用于自动识别由用户共享的内容流中的敏感内容并屏蔽此类敏感内容以使其在内容流的显示中对其他用户不可见的计算技术。公开的技术提供了被配置为分析内容(例如网页、游戏、视频、文档等)的机器学习***,并识别包含敏感内容的内容的一个或多个部分。敏感内容可以包括广告、个人信息、机密信息、专有信息或***被训练来识别以进行屏蔽的任意其他内容。该***可以生成识别包含敏感内容的内容中的一个或多个区域的掩码。使用该掩码,***可以渲染在由掩码识别的一个或多个区域处屏蔽敏感内容的内容流的显示。举例来说,该***可以分析共享内容并确定表示该内容的一种或多种颜色。该***可以在由掩码识别的一个或多个区域处渲染一种或多种表示性颜色。可以以任意形式进行屏蔽。例如,***可以在由掩码表示的一个或多个区域提供任意表示性内容,例如颜色、灰度、黑色、水印或其他内容。
举例来说,视频会议***可以提供包括图形用户界面(GUI)的视频会议应用或者与该视频会议应用相关联。GUI可以被渲染在视频会议参与者的相应客户端计算设备的显示器上。GUI可以包括渲染与视频板(slate)相关联的内容的各个视频板。例如,第一视频板可以渲染与第一参与者相关联的视频流,以及第二视频板可以渲染与第二参与者相关联的视频流。可以为其他参与者的视频流和/或为渲染额外内容(例如由参与者之一共享的文档)实例化额外视频板。根据本公开的示例方面,视频会议***可以包括机器学习***,该机器学习***被配置为分析由第一参与者共享的内容,识别内容中的敏感信息,并且为其他参与者渲染内容的显示,使得敏感信息不可见。例如,视频会议***可以通过隐藏、替换或补充内容来屏蔽敏感信息,使得敏感信息在视频会议的其他参与者的内容显示中不可见。
类似地,投影仪或其他显示***可以选择性地屏蔽共享内容流的显示中的敏感信息。投影仪或与投影仪通信的其他设备可以访问要共享的内容流,使用机器学习模型来分析内容以识别内容中的敏感信息,并渲染内容的显示以投影给其他观看者,使得敏感信息不可见。例如,投影仪可以通过隐藏、替换或补充内容来屏蔽敏感信息,使得敏感信息在内容的投影显示中不可见。
根据本公开的示例方面,提供了一种机器学习共享***用于选择性地屏蔽内容中的敏感信息,该内容由第一用户与其他用户(例如视频会议的参与者或投影显示的观众)共享。机器学习共享***可以接收由第一用户共享的内容流。共享***可以将内容流输入到机器学习屏蔽***中,该机器学习屏蔽***被配置为识别要被共享的内容中的敏感信息。机器学习屏蔽***可以包括一个或多个机器学习模型,这些模型被训练来识别敏感信息,例如内容中的个人、机密和/或专有信息。可以通过使用训练数据训练模型来训练机器学习模型以识别不同类型的敏感信息,该训练数据包括被标记以识别要被定位的目标敏感信息的内容。机器学习模型可以检测共享内容中包含敏感信息的一个或多个区域,并生成表示一个或多个区域的一个或多个掩码。该***可以渲染或提供修改的内容流,该内容流屏蔽了检测到的区域,使得敏感信息不可见。该***可以通过隐藏、替换、覆盖、模糊或以其他方式使得敏感信息在由其他用户可观看的内容的显示中不可见来屏蔽敏感信息。
可以使用各种技术来实施机器学习共享***。根据示例实施方式,机器学习屏蔽***可以包括一个或多个机器学习模型,该机器学习模型被配置为接收共享内容流并生成识别共享内容流中的敏感内容区域的一个或多个掩码。该***可以生成敏感信息被屏蔽的修改的内容流,使得它在共享内容的显示中不可见。示例机器学习模型可以包括检测模型、识别模型、分类模型、聚类模型或其他模型。
根据示例实施方式,机器学习屏蔽***可以包括机器学习模型,该机器学习模型被配置为分析表示共享内容流的图像数据,以便识别敏感信息。在一些示例中,可以使用机器学习图像分类模型。机器学习屏蔽***可以包括帧生成器(frame generator),该帧生成器被配置为接收与其他用户(例如视频会议的参与者或投影仪显示器的观众)共享的内容流。帧生成器可以将内容流转换成图像数据,以供机器学习模型处理。帧生成器可以将各种内容类型(包括文本内容、视频内容等)转换成图像数据进行处理。在一些实施方式中,帧生成器可以从源内容生成多个图像帧。帧生成器可以向机器学习模型提供图像帧。每个图像帧可以包括表示源内容的至少一部分的图像数据。
在一些示例中,机器学习模型可以对接收到的图像帧中的内容进行一个或多个分类、聚类、检测、识别等。响应于识别一个或多个图像帧内的敏感内容,模型可以定位包含敏感信息的源内容的一个或多个区域。该模型可以生成表示包含敏感信息的源内容区域的一个或多个掩码。例如,该模型可以生成识别从帧生成器接收的一个或多个图像帧内的区域的掩码。
根据公开的技术的一个示例方面,机器学习模型可以将图像帧分割或划分为表示源内容的内容部分的一组逻辑分区。可以使用图像分割或其他技术来生成逻辑分区。该模型可以识别对应于敏感内容的一个或多个逻辑分区。可以根据一个或多个逻辑分区来生成掩码。例如,掩码可以表示对应于一个或多个逻辑分区的源内容的一个或多个区域。
根据一些方面,由模型生成的掩码被提供给渲染引擎(rendering engine),该渲染引擎生成屏蔽的内容流,其中由掩码识别的区域中的源内容是不可见的。在一些示例中,该模型生成一个或多个低分辨率掩码,这些掩码被提供给细化引擎(refinement engine),该细化引擎生成一个或多个细化掩码,这些掩码又被提供给渲染引擎。细化引擎可以从源内容接收图像数据,例如视频纹理数据。细化引擎可以生成细化的或高分辨率的掩码,该掩码更精确地定义包含敏感内容的区域。使用低分辨率掩码或细化掩码,渲染引擎可以生成具有敏感信息被屏蔽而不显示的内容流。渲染引擎可以利用各种技术来屏蔽敏感信息。举例来说,渲染引擎可以隐藏、覆盖和/或替换敏感信息。在一些示例中,渲染引擎可以渲染在由掩码识别的区域中的一种或多种表示性颜色。渲染引擎可以从源内容中确定表示性颜色,例如是来自源内容的颜色值的平均值的表示性颜色。可以使用其他技术来确定表示性颜色。渲染引擎可以通过在由掩码所识别的区域处渲染表示性颜色来替换或屏蔽在所识别区域处的源内容。在其他示例中,可以使用其他表示性内容来代替敏感信息,例如水印、灰度、黑色或其他内容。
屏蔽***可以提供被屏蔽的内容以供一个或多个应用显示。例如,源内容可以源自客户端网络浏览器访问的一个或多个网页。视频会议中的第一参与者或投影仪***的用户可以选择网络浏览器内容,以在视频会议中共享或由投影仪***显示。屏蔽***可以生成被提供给网络浏览器用于显示的被屏蔽的内容流。视频会议***或投影仪***可以使用客户端网络浏览器来显示被屏蔽的内容。
根据本公开的一个示例方面,机器学习屏蔽***可以跟踪表示要共享的源内容的帧之间的敏感信息。例如,源内容内的敏感信息的位置可以随着帧在共享内容流中前进而改变。屏蔽***可以识别包含敏感信息的区域,并跟踪帧之间的那些区域。因此,屏蔽***可以确定表示源内容的第一帧包含源内容的第一区域中的敏感信息,并且第二帧包含源内容的第二区域中的敏感信息。该模型可以生成识别第一帧中的第一区域的第一掩码和识别第二帧中的第二区域的第二掩码。以这种方式,该***可以跟踪和屏蔽表示源内容的连续帧中的敏感信息。
本公开的另一示例方面涉及用于训练一个或多个模型来识别敏感信息或内容(例如个人信息、广告、专有信息、机密信息等)的技术。可以使用训练计算***来训练模型,该训练计算***包括一个或多个计算设备,例如被配置为云计算环境的一个或多个服务器。在一些示例中,当在计算设备(例如本地计算设备)处提供一个或多个模型时,该一个或多个模型可以被额外地或交替地训练。在一些示例中,模型可以在服务器计算设备处被训练,并且稍后通过基于响应于特定用户和/或特定设备而生成的数据的额外训练来细化。
机器学习***的模型可以在训练计算***中被训练,例如通过使用损失函数的误差的反向传播。训练计算***可以优化用于生成指示共享内容流内敏感内容的推断的模型。训练计算***可以获得与示例实施方式中的模型相关联的训练约束。模型训练计算***可以基于训练数据集和训练约束来训练模型。训练计算***可以通过基于训练约束和训练数据集确定损失函数的一个或多个参数来训练机器学习模型。模型训练计算***可以至少部分地基于损失函数的一个或多个参数来修改机器学习模型的至少一部分。例如,可以基于损失函数的子梯度的反向传播来修改机器学习***的一个或多个模型。
根据公开技术的一个示例方面,可以通过获得描述机器学习模型的数据以及获得一个或多个训练数据集来训练机器学习模型,所述一个或多个训练数据集包括被标记以指示是否存在敏感内容的图像数据。训练数据可以包括正面训练数据和/或负面训练数据。训练数据可以是人类注释的或机器注释的,以指示训练数据中包含敏感信息的区域。该***可以基于训练数据来训练机器学习模型。该***可以基于一个或多个训练数据集来确定损失函数的一个或多个参数。该***可以至少部分地基于损失函数的一个或多个参数来修改机器学习模型的至少一部分。例如,可以基于损失函数来修改一个或多个权重或其他模型属性。
根据本公开的一个示例方面,机器学习屏蔽***可以由参与视频会议或投影显示的客户端计算设备来实施。例如,屏蔽***可被实施为客户端计算设备处的网络浏览器应用内的瘦客户端。在另一示例中,屏蔽***可以被实施为专用应用(例如视频会议或内容共享应用)内的胖客户端。以这种方式,在从客户端计算设备发送内容之前,由客户端计算设备的用户共享的源内容可以被分析和渲染,并隐藏敏感信息。以这种方式,不从客户端计算设备传送敏感信息,这可以提高共享用户的安全性和隐私。
根据示例实施方式的屏蔽***的客户端侧实施可以包括直接在客户端网络浏览器或其他网络应用中执行的机器学习***。这种基于网络的处理流程类型能够在大多数现代设备上实时的浏览器执行。机器学习***可以通过库(例如XNNPACK和/或张量流(TFLite))组合高效的设备上机器学习模型、应用编程接口(例如WebGL)以及基于网络的机器学习推断模型。在一些示例中,***的网络流程可以利用专门为网络浏览器设计的低级二进制代码格式(例如WebAssembly),该格式提高了计算繁重的任务的速度。浏览器可以将WebAssembly指令转换成比传统代码(例如,JavaScript代码)执行得更快的本机代码。
根据公开技术的一个示例方面,机器学习屏蔽***的模型推断可以在客户端机的中央处理单元(CPU)上本地执行,以实现低功耗和广泛的设备覆盖。为了能够实时执行,可以使用由API库(例如XNNPACK)加速的推断来高效地设计机器学习模型。以这种方式,机器学习***可以包括由网络浏览器实时运行的图像分割模型。根据一些示例,机器学习内容共享***的一个或多个部分可以由主机计算设备(例如主持视频会议***的服务器计算设备)来实施。
本公开提供了许多技术效果和益处。作为一个示例技术效果和益处,本公开的***和方法能够在例如对于多参与者视频会议的参与者共享内容时提高隐私和安全性。更具体地,本公开自动识别源内容中的敏感信息,并修改源内容,使得敏感信息对其他人不可见。公开的技术提供了一种机器学习共享***,该机器学习共享***利用机器学习技术来识别正被共享的源内容中的敏感信息。该***可以识别内容中包含敏感信息的特定区域,并精确地屏蔽这些区域,使其不向其他人显示。以这种方式,当通过卸载来自共享用户的识别任务和修改任务来共享内容时,***可以提高隐私和安全性。该***可以首先将内容提供给机器学习***,该机器学习***已经被训练来识别这样的内容,并且在向其他用户显示时自动屏蔽该内容。此外,通过屏蔽源内容,共享用户可以完整地看到源内容,而其他用户只能看到内容的非敏感部分。此外,通过利用图像处理技术,***可以避免解析源内容来理解其内容。这可以由***避免通过解析而对内容深度理解来进一步促进隐私。
作为另一个技术效果,本公开的***和方法还节约了计算资源。具体地,公开的技术提供了用于识别共享内容中的敏感信息的基于图像的处理技术。各种媒体或内容类型的源内容可被转换成图像数据,以供机器学习共享***处理。源内容可以被转换成多个图像帧,这些图像帧被传递给模型进行图像处理。该模型可以使用高效实时执行的图像分类器来识别敏感信息。可以使用图像数据(例如网页图像或包含敏感信息(例如各种形式、形状、颜色等的广告)的其他浏览器图像)来训练该模型。以这种方式在部署期间,***可以快速有效地识别敏感信息,并在源内容的显示中屏蔽敏感信息。这种技术可以与手动识别敏感信息并在其中生成替代内容的更为计算密集型的过程相比较。
现在参考附图,将更详细地讨论本公开的示例实施方式。
图1描绘了根据本公开的示例实施方式的示例客户端-服务器环境100。客户端-服务器环境100包括通过网络180连接并通信的客户端计算设备102和服务器计算***130。尽管描绘了单个客户端计算设备102,但是任意数量的客户端计算设备102可以被包括在客户端-服务器环境100中,并且通过网络180连接到服务器计算***130。
在一些示例实施方式中,客户端计算设备102可以是任意合适的设备,包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑或被配置为允许用户参与视频会议的任意其他计算机设备。客户端计算设备102可以包括一个或多个处理器112、存储器114、相关联的显示设备120、视频会议应用122和相机124。
一个或多个处理器112可以是任意合适的处理设备,例如微处理器、微控制器、集成电路或其他合适的处理设备。存储器114可以包括任意合适的计算***或介质,包括但不限于非暂态计算机可读介质、RAM、ROM、硬盘驱动器、闪存驱动器或其他存储设备。存储器114可以存储可由一个或多个处理器112访问的信息,包括可以被一个或多个处理器112执行的指令。指令可以是任意指令集,当由一个或多个处理器112执行时,使得一个或多个处理器112提供期望的功能。
具体地,在一些设备中,存储器114可以存储用于客户端计算设备102和服务器计算***130之间的视频会议(例如,一个或多个视频会议应用122等)的指令。客户端计算设备102可以实施指令以执行本公开的各方面,包括引导与服务器计算***130的通信、向用户提供视频会议应用122和/或视频流、处理来自用户的执行内容共享的请求、识别共享内容中的敏感信息、以及自动屏蔽共享显示中的这种敏感信息。
应当理解,术语“***”可以指专用硬件、在更通用的处理器上执行的计算机逻辑或者其某种组合。因此,***可以用硬件、专用电路、固件和/或控制通用处理器的软件来实施。在一个实施方式中,***可以被实施为存储在存储设备上、加载到存储器中并由处理器执行或可以由计算机程序产品提供的程序代码文件,例如存储在有形的计算机可读存储介质(例如RAM、硬盘或光学介质)中的计算机可执行指令。
存储器114还可以包括数据116,例如视频会议数据(例如在客户端计算设备102处捕捉的或从服务器计算***130接收的),其可以被一个或多个处理器112检索、操作、生成或存储。在一些示例实施方式中,这样的数据可以在视频会议期间被访问并显示给客户端计算设备102的一个或多个用户,或者被传输给服务器计算***130。
客户端计算设备102可以执行视频会议应用122。视频会议应用可以从相机124捕捉图像数据,并将该数据传输到服务器计算***。客户端计算设备102可以从服务器计算***130接收来自视频会议的一个或多个其他参与者(例如其他客户端计算设备102)的图像数据。然后客户端计算设备102可以在相关联的显示设备120上向客户端计算设备102的用户显示接收到的图像数据。在一些示例实施方式中,相机124从一个或多个用户收集图像数据。相机可以是能够捕捉视觉数据的任意设备。
更具体地,客户端计算设备102可以从服务器计算***130接收一个或多个视频流。作为示例,客户端计算设备102可以在相关联的显示设备120(例如,笔记本电脑显示设备、智能手机显示设备、通信连接的显示设备等)中显示接收到的视频流。例如,客户端计算设备102可以从第一客户端设备处的第一用户接收请求,以在由视频会议***提供的GUI内共享内容。GUI可以包括多个视频板(slate),这些视频板包括与一个或多个用户的相应视频流相关联的一个或多个视频板。内容可以共享在相应的客户端设备处的参与者可查看的视频板中。
额外地或替代地,在一些实施中,客户端计算设备102可以生成视频流并将该视频流发送给服务器计算***130(例如,经由网络180)。更具体地,客户端计算设备102可以使用相机124(例如,集成的网络摄像头、通信连接的相机设备等)来捕捉视频流。客户端计算设备102可以对所捕捉的视频进行编码(例如,如指令118所指定的等)。
根据一些示例实施方式,服务器计算***130可以包括一个或多个处理器132、存储器134和视频会议***140。存储器134可以存储可由一个或多个处理器132访问的信息,包括可由处理器执行的指令138和数据136。
服务器计算***130可以使用未示出的网络通信设备与一个或多个客户端机计算设备102通信。网络180可以是任意类型的通信网络,例如局域网(例如,内联网)、广域网(例如,互联网)或其某种组合。一般而言,客户端计算设备102和服务器计算***130之间的通信可以经由网络接口使用任意类型的有线和/或无线连接、使用各种通信协议(例如TCP/IP、HTTP、RTP、RTCP等)、编码或格式(例如HTML、XML)和/或保护方案(例如VPN、安全HTTP、SSL)来承载。
服务器计算***130可以包括视频会议***140。在一些实施方式中,视频会议***140可以被配置为便于操作由一个或多个客户端计算设备102执行的视频会议应用122。作为示例,视频会议***140可以从分别与多个视频会议参与者相关联的多个客户端计算设备102(例如,经由网络180)接收视频流。视频会议***140可以向每个客户端计算设备102提供视频流。此外,视频会议***140可以管理所提供的流质量。在一些实施方式中,视频会议***140可以通过向客户端计算设备102发送请求来管理所提供的流质量,以提供具有特定质量和/或分辨率的视频流。以这种方式,服务器计算***130可以利用视频会议***140来促进每个客户端计算设备102上的视频会议应用122的功能。
注意,在示例实施方式中,视频会议应用122可以被认为是视频会议***140的部分。此外,尽管图1描绘了视频会议***示例,但是将会理解投影仪***可以类似地实施。例如,根据本公开的示例实施方式,客户端计算设备102可以与渲染共享内容的投影仪通信。
图2描绘了根据本公开的示例实施方式的多参与者视频会议应用122和视频会议***140的示例图形用户界面。如301所示,客户端设备302(例如,智能手机、平板电脑、笔记本电脑等)可以在GUI 305的主显示区域或主视频板304中显示第一参与者310的视频流。在一些示例中,第一参与者310的发言角色可以是主导发言角色(例如,当前正在发言的参与者等)并且是基于第一参与者310的主导发言角色,客户端设备302可以在主视频板304中显示第一参与者310的视频流。尽管主视频板304被描绘为使用客户端设备302的整个显示器,但是应当注意,主视频板304不是必须这样做的。作为示例,主视频板304可以使用客户端设备302的80%的可用显示器。
客户端设备302可以在视频板306A和306B中显示第二参与者308的视频流和第三参与者312的视频流。例如,第二参与者308和第三参与者312的发言角色可以是非主导发言角色(例如,当前没有发言的参与者等)。基于第二参与者308和第三参与者312的非主导发言角色,客户端设备302可以分别在视频板306A和306B中显示第二参与者308和第三参与者312的视频流。额外地或替代地,应当注意,视频板306A和306B不是必须覆盖在主视频板304上。在一些实施方式中,视频板306A和306B可以替代地显示在主视频板304附近。此外,仅通过示例的方式提供了三个视频板。多参与者视频会议可以包括任意数量的视频板和相关联的视频流。
如301所示,图形用户界面(GUI)305包括共享视频板307,其中第一参与者与视频会议的其他参与者共享数字内容。在该示例中,视频板307显示可以使用网络浏览器客户端渲染的网页309。当视频会议的第一参与者与网络浏览器交互时,网络浏览器可以实时响应和改变。例如,第一参与者可以浏览网络、点击链接、滚动、搜索、以及做用户使用网页浏览器会做的所有典型的事情。共享视频板可以为视频会议***渲染各种内容和各种应用的显示以便于共享。举例来说,网络浏览器能够执行超文本标记语言(HTML)或其他代码来渲染网页309的显示。
在图2的示例中,网页309包括广告311。在许多情况下,网页中渲染的广告是基于与客户端设备相关联的人口统计或其他信息来个性化的。由网页渲染的这种广告对于共享用户的浏览历史或PII类型的偏好来说可能是非常私人的。虽然网页309上的广告311在图2中示出为敏感内容的示例,但是将会理解,多种类型的个人信息可以被包括在网页309或被共享的其他类型的内容中。例如,敏感信息可以包括广告、个人信息、机密信息、专有信息或***被训练来检测的任意其他类型的信息。
图3描绘了根据本公开的选择性屏蔽技术的包括网页309的渲染的客户端设备302和图形用户界面305。如图3所示,广告308在网页309的渲染中被屏蔽,使得敏感信息对视频会议的其他参与者不可见。当网页309中的敏感信息被用户与其他个人(例如投影显示的观众或视频会议的参与者)共享时,机器学习共享***可以选择性地屏蔽网页309中的敏感信息。该***可以自动将广告311识别为敏感内容,并屏蔽该内容,使得它在渲染的网页显示中对其他用户不可见。***可以生成识别网页309中包含敏感内容的区域的掩码。如313所示,使用该掩码,***可以渲染包括网页309的GUI 305,其中敏感内容在由掩码识别的一个或多个区域被屏蔽。举例来说,该***可以分析共享内容并确定表示该内容的一种或多种颜色。如313所示,***可以在由掩码识别的一个或多个区域处渲染一种或多种表示性颜色。在另一示例中,***可以渲染水印、灰度或其他内容来代替敏感内容。
图4描绘了根据本公开的示例实施方式的包括投影仪354和笔记本电脑352的显示***的示例图形用户界面。投影仪354或显示***的其他部件可以选择性地屏蔽共享内容流的显示中的敏感信息。投影仪354或与投影仪通信的其他设备可以访问要共享的内容流,使用机器学习模型来分析内容以识别内容中的敏感信息,以及渲染内容的显示以供投影给其他观看者,使得敏感信息不可见。例如,投影仪可以通过隐藏、替换或补充内容来屏蔽敏感信息,使得敏感信息在被投影的内容显示中不可见。如图4所示,广告308在网页309的渲染中被屏蔽,使得敏感信息对视频会议的其他参与者不可见。使用掩码,***可以渲染包括网页309的GUI,敏感内容在由掩码识别的一个或多个区域被屏蔽,如313所示。
图5是描绘根据本公开的示例实施方式的示例机器学习共享***的框图。举例来说,视频会议***、投影仪***或其他内容共享***可以包括机器学习共享***402,其被配置为分析由第一用户共享的输入内容流,识别内容中的敏感信息,并为其他人渲染内容的显示,使得敏感信息不可见。例如,视频会议***可以通过隐藏、替换或补充内容来屏蔽敏感信息,使得敏感信息在视频会议的其他参与者的内容显示中不可见。
机器学习共享***402可被提供用于选择性地屏蔽由第一用户与其他用户(例如视频会议的参与者或投影显示的观众)共享的内容中的敏感信息。机器学习共享***402可以接收由第一用户共享的输入内容流,例如网页、文档、视频、幻灯片等。共享***可以将内容流输入到机器学习屏蔽***404中,该机器学习屏蔽***404被配置为识别要共享的内容中的敏感信息。机器学习屏蔽***404可以包括一个或多个机器学习模型,这些模型被训练来识别敏感信息,例如内容中的个人、机密和/或专有信息。可以通过使用训练数据训练模型来训练机器学习模型识别不同类型的敏感信息,该训练数据包括被标记以识别要定位的目标敏感信息的内容。机器学习模型可以检测共享内容中包含敏感信息的一个或多个区域,并生成表示该一个或多个区域的一个或多个掩码。该***可以渲染或以其他方式提供修改的内容流408,该内容流408屏蔽检测到的区域,使得敏感信息不可见。该***可以通过隐藏、替换、覆盖、模糊或以其他方式使敏感信息在其他用户可查看的内容的显示中不可见来屏蔽敏感信息。可以使用各种技术来实施机器学习共享***。根据示例实施方式,机器学习屏蔽***可以包括一个或多个机器学习分类、识别、检测、聚类模型,这些模型被配置为接收源内容流并生成表示源内容流内的敏感内容区域的一个或多个屏蔽。***可以生成敏感信息被屏蔽的修改的内容流,使得它在共享内容的显示中不可见。
图6是描绘根据本公开的示例实施方式的示例机器学习屏蔽***的框图。图6描绘了由参与视频会议或投影显示的客户端计算设备实施的机器学习屏蔽***的示例。例如,屏蔽***可被实施为客户端机计算设备处的网络浏览器应用内的瘦客户端。在另一个示例中,屏蔽***可以被实施为专用应用(例如视频会议或内容共享应用)内的胖客户端。以这种方式,在从客户端计算设备发送内容之前,可以分析和渲染要由客户端计算设备的用户共享的源内容,并隐藏敏感信息。以这种方式,不从客户端计算设备传送敏感信息,可以提高共享用户的安全性和隐私。根据一些示例,机器学习内容共享***的一个或多个部分可以由主机计算设备(例如主持视频会议***的服务器计算设备)来实施。
在示例实施方式中,机器学习屏蔽***404可以由源应用520执行或者与源应用520相关联。源应用可以是网络浏览器、游戏应用或能够生成共享内容的其他应用。源应用可以提供全屏共享,例如由操作***管理的桌面。源应用520可以向机器学习屏蔽***404提供输入内容流。
机器学习屏蔽***404包括机器学习模型504,该机器学习模型504被配置为分析表示共享内容流的图像数据,以便识别敏感信息。示例机器学习模型可以包括检测模型、识别模型、分类模型、聚类模型或其他模型。机器学习屏蔽***包括帧生成器502,该帧生成器502被配置为接收将与其他用户(例如视频会议的参与者或投影仪显示器的观众)共享的输入内容流。帧生成器502可以将内容流转换成图像数据,以供机器学习模型504处理。帧生成器可以将各种内容类型(包括文本内容、视频内容等)转换成图像数据进行处理。在一些实施方式中,帧生成器502可以从源内容生成多个图像帧。帧生成器502可以向机器学习模型504提供图像帧。每个图像帧可以包括表示至少一部分源内容的图像数据。
机器学习模型504可以通过对接收到的图像帧中的内容执行一个或多个检测、聚类、分类等来生成一个或多个推断。响应于识别一个或多个图像帧内的敏感内容,模型504可以识别包含敏感信息的源内容的一个或多个区域。该模型可以生成识别包含敏感信息的源内容的区域的一个或多个掩码。例如,模型504可以生成识别从帧生成器接收的一个或多个图像帧内的区域的掩码。
根据公开技术的一个示例方面,机器学习模型504可以将图像帧分割或以其他方式划分成表示源内容的内容部分的一组逻辑分区。可以使用图像分割或其他技术来生成逻辑分区。模型504可以识别对应于敏感内容的一个或多个逻辑分区。可以根据一个或多个逻辑分区来生成掩码。例如,掩码可以识别对应于一个或多个逻辑分区的源内容的一个或多个区域。
由模型生成的掩码可被提供给渲染引擎508,该引擎508生成被屏蔽的内容流,其中由掩码识别的区域中的源内容是不可见的。在一些示例中,该模型生成一个或多个低分辨率掩码,这些掩码被提供给细化引擎506,细化引擎506生成一个或多个细化掩码,这些掩码又被提供给渲染引擎508。细化引擎可以从源内容接收图像数据,例如视频纹理数据530。细化引擎可以生成更精确地定义包含敏感内容的区域的细化的或高分辨率的掩码。使用低分辨率掩码或细化掩码,渲染引擎508可以生成被屏蔽的内容流,其中敏感信息被屏蔽而不显示。渲染引擎可以利用各种技术来屏蔽敏感信息。举例来说,渲染引擎可以隐藏、覆盖和/或替换敏感信息。在一些示例中,渲染引擎可以在由掩码识别的区域中显示一种或多种表示性颜色。渲染引擎可以从源内容中确定表示性颜色,例如作为来自源内容的颜色值的平均值的表示性颜色。可以使用其他技术来确定表示性颜色。渲染引擎可以通过在由掩码所识别的区域处渲染表示性颜色来替换或以其他方式屏蔽所识别的区域处的源内容。在其他示例中,可以使用其他代表性内容来代替敏感信息,例如水印、灰度、黑色或其他内容。
屏蔽***可以提供屏蔽的源内容以供一个或多个应用显示。例如,源内容可以源自客户端网络浏览器访问的一个或多个网页。视频会议的第一参与者或投影仪***的用户可以选择网络浏览器内容,以在视频会议中共享或由投影仪***显示。屏蔽***可以生成被提供给网络浏览器用于显示的屏蔽内容流。视频会议***或投影仪***可以使用客户端网络浏览器来显示被屏蔽的内容。
图7是描绘根据本公开的示例实施方式的选择性地屏蔽共享内容中的敏感信息的示例方法的流程图。方法600的一个或多个部分可以由一个或多个计算设备来实施,例如如图1所示的计算环境100或任意其他计算环境的一个或多个计算设备。方法600的一个或多个部分可以被实施为本文所描述的设备的硬件部件上的算法,以例如选择性地屏蔽共享内容中的敏感信息。尽管为了说明和讨论的目的,图7描绘了以特定顺序执行的步骤,但是本公开的方法不限于特定说明的顺序或安排。在不脱离本公开的范围的情况下,方法600的各个步骤可以以各种方式被省略、重新排列、组合和/或修改。
在602,方法600包括接收一个或多个请求,以流式传输用于与一个或多个其他用户(例如多参与者视频会议的参与者或投影显示的观众)共享的内容。更具体地,一个或多个计算设备可以接收一个或多个请求,以流式传输与多个参与者相关联的内容,用于在客户端设备上显示。一个或多个请求可以由与视频会议的第一参与者相关联的客户端设备发出。
在604,方法600包括将要共享的内容流的至少一部分转换成表示内容流的显示的图像数据。在一些示例中,将内容流转换成图像数据可以包括将内容流转换成多个图像帧,每个图像帧表示第一内容的至少一部分。在示例实施方式中,多个图像帧可以是表示源内容的显示时间顺序的连续图像帧。在一些示例中,帧生成器被配置为接收要被共享的内容流,并将该内容流转换成图像数据以供机器学习模型处理。帧生成器可以将各种内容类型(包括文本内容、视频内容等)转换成用于处理的图像数据。在一些实施方式中,帧生成器可以从源内容生成多个图像帧。帧生成器可以向机器学习模型提供图像帧。每个图像帧可以包括表示源内容的至少一部分的图像数据。
在606,方法600包括将图像数据输入到被配置为用于屏蔽敏感内容的机器学习模型中。在示例实施方式中,帧生成器可以输入从源内容生成的多个图像帧。
在608,方法600包括从机器学习模型接收一个或多个掩码。该一个或多个掩码识别源内容中的一个或多个敏感内容区域。机器学习模型可以对接收到的图像帧中的内容执行一个或多个分类。响应于识别一个或多个图像帧内的敏感内容,该模型可以识别包含敏感信息的源内容的一个或多个区域。该模型可以生成识别包含敏感信息的源内容的区域的一个或多个掩码。例如,该模型可以生成识别从帧生成器接收的一个或多个图像帧内的区域的掩码。在一些示例中,机器学习模型可以将图像帧分割或划分为表示源内容的内容部分的一组逻辑分区。可以使用图像分割或其他技术来生成逻辑分区。该模型可以识别对应于敏感内容的一个或多个逻辑分区。可以根据一个或多个逻辑分区来生成掩码。例如,掩码可以识别对应于一个或多个逻辑分区的源内容的一个或多个区域。
在610,一个或多个掩码选择性地被细化。在一些示例中,分类模型生成一个或多个低分辨率掩码,这些掩码被提供给细化引擎,该引擎生成一个或多个细化掩码,这些掩码又被提供给渲染引擎。细化引擎可以从源内容接收图像数据,例如视频纹理数据。细化引擎可以生成更精确地定义包含敏感内容的区域的细化的或高分辨率的掩码。
在612,方法600包括基于一个或多个掩码来渲染屏蔽敏感内容的内容流的显示。使用低分辨率掩码或细化掩码,渲染引擎可以生成屏蔽内容流,其中敏感信息被屏蔽而不显示。渲染引擎可以利用各种技术来屏蔽敏感信息。举例来说,渲染引擎可以隐藏、覆盖和/或替换敏感信息。在一些示例中,渲染引擎可以在由掩码识别的区域中渲染一种或多种表示性颜色。渲染引擎可以从源内容中确定表示性颜色,例如来自源内容的颜色值的平均值的表示性颜色。可以使用其他技术来确定表示性颜色。可以以任意形式进行屏蔽。例如,***可以在由掩码表示的一个或多个区域提供任意颜色、灰度、黑色、水印或其他内容。渲染引擎可以通过在由掩码识别的区域处渲染表示性颜色来替换或屏蔽被识别的区域处的源内容。
图8是描绘根据本公开的示例实施方式的训练机器学习共享***的示例方法700的流程图。方法700的一个或多个部分可以由一个或多个计算设备(例如,如图1所示的计算环境100或任意其他计算环境的一个或多个计算设备)来实施。方法700的一个或多个部分可以被实施为本文描述的设备的硬件部件上的算法,以例如训练机器学习模型来检测和识别共享内容中的敏感信息。在示例实施方式中,方法900可以由模型训练器1060使用如图11所示的训练数据1062来进行。
在(702),方法700包括获得描述机器学习模型的数据。示例机器学习模型可以包括检测模型、识别模型、分类模型、聚类模型或其他模型。在(704),方法700包括获得包含敏感内容标签的训练数据。训练数据可以包括被标记以识别要识别的目标敏感信息的内容。训练数据可以包括网页、视频、幻灯片、文本或被注释以指示敏感信息存在的任意其他内容。例如,数据可以被注释以指示内容显示的特定区域处的敏感信息。
在(706),训练数据被提供给机器学习模型。在(708),响应于训练数据,由机器学习模型生成一个或多个掩码。例如,响应于特定图像帧,可以生成推断指示该帧是否包含敏感信息以及可选地指示敏感信息的位置或区域。
在(710),检测与生成的掩码相关联的一个或多个误差。例如,模型训练器可以检测关于是否检测到敏感信息和/或检测到敏感信息的位置的误差。模型训练器可以确定当应该已经生成敏感信息的推断时没有生成这种推断。在另一个例子中,模型训练器可以确定当不应该已经生成敏感信息的推断时生成了推断。
在(712),可以基于检测到的误差为模型确定一个或多个损失函数参数。在一些示例中,损失函数参数可以基于机器学习模型的总体输出。损失函数参数可以应用于模型。在一些示例中,损失函数参数可以包括子梯度。可以为模型计算子梯度。
在(714),一个或多个损失函数参数被反向传播到机器学习模型。例如,被计算的子梯度可以反向传播到模型,作为(714)的一部分。
在(716),可以基于(714)的反向传播来修改机器学习模型的一个或多个部分。在一些示例中,可以基于损失函数参数的反向传播来修改机器学习模型。
图9描绘了根据本公开的示例实施方式的示例计算***1000的框图,该示例计算***1000执行推断生成,例如敏感内容的屏蔽。***1000包括通过网络1080通信地耦接的用户计算设备1002、服务器计算***1030和训练计算***1050。
用户计算设备1002可以是任意类型的计算设备,例如交互式对象、个人计算设备(例如,笔记本电脑或台式电脑)、移动计算设备(例如,智能手机或平板电脑)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任意其他类型的计算设备。
用户计算设备1002包括一个或多个处理器1012和存储器1014。一个或多个处理器1012可以是任意合适的处理设备(例如,处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是可操作地连接的一个处理器或多个处理器。存储器1014可以包括一个或多个非暂态计算机可读存储介质,例如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器1014可以存储数据1016和由处理器1012执行以使用户计算设备1002执行操作的指令1018。
用户计算设备1002可以包括机器学习模型的一个或多个部分,例如分布式神经网络的一层或多层。机器学习模型的一个或多个部分可以生成中间特征表示和/或进行推断生成,例如如本文所述的敏感内容检测和分类。机器学习模型的示例在图4和图5中示出。然而,也可以使用这些图中所示的示例***之外的***。
在一些实施中,机器学习模型的部分可以存储或包括模型的一个或多个部分(例如图像分类模型)。例如,机器学习模型可以是或可以另外包括各种机器学习模型,例如神经网络(例如,深度神经网络)或其他类型的机器学习模型,包括非线性模型和/或线性模型。神经网络可以包括前馈神经网络、递归神经网络(例如,长短期记忆递归神经网络)、卷积神经网络或其他形式的神经网络。
在一些实施中,机器学习模型的一个或多个部分可以通过网络1080从服务器计算***1030接收,存储在用户计算设备存储器1014中,然后由一个或多个处理器1012使用或实施。在一些实施中,用户计算设备1002可以实施机器学习模型的多个并行实例(例如,跨输入数据的多个实例执行并行推理生成)。
额外地或替代地对于用户计算设备处的机器学习模型的部分,服务器计算***1030可以包括机器学习模型的一个或多个部分。如本文所述,机器学习模型的部分可以生成中间特征表示和/或执行推理生成。机器学习模型的一个或多个部分可以被包括在根据客户端-服务器关系与用户计算设备1002通信的服务器计算***130中,或者被服务器计算***130存储和实施(例如,作为机器学习模型的部件)。例如,机器学习模型的部分可以由服务器计算***1030实施为网络服务(例如,图像处理服务)的一部分。因此,一个或多个部分可以在用户计算设备1002处存储和实施,和/或一个或多个部分可以在服务器计算***1030处存储和所述。服务器计算***处的一个或多个部分可以与用户计算设备处的一个或多个部分相同或相似。
用户计算设备1002还可以包括接收用户输入的一个或多个用户输入部件1022。例如,用户输入部件1022可以是对用户输入对象(例如,手指或指示笔)的触摸敏感的触敏部件。触敏部件可以用来实施虚拟键盘。其他示例用户输入部件包括麦克风、传统键盘或用户可以用来提供用户输入的其他装置。
服务器计算***1030包括一个或多个处理器1032和存储器1034。一个或多个处理器1032可以是任意合适的处理设备(例如,处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是可操作地连接的一个处理器或多个处理器。存储器1034可以包括一个或多个非暂态计算机可读存储介质,例如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器1034可以存储数据1036和由处理器1032执行以使服务器计算***1030执行操作的指令1038。
在一些实施中,服务器计算***1030包括一个或多个服务器计算设备,或者以其他方式由一个或多个服务器计算设备来实施。在服务器计算***1030包括多个服务器计算设备的情况下,这样的服务器计算设备可以根据顺序计算结构、并行计算结构或其某种组合来操作。
如上所述,服务器计算***1030可以存储或包括机器学习模型的一个或多个部分。例如,这些部分可以是或者可以包括各种机器学习模型。示例机器学习模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。参考图5和图6讨论了示例模型。
用户计算设备1002和/或服务器计算***1030可以通过与训练计算***1050的交互来训练机器学习模型1020和1040,训练计算***1050通过网络1080被通信地耦合。训练计算***1050可以与服务器计算***1030分离,或者可以是服务器计算***1030的一部分。
训练计算***1050包括一个或多个处理器1052和存储器1054。一个或多个处理器1052可以是任意合适的处理设备(例如,处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是可操作地连接的一个处理器或多个处理器。存储器1054可以包括一个或多个非暂态计算机可读存储介质,例如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等及其组合。存储器1054可以存储数据1056和由处理器1052执行以使训练计算***1050执行操作的指令1058。在一些实施中,训练计算***1050包括一个或多个服务器计算设备,或者由一个或多个服务器计算设备来实施。
训练计算***1050可以包括模型训练器1060,该模型训练器1060使用各种训练或学习技术(例如误差反向传播)来训练包括存储在用户计算设备1002和/或服务器计算***1030处的部分的机器学习模型。在如本文所述的其他示例中,训练计算***1050可以在部署之前训练机器学习模型,以便在用户计算设备1002或服务器计算***1030处提供机器学习模型。机器学习模型可以存储在训练计算***1050中用于训练,然后部署到用户计算设备1002和服务器计算***1030。在一些实施中,执行误差的反向传播可以包括随时间执行缩短的反向传播。模型训练器1060可以执行多种泛化技术(例如,权重衰减、信息丢弃(dropout)等)来提高被训练模型的泛化能力。
具体地,模型训练器1060可以基于一组训练数据1062来训练模型1020和1040。训练数据1062可以包括例如源内容数据的多个实例,其中内容数据的每个实例已经用基本事实推断(例如敏感信息的指示)标记。例如,每个训练图像的标签可以描述敏感内容的位置。在一些实施中,标签可以由人类手动应用于训练数据。在一些实施中,可以使用损失函数来训练模型,该损失函数测量预测推断和基本事实推断之间的差异。在包括单个模型的多个部分的实施中,可以使用组合损失函数来训练这些部分,该组合损失函数组合了每个部分的损失。例如,组合损失函数可以将一部分的损失与另一部分的损失相加以形成总损失。总损失可以通过模型反向传播。
在一些实现中,如果用户已经提供了许可,则训练示例可以由用户计算设备1002提供。因此,在这样的实施中,提供给用户计算设备1002的模型1020可以由训练计算***1050根据从用户计算设备1002接收的用户专用数据来训练。在某些情况下,这个过程可以被称为个性化模型。
模型训练器1060包括用于提供所需功能的计算机逻辑。模型训练器1060可以用控制通用处理器的硬件、固件和/或软件来实施。例如,在一些实施方式中,模型训练器160包括存储在存储设备上、加载到存储器中并由一个或多个处理器执行的程序文件。在其他实施方式中,模型训练器1060包括一组或多组计算机可执行指令,这些指令存储在有形的计算机可读存储介质中,例如RAM硬盘或光学或磁性介质。
网络1080可以是任意类型的通信网络,例如局域网(例如,内联网)、广域网(例如,因特网)或其某种组合,并且可以包括任意数量的有线或无线链路。一般而言,网络1080上的通信可以使用各种通信协议(例如,TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如,HTML、XML)和/或保护方案(例如,VPN、安全HTTP、SSL),经由任意类型的有线和/或无线连接来承载。
图9示出了可用于实施本公开的一个示例计算***。也可以使用其他计算***。例如,在一些实施中,用户计算设备1002可以包括模型训练器1060和训练数据1062。在这样的实施中,模型1020可以在用户计算设备1002本地训练和使用。在一些这样的实施中,用户计算设备1002可以实施模型训练器1060,以基于用户特定的数据来个性化模型1020。
图10描绘了根据本公开的示例实施方式执行的示例计算设备1110的框图。计算设备1110可以是用户计算设备或服务器计算设备。
计算设备1110包括多个应用(例如,应用1至N)。每个应用都包含自己的机器学习库和机器学习模型。例如,每个应用可以包括机器学习模型。示例应用包括文本消息应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。
如图10所示,每个应用可以与计算设备的多个其他部件通信,例如一个或多个传感器、情境管理器、设备状态部件和/或其他部件。在一些实施方式中,每个应用可以使用API(例如,公共API)与每个设备部件通信。在一些实施方式中,每个应用使用的API是专用于该应用的。
图11描绘了根据本公开的示例实施方式执行的示例计算设备1150的框图。计算设备1150可以是用户计算设备或服务器计算设备。
计算设备1150包括多个应用(例如,应用1至N)。每个应用都与中央智能层通信。示例应用包括文本消息应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中,每个应用可以使用API(例如,跨所有应用的公共API)与中央智能层(以及存储在其中的模型)通信。
中央智能层包括多个机器学习模型。例如,如图10所示,可以为每个应用提供相应的机器学习模型(例如,模型),并由中央智能层管理。在其他实施方式中,两个或更多个应用可以共享单个机器学习模型。例如,在一些实施中,中央智能层可以为所有应用提供单个模型(例如,单个模型)。在一些实施方式中,中央智能层被包括在计算设备1150的操作***中或者由计算设备1150的操作***来实施。
中央智能层可以与中央设备数据层通信。中央设备数据层可以是计算设备1150的集中式数据储存库。如图11所示,中央设备数据层可以与计算设备的多个其他部件通信,例如一个或多个传感器、情境管理器、设备状态部件和/或额外部件。在一些实施中,中央设备数据层可以使用API(例如,私有API)与每个设备部件通信。
本文讨论的技术涉及服务器、数据库、软件应用和其他基于计算机的***,以及所采取的操作和发送到这些***的信息和从这些***接收的信息。本领域的普通技术人员将认识到,基于计算机的***的固有灵活性允许部件之间的任务和功能的多种可能的配置、组合和划分。例如,本文讨论的服务器过程可以使用单个服务器或组合工作的多个服务器来实施。数据库和应用可以在单个***上实施,或分布在多个***上。分布式部件可以串行或并行操作。
虽然已经针对本发明的特定示例实施方式详细描述了本主题,但是应当理解,本领域技术人员在理解前述内容的基础上可以容易地产生这些实施方式的替换、变型和等同。因此,本公开的范围是示例性的,而不是限制性的,并且本公开不排除包括对本主题的这种修改、变化和/或添加,这对本领域普通技术人员来说是显而易见的。

Claims (20)

1.一种用于在视频会议应用内共享内容的计算机实施的方法,其特征在于,包括:
通过包括一个或多个计算设备的计算***,接收来自视频会议中的第一参与者的请求,以在所述视频会议应用内与所述视频会议的一个或多个其他参与者共享第一内容流;
通过所述计算***,将所述第一内容流的至少一部分转换成表示所述第一内容流的显示的图像数据;
通过所述计算***,将表示所述第一内容流的所述显示的所述图像数据输入到机器学习模型中,所述机器学习模型被配置用于屏蔽共享内容内的敏感内容;
通过所述计算***,从所述机器学习模型接收指示所述第一内容流内包含所述敏感内容的区域的第一掩码;以及
通过所述计算***,至少部分地基于指示具有所述敏感内容的所述第一内容流的所述区域的所述第一掩码,为所述视频会议渲染屏蔽所述敏感内容的所述第一内容流的显示。
2.根据权利要求1所述的计算机实施的方法,其特征在于,
将所述第一内容流转换成图像数据包括将所述第一内容流转换成多个图像帧,每个图像帧包括表示所述第一内容流的至少一部分的图像数据;
将表示所述第一内容流的所述显示的所述图像数据输入到所述机器学习模型中包括将所述多个图像帧输入到所述机器学习模型中;以及
所述第一掩码指示多个图像帧中的至少第一帧内的包括敏感内容的第一区域。
3.根据权利要求2所述的计算机实施的方法,其特征在于,进一步包括:
通过所述计算***,使用所述机器学习模型,将每个帧划分成一组逻辑分区;
其中所述第一掩码将多个图像帧中的所述第一帧的至少一个逻辑分区识别为包含敏感内容;
其中为所述视频会议渲染所述第一内容流的所述显示包括屏蔽所述第一帧的所述至少一个逻辑分区。
4.根据权利要求2所述的计算机实施的方法,其特征在于,进一步包括:
通过所述计算***利用所述机器学习模型,确定所述多个图像帧中的第二帧包括敏感内容;以及
通过所述计算***,从所述机器学习模型接收指示所述第二帧内包含敏感内容的第二区域的第二掩码;
其中所述第一区域和所述第二区域位于所述第一内容流的显示区域内的不同位置。
5.根据权利要求1所述的计算机实施的方法,其特征在于,进一步包括:
通过所述计算***,分析表示所述第一内容流的所述显示的所述图像数据,以确定所述第一内容流的表示性内容;
其中为所述视频会议渲染屏蔽所述敏感内容的所述第一内容流的所述显示包括渲染包含所述敏感内容的所述第一内容流内的所述区域的所述表示性内容。
6.根据权利要求1所述的计算机实施的方法,其特征在于,
所述计算***包括主机计算设备、与所述第一参与者相关联的第一客户端计算设备以及与一个或多个其他参与者相关联的至少一个其他客户端计算设备;以及
在所述第一客户端计算设备处配置所述机器学习模型。
7.根据权利要求6所述的计算机实施的方法,其特征在于,
所述视频会议应用至少部分地由所述第一客户端计算设备处的网络浏览器来实施。
8.根据权利要求1所述的计算机实施的方法,其特征在于,
所述计算***包括主机计算设备、与所述第一参与者相关联的第一客户端计算设备以及与至少一个其他参与者相关联的至少一个其他客户端计算设备;以及
所述机器学习模型被配置在所述主机计算设备处。
9.根据权利要求1所述的计算机实施的方法,其特征在于,
所述第一内容流由与所述第一参与者相关联的客户端设备的第一应用生成。
10.根据权利要求1所述的计算机实施的方法,其特征在于,
所述第一内容流是包括多种内容类型的多媒体内容流;
将所述第一内容流的至少部分转换成表示所述第一内容流的所述显示的图像数据包括将所述多媒体内容流转换成表示所述多种内容类型的图像数据。
11.根据权利要求1所述的计算机实施的方法,其特征在于,进一步包括:
通过所述计算***,获得描述所述机器学习模型的数据;
通过所述计算***,获得一个或多个训练数据集,所述一个或多个训练数据集包括被标记以指示敏感内容的图像数据;以及
通过所述计算***,基于所述一个或多个训练数据集来训练所述机器学习模型,其中训练所述机器学习模型包括:
基于所述一个或多个训练数据集来确定损失函数的一个或多个参数;以及
至少部分基于所述损失函数的一个或多个参数来修改所述机器学习模型的至少一部分。
12.一种计算***,其特征在于,包括:
一个或多个处理器;以及
存储指令的一个或多个非暂态计算机可读介质,当所述指令被所述一个或多个处理器执行时,使得所述计算***执行操作,所述操作包括:
接收来自视频会议中的第一参与者的请求,以在视频会议应用内与所述视频会议的一个或多个其他参与者共享第一内容流;
将所述第一内容流的至少一部分转换成表示所述第一内容流的显示的图像数据;
将表示所述第一内容流的所述显示的所述图像数据输入到机器学习模型中,所述机器学习模型被配置为用于屏蔽共享内容内的敏感内容;
从所述机器学习模型接收指示所述第一内容流内包含所述敏感内容的区域的第一掩码;以及
至少部分地基于指示具有所述敏感内容的所述第一内容流的所述区域的所述第一掩码,为所述视频会议渲染屏蔽所述敏感内容的所述第一内容流的显示。
13.根据权利要求12所述的计算***,其特征在于,其中:
将所述第一内容流转换成图像数据包括将所述第一内容流转换成多个图像帧,每个图像帧包括表示所述第一内容流的至少部分的图像数据;
将表示所述第一内容流的所述显示的所述图像数据输入到所述所述机器学习模型中包括将所述多个图像帧输入到所述机器学习模型中;以及
所述第一掩码指示多个图像帧中的至少第一帧内包括敏感内容的第一区域。
14.根据权利要求13所述的计算***,其特征在于,其中所述操作进一步包括:
通过所述机器学习模型,将每个帧划分成一组逻辑分区;
其中所述第一掩码将多个图像帧中的所述第一帧的至少一个逻辑分区识别为包含敏感内容;以及
其中为所述视频会议渲染所述第一内容流的所述显示包括屏蔽所述第一帧的至少一个逻辑分区。
15.根据权利要求13所述的计算***,其特征在于,其中所述操作进一步包括:
利用所述机器学习模型确定多个图像帧中的第二帧包括敏感内容;以及
从所述机器学习模型接收指示所述第二帧内包含敏感内容的第二区域的第二掩码;
其中所述第一区域和所述第二区域位于所述第一内容流的显示区域内的不同位置。
16.根据权利要求15所述的计算***,其特征在于,所述视频会议应用至少部分地由客户端计算设备处的网络浏览器来实施。
17.一个或多个非暂态计算机可读介质,其特征在于,所述一个或多个非暂态计算机可读介质存储指令,当所述指令由计算***的一个或多个处理器执行时,使得计算***执行操作,所述操作包括:
接收用于向一个或多个用户显示的第一内容流;
将所述第一内容流转换成多个图像帧,所述多个图像帧包括表示所述第一内容流的至少一部分的图像数据;
将所述多个图像帧输入到机器学习模型中,所述机器学习模型被配置为用于屏蔽共享内容内的敏感内容;
从所述机器学习模型接收指示所述第一内容流内包含所述敏感内容的区域的第一掩码;以及
至少部分地基于指示具有所述敏感内容的所述第一内容流的所述区域的所述第一掩码,渲染屏蔽所述敏感内容的所述第一内容流的显示。
18.根据权利要求17所述的一个或多个非暂态计算机可读介质,其特征在于,进一步包括:
通过所述机器学习模型将每个帧划分成一组逻辑分区;
其中所述第一掩码将所述多个图像帧中的第一帧的至少一个逻辑分区识别为包含敏感内容;以及
其中渲染所述第一内容流的所述显示包括屏蔽所述第一帧的至少一个逻辑分区。
19.根据权利要求17所述的一个或多个非暂态计算机可读介质,其特征在于,其中所述第一掩码指示所述多个图像帧中的至少第一帧内包括敏感内容的第一区域,所述操作进一步包括:
利用所述机器学习模型确定所述多个图像帧中的第二帧包括敏感内容;以及
从所述机器学习模型接收指示所述第二帧内包含敏感内容的第二区域的第二掩码;
其中所述第一区域和所述第二区域位于所述第一内容流的显示区域内的不同位置。
20.根据权利要求17所述的一个或多个非暂态计算机可读介质,其特征在于,其中:
所述第一内容流是包括多种内容类型的多媒体内容流;以及
将所述第一内容流转换成多个图像帧表示包括将所述多媒体内容流转换成表示所述多个内容类型的图像数据。
CN202280029825.9A 2021-06-02 2022-06-02 用于协作计算的选择性内容屏蔽 Pending CN117296328A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN202141024542 2021-06-02
IN202141024542 2021-06-02
PCT/US2022/031976 WO2022256539A1 (en) 2021-06-02 2022-06-02 Selective content masking for collaborative computing

Publications (1)

Publication Number Publication Date
CN117296328A true CN117296328A (zh) 2023-12-26

Family

ID=82608586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280029825.9A Pending CN117296328A (zh) 2021-06-02 2022-06-02 用于协作计算的选择性内容屏蔽

Country Status (4)

Country Link
US (1) US20240089537A1 (zh)
EP (1) EP4272456A1 (zh)
CN (1) CN117296328A (zh)
WO (1) WO2022256539A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713794B1 (en) * 2017-03-16 2020-07-14 Facebook, Inc. Method and system for using machine-learning for object instance segmentation
US10860919B2 (en) * 2017-09-27 2020-12-08 Google Llc End to end network model for high resolution image segmentation
US10834456B2 (en) * 2019-03-28 2020-11-10 International Business Machines Corporation Intelligent masking of non-verbal cues during a video communication
CN113906765B (zh) * 2019-05-29 2024-05-31 苹果公司 对与物理环境相关联的位置特定数据进行模糊处理的方法和设备
WO2021033853A1 (en) * 2019-08-21 2021-02-25 Samsung Electronics Co., Ltd. Method and system for processing content having sensitive portion
US11006077B1 (en) * 2020-08-20 2021-05-11 Capital One Services, Llc Systems and methods for dynamically concealing sensitive information

Also Published As

Publication number Publication date
US20240089537A1 (en) 2024-03-14
WO2022256539A1 (en) 2022-12-08
EP4272456A1 (en) 2023-11-08

Similar Documents

Publication Publication Date Title
US10388002B2 (en) Automatic image correction using machine learning
JP7490004B2 (ja) 機械学習を用いた画像カラー化
CN108537859B (zh) 使用深度学习的图像蒙板
US10529109B1 (en) Video stream customization using graphics
US10593085B2 (en) Combining faces from source images with target images based on search queries
US11069094B1 (en) Generating realistic makeup in a digital video stream
CN114072850A (zh) 使用深度来减去视频背景
US10032303B2 (en) Scrolling 3D presentation of images
Nagendran et al. Avatar led interventions in the Metaverse reveal that interpersonal effectiveness can be measured, predicted, and improved
US20230123005A1 (en) Real-time video dimensional transformations of video for presentation in mixed reality-based virtual spaces
JP2009077380A (ja) 画像修正方法、画像修正システム、及び画像修正プログラム
US20230300292A1 (en) Providing shared augmented reality environments within video calls
US20230164298A1 (en) Generating and modifying video calling and extended-reality environment applications
US11842442B2 (en) Camera reprojection for faces
US20230222721A1 (en) Avatar generation in a video communications platform
US20230306610A1 (en) Image alteration system and method
US11430158B2 (en) Intelligent real-time multiple-user augmented reality content management and data analytics system
CN111274447A (zh) 基于视频的目标表情生成方法、装置、介质、电子设备
CN117296328A (zh) 用于协作计算的选择性内容屏蔽
US20230360282A1 (en) Generating shared augmented reality scenes utilizing video textures from video streams of video call participants
US11644685B2 (en) Processing stereo images with a machine-learning model
US20230368444A1 (en) Rendering customized video call interfaces during a video call
US20240104312A1 (en) Photorealistic Text Inpainting for Augmented Reality Using Generative Models
Uddin et al. Immersive Communication with Augmented Reality Headset
CN117917068A (zh) 安全和隐私保护的视频表示

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination