TW202316373A - 針對多層顯像中之物件辨識性的系統及方法 - Google Patents

針對多層顯像中之物件辨識性的系統及方法 Download PDF

Info

Publication number
TW202316373A
TW202316373A TW111126583A TW111126583A TW202316373A TW 202316373 A TW202316373 A TW 202316373A TW 111126583 A TW111126583 A TW 111126583A TW 111126583 A TW111126583 A TW 111126583A TW 202316373 A TW202316373 A TW 202316373A
Authority
TW
Taiwan
Prior art keywords
layer
objects
overlapping
determining
classification
Prior art date
Application number
TW111126583A
Other languages
English (en)
Inventor
達曼德拉 艾特瓦盧
大衛 卡斯珀
Original Assignee
美商摩比厄斯工業股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/675,975 external-priority patent/US11586835B2/en
Priority claimed from US17/675,950 external-priority patent/US11475610B1/en
Application filed by 美商摩比厄斯工業股份有限公司 filed Critical 美商摩比厄斯工業股份有限公司
Publication of TW202316373A publication Critical patent/TW202316373A/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/945User interactive design; Environments; Toolboxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

一種在一裝置上產生顯像的方法、系統、及電腦可讀媒體,包含:將來自多數個來源的內容結合成一顯像,來自該多數個來源各者的內容係呈現為該顯像的一層,並且,其中該顯像的各層具有實質相同的尺寸;偵測在所產生的該顯像的各層中的一個或多個物件;及針對所偵測的該等物件其中一個或多個,確定物件類型或分類;確定該物件是否正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件;及確定該物件是否由於一觀看者的運動、位向、或目光而對該觀看者將呈現成如同交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件。

Description

針對多層顯像中之物件辨識性的系統及方法
相關專利及申請案的交互參照:本申請案主張以下申請案之優先權:於西元2022年3月31日申請的PCT/US2022/022840,於西元2022年3月30日申請的美國申請案第17/708,656號,於西元2022年2月18日申請的美國申請案第17/675,950號,於西元2022年2月18日申請的美國申請案第17/675,975號,於西元2021年9月27日申請的美國臨時申請案第63/248,800號,以及於西元2021年7月16日申請的美國臨時申請案第63/222,757號。上述申請案的全部揭露內容係通過參照於此併入用於所有目的。
本發明係關於顯像的產生。
在許多情況下,使人能夠有效地理解顯示的內容並與之互動是重要的。然而,隨著內容類型和資訊複雜性增加,單層顯像變得更加堆滿了物件,且對傳達資訊和協助用戶執行任務效果較差。
本揭露內容的實施例旨在克服先前方式的這個和其他缺點。
如本文所用的術語「發明」、「此發明」、「這個發明」、「本發明」、「本揭露內容」或「此揭露內容」旨在泛指本文件中描述的所有申請標的、圖式或圖示,以及請求項。包含這些術語的陳述不應理解為限制此處描述的申請標的或限制請求項的含義或範圍。本揭露內容所涵蓋的實施例由請求項而非此發明內容章節限定。此發明內容章節是本揭露內容的各種態樣的高階概述,並且介紹了在下面的實施方式章節中進一步描述的一些概念。此發明內容章節並非旨在確定所請申請標的之關鍵、必要或必需的特徵,也不旨在單獨用於確定所請申請標的之範圍。應通過參照整個說明書的適當部分、任何或所有圖示或圖式、以及各個請求項,來理解申請標的。
本揭露內容係針對一種在一裝置上產生顯像的方法、系統、及電腦可讀媒體,包含:將來自多數個來源的內容結合成一顯像,其中來自該多數個來源各者的內容係呈現為該顯像的一層,並且,其中該顯像的各層具有實質相同的尺寸;偵測在所產生的該顯像的各層中的一個或多個物件;及針對所偵測的該等物件其中一個或多個,確定物件類型或分類;確定該物件是否正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件;確定該物件是否由於一觀看者的運動、位向、或目光而對該觀看者將呈現成如同交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件;及基於該物件類型或分類、確定該物件正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件、或確定該物件對觀看者將呈現成如同交疊於或遮蔽在一不同層中的一物件,基於一規則或訓練模型,修改該物件的特性。
在閱讀實施方式章節和所包含的圖示之後,所描述的系統和方法的其他目的和優點對於所屬技術領域具有通常知識者將是顯而易見的。在整個圖式中,相同的參考符號和描述表示相似但不一定相同的元件。儘管此處描述的示例性實施例可能進行各種修改和替代形式,但特定實施例已在圖式中以示例為目的顯示並且將在此處詳細描述。然而,此處描述的示例性實施例不旨在限於所揭露的形式。而是,本揭露內容涵蓋落入隨附請求項範疇之內的所有修飾、等效物、及替代物。
本揭露內容的實施例的申請標的在此具體描述以滿足法定要求,但該描述並非旨在限制請求項的範圍。所請申請標的可以以其他方式體現,可以包括不同的要件或步驟,並且可以與其他現有或以後開發的技術結合使用。該描述不應解釋為隱含各種步驟或要件之間的任何所需順序或佈置,除非明確指出個別步驟的順序或要件佈置是需要的。
此處將參照隨附圖式更全面地描述本揭露內容的實施例,隨附圖式形成了本揭露內容的一部分,並且以說明為目的顯示可以實施本揭露內容的示例性實施例。然而,本揭露內容可以以不同的形式體現並且不應解釋為限於此處所述的實施例;實際上,提供這些實施例是為了使本揭露內容滿足法定要求並將本揭露內容的範圍傳達給所屬技術領域具有通常知識者。
一種可以減少混亂並更有效地傳達資訊的方式是,藉由構建一多層顯像而在不同層中顯示物件。然而,當查看包括多個層且每層中具有不同物件的一顯像時,在一層中的物件或文字,如果受到另一層中的物件或文字即使是部分地遮蔽,可能難以加以辨別。此外,當有來自多個來源的多個物件複合並呈現在一起時,希望選擇一個或多個這樣的物件的人或電腦可能無法以有效的方式進行。
因此,在一些實施例中,所揭露的功能和能力其中一者以上可用於實現「非接觸式計算」的一種形式,其中用戶的目光、手勢、移動、位置、位向,或由相機觀察到的其他特性係用作在計算裝置上選擇物件和執行程序的基礎。此外,因為可以調整不同層中像素的不透明度以改善在一多層顯像的一個或多個顯示層中的物件的觀看和辨識度,這也可以被認為是「透通性計算(transparent computing)」的一種形式。這種類型的計算體驗可以包括分佈在多個層中的多個物件或內容的呈現。透通性計算還可以包括用戶與3維環境互動的能力,例如藉由將物件的圖像引入到一層中並與物件互動而為執行任務的一部分。
本揭露內容針對用於多層顯像的系統、裝置及方法。在一些實施例中,此處描述的系統和方法可用於改善在一多層顯像的不同層中的物件的辨識度,其中此處使用的辨識度是指用戶對在一多層顯像的一層中的一物件進行識別、選擇或互動的能力。如將描述的,物件的辨識度可能因一情況而降低:在該情況中,一層中的一物件受到多層顯像的另一層中的一物件遮蔽或與之交疊(部分地或完全地)。當用戶或應用程式重新定位一層中的一物件或在另一層中的一物件時,該一層中的該物件的辨識度也會降低。實施例改善了可呈現在不同層中的物件的辨識度,從而使用戶或計算裝置能夠更有效地與那些物件互動,例如藉由選擇一預期物件。在一些實施例中,改善一物件的辨識度可能涉及相對於多層顯像的不同層中的一物件的外觀、分辨率、對比度、位置或其他方面而對一物件的此等性質之改變。
實施例針對解決方案,針對在多層顯像的呈現和使用中的所述限制,特別是那些由複合來源形成的顯像。這些解決方案包括(1)動態重新排列一個或多個視覺物件的位置的一種方法,(2)動態調整在多層顯像其中的一層或多層中的一個或多個視覺物件的相對視覺屬性(包括但不限於亮度、對比度、顏色、不透明度、分辨率等等)的一種方法,以及(3)動態調整物件位置和屬性二者的一種方法。如此處所描述和提及的,「視覺物件」係由數位圖形格式中(例如,數位圖片、數位視訊、或視訊視框緩衝器)的一個或多個像素加以構成,其對人和/或機器表示一元件或構造。
在一個實施例中,本揭露內容針對一種用於多層顯像的方法,該方法防止一顯像的不同層中的物件之間的明顯交疊(並且在某些情況下,由用戶或應用程式動作引起的可能交疊),例如顯像的另一層中的一物件對一層中的一物件的遮擋(部分或完全)。如將要描述的,一個物件與另一個物件的明顯或可能的交疊(有時稱為遮擋或阻礙)可能是一物件在一層中相對於另一層中的一物件的放置、物件的運動、或觀看者的視角之結果。在一個實施例中,作為該方法的一部分實現的資料處理流程和相關聯的邏輯可以包括: ●       偵測一顯像的一層或多層中的物件; ○       在一些實施例中,這可以藉由對各層中所顯示的物件或內容的一來源(例如相機、計算裝置等等)的視訊視框緩衝器進行存取和檢驗來實現; ○       在一些實施例中,這可以藉由使用圖像辨識、訓練模型、或電腦視覺技術來識別和分類由多個來源的複合物所形成的多層顯像的一層中的物件來實現; ●       一旦已偵測到由多個來源的複合物所形成的該等層各者中的物件,該方法可以確定各個物件的類型或類別,其中類型或類別可以是但不限於「字母文字」、「幾何形狀」、「開啟的、正在運行的應用程式的視窗」、「人的手、臉或身體」等等其中之一; ○       在一個實施例中,此確定操作可以藉由使用經過訓練的模型來執行。例如,經過訓練的機器學習(ML)模型可以藉由以足夠數量的正確標記示例(例如,標記為「人手」的人手圖像的多個變體)對其「顯示」而加以生成。 然後,此經過訓練的模型能夠識別出它以前從未「看見」過的新資料中的人手(或其已經過訓練以分類的其他物件); ■       在一個實施例中,這樣的經訓練模型可以呈卷積類神經網路(CNN)的形式,其可以用於就類型或類別而識別和分類一物件; ●       接下來,該方法可以基於識別的物件的類型或分類(例如人手、頭部、動物、現用應用程式視窗等等)而確定如何進一步處理所偵測的物件其中一個或多個; ○       作為示例,在一個實施例中,確定該處理可以藉由評估一組規則的各者,並實現滿足此等規則的結果; ■       例如,如果偵測到人物輪廓,則該方法可以從網路相機視訊饋入的其餘部分提取人物輪廓(「背景減除」),並將其替換為數位版本。數位替換的一個理由可能是將一個或多個數位替換物重新***到複合物中,具有對顏色、亮度、對比度、大小、或分辨率的調整,以改善用戶對該物件進行辨識和互動的能力; ●       可以執行這種類型的處理來解決「視野限制」問題,從而使人物輪廓不再「丟失」在複合圖形的雜亂中,而是在「場景」中更加引人注目,從而改善內容的通訊和理解; ■       類似地,如果視覺物件係確定為字母文字,則該方法可以將文字的一個或多個數位副本重新引入複合圖形,並調整顏色、亮度、或對比度。可以執行這種類型的處理,俾使所呈現的文字更容易被觀看者閱讀和理解; ■       在一些實施例中,該方法不僅可以改變一個或多個物件的視覺屬性(例如顏色、亮度、分辨率、或對比度),而且還可以(或替代地)自動移動此等物件一者或多者的位置、大小、及/或位向; ●       作為示例,如果視訊圖像中的簡報者的眼睛正在遮擋演示投影片上的一個或多個物件,則該方法可以自動改變一個或多個物件的位置、大小、及/或位向,俾使它們不再彼此遮擋或受到簡報者的眼睛遮擋,從而提高多層顯像的有效性和實用性; ●       作為基於物件類型或類別的該物件的處理的部分(或作為額外處理步驟),可使一物件可以由用戶或機器選擇或啟動,以使用戶或機器能夠使操作執行在物件上(例如移動或重新定位)或執行與物件相關聯的操作(例如啟動支付處理或文件檢索操作); ○       此類可執行操作的示例包括但不限於: ■       支付交易的啟動; ■       啟動鏈接,導致存取一資料存儲位置或網站; ■       從指定的存儲位置(如檔案、檔案夾等等)檢索資料或文件; ■       將資料或文件傳送到所欲位置或用戶;或 ■       啟動特定應用程式;或 ■       產生一訊息; ○       類似地,在某些情況下,可能使一物件為用戶或機器無法選擇的; ●       作為基於物件類型或類別之物件處理的部分(或作為額外處理步驟),可以對第一層中的一物件是否受到第二層中的一物件遮蔽(或正在遮蔽第二層的物件)進行評估,將評估結果用作對基於類型或類別的物件處理的輸入(或用作獨立的操作),以減少或消除遮擋或交疊; ●       作為基於物件類型或類別之物件處理的部分(或作為額外處理步驟),可以對第一層中的物件是否可能在視覺上交疊或遮擋第二層中的物件執行評估,評估結果用作對基於類型或類別之物件處理的輸入(或用作獨立的操作),以減少或消除一個物件與另一個物件可能交疊的可能性或程度; ○       在一些實施例中,這可以包括基於用戶的目光、視界角等等來確定遮蔽或遮擋的可能性; ○       在一些實施例中,這可以包括由於用戶的位置、位向、運動、目光、或其他態樣而確定用戶將看到可能的交疊或遮擋; ●       在一些實施例中,該方法可以動態地調整偵測到的物件的視覺屬性(顏色、亮度、對比度等等)以及位置、大小或位向。
在一些實施例中,可以一次性執行所描述的調整。 在一些實施例中,可以連續且實質上即時地執行調整。在一些實施例中,該方法的規則、模型或演算法可能旨在確定最有可能改善對一組物件的辨識度和互動之調整方式,從而最大化對內容的理解和通訊的有效性。在此情況中,「最大化通訊」是指調整物件的特性或位置以克服或補償「視野限制」和「意圖限制」其中一者或多者,如此處所述的那些關注點。
在一些實施例中,可以使用處理技術,其自動調整場景並包括工具或用戶介面元素以允許人和/或電腦以確定何時以及如何調整物件的特性和/或位置。
在一些實施例中,一種方法可以在一單一像素、一物件、或一整個層上調整層的不透明度,以對內容的通訊和理解最大化。
在一個實施例中,本揭露內容涉及一種用於多層顯像的系統,其防止多層顯像的一層中的物件被該多層顯像的一不同層中的物件交疊或遮擋。 在一個實施例中,這可以包括確定第一層中的一物件可能由於觀看者的位置、目光、位向、運動、或動作而受到一不同層中的一物件部分地或完全地遮蔽。該系統可以包括一組電腦可執行指令以及一電子處理器或共處理器。當由處理器或共處理器執行時,指令使處理器或共處理器(或它們作為一部分的裝置)執行實現所揭露一個以上方法的一實施例的一組操作。
在一個實施例中,本揭露內容涉及一組電腦可執行指令,其中當該組指令由一電子處理器或共處理器執行時,該處理器或共處理器(或它們作為一部分的裝置)執行一組操作,其實現所揭露一個以上方法的一實施例。
除了其他特徵之外,本揭露內容可以整體或部分地體現為一系統、一種或多種方法、或一種或多種裝置。本揭露內容的實施例可以採用硬體實現的實施例、軟體實現的實施例、或結合軟體和硬體態樣的實施例的形式。例如,在一些實施例中,此處描述的操作、功能、程序、或方法其中一個或多個可以由以下實現:一個或多個合適的處理元件(例如處理器、微處理器、CPU、GPU、TPU、控制器等等),其是客戶端裝置、伺服器、網路元件、遠端平台(例如 SaaS 平台)、「雲端」服務、或其他形式的計算或資料處理系統、裝置、或平台的一部分。
該一個或多個處理元件可以用一組可執行指令(例如,軟體指令)加以編程,其中此等指令可以存儲在一個或多個合適的非暫時性資料存儲元件上(或其中)。在一些實施例中,該組指令可以藉由指令的傳送或執行一組指令的應用程式(例如通過網絡,例如網際網路)傳送給用戶。在一些實施例中,終端用戶可以藉由存取SaaS平台或通過這樣的平台提供的服務來使用一組指令或應用程式。
在一些實施例中,此處描述的操作、功能、程序、或方法其中一個或多個可以由專用形式的硬體實現,例如可編程閘陣列、特定應用積體電路(ASIC)等等。注意,此發明方法的實施例可以以下形式實現:應用程式、作為較大應用程式的一部分的子常式、「外掛程式(plug-in)」、對資料處理系統或平台的功能的延伸件,或其他合適的形式。因此,下面的詳細描述不應被理解為限制性的。
在可以應用所揭露方式的一些顯像中,可以在整體顯像的不同層中向用戶顯示物件和文字。在這樣的多層顯像中,第一層可以顯示來自第一來源的一組物件或文字,並且通過第一層至少部分可見的第二層可以顯示來自第二來源的第二組物件或文字。這種多層的顯像可以使一個以上用戶能夠在視覺上體驗多個物件和/或文字之間的深度感,或者更佳地將一組物件解譯為一群組的一部分。在一層中呈現的物件或文字最初可以獨立於另一層中的物件或文字加以確定和定位,例如藉由不同的應用程式或來源。此處揭露的技術和方法可用於改善不同層中物件的可辨識度並幫助觀看者更有效地與物件互動,從而提高對呈現內容的理解。
在授讓給本申請案的受讓人的一個或多個美國專利申請中描述的系統和方法介紹一種組合視覺內容的模式,其中多層的物件可以交疊。此功能可能會產生需要解決以幫助用戶的其他問題。例如,基於不同來源的層的複合顯像的一層中的物件(或文字)可能部分或完全地遮蔽在另一層中的一物件,無論是原始定位的還是在用戶選擇和移動之後。也可能的是,在一層中的物件(或文字)由用戶或應用程式引起移動,並且在這樣做時,看起來會遮蔽或遮擋另一層中的物件或文字。在任一情況下,用戶或計算裝置可能會變得困惑並且無法完成任務或執行他們計劃執行的功能。
值得注意的是,這個「問題」是因為用於生成多層顯像的底層系統和方法而存在。習知的顯示器和顯示方法不會將來自視訊視框緩衝器的內容彼此層疊,而是將它們並排放置、子母畫面,或者一次一個地呈現它們。 然而,在實現本揭露內容的實施例中使用的系統和方法使得在同一全螢幕上同時顯示多個內容來源成為可能。相比之下,習知方式要求用戶在視訊會議期間選擇以查看某人的網路相機饋入或他們的演示投影片。在全螢幕模式中同時查看多個視訊內容來源的能力可能導致由本揭露內容所解決的新的和以前未遇到的問題或顧慮。
當在呈一個或多個數位圖形來源的複合物(例如,一個或多個「視訊饋入」,且在某些情況下進一步與正在運行的桌上型或行動裝置應用程式的各種視窗組合)的一顯像上查看數位內容之時,複合物的視覺複雜性或雜亂性可能使人或機器難以對顯示的物件或內容清楚地識別、解譯以及與之互動。例如,在一個人的網路相機與投影片演示相結合/受其覆蓋的複合視訊中,投影片上的粗體形狀可能會與來自網路相機饋入的人臉在視覺上「衝突」,從而使其他人或電腦難以理解複合通訊的預期含義。
再舉一個例子,考慮一位數學老師正在做一個虛擬講座,來自網路相機之她的臉受到她在上面書寫、求解、及解釋方程式的一個虛擬「黑板」所覆蓋。在這種情況下,在網路相機饋入中的視覺干擾(例如來自背景燈的眩光)可能會使學生難以清楚地看到方程式。這些和類似的情境是複合視訊圖形可能以非預期方式互動和/或彼此遮蔽從而限制內容的有效通訊和理解的示例。
除了前面對使用多層顯像時可能出現的問題的描述(聚焦於可能被稱為「視野限制」的問題)之外,還可能存在「意圖限制(limitations of intent)」引起的問題或困難。當在一整體顯像中具有組合且呈現在一起的來自多個來源的多個物件時,人或電腦可能無法有效地選擇一個或多個這樣的物件。例如,如果在與演示者的網路相機饋入結合的演示投影片的顯像中,演示者打算選擇投影片上的物件,則電腦系統可能會錯誤地將動作解譯為選擇演示者的眼睛(該演示者的眼睛可能完全或部分地遮擋投影片上的所欲物件)。
與多層顯像有效互動的另一個問題出現在「觀看者」是電腦(或程序,或其他形式的裝置)並且該電腦正試圖偵測和解譯一視覺物件的情況下。在「電腦視覺」的大多數應用中,這些技術都應用於單一(即,非複合)視訊饋入,例如來自收費站的相機饋入,電腦視覺演算法試圖在該處查找和解譯車輛牌照。在由複合的來源所形成的一顯像的更複雜情境中,電腦演算法通常難以(如果不是不實際或不可行的話)正確地偵測和解譯視覺物件,特別是當來自此等「層̀̀」一者以上的視覺物件彼此部分或完全地遮擋之時。
圖1是繪示由用於視訊會議或類似應用的習知程序生成的典型顯像的圖示。如圖所示,整體顯像100可以包括作為主要顯像102而呈現的單一內容來源(例如演示者的現場網路相機視訊串流或由演示者所分享的螢幕),而其他來源呈現為縮略圖104(例如在視訊會議中的其他參與者)在主顯示區域的側邊。
如圖1所示,習知方式將觀看區域100劃分為數個離散的段面並將不同的內容放置在不同的段面中。例如,在視訊電話會議上,演示者的桌面/簡報可能顯示為中央「主視窗」102,並且他們的網路相機饋入(或其他參與者的網路相機饋入)可能會顯示為螢幕另一部分上的較小視窗104。類似地,一些習知方式使用「子母畫面」方式,如此螢幕的不同段面用於顯示不同的內容。
相比之下,本揭露內容針對一種方式,其中多個內容來源係同時顯示在螢幕的相同部分上,使用透明度/不透明度調整和混合技術來數位地合併內容並使用戶能夠區分物件。這樣做的好處是,演示者和參與者不再需要選擇關注哪個螢幕區域,而是可以同時觀看整個螢幕並查看所有內容。此外,可以針對透明度、不透明度、大小、位置、顏色、對比度、分辨率及其他屬性動態調整內容元素,以提高辨識度,從而最大化內容的清晰度和理解。
圖2是說明在所揭露的系統和方法的實施例中涉及的某些概念的圖示。如圖所示,由多個來源202提供的內容可加以組合或合併,並顯示在螢幕204之上。來源可以包括但不限於伺服器(本地或遠程)、連接到用戶的桌上型電腦或行動裝置並用於生成用戶210的視訊的視訊相機205、或連接到另一裝置的相機(C)。所生成或合併的顯像204可以呈現在用戶的裝置和/或其他用戶的裝置上。如圖所示,顯像204可以由多個層206構成,每個層包括多個像素208,通常以列和行排列。如所描述的,在此處揭露的多層顯像的實施例中,每一層可以表示來自不同來源的內容或物件,並且這些層具有實質相同的尺寸,例如全螢幕。
圖2中所示類型的一組元素、組件、及程序可用於使用戶能夠查看所顯示物件和資訊並與之互動。此互動可以是通訊體驗、簡報、遊戲體驗、教學或教育體驗、事件或位置的監控、場地遊覽、服務交付、或其他體驗的一部分,其中人或機器查看一顯像及該顯像中的物件或與之互動。顯示的資訊可以是圖像、文字、視訊、對內容的鏈接、物件、可選擇的用戶介面元件、或其他形式的資訊或內容。如圖所示,在一個示例中,顯示的資訊可以從多個來源202獲得,其中此等來源可以包括終端用戶的裝置、存儲內容的遠程伺服器、或作為裝置一部分的相機。相機可以是終端用戶裝置或其他裝置的一部分。
在一些實施例中,可以使用電腦視覺(CV)技術在一顯像的一層之中或視訊緩衝器的視框之中識別或分類一物件。電腦視覺技術通常依賴於圖像處理演算法,該演算法可以首先降低圖像和視訊串流的「顏色深度」,而不會丟失重要內容或內容物項的各個態樣。例如,為花朵圖像的一物件,即使該物件的顏色深度(調色板)從一組1600萬種顏色減少到256種灰階顏色,仍然可以識別為花朵。這種處理形式允許應用經過訓練的模型,例如卷積類神經網路(CNN)或其他形式的分類器,以偵測和分類在一圖像之中的物件。縮減的彩色調色板顯著提高了CNN的性能,俾使在處理即時視訊之時,每秒框數(FPS)速率可以保持足夠高,因此可以用於更多數量的情況。
在一些實施例中,可以存取和檢查記憶體,以識別正在由計算裝置執行的操作。示例可能包括藉由調用作業系統(OS)應用程式介面(API)以獲取一清單的所有視窗、它們的位置、及它們的大小而查找作業系統(OS)視窗/應用程式,使用OS API來追蹤用戶正在移動滑鼠的位置,或藉由檢查定義瀏覽器在螢幕上顯現內容的HTML資料而在網頁中查找物件。
一旦識別出包括一組像素的一物件,就可以就顏色、陰影、對比度、不透明度、大小、形狀、分辨率、或其他特性而調整或改變個別像素或一組像素的內容或外觀。一組像素一起可以形成形狀、文字、物件、或其他字元。像素各個來源(例如,執行的應用程式、相機、視訊視框緩衝器、來自外部來源的視訊饋入)提供內容,該內容「合併」進單一視訊/圖形顯像,其結果由作業系統顯示在一全螢幕上。即時地和動態地,當此等來源合併時,圖2建議的類型的系統可以調整物件、像素或像素集的相對透明度、不透明度、遮擋量、或選擇能力。這提供了能力將一組物件、圖像、視訊等等顯示為一多層顯像的不同層,其中一些物件相對於其他層中的物件在透明度、不透明度或其他特性方面有所不同。
如所建議的,可以以包括多個不同層的方式生成終端用戶裝置的監視器上的顯像,其中每一層由多個像素構成,並且每一層表示從應用程式、文件、相機、其他裝置等等其中一個或多個獲得的內容。在各層中的像素,可以獨立於該層中的其他像素或其他層中的像素而關於它們的透明度、不透明度或其他特性加以調整。這允許通過其他覆蓋的層查看一層的元件或組件。
例如,一組物件、文字、或其他元件可以呈現在一層中,該層係通過呈現為放置在其頂部的一覆蓋層而為可見的。這可以藉由調整上層或覆蓋層中的像素以使它們至少部分透明並允許查看下層或下方層中的某些像素來實現。調整在一層之中像素相對於另一層的相對透明度(或可視性)的能力,允許用戶選擇內容的多個層(以及因此多個來源)並與之互動。
如前所述,在一個實施例中,可以藉由存取終端用戶的計算裝置(例如平板電腦、膝上型電腦、桌機、或智慧型手機)的視訊視框緩衝器來生成顯像的一層。所存取的資料可以包括一物件或元件,其中該物件或元件可以提供一機制,用於存取與終端用戶的裝置所生成的多層顯像的一層或多層整合之內容。該機制可以是一可識別的形狀或形式,並且可以包括可用於存取資訊、資料或內容的識別符、代碼、或元資料。識別符、代碼或元資料可以將終端用戶的裝置指引到遠程伺服器、資料庫,或存儲在終端用戶裝置上的資訊。所存取的資訊、資料、或內容可以包括內容和確定如何顯示該內容之資訊二者。
在一些實施例中,由相機擷取的資料(例如用戶的圖像)可以經受圖像處理和分析,用以辨識和識別物件或手勢,或者用以偵測和評估運動(例如,用戶的目光,或用戶的或物件的位置變化、加速度、位向等等)。作為響應,一應用程式或程序可以改變在用戶或相機所觀看的整體多層顯像的一層或多層之中所顯示者。例如,相機可以擷取做出手勢的用戶,並且作為響應,可以改變該顯像的一層以顯示用戶介面元件的選擇。
在另一個示例中,顯示在一層中的一物件或元件的視角、位置或位向可能隨著用戶轉動他們的頭部而改變。這可能基於:追蹤用戶頭部或眼睛的位置和位向,並使用其來改變來源內容的呈現方式。在相關能力中,因為像素(以及因此之物件)的特性在其呈現在多層顯像的一層中之前可能與其來源特性不同,所以可以添加或改變深度或陰影的外觀。這提供了能力:改變物件對用戶的表觀顯著度,並增加由用戶或機器實現的程序注意或選擇該物件的可能性。
作為示例,可以允許用戶藉由以下方式來與在一監視器上在一螢幕顯像的一層或多層之中所顯示的物件或用戶介面元件互動:使用由視訊相機偵測和擷取的手勢、它們的定位、它們的位向、或它們的運動。此等互動可用於控制一計算裝置或體驗的呈現(例如,遊戲、講座等等)。這可以在用戶不直接接觸計算裝置的情況下完成。此外,用戶可以將其環境中的物件引入顯像的一層(通過擷取物件的圖像之相機),然後作為螢幕或監視器上所顯示的一部分與其互動。實施例可以通過對用戶的手和手指的即時追蹤和辨識以及將該資訊呈現為一顯像的一層,來提供這些功能和能力。在辨識用戶的手指何時覆蓋一顯像的不同層中的用戶介面元件之後,可以選擇或啟動用戶介面元件。
如此處所揭露的,當用戶選擇所顯示物件或與其互動時為了幫助正確且明確地確定用戶的意圖,一系統可以整合邏輯來識別一個物件受到另一個物件的現有或潛在的交疊或遮擋。當一層中的物件受到移動或者可能由於用戶的運動、目光、位向等等而對一用戶呈現移動之時,會發生潛在的交疊或遮擋。作為響應,系統可以藉由自動化地改變一物件的位置、位向、大小、形狀、透明度或分辨率,防止或減少一個物件受到另一者實際或潛在的遮擋。作為該處理的一部分(或獨立於它),實施例可以改變像素特性以增強用戶或機器選擇用戶介面元件、物件、文字塊、或其他特徵的能力。
如所提及的,在一些實施例中,所揭露的功能和能力其中一個或多個可用於實現一形式的「非接觸式計算」,其中用戶的目光、手勢、移動、位置、位向、或由相機觀察到的其他特徵係用作為在計算裝置上選擇物件和執行程序的基礎。此外,因為可以調整不同層中像素的不透明度以改善多層顯像的所顯示層其中一個或多個之中的物件的查看和辨識度,這也可以認為是「透通性計算」的一種形式。這種類型的計算體驗可以包括分佈在多個層的多個物件或內容的呈現。透通性計算還可以包括用戶與3維環境互動的能力,例如藉由將物件的一圖像引入一層並作為執行任務的一部分而與該物件互動。
在一些實施例中,可以藉由圖像處理或存取一視訊緩衝器來確定物件、人、或人或位置的屬性(例如,壁紙、海報、場景、眾所周知的結構等等)的存在或不存在,且該資訊用作身份驗證、存取控制、或其他安全相關功能的一部分。在相關示例中,連接到一個計算裝置的相機可以偵測和/或識別在另一個計算裝置的螢幕上顯示的物件,並且該偵測和/或識別可以用作身份驗證或存取控制程序的一部分。
在一些實施例中,圖像處理技術可用於確定人或物件與一相機之間的分隔或配向。這種分隔或配向可以用作邏輯程序的一部分,以決定是否啟動身份驗證或其他安全程序。例如,當人或物件靠近顯示螢幕時,距離可加以確定並與一閾值數值加以比較。然後,可以使用比較的結果來發起身份驗證的請求。
由多層顯像的多層共享相同(或實質相同)的螢幕空間,有效地將另一個維度引入到視訊資料的處理。傳統上,視訊處理係基於像素的二維陣列,以(x, y)坐標表示。相比之下,本揭露內容介紹了一種方式,用於與以(x, y, z)坐標表示的像素的三維陣列一起使用,其中各個像素的顏色、亮度、對比度、透明度、不透明度、及/或分辨率可即時個別地調整。
圖3是說明多層顯像的一層中的像素如何可以由三維坐標系「定義」或與三維坐標系相關聯的圖示。如圖所示,第一層中的一像素可能在(x, y, z)坐標系中具有坐標(77, 256, 0),而第二層中的一像素可能在(x, y, z)坐標系中具有坐標(77, 256, -567)。在這樣的示例中,第一層或頂層中的像素可能會遮蔽在下層中的像素。然而,藉由調整兩個像素的外觀,能夠允許用戶通過頂層像素查看較下層級像素,而無需從顯像中移除任何一個像素。
圖4是繪示根據一些實施例的顯示螢幕402(例如計算裝置的顯示器)的示例的圖示,在該顯示螢幕402上生成並顯示多個交疊層404和406。作為非限制性示例,層404可以從自一來源所獲取的內容加以生成,並且層406可以表示來自視訊網路相機的饋入。作為示例,層404和406其中各者可以包含一個或多個視覺物件408,其中物件408可以包括例如以下一者以上:文件或視訊縮略圖、現場演講者的網路相機視訊、記錄的圖像/視訊、或網絡內容。
如所提到的,在一些實施例中,子系統或程序可用於偵測一實際或可能情況,其中在一層中的一物件係交疊或遮蔽在另一層中的一物件,並且對其響應而最小化或消除此交疊或遮蔽。此重疊或遮蔽可能由於在不同層之中物件的初始佈置而發生,且/或可能由於一物件位置的變化、用戶查看一顯像的方式的變化(例如,從正前方或從側面,或他們的眼睛朝向該顯像或他們頭部轉動),或其他因素。在一些實施例中,此子系統的作用是使視覺物件能夠自動地和動態地彼此「感知」以避免潛在的交疊或遮蔽。就此而言,本揭露內容的實施例引入技術,自動地或藉由人工控制來改變所顯示層之內和跨多個顯示層的物件的外觀。
在一些實施例中,自動物件外觀調整係基於確定物件的類型和情境。這裡的情境包括物件本身(即,該物件是否為做出特定手勢的人手)和/或周圍情境,例如視訊饋入之內的一天中的時間、位置、或環境條件的變化。這種環境變化可能包括燈被打開,使得物體更亮,或者反射變得更加突出。物件變化還可以包括基於人類目光方向的即時追蹤(即,人在一層中看何處)、或相對於在此等層之內的物件之人的位置和運動其中一者或多者之人為外觀調整。
如所描述的,所揭露的方式和技術可用於偵測像素並將像素群組為「物件」,並且即時地偵測、測量、及追蹤這些「物件」的移動、方向、位向、旋轉、及速度。經過訓練的卷積類神經網路(CNN)可用於偵測和分類在圖像和/或現場視訊串流之內的物件。子系統或程序可用於偵測一實際或可能的情況,其中在一層中的物件係交疊或遮蔽在另一層中的物件(或可能看起來),並作為響應而最小化或消除此實際或可能的交疊或遮蔽。
在一個實施例中,子系統可以操作以偵測物件並在三維空間中圍繞物件而指派幾何邊界,並監視事件以確定一個或多個物件何時具有交疊的幾何坐標。此外,「智慧型」演算法或決策程序可用於實現預測方法(例如但不限於隨機、貝式(Bayesian)、及/或回歸技術)以預測兩個物件交疊或看起來交疊的可能性。
圖5是一圖式,繪示多個視訊來源組合或合併而形成一多層顯像的示例;在此示例中,層0是對電腦桌面的擷取,層-1是對網路相機視訊饋入的擷取,且層1是對現場視訊串流饋入的擷取。各層係經過逐視框、逐像素、即時地加以數位分析,且最佳化組合的聚合像素係以數位方式合併到複合視訊串流中。請注意,這是一個示例情況,其中複合視訊圖形可能以非預期方式彼此互動和/或遮蔽,從而限制與來源的顯示元件的有效通訊和互動。
如所提到的,在一些實施例中,在實施所揭露的物件處理的第一步驟是在多層顯像的各層之內的一個或多個物件或元件的電腦偵測(即,在用於產生多層顯像的複合圖形饋入其中一個或多個之中)。來自電腦視覺領域的一種或多種技術可用於使用卷積類神經網路(CNN)、經過訓練的機器學習(ML)模型、及/或嵌入於視訊饋入的數位元資料的解析來偵測和識別/分類一物件。可以訓練一個或多個CNN或模型來偵測和識別視覺元素,例如邊緣、角落、形狀、數字等等。可以訓練更複雜(更深)的模型來偵測特定的視覺元件,例如手、眼睛、鳥等等。
一旦已經偵測到多層或複合饋入的各層中的物件(例如,圖像或文字),該方法的實施例可以使用合適的技術來確定物件類型、類別、或分類。確定的類型、類別或分類可以是但不限於例如以下一者:「字母文字」、「幾何形狀」(例如,正方形、圓形、或橢圓形)、「開啟的、正在執行的應用程式的視窗」、「人類的手、臉或身體」。類型、類別或分類的確定可以藉由訓練的機器學習模型、規則集、日誌檔案或作業系統狀態的檢查、或適用於物件的類型或類別的其他合適的技術而加以執行。
在一些實施例中,以下技術可用於偵測和/或識別物件,並作為確定如何處理物件的一部分: ●       用作分類器的基於卷積類神經網路(CNN)的模型 — 可以訓練CNN和類似的基於類神經網路的模型來識別視覺物件的類型,例如形狀(矩形、圓形/橢圓形、三角形等等)或常見的形狀類型(例如,狗、貓、植物); ○       例如,在一個實施例中,CNN已被訓練以識別/分類的物件類型包括人類(包括全身姿勢、僅面部、僅單手或雙手、僅眼睛、或其組合)、出現在一層上的文字、及基元形狀(包括理解使用所識別形狀的情境(例如,一矩形是網路廣告,還是power point簡報的資料表?)); ●       基於幾何的模型,用於確定在一層中的物件是否遮蔽在另一層中的物件 — 例如,幾何模型可以在一物件周圍放置一個2維或3維邊界區域(例如,圍繞一個籃球的一個球形、圍繞一足球的橢圓形、網路廣告周圍的矩形等等)並使用那些邊界來確定一個物件受到另一個物件的可能遮蔽; ●       基於幾何的模型,用於確定在一層中的一物件與另一層中的一物件之間的實際或明顯的交疊、遮擋、或遮蔽的可能性 — 這可能是因為以下而發生:一個物件相對於另一個物件的運動,及/或由於物件的移動或選擇、或觀察者的視角而導致的不同層中物件的相對視位(apparent relative position)的變化。例如,在一些實施例中,可以監測定義的邊界區域以確定一個物件的邊界區域與在相同或不同層之中的一個或多個其他物件的邊界區域之可能相交或交疊; ○       在某些情況下可以應用基於運動中物件行為的模型(例如藉由結合物理原理/定律); ■       例如,使可能交疊的物件以實際的方式彼此反應或「彈回(repel)」(例如,質量較大的物件可能會以較大的動量和能量相交,並導致物件呈現為在最終方向上以更大的動量受到彈回); ○       還可以開發模型以藉由通過位置、位向、運動等等的調整而自動「圍繞」彼此移動多個物件以避免交疊; ○       正如所建議的那樣,即使在直接觀看時不交疊,兩個物件也可能由於觀看者的視角而顯得交疊或有可能交疊 — 因此,隨著觀看者移動或改變他們的目光,兩個可辨識的物件可能會變得不那麼交疊; 及 ●       NLP(自然語言處理)和NLU(自然語言理解)模型可用於辨識和解譯文字; ○       例如,光學字元辨識(OCR)和NLP的組合可用於偵測一組文字字元代表什麼語言或字組,且這與NLU一起用於推斷字組的預期含義並減少可能的歧義。
在一些實施例中,該方法接著確定(例如,基於規則集、方程式、或訓練的機器學習模型)如何進一步處理識別的物件,通常基於物件類型或類別。例如,如果偵測到人物輪廓,則該方法可以從網路相機視訊饋入的其餘部分提取人物輪廓(即背景減除)並以數位方式複製它。數位複製的一個原因可能是將複制物其中一者以上重新***到複合饋入中,並調整顏色、亮度、對比度、大小、分辨率等等。
在一個實施例中,用於確定物件或文字的後續處理的一規則集可以基於感興趣物件類型的清單,其中該清單可以由人手動策劃。編譯此一清單之後,可以使用機器學習演算法以創建經訓練的模型,以自動化辨識視訊視框緩衝器之中或從視訊串流生成的圖像之中的每個感興趣的物件類型。例如,此模型包括但不限於使用卷積類神經網路作為分類器。
例如,在一個實施例中,感興趣的物件類型的初始清單可能包括人類(例如,全身,或特定的身體部位,例如眼睛、頭部、鼻子等等)、數字、文字、基元形狀(例如,正方形、圓形等等),或手機。對於每個物件類型或類別,可以訓練一模型以在各種圖像或視訊條件下(例如,低/高對比度、低/高品質、低/高背景照明等)自動辨識物件類型或類別。
對於感興趣類型的各個物件,可以基於該類型應用一個或多個規則。例如,如果物件類型是「文字」,則一實施例可以實施一規則,用以將視覺文字轉譯成與該文字等價的資料,接著解譯該文字(使用一個或多個程序,諸如物件字元辨識(OCR)、自然語言處理(NLP)、或自然語言理解(NLU))。這個處理之後可以應用後續規則來阻擋或模糊該文字以保護資料隱私或將該文字自動轉譯成一替代語言並將其呈現給觀看者。
作為另一個示例,可以執行圖像或像素特性的調整或額外處理以解決先前描述的「視野限制」。一個例子是修改人物輪廓,使其不再「迷失」在複合圖形的「視覺雜亂」中,而是在「場景」中更清晰可辨。預計這將改善對所顯示內容的通訊和理解。
類似地,所揭露的方法可以偵測到視覺物件是字母文字,並且可以將文字的一個或多個數位副本重新引入此複合顯像,調整顏色、亮度、對比度、大小或位置,俾使文字更容易由此顯像的觀看者辨識。這可以為一情境提供解決方案,在該情境中來自網路饋入的背景中的一燈的光使得觀看者難以看到呈現在黑板或表面上的內容。
在一些實施例中,所揭露的處理可以改變或變化一個或多個物件的視覺屬性(例如顏色、亮度、對比度、或分辨率),但也可以自動化移動物件其中一個或多個的位置、大小、及/或位向。作為示例,在一層中的偵測到的物件完全或部分地遮擋另一層中於簡報投影片上的一個或多個物件的情況下,該方法可以自動改變此等物件其中一個或多個的位置、大小、及/或位向,俾使它們不再相互遮擋,從而提高所呈現內容的通訊和有效性。在一些實施例中,該方法可以同時且動態地調整一個或多個層中的一個或多個物件的視覺屬性(例如,顏色、亮度、對比度、或分辨率)以及位置、大小或位向。
如所描述的,實施例涉及用於多層顯像的系統、裝置、及方法,其防止或減少一層中的物件受到該顯像的另一層中的物件明顯或潛在的交疊或遮蔽(部分地或完全地)。此等調整可以是一次性的或是連續進行的,並且該方法的技術可以確定一種調整方式,其提高物件的辨識性,且從而最大化對內容的有效通訊和理解。
此外,除了利用自動調整一組物件或其他形式的內容的技術之外,實施例還允許人類和/或計算裝置確定何時以及如何調整物件的外觀、位置、屬性、位向、或其他特性。例如,可以動態更改文字的顏色和對比度以使其從背景中更清晰地突顯,或者可以移動視訊播放元件的位置以防止其交疊於聚合視訊的其他部分或受其交疊。
在一些實施例中,所揭露的方法可以調整各層的一個或多個像素、物件、或區域的不透明度(或相對透明度)(以單一或多個像素粒度)以提高一物件的辨識性並由此最大化對內容的有效通訊和理解。在偵測到的視覺物件是字母文字的情況下,該方法的技術可以應用物件字元辨識(OCR)以將文字的「光柵」表示 動態轉譯為二進制編碼表示(例如,ASCII字元組數值)。
此外,在物件是 OCR轉譯的字母文字的情況下,該方法可以自動將該文字轉譯成一種或多種不同的人類語言,俾使各個觀看者以他們選擇的語言查看該文字。在此示例中,OCR轉譯的字母文字可以由語言翻譯庫(例如 Google 的Translate API或類似的)處理成各個觀看者在其設定或設定檔(profile)之中選擇的語言。
本揭露內容的一個新穎態樣是用一種或多種不同語言(特定於各個參與者)即時地替換在視訊圖像或串流之中的原始文字。習知方式被認為不能將文字轉譯成多種語言,且同時視覺上隱藏/遮蔽原始文字。此功能允許將現場視訊或簡報之中的現有文字即時轉換為多種語言,俾使各個參與者的顯示器以他們選擇的語言而呈現內容。
在物件受到複製的情況下,所揭露的方法可以從複合圖形中動態地移除原始來源物件。例如,在數位複製品受到動態移動(關於位置、大小及/或位向)的情況下,如果原始物件保持不動,則可能無法實現所需的移動淨效果,因為觀看者仍會看到該物件的原始版本。
關於為先前描述的「意圖限制」問題提供解決方案,該方法的技術可以動態控制在一個或多個複合層中選擇物件或用戶介面元件的能力。作為這種能力的一個例子,在兩個複合視訊饋入層的情境中,該方法可以使該等層其中一個忽略對該層的像素或物件其中一者以上的滑鼠點擊。在簡報者打算選擇投影片上恰好被不同層中的另一個物件部分遮擋的一物件的示例中,該方法可以使構成一個物件的像素忽略一滑鼠點擊(或其他形式的選擇),允許該點擊「動作」穿流過該層到該預期的層並選擇所欲的物件。
類似於用於確定如何處理特定類型的物件的邏輯,確定是否允許物件的可選擇性的邏輯處理可以以一訓練的模型或基於規則的系統的形式加以實現。在一個示例中,基於規則的系統可以從基本用例開始,例如如果偵測到的物件係與易於理解(或明確)的目的相關聯。一個例子是「播放(play)」按鈕或購物車按鈕,在這種情況下,系統可以實現使那些物件為可選擇的/可點擊的之邏輯,而不管它們位於哪個層。
圖6是說明可用於實現本揭露內容的實施例的方法、程序、操作、或功能集的流程圖或程序框圖。在一些實施例中,圖中所示的該組步驟或階段可以藉由以一個或多個電子處理器執行一組電腦可執行指令來加以執行。電子處理器可以是系統、裝置、平台、伺服器等等的部分。所示的各個步驟或階段可以藉由以一個或多個處理器執行指令來加以執行。
在一些實施例中,一組經訓練的模型或規則集係提供給一終端用戶並且可以作為它們安裝在它們的客戶端裝置上的應用程式或作業系統功能的一部分而加以包含。在一個實施例中,包括合併的內容來源的顯像的形成係由應用程式或功能加以執行,像素和物件的處理也是如此(除了模型的訓練或構建)。
如圖所示,方法、程序、操作、或功能集600可以包括但不限於或要求包括: ●       從多數個來源接收一視訊饋入(如步驟或階段602所建議的); ○       如所描述的,作為非限制性示例,來源可以是相機饋入、電腦桌面、呈現在作業系統視窗中的文件、或串流式視訊其中一個或多個; ●       將多數個饋入加以組合/合併成複合饋入以產生一多層顯像(如步驟或階段604所建議的); ○       一複合饋入係形成自將來自各個內容來源的像素組合成一個多層顯像; ■       在一些實施例中,各個來源可用於生成多層顯像的一層; ○       可以執行來源內容處理操作和邏輯以使來自不同來源的像素合併到一單一顯像,其中各個來源表現為一不同的層或區域,或者其中來自不同來源的物件係加以組合進一層; ●       偵測在多層顯像的各層中的一個或多個物件(如步驟或階段606所建議的); ○       此操作或功能可以藉由合適的圖像處理技術來執行,例如用於電腦視覺或物件辨識的那些(例如,卷積類神經網路、框或邊緣偵測等等); ○       電腦視覺或物件辨識技術可以應用於生成的顯像、視訊視框緩衝器、或系統的其他態樣; ●       對於每個偵測到的物件,確定或識別物件類型或分類(如步驟或階段 608 所建議的); ○       如所描述的,這可以由操作以識別/分類一物件的一訓練的模型、操作以定義一物件的特性的一規則集等等而加以執行; ●       基於各個偵測的物件之類型或分類而確定並執行其期望的處理(如步驟或階段610所建議的); ○       可以存取一組規則或指令,其定義應如何處理各個物件類型或分類; ■       此等規則或指令可以由一用戶基於以下而產生:用於改善物件辨識性或更有效通訊的一組指導原則、模糊邏輯系統、學習自一組圖像以及如何改進此等圖像的指令的一系統、或其他合適的技術; ●       確定是否應該使一物件為由用戶或機器可選擇的或不可選擇的並相應地設定(如步驟或階段612所建議的); ○       這可以是所存取的規則集或指令的一部分,且/或基於在執行各個物件的處理之後哪些物件或用戶介面元件是可見的來加以確定; ■       該確定和動作可以是選用性的,或是延遲的並在處理流程的稍後時間執行; ●       確定在第一層中的一物件是否部分或完全交疊於、遮擋、或遮蔽在第二層中的物件 — 如果是,則調整兩個物件其中之一的位置和/或位向(如步驟或階段614所建議的); ○       這可以是所存取的規則集或指令的部分,且/或基於在執行各個物件的處理之後哪些物件或用戶介面元件受到部分或完全遮蔽而加以確定;及 ●       確定在第一層中的一物件是否有可能對觀看者顯示為交疊於、遮擋、或遮蔽在另一層中的一物件 — 如果是,則調整兩個物件其中之一的位置和/或位向(如步驟或階段616所建議的); ○       這可以是所存取的規則集或指令的部分,且/或基於在執行各個物件的處理之後哪些物件或用戶介面元件可能看起來交疊來加以確定; ○       如所描述的,作為示例,這種明顯的交疊、遮擋、或遮蔽可能是由物件的運動、由一裝置之操作的執行、或觀看者的位置、位向或目光所引起的; ●       步驟或階段606到616其中一個或多個可以在視訊的各個視框或被合併到一多層顯像之中的每一組內容上連續執行。
圖7繪示了可以存在於電腦裝置、伺服器、或系統700之中的元件或組件,配置為根據一些實施例而實現方法、程序、功能、或操作。如所指出的,在一些實施例中,所描述的系統和方法可以以包括處理元件和一組可執行指令的設備的形式來加以實現。可執行指令可以是軟體應用程式的一部分並且配置進軟體架構。
一般而言,本發明的實施例可以使用一組軟體指令來實現,這些軟體指令係設計為由適當編程的處理元件(例如GPU、TPU、CPU、微處理器、處理器、控制器、計算裝置等等)執行。在複雜的應用程式或系統中,此類指令通常佈置成「模組」,每個此類模組通常執行特定的任務、程序、功能、或操作。整組的模組可以在它們操作中藉由作業系統(OS)或其他形式的組織平台來控制或協調。
應用程式模組和/或子模組可以包括任何合適的電腦可執行代碼或指令集(例如,將由適當編程的處理器、微處理器、或CPU所執行者),例如對應於一程式語言的電腦可執行代碼。例如,可以將程式語言來源代碼編譯成電腦可執行代碼。替代地或另外地,程式語言可以是解譯性程式語言,例如腳本語言。
如圖7所示,系統700可以表示伺服器或其他形式的計算或資料處理裝置。模組702各自包含一組可執行指令,其中當該組指令由合適的電子處理器(例如在圖中由「實體處理器730」指示的)執行時,系統(或伺服器或裝置)700操作以執行特定的程序、操作、功能、或方法。模組702可以包含一組或多組指令,用於執行參考圖式、及說明書中提供的功能和操作的說明所描述的方法或功能。這些模組可以包括所顯示的那些,但也可以包括比所顯示的更多或更少的數量。此外,此等模組和包含在此等模組中的該組電腦可執行指令可以(全部或部分)由同一處理器或由多於單一處理器加以執行。
模組702存儲在記憶體720中,該記憶體通常包括作業系統模組704,作業系統模組704包含指令用於存取和控制包含在其他模組中的指令的執行(以及其他功能)。藉由使用「匯流排」或通訊線路719,在記憶體720中的模組702係加以存取,俾以傳輸資料和執行指令,「匯流排」或通訊線路719還用於允許處理器730與此等模組通信以存取和執行一組指令。匯流排或通訊線路719還允許處理器730與系統700的其他元件互動,例如輸入或輸出裝置722、用於與系統700外部的裝置交換資料和資訊的通訊元件724、以及額外的記憶體裝置726。
每個應用程式模組或子模組可以對應於該模組或子模組實現的特定功能、方法、程序、或操作。各個模組或子模組可以包含一組電腦可執行指令,當這些指令由一個或多個編程處理器執行時,會導致此一個或多個處理器(或包含它們的一個或多個裝置)執行特定的功能、方法、程序、或操作。這樣的功能、方法、程序、或操作可以包括用於實現所揭露的系統和方法的一個或多個態樣的功能、方法、程序或操作,例如用於: ●       從多數個來源接收視訊饋入(模組706); ●       將多數個饋入加以組合/合併成一複合饋入以產生一多層顯像(模組708); ●       偵測一多層顯像的每一層中的一個或多個物件(模組710); ●       對於每個偵測到的物件,確定物件類型或分類(模組712); ●       基於每個偵測到的物件的類型或分類,確定並執行各偵測到的物件的期望處理(模組714); ●       確定是否應該使物件為由用戶或機器可選擇或不可選擇的並相應地設定(模組716); ●       確定在第一層中的物件是否部分或完全交疊於、遮擋、或遮蔽在第二層中的物件 — 如果是,則調整兩個物件其中之一的位置和/或位向(模組717);及 ●       確定在第一層中的一物件是否可能對觀看者呈現為交疊於、遮擋、或遮蔽在另一層中的一物件 — 如果是,則調整兩個物件其中之一的位置和/或位向(模組718)。 如所描述的,處理步驟或階段其中一者以上可以在一視訊的各視框、各個圖像、或合併到一多層顯像中的各組內容之上連續地加以執行。
如所提到的,各個模組可以包含指令,這些指令在由編程的處理器執行時使一設備(例如一伺服器或客戶端裝置)執行特定的功能或多個功能。該設備可以是客戶端裝置或遠程伺服器或平台之一者或兩者。因此,一模組可以包含由客戶端裝置、伺服器或平台、或兩者加以執行(全部地或部分地)的指令。
如所描述的,實施例可以調整、修改或改變像素的特性(例如,顏色、亮度、不透明度、分辨率、或陰影)以及一群像素或一物件的特性(例如,位置/定位、運動速度、位向、或旋轉)。
存在多個情境或用例,其中本揭露內容的實施例可用於提供物件和用戶介面元件的增強和更有效的顯像,改善物件的辨識性,從而改善對內容的通訊和理解。作為非限制性示例: ●       調整及放置在一個或多個層之中的物件,而以邊界、顏色、深度、或視角來強調一物件; ●       辨識在一層之中的文字以及將該文字轉換或轉譯成不同的語言,轉換後的文字呈現在相同或不同的層中; ●       辨識在一層中的文字並使用自然語言理解(NLU)模型來處理該文字,以確定該文字的含義,並響應以執行或受導致執行一操作或功能,其中此等操作或功能的示例包括但不限於: ■       發起一支付交易; ■       激活鏈接,導致存取一資料存儲位置或網站; ■       從指定的存儲位置(如檔案、檔案夾等等)檢索資料或文件; ■       將資料或文件傳送到所欲位置或用戶; ■       啟動特定應用程式;或 ■       產生一訊息; ●       辨識在一層中的物件,使用一模型(例如基於CNN的分類器)處理該物件,以確定與該物件相關聯的操作或功能,且如果需要,執行該操作或功能; ○       例如,一簡報者可能會顯示他們計劃演示的投影片的視覺縮略圖,並使這些圖「浮動」在與來自他們的網路相機的視訊饋入相同的視圖中。所揭露的系統可以在簡報者的網路相機圖像移動時自動調整縮略圖的位置,確保簡報者不會受到縮略圖其中一個所遮蔽; ○       在另一個示例中,一教師可能正在黑板上進行演示,同時交疊於來自網路相機視訊的圖像。一個實施例可以連續地監控交疊的視訊層的環境顏色/亮度,並調整黑板上粉筆的顏色,使其變亮或變暗,以確保能夠從內容其餘部分中更清楚地看到它; ●       可受益於所揭露的用於生成多層顯像的技術的情境、環境或用例的額外非限制性示例可包括: ○       如所描述的,在一些實施例中,當生成多層的複合顯像時,可以考慮觀看者的視角。例如,當在層之間存在一虛擬距離並且觀看者移動時,物件可受到重新定位,並且屬性可加以調整以適應觀看者「從側面」觀看螢幕而不是從螢幕中心觀看的實境; ○       在某些情況下,兩個觀看者可能正在查看同一個物件(例如,一個文件),並且一個觀看者可能想要更多地查看該文件,而另一個可能希望看到另一個人的臉。例如,在銀行交易中,客戶可能希望看到表格而不是銀行業者的臉,但銀行業者可能希望看到客戶的臉而不是表格; ○       所揭露的技術可用於在不同於傳統電腦或行動電話之裝置和系統之上生成顯像。例如,可以在汽車的儀表板螢幕上生成多層顯像,以顯示有關車輛的操作資訊(例如速度、引擎RPM、燈的狀態)以及從在其他地點或車輛內部的相機所生成的饋入; ○       在一個實施例中,所揭露的技術可用於在玻璃的透明區段之上生成多層顯像,例如,在行進的火車的玻璃窗上,在該處,字體於夜間可能與白天期間所顯示相比加以不同地打光; ○       在一些實施例中,所揭露的技術可以用在智能家居或辦公室的玻璃牆上,其中顯示的內容將根據玻璃後面發生的事情進行調整。在此示例中,即使有人穿著與文字相同顏色的襯衫經過玻璃牆(其具有顯示的內容),看穿過該玻璃牆的某人也能夠閱讀顯示的文字,因為系統可以在那個時間將此文字更改為對比色; ○       在諸如某些車輛中的抬頭顯示器中,當外面是亮的並且駕駛員在白色車輛後面時,他們可能因為抬頭顯示器是亮白色的而無法清楚地看到抬頭顯示器。在這種情況下,當駕駛員在白色汽車後面時,所揭露的技術可用於將抬頭顯示器顏色更改為較暗的顏色; ■       類似地,當使用智能眼鏡時,如果文字是黑色的,並且佩戴者在晚上仰望天空看星星,他們可能看不到文字 — 在這種情況下,所揭露的技術可以改變顯示在一層中的文字,以便佩戴者更容易看到。 ●       此外,如所描述的,在一些實施例中,一個或多個信號可加以產生,導致像素或物件的位置、移動、或特性、或一層的外觀發生變化; ○       作為示例,這些控制信號可以響應於偵測或識別的物件或從用戶的相機收集的資訊而加以產生; ■       例如,藉由將觀看者的注視位置包含作為系統輸入的一部分,知道用戶在看哪裡可以導致自動選擇用戶正在關注的物件; ■       目光偵測還可用於幫助校準系統 — 了解用戶正在查看的物件以及它在多層顯像的此等層其中一者上的位置可以針對規則、模型、或處理物件或像素資料的演算法提供額外的資訊; ■       目光偵測也可用於改變所顯示一個以上物件上的透鏡或視差效應; ●       例如,如果用戶移動和/或向左/向右看,則顯像可加以動態調整,以便一個或多個物件在用戶看來就好像他們正在「窺視」一個3維空間; ●       用戶的位置可用於將用戶的位置「定界」為一物件交疊偵測及化簡程序的輸入之一;或 ●       用戶的移動可以以相同的方式使用來幫助偵測和避免在顯示的物件之間的交疊。
本揭露內容包括以下實施例和條款:
一種在一裝置上產生顯像的方法,包含:將來自多數個來源的內容結合成一顯像,其中來自該多數個來源各者的內容係呈現為該顯像的一層,並且,其中該顯像的各層具有實質相同的尺寸;偵測在所產生的該顯像的各層中的一個或多個物件;及針對所偵測的該等物件其中一個或多個,確定物件類型或分類;確定該物件是否正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件;確定該物件是否由於一觀看者的運動、位向、或目光而將對該觀看者呈現成如同交疊於或遮蔽在所產生的該顯像的一不同層中的一物件;及基於該物件類型或分類、確定該物件正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件、或確定該物件將對該觀看者呈現成如同交疊於或遮蔽在一不同層中的一物件,基於一規則或訓練模型,修改該物件的特性。
在一個實施例中,該物件的特性係以下一者以上:形狀、顏色、對比度、透明度、不透明度、位置、分辨率、或位向。
在一個實施例,確定物件類型或分類的步驟更包含:將該物件的一圖像提供給一訓練模型,其操作以輸出該物件的分類。
在一個實施例,該物件的分類係文字、人物、動物、或該物件的形狀其中一者。
在一個實施例,該方法更包含:確定是否應使一物件為可選擇的或不可選擇的,且響應以對應地設定該特性。
在一個實施例,該等來源包含以下一者以上:視訊相機、在用戶裝置上執行的應用程式、或存儲內容的遠程伺服器。
在一個實施例,基於一規則或訓練模型而修改該物件的特性的步驟更包含:從一用戶的裝置,存取一規則、一規則集、或一訓練模型,其確定如何處理該物件。
在一個實施例,該方法更包含執行以下步驟:偵測一個或多個物件;確定物件類型或分類;確定該物件正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件,或確定該物件將對該觀看者呈現成如同交疊於或遮蔽在一不同層中的一物件;及基於一規則或訓練模型,隨著視訊內容或圖像自該等來源加以接收而連續地修改該物件的特性。
在一個實施例,若確定一物件係以第一語言表示的文字,則該方法更包含:將該文字翻譯成第二語言;移除呈該第一語言的該文字;及將呈該第二語言的該文字***所產生的該顯像。
一種在一裝置上產生顯像的系統,包含:一個以上電子處理器,建構以執行一組電腦可執行指令;一個以上非暫時性電子資料儲存媒體,容納該組電腦可執行指令,其中當執行時,該等指令使該一個以上電子處理器:將來自多數個來源的內容結合成一顯像,其中來自該多數個來源各者的內容係呈現為該顯像的一層,並且,其中該顯像的各層具有實質相同的尺寸;偵測在所產生的該顯像的各層中的一個或多個物件;及針對所偵測的該等物件其中一個或多個,確定物件類型或分類;確定該物件是否正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件;確定該物件是否由於一觀看者的運動、位向、或目光而對該觀看者將呈現成如同交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件;及基於該物件類型或分類、確定該物件正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件、或確定該物件對該觀看者將呈現成如同交疊於或遮蔽在一不同層中的一物件,基於一規則或訓練模型,修改該物件的特性。
一個以上非暫時性電腦可讀媒體,包含一組電腦可執行指令,當由一個以上編程的電子處理器執行時,使該一個以上編程的電子處理器:將來自多數個來源的內容結合成一顯像,其中來自該多數個來源各者的內容係呈現為該顯像的一層,並且,其中該顯像的各層具有實質相同的尺寸;偵測在所產生的該顯像的各層中的一個或多個物件;及針對所偵測的該等物件其中一個或多個,確定物件類型或分類;確定該物件是否正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件;確定該物件是否由於一觀看者的運動、位向、或目光而對該觀看者將呈現成如同交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件;及基於該物件類型或分類、確定該物件正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件、或確定該物件對該觀看者將呈現成如同交疊於或遮蔽在一不同層中的一物件,基於一規則或訓練模型,修改該物件的特性。
在一個實施例中,該物件的特性係以下一者以上:形狀、顏色、對比度、透明度、不透明度、位置、分辨率、或位向。
在一個實施例,確定物件類型或分類的操作更包含:將該物件的一圖像提供給一訓練模型,其操作以輸出該物件的分類。
在一個實施例,該物件的分類係文字、人物、動物、或該物件的形狀其中一者。
在一個實施例,該組電腦可執行指令,當由該一個以上編程的電子處理器執行時,使該一個以上編程的電子處理器:確定是否應使一物件為可選擇的或不可選擇的,且響應以對應地設定該特性。
在一個實施例,該等來源包含以下一者以上:視訊相機、在用戶裝置上執行的應用程式、或存儲內容的遠程伺服器。
在一個實施例,基於一規則或訓練模型而修改該物件的特性的步驟更包含:從一用戶的裝置,存取一規則、一規則集、或一訓練模型,其確定如何處理該物件。
在一個實施例,該組電腦可執行指令,當由該一個以上編程的電子處理器執行時,使該一個以上編程的電子處理器執行以下步驟:偵測一個或多個物件;確定物件類型或分類;確定該物件正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件,或確定該物件將對觀看者呈現成如同交疊於或遮蔽在一不同層中的一物件;及基於一規則或訓練模型,隨著視訊內容或圖像自該等來源加以接收而連續地修改該物件的特性。
在一個實施例,若確定一物件係以第一語言表示的文字,則該組電腦可執行指令,當由該一個以上編程的電子處理器執行時,使該一個以上編程的電子處理器:將該文字翻譯成第二語言;移除呈該第一語言的該文字;及將呈該第二語言的該文字***所產生的該顯像。
應當理解,如上所述的本發明可以以模組化或整合的方式使用電腦軟體以控制邏輯的形式來實現。基於此處所提供的揭露內容和教示,所屬技術領域通常知識者將知道和理解使用硬體以及硬體與軟體的組合來實現本發明的其他方式和/或方法。
機器學習(ML)越來越多地用於允許資料分析並協助進行多個產業的決策。為了從使用機器學習中受益,將機器學習演算法應用於一組訓練資料和標籤以生成一個「模型」,該模型表示該演算法的應用程式已從訓練資料「學習」到什麼。該組訓練資料的各個元素(或實例或示例,呈一個或多個參數、變數、特性或「特徵」的形式)都與定義該訓練的模型應如何分類該元素的標籤或註釋相關聯。呈類神經網路形式的機器學習模型是一組連接神經元層,其操作於就輸入資料樣本做出決策(例如分類)。當已訓練時(即連接神經元的權重已經收斂並變得穩定或在可接受的變化量之內),模型將操作於輸入資料的新元素,以生成正確的標籤或分類作為一輸出。
在一些實施例中,此處描述的某些方法、模型、或功能可以以訓練的類神經網路的形式加以體現,其中該網路係藉由執行一組電腦可執行指令或資料結構的表示來實現。指令可以存儲在非暫時性電腦可讀媒體之中(或之上)並由編程的處理器或處理元件執行。該組指令可以通過指令的傳送或執行一組指令的應用程式(例如通過網路,例如網際網路)傳送給用戶。終端用戶可以通過存取SaaS平台或通過此一平台提供的服務來利用該組指令或應用程式。可使用經訓練的類神經網路、經訓練的機器學習模型、或任何其他形式的決策或分類程序來實現此處所述的方法、功能、程序、或操作其中的一個或多個。要注意的是,類神經網路或深度學習模型可以以資料結構的形式表徵,其中存儲的資料表示一組含有節點的層,並且在不同層之中的節點之間的連接係加以建立(或形成),其對輸入進行操作而提供決策或價值作為一輸出。
一般而言,類神經網路可以視為彼此之間交換訊息的相互連接的人工「神經元」或節點的一系統。此等連接具有在訓練程序期間「調整」的數值權重,俾使經過適當訓練的網路將在呈現以要辨識的圖像或圖案時正確地響應(舉例來說)。在這種表徵中,此網路由多層之特徵偵測「神經元」組成;每一層都有神經元響應來自先前層的不同組合之輸入。使用與預期輸出響應相關的各種代表性輸入圖案中的「標記」輸入資料集來執行網路訓練。訓練使用通用方法迭代地確定中間和最終特徵神經元的權重。就計算模型而言,每個神經元計算輸入和權重的內積,加上偏差值,並應用非線性觸發或激勵函數(例如,使用S型響應函數)。
本申請案中描述的任何軟體組件、程序或功能都可以實現為使用程序、功能、物件導向、或其他技術的使用任何合適的電腦語言(例如Python、Java、JavaScript、C、C++、或 Perl)之由處理器執行的軟體代碼。軟體代碼可以作為一系列指令或命令存儲在非暫時性電腦可讀媒體之中(或之上),例如隨機存取記憶體(RAM)、唯讀記憶體(ROM)、磁性媒體(諸如硬碟或軟碟)、或諸如CD-ROM的光學媒體。在此背景中,非暫時性電腦可讀媒體幾乎是適合於儲存資料或指令集的任何媒體,除了瞬態波形之外。任何這樣的電腦可讀媒體可以駐留在單一計算設備之上或之內,並且可以存在於一系統或網路之內的不同計算設備之上或之內。
根據一個示例實施方式,如此處所用的術語處理元件或處理器可以是中央處理單元(CPU),或加以概念化為CPU(例如虛擬機器)。在該示例實施方式中,CPU或其中併入了CPU的裝置可以與一個或多個周邊裝置(例如顯示器)加以耦接、連接、及/或通信。在另一示例實施方式中,處理元件或處理器可以結合到行動計算裝置中,例如智慧型手機或平板電腦。
這裡所指的非暫時性電腦可讀儲存媒體可以包括數個實體驅動單元,例如容錯式磁碟陣列(RAID)、軟碟、快閃記憶體、USB快閃碟、外接硬碟、大拇哥隨身碟、筆式隨身碟、鑰匙隨身碟(key drive)、高密度數位多用途碟片(HD-DV D)光碟機、內置硬碟機、藍光光碟機、或全像數位資料儲存(HDDS)光碟機、同步動態隨機存取記憶體(SDRAM),或類似裝置或基於類似技術的其他形式的記憶體。這種電腦可讀儲存媒體允許處理元件或處理器存取存儲在可移除式和不可移除式記憶體媒體之上的電腦可執行程序步驟、應用程式等等,以從一裝置卸載資料或將資料上載到一裝置。如所提到的,關於這裡描述的實施例,非暫時性電腦可讀媒體可以包括除了暫時性波形或類似媒體之外的幾乎任何結構、技術或方法。
如圖8所示,在一些實施例中,所揭露的功能和能力其中一個或多個可用於實現一體積複合之透通性計算的內容激活層、透通性計算的內容無關層、及/或透通性計算的相機擷取層,其視覺上放置成在螢幕上顯示的2維或3維內容的後方、放置在螢幕上顯示的2維或3維內容的前方、放置在螢幕上顯示的3維內容的內部、及/或虛擬放置在螢幕顯像的外部。用戶可以藉由非接觸計算而與透通性計算層的體積複合物之中的任一層進行互動,其中用戶的目光、手勢、移動、位置、位向、或由相機觀察到的其他特性係用作基礎對在透通性計算層的體積複合物之中的任一層中的物件進行選擇與互動,以在計算裝置上執行程序。
在一些實施例中,所揭露的功能和能力其中一個或多個可用於使用戶能夠從360度光學透鏡視角看到透通性計算層的體積複合物,其中用戶的目光、手勢、移動、位置、位向、或由相機觀察到的其他特性是一基礎用以計算、導出、及/或預測360度光學透鏡視角,用戶可以從其看到螢幕上顯示的透通性計算層的體積複合物。此外,用戶可以參與顯示在由透通性計算層組成的螢幕上的3維虛擬環境,該等層放置在螢幕上顯示的3維虛擬環境後方、放置在螢幕上顯示的3維虛擬環境前方、及/或放置在螢幕上顯示的3維虛擬環境內部,其中,用戶可以對在透通性計算的任一層之中的物件進行選擇及互動,以在計算裝置上執行程序,同時查看3維虛擬環境與從用戶可得的360度光學透鏡視角的任何角度的透通性計算層的體積複合物之組合。
此處參考系統的框圖以及/或功能、操作、程序或方法的流程圖或程序框圖而描述了所揭露技術的某些實施方式。應當理解,框圖的一個或多個框,或流程圖或程序框圖的一個或多個階段或步驟,以及框圖中的多個框以及流程圖或程序框圖的多個階段或步驟之組合分別可以由電腦可執行程式指令加以實現。要注意的是,在一些實施例中,此等框、或階段或步驟其中一個或多個可能不一定需要以呈現的順序執行,或者可能根本不需要執行。
這些電腦可執行程式指令可以加載到通用電腦、專用電腦、處理器、或其他可編程資料處理設備上,以產生機器的特定示例,使得由電腦、處理器、或其他可編程資料處理設備執行的指令,建立用於實現此處描述的功能、操作、程序、或方法其中一個或多個的手段。這些電腦程式指令也可以存儲在電腦可讀記憶體之中,其可以指示電腦或其他可編程資料處理設備以特定方式運行,使得存儲在電腦可讀記憶體之中的指令產生製品,包括指令手段,其實施此處所述的功能、操作、程序或方法其中一者以上。
儘管已經結合目前認為是最實用者和各種實施方式而描述所揭露技術的某些實施方式,但是應當理解,所揭露技術不限於所揭露的實施方式。實際上,所揭露的實施方式旨在涵蓋包括在隨附申請專利範圍內的各種修飾和等效佈置。儘管在此使用了特定的術語,但它們僅用於一般性和描述性的意義,而不是為了限制的目的。
此說明書使用示例來揭露所揭露技術的某些實施方式,並使所屬技術領域具有通常知識者能夠實踐所揭露技術的某些實施方式,包括製造和使用任何裝置或系統以及執行任何併入的方法。所揭露技術的某些實施方式的可專利範圍係在請求項中加以定義,並且可以包括所屬技術領域具有通常知識者想到的其他示例。此等其他實例係預期於請求項的範圍內,如果它們具有與請求項的文字語言沒有區別的結構和/或功能元件,或者如果它們包括與請求項的文字語言具有微不足道差異的結構和/或功能元件。
此處引用的所有參考文獻,包括出版品、專利申請案、及專利,均以相同的程度通過引用併入本文,就好像每個參考文獻個別且特定地指示通過引用併入和/或全文闡述在本文中一樣。
除非本文另有說明或與上下文明顯矛盾,否則說明書和以下請求項中的術語「一」及「一個」及「該」以及類似指稱的使用應解釋為涵蓋單數和複數。除非另有說明,否則說明書和以下請求項中的術語「具有」、「包括」、「包含」和類似的指稱應解釋為開放式術語(例如,意思是「包括但不限於」)。除非本文另有說明,否則本文中的數值範圍的列舉僅僅是為了作為個別參照包容式落入該範圍內的各個單獨的數值的簡寫方法,並且每個單獨的數值係併入說明書中,就好像它在本文中個別列舉一樣。除非本文另有說明或與上下文明顯矛盾,否則本文所述的所有方法都可以以任何合適的順序執行。本文提供的任何和所有示例或示例性語言(例如,「例如」)的使用僅旨在更好地闡明本發明的實施例並且不對本發明的範圍構成限制,除非另有聲明。說明書中的任何語言都不應被解釋為指示任何未要求保護的元件對於本發明的各個實施例是必不可少的。
當在此處使用(即,請求項、圖示、及說明書),術語「或」係包容式用於指稱在替代選項和組合中的項目。
在圖式中描繪或在上面描述的組件的不同佈置,以及未顯示或未描述的組件和步驟,都是可能的。類似地,一些特徵和子組合是有用的並且可以在不參考其他特徵和子組合的情況下使用。出於說明性而非限制性目的而描述了本發明的實施例,並且替代實施例對於本專利的讀者將變得顯而易見。因此,本發明不限於上述或圖式中描繪的實施例,並且可以在不脫離以下請求項範疇的情況下進行各種實施例和修飾。
100:整體顯像(觀看區域) 102:主要顯像(主視窗) 104:縮略圖(較小視窗) 202:來源 204:螢幕(顯像) 205:視訊相機 206:層 208:像素 210:用戶 402:顯示螢幕 404,406:層 408:物件 700:系統(或伺服器或裝置) 702:模組 704:作業系統模組 719:匯流排或通訊線路 720:記憶體 722:輸入或輸出裝置 724:通訊元件 726:記憶體裝置 730:處理器
將參照圖式而描述根據本揭露內容的系統和方法的實施例,其中:
圖1是繪示由用於視訊會議應用的習知程序生成的典型顯像的圖示;
圖2是說明在所揭露的系統和方法的實施例中涉及的某些概念的圖示;
圖3是說明多層顯像的一層中的像素如何可以由三維坐標系「定義」或與三維坐標系相關聯的圖示;
圖4是繪示根據一些實施例的顯示螢幕(例如計算裝置的顯像)的示例的圖示,在該顯示螢幕上生成並顯示多個交疊層;
圖5是一圖式,繪示多個視訊來源組合或合併而形成一多層顯像的示例;在此示例中,層0是對電腦桌面的擷取,層-1是對網路相機視訊饋入的擷取,且層1是對現場視訊串流饋入的擷取;及
圖6是說明可用於實現本揭露內容的實施例的方法、程序、操作、或功能集的流程圖或程序框圖;
圖7繪示了可以存在於電腦裝置或系統之中的元件或組件,配置為根據此處所述系統及方法的實施例而實現方法、程序、功能、或操作。
圖8係透通性計算的一示例。
注意,在整個揭露內容和圖示中使用相同的數字來參照類似的組件和特徵。

Claims (19)

  1. 一種在一裝置上產生顯像的方法,包含: 將來自多數個來源的內容結合成一顯像,其中來自該多數個來源各者的內容係呈現為該顯像的一層,並且,其中該顯像的各層具有實質相同的尺寸; 偵測在所產生的該顯像的各層中的一個或多個物件;及 針對所偵測的該等物件其中一個或多個 確定物件類型或分類; 確定該物件是否正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件; 確定該物件是否由於一觀看者的運動、位向、或目光而對該觀看者將呈現成如同交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件;及 基於該物件類型或分類、確定該物件正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件、或確定該物件對觀看者將呈現成如同交疊於或遮蔽在一不同層中的一物件,基於一規則或訓練模型,修改該物件的特性。
  2. 如請求項1之方法,其中,該物件的特性係以下一者以上:形狀、顏色、對比度、透明度、不透明度、位置、分辨率、或位向。
  3. 如請求項1之方法,其中,確定物件類型或分類的步驟更包含:將該物件的一圖像提供給一訓練模型,其操作以輸出該物件的分類。
  4. 如請求項3之方法,其中,該物件的分類係文字、人物、動物、或該物件的形狀其中一者。
  5. 如請求項1之方法,更包含:確定是否應使一物件為可選擇的或不可選擇的,且響應以對應地設定該特性。
  6. 如請求項1之方法,其中,該等來源包含以下一者以上:視訊相機、在用戶裝置上執行的應用程式、或存儲內容的遠程伺服器。
  7. 如請求項1之方法,其中,基於一規則或訓練模型而修改該物件的特性的步驟更包含:從一用戶的裝置,存取一規則、一規則集、或一訓練模型,其確定如何處理該物件。
  8. 如請求項1之方法,更包含執行以下步驟:偵測一個或多個物件;確定物件類型或分類;確定該物件正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件,或確定該物件對觀看者將呈現成如同交疊於或遮蔽在一不同層中的一物件;及基於一規則或訓練模型,隨著視訊內容或圖像自該等來源加以接收而連續地修改該物件的特性。
  9. 如請求項1之方法,其中,若確定一物件係以第一語言表示的文字,則該方法更包含: 將該文字翻譯成第二語言; 移除呈該第一語言的該文字;及 將呈該第二語言的該文字***所產生的該顯像。
  10. 一種在一裝置上產生顯像的系統,包含: 一個以上電子處理器,建構以執行一組電腦可執行指令; 一個以上非暫時性電子資料儲存媒體,容納該組電腦可執行指令,其中當執行時,該等指令使該一個以上電子處理器: 將來自多數個來源的內容結合成一顯像,其中來自該多數個來源各者的內容係呈現為該顯像的一層,並且,其中該顯像的各層具有實質相同的尺寸; 偵測在所產生的該顯像的各層中的一個或多個物件;及 針對所偵測的該等物件其中一個或多個: 確定物件類型或分類; 確定該物件是否正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件; 確定該物件是否由於一觀看者的運動、位向、或目光而對該觀看者將呈現成如同交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件;及 基於該物件類型或分類、確定該物件正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件、或確定該物件對觀看者將呈現成如同交疊於或遮蔽在一不同層中的一物件,基於一規則或訓練模型,修改該物件的特性。
  11. 一種以上非暫時性電腦可讀媒體,包含一組電腦可執行指令,當由一個以上編程的電子處理器執行時,使該一個以上編程的電子處理器: 將來自多數個來源的內容結合成一顯像,其中來自該多數個來源各者的內容係呈現為該顯像的一層,並且,其中該顯像的各層具有實質相同的尺寸; 偵測在所產生的該顯像的各層中的一個或多個物件;及 針對所偵測的該等物件其中一個或多個: 確定物件類型或分類; 確定該物件是否正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件; 確定該物件是否由於一觀看者的運動、位向、或目光而對該觀看者將呈現成如同交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件;及 基於該物件類型或分類、確定該物件正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件、或確定該物件對觀看者將呈現成如同交疊於或遮蔽在一不同層中的一物件,基於一規則或訓練模型,修改該物件的特性。
  12. 如請求項11之非暫時性電腦可讀媒體,其中,該物件的特性係以下一者以上:形狀、顏色、對比度、透明度、不透明度、位置、分辨率、或位向。
  13. 如請求項11之非暫時性電腦可讀媒體,其中,確定物件類型或分類的操作更包含:將該物件的一圖像提供給一訓練模型,其操作以輸出該物件的分類。
  14. 如請求項13之非暫時性電腦可讀媒體,其中,該物件的分類係文字、人物、動物、或該物件的形狀其中一者。
  15. 如請求項11之非暫時性電腦可讀媒體,其中,該組電腦可執行指令,當由該一個以上編程的電子處理器執行時,使該一個以上編程的電子處理器: 確定是否應使一物件為可選擇的或不可選擇的,且響應以對應地設定該特性。
  16. 如請求項11之非暫時性電腦可讀媒體,其中,該等來源包含以下一者以上:視訊相機、在用戶裝置上執行的應用程式、或存儲內容的遠程伺服器。
  17. 如請求項11之非暫時性電腦可讀媒體,其中,基於一規則或訓練模型而修改該物件的特性的操作更包含:從一用戶的裝置,存取一規則、一規則集、或一訓練模型,其確定如何處理該物件。
  18. 如請求項11之非暫時性電腦可讀媒體,其中,該組電腦可執行指令,當由該一個以上編程的電子處理器執行時,使該一個以上編程的電子處理器 執行以下步驟:偵測一個或多個物件;確定物件類型或分類;確定該物件正在交疊於或遮蔽在所產生的該顯像的一不同層之中的一物件,或確定該物件將對觀看者呈現成如同交疊於或遮蔽在一不同層中的一物件;及基於一規則或訓練模型,隨著視訊內容或圖像自該等來源加以接收而連續地修改該物件的特性。
  19. 如請求項11之非暫時性電腦可讀媒體,其中,若確定一物件係以第一語言表示的文字,則該組電腦可執行指令,當由該一個以上編程的電子處理器執行時,使該一個以上編程的電子處理器: 將該文字翻譯成第二語言; 移除呈該第一語言的該文字;及 將呈該第二語言的該文字***所產生的該顯像。
TW111126583A 2021-07-16 2022-07-15 針對多層顯像中之物件辨識性的系統及方法 TW202316373A (zh)

Applications Claiming Priority (12)

Application Number Priority Date Filing Date Title
US202163222757P 2021-07-16 2021-07-16
US63/222,757 2021-07-16
US202163248800P 2021-09-27 2021-09-27
US63/248,800 2021-09-27
US17/675,975 US11586835B2 (en) 2021-04-30 2022-02-18 Integrating overlaid textual digital content into displayed data via graphics processing circuitry using a frame buffer
US17/675,950 US11475610B1 (en) 2021-04-30 2022-02-18 Controlling interactivity of digital content overlaid onto displayed data via graphics processing circuitry using a frame buffer
US17/675,975 2022-02-18
US17/675,950 2022-02-18
US17/708,656 US11562153B1 (en) 2021-07-16 2022-03-30 Systems and methods for recognizability of objects in a multi-layer display
US17/708,656 2022-03-30
PCT/US2022/022840 WO2023287465A1 (en) 2021-07-16 2022-03-31 Systems and methods for recognizability of objects in a multi-layer display
WOPCT/US22/22840 2022-03-31

Publications (1)

Publication Number Publication Date
TW202316373A true TW202316373A (zh) 2023-04-16

Family

ID=84920536

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111126583A TW202316373A (zh) 2021-07-16 2022-07-15 針對多層顯像中之物件辨識性的系統及方法

Country Status (3)

Country Link
US (2) US11562153B1 (zh)
TW (1) TW202316373A (zh)
WO (1) WO2023287465A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11922901B1 (en) * 2023-01-20 2024-03-05 Snap Inc. Normalized brightness control for user perception of visual media
US12008451B1 (en) * 2023-12-21 2024-06-11 Ishita Agrawal AI-assisted remote guidance using augmented reality

Family Cites Families (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020056136A1 (en) 1995-09-29 2002-05-09 Wistendahl Douglass A. System for converting existing TV content to interactive TV programs operated with a standard remote control and TV set-top box
US8180844B1 (en) 2000-03-18 2012-05-15 Digimarc Corporation System for linking from objects to remote resources
US6771264B1 (en) 1998-08-20 2004-08-03 Apple Computer, Inc. Method and apparatus for performing tangent space lighting and bump mapping in a deferred shading graphics processor
US7013428B1 (en) 1999-09-03 2006-03-14 Yakov Kamen Use of templates for cost-effective secure linking of video stream objects
US20090245516A1 (en) 2008-02-26 2009-10-01 Pasupuleti Sureshbabu Ravikiran Method and system for high entropy encryption using an unpredictable seed based on user regisration time
US7064765B2 (en) 2002-06-24 2006-06-20 Hewlett-Packard Development Company, L.P. System and method for grabbing frames of graphical data
US7051040B2 (en) 2002-07-23 2006-05-23 Lightsurf Technologies, Inc. Imaging system providing dynamic viewport layering
US8893207B2 (en) 2002-12-10 2014-11-18 Ol2, Inc. System and method for compressing streaming interactive video
EP1639439A2 (en) 2003-06-13 2006-03-29 The University Of Lancaster User interface
JP2007535718A (ja) 2003-07-07 2007-12-06 クリプターグラフィー リサーチ インコーポレイテッド 海賊行為を規制し、インタラクティブコンテンツを使用可能にするための再プログラマブルなセキュリティ
US7477252B2 (en) 2004-04-05 2009-01-13 Actuality Systems, Inc. Processing three dimensional data for spatial three dimensional displays
JP4626509B2 (ja) 2005-12-19 2011-02-09 セイコーエプソン株式会社 画像一覧表示におけるユーザの利便性向上
US20080066092A1 (en) 2006-08-09 2008-03-13 Michael Laude System for interactive images and video
JP5047607B2 (ja) 2006-12-26 2012-10-10 パナソニック株式会社 ストリーム記録装置、ストリーム記録方法、記録システム、および記録再生システム
US8959108B2 (en) 2008-06-18 2015-02-17 Zeitera, Llc Distributed and tiered architecture for content search and content monitoring
US8520979B2 (en) 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
US20100153848A1 (en) 2008-10-09 2010-06-17 Pinaki Saha Integrated branding, social bookmarking, and aggregation system for media content
US8886206B2 (en) 2009-05-01 2014-11-11 Digimarc Corporation Methods and systems for content processing
US9055335B2 (en) 2009-05-29 2015-06-09 Cognitive Networks, Inc. Systems and methods for addressing a media database using distance associative hashing
US8819172B2 (en) 2010-11-04 2014-08-26 Digimarc Corporation Smartphone-based methods and systems
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
JP5643549B2 (ja) 2010-06-11 2014-12-17 任天堂株式会社 画像処理システム、画像処理プログラム、画像処理装置および画像処理方法
JP5632073B2 (ja) 2010-08-06 2014-11-26 ビズモードライン カンパニー リミテッド 拡張現実のための装置および方法
US8626236B2 (en) 2010-10-08 2014-01-07 Blackberry Limited System and method for displaying text in augmented reality
US8856853B2 (en) 2010-12-29 2014-10-07 Echostar Technologies L.L.C. Network media device with code recognition
US9459834B2 (en) 2011-02-08 2016-10-04 Parimala Thulasiraman True random number generator using GPU and signal processing techniques
US20120207208A1 (en) 2011-02-10 2012-08-16 David Wyatt Method and apparatus for controlling a self-refreshing display device coupled to a graphics controller
KR20120119758A (ko) 2011-04-22 2012-10-31 유니웹스 주식회사 Iptv용 방송 콘텐츠 제공 장치, 사용자 단말 및 iptv용 방송 콘텐츠 정보 제공 방법
US8963956B2 (en) 2011-08-19 2015-02-24 Microsoft Technology Licensing, Llc Location based skins for mixed reality displays
KR101995425B1 (ko) 2011-08-21 2019-07-02 엘지전자 주식회사 영상 표시 장치, 단말 장치 및 그 동작 방법
US20150287220A1 (en) 2011-10-11 2015-10-08 Microsoft Technology Licensing, Llc Rendering text using anti-aliasing techniques, cached coverage values, and/or reuse of font color values
EP2791977A2 (en) 2011-12-14 2014-10-22 Dow Corning Corporation A photovoltaic cell and an article including an isotropic or anisotropic electrically conductive layer
US8930988B2 (en) 2011-12-21 2015-01-06 Sony Corporation Reception apparatus, reception method, program, and information processing system
US10742634B1 (en) 2011-12-27 2020-08-11 Majid Shahbazi Methods for single sign-on (SSO) using optical codes
US9325809B1 (en) 2012-09-07 2016-04-26 Mindmeld, Inc. Audio recall during voice conversations
US8813154B1 (en) 2012-12-07 2014-08-19 American Megatrends, Inc. Injecting a code into video data without or with limited human perception by flashing the code
US20140172429A1 (en) 2012-12-14 2014-06-19 Microsoft Corporation Local recognition of content
US9037450B2 (en) 2012-12-14 2015-05-19 Microsoft Technology Licensing, Llc Text overlay techniques in realtime translation
US20150319510A1 (en) 2014-04-30 2015-11-05 General Instrument Corporation Interactive viewing experiences by detecting on-screen text
US9003196B2 (en) 2013-05-13 2015-04-07 Hoyos Labs Corp. System and method for authorizing access to access-controlled environments
JP2015032039A (ja) 2013-07-31 2015-02-16 株式会社東芝 表示装置および方法
US10089633B2 (en) 2013-08-13 2018-10-02 Amazon Technologies, Inc. Remote support of computing devices
US10778745B2 (en) 2013-08-22 2020-09-15 Google Llc Systems and methods for providing a personalized visual display multiple products
US20150074735A1 (en) 2013-09-06 2015-03-12 Seespace Ltd. Method and Apparatus for Rendering Video Content Including Secondary Digital Content
US9292903B2 (en) 2013-10-03 2016-03-22 Google Inc. Overlap aware reordering of rendering operations for efficiency
KR20150046950A (ko) 2013-10-23 2015-05-04 삼성전자주식회사 영상에 포함된 정보코드를 처리하는 디스플레이장치 및 방법
GB201410032D0 (en) 2014-06-05 2014-07-16 Friend Mts Ltd Watermarking
US9354778B2 (en) 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
US9916010B2 (en) 2014-05-16 2018-03-13 Visa International Service Association Gesture recognition cloud command platform, system, method, and apparatus
RU2595559C2 (ru) 2014-12-16 2016-08-27 Общество с ограниченной ответственностью "Аби Девелопмент" Система и способ использования данных предыдущего кадра для оптического распознавания символов кадров видеоматериалов
US9953446B2 (en) * 2014-12-24 2018-04-24 Sony Corporation Method and system for presenting information via a user interface
US20160328871A1 (en) 2015-05-05 2016-11-10 Mediatek Inc. Graphics system and associated method for displaying blended image having overlay image layers
US20170026621A1 (en) 2015-07-24 2017-01-26 Orvito, Inc. System and method for communications
US9864734B2 (en) 2015-08-12 2018-01-09 International Business Machines Corporation Clickable links within live collaborative web meetings
US9600146B2 (en) * 2015-08-17 2017-03-21 Palantir Technologies Inc. Interactive geospatial map
US9924236B2 (en) 2015-11-05 2018-03-20 Echostar Technologies L.L.C. Informational banner customization and overlay with other channels
US9913001B2 (en) 2015-12-31 2018-03-06 Nbcuniversal Media, Llc System and method for generating segmented content based on related data ranking
US10803185B2 (en) 2016-02-05 2020-10-13 Hewlett-Packard Development Company, L.P. Optically readable format of encrypted data
WO2017165538A1 (en) 2016-03-22 2017-09-28 Uru, Inc. Apparatus, systems, and methods for integrating digital media content into other digital media content
US10664484B2 (en) 2016-05-26 2020-05-26 Oath Inc. Computerized system and method for optimizing the display of electronic content card information when providing users digital content
US10696308B2 (en) 2016-06-30 2020-06-30 Intel Corporation Road condition heads up display
US10236006B1 (en) 2016-08-05 2019-03-19 Digimarc Corporation Digital watermarks adapted to compensate for time scaling, pitch shifting and mixing
US10678995B2 (en) 2016-08-12 2020-06-09 Netsuite, Inc. System and methods for control of content presented on web pages
WO2018033156A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 视频图像的处理方法、装置和电子设备
EP3502143A4 (en) 2016-08-19 2020-07-15 Ampsource Biopharma Shanghai Inc. BINDING PEPTIDE FOR THE CONSTRUCTION OF A FUSION PROTEIN
US11132758B2 (en) 2016-09-14 2021-09-28 Inscape Data, Inc. Embedding data in video without visible impairments
US10853903B1 (en) 2016-09-26 2020-12-01 Digimarc Corporation Detection of encoded signals and icons
US10573039B2 (en) 2016-10-03 2020-02-25 Netflix, Inc. Techniques for incorporating a text-containing image into a digital image
US20210344991A1 (en) 2016-10-13 2021-11-04 Skreens Entertainment Technologies, Inc. Systems, methods, apparatus for the integration of mobile applications and an interactive content layer on a display
US10110871B2 (en) 2016-10-31 2018-10-23 Disney Enterprises, Inc. Recording high fidelity digital immersive experiences through off-device computation
WO2018089920A1 (en) 2016-11-14 2018-05-17 The Regents Of The University Of Colorado, A Body Corporate Method and apparatus for battery-free identification token for touch sensing devices
US20180143950A1 (en) 2016-11-18 2018-05-24 InGage Technologies, Inc. Interactive communication via online video systems
US10169655B2 (en) 2016-11-30 2019-01-01 Arris Enterprises Llc Detection of logos in a sequence of video frames
US10140679B2 (en) 2016-12-31 2018-11-27 Intel IP Corporation Smart composition of output layers
US20210192302A1 (en) 2017-01-04 2021-06-24 Advanced Functional Fabrics Of America Uniquely Identifiable Articles of Fabric Configured for Data Communication
US11070501B2 (en) 2017-01-31 2021-07-20 Verizon Media Inc. Computerized system and method for automatically determining and providing digital content within an electronic communication system
US10567733B2 (en) 2017-03-06 2020-02-18 Nextvr Inc. Methods and apparatus for communicating and/or using frames including a captured image and/or including additional image content
US10424082B2 (en) 2017-04-24 2019-09-24 Intel Corporation Mixed reality coding with overlays
US11245964B2 (en) 2017-05-25 2022-02-08 Turner Broadcasting System, Inc. Management and delivery of over-the-top services over different content-streaming systems
WO2019046323A1 (en) 2017-08-28 2019-03-07 Oxide Interactive, LLC LAMINATE, SPACE, PROGRAMMABLE AND ASYNCHRONOUS SURFACE GENERATION SYSTEM
US10481872B2 (en) 2017-08-29 2019-11-19 Colossio, Inc. Cryptographically secure random number generator
CN111344749B (zh) 2017-11-20 2024-04-12 谷歌有限责任公司 引向用户关注
US10567321B2 (en) 2018-01-02 2020-02-18 Snap Inc. Generating interactive messages with asynchronous media content
US10915918B2 (en) 2018-01-10 2021-02-09 Mastercard International Incorporated Systems and methods for providing augmented reality experiences
US10504250B2 (en) 2018-01-27 2019-12-10 Uih America, Inc. Systems and methods for correcting mismatch induced by respiratory motion in positron emission tomography image reconstruction
US20190259123A1 (en) 2018-02-22 2019-08-22 Michael Barnett System and method of data transfer in-band in video via optically encoded images
JP6784718B2 (ja) * 2018-04-13 2020-11-11 グリー株式会社 ゲームプログラム及びゲーム装置
US10757474B2 (en) 2018-04-27 2020-08-25 Twentieth Century Fox Home Entertainment Llc Method and apparatus for protecting data via application of corrupting function and complimentary restitution at video processing endpoints
US11475653B2 (en) 2018-04-27 2022-10-18 Ati Technologies Ulc Perceptual importance maps for image processing
US11245958B2 (en) 2018-11-16 2022-02-08 Roku, Inc. Detection of mute and compensation therefor during media replacement event
US10735742B2 (en) 2018-11-28 2020-08-04 At&T Intellectual Property I, L.P. Adaptive bitrate video testing
WO2020113452A1 (zh) 2018-12-05 2020-06-11 珊口(深圳)智能科技有限公司 移动目标的监控方法、装置、监控***及移动机器人
US11106934B2 (en) 2019-02-11 2021-08-31 Innovaccer Inc. Automatic visual display overlays of contextually related data from multiple applications
US11310033B2 (en) 2019-06-05 2022-04-19 Blackberry Limited System and method for operating pseudorandom generators
WO2020252204A1 (en) 2019-06-14 2020-12-17 GumGum, Inc. Dynamic overlay video advertisement insertion
US11284130B2 (en) 2019-06-14 2022-03-22 GumGum, Inc. Dynamic insertion of content within live streaming video
US11195060B2 (en) 2019-07-05 2021-12-07 Art Eye-D Associates Llc Visualization of subimage classifications
CN114868106A (zh) 2019-12-27 2022-08-05 阿巴塔科技有限公司 使用连接资源投影、控制和管理用户设备应用程序
US11064149B1 (en) 2020-02-21 2021-07-13 The National Institute for Research and Development for Biological Sciences Blended integration of quick response codes into images and video
US11600115B2 (en) 2020-07-14 2023-03-07 Zebra Technologies Corporation Barcode scanning based on gesture detection and analysis
US11417076B2 (en) 2020-09-01 2022-08-16 Qualcomm Incorporated Detecting a sub-image region of interest in an image using pilot signals
US20220114584A1 (en) 2020-10-08 2022-04-14 Geeq Corporation Apparatus and methods to define and use bearer tokens, certified tokens and applications using bearer tokens and certified tokens
US20220138994A1 (en) 2020-11-04 2022-05-05 Micron Technology, Inc. Displaying augmented reality responsive to an augmented reality image
US11475610B1 (en) 2021-04-30 2022-10-18 Mobeus Industries, Inc. Controlling interactivity of digital content overlaid onto displayed data via graphics processing circuitry using a frame buffer

Also Published As

Publication number Publication date
US11562153B1 (en) 2023-01-24
WO2023287465A1 (en) 2023-01-19
US20230153551A1 (en) 2023-05-18
US20230023386A1 (en) 2023-01-26

Similar Documents

Publication Publication Date Title
US11928592B2 (en) Visual sign language translation training device and method
US11783496B2 (en) Scalable real-time hand tracking
US10134364B2 (en) Prioritized display of visual content in computer presentations
Bhattacharya et al. Augmented reality via expert demonstration authoring (AREDA)
US10186087B2 (en) Occluding augmented reality objects
US20230153551A1 (en) Systems and methods for recognizability of objects in a multi-layer display
WO2021213067A1 (zh) 物品显示方法、装置、设备及存储介质
US20200211243A1 (en) Image bounding shape using 3d environment representation
US11475610B1 (en) Controlling interactivity of digital content overlaid onto displayed data via graphics processing circuitry using a frame buffer
US11594045B2 (en) Method for determining correct scanning distance using augmented reality and machine learning models
CN114120163A (zh) 视频帧处理方法、装置及其相关设备和存储介质
US11169603B2 (en) Electronic apparatus and method for recognizing view angle of displayed screen thereof
US20240061546A1 (en) Implementing contactless interactions with displayed digital content
McNamara Enhancing art history education through mobile augmented reality
KR101588409B1 (ko) 마커를 이용하여 표출되는 증강 현실 객체에 대한 입체 사운드 제공 방법
Lee et al. Hand gesture recognition using blob detection for immersive projection display system
Bekhit Computer Vision and Augmented Reality in iOS
CN115104078A (zh) 用于增强型远程协作的***和方法
US10482641B2 (en) Virtual reality display
US20230334792A1 (en) Interactive reality computing experience using optical lenticular multi-perspective simulation
US20240185546A1 (en) Interactive reality computing experience using multi-layer projections to create an illusion of depth
US20230334790A1 (en) Interactive reality computing experience using optical lenticular multi-perspective simulation
US20230334791A1 (en) Interactive reality computing experience using multi-layer projections to create an illusion of depth
US20230326095A1 (en) Overlaying displayed digital content with regional transparency and regional lossless compression transmitted over a communication network via processing circuitry
US20230298221A1 (en) Method and system for controlling access to virtual and real-world environments for head mounted device